CN117892801A

CN117892801A - 域名生成模型的训练方法、钓鱼网站发现方法及相关装置

Info

Publication number: CN117892801A
Application number: CN202410282760.XA
Authority: CN
Inventors: 董国忠; 张伟哲; 张宇; 黄树佳; 涂唯坚; 贾陆洋
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-04-16
Anticipated expiration: 2044-03-13
Also published as: CN117892801B

Abstract

本申请实施例提供了域名生成模型的训练方法、钓鱼网站发现方法及相关装置，训练方法包括：对钓鱼网站域名的顶级域名和次级域名的字符匹配编号，生成域名向量；提取域名向量的语义特征；根据顶级域名和次级域名的字符聚类得到共性特征；通过生成对抗网络根据目标域名向量、域名语义特征向量和共性特征训练，通过共性特征指导生成器根据目标域名向量和域名语义特征向量生成潜在钓鱼网站域名；结合域名相似度和域名语义特征向量提供可靠的先验知识；通过聚类得到涵盖真实钓鱼网站域名在结构、语法和语义上的相似性的共性特征，利用共性特征引导生成对抗网络生成类似的域名，具有检测范围广、时效性强、实用性强的优点。

Description

域名生成模型的训练方法、钓鱼网站发现方法及相关装置

技术领域

本申请实施例涉及数据处理领域，尤其涉及域名生成模型的训练方法、钓鱼网站发现方法及相关装置。

背景技术

目前，钓鱼网站域名的检测方式主要基于现有已知网站的字符特征规律来识别，例如通过以下方式实现：（1）利用面向视觉相似性的检测方法，根据文本内容、HTML元素和级联样式表等因素检测钓鱼网站；（2）通过提取URL、标题、正文和HTML标签等不可见文本的多尺度语义信息检测钓鱼网站；（3）结合域名使用时间、IP地址变化速度、TTL值、域名搜索量等特征检测钓鱼网站；（4）通过搜索引擎对域名关键字进行搜索，根据字符特征定义的启发式规则进行筛选。

但是，基于域名自身特性以及域名历史数据的检测方法只能对已知的域名进行检测，难以识别出生存时间较短的钓鱼网站域名，对新生成的钓鱼网站域名检测效果较弱，处理不够迅速，检测范围小，时效性差，难以容纳和挖掘潜在的钓鱼域名。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一，本申请实施例提供了域名生成模型的训练方法、钓鱼网站发现方法及相关装置，能够利用真实域名的共性特征生成潜在域名，具有检测范围广和时效性强的优点。

本申请的第一方面的实施例，一种域名生成模型的训练方法，包括：

获取钓鱼网站域名；

对所述钓鱼网站域名的顶级域名和由所述钓鱼网站域名的次级域名分割得到的字符匹配编号，生成域名向量；

对所述域名向量进行语义特征提取，得到域名语义特征向量；

根据所述钓鱼网站域名的顶级域名和次级域名的字符进行聚类，得到共性特征；

通过所述域名生成模型的生成对抗网络从所述域名向量中选择出目标域名向量，根据所述目标域名向量、所述域名语义特征向量和所述共性特征进行生成对抗训练，得到训练后的域名生成模型；

其中，在所述生成对抗训练的过程中，通过所述共性特征指导所述所述生成对抗网络的生成器根据所述目标域名向量和所述域名语义特征向量生成潜在钓鱼网站域名。

本申请的第二方面的实施例，一种钓鱼网站发现方法，包括：

获取待检测网站域名；

通过训练后的网站域名生成模型生成潜在钓鱼网站域名；

根据所述潜在钓鱼网站域名从所述待检测网站域名中检测得到目标钓鱼网站域名；

其中，所述网站域名生成模型是根据如上所述的网站域名生成模型的训练方法训练得到。

本申请的第三方面的实施例，一种网站域名生成模型的训练装置，包括：

输入模块，用于获取钓鱼网站域名；

编码模块，用于对所述钓鱼网站域名的顶级域名和由所述钓鱼网站域名的次级域名分割得到的字符匹配编号，生成域名向量，对所述域名向量进行语义特征提取，得到域名语义特征向量；

聚类模块，用于根据所述钓鱼网站域名的顶级域名和次级域名的字符进行聚类，得到共性特征；

生成对抗模块，用于通过所述域名生成模型的生成对抗网络从所述域名向量中选择出目标域名向量，根据所述目标域名向量、所述域名语义特征向量和所述共性特征进行生成对抗训练，得到训练后的域名生成模型；

其中，在所述生成对抗训练的过程中，通过所述共性特征指导所述生成对抗网络的生成器根据所述目标域名向量和所述域名语义特征向量生成潜在钓鱼网站域名。

本申请的第四方面的实施例，一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的域名生成模型的训练方法或如上所述的钓鱼网站发现方法。

本申请的第五方面的实施例，一种计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上所述的域名生成模型的训练方法或如上所述的钓鱼网站发现方法。

上述方案至少具有以下的有益效果：结合域名相似度和域名语义特征向量，为生成对抗网络提供可靠准确的先验知识；通过对真实钓鱼网站域名聚类得到涵盖真实钓鱼网站域名在结构、语法和语义上的相似性的共性特征，利用共性特征引导生成对抗网络生成类似的潜在钓鱼网站域名，具有检测范围广、时效性强、实用性强的优点。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是域名生成模型的训练方法的步骤图；

图2是步骤S200的步骤图；

图3是步骤S400的步骤图；

图4是确定初始聚类中心的步骤图；

图5是根据初始聚类中心对域名特征向量进行聚类，得到共性特征的步骤图；

图6是通过生成对抗网络的生成器从域名向量中选择出目标域名向量，根据目标域名向量、域名语义特征向量和共性特征生成候选域名向量的步骤图；

图7是通过判别器判别候选域名向量的真假性，得到判别结果的步骤图；

图8是钓鱼网站发现方法的步骤图；

图9是域名生成模型的结构图；

图10是Transformer模型的编码组件的原理示意图；

图11是生成对抗网络的原理示意图；

图12是域名生成模型的训练装置的结构图；

图13是电子设备的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本申请实施例作进一步阐述。

本申请的实施例，提供了一种域名生成模型；参照图9，域名生成模型包括编码网络10、聚类网络20和生成对抗网络30。该域名生成模型通过对真实钓鱼域名进行聚类和分析，通过域名相似度和域名语义特征向量生成潜在钓鱼网站域名，有利于查找检测潜匿的钓鱼网站。

本申请的实施例，提供了一种域名生成模型的训练方法，应用于训练上述的域名生成模型。

参照图1，域名生成模型按照以下的训练方法训练得到。

步骤S100，获取钓鱼网站域名。

对于步骤S100，在保障数据规范安全可靠的情况下，使用抓包工具进行网络抓包进行数据集采集，分析采集得到的流量数据包，构建由真实的钓鱼网站域名组成的数据集。

步骤S200，对钓鱼网站域名的顶级域名和由钓鱼网站域名的次级域名分割得到的字符匹配编号，生成域名向量。

对于步骤S200，为对编码网络10的训练。参照图2，对钓鱼网站域名的顶级域名和由钓鱼网站域名的次级域名分割得到的字符匹配编号，生成域名向量，包括但不限于以下步骤：

步骤S210，对顶级域名和由次级域名分割得到的字符匹配编号；

步骤S220，将顶级域名、由次级域名分割得到的字符与编号对应地拼接，得到初始域名向量；

步骤S230，通过空字符补充初始域名向量，使初始域名向量的长度统一为预设长度，得到域名向量。

其中，域名由两组或以上的ASCII、语言字符等构成，各组字符间由点号分隔开，最右边的字符组称为顶级域名或一级域名、倒数第二组称为二级域名、倒数第三组称为三级域名、以此类推。次级域名包括二级域名、三级域名等。

由于大部分钓鱼网站域名的顶级域名具有特殊性和不可分割性，因此在编码时需要将顶级域名视为一个整体进行处理。将数据集中的钓鱼网站域名的次级域名分割产生的单个字符和空字符，结合钓鱼网站域名的顶级域名，组成字符编码表；对字符编码表的字符匹配编号，将字符编码表中的字符与编号一一对应地进行拼接，进而得到初始长度不一的初始域名向量。通过空字符补充初始域名向量，使初始域名向量的长度统一为预设长度，从而得到长度统一的由字符编码组成的域名向量。

步骤S300，对域名向量进行语义特征提取，得到域名语义特征向量。

对于步骤S300，为对编码网络10的训练。通过Transformer模型对域名向量进行再次编码，以提取域名的语义特征。

Transformer模型是Encoder-Decoder架构，包含有编码组件和解码组件。

Transformer模型的编码组件由多个编码器组成，每个编码器的结构相同，但使用不同的权重参数；参照图10，每个编码器包含多头注意力机制层和前馈神经网络，在多头注意力机制和前馈神经网络的后面各自进行残差连接和连接归一化模块。

在其他实施例中，Transformer模型可以为双向编码器表示的BERT（Bidirectional Encoder Representations from Transformers）网络。

编码器将域名向量传递至多头注意力机制层，然后传递至前馈神经网络，最后将输出传递至下一编码器。最后一个编码器输出一组注意力向量Key和Value。

域名向量经过多头注意力机制层，这使得编码器在对特定字符进行编码的同时，也关注域名向量中的其他字符。多头注意力机制层通过不同的线性变换对Query、Key和Value进行映射，然后将不同的自注意力层的输出拼接起来；最后，再进行一次线性变换。

前馈神经网络是全连接前馈神经网络，每个位置的字符都会单独经过该前馈神经网络，其由两个线性变换，即两个全连接层组成。

残差连接可以更好地传播梯度，并有助于缓解梯度消失的问题；归一化模块的层归一化可以减少内部协变量偏移，并加快训练速度。

Transformer模型的解码组件由多个解码器组成。编码组件输出的注意力向量会在每个解码器的Encoder-Decoder Attention层被使用，这有助于解码器将注意力集中在输入序列的合适位置。

Encoder-Decoder Attention层使用前一层的输出构造Query矩阵，而Key和Value矩阵来自于编码器栈的输出。

解码器会重复以下过程，直到输出一个结束符，表示解码器已完成其输出。通过为解码器的输入加上位置编码来指示每个词的位置。每一步的输出都会在下一个时间步输入到下面的第一个解码器，解码器会将解码结果输出。使用最后一个时间步的输出作为域名的特征向量。

这有利于在获取对整个域名序列的全局理解和抽象的高级特征表示的同时，保持与生成器的语义一致性；这能够为生成器提供了更有意义的先验知识，有助于促进生成过程中的语义一致性和提高域名生成的质量。

运用了字符编号和Transformer编码相结合的方式，从域名相似度和域名语义信息两方面提取域名特征。

步骤S400，根据钓鱼网站域名的顶级域名和次级域名的字符进行聚类，得到共性特征。

对于步骤S400，为对聚类网络20的训练。参照图3，根据钓鱼网站域名的顶级域名和次级域名的字符进行聚类，得到共性特征，包括但不限于以下步骤：

步骤S410，对顶级域名提取特征得到顶级域名特征向量，根据次级域名的字符提取特征得到次级域名特征向量，组合顶级域名特征向量和次级域名特征向量得到域名特征向量；

步骤S420，根据域名特征向量进行聚类，得到共性特征。

对于步骤S410,对顶级域名提取特征得到顶级域名特征向量，具体为：将所有顶级域名依次排列形成顶级域名序列；从顶级域名中选择目标顶级域名，将顶级域名序列对应目标顶级域名的字符转换为1，将顶级域名序列不对应目标顶级域名的字符转换为0，得到长度为顶级域名总数量的二进制向量，将二进制向量作为目标顶级域名的顶级域名特征向量。按照该方式将所有顶级域名转换为顶级域名特征向量。

根据次级域名的字符提取特征得到次级域名特征向量，具体为：统计次级域名的字符串中长度为预设字符子串长度的字符子串的频率；将频率大于预设频率阈值且长度为预设字符子串长度的字符子串构成子串列表；从次级域名中选择目标次级域名，将目标次级域名中出现子串列表中的字符子串的位置确定为目标次级域名位置，将目标次级域名位置对应的向量分量的值设置为子串列表中的字符子串的频率，以构建得到目标次级域名的次级域名特征向量；其中，次级域名特征向量的长度为子串列表中的字符子串的总数量。按照该方式将所有次级域名转换为次级域名特征向量。

其中，预设字符子串长度n为3时，聚类效果最佳；当然，在其他实施例中，预设字符子串长度也可以取其他数值。

组合顶级域名特征向量和次级域名特征向量得到域名特征向量。

对于步骤S420,根据域名特征向量进行聚类，得到共性特征，包括：确定初始聚类中心，根据初始聚类中心对域名特征向量进行聚类，得到共性特征。

其中，参照图4，确定初始聚类中心，包括但不限于以下步骤：

步骤S4211,从域名特征向量中选择第一聚类中心；

步骤S4212,计算得到域名特征向量与第一聚类中心的最短距离；

步骤S4213,根据最短距离计算域名特征向量的概率；

步骤S4214,按照概率根据域名特征向量构建候选聚类中心集合；

步骤S4215,根据域名特征向量的概率、第一聚类中心的数量和域名特征向量的总数量得到域名特征向量的采样权重；

步骤S4216,根据采样权重从候选聚类中心集合选择初始聚类中心。

从以域名特征向量作为样本的数据集中随机选择一个样本作为第一个聚类中心，即第一聚类中心C。

对于每个样本i，计算其与第一聚类中心的最短距离D(i)，其中，最短距离D(i)可以通过以下式子表示：。

复制聚类中心的多个样本，对于每个样本i，计算其与所有复制的聚类中心的最短距离D(i)。根据最短距离计算域名特征向量的概率p，其中，概率p可以通过以下式子表示：。式中，α是一个常数；/>是数据集样本总数量。

将每个样本i以概率p添加至候选聚类中心集合中，以构建候选聚类中心集合。

根据域名特征向量的概率、第一聚类中心的数量和域名特征向量的总数量得到域名特征向量的采样权重w(i)；其中，第i个样本的采样权重w(i)可以通过以下式子表示：。式中，k表示聚类的簇数，即聚类中心的数量。

P(i)表示样本i被选择为聚类中心的候选概率，即在初始化阶段中被选为聚类中心的概率。w(i)表示样本i在迭代阶段中的重要性或采样概率。

根据采样权重从候选聚类中心集合进行抽样，选择出初始聚类中心。

通过权重配置，可以使得距离较远的样本在迭代阶段中更有可能被选择为新的聚类中心，从而增加算法的多样性和鲁棒性。

相比于随机初始化聚类中心的方法，通过引入概率权重来选择初始聚类中心，可以选择出更具有代表性和均匀分布的聚类中心，以选择出最佳的初始化聚类中心，以减少算法收敛到局部最优解的情况。

参照图5，根据初始聚类中心对域名特征向量进行聚类，得到共性特征，包括但不限于以下步骤：

步骤S4221,计算得到域名特征向量与初始聚类中心的第一欧式距离；

步骤S4222,根据第一欧式距离将域名特征向量聚类至簇中；

步骤S4223,计算得到簇中的域名特征向量之间的第二欧式距离，根据第二欧式距离确定簇的第二聚类中心；

步骤S4224,根据第二欧式距离和第二聚类中心确定簇的数量；

步骤S4225,根据簇的数量从第二聚类中心中确定目标聚类中心；

步骤S4226,根据目标聚类中心对域名特征向量进行聚类，得到共性特征。

随机抽取小批量的钓鱼网站域名形成小样本，并对小样本进行聚类，初步得到k个聚类。针对小样本中的每个钓鱼网站域名，计算该钓鱼网站域名的域名特征向量到初始聚类中心的第一欧式距离。

欧式距离按照以下公式计算得到：；式中，/>表示第i个域名特征向量与第j个域名特征向量之间的欧氏距离，m为域名特征向量的维数。

根据第一欧式距离将域名特征向量划分至距离最近的簇中。

对簇中的每个域名特征向量，计算该域名特征向量与其他域名特征向量的第二欧式距离的平均值，根据第二欧式距离的平均值更新簇的聚类中心，得到第二聚类中心。

通过以下方式确定最优的簇的数量K，当K小于实际簇数时，随着聚类簇数K的增加，样本的划分将会更加精细，每个聚类的聚合程度也会越高，导致样本与最近的聚类中心之间距离的平方和I（误差平方和）也会逐渐变小，当I的下降幅度明显趋向于缓慢时，此时取得的K值为最优K值。误差平方和按照以下公式计算得到：；式中，I为样本与最近的聚类中心之间的距离的平方和，n为聚类的样本总数，/>为第i个样本的特征向量，/>为聚类C的聚类中心。

循环迭代上述操作，直到聚类结果稳定或达到最大迭代次数，得到最优的簇的数量。

根据簇的数量从第二聚类中心中确定目标聚类中心。

将所有域名特征向量按照目标聚类中心进行重新聚类，并得到最终的聚类结果。

需要注意的是，该聚类算法需要根据具体数据集和问题进行调参和优化，以获得更好的聚类效果。同时，对于大规模数据集，可以考虑使用分布式计算和并行化算法来加速聚类过程。

步骤S500，通过域名生成模型的生成对抗网络从域名向量中选择出目标域名向量，根据目标域名向量、域名语义特征向量和共性特征进行生成对抗训练，得到训练后的域名生成模型。

对于步骤S500，为对生成对抗网络30的训练。参照图11，具体地，通过真实的钓鱼网站域名训练生成对抗网络30的判别器；通过生成器从域名向量中选择出目标域名向量，根据目标域名向量、域名语义特征向量和共性特征生成候选域名向量；通过已训练的判别器判别候选域名向量的真假性，得到判别结果；根据判别结果调节生成器的参数；重复以上步骤，当达到最大训练次数或者训练结果收敛，得到已训练的判别器和已训练的生成器，进而得到训练后的域名生成模型。

其中，参照图6，通过生成对抗网络的生成器从域名向量中选择出目标域名向量，根据目标域名向量、域名语义特征向量和共性特征生成候选域名向量，包括但不限于以下步骤：

步骤S511，根据随机种子对应的编号从域名向量中选择出目标域名向量，将目标域名向量转换为嵌入向量，拼接嵌入向量和域名语义特征向量得到特征序列；

步骤S512，基于自注意力机制对特征序列和共性特征进行加权求和生成第一上下文向量，根据第一上下文向量得到隐藏状态；

步骤S513，根据隐藏状态生成初始候选域名向量；

步骤S514，根据初始候选域名向量得到对数概率分布，根据对数概率分布从初始候选域名向量确定候选域名向量。

将随机种子对应的编号和域名语义特征向量作为生成器的输入。随机种子实际为伪随机种子。伪随机种子是一种初始的随机向量，用于引入随机性，从而增加生成的文本的多样性。在生成器中，伪随机种子的作用是确保生成器在每次生成时都能产生不同的输出，而不是只严格依赖于域名语义特征向量。生成器的目标是生成与真实钓鱼网站域名相似的文本序列，其输出维度为域名字符列表大小。在这个过程中，伪随机种子在引导生成过程中发挥关键作用，为模型提供一些初始的不确定性和变化，使得判别器难以区分生成的域名向量的真实性和虚构性，从而提升提升生成器的鲁棒性和对抗性。

生成器的任务是生成与真实存在的钓鱼网站域名向量尽可能相似的序列，以使判别器难以区分输入的域名向量的真实性和虚构性。在生成对抗训练的过程中，通过共性特征指导生成对抗网络30的生成器根据目标域名向量和域名语义特征向量生成潜在钓鱼网站域名。从聚类中得到的信息涵盖了真实域名的共性特征，包括结构、语法和语义上的相似性，这确保生成器生成的域名在某种程度上与特定聚类中的真实钓鱼网络域名相似。

生成器包括嵌入层、GRU层、全连接层和LogSoftMax层。

在生成器的嵌入层中，在域名向量中包含有编号和与编号对应的顶级域名、由次级域名分割得到的字符，根据随机种子选择编号，进而从域名向量中选择出目标域名向量；将目标域名向量转换为嵌入向量，从而为生成器提供了对初始字符的有意义的表示；这一过程旨在为生成的域名序列引入语义信息，使得生成的域名能够具有一定的语义连贯性。该嵌入向量为生成器提供了一个良好的起点，使其能够在训练过程中逐渐调整参数以生成更合理的域名。拼接嵌入向量和域名语义特征向量得到特征序列，实现固定大小而有意义的特征序列输出。每个特征序列都是一个包含恒定实值的向量，能够从不同角度描述域名。通过嵌入向量和域名语义特征向量拼接，将有助于捕捉长距离的依赖关系，并将这些依赖关系整合到生成的域名序列中，以提高生成的域名的整体连贯性。

在生成器的GRU层中，基于自注意力机制对特征序列和共性特征进行加权求和生成第一上下文向量，根据第一上下文向量得到隐藏状态。

GRU层包含有多个网络单元。对于每个网络单元，按照以下式子计算时间步长t的更新门：。/>为特征序列和共性特征，当/>被输入至更新门，/>会被其自身的权重/>所乘。/>保持有前t-1个网络单元的信息，当/>被输入至更新门，/>会被其自身的权重/>所乘。将这两个乘积结果相加，并应用sigmoid激活函数将结果压缩到0至1之间。更新门帮助网络单元确定需要将多少过去时间步的信息传递到未来时间步，使得网络单可以决定复制所有来自过去时间步的信息，并消除梯度消失问题的风险。

重置门用来决定忘记多少过去时间步的信息，按照以下式子计算时间步长t的重置门：。/>为/>的权重，/>为/>的权重。将/>和/>与对应的权重的乘积结果相加，并应用sigmoid激活函数将结果压缩到0至1之间。

通过当前时间步的记忆内容，来使用重置门存储来自过去的相关信息，其计算方式如下：。将/>与权重W相乘，并将/>与权重U相乘。计算重置门/>与/>的点积。这将确定从前面的时间步骤中删除的信息。将两个乘积结果相加，并将相加结果应用非线性激活函数tanh。

通过当前时间步的输入记忆内容，来决定保存当前网络单元的信息，即隐藏状态，并将其传递给下一网络单元，其决定从当前记忆内容中收集的信息和从/>中收集的信息，其计算方式如下：/>。

GRU层的网络单元之间引入自注意力机制，有效地解决了RNN难以处理的长距离依赖问题。基于自注意力机制关注特征序列和共性特征中的关键特征，并对特征序列和共性特征进行加权求和，生成上下文向量，并用上下文向量来更新当前时间步的隐藏状态，隐藏状态包含下一批字符编号的预测信息，从而指导后续域名字符的生成。通过自注意力机制有助于确保生成的域名在语境上更加合理，并更好地模拟真实域名的结构。

在生成器的全连接层中，将上下文向量以及对下一批字符编号的预测信息转换为维度为域名字符表大小的向量，以生成初始候选域名向量。

在生成器的LogSoftMax层中，根据初始候选域名向量得到对数概率分布，将对数概率分布中概率数值大的初始候选域名向量作为候选域名向量。目的是在于确保生成器输出的域名向量具有合理的概率分布，从而使生成的域名更加自然地模拟真实域名。

生成器重复以上步骤，生成一批域名向量。通过不断学习和调整参数，生成器逐渐提高生成的域名的质量，使其在结构、语法和语义上更接近特定聚类中的真实域名。

参照图7，通过判别器判别候选域名向量的真假性，得到判别结果，包括但不限于以下步骤：

步骤S521，将候选域名向量转换为嵌入张量；

步骤S522，对嵌入张量提取域名字符特征，得到特征张量；

步骤S523，基于注意力机制根据特征张量得到注意力得分张量和具有序列信息的隐藏状态张量，提取隐藏状态张量中最后时刻的隐藏状态的张量，将注意力得分张量和最后时刻的隐藏状态的张量进行点积运算得到注意力权重张量，将注意力权重张量和隐藏状态张量进行加权求和得到第二上下文向量；

步骤S524，根据第二上下文向量得到候选域名向量的真假性概率，根据真假性概率判别得到判别结果。

判别器的任务是对生成器生成的域名向量进行真假性的区分。

判别器包括嵌入层、卷积池化层、末端卷积层、高速公路网层和全连接层。

在判别器的嵌入层中，将候选域名向量转换为嵌入张量，嵌入张量的维度为批大小×域名最大长度×卷积层。嵌入张量被转置，以适应卷积操作的格式，转置的嵌入张量的大小为批大小×卷积层×域名最大长度。

在判别器的卷积池化层中，卷积池化层包括30个2×2的过滤器和15个3×3过滤器；对嵌入张量提取域名字符特征，得到特征张量。其中，每个过滤器执行卷积、ReLU激活和最大池化，从域名中提取关键的字符特征。这一过程生成了大小为批大小×卷积层×1的张量，通过挤压最后一个维度，得到批大小×卷积层的特征向量。该特征向量包含了经过卷积池化组合层提取的域名字符的重要特征，为判别器提供了判别真实和生成域名向量的基础。

在判别器的末端卷积层中，通过自定义的attention_3d_block函数实现注意力机制，将原本不具备隐藏状态的特征张量转换为具有序列信息的隐藏状态张量，并计算得到注意力得分张量；通过自定义的lambda函数提取隐藏状态张量中最后时刻的隐藏状态的张量；通过dot函数在特定维度[2,1]下，将注意力得分张量和最后时刻的隐藏状态的张量进行点积运算得到注意力权重张量。为了进一步聚焦于域名向量的关键特征，通过Activation模块对注意力权重张量进行归一化处理，通过softmax函数将所有注意力权重张量转化为概率分布，实现了对输入特征的重要性分配。通过dot函数在特定维度[1,1]下，将注意力权重张量和隐藏状态张量进行加权求和得到综合不同位置重要性的第二上下文向量，为判别器提供更全面的语义理解。

通过末端卷积层进一步增强了判别器的特征提取能力，通过卷积池化层和末端卷积层这双层卷积神经网络使得判别器能挖掘到候选域名向量的关键特征。

在判别器的高速公路网层中，高速公路网层有两层；通过自适应地选择信息的传递量和路径，避免了随着模型深度的增加所出现梯度消失或梯度爆炸而导致性能下降的问题。

在判别器的全连接层中，根据第二上下文向量得到候选域名向量的真假性概率，根据真假性概率判别得到判别结果。当真假性概率大于0.5，判别候选域名向量为真钓鱼网站域名；当真假性概率小于或等于0.5，判别候选域名向量为假钓鱼网站域名。

通过判断真假性概率是否稳定或者是否达到最大迭代次数来判断生成对抗网络30是否训练完成；当真假性概率未稳定或者未达到最大迭代次数，训练未完成，将判别结果作为反馈信号反馈给生成器；当真假性概率稳定或者达到最大迭代次数，训练完成，得到训练后的生成对抗网络30。

结合域名相似度和域名语义特征向量，为生成对抗网络30提供可靠准确的先验知识；通过对真实钓鱼网站域名聚类得到涵盖真实钓鱼网站域名在结构、语法和语义上的相似性的共性特征，利用共性特征引导生成对抗网络30生成类似的潜在钓鱼网站域名，使生成的潜在钓鱼网站域名具有检测范围广、时效性强、实用性强的优点。

本申请的实施例，提供了一种钓鱼网站发现方法。

参照图8，钓鱼网站发现方法，包括但不限于以下步骤：

步骤S10，获取待检测网站域名；

步骤S20，通过训练后的网站域名生成模型生成潜在钓鱼网站域名；

步骤S30，根据潜在钓鱼网站域名从待检测网站域名中检测得到目标钓鱼网站域名。

其中，网站域名生成模型是根据如上的网站域名生成模型的训练方法训练得到。

通过网站域名生成模型生成大量与真实钓鱼网站域名类似的潜在钓鱼网站域名，有利于快速准确地从互联网海量的待检测网站域名中发现潜匿的钓鱼网站。

可以理解的是，以上的钓鱼网站发现方法同样适用于检测发现不良网站等的域名。

本申请的实施例，提供了一种网站域名生成模型的训练装置。

参照图12，训练装置包括输入模块110、编码模块120、聚类模块130和生成对抗模块140。

其中，输入模块110用于获取钓鱼网站域名；编码模块120用于对钓鱼网站域名的顶级域名和由钓鱼网站域名的次级域名分割得到的字符匹配编号，生成域名向量，对域名向量进行语义特征提取，得到域名语义特征向量；聚类模块130用于根据钓鱼网站域名的顶级域名和次级域名的字符进行聚类，得到共性特征；生成对抗模块140用于通过域名生成模型的生成对抗网络从域名向量中选择出目标域名向量，根据目标域名向量、域名语义特征向量和共性特征进行生成对抗训练，得到训练后的域名生成模型；在生成对抗训练的过程中，通过共性特征指导生成对抗网络的生成器根据目标域名向量和域名语义特征向量生成潜在钓鱼网站域名。

本申请的实施例，提供一种电子设备。参照图13，电子设备包括：存储器220、处理器210及存储在存储器220上并可在处理器210上运行的计算机程序，处理器210执行计算机程序时实现如上的域名生成模型的训练方法或钓鱼网站发现方法。

该电子设备可以为包括电脑等任意智能终端。

总体而言，对于电子设备的硬件结构，处理器210可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案。

存储器220可以采用只读存储器（ReadOnlyMemory，ROM）、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器220可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器220中，并由处理器210来调用执行本申请实施例的方法。

输入/输出接口用于实现信息输入及输出。

通信接口用于实现本设备与其他设备的通信交互，可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线230在设备的各个组件（例如处理器210、存储器220、输入/输出接口和通信接口）之间传输信息。处理器210、存储器220、输入/输出接口和通信接口通过总线230实现彼此之间在设备内部的通信连接。

本申请的实施例，提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于执行如上的域名生成模型的训练方法或钓鱼网站发现方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种域名生成模型的训练方法，其特征在于，包括：

获取钓鱼网站域名；

2.根据权利要求1所述的方法，其特征在于，所述对所述钓鱼网站域名的顶级域名和由所述钓鱼网站域名的次级域名分割得到的字符匹配编号，生成域名向量，包括：

对所述顶级域名和由所述次级域名分割得到的字符匹配编号；

将所述顶级域名、由所述次级域名分割得到的字符与编号对应地拼接，得到初始域名向量；

通过空字符补充所述初始域名向量，使所述初始域名向量的长度统一为预设长度，得到域名向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述钓鱼网站域名的顶级域名和次级域名的字符进行聚类，得到共性特征，包括：

对所述顶级域名提取特征得到顶级域名特征向量，根据所述次级域名的字符提取特征得到次级域名特征向量，组合所述顶级域名特征向量和所述次级域名特征向量得到域名特征向量；

根据所述域名特征向量进行聚类，得到共性特征。

4.根据权利要求3所述的方法，其特征在于，所述对所述顶级域名提取特征得到顶级域名特征向量，包括：

将所述顶级域名依次排列形成顶级域名序列；

从所述顶级域名中选择目标顶级域名，将所述顶级域名序列对应所述目标顶级域名的字符转换为1，将所述顶级域名序列不对应所述目标顶级域名的字符转换为0，得到长度为顶级域名总数量的二进制向量，将所述二进制向量作为所述目标顶级域名的顶级域名特征向量。

5.根据权利要求3所述的方法，其特征在于，根据所述次级域名的字符提取特征得到次级域名特征向量，包括：

获取预设字符子串长度和预设频率阈值；

统计所述次级域名的字符串中长度为预设字符子串长度的字符子串的频率；

将所述频率大于所述预设频率阈值且长度为预设字符子串长度的字符子串构成子串列表；

从所述次级域名中选择目标次级域名，将所述目标次级域名中出现子串列表中的字符子串的位置确定为目标次级域名位置，将所述目标次级域名位置对应的向量分量的值设置为子串列表中的字符子串的频率，以构建得到所述目标次级域名的次级域名特征向量，其中，所述次级域名特征向量的长度为子串列表中的字符子串的总数量。

6.根据权利要求3所述的方法，其特征在于，所述根据所述域名特征向量进行聚类，得到共性特征，包括：

从所述域名特征向量中选择第一聚类中心；

计算得到所述域名特征向量与所述第一聚类中心的最短距离；

根据所述最短距离计算所述域名特征向量的概率；

按照所述概率根据所述域名特征向量构建候选聚类中心集合；

根据所述域名特征向量的概率、所述第一聚类中心的数量和所述域名特征向量的总数量得到所述域名特征向量的采样权重；

根据所述采样权重从所述候选聚类中心集合选择初始聚类中心；

根据所述初始聚类中心对所述域名特征向量进行聚类，得到共性特征。

7.根据权利要求6所述的方法，其特征在于，所述根据所述初始聚类中心对所述域名特征向量进行聚类，得到共性特征，包括：

计算得到所述域名特征向量与所述初始聚类中心的第一欧式距离；

根据所述第一欧式距离将所述域名特征向量聚类至簇中；

计算得到所述簇中的域名特征向量之间的第二欧式距离，根据所述第二欧式距离确定所述簇的第二聚类中心；

根据所述第二欧式距离和所述第二聚类中心确定簇的数量；

根据所述簇的数量从所述第二聚类中心中确定目标聚类中心；

根据所述目标聚类中心对所述域名特征向量进行聚类，得到共性特征。

8.根据权利要求1所述的方法，其特征在于，所述通过所述域名生成模型的生成对抗网络从所述域名向量中选择出目标域名向量，根据所述目标域名向量、所述域名语义特征向量和所述共性特征进行生成对抗训练，得到训练后的域名生成模型，包括:

通过所述钓鱼网站域名训练所述生成对抗网络的判别器，得到已训练的判别器；

通过所述生成器从所述域名向量中选择出目标域名向量，根据所述目标域名向量、所述域名语义特征向量和所述共性特征生成候选域名向量；

通过已训练的判别器判别所述候选域名向量的真假性，得到判别结果；

根据所述判别结果调节所述生成器的参数，得到已训练的生成器，进而得到训练后的域名生成模型。

9.根据权利要求8所述的方法，其特征在于，所述通过所述生成对抗网络的生成器从所述域名向量中选择出目标域名向量，根据所述目标域名向量、所述域名语义特征向量和所述共性特征生成候选域名向量，包括：

根据随机种子对应的编号从所述域名向量中选择出目标域名向量，将所述目标域名向量转换为嵌入向量，拼接所述嵌入向量和所述域名语义特征向量得到特征序列；

基于自注意力机制对所述特征序列和所述共性特征进行加权求和生成第一上下文向量，根据所述第一上下文向量得到隐藏状态；

根据所述隐藏状态生成初始候选域名向量；

根据所述初始候选域名向量得到对数概率分布，根据所述对数概率分布从所述初始候选域名向量确定候选域名向量。

10.根据权利要求8所述的方法，其特征在于，所述通过已训练的判别器判别所述候选域名向量的真假性，得到判别结果，包括：

将所述候选域名向量转换为嵌入张量；

对所述嵌入张量提取域名字符特征，得到特征张量；

基于注意力机制根据所述特征张量得到注意力得分张量和具有序列信息的隐藏状态张量，提取所述隐藏状态张量中最后时刻的隐藏状态的张量，将所述注意力得分张量和所述最后时刻的隐藏状态的张量进行点积运算得到注意力权重张量，将所述注意力权重张量和所述隐藏状态张量进行加权求和得到第二上下文向量；

根据所述第二上下文向量得到所述候选域名向量的真假性概率，根据所述真假性概率判别得到判别结果。

11.一种钓鱼网站发现方法，其特征在于，包括：

获取待检测网站域名；

通过训练后的网站域名生成模型生成潜在钓鱼网站域名；

其中，所述网站域名生成模型是根据如权利要求1至10任一项所述的网站域名生成模型的训练方法训练得到。

12.一种网站域名生成模型的训练装置，其特征在于，包括：

输入模块，用于获取钓鱼网站域名；

13.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至10中任一项所述的域名生成模型的训练方法或如权利要求11所述的钓鱼网站发现方法。

14.一种计算机存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至10中任一项所述的域名生成模型的训练方法或如权利要求11所述的钓鱼网站发现方法。