CN112866257B

CN112866257B - 一种域名检测方法、系统及装置

Info

Publication number: CN112866257B
Application number: CN202110087213.2A
Authority: CN
Inventors: 刘卓龙
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2023-09-26
Anticipated expiration: 2041-01-22
Also published as: CN112866257A

Abstract

本发明公开了一种域名检测方法、系统及装置，其中，所述方法包括：获取待检测的目标域名和所述目标域名的异常参数，所述异常参数用于表征所述目标域名作为DGA域名的可能性；提取所述目标域名的描述特征，并根据所述描述特征和所述异常参数，生成所述目标域名是否为DGA域名的第一判断结果；提取所述目标域名的词嵌入特征，并根据所述词嵌入特征和所述异常参数，生成所述目标域名是否为DGA域名的第二判断结果；根据所述第一判断结果和/或所述第二判断结果，确定所述目标域名是否属于DGA域名。本申请提供的技术方案，能够减少DGA域名的误报率。

Description

一种域名检测方法、系统及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种域名检测方法、系统及装置。

背景技术

随着互联网技术的不断发展，网络安全问题也日益突出。目前，通过DGA(DomainGeneration Algorithm，域名生成算法)可以快速地生成大量的DGA域名，通过DGA域名可以构建鲁棒性较好的僵尸网络。攻击者利用僵尸网络，可以向网络中的设备发起网络攻击。

目前，通常可以利用机器学习的方法进行DGA域名的检测，然而，由于训练样本的局限性，会导致训练得到的检测模型不够准确，进而使得检测结果中存在一定的误报率。

发明内容

本申请的目的在于提供一种域名检测方法、系统及装置，能够提高DGA域名的检测精度。

为实现上述目的，本申请一方面提供一种域名检测方法，所述方法包括：获取待检测的目标域名和所述目标域名的异常参数，所述异常参数用于表征所述目标域名作为DGA域名的可能性；提取所述目标域名的描述特征，并根据所述描述特征和所述异常参数，生成所述目标域名是否为DGA域名的第一判断结果；提取所述目标域名的词嵌入特征，并根据所述词嵌入特征和所述异常参数，生成所述目标域名是否为DGA域名的第二判断结果；根据所述第一判断结果和/或所述第二判断结果，确定所述目标域名是否属于DGA域名。

为实现上述目的，本申请另一方面还提供一种域名检测系统，所述系统包括：参数获取单元，用于获取待检测的目标域名和所述目标域名的异常参数，所述异常参数用于表征所述目标域名作为DGA域名的可能性；第一判断结果生成单元，用于提取所述目标域名的描述特征，并根据所述描述特征和所述异常参数，生成所述目标域名是否为DGA域名的第一判断结果；第二判断结果生成单元，用于提取所述目标域名的词嵌入特征，并根据所述词嵌入特征和所述异常参数，生成所述目标域名是否为DGA域名的第二判断结果；确定单元，用于根据所述第一判断结果和/或所述第二判断结果，确定所述目标域名是否属于DGA域名。

为实现上述目的，本申请另一方面还提供一种域名检测装置，其所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的域名检测方法。

由上可见，本申请一个或者多个实施方式提供的技术方案，可以结合待检测的目标域名本身，以及该目标域名的异常参数，并通过一种或者多种判断结果来综合确定目标域名是否为DGA域名。具体地，目标域名的异常参数可以表征其作为DGA域名的可能性，通过在描述特征和词嵌入特征中，引入该异常参数，可以更加全面地表示目标域名的数字特征。通过结合描述特征和异常参数，可以得到第一判断结果，通过结合词嵌入特征和异常参数，可以得到第二判断结果。后续，根据实际需求，可以仅基于其中的一种判断结果来确定目标域名是否属于DGA域名，也可以结合这两种判断结果，更加精确地确定目标域名是否属于DGA域名。可见，通过将异常参数引入不同特征的方式，能够提高最终对目标域名的检测精度，进而能够极大地减少检测结果中的误报率。

附图说明

为了更清楚地说明本发明实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施方式中域名检测方法的步骤图

图2是本发明实施方式中异常参数的生成方法步骤图；

图3是本发明实施方式中自编码器所处的系统架构示意图；

图4是本发明实施方式中自编码器内的神经网络结构示意图；

图5是本发明实施方式中上下文逻辑特征的识别系统结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施方式及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施方式仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

如图1所示的，本申请一个实施方式提供的域名检测方法，可以包括以下多个步骤。

S1：获取待检测的目标域名和所述目标域名的异常参数，所述异常参数用于表征所述目标域名作为DGA域名的可能性。

在本实施方式中，待检测的目标域名可以具备异常参数，该异常参数可以表征目标域名作为DGA域名的可能性。在实际应用中，该异常参数可以是通过一些检测方法对目标域名进行检测之后得到的初步结果，通常而言，该异常参数越大，可以表示目标域名作为DGA域名的可能性越高。

在一个实施方式中，可以按照如图2所示的以下步骤来生成目标域名的异常参数。

S21：提取所述目标域名的词嵌入特征，并将所述词嵌入特征编码为中间特征，以及将所述中间特征解码为输出特征。

在本实施方式中，在获取到目标域名后，可以对目标域名进行预处理，从而将字符数据转换为对应的数字信息。具体地，可以采用词嵌入的方式，将目标域名中的字符数据转换为数字矩阵，该数字矩阵便可以作为从目标域名中提取的词嵌入特征。在实际应用中，one-hot编码(独热码)、信息检索技术(例如TF-IDF算法)、布朗聚类、Word2vec算法等都可以实现词嵌入的过程。

在本申请的一个实施方式中，可以采用Word2vec算法，利用skip-gram模型或者CBOW模型，将目标域名的字符数据转换为对应的数字矩阵。具体地，可以对目标域名先进行分词处理，从而得到一连串的单词。在实际应用中，分词的方式也可以多种多样。例如，可以将目标域名中的每个字符都作为一个单词进行分词，也可以将每两个字符作为一个单词进行分词，还可以通过一些自然语言模型对目标域名进行处理后，自动得到分词结果。

此外，为了获取到目标域名中的更多信息(例如单词含义、拼音缩写等)，可以采用N-gram的方式对目标域名进行分词。具体地，可以预先设定滑动窗口，该滑动窗口可以具备一定的长度，滑动窗口的长度便可以作为分词后单次的长度。例如，滑动窗口的长度为1，那么就相当于将目标域名按照每个字符进行分割；而如果滑动窗口的长度为2，那么分割后的每个单词中就可以包含两个字符。然在确定了滑动窗口之后，便可以利用滑动窗口沿指定方向对目标域名进行单词分割。该指定方向可以是目标域名的书写方向，通常而言，该指定方向是从左至右的方向。举例来说，对于目标域名“wangsu”而言，如果滑动窗口的长度为2，那么便可以分割得到“wa”、“an”、“ng”、“gs”、“su”这五个单词，而如果滑动窗口的长度为3，便可以得到“wan”、“ang”、“ngs”、“gsu”这四个单词。在实际应用中，为了考虑不同的字符组合，滑动窗口的长度在单词分割过程中可调节。例如，滑动窗口的长度可以依次从1调节至3，这样，针对长度为1的滑动窗口，可以得到“w”、“a”、“n”、“g”、“s”、“u”这六个单词，针对长度为2和3的滑动窗口，可以得到上述的“wa”、“an”、“ng”、“gs”、“su”和“wan”、“ang”、“ngs”、“gsu”这些单词。那么最终的分词结果可以包含上述的不同窗口长度对应的各个单词(共15个)，从而极大地丰富了目标域名的表述方式。

在本实施方式中，得到分词处理的单词后，针对每个单词，可以通过词嵌入算法生成各自的词向量，这些词向量共同形成的矩阵便可以作为该目标域名的词嵌入特征。举例来说，目标域名经过分词处理后，得到18个单词，那么每个单词都可以被转换为对应的词向量(通常而言，这些词向量中包含的向量元素的数量都是相同的，例如都包含n个向量元素)，那么这些词向量组合起来，便可以构成大小为(18，n)的数字矩阵，该数字矩阵便可以作为提取的词嵌入特征。

如上所述，在数字矩阵表征的词嵌入特征中，每一行都可以表示一个单词的词向量。在一个实施方式中，考虑到目标域名中各个单词的排列是具备上下文逻辑的，因此经过分词以及词嵌入算法处理后得到的词向量，在数字矩阵中也可以按照这种上下文逻辑进行排序。举例来说，对于“wangsutec”这样的域名，将每个字符都作为一个单词的话，可以转换得到9个词向量，这9个词向量可以按照字符在“wangsutec”中从前到后的排列顺序，在数字矩阵中从上到下排列，这样，数字矩阵中第一行的词向量就对应字符“w”，最后一行的词向量就对应字符“c”。上述的各个单词在域名中的排列顺序，便可以作为单词的上下文逻辑。

在本实施方式中，可以通过互为镜像的两组神经网络来实现自编码器，并通过自编码器对词嵌入特征进行处理。请参阅图3，该自编码器中可以包括互为镜像的第一神经网络和第二神经网络。其中，互为镜像的含义是指：第一神经网络和第二神经网络中包含的神经网络的类型和数量是一致，只不过神经网络的排列顺序是相反的，并且互为镜像的两个神经网络，层级结构也是相反的。以图4的自编码器为例，第一神经网络中包括神经网络A和神经网络B，第二神经网络中包括神经网络A1和神经网络B1。在第一神经网络中，连接方式为神经网络A的输出数据作为神经网络B的输入数据，而在第二神经网络中，连接方式就是相反的，为神经网络B1的输出数据作为神经网络A1的输入数据。并且，针对互为镜像的神经网络A和神经网络A1，网络中的层级结构也是相反的。例如，神经网络A中的层级结构依次是卷积层、池化层、全连接层，而神经网络A1的层级结构依次就是全连接层、池化层、卷积层(当然，神经网络A1中的各个层级结构实现的都是相反的功能，例如池化层实际上就是实现的反池化操作，这里的相同名称只是为了便于理解，不代表实现的功能也相同)。这样，自编码器中的第一神经网络可以对输入的词嵌入特征进行编码，而第二神经网络可以对编码后的中间特征进行解码，从而还原得到输出特征。具体地，可以将词嵌入特征依次输入第一神经网络和第二神经网络，其中，第一神经网络对词嵌入特征进行编码，以得到中间特征，第二神经网络将中间特征作为输入数据，并处理得到输出特征。

在实际应用中，上述的第一神经网络和第二神经网络可以通过多层感知器、卷积神经网络、循环神经网络等各式各样的神经网络及其组合来实现，可以根据实际的需求灵活选用对应的神经网络。

在本申请一个实施方式中，如果为了简化训练过程，第一神经网络和第二神经网络都可以选用卷积神经网络，这两个卷积神经网络的层级结构相反。这样，表征词嵌入特征的矩阵可以通过第一神经网络中的卷积神经网络进行特征提取，从而得到更低维度的矩阵，该更低维度的矩阵可以作为编码得到的中间特征。后续，表征中间特征的矩阵可以经过第二神经网络中的卷积神经网络，被还原为更高维度的矩阵，该还原得到的矩阵便可以作为解码得到的输出特征。

如果表征词嵌入特征的矩阵中，每一行表征一个单词的词向量，那么可以逐行识别词嵌入特征中各个单词的词向量，并利用卷积神经网络提取各个词向量的特征向量，这样，各个特征向量构成的矩阵便可以作为编码得到的中间特征。后续，第二神经网络中的卷积神经网络便可以识别表征中间特征的矩阵中的各个特征向量，并将各个特征向量还原为对应的词向量，这样，还原得到的词向量构成的矩阵便可以作为解码得到的输出特征。

在另一个实施方式中，为了提高模型的精度，可以将域名中的上下文逻辑也参与到模型训练的过程中。鉴于此，第一神经网络和第二神经网络都可以包括卷积神经网络和长短期记忆(LSTM，Long Short-Term Memory)神经网络。其中，第一神经网络中是依次相连的卷积神经网络和长短期记忆神经网络，而第二神经网络中是依次相连的长短期记忆神经网络和卷积神经网络，并且，第一神经网络与第二神经网络中的卷积神经网络的层级结构相反，第一神经网络与第二神经网络中的长短期记忆神经网络的层级结构也相反。

在本实施方式中，在基于上下文逻辑进行模型训练时，第一神经网络可以识别表征词嵌入特征的矩阵中各个单词的词向量(矩阵中的每一行就代表一个词向量)，然后通过卷积神经网络提取各个词向量的特征向量，从而可以生成由各个特征向量构成的特征矩阵。在得到特征矩阵之后，LSTM神经网络可以按照各个单词在目标域名中的排列顺序，提取特征矩阵的上下文逻辑特征，并将该上下文逻辑特征作为编码得到的中间特征。后续，第二神经网络中的LSTM神经网络可以将表征中间特征的上下文逻辑特征还原为符合域名中单词排列顺序的特征矩阵，并通过卷积神经网络将还原得到的特征矩阵中的各个特征向量转换为对应的词向量。这样，转换得到的词向量构成的矩阵便可以作为解码得到的输出特征。

S23：计算所述目标域名的输出特征和所述目标域名的词嵌入特征之间的误差，并将所述误差作为所述目标域名的异常参数。

对于完成训练的自编码器而言，如果目标域名是正常域名，那么解码得到的输出特征应当与输入的词嵌入特征具备较高的吻合度，而如果目标域名是DGA域名，或者由于模型训练精度不够高，解码得到的输出特征与词嵌入特征之间会有一定的误差，而该误差便可以表征目标域名作为DGA域名的可能性。因此，可以计算目标域名的输出特征和目标域名的词嵌入特征之间的误差，并将该误差作为目标域名的异常参数。这样，误差越大，异常参数就越大，目标域名作为DGA域名的可能性就越高。

在实际应用中，自编码器可以基于域名白名单样本训练得到，通过训练得到的自编码器，便可以实现上述的编码和解码过程。具体地，在一个实施方式中，自编码器的训练过程可以如下所述：

S41：获取域名白名单样本，并提取所述域名白名单样本的词嵌入特征。

在本实施方式中，可以只收集训练过程中的正样本，即域名白名单样本，这些域名白名单样本可以是经过安全检测的正常域名。通常而言，域名白名单样本中的字符往往会具备一定的规律，例如，其可能是符合自然语言习惯的拼音、词组等。而DGA域名由于是随机生成的，因此其中的字符会具备较强的随机性。鉴于这种区别，本申请可以训练得到域名白名单样本的一个判定基准，然后如果目标域名的检测结果偏离该判定基准较大，则可以认为该目标域名为DGA域名。

在本实施方式中，在获取到域名白名单样本后，由于自编码模型通常只能对数字信息进行处理，而无法直接对字符数据进行处理，因此需要对域名白名单样本进行预处理，从而将字符数据转换为对应的数字信息。具体地，可以采用词嵌入的方式，将域名白名单样本中的字符数据转换为数字矩阵，该数字矩阵便可以作为从域名白名单样本中提取的词嵌入特征。在实际应用中，one-hot编码(独热码)、信息检索技术(例如TF-IDF算法)、布朗聚类、Word2vec算法等都可以实现词嵌入的过程。

在本申请的一个实施方式中，可以采用Word2vec算法，利用skip-gram模型或者CBOW模型，将域名白名单样本的字符数据转换为对应的数字矩阵。具体地，可以对域名白名单样本先进行分词处理，从而得到一连串的单词。在实际应用中，分词的方式也可以多种多样。例如，可以将域名白名单样本中的每个字符都作为一个单词进行分词，也可以将每两个字符作为一个单词进行分词，还可以通过一些自然语言模型对域名白名单样本进行处理后，自动得到分词结果。

在本实施方式中，得到分词处理的单词后，针对每个单词，可以通过词嵌入算法生成各自的词向量，这些词向量共同形成的矩阵便可以作为该域名白名单样本的词嵌入特征。举例来说，域名白名单样本经过分词处理后，得到18个单词，那么每个单词都可以被转换为对应的词向量(通常而言，这些词向量中包含的向量元素的数量都是相同的，例如都包含n个向量元素)，那么这些词向量组合起来，便可以构成大小为(18，n)的数字矩阵，该数字矩阵便可以作为提取的词嵌入特征。

如上所述，在数字矩阵表征的词嵌入特征中，每一行都可以表示一个单词的词向量。在一个实施方式中，考虑到域名白名单样本中各个单词的排列是具备上下文逻辑的，因此经过分词以及词嵌入算法处理后得到的词向量，在数字矩阵中也可以按照这种上下文逻辑进行排序。举例来说，对于“wangsutec”这样的域名，将每个字符都作为一个单词的话，可以转换得到9个词向量，这9个词向量可以按照字符在“wangsutec”中从前到后的排列顺序，在数字矩阵中从上到下排列，这样，数字矩阵中第一行的词向量就对应字符“w”，最后一行的词向量就对应字符“c”。上述的各个单词在域名中的排列顺序，便可以作为单词的上下文逻辑。

S43：将所述词嵌入特征编码为中间特征，并将所述中间特征解码为输出特征。

在本实施方式中，可以通过互为镜像的两组神经网络来实现自编码器。请参阅图3，该自编码器中可以包括互为镜像的第一神经网络和第二神经网络。其中，互为镜像的含义是指：第一神经网络和第二神经网络中包含的神经网络的类型和数量是一致，只不过神经网络的排列顺序是相反的，并且互为镜像的两个神经网络，层级结构也是相反的。以图4的自编码器为例，第一神经网络中包括神经网络A和神经网络B，第二神经网络中包括神经网络A1和神经网络B1。在第一神经网络中，连接方式为神经网络A的输出数据作为神经网络B的输入数据，而在第二神经网络中，连接方式就是相反的，为神经网络B1的输出数据作为神经网络A1的输入数据。并且，针对互为镜像的神经网络A和神经网络A1，网络中的层级结构也是相反的。例如，神经网络A中的层级结构依次是卷积层、池化层、全连接层，而神经网络A1的层级结构依次就是全连接层、池化层、卷积层(当然，神经网络A1中的各个层级结构实现的都是相反的功能，例如池化层实际上就是实现的反池化操作，这里的相同名称只是为了便于理解，不代表实现的功能也相同)。这样，自编码器中的第一神经网络可以对输入的词嵌入特征进行编码，而第二神经网络可以对编码后的中间特征进行解码，从而还原得到输出特征。具体地，可以将词嵌入特征依次输入第一神经网络和第二神经网络，其中，第一神经网络对词嵌入特征进行编码，以得到中间特征，第二神经网络将中间特征作为输入数据，并处理得到输出特征。

在另一个实施方式中，为了提高模型的精度，可以将域名中的上下文逻辑也参与到模型训练的过程中。鉴于此，第一神经网络和第二神经网络都可以包括卷积神经网络和长短期记忆神经网络。其中，第一神经网络中是依次相连的卷积神经网络和长短期记忆神经网络，而第二神经网络中是依次相连的长短期记忆神经网络和卷积神经网络，并且，第一神经网络与第二神经网络中的卷积神经网络的层级结构相反，第一神经网络与第二神经网络中的长短期记忆神经网络的层级结构也相反。

在本实施方式中，在基于上下文逻辑进行模型训练时，第一神经网络可以识别表征词嵌入特征的矩阵中各个单词的词向量(矩阵中的每一行就代表一个词向量)，然后通过卷积神经网络提取各个词向量的特征向量，从而可以生成由各个特征向量构成的特征矩阵。在得到特征矩阵之后，LSTM神经网络可以按照各个单词在域名白名单样本中的排列顺序，提取特征矩阵的上下文逻辑特征，并将该上下文逻辑特征作为编码得到的中间特征。后续，第二神经网络中的LSTM神经网络可以将表征中间特征的上下文逻辑特征还原为符合域名中单词排列顺序的特征矩阵，并通过卷积神经网络将还原得到的特征矩阵中的各个特征向量转换为对应的词向量。这样，转换得到的词向量构成的矩阵便可以作为解码得到的输出特征。

S45：比较所述词嵌入特征和所述输出特征，并根据对比结果对编码和解码的过程进行校正，以得到完成训练的自编码器。

在本实施方式中，经过互为镜像的两组神经网络的处理后，输入的词嵌入特征可以经过编码和解码，还原为输出特征。理论上，如果自编码器的模型训练精度足够高，输出特征应当无限逼近输入的词嵌入特征。但在训练过程中，由于神经网络中神经元的参数需要不断进行调整，因此一开始会使得输出特征与词嵌入特征之间的误差较大。因此在训练过程中，可以比较词嵌入特征和输出特征，从而可以根据对比结果对编码和解码的过程进行校正。

具体地，可以计算词嵌入特征和输出特征之间的误差。在实际应用中，可以通过范数、损失函数等方式来表征该误差。计算得到的误差可以对编码和解码过程中的参数进行调节。经过参数调节的自编码器可以再次对输入的词嵌入特征进行处理，从而得到对应的输出特征。该输出特征依然可以与词嵌入特征进行对比，并可以对编码和解码过程中的参数再次进行调节。这样，经过对大量的域名白名单样本进行上述的处理，以及不断地对参数进行调节，可以使得输入的任意一个词嵌入特征经过校正后的编码和解码的过程处理后，得到的输出特征与词嵌入特征相匹配。其中，相匹配可以指得到的输出特征与词嵌入特征之间的误差小于或者等于指定阈值。

通过上述的训练过程，便可以得到精度较高的自编码器，如果输入该自编码器的是正常域名的词嵌入特征，那么得到的输出特征就会与输入的词嵌入特征具备较高的相似度。而如果输入的是DGA域名的词嵌入特征，那么得到的输出特征与输入的词嵌入特征就会有较大的误差。

需要说明的是，尽管以上例举了异常参数的获取过程，但实际上在本申请中，可以不关注异常参数的具体获取手段，只是将异常参数作为一个可用的参数即可。因此，如果本领域技术人员根据本申请技术方案的启示，通过其它手段获取了异常参数，那么只要异常参数的作用与本申请中描述的一致，都应当属于本申请保护的范围。

S3：提取所述目标域名的描述特征，并根据所述描述特征和所述异常参数，生成所述目标域名是否为DGA域名的第一判断结果。

在本实施方式中，考虑到数据处理的模型通常只能对数字特征进行分析，因此可以将字符形式的目标域名通过数字的描述特征来表示。具体地，可以对字符形式的目标域名进行特征工程处理，从而得到与目标域名相关的一个或者多个描述特征，这些描述特征可以从不同的角度来限定目标域名。在实际应用中，目标域名的描述特征可以包括以下的一种或者多种：目标域名的域名长度、目标域名的信息熵、目标域名中的特殊字符数、目标域名对应的顶级域名权重、目标域名的相似度参数。

其中，目标域名的域名长度可以是目标域名中包含的字符数量，对于域名而言，长度是一个显而易见的特征，尽管单纯的长度无法成为判别DGA域名的依据，但通过与其它特征的组合，长度特征可以提供重要的信息。

在信息论中，熵是反应事物混乱程度、不确定性的量度，越大的熵就代表着更大的不确定性。对于域名而言，正常的域名通常由拼音、英文单词等有序的元素组成，他们的特点是：1)仅使用了有限的字符，例如“wangsu.com”中，二级域名只使用了6个字符；2)字符之间出现的概率并不平均，例如“google.com”中，二级域名内“g”和“o”都出现了两次，“l”和“e”各出现一次，其他任何的字母、数字均没有出现。而DGA域名恰恰相反，它们通常是无序、平均的，例如“jofiwean19spm3z.vip”，二级域由15个不重复的字母、数字组成。因此，正常域名相比DGA域名通常有较低的信息熵。这样，目标域名的信息熵也是区分正常域名和DGA域名的一个重要特征。

域名中的特殊字符可以指连接符“-”，正常域名有较低的概率含有连接符，因此目标域名中的特殊字符数也可以作为检测DGA域名的依据。

在正常域名中，可能会出现比较通用的顶级域名，因此对于更通用的顶级域名，例如“.com”、“.org”等，可以赋予较高的权重值，而对于例如“.vip”、“.cc”等较少见的顶级域名，可以给予较低的权重。

目标域名的相似度可以理解为域名之间的相似程度，例如“wangsu.com”与“wangsucdn.com”之间有较高的相似度。在本申请中，该相似度可以通过N-gram算法来计算。具体地，可以使用两个数据集来与目标域名进行相似度的对比，其中一个数据集是权威域名的排行榜，例如Alexa域名排行榜中前5万个域名，另一个数据集是英文单词词库，这样，通过与这两个数据集进行N-gram相似度的计算，可以确保与常见域名相似且由英文单词构成的域名有较高的N-gram相似度，而大多数随机生成的DGA域名的N-gram相似度较低。

在本实施方式中，每个描述特征都可以通过数值进行表示，通过将这些数值作为一个向量中的各个向量元素，从而可以构建出目标域名的描述特征向量。举例来说，当前共有4个描述特征，这4个描述特征的数值分别为A、B、C、D，那么构建出的描述特征向量便可以是一维的(A，B，C，D)。

在本实施方式中，为了更加全面和准确地表征目标域名，可以将异常参数引入描述特征中。具体地，可以将构建的描述特征向量与异常参数进行拼接，从而得到第一合成向量。例如，异常参数为E，那么得到的第一合成向量便可以是(A，B，C，D，E)。

在本实施方式中，可以预先训练出检测模型，该检测模型的输入数据可以是描述特征和异常参数构建的第一合成向量，输出数据便可以是DGA域名的检测结果。在训练过程中，可以获取域名训练样本和域名训练样本的异常参数，并可以为域名训练样本添加对应的训练标签，该训练标签可以用于表征对应的域名训练样本是否为DGA域名。然后，可以按照上述的方式提取域名训练样本的描述特征，并按照上述构建第一合成向量的方式，基于域名训练样本的描述特征和异常参数，构建域名训练样本的训练向量。这样，可以将训练向量输入待训练的检测模型中，并将待训练的检测模型的输出结果与域名训练样本的训练标签进行对比，并根据对比结果对检测模型中的参数进行校正，从而使得该训练向量经过校正后的检测模型处理后，得到的输出结果能够与域名训练样本的训练标签保持一致。

在实际应用中，训练标签和检测模型输出的输出结果都可以是包含两个向量元素的概率向量，该概率向量中的两个向量元素可以分别表征正常域名的概率和DGA域名的概率。例如(1，0)这样的训练标签，就表示当前的域名训练样本作为正常域名的概率是1，作为DGA域名的概率是0。又例如，(0.8，0.2)这样的输出结果，就表示当前的域名训练样本被判定为正常域名的概率是0.8，被判定为DGA域名的概率是0.2。最终可以选择概率较大的值作为判定结果，也就是说，按照(0.8，0.2)这样的输出结果，最终可以判定域名训练样本为正常域名。

在实际应用中，检测模型所依赖的机器学习算法可以灵活选用。例如，可以选用速度快、泛化能力强、对不平衡数据及异常数据不敏感的随机森林算法进行检测模型的训练。当然，本申请对此并不做限定，只要能够基于上述方式构建的训练向量进行准确的模型训练即可。

通过大量的域名训练样本对检测模型进行训练，能够保证针对任意一个域名训练样本，输出结果都能与训练标签保持一致(请注意，这里的保持一致并非是上述的概率向量要完全一致，而是基于概率向量得到的判定结果是一致的即可)。

在本实施方式中，在训练得到检测模型之后，便可以将第一合成向量输入该检测模型，从而得到由上述的概率向量表征的第一判断结果。

S5：提取所述目标域名的词嵌入特征，并根据所述词嵌入特征和所述异常参数，生成所述目标域名是否为DGA域名的第二判断结果。

在本实施方式中，还可以将异常参数引入词嵌入特征，从而结合词嵌入特征和异常参数进行DGA域名的检测。其中，目标域名的词嵌入特征可以按照步骤S21的描述进行提取，这里就不再赘述了。

请参阅图5，在提取了目标域名的词嵌入特征之后，可以对该词嵌入特征进行特征提取、数据降维、时序关系处理等方式，识别出该词嵌入特征的上下文逻辑特征。具体地，可以采用卷积神经网络与双向LSTM神经网络的组合来识别上下文逻辑特征。其中，卷积神经网络中可以包括卷积层、池化层、全连接层等层级结构，对输入的词嵌入特征进行特征提取和数据降维。卷积神经网络可以识别表征词嵌入特征的矩阵中各个单词的词向量(矩阵中的每一行就代表一个词向量)，然后提取各个词向量的特征向量，从而可以生成由各个特征向量构成的特征矩阵。在得到特征矩阵之后，双向LSTM神经网络可以按照各个单词在目标域名中的排列顺序，提取特征矩阵的上下文逻辑特征，该上下文逻辑特征可以通过一维的向量来表示。为了在上下文逻辑特征中引入异常参数，可以将上下文逻辑特征与异常参数拼接为第二合成向量，具体的拼接方法与第一合成向量的拼接方式类似，这里就不再赘述了。在得到第二合成向量后，可以将第二合成向量输入单层感知器中，从而将单层感知器的输出结果作为第二判断结果。其中，单层感知器可以通过深度学习算法，预先对大量的训练样本进行训练，从而能够针对输入的第二合成向量，预测得到对应的输出结果。该输出结果也可以是包含两个向量元素的概率向量，这里就不再赘述了。

S7：根据所述第一判断结果和/或所述第二判断结果，确定所述目标域名是否属于DGA域名。

在本实施方式中，得到第一判断结果和第二判断结果后，可以根据精度需要和实际业务场景，选择其中的一个判断结果作为最终的判断结果，从而能够确定目标域名是否为DGA域名。此外，还可以综合两个判断结果，共同确定目标域名是否为DGA域名。具体地，可以为第一判断结果和第二判断结果分别赋予各自的权重值，然后通过加权求和的方式计算最终判断结果。举例来说，由于两个判断结果都可以通过概率向量来表示，那么这两个概率向量通过加权求和之后，可以得到一个新的概率向量。例如，这两个概率向量是(0.8，0.2)和(0.6，0.4)，权重值分别为0.4和0.6，那么加权得到的新的概率向量可以是(0.32+0.36，0.08+0.24)＝(0.68，0.32)。这样，根据新的概率向量便可以作为最终判断结果，根据该最终判断结果，便能够确定目标域名是否属于DGA域名。

在一个实施方式中，考虑到机器学习和深度学习本身的特性，就算引入了异常参数，可能还会有极少数的域名存在误报的情况。因此，针对指定时段内的检测结果，还可以进一步地进行判定。其中，指定时段可以灵活设置，例如可以是最近的24小时。针对检测结果中检测出的DGA域名，可以根据DGA域名的检测特征，判断DGA域名是否为误报的域名。其中，检测特征可以通过DGA域名关联的子域名，或者DGA域名作为主域名被检测为DGA域名的总次数来体现。具体地，可以统计DGA域名下包含的子域名数量，若统计的子域名数量大于或者等于指定数量阈值，可以判定所述DGA域名为误报的域名。原因在于，真正的DGA域名通常只会有一个子域名，如果一个域名存在多个子域名，那么这个域名很大概率其实是一个正常域名，因此存在误报的情况。此外，若所述DGA域名被检测为DGA域名的次数大于或者等于指定次数阈值，可以判定所述DGA域名为误报的域名。原因在于，DGA域名是可以被快速生成的，通常生成算法不会重复生成相同的DGA域名，因此如果同个主域名被多次地检测为DGA域名，那么该主域名很大概率也是一个正常的域名。

在另一个实施方式中，考虑到DGA域名通常是大量出现的，因此如果某个IP地址下确实存在DGA域名，那么该IP地址下的DGA域名的数量通常较大。鉴于此，若目标IP地址下的域名中被检测为DGA域名的数量小于指定数量阈值，则可以判定所述目标IP地址下的域名均不是DGA域名，并停止对所述IP地址下的域名进行检测。该指定数量阈值可以基于DGA域名的出现规律进行灵活设置。

通过上述的各个步骤，便可以对域名是否为DGA域名进行准确的判断，需要说明的是，在实际应用中，以上的一个或者多个步骤可以组合使用，也可以单独使用，可以根据实际的应用场景灵活选择实施的步骤。

本申请另一个实施方式还提供一种域名检测系统，所述系统包括：

参数获取单元，用于获取待检测的目标域名和所述目标域名的异常参数，所述异常参数用于表征所述目标域名作为DGA域名的可能性；

第一判断结果生成单元，用于提取所述目标域名的描述特征，并根据所述描述特征和所述异常参数，生成所述目标域名是否为DGA域名的第一判断结果；

第二判断结果生成单元，用于提取所述目标域名的词嵌入特征，并根据所述词嵌入特征和所述异常参数，生成所述目标域名是否为DGA域名的第二判断结果；

确定单元，用于根据所述第一判断结果和/或所述第二判断结果，确定所述目标域名是否属于DGA域名。

本申请另一个实施方式还提供一种域名检测装置，所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的域名检测方法。

在本申请中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。所述存储器又可以包括：利用电能方式存储信息的装置，如RAM或ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器或U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器或石墨烯存储器等等。

在本申请中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对系统和装置的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本领域内的技术人员应明白，本发明的实施方式可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施方式而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种域名检测方法，其特征在于，所述方法包括：

获取待检测的目标域名和所述目标域名的异常参数，所述异常参数用于表征所述目标域名作为DGA域名的可能性，其中，所述异常参数按照以下方式生成：提取所述目标域名的词嵌入特征，并将所述词嵌入特征编码为中间特征，以及将所述中间特征解码为输出特征；其中，编码和解码的过程通过基于域名白名单样本训练得到的自编码器实现，所述自编码器通过互为镜像的两组神经网络实现；计算所述目标域名的输出特征和所述目标域名的词嵌入特征之间的误差，并将所述误差作为所述目标域名的异常参数；

提取所述目标域名的词嵌入特征，识别所述词嵌入特征的上下文逻辑特征，并将所述上下文逻辑特征与所述异常参数拼接为第二合成向量，根据所述第二合成向量生成所述目标域名是否为DGA域名的第二判断结果；

根据所述第二判断结果，确定所述目标域名是否属于DGA域名；

所述提取所述目标域名的词嵌入特征包括：对目标域名进行分词处理，得到一连串的单词；针对每个单词，通过词嵌入算法生成各自的词向量，将所述词向量共同形成的矩阵作为目标域名的词嵌入特征。

2.如权利要求1所述的域名检测方法，其特征在于，所述方法还包括：

提取所述目标域名的描述特征，然后构建所述目标域名的描述特征向量，并将所述描述特征向量与所述异常参数拼接为第一合成向量，根据所述第一合成向量生成所述目标域名是否为DGA域名的第一判断结果；

根据所述第一判断结果和所述第二判断结果，确定所述目标域名是否属于DGA域名。

3.根据权利要求2所述的方法，其特征在于，提取所述目标域名的描述特征包括：

对所述目标域名进行特征工程处理，以得到与所述目标域名相关的描述特征，所述描述特征包括以下至少一种：

目标域名的域名长度、目标域名的信息熵、目标域名中的特殊字符数、目标域名对应的顶级域名权重、目标域名的相似度参数。

4.根据权利要求2或3所述的方法，其特征在于，根据所述第一合成向量生成所述目标域名是否为DGA域名的第一判断结果包括：

将所述第一合成向量输入预先训练得到的检测模型中，并将所述检测模型的输出结果作为所述第一判断结果。

5.根据权利要求4所述的方法，其特征在于，所述检测模型按照以下方式训练得到：

获取域名训练样本和所述域名训练样本的异常参数，并为所述域名训练样本添加对应的训练标签，所述训练标签用于表征对应的域名训练样本是否为DGA域名；

提取所述域名训练样本的描述特征，并基于所述域名训练样本的描述特征和异常参数，构建所述域名训练样本的训练向量；

将所述训练向量输入待训练的检测模型中，并将所述待训练的检测模型的输出结果与所述域名训练样本的训练标签进行对比，并根据对比结果对所述待训练的检测模型中的参数进行校正，以使得所述训练向量经过校正后的检测模型处理后，得到的输出结果与所述域名训练样本的训练标签保持一致。

6.根据权利要求1所述的方法，其特征在于，对所述目标域名进行分词处理包括：

预先设定滑动窗口，并利用所述滑动窗口沿指定方向对所述目标域名进行单词分割，其中，所述滑动窗口的长度在单词分割过程中可调节，以生成不同长度的单词。

7.根据权利要求1所述的方法，其特征在于，根据所述第二合成向量生成所述目标域名是否为DGA域名的第二判断结果包括：

将所述第二合成向量输入单层感知器中，并将所述单层感知器的输出结果作为所述第二判断结果。

8.根据权利要求7所述的方法，其特征在于，识别所述词嵌入特征的上下文逻辑特征包括：

识别所述词嵌入特征中各个单词的词向量，并提取各个所述词向量的特征向量，以生成由各个所述特征向量构成的特征矩阵；

按照各个单词在所述目标域名中的排列顺序，提取所述特征矩阵的上下文逻辑特征。

9.根据权利要求2所述的方法，其特征在于，确定所述目标域名是否属于DGA域名包括：

为所述第一判断结果和所述第二判断结果分别赋予各自的权重值，并通过加权求和的方式计算最终判断结果，所述最终判断结果用于确定目标域名是否属于DGA域名。

10.根据权利要求1所述的方法，其特征在于，在确定所述目标域名是否属于DGA域名之后，所述方法还包括：

获取指定时段内的检测结果，针对所述检测结果中的DGA域名，根据所述DGA域名的检测特征，判断所述DGA域名是否为误报的域名。

11.根据权利要求10所述的方法，其特征在于，判断所述DGA域名是否为误报的域名包括：

统计所述DGA域名下包含的子域名数量，若统计的所述子域名数量大于或者等于指定数量阈值，判定所述DGA域名为误报的域名；

或者

若所述DGA域名被检测为DGA域名的次数大于或者等于指定次数阈值，判定所述DGA域名为误报的域名。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若目标IP地址下的域名中被检测为DGA域名的数量小于指定数量阈值，判定所述目标IP地址下的域名均不是DGA域名，并停止对所述IP地址下的域名进行检测。

13.一种域名检测系统，其特征在于，所述系统包括：

参数获取单元，用于获取待检测的目标域名和所述目标域名的异常参数，所述异常参数用于表征所述目标域名作为DGA域名的可能性，其中，所述异常参数按照以下方式生成：提取所述目标域名的词嵌入特征，并将所述词嵌入特征编码为中间特征，以及将所述中间特征解码为输出特征；其中，编码和解码的过程通过基于域名白名单样本训练得到的自编码器实现，所述自编码器通过互为镜像的两组神经网络实现；计算所述目标域名的输出特征和所述目标域名的词嵌入特征之间的误差，并将所述误差作为所述目标域名的异常参数；所述提取所述目标域名的词嵌入特征包括：对目标域名进行分词处理，得到一连串的单词；针对每个单词，通过词嵌入算法生成各自的词向量，将所述词向量共同形成的矩阵作为目标域名的词嵌入特征；

第二判断结果生成单元，用于提取所述目标域名的词嵌入特征，识别所述词嵌入特征的上下文逻辑特征，并将所述上下文逻辑特征与所述异常参数拼接为第二合成向量，根据所述第二合成向量生成所述目标域名是否为DGA域名的第二判断结果；

确定单元，用于所述第二判断结果，确定所述目标域名是否属于DGA域名。

14.根据权利要求13所述的系统，其特征在于，所述系统还包括：

第一判断结果生成单元，用于提取所述目标域名的描述特征，然后构建所述目标域名的描述特征向量，并将所述描述特征向量与所述异常参数拼接为第一合成向量，根据所述第一合成向量生成所述目标域名是否为DGA域名的第一判断结果；

所述确定单元，还用于根据所述第一判断结果和所述第二判断结果，确定所述目标域名是否属于DGA域名。

15.一种域名检测装置，其特征在于，所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至12中任一所述的方法。