CN114095212A

CN114095212A - 一种对抗训练dga域名检测模型的方法及装置

Info

Publication number: CN114095212A
Application number: CN202111271224.2A
Authority: CN
Inventors: 安晓宁
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-25
Anticipated expiration: 2041-10-29
Also published as: CN114095212B

Abstract

本发明公开了一种对抗训练DGA域名检测模型的方法及装置，包括获取DNS流量样本数据，并提取获得域名文件；基于预先构造的分词词典对域名文件中的各域名进行分割，并根据分割结果构建编码向量文件；通过预先训练的词向量模型确定编码向量文件的各域名的训练词向量集，以及利用生成模型生成DGA域名的模拟词向量；基于训练词向量集中的词向量和所生成的模拟词向量训练判别模型和生成模型。在按照本公开的方法进行训练后，能够生成低随机性的DAG域名，而无需收集恶意样本。并且基于所生成的低随机性的DAG域名训练的判别模型，能够有效地检测出由DGA算法产生的低随机性DGA域名，从根源处遏制网络攻击的发生。

Description

一种对抗训练DGA域名检测模型的方法及装置

技术领域

本发明涉及网络安全技术领域，尤其涉及一种对抗训练DGA域名检测模型的方法及装置。

背景技术

在网络安全领域，早期的僵尸主机通常采用轮询的方法访问硬编码的C&C域名或IP来访问服务器获取控制命令，从而进行恶意的网络活动，但是这种方式在安全人员进行逆向之后会得到有效的屏蔽。目前，攻击者为了防止恶意域名被发现，会使用Domain Flux或者IP Flux来快速生成大量的恶意域名。Domain Flux是通过不断变换域名，指向同一个IP，IP Flux是只有一个域名，不断变换IP，一个域名可以使用多个IP。域名生成算法(Domain Generation Algorithm)，是一种利用随机字符来生成C&C域名，同时结合DomainFlux或IP Flux技术，从而有效地逃避域名黑名单检测的技术手段。目前基于机器学习的DGA检测方法通过判断域名是否由DGA算法生成，从而阻断DGA域名与其C&C的连接，从根源处遏制网络攻击的发生。但现有的技术的生成模型生成样本的字符分布随机性比正常域名高，与正常样本差异较大，因此使用这些高随机性样本训练的判别模型无法有效地用于检测低随机性的DGA家族域名。

发明内容

本发明实施例提供一种对抗训练DGA域名检测模型的方法及装置，用以能够通过训练获得的生成模型能够生成低随机性DAG域名，同时通过使用所生成的低随机性DAG域名对抗训练的判别模型可以有效地检测出由DGA算法生成的低随机性DGA域名，从根源处遏制网络攻击的发生。

第一方面，本发明实施例提供一种对抗训练DGA域名检测模型的方法，包括：

获取DNS流量样本数据，并提取各DNS流量样本数据的主域名和顶级域名，以获得域名文件；

基于预先构造的分词词典对所述域名文件中的各域名进行分割，并根据分割结果构建编码向量文件，其中，所述分词词典是基于常用词汇形成的，包括整词和子词；

通过预先训练的词向量模型确定所述编码向量文件各域名的训练词向量集，以及利用生成模型生成DGA域名的模拟词向量；

利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。

在一些实施例中，根据分割结果构建编码向量文件包括：

根据分割结果按照前向最大匹配原则，将域名分割为整词和子词的序列片段；

按照出现频率高低顺序，基于所述序列片段中出现频率靠前的指定数量的整词或子词，构建向量映射字典；

基于所述向量映射字典形成所述编码向量文件。

在一些实施例中，基于所述向量映射字典形成所述编码向量文件包括：

基于所述向量映射字典，将域名文件中的各域名编码至预设长度，以形成所述编码向量文件。

在一些实施例中，所述词向量模型是预先利用无监督学习方法训练获得的。

在一些实施例中，利用生成模型生成DGA域名的模拟词向量包括：

基于期望分布随机产生对抗样本，并将产生的对抗样本输入所述生成模型，以生成DGA域名的模拟词向量。

在一些实施例中，基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型还包括：

通过最近邻算法基于所述向量映射字典，确定与所生成的模拟词向量距离最近的向量所对应的各子词；

拼接各子词，生成所需的DGA域名。

在一些实施例中，基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型包括：

基于所述训练词向量集中的词向量和所生成的模拟词向量将所述判别模型训练至目标精度；

基于所述训练词向量集中的词向量和所生成的模拟词向量对所述生成模型和所述判别模型进行轮次训练，直至满足需求。

第二方面，本发明实施例提供一种DGA域名检测方法，包括：

获取待检测的DNS流量数据，并提取该DNS流量数据的主域名和顶级域名；

基于预先构造的分词词典对该DNS流量数据的主域名和顶级域名进行分割，以确定该DNS流量数据的词向量；

将该DNS流量数据的词向量作为输入，利用本公开各实施例所述的对抗训练DGA域名检测模型的方法所训练获得的判别模型对该DNS流量数据进行预测；

根据预测结果确定该DNS流量数据是否为DGA域名。

第三方面，本发明实施例提供一种对抗训练DGA域名检测模型的装置，包括处理器，被配置为：

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本公开各实施例所述的方法的步骤。

本发明实施例通过基于预先构造的分词词典对DNS流量的域名文件中的各域名进行分割，由于分词词典是基于常用词汇形成的，包括整词和子词，在按照本公开的方法进行训练后，能够生成低随机性的DAG域名，而无需收集恶意样本。并且基于所生成的低随机性的DAG域名训练判别模型，所获得的判别器模型能够有效地检测出由DGA算法的低随机性DGA域名，从根源处遏制网络攻击的发生。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本公开的对抗训练DGA域名检测模型的基本流程图；

图2为本公开的对抗训练DGA域名检测模型的构建编码向量文件的子流程图；

图3为本公开的检测模型的训练架构示意图；

图4为本公开的DGA域名检测的基本流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种对抗训练DGA域名检测模型的方法，如图1所示，包括如下步骤：

在步骤S101中、获取DNS流量样本数据，并提取各DNS流量样本数据的主域名和顶级域名，以获得域名文件。例如可以在本地DNS服务器采集DNS流量，提取并解析每一条正常DNS流量的DNS Queries Name字段的全限定域名(FQDN)对应的主域名和顶级域名，每一条信息作为一条记录保存到特定格式的域名文件中。

在步骤S102中、基于预先构造的分词词典对所述域名文件中的各域名进行分割，并根据分割结果构建编码向量文件，其中，所述分词词典是基于常用词汇形成的，包括整词和子词。分词词典可以是初次执行时建立，具体的建立过程可以包括，首先通过统计百科语料(例如维基百科)中使用频率最高的top-N(例如N可是约为3万，具体可以根据实际需要设定)个单词构建整词字典。其次，通过百科语料，使用WordPiece、BPE(Byte Pair Encoding)等算法构造子词词典，在语料足够丰富的情况下，子词词典通常包含了绝大多数字符级别的1-gram和2-gram，其中子词由“##”开头，比如“##able”，“##ab”。最终由整词词典和子词词典共同组成可以用于域名分割的分词词典V_s。在对域名文件中的域名进行分割之后，并根据分割结果构建训练数据的编码向量文件。

在步骤S103中、通过预先训练的词向量模型确定所述编码向量文件的各域名的训练词向量集，以及利用生成模型生成DGA域名的模拟词向量。

在步骤S104中、利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。

在一些实施例中，根据分割结果构建编码向量文件包括：

在步骤S201中、根据分割结果按照前向最大匹配原则，将域名分割为整词和子词的序列片段。

在步骤S202中、按照出现频率高低顺序，基于所述序列片段中出现频率靠前的指定数量的整词或子词，构建向量映射字典V_m。

在步骤S203中、基于所述向量映射字典形成所述编码向量文件。在一些实施例中，基于所述向量映射字典形成所述编码向量文件包括：基于所述向量映射字典，将域名文件中的各域名编码至预设长度，以形成所述编码向量文件。例如可以通过向量映射字典V_m的索引和每条域名的输入序列片段将每条域名编码为维度为字典长度|V_m|的向量，若向量映射字典V_m中的词出现在域名中，该词在向量映射字典V_m中的索引为100，则编码向量在位置100处的值设为1，其余位置值为0，以此来构建训练数据的编码向量文件。

在一些实施例中，所述词向量模型是预先利用无监督学习方法训练获得的。例如可以利用word2vec或Fasttext等无监督学习方法训练词向量，并将词向量模型持久化到设备磁盘，同时还可以读取向量映射字典V_m，并将向量映射字典V_m中各(整)子词以及对应的(整)子词的词向量保存到字典向量文件中。

在一些实施例中，通过预先训练的词向量模型确定所述编码向量文件的各域名的训练词向量集可以包括：通过前述训练的词向量模型计算所述编码向量文件中每个域名的词向量。其中，每个域名词向量的维度为(最大序列长度，嵌入维度)，并将每个域名的词向量保存到训练词向量集中。

利用生成模型生成DGA域名的模拟词向量包括：基于期望分布随机产生对抗样本，并将产生的对抗样本输入所述生成模型，以生成DGA域名的模拟词向量。例如图3所示，可以从均匀分布X～U(0,1)中随机产生对抗样本，其维度为(最大序列长度，嵌入维度)，将对抗样本输入生成模型以生成DGA域名的模拟词向量，其维度为(最大序列长度，嵌入维度)。

在一些实施例中，基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型还包括：通过最近邻算法基于所述向量映射字典，确定与所生成的模拟词向量距离最近的向量所对应的各子词；拼接各子词，生成所需的低随机性的DGA域名。通过这样的方式，可以在对抗训练过程中，生成器生成的词向集可以不断逼近字典中的词向量。由于字典中词是低随机性的，因此基于此进行训练的生成模型所生成的词向量经过最近邻算法和对应的词典解析形成域名(即字符)时，也是低随机性的。基于生成的低随机性的DGA域名可以获得相应的模拟词向量，而无需采集DGA域名。

本公开中所使用的生成模型包括顺次设置的1维转置卷积层、1个全局平均池化层、1个全连接层和3个BatchNormal层。判别模型包括顺次设置的3个1维卷积层、1个全局平均池化层、1个全连接层和1个BatchNormal层。在一些实施例中，利用所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型包括：可以先基于所述训练词向量集中的词向量和所生成的模拟词向量将所述判别模型训练至目标精度。例如图3所示，具体的训练过程可以是基于模拟词向量来完成，可以将训练词向量集中的词向量和模拟的低随机性的DGA域名的词向量集作为输入，来执行训练。其中，模拟词向量集中的模拟词向量可以对应为黑样本(由DGA算法生成的)，所采集的真实的DNS流量的各域名对应的词向量集对应为白样本(正常流量)。然后再基于所述训练词向量集中的词向量和所生成的模拟词向量对所述生成模型和所述判别模型进行轮次训练，直至满足需求。具体的训练过程也可以采用前述方式。通过这样的训练方式，能够迅速训练接近纳什均衡的模型，满足检测需求。

本公开的方法通过构建词典对域名进行分词，而非使用字符的NGram，并使用无监督的方式预先训练词向量，然后基于预训练词向量对抗训练生成模型和判别模型，生成模型通过学习在给定预训练词向量时正常域名中子词的条件分布，可以有效地生成低随机的DGA域名。判别模型通过低随机的样本进行训练，可以有效地检测出低随机性的DGA域名。其次，本公开的方法可以通过生成模型有效地生成低随机性的恶意域名，因此无需收集恶意样本。

本发明实施例还提供一种DGA域名检测方法，如图4所示，包括：

在步骤S401中、获取待检测的DNS流量数据，并提取该DNS流量数据的主域名和顶级域名；

在步骤S402中、基于预先构造的分词词典对该DNS流量数据的主域名和顶级域名进行分割，以确定该DNS流量数据的词向量；

在步骤S403中、将该DNS流量数据的词向量作为输入，利用本公开各实施例所述的对抗训练DGA域名检测模型的方法所训练获得的判别模型对该DNS流量数据进行预测；

在步骤S404中、根据预测结果确定该DNS流量数据是否为DGA域名。例如判别模型的输出该域名为DGA域名的概率p，对于人工设定的阈值k(默认可以设置为0.5)，若p＞k，则判定该域名为DGA算法生成的域名，否则为正常域名。

综上，本公开的方法首先基于向量映射字典训练词向量，然后通过对抗训练的生成模型学习在给定预训练词向量时正常域名中子词的条件分布，使用最近邻算法搜索生成模型生成的词向量与字典向量中距离最近向量所对应的词，由于生成模型生成的域名均由向量映射字典V_m中的子词或整词拼接而成，而向量映射字典V_m中的词均由正常单词或单词的一部分构成，字典中的词都具有较低的随机性，因此此时生成模型可以生成与正常域名高度相似的低随机性DGA域名，同时通过使用低随机性DAG域名对抗训练的判别模型可以有效地检测出由生成模型生成的低随机性DGA域名。

本发明实施例还提供一种对抗训练DGA域名检测模型的装置，包括处理器，被配置为：

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本公开各实施例所述的方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种对抗训练DGA域名检测模型的方法，其特征在于，包括：

通过预先训练的词向量模型确定所述编码向量文件的各域名的训练词向量集，以及利用生成模型生成DGA域名的模拟词向量；

基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型。

2.如权利要求1所述的对抗训练DGA域名检测模型的方法，其特征在于，根据分割结果构建编码向量文件包括：

基于所述向量映射字典形成所述编码向量文件。

3.如权利要求2所述的对抗训练DGA域名检测模型的方法，其特征在于，基于所述向量映射字典形成所述编码向量文件包括：

4.如权利要求2所述的对抗训练DGA域名检测模型的方法，其特征在于，所述词向量模型是预先利用无监督学习方法训练获得的。

5.如权利要求2所述的对抗训练DGA域名检测模型的方法，其特征在于，利用生成模型生成DGA域名的模拟词向量包括：

6.如权利要求5所述的对抗训练DGA域名检测模型的方法，其特征在于，基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型还包括：

拼接各子词，生成所需的DGA域名。

7.如权利要求5所述的对抗训练DGA域名检测模型的方法，其特征在于，基于所述训练词向量集中的词向量和所生成的模拟词向量训练判别模型和所述生成模型包括：

8.一种DGA域名检测方法，其特征在于，包括：

将该DNS流量数据的词向量作为输入，利用如权利要求1-7任一项所述的对抗训练DGA域名检测模型的方法所训练获得的判别模型对该DNS流量数据进行预测；

根据预测结果确定该DNS流量数据是否为DGA域名。

9.一种对抗训练DGA域名检测模型的装置，其特征在于，包括处理器，被配置为：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。