CN113726730A

CN113726730A - 基于深度学习算法的dga域名检测方法及系统

Info

Publication number: CN113726730A
Application number: CN202110792490.3A
Authority: CN
Inventors: 李宁; 刘子雁; 倪金超; 崔博; 曲延盛; 李明; 张丞; 王云霄; 韩兴旺; 孔汉章
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-30

Abstract

本发明提供了基于深度学习算法的DGA域名检测方法及系统，方法包括对获取的DGA域名数据进行预处理，将DGA域名数据形成字符嵌入向量序列；获取所述字符嵌入向量序列中的局部特征向量和全局特征向量，并将所述局部特征向量和全局特征向量进行拼接，得到DGA域名表示向量；基于多层感知机层的神经网络，对所述DGA域名表示向量进行多层传递，得到DGA域名所属类别的概率值。本发明以域名字符串数据为基础，引入一维卷积神经网络和自注意力机制，分别用来获取域名字符串中的局部特征向量和全局特征向量，并形成域名表示向量，对域名表示向量进行多层传递，得到DGA域名所属类别的概率值，相比于现有方法，具有更加优异的准确率和召回率。

Description

基于深度学习算法的DGA域名检测方法及系统

技术领域

本发明涉及网络安全技术领域，尤其是一种基于深度学习算法的DGA域名检测方法及系统。

背景技术

互联网信息技术的普及，为人们提供了极大的便利。但是开放的网络和标准化的软、硬件设施也带来了诸多的潜在安全威胁。比较常见的恶意程序，如病毒、蠕虫和木马等，会窃取个人用户数据、破坏系统程序，实现对网络设备的攻击。恶意程序进入目标系统后，通过感染大量设备形成僵尸网络(Botnets)，僵尸网络利用域名生成算法(DomainGeneration Algorithm，DGA)随机产生一系列虚假域名。僵尸网络通过不断查询DGA域名，接受来自指挥和控制中心(Command and Control，C&C)的进一步破坏指令，对个人和企业的信息安全构成严重威胁。

DGA域名检测是指从众多域名中，识别出用于僵尸网络与控制中心通信的虚假域名，通过对DGA域名进行检测和有针对性的防御，切断恶意程序与控制中心的连接，阻止恶意程序对系统的进一步破坏。随着机器学习以及深度学习技术的不断发展，通过数据挖掘的方法进行DGA域名检测成为近年来研究热点。根据所用方法和技术的不同，DGA域名检测大致可分为两类：基于特征工程的机器学习方法、基于深度学习算法的字符序列建模方法。基于特征工程的机器学习方法的主要工作是进行DGA相关特征的提取。例如，从DNS(DomainName System，域名系统)数据中提取时间、DNS响应、TTL(Time To Live，生存时间值)、域名文本等相关特征，并基于机器学习算法构建域名分类检测模型。此外，通过对Alexa数据集中的10万个正常域名进行词法模式和发音规则分析，还可以提取字符分布模板相关特征、字符结构模板相关特征和单词发音相关特征，随后基于随机森林、逻辑回归、支持向量机等相关机器学习算法实现对DGA域名的检测。

近年来，深度学习算法在众多领域取得了突破性的进展。相比于基于特征工程的DGA域名检测算法，深度学习算法能够自动地实现域名特征提取，避免了人为选择特征对检测结果的扰动。然而目前使用的算法检测结果的准确度均不高。

发明内容

本发明提供了基于深度学习算法的DGA域名检测方法及系统，用于解决现有DGA域名检测方法准确率低的问题。

为实现上述目的，本发明采用下述技术方案：

本发明第一方面提供了一种基于深度学习算法的DGA域名检测方法，所述方法包括以下步骤：

对获取的DGA域名数据进行预处理，将DGA域名数据形成字符嵌入向量序列；

获取所述字符嵌入向量序列中的局部特征向量和全局特征向量，并将所述局部特征向量和全局特征向量进行拼接，得到DGA域名表示向量；

基于多层感知机层的神经网络，对所述DGA域名表示向量进行多层传递，得到DGA域名所属类别的概率值。

进一步地，所述对获取的DGA域名数据进行预处理的过程为：

将所述DGA域名数据进行来源标注，得到域名字符串数据，并形成域名数据集；

将所述域名字符串数据集中的各域名进行拆分，形成字符序列，并对所述字符序列填充为固定长度；

将固定长度的字符序列进行独热编码，形成字符嵌入向量序列。

进一步地，所述局部特征向量的获取过程为：

对所述字符嵌入向量序列进行卷积操作，不断滑动卷积核，得到不同的特征映射向量，将所述不同的特征映射向量输入到最大池化层中，提取最大值，作为局部特征；

改变卷积核的参数，重复上一步的操作，得到多个局部特征；

将得到的所述多个局部特征进行组合，得到局部特征向量。

进一步地，所述卷积核的参数具体为：

其中卷积核尺寸分别设置为2,3,4和5。

进一步地，所述全局特征向量的获取过程为：

将所述字符嵌入向量序列映射到不同的向量空间，所述向量空间包括查询向量、键向量和值向量；

利用缩放点积的形式，对所述向量空间计算注意力机制，得到自注意力机制输出向量序列，

将所有DGA域名得到的对应自注意力机制输出向量进行拼接，得到全局特征向量。

进一步地，所述多层感知机层的神经网络包括输入层、第一隐层、第二隐层、第三隐层和输出层。

本发明第二方面提供了一种基于深度学习算法的DGA域名检测系统，所述系统包括：

数据预处理模块，用于对获取的DGA域名数据进行预处理，将DGA域名数据形成字符嵌入向量序列；

特征捕获模块，用于获取所述字符嵌入向量序列中的局部特征向量和全局特征向量，并将所述局部特征向量和全局特征向量进行拼接，得到DGA域名表示向量；

检测模块，基于多层感知机层的神经网络，对所述DGA域名表示向量进行多层传递，得到DGA域名所属类别的概率值。

进一步地，所述数据预处理模块包括：

第一预处理单元，用于将所述DGA域名数据进行来源标注，得到域名字符串数据，并形成域名数据集；

第二预处理单元，用于将所述域名字符串数据集中的各域名进行拆分，形成字符序列，并对所述字符序列填充为固定长度；

第三预处理单元，用于将固定长度的字符序列进行独热编码，形成字符嵌入向量序列。

进一步地，所述特征捕获模块包括：

局部特征捕获单元，对所述字符嵌入向量序列进行卷积操作，不断滑动卷积核，得到不同的特征映射向量，将所述不同的特征映射向量输入到最大池化层中，提取最大值，作为局部特征；改变卷积核的参数，得到多个局部特征；将得到的所述多个局部特征进行组合，得到局部特征向量；

全局特征捕获单元，将所述字符嵌入向量序列映射到不同的向量空间，利用缩放点积的形式，对所述向量空间计算注意力机制，得到自注意力机制输出向量序列，将所有DGA域名得到的对应自注意力机制输出向量进行拼接，得到全局特征向量。

本发明第三方面提供了一种计算机存储介质，所述计算机存储介质中存储有计算机指令，所述计算机指令在所述的DGA域名检测系统上运行时，使所述系统执行所述的DGA域名检测方法的步骤。

本发明第二方面的所述DGA域名检测系统能够实现第一方面及第一方面的各实现方式中的方法，并取得相同的效果。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

1、本发明以域名字符串数据为基础，将所述域名字符串拆分成字符序列，进而利用字符嵌入将字符序列转换成字符向量序列，引入一维卷积神经网络和自注意力机制，分别用来获取域名字符串中的局部特征向量和全局特征向量，并形成域名表示向量，对域名表示向量进行多层传递，得到DGA域名所属类别的概率值，相比于现有方法，具有更加优异的准确率和召回率。

2、本发明考虑到域名表示向量可能包含杂质特征，引入一个多层感知机制，实现域名表示向量的进一步特征提取，提高DGA域名检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述方法的流程示意图；

图2是本发明所述方法其一实现方式的流程示意图；

图3是本发明所述系统的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1、2所示，本发明提供了一种基于深度学习算法的DGA域名检测方法，包括以下步骤：

S1,对获取的DGA域名数据进行预处理，将DGA域名数据形成字符嵌入向量序列；

S2,获取所述字符嵌入向量序列中的局部特征向量和全局特征向量，并将所述局部特征向量和全局特征向量进行拼接，得到DGA域名表示向量；

S3,基于多层感知机层的神经网络，对所述DGA域名表示向量进行多层传递，得到DGA域名所属类别的概率值。

步骤S1中，获取的域名数据包含DGA虚假域名数据和Alexa正常域名数据。所述对获取的DGA域名数据进行预处理的过程为：

S11,将所述DGA域名数据进行来源标注，得到域名字符串数据，并形成域名数据集；来源标注具体是以域名字符串为输入，对其进行来源标注操作，输出标注后的域名字符串数据。

对于某在线平台获取的域名数据为应用实例，分别获取DGA虚假域名数据和Alexa正常域名数据，如表1所示，为域名数据集。

表1

S12，将所述域名字符串数据集中的各域名进行拆分，形成字符序列，并对所述字符序列填充为固定长度；将域名数据集中的各个域名拆分成由单个英文单词、数字组成的字符序列，然后通过填充操作，对具有不同长度的字符序列的末尾位置填补成0。令X＝[x₀，x₁，x₂，…，x_N]表示定长的域名字符序列，其中x_i表示字符序列中的第i个字符，N表示序列固定长度值。

S13，将固定长度的字符序列进行独热编码，形成字符嵌入向量序列。具体为：将步骤S12中得到的域名字符序列X表示为字符嵌入向量序列

其中D为字符嵌入向量特征维度。

步骤S2中，基于字符嵌入向量序列

引入一维卷积神经网络和自注意力机制，分别用来捕获域名字符序列中的局部特征和全局特征。

所述局部特征向量的获取过程为：

对所述字符嵌入向量序列进行如下卷积操作：

c_i＝f(W_[d，h]·X_i:i+h-1+b) (1)

其中，W_[d，h]是宽度为d、高度为h的卷积核；b为偏置向量；X_i:i+h-1表示第i个滑动窗口内的字符向量序列；f为Sigmoid激活函数。

不断滑动卷积核，得到对应卷积核下的特征映射向量c＝[c₀，c₀，c₀，…，c_n-h+1]。将该特征映射向量c输入到最大池化层，提取特征映射向量中的最大值，以保留显著特征。具体表示为；

c_max＝MaxPooling(c) (2)

其中c_max表示使用卷积核W_[d，h]提取到的字符序列中的最显著特征。

为了能够提取域名字符序列中不同的局部特征，本实施例中设计了如表2所示的一维卷积神经网络结构，改变卷积核的参数尺寸h，重复上一步的操作，得到多个局部特征；

通过将不同卷积核最大池化层输出特征拼接在一起，得到该卷积核尺寸下的输出向量o_h。

表2

将不同卷积核尺寸下的输出向量拼接在一起，得到最终的一维卷积神经网络输出向量o_conv：

该输出向量o_conv即为一维卷积神经网络获取的域名局部特征向量。

自注意力模型采用查询-键-值(Query-Key-Value，QKV)模式进行注意力得分计算。与局部特征提取相同的是，全局特征提取模块输入序列也为

所述全局特征向量的获取过程为：

将所述字符嵌入向量序列映射到不同的向量空间，所述向量空间包括查询向量、键向量和值向量，具体为：

W_q，W_k，W_v分别为查询-键-值的线性映射参数矩阵；Q，K，V分别为由查询向量、键向量和值向量组成的矩阵。

利用缩放点积的形式，对所述向量空间计算注意力机制，得到自注意力机制输出向量序列。缩放点积的形式计算注意力得分，具体为：

其中，softmax是一种归一化函数，用于将向量中的各个元素进行归一化操作；D表示向量嵌入维度；H＝[h₀，h₁，h₂，…，h_N]为自注意力机制输出向量序列，N表示序列长度。

将所有DGA域名得到的对应自注意力机制输出向量进行拼接，得到全局特征向量。将以上输出序列中的所有向量进行拼接，得到最终的自注意力神经网络输出向量o_sa：

该输出向量o_sa即为自注意力机制获取的域名全局特征向量。

基于得到的局部特征o_conv向量和全局特征向量o_sa，得到最终的域名表示向量，如下：

步骤S3中，基于域名表示向量o_domain，设计多层感知机层，对域名表示向量进行多层传递，得到最终的输入域名所属类别的概率值。该多层感知机由输入层、第一隐层、第二隐层、第三隐层、输出层组成，其中各层神经元的激活函数个数分别为512、256、64、21。其中21为数据集中的所有域名类别个数。

将域名数据集按照8∶1∶1的比例划分为训练集、验证集和测试集，其中训练集用来进行模型训练，验证集用来进行超参数确定，测试集用来验证模型性能。表3展示了我们的方法与现有方法的实验结果对比。

表3

选择一维卷积神经网络和注意力机制分别作为我们实验的对比模型，评价指标为精确率(precision)、召回率(recall)。表格第一栏为域名所属不同的类别。基于表3中的对比结果可知，本实施例所提出的基于深度学习算法的DGA域名检测方法在大多数类别上取得了比对比模型更优异的准确率和召回率。

如图3所示，本发明还提供了一种基于深度学习算法的DGA域名检测系统，所述系统包括数据预处理模块1、特征捕获模块2和检测模块3。

数据预处理模块1用于对获取的DGA域名数据进行预处理，将DGA域名数据形成字符嵌入向量序列；特征捕获模块2用于获取所述字符嵌入向量序列中的局部特征向量和全局特征向量，并将所述局部特征向量和全局特征向量进行拼接，得到DGA域名表示向量；检测模块3基于多层感知机层的神经网络，对所述DGA域名表示向量进行多层传递，得到DGA域名所属类别的概率值。

所述数据预处理模块1包括第一预处理单元、第二预处理单元和第三预处理单元。

第一预处理单元用于将所述DGA域名数据进行来源标注，得到域名字符串数据，并形成域名数据集；第二预处理单元用于将所述域名字符串数据集中的各域名进行拆分，形成字符序列，并对所述字符序列填充为固定长度；第三预处理单元用于将固定长度的字符序列进行独热编码，形成字符嵌入向量序列。

所述特征捕获模块包括局部特征捕获单元和全局特征捕获单元。

局部特征捕获单元对所述字符嵌入向量序列进行卷积操作，不断滑动卷积核，得到不同的特征映射向量，将所述不同的特征映射向量输入到最大池化层中，提取最大值，作为局部特征；改变卷积核的参数，得到多个局部特征；将得到的所述多个局部特征进行组合，得到局部特征向量；

全局特征捕获单元将所述字符嵌入向量序列映射到不同的向量空间，利用缩放点积的形式，对所述向量空间计算注意力机制，得到自注意力机制输出向量序列，将所有DGA域名得到的对应自注意力机制输出向量进行拼接，得到全局特征向量。

本发明还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机指令，所述计算机指令在所述的DGA域名检测系统上运行时，使所述系统执行所述的DGA域名检测方法的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度学习算法的DGA域名检测方法，其特征是，所述方法包括以下步骤：

2.根据权利要求1所述基于深度学习算法的DGA域名检测方法，其特征是，所述对获取的DGA域名数据进行预处理的过程为：

3.根据权利要求1所述基于深度学习算法的DGA域名检测方法，其特征是，所述局部特征向量的获取过程为：

将得到的所述多个局部特征进行组合，得到局部特征向量。

4.根据权利要求3所述基于深度学习算法的DGA域名检测方法，其特征是，所述卷积核的参数具体为：

其中卷积核尺寸分别设置为2,3,4和5。

5.根据权利要求1所述基于深度学习算法的DGA域名检测方法，其特征是，所述全局特征向量的获取过程为：

6.根据权利要求1所述基于深度学习算法的DGA域名检测方法，其特征是，所述多层感知机层的神经网络包括输入层、第一隐层、第二隐层、第三隐层和输出层。

7.一种基于深度学习算法的DGA域名检测系统，其特征是，所述系统包括：

8.根据权利要求7所述基于深度学习算法的DGA域名检测系统，其特征是，所述数据预处理模块包括：

9.根据权利要求7所述基于深度学习算法的DGA域名检测系统，其特征是，所述特征捕获模块包括：

10.一种计算机存储介质，所述计算机存储介质中存储有计算机指令，其特征是，所述计算机指令在权利要求7-9任一项所述的DGA域名检测系统上运行时，使所述系统执行如权利要求1-5任一项所述的DGA域名检测方法的步骤。