CN111935099A

CN111935099A - 一种基于深度降噪自编码网络的恶意域名检测方法

Info

Publication number: CN111935099A
Application number: CN202010686940.6A
Authority: CN
Inventors: 赵宏; 王伟杰; 孔东一; 岳鲁鹏; 郭岚; 郑厚泽; 傅兆阳; 刘璐; 常有康; 党育; 马栋林
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-13

Abstract

本发明公开了一种基于深度降噪自编码网络的恶意域名检测方法，包括步骤：构造单层自编码网络，将输入数据压缩后重构输出，通过输入与输出数据之间的误差，训练单层自编码网络；在单层自编码网络的输入数据中加入噪声，通过学习输入数据与输出数据之间的误差，去除噪声，形成单层降噪自编码网络；通过叠加多个单层降噪自编码网络，构造深度降噪自编码网络；逐层训练深度降噪自编码网络，对域名的分布式表征进行逐层压缩，提取域名的多维字符特征；根据深度降噪自编码网络提取的域名的多维字符特征，使用随机森林分类算法对待测域名进行检测，识别其中的恶意域名。本发明可以实现广谱恶意域名的检测，具有检测精度高、误报与漏报率低等优点。

Description

一种基于深度降噪自编码网络的恶意域名检测方法

技术领域

本发明涉及网络安全领域，尤其涉及一种基于深度降噪自编码网络的恶意域名检测方法。

背景技术

互联网技术的快速发展给人们的工作和生活带来了许多便利，其中的域名系统DNS(Domain Name System)作为互联网中实现域名与IP地址相互转换的一种基础服务，得到了广泛应用。很多网络安全设施都会允许DNS的数据报文通过，正是由于这个原因，DNS受到了攻击者的广泛关注。如美国电力公司遭受DDoS攻击，导致通信设备中断12小时，造成经济损失上百万美元；某飞机零部件供应商遭遇勒索攻击，导致多条生产线停产，损失严重。因此，恶意域名的危害不容小视。

现有的恶意域名检测方法大多采用单一字符特征或部分字符特征的组合进行段模式匹配，识别并过滤恶意域名。但该类恶意域名检测方法仅能针对性地检测某类恶意域名，对于其他恶意域名的检测，检测精度低、误报与漏报率高。

发明内容

为克服现有恶意域名检测方法检测精度低、误报与漏报率高的不足，本发明提出一种基于深度降噪自编码网络的恶意域名检测方法，用于对广谱恶意域名进行高效的检测。

本发明的技术方案是这样实现的：

一种基于深度降噪自编码网络的恶意域名检测方法，包括步骤：

S1：将域名的分布式表征作为输入，构造单层自编码网络，将输入数据压缩后重构输出，通过输入与输出数据之间的误差，训练单层自编码网络；

S2：在单层自编码网络的输入数据中加入噪声，通过学习输入数据与网络输出数据之间的误差，去除噪声，形成单层降噪自编码网络；

S3：通过叠加多个单层降噪自编码网络，构造深度降噪自编码网络；

S4：逐层训练深度降噪自编码网络，对域名的分布式表征进行逐层压缩，提取域名的多维字符特征；

S5：根据深度降噪自编码网络提取的域名的多维字符特征，使用随机森林分类算法对待测域名进行检测，识别恶意域名。

进一步地，步骤S1中所述的单层自编码网络的构造与训练包括步骤：编码和解码，编码和解码的计算如公式(1)和公式(2)所示：

h＝f(x)＝σ₁(Wx+p) (1)

其中，f和g分别表示编码阶段和解码阶段的映射函数；x和

分别表示网络的输入和输出；h为压缩后的数据；W和p分别表示编码阶段的权重和偏置；W^T和q分别表示解码阶段的权重和偏置；σ₁和σ₂分别表示编码和解码阶段的激活函数。

进一步地，步骤S1所述的输入与输出数据之间的误差采用均方误差损失函数，计算如公式(3)所示。

其中，

表示输入数据x与输出数据

之间的误差，m表示训练样本的个数。

进一步地，步骤S2所述的单层降噪自编码网络利用随机映射函数将输入域名的某一字符进行随机替换，形成噪声，训练单层降噪自编码网络，增强网络的鲁棒性。

进一步地，步骤S4中深度降噪自编码网络通过逐层训练，对输入域名的分布式表征数据进行逐层压缩，提取域名的多维字符特征，深度降噪自编码网络构造与训练实现包括步骤

S41：按照单层降噪自编码网络的训练方式进行无监督训练，得到第一层网络的参数，然后将第一层网络的输出作为第二层网络的输入，以同样的无监督训练方法对第二层网络进行训练，得到第二层网络的参数，以此类推，对网络的其余层进行训练，得到这些层的参数；

S42：在深度降噪自编码网络的末层加装分类器，将深度降噪自编码网络的末层输出作为分类器的输入，对域名进行正常域名和恶意域名的分类；

S43：利用带标签域名对深度降噪自编码网络进行有监督训练，优化网络各层参数，提高域名多维字符特征提取的准确率。

进一步地，步骤S4中所述的多维字符特征为基于域名字符特征的恶意域名检测算法中常用的18维字符特征。

进一步地，步骤S5所述的随机森林分类算法实现包括步骤

S51：用n表示训练样本总个数，m表示提取的域名字符特征个数；

S52：输入域名字符特征数目m′，用于确定决策树上一个节点的决策结果，其中m′小于m；

S53：从n个训练样本中以有放回抽样的方式，取样n次，形成一个训练集，并用未抽到的样本作预测，评估决策误差；

S54：对于每一个节点，随机选择m′个特征，决策树上每个节点的决定都是基于该类特征，根据选择的m′个特征，计算最佳的分裂方式。

进一步地，步骤S1所述的单层自编码网络构造过程中考虑到输入层神经元个数完全等于输出层神经元个数，极易导致输出直接复制输入信息的情形出现，因此，在误差损失函数后加入稀疏性限制，计算如公式(4)所示。

其中，

表示稀疏性限制，ω为正则约束项权重，

表示正则约束项。

本发明的有益效果在于，与现有技术相比，本发明为恶意域名的检测提供了一种新思路，丰富了恶意域名的检测手段，可以实现广谱恶意域名的检测，具有检测精度高、误报与漏报率低等优点。

附图说明

图1是本发明一种基于深度降噪自编码网络的恶意域名检测方法流程图；

图2是应用本发明进行恶意域名检测的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的技术方案思路是：将域名的分布式表征作为输入，构造单层自编码网络，并在网络的输入数据中加入噪声，通过学习原始输入数据与网络输出数据之间的误差，去除噪声，形成单层降噪自编码网络，增强网络的鲁棒性，其次，通过叠加多个单层降噪自编码网络，构造深度降噪自编码网络，对域名的分布式表征进行逐层压缩，提取域名的多维字符特征，最后，根据提取的多维字符特征并结合随机森林分类算法对待测域名进行检测，识别并过滤掉其中的恶意域名。

请参见图1，本发明一种基于深度降噪自编码网络的恶意域名检测方法，包括步骤

S4：逐层深度训练降噪自编码网络，对域名的分布式表征进行逐层压缩，提取域名的多维字符特征；

其中，在步骤S1中，将域名的分布式表征作为输入，构造单层自编码网络，其中，所述的自编码网络构造包括编码和解码两个阶段。编码和解码的计算如公式(1)和公式(2)所示，所述的单层自编码网络构造过程中考虑到输入层神经元个数完全等于输出层神经元个数，极易导致输出直接复制输入信息情形的发生，因此在误差损失函数后加入稀疏性限制，计算如公式(3)所示。

h＝f(x)＝σ₁(Wx+p) (1)

其中，f和g分别表示编码阶段和解码阶段的映射函数；x和

其中，

表示稀疏性限制，ω为正则约束项权重，

表示正则约束项。

在步骤S2中，在单层自编码网络的输入数据中加入噪声，通过学习原始输入数据与网络输出数据之间的误差，去除噪声，形成单层降噪自编码网络，增强网络的鲁棒性，其中，所述的单层降噪自编码网络利用随机映射函数将输入域名的某一字符随机替换，形成噪声，训练单层自编码网络，所述的误差采用均方误差损失函数，计算如公式(4)所示。

其中，

表示原始输入数据x与目标数据

之间的重构误差，m表示训练样本的个数。

在步骤S4中进行深度降噪自编码网络的训练，逐层训练网络，对域名的分布式表征进行逐层压缩，提取域名的多维字符特征，所述的多维字符特征为基于域名字符特征的恶意域名检测算法中常用的18维字符特征。

对深度降噪自编码网络构造与训练实现包括步骤

请参见图2，在应用本发明进行恶意域名检测时，随机森林分类算法实现包括步骤

S52：输入域名字符特征数目m′，用于确定决策树上一个节点的决策结果，其中m′应小于m；

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于深度降噪自编码网络的恶意域名检测方法，其特征在于，包括步骤

S2：在单层自编码网络的输入数据中加入噪声，通过学习输入数据与输出数据之间的误差，去除噪声，形成单层降噪自编码网络；

S5：根据深度降噪自编码网络提取的域名的多维字符特征，使用随机森林分类算法对待测域名进行检测，识别其中的恶意域名。

2.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法，其特征在于，步骤S1中所述的单层自编码网络的构造与训练包括步骤：编码和解码，编码和解码的计算如公式(1)和公式(2)所示：

h＝f(x)＝σ₁(Wx+p) (1)

其中，f和g分别表示编码阶段和解码阶段的映射函数；x和

3.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法，其特征在于，步骤S1所述的输入与输出数据之间的误差采用均方误差损失函数，计算如公式(3)所示：

其中，

表示输入数据x与输出数据

之间的误差，m表示训练样本的个数。

4.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法，其特征在于，步骤S2所述的单层自编码网络利用随机映射函数将输入域名的某一字符进行随机替换，形成噪声，训练单层降噪自编码网络，增强网络的鲁棒性。

5.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法，其特征在于，步骤S4中深度降噪自编码网络通过逐层训练，对输入域名的分布式表征数据进行逐层压缩，提取域名的多维字符特征，深度降噪自编码网络构造与训练实现包括步骤

6.如权利要求1或6所述的基于深度降噪自编码网络的恶意域名检测方法，其特征在于，步骤S4中所述的多维字符特征为18维字符特征。

7.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法，其特征在于，步骤S5所述的随机森林分类算法实现包括步骤