CN113709152A

CN113709152A - 一种具备高抗检测能力的对抗域名生成模型

Info

Publication number: CN113709152A
Application number: CN202110991233.2A
Authority: CN
Inventors: 胡晓艳; 陈浩; 程光; 吴桦; 龚俭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-26
Anticipated expiration: 2041-08-26
Also published as: CN113709152B

Abstract

本发明提供了一种具备高抗检测能力的对抗域名生成模型，模型由三个部分组成，分别是良性域名建模器，候选域名合成器，无效域名筛选器。良性域名建模器是利用自回归和LSTM对良性域名建立统计学模型，挖掘隐藏在良性域名字符间的相关关系；候选域名合成器是根据建立的统计学模型对输入的良性域名进行字符替换，随机从输入的良性域名中挑选两个位置，利用模型计算替换的字符，完成替换，从而生成新的域名；无效域名筛选器是从上一步骤生成的域名列表中剔除无法使用的域名，最后剩下的域名便是符合使用要求的域名。本发明生成的对抗域名具备很高的抗检测能力，能够误导DGA域名检测器做出错误的分类；同时本发明生成域名的重复率和碰撞率都非常低，实用性很强。

Description

一种具备高抗检测能力的对抗域名生成模型

技术领域

本发明属于网络空间安全技术领域，涉及一种具备高抗检测能力的对抗域名生成模型。

背景技术

僵尸网络是常见的网络攻击之一，其设计目的是窃取受感染受害者的敏感信息、发送恶意邮件并进行分布式拒绝服务(DDoS)。攻击的前提是在受感染的受害者(僵尸)和命令与控制(C&C)服务器之间建立可靠的连接，以便botmaster可以操纵这些受害者。僵尸和C&C服务器之间通过域名建立连接。域名生成算法(DGA)是可以生成一组伪随机域名(每天几十到几万个)的算法，可以有效躲避黑名单对僵尸和C&C服务器之间建立连接的防御。因此，相比使用固定的域名池来建立通信通道，使用DGA生成的域名更具吸引力。

在过去的几年中，研究人员对DGA生成的域名的自动检测方法进行了大量研究。这些方法可以分为两类，一类是基于人工设计特征的传统机器学习，一类是端到端的深度学习。与传统机器学习相比，深度学习普遍具有更高的检测性能。此外，基于深度学习的检测器可以满足实时检测的要求。因此，基于深度学习的检测方法近年来得到了大量研究，并取得了一系列显着的成果。

同时，深度学习不仅可以被防御者用于DGA检测，也可以被攻击者用于DGA生成。一场军备竞赛正在上演。近年来，深度学习与域名生成算法的结合越来越流行，并提出了一系列用于逃避DGA检测的对抗性域名生成技术。然而目前已有的一些尝试不仅只能达到较为有限的抗检测能力，而且在面对对抗再训练技术时，其抗检测能力进一步被削弱，无法有效躲避DGA检测器的检测。

因此，我们提出了一种基于自回归和长短期记忆(LSTM)网络的具有高抗检测能力的对抗性DGA，该模型不需要目标DGA分类器的知识。它首先使用自回归和LSTM建立良性域名的统计模型，对隐藏在良性域名中的语义关系进行建模，然后根据统计模型替换输入良性域名的某些字符，以最大化良性域名和生成域名之间的相似度。.

发明内容

为了探寻目前已有DGA检测器的缺陷，本发明提出了一种具备高抗检测能力的对抗域名生成算法。该算法是基于自回归和LSTM网络的，其不需要目标DGA分类器的知识。它首先使用自回归和LSTM建立良性域名的统计模型，对隐藏在良性域名中的语义关系进行建模，然后根据统计模型替换输入良性域名的某些字符，以最大化良性域名和生成域名之间的相似度。

为了达到上述目的，本发明提供如下技术方案：

一种具备高抗检测能力的对抗域名生成模型，包括如下步骤：

(1)采集用于模型训练的良性域名数据集和整理常见的TLD列表并保存；

(2)从采集到的数据中提取能够用于模型训练的子域名，接着使用处理后的数据集，进行深度学习的模型训练；

(3)利用步骤(2)中训练获得的深度学习模型对输入的良性域名列表进行字符替换，生成候选的域名列表；

(4)根据设定的规则对步骤(3)生成的候选域名列表进行筛选工作，剔除不满足使用要求的域名。

进一步，所述步骤(1)具体包括如下子步骤：

(1.1)在网站上下载Alexa数据集；

(1.2)从Alexa数据集中提取出每个域名的TLD；

(1.3)从提取中得到的TLD列表中删除重复的TLD；

(1.4)根据每个TLD在Alexa数据集中出现的次数对列表里的TLD进行排序；

(1.5)从排序好的TLD列表中选取前30个TLD作为常见TLD列表；

进一步，所述步骤(2)具体包括如下子步骤：

(2.1)首先对步骤1中下载的良性域名数据集的中的域名数据进行处理，提取每个域名的SLD作为模型训练使用的良性域名字符串；

(2.2)使用自回归的思想对域名进行建模，即使用如下的公式来表示隐藏在良性域名字符之间的相关关系；

其中：W_t代表位于域名的第t个字符；

代表域名前t-1个字符组成的一个子序列；

(2.3)使用Onehot技术对良性域名字符串进行编码，获得良性域名向量数据集；

(2.4)使用LSTM搭建神经网络模型，LSTM网络的计算公式如下：

f_t＝σ(x_t·U^f+h_t-1·W^f)

i_t＝σ(x_t·Uⁱ+h_t-1·Wⁱ)

o_t＝σ(x_t·U^o+h_t-1·W^o)

C_t′＝tanh(x_t·U^c+h_t-1·W^c)

C_t＝(f_t·C_t-1+i_t·C_t′)

h_t＝tanh(C_t)·o_t

式中：f_t代表t时刻遗忘门f的输出；σ代表Sigmoid函数；x_t代表t时刻网络的输入；

U^f代表遗忘门网络层的偏差值；h_t-1代表t-1时刻网络隐藏层的输出；

W^f代表遗忘门网络层的参数值；i_t代表t时刻输入门i的输入；

o_t代表t时刻输出门o的输出；C_t′代表t时刻长记忆的中间值；

C_t代表t时刻长记忆的值；h_t代表t时刻网络隐藏层的值；

(2.5)使用MSE函数作为损失函数，通过不断训练迭代降低损失，MSE函数的计算如下：

(2.6)对搭建的神经网络模型，每个输入的X_i可以计算得到一个Y_i，而网络的目标是Y_i和X_i-1之间的损失尽可能的小；

(2.7)利用编码后的良性域名向量进行深度学习模型的训练；

进一步，所述步骤(2.3)具体包括如下子步骤：

(2.3.1)首先统计所有出现在良性域名字符串中的字符，获得可选字符列表，可选字符的数量是n；

(2.3.2)使用字典存贮这些可选字符，每个字符对应一个数字(1-n)；

(2.3.3)使用长度为n的向量来表示每个字符，向量中字符对应数字的位置出为1，其余位置为0；

(2.3.4)将每个域名字符串转化后的向量补齐到相同长度，以最长域名字符串的长度为准，补齐的向量是长度为n的全0向量；

进一步的，所述步骤(2.3.2)所生成的字典对应关系如下：

进一步的，所述步骤(2.4)具体包括如下子步骤：

(2.4.1)使用Pytorch框架进行神经网络模型的搭建；

(2.4.2)LSTM的层数设置为4，节点数设置为128；

(2.4.3)Dropout比率设置为0.2；

进一步，所述步骤(2.5)具体包括如下子步骤：

(2.5.1)训练过成中使用的Batchsize设置为1024；

(2.5.2)训练过程中使用的优化算法为Adam算法；

进一步，所述步骤(3)具体包括如下子步骤：

(3.1)根据输入的随机数种子，从处理后的良性域名列表中挑选一个域名；

(3.2)从选定的域名中随机挑选两个位置P1和P2(P1＜P2)，对应的字符为C1和C2；

(3.3)利用权利要求1步骤(2)建立的良性域名统计学模型M，对选中域名位置P1和P2处的字符C1和C2进行替换；

(3.4)根据随机数种子从TLD列表中选择一个TLD，添加在完成字符替换的新域名后，生成完整的新域名。

进一步的，所述步骤(3.1)具体包括如下子步骤：

(3.1.1)随机数种子是当前时间进行Hash运算后得到的数字；

(3.1.2)使用随机数种子对良性域名列表长度进行取余操作，余数就指代良性域名列表中被选择域名的位置；

进一步，所述步骤(3.3)具体包括如下子步骤：

(3.3.1)首先将位置P1之前的字符子序列输入统计学模型M，M输出向量X1，根据X1算出替换的字符C1′；

(3.3.2)若计算的到C1′和C1相等，便将向量X1中最大值所在位置设置为0，重新计算得到新的C1′；

(3.3.3)使用C1′替换原始的字符C1；

(3.3.4)然后将替换后域名位置P2之前的字符子序列输入统计学模型M，使用根据M的输出向量计算得到的字符C2′替换字符C2。

(3.3.5)若计算的到C2′和C2相等，便将向量X2中最大值所在位置设置为0，重新计算得到新的C2′；

进一步的，所述步骤(3.3.1)中根据向量X1计算替换字符C1′的过程是X1种最大值所在位置对应的字符即是替换字符C1′；

进一步，所述步骤(4)具体包括如下子步骤：

(4.1)从候选域名中删除所有不符合RFC 1034和RFC 1035文档规范的域名；

(4.2)从候选域名中删除所有SLD长度小于4的域名；

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明是基于自回归思想的黑盒模型，不需要知道对应的DGA检测器的知识便能够实施对抗攻击，且模型在训练过程中无需使用DGA恶意域名，只需要使用良性域名即可。

(2)本发明生成的域名具备更高的抗检测能力，目前最佳的DGA检测器的准确率为0.5078，F1-Score为0.0349；即使引入对抗再训练技术时，其抗检测能力基本不会被削弱，准确率为0.5258，相比目前已有的生成算法表现出最佳的性能。

(3)本发明生成域名中域名重复的概率和已经被注册的概率都是最低的，其重复率和碰撞率分别是0.02％和0.00％，相比目前已有的生成算法在实际使用时具备更高的效率，消耗的代价更小，表现出强大的实用性。

附图说明

图1为本发明提供的对抗域名生成模型的框架。

图2为深度学习模型使用的LSTM网络的结构；

图3为Onehot编码方式的介绍。

图4为深度学习模型的结构示意图。

图5为本发明生成域名在现有DGA检测器上的实验结果。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提出了一种具备高抗检测能力的对抗域名生成模型，模型的整体框架如图1所示，包括三个部分，第一部分是良性域名建模器，具体内容是提取处理收集到的良性域名数据集合常见TLD集合，利用编码后的数据集训练神经网络模型，挖掘隐藏在良性域名字符间的相关关系；第二部分是候选域名合成器，具体内容是依据第一部分建立的深度学习模型和随机数种子，实施对输入的良性域名中部分字符的替换，通过将从TLD列表中随机挑选的TLD添加在生成的域名字符串后，形成完整的候选域名；第三部分是为了剔除不符合实际使用需求的域名，主要从域名的命名规范和域名长度两个方面考虑。在第二部分中，实施字符替换中所用的字符是利用建立的模型计算得到的，同时替换时保证替换字符和原始字符不相同，使得生成的域名和良性域名具备极高的相似性。

具体地说，本发明方法有以下步骤：

本步骤的具体过程如下：

(1.1)在网站上下载Alexa数据集；

(1.2)从Alexa数据集中提取出每个域名的TLD；

(1.3)从提取中得到的TLD列表中删除重复的TLD；

(1.5)从排序好的TLD列表中选取前30个TLD作为常见TLD列表；

整理的部分常见TLD列表如下表所示：

com	edu	gov	int
				net	xyz	biz	info
org	site	shop	blog
				info	online	app	live
top	club	pro	work
				icu	vip	mil	email

本步骤中具体过程如下：

其中：W_t代表位于域名的第t个字符；

代表域名前t-1个字符组成的一个子序列；

(2.3)使用Onehot技术对良性域名字符串进行编码，获得良性域名向量数据集；Onehot技术的基本原理如图所示，具体步骤如下：

(2.3.2)使用字典存贮这些可选字符，每个字符对应一个数字(1-n)；生成的字典如下：

字符	对应数字	字符	对应数字	字符	对应数字	字符	对应数字
								a	1	k	11	u	21	4	31
b	2	1	12	v	22	5	32
								c	3	m	13	w	23	6	33
d	4	n	14	x	24	7	34
								e	5	o	15	y	25	8	35
f	6	p	16	z	26	9	36
								g	7	q	17	0	27	10	37
h	8	r	18	1	28	-	38
								i	9	S	19	2	29	.	39
j	10	t	20	3	30	+	40

(2.4)使用LSTM搭建神经网络模型，LSTM网络的计算公式如下：

f_t＝σ(x_t·U^f+h_t-1·W^f)

i_t＝σ(x_t·Uⁱ+h_t-1·Wⁱ)

o_t＝σ(x_t·U^o+h_t-1·W^o)

C_t′＝tanh(x_t·U^c+h_t-1·W^c)

C_t＝(f_t·C_t-1+i_t·C_t)

h_t＝tanh(C_t)·o_t

C_t代表t时刻长记忆的值；h_t代表t时刻网络隐藏层的值；

LSTM神经网络的结构如图所示，网络搭建的详细细节如下：

(2.4.1)使用Pytorch框架进行神经网络模型的搭建；

(2.4.2)LSTM的层数设置为4，节点数设置为128；

(2.4.3)Dropout比率设置为0.2；

网络训练过程中使用的Batchsize和优化算法介绍如下：

(2.5.1)训练过成中使用的Batchsize设置为1024；

(2.5.2)训练过程中使用的优化算法为Adam算法；

(2.7)利用编码后的良性域名向量进行深度学习模型的训练；

本步骤具体包括以下过程：

(3.1.1)随机数种子是当前时间进行Hash运算后得到的数字；

(3.3)利用权利要求1步骤(2)建立的良性域名统计学模型M，对选中域名位置P1和P2处的字符C1和C2进行替换；替换过程的具体流程如下：

(3.3.1)首先将位置P1之前的字符子序列输入统计学模型M，M输出向量X1，根据X1算出替换的字符C1′；X1向量中最大值所在的位置代表替换字符C1′。

(3.3.3)使用C1′替换原始的字符C1；

使用步骤(3)所述的方法和步骤(2)建立的良性域名统计学模型对输入的良性域名实施字符替换得到的部分结果如下图：

输入的良性域名	实施字符替换的结果
		bocahget	bocalaet
tennisround	tennesroune
		techtrackshow	telhtralkshow
nearbyph	neareyoh
		odroid	odronn
yodo1	yade1
		tobis	thnis
cp2128	ca2124
		venuspub	venesaub

本步骤具体包括以下过程：

(4.2)从候选域名中删除所有SLD长度小于4的域名；

为验证本发明生成对抗域名的抗检测能力，在目前最流行的五种DGA检测器上进行了实验，五种DGA检测器的介绍如下，实验结果如图5所示。对于本文提出的模型来说，实验得到的准确率和F1-Score越低，代表其抗检测能力越强。图中显示对于本文提出的模型，准确率在0.5左右，对于二分类问题，0.5左右的准确率相当于随机分类；最高的F1-Score为0.0429，结果表明本文提出的对抗域名生成模型具备很高的抗检测能力。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种具备高抗检测能力的对抗域名生成模型，其特征在于，包括如下步骤：

2.根据权利要求1所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(1)具体包括如下子步骤：

(1.1)在网站上下载Alexa数据集；

(1.2)从Alexa数据集中提取出每个域名的TLD；

(1.3)从提取中得到的TLD列表中删除重复的TLD；

(1.5)从排序好的TLD列表中选取前30个TLD作为常见TLD列表。

3.根据权利要求1所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(2)具体包括如下子步骤：

其中：W_t代表位于域名的第t个字符；

代表域名前t-1个字符组成的一个子序列；

(2.4)使用LSTM搭建神经网络模型，LSTM网络的计算公式如下：

f_t＝σ(x_t·U^f+h_t-1·W^f)

i_t＝σ(x_t·Uⁱ+h_t-1·Wⁱ)

o_t＝σ(x_t·U^o+h_t-1·W^o)

C_t′＝tanh(x_t·U^c+h_t-1·W^c)

C_t＝(f_t·C_t-1+i_t·C_t)

h_t＝tanh(C_t)·o_t

C_t代表t时刻长记忆的值；h_t代表t时刻网络隐藏层的值；

(2.6)对搭建的神经网络模型，每个输入的X_i计算得到一个Y_i，而网络的目标是Y_i和X_i-1之间的损失尽可能的小；

(2.7)利用编码后的良性域名向量进行深度学习模型的训练。

4.根据权利要求3所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(2.3)具体包括如下子步骤：

(2.3.4)将每个域名字符串转化后的向量补齐到相同长度，以最长域名字符串的长度为准，补齐的向量是长度为n的全0向量。

5.根据权利要求4所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(2.3.2)所生成的字典对应关系如下：

6.根据权利要求3所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(2.4)具体包括如下子步骤：

(2.4.1)使用Pytorch框架进行神经网络模型的搭建；

(2.4.2)LSTM的层数设置为4，节点数设置为128；

(2.4.3)Dropout比率设置为0.2；

所述步骤(2.5)具体包括如下子步骤：

(2.5.1)训练过成中使用的Batchsize设置为1024；

(2.5.2)训练过程中使用的优化算法为Adam算法。

7.根据权利要求1所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(3)具体包括如下子步骤：

(3.2)从选定的域名中随机挑选两个位置P1和P2(P1<P2)，对应的字符为C1和C2；

8.根据权利要求7所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(3.1)具体包括如下子步骤：

(3.1.1)随机数种子是当前时间进行Hash运算后得到的数字；

(3.1.2)使用随机数种子对良性域名列表长度进行取余操作，余数就指代良性域名列表中被选择域名的位置。

9.根据权利要求7所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(3.3)具体包括如下子步骤：

(3.3.3)使用C1′替换原始的字符C1；

(3.3.4)然后将替换后域名位置P2之前的字符子序列输入统计学模型M，使用根据M的输出向量计算得到的字符C2′替换字符C2；

其中，步骤(3.3.1)中根据向量X1计算替换字符C1′的过程是X1种最大值所在位置对应的字符即是替换字符C1′。

10.根据权利要求1所述的具备高抗检测能力的对抗域名生成模型，其特征在于，所述步骤(4)具体包括如下子步骤：

(4.2)从候选域名中删除所有SLD长度小于4的域名。