CN113709152A - 一种具备高抗检测能力的对抗域名生成模型 - Google Patents

一种具备高抗检测能力的对抗域名生成模型 Download PDF

Info

Publication number
CN113709152A
CN113709152A CN202110991233.2A CN202110991233A CN113709152A CN 113709152 A CN113709152 A CN 113709152A CN 202110991233 A CN202110991233 A CN 202110991233A CN 113709152 A CN113709152 A CN 113709152A
Authority
CN
China
Prior art keywords
domain name
benign
character
model
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110991233.2A
Other languages
English (en)
Other versions
CN113709152B (zh
Inventor
胡晓艳
陈浩
程光
吴桦
龚俭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110991233.2A priority Critical patent/CN113709152B/zh
Publication of CN113709152A publication Critical patent/CN113709152A/zh
Application granted granted Critical
Publication of CN113709152B publication Critical patent/CN113709152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/144Detection or countermeasures against botnets

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种具备高抗检测能力的对抗域名生成模型,模型由三个部分组成,分别是良性域名建模器,候选域名合成器,无效域名筛选器。良性域名建模器是利用自回归和LSTM对良性域名建立统计学模型,挖掘隐藏在良性域名字符间的相关关系;候选域名合成器是根据建立的统计学模型对输入的良性域名进行字符替换,随机从输入的良性域名中挑选两个位置,利用模型计算替换的字符,完成替换,从而生成新的域名;无效域名筛选器是从上一步骤生成的域名列表中剔除无法使用的域名,最后剩下的域名便是符合使用要求的域名。本发明生成的对抗域名具备很高的抗检测能力,能够误导DGA域名检测器做出错误的分类;同时本发明生成域名的重复率和碰撞率都非常低,实用性很强。

Description

一种具备高抗检测能力的对抗域名生成模型
技术领域
本发明属于网络空间安全技术领域,涉及一种具备高抗检测能力的对抗域名生成模型。
背景技术
僵尸网络是常见的网络攻击之一,其设计目的是窃取受感染受害者的敏感信息、发送恶意邮件并进行分布式拒绝服务(DDoS)。攻击的前提是在受感染的受害者(僵尸)和命令与控制(C&C)服务器之间建立可靠的连接,以便botmaster可以操纵这些受害者。僵尸和C&C服务器之间通过域名建立连接。域名生成算法(DGA)是可以生成一组伪随机域名(每天几十到几万个)的算法,可以有效躲避黑名单对僵尸和C&C服务器之间建立连接的防御。因此,相比使用固定的域名池来建立通信通道,使用DGA生成的域名更具吸引力。
在过去的几年中,研究人员对DGA生成的域名的自动检测方法进行了大量研究。这些方法可以分为两类,一类是基于人工设计特征的传统机器学习,一类是端到端的深度学习。与传统机器学习相比,深度学习普遍具有更高的检测性能。此外,基于深度学习的检测器可以满足实时检测的要求。因此,基于深度学习的检测方法近年来得到了大量研究,并取得了一系列显着的成果。
同时,深度学习不仅可以被防御者用于DGA检测,也可以被攻击者用于DGA生成。一场军备竞赛正在上演。近年来,深度学习与域名生成算法的结合越来越流行,并提出了一系列用于逃避DGA检测的对抗性域名生成技术。然而目前已有的一些尝试不仅只能达到较为有限的抗检测能力,而且在面对对抗再训练技术时,其抗检测能力进一步被削弱,无法有效躲避DGA检测器的检测。
因此,我们提出了一种基于自回归和长短期记忆(LSTM)网络的具有高抗检测能力的对抗性DGA,该模型不需要目标DGA分类器的知识。它首先使用自回归和LSTM建立良性域名的统计模型,对隐藏在良性域名中的语义关系进行建模,然后根据统计模型替换输入良性域名的某些字符,以最大化良性域名和生成域名之间的相似度。.
发明内容
为了探寻目前已有DGA检测器的缺陷,本发明提出了一种具备高抗检测能力的对抗域名生成算法。该算法是基于自回归和LSTM网络的,其不需要目标DGA分类器的知识。它首先使用自回归和LSTM建立良性域名的统计模型,对隐藏在良性域名中的语义关系进行建模,然后根据统计模型替换输入良性域名的某些字符,以最大化良性域名和生成域名之间的相似度。
为了达到上述目的,本发明提供如下技术方案:
一种具备高抗检测能力的对抗域名生成模型,包括如下步骤:
(1)采集用于模型训练的良性域名数据集和整理常见的TLD列表并保存;
(2)从采集到的数据中提取能够用于模型训练的子域名,接着使用处理后的数据集,进行深度学习的模型训练;
(3)利用步骤(2)中训练获得的深度学习模型对输入的良性域名列表进行字符替换,生成候选的域名列表;
(4)根据设定的规则对步骤(3)生成的候选域名列表进行筛选工作,剔除不满足使用要求的域名。
进一步,所述步骤(1)具体包括如下子步骤:
(1.1)在网站上下载Alexa数据集;
(1.2)从Alexa数据集中提取出每个域名的TLD;
(1.3)从提取中得到的TLD列表中删除重复的TLD;
(1.4)根据每个TLD在Alexa数据集中出现的次数对列表里的TLD进行排序;
(1.5)从排序好的TLD列表中选取前30个TLD作为常见TLD列表;
进一步,所述步骤(2)具体包括如下子步骤:
(2.1)首先对步骤1中下载的良性域名数据集的中的域名数据进行处理,提取每个域名的SLD作为模型训练使用的良性域名字符串;
(2.2)使用自回归的思想对域名进行建模,即使用如下的公式来表示隐藏在良性域名字符之间的相关关系;
Figure BDA0003232360170000021
其中:Wt代表位于域名的第t个字符;
Figure BDA0003232360170000022
代表域名前t-1个字符组成的一个子序列;
(2.3)使用Onehot技术对良性域名字符串进行编码,获得良性域名向量数据集;
(2.4)使用LSTM搭建神经网络模型,LSTM网络的计算公式如下:
ft=σ(xt·Uf+ht-1·Wf)
it=σ(xt·Ui+ht-1·Wi)
ot=σ(xt·Uo+ht-1·Wo)
Ct′=tanh(xt·Uc+ht-1·Wc)
Ct=(ft·Ct-1+it·Ct′)
ht=tanh(Ct)·ot
式中:ft代表t时刻遗忘门f的输出;σ代表Sigmoid函数;xt代表t时刻网络的输入;
Uf代表遗忘门网络层的偏差值;ht-1代表t-1时刻网络隐藏层的输出;
Wf代表遗忘门网络层的参数值;it代表t时刻输入门i的输入;
ot代表t时刻输出门o的输出;Ct′代表t时刻长记忆的中间值;
Ct代表t时刻长记忆的值;ht代表t时刻网络隐藏层的值;
(2.5)使用MSE函数作为损失函数,通过不断训练迭代降低损失,MSE函数的计算如下:
Figure BDA0003232360170000031
(2.6)对搭建的神经网络模型,每个输入的Xi可以计算得到一个Yi,而网络的目标是Yi和Xi-1之间的损失尽可能的小;
(2.7)利用编码后的良性域名向量进行深度学习模型的训练;
进一步,所述步骤(2.3)具体包括如下子步骤:
(2.3.1)首先统计所有出现在良性域名字符串中的字符,获得可选字符列表,可选字符的数量是n;
(2.3.2)使用字典存贮这些可选字符,每个字符对应一个数字(1-n);
(2.3.3)使用长度为n的向量来表示每个字符,向量中字符对应数字的位置出为1,其余位置为0;
(2.3.4)将每个域名字符串转化后的向量补齐到相同长度,以最长域名字符串的长度为准,补齐的向量是长度为n的全0向量;
进一步的,所述步骤(2.3.2)所生成的字典对应关系如下:
Figure BDA0003232360170000032
Figure BDA0003232360170000041
进一步的,所述步骤(2.4)具体包括如下子步骤:
(2.4.1)使用Pytorch框架进行神经网络模型的搭建;
(2.4.2)LSTM的层数设置为4,节点数设置为128;
(2.4.3)Dropout比率设置为0.2;
进一步,所述步骤(2.5)具体包括如下子步骤:
(2.5.1)训练过成中使用的Batchsize设置为1024;
(2.5.2)训练过程中使用的优化算法为Adam算法;
进一步,所述步骤(3)具体包括如下子步骤:
(3.1)根据输入的随机数种子,从处理后的良性域名列表中挑选一个域名;
(3.2)从选定的域名中随机挑选两个位置P1和P2(P1<P2),对应的字符为C1和C2;
(3.3)利用权利要求1步骤(2)建立的良性域名统计学模型M,对选中域名位置P1和P2处的字符C1和C2进行替换;
(3.4)根据随机数种子从TLD列表中选择一个TLD,添加在完成字符替换的新域名后,生成完整的新域名。
进一步的,所述步骤(3.1)具体包括如下子步骤:
(3.1.1)随机数种子是当前时间进行Hash运算后得到的数字;
(3.1.2)使用随机数种子对良性域名列表长度进行取余操作,余数就指代良性域名列表中被选择域名的位置;
进一步,所述步骤(3.3)具体包括如下子步骤:
(3.3.1)首先将位置P1之前的字符子序列输入统计学模型M,M输出向量X1,根据X1算出替换的字符C1′;
(3.3.2)若计算的到C1′和C1相等,便将向量X1中最大值所在位置设置为0,重新计算得到新的C1′;
(3.3.3)使用C1′替换原始的字符C1;
(3.3.4)然后将替换后域名位置P2之前的字符子序列输入统计学模型M,使用根据M的输出向量计算得到的字符C2′替换字符C2。
(3.3.5)若计算的到C2′和C2相等,便将向量X2中最大值所在位置设置为0,重新计算得到新的C2′;
进一步的,所述步骤(3.3.1)中根据向量X1计算替换字符C1′的过程是X1种最大值所在位置对应的字符即是替换字符C1′;
进一步,所述步骤(4)具体包括如下子步骤:
(4.1)从候选域名中删除所有不符合RFC 1034和RFC 1035文档规范的域名;
(4.2)从候选域名中删除所有SLD长度小于4的域名;
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明是基于自回归思想的黑盒模型,不需要知道对应的DGA检测器的知识便能够实施对抗攻击,且模型在训练过程中无需使用DGA恶意域名,只需要使用良性域名即可。
(2)本发明生成的域名具备更高的抗检测能力,目前最佳的DGA检测器的准确率为0.5078,F1-Score为0.0349;即使引入对抗再训练技术时,其抗检测能力基本不会被削弱,准确率为0.5258,相比目前已有的生成算法表现出最佳的性能。
(3)本发明生成域名中域名重复的概率和已经被注册的概率都是最低的,其重复率和碰撞率分别是0.02%和0.00%,相比目前已有的生成算法在实际使用时具备更高的效率,消耗的代价更小,表现出强大的实用性。
附图说明
图1为本发明提供的对抗域名生成模型的框架。
图2为深度学习模型使用的LSTM网络的结构;
图3为Onehot编码方式的介绍。
图4为深度学习模型的结构示意图。
图5为本发明生成域名在现有DGA检测器上的实验结果。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提出了一种具备高抗检测能力的对抗域名生成模型,模型的整体框架如图1所示,包括三个部分,第一部分是良性域名建模器,具体内容是提取处理收集到的良性域名数据集合常见TLD集合,利用编码后的数据集训练神经网络模型,挖掘隐藏在良性域名字符间的相关关系;第二部分是候选域名合成器,具体内容是依据第一部分建立的深度学习模型和随机数种子,实施对输入的良性域名中部分字符的替换,通过将从TLD列表中随机挑选的TLD添加在生成的域名字符串后,形成完整的候选域名;第三部分是为了剔除不符合实际使用需求的域名,主要从域名的命名规范和域名长度两个方面考虑。在第二部分中,实施字符替换中所用的字符是利用建立的模型计算得到的,同时替换时保证替换字符和原始字符不相同,使得生成的域名和良性域名具备极高的相似性。
具体地说,本发明方法有以下步骤:
(1)采集用于模型训练的良性域名数据集和整理常见的TLD列表并保存;
本步骤的具体过程如下:
(1.1)在网站上下载Alexa数据集;
(1.2)从Alexa数据集中提取出每个域名的TLD;
(1.3)从提取中得到的TLD列表中删除重复的TLD;
(1.4)根据每个TLD在Alexa数据集中出现的次数对列表里的TLD进行排序;
(1.5)从排序好的TLD列表中选取前30个TLD作为常见TLD列表;
整理的部分常见TLD列表如下表所示:
com edu gov int
net xyz biz info
org site shop blog
info online app live
top club pro work
icu vip mil email
(2)从采集到的数据中提取能够用于模型训练的子域名,接着使用处理后的数据集,进行深度学习的模型训练;
本步骤中具体过程如下:
(2.1)首先对步骤1中下载的良性域名数据集的中的域名数据进行处理,提取每个域名的SLD作为模型训练使用的良性域名字符串;
(2.2)使用自回归的思想对域名进行建模,即使用如下的公式来表示隐藏在良性域名字符之间的相关关系;
Figure BDA0003232360170000061
其中:Wt代表位于域名的第t个字符;
Figure BDA0003232360170000062
代表域名前t-1个字符组成的一个子序列;
(2.3)使用Onehot技术对良性域名字符串进行编码,获得良性域名向量数据集;Onehot技术的基本原理如图所示,具体步骤如下:
(2.3.1)首先统计所有出现在良性域名字符串中的字符,获得可选字符列表,可选字符的数量是n;
(2.3.2)使用字典存贮这些可选字符,每个字符对应一个数字(1-n);生成的字典如下:
字符 对应数字 字符 对应数字 字符 对应数字 字符 对应数字
a 1 k 11 u 21 4 31
b 2 1 12 v 22 5 32
c 3 m 13 w 23 6 33
d 4 n 14 x 24 7 34
e 5 o 15 y 25 8 35
f 6 p 16 z 26 9 36
g 7 q 17 0 27 10 37
h 8 r 18 1 28 - 38
i 9 S 19 2 29 . 39
j 10 t 20 3 30 + 40
(2.3.3)使用长度为n的向量来表示每个字符,向量中字符对应数字的位置出为1,其余位置为0;
(2.3.4)将每个域名字符串转化后的向量补齐到相同长度,以最长域名字符串的长度为准,补齐的向量是长度为n的全0向量;
(2.4)使用LSTM搭建神经网络模型,LSTM网络的计算公式如下:
ft=σ(xt·Uf+ht-1·Wf)
it=σ(xt·Ui+ht-1·Wi)
ot=σ(xt·Uo+ht-1·Wo)
Ct′=tanh(xt·Uc+ht-1·Wc)
Ct=(ft·Ct-1+it·Ct)
ht=tanh(Ct)·ot
式中:ft代表t时刻遗忘门f的输出;σ代表Sigmoid函数;xt代表t时刻网络的输入;
Uf代表遗忘门网络层的偏差值;ht-1代表t-1时刻网络隐藏层的输出;
Wf代表遗忘门网络层的参数值;it代表t时刻输入门i的输入;
ot代表t时刻输出门o的输出;Ct′代表t时刻长记忆的中间值;
Ct代表t时刻长记忆的值;ht代表t时刻网络隐藏层的值;
LSTM神经网络的结构如图所示,网络搭建的详细细节如下:
(2.4.1)使用Pytorch框架进行神经网络模型的搭建;
(2.4.2)LSTM的层数设置为4,节点数设置为128;
(2.4.3)Dropout比率设置为0.2;
(2.5)使用MSE函数作为损失函数,通过不断训练迭代降低损失,MSE函数的计算如下:
Figure BDA0003232360170000081
网络训练过程中使用的Batchsize和优化算法介绍如下:
(2.5.1)训练过成中使用的Batchsize设置为1024;
(2.5.2)训练过程中使用的优化算法为Adam算法;
(2.6)对搭建的神经网络模型,每个输入的Xi可以计算得到一个Yi,而网络的目标是Yi和Xi-1之间的损失尽可能的小;
(2.7)利用编码后的良性域名向量进行深度学习模型的训练;
(3)利用步骤(2)中训练获得的深度学习模型对输入的良性域名列表进行字符替换,生成候选的域名列表;
本步骤具体包括以下过程:
(3.1)根据输入的随机数种子,从处理后的良性域名列表中挑选一个域名;
(3.1.1)随机数种子是当前时间进行Hash运算后得到的数字;
(3.1.2)使用随机数种子对良性域名列表长度进行取余操作,余数就指代良性域名列表中被选择域名的位置;
(3.2)从选定的域名中随机挑选两个位置P1和P2(P1<P2),对应的字符为C1和C2;
(3.3)利用权利要求1步骤(2)建立的良性域名统计学模型M,对选中域名位置P1和P2处的字符C1和C2进行替换;替换过程的具体流程如下:
(3.3.1)首先将位置P1之前的字符子序列输入统计学模型M,M输出向量X1,根据X1算出替换的字符C1′;X1向量中最大值所在的位置代表替换字符C1′。
(3.3.2)若计算的到C1′和C1相等,便将向量X1中最大值所在位置设置为0,重新计算得到新的C1′;
(3.3.3)使用C1′替换原始的字符C1;
(3.3.4)然后将替换后域名位置P2之前的字符子序列输入统计学模型M,使用根据M的输出向量计算得到的字符C2′替换字符C2。
(3.3.5)若计算的到C2′和C2相等,便将向量X2中最大值所在位置设置为0,重新计算得到新的C2′;
(3.4)根据随机数种子从TLD列表中选择一个TLD,添加在完成字符替换的新域名后,生成完整的新域名。
使用步骤(3)所述的方法和步骤(2)建立的良性域名统计学模型对输入的良性域名实施字符替换得到的部分结果如下图:
输入的良性域名 实施字符替换的结果
bocahget bocalaet
tennisround tennesroune
techtrackshow telhtralkshow
nearbyph neareyoh
odroid odronn
yodo1 yade1
tobis thnis
cp2128 ca2124
venuspub venesaub
(4)根据设定的规则对步骤(3)生成的候选域名列表进行筛选工作,剔除不满足使用要求的域名。
本步骤具体包括以下过程:
(4.1)从候选域名中删除所有不符合RFC 1034和RFC 1035文档规范的域名;
(4.2)从候选域名中删除所有SLD长度小于4的域名;
为验证本发明生成对抗域名的抗检测能力,在目前最流行的五种DGA检测器上进行了实验,五种DGA检测器的介绍如下,实验结果如图5所示。对于本文提出的模型来说,实验得到的准确率和F1-Score越低,代表其抗检测能力越强。图中显示对于本文提出的模型,准确率在0.5左右,对于二分类问题,0.5左右的准确率相当于随机分类;最高的F1-Score为0.0429,结果表明本文提出的对抗域名生成模型具备很高的抗检测能力。
Figure BDA0003232360170000091
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种具备高抗检测能力的对抗域名生成模型,其特征在于,包括如下步骤:
(1)采集用于模型训练的良性域名数据集和整理常见的TLD列表并保存;
(2)从采集到的数据中提取能够用于模型训练的子域名,接着使用处理后的数据集,进行深度学习的模型训练;
(3)利用步骤(2)中训练获得的深度学习模型对输入的良性域名列表进行字符替换,生成候选的域名列表;
(4)根据设定的规则对步骤(3)生成的候选域名列表进行筛选工作,剔除不满足使用要求的域名。
2.根据权利要求1所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(1)具体包括如下子步骤:
(1.1)在网站上下载Alexa数据集;
(1.2)从Alexa数据集中提取出每个域名的TLD;
(1.3)从提取中得到的TLD列表中删除重复的TLD;
(1.4)根据每个TLD在Alexa数据集中出现的次数对列表里的TLD进行排序;
(1.5)从排序好的TLD列表中选取前30个TLD作为常见TLD列表。
3.根据权利要求1所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(2)具体包括如下子步骤:
(2.1)首先对步骤1中下载的良性域名数据集的中的域名数据进行处理,提取每个域名的SLD作为模型训练使用的良性域名字符串;
(2.2)使用自回归的思想对域名进行建模,即使用如下的公式来表示隐藏在良性域名字符之间的相关关系;
Figure FDA0003232360160000011
其中:Wt代表位于域名的第t个字符;
Figure FDA0003232360160000012
代表域名前t-1个字符组成的一个子序列;
(2.3)使用Onehot技术对良性域名字符串进行编码,获得良性域名向量数据集;
(2.4)使用LSTM搭建神经网络模型,LSTM网络的计算公式如下:
ft=σ(xt·Uf+ht-1·Wf)
it=σ(xt·Ui+ht-1·Wi)
ot=σ(xt·Uo+ht-1·Wo)
Ct′=tanh(xt·Uc+ht-1·Wc)
Ct=(ft·Ct-1+it·Ct)
ht=tanh(Ct)·ot
式中:ft代表t时刻遗忘门f的输出;σ代表Sigmoid函数;xt代表t时刻网络的输入;
Uf代表遗忘门网络层的偏差值;ht-1代表t-1时刻网络隐藏层的输出;
Wf代表遗忘门网络层的参数值;it代表t时刻输入门i的输入;
ot代表t时刻输出门o的输出;Ct′代表t时刻长记忆的中间值;
Ct代表t时刻长记忆的值;ht代表t时刻网络隐藏层的值;
(2.5)使用MSE函数作为损失函数,通过不断训练迭代降低损失,MSE函数的计算如下:
Figure FDA0003232360160000021
(2.6)对搭建的神经网络模型,每个输入的Xi计算得到一个Yi,而网络的目标是Yi和Xi-1之间的损失尽可能的小;
(2.7)利用编码后的良性域名向量进行深度学习模型的训练。
4.根据权利要求3所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(2.3)具体包括如下子步骤:
(2.3.1)首先统计所有出现在良性域名字符串中的字符,获得可选字符列表,可选字符的数量是n;
(2.3.2)使用字典存贮这些可选字符,每个字符对应一个数字(1-n);
(2.3.3)使用长度为n的向量来表示每个字符,向量中字符对应数字的位置出为1,其余位置为0;
(2.3.4)将每个域名字符串转化后的向量补齐到相同长度,以最长域名字符串的长度为准,补齐的向量是长度为n的全0向量。
5.根据权利要求4所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(2.3.2)所生成的字典对应关系如下:
Figure FDA0003232360160000022
Figure FDA0003232360160000031
6.根据权利要求3所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(2.4)具体包括如下子步骤:
(2.4.1)使用Pytorch框架进行神经网络模型的搭建;
(2.4.2)LSTM的层数设置为4,节点数设置为128;
(2.4.3)Dropout比率设置为0.2;
所述步骤(2.5)具体包括如下子步骤:
(2.5.1)训练过成中使用的Batchsize设置为1024;
(2.5.2)训练过程中使用的优化算法为Adam算法。
7.根据权利要求1所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(3)具体包括如下子步骤:
(3.1)根据输入的随机数种子,从处理后的良性域名列表中挑选一个域名;
(3.2)从选定的域名中随机挑选两个位置P1和P2(P1<P2),对应的字符为C1和C2;
(3.3)利用权利要求1步骤(2)建立的良性域名统计学模型M,对选中域名位置P1和P2处的字符C1和C2进行替换;
(3.4)根据随机数种子从TLD列表中选择一个TLD,添加在完成字符替换的新域名后,生成完整的新域名。
8.根据权利要求7所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(3.1)具体包括如下子步骤:
(3.1.1)随机数种子是当前时间进行Hash运算后得到的数字;
(3.1.2)使用随机数种子对良性域名列表长度进行取余操作,余数就指代良性域名列表中被选择域名的位置。
9.根据权利要求7所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(3.3)具体包括如下子步骤:
(3.3.1)首先将位置P1之前的字符子序列输入统计学模型M,M输出向量X1,根据X1算出替换的字符C1′;
(3.3.2)若计算的到C1′和C1相等,便将向量X1中最大值所在位置设置为0,重新计算得到新的C1′;
(3.3.3)使用C1′替换原始的字符C1;
(3.3.4)然后将替换后域名位置P2之前的字符子序列输入统计学模型M,使用根据M的输出向量计算得到的字符C2′替换字符C2;
(3.3.5)若计算的到C2′和C2相等,便将向量X2中最大值所在位置设置为0,重新计算得到新的C2′;
其中,步骤(3.3.1)中根据向量X1计算替换字符C1′的过程是X1种最大值所在位置对应的字符即是替换字符C1′。
10.根据权利要求1所述的具备高抗检测能力的对抗域名生成模型,其特征在于,所述步骤(4)具体包括如下子步骤:
(4.1)从候选域名中删除所有不符合RFC 1034和RFC 1035文档规范的域名;
(4.2)从候选域名中删除所有SLD长度小于4的域名。
CN202110991233.2A 2021-08-26 2021-08-26 一种具备高抗检测能力的对抗域名生成模型 Active CN113709152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110991233.2A CN113709152B (zh) 2021-08-26 2021-08-26 一种具备高抗检测能力的对抗域名生成模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110991233.2A CN113709152B (zh) 2021-08-26 2021-08-26 一种具备高抗检测能力的对抗域名生成模型

Publications (2)

Publication Number Publication Date
CN113709152A true CN113709152A (zh) 2021-11-26
CN113709152B CN113709152B (zh) 2022-11-25

Family

ID=78655537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110991233.2A Active CN113709152B (zh) 2021-08-26 2021-08-26 一种具备高抗检测能力的对抗域名生成模型

Country Status (1)

Country Link
CN (1) CN113709152B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726823A (zh) * 2022-05-18 2022-07-08 北京金睛云华科技有限公司 一种基于生成对抗网络的域名生成方法、装置和设备
CN115022282A (zh) * 2022-06-06 2022-09-06 天津大学 一种新型域名生成模型建立及应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN108600200A (zh) * 2018-04-08 2018-09-28 腾讯科技(深圳)有限公司 域名检测方法、装置、计算机设备及存储介质
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109977118A (zh) * 2019-03-21 2019-07-05 东南大学 一种基于词嵌入技术和lstm的异常域名检测方法
CN110225030A (zh) * 2019-06-10 2019-09-10 福州大学 基于rcnn-spp网络的恶意域名检测方法及系统
CN111209497A (zh) * 2020-01-05 2020-05-29 西安电子科技大学 基于GAN和Char-CNN的DGA域名检测方法
CN112329012A (zh) * 2019-07-19 2021-02-05 中国人民解放军战略支援部队信息工程大学 针对包含JavaScript的恶意PDF文档的检测方法及电子设备
CN112492059A (zh) * 2020-11-17 2021-03-12 国家计算机网络与信息安全管理中心 Dga域名检测模型训练方法、dga域名检测方法、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN108600200A (zh) * 2018-04-08 2018-09-28 腾讯科技(深圳)有限公司 域名检测方法、装置、计算机设备及存储介质
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109977118A (zh) * 2019-03-21 2019-07-05 东南大学 一种基于词嵌入技术和lstm的异常域名检测方法
CN110225030A (zh) * 2019-06-10 2019-09-10 福州大学 基于rcnn-spp网络的恶意域名检测方法及系统
CN112329012A (zh) * 2019-07-19 2021-02-05 中国人民解放军战略支援部队信息工程大学 针对包含JavaScript的恶意PDF文档的检测方法及电子设备
CN111209497A (zh) * 2020-01-05 2020-05-29 西安电子科技大学 基于GAN和Char-CNN的DGA域名检测方法
CN112492059A (zh) * 2020-11-17 2021-03-12 国家计算机网络与信息安全管理中心 Dga域名检测模型训练方法、dga域名检测方法、装置及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DIEGO MADARIAGA 等: "Detecting Anomalies at a TLD Name Server Based on DNS Traffic Predictions", 《IEEE TRANSACTIONS ON NETWORK AND SERVICE MANAGEMENT》 *
XIAOYAN HU 等: "COMPASS: Directing Named Data Transmission in VANETs by Dynamic Directional Interfaces", 《IEEE ACCESS》 *
张婷: "恶意仿冒URL深度检测方法的研究和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李静: "基于词嵌入技术的Web访问行为分析与研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
臧小东等: "基于AGD的恶意域名检测", 《通信学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726823A (zh) * 2022-05-18 2022-07-08 北京金睛云华科技有限公司 一种基于生成对抗网络的域名生成方法、装置和设备
CN114726823B (zh) * 2022-05-18 2022-08-30 北京金睛云华科技有限公司 一种基于生成对抗网络的域名生成方法、装置和设备
CN115022282A (zh) * 2022-06-06 2022-09-06 天津大学 一种新型域名生成模型建立及应用

Also Published As

Publication number Publication date
CN113709152B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110191103B (zh) 一种dga域名检测分类方法
CN113709152B (zh) 一种具备高抗检测能力的对抗域名生成模型
Liang et al. A long short-term memory enabled framework for DDoS detection
Salem et al. Anomaly generation using generative adversarial networks in host-based intrusion detection
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN112287997A (zh) 一种基于生成式对抗网络的深度图卷积模型防御方法
CN111224994A (zh) 一种基于特征选择的僵尸网络检测方法
CN112688928A (zh) 结合自编码器和wgan的网络攻击流量数据增强方法及系统
Osman et al. Artificial neural network model for decreased rank attack detection in RPL based on IoT networks
CN113269228B (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
Zhao et al. Intrusion detection based on clustering genetic algorithm
CN115270996A (zh) 一种dga域名检测方法、检测装置及计算机存储介质
Han et al. A packet-length-adjustable attention model based on bytes embedding using flow-wgan for smart cybersecurity
Li et al. Improving attack detection performance in NIDS using GAN
CN112217787A (zh) 一种基于ed-gan的仿冒域名训练数据生成方法及系统
Singh et al. Intrusion detection system using genetic algorithm for cloud
CN114021698A (zh) 基于胶囊生成对抗网络的恶意域名训练样本扩充方法及装置
Marza et al. Classification of spam emails using deep learning
Goebel et al. Deep learning methods for event verification and image repurposing detection
Matel et al. Optimization of network intrusion detection system using genetic algorithm with improved feature selection technique
Ye et al. Mutual-modality adversarial attack with semantic perturbation
CN116471048A (zh) 一种实时高效的物联网DDoS攻击检测方法及系统
CN115102783B (zh) 一种基于集成学习的恶意域名检测方法
Yazhmozhi et al. Natural language processing and Machine learning based phishing website detection system
Liu et al. CLETer: A character-level evasion technique against deep learning DGA classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant