CN114050912B

CN114050912B - 一种基于深度强化学习的恶意域名检测方法和装置

Info

Publication number: CN114050912B
Application number: CN202111158750.8A
Authority: CN
Inventors: 袁方方; 田腾; 刘燕兵; 卢毓海; 曹聪; 谭建龙
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-07
Anticipated expiration: 2041-09-30
Also published as: CN114050912A

Abstract

本发明涉及一种基于深度强化学习的恶意域名检测方法和装置。该方法的步骤包括：获取待检测域名的真实DNS流量；查询并记录真实DNS流量中待检测域名的whois信息；根据待检测域名本身以及whois信息，对待检测域名进行特征提取，生成待检测域名的特征向量；将待检测域名的特征向量输入至深度强化学习模型中，判断待检测域名是否具有恶意行为。本发明使用基于深度强化学习的方法来解决真实DNS流量中良性与恶意样本数据不平衡的分类问题，能够快速有效地发现真实DNS流量中存在的低比例恶意样本，在低平衡率时依旧保持较好的效果。

Description

一种基于深度强化学习的恶意域名检测方法和装置

技术领域

本发明属于网络安全技术领域，具体涉及一种基于深度强化学习的恶意域名检测方法和装置。

背景技术

域名系统(Domain Name System,DNS)是互联网的一项重要基础设施，提供域名和IP地址之间相互映射的服务，为识别网络上的服务、设备和其他资源提供了极大的便利。然而，域名系统在提供正常解析服务的同时，也成为各种网络非法活动的主要攻击路径之一，越来越多的攻击者通过滥用域名系统来达到恶意的目的。例如，网络诈骗者注册与知名合法网站近似的域名，并搭建钓鱼网站诱导用户访问，窃取用户的身份信息；僵尸网络通过域名生成算法(Domain Generation Algorithm,DGA)随机产生大量与命令控制服务器(Command and Control,C&C)通信的域名，僵尸主机通过DGA域名与C&C服务器进行通信，获取攻击指令并执行攻击活动。域名系统被攻击者恶意滥用，危害国家安全、造成企业损失、侵害个人隐私，因此，如何有效地检测和发现恶意域名已经成为网络安全领域的热点和难点问题。

现有的恶意域名检测方法主要分为基于特征的检测方法和基于关联关系的检测方法。基于统计特征的检测方法对DNS流量进行分析并从DNS流量中提取特征(例如域名长度、不同IP地址的数量等)，然后构建基于机器学习的分类器来区分良性域名和恶意域名。(Antonakakis等,2010)提出了Notos系统并利用域名的网络特征和区域特征来计算新域名的信誉分数。但是，Notos系统需要大量的历史恶意数据和大量的训练时间。为了克服Notos系统的局限性，(Bilge等,2011)构建了Exposure系统，该系统是一个基于15种行为特征的恶意域名检测系统，可以自动识别未知的恶意域。(Antonakakis等,2011)提出了Kopis系统，该系统在上层DNS结构收集DNS流量，可以从全局角度检测恶意域名。(Schüppen等,2018)针对不存在的域名(NXDomain)提取了大量域名字符串统计特征，并识别出与DGA相关的恶意域名。

基于关联关系的检测方法利用域名之间的关联来检测恶意域名。这些方法基于这样一种直觉，即与恶意域名密切相关的域名很可能是恶意的。(Manadhata等,2014)通过分析DNS查询日志构建了一个主机-域名二部图，并利用置信传播算法来查找未知的恶意域名。(Khalil等,2016)基于域名和IP之间的关联关系构建了域名解析图，然后设计了一种基于路径推理的方法来发现恶意域名。(Sun等,2019)提出了HinDom系统，并将DNS场景建模为具有客户端、域名和IP地址的异质信息网络。该系统设计了六种元路径来评估域名之间的相似性，并利用转导分类方法来查找恶意域名。

现有的恶意域检测方法在一定程度上都取得了很好的效果。然而，它们有两个不足之处：(1)它们忽略了已经正确分类的域名样本对后续分类的积极影响；(2)它们很少关注影响恶意域名检测有效性的数据不平衡问题。

发明内容

本发明使用一种基于深度强化学习的方法来解决真实DNS流量中良性域名与恶意域名样本数据不平衡的分类问题。本发明使用深度强化学习进行恶意域名分类问题时，将所有DNS流量中域名样本分类任务过程视为一个顺序决策过程，该过程中代理与环境交互以学习最佳的分类策略。

本发明采用的技术方案如下：

一种基于深度强化学习的恶意域名检测方法，包括以下步骤：

获取待检测域名的真实DNS流量；

查询并记录真实DNS流量中待检测域名的whois信息；

根据待检测域名本身以及whois信息，对待检测域名进行特征提取，生成待检测域名的特征向量；

将待检测域名的特征向量输入至深度强化学习模型中，判断待检测域名是否具有恶意行为。

进一步地，所述对待检测域名进行特征提取，提取的特征包括：语言特征，结构特征，统计特征。

进一步地，所述语言特征包括：元音字符数量，辅音字符数量，元音与辅音字符转换频率，是否存在数字字符，数字字符数量，数字与字母字符转换频率，特殊字符数量，字符种类数量，最长有意义子串长度占比；

所述结构特征包括：域名长度，子域名平均长度，是否有“www”前缀，顶级域名是否有效，是否存在单一字符作子域名，是否存在顶级域名字符串作子域名，数字作为子域比例，十六进制字符作为子域比例，下划线字符比例，是否包括IP；

所述统计特征包括：域名对应解析IP数量(包括IPv4和IPv6)，MX数量，NS数量，CNAME数量，NS的平均相似度，共享IP的其他域名数量，Whois信息完整度，域名生存天数，域名资源记录的TTL统计量(均值、标准差、中位数、种类数)，域名资源记录内容大小统计量(均值、标准差、中位数、种类数)。

进一步地，所述深度强化学习模型采用DDQN网络实现。

进一步地，所述深度强化学习模型在训练时，设置少数类样本的绝对奖励价值高于多数类，恶意样本的回报设为1.0，良性样本的回报设为λ，0<λ<1，λ设为恶意域名数量与良性域名数量之比。

进一步地，所述深度强化学习模型在训练时调整不平衡率，即在获得特征向量之后，通过随机弃用某些样本，将良性域名样本数和恶意域名样本数之比调整为1:λ，选用不同的λ值分别训练模型，用以模拟真实DNS流量中可能出现的不平衡比例。

一种采用上述方法的基于深度强化学习的恶意域名检测装置，其包括：

真实DNS流量获取模块，用于获取待检测域名的真实DNS流量；

域名信息补充模块，用于查询并记录真实DNS流量中待检测域名的whois信息；

特征提取模块，用于根据待检测域名本身以及whois信息，对待检测域名进行特征提取，生成待检测域名的特征向量；

恶意域名检测模块，用于将待检测域名的特征向量输入至深度强化学习模型中，判断待检测域名是否具有恶意行为。

本发明的关键点是：

1、本发明以DNS流量为主，通过查询whois信息丰富了域名的参考信息，抽象出更有助于良性/恶意域名分类的特征。

2、通过设置深度强化学习中不同的回报值解决良性/恶意域名数据不平衡的问题。少数样本的恶意域名具有更高的回报，所以强化学习模型会更注重少数类的分类效果。

本发明的一种使用基于深度强化学习的方法来解决真实DNS流量中良性与恶意样本数据不平衡的分类问题，能够快速有效地发现真实DNS流量中存在的低比例恶意样本，在低平衡率时依旧保持较好的效果。本发明的技术优点主要包括以下几个方面：

1.本发明从域名字符串、DNS流量和注册信息中提取出大量特征用以描述域名特征，相对于只依赖域名字符串语义特征的方法更加完善。

2.本发明考虑了良性/恶意域名数据不平衡问题，相对于只基于黑白名单建立的数据集，本发明更贴近实际场景。本发明能够将域名中数据不平衡问题转换成深度强化学习回报值设定问题，相对于过采样、下采样等从数据层面解决数据不平衡问题的方法保存了更真实的域名特征数据分布。

附图说明

图1是本发明方法的工作流程图。

图2是训练深度强化学习算法模型和模型工作流程图。

图3是不同不平衡率下F1-score对比效果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提供了一种判断恶意域名的方法，它先通过真实DNS流量获取待检测域名，查询whois信息后，对待检测域名提取特征，最后将特征向量输入至深度强化学习模型中，得出每个待检测域名是否具有恶意行为。

本发明的工作流程如图1所示。

1)获取待检测域名的真实DNS流量：在网络中设立网络探针，获取若干天的真实DNS流量数据，并将其存入流量数据库。

2)补充whois信息：对1)中真实DNS流量中待检测域名查询并记录它们的whois信息。whois是一个用来查询域名是否已经被注册以及注册域名的详细信息的数据库。

3)特征提取：将1)和2)的结果进行整合后，对每个待检测域名进行特征提取。可提取的特征如表1所示。提取完毕之后，对于每个待检测域名域名d_i，都会拥有一个特征向量v_i＝{f_i1,f_i2,…,f_im}。

表1本发明使用的域名特征

4)构建深度强化学习环境：本发明强化学习框架是基于DDQN网络的，DDQN算法描述如下：

算法输入：训练数据集D＝{(d₁,l₁),(d₂,l₂),…,(d_T,l_T)}，迭代轮数K。

算法输出：Q值网络的参数θ。

a)初始化经验回放队列M，初始化小批量样本数batch_size；随机初始化Q值网络的参数θ；

b)初始化Q′网络的参数θ′＝θ；初始化Q′网络参数的更新频率G；

c)初始化episode＝1；

d)将D打乱顺序；

e)初始化s₁＝d₁，t＝1；

f)用∈-贪婪法根据s_t选择动作a_t；

g)若t<T，则s_t+1＝d_t+1且end_flag_t＝false，否则s_t+1＝None且end_flag_t＝true；

h)获得回报值和是否终止状态r_t＝NEXT(s_t,a_t,l_t)；

i)将(s_t,a_t,r_t,s_t+1,end_flag_t)五元组放入M；

j)从M中随机采样batch_size个样本，对每个样本计算y_j：

k)在L(θ)上执行梯度下降，即L(θ)＝(y_j-Q(s_i,a_i；θ))²；

l)t＝t+1；

m)若t≤T，则回到步骤f)；

n)如果episode％G＝0，则更新参数θ′＝θ；

o)episode＝episode+1；

p)若episode≤K，则回到步骤d)，否则结束并输出Q值网络的参数θ。

强化学习定义中从s_i状态执行动作a_i后到达状态s_i+1的概率是p(s_i+1|s_i,a_i)。本发明中根据训练数据集的顺序，第i个样本的状态s_i执行任一动作后一定都会到达第i+1个样本的状态s_i+1。由于没有严格意义的状态转移关系，我们需要在每一轮训练之前对样本顺序重新乱序。

针对分类数据不平衡问题，本发明中为了指导DDQN代理在不平衡数据中学习最优分类策略，设置少数类样本的绝对奖励价值高于多数类。当代理正确或错误地识别少数类样本时，环境反馈代理会获得更大的奖励或惩罚。在本发明中，恶意样本的回报设为1.0，良性样本的回报设为λ(0≤λ≤1)，λ具体值通常设为恶意域名数量与良性域名数量之比，如下所示：

其中，状态s_t表示D第t个域名的特征向量，a_t表示对s_t执行的分类动作，l_t表示第t个域名的标签，R(s_t,a_t,l_t)表示回报值，D_M表示恶意域名集，D_B表示良性域名集。

训练深度强化学习算法模型和模型工作流程如图2所示。

5)判断域名是否具有恶意行为：将3)中待检测域名的特征向量，输入至4)中深度强化学习模型中，得出每个待检测域名是否具有恶意行为。

下面列举示例说明使用基于深度强化学习的方法解决真实DNS流量中良性与恶意样本数据不平衡的分类问题的具体实施方式。

1)获取真实DNS流量：在校园网中设立网络流量探针，获取了约7*24小时的真实DNS流量。

2)建立黑白名单：通过较权威的途径构建黑白名单，包括知名安全网站、安全企业，或受广泛认可的互联网公开黑白名单。这里采用了Alexa网站流量世界排名榜单TOP50000构建白名单，因为在网站流量世界排名足够高的情况下，可以视为该网站进行恶意行为的可能性很小。采用了互联网公开的malwaredomains.com、zeus、phishtank、openphish、urlhaus、cybercrime、360dga等公开数据集构建黑名单。

黑白名单准备完毕后，将其中所有域名反转构建trie树。该trie树的作用是快速查找某个域名是否是良性域名或恶意域名，而无需再消耗大量时间一一比对。在查询过程中，若截止到某一级域名为止，该域名是良性/恶意，则直接将该域名定为良性/恶意。

3)获取良性/恶意域名流量：将1)中得到的真实DNS流量，使用2)中得到的黑白名单进行过滤，最终获得已知的良性/恶意域名流量信息。这里使用了2)中trie树对真实DNS流量进行过滤，筛选出已知良性/恶意域名所属流量，同时只取“qr＝1”的流量，因为该条件代表域名服务器的响应而非请求。

4)特征提取：对3)获得的域名补充whois信息后，提取表1所示的所有特征，其中：

a)需要提前将域名字符串中所有大写字母都转换成小写字母。

b)“有意义子串”指的是存在于英文词典中的字符串，需要参考英文词典或借助英文拼写检查器。

c)NS相似度计算时，需要将该域名的所有NS两两求编辑距离，得到一个相似度序列，然后对该序列求相应的统计特征。

d)生存天数指的是“whois过期时间-whois创建时间”经过的天数。

最后获得了一份包含60000个良性域名和3000个恶意域名的特征向量，特征shape为(63000,36)。接着将其每个特征标准化，并将shape整理为(63000,1,6,6)，用于适配深度强化学习模型中的输入格式。

5)调整不平衡率：获得4)中特征向量之后，通过弃用某些样本，将良性域名样本数和恶意域名样本数之比调整为1:λ(λ≤1)，调整后要保证剩余样本数尽可能地多。这里选用

共10种不同的平衡率分别训练模型，用以模拟真实DNS流量中可能出现的不平衡比例。

6)获取训练集和测试集：按照训练集:测试集＝4:1分开，这里选用五折交叉验证用于避免分割样本的不同对结果的影响。训练集用于训练模型，测试集用于模拟待检测域名。

7)构建深度强化学习环境：设置探索率∈随着迭代轮次增加从1.0线性下降至1e-6，迭代轮数K＝20，动作集A＝{0,1}(0是判断为良性，1是判断成恶意)，衰减因子γ＝0.9，当前网络Q和目标网络Q′均是相同的网络结构，批量梯度下降的样本数batch_size＝128，Q′网络参数更新频率G＝1。网络结构如表2所示。良性域名的回报权值应该与5)中的不平衡率对应，选用

共10种不同的权值分别训练模型，用以模拟真实DNS流量中可能出现的不平衡比例。

表2深度强化学习模型中CNN网络结构

Layer	Width	Height	Depth	Kernel size	Stride
						Input	6	6	1	-	-
Convolution	8	8	256	3	2
						MaxPooling	4	4	256	2	2
Convolution	6	6	256	3	2
						MaxPooling	3	3	256	2	2
Flatten	1	1	2304	-	-
						FullyConnected	1	1	1100	-	-
FullyConnected	1	1	500	-	-
						FullyConnected	1	1	2	-	-

8)判断测试集中的域名是否具有恶意行为：随着不平衡率λ的减小，对恶意域名样本的分类效果也会逐渐受到影响。这里采用f1-score作为评价标准，用于综合评价恶意域名样本的分类效果。对于五折交叉验证的结果，我们取平均f1-score作为该模型在不平衡率λ下的最终效果。

基于上述方案设计，在此说明本发明所提出方法产生的积极效果。为了体现本发明的积极效果，首先评估不同算法在相同参数设置下的检测结果，然后分析不同不平衡率设置对模型性能的影响。

1)恶意域名检测总体性能

研究在相同参数设置下不同算法的检测结果。设定不平衡率大小为λ＝0.1时，各检测算法的结果如表3所示。从表中可以看出在F1、召回率和精确率三个评价指标上，DDQN的性能均优于其他算法。

表3不同算法的检测结果

算法	F1	召回率	精确率
				DDQN	0.9970	0.9985	0.9941
DQN	0.9904	0.9985	0.9810
				CNN	0.8954	0.8573	0.9335
SVM	0.8185	0.7427	0.9122
				GBDT	0.9099	0.8929	0.9280
AdaBoost	0.8776	0.8365	0.9235
				DecisionTree	0.8777	0.8730	0.8828

2)不同不平衡率对算法检测效果的影响

研究不同不平衡率对算法检测效果的影响。随着不平衡率λ的降低，其他算法的效果会明显变差，而本发明却依旧具有较好的效果。结果如图3所示，本发明受不平衡率λ的影响明显小于其他算法。

3)不同不平衡分类算法的效果

研究不同不平衡分类算法的效果，本发明与两种过采样、两种欠采样、阈值调整、两种集成方法对比处理域名数据不平衡问题的检测效果。结果如表4所示，可以看出我们的算法效果除了有一项不平衡率与最好效果十分贴近，其他平衡率下均处于最优水平。

表4不同不平衡分类算法的F1-score

本发明的另一实施例提供一种采用上述方法的基于深度强化学习的恶意域名检测装置，其包括：

真实DNS流量获取模块，用于获取待检测域名的真实DNS流量；

本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于深度强化学习的恶意域名检测方法，其特征在于，包括以下步骤：

获取待检测域名的真实DNS流量；

查询并记录真实DNS流量中待检测域名的whois信息；

将待检测域名的特征向量输入至深度强化学习模型中，判断待检测域名是否具有恶意行为；

所述深度强化学习模型在训练时，设置少数类样本的绝对奖励价值高于多数类，恶意样本的回报设为1.0，良性样本的回报设为λ，0<λ<1，λ设为恶意域名数量与良性域名数量之比；回报值的设置方式如下：

其中，状态s_t表示D第t个域名的特征向量，a_t表示对s_t执行的分类动作，l_t表示第t个域名的标签，R(s_t,a_t,l_t)表示回报值，D_M表示恶意域名集，D_B表示良性域名集；

所述深度强化学习模型在训练时调整不平衡率，即在获得特征向量之后，通过随机弃用某些样本，将良性域名样本数和恶意域名样本数之比调整为1:λ，选用不同的λ值分别训练模型，用以模拟真实DNS流量中可能出现的不平衡比例。

2.根据权利要求1所述的方法，其特征在于，所述对待检测域名进行特征提取，提取的特征包括：语言特征，结构特征，统计特征。

3.根据权利要求2所述的方法，其特征在于，所述语言特征包括：元音字符数量，辅音字符数量，元音与辅音字符转换频率，是否存在数字字符，数字字符数量，数字与字母字符转换频率，特殊字符数量，字符种类数量，最长有意义子串长度占比；

所述统计特征包括：域名对应解析IP数量，MX数量，NS数量，CNAME数量，NS的平均相似度，共享IP的其他域名数量，whois信息完整度，域名生存天数，域名资源记录的TTL统计量，域名资源记录内容大小统计量；其中域名对应解析IP数量包括IPv4地址和IPv6地址的数量，域名资源记录的TTL统计量包括均值、标准差、中位数和种类数，域名资源记录内容大小统计量包括均值、标准差、中位数和种类数。

4.根据权利要求1所述的方法，其特征在于，所述深度强化学习模型采用DDQN网络实现。

5.根据权利要求1所述的方法，其特征在于，所述不同的λ值为：

6.一种采用权利要求1～5中任一权利要求所述方法的基于深度强化学习的恶意域名检测装置，其特征在于，包括：

真实DNS流量获取模块，用于获取待检测域名的真实DNS流量；

7.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～5中任一权利要求所述方法的指令。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～5中任一权利要求所述的方法。