CN110191103B

CN110191103B - 一种dga域名检测分类方法

Info

Publication number: CN110191103B
Application number: CN201910387482.3A
Authority: CN
Inventors: 羊晋; 涂波; 刘丙双; 李明哲; 尚秋里; 张洛什; 刘越颖; 苗权; 康春建; 刘鑫沛; 李传海; 摆亮; 戴帅夫; 张建宇
Original assignee: Chang'an Communication Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Chang'an Communication Technology Co ltd; National Computer Network and Information Security Management Center
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2022-07-15
Anticipated expiration: 2039-05-10
Also published as: CN110191103A

Abstract

本发明提供一种DGA域名检测方法，包括以下步骤：建立域名白名单数据与DGA域名黑名单数据，基于LSTM对上述域名白名单数据与DGA域名黑名单数据进行训练并构建LSTM模型；利用域名白名单数据与DGA域名黑名单数据，计算域名特征，训练RF/GBDT模型；基于被动域名日志收集每日被动域名解析记录，定义没有对应解析IP的域名为NX域名，利用上述RF/GBDT模型分类出非DGA域名；利用LSTM模型对上述非DGA域名进行DGA预测，根据设定的DGA域名判断阈值，检出疑似DGA域名；对上述疑似DGA域名进一步筛查，找出DGA域名。

Description

一种DGA域名检测分类方法

技术领域

本发明涉及大数据、网络安全、深度学习等领域，涉及利用长短时记忆神经网络LSTM对域名生成算法生成的DGA域名进行检测的方法。

背景技术

僵尸网络是由被感染僵尸程序的主机组成的一个可控网络。攻击者通过命令和控制信道（C&C，Command and Control）对僵尸主机发送指令，从而进行信息窃取、拒绝服务攻击等网络攻击和犯罪。自上世纪九十年代末出现，僵尸网络结构和形态从最初简单的集中式C&C发展到基于P2P的分布式C&C，所使用的域名则从最初的固定域名演变为域名迁移（Domain Flux）。

攻击者通常会通过域名生成算法（DGA，Domain Generation Algorithm）来生成伪随机字符串并用作顶级域名与多级域名，来有效地避开黑名单列表的检测。生成的域名具有伪随机性，其字符串序列具有随机性与不可读性质，但由于其结构可以预先确定，因此可以重复产生和复制。该算法常被运用于恶意软件以及远程控制软件上。

除僵尸网络外，DGA域名还常被用于域名阴影攻击（Domain Shadowing）。攻击者窃取受害者域名所有者账户后，创建大量子域名与多级域名，并利用这些子域名进行网络钓鱼等恶意行为。由于被盗取的域名通常是合法域名，防御者无法知道攻击者下一个目标是什么，且攻击者会创建大量子域名，使用较短时间后便放弃，很难通过即使建立并通过黑名单机制防御。

DGA还被应用于基于DNS的域名散列攻击（Non-Exist Domain Flood Attack）。攻击者通过DGA算法构造大量未经注册的随机子域名并发起DNS查询，本地缓存找不到域名解析记录时，DNS服务器就会向上级DNS服务器进行递归查询，直至权威域名服务器。与传统DNS查询DDOS攻击类似，当查询量很大时，DNS服务器便无法及时响应合法的DNS查询请求。由于随机构造的未注册域名无法在中间域名服务器上命中缓存，从而使得DNS查询压力最终集中到权威域名服务器，因此这种基于NXDomain的DDoS攻击会造成网络中正常DNS查询延迟以致DNS查询失效，并导致网络故障带来巨大的损失。

因此，在目前僵尸网络中DGA域名生成算法被广泛采用，基于DGA的网络攻击行为越来越广泛。感染DGA恶意代码的主机周期性生成大量的域名，并对其进行DNS查询周期性地变化，无法利用传统的黑名单拦截等手段对其检测与建立对应网络攻击防范措施。

通过对DGA算法进行逆向从而提前获知域名列表是一种可能的防御方法，但需要专业的逆向人员，且难度很大。同时由于一部分DGA域名算法种子的不确定性，针对这一部分DGA根本无法提前生成域名列表。

根据域名生成方式，DGA可分为四大类：一是TID（Time Independent andDeterministic），也就是种子确定，且不依赖于时间；第二类是TDD（Time Dependent andDeterministic），也就是种子确定，但产生的域名会随着DGA运行时间的变化而不同，如Conficker；三是TDD（Time Dependent and Non-deterministic），即种子不确定，且随时间不同而产生不同域名，目前发现的样本只有Bedep和Torpig；最后一类是TND（TimeIndependent and Non-deterministic），即不依赖时间，但种子不确定的DGA，目前尚未发现有此类样本。

DGA检测方法中，算法逆向是人们认识和研究DGA的一种重要手段。JohannesBader一直致力于该工作并成功逆向出多种DGA及其变种，如Pykspa、Murofet等。而很多DGA可能有许多不同的种子，每个种子每天能产生几万个域名，而攻击者只使用其中一部分。因此，即便是逆向后的DGA，也很难预先产生完备的拦截名单。已知并逆向出DGA其算法的域名包括newgoz、ramnit等至少42种，还有大量未知算法与类型的DGA域名，所以防范基于DGA的攻击很难通过逆向算法并建立黑名单的方式实现。

相应地，业界愈来愈侧重如何智能地检测和识别DGA域名。Damballa公司的ManosAntonakakis等人提出了一种从DNS访问记录中的不存在域名（Non-exist Domain，NXDomain）入手，提取域名特征，利用机器学习算法检测恶意DGA域名的方法。

在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。理论上已证明，两层神经网络可以无限逼近任意连续函数。但是，全连接神经网络具有计算要求高、训练较难等问题。RNN（Recurrent NeuronNetwork）是一种对序列数据建模的神经网络，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。结构上天然序列的特点也使得 RNN 能够更好挖掘利用序列数据的信息。

Long Short-Term Memory Neural Network（长短时记忆神经网络）简称 LSTM，是一种 RNN 特殊的类型，可以学习长期依赖信息。LSTM 由Hochreiter & Schmidhuber（1997）提出，并在近期被Alex Graves进行了改良和推广。在语音识别、语音合成、手写连体字识别、时间序列预测、图像标题生成、端到端机器翻译等领域，LSTM 都取得相当巨大的成功，并得到了广泛的使用。LSTM 通过刻意的设计来避免长期依赖导致神经网络训练过程中的梯度退化和发散，能序列化数据在前后序列的特征。

发明内容

本发明的目的是提供一种DGA域名检测方法，基于LSTM，提高DGA域名发现算法的正确率，降低误报率，并能有效发现和检测未知类型的DGA域名，能对DGA域名分类辅助安全人员逆向DGA算法。

为实现上述目的，本发明采用如下技术方案：

一种DGA域名检测方法，包括以下步骤：

步骤1：建立域名白名单数据与DGA域名黑名单数据，基于LSTM对上述域名白名单数据与DGA域名黑名单数据进行训练并构建LSTM模型；

步骤2：利用域名白名单数据与DGA域名黑名单数据，计算域名特征，训练RF（Random-Forest，随机森林）/GBDT（梯度下降决策树）模型，用于域名分类；

步骤3：基于被动域名日志，收集每日被动域名解析记录，定义没有对应解析IP的域名为NX（Non-Exist）域名，利用步骤2中RF/GBDT模型分类，分类为非DGA域名；

步骤4：利用LSTM模型对步骤3中分类为非DGA域名进行DGA预测，根据设定的DGA域名判断阈值，检出疑似DGA域名；

步骤5：对疑似DGA域名进一步筛查，找出DGA域名。

进一步地，将步骤5得到的DGA域名作为DGA域名黑名单数据反馈到步骤1，以作为训练LSTM模型的样本数据；将步骤5的DGA域名反馈到步骤2以更新RF/GBDT模型。

进一步地，步骤1中，通过查询知名度与访问量大的网站，包括不限于Alex Top1M、域名备案数据（注：均来自公开数据集，针对国际DNS流量分析使用Alex Top1M，针对国内流量侧DNS日志使用Alex 中国数据&域名备案数据），经去重、清洗，建立域名白名单数据。

进一步地，步骤1中，建立DGA域名黑名单数据，包括已有开源情报数据（已公开DGA域名列表），以及通过已公开DGA域名生成算法生成的DGA域名

进一步地，步骤1中，基于LSTM对上述域名白名单数据与DGA域名黑名单数据进行训练并对测试数据进行预测，根据预测结果中DGA域名发现的正确率、误报率、召回率，设定LSTM模型的DGA域名判断阈值。

进一步地，所述域名特征包括：

A.域名长度；

B.是否是常见域顶级域名；

C.是否是常见域名；

D.是否是.net/.org/.Info/.Biz/.CC域名；

E.主域名熵（这里熵为字符的信息熵，下同）；

F.二级域名熵；

G.ngram特征(3gram,4gram)，ngram为通过域名白名单建立的ngram字符库，特征包括平均ngram频率，最大ngram频率；

H.元音字符比例；

I.数字比例；

J.重复字符数；

K.英文字符数。

进一步地，步骤3还包括：

步骤30：利用采集设备对域名请求进行监测并清洗，存入HIVE存储中；

步骤31：整理步骤30存储的域名监测数据，并去重清洗；

步骤32：对经步骤31处理后的域名监测数据进行聚类；

步骤33：可疑域名聚类后利用RF/GBDT在线预测DGA域名。

进一步地，上述方法还包括：

基于LSTM对上述域名白名单数据与DGA域名黑名单数据进行分类并得到分类标签，然后进行训练，并构建用于分类DGA域名的LSTM模型；

利用构建的用于分类DGA域名的LSTM模型，对RF/GBDT未检出的NX域名进行分类；

进一步地，步骤5中，基于逆向DGA域名算法，对疑似DGA域名进行筛查，找出DGA域名，同时逆向得到其对应的DGA域名算法并形成新的分类标签。其中，该DGA域名分类确认需要结合步骤3中积累DNS日志分析同类型可解析DGA域名的主机，以及该主机的DNS、TCP会话等日志记录，分析其控制者、应用场景（恶意软件、隧道服务器等等），并逆向域名生成算法；例：相似的域名DGA域名访问者同时有类似的可解析域名访问记录，这些可解析域名与DGA域名对于步骤2中特征具备高度相似性并均指向同样的若干个IP地址，则这些域名可能为同一个控制者，其域名为控制信道(C&C，Command and Control)中使用的DGA域名。

进一步地，将步骤5得到的DGA域名、其对应的DGA域名算法及新的分类标签反馈到步骤1和步骤2，以作为训练用于分类DGA域名的LSTM模型和在线预测RF/GBDT模型的样本数据。

附图说明

图1是本发明整个DGA域名检测发现算法的流程图。

图2是检测DGA域名的LSTM模型建立流程图。

图3是利用LSTM在线检测DGA域名的流程图。

图4是本发明DGA域名分类方法的流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

一、 DGA域名发现的方法

近年来，分布式计算与GPGPU并行计算的发展使得深度学习得以训练更多的神经元与神经元层数，对复杂神经网络的训练成为可能。LSTM是一种RNN的特殊类型，可以学习长期依赖信息，如文本和语言等。

使用深度学习来检测DGA可以省去特征工程即无需对DGA算法进行逆向工程，使用特征工程来识别DGA生成域与非DGA生成域，需要安全人员实施发现DGA域名并更新和创建新的特征库，需要投入巨大的人力物力和时间周期，同时也很容易随着DGA算法的升级而失效。深度学习使用DGA域名数据本身来训练得到对应的DGA域名数据，并能够根据新发现的DGA域名与算法在线更新自身模型，实现对其及时发现与特征响应。

如图1所示，本发明是利用深度学习中LSTM模型来识别和检测DGA域名。

1. 建立用于检测域名的LSTM模型

如图 2所示，采集AlexTop1M共计一百万条域名记录作为域名白名单，收集域名备案数据，清洗去除访问量较少的域名。合并数据来源，抽取顶级域名作为LSTM模型训练的白名单数据。选择合适训练记录条数M_domains。

对newgoz、ramnit等至少42种DGA域名算法进行分析整理，整理最近发现时间，合并类型近似DGA域名，选择banjori、corebot、cryptolocker、dircrypt等N_DGA种DGA算法。对这些算法，分别选取合适的种子，分别生成M_domains/N_DGA条DGA域名记录。作为LSTM模型训练的DGA域名黑名单数据。

将白名单与黑名单数据标签为0和1，并合并成为训练数据。

如图 2所示，建立LSTM模型，建立嵌入层、LSTM层、激活函数层，选择损失函数和优化方式。

对训练数据进行序列化处理，统计有效字符数目作为LSTM的最大特征max_features，域名最大长度作为LSTM最大长度，将字符映射为0~(max_features-1)的数值，将白名单与黑名单标签转换为0和1，进行训练：

1）将训练数据随机抽取，按照一定比例分成训练数据Pdata与测试数据Tdata；

2）对Pdata数据进行训练，更新LSTM模型；

3）利用Tdata进行预测，计算正确率-错误率曲线，并计算曲线下面积AUC；

4）判断AUC是否增加，如果增加则重复至步骤1），如果连续迭代MAX_iterator次AUC不增加，则停止训练。

如上流程所述，调整LSTM模型参数，使得训练得到的LSTM的正确率-错误率曲线下面积AUC最大，设定为DGA域名判断阈值，完成对于DGA域名分类的LSTM模型建立，导出LSTM.model待下一步使用。

2. 被动DNS域名数据进行DGA域名在线预测

如图3所示，获取真实完整的动态递归域名数据，分别对实时被动域名数据进行数据分析，将对应数据清洗采集，存储至HIVE大数据平台。（HIVE是HDFS大数据平台上的数据仓库，能够将一个个大文件有效地管理起来，并对其进行统计分析。）

在spark平台上，读取hive中被动dns解析数据，去除重复数据，结合被动域名特性NXDomain（无解析记录域名）等上下文信息，清洗数据。导入上文中LSTM模型，对可疑域名数据进行DGA域名分类，根据设定的DGA域名判断阈值筛选出疑似DGA域名数据。

3. 疑似DGA域名数据筛查

结合已有情报数据，对发起DNS请求的疑似DGA域名相关记录信息，源ip、端口、目的ip等信息，由安全分析人员筛查，结合LSTM进行的DGA域名分类得到相近算法类型，辅助安全工程师进行逆向工程，整理出相关确认DGA域名。

将确认DGA域名分类标签，重新训练用于DGA分类的LSTM模型。

二、 DGA域名分类检测的方法

在得到疑似或者确认DGA域名后，安全研究人员需要对其进行逆向工程，利用LSTM能够实现类似自然语言处理NLP标签的方式，对域名数据做序列化数据进行标签，得到DGA算法的类别或类似算法类别，以辅助安全研究人员进行算法逆向得到DGA算法与生成种子。

本发明是利用深度学习中LSTM模型来对DGA域名进行分类检测。

1. 建立用于分类DGA域名的LSTM分类模型

如图 4所示，采集AlexTop1M共计一百万条域名记录作为域名白名单，收集域名备案数据，清洗去除访问量较少的域名。合并数据来源，抽取顶级域名作为LSTM分类模型训练的白名单数据。选择合适训练记录M_domains，标签为0。

对newgoz、ramnit等至少42种DGA域名算法进行分析整理，整理最近发现时间，合并类型近似DGA域名，选择banjori、corebot、cryptolocker、dircrypt等N_DGA种DGA算法。对这些算法，分别选取合适的种子，分别生成M_domains/N_DGA条DGA域名记录，作为LSTM分类模型训练的DGA域名黑名单数据，并分类标签。

将白名单与黑名单数据合并成为训练数据。

如图 4所示，建立LSTM分类模型，建立嵌入层、LSTM层、激活函数层，选择损失函数和优化方式。

对训练数据进行序列化处理，统计有效字符数目作为LSTM的最大特征max_features，域名最大长度作为LSTM最大长度，将字符映射为0~（max_features-1）的数值，将白名单与黑名单标签转换为数值。进行训练：

2）对Pdata数据进行训练，更新LSTM分类模型；

3）利用Tdata进行预测，计算正确率-错误率曲线，并计算曲线下面积AUC和confusion_matrix；

如上流程所述，调整LSTM模型参数，使得训练得到的LSTM的正确率-错误率曲线下面积AUC最大，完成对于DGA域名分类的LSTM模型建立，导出LSTM.model待下一步使用。

2. 进行DGA域名分类

对DGA域名检测中得到疑似或者确认DGA生成的域名数据，导入LSTM分类模型，进行分类预测。

3. DGA域名分类数据监测

结合已有情报数据，对发起DNS请求的疑似DGA域名相关记录信息，源ip、端口、目的ip等信息，由安全分析人员筛查，确认DGA域名分类，并对DGA算法进行逆向，得到其对应的DGA域名算法与生成域名的种子。

利用得到的DGA域名算法生成新的DGA域名分类训练数据并标签，重新训练用于DGA分类的LSTM分类模型。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种DGA域名检测方法，包括以下步骤：

建立域名白名单数据与DGA域名黑名单数据，基于LSTM对上述域名白名单数据与DGA域名黑名单数据进行分类并得到分类标签，再进行训练并构建LSTM模型；训练步骤包括：将上述域名白名单数据与DGA域名黑名单数据随机抽取，按照一定比例分成训练数据与测试数据；对训练数据进行训练，更新LSTM分类模型；利用测试数据进行预测，计算正确率-错误率曲线，并计算曲线下面积AUC；判断AUC是否增加，如果增加则进行迭代训练，直到AUC不再增加时停止训练；

利用域名白名单数据与DGA域名黑名单数据，计算域名特征，训练RF/GBDT模型；所述域名特征包括：域名长度、是否是常见域顶级域名、是否是常见域名、是否是.net/.org/.Info/.Biz/.CC域名、主域名熵、二级域名熵、ngram特征、元音字符比例、数字比例、重复字符数、英文字符数；

基于被动域名日志收集每日被动域名解析记录，定义没有对应解析IP的域名为NX域名，利用上述RF/GBDT模型分类出非DGA域名；

利用LSTM模型对上述非DGA域名进行DGA预测，以及对RF/GBDT模型未检出的NX域名进行分类，根据设定的DGA域名判断阈值，检出疑似DGA域名；

基于逆向DGA域名算法，对上述疑似DGA域名进一步筛查，找出DGA域名，同时逆向得到其对应的DGA域名算法并形成新的分类标签；

将找到的DGA域名及其对应的DGA域名算法，以及新的分类标签，作为训练用样本数据，来训练LSTM模型和更新RF/GBDT模型。

2.如权利要求1所述的方法，其特征在于，通过查询包括Alex Top1M、域名备案数据所涉及的知名度与访问量大的网站，经去重、清洗，建立域名白名单数据。

3.如权利要求1所述的方法，其特征在于，利用包括已公开DGA域名列表和通过已公开DGA域名生成算法生成的DGA域名，来建立DGA域名黑名单数据。

4.如权利要求1所述的方法，其特征在于，基于LSTM对所述域名白名单数据与DGA域名黑名单数据进行训练，并对测试数据进行预测，根据预测结果中DGA域名发现的正确率、误报率、召回率，设定LSTM模型的DGA域名判断阈值。

5.如权利要求1所述的方法，其特征在于，利用采集设备对域名请求进行监测并清洗，存入HIVE存储中；对存储的域名监测数据去重清洗和聚类；再利用RF/GBDT在线预测DGA域名。