CN111031026A

CN111031026A - 一种dga恶意软件感染主机检测方法

Info

Publication number: CN111031026A
Application number: CN201911248809.5A
Authority: CN
Inventors: 刘书航; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-17

Abstract

本发明涉及一种DGA恶意软件感染主机检测方法，提取DNS数据作为原始数据集，构造训练数据集，对所有数据特征提取并归一化处理，以处理后的训练数据特征进行训练，得到稳定模型，以原始数据集数据输入模型得到可疑DGA域名列表，对进行误报过滤后的可疑DGA域名列表进行感染主机确认。本发明采用信息熵、隐马尔可夫链、N‑gram模型等方法提取特征建模预测可疑域名，通过计算同一IP地址发起的可疑域名请求的统计特征判断DGA恶意程序感染主机，兼容多种DGA可疑域名检测，通过感染主机请求可疑域名的行为特征剔除误报，具有低人工参与判别的优势，具有高检测覆盖率、高识别率和低误报率的优势，具有实际应用价值。

Description

一种DGA恶意软件感染主机检测方法

技术领域

本发明涉及数字信息的传输，例如电报通信的技术领域，特别涉及一种DGA恶意软件感染主机检测方法。

背景技术

DGA域名是指利用域名生成算法(Domain Generation Algorithm)生成的一系列随机域名，DGA恶意软件则是指利用DGA算法生成大量动态变化的域名，从而躲避威胁情报、域名黑名单的检测，常用于僵尸网络(Botnet)。著名的DGA恶意软件家族有conficker、zeus等。

利用DGA域名进行恶意软件传播和控制相对比较隐蔽，且难以追踪，攻击者通过算法在每天生成的大量随机域名中挑选一个或多个注册成为C2服务器域名，就可以实现对感染主机的控制，而已有的威胁情报系统无法有效检测到这种新产生的域名的信誉度。

现有技术中，DGA域名检测包括多种方法，例如通过规则判断、统计特征判断、机器学习分类算法、深度学习训练检测模型等，但由于DGA生成算法的灵活性，导致各类DGA病毒家族特征差异较大，目前还没有一种比较完善的高检测率模型可以针对不同的DGA家族(包括未知家族)且具有普适效果，同时，由于正常流量环境下DGA恶意域名占比很小，对误报非常敏感，因此如何剔除误报有效识别感染主机才是最急需解决的问题。

专利申请号为CN201711130020.0的专利“DGA域名实时检测方法和装置”采用深度学习(ImageNet数据集的各类训练好的深度学习网络)将DGA域名转换成图片，提取特征，再对提取的特征训练分类器进行DGA域名预测。但事实上，各类DGA恶意软件家族的DGA域名特征差异较大，采用深度学习提取特征对样本要求较高，对某些未知DGA家族检测效果可能不理想。

专利申请号为CN201910344380.3的专利“一种检测DGA域名的方法及装置”，对域名计算索引序列，通过训练卷积神经网络得到预测模型。然而，采用卷积神经网络训练模型存在特征提取不全面、训练速度慢等问题，且单一域名的预测结果在实际场景中误报率较高(黑样本占比很低)。

专利申请号为CN201910387482.3的专利“一种DGA域名检测分类方法”对域名采用LSTM模型进行训练，得到的结果通过黑白名单、人工统计判断输出结果并反馈训练样本集。然而单一域名的预测结果在实际场景中误报率较高(黑样本占比很低)，会导致大量人工判断的开销。

专利申请号为CN201510971299.X的专利“基于随机森林的DGA域名检测方法”使用随机森林算法做DGA域名检测，特征提取包含域名长度、域名信息熵、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白名单中得分以及域名中N元语言模型在单词词典中得分等。其提取的特征有效性并不一定适用于所有DGA家族，部分场景下检测率较低。

综上，现有技术主要通过对DGA域名自身的特征提取来训练机器学习分类器或构造神经网络来做恶意域名识别，在特征选择、算法优化、实际场景下的误报筛除等方面具有较大的困难，无法做到对各类型DGA域名都具有高效的检测效果。

发明内容

本发明解决了现有技术中存在的问题，提供了一种优化的DGA恶意软件感染主机检测方法，基于感染主机的异常域名请求行为特征，对筛选出的可疑DGA域名请求记录进行二次分析，并通过加载中文拼音库提取词组首字母组合排除首字母缩写域名的误报、通过域名查询返回rcode值的占比剔除正常域名的误报，最终识别出感染DGA恶意软件的主机。

本发明所采用的技术方案是，一种DGA恶意软件感染主机检测方法，所述方法包括以下步骤：

步骤1：提取DNS数据作为原始数据集；

步骤2：构造训练数据集；

步骤3：对训练数据集中的训练数据和原始数据集的数据进行特征提取；

步骤4：对提取的特征进行归一化处理；

步骤5：以处理后的训练数据的特征进行训练，得到稳定的模型，以原始数据集的数据输入模型，得到可疑DGA域名列表；

步骤6：对可疑DGA域名列表进行误报过滤；

步骤7：基于过滤后的可疑DGA域名列表进行感染主机确认。

优选地，所述步骤1中，DNS数据为从实际网络流量中提取的DNS查询请求数据。

优选地，所述步骤2中，以Alexa的域名为训练数据集的负样本，以公开DGA算法的域名为训练数据集的正样本。

优选地，步骤3中，提取的特征包括：

字符随机性特征，为任一域名的Shannon熵；

域名长度特征，为任一域名的字符串长度；

域名N-gram特征，为取n为2和3时，任一域名的字符串bigram、trigram的平均排名；

域名可读性特征，为计算任一域名的字符串中元音字母个数、元音字母占比、去重后的字母个数、去重后的数字个数及其占比获得；

域名TLD特征，为取任一域名TLD、使用独热编码处理后的特征串；

转移概率特征，为以隐马尔科夫链计算得到的任一域名的转移概率。

优选地，所述步骤5中，训练分类器时，对训练数据集使用10折交叉验证。

优选地，所述步骤6的过滤包括过滤汉语拼音导致的误报和过滤其他正常单一域名导致的误报。

优选地，所述过滤汉语拼音导致的误报包括以下步骤：

步骤6.1.1：获取开源拼音库数据；

步骤6.1.2：提取中文词组的拼音全拼和首字母组合；

步骤6.1.3：使用贪婪算法判断可疑DGA域名列表中的域名是否为拼音或首字母组成，若是，则从可疑DGA域名列表中删除，否则保留。

优选地，所述过滤其他正常单一域名导致的误报包括以下步骤：

步骤6.2.1：对原始数据集中匹配到可疑DGA域名列表中的数据进行统计；

步骤6.2.2：基于统计后的结果，按照源地址进行分组聚合；

步骤6.2.3：筛选出预设时间内请求不同可疑域名个数超过m的疑似感染主机IP及其对应的可疑DGA域名列表，m≥5。

优选地，所述步骤7包括以下步骤：

步骤7.1：基于过滤后的可疑DGA域名列表进行whois查询；

步骤7.2：统计DNS服务器返回NXDOMAIN和NOERROR的占比；

步骤7.3：若返回NXDOMAIN的域名占比大于80％，则确定当前主机为感染主机；

若返回NXDOMAIN的域名占比在40％-80％的范围内，则当前主机需要人工核查是否为感染主机；

其他情况，则当前主机非感染主机，标注误报。

优选地，所述步骤7.3中，将人工核查的结果反馈到训练数据集中，作为误报或确认样本，优化训练数据及模型。

本发明提供了一种优化的DGA恶意软件感染主机检测方法，通过提取DNS数据作为原始数据集，构造训练数据集，对训练数据集中的训练数据和原始数据集的数据进行特征提取并进行归一化处理，以处理后的训练数据的特征进行训练，得到稳定的模型，以原始数据集的数据输入模型，得到可疑DGA域名列表，对可疑DGA域名列表进行误报过滤，基于过滤后的可疑DGA域名列表进行感染主机确认。

本发明综合采用信息熵、隐马尔可夫链、N-gram模型等方法提取特征建模预测可疑域名，再通过计算同一IP地址发起的可疑域名请求的统计特征判断DGA恶意程序感染主机，兼容多种DGA可疑域名检测，可增加其他域名检测方法来提高检测率，通过最终的感染主机请求可疑域名的行为特征剔除误报，可以有效应对各类DGA恶意软件家族，具有低人工参与判别的优势，在实际中具有高检测覆盖率、高识别率和低误报率的优势，且更具有实际应用价值。

本发明基于感染主机的异常域名请求行为特征，对筛选出的可疑DGA域名请求记录进行二次分析，并通过加载中文拼音库提取词组首字母组合排除首字母缩写域名的误报、通过域名查询返回rcode值分布剔除正常域名的误报，最终识别出感染DGA恶意软件的主机；在实际环境中，对感染主机的有效识别是进行DGA域名检测的最终目的，因此本发明具有更高的应用价值。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种DGA恶意软件感染主机检测方法，所述方法包括以下步骤。

步骤1：提取DNS数据作为原始数据集。

所述步骤1中，DNS数据为从实际网络流量中提取的DNS查询请求数据。

本发明中，DNS查询请求数据包括源地址(内部主机的IPv4地址)、目的地址(dns服务器IPv4地址)、查询域名(dns rrname)、查询类型(dns rrtype)。

本发明中，过滤出dns.rrtype＝A的查询域名作为原始数据集。

步骤2：构造训练数据集。

所述步骤2中，以Alexa的域名为训练数据集的负样本，以公开DGA算法的域名为训练数据集的正样本。

本发明中，负样本包括100万域名，采用Alexa机构统计的世界范围内互联网访问次数最多的100万个域名；公开DGA算法的域名指DGA域名数据集，每类DGA域名根据特定DGA算法生成，算法被公开后可以自动生成历史以来该样本所有DGA域名，如，以360netlab整理的公开DGA域名列表https://data.netlab.360.com/feeds/dga/dga.txt作为正样本数据使用。

本发明中，对正样本和负样本打上标签后，构造训练数据集。

步骤3：对训练数据集中的训练数据和原始数据集的数据进行特征提取。

步骤3中，提取的特征包括：

字符随机性特征，为任一域名的Shannon熵；

域名长度特征，为任一域名的字符串长度；

域名TLD特征，为取任一域名TLD、使用独热编码(OneHotEncode)处理后的特征串；

本发明中，DGA域名通常具有随机性高、长度长、可读性差、使用罕见顶级域名TLD、转义概率小等特征，基于此，以www.google.com为例，提取上述特征。

本发明中，域名的Shannon熵H(x)＝-∑_xP(x)log₂[P(x)]；首先计算域名中各个字母出现的概率为，w＝0.25、g＝0.167、o＝0.25、l＝0.083、e＝0.083、c＝0.083、m＝0.083，基于公式，得到www.google.com的shannon熵为-[0.25*log20.25*2+0.167*log20.167+0.083*log20.083*4]＝0.7897。

本发明中，对域名计算域名长度为len＝14。

本发明中，域名的二级主域名为google，其bigram和trigram分别为：

bigram:[go,oo,og,gl,le]；

trigram:[goo,oog,ogl,gle]；

对训练数据集中的所有域名分别提取bigram和trigram，合并到bigram_all和trigram_all集合中，对集合中的每个值计算在全部域名中的出现频率，并对计算结果按照高到低排序，排名第一的表示出现频率最多的双字母或多字母组合；记录集合中每个bigram和trigram的排名；基于此，对google域名包含的bigram和trigram分别计算平均排名：bigram_avg＝1/5*[rank(go)+rank(oo)+rank(og)+rank(gl)+rank(le)]；trigram_avg＝1/4*[rank(goo)+rank(oog)+rank(ogl)+rank(gle)]；

本发明中：对于域名中的google来说，元音字母个数＝3，元音字母占比＝0.5，去重后的字母个数＝4，去重后的字母占比＝4/6＝0.67，去重后的数字个数＝0，去重后的数字占比＝0；其中，占比是指去重后的字母个数/字符总数、去重后的数字个数/字符总数，每一项都视为一个特征，整体为一系列特征。

本发明中，对域名www.google.com，取TLD域名.com生成特征：is_com＝1；取训练数据集中去重后的所有TLD，生成特征，如:is_net＝0,is_cn＝0等。

本发明中，使用马尔科夫链计算二级主域名的转移概率，主域名中每个字母定义为马尔科夫链中的一个状态，对训练数据集中所有二级主域名计算马尔科夫链的转移矩阵，再通过转移矩阵计算域名转移概率，转移概率低则表示域名随机性更高。

步骤4：对提取的特征进行归一化处理。

本发明中，对连续型特征做归一化处理，是使得处理后所有特征的取值范围在[0,1]之间。

本发明中，域名TLD特征中采用了独热编码处理，每一种TLD，如com、net、cn、cc等，都代表一个特征，维度数量可能较多，在提取特征维度较多的情况下，还可以使用PCA降维处理。

步骤5：以处理后的训练数据的特征进行训练，得到稳定的模型，以原始数据集的数据输入模型，得到可疑DGA域名列表。

所述步骤5中，训练分类器时，对训练数据集使用10折交叉验证。

步骤6：对可疑DGA域名列表进行误报过滤。

所述步骤6的过滤包括过滤汉语拼音导致的误报和过滤其他正常单一域名导致的误报。

所述过滤汉语拼音导致的误报包括以下步骤：

步骤6.1.1：获取开源拼音库数据；

步骤6.1.2：提取中文词组的拼音全拼和首字母组合；

所述过滤其他正常单一域名导致的误报包括以下步骤：

步骤6.2.2：基于统计后的结果，按照源地址进行分组聚合；

本发明中，在其他已有DGA域名检测方法中，未考虑到本地化影响(汉语拼音域名)，汉语拼音或首字母组成的域名同样具有高随机性、可读性差、域名长度可能较长等特征，因此容易造成误报；此外，在实际环境中单一域名触发的误报占比很大，因此考虑到DGA域名的统计特性(同一台感染主机一定时间内会查询多个不同的DGA域名)，故通过增加统计阈值过滤掉单一域名的误报影响；以上通过步骤6实现。

本发明中，利用贪婪算法判断一个大字符串(域名)是否由多个子字符串(词组拼音或首字母)组成包括以下步骤：

对中文词组库中的拼音及其首字母分别按照字母表顺序排序；

对域名字符串(假设长度n)，匹配前n个字符是否在词组库中，若不在则继续匹配前n-1个，依次类推；

假设前n-m个字符在词组库中，按照前述方法继续判断后m个字符是否在词组库中，依次类推；n-m≥2；

最后对结果做过滤处理。

本发明中，开源拼音库数据如搜狗拼音库数据。

本发明中，根据DGA域名变化频率，预设时间可以放大或缩小，一般情况下24小时，即1天。

步骤7：基于过滤后的可疑DGA域名列表进行感染主机确认。

所述步骤7包括以下步骤：

步骤7.1：基于过滤后的可疑DGA域名列表进行whois查询；

步骤7.2：统计DNS服务器返回NXDOMAIN和NOERROR的占比；

其他情况，则当前主机非感染主机，标注误报。

所述步骤7.3中，将人工核查的结果反馈到训练数据集中，作为误报或确认样本，优化训练数据及模型。

本发明中，考虑到DGA域名被注册的概率很低，当日有效的DGA域名注册数量占比很少，因此对感染主机确认采用了NXDOMAIN返回码(表示域名不存在，未注册)占比划分感染主机、待人工核查主机、误报主机三类，在降低误报率的同时可以进一步降低人工核查工作量；以上通过步骤7实现。

本发明中，考虑到对DGA恶意软件感染主机的检测是长周期工作，人工核查的结果需要反馈自动化训练，以解决重复误报问题，因此本发明增加了结果反馈步骤，通过步骤7.3实现，如对人工确认的DGA域名及误报的正常域名打上正负样本标签，加入训练数据集中重新训练。

本发明通过提取DNS数据作为原始数据集，构造训练数据集，对训练数据集中的训练数据和原始数据集的数据进行特征提取并进行归一化处理，以处理后的训练数据的特征进行训练，得到稳定的模型，以原始数据集的数据输入模型，得到可疑DGA域名列表，对可疑DGA域名列表进行误报过滤，基于过滤后的可疑DGA域名列表进行感染主机确认。

本发明中，当前已有的DGA域名判断、检测方法都是对单一域名的预测，在实际过程中存在检测率低、误报率较高的问题；若为了提高检测率并行采用多种检测方法并合并检测结果，则误报率可能会进一步增加；本发明针对感染主机的检测，考虑到感染主机在查询DGA域名时可能出现的统计特征，可以有效抑制误报；同时，当前已有DGA域名检测方法未考虑到本地化影响，对访问国内网站时可能出现的汉语拼音或首字母组成的域名无有效识别手段，会导致大量误报，本发明利用拼音库数据提取可能的拼音及首字母组合，排除误报域名的影响，可以有效抑制中文网站的域名误报。

Claims

1.一种DGA恶意软件感染主机检测方法，其特征在于：所述方法包括以下步骤：

步骤1：提取DNS数据作为原始数据集；

步骤2：构造训练数据集；

步骤4：对提取的特征进行归一化处理；

步骤6：对可疑DGA域名列表进行误报过滤；

步骤7：基于过滤后的可疑DGA域名列表进行感染主机确认。

2.根据权利要求1所述的一种DGA恶意软件感染主机检测方法，其特征在于：所述步骤1中，DNS数据为从实际网络流量中提取的DNS查询请求数据。

3.根据权利要求1所述的一种DGA恶意软件感染主机检测方法，其特征在于：所述步骤2中，以Alexa的域名为训练数据集的负样本，以公开DGA算法的域名为训练数据集的正样本。

4.根据权利要求3所述的一种DGA恶意软件感染主机检测方法，其特征在于：步骤3中，提取的特征包括：

字符随机性特征，为任一域名的Shannon熵；

域名长度特征，为任一域名的字符串长度；

5.根据权利要求1所述的一种DGA恶意软件感染主机检测方法，其特征在于：所述步骤5中，训练分类器时，对训练数据集使用10折交叉验证。

6.根据权利要求1所述的一种DGA恶意软件感染主机检测方法，其特征在于：所述步骤6的过滤包括过滤汉语拼音导致的误报和过滤其他正常单一域名导致的误报。

7.根据权利要求6所述的一种DGA恶意软件感染主机检测方法，其特征在于：所述过滤汉语拼音导致的误报包括以下步骤：

步骤6.1.1：获取开源拼音库数据；

步骤6.1.2：提取中文词组的拼音全拼和首字母组合；

8.根据权利要求6所述的一种DGA恶意软件感染主机检测方法，其特征在于：所述过滤其他正常单一域名导致的误报包括以下步骤：

步骤6.2.2：基于统计后的结果，按照源地址进行分组聚合；

9.根据权利要求1所述的一种DGA恶意软件感染主机检测方法，其特征在于：所述步骤7包括以下步骤：

步骤7.1：基于过滤后的可疑DGA域名列表进行whois查询；

步骤7.2：统计DNS服务器返回NXDOMAIN和NOERROR的占比；

步骤7.3：若返回NXDOMAIN的域名占比大于80%，则确定当前主机为感染主机；

若返回NXDOMAIN的域名占比在40%-80%的范围内，则当前主机需要人工核查是否为感染主机；

其他情况，则当前主机非感染主机，标注误报。

10.根据权利要求9所述的一种DGA恶意软件感染主机检测方法，其特征在于：所述步骤7.3中，将人工核查的结果反馈到训练数据集中，作为误报或确认样本，优化训练数据及模型。