CN111431884A

CN111431884A - 一种基于dns分析的主机失陷检测方法及装置

Info

Publication number: CN111431884A
Application number: CN202010192612.0A
Authority: CN
Inventors: 辜乘风; 徐�明; 陈曦; 陈一根
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-17
Anticipated expiration: 2040-03-18
Also published as: CN111431884B

Abstract

本发明提供了一种基于DNS分析的主机失陷检测方法及装置，所述方法包括：利用预先训练的LSTM对待检测域名进行分类；抽取待检测域名的主机IP地址的特征；根据分类结果以及所抽取的特征，利用异常检测算法对主机IP地址进行异常打分；利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。应用本发明实施例，可以实现主机是否失陷的检测。

Description

一种基于DNS分析的主机失陷检测方法及装置

技术领域

本发明涉及网络安全防护领域，具体涉及一种基于DNS分析的主机失陷检测方法。

背景技术

域名服务协议(Domain Name System，DNS)，用于域名与IP地址的相互转换，为网络访问带来了便利。但是他同时也可以被黑客用来传递信息以与肉机(被黑客控制的主机)取得联系。其中比较流行的方式是利用DGA(Domain Generate Algorithm，域名生成算法)与肉机取得联系：黑客将DGA算法代码植入肉机；肉机向外请求DGA生成的域名地址；黑客随机从DGA生成算法生成的domain中取一条或少数几条注册，并将域名挂载在C&C(Commandand Control server，命令和控制)服务器上；肉机请求到黑客注册的域名，进而可以成功访问到C&C服务器；黑客与肉机取得通信，然后利用C&C服务器控制肉机。

申请号为201911084930.9的发明专利申请公开了一种基于深度学习的恶意域名检测方法及装置，涉及网络安全的技术领域，包括：获取待检测域名；对待检测域名进行解析，得到待检测域名的报文信息；基于自然语言处理算法和文本特征提取算法，对待检测域名的报文信息进行处理，得到待检测域名的特征信息；将特征信息输入深度学习模型，得到检测结果，其中，检测结果表征待检测域名是否为恶意域名，深度学习模型为基于卷积神经网络和全连接层构建的学习模型，解决了现有的域名检测方法中在检测待检测域名是否为恶意域名的准确率较低的技术问题。

现有技术中，是采用训练的深度学习模型进行恶意域名的检测，但是，并不能实现主机是否失陷的检测。

发明内容

本发明所要解决的技术问题在于如何提供一种基于DNS分析的主机失陷检测方法及装置以实现主机是否失陷的检测。

本发明通过以下技术手段实现解决上述技术问题的：

本发明实施例提供了一种基于DNS分析的主机失陷检测方法，所述方法包括：

利用预先训练的LSTM对待检测域名进行分类；

抽取待检测域名的主机IP地址的特征；

根据分类结果以及所抽取的特征，利用异常检测算法对主机IP地址进行异常打分；

利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。

应用本发明实施例，通过对疑似DGA的主域名进行分类，然后将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中，将组合后的特征作为主机IP的目标特征，再利用无监督分类算法对目标特征进行异常评估处理，最后使用恶意IP情报匹配结果和C&C server IP检测结果进行修正，进而可以对失陷主机进行检测。

可选的，所述抽取待检测域名的主机IP地址的特征，包括：

利用公式，

计算NXdomain的主域名去重占比，其中，

NXdomain的主域名去重数为NXdomain的主域名去重统计得到的数量；Client IP为主域名去重数为主机IP所重复访问的主域名数量。

可选的，所述根据分类结果以及所抽取的特征，利用异常检测算法对主机IP地址进行异常打分，包括：

将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中，将组合后的特征作为主机IP的目标特征；

利用公式，c(n)＝2H(n-1)-(2(n-1)/n)，计算平均每一个目标特征对应的路径长度，其中，

c(n)为平均路径长度；n为数据集包含的样本数；H(n-1)为调和数，该值可以被估计为ln(n-1)+0.5772156649。

利用公式，

计算每一个目标特征的异常得分，其中，

s(x,n)为特征的异常得分；E(h(x))为样本x在一批孤立树中的路径长度的期望；h(x)为样本x的路径长度。

可选的，所述利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正，包括：

获取预先设立的恶意IP集，如果主机IP地址关联到恶意IP，异常打分结果乘以预设第一系数；

在主机IP地址没有关联到恶意IP，则利用C&C server IP检测结果对异常打分结果进行补充和修正。

可选的，所述利用C&C server IP检测结果对异常打分结果进行补充和修正，包括：

统计域名解析到的IP所对应的去重主域名量；

利用分位数统计选取阈值：

将大于阈值的IP提取出来作为疑似C&C server IP集，如果关联到C&C server IP检测结果，异常打分结果乘以预设第二系数。

本发明实施例提供了一种基于DNS分析的主机失陷检测装置，所述装置包括：

分类模块，用于利用预先训练的LSTM对待检测域名进行分类；

抽取模块，用于抽取待检测域名的主机IP地址的特征；

打分模块，用于根据分类结果以及所抽取的特征，利用异常检测算法对主机IP地址进行异常打分；

修正模块，用于利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。

可选的，所述抽取模块，用于：

利用公式，

计算NXdomain的主域名去重占比，其中，

可选的，所述打分模块，用于：

利用公式，

计算每一个目标特征的异常得分，其中，

可选的，所述修正模块，用于：

统计域名解析到的IP所对应的去重主域名量；

利用分位数统计选取阈值：

本发明的优点在于：

附图说明

图1为本发明实施例提供的一种基于DNS分析的主机失陷检测方法的流程示意图；

图2为本发明实施例提供的标签编码的结构示意图；

图3为本发明实施例提供的BiLSTM模型结构示意图；

图4为本发明实施例提供BiLSTM模型的混淆矩阵示意图；

图5为发明实施例提供BiLSTM ROC曲线示意图；

图6为本发明实施例提供的主机IP地址的特征箱型图；

图7为本发明实施例提供的一种基于DNS分析的主机失陷检测装置。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种基于DNS分析的主机失陷检测方法的流程示意图，如图1所示，

S101：利用预先训练的LSTM对待检测域名进行分类。

示例性的，该步骤包括：

1)选取正负样本

a)可以预先选取Alexa数据集中前1000000个数据作为正常域名样本：选取google.com、facebook.com、youtube.com、baidu.com、yahoo.com、amazon.com、wikipedia.org、qq.com、twitter.com、…等。

b)选取选取针对DGA算法的恶意软件如cryptolocker，zeus，pushdo，rovnix，tinba，conficker，matsnu，ramdo所生成的样本共801667条作为DGA域名的负样本。如，ofdhiydrrttpblp.com、puciftnfkplcbhp.net、bowjjxxnhkyvygk.biz、osvwkptpwqyiqen.ru、cpmjpnwdgbxyyql.org、ptlwqfsfvhxlaxw.co.uk、wwcdhdhijsfsuyr.info、kbbqiudkyyffmeq.com、xxrdnsgxijevnij.net、…等。

2)然后，对域名做字符级标签编码，编码格式如图2所示。

在机器学习中，因为模型的输入项基本都需要是数值型变量，而类别变量本身不带数值属性，所以通常需要对类别变量单独做处理。label encoding是树模型中常用的变量转换方法，能够将类别变量转换成数值型。如图2所示，[g,o,o,g,l,e,.,c,o,m]我们把其转换为[1,2,2,1,3,4,5,6,2,7]，于是域名就完成了数值型转换。

3)然后，建立BiLSTM分类模型，模型结构如图3所示，将域名作为BiLSTM的输入，通过神经网络结构完成向量表征的提取，最后实现Domain向量分类。训练模型使用正样本和负样本进行训练，得到预先训练的LSTM。

在本步骤中，获取的DNS日志为：

2018-Jun 2 16:00:00 10.16.2.108.57610>10.33.194.8.53:[udp sum ok]6901+A？www.baidu.com response:180.101.49.11

2018-Jun 2 16:00:00 10.16.2.108.57610>10.33.194.8.53:[udp sum ok]6901+A？abceddkajdfhekfjjjfoeok.it response:NXdomain

然后对DNS日志进行字段抽取，例如，表1为记录了兑换人给受益人兑换奖品的事件，如表1所示，

表1

字段名称	字段
		时间	Time
主机IP	主机IP地址
		主机端口	Client Port
服务器IP	Server IP
		服务器端口	Server Port
请求方式	Request type
		域名	Domain
解析地址	Domain IP
		是否是NXdomain	Is_NXdomain

然后使用预先训练LSTM DGA检测模型进行待检测域名分类。

在实际应用中，如图5所示，ROC(receiver operating characteristic curve，受试者工作特征曲线)中可以看出，AUC(Area Under Curve，ROC曲线下与坐标轴围成的面积)值为0.99721，ACC(accuracy，准确率)值为0.99721，因此，本发明实施例具有很好的分类效果。

另外，本发明实施例中使用的双向LSTM较单向LSTM收敛速度更快，且BiLSTM分类模型即双向LSTM模型可以使用现有的模型。

S102：抽取待检测域名的主机IP地址的特征。

图6为本发明实施例提供的主机IP地址的特征箱型图，表6为本发明实施例中所抽取的特征汇总表，如图6和表2所示，对所有主机IP地址按照如下方式抽取特征：

表2

(1)NXdomain的主域名去重统计，即将主机IP地址的DNS请求失败中包括的主域名的进行去重统计，得到NXdomain的主域名去重数。例如，统计出该主机IP地址访问了10个主域名，其中有三个是重复的，可以将该特征值设为三。通常情况下，主机IP地址对应的解析失败的主域名越多，该主机越可能是失陷主机。

(2)NXdomain的主域名去重占比：

Client IP的主域名去重数为主机IP所重复访问的主域名数量。通常情况下，NXdomain的主域名去重占比越高，越可能是失陷主机。

(3)疑似DGA的主域名去重统计：

主机IP地址的DNS请求的主域名，被双向LSTM判断为DGA生成的域名的数量统计。该值越高，主机IP地址对应的主机越可能是失陷主机。

需要说明的是，DGA是成批生成的域名，但是通常只有其中一条或少数几条域名访问成功；这样会存在大量的NXdomain(即访问失败的域名请求分析)。黑客在管理域名的时候，为了提升C&C服务器的利用率，通常会让多个域名指向一个C&C服务器，这样会存在一个C&C服务器被多个主域名解析的现象。

(4)NXdomain的主域名中没有成功过的去重统计：

主机IP地址的DNS请求失败中主域名中从来没有被解析成功的去重统计。该值越高，主机IP地址对应的主机越可能是失陷主机。

S103：根据分类结果以及所抽取的特征，利用异常检测算法对主机IP地址进行异常打分。

示例性的，可以将S101步骤中的分类结果作为特征值加入到S102步骤中得到的特征中，得到组合后的目标特征，每一个目标特征即本步骤中所指的样本；若干个目标特征组成样本集。需要强调的是，S101步骤和S102步骤之间并无先后顺序关系，先执行S101步骤，或者先执行S102步骤，或者S101步骤与S102步骤同时执行均可，本发明实施例在此并不对其作出限定。

利用孤立森林算法，生成100棵树。每一棵树都会对主机IP地址的特征数据进行打分，即利用公式，c(n)＝2H(n-1)-(2(n-1)/n)，计算平均每一个目标特征对应的路径长度，其中，

然后，

利用公式，

计算每一个目标特征的异常得分，其中，

计算每个主机IP地址的平均分数，然后做线性变换将最大值投影到100分上，最小值投影到0分上。

S104：利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。

首先，利用恶意IP情报匹配结果对结果进行补充和修正可以为：

对域名解析的IP进行情报匹配，获取恶意IP集，对解析到的IP进行情报匹配，就是通过调用现有的情报社区的API接口来对IP进行检测，通过检测结果来判断该IP是否为恶意IP，最后将识别为恶意IP的结果汇总，得到恶意IP集。如果主机IP地址关联到恶意IP，异常打分结果乘以预设第一系数，如1.2。

然后，主机IP地址没有关联到恶意IP，则利用C&C server IP检测结果对异常打分结果进行补充和修正，具体可以为：

统计域名解析到的IP所对应的去重主域名量，要统计去重主域名量首先需要统计所解析内容中单个IP所对应的所有主域名，然后对这些主域名进行去重操作，计算最后的数值即可。(该值越大，对应IP的机器越可能C&C server)；利用分位数统计选取阈值：选取步骤a)统计结果的1/4分位数+3/4分位数，作为阈值；将步骤a)中大于步骤b)阈值的IP提取出来作为疑似C&C server IP集。如果关联到C&C server IP检测结果，异常打分结果乘以预设第二系数，如1.1。

最后，对分数截断处理，对分数大于100分的按100分输出。

加入恶意IP情报信息和C&C server IP的关联分析，提升失陷主机的准确率

目前，现有技术中还会使用单一检测DGA域名的技术，通过对域名这个对象进行研究并告警；即对长得像DGA域名的域名请求告警。常用的方法有人工抽取域名的信息，例如域名的长度，是否是DGA常用顶级域名和主域名的信息熵等；利用神经网络直接对域名进行分类。该方法的主要坏处是，研究对象选择有错误：1、许多公司DNS的每天请求量一般在百万级以上，大厂的请求量超过亿级别，即使该方法的准确率有99.99％也会存在成千上万的告警；2、很多公司自己也会使用DGA来做通信管理，这样即使检测到，也会是正常的DGA域名。相应的，其检测效果通常存在检测误报率高、漏报率高的缺点。

另外，现有技术中还会对机器的NXdomain访问量做时间序列监控进而实现主机检测：对每台机器的NXdomain量在单位时间内进行统计，设定一定的阈值，对NXdomain量高的机器进行告警。这种做法有以下问题：1、阈值的选择，在时间序列分析时，选用不同的时间序列方法就会产生不同的阈值，没法评判孰好孰坏，这就导致阈值不好选择；2、对于低频的DGA算法没法识别；3、当某个常用域名出现解析不成功或DNS server出现问题时，会产生大量的错误告警。

本发明实施例中的研究对象是主机，较研究对象为Domain的技术方案告警少；而且本发明实施例中抽取的特征是主域名的去重统计，比传统的次数统计更能体现DGA行为，检测的准确率更高。

与本发明图1所示实施例相对应，本发明实施例还提供了一种基于DNS分析的主机失陷检测装置。

图7为本发明实施例提供的一种基于DNS分析的主机失陷检测装置，如图7所示，所述装置包括：

分类模块701，用于利用预先训练的LSTM对待检测域名进行分类；

抽取模块702，用于抽取待检测域名的主机IP地址的特征；

打分模块703，用于根据分类结果以及所抽取的特征，利用异常检测算法对主机IP地址进行异常打分；

修正模块704，用于利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。

在本发明实施例的一种具体实施方式中，所述抽取模块702，用于：

利用公式，

计算NXdomain的主域名去重占比，其中，

在本发明实施例的一种具体实施方式中，所述打分模块703，用于：

利用公式，

计算每一个目标特征的异常得分，其中，

在本发明实施例的一种具体实施方式中，所述修正模块704，用于：

统计域名解析到的IP所对应的去重主域名量；

利用分位数统计选取阈值：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于DNS分析的主机失陷检测方法，其特征在于，所述方法包括：

利用预先训练的LSTM对待检测域名进行分类；

抽取待检测域名的主机IP地址的特征；

2.根据权利要求1所述的一种基于DNS分析的主机失陷检测方法，其特征在于，所述抽取待检测域名的主机IP地址的特征，包括：

利用公式，Xdomain的

计算NXdomain的主域名去重占比，其中，

3.根据权利要求2所述的一种基于DNS分析的主机失陷检测方法，其特征在于，所述根据分类结果以及所抽取的特征，利用异常检测算法对主机IP地址进行异常打分，包括：

c(n)为目标特征对应的平均路径长度；n为数据集包含的样本数；H(n-1)为调和数，该值可以被估计为ln(n-1)+0.5772156649。

利用公式，

计算每一个目标特征的异常得分，其中，

s(x,n)为目标特征的异常得分；E(h(x))为样本x在一批孤立树中的路径长度的期望；h(x)为样本x的路径长度。

4.根据权利要求1所述的一种基于DNS分析的主机失陷检测方法，其特征在于，所述利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正，包括：

5.根据权利要求4所述的一种基于DNS分析的主机失陷检测方法，其特征在于，所述利用C&C server IP检测结果对异常打分结果进行补充和修正，包括：

统计域名解析到的IP所对应的去重主域名量；

利用分位数统计选取阈值：

6.一种基于DNS分析的主机失陷检测装置，其特征在于，所述装置包括：

分类模块，用于利用预先训练的LSTM对待检测域名进行分类；

抽取模块，用于抽取待检测域名的主机IP地址的特征；

7.根据权利要求6所述的一种基于DNS分析的主机失陷检测装置，其特征在于，所述抽取模块，用于：

利用公式，Xdomain的

计算NXdomain的主域名去重占比，其中，

8.根据权利要求7所述的一种基于DNS分析的主机失陷检测方法，其特征在于，所述打分模块，用于：

利用公式，

计算每一个目标特征的异常得分，其中，

9.根据权利要求6所述的一种基于DNS分析的主机失陷检测方法，其特征在于，所述修正模块，用于：

10.根据权利要求9所述的一种基于DNS分析的主机失陷检测方法，其特征在于，所述修正模块，用于：

统计域名解析到的IP所对应的去重主域名量；

利用分位数统计选取阈值：