CN105577660A

CN105577660A - 基于随机森林的dga域名检测方法

Info

Publication number: CN105577660A
Application number: CN201510971299.XA
Authority: CN
Inventors: 王红凯; 张旭东; 杨维永; 马志程; 廖鹏; 黄益彬; 于晓文; 张丹; 夏威; 宋文杰
Original assignee: State Grid Corp of China SGCC; Nari Information and Communication Technology Co; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd; Nanjing NARI Group Corp
Current assignee: State Grid Corp of China SGCC; NARI Group Corp; Nari Information and Communication Technology Co; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2016-05-11
Anticipated expiration: 2035-12-22
Also published as: CN105577660B

Abstract

本发明公开了一种基于随机森林的DGA域名检测方法，步骤一，构建知识库，包括构建黑白名单样本库和单词词典；步骤二，设定域名特征模板，将黑白名单中的域名作为训练集，过滤掉噪音，训练并离线保存随机森林算法模型；步骤三，获取待检测域名，加载最优随机森林算法模型，将待检测域名作为输入，得到预测结果。本发明不依赖在线获取DNS数据，不仅可以单独、快速完成DGA域名检测，也可以为其他恶意域名检测方法提供预测；此外，该方法基于随机森林算法，在噪音干扰上具有明显的优势，使用资源少，运行效率高，泛化性能好。

Description

基于随机森林的DGA域名检测方法

技术领域

本发明涉及一种基于随机森林的DGA域名检测方法，属于网络安全领域。

背景技术

恶意域名指传播蠕虫、病毒和特洛伊木马或是进行诈骗、色情内容传播等不法行为的网站域名。随着Domain-Flux、Fast-Flux技术越来越广泛的被黑客采用，网络攻击更加隐蔽，恶意追踪更加困难，安全隐患更加长久。其中，由域名生成算法(DomainGenerationAlgorithm，DGA)生成到的域名被广泛应用于僵尸网络(Botnet)。在大量被僵尸程序所感染的主机(Bot)构成的网络中，攻击者(BotMaster)可以通过控制服务器操控Bot发起各种类型的网络攻击，如分布式拒绝服务(DDoS)、垃圾邮件(Spare)、网络钓鱼(Phishing)、点击欺诈(ClickFraud)以及窃取敏感信息(InformationTheft)等。

目前，各种恶意域名检测算法主要分为以下两类：

(1)基于构造特征的方法。现有专利包括：基于域名构造特征的挂马网页检测方法(专利号为201110146967.7)、仿冒域名检测方法及设备(专利号为201210104110.3)。

(2)基于访问行为的方法。现有的专利包括：异常域名检测方法及系统(专利号为200910237594.7)、非法域名识别方法及装置(专利号为201110382578.4)、一种DomainFlux僵尸网络域名检测(专利号为201210475596.1)。

上述两类方法存在着如下局限性：1、基于构造特征的方法中，现有的两种专利均从相似性度量出发，通过计算样本对得到阈值，确定待检测域名是否属于假冒域名或者未知挂马网站。上述方法使用了较为简单的相似性度量方法，考虑的特征较为单一，设定阈值受训练样本影响，漏报或误报率较高，方法泛化性教差。2、基于访问行为的方法大多基于一个假设：恶意域名和合法域名表现出来的访问行为有着根本的差异。其基本流程是从域名服务器获取DNS记录，然后解析这些DNS数据，再根据各种方法对数据进行分析。这是一种在线的方法，需要在DNS服务器部署相关的服务，在线获取这些记录和数据的成本较高。

发明内容

为了解决上述技术问题，本发明提供了一种基于随机森林的DGA域名检测方法。

为了达到上述目的，本发明所采用的技术方案是：

基于随机森林的DGA域名检测方法，包括以下步骤，

步骤一，构建知识库，包括构建黑白名单样本库和单词词典；

步骤二，设定域名特征模板，将黑白名单中的域名作为训练集，过滤掉噪音，训练并离线保存随机森林算法模型；

所述域名特征模板可根据训练反馈进行修改；

步骤三，获取待检测域名，加载最优随机森林算法模型，将待检测域名作为输入，得到预测结果。

黑名单为通过开源渠道获取的恶意域名，白名单为通过开源渠道获取的合法域名，单词词典由英文单词和字母组合构成。

所述特征模板中的特征包括域名长度、域名信息熵、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白名单中得分以及域名中N元语言模型在单词词典中得分。

计算域名信息熵的公式为，

H = - Σ_{i = 0}^{n} (P_{i} * \log_{2}^{P_{i}})

其中，H为域名信息熵，P_i为每个字母P在域名中出现的频率，n表示域名中不重复的字符数；

所述域名语音性通过马尔卡夫链预测，具体过程为，

A1)读取训练集合，得到转移矩阵；

A2)读取正例样本和反例样本，将样本作为马尔卡夫链模型输入，得到预测的概率值，根据正例样本的概率值和反例样本的概率值确定语音性阈值；

所述正例样本为具有可读性/语言性的合法域名；所述反例样本为不可读/不具有语言性的域名；

A3)将域名作为输入，根据语音性阈值判断该域名是否具有语音性；

所述域名中元音字符数主要统计域名中包含的元音字母“a”、“e”、“i”、“o”、“u”的字符数；

所述域名中数字字符数主要统计域名中包含的“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”的字符数；

域名中N元语言模型在白名单中得分计算过程，

B1)训练白名单中N元语言模型；

统计白名单中所有N元对及其频率，将统计结果以矩阵形式保存；其中，矩阵的行是白名单域名索引，矩阵的列是所有白名单包含的N元对索引；

B2)计算待检测域名在N元语言模型中的得分；

将域名中出现的N元对与训练得到的矩阵中的N元对频率进行相乘后累加，具体公式为，

S = Σ_{j = 0}^{n^{'}} (D_{j} \times \log_{10}^{Σ_{l = 0}^{k} M_{l, j}})

其中，S为域名中N元语言模型在白名单中得分，M为存储的矩阵，k为行索引总数，n′为列索引总数，D_j表示域名在矩阵M中第j个N元对出现的频率；

域名中N元语言模型在单词词典中得分计算过程与域名中N元语言模型在白名单中得分计算过程相同，仅是将白名单替换成单词词典。

所述噪音为对应特征值与域名类别不相符的域名。

所述域名为去除TLD和前缀字符的主体部分。

随机森林算法实现过程为，

C1)样本选择；

假设每轮从原始训练集中通过有放回抽样的方式抽取m个样例，得到一个大小为m的训练集，共进行Q轮的抽取，则每轮抽取的训练集分别为T₁，T₂，…，T_Q；

C2)决策树生成；

假如特征空间共有E个特征，则在每一轮生成决策树的过程中，从E个特征中随机选择其中的e个特征，组成一个新的特征集，e<E，通过使用新的特征集来生成决策树，Q轮中共生成Q个决策树，Q个决策树之间是相互独立；

C3)模型预测；

对于分类问题，使用所有的决策树投票来确定最终分类结果。

本发明所达到的有益效果：本发明不依赖在线获取DNS数据，不仅可以单独、快速完成DGA域名检测，也可以为其他恶意域名检测方法提供预测；此外，该方法基于随机森林算法，在噪音干扰上具有明显的优势，使用资源少，运行效率高，泛化性能好。

附图说明

图1为本发明的流程图。

图2为随机森林的构建过程。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，基于随机森林的DGA域名检测方法，包括以下步骤：

步骤一，构建知识库，包括构建黑白名单样本库和单词词典。

黑名单为通过开源渠道获取的恶意域名，比如：安全联盟网站曝光台公布的恶意网址、金山网盾公布的恶意网址数据库、MalwareDomainList、MalwareDomains、PhishTank、hpHosts和CyberCrimeTracker恶意域名列表。

白名单为通过开源渠道获取的合法域名，比如Alexa网站排名、中文站长之家等获取的合法域名。

单词词典由英文单词和字母组合构成。

步骤二，设定域名特征模板，将黑白名单中的域名作为训练集，过滤掉噪音，训练并离线保存随机森林算法模型；域名特征模板可根据训练反馈进行修改。

域名为去除TLD(Top-LevelDomain)和前缀字符的主体部分，例如：domain＝“www.baidu.com”，其TLD为“.com”，去除“www.”前缀和TLD之后，域名主体为baidu。

特征模板中的特征包括域名长度、域名信息熵、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白名单中得分以及域名中N元语言模型在单词词典中得分。

计算域名信息熵的公式为，

H = - Σ_{i = 0}^{n} (P_{i} * \log_{2}^{P_{i}})

域名语音性通过马尔卡夫链预测。马尔可夫链(MarkovChain)，描述了一种状态序列，其每个状态值取决于前面有限个状态。马尔可夫链是具有马尔可夫性质的随机变量的一个数列。这些变量的范围，即它们所有可能取值的集合，被称为“状态空间”，下列公式中X_z的值则是在时间z的状态。如果X_z+1对于过去状态的条件概率分布仅是X_z的一个函数，则：

P(X_z+1＝x|X₁＝x₁，X₂＝x₂，…，X_z＝x_z)＝P(X_z+1＝x|X_z＝x_z)

其中x为过程中的某个状态。

一个含有Z个状态的一阶过程有Z²个状态转移。每一个转移的概率叫做状态转移概率(StateTransitionProbability)，就是从一个状态转移到另一个状态的概率。这所有的Z²个概率可以用一个状态转移矩阵来表示，其表示形式如下：

q_t表示所处时刻为t的一个状态；

对该矩阵有如下约束：

a_{f, f^{'}} &GreaterEqual; 0, &ForAll; f, f^{'}

Σ_{f^{'} = 1}^{Z} a_{f, f^{'}} = 1, &ForAll; f

通过马尔卡夫链进行域名语音性预测的具体过程为，

A1)读取训练集合，得到转移矩阵。

为了便于简化马尔卡夫链模型，提高运行效率，转移矩阵中的元素只考虑了26个英文字母大小写、数字和常见的符号。同时，为了避免当测试集中的N元对在训练的转移矩阵中不存在，而导致最终的概率为0。将使用数据平滑处理，赋予未出现过的N元对转移概率为一个非常小的常量值。

正例样本为具有可读性/语言性的合法域名；反例样本为不可读/不具有语言性的域名，多以机器生成的域名。

A3)将域名作为输入，根据语音性阈值判断该域名是否具有语音性；若具有语音性返回1，不具有语音性返回0。

域名中元音字符数主要统计域名中包含的元音字母“a”、“e”、“i”、“o”、“u”的字符数。

域名中数字字符数主要统计域名中包含的“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”的字符数。

域名中N元语言模型在白名单中得分计算过程：

B1)训练白名单中N元语言模型。

假设白名单中一个域名为“www.wooyun.com”，其域名主体部分为“wooyun”，当N取值不同时，可以得到如表一所示的N元对。

表一“wooyun”的N元对

N	N元对及频率
		1	“w”、“o”、“y”、“u”、“n”
2	“wo”、“oo”、“oy”、“yu”、“un”
		3	“woo”、“ooy”、“oyu”、“yun”
4	“wooy”、“ooyu”、“oyun”
		5	“wooyu”、“ooyun”

统计白名单中所有N元对及其频率，将统计结果以矩阵形式保存；其中，矩阵的行是白名单域名索引，矩阵的列是所有白名单包含的N元对索引；为了减少内存空间使用，可过滤掉频率小于阈值的N元对，也可采用稀疏矩阵进行存储。

B2)计算待检测域名在N元语言模型中的得分；

S = Σ_{j = 0}^{n^{'}} (D_{j} \times \log_{10}^{Σ_{l = 0}^{k} M_{l, j}})

其中，S为域名中N元语言模型在白名单中得分，M为存储的矩阵，k为行索引总数，n′为列索引总数，D_j表示域名在矩阵M中第j个N元对出现的频率。

最终得分体现该域名与白名单中域名在N元语言模型的相似性，得分越高，相似性越强，说明域名在N元模型上更具有网络构造性。

域名中N元语言模型在单词词典中得分计算过程与域名中N元语言模型在白名单中得分计算过程相同，仅是将白名单替换成单词词典，最终得分体现了该域名在N元语言模型上与单词的相似性，得分越高，相似性越强，说明该域名在N元模型上更具有单词构造性。

将域名特征模板的特征值构建特征向量，如下表二所示：

表二特征向量值

domain	copytaste	bravonude	singlesnet
				length	9.00	9.00	10.00
entropy	2.95	3.17	2.72
				gib	1.00	1.00	1.00
vowel_ratio	0.33	0.44	0.30
				digit_ratio	0.00	0.00	0.00
repeat_letter	0.11	0.00	0.30
				consec_digit	0.00	0.00	0.00
consec_consonant	0.56	0.22	0.50
				alexa_grams	21.56	20.23	36.97
word_grams	30.31	25.13	47.22

以黑白名单为训练集训练得到的特征向量需要过滤掉“噪音”，“噪音”指的是那些对应特征值与域名类别不相符的域名，过滤“噪音”可以使得训练模型对恶意域名的识别更准确。

域名特征模板可根据训练反馈进行修改，不同的域名特征模板得到的训练模型，可以根据各个特征的权重和模型好坏对特征模板进行修改，从而使得模型更好；当然也可根据特征的别的数值进行修改。

上述随机森林如图2所示，随机森林是用随机的方式建立一个森林，森林里由很多决策树组成。随机森林算法在当前的很多数据集上，相对其他算法有着很大的优势，主要体现在：能够处理很高维度的数据，不用做特征选择，在训练完后，能够给出特征的权重，应对噪声干扰上也具有明显的优势；实现简单，训练速度快，容易做成并行化方法。

上述随机森林算法实现的具体过程为：

C1)样本选择；

假设每轮从原始训练集中通过有放回抽样的方式抽取m个样例，得到一个大小为m的训练集，抽取过程中，可能有被重复抽取的样例，也可能有一次都没有被抽到的样例，共进行Q轮的抽取，则每轮抽取的训练集分别为T₁，T₂，…，T_Q。

C2)决策树生成；

假如特征空间共有E个特征，则在每一轮生成决策树的过程中，从E个特征中随机选择其中的e个特征，组成一个新的特征集，e<E，通过使用新的特征集来生成决策树，Q轮中共生成Q个决策树，由于这Q个决策树在训练集的选择和特征的选择上都是随机的，因此Q个决策树之间是相互独立。

C3)模型预测；

由于生成的Q个决策树之间是相互独立的，每个决策树的重要性是相等的，因而在将它们进行组合时，无需考虑他们的权值，或者可以认为他们具有相同的权值。对于分类问题，使用所有的决策树投票来确定最终分类结果。

上述方法基于黑白名单样本和英语词典构建知识库，根据域名特征模板对训练样本利用随机森林算法进行训练，最终给出待检测域名的预测分类。该方法不依赖在线获取DNS数据，不仅可以单独、快速完成DGA域名检测，也可以为其他恶意域名检测方法提供预测，此外，该方法基于随机森林算法，在噪声干扰上具有明显的优势，使用资源少，运行效率高，泛化性能好。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.基于随机森林的DGA域名检测方法，其特征在于：包括以下步骤，

所述域名特征模板可根据训练反馈进行修改；

2.根据权利要求1所述的基于随机森林的DGA域名检测方法，其特征在于：黑名单为通过开源渠道获取的恶意域名，白名单为通过开源渠道获取的合法域名，单词词典由英文单词和字母组合构成。

3.根据权利要求2所述的基于随机森林的DGA域名检测方法，其特征在于：所述特征模板中的特征包括域名长度、域名信息熵、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白名单中得分以及域名中N元语言模型在单词词典中得分。

4.根据权利要求3所述的基于随机森林的DGA域名检测方法，其特征在于：计算域名信息熵的公式为，

H = - Σ_{i = 0}^{n} (P_{i} * \log_{2}^{P_{i}})

所述域名语音性通过马尔卡夫链预测，具体过程为，

A1)读取训练集合，得到转移矩阵；

域名中N元语言模型在白名单中得分计算过程，

B1)训练白名单中N元语言模型；

B2)计算待检测域名在N元语言模型中的得分；

S = Σ_{j = 0}^{n^{'}} (D_{j} \times \log_{10}^{Σ_{l = 0}^{l} M_{l, j}})

5.根据权利要求1所述的基于随机森林的DGA域名检测方法，其特征在于：所述噪音为对应特征值与域名类别不相符的域名。

6.根据权利要求1-5任意一项所述的基于随机森林的DGA域名检测方法，其特征在于：所述域名为去除TLD和前缀字符的主体部分。

7.根据权利要求1所述的基于随机森林的DGA域名检测方法，其特征在于：随机森林算法实现过程为，

C1)样本选择；

C2)决策树生成；

C3)模型预测；