CN111200576A

CN111200576A - 一种基于机器学习实现恶意域名识别的方法

Info

Publication number: CN111200576A
Application number: CN201811365404.5A
Authority: CN
Inventors: 贾盛; 王晓波
Original assignee: Hui Shield Information Security Technology Suzhou Ltd By Share Ltd
Current assignee: Hui Shield Information Security Technology Suzhou Ltd By Share Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2020-05-26

Abstract

本发明提供一种基于机器学习实现恶意域名识别的方法，其特征在于，采用机器学习技术，训练出识别恶意域名的机器学习模型组，该模型组可以准确的对恶意域名进行识别；包括机器学习模型训练单元和恶意域名识别单元。

Description

一种基于机器学习实现恶意域名识别的方法

技术领域

本发明属于互联网信息安全领域，涉及域名管理、病毒和木马技术、机器学习、以及NB、MLP和XGBoost等算法。本发明所涉及的一种机器学习识别恶意域名的方法，采用上述技术和算法，能够实现对机器自动生成的恶意域名的准确、快速的识别。

缩略语及名词解释

DGA：域名生成算法是一种利用随机字符来生成C&C域名，从而逃避域名黑名单识别的技术手段。

C&C服务器：远程命令和控制服务器，目标机器可以接收来自服务器的命令，从而达到服务器控制目标机器的目的，该方法常用于病毒木马控制被感染的机器。

DNS：Domain Name System，域名系统。

Jaccard系数：Jaccard相似系数(Jaccard similarity coefficient)用于比较有限数据集之间的相似性与差异性，Jaccard系数值越大，样本相似度越高。

XGBoost：eXtreme Gradient Boosting。

MLP：多层感知器。

NB：朴素贝叶斯法。

背景技术

随着网络时代的到来，互联网让人民的生活更加便捷，一方面，互联网的进步带给了人们生活的便捷，另一方面黑客攻击者也会窃取互联网用户的重要信息，威胁着网民的网络安全，黑客攻击者利用僵尸网络对感染病毒的主机进行了大量的恶意活动，并且僵尸网络大多数使用了Domain Flux技术(如图1)，即根据DGA(Domain GenerationAlgorithms，域名产生算法)在一段时间内涌现很多新域名并且只有其中一两个域名被注册为真实的活跃域名，以逃避安全检测员检测域名。

通过事先注册一个或多个域名，控制者便可实现对整个网络的控制，对于僵尸程序，为实现与C&C服务器建立连接，必须对生成域名进行解析，直至获取C&C 服务器的IP地址，由于注册的域名数量有限，导致感染主机会请求大量新域名，并存在一定数量解析失败的域名请求行为。

当前杀毒软件以及安全防护设备无法检测恶意域名，时刻威胁着用户终端的系统安全。主要包括以下两个原因：

1：恶意软件定期使用DGA算法生成为随机域名，有效绕过黑名单检测，尝试连接，寻找C&C中控。

2：如果一个生成的域名无法连接，便生成下一个DGA为随机域名进行连接尝试，这样即使中控机的IP地址发生变化，或一个中控域名被干掉，一定时间后肉鸡仍能寻找到C&C中控继续工作。

发明内容

本发明涉及一种机器学习识别恶意域名的方法，通过机器学习模型训练和恶意域名识别，可实现简单而有效的恶意域名识别，能够区分恶意域名和正常域名，解决现有技术中恶意域名识别滞后的问题。

一种机器学习识别恶意域名识别的方法包括：

1.机器学习模型训练单元：通过构建数据集、特征提取、模型训练，训练出可识别恶意域名的机器学习模型组。如图3

2.恶意域名识别单元：通过待识别的域名获取、静态过滤、待识别域名特征提取、模型组预测、选举投票，可实现恶意域名识别。如图4

构建正负样本数据集，所述正样本数据集使用Alexa全球排名前100万的网站域名数据，负样本数据集使用360netlab开放DGA家族数据，并对DGA家族数据进行分类。

所述DGA家族类型包括：

Bamital、banjori、blackhole、ccleaner、chinad、conficker、 Cryptolocker、dircrypt、dyre、emotet、fobber、gameover、Gspy、locky、 madmax、matsnu、mirai、murofet、xshellghost、Necurs、nymaim、omexo、 padcrypt、proslikefan、pykspa、Qadars、ramnit、ranbyus、rovnix、shifu、 simda、vidro、virutSuppobox、symmi、tempedreve、tinba、tinynuke、tofsee、 Vawtrak

特征提取，提取正样本数据和负样本数据的特征，特征提取规则包括N-Gram 特征和文本特征。

所述N-Gram特征是基于一个假设：第n个字符出现与前n-1个字符相关，而与其他任何字符不相关，整个域名出现的概率就等于各个字符出现的概率乘积，各个字符的概率可以通过语料中统计计算得到，假设句子T是有字符序列w1，w2，w3...wn组成，用公式表示N-Gram语言模型如下：

P(T)＝P(w1)*p(w2)*p(w3)***p(wn)＝p(w1)*p(w2|w1)*p(w3|w1w2)***p(wn|w1w2w3...)

所述文本特征包括：元音字符个数、唯一字母数字个数、平均jarccard个数、字符序列。

所述域名中元音字符数主要统计域名中包含的元音字母包含：″a″、″e″、″i″、″o″、″u″。

所述域名中数字字符数主要统计域名中包含的″0″、″1、″2″、″3″、″4″、″5″、″6″、″7″、″8″、″9″。

所述Jarccard系数定义为两个集合交集与并集个数的比值，本发明中的jarccard系数是基于2-gram计算。

所述唯一的字母数字个数指的是域名中去掉重复的字母和数字后的个数。

所述字符序列是指把域名当做一个由字符组成的序列，字符转换成对应的ASCII，这样就可以把域名最终转换成一个数字序列。

特征向量化，根据提取的特征生成特征向量，标识每个特征向量的正负属性。

所述正负属性表示向量中的特征的域名属于恶意域名还是非恶意域名，其中正属性为非恶意域名，标识为“0”；负属性为恶意域名，标识为“1”。

模型训练，对DGA家族数据和正样本数据分别生成两个域名集合，划分为两部分：一部分作为训练样本，另一部分作为测试样本；通过NB、MLP和XGBoost 三种机器学习算法进行模型训练，模型训练包括：2-gram&NB机器学习模型、 234-gram&NB机器学习模型、文本特征&NB机器学习模型、2-gram&XGBoost机器学习模型、234-gram&XGBoost机器学习模型、文本特征&XGBoost机器学习模型、2-gram&MLP机器学习模型、234-gram&MLP机器学习模型、文本特征&MLP 机器学习模型；训练模型根据训练所反馈的模型准确率和召回率进行效果验证。

所述NB时基于贝叶斯定理与特征条件独立假设的分类方法，给定目标值时属性之间相互条件独立。

所述MLP是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图，由多个节点层组成，每一层全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。

所述XGBoost是在GBDT的基础上对boosting算法进行的改进，内部决策树使用的是回归树。

所述准确率和召回率效果验证，具体为：实际为真并且也被预测为真，既为真正类(True positivr，TP)，如果实际为假被预测成真，称之为假正类(False positive，FP)，相应地，如果实际为假被预测成假，称之为真负类(True negative，TN)，实际为真被预测成假则为假负类(false negative，FN)。

召回率＝TP/(TP+FN)

准确率＝TP/(TP+FP)

待识别的域名获取，从DNS域名系统服务器中获取域名解析日志信息；其中日志信息包括：源IP地址、域名、请求时间、请求结果、解析域名的IP表，从日志信息中提取待识别的域名。

所述域名解析日志记录过程如图2所示。

静态过滤，对待识别域名通过比对正负样本数据集进行过滤，如果在正样本数据集里能够找到，则认为是正常普通的域名，输出最终识别结果，如果在负样本数据集里能够找到，则认为是恶意域名，输出最终识别结果。

待识别域名特征提取，提取待识别域名的N-Gram特征和文本特征。

所述机器学习模型组已基于N-Gram特征和文本特征进行XGBoost、MLP、NB 三种机器学习算法训练。

模型组预测，将获取的待测域名特征输入已经预设的机器学习模型组中训练，输出预设机器学习模型组的初步识别结果。

所述初步识别结果为所有的机器学习模型输出的识别结果。

选举投票，对所述机器学习模型组的识别结果按照选举投票规则进行选举投票，输出最终识别结果。

所述选举投票规则包括：

规则一：所述机器学习模型组中，所有的机器学习模型输出的初步识别结果70％及以上表示所述待识别域名为恶意域名，则最终的识别结果表示所述待识别域名为恶意域名。

规则二：所述机器学习模型组中，所有的机器学习模型输出的初步识别结果低于70％并高于30％表示所述待识别域名为恶意域名，则最终的识别结果表示所述待识别域名为疑似恶意域名。

规则三：所述机器学习模型组中，所有的机器学习模型输出的初步识别结果30％及以下表示所述待识别域名为恶意域名，则最终的识别结果表示所述待识别域名为非恶意域名。

本发明提供一种基于机器学习实现恶意域名的方法，从DNS域名系统服务器的域名解析日志信息中获取待识别域名，静态过滤待识别域名并输出识别结果，若静态过滤未能识别出待识别域名的类别则进行待识别域名特征提取，并将所提取的待识别域名特征输入到预设机器学习模型组中进行预测，得到初步识别结果；其中，所述预设机器学习模型组中包括多个机器学习模型，所述机器学习模型已基于正负样本数据集中域名特征进行了机器学习训练，再基于选举投票规则和所述初步识别结果，得到最终识别结果；通过一种基于机器学习实现恶意域名的方法能够实现对机器自动生成的恶意域名进行准确、快速的识别。

具体实施方式

本发明提供了一种基于机器学习实现恶意域名识别的方法，采用机器学习技术，通过对海量域名数据样本进行特征提取，训练出可识别恶意域名的机器学习模型组，通过该模型组可以对恶意域名进行识别，解决现有技术中恶意域名识别滞后的问题。

为了使本技术领域的人员更好地理解本发明的技术方法，并使本发明上述目的、特征和优点更够明显易懂，下面结合附图对本发明的技术方法进行进一步详细说明。

如图3，为本发明生成识别恶意域名的机器学习模型的实施流程图：

步骤一：从互联网上收集海量域名数据，海量数据中包括恶意域名和非恶意域名。

步骤二：对步骤一中所述海量域名数据进行分类，构建用于机器学习模型训练的数据集，分类包括：正样本数据集和负样本数据集。

其中，正样本数据集使用Alexa全球排名前100万的网站域名数据集，负样本数据集使用360netlab开放DGA家族数据。

步骤三：对步骤二中已构建的数据集进行提取特征，提取的特征包括： N-Gram特征和文本特征。

N-Gram特征包括：2-Gram特征和234-Gram特征。

文本特征包括：所述文本特征包括：元音字符个数、唯一字母数字个数、平均jarccard个数、字符序列。

步骤四：对步骤三中所提取的特征使用机器学习模型组训练，生成用于识别恶意域名的机器学习模型组。

其中，使用的机器学习算法包括：NB、MLP、XGBoost。

机器学习模型组为：2-gram&NB机器学习模型、234-gram&NB机器学习模型、文本特征&NB机器学习模型、2-gram&XGBoost机器学习模型、234-gram&XGBoost 机器学习模型、文本特征&XGBoost机器学习模型、2-gram&MLP机器学习模型、 234-gram&MLP机器学习模型、文本特征&MLP机器学习模型。

如图4，为本发明基于机器学习实现恶意域名识别的方法实施流程图。

步骤五：待识别的域名获取，从DNS服务器的域名解析日志文件中提取域名信息，作为待识别域名。

步骤六：对步骤五中已获取的待识别域名与正负样本数据集进行静态过滤，如果在正样本数据集里能够找到，则认为是非恶意域名，输出最终识别结果；如果在负样本数据集里能够找到，则认为是恶意域名，输出最终识别结果。

若在正负样本数据集匹配到该待识别域名，跳到步骤六、七、八、九，直接输出最终识别结果。

步骤七：对步骤五中已获取的待识别域名进行特征提取，其特征包括： N-Gram特征和文本特征。

步骤八：将步骤七中提取的待测域名特征输入到步骤四中已经生成的机器学习模型组中，输出机器学习模型组的初步识别结果。

步骤九：对步骤八中机器学习模型组的初步识别结果进行选举投票，选举投票结果为恶意域名、疑似恶意域名、非恶意域名。

通过对以上实施步骤的描述可知，本发明实施例在识别恶意域名时，通过提取海量正负样本数据集的特征，并基于所提取特征进行了机器学习模型训练，训练出用于识别恶意域名的机器学习模型组；对待识别域名进行特征提取并输入机器学习模型组预测，得到初步识别结果，并对初步识别结果进行选举投票，得到最终识别结果；通过该方法的使用可以节省大量的人力，提高对恶意域名的识别效率。

附图说明

图1为DGA原理图。

图2为域名解析日志记录过程图

图3为识别恶意域名的机器学习模型的实施流程图。

图4为基于一种基于机器学习实现恶意域名识别的方法实施流程图。

Claims

1.本发明提供一种基于机器学习实现恶意域名识别的方法，其特征在于，采用机器学习技术，训练出识别恶意域名的机器学习模型组，该模型组可以准确的对恶意域名进行识别；包括机器学习模型训练单元和恶意域名识别单元，其中：

A.机器学习模型训练单元，通过构建数据集、特征提取、模型训练，训练出可识别恶意域名的机器学习模型组；

B.恶意域名识别单元，通过待识别的域名获取、静态过滤、待识别域名特征提取、模型组预测、选举投票，可实现恶意域名识别。

2.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，机器学习模型训练单元中的构建数据集，正样本数据集使用Alexa全球排名前100万的网站域名数据，负样本数据集使用360netlab开放DGA家族数据。

3.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，机器学习模型训练单元中的提取特征并进行特征向量化，提取特征包括：N-Gram特征和文本特征。

4.如权利要求3所述的特征向量化，其特征在于，对所提取的特征进行特征向量化，标识每个特征向量的正负属性，正属性为非恶意域名，标识为“0”；负属性为恶意域名，标识为“1”。

5.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，机器学习模型训练单元中的模型训练，对DGA家族数据和正样本数据分别生成两个域名集合，划分为两部分：一部分作为训练样本，另一部分作为测试样本；通过XGBoost、MLP、NB三种机器学习算法进行模型训练，模型训练包括：2-gram&NB机器学习模型、234-gram&NB机器学习模型、文本特征&NB机器学习模型、2-gram&XGBoost机器学习模型、234-gram&XGBoost机器学习模型、文本特征&XGBoost机器学习模型、2-gram&MLP机器学习模型、234-gram&MLP机器学习模型、文本特征&MLP机器学习模型。

6.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，恶意域名识别单元中的待识别域名获取，从DNS服务器的域名解析日志文件中提取域名信息，作为待识别域名。

7.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，恶意域名识别单元中的静态过滤，如果在正样本数据集里能够找到，则认为是非恶意域名，输出最终识别结果；如果在负样本数据集里能够找到，则认为是恶意域名，输出最终识别结果。

8.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，恶意域名识别单元中的模型组预测，将获取的待识别域名特征输入机器学习模型组中进行预测，输出初步识别结果。

9.如权利要求1所述的一种基于机器学习实现恶意域名识别的方法，其特征在于，恶意域名识别单元中选举投票，对所述机器学习模型组的初步识别结果按照选举投票规则进行选举投票，得到最终识别结果。

10.一种基于机器学习实现恶意域名识别的方法，其特征在于采用权利要求1-9任一所述之基于机器学习实现恶意域名识别单元模块，机器学习模型训练单元对正负样本数据集中域名特征进行了机器学习训练，训练出多个可实现恶意域名识别的机器学习模型；恶意域名识别单元对获取的待识别域名进行静态过滤，当静态过滤识别出结果，直接输出为最终识别结果；当静态过滤未能识别出结果则对待识别域名进行特征提取，并将提取的待识别域名特征输入到机器学习模型训练单元中的机器学习模型组中进行预测，得到初步识别结果，再基于选举投票规则和所述初步识别结果，得到最终识别结果。