CN111131260A

CN111131260A - 一种海量网络恶意域名识别和分类方法及系统

Info

Publication number: CN111131260A
Application number: CN201911363946.3A
Authority: CN
Inventors: 司俊俊; 羊晋; 刘智超; 涂波
Original assignee: Escortech Shanghai Information Technology Co ltd
Current assignee: Escortech Shanghai Information Technology Co ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-08
Anticipated expiration: 2039-12-24
Also published as: CN111131260B

Abstract

本发明公布了一种基于海量域名访问日志的恶意域名识别和分类方法及系统，通过从域名访问日志中的域名服务器应答数据包解析得到未注册域名来检测恶意域名，识别被感染的僵尸主机；再从僵尸主机访问的域名集合中检测出僵尸主机感染的病毒和控制端通信所使用的通信控制恶意域名。采用本发明技术方案，计算复杂度较低，数据计算量也大大降低，适用于海量域名访问日志中恶意域名的高效识别应用场景。

Description

一种海量网络恶意域名识别和分类方法及系统

技术领域

本发明涉及网络安全、网络域名识别技术领域，尤其涉及一种海量恶意域名识别分类方法和系统。

背景技术

域名系统(Domain Name system)是一种将域名(主机名)映射为IP地址的技术，能够使用户方便地访问互联网。恶意网络攻击常常利用恶意域名进行僵尸病毒的传播和网络资源窃取。而且，为了提高自身生存能力，僵尸网络通常采用IP迁移或域名迁移技术来绕过传统的黑名单拦截防御技术。

IP迁移是指通过更改资源记录，为一个域名定期或不定期地更换其指向的IP地址。其优点是能够通过IP变换隐藏僵尸网络控制端，绕过基于IP黑名单的防御系统；缺点是IP资源较为昂贵，攻击代价较高，近年来应用不多。相应地，域名迁移是指僵尸病毒利用域名生成算法生成大量的随机域名，攻击者从中选择若干个域名用于命令控制通信。被感染的主机每天轮寻访问全部的随机域名以接收控制命令，大部分的域名因未注册而产生域名不存在的DNS应答，我们称之为“不存在域名”。许多僵尸网络如Conficker、Murofet、Bobax等均是采用基于域名生成算法的域名迁移技术来隐藏控制端、躲避基于黑名单的防御。

合法域名通常具有较强的可读性，而随机生成的域名其字符随机出现，特征表现出差异性。因此，对于域名迁移的检测，多是集中在对域名字符特征的分析上。然而，实际网络中每天的域名访问数据量十分庞大，如果对全部的DNS访问进行域名检测就要花费庞大的计算资源。因此，现有的恶意域名识别技术在处理海量域名数据时，计算量大，计算效率不高或恶意域名识别准确率不高。

发明内容

为了克服上述现有技术的不足，本发明提出一种基于海量域名访问日志的恶意域名识别方法和系统，通过从域名访问日志中域名服务器应答数据包解析记录标记为域名未注册的域名(以下简称为未注册域名)，检测恶意域名，并识别被感染的僵尸主机，再从僵尸主机访问的域名集合中检测出僵尸主机感染的病毒和控制端通信所使用的Comand andControl(简称C&C)域名。

基于某省被动域名流量数据的统计，每天域名访问日志数据量600亿，而不存在域名记录只占全量域名记录的百分之一不到，因此，把不存在域名从域名流量中提取出来后，后续计算逻辑所需要处理的数据量急剧降低，从而大大地降低了计算量。同时，利用Spark大数据计算平台进行系统设计和部署，能够在海量域名访问日志中，准确而高效地识别恶意域名、被感染的僵尸主机以及僵尸网络的C&C域名。

本发明提供了一种基于海量域名访问日志的恶意域名识别和分类方法，通过从域名访问日志中的域名服务器应答数据包解析得到记录标记为域名未注册的域名(称为未注册域名)检测恶意域名，识别被感染的僵尸主机；再从僵尸主机访问的域名集合中检测出僵尸主机感染的病毒和控制端通信所使用的通信控制恶意(C&C)域名；包括以下步骤：

第一步，获取海量域名访问日志，并进行数据清洗和过滤等数据处理；

首先，获取海量域名访问流量数据包，利用域名流量解析引擎对流量中域名服务器应答数据包进行解析，获取海量域名访问日志，并对海量域名访问日志进行数据清洗，利用Spark大数据分析引擎的map和filter算子，对日志中域名字符存在错误的记录进行过滤；

第二步，把域名访问日志按照域名流量中域名服务器应答数据包解析结果进行分组，得到未注册域名类和注册域名类。

具体方法是根据域名流量中域名服务器应答数据包解析结果中字段名rcode的取值进行判断域名是否注册，rcode取值为3说明该域名未被注册；

第三步，对未注册域名类中的每个域名提取特征向量，并进行域名聚类,得到未注册域名聚类结果A：

提取得到的域名特征向量内容包括但不限于：计算域名的二级域名信息熵、计算域名的三级域名信息熵、计算域名的全域名信息熵、计算域名的元音字符比例、计算域名的数字字符比例、计算域名的重复字符数目、计算域名的连续数字字符个数、计算域名的连续辅音字符个数、计算域名长度、计算二级域名长度、计算子域名长度、计算总字符个数以及域名的顶级域名是否是普遍使用的顶级域名(com、cn、net、gov、org)；

域名特征向量聚类可以选择K-Means聚类算法，基于特征向量，得到未注册域名聚类结果A；

第四步，建立未注册域名和主机访问关系矩阵，基于关系矩阵的计算进行未注册域名聚类：

对未注册域名及访问这些域名的主机，建立域名和主机的访问关系矩阵，并对矩阵进行奇异值分解计算，得到域名特征向量，利用K-Means算法对域名特征向量进行聚类，得到未注册域名聚类结果B；

第五步，对第三步和第四步得到的两个未注册域名聚类结果进行融合，即求交集运算，得到最终的未注册域名聚类结果C；

第六步，建立域名黑白名单知识库，作为训练集数据训练恶意域名分类器；黑白名单数据作为分类器训练数据集，训练数据集进一步分为训练数据和验证数据；

第七步，对恶意域名分类器进行训练，得到训练好的恶意域名分类器；

基于黑白名单训练数据和验证数据，按照第三步的方法提取黑白名单训练数据的域名特征向量，利用机器学习或深度学习算法，训练恶意域名分类器。可以基于黑白名单进行恶意和非恶意的二分类，也可以对黑名单中的恶意域名进行恶意类型细化，如Conficker类、Zeus类等，进行多类别恶意类型识别。分类器训练可以选择使用Spark MLlib库(machine learning library，是Spark提供的可扩展的机器学习库)里的随机森林分类器及分类方法进行恶意域名分类器训练，得到训练好的恶意域名分类器；

第八步，利用第七步训练好的的恶意域名分类器对第五步的未注册域名聚类结果C中的每一个域名集合进行恶意域名识别和分类，具体方法是域名聚类结果C中的每一个域名集合，将对应的域名特征向量集合提供给训练好的恶意域名分类器进行分类，得到该集合中每个域名的分类结果，然后对分类结果进行统计，当且仅当出现次数最多的分类结果L占总数巨量的比例大于设定值时(设定值可取70％～95％)，认为该域名集合的分类结果是L，否则该域名集合弃不再进入后续计算；

第九步，获取访问每一类已识别和分类的恶意域名的主机群，并获取这些主机群访问的注册域名集合；

第十步，利用第七步训练好的的恶意域名分类器对第九步得到的注册域名集合中的域名，按照第三步的方法提取域名特征向量，利用第七步训练好的恶意域名分类器对每一个域名进行识别和分类，得到域名属于每个类别的概率，最大概率值是域名属于这个类别的可信度。得到每个类别可信度大于设定阈值的恶意域名(阈值可取0.7～1.0)，即为通信控制恶意域名。

本发明提供了一种基于海量域名访问日志的恶意域名识别和分类系统，包括以下模块：

域名日志数据获取模块：利用流量解析引擎对域名流量数据包进行解析，获取海量域名访问日志；

数据清洗模块：对海量域名访问日志进行清洗，过滤域名字符不合规的记录；

域名特征向量提取模块：根据域名字符组成特点，提取域名特征向量；

域名特征向量聚类模块：根据聚类算法，对域名特征向量进行聚类，得到域名聚类结果；

域名主机访问关系矩阵计算模块：对域名主机访问关系矩阵，进行归一化处理；

矩阵奇异值分解模块：对域名主机访问关系矩阵进行奇异值分解，获取域名特征向量；

域名聚类集合求交集模块：对不同的域名聚类结果中的任意子集进行求交集运算；

域名训练数据集获取模块：获取恶意域名训练数据集；

域名分类器训练模块：利用机器学习或深度学习算法，基于训练数据集，训练域名分类器；

恶意分类模块：利用训练好的恶意域名分类器，对未知域名进行识别和分类；

获取被感染主机群模块：根据识别的恶意域名，获取访问这些域名的主机集合，即被感染主机群；

获取通信控制域名模块：根据被感染主机群访问的注册域名记录，利用恶意域名分类器对其进行识别和分类，获得可信度最高的恶意域名，即通信控制域名。

与现有技术相比，本发明的有益效果是：

本发明从域名访问日志中应答数据包解析说明为未注册的域名记录入手，提取未注册域名集合，基于Spark大数据处理引擎，进行域名特征向量提取和转化，并建立域名和主机IP的访问关系矩阵，进行矩阵计算，获取域名特征向量并进行聚类，对两次聚类的结果进行求交集运算，最后得到的是域名字符组成上具有相似性且被相同主机群访问过的域名类别，利用Spark机器学习库中的算法并行对域名进行分类，得到恶意域名，并进一步得到通信控制域名。

本发明的技术优势在于，基于海量域名访问日志对恶意域名识别和分类计算复杂度较低，域名聚类部分只计算未注册域名，未注册域名只占总域名访问数据量的百分之一。对通信控制域名的识别，只对被感染主机群访问的注册域名进行计算，数据计算量也大大降低。因此，本发明适用于海量域名访问日志中恶意域名的高效识别场景，如基于省口域名访问日志的恶意域名识别和分类。

附图说明

图1本发明提供的一种海量网络恶意域名识别和分类方法的一种实施方式示例图。

图2本发明提供的一种海量网络恶意域名识别和分类系统的一种实施方式示例图。

具体实施方式

为使上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

首先，基于某省海量域名访问流量数据包，利用域名流量解析引擎对流量进行实时解析，获取海量域名访问日志，并存入数据仓库，利用Spark大数据分析引擎的map和filter算子，对日志中域名字符存在错误的记录进行过滤，达到对海量域名访问日志进行数据清洗的目的；

第二步，把域名访问日志按照域名解析结果进行分组，得到未注册域名类和注册域名类。具体方法是根据域名解析结果中rcode的取值进行判断域名是否注册，rcode取值为3说明该域名未被注册；

第三步，对未注册域名类提取特征向量，并进行域名聚类：提取的域名特征包括但不限于：二级域名信息熵、三级域名信息熵、全域名信息熵、元音字符比例、数字字符比例、重复字符数目、连续数字字符个数、连续辅音字符个数、域名长度、二级域名长度、子域名长度、总字符个数、顶级域名是否是普遍使用的顶级域名(com、cn、net、gov、org)；利用SparkMLlib库中的K-Means聚类算法对域名特征向量进行聚类，从而得到未注册域名聚类结果A；

第四步，建立未注册域名和主机访问关系矩阵，矩阵的列代表域名，矩阵的行代表主机IP，第i行第j列的数据表示第i个主机对第j个域名的访问次数。对得到的稀疏关系矩阵进行归一化处理，每行数据除以该行数据之和，即把每个主机访问的域名次数之和归一化为1。用奇异值分解算法对该稀疏关系矩阵进行降维和去噪，得到每个域名的特征向量，利用Spark MLlib中的K-means聚类算法对域名特征向量进行聚类，从而得到未注册域名聚类结果B；

第五步，对聚类结果A和聚类结果B中的每个子集合进行求交集运算，得到最终域名聚类结果C，例如A＝{a1，a2，a3}，B＝{b1，b2，b3}，其中，则C＝{a1xb1,a1xb2,a1xb3,a2xb1,a2xb2,a2xb3,a3xb1,a3xb2,a3xb3}，“x”表示集合的交集运算；

第六步，建立域名黑白名单知识库，作为训练集数据训练恶意域名分类器。

具体实施时，白名单由中国境内域名访问量最高的前十万域名构成，黑名单可由某单位恶意域名黑名单知识库中抽取的十万域名构成。黑白名单数据作为分类器训练数据集，训练数据集进一步分为训练数据和验证数据；

第七步，训练恶意域名分类器，基于黑白名单训练数据和验证数据，利用机器学习或深度学习算法，训练恶意域名分类器，本实时示例中选择使用Spark MLlib库里的随机森林算法进行恶意域名分类器进行训练；

第八步，利用第七步训练的恶意域名分类器对第五步的域名聚类结果中的每一个域名集合进行恶意域名识别和分类。

例如对于恶意域名集合k1，首先利用分类器得到域名集合k1中的每个域名的分类结果(即域名所属的类别)，然后对分类结果进行统计，当且仅当出现次数最多的分类结果L占总数巨量的比例大于设定值(例如百分之70)时，认为域名集合k1的分类结果是L，否则该类丢弃不再进入后续计算；

第十步，利用第七步训练的恶意域名分类器对注册域名集合中的域名进行识别和分类，得到可信度最高的恶意域名，即通信控制恶意域名。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于海量域名访问日志的恶意域名识别和分类方法，通过从域名访问日志中的域名服务器应答数据包解析得到未注册域名来检测恶意域名，识别被感染的僵尸主机；再从僵尸主机访问的域名集合中检测出僵尸主机感染的病毒和控制端通信所使用的通信控制恶意域名；包括以下步骤：

第一步，获取海量域名访问日志，并进行数据清洗和数据过滤处理；

第二步，将域名访问日志按照域名流量中域名服务器应答数据包解析结果进行分组，得到未注册域名类和注册域名类；

第三步，对未注册域名类中的每个域名提取特征向量，并进行域名聚类,得到未注册域名聚类结果A；

提取得到的域名特征向量内容包括但不限于：计算域名的二级域名信息熵、计算域名的三级域名信息熵、计算域名的全域名信息熵、计算域名的元音字符比例、计算域名的数字字符比例、计算域名的重复字符数目、计算域名的连续数字字符个数、计算域名的连续辅音字符个数、计算域名长度、计算二级域名长度、计算子域名长度、计算总字符个数以及域名的顶级域名是否是普遍使用的顶级域名；

对未注册域名及访问这些域名的主机，建立域名和主机的访问关系矩阵，并对矩阵进行奇异值分解计算，得到域名特征向量；再对域名特征向量进行聚类，得到未注册域名聚类结果B；

基于黑白名单训练数据和验证数据，按照第三步的方法提取黑白名单训练数据的域名特征向量，利用机器学习或深度学习算法，训练恶意域名分类器，得到训练好的恶意域名分类器；

第八步，利用第七步训练好的的恶意域名分类器对第五步的未注册域名聚类结果C中的每一个域名集合进行恶意域名识别和分类，得到域名聚类结果C中的每一个域名集合中每个域名的分类结果；然后对分类结果进行统计，当且仅当出现次数最多的分类结果L占总数巨量的比例大于设定值时，该域名集合的分类结果为L；

第十步，利用第七步训练好的的恶意域名分类器对第九步得到的注册域名集合中的域名，按照第三步的方法提取域名特征向量，利用第七步训练好的恶意域名分类器对每一个域名进行识别和分类，得到域名属于每个类别的概率，最大概率值是域名属于类别的可信度；每个类别可信度大于设定阈值的恶意域名即为通信控制恶意域名；

通过上述步骤，实现基于海量域名访问日志的恶意域名识别和分类。

2.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法，其特征是，第一步具体包括：

首先，获取海量域名访问流量数据包，对流量中域名服务器应答数据包进行解析，获取海量域名访问日志，并对海量域名访问日志进行数据清洗，利用Spark大数据分析引擎的map和filter算子，对日志中域名字符存在错误的记录进行过滤。

3.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法，其特征是，第二步中，根据域名流量中域名服务器应答数据包解析结果中字段名rcode的取值进行判断域名是否注册，rcode取值为3即该域名未被注册。

4.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法，其特征是，第三步和第四步具体采用K-Means聚类算法进行聚类。

5.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法，其特征是，第四步中的关系矩阵的列表示域名，矩阵的行为主机IP；第i行第j列的数据表示第i个主机对第j个域名的访问次数。

6.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法，其特征是，第七步对恶意域名分类器进行训练具体包括：

基于黑白名单训练数据和验证数据，按照第三步的方法提取黑白名单训练数据的域名特征向量，利用机器学习或深度学习算法，训练恶意域名分类器；

基于黑白名单进行恶意和非恶意的二分类或对黑名单中的恶意域名进行恶意类型细化，进行多类别恶意类型识别；

使用Spark MLlib库的随机森林分类方法进行恶意域名分类器训练。

7.一种基于海量域名访问日志的恶意域名识别和分类系统，其特征是，包括以下模块：

域名特征向量提取模块：根据域名字符组成特点，提取域名特征向量；包括但不限于：计算域名的二级域名信息熵、计算域名的三级域名信息熵、计算域名的全域名信息熵、计算域名的元音字符比例、计算域名的数字字符比例、计算域名的重复字符数目、计算域名的连续数字字符个数、计算域名的连续辅音字符个数、计算域名长度、计算二级域名长度、计算子域名长度、计算总字符个数以及域名的顶级域名是否是普遍使用的顶级域名；

域名特征向量聚类模块：根据聚类算法对域名特征向量进行聚类，得到域名聚类结果；

域名主机访问关系矩阵计算模块：对域名主机访问关系矩阵进行归一化处理；

域名训练数据集获取模块：获取恶意域名训练数据集；

8.如权利要求7所述基于海量域名访问日志的恶意域名识别和分类系统，其特征是，所述域名主机访问关系矩阵的列表示域名，矩阵的行为主机IP；矩阵中第i行第j列的数据表示第i个主机对第j个域名的访问次数。