CN107666490B

CN107666490B - 一种可疑域名检测方法及装置

Info

Publication number: CN107666490B
Application number: CN201710972955.7A
Authority: CN
Inventors: 朱安南; 姜楠; 马铮
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2019-09-20
Anticipated expiration: 2037-10-18
Also published as: CN107666490A

Abstract

一种可疑域名检测方法及装置，涉及网络安全领域，本申请实施例提供的方法能够利用僵尸木马系统检测日志和DNS日志对可疑域名的IP地址进行检测。该方法包括：根据僵尸木马系统检测日志获取活跃僵尸木马控制端IP地址；根据DNS日志获取检测期内IP地址与域名的对应关系；获取对应域名数量大于第二阈值的IP地址；提取IP地址对应的每个域名中的关键域名字符串，计算字符在预定范围中的出现频次，预定范围包括IP地址对应的所有域名的关键域名字符串；利用聚类算法对所述IP地址进行聚类；根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇；将可疑点簇中包括的IP地址确定为可疑域名对应的IP地址。本申请应用于检测可疑域名。

Description

一种可疑域名检测方法及装置

技术领域

本申请涉及网络安全领域，尤其涉及一种可疑域名检测方法及装置。

背景技术

随着社会信息化的发展，互联网已经深入到社会生活的各个方面。随之而来的，网络中的僵尸网络、恶意软件等问题对网络安全有着很大的威胁。同时，僵尸网络、恶意软件等安全威胁的控制者经常采用DGA(Domain generate algorithm，域名生成算法)生成多个域名，再通过不断变换其域名和域名解析的IP地址的方式逃避防御者的监控和封堵，这使得网络安全防御的难度进一步加大。

目前，现有技术中主要采用基于分类的算法，利用已知正常域名样本集和已知恶意域名样本集合进行训练、得到域名分类规则。确定是否对该待确定域名的访问进行监控和封堵。

基于上述内容，本申请发明人发现，现有技术中利用对现有的正常域名和异常域名各自的规则，对域名进行识别时，经常会由于难以找到全面、准确的正常域名样本和异常域名样本集合进行训练，即正常样本域名中可能还有未发现的恶意域名样本造成，造成正常域名、恶意域名集合样本中存在错误的分类，导致无法准确识别出异常域名。

发明内容

本申请提供一种可疑域名检测方法及装置，能够根据可疑IP地址所对应的利用域名生成算法生成的域名，与正常IP地址对应的正常域名在字符的词频分布上的不同，进而根据每个IP地址对应的域名的词频分布，对IP地址进行聚类。再通过判断点簇中已知僵木IP地址的数量，进而确定该点簇中的IP地址是否为可疑IP地址。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，本申请实施例提供一种可疑域名检测方法，包括：根据僵尸木马系统检测日志获取僵木IP地址，僵木IP地址为在检测期内被作为僵尸网络通信中控制端地址的次数大于第一阈值的IP地址。根据DNS日志获取检测期内IP地址与域名的对应关系；根据IP地址与域名的对应关系，获取对应的域名数量大于第二阈值的IP地址；提取IP地址对应的每个域名中的关键域名字符串，计算字符在预定范围中的出现频次，预定范围包括IP地址对应的所有域名的关键域名字符串；根据出现频次，利用聚类算法对IP地址进行聚类，得到N个点簇。根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇，其中活跃僵木点指在点簇中表示活跃僵木IP地址的点。将可疑点簇中包括的IP地址确定为可疑域名对应的IP地址。

可选的，提取IP地址对应的每个域名中的关键域名字符串，包括：提取IP地址对应的每个域名中以“.”分隔所得的各个域名段中长度最长的域名字符串，或者，提取IP地址对应的每个域名中去掉域名尾缀后的域名字符串。

可选的，根据出现频次，利用K-Means聚类算法对IP地址进行聚类，得到N个点簇，具体包括：对每个IP地址对应的字符的出现频次进行归一化处理。根据归一化处理后的字符的出现频次，利用聚类算法将IP地址分为M个点簇。判断M个点簇是否满足预定条件，若满足预定条件，则M个点簇即为N个点簇。若不满足预定条件，则利用聚类算法将IP地址分为M+1个点簇，再次判断M+1个点簇是否满足预定条件。预定条件包括：点簇中，所有点的误差的总和小于第一误差阈值，并且每个点簇内所有点的平均误差小于第二误差阈值，并且点簇中的活跃僵木点的误差均小于第三误差阈值；其中，点的误差指点与该点所属点簇中心的欧式距离。

可选的，根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇，包括：若点簇中包括的活跃僵木点的数量大于预设个数，或者若点簇中包括的活跃僵木点所占比例大于预设比例时，确定点簇为高度可疑点簇。将可疑点簇中的点对应的IP地址确定为可疑域名对应的IP地址，包括：将高度可疑点簇中的点对应的IP地址确定为可疑域名对应的IP地址。

可选的，该方法还包括：若确定点簇中包括有活跃僵木点，且活跃僵木点的数量小于或等于预设个数，或者活跃僵木点所占比例小于或等于预设比例时，则确定点簇为轻度可疑点簇。确定轻度可疑点簇中包括的所有IP地址所对应的域名，获取域名在检测期内的解析请求量分布情况；根据域名的解析请求量分布情况，确定域名是否具有访问跳变点，以及域名在活跃期内的访问量曲线与该域名在非活跃期内的访问量曲线的日间相似度。若轻度可疑点簇内，具有访问跳变点且日间相似度低于第三阈值的域名数量超过第四阈值时，确定轻度可疑点簇为高度可疑点簇。

第二方面，本申请提供一种可疑域名IP地址检测装置，包括：获取单元，用于根据僵尸木马系统检测日志获取活跃僵木IP地址，其中活跃僵木IP地址为在检测期内被作为僵尸网络通信中控制端的次数大于第一阈值的IP地址；以及根据DNS日志获取检测期内IP地址与域名的对应关系；根据IP地址与域名的对应关系，获取对应域名数量大于第二阈值的IP地址。计算单元，用于在获取单元获取对应域名数量大于第二阈值的IP地址后，提取IP地址对应的每个域名中的关键域名字符串，计算字符在预定范围中的出现频次，预定范围包括IP地址对应的所有域名的关键域名字符串。聚类单元，用于在计算单元计算字符在预定范围中的出现频次后，根据出现频次，利用聚类算法对IP地址进行聚类，得到N个点簇。识别单元，用于在聚类单元对IP地址进行聚类后得到N个点簇后，根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇，其中活跃僵木点指在点簇中表示僵木IP地址的点；以及将可疑点簇中包括的IP地址确定为可疑域名对应的IP地址。

可选的，计算单元用于提取IP地址对应的每个域名中的关键域名字符串，具体包括：提取IP地址对应的每个域名中以“.”分隔所得的各个域名段中长度最长的域名字符串，或者，提取IP地址对应的每个域名中去掉域名尾缀后的域名字符串。

可选的，聚类单元，具体用于：对每个IP地址对应的字符的出现频次进行归一化处理。根据归一化处理后字符的出现频次，利用聚类算法将IP地址分为M个点簇。判断M个点簇是否满足预定条件，若满足预定条件，则M个点簇即为N个点簇。若不满足预定条件，则利用聚类算法将IP地址分为M+1个点簇，再次判断M+1个点簇是否满足预定条件。预定条件包括：点簇中，所有点的误差的总和小于第一误差阈值，并且每个点簇内所有点的平均误差小于第二误差阈值，并且点簇中的活跃僵木点的误差均小于第三误差阈值；其中，点的误差指点与该点所属点簇中心的欧式距离。

可选的，识别单元具体用于：若点簇中包括的活跃僵木点的数量大于预设个数，或者若点簇中包括的活跃僵木点所占比例大于预设比例时，确定点簇为高度可疑点簇。将高度可疑点簇中的点对应的IP地址确定为可疑域名对应的IP地址。

可选的，识别单元，还用于在聚类单元对IP地址进行聚类后得到N个点簇后，若确定点簇中包括有活跃僵木点，且活跃僵木点的数量小于或等于预设个数，或者活跃僵木点所占比例小于或等于预设比例时，则确定点簇为轻度可疑点簇。获取单元，还用于在识别单元确定点簇为轻度可疑点簇后，确定轻度可疑点簇中包括的所有IP地址所对应的域名，获取域名在检测期内的解析请求量分布情况。确定单元，用于获取单元获取域名在检测期内的解析请求量分布情况后，根据域名的解析请求量分布情况，确定域名是否具有访问跳变点，以及域名在活跃期内的访问量曲线与该域名在非活跃期内的访问量曲线的日间相似度。识别单元，还用于若轻度可疑点簇内，具有访问跳变点且日间相似度低于第三阈值的域名数量超过第四阈值时，确定轻度可疑点簇为高度可疑点簇。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请的实施例提供的典型的利用DGA生成域名的实例；

图2为本申请的实施例提供的一种可疑域名检测方法的流程示意图；

图3为本申请的实施例提供的一种可疑域名检测装置的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

本申请的实施例应用于检测可疑域名对应的IP地址的场景中。

首先，针对本申请的实施例用到的技术数据描述如下：

目前，在僵尸网络及恶意软件中，为了使受控端程序与控制端站点通信保持同步，基于DGA算法的域名变换技术被大量应用。具体的，受控端与僵尸网络控制端采用相同的域名生成策略，不断注册使用新的域名(如每天变换使用新的域名)来逃避检测，控制者提前对这些恶意生成的域名进行抢注。

这些基于域名生成算法的域名往往采用由一个时间做种子的随机域名生成或特定的域名生成方法。典型的DGA生成的域名如附图1所示实例。

附图1中，(a)-(g)为利用DGA生成的七组域名。

发明人发现，采用DGA所生成的域名往往具有以下特征：

(1)采用DGA所生成的域名较正常域名的长度更长。域名随机生成的部分只有达到一定长度才能体现域名的变化特征，太短长度的域名所能承载的域名变化数量太少。

(2)域名具有不正常的域名词频分布。正常域名肩负了使用作用(长度较短、部分由单词或者拼音规则组成)，呈现一定的分布特征，而域名生成算法生成的域名词频分布并不具备相似的特征。

(3)大量不同域名解析到对应相同的IP地址，多个IP地址轮换使用。由于僵尸网络控制者控制IP肉鸡的成本远高于注册域名的成本，因此出现僵尸网络经常采用域名变换技术(Domain-Flux)，将大量的随机生成域名对应到有限的IP地址上。

(4)域名访问量的频率出现显著变化。在僵尸网络发作期，由于大量受控肉鸡与控制端通信加剧导致该域名DNS解析量显著上升，而在非发作期该域名被极少使用，因此该域名极大可能出现过访问量突变情况，并且这种突变特征不具备日间相似性。

DNS(DomainName System，域名系统)，是互联网中用于记录域名和IP地映射关系的数据库。DNS日志记录了DNS所辖范围内，所有用户进行DNS解析的请求与响应消息。DNS日志中的内容包括：报文类型(请求报文or响应报文)、源IP、目的IP、报文时间、请求的域名、请求的类型、响应结果类型、响应的IP地址结果。

僵木检测系统，是运营商已经部署在骨干网中对于网络中僵尸网络通信信息等报文进行监控分析的系统。僵木检测系统产生的僵尸木马系统检测日志能够记录网络中爆发的僵尸网络类型及受控端、控制端的IP地址，例如下表1所示的记录内容：

表1

基于上述内容，本申请实施例提供一种可疑域名检测方法，参照图2所示，包括以下步骤：

S101、根据僵尸木马系统检测日志获取活跃僵木IP地址，活跃僵木IP地址为在检测期内被作为僵尸网络通信中控制端的次数大于第一阈值的IP地址。

具体的，僵尸木马系统检测日志中记录了网络中爆发的僵尸网络类型及受控端、控制端的IP地址。因此，当上述活跃僵木IP地址在检测期内被作为僵尸网络通信中控制端的次数大于第一阈值时，则表明该活跃僵木IP地址为僵尸主机活跃的地址。

S102、根据DNS日志获取检测期内IP地址与域名的对应关系。

具体的，利用DNS日志将检测期内每个IP地址被解析为的域名进行统计，形成IP地址与域名的对应关系。该对应关系表示在检测期内该域名至少一次被解析为该IP地址。

S103、根据IP地址与域名的对应关系，获取对应域名数量大于第二阈值的IP地址。

因为在僵尸网络中，利用域名生成算法生成的域名数量远大于受控IP地址的数量，因此平均每个IP地址对应的域名数量也会比正常站点更高。因此在本申请实施例中，通过将对应域名数量大于特定阈值的IP地址筛选出来再进行进一步识别，从而提高了筛选可疑IP地址的效率。

S104、提取对应域名数量大于第二阈值的IP地址对应的每个域名中的关键域名字符串，计算字符在预定范围中的出现频次。其中，预定范围包括IP地址对应的所有域名的关键域名字符串。

具体的，提取IP地址对应的每个域名中的关键域名字符串，可以包括：提取IP地址对应的每个域名中以“.”分隔所得的各个域名段中长度最长的域名字符串，或者，提取IP地址对应的每个域名中去掉域名尾缀后的域名字符串。

示例性的，假设IP地址Ⅰ，对应的域名有：

www.bn123.com.cn；

www.bn122.com；

www.bn121.cn,

1)若将每个域名中长度最长的域名字符串作为关键域名字符串，则上述三个域名中“bn12×”的部分分别为三个域名的最长的域名字符串。进而计算字符在IP地址对应的所有域名的关键域名字符串中的出现频次：b出现3次，n出现3次，1出现4次，2出现4次，3出现1次。

2)若将每个域名中去掉域名尾缀后的域名字符串作为关键域名字符串，则可以看出，上述三个域名的域名尾缀分别为“.com.cn”、“.com”、“.cn”,去掉域名尾缀后上述三个域名的关键域名字符串分别为“www.bn12×”的部分。进而计算字符在IP地址对应的所有域名的关键域名字符串中的出现频次：w出现9次，b出现3次，n出现3次，1出现4次，2出现4次，3出现1次。

S105、根据出现频次，利用聚类算法对IP地址进行聚类，得到N个点簇。

具体的，步骤S105可以包括以下步骤S105a-S105d的内容：

S105a、在计算出字符在IP地址对应的所有域名的关键域名字符串中的出现频次后，对每个IP地址对应的上述字符的出现频次进行归一化处理。

示例性的，例如统一将单个IP地址对应的字符总量设定为100个，因此若统计的IP地址Ⅰ对应的字符的出现频次为“b出现3次，n出现3次，1出现4次，2出现4次，3出现1次”，则归一化后的IP地址Ⅰ对应的字符的出现频次中“b”的频次为即20次，同理“n”的频次为20次、“1”的频次为26.66次、“2”的频次为26.66次、“1”的频次为6.66次。

S105b、根据归一化处理后字符的出现频次，设置M为目标聚类点数，利用K-Means聚类算法进行聚类，将IP地址初始的分为M个点簇。

S105c、判断M个点簇是否满足预定条件，若满足预定条件，则M个点簇即为N个点簇。

具体的，预定条件包括：点簇中所有点的误差的总和小于第一误差阈值，并且每个点簇内所有点的平均误差小于第二误差阈值，并且点簇中的活跃僵木点的误差均小于第三误差阈值；其中，点的误差指点与该点所属点簇中心的欧式距离，活跃僵木点指在点簇中表示僵木IP地址的点。

在上述预定条件中，通过限制点簇中所有点的误差的总和小于第一误差阈值，保证了聚类形成的点簇整体上不会特别离散。通过限制每个点簇内所有点的平均误差小于第二误差阈值，保证了聚类中每个点簇的离散程度差异不会过大，不会存在一个特别离散的点簇。通过限制点簇中的活跃僵木点的误差均小于第三误差阈值，保证了点簇中心的字符出现频次的分布特征与属于该点簇的已确定恶意站点词频分布特征基本一致。

S105d、若不满足预定条件，则利用聚类算法将IP地址分为M+1个点簇，再次判断该M+1个点簇是否满足预定条件。

S106、根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇。其中活跃僵木点指在点簇中表示僵木IP地址的点。将可疑点簇中包括的IP地址确定为可疑域名对应的IP地址。

具体的，若点簇中包括的活跃僵木点的数量大于预设个数，或者若点簇中包括的活跃僵木点所占比例大于预设比例时，确定点簇为高度可疑点簇。将该高度可疑点簇中的点对应的IP地址确定为可疑域名对应的IP地址。

当点簇中的活跃僵木点数量或所占比例不满足上述条件时，本申请实施例所述方法还包括：

S107、若确定点簇中包括有活跃僵木点，且活跃僵木点的数量小于或等于预设个数，或者活跃僵木点所占比例小于或等于预设比例时，则确定该点簇为轻度可疑点簇。

S108、确定轻度可疑点簇中包括的所有IP地址所对应的域名，获取域名在检测期内的解析请求量分布情况。根据域名的解析请求量分布情况，确定域名是否具有访问跳变点，以及域名在活跃期内的访问量曲线与该域名在非活跃期内的访问量曲线的日间相似度。

其中，访问跳变点表示域名在某一单位时间内的访问量存在强烈变化的过程。例如，当某域名在n时间段内的访问量f(n)大于n-1时间段的访问量f(n-1)及n+1时间段的访问量f(n+1)的平均值的k倍时，即时，则确定该域名在n时间段内存在访问跳变点。其中，根据实际应用情况需要，可以调整k值的大小，本申请实施例对此不作限定。

日间相似度表示域名在不同日期的访问量变化曲线的相似度，相似度越高说明该域名在不同日期内的访问量变化情况越接近。

S109、若该轻度可疑点簇内，具有访问跳变点且日间相似度低于第三阈值的域名数量超过第四阈值时，确定该轻度可疑点簇为高度可疑点簇。

在僵尸网络发作期，由于大量受控肉鸡与控制端通信加剧导致该恶意域名的访问量显著上升，而在非发作期该域名极少被访问，因此该域名极大可能出现过访问量突变情况，并且这种突变特征不具备日间相似性。进而在本申请中利用恶意域名的上述特性，通过计算轻度可疑点簇中符合访问跳变点以及日间相似度要求的域名的数量多少，进而对该轻度可疑点簇进行判定。

此外，本申请实施例所述方法还包括，当IP地址点簇中没有活跃僵木点时，确定该点簇中各点对应的IP地址为正常域名。当然，也可以通过其他检测方法对该点簇进行进一步的检测，对此本申请实施例不做限定。

当轻度可疑点簇中包括的所有IP地址所对应的域名具有跳变点，且该域名在活跃期内的访问量曲线与该域名在非活跃期内的访问量曲线的日间相似度高于第三阈值时，确定该点簇中各点对应的IP地址为正常域名。

当根据上述方法无法确定轻度可疑点簇是否为高度可疑点簇时，则通过人工核查，确定该点簇中的IP地址对应的域名是否为正常域名。

本申请实施例能够根据可疑IP地址所对应的利用域名生成算法生成的域名，与正常IP地址对应的正常域名在字符的词频分布上的不同，进而根据每个IP地址对应的域名的词频分布，对IP地址进行聚类。再通过判断点簇中已知僵木IP地址的数量，进而确定该点簇中的IP地址是否为可疑域名对应的IP地址。

本申请实施例提供一种可疑域名检测装置，用于执行上述可疑域名检测方法。图3示出了该可疑域名检测装置的一种可能的结构示意图。具体的，该可疑域名检测装置10包括：获取单元101、计算单元102、聚类单元103、识别单元104。其中

获取单元101，用于根据僵尸木马系统检测日志获取活跃僵木IP地址，其中所述活跃僵木IP地址为在检测期内被作为僵尸网络通信中控制端的次数大于第一阈值的IP地址；以及根据DNS日志获取所述检测期内IP地址与域名的对应关系；根据所述IP地址与域名的对应关系，获取对应域名数量大于第二阈值的IP地址。

计算单元102，用于在所述获取单元101获取对应域名数量大于第二阈值的IP地址后，提取所述IP地址对应的每个域名中的关键域名字符串，计算字符在预定范围中的出现频次，所述预定范围包括所述IP地址对应的所有域名的关键域名字符串。其中，

提取所述IP地址对应的每个域名中的关键域名字符串，具体包括：提取所述IP地址对应的每个域名中以“.”分隔所得的各个域名段中长度最长的域名字符串，或者，提取所述IP地址对应的每个域名中去掉域名尾缀后的域名字符串。

聚类单元103，用于在所述计算单元102计算所述字符在预定范围中的出现频次后，根据所述出现频次，利用聚类算法对所述IP地址进行聚类，得到N个点簇。包括：

对每个IP地址对应的所述字符的出现频次进行归一化处理。根据所述归一化处理后所述字符的出现频次，利用K-Means聚类算法将所述IP地址分为M个点簇，即聚类算法时取K＝M。判断所述M个点簇是否满足预定条件，若满足所述预定条件，则所述M个点簇即为所述N个点簇。若不满足所述预定条件，则利用聚类算法将所述IP地址分为M+1个点簇，再次判断所述M+1个点簇是否满足预定条件。其中预定条件包括：所述点簇中，所有点的误差的总和小于第一误差阈值，并且每个点簇内所有点的平均误差小于第二误差阈值，并且所述点簇中的活跃僵木点的误差均小于第三误差阈值；其中，所述点的误差为点与该点所属点簇中心的欧式距离。

识别单元104，用于在聚类单元103对所述IP地址进行聚类后得到N个点簇后，根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇，其中所述活跃僵木点指在点簇中表示所述僵木IP地址的点；以及将所述可疑点簇中包括的IP地址确定为可疑域名对应的IP地址。包括：

若所述点簇中包括的活跃僵木点的数量大于预设个数，或者若所述点簇中包括的活跃僵木点所占比例大于预设比例时，确定所述点簇为高度可疑点簇。将所述高度可疑点簇中的点对应的IP地址确定为可疑域名对应的IP地址。

另外，识别单元104，还用于在聚类单元103对所述IP地址进行聚类后得到N个点簇后，若确定所述点簇中包括有活跃僵木点，且所述活跃僵木点的数量小于或等于预设个数，或者所述活跃僵木点所占比例小于或等于预设比例时，则确定所述点簇为轻度可疑点簇。

获取单元101，还用于在识别单元104确定所述点簇为轻度可疑点簇后，确定所述轻度可疑点簇中包括的所有IP地址所对应的域名，获取所述域名在检测期内的解析请求量分布情况。

该可疑域名检测装置，还包括：确定单元105。

确定单元105，用于所述获取单元101获取所述域名在所述检测期内的解析请求量分布情况后，根据所述域名在所述检测期内的解析请求量分布情况，确定所述域名是否具有访问跳变点，以及所述域名在活跃期内的访问量曲线与该域名在非活跃期内的访问量曲线的日间相似度。

识别单元104，还用于在确定单元确定所述域名是否具有访问跳变点，以及所述域名在活跃期内的访问量曲线与该域名在非活跃期内的访问量曲线的日间相似度后，判断在所述轻度可疑点簇内，若具有访问跳变点且所述日间相似度低于第三阈值的域名数量超过第四阈值时，确定所述轻度可疑点簇为高度可疑点簇。

需要说明的是，本申请实施例中提供的可疑域名检测装置中各单元所对应的其他相应描述，可以参考图2以及上文中对图2的对应描述内容，在此不再赘述。此外，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种可疑域名检测方法，其特征在于，包括：

根据僵尸木马系统检测日志获取活跃僵木IP地址，所述活跃僵木IP地址为在检测期内被作为僵尸网络通信中控制端地址的次数大于第一阈值的IP地址；

根据域名系统DNS日志获取所述检测期内IP地址与域名的对应关系；根据所述IP地址与域名的对应关系，获取对应的域名数量大于第二阈值的IP地址；提取所述IP地址对应的每个域名中的关键域名字符串，计算字符在预定范围中的出现频次，所述预定范围包括所述IP地址对应的所有域名的关键域名字符串；根据所述出现频次，利用聚类算法对所述IP地址进行聚类，得到N个点簇；

根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇，其中所述活跃僵木点指在点簇中表示所述活跃僵木IP地址的点；

将所述可疑点簇中包括的IP地址确定为可疑域名对应的IP地址。

2.根据权利要求1所述方法，其特征在于，提取所述IP地址对应的每个域名中的关键域名字符串，包括：

提取所述IP地址对应的每个域名中以“.”分隔所得的各个域名段中长度最长的域名段字符串，或者，提取所述IP地址对应的每个域名中去掉域名尾缀后的域名字符串。

3.根据权利要求1所述方法，其特征在于，根据所述出现频次，利用聚类算法对所述IP地址进行聚类，得到N个点簇，具体包括：

对每个IP地址对应的所述字符的出现频次进行归一化处理；

根据所述归一化处理后所述字符的出现频次，利用K-Means聚类算法将所述IP地址分为M个点簇，即聚类算法时取K＝M；

判断所述M个点簇是否满足预定条件，若满足所述预定条件，则所述M个点簇即为所述N个点簇；

若不满足所述预定条件，则利用聚类算法将所述IP地址分为M+1个点簇，再次判断所述M+1个点簇是否满足预定条件；

所述预定条件包括：所述点簇中，所有点的误差的总和小于第一误差阈值，并且每个点簇内所有点的平均误差小于第二误差阈值，并且所述点簇中的活跃僵木点的误差均小于第三误差阈值；其中，所述点的误差为点与该点所属点簇中心的欧式距离。

4.根据权利要求1-3任一项所述方法，其特征在于，所述根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇，包括：

若所述点簇中包括的活跃僵木点的数量大于预设个数，或者若所述点簇中包括的活跃僵木点所占比例大于预设比例时，确定所述点簇为高度可疑点簇；

所述将所述可疑点簇中的点对应的IP地址确定为可疑域名对应的IP地址，包括：将所述高度可疑点簇中的点对应的IP地址确定为可疑域名对应的IP地址。

5.根据权利要求1-3任一项所述方法，其特征在于，所述方法还包括：

若确定所述点簇中包括有活跃僵木点，且所述活跃僵木点的数量小于或等于预设个数，或者所述活跃僵木点所占比例小于或等于预设比例时，则确定所述点簇为轻度可疑点簇；

确定所述轻度可疑点簇中包括的所有IP地址所对应的域名，获取所述域名在所述检测期内的每个时间周期的解析请求量分布情况；根据所述域名在所述检测期内的解析请求量分布情况，确定所述域名是否具有访问跳变点，以及所述域名在活跃期内的访问量曲线与该域名在非活跃期内的访问量曲线的日间相似度；

若所述轻度可疑点簇内，具有访问跳变点且所述日间相似度低于第三阈值的域名数量超过第四阈值时，确定所述轻度可疑点簇为高度可疑点簇。

6.一种可疑域名检测装置，其特征在于，包括：

获取单元，用于根据僵尸木马系统检测日志获取活跃僵木IP地址，其中所述活跃僵木IP地址为在检测期内被作为僵尸网络通信中控制端地址的次数大于第一阈值的IP地址；以及根据DNS日志获取所述检测期内IP地址与域名的对应关系；根据所述IP地址与域名的对应关系，获取对应的域名数量大于第二阈值的IP地址；

计算单元，用于在所述获取单元获取对应域名数量大于第二阈值的IP地址后，提取所述IP地址对应的每个域名中的关键域名字符串，计算字符在预定范围中的出现频次，所述预定范围包括所述IP地址对应的所有域名的关键域名字符串；

聚类单元，用于在所述计算单元计算所述字符在预定范围中的出现频次后，根据所述出现频次，利用聚类算法对所述IP地址进行聚类，得到N个点簇；

识别单元，用于在聚类单元对所述IP地址进行聚类后得到N个点簇后，根据各个点簇中所包括的活跃僵木点的数量，确定可疑点簇，其中所述活跃僵木点指在点簇中表示所述活跃僵木IP地址的点；以及将所述可疑点簇中包括的IP地址确定为可疑域名对应的IP地址。

7.根据权利要求6所述装置，其特征在于，所述计算单元用于提取所述IP地址对应的每个域名中的关键域名字符串，具体包括：

8.根据权利要求6所述装置，其特征在于，所述聚类单元，具体用于：

对每个IP地址对应的所述字符的出现频次进行归一化处理；

9.根据权利要求6-8任一项所述装置，其特征在于，所述识别单元具体用于：

将所述高度可疑点簇中的点对应的IP地址确定为可疑域名对应的IP地址。

10.根据权利要求6-8任一项所述装置，其特征在于，

所述识别单元，还用于在聚类单元对所述IP地址进行聚类后得到N个点簇后，若确定所述点簇中包括有活跃僵木点，且所述活跃僵木点的数量小于或等于预设个数，或者所述活跃僵木点所占比例小于或等于预设比例时，则确定所述点簇为轻度可疑点簇；

所述获取单元，还用于在识别单元确定所述点簇为轻度可疑点簇后，确定所述轻度可疑点簇中包括的所有IP地址所对应的域名，获取所述域名在检测期内的每个时间周期解析请求量分布情况；

确定单元，用于所述获取单元获取所述域名在所述检测期内的解析请求量分布情况后，根据所述域名在所述检测期内的解析请求量分布情况，确定所述域名是否具有访问跳变点，以及所述域名在活跃期内的访问量曲线与该域名在非活跃期内的访问量曲线的日间相似度；

所述识别单元，还用于若所述轻度可疑点簇内，具有访问跳变点且所述日间相似度低于第三阈值的域名数量超过第四阈值时，确定所述轻度可疑点簇为高度可疑点簇。