CN108270761A

CN108270761A - 一种域名合法性检测方法及装置

Info

Publication number: CN108270761A
Application number: CN201710002645.2A
Authority: CN
Inventors: 王村; 王一村; 孙乾; 杭小勇; 马冰珂; 程叶霞
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2017-01-03
Filing date: 2017-01-03
Publication date: 2018-07-10

Abstract

本申请涉及网络安全技术领域，尤其涉及一种域名合法性检测方法及装置，用以解决现有技术中存在的不能有效识别僵尸网络域名，阻止僵尸网络危害的问题；本申请实施例提供的方法包括：获取待检测域名；确定所述待检测域名的特征向量；其中，所述特征向量中的每个元素为所述待检测域名的每种特征的特征值；基于确定的所述特征向量，以及预先训练出的用于判断域名合法性的分类模型，确定所述待检测域名的合法性。这样，如果确定待检测域名为非法域名，则可以在僵尸网络发起攻击的过程中阻断对域名的解析服务，因而能有效阻止僵尸网络的危害。

Description

一种域名合法性检测方法及装置

技术领域

本申请涉及网络安全技术领域，尤其涉及一种域名合法性检测方法及装置。

背景技术

目前，在互联网领域几乎所有的网络安全设施都允许域名解析，因此，越来越多的黑客利用域名系统(Domain Name System，DNS)对非法域名进行解析来达到各种非法目的，如僵尸网络。

近些年出现的采用Fast-flux技术的僵尸网络，一般会包括多个被控制的计算机，这多个计算机的DNS记录会持续、快速地发生变化，从而使犯罪行为的追踪和阻断更为困难，而僵尸网络的攻击可能会导致大量机密信息、个人隐私泄露，严重时甚至会导致整个信息网络瘫痪，因此，如何有效检测出Fast-flux僵尸网络域名是网络安全研究者关注的热点问题。

可见，如何识别僵尸网络域名，进而阻止僵尸网络的危害是迫切需要解决的问题。

发明内容

本申请实施例提供一种域名合法性检测方法及装置，用以解决现有技术中不能有效识别僵尸网络域名，阻止僵尸网络犯罪的问题。

本申请实施例提供的一种域名合法性检测方法，包括：

获取待检测域名；

确定待检测域名的特征向量；其中，特征向量中的每个元素为待检测域名的每种特征的特征值；

基于确定的特征向量，以及预先训练出的用于判断域名合法性的分类模型，确定待检测域名的合法性。

可选地，基于以下步骤训练分类模型：

获取域名样本中每个域名的特征向量和该域名的属性信息；所述属性信息用于指示该域名是否合法；

将域名样本中每个域名的特征向量作为待训练的分类模型的输入值，将该域名的属性信息作为待训练的分类模型的输出值，训练分类模型。

可选地，域名的特征包括以下两类特征中的一类或两类：

域名的伪装特征；域名的跳变特征。

可选地，域名的伪装特征包括以下特征中的一种或多种：

域名长度；域名中是否包含符合IP地址格式的字符串；域名中的分隔符个数；域名中的特殊字符个数；域名中的数字字符个数；域名中的数字字符个数与域名长度的比例；域名中的数字字符与字母字符之间的转换频率；域名中的大写字母个数；域名分隔符间字符串的最大长度；域名中连续数字的最大长度；域名中连续字母的最大长度。

可选地，域名的跳变特征包括以下特征中的一种或多种：

域名请求数据包的生存时间TTL平均值；域名所属网段的个数；域名解析出的IP地址个数、自治系统AS个数；域名服务NS个数；NS分散度；NS请求数据包对应的TTL平均值；域名的注册时间；域名解析出的IP地址所属的国家数量。

本申请实施例提供的一种域名合法性检测装置，包括：

获取模块，用于获取待检测域名；

特征向量确定模块，用于确定待检测域名的特征向量；其中，所述特征向量中的每个元素为待检测域名的每种特征的特征值；

域名合法性确定模块，用于基于确定的特征向量，以及预先训练出的用于判断域名合法性的分类模型，确定待检测域名的合法性。

可选地，所述装置还包括：

分类模型训练模块，用于获取域名样本中每个域名的特征向量和该域名的属性信息；所述属性信息用于指示该域名是否合法；将域名样本中每个域名的特征向量作为待训练的分类模型的输入值，将该域名的属性信息作为待训练的分类模型的输出值，训练分类模型。

可选地，特征向量确定模块具体用于：

确定以下两类特征中的一类或两类：域名的伪装特征；域名的跳变特征。

可选地，特征向量确定模块具体用于：

确定以下伪装特征中的一种或多种：

可选地，特征向量确定模块具体用于：

确定以下跳变特征中的一种或多种：

本申请实施例中，在获取待检测域名之后，可以确定待检测域名的特征向量，进一步地，可以基于确定的特征向量，以及预先训练出的用于判断域名合法性的分类模型，确定待检测域名的合法性，这样，如果确定待检测域名为非法域名，则可以在僵尸网络发起攻击的过程中阻断对非法域名的解析服务，从而阻止僵尸网络的危害。

附图说明

图1为本申请实施例提供的域名合法性检测方法流程图；

图2为本申请实施例提供的训练分类模型流程图；

图3为本申请实施例提供的域名合法性检测装置结构图。

具体实施方式

僵尸网络域名在视觉上会尽量模仿已有的域名以达到欺骗用户的目的，比如，僵尸网络域名的字符串和正常域名的字符串相似但又有所区别，因而具有伪装的特性。此外，为了避免僵尸网络域名被屏蔽，僵尸网络会频繁变更其使用的域名和主机IP，因而还具有跳变的特性，本发明正是针对伪装和跳变这两类特征提出的。

下面结合说明书附图对本申请实施例作进一步详细描述。

需要说明的是，本申请实施例中的执行主体可以是DNS服务器，也可以是设置在网络侧拦截域名的装置，在此不做限定。

如图1所示，为本申请实施例提供的域名合法性检测方法流程图，包括以下步骤：

S101：获取待检测域名。

在具体实施过程中，可以在DNS服务器对域名进行解析之后，从DNS服务器的日志中获取待检测域名，也可以在DNS服务器对域名进行解析之前，拦截待检测域名。

S102：确定待检测域名的特征向量；其中，特征向量中的每个元素为待检测域名的每种特征的特征值。

在具体实施过程中，域名的特征包括以下两类特征中的一类或两类：域名的伪装特征，域名的跳变特征。

本申请实施例通过对僵尸网络域名可能的域名伪装特征进行分析，确定了多种可以区分合法域名与非法域名的域名伪装特征。如表一所示，域名伪装特征包括表一中第二列所示的域名伪装特征的一种或多种，第三列为非法域名可能的域名伪装特征。

表一：

在表一中，域名长度指域名中包含的字符总个数；域名中的分隔符个数指字符“-”在域名中出现的次数；域名中的特殊字符个数指域名中除英文字母、数字和“.”之外其它字符出现的次数；域名中的数字字符与字母字符之间的转换频率指域名中相邻两个字符中一个为字母、另一个为数字这样反复出现的次数；域名分隔符间字符串的最大长度指域名中两个“-”之间包含的字符数量的最大值。

进一步地，可以对每一个待检测域名确定每一种伪装特征的特征值。具体地，在判断域名中是否包含符合IP地址格式的字符串时，若确定域名中包含符合IP地址格式的字符串，可以将域名伪装特征编号为2的特征值确定为1，否则，可以将域名伪装特征编号为2的特征值确定为0；在判断域名中的数字字符与字母字符之间的转换频率时，若确定域名中数字字符与字母字符之间的转换频率为3，则可以将域名伪装特征编号为7的特征值确定为3，此外，域名伪装特征中其它9种特征值的确定方法与域名伪装特征编号为7的特征值的确定方法一致，在此不再赘述。

此外，本申请实施例还通过对僵尸网络域名可能的域名跳变特征进行分析，确定了多种可以区分合法域名与非法域名的域名跳变特征。如表二所示，域名跳变特征包括表二中第二列所示的域名跳变特征的一种或多种，第三列为非法域名可能的域名跳变特征。

表二：

在表二中，域名解析出的IP地址个数也称为A记录；自治系统(AutonomousSystem，AS)个数指域名对应的不同的AS号的数量；域名服务(Name Service，NS)个数指域名对应的不同的NS号的个数；NS分散度指域名的NS记录属于多少个不同的网段；域名解析出的IP地址所属国家数量指域名对应的A记录属于的不同国家的数量。

在具体实施过程中，对每一个待检测域名的跳变特征中涉及的域名请求数据包的生存时间(Time To Live，TTL)平均值、NS请求数据包对应的TTL平均值、域名解析出的IP地址个数、域名所属的网段个数、AS个数、NS个数、NS分散度、域名注册时间、域名解析出的IP地址所属的国家数量等数据可以通过使用dig、nslookup、whois等工具进行查询，也可以通过bgp.he.net提供的公开接口进行查询。在确定域名跳变特征的各个特征值时，如果确定域名的注册时间为2013.10.21，则可以将域名跳变特征编号为8的特征值确定为2013.10.21(分类模型会自动将其转换为相应的秒值)；如果确定域名所属网段的个数为4，则可以将域名跳变特征编号为3的特征值确定为4；域名跳变特征中其它7种特征值的确定方法与域名跳变特征编号为3的特征值的确定方法一致，在此不再赘述。

进一步地，在确定待检测域名的上述多个特征值之后，可以将待检测域名的多个特征值按照设定顺序依次作为向量中的各个行向量，从而组成一个关于待检测域名的多维特征向量。

S103：基于确定的特征向量，以及预先训练出的用于判断域名合法性的分类模型，确定待检测域名的合法性。

如图2所示，在具体实施过程中，可以基于以下步骤训练分类模型。

S201a：获取域名样本中每个域名的特征向量和该域名的属性信息，其中，属性信息用于指示待检测域名的合法性。

目前，PhishTank等网站已经积累了大量的已知的非法域名，而Alexa网站是根据三个月累积的访问信息量对域名进行排名，因此，可以使用Alexa网站中排名比较靠前的域名作为合法域名。在具体实施过程中，可以从这两个网站中获取训练分类模型的域名样本数据。

具体地，将从Alexa网站中收集的域名相关数据作为合法域名样本数据，将从PhishTank网站中收集的域名相关数据作为非法域名样本数据，并将这两部分样本数据共同作为训练分类模型的原始域名样本数据。此外，还可以为每个域名确定用于指示该域名是否合法的属性信息，比如，对于来自Alexa的域名，可以将其属性信息确定为0，对于来自PhishTank的域名，可以将其属性信息确定为1。

S202a：将域名样本中每个域名的特征向量作为待训练的分类模型的输入值，将该域名的属性信息作为待训练的分类模型的输出值，训练分类模型。

在实际应用中，虽然有很多训练分类模型的方法，但鉴于随机森林分类算法在非法域名检测方面的诸多优势，比如，可处理高维数据、可以处理多种格式的数据、可以处理缺失特征、可以平衡误差、不会出现过拟合现象等，这里使用随机森林分类算法来训练分类模型。

在具体实施过程中，可以将域名样本中每个域名的特征向量作为待训练的分类模型的输入值，将该域名的属性信息作为待训练的分类模型的输出值，使用开源工具Mahout中与随机森林分类算法对应的模块对分类模型进行离线训练。

进一步地，可以基于S102步骤中确定的待检测域名的特征向量，以及上述训练完毕的分类模型，在线确定待检测域名的合法性。

实施例二

本申请实施例主要分为离线训练和在线使用两部分，下面对本申请实施例做进一步的详细说明。

在具体实施过程中，首先从PhishTank网站中获取非法域名相关的样本数据，从Alexa网站获取合法域名相关的样本数据，将这两部分样本数据共同作为训练分类模型的域名样本数据。此外，对于来自Alexa的域名，将其属性信息确定为0，对于来自PhishTank的域名，将其属性信息确定1。

其次，针对每一个域名样本，分别确定该域名样本的伪装特征所包含的11个伪装特征的特征值，其中，若域名样本中包含符合IP地址格式的字符串，则确定特征编号为2的域名伪装特征为1，否则，确定特征编号为2的域名伪装特征为0；再利用dig、nslookup、whois等工具分别确定该域名的跳变特征所包含的9个跳变特征的特征值。这样，对每个域名样本可以确定出20个特征值，将这20个特征值按照预先设定的顺序组成一个列向量，则可以得到一个关于域名样本的20维的特征向量。

进一步地，将每个域名样本的特征向量作为待训练的分类模型的输入值，将该域名样本的属性信息(0或1)作为待训练的分类模型的输出值，指定待训练的分类模型中随机森林的数量、每棵树的深度、每个节点所使用的域名特征的数量，以及每个节点上的最少域名样本数等信息，利用Mahout中提供的随机森林分类算法对应的模块对分类模型进行离线训练。

在具体实施过程中，得到离线训练完毕的分类模型以后，即可以将所述分类模型置入DNS域名服务器中，这样，当DNS域名服务器需要对僵尸网络进行防御时，即可以对接收到的每一个待解析域名确定其特征向量，并利用该分类模型确定待解析域名的属性信息，如果待解析域名的属性信息指示所述待解析域名为非法域名，则可以不对该待解析域名进行解析，进而有效阻止僵尸网络的危害。

基于同一发明构思，本申请实施例中还提供了一种域名合法性检测方法对应的域名合法性检测装置，由于该装置解决问题的原理与本申请实施例域名合法性检测方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图3所示，为本申请实施例提供的域名合法性检测装置30结构图，包括：

获取模块301，用于获取待检测域名；

特征向量确定模块302，用于确定待检测域名的特征向量；其中，所述特征向量中的每个元素为待检测域名的每种特征的特征值；

域名合法性确定模块303，用于基于确定的特征向量，以及预先训练出的用于判断域名合法性的分类模型，确定待检测域名的合法性。

可选地，所述装置还包括：

分类模型训练模块304，用于获取域名样本中每个域名的特征向量和该域名的属性信息；所述属性信息用于指示该域名是否合法；将域名样本中每个域名的特征向量作为待训练的分类模型的输入值，将该域名的属性信息作为待训练的分类模型的输出值，训练分类模型。

可选地，特征向量确定模块302具体用于：

确定以下伪装特征中的一种或多种：

可选地，特征向量确定模块302具体用于：

确定以下跳变特征中的一种或多种：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种域名合法性检测方法，其特征在于，该方法包括：

获取待检测域名；

确定所述待检测域名的特征向量；其中，所述特征向量中的每个元素为所述待检测域名的每种特征的特征值；

基于确定的所述特征向量，以及预先训练出的用于判断域名合法性的分类模型，确定所述待检测域名的合法性。

2.如权利要求1所述的方法，其特征在于，基于以下步骤训练所述分类模型：

将域名样本中每个域名的特征向量作为待训练的分类模型的输入值，将该域名的属性信息作为待训练的分类模型的输出值，训练所述分类模型。

3.如权利要求1或2所述的方法，其特征在于，域名的特征包括以下两类特征中的一类或两类：

域名的伪装特征；域名的跳变特征。

4.如权利要求3所述的方法，其特征在于，所述域名的伪装特征包括以下特征中的一种或多种：

5.如权利要求3所述的方法，其特征在于，所述域名的跳变特征包括以下特征中的一种或多种：

6.一种域名合法性检测装置，其特征在于，该装置包括：

获取模块，用于获取待检测域名；

特征向量确定模块，用于确定所述待检测域名的特征向量；其中，所述特征向量中的每个元素为所述待检测域名的每种特征的特征值；

域名合法性确定模块，用于基于确定的所述特征向量，以及预先训练出的用于判断域名合法性的分类模型，确定所述待检测域名的合法性。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

分类模型训练模块，用于获取域名样本中每个域名的特征向量和该域名的属性信息；所述属性信息用于指示该域名是否合法；将域名样本中每个域名的特征向量作为待训练的分类模型的输入值，将该域名的属性信息作为待训练的分类模型的输出值，训练所述分类模型。

8.如权利要求6或7所述的装置，其特征在于，所述特征向量确定模块具体用于：

9.如权利要求8所述的装置，其特征在于，所述特征向量确定模块具体用于：

确定以下伪装特征中的一种或多种：

10.如权利要求8所述的装置，其特征在于，所述特征向量确定模块具体用于：

确定以下跳变特征中的一种或多种：