CN110808987A

CN110808987A - 识别恶意域名的方法及计算设备

Info

Publication number: CN110808987A
Application number: CN201911081214.5A
Authority: CN
Inventors: 张尊平
Original assignee: Nanjing Yaxin Zhiwang Technology Co Ltd
Current assignee: Nanjing Yaxin Zhiwang Technology Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-02-18
Anticipated expiration: 2039-11-07
Also published as: CN110808987B

Abstract

本发明公开了一种识别恶意域名的方法，包括步骤：对待识别域名进行预处理，生成待识别域名对应的特征向量；以及利用分类模型处理特征向量，以生成预测结果来指示待识别域名是否为恶意域名，其中，分类模型为以不同域名的特征向量为训练样本训练得出。本发明一并公开了用于执行上述方法的计算设备。

Description

识别恶意域名的方法及计算设备

技术领域

本发明涉及计算机技术领域，尤其涉及报文封装方法、设备及域名解析系统。

背景技术

DNS(Domain Name System，域名解析系统)是互联网架构中的最基础、最核心的一项服务，它的作用是实现域名和IP地址的相互映射，使上网者能方便地访问互联网，而不用去记忆枯燥繁琐的IP数串，为众多网络应用提供根本性支撑。

然而，DNS服务也经常被恶意利用，例如通过各种攻击手段，使原本指向正常域名的请求被转向恶意域名。用户一旦进入这些网站，便会触发网站内种植下的木马、病毒等程序，导致访问者计算机被感染，面临丢失帐号或者隐私信息等危险。

为降低DNS系统返回恶意域名的风险，通常在DNS系统中设置域名黑名单或者手工操作，来识别出恶意域名。但是这种方式完全无法应对随时改变的攻击手段。例如，通过连接第三方域名库获取关于域名的信任评分，由于第三方域名库普遍做不到实时返回结果，因此无法很好地匹配DNS的高性能需求。另一种常见的识别恶意域名的方案是，爬取某个指定域名的页面，通过对页面内容的深入分析，来确定该域名是否为恶意。对于很多恶意域名网站，其已经做到不在第一层级展示核心内容，要识别出恶意域名，就需要深入爬取，这在投入产出并上不划算。

因此，如何提高DNS系统对恶意域名的判断速度、缩短对恶意域名的拦截时间间隔，并同时提高判断准确度，是每个DNS系统都需要考虑的问题。

发明内容

为此，本发明提供了一种新的识别恶意域名的方案，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种识别恶意域名的方法，在计算设备中执行，包括步骤：对待识别域名进行预处理，生成待识别域名对应的特征向量；以及利用分类模型处理特征向量，以生成预测结果来指示待识别域名是否为恶意域名，其中，分类模型为以不同域名的特征向量为训练样本训练得出。

可选地，根据本发明的方法还包括步骤：若预测结果指示待识别域名为恶意域名，则在预设数据库中匹配待识别域名；以及若在预设数据库中匹配到待识别域名，则再次确认待识别域名为恶意域名，并拦截待识别域名。

可选地，在根据本发明的方法中，对待识别域名进行预处理，生成待识别域名对应的特征向量的步骤包括：按照待识别域名的层次，将待识别域名转化为多维矩阵；将多维矩阵中的字符转换为数字，并将多维矩阵转换为一维向量，作为待识别域名的特征向量。

可选地，在根据本发明的方法中，将多维矩阵中的字符转换为数字的步骤包括：确定各字符对应的出现频次，其中，各字符对应的出现频次通过预先统计各字符在恶意域名中出现的次数来得到；根据出现频次将各字符转换为对应的数字。

可选地，根据本发明的方法还包括步骤：获取用于训练的域名；对所获取的域名进行预处理，生成域名对应的特征向量，作为训练样本；以及利用特征向量，训练生成分类模型。

可选地，在根据本发明的方法中，利用特征向量，训练生成分类模型的步骤包括：对特征向量进行划分，生成至少一个特征；对各特征分别进行处理，来生成各特征对应的至少一个取值；构建初始的分类模型；以及根据初始的分类模型中的节点，结合特征及其取值，确定出预测结果。

可选地，根据本发明的方法中，根据初始的分类模型中的节点，结合特征及其取值，确定出预测结果的步骤还包括：从初始的分类模型的根结点开始，对每个节点：计算特征对训练样本的基尼指数，在所有特征及其对应的取值中，选择基尼指数最小的特征及其对应的取值作为最优特征与最优切分点，并根据最优特征与最优切分点对节点进行分裂，产生两个子节点，重复计算基尼指数的步骤和产生子节点的步骤，直至满足预设条件时，生成分类模型。

可选地，根据本发明的方法中，预设条件包括以下条件中的任意一种：节点中所包括的训练样本的数量小于第一阈值；训练样本的基尼指数小于第二阈值。

可选地，根据本发明的方法中，基尼指数按照以下公式计算：

对于样本集D，其基尼指数GINI(D)为：

其中，D为节点所包括的样本集，k为样本集中所包括的特征信息的数量，P_i为第i个特征信息的样本数量占D中所包括的所有样本数量的比例；

如果样本集D根据特征A被分裂成D1和D2两部分，则基尼指数GINI(D,A)为：

其中，D₁、D₂分别为按照特征A对节点进行分裂所得的两个子节点所包括的样本集，|D₁|、|D₂|为样本集D₁、D₂中所包括的样本的数量。

可选地，根据本发明的方法中，预设数据库包括以下数据库中的一个或多个：恶意域名黑名单数据库、域名评分系统、恶意域名特征库。

根据本发明的一个方面，提供一种计算设备，包括：至少一个处理器；和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行如上所述任一方法的指令。

根据本发明的一个方面，提供一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行如上所述的任一方法。

根据本发明的方案，通过预设的分类模型对待识别的域名做出基础判断，以快速得出域名是否恶意的结论。具有投入低的优点，能够很好地减少后端深入分析的数据量；同时，采用简单易实现的分类模型，部署成本低廉，便于推广。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的域名解析系统100的场景示意图；

图2示出了根据本发明一个实施例的计算设备200的示意图；以及

图3示出了根据本发明一个实施例的识别恶意域名的方法300的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的域名解析系统100的场景示意图。

如图1所示，一方面，域名解析系统100与至少一个客户端110相连(需要说明的是，本发明实施例对客户端110的数量并不做限制)。用户通过操作客户端110发送网络请求给域名解析系统100。在一种实施例中，网络请求例如是HTTP请求。例如，用户要访问某个网站时，在浏览器地址栏中输入该网站的域名，生成一个HTTP请求给域名解析系统100。另一方面，域名解析系统100与识别恶意域名的装置120相连。域名解析系统100将所接收到的域名转发给装置120，由其在极短的时间内预测出该域名的可信程度，然后将预测出的结果返回给域名解析系统100。这样，域名解析系统100就可以根据预测结果，来对该域名进行下一步处理。

根据本发明的一些实施方式，识别恶意域名的装置120通过CART算法做出基础判断，快速预测出域名是否恶意，可以极大减少后续针对恶意域名相关处理的工作量。在一种实施例中，将装置120的预测结果简单分为“是恶意域名”和“不是恶意域名”。若预测结果指示该域名为恶意域名，那么，域名解析系统100就对其进行拦截处理。若预测结果指示该域名不是恶意域名，那么，域名解析系统100就可以调出其对应的IP地址所指向的网站给用户。

根据本发明的另一些实施方式，识别恶意域名的装置120仅作为恶意域名处理的一系列工作中的一环。域名解析系统100在接收到由装置120返回的预测结果后，结合其他判断策略，再综合判断是否应该立即拦截该域名，还是只做记录方便后续深入研究。

其他判断策略例如可以是，当预测结果指示该域名为恶意域名时，去预设数据库中匹配该域名。预设数据库包括但不限于恶意域名黑名单数据库(即，记录恶意域名的数据库)、域名评分系统(即，对域名的可信度进行打分，所形成的评分系统)、恶意域名特征库(即，通过提取大量类似恶意域名的通用特征来形成的特征库)等。

根据本发明的实施例，若预测结果指示该域名为恶意域名，那么，域名解析系统100就从黑名单数据库中匹配该域名，若匹配得到则再次确认该域名为恶意域名。或者，域名解析系统100从域名评分系统中查找该域名的评分，若该域名的评分指示该域名为恶意域名，就可以再次确认该域名为恶意域名。又或者，域名解析系统100提取该域名的特征，并与恶意域名特征库中的特征进行相似性比较，若该域名的特征与特征库中的特征相似，则再次说明该域名为恶意域名。在根据本发明的实施例中，只要经任一个预设数据库的处理后，再次确认该域名为恶意域名，就判定该域名为高危险性域名，域名解析系统100可以对其立即进行拦截处理。否则，判定该域名为可疑域名，域名解析系统100可以先记录该域名，留待更精确地判断。

根据本发明的识别恶意域名的装置120，计算简单高效，能够实时返回“域名是否恶意”的结果给域名分析系统100，以便于系统100进行综合评定。

根据本发明的实施方式，域名解析系统100、客户端110及识别恶意域名的装置120，均可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的示意图。

如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中，应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然，计算设备200也可以实现为小尺寸便携(或者移动)电子设备的一部分。在根据本发明的实施例中，计算设备200被配置为执行根据本发明的识别恶意域名的方法300。计算设备200的应用222中包含执行方法300的多条程序指令。

图3示出了根据本发明一些实施例的识别恶意域名的方法300的流程示意图。该方法300适于在识别恶意域名的装置120中执行。应当指出，方法300中的步骤描述，是对基于如上图1的描述的进一步补充和说明。故，相同部分此处不再赘述。

方法300始于步骤S310。在步骤S310中，对待识别域名进行预处理，生成待识别域名对应的特征向量。

根据本发明的实施例，采用如下两步来生成域名的特征向量。

第一步，按照待识别域名的层次，将待识别域名转化为多维矩阵。域名的层次可以分为顶层(TOP-LEVEL)、第二层(SECOND-LEVEL)、子域(SUB-LEVEL)、等等。其中，顶层又可以分为几种类型，诸如：

.com 商业性的机构或公司，

.org 非盈利的组织、团体，

.gov 政府部门，

.mil 军事部门，

.XX 由两个字母组成的国家代码，如中国是.cn，等等。

一般来说，大型的活有国际业务的公司或机构不使用国家代码。这种不带国家代码的域名也叫国际域名。这种情况下，域名的第二层就是代表一个机构或公司的特征部分，如IBM.COM中的IBM。对于具有国家代码的域名，代表一个机构或公司的特征部分则是第三层，如ABC.COM.JP中的ABC。

假设一个域名为：www.abc.com.cn，即该域名包含4层，首先将该域名转换为一个4*N的四维矩阵，其中4代表了域名所包含的层次数目，N的取值可以视情况而定。在一种实施例中，N最大取25，不限于此。同时，对于每一层中不足N的部分，可以采用补“0”的方式来替代；对于超出N的部分，可以将其直接丢弃。如上述域名转换为4*25的四维矩阵后如下：

第二步，将该多维矩阵中的字符转换为数字，并将多维矩阵转换为一维向量，作为该待识别域名的特征向量。

可以采用字符与数字一一对应的方式，来将字符转换为数字，例如“A”对应“1”，“B”对应“2”，…。在本发明的一种实施例中，采用大数据统计的方式，预先采集大量的恶意域名，分别统计各字符在恶意域名中出现的次数，再根据字符的出现频次设置对应的数字来进行转换。例如，根据字符的出现频次，将字符分为“出现频率过多”“出现频率正常”“出现频率较少”“没有出现”等多个级别；再令不同级别的字符对应不同的数字。此处对出现频率的级别划分只作为示例，本发明实施例对此不做限制。这样，当需要将某个字符转换为数字时，先确定字符对应的出现频次，再根据出现频次将其转换为对应的数字即可。

在完成字符转换后，得到的是一个全部为数字的4维矩阵，将各维顺序连接，就得到一维向量，作为该域名的特征向量。

随后在步骤S320中，利用分类模型处理特征向量，以生成预测结果来指示待识别域名是否为恶意域名。其中，分类模型为以不同域名的特征向量为训练样本训练得出。

在执行步骤S320之前，方法300还包括训练生成分类模型的步骤。

具体地，首先获取用于训练的域名。在根据本发明的实施例中，将采集到的大量域名按照一定比例(如1:3)划分，其中，25％的域名用于测试，75％的域名用于训练。

其次，对所获取的域名进行预处理，生成域名对应的特征向量，作为训练样本。对域名进行预处理来生成特征向量的过程，同步骤S310一致，可参考步骤S310的描述，此处不做赘述。

最后，利用特征向量，训练生成分类模型。在一种实施例中，通过如下4个步骤来训练生成分类模型。

1)对特征向量进行划分，生成至少一个特征。以步骤S310给出的域名为例，特征向量包含100(4*25)个数字，将这100个数字顺序切分成多个子集，例如切分成20个子集，每个子集就包含5个数字，将每个子集中的数据项作为一个特征。

2)对各特征分别进行处理，来生成各特征对应的至少一个取值。在一种实施例中，按每个特征中数据项的大小，将其划分为一定数目的等级，每个等级对应的值就是该特征的取值。例如，若特征F对应的数据项是从0-99，将其均分为5个等级，那么，特征F对应的取值就是19,39,59,79,99。总之，在根据本发明的实施例中，采用离散分布取值的方式，确定各特征对应的取值。而最终使用几个等级来确定取值的个数，是通过分类模型的训练反馈调整得到的，本发明的实施例对此不做限制。

3)构建初始的分类模型。在根据本发明的实施例中，分类模型采用CART(Classification And Regression Tree)决策树。CATR算法一般采用GINI函数，如下所示：

对于给定的样本集D，其基尼指数GINI(D)为：

其中，D为节点所包括的样本集，k为样本集中所包括的特征信息的数量，P_i为第i个特征信息的样本数量占D中所包括的所有样本数量的比例。

如果样本集D根据特征A被分裂成D1和D2两部分，即，

D₁＝{(x,y)∈D|A(x)＝a},

D₂＝D-D₁

则在特征A条件下，样本集D的基尼指数GINI(D,A)为：

4)根据初始的分类模型中的节点，结合特征及其取值，确定出预测结果。

从初始的分类模型的根结点开始，对每个节点：①计算特征对训练样本的基尼指数；②在所有特征及其对应的取值中，选择基尼指数(基尼指数按照如上所述的公式来进行计算)最小的特征及其对应的取值，分别作为最优特征与最优切分点。然后，根据最优特征与最优切分点对节点进行分裂，产生两个子节点。重复计算基尼指数的步骤(即步骤①)和产生子节点的步骤(即步骤②)，直至满足预设条件时，生成分类模型。

在根据本发明的实施例中，预设条件包括以下条件中的任意一种：节点中所包括的训练样本的数量小于第一阈值；训练样本的基尼指数小于第二阈值。

在训练生成分类模型后，将经步骤S310得到的特征向量直接输入分类模型中，经分类模型处理后，输出预测结果，该预测结果指示待识别域名“是恶意域名”或“不是恶意域名”。

根据本发明的方法300，通过CART算法对域名做出基础判断，以快速得出域名是否恶意的结论。具有投入低的优点，能够很好地减少后端深入分析的数据量；同时，部署成本低廉，简单实用，便于推广。

经实验验证，根据本发明的方案，可以达到80％以上的识别准确率，而现有的基于机器学习、深度学习的识别方法，在高投入后可能仅得到85％-90％的准确率，投入产出比远远不如本方案。

在根据本发明的另一些实施场景中，为增加识别恶意域名的准确性，在得到预测结果后，还包括步骤：若预测结果指示待识别域名为恶意域名，则在预设数据库中匹配待识别域名。若在预设数据库中匹配到该待识别域名，则再次确认该待识别域名为恶意域名，并拦截该待识别域名。预设数据库包括以下数据库中的一个或多个：恶意域名黑名单数据库、域名评分系统、恶意域名特征库。关于本步骤的具体描述，可参考系统100中对识别恶意域名的装置120的相关描述，篇幅所限，此处不再一一展开。

根据本发明的识别恶意域名的方案，一方面，提高了DNS系统对恶意域名的识别速度，进而缩短了对恶意域名的拦截时间间隔。另一方面，还保证了识别恶意域名的准确度。综上，根据本发明的方案具有很好的投入产出比，适于推广。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明一并公开了：

A9、如A8所述的方法，其中，基尼指数按照以下公式计算：对于样本集D，其基尼指数GINI(D)为：

A10、如A2所述的方法，其中，预设数据库包括以下数据库中的一个或多个：恶意域名黑名单数据库、域名评分系统、恶意域名特征库。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种识别恶意域名的方法，所述方法适于在计算设备中执行，所述方法包括步骤：

对待识别域名进行预处理，生成所述待识别域名对应的特征向量；以及

利用分类模型处理所述特征向量，以生成预测结果来指示所述待识别域名是否为恶意域名，其中，所述分类模型为以不同域名的特征向量为训练样本训练得出。

2.如权利要求1所述的方法，还包括步骤：

若所述预测结果指示所述待识别域名为恶意域名，则在预设数据库中匹配所述待识别域名；以及

若在预设数据库中匹配到所述待识别域名，则再次确认所述待识别域名为恶意域名，并拦截所述待识别域名。

3.如权利要求1或2所述的方法，其中，所述对待识别域名进行预处理，生成所述待识别域名对应的特征向量的步骤包括：

按照待识别域名的层次，将所述待识别域名转化为多维矩阵；

将所述多维矩阵中的字符转换为数字，并将所述多维矩阵转换为一维向量，作为所述待识别域名的特征向量。

4.如权利要求3所述的方法，其中，将所述多维矩阵中的字符转换为数字的步骤包括：

确定各字符对应的出现频次，其中，各字符对应的出现频次通过预先统计各字符在恶意域名中出现的次数来得到；

根据出现频次将各字符转换为对应的数字。

5.如权利要求1-4中任一项所述的方法，还包括步骤：

获取用于训练的域名；

对所获取的域名进行预处理，生成所述域名对应的特征向量，作为训练样本；以及

利用所述特征向量，训练生成分类模型。

6.如权利要求5所述的方法，其中，所述利用特征向量，训练生成分类模型的步骤包括：

对所述特征向量进行划分，生成至少一个特征；

对各特征分别进行处理，来生成各特征对应的至少一个取值；

构建初始的分类模型；以及

根据初始的分类模型中的节点，结合所述特征及其取值，确定出预测结果。

7.如权利要求6所述的方法，其中，所述根据初始的分类模型中的节点，结合特征及其取值，确定出预测结果的步骤还包括：

从初始的分类模型的根结点开始，对每个节点：

计算特征对训练样本的基尼指数，

在所有特征及其对应的取值中，选择基尼指数最小的特征及其对应的取值作为最优特征与最优切分点，并根据最优特征与最优切分点对所述节点进行分裂，产生两个子节点，

重复计算基尼指数的步骤和产生子节点的步骤，直至满足预设条件时，生成分类模型。

8.如权利要求7所述的方法，其中，所述预设条件包括以下条件中的任意一种：

节点中所包括的训练样本的数量小于第一阈值；

训练样本的基尼指数小于第二阈值。

9.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-8中任一项所述的方法。