CN113691489A

CN113691489A - 一种恶意域名检测特征处理方法、装置和电子设备

Info

Publication number: CN113691489A
Application number: CN202010429023.XA
Authority: CN
Inventors: 宋冰晶; 梁兴强
Original assignee: Beijing Guancheng Technology Co ltd
Current assignee: Beijing Guancheng Technology Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2021-11-23

Abstract

本发明提供了一种恶意域名检测特征处理方法、装置和电子设备，其中，该方法包括：获取待处理的恶意域名和正常域名；对恶意域名进行处理，得到恶意域名的第一主域名、第一子域名以及第一域名后缀；对正常域名进行处理，得到正常域名的第二主域名、第二子域名和第二域名后缀；对恶意域名的第一主域名、第一子域名以及第一域名后缀以及正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征。通过本发明实施例提供的恶意域名检测特征处理方法、装置和电子设备，可以得到能够全面客观反映恶意域名和正常域名的细节的恶意域名检测特征。

Description

一种恶意域名检测特征处理方法、装置和电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种恶意域名检测特征处理方法、装置和电子设备。

背景技术

目前，恶意程序的数量和复杂度持续增长，而攻击者在攻击过程中经常使用恶意域名对目标网络实施控制。为了尽可能避免攻击者使用恶意域名对目标网络实施控制，需要对恶意域名进行检测。

为了对恶意域名进行检测，可以使用作为特征的完整的恶意域名对深度学习神经网络进行训练，得到恶意域名检测模型；然后利用得到的恶意域名检测模型对恶意域名进行检测。

利用上述恶意域名检测模型对恶意域名进行检测的过程中，容易出现恶意域名的漏检和识别错误的问题，对恶意域名的检测精度较低。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种恶意域名检测特征处理方法、装置和电子设备。

第一方面，本发明实施例提供了一种恶意域名检测特征处理方法，包括：

获取待处理的恶意域名和正常域名；

对所述恶意域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀；

对所述正常域名进行处理，得到所述正常域名的第二主域名、第二子域名和第二域名后缀；

对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征。

第二方面，本发明实施例还提供了一种恶意域名检测特征处理装置，包括：

获取模块，用于获取待处理的恶意域名和正常域名；

第一处理模块，用于对所述恶意域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀；

第二处理模块，用于对所述正常域名进行处理，得到所述正常域名的第二主域名、第二子域名和第二域名后缀；

第三处理模块，用于对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供了一种电子设备，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行上述第一方面所述的方法的步骤。

本发明实施例上述第一方面至第四方面提供的方案中，通过分别对恶意域名和正常域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀，并对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征，与相关技术中将完整的恶意域作为特征对深度学习神经网络进行训练的方式相比，将所述恶意域名划分为第一主域名、第一子域名以及第一域名后缀以及将所述正常域名划分为第二主域名、第二子域名和第二域名后缀，然后分别对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及将所述正常域名的第二主域名、第二子域名和第二域名后缀进行处理，得到能够全面客观反映恶意域名和正常域名的细节的恶意域名检测特征，将得到的恶意域名检测特征输入到深度学习神经网络进行训练后得到的恶意域名检测模型，对恶意域名的识别检测更加准确，从而减少恶意域名的漏检和识别错误的情况出现。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例1所提供的一种恶意域名检测特征处理方法的流程图；

图2示出了本发明实施例2所提供的一种恶意域名检测特征处理装置的结构示意图；

图3示出了本发明实施例3所提供的一种电子设备的结构示意图。

具体实施方式

目前，恶意加密流量的识别与分类是目前的研究热点，近年来，恶意程序的数量和复杂度持续增长，而攻击者在攻击过程中对目标网络实施控制时经常使用恶意域名，比如DNS协议用域名来访问互联网时，攻击者所使用的域名可以通过域名抢注，即抢先注册已有的公司名或人名的域名，或者注册与其名字非常相似的域名，来达到其非法目的。攻击者也可以在在软件中集成DGA算法，产生速变域名，作为备用或者主要的与C2服务器通信的手段，做到对感染主机的持续性控制，这种方式可以使恶意程序更好的隐藏和延长生存时间。在TLS加密流量中就存在DNS、SNI以及证书中的COMMONNAME等域名信息，攻击者可以利用这些域名来达到其非法目的，所以恶意域名的检测对加密恶意流量的检测提供了一定依据，目前的恶意域名识别方式可以通过威胁情报识别，但存在一定弊端，一是可能会出现误报和漏报，二是更新不及时。

为了应对上述问题，机器学习与深度学习结合的方式用于恶意域名检测是一种很好的方式，通过对大量的恶意域名数据进行统计、分析，再通过机器学习或者深度学习进行学习，从而达到理想的检测效果。

特征对机器学习的效果起着决定性的作用，特征的提取在恶意域名领域并不是件容易的事，提取的特征不仅需要有良好的区分性，还要有较高的精确度。

恶意程序的数量和复杂度持续增长，而攻击者在攻击过程中经常使用恶意域名对目标网络实施控制。为了尽可能避免攻击者使用恶意域名对目标网络实施控制，需要对恶意域名进行检测。

基于此，本实施例提出一种恶意域名检测特征处理方法、装置和电子设备，通过将所述恶意域名划分为第一主域名、第一子域名以及第一域名后缀以及将所述正常域名划分为第二主域名、第二子域名和第二域名后缀，然后分别对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及将所述正常域名的第二主域名、第二子域名和第二域名后缀进行处理，得到能够全面客观反映恶意域名和正常域名的细节的恶意域名检测特征，将得到的恶意域名检测特征输入到深度学习神经网络进行训练后得到的恶意域名检测模型，对恶意域名的识别检测更加准确，从而减少恶意域名的漏检和识别错误的情况出现。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请做进一步详细的说明。

实施例1

本实施例提出一种恶意域名检测特征处理方法的执行主体是服务器。

所述服务器，可以采用现有技术中任何能够对恶意域名检测特征进行处理的计算设备，这里不再一一赘述。

参见图1所示的一种恶意域名检测特征处理方法的流程图，本实施例提出一种恶意域名检测特征处理方法，包括：

步骤100、获取待处理的恶意域名和正常域名。

在上述步骤100中，所述恶意域名，用于表示网络攻击者利用特定域名作为网络基础设施开展恶意网络行为时使用的域名称。

所述恶意域名，包括但不限于：C2域名、DGA域名和仿冒域名。

所述C2域名，用于表示网络攻击者利用特定域名绑定的服务器作为命令与控制(Command&Control，C&C)服务器开展恶意网络行为时使用的域名称。

所述C2域名，可以是但不限于：nceess.com、nerc.email、以及globalenergycertification.net。

所述DGA域名，用于表示通过域名生成算法(Domain Generation Algorithm,DGA)生成的C&C域名，所述DGA域名能够逃避域名黑名单检测。

所述DGA域名，可以是但不限于：5cyd1e1lp8ec493xkgb43e8vs.biz、1mnr4as13ze8f71berg21ybe287.co、以及p9c5c85747c054fa40ed361f0e2a8868dc.cn。

所述仿冒域名，用于表示仿照正常域名得到的域名称。是网络钓鱼中一种常见的技术，可以诱导欺骗用户访问这个域名，以执行攻击者的恶意行为。

所述仿冒域名，与正常域名类似，使用户容易混淆，可以是但不限于：www.siha.com(仿冒www.sina.com得到的)、以及www.google Docs.com(仿冒www.google.com得到的)。

所述正常域名，用于表示用户在互联网中能够正常访问的域名，用户在访问正常域名时不会受到恶意程序攻击。

所述正常域名，可以是但不限于：www.sina.com以及www.google.com。

所述服务器，可以从服务器自身设置的恶意域名数据库中获取到恶意域名，并从服务器自身设置的正常域名数据库中获取到正常域名。

在获取到恶意域名后，服务器可以将获取到的恶意域名显示给工作人员，工作人员可以给恶意域名分类，向恶意域名中的C2域名分配C2域名标签，向恶意域名中的DGA域名分配DGA域名标签，并向恶意域名中的仿冒域名分配仿冒域名标签。

步骤102、对所述恶意域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀。

在上述步骤102中，可以采用现有技术中任何域名分析算法，对所述恶意域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀，这里不再赘述。

而且，上述域名分析算法，对恶意域名进行处理后，还可以分别识别出恶意域名中第一主域名、第一子域名以及第一域名后缀中的英文字符、数字字符和符号。

步骤104、对所述正常域名进行处理，得到所述正常域名的第二主域名、第二子域名和第二域名后缀。

在上述步骤104中，可以采用现有技术中任何域名分析算法，对所述正常域名进行处理，得到所述正常域名的第二主域名、第二子域名以及第二域名后缀，这里不再赘述。

上述域名分析算法，对正常域名进行处理后，还可以分别识别出正常域名中第二主域名、第二子域名以及第二域名后缀中的英文字符、数字字符和符号。

在一个实施方式中，域名为：a.b.c.d.google.com.cn，其中，子域名为“a.b.c.d”，主域名为“google”，域名后缀为com.cn。

步骤106、对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征。

所述恶意域名检测特征，包括：主域名特征、子域名特征、以及域名后缀特征；其中，所述域名后缀特征，用于反映所述域名后缀的恶意程度。

所述主域名特征，用于表示通过对主域名字符串解析所提取的特征数据。

所述子域名特征，用于表示通过对子域名字符串解析后提取的特征数据。

所述主域名特征，包括但不限于：恶意域名中第一主域名与所述恶意域名的长度比值；所述第一主域名中英文字符的数量、数字字符的数量以及符号的数量；恶意域名中第一主域名和正常域名中第二主域名的词相关特征；所述正常域名的第二主域名的自然语言特征、所述正常域名的第二主域名的转移概率特征；正常域名中第二主域名与所述正常域名的长度比值；以及所述第二主域名中英文字符的数量、数字字符的数量以及符号的数量。

所述词相关特征，包括：从词相关列表中获取到的主域名包含的所有词语的词语数量、所有词语中各词语分别与主域名的长度比值、从品牌列表中获取到的主域名包含的所有品牌、以及获取到的所有品牌的品牌数量。

所述词相关列表，包括但不限于：分词列表和单词列表。

所述分词列表，缓存在服务器中，用于表示来自现有的维基百科中的一部分英文语料，有可能是英文单词，也有可能是单个英文字符以及多个英文字符的拼接字符串。

在一个实施方式中，所述分词列表，可以包括但不限于：new、i、been、th、以及no。

所述单词列表，缓存在服务器中，用于表示由英文字符组成的常用英文单词列表。

在一个实施方式中，所述单词列表，可以包括但不限于：abandon、ability、以及able。

所述品牌列表，缓存在服务器中，用于表示国内外知名品牌的列表。

在一个实施方式中，所述单词列表，可以包括但不限于：amazon、apple、以及baidu。

为了得到恶意域名检测特征，上述步骤106可以执行以下步骤(1)至步骤(7)：

(1)分别对所述恶意域名的第一主域名和所述正常域名的第二主域名进行处理，得到所述主域名特征；

(2)分别对所述恶意域名的第一子域名和所述正常域名的第二子域名进行处理，得到所述子域名特征；

(3)获取域名后缀列表；

(4)当未能从所述域名后缀列表中查询出所述第一域名后缀的排名时，将所述第一域名后缀的排名对应的第一后缀信誉度设置为0；

(5)当未能从所述域名后缀列表中查询出所述第二域名后缀的排名时，将所述第二域名后缀的排名对应的第二后缀信誉度设置为0；

(6)当能够从所述域名后缀列表中查询出所述第一域名后缀的排名和/或者所述第二域名后缀的排名时，确定与所述第一域名后缀的排名对应的第一后缀信誉度和/或者与所述第二域名后缀的排名对应的第二后缀信誉度；

(7)将确定出的第一后缀信誉度和/或者第二后缀信誉度作为域名后缀特征，从而得到所述恶意域名检测特征。

在上述步骤(1)中，对所述恶意域名的第一主域名进行处理时，可以执行以下步骤(11)至步骤(13)：

(11)确定恶意域名的第一字符长度和所述恶意域名中第一主域名的第二字符长度；

(12)利用所述第一字符长度和第二字符长度计算得到所述第一主域名与恶意域名的长度比值；

(13)分别确定出所述恶意域名的第一主域名中英文字符的数量、数字字符的数量以及符号的数量。

在上述步骤(11)中，域名的字符长度与域名的字符数量有关，当域名包括12个字符时，那么该域名的字符长度就是12。

服务器在分别得到恶意域名中第一主域名、第一子域名以及第一域名后缀的英文字符、数字字符和符号后，可以基于分别识别出的第一主域名、第一子域名以及第一域名后缀的英文字符、数字字符和符号，确定出恶意域名的第一字符长度，并基于识别出的第一主域名中的英文字符、数字字符和符号，确定出第一主域名的第二字符长度。

在上述步骤(12)中，所述第一主域名与恶意域名的长度比值＝第二字符长度/第一字符长度。

在上述步骤(13)中，所述服务器，可以基于分别识别出的第一主域名的英文字符、数字字符和符号，分别确定出所述恶意域名的第一主域名中英文字符的数量、数字字符的数量以及符号的数量，具体处理过程是现有技术，这里不再赘述。

以上步骤(11)至步骤(13)描述的内容是得到所述主域名特征中恶意域名中第一主域名与所述恶意域名的长度比值、和所述第一主域名中英文字符的数量、数字字符的数量以及符号的数量的具体过程。

除此之外，通过以下步骤(21)至步骤(23)对如何得到主域名中的词相关特征进行描述：

(21)获取词相关列表，并从所述词相关列表中获取到所述第一主域名包含的所有词语；

(22)统计从所述词相关列表中获取到的所述第一主域名包含的所有词语的词语数量，并分别计算所有词语中的各词语分别与所述第一主域名的长度比值；

(23)获取品牌列表，并从所述品牌列表中获取到所述第一主域名包含的所有品牌，并统计得到所有品牌的品牌数量。

在上述步骤(21)中，所述第一主域名包含的所有词语，是指组成所述第一主域名的英文字符中能够找出的英文单词和英文字母。

当所述词相关列表是单词列表时，所述第一主域名包含的所有词语是所述第一主域名中能够找出的英文单词。

当所述词相关列表是分词列表时，所述第一主域名包含的所有词语是所述第一主域名中能够找出的英文单词和英文字母。

在一个实施方式中，当所述第一主域名是googlee时，那么当所述词相关列表是单词列表时，所述第一主域名包含的所有词语是所述第一主域名中能够找出的英文单词至少包括：go、goo、goog、google、以及lee。

当所述词相关列表是分词列表时，所述第一主域名googlee包含的所有词语是所述第一主域名中能够找出的英文单词至少包括：go、goo、goog、google、以及lee；而英文字母，则包括：g、o、l以及e。

可以采用现有的自然语言识别算法，从所述词相关列表中获取到所述第一主域名包含的所有词语，具体过程是现有技术，这里不再赘述。

在上述步骤(22)中，分别计算所有词语中的各词语分别与所述第一主域名的长度比值的过程，与上述步骤(11)至(13)中的利用所述第一字符长度和第二字符长度计算得到所述第一主域名与恶意域名的长度比值的过程类似，这里不再赘述。

在上述步骤(23)中，从所述品牌列表中获取到所述第一主域名包含的所有品牌的过程与上述步骤(21)中的从所述词相关列表中获取到所述第一主域名包含的所有词语的过程类似，这里不再赘述。

在一个实施方式中，所述第一主域名googlee包括的品牌至少包括：google和lee。

通过以上步骤(11)至步骤(13)和上述步骤(21)至步骤(23)分别描述的内容可以对恶意域名的第一主域名进行处理。

上述步骤(11)至步骤(13)描述的得到所述主域名特征中恶意域名中第一主域名与所述恶意域名的长度比值、和所述第一主域名中英文字符的数量、数字字符的数量以及符号的数量的具体过程还可以对正常域名的第二主域名进行处理，得到所述主域名特征中正常域名中第二主域名与所述正常域名的长度比值、和所述第二主域名中英文字符的数量、数字字符的数量以及符号的数量的过程，具体处理过程与上述步骤(11)至步骤(13)描述的过程类似，这里不再赘述。

上述步骤(21)至(23)描述的得到恶意域名的第一主域名中词相关特征的过程还可以对正常域名的第二主域名进行处理，得到正常域名的第二主域名中的词相关特征，具体过程与上述步骤(21)至(23)描述的过程类似，这里不再赘述。

在得到正常域名中第二主域名与所述正常域名的长度比值、和所述第二主域名中英文字符的数量、数字字符的数量以及符号的数量，以及正常域名的第二主域名中的词相关特征后，可以继续通过以下步骤(31)至步骤(33)对得到所述正常域名的第二主域名的自然语言特征的过程进行描述：

对所述正常域名的第二主域名进行处理，包括以下步骤(31)至步骤(33)：

(31)利用N元语法模型(N-gram模型)对所述正常域名的第二主域名进行处理，得到所述第二主域名的一元向量(1-gram向量)、二元向量(2-gram向量)、以及三元向量(3-gram向量)；

(32)从主域名与自然语言特征的对应关系表中查询出与所述第二主域名对应的自言语言特征；

(33)当查询出的所述自言语言特征与一元向量、二元向量、以及三元向量匹配时，将利用N元语法模型对所述正常域名的第二主域名进行处理后得到的所述一元向量、二元向量、以及三元向量作为所述正常域名的第二主域名的自然语言特征。

在上述步骤(31)中，利用N元语法模型对所述正常域名的第二主域名进行处理，得到所述第二主域名的一元向量、二元向量、以及三元向量的过程是现有技术，这里不再赘述。

在上述步骤(32)中，主域名与自然语言特征的对应关系表，缓存在服务器中。

主域名与自然语言特征的对应关系表，用于对所有正常域名的自然语言特征进行存储，存储形式是：正常域名与自然语言特征的对应关系。

这里，所述自然语言特征，包括：正常域名的一元向量、二元向量、以及三元向量。

在上述步骤(33)中，当从主域名与自然语言特征的对应关系表中查询出的第二主域名的自言语言特征中的一元向量，与利用N元语法模型对所述正常域名的第二主域名进行处理，得到所述第二主域名的一元向量相同；从主域名与自然语言特征的对应关系表中查询出的第二主域名的自言语言特征中的二元向量，与利用N元语法模型对所述正常域名的第二主域名进行处理，得到所述第二主域名的二元向量相同；且从主域名与自然语言特征的对应关系表中查询出的第二主域名的自言语言特征中的三元向量，与利用N元语法模型对所述正常域名的第二主域名进行处理，得到所述第二主域名的三元向量相同时，确定查询出的所述自言语言特征与一元向量、二元向量、以及三元向量匹配。

在通过上述步骤(31)至步骤(33)对得到所述正常域名的第二主域名的自然语言特征的过程进行后，继续通过以下步骤(41)至步骤(43)对得到正常域名的第二主域名的转移概率特征进行描述：

对所述正常域名的第二主域名进行处理，还包括：

(41)计算所述正常域名的第二主域名的马尔科夫链；

(42)从主域名与转移概率特征的对应关系表中查询出与所述第二主域名对应的转移概率特征；

(43)当查询得到的所述第二主域名对应的转移概率特征与计算得到的所述正常域名的第二主域名的马尔科夫链相同时，将计算得到的所述马尔科夫链作为所述正常域名的第二主域名的转移概率特征。

在上述步骤(41)中，计算所述正常域名的第二主域名的马尔科夫链的过程是现有技术，这里不再赘述。

在上述步骤(42)中，主域名与转移概率特征的对应关系表，存储在服务器中。

这里，所述主域名与转移概率特征的对应关系表，用于对所有正常域名中各主域名与各主域名自身计算得到的转移概率特征的对应关系进行存储。

在本实施例中，所述转移概率特征，用于表示主域名中各字符分别转移到该字符的下一个字符的概率。

通过以上内容，对如何得到主域名特征进行了描述。

与主域名特征类似，所述子域名特征，包括：恶意域名的第一子域名中各级子域名的域名长度；恶意域名中第一子域名与所述恶意域名的长度比值；所述第一子域名中英文字符的数量、数字字符的数量以及符号的数量；恶意域名中第一子域名和正常域名中第二子域名的词相关特征；正常域名的第二子域名中各级子域名的域名长度；所述正常域名的第二子域名的自然语言特征、所述正常域名的第二子域名的转移概率特征；正常域名中第二子域名与所述正常域名的长度比值；以及所述第二子域名中英文字符的数量、数字字符的数量以及符号的数量。

在上述步骤(2)中，为了对所述恶意域名的第一子域名进行处理，可以执行以下步骤(21)至步骤(24)：

(21)确定所述第一子域名中各级子域名的域名长度，并将所述第一子域名中分隔各级子域名的分隔符去掉，得到组成所述第一子域名的字符串；

(22)确定组成所述第一子域名的字符串的第三字符长度和所述恶意域名的第一字符长度；

(23)利用所述第一字符数量和第三字符数量计算得到所述第一子域名与所述恶意域名的长度比值；

(24)分别确定出所述恶意域名的第一子域名中英文字符的数量、数字字符的数量以及符号的数量。

在上述步骤(21)中，所述第一子域名中各级子域名由分隔符分开。对于域名a.b.c.d.google.com.cn的子域名“a.b.c.d”而言，a、b、c、以及d是各级子域名，各级子域名之间的“.”就是各级子域名之间的分隔符。

为了确定所述第一子域名中各级子域名的域名长度，需要确定第一子域名中各级子域名分别包含的字符数量，为了确定第一子域名中各级子域名分别包含的字符数量，可以采用自然语言处理技术，对所述第一子域名进行处理，确定第一子域名中各级子域名分别包含的字符数量，具体处理过程是现有技术，这里不再赘述。

所述第一子域名中各级子域名的域名长度与各级子域名分别包含的字符数量相同。

所以，子域名为“a.b.c.d”时，所述第一子域名中各级子域名的域名长度均为1。可以确定域名a.b.c.d.google.com.cn的子域名中包含4个长度为1的各级子域名。

上述步骤(22)至步骤(24)的具体实现过程，与上述步骤(1)中通过步骤(11)至步骤(13)的流程得到所述主域名特征中恶意域名中第一主域名与所述恶意域名的长度比值、和所述第一主域名中英文字符的数量、数字字符的数量以及符号的数量的具体过程类似，这里不再赘述。

子域名特征中的恶意域名中第一子域名和正常域名中第二子域名的词相关特征；正常域名的第二子域名中各级子域名的域名长度；所述正常域名的第二子域名的自然语言特征、所述正常域名的第二子域名的转移概率特征；正常域名中第二子域名与所述正常域名的长度比值；以及所述第二主域名中英文字符的数量、数字字符的数量以及符号的数量的得到过程与上述主域名特征中相关特征的实现过程类似，这里不再赘述。

在上述步骤(3)中，所述域名后缀列表，缓存在服务器中。

所述域名后缀列表，用于记录使用量较多的预设数量的域名后缀的使用量排名。

域名后缀的使用量排名，与域名后缀当前在互联网中的使用数量成正比，即当一个域名后缀当前在互联网中的使用数量越大，那么该域名后缀的使用量排名越高。

在一个实施方式中，预设数量可以是100或者200，那么所述域名后缀列表，用于记录使用量较多的100个或者200个域名后缀的使用量排名。

在上述步骤(4)中，所述服务器还记录有一个域名后缀排名与后缀信誉度的对应关系。

在一个实施方式中，域名后缀排名与后缀信誉度的对应关系可以如下表示：

域名后缀排名1-20后缀信誉度是100；

域名后缀排名21-40后缀信誉度是95；

……

域名后缀排名181-200后缀信誉度是10。

所述后缀信誉度，用于客观反映域名后缀的恶意程度，即所述后缀信誉度越高，那么域名后缀的恶意程度越低。如果域名后缀不在域名后缀列表中，那么将该域名后缀对应的后缀信誉度设置为0。

当能够从所述域名后缀列表中查询出所述第一域名后缀的排名和/或者所述第二域名后缀的排名时，从所述域名后缀排名与后缀信誉度的对应关系中确定与所述第一域名后缀的排名对应的第一后缀信誉度和/或者与所述第二域名后缀的排名对应的第二后缀信誉度。

综上所述，本申请实施例提出的一种恶意域名检测特征处理方法，通过分别对恶意域名和正常域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀，并对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征，与相关技术中将完整的恶意域作为特征对深度学习神经网络进行训练的方式相比，将所述恶意域名划分为第一主域名、第一子域名以及第一域名后缀以及将所述正常域名划分为第二主域名、第二子域名和第二域名后缀，然后分别对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及将所述正常域名的第二主域名、第二子域名和第二域名后缀进行处理，得到能够全面客观反映恶意域名和正常域名的细节的恶意域名检测特征，将得到的恶意域名检测特征输入到深度学习神经网络进行训练后得到的恶意域名检测模型，对恶意域名的识别检测更加准确，从而减少恶意域名的漏检和识别错误的情况出现。

实施例2

本实施例提出一种恶意域名检测特征处理装置，用于执行上述实施例1提出的恶意域名检测特征处理方法。

参见图2所示的一种恶意域名检测特征处理装置的结构示意图，包括：

获取模块200，用于获取待处理的恶意域名和正常域名；

第一处理模块202，用于对所述恶意域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀；

第二处理模块204，用于对所述正常域名进行处理，得到所述正常域名的第二主域名、第二子域名和第二域名后缀；

第三处理模块206，用于对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征。

所述第三处理模块，具体用于：

分别对所述恶意域名的第一主域名和所述正常域名的第二主域名进行处理，得到所述主域名特征；

分别对所述恶意域名的第一子域名和所述正常域名的第二子域名进行处理，得到所述子域名特征；

获取域名后缀列表，所述域名后缀列表，用于记录使用量较多的预设数量的域名后缀的使用量排名；

当能够从所述域名后缀列表中查询出所述第一域名后缀的排名和/或者所述第二域名后缀的排名时，确定与所述第一域名后缀的排名对应的第一后缀信誉度和/或者与所述第二域名后缀的排名对应的第二后缀信誉度；

将确定出的第一后缀信誉度和/或者第二后缀信誉度作为域名后缀特征，从而得到所述恶意域名检测特征。

所述主域名特征，包括：恶意域名中第一主域名与所述恶意域名的长度比值，和所述第一主域名中英文字符的数量、数字字符的数量以及符号的数量。

所述第三处理模块，用于对所述恶意域名的第一主域名进行处理，包括：

确定恶意域名的第一字符长度和所述恶意域名中第一主域名的第二字符长度；

利用所述第一字符长度和第二字符长度计算得到所述第一主域名与恶意域名的长度比值；

分别确定出所述恶意域名的第一主域名中英文字符的数量、数字字符的数量以及符号的数量。

所述子域名特征，包括：所述恶意域名中第一子域名中各级子域名的域名长度、所述第一子域名与所述恶意域名的长度比值，和所述第一子域名中英文字符的数量、数字字符的数量以及符号的数量。

所述第三处理模块，用于对所述恶意域名的第一子域名进行处理，包括：

确定所述第一子域名中各级子域名的域名长度，并将所述第一子域名中分隔各级子域名的分隔符去掉，得到组成所述第一子域名的字符串；

确定组成所述第一子域名的字符串的第三字符长度和所述恶意域名的第一字符长度；

利用所述第一字符数量和第三字符数量计算得到所述第一子域名与所述恶意域名的长度比值；

分别确定出所述恶意域名的第一子域名中英文字符的数量、数字字符的数量以及符号的数量。

所述第三处理模块，用于对所述恶意域名的第一主域名进行处理，还包括：

获取词相关列表，并从所述词相关列表中获取到所述第一主域名包含的所有词语；

统计从所述词相关列表中获取到的所述第一主域名包含的所有词语的词语数量，并分别计算所有词语中的各词语分别与所述第一主域名的长度比值；

获取品牌列表，并从所述品牌列表中获取到所述第一主域名包含的所有品牌，并统计得到所有品牌的品牌数量。

所述主域名特征，还包括：所述正常域名的第二主域名的自然语言特征。

所述第三处理模块，用于对所述正常域名的第二主域名进行处理，包括：

利用N元语法模型对所述正常域名的第二主域名进行处理，得到所述第二主域名的一元向量、二元向量、以及三元向量；

从主域名与自然语言特征的对应关系表中查询出与所述第二主域名对应的自言语言特征；

当查询出的所述自言语言特征与一元向量、二元向量、以及三元向量匹配时，将利用N元语法模型对所述正常域名的第二主域名进行处理后得到的所述一元向量、二元向量、以及三元向量作为所述正常域名的第二主域名的自然语言特征。

所述主域名特征，还包括：所述正常域名的第二主域名的转移概率特征。

所述第三处理模块，用于对所述正常域名的第二主域名进行处理，还包括：

计算所述正常域名的第二主域名的马尔科夫链；

从主域名与转移概率特征的对应关系表中查询出与所述第二主域名对应的转移概率特征；

当查询得到的所述第二主域名对应的转移概率特征与计算得到的所述正常域名的第二主域名的马尔科夫链相同时，将计算得到的所述马尔科夫链作为所述正常域名的第二主域名的转移概率特征。

综上所述，本申请实施例提出的一种恶意域名检测特征处理装置，通过分别对恶意域名和正常域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀，并对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征，与相关技术中将完整的恶意域作为特征对深度学习神经网络进行训练的方式相比，将所述恶意域名划分为第一主域名、第一子域名以及第一域名后缀以及将所述正常域名划分为第二主域名、第二子域名和第二域名后缀，然后分别对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及将所述正常域名的第二主域名、第二子域名和第二域名后缀进行处理，得到能够全面客观反映恶意域名和正常域名的细节的恶意域名检测特征，将得到的恶意域名检测特征输入到深度学习神经网络进行训练后得到的恶意域名检测模型，对恶意域名的识别检测更加准确，从而减少恶意域名的漏检和识别错误的情况出现。

实施例3

本实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例1描述的数据处理方法的步骤。具体实现可参见方法实施例1，在此不再赘述。

此外，参见图3所示的一种电子设备的结构示意图，本实施例还提出一种电子设备，上述电子设备包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述电子设备包括有存储器55。

本实施例中，上述电子设备还包括：存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序，经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤(1)至步骤(4)：

(1)获取待处理的恶意域名和正常域名；

(2)对所述恶意域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀；

(3)对所述正常域名进行处理，得到所述正常域名的第二主域名、第二子域名和第二域名后缀；

(4)对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征。

收发机53，用于在处理器52的控制下接收和发送数据。

在图3中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由通用处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质，还可以提供用户接口56，例如小键盘、显示器、扬声器、麦克风、操纵杆。

处理器52负责管理总线51和通常的处理，如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。

可选的，处理器52可以是但不限于：中央处理器、单片机、微处理器或者可编程逻辑器件。

可以理解，本发明实施例中的存储器55可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器55存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统551和应用程序552。

其中，操作系统551，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序552，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。

综上所述，本实施例提出一种计算机可读存储介质和电子设备，通过分别对恶意域名和正常域名进行处理，得到所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀，并对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征，与相关技术中将完整的恶意域作为特征对深度学习神经网络进行训练的方式相比，将所述恶意域名划分为第一主域名、第一子域名以及第一域名后缀以及将所述正常域名划分为第二主域名、第二子域名和第二域名后缀，然后分别对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及将所述正常域名的第二主域名、第二子域名和第二域名后缀进行处理，得到能够全面客观反映恶意域名和正常域名的细节的恶意域名检测特征，将得到的恶意域名检测特征输入到深度学习神经网络进行训练后得到的恶意域名检测模型，对恶意域名的识别检测更加准确，从而减少恶意域名的漏检和识别错误的情况出现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换的技术方案，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种恶意域名检测特征处理方法，其特征在于，包括：

获取待处理的恶意域名和正常域名；

2.根据权利要求1所述的方法，其特征在于，所述恶意域名检测特征，包括：主域名特征、子域名特征、以及域名后缀特征；其中，所述域名后缀特征，用于反映所述域名后缀的恶意程度；

对所述恶意域名的第一主域名、第一子域名以及第一域名后缀以及所述正常域名的第二主域名、第二子域名和第二域名后缀分别进行处理，得到恶意域名检测特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述主域名特征，包括：恶意域名中第一主域名与所述恶意域名的长度比值，和所述第一主域名中英文字符的数量、数字字符的数量以及符号的数量；

对所述恶意域名的第一主域名进行处理，包括：

4.根据权利要求2所述的方法，其特征在于，所述子域名特征，包括：所述恶意域名中第一子域名中各级子域名的域名长度、所述第一子域名与所述恶意域名的长度比值，和所述第一子域名中英文字符的数量、数字字符的数量以及符号的数量；

对所述恶意域名的第一子域名进行处理，包括：

5.根据权利要求3所述的方法，其特征在于，对所述恶意域名的第一主域名进行处理，还包括：

6.根据权利要求2所述的方法，其特征在于，所述主域名特征，还包括：所述正常域名的第二主域名的自然语言特征；

对所述正常域名的第二主域名进行处理，包括：

7.根据权利要求6所述的方法，其特征在于，所述主域名特征，还包括：所述正常域名的第二主域名的转移概率特征；

对所述正常域名的第二主域名进行处理，还包括：

计算所述正常域名的第二主域名的马尔科夫链；

8.一种恶意域名检测特征处理装置，其特征在于，包括：

获取模块，用于获取待处理的恶意域名和正常域名；

9.根据权利要求8所述的装置，其特征在于，所述恶意域名检测特征，包括：主域名特征、子域名特征、以及域名后缀特征；其中，所述域名后缀特征，用于反映所述域名后缀的恶意程度；

所述第三处理模块，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述主域名特征，包括：恶意域名中第一主域名与所述恶意域名的长度比值，和所述第一主域名中英文字符的数量、数字字符的数量以及符号的数量；

11.根据权利要求9所述的装置，其特征在于，所述子域名特征，包括：所述恶意域名中第一子域名中各级子域名的域名长度、所述第一子域名与所述恶意域名的长度比值，和所述第一子域名中英文字符的数量、数字字符的数量以及符号的数量；

12.根据权利要求11所述的装置，其特征在于，所述第三处理模块，用于对所述恶意域名的第一主域名进行处理，还包括：

13.根据权利要求9所述的装置，其特征在于，所述主域名特征，还包括：所述正常域名的第二主域名的自然语言特征；

14.根据权利要求13所述的装置，其特征在于，所述主域名特征，还包括：所述正常域名的第二主域名的转移概率特征；

计算所述正常域名的第二主域名的马尔科夫链；

15.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-7任一项所述的方法的步骤。

16.一种电子设备，其特征在于，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行权利要求1-7任一项所述的方法的步骤。