CN111818198B

CN111818198B - 域名检测方法、域名检测装置和设备以及介质

Info

Publication number: CN111818198B
Application number: CN202010946789.5A
Authority: CN
Inventors: 马江夏; 林智鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-29
Anticipated expiration: 2040-09-10
Also published as: CN111818198A

Abstract

本申请提供了一种域名检测方法、域名检测装置、域名检测设备以及计算机可读存储介质。所述域名检测方法包括：获取待检测域名；对所述待检测域名进行特征向量提取，以生成所述待检测域名的特征向量；对所述待检测域名的特征向量进行特征稀疏检测，以获得所述待检测域名的有效特征向量；基于所述有效特征向量，对所述待检测域名进行安全风险等级分类，以确定所述待检测域名的安全风险等级类别；根据所述待检测域名的安全风险等级类别，对所述待检测域名进行网页分类处理或域名风险扫描处理；以及基于所述处理的结果确定并输出所述待检测域名的检测结果。

Description

域名检测方法、域名检测装置和设备以及介质

技术领域

本申请涉及互联网领域，并且具体地涉及一种域名检测方法、域名检测装置、域名检测设备以及计算机可读存储介质。

背景技术

在如今的互联网环境中，网络安全变得日益重要，例如威胁情报的网络安全信息对于网络安全分析和运维至关重要。威胁情报，也称为IOC（Indicator of Compromise，威胁指示）情报，是一种基于证据的知识，包括了情境、机制、指标、隐含和实际可行的建议。威胁情报描述了现存的、或者是即将出现的针对资产的威胁或危险，并可以用于通知主体针对相关威胁或危险采取某种响应。目前，威胁情报主要来源于开源情报和沙箱情报，而开源情报依赖于开源数据和各大情报厂商，缺乏自主性，沙箱情报则情报类型单一、数量有限。域名检测可以用于获取威胁情报，然而，当前域名检测常依赖于人工鉴定，效率低下，难以处理大量的域名数据。因此，需要一种能够高效准确地进行域名检测的方法。

近年来，机器学习技术快速发展。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习技术给域名检测提供了新的思路。

发明内容

为了克服现有技术中存在的缺陷，本申请提出了一种域名检测方法、域名检测装置、域名检测设备以及计算机可读存储介质。

根据本申请的一个方面，提供了一种域名检测方法，包括：获取待检测域名；对所述待检测域名进行特征向量提取，以生成所述待检测域名的特征向量；对所述待检测域名的特征向量进行特征稀疏检测，以获得所述待检测域名的有效特征向量；基于所述有效特征向量，对所述待检测域名进行安全风险等级分类，以确定所述待检测域名的安全风险等级类别；根据所述待检测域名的安全风险等级类别，对所述待检测域名进行网页分类处理或域名风险扫描处理；以及基于所述处理的结果确定并输出所述待检测域名的检测结果。

根据本申请的一个示例，其中，所述安全风险等级类别是黑域名、白域名和灰域名中的一个，并且其中，黑域名为安全风险高的域名，白域名为安全风险低的域名，灰域名为安全风险处于黑域名和白域名之间的域名。

根据本申请的一个示例，其中，对所述待检测域名进行特征向量提取，以生成所述待检测域名的特征向量包括：提取所述待检测域名的域名字符特征、样本关联特征、域名属性特征和网络访问特征中的至少一部分特征，作为所述待检测域名的特征数据；以及利用所述待检测域名的特征数据，生成所述特征向量。

根据本申请的一个示例，其中，对所述待检测域名进行特征向量提取，以生成所述待检测域名的特征向量包括：利用图形数据库对所述域名进行分析，以提取所述待检测域名的特征向量，其中，所述图形数据库存储域名与其特征向量的对应关系。

根据本申请的一个示例，其中，对所述待检测域名的特征向量进行特征稀疏检测，以获得所述待检测域名的有效特征向量包括：确定所述待检测域名的特征向量是否稀疏；以及在确定所述特征向量不稀疏的情况下，确定所述特征向量为有效特征向量；在所述特征向量稀疏的情况下，丢弃所述特征向量，其中，所述稀疏指示所述待检测域名在预定时间段内未被访问、被解析且被浏览过。

根据本申请的一个示例，其中，在所述待检测域名的安全风险等级类别为黑域名或者白域名时，对所述待检测域名指向的网页进行网页分类处理，所述网页分类处理包括：在所述网页中包括的指定元素的数量满足预定阈值时，确定所述网页为正常网页；在所述网页中包括的指定元素的数量不满足预定阈值时，确定所述网页为非正常网页；以及在所述网页过期时，确定所述网页为过期网页。

根据本申请的一个示例，其中，在所述待检测域名的安全风险等级类别为黑域名时，基于所述处理的结果确定所述待检测域名的检测结果包括：在所述网页为正常网页的情况下，确定所述待检测域名为失陷域名；在所述网页为非正常网页的情况下，确定所述待检测域名为恶意域名；以及在所述网页为过期网页的情况下，确定所述待检测域名为过期域名。

根据本申请的一个示例，其中，在所述待检测域名的安全风险等级类别为白域名时，基于所述处理的结果确定所述待检测域名的检测结果包括：在所述网页为正常网页并且所述待检测域名的广度满足预定条件的情况下，确定所述待检测域名为安全域名，并将所述待检测域名加入域名白名单；在所述网页为过期网页的情况下，确定所述待检测域名为过期域名。

根据本申请的一个示例，其中，在所述待检测域名的安全风险等级类别为灰域名时，对所述待检测域名进行域名风险扫描处理，所述域名风险扫描处理包括：根据预定规则对所述待检测域名进行域名风险扫描，并根据扫描结果生成对所述待检测域名进行鉴定处理的指示。

根据本申请的一个示例，其中，基于所述有效特征向量，对所述待检测域名进行安全风险等级分类，以确定所述待检测域名的安全风险等级类别包括：基于所述有效特征向量，利用域名分类模型对所述待检测域名进行安全风险等级分类，以确定所述待检测域名的安全风险等级类别，其中，所述域名分类模型通过以下方法进行训练：获取包括不同安全风险等级类别的训练域名的训练域名集，其中每个训练域名的训练数据包括所述训练域名的特征数据和所述训练域名的类别；针对所述训练域名集中的每个训练域名，基于所述训练域名对应的特征数据，生成所述训练域名的有效特征向量；以及利用所述训练域名集中的每个训练域名的有效特征向量和安全风险等级类别，对所述域名分类模型进行训练。

根据本申请的一个示例，其中，所述不同安全风险等级类别包括黑域名、白域名和灰域名，并且其中，所述获取包括不同安全风险等级类别的训练域名的训练域名集包括：从可疑域名集获取可疑域名，将通过对可疑域名进行鉴定确定的恶意域名作为黑域名类别的训练域名，并且将通过对可疑域名进行鉴定确定的非恶意域名作为灰域名类别的训练域名；获取高广度域名，作为白域名类别的训练域名，其中，所述高广度域名为被访问的频率满足预定条件的域名。

根据本申请的一个示例，其中，所述获取包括不同安全风险等级类别的训练域名的训练域名集还包括：从多个关联恶意域名中随机抽样预定数量的域名作为黑域名类别的训练域名，其中，多个关联恶意域名是同一二级域名下的多个子域名。

根据本申请的一个示例，其中，所述特征数据包括所述训练域名的域名字符特征、样本关联特征、域名属性特征和网络访问特征中的至少一部分。

根据本申请的另一方面，提供了一种域名检测装置，包括：域名获取单元，被配置为获取待检测域名；特征向量生成单元，被配置为对所述待检测域名进行特征向量提取，以生成所述待检测域名的特征向量；特征稀疏检测单元，被配置为对所述待检测域名的特征向量进行特征稀疏检测，以获得所述待检测域名的有效特征向量；分类单元，被配置为基于所述有效特征向量，对所述待检测域名进行安全风险等级分类，以确定所述待检测域名的安全风险等级类别；处理单元，被配置为根据所述待检测域名的安全风险等级类别，对所述待检测域名进行网页分类处理或域名风险扫描处理；以及输出单元，被配置为基于所述处理的结果确定并输出所述待检测域名的检测结果。

根据本申请的一个示例，其中，所述特征向量生成单元还被配置为：提取所述待检测域名的域名字符特征、样本关联特征、域名属性特征和网络访问特征中的至少一部分特征，作为所述待检测域名的特征数据；以及利用所述待检测域名的特征数据，生成所述特征向量。

根据本申请的一个示例，其中，所述特征向量生成单元还被配置为：利用图形数据库对所述域名进行分析，以提取所述待检测域名的特征向量，其中，所述图形数据库存储域名与其特征向量的对应关系。

根据本申请的一个示例，其中，所述特征稀疏检测单元被配置为：确定所述待检测域名的特征向量是否稀疏；以及在确定所述特征向量不稀疏的情况下，确定所述特征向量为有效特征向量；在所述特征向量稀疏的情况下，丢弃所述特征向量，其中，所述稀疏指示所述待检测域名在预定时间段内未被访问、被解析且被浏览过。

根据本申请的一个示例，其中，所述处理单元被配置为在所述待检测域名的安全风险等级类别为黑域名或者白域名时，对所述待检测域名指向的网页进行网页分类处理，所述网页分类处理包括：在所述网页中包括的指定元素的数量满足预定阈值时，确定所述网页为正常网页；在所述网页中包括的指定元素的数量不满足预定阈值时，确定所述网页为非正常网页；以及在所述网页过期时，确定所述网页为过期网页。

根据本申请的一个示例，其中，在所述待检测域名的安全风险等级类别为黑域名时，所述输出单元被配置为：在所述网页为正常网页的情况下，确定所述待检测域名为失陷域名；在所述网页为非正常网页的情况下，确定所述待检测域名为恶意域名；以及在所述网页为过期网页的情况下，确定所述待检测域名为过期域名。

根据本申请的一个示例，其中，在所述待检测域名的安全风险等级类别为白域名时，所述输出单元被配置为：在所述网页为正常网页并且所述待检测域名的广度满足预定条件的情况下，确定所述待检测域名为安全域名，并将所述待检测域名加入域名白名单；在所述网页为过期网页的情况下，确定所述待检测域名为过期域名。

根据本申请的一个示例，其中，所述分类单元通过以下方法进行训练：获取包括不同安全风险等级类别的训练域名的训练域名集，其中每个训练域名的训练数据包括所述训练域名的特征数据和所述训练域名的安全风险等级类别；针对所述训练域名集中的每个训练域名，基于所述训练域名对应的特征数据，生成所述训练域名的有效特征向量；以及利用所述训练域名集中的每个训练域名的有效特征向量和安全风险等级类别，对所述分类单元进行训练。

根据本申请的另一方面，提供了一种域名检测设备，包括：一个或多个处理器；和一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行本申请的上述方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行本申请的上述方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行本申请的上述方法。

根据本申请各个方面的域名检测方法、域名检测装置、域名检测设备以及计算机可读存储介质，通过生成待检测的域名的特征向量，基于特征向量对待检测的域名进行分类以确定域名的类别，对待检测的域名进行与其类别相对应的处理，并基于处理的结果确定域名的检测结果，能够对域名进行高效、精确的检测。此外，通过利用基于机器学习训练的域名分类模型对待检测的域名进行分类，并基于所确定的域名类别对域名进行处理以确定域名检测结果，能够实现对海量的域名数据进行实时、高效、自动的检测，相比于高度依赖于人工鉴定的传统方法，大大提高了检测效率。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了本申请一个示例性实施例提供的域名检测方法的流程图；

图2示出了本申请另一个示例性实施例提供的域名检测方法的流程图；

图3示出了本申请另一个示例性实施例提供的域名检测方法的流程图；

图4示出了本申请一个示例性实施例提供的域名分类模型的训练方法的流程图；

图5示出了本申请一个示例性实施例提供的域名分类模型的训练方法的示例过程；

图6示出了本申请一个示例性实施例提供的具有反馈优化的域名检测方法的流程图；

图7示出了本申请一个示例性实施例提供域名检测装置的结构示意图；

图8示出了本申请一个示例性实施例提供的示例性计算设备的架构的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在网络安全分析中，常常需要对域名进行检测来判断待检测域名是否为恶意域名、失陷域名等，并基于检测结果生成威胁情报提供给用户，以便用户采取相应的处理措施。然而，现有的域名检测方法高度依赖于人工鉴定，效率低下，难以处理互联网环境中的海量域名数据。本申请提供一种能够高效准确地进行域名检测的方法和装置。

下面参照图1描述根据本申请实施例的域名检测方法。图1示出了本申请一个示例性实施例提供的域名检测方法100的流程图。如图1所示，本申请一个示例性实施例提供的域名检测方法包括以下步骤：

步骤S110，获取待检测域名。具体地，待检测域名可以是用户输入以进行检测的域名，可以是需要进行检测的大量域名集中的任意域名，或者可以是即将打开的网页的域名。

步骤S120，对待检测域名进行特征向量提取，以生成待检测域名的特征向量。具体地，待检测域名的特征向量用于表征该域名的特征，以供域名检测使用。

步骤S130，对待检测域名的特征向量进行特征稀疏检测，以获得待检测域名的有效特征向量。

步骤S140，基于有效特征向量，对待检测域名进行安全风险等级分类，以确定待检测域名的安全风险等级类别。

在本申请中，域名的安全风险等级类别例如可以是黑域名、白域名和灰域名中的一个，其中，黑域名为安全风险较高的域名，白域名为安全风险较低的域名，而灰域名则为安全风险处于黑域名和白域名之间的域名。例如，对于通过传播恶意软件、发送垃圾邮件等方式进行恶意活动的恶意域名，可以将其分类为黑域名，表明其安全风险很高；对于高广度的域名，即被访问的频率满足预定条件的域名，例如，在单位时间内被访问的频率大于一定阈值的域名，可以将其分类为白域名，表明其安全风险较低；对于可疑但其安全风险处于黑域名和白域名之间的域名，可以将其分类为灰域名。例如，在对待检测的域名进行分类时，可以分别计算该域名属于黑域名、白域名和灰域名的概率，并将概率最高的类别确定为待检测域名的类别。应当理解的是，虽然这里将域名的类别分为黑域名、白域名和灰域名三类，但是本申请不限于此，域名的类别可以包括其他类别，并且可以包括多于或者少于三类。

根据本申请实施例的示例，在步骤S140中，基于有效特征向量，对待检测域名进行安全风险等级分类，以确定待检测域名的安全风险等级类别可以包括：基于有效特征向量，利用域名分类模型对待检测域名进行安全风险等级分类，以确定待检测域名的安全风险等级类别。域名分类模型例如可以利用机器学习中常用的分类算法来实现，例如K最近邻算法（K-Nearest Neighbor，KNN）、随机森林算法（Random Forest）、梯度提升算法（GradientBoosting）等等。

步骤S150，根据待检测域名的安全风险等级类别，对待检测域名进行网页分类处理或域名风险扫描处理。根据本申请实施例的示例，对待检测域名进行网页分类处理或域名风险扫描处理可以包括：在待检测域名的类别为黑域名或者白域名的情况下，对该域名指向的网页进行网页分类处理；以及在待检测域名的类别为灰域名的情况下，根据预定规则对该域名进行域名风险扫描处理，并根据扫描结果生成对该域名进行鉴定处理的指示。

步骤S160，基于处理的结果确定并输出待检测域名的检测结果。根据本申请实施例的示例，域名的检测结果可以包括过期域名、失陷域名、恶意域名、普通域名、安全域名等等。

下面参照图2具体描述生成待检测的域名的特征向量的过程。图2示出了本申请另一个示例性实施例提供的域名检测方法100的流程图。

如上所述，在步骤S120中，对待检测域名进行特征向量提取，以生成待检测域名的特征向量。

根据本申请实施例的一个示例，可以通过获取待检测的域名的多个特征，并基于所获得的特征来生成特征向量。具体地，对待检测域名进行特征向量提取，以生成待检测域名的特征向量可以包括：提取待检测域名的域名字符特征、样本关联特征、域名属性特征和网络访问特征中的至少一部分特征，作为待检测的域名的特征数据；以及利用待检测的域名的特征数据，生成特征向量。域名字符特征例如可以是与域名包含的字符相关联的特征，例如，域名字符熵、域名长度、域名级别、域名数字数量、特征字符数量、字符类型变换次数、最长非顶级域名、数字子域名数量、成词子域名数量等等，或者诸如邮箱前缀等与域名相关的字符特征。样本关联特征例如可以是与包含、访问或传播（例如，下载）域名的样本相关联的特征，其中，样本例如是软件、客户端等。域名属性特征例如可以是域名的统一资源定位符（URL）、互联网协议地址（IP地址）、规范名字（CNAME）或者域名的注册信息，例如注册国别、域名隐私信息（whois信息）、备案信息、注册邮箱关联、注册者关联、注册电话关联等等。网络访问特征例如可以是固定时间内域名被访问的次数的最大值、最小值、方差等等。域名的特征数据例如可以包括域名字符特征、样本关联特征、域名属性特征和网络访问特征中的一部分特征或全部特征。在获取域名的特征数据之后，根据特征数据生成特征向量，例如，可以通过对特征数据进行数值化来生成特征向量。

根据本申请实施例的另一示例，可以通过对预设的图形数据库进行查询来获得域名的特征向量。具体地，对待检测域名进行特征向量提取，以生成待检测的域名的特征向量可以包括：利用图形数据库对域名进行分析，以生成域名的特征向量。图形数据库是基于图形理论存储实体之间的关系信息的数据库，这里，例如，图形数据库可以存储域名与其特征向量之间的对应关系。例如，在存储域名与其特征向量之间的对应关系的图形数据库存在完善的查询机制的情况下，将待检测的域名输入图形数据库，即可实时输出域名的特征向量，这一过程例如可以称为域名实时向量化。在安全分析和运维中，常常需要对遇到的域名进行实时地检测分析，利用图形数据库能够实时地获取域名的特征向量，大大提高域名检测的速度。

此外，在一些情况下，域名的特征向量中可能缺乏域名检测所需的必要信息，例如，如果某个域名在预定时间段内未被访问、被解析且被浏览过，则其特征向量可能缺乏诸如网络访问特征等的必要信息。在此情况下，如图2所示，步骤S130可以进一步包括步骤S210和S220。

在步骤S210中，可以判断待检测域名的特征向量是否稀疏，并且在特征向量不稀疏的情况下，确定该特征向量为有效特征向量，并在步骤S220中输出该有效特征向量；在特征向量稀疏的情况下，则丢弃该特征向量，即，不再对该特征向量进行进一步的操作。例如，可以通过以下规则来判定特征向量是否稀疏：

Not Sparse if sample_visit > 0 & resolved > 0 & user_visit >0 T （1）

其中，sample_visit表示在时间T内域名被样本访问的次数，resolved表示在时间T内域名被解析的次数，user_visit表示在时间T内域名被浏览的次数，Not Sparse表示不稀疏。也就是说，上述规则表示：当域名在时间T内被样本访问的次数大于0，被解析的次数大于0，并且被浏览的次数大于0时，则判定该域名的特征向量不稀疏；否则，则判定该域名的特征向量稀疏，其中，稀疏指示该域名在预定时间段内未被访问、被解析且被浏览过，即，该域名的特征向量中缺乏对其进行域名检测所需的必要信息。

为了使上面描述的域名检测方法的过程更加清晰，下面参照图3进一步描述根据本申请实施例的域名检测方法的示例过程。图3示出了本申请另一个示例性实施例提供的域名检测方法100的流程图。如图3所示，首先在步骤S110中，获取待检测域名。在步骤S120中，对待检测域名进行特征向量提取，以生成待检测域名的特征向量。在步骤S130中，对待检测域名的特征向量进行特征稀疏检测，以获得待检测域名的有效特征向量。然后，在步骤S140中基于待检测域名的有效特征向量，对待检测域名进行安全风险等级分类，以确定待检测域名的安全风险等级类别待检测域名待检测域名。如果确定待检测域名的类别为黑域名，则在步骤S150中，对该域名指向的网页进行网页分类处理，并根据网页分类处理的结果，在步骤S160中确定该域名为过期域名、失陷域名或者恶意域名；如果确定待检测域名的类别为白域名，则在步骤S150中，对该域名进行网页分类处理，并根据网页分类处理的结果，在步骤S160中确定该域名为过期域名、普通域名或者安全域名；如果确定待检测域名的类别为灰域名，则在步骤S150中，根据预定规则对该域名进行域名风险扫描处理，并根据扫描结果确定对该域名进行进一步鉴定处理还是停止检测，并且在进一步鉴定处理的情况下，在步骤S160中确定该域名为过期域名、恶意域名或者安全域名。

具体地，根据本申请实施例的示例，在待检测域名的安全风险等级类别为黑域名或者白域名的情况下，对待检测域名指向的网页进行网页分类处理可以包括：在网页中包括的指定元素的数量满足预定阈值时，确定该网页为正常网页；在网页中包括的指定元素的数量不满足预定阈值时，确定该网页为非正常网页；以及在网页过期时，确定该网页为过期网页。通常，网页可以包括文字、图片、动画、声音、视频、表格、网页标签等信息，网页中的文字例如又可以包括词汇数、段落数、行数等信息，通过这些信息可以判断网页是否正常。例如，对于某个待检测的域名所指向的网页，可以通过网页中包括的标签的数量是否满足预定阈值来判断该网页是否正常，即指定元素为标签，当标签的数量满足预定阈值时，确定该网页是正常网页；当标签的数量不满足预定阈值时，确定该网页是非正常网页。这里，预定阈值可以根据所选择的网页中的指定元素的不同种类而有所不同。网页分类处理例如可以通过对网页源代码进行建模的网页分类器组件来实现。

作为一种示例场景，在步骤S140中确定待检测域名的安全风险等级类别为黑域名时，则相应地在步骤S150中对待检测域名指向的网页进行网页分类处理，此时，基于在步骤S150进行的网页分类处理的结果确定待检测域名的检测结果可以包括：在网页为正常网页的情况下，确定该域名为失陷域名；在网页为非正常网页的情况下，确定该域名为恶意域名；以及在网页为过期网页的情况下，确定该域名为过期域名。

例如，可能存在多种原因，使得正常网页的域名被分类为黑域名。即使如此，根据本申请实施例的域名检测方法仍可以在最后的检测结果中识别出这种情形。例如，如果某个待检测的域名所指向的网页本身是正常网页，但由于中毒、受到黑客攻击、被劫持等而导致域名失陷，使其安全风险较高，则在利用本申请的域名检测方法100对待检测域名进行检测时，该域名在步骤S140中会被分类为黑域名，随后，在步骤S150中该域名指向的网页会被确定为正常网页，最终，在步骤S160中正确检测出该域名为失陷域名，表明该域名所指向的网页本身是正常网页，但是由于某种原因而失陷。

对于恶意域名，根据本申请实施例的域名检测方法可以将其首先分类为黑域名，然后在最后的检测结果中正确识别出该恶意域名。例如，如果某个待检测的域名为恶意域名，例如高频发送垃圾邮件的恶意域名，其安全风险极高，则在利用本申请的域名检测方法100对待检测域名进行检测时，该域名在步骤S140中会被分类为黑域名，随后，在步骤S150中该域名指向的网页被确定为非正常网页，最终，在步骤S160中正确检测出该域名为恶意域名。

失陷域名和恶意域名例如可以作为有效的威胁情报来提供，以用于网络安全分析和运维，或者可以作为警示信息提供给用户，以便用户对其采取相应的处理措施。

此外，域名注册是有期限的，当域名到期后由于没有续费或者其他原因，域名会过期并且其指向的网页将变得无法访问。对于某个在过期前具有安全风险的域名，在利用本申请的域名检测方法100进行检测时，待检测域名在步骤S140中会被分类为黑域名，但由于其所指向的网页已经无法访问，即，不会再对网络安全构成威胁，最终在步骤S160中确定其为过期域名。虽然过期域名不作为有效的威胁情报来提供，但也可以作为检测结果信息提供给用户。

作为另一种示例场景，在步骤S140中确定待检测的域名的类别为白域名时，则相应地在步骤S150中对待检测域名指向的网页进行网页分类处理，此时，基于处理的结果确定域名的检测结果可以包括：在网页为正常网页并且该域名的广度满足预定条件的情况下，确定该域名为安全域名，并将该域名加入域名白名单；在网页为过期网页的情况下，确定该域名为过期域名。例如，域名的广度可以指域名被访问的频率，或者说域名在单位时间内被访问的次数。域名的广度满足预定条件例如可以是指域名在单位时间内被访问的次数大于一定数值。

在该场景下，根据本申请实施例的域名检测方法可以识别出安全域名，并建立域名白名单。例如，对于某个被划分为白域名类别的待检测域名，如果其指向的网页为正常网页，并且其广度满足预定条件，则表明其安全风险非常低，因而可以确定该域名为安全域名，并可以将其加入域名白名单。域名白名单也可以作为有价值的威胁情报来提供，以用于网络安全分析和运维。

另外，根据本申请实施例的域名检测方法也可以识别出普通域名。例如，如果某个待检测域名被划分为白域名类别，并且其指向的网页为正常网页，但其广度不满足预定条件，这种情况下，虽然该域名的安全风险较低，但由于该域名被访问的次数较少，尚不能确定其是否是安全域名，因而不能将其加入域名白名单，可暂时将其确定为普通域名。

另外，如果某个待检测域名被划分为白域名类别，但其指向的网页为非正常网页，这种互相矛盾的结果表明域名检测可能发生了错误，此时可以输出指示域名检测可能发生错误的警示信息。同样，对于被分类为白域名的过期域名，由于其网页已经无法访问，虽然不会作为有效的威胁情报来提供，但也可以作为检测结果信息提供给用户。

此外，虽然上面公开了通过网页分类将域名指向的网页分为正常网页、非正常网页和过期网页，并基于此确定域名的检测结果，但本申请不限于此，例如，对于恶意域名，还可以通过网页分类将域名指向的网页分为色情网页、赌博网页、矿池网页等，以丰富威胁情报，这可以通过对网页分类知识库进行挖掘构建等来实现，例如，对域名注册站点的挖掘。

作为又一种示例场景，如果在步骤S140中待检测的域名被分类为灰域名，则在步骤S150中，根据预定规则对域名进行域名风险扫描处理，并根据扫描结果生成对域名进行鉴定处理的指示。预定规则例如可以是安全专家定义的专家规则。例如，在通过计算待检测域名属于黑域名、白域名和灰域名的概率来确定待检测域名的类别的情况下，预定规则例如可以是：判断被分类为灰域名的待检测域名属于黑域名的概率是否大于属于白域名的概率，如果判定结果为是，则生成对该域名进行鉴定处理的指示，例如对该域名进行人工鉴定的指示，以进一步判断该域名是恶意域名、安全域名还是过期域名；如果判定结果为否，则可以停止对该域名的检测。例如，假定某个待检测的域名属于黑域名、白域名和灰域名的概率分别为0.35，0.25和0.4，则由于属于灰域名的概率（0.4）最高，该域名被分类为灰域名，然后，通过上述预定规则对该域名进行扫描，由于该域名属于黑域名的概率（0.35）大于属于白域名的概率（0.25），则生成对该域名进行鉴定处理的指示，例如对该域名进行人工鉴定的指示，以进一步判断该域名是恶意域名、安全域名或过期域名。

下面参照图4描述根据本申请一个示例性实施例的在步骤S140中使用的域名分类模型的训练方法。图4示出了本申请一个示例性实施例提供的域名分类模型的训练方法400的流程图。

如图4所示，在步骤S410中，获取包括不同安全风险等级类别的训练域名的训练域名集，其中每个训练域名的训练数据包括该训练域名的特征数据和该训练域名的安全风险等级类别。例如，训练域名的安全风险等级类别可以包括黑域名、白域名和灰域名。如前所述，例如，黑域名为安全风险较高的域名，白域名为安全风险较低的域名，而灰域名则为安全风险处于黑域名和白域名之间的域名。例如，可以从可疑域名集获取可疑域名，将通过对可疑域名进行鉴定确定的恶意域名作为黑域名类别的训练域名，并且将通过对可疑域名进行鉴定确定的非恶意域名作为灰域名类别的训练域名。其中，可疑域名集例如可以从开源情报获得，例如知名安全站点、安全博客所公开的威胁情报。在获得可疑域名集之后，例如可以通过安全专家进行人工鉴定来确定可疑域名集中的域名是否为恶意域名，并将其中的恶意域名作为黑域名类别的训练域名，将其中的非恶意域名作为灰域名类别的训练域名。另外，可以获取高广度域名，作为白域名类别的训练域名，如前所述，高广度域名是指被访问的频率满足预定条件的域名。另外，还可以对高广度的域名进行去噪之后作为白域名类别的训练域名，以提高训练数据的可靠性。

另外，还可以从多个关联恶意域名中随机抽样预定数量的域名作为黑域名类别的训练域名，即进行域名抽样。其中，多个关联恶意域名是同一二级域名下的多个子域名。例如，一些属于同一二级域名的多个子域名往往从事一些类似的威胁活动，为了避免同类型域名数据的冗余导致的模型过拟合，可以从这些属于同一二级域名的多个子域名中随机抽取预定数量的域名作为黑域名类别的训练域名。

在步骤S420中，针对训练域名集中的每个训练域名，基于该训练域名对应的特征数据，生成该训练域名的有效特征向量。例如，可以从大数据平台整合每个训练域名对应的特征数据，这些特征数据涉及的数据量是庞大的，甚至多达千亿级，因此，需要从中提取域名检测所需的有效的特征数据。例如，可以通过特征分析与特征工程对每个训练域名的特征数据进行分析、迭代和数值化，以获取其特征向量。在机器学习领域中，特征工程是指对目标知识的特点、特性、模式进行统计、变换、映射等，以将原始数据转变为模型的训练数据的过程，其目的是为了获取更好的训练数据，以使模型的性能更好。经过对特征数据进行分析与迭代之后，用于训练的特征数据可以包括四种类型：域名字符特征、样本关联特征、域名属性特征和网络访问特征，如下表1所示。其中，样本例如是软件、客户端等。在获得训练数据集中的每个训练域名的如表1所示的四类特征数据之后，可以通过对每个训练域名的特征数据进行诸如数值化等的操作来生成该训练域名的特征向量。

表1

然后，例如可以利用上述规则（1）对特征向量进行特征系数检测，以确定特征向量是否稀疏；以及在确定特征向量不稀疏的情况下，确定该特征向量为有效特征向量；在特征向量稀疏的情况下，丢弃该特征向量。

接下来，在步骤S430中，利用训练域名集中的每个训练域名的有效特征向量和安全风险等级类别，对域名分类模型进行训练。可以利用训练域名集中的每个训练域名的已知类别来对域名分类模型有监督训练，例如，对于每个训练域名，可以通过使域名分类模型的分类结果与训练域名的已知类别之间的损失函数最小来对域名分类模型进行有监督训练。

下面参照图5进一步描述本申请一个示例性实施例提供的域名分类模型的训练方法的示例过程500。

如图5所示，在步骤S510中，进行域名收集和域名抽样，以获取训练域名集。例如，可以从开源情报和公知的高广度域名收集具有黑、白、灰不同类别的训练域名集。域名抽样例如是指从多个关联恶意域名中随机抽样预定数量的域名作为黑域名类别的训练域名，其中，多个关联恶意域名是同一二级域名下的多个子域名。例如，如前所述，为了避免同类型域名数据的冗余导致的模型过拟合，可以从属于同一二级域名的多个子域名中随机抽取预定数量的域名作为黑域名类别的训练域名。

在步骤S520中，进行特征数据整合，以获取训练域名集中的每个训练域名的特征数据。训练域名集中的每个训练域名均涉及诸如域名长度、域名字符熵、域名数字数量等等很多特征数据，这些数据例如可以利用诸如海杜普（Hadoop）等的大数据平台进行整理收集，即，进行特征数据整合，以得到训练域名集中的每个训练域名的特征数据。

在步骤S530中，对每个训练域名的特征数据进行特征分析与特征工程，以生成该训练域名的特征向量。如前所述，在机器学习领域中，特征工程是指对目标知识的特点、特性、模式进行统计、变换、映射等，以将原始数据转变为模型的训练数据的过程，其目的是为了获取更好的训练数据，以使模型的性能更好。经过对特征数据进行分析与迭代之后，用于训练的特征数据可以包括四种类型：域名字符特征、样本关联特征、域名属性特征和网络访问特征。然后，可以通过对每个训练域名的特征数据进行诸如数值化等的操作来生成该训练域名的特征向量，并通过特征稀疏检测获得有效特征向量。

在步骤S540中，对域名分类模型进行机器学习训练与域名分类测试。在该示例中，例如可以使用KNN算法、随机森林算法和梯度提升算法进行硬投票（Hard Voting）的建模策略来实现域名分类模型，也就是说，这三种算法均对训练域名集中的每个训练域名进行分类，并分别给出该训练域名为黑域名、白域名或者灰域名的投票结果，得票数高的类别即为该训练域名的类别。例如，对于某个训练域名，如果KNN算法、随机森林算法给出的投票结果为黑域名，而梯度提升算法给出的投票结果为白域名，则确定该训练域名的类别为黑域名；此外，在KNN算法、随机森林算法和梯度提升算法对于某个训练域名分别给出黑域名、白域名和灰域名的投票结果的情况下，则确定该训练域名的类别为灰域名。然后，利用训练域名集中的每个训练域名的有效特征向量和安全风险等级类别，对基于硬投票策略的域名分类模型进行有监督训练。

在该示例中，对训练完成的域名分类模型进行域名分类测试，得到的测试结果中精确率、召回率和综合评价指标F1如下表2所示。以黑域名类别为例，假定域名分类模型将黑域名类别的训练域名分类为黑域名的数量为TB，将灰域名类别和白域名类别的训练域名分类为黑域名的数量为FB，将黑域名类别的训练域名分类为灰域名或白域名的数量为FN，则对于黑域名，其精确率P可以表示为P=TB/(TB+FB)，表示被预测为黑域名类别的训练域名中真正属于黑域名的比例；召回率R可以表示为R=TB/(TB+FN)，表示黑域名类别的训练域名被分类为黑域名的比例；综合评价指标F1可以表示为F1=2*P*R/(P+R)，其综合了精确率和召回率的结果，当某类别的F1较高时表示域名分类模型对于该类别的效果较好。另外，所有被正确分类的训练域名的数量占训练域名总数的比例称为正确率，例如，在表2所示的测试结果中，正确率为0.92933。由表2可知，在该示例中，域名分类模型对于黑域名和白域名类别的效果较好，对于灰域名类别的效果稍次，因此，在利用该域名分类模型进行域名检测时，可以基于该特点，针对性地对不同的分类结果采取相对应的处理，如上文中在步骤S130和S140中所描述的，以使域名检测的结果最优化。

表2

最后，在步骤S550中输出训练后的域名分类模型。训练后的域名分类模型可以用于根据本申请上述实施例的域名检测方法，对输入的待检测域名进行分类，使得能够基于域名分类的结果对域名进行进一步的检测，以得到域名为恶意域名、安全域名、失陷域名等等的域名检测结果。

此外，根据本申请实施例的域名检测方法还可以包括反馈优化的步骤。图6示出了本申请一个示例性实施例提供的具有反馈优化步骤的域名检测方法600的流程图。如图6所示，域名检测方法600可以包括获取待检测域名步骤S610，生成待检测域名的特征向量的步骤S620、对特征向量进行特征稀疏检测的步骤S630、对待检测的域名进行分类的步骤S640、对待检测的域名进行对应处理的步骤S650、以及确定并输出域名检测结果的步骤S660，由于步骤S610至S660与上文结合图1描述的步骤S110至S160的细节相同，因此为了简单起见，这里省略对相同内容的重复描述。

如图6所示，域名检测方法600还可以包括步骤S670，在步骤S670中，进行反馈优化，其中，反馈优化可以针对域名检测方法的整个过程进行，包括对步骤S620至步骤S670等域名检测方法的各个步骤的反馈优化。

根据本申请实施例的示例，可以通过数据调整来对域名检测方法的各个步骤进行反馈优化，数据调整例如是指增/减生成域名特征向量的各类特征数据中的特征，并基于这种增/减对域名检测结果的影响来进一步调整各类特征数据中的特征。例如，如果在生成域名特征向量的特征数据中增加某个特征时，域名检测结果变得更准确，则可以将该影响反馈到域名检测方法的各个步骤中。在此后的域名检测中，可以利用增加了该特征的特征数据来生成特征向量；还可以利用增加了该特征的训练数据来对域名训练模型进行进一步的训练；并且，可以基于进一步训练的域名分类模型的分类结果来进行域名检测，以使域名检测的结果最优。此外，还可以通过诸如误报分析、统计分析、专家经验等对域名检测方法的各个过程进行反馈优化。

以上结合图1-图6描述了根据本申请实施例的域名检测方法，通过生成待检测的域名的特征向量，基于特征向量对待检测的域名进行分类以确定域名的类别，对待检测的域名进行与其类别相对应的处理，并基于处理的结果确定域名的检测结果，能够对域名进行高效、精确的检测。此外，利用基于机器学习的域名检测方法，能够实现对海量的域名数据进行实时、高效、自动的检测，相比于高度依赖于人工鉴定的传统方法，大大提高了检测效率。例如，对于包括海量域名的待检测域名集，利用基于机器学习的域名检测方法对其进行检测，能够快速筛选出其中的恶意域名、失陷域名、安全域名、过期域名等等，为威胁情报的生成提供了自动化的途径，降低了网络安全分析的运营成本。

下面参照图7描述根据本申请实施例的域名检测装置。图7示出了本申请一个示例性实施例提供的域名检测装置700的结构示意图。由于域名检测装置700与上文结合图1描述的域名检测方法100的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。如图7所示，域名检测装置700包括域名获取单元710、特征向量生成单元720、特征稀疏检测单元730、分类单元740、处理单元750和输出单元760。除了这六个单元以外，域名检测装置700还可以包括其他部件，然而，由于这些部件与本申请实施例的内容无关，因此在这里省略其图示和描述。

域名获取单元710，被配置为获取待检测域名。具体地，待检测的域名可以是用户输入以进行检测的域名。例如，待检测的域名可以是大量需要进行检测的域名集中的任意一个域名。

根据本申请实施例的示例，特征向量生成单元720还被配置为：提取待检测的域名的域名字符特征、样本关联特征、域名属性特征和网络访问特征中的至少一部分特征，作为待检测的域名的特征数据；以及利用待检测的域名的特征数据，生成特征向量。域名字符特征例如可以是与域名包含的字符相关联的特征，例如，域名字符熵、域名长度、域名级别、域名数字数量、特征字符数量、字符类型变换次数、最长非顶级域名、数字子域名数量、成词子域名数量等等，或者诸如邮箱前缀等与域名相关的字符特征。样本关联特征例如可以是与包含、访问或传播（例如，下载）域名的样本相关联的特征，其中，样本例如是软件、客户端等。域名属性特征例如可以是域名的统一资源定位符（URL）、互联网协议地址（IP地址）、规范名字（CNAME）或者域名的注册信息，例如注册国别、域名隐私信息（whois信息）、备案信息、注册邮箱关联、注册者关联、注册电话关联等等。网络访问特征例如可以是固定时间内域名被访问的次数的最大值、最小值、方差等等。域名的特征数据例如可以包括域名字符特征、样本关联特征、域名属性特征和网络访问特征中的一部分特征或全部特征。在获取域名的特征数据之后，根据特征数据生成特征向量，例如，可以通过对特征数据进行数值化来生成特征向量。

根据本申请实施例的另一示例，特征向量生成单元720还被配置为：利用图形数据库对域名进行分析，以提取域名的特征向量。图形数据库是基于图形理论存储实体之间的关系信息的数据库，这里，例如，图形数据库可以存储域名与其特征向量之间的对应关系。例如，在存储域名与其特征向量之间的对应关系的图形数据库存在完善的查询机制的情况下，将待检测的域名输入图形数据库，即可实时输出域名的特征向量，这一过程例如可以称为域名实时向量化。在安全分析和运维中，常常需要对遇到的域名进行实时地检测分析，利用图形数据库能够实时地获取域名的特征向量，大大提高域名检测的速度。

在一些情况下，域名的特征向量中可能缺乏域名检测所需的必要信息，例如，如果某个域名在预定时间段内未被访问、被解析且被浏览过，则其特征向量可能缺乏诸如网络访问特征等的必要信息。根据本申请实施例的示例，特征稀疏检测单元730被配置为：确定待检测的域名的特征向量是否稀疏，在确定特征向量不稀疏的情况下，确定该特征向量为有效特征向量；在特征向量稀疏的情况下，丢弃该特征向量，即，不再对该特征向量进行进一步的操作。例如，可以通过如上式（1）所定义的预定规则来判定特征向量是否稀疏。其中，稀疏指示待检测域名在预定时间段内未被访问、被解析且被浏览过，即，该域名的特征向量中缺乏对其进行域名检测所需的必要信息。

分类单元740被配置为基于有效特征向量对待检测的域名进行安全风险等级分类，以确定待检测域名的安全风险等级类别。在本申请中，待检测域名的安全风险等级类别例如可以是黑域名、白域名和灰域名中的一个，其中，黑域名为安全风险较高的域名，白域名为安全风险较低的域名，而灰域名则为安全风险处于黑域名和白域名之间的域名。例如，对于通过传播恶意软件、发送垃圾邮件等方式进行恶意活动的恶意域名，可以将其分类为黑域名，表明其安全风险很高；对于高广度的域名，即被访问的频率满足预定条件的域名，例如，在单位时间内被访问的频率大于一定阈值的域名，可以将其分类为白域名，表明其安全风险较低；对于可疑但其安全风险处于黑域名和白域名之间的域名，可以将其分类为灰域名。例如，在对待检测的域名进行分类时，可以分别计算该域名属于黑域名、白域名和灰域名的概率，并将概率最高的类别作确定为待检测域名的类别。应当理解的是，虽然这里将域名的类别分为黑域名、白域名和灰域名三类，但是本申请不限于此，域名的类别可以包括其他类别，并且可以包括多于或者少于三类。

处理单元750被配置为根据待检测域名的安全风险等级类别，对待检测域名进行网页分类处理或域名风险扫描处理。根据本申请实施例的示例，对待检测域名进行网页分类处理或域名风险扫描处理可以包括：在待检测域名的类别为黑域名或者白域名的情况下，对域名指向的网页进行网页分类处理；以及在待检测域名的类别为灰域名的情况下，根据预定规则对域名进行域名风险扫描处理，并根据扫描结果生成对域名进行鉴定处理的指示。

根据本申请实施例的示例，在待检测域名的类别为黑域名或者白域名的情况下，对域名指向的网页进行网页分类处理可以包括：在网页中包括的指定元素的数量满足预定阈值时，确定该网页为正常网页；在网页中包括的指定元素的数量不满足预定阈值时，确定该网页为非正常网页；以及在网页过期时，确定该网页为过期网页。通常，网页可以包括文字、图片、动画、声音、视频、表格、网页标签等信息，网页中的文字例如又可以包括词汇数、段落数、行数等信息，通过这些信息可以判断网页是否正常。例如，对于某个待检测的域名所指向的网页，可以通过网页中包括的标签的数量是否满足预定阈值来判断该网页是否正常，即指定元素为标签，当标签的数量满足预定阈值时，确定该网页是正常网页；当标签的数量不满足预定阈值时，确定该网页是非正常网页。这里，预定阈值可以根据所选择的网页中的指定元素的不同种类而有所不同。网页分类处理例如可以通过对网页源代码进行建模的网页分类器组件来实现。

根据本申请实施例的示例，在分类单元740确定待检测的域名的类别为黑域名时，则相应地处理单元750对该域名指向的网页进行网页分类处理，此时，基于处理的结果确定域名的检测结果可以包括：在网页为正常网页的情况下，确定该域名为失陷域名；在网页为非正常网页的情况下，确定该域名为恶意域名；以及在网页为过期网页的情况下，确定该域名为过期域名。

例如，如果某个待检测的域名所指向的网页本身是正常网页，但由于中毒、受到黑客攻击、被劫持等而导致域名失陷，使其安全风险较高，则在利用本申请实施例的域名检测装置700对待检测域名进行检测时，该域名会被分类单元740分类为黑域名，随后，输出单元760根据处理单元750的处理结果确定该域名指向的网页为正常网页，从而确定该域名为失陷域名。例如，如果某个待检测的域名为恶意域名，例如高频发送垃圾邮件的恶意域名，其安全风险极高，则在利用本申请实施例的域名检测装置700对待检测域名进行检测时，该域名会被分类单元740分类为黑域名，随后，输出单元760根据处理单元750的处理结果确定该域名指向的网页为非正常网页，从而确定该域名为恶意域名。失陷域名和恶意域名例如可以作为有效的威胁情报来提供，以用于网络安全分析和运维，或者可以作为警示信息提供给用户，以便用户对其采取相应的处理措施。此外，对于某个在过期前具有安全风险的域名，在利用本申请实施例的域名检测装置700对其进行检测时，其会被分类单元740分类为黑域名，但由于其所指向的网页已经无法访问，即，不会再对网络安全构成威胁，最终被输出单元760确定为过期域名。虽然过期域名不作为有效的威胁情报来提供，但也可以作为检测结果信息提供给用户。

根据本申请实施例的示例，在分类单元740确定待检测的域名的类别为白域名时，则相应地处理单元750对该域名指向的网页进行网页分类处理，并且，在网页为正常网页并且该域名的广度满足预定条件的情况下，确定该域名为安全域名，并将该域名加入域名白名单；在网页为过期网页的情况下，确定该域名为过期域名。

例如，对于某个被划分为白域名类别的待检测域名，如果其指向的网页为正常网页，并且其广度满足预定条件，则表明其安全风险非常低，因而可以确定该域名为安全域名，并可以将其加入域名白名单。域名白名单也可以作为有价值的威胁情报来提供，以用于网络安全分析和运维。如果某个待检测域名被划分为白域名类别，并且其指向的网页为正常网页，但其广度不满足预定条件，这种情况下，虽然该域名的安全风险较低，但由于该域名被访问的次数较少，尚不能确定其是否是安全域名，因而不能将其加入域名白名单，可暂时将其确定为普通域名。此外，如果某个待检测域名被划分为白域名类别，但其指向的网页为非正常网页，这种互相矛盾的结果表明域名检测可能发生了错误，此时可以输出指示域名检测可能发生错误的警示信息。同样，对于被分类为白域名的过期域名，由于其网页已经无法访问，虽然不会作为有效的威胁情报来提供，但也可以作为检测结果信息提供给用户。

另外，如果分类单元740确定待检测的域名为灰域名，则处理单元750根据预定规则对该域名进行域名风险扫描处理，并根据扫描结果生成对域名进行鉴定处理的指示。预定规则例如可以是安全专家定义的专家规则。例如，在通过分别计算待检测域名属于黑域名、白域名和灰域名的概率来确定待检测域名的类别的情况下，预定规则例如可以是判断被分类为灰域名的待检测域名属于黑域名的概率是否大于属于白域名的概率，如果判定结果为是，则生成对该域名进行鉴定处理的指示，例如对该域名进行人工鉴定的指示，以进一步判断该域名是恶意域名、安全域名还是过期域名；如果判定结果为否，则可以停止对该域名的检测。

最后，输出单元760输出所确定的待检测域名的检测结果。例如，域名的检测结果可以是过期域名、失陷域名、恶意域名、普通域名、安全域名等等。

此外，根据本申请实施例的示例，分类单元740例如可以利用机器学习中常用的分类算法来实现，例如K最近邻算法（K-Nearest Neighbor，KNN）、随机森林算法（RandomForest）、梯度提升算法（Gradient Boosting）等等。

根据本申请实施例的示例，分类单元740可以通过以下方法进行训练：获取包括不同类别的训练域名的训练域名集，其中每个训练域名的训练数据包括所述训练域名的特征数据和所述训练域名的安全风险等级类别；针对所述训练域名集中的每个训练域名，基于所述训练域名对应的特征数据，生成所述训练域名的有效特征向量；以及利用所述训练域名集中的每个训练域名的有效特征向量和安全风险等级类别，对所述分类单元进行训练。由于分类单元740的训练方法与上文结合图4描述的域名分类模型的训练方法400的细节相同，因此这里为了简单起见，省略对相同内容的详细描述。

此外，根据本申请实施例的示例的域名检测装置700还可以包括反馈优化单元770。反馈优化单元770可以对域名检测装置700的各个单元进行反馈优化，包括对特征向量生成单元720、特征稀疏检测单元730、分类单元740、处理单元750和输出单元760的反馈优化。

根据本申请实施例的示例，反馈优化单元770可以通过数据调整来对域名检测装置700的各个单元进行反馈优化。数据调整例如是指增/减生成域名特征向量的各类特征数据中的特征，并基于这种增/减对域名检测结果的影响来进一步调整各类特征数据中的特征。例如，如果在生成域名特征向量的特征数据中增加某个特征时，域名检测结果变得更准确，则可以将该影响反馈到域名检测装置700的各个单元中。在此后的域名检测中，特征向量生成单元720可以利用增加了该特征的特征数据来生成特征向量；还可以利用增加了该特征的训练数据来对分类单元740进行进一步的训练；处理单元750可以根据进一步训练的分类单元740的分类结果来进行域名检测，以使域名检测的结果最优。此外，反馈优化单元770还可以通过诸如误报分析、统计分析、专家经验等对域名检测装置700的各个单元进行反馈优化。

以上结合图7描述了根据本申请实施例的域名检测装置，通过生成待检测的域名的特征向量，基于特征向量对待检测的域名进行分类以确定域名的类别，对待检测的域名进行与其类别相对应的处理，并基于处理的结果确定域名的检测结果，能够对域名进行高效、精确的检测。此外，利用基于机器学习的域名检测装置，能够实现对海量的域名数据进行实时、高效、自动的检测，相比于高度依赖于人工鉴定的传统方法，大大提高了检测效率。

此外，根据本申请实施例的域名检测方法和域名检测装置还可以对域名的恶意程度进行打分，以辅助网络安全分析员的分析工作。例如，可以根据通过机器学习训练的域名分类模型或者分类单元对某个域名的分类概率来对该域名的恶意程度进行打分。例如，假定域名分类模型确定某个域名属于黑域名类别的概率为0.9，则可以给该域名的恶意程度打90分，表明该域名的恶意程度较高；假定域名分类模型确定某个域名属于黑域名类别的概率为0.3，则可以给该域名的恶意程度打30分，表明该域名的恶意程度较低，等等。

此外，根据本申请实施例的域名检测方法和域名检测装置可以对开源情报进行整体检测和评估，以评估开源情报的质量。在威胁情报的生产过程中，开源情报的评估入库是非常重要的一项内容。对于包括大批量恶意域名的开源情报，可以利用根据本申请实施例的域名检测方法或域名检测装置对开源情报中的恶意域名进行检测，并根据通过机器学习训练的域名分类模型或者分类单元对恶意域名的分类概率来评估其威胁指数。威胁指数例如可以是高、中、低。例如，在对某个恶意域名进行分类时，如果域名分类模型确定其属于黑域名类别的概率大于第一预定阈值；则可以将该恶意域名的威胁指数判定为高，如果确定其属于黑域名类别的概率小于第二预定阈值，则可以将该恶意域名的威胁指数判定为低；如果确定其属于黑域名类别的概率在第一预定阈值和第二预定阈值之间，则可以将该恶意域名的威胁指数判定为中。

此外，根据本申请实施例的域名检测方法和域名检测装置还可以对历史威胁情报进行回扫，以去除情报误报。例如，对于在历史威胁情报中被判定为恶意域名的域名，利用根据本申请实施例的域名检测方法和域名检测装置对其再次进行检测，如果检测出其并非恶意域名，表明该域名被误报，则可以将该域名从威胁情报中剔除。

利用根据本申请上述实施例的域名检测方法或域名检测装置实现域名检测的引擎例如可以称为域名检测引擎（Domain Detection Engine，DDE）。域名检测引擎例如可以用于生成威胁情报，其能够克服对开源情报的依赖，实时地对海量域名进行智能检测；可以实现情报的自动化检测，让隐匿于海量数据中的恶意域名能够被自动检测出来，降低了情报运营的专家人力；能够生成恶意域名、域名白名单、失陷域名等多种情报类型，丰富了整个情报体系。

此外，根据本申请实施例的设备（例如，图像处理设备等）也可以借助于图8所示的示例性计算设备的架构来实现。图8示出了本申请一个示例性实施例提供的示例性计算设备的架构的示意图。如图8所示，计算设备800可以包括总线810、一个或多个CPU 820、只读存储器（ROM）830、随机存取存储器（RAM）840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备，例如ROM 830或硬盘870可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面880。当然，图8所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图8示出的计算设备中的一个或多个组件。

本申请的实施例也可以被实现为计算机可读存储介质。根据本申请实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本申请实施例的域名预测方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。

根据本申请的实施例，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各个实施例中描述的域名检测方法。

本领域技术人员能够理解，本申请所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

此外，本申请中使用了流程图用来说明根据本申请实施例的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作叠加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语（包括技术和科学术语）具有与本申请所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上对本申请进行了详细说明，但对于本领域技术人员而言，显然，本申请并非限定于本说明书中说明的实施方式。本申请在不脱离由权利要求书的记载所确定的本申请的宗旨和范围的前提下，可以作为修改和变更方式来实施。因此，本说明书的记载是以示例说明为目的，对本申请而言并非具有任何限制性的意义。

Claims

1.一种域名检测方法，包括：

获取待检测域名；

对所述待检测域名进行特征向量提取，以生成所述待检测域名的特征向量；

对所述待检测域名的特征向量进行特征稀疏检测，以获得所述待检测域名的有效特征向量；

基于所述有效特征向量，对所述待检测域名进行安全风险等级分类，以确定所述待检测域名的安全风险等级类别，其中，所述安全风险等级类别是黑域名、白域名和灰域名中的一个，黑域名为安全风险高的域名，白域名为安全风险低的域名，灰域名为安全风险处于黑域名和白域名之间的域名；

根据所述待检测域名的安全风险等级类别，对所述待检测域名进行网页分类处理或域名风险扫描处理；以及

基于所述处理的结果确定并输出所述待检测域名的检测结果。

2.根据权利要求1所述的域名检测方法，其中，对所述待检测域名进行特征向量提取，以生成所述待检测域名的特征向量包括：

提取所述待检测域名的域名字符特征、样本关联特征、域名属性特征和网络访问特征中的至少一部分特征，作为所述待检测域名的特征数据；以及

利用所述待检测域名的特征数据，生成所述特征向量。

3.根据权利要求1所述的域名检测方法，其中，对所述待检测域名进行特征向量提取，以生成所述待检测域名的特征向量包括：

利用图形数据库对所述域名进行分析，以提取所述待检测域名的特征向量，

其中，所述图形数据库存储域名与其特征向量的对应关系。

4.根据权利要求1所述的域名检测方法，其中，对所述待检测域名的特征向量进行特征稀疏检测，以获得所述待检测域名的有效特征向量包括：

确定所述待检测域名的特征向量是否稀疏；以及

在确定所述特征向量不稀疏的情况下，确定所述特征向量为有效特征向量；在所述特征向量稀疏的情况下，丢弃所述特征向量，

其中，所述稀疏指示所述待检测域名在预定时间段内未被访问、被解析且被浏览过。

5.根据权利要求1所述的域名检测方法，其中，在所述待检测域名的安全风险等级类别为黑域名或者白域名时，对所述待检测域名指向的网页进行网页分类处理，所述网页分类处理包括：

在所述网页中包括的指定元素的数量满足预定阈值时，确定所述网页为正常网页；

在所述网页中包括的指定元素的数量不满足预定阈值时，确定所述网页为非正常网页；以及

在所述网页过期时，确定所述网页为过期网页。

6.根据权利要求5所述的域名检测方法，其中，在所述待检测域名的安全风险等级类别为黑域名时，基于所述处理的结果确定所述待检测域名的检测结果包括：

在所述网页为正常网页的情况下，确定所述待检测域名为失陷域名；

在所述网页为非正常网页的情况下，确定所述待检测域名为恶意域名；以及

在所述网页为过期网页的情况下，确定所述待检测域名为过期域名。

7.根据权利要求5所述的域名检测方法，其中，在所述待检测域名的安全风险等级类别为白域名时，基于所述处理的结果确定所述待检测域名的检测结果包括：

在所述网页为正常网页并且所述待检测域名的广度满足预定条件的情况下，确定所述待检测域名为安全域名，并将所述待检测域名加入域名白名单；

8.根据权利要求1所述的域名检测方法，其中，在所述待检测域名的安全风险等级类别为灰域名时，对所述待检测域名进行域名风险扫描处理，所述域名风险扫描处理包括：

根据预定规则对所述待检测域名进行域名风险扫描，并根据扫描结果生成对所述待检测域名进行鉴定处理的指示。

9.根据权利要求1所述的域名检测方法，其中，基于所述有效特征向量，对所述待检测域名进行安全风险等级分类，以确定所述待检测域名的安全风险等级类别包括：

基于所述有效特征向量，利用域名分类模型对所述待检测域名进行安全风险等级分类，以确定所述待检测域名的安全风险等级类别，

其中，所述域名分类模型通过以下方法进行训练：

获取包括不同安全风险等级类别的训练域名的训练域名集，其中每个训练域名的训练数据包括所述训练域名的特征数据和所述训练域名的安全风险等级类别；

针对所述训练域名集中的每个训练域名，基于所述训练域名对应的特征数据，生成所述训练域名的有效特征向量；以及

利用所述训练域名集中的每个训练域名的有效特征向量和安全风险等级类别，对所述域名分类模型进行训练。

10.根据权利要求9所述的域名检测方法，其中，所述不同安全风险等级类别包括黑域名、白域名和灰域名，并且其中，所述获取包括不同安全风险等级类别的训练域名的训练域名集包括：

从可疑域名集获取可疑域名，将通过对可疑域名进行鉴定确定的恶意域名作为黑域名类别的训练域名，并且将通过对可疑域名进行鉴定确定的非恶意域名作为灰域名类别的训练域名；

获取高广度域名，作为白域名类别的训练域名，其中，所述高广度域名为被访问的频率满足预定条件的域名。

11.根据权利要求10所述的域名检测方法，其中，所述获取包括不同安全风险等级类别的训练域名的训练域名集还包括：

从多个关联恶意域名中随机抽样预定数量的域名作为黑域名类别的训练域名，

其中，多个关联恶意域名是同一二级域名下的多个子域名。

12.根据权利要求9所述的域名检测方法，其中，所述特征数据包括所述训练域名的域名字符特征、样本关联特征、域名属性特征和网络访问特征中的至少一部分。

13.一种域名检测设备，包括：

一个或多个处理器；和

一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行如权利要求1至12中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述的方法。