CN113315851A

CN113315851A - 域名检测方法、装置及存储介质

Info

Publication number: CN113315851A
Application number: CN202110442723.7A
Authority: CN
Inventors: 濮灿; 陈松; 吴诗伟; 马华强; 秦文聪
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-08-27

Abstract

本申请提供了一种域名检测方法、装置及存储介质，其中，方法包括：获取待检测的目标网络环境中的第一域名集合；对所述第一域名集合进行特征提取，生成各所述第一域名对应的特征向量；根据仿生算法对各所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名。本申请提供的域名检测方法，解决了当前的域名检测方法无法准确地检测出域名生成算法生成的恶意域名，从而无法及时地对恶意域名进行预警的问题。

Description

域名检测方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种域名检测方法、装置及存储介质。

背景技术

在网络安全领域，攻击者常常会使用域名将恶意程序连接至远程命令和控制服务器，从而达到操控受害者机器的目的。攻击者可以使用域名生成算法(Domain GenerationAlgorithm，DGA)生成大量伪随机或看似具备某种规律的域名，这些域名通常会被编码在恶意软件中。相比于硬编码的域名，DGA域名可以有效避开黑名单列表的检测，因此现有的域名检测方法无法准确地检测出DGA域名，从而无法DGA恶意域名准确地进行预警。

发明内容

本申请实施例提供了一种域名检测方法，解决了当前的域名检测方法无法准确地检测出域名生成算法生成的恶意域名，从而无法及时地对恶意域名进行预警的问题。

为解决以上技术问题，本申请包括以下技术方案：

第一方面，本申请实施例提供了一种域名检测方法，所述方法包括：

获取待检测的目标网络环境中的第一域名集合；

对所述第一域名集合进行特征提取，生成各所述第一域名对应的特征向量；

根据仿生算法对各所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名。

在一种可能的实现方式中，所述对所述第一域名集合进行特征提取之前，还包括：

对所述第一域名集合进行处理，去除不符合预设条件的域名，得到第二域名集合；所述不符合预设条件包括以下至少一项：域名数据字符错误、域名数据字符丢失、域名数据不符合预设类型；

所述对所述第一域名集合进行特征提取，生成各所述第一域名对应的特征向量，包括：

对所述第二域名集合进行特征提取，生成各所述第二域名对应的特征向量。

本申请提供的域名检测方法，首先获取待检测的目标环境中的域名数据，再对原始域名数据进行预处理，剔除一些不符合要求的数据，对处理后的域名数据进行特征提取，并获取每一个域名对应的特征向量，采用遗传算法对特征向量进行优选，选出最佳特征向量，再利用最佳特征向量构造人工蜂群，获取恶意域名中心位置，最后对其进行聚类，确定原始域名数据中哪些数据为异常域名数据，解决了现有的检测方法中无法检测由DGA生成的异常域名的问题。

在一种可能的实现方式中，所述对所述第二域名集合进行特征提取，生成各所述第二域名对应的特征向量，包括：

对所述第二域名集合进行特征提取，提取所述第二域名集合中各第二域名分别对应的域名数据特征；所述域名数据特征包括以下至少一项：响应报文特征、解析记录留存时间特征、域名字符特征；

根据所述第二域名集合中各第二域名分别对应的域名数据特征确定各所述第二域名分别对应的域名特征向量；

获取各所述第二域名分别对应的域名特征向量中的特征向量。

本申请实施例中，在第一域名进行特征提取之前，首先去除不符合预设条件的域名，得到第二域名集合，再对第二域名集合进行特征提取，生成与每一个第二域名对应的域名特征向量。其中，预处理去除不符合预设条件的域名有助于提高后续通过算法对域名进行识别处理的效率，也为后续仿生算法提供了检测基础。

在一种可能的实现方式中，所述根据仿生算法对所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名，包括：

基于人工蜂群算法，根据所述特征向量确定目标域名集群；

基于聚类算法对所述目标域名集群进行聚类，确定所述第一域名集合中各所述第一域名是否为异常域名。

本申请实施例中，首先对第二域名集合进行特征提取，具体是提取第二域名集合中各第二域名对应的域名数据特征，再根据域名数据的多项特征确定每一个域名对应的域名特征向量，再从域名特征向量中选择最佳的域名特征向量，由于选出的最佳域名特征向量是用于构造人工蜂群，因此上述提取最佳特征向量的方法为后续采用仿生算法检测创造了条件。

在一种可能的实现方式中，所述基于聚类算法对所述目标域名集群进行聚类，确定所述第一域名集合中各所述第一域名是否为异常域名，包括：

基于聚类算法，对所述目标域名集群进行域名特征聚类，得到域名特征分组结果；

根据所述域名特征分组结果确定所述第一域名集合中各所述第一域名是否为异常域名。

在本申请实施例中，具体是利用人工蜂群算法以及聚类算法对域名特征向量进行识别处理，首先基于人工蜂群算法，根据获取的最佳特征向量确定目标域名集群，再对目标域名集群采用聚类算法进行分类，从而确定第一域名集合中哪些域名为异常域名。采用人工蜂群算法和聚类算法的目的是为了确定鉴别域名，从而解决了本方案解决的问题。

在一种可能的实现方式中，所述获取待检测的目标网络环境中的第一域名集合之后，还包括：

将所述第一域名集合中各第一域名的原始数据转换成键值对数据；

对所述键值对数据进行数据集成。

在本申请实施例中，获取目标环境中域名集合后，首先将第一域名集合中的原始域名数据转换成键值对数据，再对键值对数据进行数据集成，便于后续对原始数据进行预处理，去除不满足预设条件的域名数据，提高了后续采用算法检测域名的效率。

第二方面，本申请实施例提供了一种域名检测装置，所述装置包括：

获取模块，用于获取待检测的目标网络环境中的第一域名集合；

第一处理模块，用于对所述第一域名集合进行特征提取，生成各所述第一域名对应的特征向量；

第二处理模块，用于根据仿生算法对各所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名。

在一种可能的实现方式中，所述装置还包括：

第三处理模块，用于在所述第一处理模块对所述第一域名集合进行特征提取之前，对所述第一域名集合进行处理，去除不符合预设条件的域名，得到第二域名集合；所述不符合预设条件包括以下至少一项：域名数据字符错误、域名数据字符丢失、域名数据不符合预设类型；

所述第一处理模块具体用于：

在一种可能的实现方式中，所述第一处理模块包括：

第一获取单元，用于对所述第二域名集合进行特征提取，提取所述第二域名集合中各第二域名分别对应的域名数据特征；所述域名数据特征包括以下至少一项：响应报文特征、解析记录留存时间特征、域名特征；

第二获取单元，用于根据所述第二域名集合中各第二域名分别对应的域名数据特征确定各所述第二域名分别对应的域名特征向量；

第三获取单元，用于获取各所述第二域名分别对应的域名特征向量中的特征向量。

在一种可能的实现方式中，所述第二处理模块包括：

第一确定单元，用于基于人工蜂群算法，根据所述特征向量确定目标域名集群；

第二确定单元，用于基于聚类算法对所述目标域名集群进行聚类，确定所述第一域名集合中各所述第一域名是否为异常域名。

在一种可能的实现方式中，所述第二确定单元具体用于：

在一种可能的实现方式中，所述装置还包括：

转换模块，用于在所述获取模块获取待检测的目标网络环境中的第一域名集合之后，将所述第一域名集合中各第一域名的原始数据转换成键值对数据；

集成模块，用于对所述键值对数据进行数据集成。

第三方面，本申请实施例提供了另一种域名检测装置，所述域名检测装置包括处理器、存储器以及通信接口：

所述处理器与所述存储器、所述通信接口相连；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行：

获取待检测的目标网络环境中的第一域名集合；

在一种可能的实现方式中，所述处理器对所述第一域名集合进行特征提取之前，还用于执行：

所述处理器对所述第一域名集合进行特征提取，生成各所述第一域名对应的特征向量，具体执行：

在一种可能的实现方式中，所述处理器对所述第二域名集合进行特征提取，生成各所述第二域名对应的特征向量，具体执行：

对所述第二域名集合进行特征提取，提取所述第二域名集合中各第二域名分别对应的域名数据特征；所述域名数据特征包括以下至少一项：响应报文特征、解析记录留存时间特征、域名特征；

在一种可能的实现方式中，所述处理器根据仿生算法对所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名，具体执行：

基于人工蜂群算法，根据所述特征向量确定目标域名集群；

在一种可能的实现方式中，所述处理器基于聚类算法对所述目标域名集群进行聚类，确定所述第一域名集合中各所述第一域名是否为异常域名，具体执行：

在一种可能的实现方式中，所述处理器获取待检测的目标网络环境中的第一域名集合之后，还用于执行：

对所述键值对数据进行数据集成。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上述第一方面或第一方面的任一种可能的实现方式提供的域名检测方法。

可以理解地，上述提供的第二方面提供的域名检测装置、第三方面提供的域名检测装置以及第四方面提供的计算机可读存储介质均用于执行第一方面所提供的域名检测方法。因此，其所能达到的有益效果可参考第一方面所提供的域名检测方法中的有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种域名检测方法的运用场景示意图；

图2是本申请实施例提供的一种域名检测方法的流程示意图；

图3是本申请实施例提供的一种域名检测方法的主要过程的示意图；

图4是本申请实施例提供的另一种域名检测方法的流程示意图；

图5是本申请实施例提供的一种域名检测装置示意图；

图6是本申请实施例提供的另一种域名检测装置示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面将结合附图对本申请的具体实施方式做详细说明。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

请参考图1所示，图1是本申请实施例提供的一种域名检测方法的运用场景示意图。该运用场景包括电子设备10和网络。

电子设备10可以包括但不限于是服务器、智能手机、个人计算机、笔记本电脑、智能平板电脑和便捷式可穿戴设备等。电子设备10具有灵活的接入方式和高带宽通信性能，有多种通信方式，可以包括但不限于通过GSM、码分多址(Code Division MultipleAccess，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，W-CDMA)等多种无线运营网通讯，也可以通过无线局域网、蓝牙和红外进行通信。在本申请实施例中，电子设备10可以连接网络并进行数据通信，电子设备10包含数据采集模块，数据采集模块可以对该电子设备所处的网络环境中的域名数据流进行检测并采集。数据采集模块的采集域名数据流的方式可以包括但不限于是：通过监听网络环境中该电子设备的网卡来获取域名数据流，且采集操作存在于任何时刻和任何情况下。

网络可以是在第一终端集群中任意一个电子设备10可以通过连接通信网络而实现上网功能，该网络可以是通信链路的介质，也可以是包含网络设备和传输介质的互联网，不限于此。本申请可以使用第五代移动通信技术(5th generation mobile networks，5G)，也可以使用第四代移动通信技术(the 4th generation mobile networks，4G)、第三代移动通信技术(3th generation mobile networks，3G)和第二代移动通信技术(2-Generation wireless telephone technology，2G)，不限于此。传输介质可以是有线链路(例如但不限于是同轴电缆、光纤和数字用户线路(digital subscriber line，DSL)等)或无线链路(例如但不限于，无线上网(wireless fidelity，WIFI)、蓝牙和移动设备网络等)。

接下来将全部结合图1示出的域名检测系统介绍本申请实施例提供的域名检测方法。

请参考图2所示，图2是本申请实施例中的一种域名检测方法的流程示意图，所述方法包括：

S201、获取待检测的目标网络环境中的第一域名集合。

具体地，电子设备内部设置有数据采集模块，由数据采集模块采集电子设备所处的网络环境中产生的第一域名集合。其中，目标网络环境可以包括但不限于是电子设备所处的网络环境，其具体获取域名数据的方式可以包括但不限于是通过数据采集模块监听网络环境中电子设备及电子设备的网卡，来获取域名数据。电子设备内部的数据采集模块对域名数据的采集是存在于任何时刻和任何情况下，处于同一网络环境中产生的任何域名数据，均能被数据采集模块采集。第一域名集合即为电子设备采集的未被处理过的原始域名数据。

进一步地，电子设备在获取待检测的目标网络环境中的第一域名集合之后，还包括：将所述第一域名集合中各第一域名的原始数据转换成键值对数据，对所述键值对数据进行数据集成。电子设备从网络环境中获取原始的第一域名集合之后，首先利用Hadoop将第一域名集合中所有的域名转换成键值对，然后将转换后的以键值对形式呈现的第一域名集合中所有域名存入分布式文件系统(Hadoop Distributed File System，HDFS)，便于后续对第一域名集合进行预处理。其中，对于键值对，举例来说，可以为形如“key：value”的形式，即一个键对应一个值。在本申请实施例中即为，将第一域名集合中所有的域名转换成形如“key：value”形式的键值对。

S202、对所述第一域名集合进行特征提取，生成各所述第一域名对应的特征向量。

具体地，电子设备对第一域名集合中的域名进行特征提取，提取每一个域名的域名数据特征，再根据每一个域名的域名数据特征生成各自对应的特征向量。

进一步地，电子设备对第一域名集合进行特征提取之前，首先对第一域名集合进行处理，去除不符合条件的域名，得到第二域名集合；再对第二域名集合进行特征提取，生成各第二域名对应的特征向量。其中，不符合预设条件包括以下至少一项：域名数据字符错误、域名数据字符丢失、域名数据不符合预设类型；

进一步地，对第二域名集合进行特征提取，生成各第二域名对应的特征向量，包括：对第二域名集合进行特征提取，提取第二域名集合中各第二域名分别对应的域名数据特征，根据第二域名集合中各第二域名分别对应的域名数据特征确定各第二域名分别对应的域名特征向量，获取各个第二域名分别对应的域名特征向量中的特征向量。域名数据特征包括以下至少一项：响应报文特征、解析记录留存时间特征、域名字符特征。其中，响应报文特征具体为DNS响应报文(DomainName System，DNS)，响应报文特征的特征值包含：报文中请求域名与返回IP对应关系的稳定性，稳定性用信息熵表示，熵越大表明越不稳定。解析记录留存时间特征具体为DNS解析记录留存时间。域名字符特征具体为：每一个域名的字符中元音字母在域名字符串中的个数占比、字母与数字去重后域名长度的比例、域名与DGA黑名单中域名的相似系数、域名的查询解析次数。需要说明的是，域名字符特征包含的内容不限于是上述提到的内容，在实际应用中，可根据域名检测需要根据用户的设置适当提取。

具体地，电子设备获取预处理后的第二域名集合，对第二域名集合中的域名进行特征提取。其中，特征提取是一个降维过程，进行特征提取后，第二域名集合中各域名会被简化为更易于处理的多个特征，同时还保持了准确且完整的原始数据集。举例来说，若给定一个域名u∈U，其中U表示任何有效域名字符串的域，特征表示的目的是找到一个映射g：其中g→R^d，使得g(U)→X，其中，X∈R^d是d维特征向量，最终可将其输入到机器学习模型中。

进一步地，在对第二域名集合中的域名进行特征提取后，利用遗传算法对提取的特征向量进行优选，可以将优化结果描述为形如(R，Q，T，F)的四元组形式，该四元组中的T即为所求的特征向量，需要说明的是，本申请实施例对遗传算法的选用不做限定。其中，R指的是解空间，其初始形式是n×16的矩阵，该矩阵填充了每个域名对应16个特征向量的组合，n表示域名样本的数量。每个bit位都表示为一个基因，0和1表示基因载体中特征的缺失和存在。每个特征向量都表示为一条染色体。Q指的是杂交过程中进行选择、交叉和变异的方式。T是新种群。F是适应性函数，即目标函数，适应性函数是根据准确度Acc值计算得出的。其中求解Acc的公式为：Acc＝(正确识别的恶意域名数+正确识别的正常域名数)/(正常域名数+恶意域名数)。

S203、根据仿生算法对各所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名。

具体地，电子设备在对第二域名集合中的域名数据进行特征提取后，根据仿生算法对各特征向量进行识别处理，确定第一域名集合中各第一域名是否为异常域名，具体是确定第二域名集合中各第二域名是否为异常域名。其中，仿生算法包括人工蜂群算法和聚类算法。

进一步地，电子设备根据仿生算法对各所述特征向量进行识别处理，具体为：基于人工蜂群算法，根据所述特征向量确定目标域名集群；基于聚类算法对所述目标域名集群进行聚类，确定所述第一域名集合中各所述第一域名是否为异常域名。

具体地，基于人工蜂群算法，根据特征向量确定目标域名集群，具体方法可以包括：

第一步：首先设置引领蜂、跟随蜂、侦查蜂的数量、最大迭代次数MCN、控制参数Limit、当前迭代次数Cycle、聚类类别数k。其中，在实际应用中，一般情况下可以设置引领蜂数量等于跟随蜂数量，当前迭代次数设置初始值等于1。上述参数设置完成后，利用上述遗传算法得到的特征向量构造初始化蜂群，从而可以产生Z₁，Z₂，Z₃，…，Z_n等多个初始蜂群。

第二步：对初始蜂群进行划分，根据公式，适应度＝正确识别恶意域名数/(正确识别恶意域名数+错误识别恶意域名数)，计算每只蜜蜂的适应度，按照适应度大小排序，将前一半作为引领蜜蜂，后一半作为跟随蜂。

第三步：在搜索开始阶段，每个引领蜂可根据以下公式产生一个新解，即新食物源：

其中，V_ij表示在x_ij附近产生一个新的位置；k，m∈{1,2，…，N}，k，m和j都是通过随机产生的随机数；k、m互斥且都不等于i；r_ij∈[-1,1]；

且为其中的一个随机数；x_best,j代表丰富度最高的食物源。

引领蜂根据上述公式对目标领域进行搜索，得到新的位置，按照贪婪选择原则，如果新的位置的适应度更新原位置，否则，保持原位置不变，当所有引领蜂完成领域搜索之后，采用以下公式计算概率P_i：

其中，i＝1，2，···，N；fitness_i为第i个解的适应值对应蜜源的丰富程度，蜜源越丰富，被观察蜂选择的概率就越大。

第四步：跟随蜂根据计算得到的概率P_i，再结合轮盘赌原则选择引领蜂，原则上，P_i越大，表明引领蜂i的适应度越大，被跟随蜂选中的概率。当跟随蜂完成引领蜂选择后，同样对领域进行搜索，按照贪婪选择原则选择适应度高的位置。

第五步：在所有跟随蜂完成搜索后，得到目标位置，目标位置即为本申请中的目标域名集群，该目标域名集群将作为聚类算法的中心，对域名数据进行聚类。其中，目标位置可以包含多个，本申请实施例对目标位置的个数不做限定。

第六步：如果某引领蜂在Limit次迭代后，结果都没有改变，则由引领蜂变为侦查蜂，并随机产生一个新的位置取代原位置。

第七步：如果当前迭代次数大于最大次数MCN，则迭代结束，算法结束；否则转向步骤2，Cycle＝Cycle+1。

进一步地，得到目标基于聚类算法对所述目标域名集群进行聚类，确定所述第一域名集合中各所述第一域名是否为异常域名。其中，聚类算法可以采用K-means聚类算法，需要说明是，本申请实施例对聚类算法的类型不做限定。本申请实施例中以K-means聚类算法为例对目标域名集群进行聚类，具体方法可以包括：对目标域名集群进行聚类，包括对域名字符特征和访问行为特征进行聚类。

具体地，对域名字符特征进行聚类，具体包括：提取二级域长度、二级域名中数字占比、二级域名熵、全域名熵、域名级别个数等域名字符特征，将提取后的域名字符特征组成域名字符特征向量；利用K-means聚类算法对域名字符特征向量进行聚类分析。其中，二级域长度是指顶级域的下一级别的域名的长度，二级域名中数字占比是指一条域名中数字的个数占这条域名包含的字符总个数的比例；二级域名熵是指二级域名所包含的字符的随机程度；全域名熵是指全域名所包含字符的随机程度，全域名是指同时包含主机名和域名的名称；域名级别个数即为该域名的包含的级别的数值，举例来说，“www.xxx.cn”的域名级别个数为3，“xxx.cn”的域名级别个数为2。其中，计算熵可以采用以下公式：

其中，p_i表示给定字符在域名中出现的概率。

示例性地，若某个域名为www.snhgc12.cn，根据上述K-means聚类算法对该域名的域名字符特征进行聚类。其中，该域名中二级域名为“snhgc12”，包含了7个字符，因此，该域名的二级域名长度为7。对于二级域名中数字占比，该二级域名中包含数字1和2，因此数字占比为数字个数除以二级域名长度，即为2/7。对于二级域名熵和全域名熵，假设根据上述公式求得二者分别为0.1，0.4。对于域名级别个数，根据上述域名特征可知，该域名级别个数为3。因此通过聚类算法可以得到该域名的域名特征向量为(7，2/7，0.1，0.4，3)。

具体地，对访问行为特征进行聚类，实质是对时间序列特征进行聚类，时间序列是访问行为的具体体现，对时间序列特征具体的聚类方法包括：通过以小时为周期对每个域名的访问量进行统计，得到每天的域名访问序列，对域名访问序列聚类，从而分析域名访问模式；再对时间序列进行特征提取，得到访问总量、均值、方差、有访问量的时间点数、访问量最大值、最大值时间点；最后利用K-means聚类算法对提取的时间序列特征进行聚类分析。其中，域名访问序列是指以时间顺序排列的域名访问列表；域名访问模式是指域名被访问的时间段、访问频率、确定发起访问端；有访问量的时间点是指域名被访问的时间点的数量，该特征体现在统计时间段内被访问的时间分布和频率。

进一步地，采用聚类算法对目标域名集群进行域名特征聚类，得到域名特征分组结果，再根据域名特征分组结果确定第一域名集合中各第一域名是否为异常域名。其中，对目标域名集群进行聚类输出的结果是以分组形式呈现，即对域名分别进行域名字符特征分组和访问行为特征分组，若某一个域名集合，其子集中全部或大部分都在同一个字符特征分组中，并且也在同一个访问行为特征分组中，则判定这个子集中的域名极大概率是异常域名。其中，域名集合中在同一个字符特征分组和访问行为特征分组的子集包含的域名个数占该域名集合总域名个数的比值可以由用户自行设置，大于该比值时，则认为这个子集中的域名为异常域名。

请参考图3所示，图3出示了本申请实施例中的域名检测方法的主要过程的示意图。首先电子设备获取原始域名数据后，进入第一个数据库阶段，数据库阶段主要作用是对原始域名数据进行预处理，并提取各原始域名数据对应的特征，具体可以采用Hadoop及HDFS对原始域名数据进行预处理，去除不符合预设条件的域名数据，并提取原始数据的特征，组成域名特征向量。第一个阶段完成后，进入第二个机器学习阶段，其中，机器学习阶段包含两部分内容，第一步，先通过遗传算法对原始域名特征向量进行优选，选择出最佳特征向量；第二步，利用选出的最佳特征向量构造人工蜂群，再将得到的位置作为聚类中心，对域名数据进行聚类，最终根据聚类结果确定原始域名数据中各域名是否为异常域名。

请参考图4所示，图4是本申请实施例中的另一种域名检测方法的流程示意图，所述方法包括：

S401、电子设备获取待检测的目标网络环境中的第一域名集合。

S402、电子设备对第一域名集合中各第一域名的原始数据转换成键值对数据，对键值对数据进行数据集成。

具体地，电子设备在去除不符合条件的域名后，对第一域名集合中的各原始域名数据转换成键值对数据，再对键值对数据进行数据集成。其中，键值对数据相关具体内容及数据集成具体内容请参考上述实施例，本实施例不再赘述。

S403、电子设备对第二域名进行处理，去除不符合预设条件的域名，得到第二域名。

具体地，电子设备对第二域名集合进行处理，去除不符合条件的域名，得到第二域名集合。其中，处理的具体内容包括：对第二域名集合中的域名进行数据清理，具体清理的数据请参考上述实施例，本实施例不再赘述。

S404、电子设备对第二域名集合进行特征提取，提取二域名集合中各第二域名分别对应的域名数据特征。

具体地，电子设备对第二域名集合进行特征提取，提取第二域名集合中每一个第二域名分别对应的域名数据特征。其中，域名数据特征包含的内容请参考上述实施例，本实施例不再赘述。

S405、电子设备根据第二域名集合中各第二域名分别对应的域名数据特征确定各第二域名分别对应的域名特征向量。

具体地，电子设备根据第二域名集合中各第二域名分别对应的域名数据特征确定各第二域名分别对应的域名特征向量。其中，具体组成域名特征向量的方式请参考上述实施例，本实施例不再赘述。

S406、电子设备对第二域名集合中各第二域名分别对应的域名特征向量进行筛选，确定所需的特征向量。

具体地，电子设备在确定第二域名集合中各第二域名分别对应的域名数据特征后，利用遗传算法对提取的特征进行优选，优选的结果可以表现为四元组形式，即(R，Q，T，F)，该四元组中的T即为本申请所需的特征向量。需要说明的是，本申请对所采用的遗传算法不做限定。

S407、电子设备基于人工蜂群算法，根据特征向量确定目标域名集群。

具体地，电子设备基于人工蜂群算法，根据特征向量确定目标域名集群。其中，目标域名集群的中心将作为聚类的中心，具体的确定目标域名集群的方法请参考上述实施例，本实施例不再赘述。

S408、电子设备基于聚类算法对目标域名集群进行聚类，确定第二域名集合中各第二域名是否为异常域名。

具体地，电子设备确定目标域名集群后，将其作为聚类的中心，基于聚类算法对目标域名集群进行聚类，确定第二域名集合中各第二域名是否为异常域名。其中，具体的聚类方法请参考上述实施例，本实施例不再赘述。

本申请实施例提供的域名检测方法，通过获取目标网络环境中的域名数据，首先将第一域名集合数据转换成键值对，再将键值对数据存入HDFS，再对数据进行预处理，去除不符合预设条件的域名，得到第二域名集合，对第二域名集合进行特征提取，获取各第二域名对应的特征向量，再运用遗传算法筛选出目标特征向量，利用该目标特征向量构造人工蜂群，将得到的目标域名集群的位置作为聚类算法的中心，最后对第二域名数据进行聚类，最终根据聚类的分组结果确定第二集合中各第二域名是否为异常域名。

请参考图5所示，基于域名检测方法，图5是本申请实施例提供的一种域名检测装置示意图，包括：

获取模块501，用于获取待检测的目标网络环境中的第一域名集合；

第一处理模块502，用于对所述第一域名集合进行特征提取，生成各所述第一域名对应的特征向量；

第二处理模块503，用于根据仿生算法对各所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名。

在一些实施例中，所述装置还包括：

所述第一处理模块502具体用于：

在一些实施例中，所述第一处理模块502包括：

第一获取单元，用于对所述第二域名集合进行特征提取，提取所述第二域名集合中各第二域名分别对应的域名数据特征；所述域名数据特征包括以下至少一项：响应报文特征、解析记录留存时间特征、域名字符特征；

在一些实施例中，所述第二处理模块503包括：

在一些实施例中，所述第二确定单元具体用于：

在一些实施例中，所述装置还包括：

集成模块，用于对所述键值对数据进行数据集成。

请参考图6所示，本申请实施例中提供的另一种域名检测装置600的结构示意图。该域名检测装置600至少可以包括：至少一个处理器601，例如CPU，至少一个网络接口604，用户接口603，存储器605，至少一个通信总线602。其中，通信总线602用于实现这些组件之间的连接通信。用户接口603可以包括但不限于是显示器、摄像头、触摸屏、键盘、鼠标、摇杆等等。网络接口604可选的可以包括标准的有线接口、无线接口(如WIFI接口)，通过网络接口604可以与服务器建立通信连接。存储器602可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。如图6所示，作为一种计算机存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

需要说明的是，网络接口604可以连接获取器、发射器或其他通信模块，其他通信模块可以包括但不限于WiFi模块、运营商网络通信模块等，可以理解，本申请实施例中域名检测装置也可以包括获取器、发射器和其他通信模块等。

处理器601可以用于调用存储器605中存储的程序指令，可以执行以下方法：

获取待检测的目标网络环境中的第一域名集合；

可能地，所述处理器601对所述第一域名集合进行特征提取之前，还用于执行：

所述处理器601对所述第一域名集合进行特征提取，生成各所述第一域名对应的特征向量，具体执行：

可能地，所述处理器601对所述第二域名集合进行特征提取，生成各所述第二域名对应的特征向量，具体执行：

可能地，所述处理器601根据仿生算法对所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名，具体执行：

基于人工蜂群算法，根据所述特征向量确定目标域名集群；

可能地，所述处理器601基于聚类算法对所述目标域名集群进行聚类，确定所述第一域名集合中各所述第一域名是否为异常域名，具体执行：

可能地，所述处理器601获取待检测的目标网络环境中的第一域名集合之后，还用于执行：

对所述键值对数据进行数据集成。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。上述域名检测装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在所述计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital SubscriberLine，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(Digital Video Disc，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下，本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本申请的优选实施例方式进行描述，并非对本申请的范围进行限定，在不脱离本申请的设计精神的前提下，本领域普通技术人员对本申请的技术方案作出的各种变形及改进，均应落入本申请的权利要求书确定的保护范围内。

Claims

1.一种域名检测方法，其特征在于，所述方法包括：

获取待检测的目标网络环境中的第一域名集合；

2.如权利要求1所述的方法，其特征在于，所述对所述第一域名集合进行特征提取之前，还包括：

3.如权利要求2所述的方法，其特征在于，所述对所述第二域名集合进行特征提取，生成各所述第二域名对应的特征向量，包括：

4.如权利要求1所述的方法，其特征在于，所述根据仿生算法对所述特征向量进行识别处理，确定所述第一域名集合中各所述第一域名是否为异常域名，包括：

基于人工蜂群算法，根据所述特征向量确定目标域名集群；

5.如权利要求4所述的方法，其特征在于，所述基于聚类算法对所述目标域名集群进行聚类，确定所述第一域名集合中各所述第一域名是否为异常域名，包括：

6.如权利要求1所述的方法，其特征在于，所述获取待检测的目标网络环境中的第一域名集合之后，还包括：

对所述键值对数据进行数据集成。

7.一种域名检测装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

所述第一处理模块具体用于：

9.一种域名检测装置，其特征在于，包括处理器、存储器以及通信接口：

所述处理器与所述存储器、所述通信接口相连；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-6任一项所述的域名检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的域名检测方法。