CN109450886A

CN109450886A - 一种域名识别方法、系统及电子设备和存储介质

Info

Publication number: CN109450886A
Application number: CN201811277414.3A
Authority: CN
Inventors: 高杨; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: DBAPPSecurity Co Ltd; Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-03-08

Abstract

本申请公开了一种域名识别方法、系统及一种电子设备和计算机可读存储介质，该方法包括：确定待识别域名，并判断所述待识别域名是否匹配到域名黑名单，得到第一识别结果；对所述待识别域名进行行为统计，并根据统计结果得到第二识别结果；提取所述待识别域名的文本特征，并将所述文本特征输入训练完成的分类模型中，得到第三识别结果；根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果得到所述待识别域名的最终域名识别结果。由此可见，本申请提供的域名检测方法利用域名黑名单、行为统计和文本特征三个维度识别DGA域名，检测结果更加准确。

Description

一种域名识别方法、系统及电子设备和存储介质

技术领域

本申请涉及通信技术领域，更具体地说，涉及一种域名识别方法、系统及一种电子设备和一种计算机可读存储介质。

背景技术

随着互联网技术的不断发展，网络已经融入了人们生活的方方面面。然而，黑客入侵作为互联网技术发展的衍生物，也变得无孔不入，日益严峻地威胁着网络安全。另外，越来越多的恶意程序开始使用特定的域名生成(英文全称：Domain Generation Algorithm，英文简称：DGA)算法生成域名。由于现有技术中基于黑名单的域名检测方法无法识别使用DGA算法生成的域名，而使用DGA算法生成域名的速度较高，每天可以自动生成超过50,000个随机的域名。

对于DGA域名的检测，现有技术提供了一种基于黑名单的域名检测方法，其中，黑名单中存储DGA域名，当用户通过终端所访问的域名与黑名单中的域名匹配时，该域名为DGA域名。上述方法只能识别已知恶意的DGA信息，对于黑名单内缺失域名变化没有任何感知，DGA域名检测的准确率较低。

因此，如何提高DGA域名检测的准确率是本领域技术人员需要解决的问题。

发明内容

本申请的目的在于提供一种域名识别方法、系统及一种电子设备和一种计算机可读存储介质，提高了DGA域名检测的准确率。

为实现上述目的，本申请提供了一种域名识别方法，包括：

确定待识别域名，并判断所述待识别域名是否匹配到域名黑名单，得到第一识别结果；

对所述待识别域名进行行为统计，并根据统计结果得到第二识别结果；

提取所述待识别域名的文本特征，并将所述文本特征输入训练完成的分类模型中，得到第三识别结果；

根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果得到所述待识别域名的最终域名识别结果。

其中，所述判断所述待识别域名是否匹配到域名黑名单，得到第一识别结果，包括：

判断所述域名黑名单中是否存在所述待识别域名，和/或所述待识别域名的服务器IP和/或DNS处理结果，得到所述第一识别结果。

其中，对所述待识别域名进行行为统计，并根据统计结果得到第二识别结果，包括：

判断单次攻击或单位时间段内的攻击请求域名数量是否达到预设值，并根据判断结果得到所述第二识别结果。

其中，所述根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果得到所述待识别域名的最终域名识别结果，包括：

根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果计算综合权重；

判断所述综合权重是否大于预设值；

若是，则所述待识别域名为DGA域名。

其中，所述根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果计算综合权重，包括：

根据权重计算公式计算所述综合权重；其中，所述权重计算公式为：

w＝x*p₁+y*p₂+z*p₃；

其中，w为所述综合权重，x为所述第一识别结果，p₁为所述权重分配规则中所述第一识别结果对应的权重值，y为所述第二识别结果，p₂为所述权重分配规则中所述第二识别结果对应的权重值，z为所述第三识别结果，p₃为所述权重分配规则中所述第三识别结果对应的权重值。

其中，还包括：

获取训练域名集，提取所述训练域名集中的每个训练样本的文本特征，并确定每个所述训练样本的域名识别结果；

利用所述文本特征和所述域名识别结果训练分类模型，得到所述训练完成的分类模型。

其中，所述确定每个所述训练样本的域名识别结果，包括：

对每个所述训练样本进行行为统计和/或根据所述域名黑名单得到每个所述训练样本的域名识别结果。

为实现上述目的，本申请提供了一种域名识别系统，包括：

第一识别模块，用于确定待识别域名，并判断所述待识别域名是否匹配到域名黑名单，得到第一识别结果；

第二识别模块，用于对所述待识别域名进行行为统计，并根据统计结果得到第二识别结果；

第三识别模块，用于提取所述待识别域名的文本特征，并将所述文本特征输入训练完成的分类模型中，得到第三识别结果；

权重计算模块，用于根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果得到所述待识别域名的最终域名识别结果。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述域名识别方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述域名识别方法的步骤。

通过以上方案可知，本申请提供的一种域名识别方法，包括：确定待识别域名，并判断所述待识别域名是否匹配到域名黑名单，得到第一识别结果；对所述待识别域名进行行为统计，并根据统计结果得到第二识别结果；提取所述待识别域名的文本特征，并将所述文本特征输入训练完成的分类模型中，得到第三识别结果；根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果得到所述待识别域名的最终域名识别结果。

在本申请中，域名黑名单中存储已知的DGA域名，利用待识别域名与域名黑名单的匹配结果得到第一识别结果，并利用对待识别域名的行为统计得到第二识别结果。分类模型为根据训练域名集的文本特征训练得到的分类模型，可以自动根据待识别域名的文本特征输出第三识别结果，综合上述三个识别结果得到最终域名识别结果。由此可见，本申请提供的域名检测方法利用域名黑名单、行为统计和文本特征三个维度识别DGA域名，检测结果更加准确。本申请还公开了一种域名识别系统及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种域名识别方法的流程图；

图2为本申请实施例公开的另一种域名识别方法的流程图；

图3为本申请实施例公开的一种域名识别系统的结构图；

图4为本申请实施例公开的一种电子设备的结构图；

图5为本申请实施例公开的另一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种域名识别方法，提高了DGA域名检测的准确率。

参见图1，本申请实施例公开的一种域名识别方法的流程图，如图1所示，包括：

S101：确定待识别域名，并判断所述待识别域名是否匹配到域名黑名单，得到第一识别结果；

在本实施例中，域名黑名单中存储已知的DGA域名，利用待识别域名与域名黑名单的匹配结果得到第一识别结果。具体的，域名黑名单可以存储DGA域名的请求域名、服务器IP或请求域名的DNS处理结果，相应的，在检测过程中可以判断域名黑名单是否存在该待识别域名或待识别域名的服务器IP或DNS处理结果得到第一识别结果。

S102：对所述待识别域名进行行为统计，并根据统计结果得到第二识别结果；

在具体实施中，对待识别域名进行行为统计，即判断单次攻击或单位时间段内的攻击请求域名数量是否达到预设值，并根据判断结果得到所述第二识别结果。可以理解的是，此处不限定单位时间段的具体长度，例如，可以以一天为一个单位时间段。

S103：提取所述待识别域名的文本特征，并将所述文本特征输入训练完成的分类模型中，得到第三识别结果；

在本实施例中，在提取待识别域名的文本特征前，可以先对训待识别域名进行预处理，提取待识别域名中具有代表性的主要特征，例如各个域名的主域名、TLD后缀(Top-Level Domain)即域名的最后一部分。例如，域名“www.google.com”，其主域名为google，其TLD后缀为com。

可以理解的是，本实施例中，提取的文本特征可以是单个的，例如仅通过主域名进行DGA域名的判别；提取的文本特征也可以是多个的，例如通过提取各个域名的主域名、TLD后缀，还在所述主域名和TLD后缀上扩展出更多的特征来细化判断规则，提高DGA域名判别的准确度。例如，可以将主域名的长度、主域名的语言特性、主域名中的字符转移概率以及域名的TLD后缀共同作为文本特征进行提取。

作为一种优选实施方式，可以对本步骤中提取的文本特征进行降维处理和归一化处理，提高后续分类模型的计算效率。提取文本特征后输入训练完成的分类模型中以输出第三识别结果。分类模型的训练过程将在下一实施例进行详细介绍。

需要说明的是，上述的第一识别结果、第二识别结果和第三识别结果可以以二分结果表示，即满足条件是输出TRUE、不满足条件时输出FALSE，当然也可以以一定范围的特征值表示，例如0-1的范围。

S104：根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果得到所述待识别域名的最终域名识别结果。

此处的权重分配规则即本领域技术人员根据实际情况为第一识别结果、第二识别结果和第三识别结果分配对应的权重值，并计算综合权重。当该综合权重大于预设值时，该待识别域名为DGA域名，当该综合权重小于或等于预设值时，该待识别域名为正常域名。

在本申请实施例中，域名黑名单中存储已知的DGA域名，利用待识别域名与域名黑名单的匹配结果得到第一识别结果，并利用对待识别域名的行为统计得到第二识别结果。分类模型为根据训练域名集的文本特征训练得到的分类模型，可以自动根据待识别域名的文本特征输出第三识别结果，综合上述三个识别结果得到最终域名识别结果。由此可见，本申请实施例提供的域名检测方法利用域名黑名单、行为统计和文本特征三个维度识别DGA域名，检测结果更加准确。

下面对上一实施例中分类模型的训练过程进行详细介绍，具体的：

参见图2，本申请实施例提供的另一种域名识别方法的流程图，如图2所示，包括：

S201：获取训练域名集，提取所述训练域名集中的每个训练样本的文本特征，并确定每个所述训练样本的域名识别结果；

在具体实施中，首先提取训练域名集中的每个训练样本的文本特征，对该文本特征进行降维处理和归一化处理，并确定每个训练样本的域名识别结果。可以理解的是，可以利用上一实施例介绍的域名黑名单和/或行为统计的方式得到每个训练样本域名识别结果，由于识别步骤与上一实施例类似，在此不再赘述。

S202：利用所述文本特征和所述域名识别结果训练分类模型，得到所述训练完成的分类模型。

在具体实施中，利用上一步骤处理完成的文本特征和域名识别结果即可训练分类模型。将文本特征采用机器学习算法进行训练，以建立域名分类模型。通过机器学习获取的分类模型，能够根据域名特征快速、准确的识别DGA域名，可以用于对未知的域名进行预测。可以理解的是，本实施不对分类模型的具体形式进行限定，例如可以采用LibLinear分类模型、LibSVM分类模型等。

下面以应用实施例的方式介绍本申请提供域名识别方法，具体可以包括以下步骤：

步骤一：使用预配置的黑名单对待识别域名进行匹配，得到Bool类型的二分结果x(当输出值为TRUE时为1，FALSE时为0)，包括但不限于以下特征：

A)服务器IP是否匹配到黑名单，若是则输出TRUE，若否则输出FALSE；

B)请求域名是否匹配到黑名单，若是则输出TRUE，若否则输出FALSE；

C)请求域名的DNS处理结果是否匹配到黑名单，若是则输出TRUE，若否则输出FALSE；

步骤二：对待识别域名的相关行为进行统计分析，得到Bool类型的二分结果y，包括但不限于以下特征：

A)单次攻击发出的请求域名数量是否达到预设值，若是则输出TRUE，若否则输出FALSE；

B)单天攻击发出的请求域名数量是否达到预设值，若是则输出TRUE，若否则输出FALSE；

步骤三：提取待识别域名的文本特征，对文本特征进行降维处理和归一化处理，输入训练完成的分类结果中得到Bool类型的二分结果z；

步骤四：根据权重计算公式计算所述综合权重w；其中，所述权重计算公式为：

w＝x*p₁+y*p₂+z*p₃；

其中，p₁为权重分配规则中x对应的权重值，p₂为所述权重分配规则中y对应的权重值，p₃为所述权重分配规则中z对应的权重值；

步骤五：判断综合权重w是否大于阈值W，若是，则该待识别域名为DGA域名。

下面对本申请实施例提供的一种域名识别系统进行介绍，下文描述的一种域名识别系统与上文描述的一种域名识别方法可以相互参照。

参见图3，本申请实施例提供的一种域名识别系统的结构图，如图3所示，包括：

第一识别模块301，用于确定待识别域名，并判断所述待识别域名是否匹配到域名黑名单，得到第一识别结果；

第二识别模块302，用于对所述待识别域名进行行为统计，并根据统计结果得到第二识别结果；

第三识别模块303，用于提取所述待识别域名的文本特征，并将所述文本特征输入训练完成的分类模型中，得到第三识别结果；

权重计算模块304，用于根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果得到所述待识别域名的最终域名识别结果。

在本申请实施例中，域名黑名单中存储已知的DGA域名，利用待识别域名与域名黑名单的匹配结果得到第一识别结果，并利用对待识别域名的行为统计得到第二识别结果。分类模型为根据训练域名集的文本特征训练得到的分类模型，可以自动根据待识别域名的文本特征输出第三识别结果，综合上述三个识别结果得到最终域名识别结果。由此可见，本申请实施例提供的域名检测系统利用域名黑名单、行为统计和文本特征三个维度识别DGA域名，检测结果更加准确。

在上述实施例的基础上，作为一种优选实施方式，所述第一识别模块301具体为确定待识别域名，判断所述域名黑名单中是否存在所述待识别域名，和/或所述待识别域名的服务器IP和/或DNS处理结果，得到所述第一识别结果的模块。

在上述实施例的基础上，作为一种优选实施方式，所述第二识别模块302具体为判断单次攻击或单位时间段内的攻击请求域名数量是否达到预设值，并根据判断结果得到所述第二识别结果。

在上述实施例的基础上，作为一种优选实施方式，所述权重计算模块304包括：

计算单元，用于根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果计算综合权重；

判定单元，用于判断所述综合权重是否大于预设值；若是，则所述待识别域名为DGA域名。

在上述实施例的基础上，作为一种优选实施方式，所述计算单元具体为根据权重计算公式计算所述综合权重的单元；其中，所述权重计算公式为：

w＝x*p₁+y*p₂+z*p₃；

在上述实施例的基础上，作为一种优选实施方式，还包括：

获取模块，用于获取训练域名集，提取所述训练域名集中的每个训练样本的文本特征，并确定每个所述训练样本的域名识别结果；

训练模块，用于利用所述文本特征和所述域名识别结果训练分类模型，得到所述训练完成的分类模型。

在上述实施例的基础上，作为一种优选实施方式，所述获取模块具体为获取训练域名集，提取所述训练域名集中的每个训练样本的文本特征，并对每个所述训练样本进行行为统计和/或根据所述域名黑名单得到每个所述训练样本的域名识别结果的模块。

本申请还提供了一种电子设备，参见图4，本申请实施例提供的一种电子设备的结构图，如图4所示，包括：

存储器100，用于存储计算机程序；

处理器200，用于执行所述计算机程序时可以实现上述实施例所提供的步骤。

具体的，存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令，该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器200为电子设备提供计算和控制能力，执行所述存储器100中保存的计算机程序时，可以实现上述任一实施例提供的域名识别方法的步骤。

在本申请实施例中，域名黑名单中存储已知的DGA域名，利用待识别域名与域名黑名单的匹配结果得到第一识别结果，并利用对待识别域名的行为统计得到第二识别结果。分类模型为根据训练域名集的文本特征训练得到的分类模型，可以自动根据待识别域名的文本特征输出第三识别结果，综合上述三个识别结果得到最终域名识别结果。由此可见，本申请实施例利用域名黑名单、行为统计和文本特征三个维度识别DGA域名，检测结果更加准确。

在上述实施例的基础上，作为优选实施方式，参见图5，所述电子设备还包括：

输入接口300，与处理器200相连，用于获取外部导入的计算机程序、参数和指令，经处理器200控制保存至存储器100中。该输入接口300可以与输入装置相连，接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是键盘、触控板或鼠标等。

显示单元400，与处理器200相连，用于显示处理器200发送的数据。该显示单元400可以为PC机上的显示屏、液晶显示屏或者电子墨水显示屏等。具体的，在本实施例中，可以通过显示单元400显示域名识别结果等。

网络端口500，与处理器200相连，用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术，如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。具体的，在本实施例中，可以通过网络端口500向处理器200导入待识别域名、训练完成的分类模型等。

本申请还提供了一种计算机可读存储介质，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例提供的域名识别方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种域名识别方法，其特征在于，包括：

2.根据权利要求1所述域名识别方法，其特征在于，所述判断所述待识别域名是否匹配到域名黑名单，得到第一识别结果，包括：

3.根据权利要求1所述域名识别方法，其特征在于，对所述待识别域名进行行为统计，并根据统计结果得到第二识别结果，包括：

4.根据权利要求1所述域名识别方法，其特征在于，所述根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果得到所述待识别域名的最终域名识别结果，包括：

判断所述综合权重是否大于预设值；

若是，则所述待识别域名为DGA域名。

5.根据权利要求4所述域名识别方法，其特征在于，所述根据预先设定的权重分配规则、所述第一识别结果、所述第二识别结果和所述第三识别结果计算综合权重，包括：

w＝x*p₁+y*p₂+z*p₃；

6.根据权利要求1-5任一项所述域名识别方法，其特征在于，还包括：

7.根据权利要求6所述域名识别方法，其特征在于，所述确定每个所述训练样本的域名识别结果，包括：

8.一种域名识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述域名识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述域名识别方法的步骤。