CN113328994B

CN113328994B - 一种恶意域名处理方法、装置、设备及机器可读存储介质

Info

Publication number: CN113328994B
Application number: CN202110480770.0A
Authority: CN
Inventors: 施瑞瑞; 汪加伟
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-07-12
Anticipated expiration: 2041-04-30
Also published as: CN113328994A

Abstract

本公开提供一种恶意域名处理方法、装置、设备及机器可读存储介质，该方法包括：获取符合预设要求的训练样本，根据预设维度，对训练样本提取样本特征；根据提取的样本特征，对所述训练样本进行样本聚类，并使用BiLstm训练生成分类器；使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名；所述预设维度包括：域名长度、声母占比、数值占比、域名熵值。通过本公开的技术方案，采用拼音声母作为训练模型的维度之一，得到的算法模型，可有效降低境内网站的误报率，同时本公开提供的训练方法，特征提取简单、高效，判断DGA域名准确率高、耗费资源少。

Description

一种恶意域名处理方法、装置、设备及机器可读存储介质

技术领域

本公开涉及通信技术领域，尤其是涉及一种恶意域名处理方法、装置、设备及机器可读存储介质。

背景技术

恶意软件如今已经发展为威胁网络安全的头号公敌，为了逃避安全设施的检测，其制作过程也越来越复杂，其中一个典型做法是在软件中集成DGA(Domain GenerationAlgorithm)算法，产生速变域名，该方式作为备用或者主要的与C2服务器通信的手段，可以构造更加鲁棒的僵尸网络，做到对感染肉鸡的持续性控制。对应地，针对DGA算法的研究现在也是安全圈讨论的热点话题，学术界和工业界也有大量DGA域名检测的工作，但是在实际使用中存在误报过多的现象。

BiLSTM：Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。LSTM：全称Long Short-Term Memory，是RNN(Recurrent Neural Network)的一种，LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。

发明内容

有鉴于此，本公开提供一种恶意域名处理方法、装置及电子设备、机器可读存储介质，以改善上述误报率过高的技术问题。

具体地技术方案如下：

本公开提供了一种恶意域名处理方法，应用于网络安全设备，所述方法包括：获取符合预设要求的训练样本，根据预设维度，对训练样本提取样本特征；根据提取的样本特征，对所述训练样本进行样本聚类，并使用BiLstm训练生成分类器；使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名；所述预设维度包括：域名长度、声母占比、数值占比、域名熵值。

作为一种技术方案，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：根据被判断为DGA域名的待判定域名，提取域名信息进行保存并显示。

作为一种技术方案，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：设立白名单，将特定域名纳入白名单中；若待判定域名匹配白名单数据，则判定该域名不属于DGA域名。

作为一种技术方案，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：根据预设规则，判断属于DGA域名的待判定域名是否关联于恶意攻击。

本公开同时提供了一种恶意域名处理装置，应用于网络安全设备，所述装置包括：样本模块，用于获取符合预设要求的训练样本，根据预设维度，对训练样本提取样本特征；训练模块，用于根据提取的样本特征，对所述训练样本进行样本聚类，并使用BiLstm训练生成分类器；判定模块，用于使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名；所述预设维度包括：域名长度、声母占比、数值占比、域名熵值。

作为一种技术方案，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：判定模块还用于根据预设规则，判断属于DGA域名的待判定域名是否关联于恶意攻击。

本公开同时提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，处理器执行所述机器可执行指令以实现前述的恶意域名处理方法。

本公开同时提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现前述的恶意域名处理方法。

本公开提供的上述技术方案至少带来了以下有益效果：

本公开采用拼音声母作为训练模型的维度之一，得到的算法模型，可有效降低境内网站的误报率，同时本公开提供的训练方法，特征提取简单、高效，判断DGA域名准确率高、耗费资源少。

附图说明

为了更加清楚地说明本公开实施方式或者现有技术中的技术方案，下面将对本公开实施方式或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施方式，对于本领域普通技术人员来讲，还可以根据本公开实施方式的这些附图获得其他的附图。

图1是本公开一种实施方式中的恶意域名处理方法的流程图；

图2是本公开一种实施方式中的恶意域名处理装置的结构图；

图3是本公开一种实施方式中的电子设备的硬件结构图。

具体实施方式

在本公开实施方式使用的术语仅仅是出于描述特定实施方式的目的，而非限制本公开。本公开和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施方式可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

一种基于规则的恶意域名所属DGA家族的检测方法技术采用DGA算法进行域名生成，归纳现在存在的DGA域名，将各种DGA家族进行分析，建立特征矩阵；查找由该DGA算法生成的域名样例，样例可以表现出DGA算法生成的域名的主要特征，进行匹配判断。由于是基于黑名单过滤、统计特征的，存在大量瓶颈，如特征提取繁琐，自动化程度低,编码实现难度较高，检测率偏低以及误报率偏高等；容易误报和漏报并且无法进一步分析决策该DGA域名是否是恶意域名。

基于n-gram模型的DGA域名检测方法，采用词袋模型对域名进行处理,将字符类型的域名转换为适合n-gram模型的输入数据,然后基于n-gram模型设计适合DGA域名检测的各层神经网络的参数，构建实现DGA域名自主学习的检出模型，从而实现DGA域名的判定。该方案提出的方法能够自动提取DGA域名的特征，实现相对较高的检测率以及相对较低的误报率，但是依然存在较多误报和漏检，且无法进一步确认该DGA域名是否恶意。

有鉴于此，本公开提供一种恶意域名处理方法、装置及电子设备、机器可读存储介质，以改善上述误报率过高的问题。

具体地，技术方案如后述。

在一种实施方式中，本公开提供了一种恶意域名处理方法，应用于网络安全设备，所述方法包括：获取符合预设要求的训练样本，根据预设维度，对训练样本提取样本特征；根据提取的样本特征，对所述训练样本进行样本聚类，并使用BiLstm训练生成分类器；使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名；所述预设维度包括：域名长度、声母占比、数值占比、域名熵值。

具体地，如图1，包括以下步骤：

步骤S11，获取符合预设要求的训练样本，根据预设维度，对训练样本提取样本特征；

步骤S12，根据提取的样本特征，对所述训练样本进行样本聚类，并使用BiLstm训练生成分类器；

步骤S13，使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名。

所述预设维度包括：域名长度、声母占比、数值占比、域名熵值。

在一种实施方式中，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：根据被判断为DGA域名的待判定域名，提取域名信息进行保存并显示。

在一种实施方式中，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：设立白名单，将特定域名纳入白名单中；若待判定域名匹配白名单数据，则判定该域名不属于DGA域名。

在一种实施方式中，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：根据预设规则，判断属于DGA域名的待判定域名是否关联于恶意攻击。

首先进行样本获取，使用具有特征均匀、特征范围广、代表性强的样本，根据分析，采用如下特征：域名长度特征及域名字符语义特征、域名中取出声母的占比特征、数值特征、熵值特征。根据以上统计特征(域名长度特征、域名中取出声母的占比特征、数值特征、熵值特征)进行样本聚类。采用Bilstm神经网络进行该样本的特征权重分配，利用训练的深度学习模型进行未知域名的预测；根据前向lstm和后向lstm进行拼接形成Bilstm，将前述训练样本提取的样本特征进行处理成符合模型输入的数组，然后送入Bilstm模型进行训练。在固定数据集中，本公开提供的技术方案可将DGA域名的识别率大大提高。

对训练好的模型进行保存，利用训练好的模型对DNS流量中的带判定域名进行分类，同时记录相关原IP、时间、域名、评分等信息；并通过域名获取IP地址、位置以及判断是否可访问。根据记录的DGA域名的域名信息相关数据进行机器学习算法(XGboost)结合进一步对DGA域名进行决策，确认该域名是否恶意。

举例一种实施方式中，根据URL国内库和海外库作为本公开技术方案的白样本，采用360DGA数据和DGA算法生成的域名作为本公开技术方案的黑样本，采用的DGA家族域名包括Bamital、banjori、blackhole、ccleaner、chinad、conficker。

根据训练样本，采用以下维度，包括域名长度、域名中取出声母的占比特征、域名熵值特征、域名数值占比特征，进行特征均匀化，利用聚类算法K-means对该四个特征进行聚类域名，使用白、黑样本各若干条。

使用白、黑样本训练得到的模型，对待判定域名进行判断，判断其是否是DGA域名，其中，保存特殊特征且少量数据生成白名单以进行白名单化，避免影响利用Bilstm神经网络算法训练样本时过多开销资源以及降低F1值，避免模型检测时，使其干扰模型判断，降低其准确率和性能。

将检测结果高于预设评分(如0.5)的待判定域名认为是DGA域名，进行平台显示并保存域名信息，域名信息格式可以为：原IP、目的IP、检测时间、检测域名、模型评分。

确认该DGA域名是否是恶意域名或者C&C域名，根据检测域名获取其解析真实IP地理位置(国内或国外)、是否可以访问、是否CDN，通过恶意域名外联和注册难度等行为特征，进行进一步确认该DGA域名是否有恶意行为。

根据以上信息结合XGboost算法进行决策分析，进一步确认所述DGA域名是否有恶意行为或者是恶意域名，减少误报。

在一种实施方式中，本公开同时提供了一种恶意域名处理装置，如图2，应用于网络安全设备，所述装置包括：样本模块21，用于获取符合预设要求的训练样本，根据预设维度，对训练样本提取样本特征；训练模块22，用于根据提取的样本特征，对所述训练样本进行样本聚类，并使用BiLstm训练生成分类器；判定模块23，用于使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名；所述预设维度包括：域名长度、声母占比、数值占比、域名熵值。

在一种实施方式中，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：判定模块还用于根据预设规则，判断属于DGA域名的待判定域名是否关联于恶意攻击。

装置实施方式与对应的方法实施方式相同或相似，在此不再赘述。

在一种实施方式中，本公开提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，处理器执行所述机器可执行指令以实现前述的恶意域名处理方法，从硬件层面而言，硬件架构示意图可以参见图3所示。

在一种实施方式中，本公开提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现前述的恶意域名处理方法。

这里，机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(RadomAccess Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本公开时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本公开的实施方式可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本公开实施方式可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员应明白，本公开的实施方式可提供为方法、系统或计算机程序产品。因此，本公开可以采用完全硬件实施方式、完全软件实施方式、或者结合软件和硬件方面的实施方式的形式。而且，本公开可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本公开的实施方式而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的权利要求范围之内。

Claims

1.一种恶意域名处理方法，其特征在于，应用于网络安全设备，所述方法包括：

获取符合预设要求的训练样本，根据预设维度，对训练样本提取样本特征；

根据提取的样本特征，对所述训练样本进行样本聚类，并使用BiLstm训练生成分类器，包括：采用Bilstm神经网络进行该样本的特征权重分配，利用训练的深度学习模型进行未知域名的预测；根据前向lstm和后向lstm进行拼接形成Bilstm，将前述训练样本提取的样本特征进行处理成符合模型输入的数组，然后送入Bilstm模型进行训练；对训练好的模型进行保存，利用训练好的模型对DNS流量中的带判定域名进行分类；

使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：设立白名单，将特定域名纳入白名单中，若待判定域名匹配白名单数据，则判定该域名不属于DGA域名；

所述预设维度包括，域名长度、声母占比、数值占比、域名熵值。

2.根据权利要求1所述的方法，其特征在于，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：

根据被判断为DGA域名的待判定域名，提取域名信息进行保存并显示。

3.根据权利要求1所述的方法，其特征在于，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：

设立白名单，将特定域名纳入白名单中；

若待判定域名匹配白名单数据，则判定该域名不属于DGA域名。

4.根据权利要求1所述的方法，其特征在于，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：

根据预设规则，判断属于DGA域名的待判定域名是否关联于恶意攻击。

5.一种恶意域名处理装置，其特征在于，应用于网络安全设备，所述装置包括：

样本模块，用于获取符合预设要求的训练样本，根据预设维度，对训练样本提取样本特征；

训练模块，用于根据提取的样本特征，对所述训练样本进行样本聚类，并使用BiLstm训练生成分类器，包括：采用Bilstm神经网络进行该样本的特征权重分配，利用训练的深度学习模型进行未知域名的预测；根据前向lstm和后向lstm进行拼接形成Bilstm，将前述训练样本提取的样本特征进行处理成符合模型输入的数组，然后送入Bilstm模型进行训练；对训练好的模型进行保存，利用训练好的模型对DNS流量中的带判定域名进行分类；

判定模块，用于使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：设立白名单，将特定域名纳入白名单中，若待判定域名匹配白名单数据，则判定该域名不属于DGA域名；

6.根据权利要求5所述的装置，其特征在于，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：

7.根据权利要求5所述的装置，其特征在于，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：

设立白名单，将特定域名纳入白名单中；

8.根据权利要求5所述的装置，其特征在于，所述使用分类器对根据待判定域名提取的特征进行处理，判断所述待判定域名是否属于DGA域名，包括：

判定模块还用于根据预设规则，判断属于DGA域名的待判定域名是否关联于恶意攻击。

9.一种电子设备，其特征在于，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令，以实现权利要求1-4任一所述的方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-4任一所述的方法。