CN109688110A

CN109688110A - Dga域名检测模型构建方法、装置、服务器及存储介质

Info

Publication number: CN109688110A
Application number: CN201811401081.0A
Authority: CN
Inventors: 张振海; 胡泽柱
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-04-26

Abstract

本申请公开了一种DGA域名检测模型构建方法、装置、服务器及存储介质，该方法包括获取训练数据集，该训练数据集中包括DGA域名及合法域名；将该训练数据集分成多个训练数据子集，每个该训练数据子集包括至少一个该DGA域名及至少一个该合法域名；利用分类算法对每个该训练数据子集进行训练，得到多个检测子模型；将测试样本依次输入每个该检测子模型中，得到该测试样本的预测标签集合；根据决策策略对该预测标签集合进行融合，得到该测试样本的最终标签。本申请实施例提供的DGA域名检测模型构建方法，通过对训练数据集的分组，得到多个检测子模型，实现了对训练数据集的完整学习，体现了实际DGA域名的特性。

Description

DGA域名检测模型构建方法、装置、服务器及存储介质

技术领域

本申请一般涉及计算机技术领域，具体涉及一种DGA域名检测模型构建方法、装置、服务器及存储介质。

背景技术

域名生成算法(Domain generation algorihms，DGA)域名是一种通过算法自动生成的随机域名。恶意软件或潜伏的攻击程序常常通过DGA域名与外界的控制服务器建立网络连接，根据攻击者下发的指令，执行数据盗取等网络攻击。因此，DGA域名检测对于发现潜伏的攻击具有重要的意义。

目前，在DGA域名检测中，通常采用机器学习算法对获取的域名的结构特征进行训练，得到一个DGA检测模型，进而通过训练得到DGA检测模型对DGA域名进行检测。

在采用机器学习算法对域名的结构特征进行训练的过程中，得到的单个DGA域名检测模型无法完全学习到DGA域名的所有特征，导致得到的DGA域名检测模型无法充分体现实际DGA域名的特性，使得DGA域名检测模型的准确性低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种DGA域名检测模型构建方法、装置、服务器及存储介质，以解决单个DGA域名检测模型无法充分体现实际DGA域名的特性的问题。

第一方面，本申请实施例提供一种DGA域名检测模型构建方法，该方法包括：

获取训练数据集，该训练数据集中包括DGA域名及合法域名；

将该训练数据集分成多个训练数据子集，每个该训练数据子集包括至少一个该DGA域名及至少一个该合法域名；

利用分类算法对每个该训练数据子集进行训练，得到多个检测子模型；

将测试样本依次输入每个该检测子模型中，得到该测试样本的预测标签集合；

根据决策策略对该预测结果标签进行融合，得到该测试样本的最终标签。

第二方面，本申请实施例提供的一种DGA域名检测模型构建装置，该装置包括：

获取模块，用于获取训练数据集，该训练数据集中包括DGA域名及合法域名；

分组模块，用于将该训练数据集分成多个训练数据子集，每个该训练数据子集包括至少一个该DGA域名及至少一个该合法域名；

训练模块，用于利用分类算法对每个该训练数据子集进行训练，得到多个检测子模型；

测试模块，用于将测试样本依次输入每个该检测子模型中，得到该测试样本的预测标签集合；

融合模块，用于根据决策策略对该预测标签集合进行融合，得到该测试样本的最终标签。

第三方面，本申请提供一种服务器，该服务器包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如第一方面所述的DGA域名检测模型构建方法。

第四方面，本申请提供一种计算机存储介质，该计算机程序用于实现如第一方面所述的DGA域名检测模型构建方法。

综上，本申请实施例提供的DGA域名检测模型构建方法、装置、服务器及存储介质，将获取的包括DGA域名及合法域名的训练数据集分成多个训练数据子集，并对每个训练数据子集进行训练，得到多个检测子模型，进而可以将测试样本输入到每个检测子模型中，通过对预测标签集合进行融合得到测试样本的最终标签，以对得到的检测模型的进行评估，通过对训练数据集的划分和训练，得到多个检测子模型，实现了对训练数据集的完整学习，体现了实际DGA域名的特性。

进一步的，本申请实施例提供的DGA域名检测模型构建方法，通过使得每个训练数据子集中的DGA域名和合法域名的数量相等，避免了训练数据集中样本不均衡，提高了检测模型的预测性能。

进一步的，本申请实施例提供的DGA域名检测模型构建方法，通过计算预测标签为DGA域名的次数占预测标签集合中预测标签总数的比值，实现了预测结果集合的融合。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请的实施例提供的DGA域名检测模型构建方法的流程示意图；

图2为本申请实施例提供的检测子模型构建的原理示意图；

图3为本申请实施例提供的检测模型测试的原理示意图；

图4为本申请实施例提供的DGA域名检测模型构建装置的结构示意图；

图5为本申请的实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关申请，而非对该申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与申请相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

可以理解，域名就是一串用点分隔的名字组成的互联网上某一台计算机或计算机组的名称。合法域名就是按照一定的命名规则，并通过注册申请的字符串。DGA域名就是攻击者利用DGA生成用作域名的伪随机字符串，以有效避开黑名单列表的检测。

图1所示为本申请的实施例提供的DGA域名检测模型构建方法的流程示意图。如图1所示，该方法包括：

S1，获取训练数据集，该训练数据集中包括DGA域名及合法域名。

具体的，可以获取已知的DGA域名及合法域名，构造训练数据集。

例如，合法域名可以为通过开源渠道获取的域名。如Alexa网址排名的白名单、站长之家等获取的合法域名。

例如，DGA域名可以为通过开源渠道获取的恶意域名，如安全联盟网站曝光公布的恶意网址、金山网盾公布的恶意网址数据库等恶意域名列表。

可以理解，对于得到的所有域名，可以分成训练数据集和测试数据集两个部分。该训练数据集用于输入到分类算法中进行训练，得到检测模型。该测试数据集包括多个测试样本，用于对得到的检测模型进行评估，以防止检测模型过拟合或欠拟合。

S2，将该训练数据集分成多个训练数据子集，每个该训练数据子集包括至少一个该DGA域名及至少一个该合法域名。

具体的，可以将获取的包括一个或多个DGA域名及合法域名的训练数据集分成多个训练数据子集，使得每个训练数据子集中至少包括一个DGA域名及至少一个该合法域名。

优选的，考虑实际中，已知的DGA域名的样本数量比合法域名的样本数量少很多，使得训练数据集中样本的不均衡，进而导致得到的检测模型的预测性能低。在本申请的优选实施例中，为了使得每个训练数据子集中的样本分布均衡，可以使得每个训练数据子集中的DGA域名与合法域名的数量相等。

S3，利用分类算法对每个该训练数据子集进行训练，得到多个检测子模型。

具体的，在得到多个训练数据子集后，可以利用分类算法对每个训练数据子集进行训练，得到对应的检测子模型。

例如，可以利用逻辑回归算法或者决策树算法对每个训练数据子集进行训练，以得到对应的多个检测子模型。

S4，将测试样本依次输入每个该检测子模型中，得到该测试样本的预测标签集合。

具体的，在得到多个检测子模型后，可以进一步利用测试数据集中的测试样本对得到的检测模型进行评估，以防止检测模型过拟合或欠拟合。可以将测试样本依次输入到每个检测子模型中，从而可以得到每个检测子模型对应的该测试样本的测试标签集合。

可以理解，该测试标签集合中包括每个检测子模型对应的测试样本的预测标签。每个预测标签表示该测试样本的标签为DGA域名或合法域名。

例如，在实际测试过程中，可以设置每个检测子模型的预测标签的输出为0或1，且可以设置输出为1表示当前的测试样本标签为DGA域名，输出0表示当前的测试样本的标签为合法域名。可以理解，上述结果表示只是示例性的说明，本申请对此不做限制。

S5，根据决策策略对该预测标签集合进行融合，得到该测试样本的最终标签。

具体的，可以将预测标签集合根据决策策略进行融合，从而可以利用多个检测子模型的预测标签来准确的表示该测试样本的最终标签。

可选的，在对测试样本的预测标签集合根据决策策略进行融合时，首先可以统计预测标签集合中该测试样本的预测标签为DGA域名的个数。然后计算该个数占预测标签集合中预测标签总数的比值。再将该比值与预设的阈值进行比较，如果大于该阈值，则表示该测试样本的最终标签为DGA域名，否则为合法域名。

可选的，同样可以通过输出0及1来表示预测标签。

例如，当计算得到的比值大于阈值时，可以输出1，表示该测试样本的标签为DGA域名。当计算得到的比值小于阈值时，可以输出0，表示该测试样本的最终标签为合法域名。

下面结合图2和图3举例说明本申请提供的DGA域名检测模型构建方法。图2为本申请实施例提供的检测子模型构建的原理示意图。图3为本申请实施例提供的检测子模型预测的原理示意图。

例如，获取的训练数据集为D＝{d₁,d₂,...,d_n}，在该训练数据集中，DGA域名集合为D_dga＝{d₁,d₂,...,d_p}，合法域名集合为D_v＝{d₁,d₂,...,d_q}。可以理解，p+q＝n。

可以按照划分策略将训练数据集D划分成h个不同的训练数据子集，即将训练数据集中的DGA域名与合法域名分开，得到DGA域名集合D_dga＝{d₁,d₂,...,d_p}和合法域名集合D_v＝{d₁,d₂,...,d_q}。

则根据划分策略将训练数据集划分成h个不同的训练数据子集具体过程为：

从D_v中随机采集p个样本形成D_vi＝{d₁,d₂,...,d_p}，则D_i＝{D_dga,D_vi}。因此，在所构造的每个训练数据子集中，DGA域名的数量和合法域名的数量相同，解决了单个训练数据集中样本不均衡的问题。

在得到多个不同的训练数据子集后，可以如图2所示，利用分类算法对每个训练数据子集进行训练，得到每个训练数据子集对应的检测子模型DGA_i。

然后可以如图3所示，利用测试数据集对得到的检测模型进行评估。即将测试样本依次输入到每个检测子模型DGA_i中，利用每个检测子模型DGA_i对该测试样本进行预测，得到该测试样本的预测标签集合。

最后可以对上述得到的预测标签进行融合。例如，DGA检测子模型DGA_i的预测标签为1表示该测试样本为DGA域名，为0表示该测试样本为合法域名。

并设定阈值λ，λ∈[0,1]，且设统计预测标签集合中预测标签为1次数为c，则如果c/h＞λ，则基于机器学习的DGA检测模型的输出结果为1，否则为0，即表示该测试样本的标签为DGA域名或合法域名。

可以理解，实际中，可以根据输出的测试样本的标签，来评估得到的测试模型，以调整测试模型参数，使得测试模型收敛，且不会过拟合或者欠拟合。

图4所示为本申请实施例提供的DGA域名检测模型构建装置的结构示意图。如图4所示，该装置400可以包括：

获取模块410，用于获取训练数据集，该训练数据集中包括DGA域名及合法域名；

分组模块420，用于将该训练数据集分成多个训练数据子集，每个该训练数据子集包括至少一个该DGA域名及至少一个该合法域名；

训练模块430，用于利用分类算法对每个该训练数据子集进行训练，得到多个检测子模型；

测试模块440，用于将测试样本依次输入每个该检测子模型中，得到该测试样本的预测标签集合；

融合模块450，用于根据决策策略对该预测标签集合进行融合，得到该测试样本的最终标签。

优选的，本申请实施例提供的DGA域名检测模型构建装置，该分组模块，具体用于将该训练数据集分成多个训练数据子集，使得每个该训练数据子集包括数量相等的至少一个该DGA域名及至少一个该合法域名。

优选的，本申请实施例提供的DGA域名检测模型构建装置，该融合模块具体用于：

统计该预测标签集合中预测标签为DGA域名的个数；

计算该个数占该预测标签集合中预测标签总数的比值；

将该比值与预设的阈值进行比较，如果大于该阈值，则表示该测试样本的最终标签为DGA域名；否则，为合法域名。

优选的，本申请实施例提供的DGA域名检测模型构建装置，该测试模块具体用于：

将测试样本依次输入每个该检测子模型中，得到该测试样本的预测标签集合，该预测标签集合包括用于表示该测试样本的标签为DGA域名和/或，用于表示该测试样本的标签为合法域名的标签。

可以理解，本申请的实施例还提供了一种服务器，该服务器包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现可用于执行上述的DGA检测模型构建方法。

下面参考图5，其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的DGA检测模型构建的实施例，上文参考图1-描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，该计算机程序包含用于执行图1的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请DGA检测模型构建的实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、分组模块、训练模型、测试模块以及融合模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，融合模块还可以被描述为“用于根据决策策略对预测标签集合进行融合得到测试样本最终标签的融合模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的DGA域名检测模型构建方法。

综上所述，本申请实施例提供的一种DGA域名检测模型构建方法、装置、服务器及存储介质，通过将获取的包括DGA域名及合法域名的训练数据集分成多个训练数据子集，使得每个训练数据子集中的DGA域名与合法域名的数量相等，并对每个训练数据子集进行训练，得到多个检测子模型，进而可以将测试样本输入到每个检测子模型中，对得到的预测标签进行融合，以得到该测试样本的测试结果，通过对训练数据集的划分，得到多个检测子模型，实现了对训练数据集的完整学习，避免了训练数据集中的样本不均衡，体现了实际DGA域名的特性，提高了预测模型的预测性能。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种域名生成算法DGA域名检测模型构建方法，其特征在于，包括：

获取训练数据集，所述训练数据集中包括DGA域名及合法域名；

将所述训练数据集分成多个训练数据子集，每个所述训练数据子集包括至少一个所述DGA域名及至少一个所述合法域名；

利用分类算法对每个所述训练数据子集进行训练，得到多个检测子模型；

将测试样本依次输入每个所述检测子模型中，得到所述测试样本的预测标签集合；

根据决策策略对所述预测标签集合进行融合，得到所述测试样本的最终标签。

2.根据权利要求1所述的DGA域名检测模型构建方法，其特征在于，所述训练数据子集中所述DGA域名的数量与所述合法域名的数量相等。

3.根据权利要求1所述的DGA域名检测模型构建方法，其特征在于，所述根据决策策略对所述预测标签集合进行融合，得到所述测试样本的最终标签包括：

统计所述预测标签集合中预测标签为DGA域名的个数；

计算所述个数占所述预测标签集合中预测标签总数的比值；

将所述比值与预设的阈值进行比较，如果大于所述阈值，则表示所述测试样本的最终标签为DGA域名；否则，为合法域名。

4.根据权利要求1-3任一项所述的DGA域名检测模型构建方法，其特征在于，所述预测标签集合包括用于

表示所述测试样本的标签为DGA域名和/或，用于表示所述测试样本的标签为合法域名的标签。

5.一种DGA域名检测模型构建装置，其特征在于，包括：

获取模块，用于获取训练数据集，所述训练数据集中包括DGA域名及合法域名；

分组模块，用于将所述训练数据集分成多个训练数据子集，每个所述训练数据子集包括至少一个所述DGA域名及至少一个所述合法域名；

训练模块，用于利用分类算法对每个所述训练数据子集进行训练，得到多个检测子模型；

测试模块，用于将测试样本依次输入每个所述检测子模型中，得到所述测试样本的预测标签集合；

融合模块，用于根据决策策略对所述预测标签集合进行融合，得到所述测试样本的最终标签。

6.根据权利要求5所述的DGA域名检测模型构建装置，其特征在于，所述分组模块，具体用于将所述训练数据集分成多个训练数据子集，使得每个所述训练数据子集包括数量相等的至少一个所述DGA域名及至少一个所述合法域名。

7.根据权利要求5所述的DGA域名检测模型构建装置，其特征在于，所述融合模块具体用于：

统计所述预测结果集合中预测标签为DGA域名的个数；

计算所述个数占所述预测标签集合中预测标签总数的比值；

8.根据权利要求5-7任一项所述的DGA域名检测模型构建装置，其特征在于，所述预测标签集合包括用于表示所述测试样本的标签为DGA域名和/或，用于表示所述测试样本的标签为合法域名的标签。

9.一种服务器，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的DGA域名检测模型构建方法。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序用于实现如权利要求1-4中任一项所述的DGA域名检测模型构建方法。