CN114818689A

CN114818689A - 一种域名检测方法、装置、设备、存储介质

Info

Publication number: CN114818689A
Application number: CN202210576269.9A
Authority: CN
Inventors: 吴风鹏; 张隆胜
Original assignee: Hangzhou Anheng Information Security Technology Co Ltd
Current assignee: Hangzhou Anheng Information Security Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-07-29

Abstract

本申请公开了一种域名检测方法、装置、设备、存储介质，涉及域名识别技术领域，包括：将目标域名输入预设域名识别模型，利用预设域名识别模型中的Bert模型对目标域名进行分词处理，以获取目标域名的字符；对目标域名的字符进行文本向量化处理，以获取相应的字符向量，并对字符向量进行向量矩阵处理，输出目标域名的文本向量；将文本向量输入至预设域名识别模型中的LSTM模型，并利用LSTM模型对文本向量进行文本长距离特征的提取，以得到包含上下文语义的目标文本向量；基于目标文本向量对应的类别确定目标域名是否为黑灰产恶意域名。通过本申请能够避免了域名检测需要选取特征的局限性和有限性，同时提高了域名检测率、降低了误报率。

Description

一种域名检测方法、装置、设备、存储介质

技术领域

本发明涉及域名识别技术领域，特别涉及一种域名检测方法、装置、设备、存储介质。

背景技术

互联网的快速发展为我们进入现代化智能时代开启了大门，互联网正在为社会各行各业提供便利，大大地提高了协作效率。在信息大爆炸的时代，互联网给我们带来无限便利的同时也给我们造成了一些麻烦，越来越多的不法分子通过互联网进行违法犯罪活动。当前，违法犯罪分子通过互联网的虚拟隐蔽性把网络作为实施犯罪的工具。通过计算机以及网络为工具进行网络犯罪已经成为当今社会严重的问题之一，涉网犯罪对社会带来了极强的破坏作用，政府也对此高度重视，所以如何防范打击涉网犯罪不仅是计算机领域需要研究的课题，也是当今社会必须要解决的问题。

目前涉网犯罪主要有以下三个方面：网络淫秽色情泛滥，开设网上赌场进行网络赌博，网络电信诈骗骗取财物。目前涉网犯罪案件总体呈现高发态势，随着互联网目前的高速发展，涉网犯罪会成为社会危害最大的犯罪形式之一，严重影响社会稳定。要想打击涉网犯罪就需要提高我们的网络犯罪侦查能力，但是如今有很多执法者面对网络犯罪因为技术的限制，无计可施，造成的损失巨大，所以对于一些黑灰产恶意域名的识别显得格外重要。

现有技术中，DGA恶意域名的检测主要有基于特征提取的机器学习方法的检测以及基于无特征提取的深度学习方法的检测。基于特征提取的机器学习方法检测主要有根据域名字符统计特征的检测以及DNS流量信息的检测，对于无特征提取，主要依赖于手工提取特征，但是手工提取特征有以下两个缺点：手工提取特征容易不准确且耗时长。

综上，如何避免域名特征的选取，实现黑灰产恶意域名的分类识别，提高域名检测效率是本领域有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种域名检测方法、装置、设备、存储介质，能够避免域名特征的选取，实现黑灰产恶意域名的分类识别，提高域名检测效率。其具体方案如下：

第一方面，本申请公开了一种域名检测方法，包括：

将目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符；

对所述目标域名的字符进行文本向量化处理，以获取相应的字符向量，并对所述字符向量进行向量矩阵处理，输出所述目标域名的文本向量；

将所述文本向量输入至所述预设域名识别模型中的LSTM模型，并利用所述LSTM模型对所述文本向量进行文本长距离特征的提取，以得到包含上下文语义的目标文本向量；

基于所述目标文本向量对应的类别确定所述目标域名是否为黑灰产恶意域名。

可选的，所述将目标域名输入预设域名识别模型之前，还包括：

对待检测域名进行预处理，以得到所述目标域名。

可选的，所述对待检测域名进行预处理，包括：

对所述待检测域名进行删除空字符串、顶级域名的操作，并计算所述待检测域名的域名字符熵；

对所述待检测域名进行域名长度和域名转换的操作，以得到所述目标域名。

可选的，所述将目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符，包括：

将目标域名输入所述预设域名识别模型，利用文本分词模块并基于词根和预设分词规则对所述目标域名进行分词，以获取所述目标域名的字符。

收集预设数量的携带分类标签的黑灰产恶意域名作为样本数据；

利用所述样本数据对域名识别模型进行训练，以得到所述预设域名识别模型。

可选的，所述域名检测方法，还包括：

配置所述预设域名识别模型的词向量维度参数、学习率、Dropout、批量大小，迭代次数。

可选的，所述基于所述目标文本向量对应的类别确定所述目标域名是否为黑灰产恶意域名，包括：

将所述目标文本向量依次输入全连接层、Softmax分类器，确定所述目标文本向量对应的类别，确定所述目标域名是否为黑灰产恶意域名。

第二方面，本申请公开了一种域名检测装置，包括：

分词处理模块，用于将目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符；

向量获取模块，用于对所述目标域名的字符进行文本向量化处理，以获取相应的字符向量，并对所述字符向量进行向量矩阵处理，输出所述目标域名的文本向量；

目标向量获取模块，用于将所述文本向量输入至所述预设域名识别模型中的LSTM模型，并利用所述LSTM模型对所述文本向量进行文本长距离特征的提取，以得到包含上下文语义的目标文本向量；

域名检测模块，用于基于所述目标文本向量对应的类别确定所述目标域名是否为黑灰产恶意域名。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的域名检测方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的域名检测方法的步骤。

可见，本申请公开了一种域名检测方法，包括：将目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符；对所述目标域名的字符进行文本向量化处理，以获取相应的字符向量，并对所述字符向量进行向量矩阵处理，输出所述目标域名的文本向量；将所述文本向量输入至所述预设域名识别模型中的LSTM模型，并利用所述LSTM模型对所述文本向量进行文本长距离特征的提取，以得到包含上下文语义的目标文本向量；基于所述目标文本向量对应的类别确定所述目标域名是否为黑灰产恶意域名。由此可见，本申请通过预设域名识别模型对目标域名进行长文本距离特征的提取，得到目标文本向量，然后通过对文本向量的进一步处理，识别分类，确定最终目标域名是否为黑灰产恶意域名，避免了传统的基于统计的域名检测和机器学习的域名检测需要选取特征的局限性和有限性，同时提高了域名检测率、降低了误报率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种域名检测方法流程图；

图2为本申请公开的一种域名检测原理结构图；

图3为本申请公开的一种具体的域名检测方法流程图；

图4为本申请公开的一种域名检测装置结构示意图；

图5为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为此，本申请公开了一种域名检测方案，能够避免域名特征的选取，实现黑灰产恶意域名的分类识别，提高域名检测效率。

参照图1所示，本发明实施例公开了一种域名检测方法，包括：

步骤S11：将目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符。

本实施例中，将目标域名输入所述预设域名识别模型，利用文本分词模块并基于词根和预设分词规则对所述目标域名进行分词，以获取所述目标域名的字符。可以理解的是，当在注册网站域名的时候，一般都会选择比较短的域名容易使人记住，或者是网站名字的拼音简写，但是黑灰产主要通过将恶意代码植入网站，将网站全域、全站或部分URL篡改为色情、博彩等非法网站进而从中渔利，因此将获取的域名数据输入到所述预设域名识别模型中的Bert(Bidirectional Encoder Representations from Transformers，自编码语言模型)模型，利用所述Bert模型中内置的wordninja基于词根和规则对所述域名数据进行混淆分词操作，获取单个字符。

本实施例中，所述将目标域名输入预设域名识别模型之前，还包括：收集预设数量的携带分类标签的黑灰产恶意域名作为样本数据；利用所述样本数据对域名识别模型进行训练，以得到所述预设域名识别模型。可以理解的是，预先收集并选取数据集，例如：收集300万携带分类标签的黑灰产恶意域名数据以及正常域名数据作为样本数据，将所述黑灰产恶意域名数据按照7：2：1的比例随机划分，即为70％数据用于训练所述预设域名识别模型，20％数据用于验证分类结果是否准确和10％数据用于测试所述预设域名识别模型。

步骤S12：对所述目标域名的字符进行文本向量化处理，以获取相应的字符向量，并对所述字符向量进行向量矩阵处理，输出所述目标域名的文本向量。

本实施例中，本次目标域名数据处理过程在PC端完成的，其中，所述Ubuntu20.10操作系统内存为64GB，GPU为GTX1080Ti，编程工具使用Pycharm编译器，使用Python编程语言，深度学习框架为GPU版本Pytorch；通过上述实验环境和硬件参数对所述目标域名进行处理，并将所述目标域名的字符转为字符向量，将所述字符向量、mask向量和位置句子向量输入所述Bert模型进行训练以获取相应的文本向量，参照图2所示，本发明实施例中的Bert模型由三层Transformer Encoder Layer层组成的，将所述目标域名数据输入所述Bert模型中，输出相应的字向量，然后将所述字向量进行组合形成相应的文本向量。

步骤S13：将所述文本向量输入至所述预设域名识别模型中的LSTM模型，并利用所述LSTM模型对所述文本向量进行文本长距离特征的提取，以得到包含上下文语义的目标文本向量。

本实施例中，将通过所述Bert模型输出的所述文本向量输入至所述LSTM模型中，以便所述LSTM模型进行提取特征获取对应的字向量，并将所述字向量拼接得到包含上下文语义的目标文本向量。参照图2所示，将所述文本向量输入至LSTM模型中通过LSTM模型中的文本特征提取结构提取所述文本长距离特征，最终得到融合上下文的新文本向量。

步骤S14：基于所述目标文本向量对应的类别确定所述目标域名是否为黑灰产恶意域名。

本实施例中，将Bert得到的句子向量和LSTM获取的句子向量两者进行拼接重新得到句子向量，将所述句子向量接入softmax进行训练，达到分类任务，确定所述目标域名是否为黑灰产恶意域名。其中，为了评估预设域名识别模型的性能，预设域名识别模型采用的评价指标是P(Precision，精确率)、R(Recall，召回率)和F值，计算公式如下所示：

P＝TP/(TP+FP)；

R＝TP/(TP+FN)；

F＝2PR/(P+R)；

其中，精确率P，即通过所述预设域名模型进行预测得到结果中正例分类正确的结果数据量占样本中正例的比例；召回率R，即通过算法模型预测到正例的数量与实际属于正例实例的数量的比例；F值，即P与R的调和平均数，用于平衡算法模型整体性能。TP表示把正样本成功预测为正的数据量；FP表示把负样本错误地预测为正的数据量；FN表示把正样本错误的预测为负的数据量。

本实施例中，通过对预设域名识别模型的评价指标是精确率P、召回率R和F值的大小；其中，精确率P越大代表预设域名识别模型的预测结果中越准确，召回率R越大代表预设域名识别模型的预测结果中越准确，但是，往往精确率P和召回率R会出现一大一小的矛盾情况，此时，需要利用F值作为预设域名识别模型的评价指标。

可见，本申请公开了一种域名检测方法，包括：将目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符；对所述目标域名的字符进行文本向量化处理，以获取相应的字符向量，并对所述字符向量进行向量矩阵处理，输出所述目标域名的文本向量；将所述文本向量输入至所述预设域名识别模型中的LSTM模型，并利用所述LSTM模型对所述文本向量进行文本长距离特征的提取，以得到包含上下文语义的目标文本向量；基于所述目标文本向量对应的类别确定所述目标域名是否为黑灰产恶意域名。由此可见，本申请通过预设域名识别模型对目标域名进行长文本距离特征的提取，得到目标文本向量，然后通过对文本向量的进一步处理，识别分类，确定最终目标域名是否为黑灰产恶意域名，避免了传统的基于统计的域名检测和机器学习的域名监测需要选取特征的局限性和有限性，同时提高了域名检测率、降低了误报率。

参照图3所示，本发明实施例公开了一种具体的域名检测方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

步骤S21：对待检测域名进行预处理，以得到目标域名。

本实施例中，所述对待检测域名进行预处理，包括：对所述待检测域名进行删除空字符串、顶级域名的操作，并计算所述待检测域名的域名字符熵；对所述待检测域名进行域名长度和域名转换的操作，以得到所述目标域名。可以理解的是，首先去除待检测域名的顶级域名、空字符串、null值、http、https，将中文标点符号转为英文，其中，域名字符熵的算法很多，例如：域名字符的统计特征包括：域名字符长度、域名字符随机性、元音字母比例、顶级域名类型等。例如：一般正常域名字符长度都在19以内，集中在8到12之间，只有少数域名到达了19以上。而黑灰产恶意域名长度范围在8到32之间，并出现了2个高峰点，分别是12和30，其中长度为30的黑灰产恶意域名数量更多。因此可以通过元音字母比例分析，正常域名通常采用单词或名字的拼音，方便使用者记忆同时为了具有较好的可读性，正常域名往往会插入一定的元音字母，让域名读起来更顺口。黑灰产恶意域名由于随机生成，不会考虑可读性，因而正常域名的元音字母的比例会比黑灰产恶意域名的高。

在一种实施例中，计算域名字符熵的过程如下所示，首先定义字符熵值法函数，首先进行提取域名统计特征后，构建特征向量，并对特征向量进行标准化处理，然后求k值，进行矩阵计算，基于所述矩阵计算字符信息熵，并计算其冗余度，最后计算域名字符的权重。

步骤S22：将所述目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符。

步骤S23：对所述目标域名的字符进行文本向量化处理，以获取相应的字符向量，并对所述字符向量进行向量矩阵处理，输出所述目标域名的文本向量。

本实施例中，配置所述预设域名识别模型的词向量维度参数、学习率、Dropout、批量大小，迭代次数。例如：设置Bert模型词向量维度为768、LSTM模型词向量维度为256、序列长度为200、学习率为0.00001、batch_size为256、num_epochs为10、dropout为0.1，并将所述目标域名输入至参数设置后的预设域名识别模型中，以便获取相应的字符向量，并对所述字符向量进行向量矩阵处理，输出所述目标域名的文本向量。

步骤S24：将所述文本向量输入至所述预设域名识别模型中的LSTM模型，并利用所述LSTM模型对所述文本向量进行文本长距离特征的提取，以得到包含上下文语义的目标文本向量。

其中，步骤S22、S24更加具体的处理过程，请参照前述公开的实施例，在此不再进行赘述。

步骤S25：将所述目标文本向量依次输入全连接层、Softmax分类器，确定所述目标文本向量对应的类别，确定所述目标域名是否为黑灰产恶意域名。

本实施例中，将所述目标文本向量输入至全连接层进行全连接，也即将LSTM模型提取出的长文本距离特征与所述Bert模型生成的句向量进行拼接，然后输入全连接层，然后将通过全连接层进行全连接，然后在通过Softmax函数或分类器对所述目标文本向量进行预测分类，以得到所述目标域名的类别，进而确定所述目标域名是否为黑灰产恶意域名。

由此可见，基于所述预设域名识别模型在获取域名的文本语义特征的效果更好。基于Bert模型获取目标域名的文本特征与基于LSTM模型进行的文本分类方法可以更好的完成黑白域名分类，避免了手工提取特征，提高域名识别效率。

参照图4所示，本发明实施例公开了一种具体的域名检测装置，包括：

分词处理模块11，用于将目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符；

向量获取模块12，用于对所述目标域名的字符进行文本向量化处理，以获取相应的字符向量，并对所述字符向量进行向量矩阵处理，输出所述目标域名的文本向量；

目标向量获取模块13，用于将所述文本向量输入至所述预设域名识别模型中的LSTM模型，并利用所述LSTM模型对所述文本向量进行文本长距离特征的提取，以得到包含上下文语义的目标文本向量；

域名检测模块14，用于基于所述目标文本向量对应的类别确定所述目标域名是否为黑灰产恶意域名。

进一步的，本申请实施例还公开了一种电子设备，图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的域名检测方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的域名检测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的域名检测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种域名检测方法、装置、设备、存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种域名检测方法，其特征在于，包括：

2.根据权利要求1所述的域名检测方法，其特征在于，所述将目标域名输入预设域名识别模型之前，还包括：

对待检测域名进行预处理，以得到所述目标域名。

3.根据权利要求2所述的域名检测方法，其特征在于，所述对待检测域名进行预处理，包括：

4.根据权利要求1所述的域名检测方法，其特征在于，所述将目标域名输入预设域名识别模型，利用所述预设域名识别模型中的Bert模型对所述目标域名进行分词处理，以获取所述目标域名的字符，包括：

将目标域名输入所述预设域名识别模型，利用文本分词模块并基于预设分词词根和规则对所述目标域名进行分词，以获取所述目标域名的字符。

5.根据权利要求1所述的域名检测方法，其特征在于，所述将目标域名输入预设域名识别模型之前，还包括：

6.根据权利要求5所述的域名检测方法，其特征在于，还包括：

7.根据权利要求1至6任一项所述的域名检测方法，其特征在于，所述基于所述目标文本向量对应的类别确定所述目标域名是否为黑灰产恶意域名，包括：

8.一种域名检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的域名检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的域名检测方法的步骤。