CN117150012A

CN117150012A - 基于语义表示的dga域名检测方法及装置

Info

Publication number: CN117150012A
Application number: CN202311092637.3A
Authority: CN
Inventors: 罗雄飞; 陈楚依; 鄢宝彤; 郭超平; 马可; 冯宇轩; 乔颖
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-01

Abstract

本发明公开了一种基于语义表示的DGA域名检测方法及装置，所述方法包括：对良性域名榜单进行扩展处理，在符合zipf’s law的扩展数据集上训练分词模型；对待检测域名进行分词处理，得到若干子词；计算每一子词的词嵌入表示；基于所有子词的词嵌入表示，得到所述待检测域名的DGA域名检测结果。本发明实现了对单词DGA域名的高效识别。

Description

基于语义表示的DGA域名检测方法及装置

技术领域

发明涉及DGA域名检测技术领域，具体为一种基于语义表示的DGA域名检测方法及装置。

背景技术

僵尸网络是由大量被恶意软件感染的计算机(被称为僵尸主机或僵尸机器)组成的网络。这些计算机被攻击者远程控制,形成一个集中式或分布式的控制基础设施。攻击者通过命令和控制(C&C)服务器来控制这些被感染的计算机，并将它们协调起来执行恶意活动。僵尸网络带来的严重威胁互联网的安全运行。

在僵尸网络C&C通信中,攻击者常使用域名生成算法(Domain GenerationAlgorithm,DGA)，利用利用随机字符来快速生成DGA域名,以绕过防御者设定的检测装置，对目标主机进行恶意攻击。由于DGA域名具有随机性且生成十分迅速,网络安全系统往往难以准确地检测和阻止与这些域名的通信，加大了对恶意软件的防御难度。因此,对DGA域名的检测是维护网络安全的重要课题。

Daniel Plohmann等人通过DGA逆向工程对恶意软件家族和变体进行分析，并根据DGA域名的生成特点将DGA家族分为4类，基于算数的DGA(Arithmetic-based DGAs)、基于哈希的DGA(Hash-based DGAs)、基于排列组合的DGA(Permutation-based DGAs)和基于单词表的DGA(Wordlist-based DGAs)。随着不断变种的DGA域名所带来的攻击挑战，传统的黑名单过滤检测机制已经无法应对恶意域名的有效检测。为了解决恶意DGA域名的识别问题，许多研究人员将机器学习以及深度学习应用到网络安全领域，并针对DGA域名的字特征进行分类检测。

早期的DGA域名检测方法主要基于人工编写的规则和模式来识别DGA域名,这些规则通常依赖于DGA算法的特定特征,例如随机字符、固定长度等。然而,基于规则的检测方法在应对新的DGA变种和复杂的算法时效果有限。随着机器学习技术的发展,研究者转向了基于机器学习的DGA域名检测方法,通过训练模型来学习DGA域名与正常域名之间的差异。为了提高检测效果,特征工程被结合到基于机器学习的DGA域名检测中。除了域名本身的特征,研究人员还考虑了其他与DGA相关的特征,如DNS查询模式、网络流量特征等。随着深度学习技术的兴起,越来越多的研究开始尝试使用神经网络模型来检测DGA域名。

然而，与传统的随机字符或算法生成的DGA域名不同，基于词典的DGA域名的字符分布特征以及“可读性”与正常域名非常接近，从而更具欺骗性和隐蔽性，更加难以被识别为恶意。现有的检测模型对基于词典的DGA域名的检测效果往往不佳。因此，为了解决单词DGA域名与良性域名相似度高、基于专家知识的特征抽取困难、现有方法对其检测效果不佳的问题,本发明提出一种基于语义表示的深度DGA域名检测方法及系统。

此外，在对DGA域名检测模型的训练中，传统方法需要基于大量的域名流量数据进行，一方面，现缺乏公开的大规模域名流量数据；另一方面，域名流量数据的采集是费时费力，且涉及数据隐私保护的。因此，本发明提出一种基于语义表示的深度DGA域名检测方法及系统，能够基于公开的域名排名榜单，生成仿真域名流量数据，帮助模型自动化提取域名数据中的语义特征，在无需进行额外流量采集的情况下，提高DGA域名检测性能。

发明内容

为了解决域名流量采集困难，基于通用语料库训练域名分词模型效果不佳的的问题，以及单词DGA域名与良性域名相似度高、基于专家知识的特征抽取困难、现有方法对其检测效果不佳的问题,本发明提出一种基于语义表示的DGA域名检测方法及装置，实现了对单词DGA域名的高效识别。

根据本公开实施例的第一方面，提供了一种基于语义表示的DGA域名检测方法，包括：

对待检测域名进行分词处理，得到若干子词；

计算每一子词的词嵌入表示；

基于所有子词的词嵌入表示，得到所述待检测域名的DGA域名检测结果。

进一步地，所述对待检测域名进行分词处理，得到若干子词，包括：

获取公开良性域名热度排名榜单；

设定一常数C，所述常数C大于所述域名热度排名榜单中包含域名样本的总数量；

获取每一域名样本i在所述域名热度排名榜单中的域名排名r_i；

基于所述常数C和所述域名排名r_i，计算域名样本i在扩展后样本数据集中的域名出现次数f_i，以得到扩展后样本数据集；其中，扩展后样本数据集中的域名数据分布符合齐普夫定律；

基于扩展后样本数据集对BPE模型进行预训练；

基于预训练的BPE模型对待检测域名进行分词处理，得到若干子词。

进一步地，所述计算每一子词的词嵌入表示，包括：

在由良性域名样本构建的数据集上进行分词，获得用于训练词嵌入模型的语料库；

根据所述语料库对词嵌入模型进行预训练；

基于预训练的词嵌入模型，得到每一子词的词嵌入表示。

进一步地，所述词嵌入模型包括：CBOW模型或Skip-gram模型。

进一步地，所述基于所有子词的词嵌入表示，得到所述待检测域名的DGA域名检测结果，包括：

将所述待检测域名的所有子词的词嵌入表示贯序输入分类器；

使用分类器对所述待检测域名的词嵌入表示进行分类，得到所述待检测域名的DGA域名检测结果。

进一步地，所述分类器包括：biLSTM模型，所述分类器的训练在由良性域名样本和DGA域名样本组成的语料库上进行。

根据本公开实施例的第二方面，提供了一种基于语义表示的DGA域名检测装置，包括：

分词模块，用于对待检测域名进行分词处理，得到若干子词；

词嵌入模块，用于计算每一子词的词嵌入表示；

分类器，用于基于所有子词的词嵌入表示，得到所述待检测域名的DGA域名检测结果。

根据本公开实施例的第三方面，提供了一种计算机设备，所述计算机设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现上述任一项所述的基于语义表示的DGA域名检测方法。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时，以实现上述任一项所述的基于语义表示的DGA域名检测方法。

与现有技术相比，本发明具有以下优势：

1.本发明提出一种基于扩展语料的BPE域名分词方法用于域名数据预处理。相比与传统的BPE分词方法，本方法是面向数据的，无需进行流量采集，即可训练出高质量的BPE分词模型，能有效解决大规模域名流量数据难以获取、采集门槛高的问题，基于小规模流量数据BPE分词效果不佳的问题。

2.基于所述一种基于扩展语料的BPE域名分词方法，本发明融合使用skipgram的特征表示以进行语义信息捕捉与上下文信息获取，采用biLSTM进行特征的自动抽取从而完成对域名的检测，更好的保留了域名二级域名与顶级域的相互关系，这种组合能够有效提高整个域名检测模型对DGA域名，尤其是对单词DGA域名的识别。基于所述一种基于扩展语料的BPE域名分词方法能够有效帮助后续的词嵌入模型和分类模型提取和保留良性域名的语义特征，提高整个模型对DGA域名特别是单词DGA域名的识别能力。

3.本文方法的DGA域名检测效果到达了目前领先的水平，比检测效果世界领先的基准模型Bilbo的模型参数更少、模型结构更简单、模型训练时间更短，而具有更高的查准率、召回率和F1分数，分别高了3.83％、6.84％和5.33％。

附图说明

图1是本申请实施例提出的一种基于语义表示的DGA域名检测方法的流程示意图。

具体实施方式

为了使本发明的目的、方案及优点更加清楚明白，以在真实鱼类微体化石上进行的实验为例，对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明针对单词类DGA域名难以检测的问题，提出了一种基于语义表示的DGA域名检测方法如图1所示，主要包含：分词模块、词嵌入模块以及分类器。相较于现有模型，本发明使用了对域名语料库扩充的方法来训练BPE分词算法，以更好地保留域名内部的词形结构和语义特征，并结合使用Skip-gram模型对域名进行词嵌入以捕捉上下文信息与数据降维，最终采用biLSTM以提取域名词片前后关联的深层次序列特征，实现对单词DGA域名的高效识别。具体包括以下步骤：

本发明在实验中采集良性域名与DGA域名作为样本数据集。其中，良性域名的样本为来自majestic-million排名前10,000个热门网站；DGA域名的样本选用DGArchive提供的2020-06-19版本(数据截止到2019年)DGA域名数据集，并从中选择了15种不同类型的DGA域名，包含字符分布情况与良性域名极为相似的Worldlist-based DGA家族，以及字符分布情况与良性域名相差较大的其他DGA家族。而后，对所述样本数据集进行数据预处理，按照8:2的比例划分，将80％作为训练集，20％作为测试集。

所述分词模块，本发明使用BPE(Byte-Pair encoding)算法来替代以往域名被直接用于作为输入数据域以进行DGA域名检测，避免存在词汇表过大，对未知域名和罕见域名的处理能力低下的问题。在BPE编码过程中,开始时每个字符都被视为一个单独的符号。然后,根据字符序列的频率统计信息,将频率最高的字符对合并为一个新的符号,并更新字符序列的频率统计。这个过程会不断重复,直到达到预定的迭代次数或满足某个停止条件。通过这种方式，BPE可以将文本数据中的复杂词汇和短语拆分为较小的子词单元作为模型的输入。作为一种基于统计的分词方法，BPE可以将高频出现的子词有限提取出来，并且不同于n-gram子词的长度是非固定的，能更好地保留词内语意义特征；此外，相比与n-gram，由于词汇表的规模是依据训练的迭代轮次线性增长，而非指数增长的。分词方法具体为：首先，将majestic-million数据集中排名前10,000的域名作为语料库corpus对BPE模型进行预训练。对包含k个域名数据(k＝10,000)的数据集的语料扩充方式为，设定域名排名与其在扩充后的语料库corpus中的出现频次关系如公式(1)所示，

其中，r_i为域名的排名，f_i为域名出现的次数(例如排名第一的域名“google.com”，其域名排名为r₁，其域名出现的次数为f₁，f₁*r₁＝C，本文中设定的常数C＝1,000,000)，通过计算生成一个新的语料库corpus2。扩展后的域名数据分布符合齐普夫定律(zipf’slaw)；然后，然后使用预训练好的BPE模型对域名数据进行分词。例如，BPE模型对排名第1的域名"google.com"的分词结果为：['google','.','com']。BPE模型对排名第10000的域名“danielpiedrabuena.com”的分词结果为：['da','ni','el','pi','ed','ra','bu','en','a','.','com']。google在域名中是内涵丰富的存在，作为整体被保留了下来，而排名靠后的域名则被切割成了更小的子词，以起到缩小词汇表，提高未知域名和罕见域名的处理能力的作业。在基于本方法对良性域名榜单进行数据扩展生成的语料库上对BPE模型进行训练，能够显著提高分词结果的效果，帮助保留更多的语义信息的同时，缩小词汇表，有效提高后续分类模型对DGA域名的识别能力。

所述词嵌入模块，用于将单词映射到高维向量空间进行特征抽取，通过将离散的文本特征(如单词)映射到低维的连续特征空间表示来捕捉到单词之间的语义和上下文关系。词嵌入模型需要在大规模语料上进行训练，从而为每个单词生成对应的向量表示。这些向量可以作为输入数据的特征向量,并用于构建机器学习模型或深度学习模型。因此，相比于one-hot等离散编码,词嵌入可以生成器更为密集的特征向量，具有降维效果，有助于减少模型的计算复杂性,并且可以提高模型的泛化能力。为了提高模型的泛化能力，本发明分别采用Skip-gram模型和CBOW模型，在majestic-million数据集的全量数据上，基于BPE分词后的语料库进行词嵌入模型的预训练。

所述分类器，用于将输入数据分为不同的类别或标签。分类器能够依据已知的数据集中的特征和标签进行训练，并根据这些学习到的知识对新的未标记数据进行分类。LSTM(Long Short-Term Memory)是一种循环神经网络(Recurrent Neural Network,RNN)的变体,通过加入记忆单元、输入门、遗忘门和输出门，解决了传统RNN所面临的梯度消失问题，从而更好地学习序列间的长期依赖关系。在对DGA域名数据的分析中，本发明发现顶级域与DGA域名家族存在强相关关系，所以域名反向的依赖关系对于DGA域名的判断仍然重要。因此，本发明所使用的分类器为双向长短记忆网络(Bidirectional Long Short-TermMemory,BiLSTM)。biLSTM是在LSTM的基础上做了扩展，同时考虑了序列数据的前向和后向上下文信息，能够兼顾域名的正向序列依赖关系与反向依赖关系，其具体方法为：首先利用两个独立的LSTM层,一个从前向处理序列，另一个从后向处理序列，分别捕捉了过去和未来的上下文信息；然后，前向和后向LSTM层分别将输入序列按照时间步从头到尾和从尾到头进行处理，并输出两个方向的隐藏状态序列；最后,这两个方向的隐藏状态可以被连接或合并起来,用于进一步的任务处理。

本实验的基准模型为Highnam等人提出的Bilbo模型。该模型同样是针对词典类DGA变体的域名检测，通过并行使用CNN模型和和LSTM模型，在基于词典生成方法的DGA域名检测中具有SOTA效果。

	Bilbo	BP-BiND
			Precision	0.9378	0.9761
Recall	0.9281	0.9965
			F1_score	0.9327	0.9860

表1本发明模型(BP-BiND)与Bilbo模型检测结果对比

综上所述，本发明提出了一种域名语料扩充方法，语料的频率-排名分布符合zipf’s law，在扩充语料上进行BPE分词能更好保留域名词内的语义特征。

此外，在以往的DGA域名检测研究中,存在词汇表过大，对未知域名和罕见域名的处理能力低下的问题，本发明使用BPE算法用于域名的分词，通过将文本数据中的复杂词汇和短语拆分为较小的子词单元来避免此问题。

还有，为了提高模型的泛化能力，本文选择Skip-gram在majestic-million数据集的全量数据上，基于BPE分词后的语料库进行词嵌入模型的预训练。

最后，本发明发现顶级域与DGA域名家族存在强相关关系，域名反向的依赖关系对于DGA域名的判断仍然重要，因此在使用BPE分词和词嵌入以后，为了域名的正向序列依赖关系与反向依赖关系，本文通过BiLSMT进行域名特征的自动化抽取和分类工作.

以上所述为本发明的一个实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于语义表示的DGA域名检测方法，其特征在于，所述方法包括：

对待检测域名进行分词处理，得到若干子词；

计算每一子词的词嵌入表示；

2.如权利要求1所述的方法，其特征在于，所述对待检测域名进行分词处理，得到若干子词，包括：

获取公开良性域名热度排名榜单；

基于扩展后样本数据集对BPE模型进行预训练；

3.如权利要求1所述的方法，其特征在于，所述计算每一子词的词嵌入表示，包括：

根据所述语料库对词嵌入模型进行预训练；

基于预训练的词嵌入模型，得到每一子词的词嵌入表示。

4.如权利要求3所述的方法，其特征在于，所述词嵌入模型包括：CBOW模型或Skip-gram模型。

5.如权利要求1所述的方法，其特征在于，所述基于所有子词的词嵌入表示，得到所述待检测域名的DGA域名检测结果，包括：

6.如权利要求5所述的方法，其特征在于，所述分类器包括：biLSTM模型，所述分类器的训练在由良性域名样本和DGA域名样本组成的语料库上进行。

7.一种基于语义表示的DGA域名检测装置，其特征在于，所述装置包括：

词嵌入模块，用于计算每一子词的词嵌入表示；

8.一种计算机设备，其特征在于，所述计算机设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如权利要求1-6任一项所述的基于语义表示的DGA域名检测方法。

9.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时，以实现权利要求1至6任一项所述的基于语义表示的DGA域名检测方法。