CN115438340A

CN115438340A - 一种基于词素特征的挖矿行为识别方法及系统

Info

Publication number: CN115438340A
Application number: CN202211063008.3A
Authority: CN
Inventors: 彭立志; 李辉; 郝逸航; 吕梦达
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-06

Abstract

本发明公开了一种基于词素特征的挖矿行为识别方法及系统，属于网络空间安全技术领域；本发明从域名检测的角度，引入词素的概念，将快速正则匹配方法与挖矿行为模型相结合，实现对加密货币挖矿行为的快速识别，进一步实现对挖矿行为的有效监管。解决了现有技术中存在“识别过程需要分析大量的样本才能作出可靠判断，很难在挖矿行为刚发生时及时响应，需要大量数据对模型进行训练，模型优劣受数据集好坏影响”的问题。

Description

一种基于词素特征的挖矿行为识别方法及系统

技术领域

本申请涉及网络空间安全技术领域，特别是涉及一种基于词素特征的挖矿行为识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

近年来随着加密货币价格的暴涨，主机挖矿行为也在利益的驱使下更加普遍，且其中包含一些不法分子利用挖矿木马劫持主机，在使用者毫不知情的情况下悄悄榨取计算机资源的情况。

为了对挖矿行为进行有效的监管，研究者们提出了一些识别方案。其中主要有三个方向，其一是通过在主机上部署可以监测硬件状态或者检测系统调用的进程特征码的应用来推测该主机是否发生了挖矿行为。这种方案的弊端是需要管理者主动安装该应用，很容易逃避监管。其二是通过分析通信内容(如DPI分析)，提取网络流量数据包中的负载信息进行相关的信息识别。由于该方法可以对流量负载内容中的矿池通信协议特征进行识别，因此可以准确地判断挖矿行为的存在。但是这种方案存在两个主要问题，一是提取负载信息会消耗大量的资源进而降低检测速度；二是在区块链匿名性的加强和多方维护的设计下，大多数加密货币都采用TLS等协议进行加密通信，这导致基于分析通信内容的分析的方法不再有效。其三是通过收集大量挖矿通信流量提取特征后训练机器学习模型，然后利用该模型来判断网络数据中是否包含挖矿流量。这种解决方案由于其准确率高、可靠性强等优势而被广泛使用，但仍存在问题，一是识别过程中通常需要分析大量的样本才能做出可靠判断，进而很难在挖矿行为刚发生时的及时响应；二是该方法需要大量的数据对机器学习模型进行训练，而数据集的好坏直接决定了模型的优劣。

发明内容

考虑到现有技术的不足，本申请提供了一种基于词素特征的挖矿行为识别方法及系统，根据通信模式通常需要先进行域名请求的特点，从域名检测的角度，引入词素的概念，将快速正则匹配方法与机器学习模型相结合，实现对加密货币挖矿行为的快速识别，进一步实现对挖矿行为的有效监管。

第一方面，本申请提供了一种基于词素特征的挖矿行为识别方法；

一种基于词素特征的挖矿行为识别方法，包括：

获取挖矿域名数据集和正常域名数据集，对挖矿域名数据集中的挖矿域名进行词素分割，构建挖矿域名词素库；

根据挖矿域名和挖矿域名词素，对挖矿域名的正则表达式进行分组；

根据挖矿域名数据集和正常域名数据集，划分训练数据和测试数据，训练挖矿行为识别模型；

提取DNS请求数据包中的待测域名，通过正则表达式组和挖矿行为识别模型对待测域名进行识别，输出待测域名的类别，判断发生DNS请求的主机是否存在或即将开始挖矿行为。

第二方面，本申请提供了一种基于词素特征的挖矿行为识别系统；

一种基于词素特征的挖矿行为识别系统，包括：数据库构建及模型训练模块，被配置为：获取挖矿域名数据集和正常域名数据集，对挖矿域名数据集中的挖矿域名进行词素分割，构建挖矿域名词素库；根据挖矿域名和挖矿域名词素，对挖矿域名的正则表达式进行分组；根据挖矿域名数据集和正常域名数据集，划分训练数据和测试数据，训练挖矿行为识别模型；

挖矿行为识别模块，被配置为：提取DNS请求数据包中的待测域名，通过含有挖矿域名语义词素的正则表达式组和挖矿行为识别模型对待测域名进行识别，输出待测域名的类别，判断发生DNS请求的主机是否存在或即将开始挖矿行为。

第三方面，本申请提供了一种电子设备；

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述基于词素特征的挖矿行为识别方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质；

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述基于词素特征的挖矿行为识别方法的步骤。

与现有技术相比，本申请的有益效果是：

1、本申请针对加密货币挖矿行为检测，提出了一种根据DNS请求进行挖矿行为识别的方法，为挖矿行为提供了一种新的研究思路；

2、本申请在正则匹配中引入了词素的概念，为划分多组正则表达式提供了更为有效的语义性划分依据，提高了正则表达式的匹配速度；

3、本申请针对加密货币挖矿行为识别，提取了比传统域名特征更有意义的语义词素特征，提高了识别挖矿域名的准确率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例提供的基于词素特征的挖矿行为识别方法的流程示意图；

图2为本申请实施例提供的将正则表达式存储到哈希表的流程示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

术语解释：

词素：域名字符串中具有一定语义或语法功能的最小单位(只考虑字符串长度大于2的词素)。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

现有技术中的挖矿行为识别技术，在识别过程中通常需要分析大量的样本才能做出可靠判断，进而很难在挖矿行为刚发生时的及时响应；还需要大量的数据对机器学习模型进行训练，模型的性能优劣受数据集好坏的影响。因此，本申请提供了一种基于词素特征的挖矿行为识别方法。

一种基于词素特征的挖矿行为识别方法，包括：

进一步的，通过含有挖矿域名语义词素的正则表达式组和挖矿行为识别模型对待测域名进行识别包括：

对待测域名进行词素分割，获取词素集合；

根据词素集合和正则表达式组进行正则匹配，若匹配成功，则输出匹配结果；若匹配不成功，将待测域名输入挖矿行为识别模型；

挖矿行为识别模型提取待测域名的原始特征，根据原始特征对待测域名进行分类，输出待测域名的类别和置信度。

进一步的，若在挖矿行为识别模型中将待测域名识别为挖矿域名且置信度大于第一阈值，当大于第一阈值的挖矿域名数量达到第二阈值时，根据挖矿域名的词素，更新含有挖矿域名语义词素的正则表达式组和挖矿域名词素库。

进一步的，挖矿行为识别模型包括特征提取模块、特征整合模块、分类器和更新缓冲区；

特征提取模块用于提取待测域名的原始特征，原始特征包括网络特征、字符串特征和词素特征；

特征整合模块用于整合网络特征、字符串特征和词素特征；

分类器用于获取整合后的特征，根据整合后的特征和特征集输出待测域名类别和置信度；

更新缓冲区用于存储类别为挖矿域名且置信度小于第一阈值的待测域名，并在待测域名的数量达到第二阈值时，对待测域名进行词素分割，更新含有挖矿域名语义词素的正则表达式组和挖矿域名词素库。

进一步的，特征集包括挖矿域名数据集中挖矿域名和正常域名数据集中正常域名的网络特征和字符串特征以及挖矿域名的词素特征。

进一步的，对挖矿域名数据集中的挖矿域名进行词素分割，构建挖矿域名词素库包括：

根据挖矿域名进行词素分割，根据每个词素统计结果，将词素划分为挖矿语义词素和普通词素；其中，当某个词素的出现频次大于阈值，该词素叫做挖矿语义词素；当某个词素出现频次小于或等于阈值，该词素叫普通词素；

根据挖矿语义词素，构建挖矿域名词素库。

进一步的，根据挖矿域名和挖矿域名词素，对挖矿域名的正则表达式进行分组包括：

根据挖矿域名，构建挖矿正则表达式库；

检测正则表达式中是否含有挖矿语义词素，将含有挖矿语义词素的正则表达式分为一组，将不含有挖矿语义词素的正则表达式分为一组。

接下来，结合图1-2对本实施例公开的一种于词素特征的挖矿行为识别方法进行详细说明。

本实施例提供了一种基于词素特征的挖矿行为识别方法。

一种基于词素特征的挖矿行为识别方法，包括：

S1、获取挖矿域名数据集和正常域名数据集，对挖矿域名数据集中的挖矿域名进行词素分割，构建挖矿域名词素库；具体步骤包括：

S101、获取挖矿域名数据集和正常域名数据集；

S102、对挖矿域名数据集中的挖矿域名进行词素分割，根据分割后的词素统计结果，将词素划分为挖矿语义词素和普通词素；其中，当某个词素的出现频次大于阈值a(a>0)，该词素叫做挖矿语义词素；当某个词素出现频次小于或等于阈值a，该词素叫普通词素；当某个词素出现频次大于阈值a并且小于或等于阈值b(0<a<b)，该词素叫做弱挖矿语义词素(简称弱语义词素)；当某个词素出现频次大于阈值b，该词素叫做强挖矿语义词素(简称强语义词素)；其中，a，b的值是根据收集的挖矿域名数据集中的挖矿语义词素点的数量，根据大量运行的实验结果获取合适的a和b的值；

S103、根据挖矿语义词素，构建挖矿域名词素库，将挖矿语义词素存储到哈希表中；

S104、提取正常域名数据集中的正常域名和挖矿域名数据集中的挖矿域名的网络特征、字符串特征和词素特征，构建特征集；其中，网络特征可以为域名解析出的IP地址数量(在公共域名服务器上)、域名解析IP地址的时间(在公共域名服务器上)、顶级域名的长度和顶级域名字符串ASCLL码之和等，字符串特征可以为域名字符串中分割符“.”的数量、域名字符串中分割符“.”的数量、域名字符串中字母和数字的变换次数、域名字符串中元音字母的占比和域名字符串的总长度等，词素特征可以为域名字符串中强挖矿语义词素的数量、域名字符串中强挖矿语义词素的长度占比、域名字符串中弱挖矿语义词素的数量、域名字符串中弱挖矿语义词素的长度占比和域名字符串进行词素切割后词素的数量等。

S2、根据挖矿域名和挖矿域名词素，对挖矿域名的正则表达式进行分组；具体步骤包括：

S201、根据挖矿域名数据集中的挖矿域名，构建挖矿正则表达式库；

S202、检测正则表达式中是否含有挖矿语义词素，如图2所示，如果其包含某挖矿语义词素，则将其包含的挖矿语义词素通过哈希函数计算出关键字，根据关键字找到该挖矿语义词素在哈希表中的位置，然后把该正则表达式存储到该挖矿语义词素所指向的顺序列表中，重复这个过程，直到所有包含挖矿语义词素的正则表达式存储至对应的顺序列表，然后把其余不包含挖矿语义词素的正则表达式划分为单独一组，存储到一个顺序列表中。

S3、根据挖矿域名数据集和正常域名数据集，划分训练数据和测试数据，训练挖矿行为识别模型；其中，挖矿识别行为模型包括特征提取模块、特征整合模块、分类器和更新缓冲区；特征提取模块用于提取待测域名的原始特征，原始特征包括网络特征、字符串特征和词素特征；特征整合模块用于整合网络特征、字符串特征和词素特征；分类器用于获取整合后的特征，根据整合后的特征和原始特征集输出待测域名类别和置信度，分类器是基于训练集的训练数据构建的用于判断待测域名是否属于挖矿域名的分类模型，其中，训练数据包括正常域名数据和挖矿域名数据，分类模型可以为随机森林分类模型，对于待检测的域名，将对应的整合特征输入分类模型，该分类模型的输出结果为待检测域名的类别和置信度；更新缓冲区用于存储类别为挖矿域名且置信度大于第一阈值的待测域名，并在待测域名的数量达到第二阈值时，对待测域名进行词素分割，更新含有挖矿域名语义词素的正则表达式组和挖矿域名词素库；其中，第一阈值和第二阈值根据任务需求和经验设置。

S4、提取DNS请求数据包中的待测域名，通过含有挖矿域名语义词素的正则表达式组和挖矿行为识别模型对待测域名进行识别，输出待测域名的类别，判断发生DNS请求的主机是否存在或即将开始挖矿行为；具体步骤包括：

S401、提取DNS请求数据包中的域名字符串；

S402、将域名字符串进行词素分割，去除顶级域名词素和长度小于三的词素，获取词素集合；

S403、根据词素集合检索哈希表中可能匹配成功的正则表达式，即依次查询待测域名分割后的词素是否存在于哈希表中，若查询到可能匹配成功的正则表达式，则执行步骤S404；若未能检索到可能匹配成功的正则表达式，则将该待测域名与不包含任何挖矿语义词素的正则表达式列表进行匹配，若匹配成功，执行步骤S408，否则，执行步骤S405；

S404、将待测域名与检索到的可能匹配成功的正则表达式依次进行正则匹配，即将待测域名和待测域名分割后存在于哈希表中的词素所指向的正则表达式列表进行正则匹配；具体步骤如下：

S4041、根据待测域名分割后的词素集合中存在于哈希表中的第一个词素，将待测域名与该词素下的所有正则表达式依次进行正则匹配；若匹配成功，退出匹配算法，将待测域名识别为挖矿域名，执行步骤S208；

S4042、若待测域名与该词素下的所有正则表达式均匹配失败，就提取词素集合中的下一个词素重复执行步骤S4041；若待测域名与所有可能匹配成功的正则表达式均匹配失败，执行步骤S405；

S405、提取待测域名字符串特征(特征编号1-5)、网络特征(特征编号6-9)，根据词素库提取待测域名的词素特征(特征编号10-14)，本实施例中最终选取的特征如下表所示；

表1：待测域名需要提取的特征列表

特征编码	特征含义
		1	域名字符串中分割符“.”的数量
2	域名字符串的信息熵
		3	域名字符串中字母和数字的变换次数
4	域名字符串中元音字母的占比
		5	域名字符串的总长度
6	域名解析出的IP地址数量(在公共域名服务器上)
		7	域名解析IP地址的时间(在公共域名服务器上)
8	顶级域名的长度
		9	顶级域名字符串ASCLL码之和
10	域名字符串中强挖矿语义词素的数量
		11	域名字符串中强挖矿语义词素的长度占比
12	域名字符串中弱挖矿语义词素的数量
		13	域名字符串中弱挖矿语义词素的长度占比
14	域名字符串进行词素切割后词素的数量

S406、将步骤S405中提取到的待测域名的特征整合到一起，共同输入分类器，通过分类器进行待测域名的识别；若输出为正常域名，则该待测域名识别为正常域名；若输出为真且置信度小于阈值N₁，该待测域名识别为挖矿域名，执行步骤S208；若输出为真且置信度大于或等于阈值N₁，该待测域名识别为挖矿域名，执行步骤S207；其中，置信度为分类器输出预测为挖矿域名的概率，阈值N₁根据目标和经验获取，可动态调整；示例性的，通过python的sklearn库中的predict_proba获取置信度。

S407、将该待测域名添加存储至更新缓冲区，当更新缓冲区域名的数量达到阈值N₂时，将缓冲区中的域名进行词素分割，根据分割后的词素统计结果对词素库进行更新，根据缓冲区的域名构建正则表达式，更新存储正则表达式的哈希表；

S408、识别结束。

实施例二

本实施例公开了一种基于词素特征的挖矿行为识别系统，包括：

数据库构建及模型训练模块，被配置为：获取挖矿域名数据集和正常域名数据集，对挖矿域名数据集中的挖矿域名进行词素分割，构建挖矿域名词素库；根据挖矿域名和挖矿域名词素，对挖矿域名的正则表达式进行分组；根据挖矿域名数据集和正常域名数据集，划分训练数据和测试数据，训练挖矿行为识别模型；

此处需要说明的是，上述数据库构建及模型训练模块、挖矿行为识别模块对应于实施例一中的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本发明实施例三提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，计算机指令被处理器运行时，完成上述基于词素特征的挖矿行为识别方法的步骤。

实施例四

本发明实施例四提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述基于词素特征的挖矿行为识别方法的步骤。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于词素特征的挖矿行为识别方法，其特征是，包括：

2.如权利要求1所述的基于词素特征的挖矿行为识别方法，其特征是，所述通过正则表达式组和挖矿行为识别模型对待测域名进行识别包括：

对待测域名进行词素分割，获取词素集合；

根据词素集合和含有挖矿域名语义词素的正则表达式组进行正则匹配，若匹配成功，则输出匹配结果；若匹配不成功，将待测域名输入挖矿行为识别模型；

3.如权利要求2所述的基于词素特征的挖矿行为识别方法，其特征是，若在挖矿行为识别模型中将待测域名识别为挖矿域名且置信度大于第一阈值，当大于第一阈值的挖矿域名数量达到第二阈值时，根据挖矿域名的词素，更新含有挖矿域名语义词素的正则表达式组和挖矿域名词素库。

4.如权利要求1所述的基于词素特征的挖矿行为识别方法，其特征是，所述挖矿行为识别模型包括特征提取模块、特征整合模块、分类器和更新缓冲区；

所述特征提取模块用于提取待测域名的原始特征，所述原始特征包括网络特征、字符串特征和词素特征；

所述特征整合模块用于整合所述网络特征、所述字符串特征和所述词素特征；

所述分类器用于获取整合后的特征，根据整合后的特征和原始特征集输出待测域名类别和置信度；

所述更新缓冲区用于存储类别为挖矿域名且置信度大于第一阈值的待测域名，并在待测域名的数量达到第二阈值时，对待测域名进行词素分割，更新含有挖矿域名语义词素的正则表达式组和挖矿域名词素库。

5.如权利要求4所述的基于词素特征的挖矿行为识别方法，其特征是，所述原始特征集包括挖矿域名数据集中挖矿域名和正常域名数据集中正常域名的网络特征和字符串特征以及挖矿域名的词素特征。

6.如权利要求1所述的基于词素特征的挖矿行为识别方法，其特征是，所述对挖矿域名数据集中的挖矿域名进行词素分割，构建挖矿域名词素库包括：

根据挖矿语义词素，构建挖矿域名词素库。

7.如权利要求1所述的基于词素特征的挖矿行为识别方法，其特征是，所述根据挖矿域名和挖矿域名词素，对挖矿域名的正则表达式进行分组包括：

根据挖矿域名，构建挖矿正则表达式库；

8.一种基于词素特征的挖矿行为识别系统，其特征是，包括：

挖矿行为识别模块，被配置为：提取DNS请求数据包中的待测域名，通过正则表达式组和挖矿行为识别模型对待测域名进行识别，输出待测域名的类别，判断发生DNS请求的主机是否存在或即将开始挖矿行为。

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的的步骤。