CN115658879A

CN115658879A - 自动化威胁情报文本聚类方法和系统

Info

Publication number: CN115658879A
Application number: CN202211703304.5A
Authority: CN
Inventors: 李锟; 刘广坤; 董龙飞; 杨大路; 翟湛鹏; 刘志宏
Original assignee: Beijing Tianji Youmeng Information Technology Co ltd
Current assignee: Beijing Tianji Youmeng Information Technology Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-01-31

Abstract

本发明提供一种自动化威胁情报文本聚类方法、系统、存储介质和电子设备，涉及文本聚类技术领域。本发明包括，获取并预处理威胁情报的若干文本；采用TEXTRANK算法进行词过滤；将词过滤后的文本进行文本向量化；将文本向量后的向量进行降维；根据降维后的向量，采用DBSCAN算法进行聚类处理，获取聚类结果。提高聚类威胁情报文本的自动化程度，保证聚类结果的可用性，以及提高聚类速度。

Description

自动化威胁情报文本聚类方法和系统

技术领域

本发明涉及文本聚类技术领域，具体涉及一种自动化威胁情报文本聚类方法、系统、存储介质和电子设备。

背景技术

随着网络安全行业以及互联网的发展，网络中的不法行为随之增加，为避免被不法行为侵害，针对各网络不法行为的威胁情报日益增加。为了更好的利用威胁情报，情报分析人员会对收集到的威胁情报进行分析处理，提取、分析出有用信息，帮助用户能够更好的防止网络威胁。

但随着如今网络威胁情报数量增加，情报分析人员面对大量的威胁情报出现不能及时处理，长此以往会失去威胁情报的实效性。为减缓情报分析人员处理情报的压力，有必要对威胁情报进行聚类处理。如此情报分析时，可以针对不同类别的情报进行分析，可以提高情报分析速度。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种自动化威胁情报文本聚类方法、系统、存储介质和电子设备，解决了面对大量的威胁情报出现不能及时处理，长此以往会失去威胁情报的实效性的技术问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种自动化威胁情报文本聚类方法，包括：

S1、获取并预处理威胁情报的若干文本；

S2、根据预处理后的文本，采用TEXTRANK算法进行词过滤；

S3、将词过滤后的文本进行文本向量化；

S4、将文本向量后的向量进行降维；

S5、根据降维后的向量，采用DBSCAN算法进行聚类处理，获取聚类结果。

优选的，所述S1中的预处理过程包括：统一文本格式；句子分割；分词；词规范化；去停用词。

优选的，所述S2中采用TEXTRANK算法进行词过滤，具体包括：

S21、计算文本中的各单词的权重；

其中，

、

表示单词i、j的权重；

表示单词i；

表示单词i和j之间的权重；d为阻尼系数；

表示

的前驱结点集合；

表示

的后继结点集合，

表示后继结点集合中单词k；

S22、根据权重对所有单词进行非升序排列，筛选出排序靠前、占文本单词总数预设比例的单词集合；

S23、将文本中不位于上述单词集合中的单词过滤。

优选的，所述S3中采用基于TF-IDF或基于sentence-transformers的文本向量化方法进行文本向量化。

优选的，所述S4中采用PCA、T-SNE或UMAP算法进行降维。

优选的，所述S5具体包括：

S51、定义邻域半径epsilon，以及在邻域半径内的最少点数min_sample，所有点均标记为unvisited；

S52、从任意点q开始访问，标记为visited；并判断点q是否满足min_sample判断标准，若不满足，则将其标记为噪声点，否则创建一个新的簇C，将位于点q的epsilon邻域内所有点都放到候选集合N中；

S53、将候选集合N中不属于其它簇的点添加至C中；在此过程中，对于N中标记为unvisited的点q’标记为visited，并判断点q’是否满足min_sample判断标准，若满足，则将位于点q’的epsilon邻域内所有点都放到候选集合N中；继续添加点至C中，直到候选集合N为空，至此完成簇C；

S54、从剩余的点中随机选择下一个未访问对象，重复S53直至完成聚类。

优选的，所述S51中采用k-距离曲线确定epsilon的值。

一种自动化威胁情报文本聚类系统，包括：

预处理模块，用于获取并预处理威胁情报的若干文本；

过滤模块，用于根据预处理后的文本，采用TEXTRANK算法进行词过滤；

向量化模块，用于将词过滤后的文本进行文本向量化；

降维模块，用于将文本向量后的向量进行降维；

聚类模块，用于根据降维后的向量，采用DBSCAN算法进行聚类处理，获取聚类结果。

一种存储介质，其存储有用于自动化威胁情报文本聚类的计算机程序，其中，所述计算机程序使得计算机执行如上所述的自动化威胁情报文本聚类方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的自动化威胁情报文本聚类方法。

（三）有益效果

本发明提供了一种自动化威胁情报文本聚类方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明包括，获取并预处理威胁情报的若干文本；采用TEXTRANK算法进行词过滤；将词过滤后的文本进行文本向量化；将文本向量后的向量进行降维；根据降维后的向量，采用DBSCAN算法进行聚类处理，获取聚类结果。提高聚类威胁情报文本的自动化程度，保证聚类结果的可用性，以及提高聚类速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种自动化威胁情报文本聚类方法的流程示意图；

图2为本发明实施例提供的一种自动化威胁情报文本聚类系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种自动化威胁情报文本聚类方法、系统、存储介质和电子设备，解决了面对大量的威胁情报出现不能及时处理，长此以往会失去威胁情报的实效性的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例包括，获取并预处理威胁情报的若干文本；采用TEXTRANK算法进行词过滤；将词过滤后的文本进行文本向量化；将文本向量后的向量进行降维；根据降维后的向量，采用DBSCAN算法进行聚类处理，获取聚类结果。提高聚类威胁情报文本的自动化程度，保证聚类结果的可用性，以及提高聚类速度。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

如图1所示，本发明实施例提供了一种自动化威胁情报文本聚类方法，包括：

S1、获取并预处理威胁情报的若干文本；

S2、根据预处理后的文本，采用TEXTRANK算法进行词过滤；

S3、将词过滤后的文本进行文本向量化；

S4、将文本向量后的向量进行降维；

通过上述技术方案，提高了聚类威胁情报文本的自动化程度，保证聚类结果的可用性，以及提高聚类速度。

接下来将详细介绍方案的各个步骤：

在步骤S1中，获取并预处理威胁情报的若干文本。

通常情况下，威胁情报文本数据是带有噪音的，例如存在特有格式等。所以，在使用之前需要对其清理。其目的是将文本拆分为一个一个的单词供计算机程序使用。数据主要来源于网页，格式比较混乱，本发明实施例的处理流程如下：

(1). 移除不需要的格式：比如HTML的格式，编码不统一等。

(2). 句子分割：将文本拆分为句子。

(3). 分词：将句子拆分为单词。

(4). 词规范化：将单词转换为规范形式。如统一小写，缩写展开，移除形态和拼写纠错等。

(5). 去停用词：删除不需要的词，同时会将标点删除。

在步骤S2中，根据预处理后的文本，采用TEXTRANK算法进行词过滤。

TEXTRANK是一种用于文本的基于图的排序算法，其利用文本内词之间的共现信息作为词之间的联系，计算文本的关键词。它能够从一个给定的文本中抽出关键词，关键词组，可以使用抽取式摘要的方式抽出该文本的重点句子。

本步骤采用TEXTRANK算法进行词过滤，具体包括：

S21、计算文本中的各单词的权重；

其中，

、

表示单词i、j的权重；

表示单词i；

表示单词i和j之间的权重；d为阻尼系数；

表示

的前驱结点集合；

表示

的后继结点集合，

表示后继结点集合中单词k。

S22、根据权重对所有单词进行非升序排列，筛选出排序靠前、占文本单词总数预设比例的单词集合。例如，筛选出排序序号小于等于文本单词总数50%的单词，当然本领域技术人员也可以根据实际情况指定其他预设比例值。

S23、将文本中不位于上述单词集合中的单词过滤。

通过TEXTRANK对每一篇文本进行计算，对文本中的每个词获取一个权重，该权重可以表示词对文本的重要性，根据权重对词进行排序，获取重要性比较高的词。根据该集合将文本中不在集合中的词过滤，通过这种方式可以减少词的数量，进而可以减少单词文本矩阵的维度。

本发明实施例引入了TEXTRANK算法计算单词对文本的重要度，以此作为词过滤的依据。从词数量的角度对文本进行了过滤，降低了单词-文本矩阵的维度，降低后续处理的复杂度；在过滤时，考虑到词的对文本的重要度，将重要度较低的单词过滤，充分保留了对文本主题表达较重要的单词，对文本的主题表示不会产生较大影响。

在步骤S3中，将词过滤后的文本进行文本向量化。

在文本向量化阶段主要集成了两种方式，一种为开源库scikit-learn中的TF-IDF方法，另一种为开源库sentence-transformers中计算embedding的方法。本发明实施例通过两个开源库分别实现了基于TF-IDF和基于sentence-transformers的两种文本向量化方法，使用时灵活调用两种方法。

其中，scikit-learn是一个开源的机器学习库，它支持有监督和无监督学习方法；它也提供了多种方法来进行模型拟合，数据预处理，模型选择，模型测试和多种其它功能。

Sentence-transformers是一个实现SOTA（最先进）的句子，文本和图像embedding方法的python库，该框架主要基于Pytorch和Transformers实现，并且提供了大量的预训练模型。

(1). TF-IDF算法可以衡量词在文本中的重要度，一个词的TF-IDF值越高，词在文本中的重要度越高，其计算方式如下：

其中，TF表示词频，某个单词在文本中出现次数，TF认为单词在文本中出现次数越多，越重要；IDF表示逆文本频率，IDF认为某个单词在越多的文本中出现，则该单词对文本的重要性越低；Count(W)表示单词W出现在文本中的次数；Count(A)表示文本A中单词的数量；Count(D)表示语料库中文本的数量；have(W)表示包含单词W的文本集合。

在通过TF-IDF进行文本向量化时，首先计算文本-单词矩阵，矩阵中每个值代表单词在对应文本中的出现次数；通过TF-IDF算法，可以计算文本-单词矩阵的TF-IDF值；每篇文本的向量可以由该文本在矩阵中对应的行确定。

(2). 基于sentence-transformers的embedding方法是一个将离散变量转变为连续向量表示的方法，embedding不仅可以减少离散变量的空间维度，同时可以有意义的表示该变量。

由于sentence-transformers对输入长度有限制，本发明实施例利用TEXTRANK算法选取关键句，然后将选取的句子输入sentence-transformers中，计算出各个关键句的embedding，取平均值作为文本的向量。

TEXTRANK算法选取关键句，根据上述TEXTRANK算法的介绍，

表示句子i，

表示句子i和j之间的相似度，相似度是sentence-transformers计算两个句子的embedding的cosine相似度。

本发明实施例为了解决sentence-transformers的模型输入长度限制，决定利用TEXTRANK算法选取关键句，可以包含文本的主要含义，然后使用关键句的sentence-transformers产生的embedding平均值作为文本的向量。即可以保证文本的基本含义又解决了模型输入长度的限制。

在步骤S4中，将文本向量后的向量进行降维。

在降维阶段主要集成了当前比较流行的PCA（Principal Component Analysis，主成分分析）、T-SNE（t-distributed Stochastic Neighbor Embedding ，t-分布领域嵌入）以及UMAP（Uniform Manifold Approximation and Projection for DimensionReduction，一致的流形逼近和投影以进行降维）算法，均通过现有的python库调用实现，可根据情况选取合适的算法。PCA主要保留数据的全局结构特征，T-SNE主要保留数据的局部结构特征，UMAP则是兼顾全局结构和局部结构特征。通过上述的文本向量化方法可以获取文本的Embedding表示，但是向量维度一般比较大，在后续的文本聚类中，过大的向量维度对文本的表示过于细致，此时会影响后续文本聚类的效果。所以可以选择通过降维的方式获取对文本表示较为重要的维度作为新的向量。例如，本发明实施例可以选择UMAP方法进行降维，具体使用时可根据实际情况替换。

在步骤S5中，根据降维后的向量，采用DBSCAN算法进行聚类处理，获取聚类结果；具体包括：

S51、定义邻域半径epsilon，以及在邻域半径内的最少点数min_sample，所有点均标记为unvisited（未访问的）；

S52、从任意点q开始访问，标记为visited（已访问的）；并判断点q是否满足min_sample判断标准，若不满足，则将其标记为噪声点，否则创建一个新的簇C，将位于点q的epsilon邻域内所有点都放到候选集合N中；

正如上述所言，本步骤中文本聚类主要使用scikit-learn中的DBSCAN方法（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法），该方法存在两个对聚类结果影响较大的两个参数：min_samples和epsilon。

其中，参数min_samples，表示形成类别的最小样本数量，其设定的大小可以决定类别的数量。参数epsilon，代表被认为互为邻居的两个点之间的最大距离。该参数设置是否合理能够影响到文本聚类效果。

特别的，本发明实施例通过计算k-距离曲线的曲率对epsilon的选择进行了自动化设置；包括：

（1）Pjer的离散点曲率计算方法

设三个离散点(x₁,y₁)，(x₂,y₂)，(x₃,y₃)，使用中间点(x₂,y₂)作为这三个点的曲率估计。

将x，y表示成参数形式，

，方程中含有6个未知数，列6个方程解出

。

使用两段矢量作为t的取值范围，

，参数t的需要满足如下条件：

，则

，

。

写成矩阵形式为

，

，可以简写为X=MA，Y=MB，其中，M=

可以使用求解矩阵逆的方式求解线性方程，A=M^-1 X，B=M^-1Y。

求出

就可以求解曲率了：

，

，

，

。

最终的曲率计算公式为，

。

（2）DBSCAN算法的参数epsilon，代表被认为互为邻居的两个点之间的最大距离。该参数设置是否合理能够影响到文本聚类效果。

一般情况下，通过观察k-距离曲线来确定epsilon的值。k-距离曲线通过计算每个样本与其最近的第k个样本之间的距离，并且从小到大排序，得到k-距离曲线，选择曲线拐点对应的距离作为epsilon的参数。

为了能够使算法自动选择合适的epsilon，本发明实施例引入了离散点的曲率计算方式，选择k-距离曲线的曲率最大的点作为算法的epsilon值。

在数学中，曲率就是描述几何体的弯曲程度。Pjer的离散点曲率计算方法使用三个点确定的二次曲线的曲率作为估计的曲率。使用该方法计算k-距离曲线的拐点。

参数epsilon选择步骤如下：

(1) 计算每篇文本之间的cosine相似度。

(2) 为每篇文本选择最近k个文本。

(3) 为每篇文本的最近k个文本进行排序。

(4) 选择相似度最低的值。

(5)将选择的值排序。

(6) 按照顺序每三个点按照上述方法计算曲率。

(7)选择曲率最大的点的值作为epsilon。

本发明实施例通过引入曲率，寻找k-距离曲线的拐点，作为epsilon的值，能够提高文本聚类的自动化程度，若对epsilon值采用定值方式，不能适配所有线上环境，会降低聚类结果；若使用时人工确认k-距离曲线确定epsilon值，这会降低自动化程度；若通过参数搜索的方式确定值会增加聚类过程的时间成本。

如图2所示，本发明实施例提供了一种自动化威胁情报文本聚类系统，包括：

预处理模块，用于获取并预处理威胁情报的若干文本；

向量化模块，用于将词过滤后的文本进行文本向量化；

降维模块，用于将文本向量后的向量进行降维；

本发明实施例提供了一种存储介质，其存储有用于自动化威胁情报文本聚类的计算机程序，其中，所述计算机程序使得计算机执行如上所述的自动化威胁情报文本聚类方法。

本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

可理解的是，本发明实施例提供的自动化威胁情报文本聚类系统、存储介质和电子设备与本发明实施例提供的自动化威胁情报文本聚类方法相对应，其有关内容的解释、举例和有益效果等部分可以参考自动化威胁情报文本聚类方法中的相应部分，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例引入了TEXTRANK算法计算单词对文本的重要度，以此作为词过滤的依据。从词数量的角度对文本进行了过滤，降低了单词-文本矩阵的维度，降低后续处理的复杂度；在过滤时，考虑到词的对文本的重要度，将重要度较低的单词过滤，充分保留了对文本主题表达较重要的单词，对文本的主题表示不会产生较大影响。

2、本发明实施例为了解决sentence-transformers的模型输入长度限制，决定利用TEXTRANK算法选取关键句，可以包含文本的主要含义，然后使用关键句的sentence-transformers产生的embedding平均值作为文本的向量。即可以保证文本的基本含义又解决了模型输入长度的限制。

3、本发明实施例通过引入曲率，寻找k-距离曲线的拐点，作为epsilon的值，能够提高文本聚类的自动化程度，若对epsilon值采用定值方式，不能适配所有线上环境，会降低聚类结果；若使用时人工确认k-距离曲线确定epsilon值，这会降低自动化程度；若通过参数搜索的方式确定值会增加聚类过程的时间成本。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。