CN116150509B

CN116150509B - 社交媒体网络的威胁情报识别方法、系统、设备及介质

Info

Publication number: CN116150509B
Application number: CN202310443033.2A
Authority: CN
Inventors: 杨英; 于鑫; 闫莉莉; 李雨颖; 于召勇; 王伟; 侯仰志; 马文豪
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-08-04
Anticipated expiration: 2043-04-24
Also published as: CN116150509A

Abstract

本发明提出了社交媒体网络的威胁情报识别方法、系统、设备及介质，涉及网络安全领域，具体方案包括：对从社交媒体网络中采集的文本数据进行预处理，得到单词库；将单词库中的单词转换为语义向量表示，将语义向量表示的单词作为节点，构建基于词语共现的图结构；使用图神经网络从图结构中提取结构特征，使用序列化模型从语义向量表示中提取语义特征，并将结构特征和语义特征进行融合；使用多层感知机对融合后的特征进行分类和识别，得到文本数据中的威胁情报；本发明使用图神经网络、序列化模型和多层感知机对社交媒体网络的文本数据进行特征提取和分类，快速准确地发现和识别网络安全威胁，提高分类和预测的准确性和效率。

Description

社交媒体网络的威胁情报识别方法、系统、设备及介质

技术领域

本发明属于网络安全领域，尤其涉及社交媒体网络的威胁情报识别方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着社交媒体的普及和应用，越来越多的网络安全问题从互联网传播到社交媒体上，监控和分析社交媒体网络上的威胁情报变得尤为重要。传统的威胁情报收集方法主要基于人工或自动化的搜索引擎，但这些方法往往效率低下且存在误报漏报等问题；因此，利用机器学习和深度学习技术对社交媒体文本数据进行分析和预测，成为了一种新的解决方案。通过对社交媒体文本数据进行特征提取和分类，可以快速准确地发现和识别危及网络安全的行为，并及时采取措施，保护网络安全。

大多数针对社交媒体的监控都是采用传统的机器学习模型，其中，随机森林和支持向量机得到了广泛的应用，但随机森林和支持向量机对网络威胁情报进行分类的缺点，包括：1）对于高维稀疏数据的处理效果不佳；2）尽管支持向量机，如果选择不合适的核函数也会导致分类效果不佳；3）随机森林和支持向量机的计算复杂度，随着数据集的增大而增加，导致处理数据效率不高。

发明内容

为克服上述现有技术的不足，本发明提供了社交媒体网络的威胁情报识别方法、系统、设备及介质，使用图神经网络、序列化模型和多层感知机对社交媒体网络的文本数据进行特征提取和分类，快速准确地发现和识别涉及网络安全风险的情报，提高分类和预测的准确性和效率。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了一种社交媒体网络的威胁情报识别方法；

一种社交媒体网络的威胁情报识别方法，包括：

对从社交媒体网络中采集的文本数据进行预处理，得到单词库；

将单词库中的单词转换为语义向量表示，将语义向量表示的单词作为节点，构建基于词语共现的图结构；

使用图神经网络从图结构中提取结构特征，使用序列化模型从语义向量表示中提取语义特征，并将结构特征和语义特征进行融合；

使用多层感知机对融合后的特征进行分类和识别，得到文本数据中的威胁情报。

进一步的，所述预处理，包括数据清洗和分词。

进一步的，所述将单词库中的单词转换为语义向量表示，是使用word2vec模型，进行向量转换，反映单词在语义上的相似性。

进一步的，所述图结构的具体构建方法为：

单词库中的每个单词作为节点，计算两个单词共同出现在同一上下文中的次数来构建两个单词之间的边，得到一张无向图，作为图结构。

进一步的，所述图神经网络，进行信息传递并根据节点和边之间的关系，提取节点的结构特征。

进一步的，所述序列化模型，对单词的语义向量表示进行时间序列建模，捕捉文本数据中的时序信息，得到语义特征。

进一步的，所述将结构特征和语义特征进行融合，具体为：

进行归一化处理进行加权，得到一个更高级别的特征表示；

将得到的特征表示，按照时间步连接起来，形成一个二维的时间-特征矩阵。

本发明第二方面提供了一种社交媒体网络的威胁情报识别系统。

一种社交媒体网络的威胁情报识别系统，包括预处理模块、图构建模块、特征提取模块和威胁识别模块：

预处理模块，被配置为：对从社交媒体网络中采集的文本数据进行预处理，得到单词库；

图构建模块，被配置为：将单词库中的单词转换为语义向量表示，将语义向量表示的单词作为节点，构建基于词语共现的图结构；

特征提取模块，被配置为：使用图神经网络从图结构中提取结构特征，使用序列化模型从语义向量表示中提取语义特征，并将结构特征和语义特征进行融合；

威胁识别模块，被配置为：使用多层感知机对融合后的特征进行分类和识别，得到文本数据中的威胁情报。

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的一种社交媒体网络的威胁情报识别方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的一种社交媒体网络的威胁情报识别方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明通过收集与网络安全风险相关的社交媒体网络文本数据，将每个单词进行向量表示，使用图神经网络和序列化模型进行特征提取和时间序列建模，最后将这些模型的特征进行融合，以提取更高级别的特征反映网络安全威胁的时序信息和语义信息，并使用多层感知机作为分类器对提取的特征进行分类和预测，快速准确地发现和识别网络安全威胁，提高分类和预测的准确性和效率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第二个实施例的系统结构图。

具体实施方式

多层感知机（Multi-Layer Perceptron, MLP）是一种基于神经网络的机器学习模型，相比传统的机器学习模型具有更强的拟合能力、更好的自适应学习能力、更好的可扩展性和更高的计算效率，适用于处理复杂的非线性数据和大规模的高维度数据。

因此，本发明提出了一种从社交媒体网络监控识别威胁情报的方法，使用图神经网络、序列化模型和多层感知机对社交媒体网络威胁情报进行特征提取和分类，以实现快速准确地发现和识别网络安全威胁。

下面结合附图与实施例对本发明作进一步说明。

实施例一

本实施例公开了一种社交媒体网络的威胁情报识别方法，主要采用Word2vec模型、LSTM模型、GAT模型和MLP模型对社交媒体网络中的文本数据进行特征提取、分类和预测；Word2vec模型将词汇映射到向量空间，从而捕捉词语间的语义关系；在社交媒体网络中，用户和信息之间存在复杂的连接关系，GAT模型捕捉这些连接关系中的结构特征；LSTM模型是一种长短时记忆网络，能够处理序列数据（如文本），捕捉长距离依赖关系并提取序列中的语义信息；MLP（多层感知器）模型负责将提取到的结构特征和语义特征融合在一起，进行分类和预测；这些模型相结合可以有效地提取社交媒体网络文本数据中的结构特征和语义特征，并将这些特征融合起来，以进行分类和预测。

如图1所示，一种社交媒体网络的威胁情报识别方法，包括：

步骤S1：对从社交媒体网络中采集的文本数据进行预处理，得到单词库。

收集与网络安全风险相关的社交媒体网络文本数据，使用包含特定网络安全关键词或主题的搜索查询来获取有关的社交媒体网络帖子。设置网络安全关键词来筛选相关帖子，获取特定用户或特定主题的社交媒体网络数据。

对收集的数据进行数据清洗，如去除无关内容、停用词过滤、词干提取等；去除无关内容，包括非英文文本、链接、图片、广告、噪声数据等，此外，还需要进行停用词过滤和词干提取等文本处理操作，以去除一些常用的无实际意义的单词，如“the”、“a”、“an”等，并将单词转化为其基本形式，以减少词汇的数量，降低特征维度，并提高文本分类的效果。

数据清洗后，使用分词工具对文本数据进行分词，使用分词工具（如NLTK、spaCy等）对文本数据进行分词，得到单词库。

步骤S2：将单词库中的单词转换为语义向量表示，将语义向量表示的单词作为节点，构建基于词语共现的图结构，具体步骤为：

（1）使用文本处理技术Word2Vec进行单词的向量表示。

Word2Vec是一种常用的词向量模型，它可以将每个单词表示为一个向量，并在向量空间中保持单词之间的语义关系；具体地，Word2Vec将每个单词表示为一个稠密向量，向量的每个元素代表单词在不同上下文中的概率，因此，单词的向量可以用于反映其在语义上的相似性和关联性；这样，将文本数据中的每个单词转换为一个向量表示，反映单词在语义上的相似性，可以有效捕捉语义细节，以便后续的处理。

（2）基于词语共现构建图结构。

文本数据中的每个单词作为节点，单词之间的关系作为边构建一张无向图；在这个过程中，使用基于词语共现的方法，计算两个单词共同出现在同一上下文中的次数来构建边，共现次数越高，表示两个单词在语义上的关联程度越强，共现次数作为边的权重，具体为：

上下文是指单词周围的词汇环境，通过设置固定或动态窗口来捕捉，本实施例在基于词语共现构建边时，使用动态窗口大小，而不是固定大小的窗口，动态窗口的大小可以根据单词在句子中的位置或与其他单词的距离进行调整，动态窗口的上下文更具灵活性，从而更好地捕捉不同尺度上的结构关联性。

构建出的图结构，被用于后续的特征提取和分类，可以更好地反映单词之间的结构关系，更适用于对单词之间的关系进行建模和分析，便更好地反映文本数据中的关系和特征。

步骤S3：使用图神经网络从图结构中提取结构特征，使用序列化模型从语义向量表示中提取语义特征，并将结构特征和语义特征进行融合，具体步骤为：

（1）使用图神经网络对构建出的图结构进行特征提取，得到结构特征，以更好地反映网络威胁情报中的关系和特征。

本实施例使用图注意力网络Graph Attention Networks（GAT）GAT模型，GAT是一种基于注意力机制的图卷积神经网络，根据节点之间的关系为相邻节点分配权重，并在聚合邻居节点信息时进行加权，这使得模型能够更好地关注与目标节点相关的邻居节点，从而提取更具代表性的结构特征。

具体的，每对相邻节点引入一个可学习的注意力系数，描述一个节点在更新其嵌入时应该关注其邻居节点的程度；通过使用注意力系数，更好地捕捉节点之间的相关性，并在聚合邻居节点信息时进行有针对性的加权，这种注意力机制使得GAT具有很强的表达能力和灵活性，适用于各种不同的图结构数据。

GAT进行信息传递，并根据节点和边之间的关系和特征进行结构特征提取；在这个过程中，每个节点和边都可以拥有自己的特征，例如节点的文本表示、度数等；这些特征可以在图神经网络中进行信息传递和聚合，以反映节点和边的特征和关系，从而提高分类和预测的准确性和效率。

（2）使用序列化模型，对单词库中的单词转换为语义向量表示后的数据进行时间序列建模，捕捉文本数据中的时序信息，得到语义特征。

LSTM是一种序列化模型，对时序数据进行建模，用于捕捉文本数据中的时序信息；当使用LSTM对单词的语义向量表示进行时间序列建模时，按照时间顺序将语义特征序列输入到LSTM中，以学习和捕捉文本数据中的时序信息。

LSTM模型由输入门、遗忘门和输出门等组成，可以有效地处理长时序信息；在输入门中，控制每个时间步上输入的信息量，以适应不同的文本长度；在遗忘门中，控制模型遗忘历史信息的比例，以防止模型过度拟合；在输出门中，控制每个时间步上输出的信息量，以输出最终的状态表示。

（3）将图神经网络和LSTM模型提取的特征进行融合，以提取更高级别的特征。

这里是指将图神经网络和LSTM模型提取的特征进行加权融合，威胁情报中时间序列信息和语义信息的相关性较高，因此在进行加权融合时考虑将两种特征进行加权组合，以达到更好的分类和预测效果，具体步骤为：

首先，进行归一化处理以统一特征尺度：使用标准化、正则化等方法进行归一化处理，目的是使得不同模型提取的特征具有相似的尺度，以便于后续的融合操作。

然后，进行线性加权融合，以综合不同模型的特征贡献：为每个模型提取的特征分配一个权重，将它们按权重相加，从而得到一个综合特征表示；加权融合可以平衡不同模型的贡献，提高特征表示的准确性和鲁棒性。

最后，进行特征连接：为了整合时序信息，按时间步连接特征，形成一个时间-特征矩阵，为多层感知机（MLP）模型提供输入。

步骤S4：使用多层感知机（MLP模型）对融合后的特征进行分类和识别，得到文本数据中的威胁情报。

使用训练后的MLP模型作为二值分类器，预测文本数据的分类概率，即检测文本数据中的威胁情报与非威胁情报。

在训练阶段，MLP模型采用交叉熵损失函数进行损失计算，使用梯度下降算法进行优化，以使得MLP模型可以更好地学习和捕捉文本数据中的关系和特征；训练过程为：首先将融合后的特征输入到MLP模型中，经过多个隐藏层进行非线性变换，最终输出预测结果；然后通过反向传播算法进行梯度计算和优化，不断调整模型参数，以最小化损失函数。

在该方法中，使用Softmax函数将MLP模型的输出转化为分类概率，将文本数据分类为不同的威胁情报或话题。

实施例二

本实施例公开了一种社交媒体网络的威胁情报识别系统；

如图2所示，一种社交媒体网络的威胁情报识别系统，包括预处理模块、图构建模块、特征提取模块和威胁识别模块：

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的一种社交媒体网络的威胁情报识别方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的一种社交媒体网络的威胁情报识别方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种社交媒体网络的威胁情报识别方法，其特征在于，包括：

使用多层感知机对融合后的特征进行分类和识别，得到文本数据中的威胁情报；

所述基于词语共现的图结构的构建，以单词库中的每个单词作为节点，计算两个单词共同出现在同一上下文中的次数来构建两个单词之间的边，得到一张无向图，作为图结构；在这个过程中，使用基于词语共现的方法，计算两个单词共同出现在同一上下文中的次数来构建边，共现次数越高，表示两个单词在语义上的关联程度越强，共现次数作为边的权重，具体为：

上下文是指单词周围的词汇环境，通过设置固定或动态窗口来捕捉，在基于词语共现构建边时，使用动态窗口大小，而不是固定大小的窗口，动态窗口的大小根据单词在句子中的位置或与其他单词的距离进行调整；

所述图神经网络，基于注意力机制，根据节点之间的关系为相邻节点分配权重，并在聚合邻居节点信息时进行加权，关注与目标节点相关的邻居节点，提取更具代表性的结构特征，具体为：

每对相邻节点引入一个可学习的注意力系数，描述一个节点在更新其嵌入时应该关注其邻居节点的程度；通过使用注意力系数，捕捉节点之间的相关性，并在聚合邻居节点信息时进行有针对性的加权。

2.如权利要求1所述的一种社交媒体网络的威胁情报识别方法，其特征在于，所述预处理，包括数据清洗和分词。

3.如权利要求1所述的一种社交媒体网络的威胁情报识别方法，其特征在于，所述将单词库中的单词转换为语义向量表示，是使用word2vec模型，进行向量转换，反映单词在语义上的相似性。

4.如权利要求1所述的一种社交媒体网络的威胁情报识别方法，其特征在于，所述图神经网络，进行信息传递并根据节点和边之间的关系，提取节点的结构特征。

5.如权利要求1所述的一种社交媒体网络的威胁情报识别方法，其特征在于，所述序列化模型，对单词的语义向量表示进行时间序列建模，捕捉文本数据中的时序信息，得到语义特征。

6.如权利要求1所述的一种社交媒体网络的威胁情报识别方法，其特征在于，所述将结构特征和语义特征进行融合，具体为：

进行归一化处理进行加权，得到一个更高级别的特征表示；

7.一种社交媒体网络的威胁情报识别系统，其特征在于，包括预处理模块、图构建模块、特征提取模块和威胁识别模块：

所述预处理模块，被配置为：对从社交媒体网络中采集的文本数据进行预处理，得到单词库；

所述图构建模块，被配置为：将单词库中的单词转换为语义向量表示，将语义向量表示的单词作为节点，构建基于词语共现的图结构；

所述特征提取模块，被配置为：使用图神经网络和序列化模型提取结构特征和语义特征，并将结构特征和语义特征进行融合；

所述威胁识别模块，被配置为：使用多层感知机对融合后的特征进行分类和识别，得到文本数据中的威胁情报；

8.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-6任一项所述的方法。

9.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-6任一项所述方法的指令。