CN116150509B - 社交媒体网络的威胁情报识别方法、系统、设备及介质 - Google Patents
社交媒体网络的威胁情报识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116150509B CN116150509B CN202310443033.2A CN202310443033A CN116150509B CN 116150509 B CN116150509 B CN 116150509B CN 202310443033 A CN202310443033 A CN 202310443033A CN 116150509 B CN116150509 B CN 116150509B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- social media
- features
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了社交媒体网络的威胁情报识别方法、系统、设备及介质,涉及网络安全领域,具体方案包括:对从社交媒体网络中采集的文本数据进行预处理,得到单词库;将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报;本发明使用图神经网络、序列化模型和多层感知机对社交媒体网络的文本数据进行特征提取和分类,快速准确地发现和识别网络安全威胁,提高分类和预测的准确性和效率。
Description
技术领域
本发明属于网络安全领域,尤其涉及社交媒体网络的威胁情报识别方法、系统、设备及介质。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着社交媒体的普及和应用,越来越多的网络安全问题从互联网传播到社交媒体上,监控和分析社交媒体网络上的威胁情报变得尤为重要。传统的威胁情报收集方法主要基于人工或自动化的搜索引擎,但这些方法往往效率低下且存在误报漏报等问题;因此,利用机器学习和深度学习技术对社交媒体文本数据进行分析和预测,成为了一种新的解决方案。通过对社交媒体文本数据进行特征提取和分类,可以快速准确地发现和识别危及网络安全的行为,并及时采取措施,保护网络安全。
大多数针对社交媒体的监控都是采用传统的机器学习模型,其中,随机森林和支持向量机得到了广泛的应用,但随机森林和支持向量机对网络威胁情报进行分类的缺点,包括:1)对于高维稀疏数据的处理效果不佳;2)尽管支持向量机,如果选择不合适的核函数也会导致分类效果不佳;3)随机森林和支持向量机的计算复杂度,随着数据集的增大而增加,导致处理数据效率不高。
发明内容
为克服上述现有技术的不足,本发明提供了社交媒体网络的威胁情报识别方法、系统、设备及介质,使用图神经网络、序列化模型和多层感知机对社交媒体网络的文本数据进行特征提取和分类,快速准确地发现和识别涉及网络安全风险的情报,提高分类和预测的准确性和效率。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了一种社交媒体网络的威胁情报识别方法;
一种社交媒体网络的威胁情报识别方法,包括:
对从社交媒体网络中采集的文本数据进行预处理,得到单词库;
将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;
使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;
使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报。
进一步的,所述预处理,包括数据清洗和分词。
进一步的,所述将单词库中的单词转换为语义向量表示,是使用word2vec模型,进行向量转换,反映单词在语义上的相似性。
进一步的,所述图结构的具体构建方法为:
单词库中的每个单词作为节点,计算两个单词共同出现在同一上下文中的次数来构建两个单词之间的边,得到一张无向图,作为图结构。
进一步的,所述图神经网络,进行信息传递并根据节点和边之间的关系,提取节点的结构特征。
进一步的,所述序列化模型,对单词的语义向量表示进行时间序列建模,捕捉文本数据中的时序信息,得到语义特征。
进一步的,所述将结构特征和语义特征进行融合,具体为:
进行归一化处理进行加权,得到一个更高级别的特征表示;
将得到的特征表示,按照时间步连接起来,形成一个二维的时间-特征矩阵。
本发明第二方面提供了一种社交媒体网络的威胁情报识别系统。
一种社交媒体网络的威胁情报识别系统,包括预处理模块、图构建模块、特征提取模块和威胁识别模块:
预处理模块,被配置为:对从社交媒体网络中采集的文本数据进行预处理,得到单词库;
图构建模块,被配置为:将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;
特征提取模块,被配置为:使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;
威胁识别模块,被配置为:使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报。
本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的一种社交媒体网络的威胁情报识别方法中的步骤。
本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的一种社交媒体网络的威胁情报识别方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
本发明通过收集与网络安全风险相关的社交媒体网络文本数据,将每个单词进行向量表示,使用图神经网络和序列化模型进行特征提取和时间序列建模,最后将这些模型的特征进行融合,以提取更高级别的特征反映网络安全威胁的时序信息和语义信息,并使用多层感知机作为分类器对提取的特征进行分类和预测,快速准确地发现和识别网络安全威胁,提高分类和预测的准确性和效率。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图。
图2为第二个实施例的系统结构图。
具体实施方式
多层感知机(Multi-Layer Perceptron, MLP)是一种基于神经网络的机器学习模型,相比传统的机器学习模型具有更强的拟合能力、更好的自适应学习能力、更好的可扩展性和更高的计算效率,适用于处理复杂的非线性数据和大规模的高维度数据。
因此,本发明提出了一种从社交媒体网络监控识别威胁情报的方法,使用图神经网络、序列化模型和多层感知机对社交媒体网络威胁情报进行特征提取和分类,以实现快速准确地发现和识别网络安全威胁。
下面结合附图与实施例对本发明作进一步说明。
实施例一
本实施例公开了一种社交媒体网络的威胁情报识别方法,主要采用Word2vec模型、LSTM模型、GAT模型和MLP模型对社交媒体网络中的文本数据进行特征提取、分类和预测;Word2vec模型将词汇映射到向量空间,从而捕捉词语间的语义关系;在社交媒体网络中,用户和信息之间存在复杂的连接关系,GAT模型捕捉这些连接关系中的结构特征;LSTM模型是一种长短时记忆网络,能够处理序列数据(如文本),捕捉长距离依赖关系并提取序列中的语义信息;MLP(多层感知器)模型负责将提取到的结构特征和语义特征融合在一起,进行分类和预测;这些模型相结合可以有效地提取社交媒体网络文本数据中的结构特征和语义特征,并将这些特征融合起来,以进行分类和预测。
如图1所示,一种社交媒体网络的威胁情报识别方法,包括:
步骤S1:对从社交媒体网络中采集的文本数据进行预处理,得到单词库。
收集与网络安全风险相关的社交媒体网络文本数据,使用包含特定网络安全关键词或主题的搜索查询来获取有关的社交媒体网络帖子。设置网络安全关键词来筛选相关帖子,获取特定用户或特定主题的社交媒体网络数据。
对收集的数据进行数据清洗,如去除无关内容、停用词过滤、词干提取等;去除无关内容,包括非英文文本、链接、图片、广告、噪声数据等,此外,还需要进行停用词过滤和词干提取等文本处理操作,以去除一些常用的无实际意义的单词,如“the”、“a”、“an”等,并将单词转化为其基本形式,以减少词汇的数量,降低特征维度,并提高文本分类的效果。
数据清洗后,使用分词工具对文本数据进行分词,使用分词工具(如NLTK、spaCy等)对文本数据进行分词,得到单词库。
步骤S2:将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构,具体步骤为:
(1)使用文本处理技术Word2Vec进行单词的向量表示。
Word2Vec是一种常用的词向量模型,它可以将每个单词表示为一个向量,并在向量空间中保持单词之间的语义关系;具体地,Word2Vec将每个单词表示为一个稠密向量,向量的每个元素代表单词在不同上下文中的概率,因此,单词的向量可以用于反映其在语义上的相似性和关联性;这样,将文本数据中的每个单词转换为一个向量表示,反映单词在语义上的相似性,可以有效捕捉语义细节,以便后续的处理。
(2)基于词语共现构建图结构。
文本数据中的每个单词作为节点,单词之间的关系作为边构建一张无向图;在这个过程中,使用基于词语共现的方法,计算两个单词共同出现在同一上下文中的次数来构建边,共现次数越高,表示两个单词在语义上的关联程度越强,共现次数作为边的权重,具体为:
上下文是指单词周围的词汇环境,通过设置固定或动态窗口来捕捉,本实施例在基于词语共现构建边时,使用动态窗口大小,而不是固定大小的窗口,动态窗口的大小可以根据单词在句子中的位置或与其他单词的距离进行调整,动态窗口的上下文更具灵活性,从而更好地捕捉不同尺度上的结构关联性。
构建出的图结构,被用于后续的特征提取和分类,可以更好地反映单词之间的结构关系,更适用于对单词之间的关系进行建模和分析,便更好地反映文本数据中的关系和特征。
步骤S3:使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合,具体步骤为:
(1)使用图神经网络对构建出的图结构进行特征提取,得到结构特征,以更好地反映网络威胁情报中的关系和特征。
本实施例使用图注意力网络Graph Attention Networks(GAT)GAT模型,GAT是一种基于注意力机制的图卷积神经网络,根据节点之间的关系为相邻节点分配权重,并在聚合邻居节点信息时进行加权,这使得模型能够更好地关注与目标节点相关的邻居节点,从而提取更具代表性的结构特征。
具体的,每对相邻节点引入一个可学习的注意力系数,描述一个节点在更新其嵌入时应该关注其邻居节点的程度;通过使用注意力系数,更好地捕捉节点之间的相关性,并在聚合邻居节点信息时进行有针对性的加权,这种注意力机制使得GAT具有很强的表达能力和灵活性,适用于各种不同的图结构数据。
GAT进行信息传递,并根据节点和边之间的关系和特征进行结构特征提取;在这个过程中,每个节点和边都可以拥有自己的特征,例如节点的文本表示、度数等;这些特征可以在图神经网络中进行信息传递和聚合,以反映节点和边的特征和关系,从而提高分类和预测的准确性和效率。
(2)使用序列化模型,对单词库中的单词转换为语义向量表示后的数据进行时间序列建模,捕捉文本数据中的时序信息,得到语义特征。
LSTM是一种序列化模型,对时序数据进行建模,用于捕捉文本数据中的时序信息;当使用LSTM对单词的语义向量表示进行时间序列建模时,按照时间顺序将语义特征序列输入到LSTM中,以学习和捕捉文本数据中的时序信息。
LSTM模型由输入门、遗忘门和输出门等组成,可以有效地处理长时序信息;在输入门中,控制每个时间步上输入的信息量,以适应不同的文本长度;在遗忘门中,控制模型遗忘历史信息的比例,以防止模型过度拟合;在输出门中,控制每个时间步上输出的信息量,以输出最终的状态表示。
(3)将图神经网络和LSTM模型提取的特征进行融合,以提取更高级别的特征。
这里是指将图神经网络和LSTM模型提取的特征进行加权融合,威胁情报中时间序列信息和语义信息的相关性较高,因此在进行加权融合时考虑将两种特征进行加权组合,以达到更好的分类和预测效果,具体步骤为:
首先,进行归一化处理以统一特征尺度:使用标准化、正则化等方法进行归一化处理,目的是使得不同模型提取的特征具有相似的尺度,以便于后续的融合操作。
然后,进行线性加权融合,以综合不同模型的特征贡献:为每个模型提取的特征分配一个权重,将它们按权重相加,从而得到一个综合特征表示;加权融合可以平衡不同模型的贡献,提高特征表示的准确性和鲁棒性。
最后,进行特征连接:为了整合时序信息,按时间步连接特征,形成一个时间-特征矩阵,为多层感知机(MLP)模型提供输入。
步骤S4:使用多层感知机(MLP模型)对融合后的特征进行分类和识别,得到文本数据中的威胁情报。
使用训练后的MLP模型作为二值分类器,预测文本数据的分类概率,即检测文本数据中的威胁情报与非威胁情报。
在训练阶段,MLP模型采用交叉熵损失函数进行损失计算,使用梯度下降算法进行优化,以使得MLP模型可以更好地学习和捕捉文本数据中的关系和特征;训练过程为:首先将融合后的特征输入到MLP模型中,经过多个隐藏层进行非线性变换,最终输出预测结果;然后通过反向传播算法进行梯度计算和优化,不断调整模型参数,以最小化损失函数。
在该方法中,使用Softmax函数将MLP模型的输出转化为分类概率,将文本数据分类为不同的威胁情报或话题。
实施例二
本实施例公开了一种社交媒体网络的威胁情报识别系统;
如图2所示,一种社交媒体网络的威胁情报识别系统,包括预处理模块、图构建模块、特征提取模块和威胁识别模块:
预处理模块,被配置为:对从社交媒体网络中采集的文本数据进行预处理,得到单词库;
图构建模块,被配置为:将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;
特征提取模块,被配置为:使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;
威胁识别模块,被配置为:使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报。
实施例三
本实施例的目的是提供计算机可读存储介质。
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例一所述的一种社交媒体网络的威胁情报识别方法中的步骤。
实施例四
本实施例的目的是提供电子设备。
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的一种社交媒体网络的威胁情报识别方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种社交媒体网络的威胁情报识别方法,其特征在于,包括:
对从社交媒体网络中采集的文本数据进行预处理,得到单词库;
将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;
使用图神经网络从图结构中提取结构特征,使用序列化模型从语义向量表示中提取语义特征,并将结构特征和语义特征进行融合;
使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报;
所述基于词语共现的图结构的构建,以单词库中的每个单词作为节点,计算两个单词共同出现在同一上下文中的次数来构建两个单词之间的边,得到一张无向图,作为图结构;在这个过程中,使用基于词语共现的方法,计算两个单词共同出现在同一上下文中的次数来构建边,共现次数越高,表示两个单词在语义上的关联程度越强,共现次数作为边的权重,具体为:
上下文是指单词周围的词汇环境,通过设置固定或动态窗口来捕捉,在基于词语共现构建边时,使用动态窗口大小,而不是固定大小的窗口,动态窗口的大小根据单词在句子中的位置或与其他单词的距离进行调整;
所述图神经网络,基于注意力机制,根据节点之间的关系为相邻节点分配权重,并在聚合邻居节点信息时进行加权,关注与目标节点相关的邻居节点,提取更具代表性的结构特征,具体为:
每对相邻节点引入一个可学习的注意力系数,描述一个节点在更新其嵌入时应该关注其邻居节点的程度;通过使用注意力系数,捕捉节点之间的相关性,并在聚合邻居节点信息时进行有针对性的加权。
2.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述预处理,包括数据清洗和分词。
3.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述将单词库中的单词转换为语义向量表示,是使用word2vec模型,进行向量转换,反映单词在语义上的相似性。
4.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述图神经网络,进行信息传递并根据节点和边之间的关系,提取节点的结构特征。
5.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述序列化模型,对单词的语义向量表示进行时间序列建模,捕捉文本数据中的时序信息,得到语义特征。
6.如权利要求1所述的一种社交媒体网络的威胁情报识别方法,其特征在于,所述将结构特征和语义特征进行融合,具体为:
进行归一化处理进行加权,得到一个更高级别的特征表示;
将得到的特征表示,按照时间步连接起来,形成一个二维的时间-特征矩阵。
7.一种社交媒体网络的威胁情报识别系统,其特征在于,包括预处理模块、图构建模块、特征提取模块和威胁识别模块:
所述预处理模块,被配置为:对从社交媒体网络中采集的文本数据进行预处理,得到单词库;
所述图构建模块,被配置为:将单词库中的单词转换为语义向量表示,将语义向量表示的单词作为节点,构建基于词语共现的图结构;
所述特征提取模块,被配置为:使用图神经网络和序列化模型提取结构特征和语义特征,并将结构特征和语义特征进行融合;
所述威胁识别模块,被配置为:使用多层感知机对融合后的特征进行分类和识别,得到文本数据中的威胁情报;
所述基于词语共现的图结构的构建,以单词库中的每个单词作为节点,计算两个单词共同出现在同一上下文中的次数来构建两个单词之间的边,得到一张无向图,作为图结构;在这个过程中,使用基于词语共现的方法,计算两个单词共同出现在同一上下文中的次数来构建边,共现次数越高,表示两个单词在语义上的关联程度越强,共现次数作为边的权重,具体为:
上下文是指单词周围的词汇环境,通过设置固定或动态窗口来捕捉,在基于词语共现构建边时,使用动态窗口大小,而不是固定大小的窗口,动态窗口的大小根据单词在句子中的位置或与其他单词的距离进行调整;
所述图神经网络,基于注意力机制,根据节点之间的关系为相邻节点分配权重,并在聚合邻居节点信息时进行加权,关注与目标节点相关的邻居节点,提取更具代表性的结构特征,具体为:
每对相邻节点引入一个可学习的注意力系数,描述一个节点在更新其嵌入时应该关注其邻居节点的程度;通过使用注意力系数,捕捉节点之间的相关性,并在聚合邻居节点信息时进行有针对性的加权。
8.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-6任一项所述的方法。
9.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-6任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443033.2A CN116150509B (zh) | 2023-04-24 | 2023-04-24 | 社交媒体网络的威胁情报识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310443033.2A CN116150509B (zh) | 2023-04-24 | 2023-04-24 | 社交媒体网络的威胁情报识别方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116150509A CN116150509A (zh) | 2023-05-23 |
CN116150509B true CN116150509B (zh) | 2023-08-04 |
Family
ID=86352900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310443033.2A Active CN116150509B (zh) | 2023-04-24 | 2023-04-24 | 社交媒体网络的威胁情报识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150509B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116915459B (zh) * | 2023-07-13 | 2024-03-08 | 上海戎磐网络科技有限公司 | 一种基于大语言模型的网络威胁分析方法 |
CN116756667B (zh) * | 2023-08-18 | 2023-12-12 | 北京九叁有方物联网科技有限公司 | 一种具有行为识别功能的宠物穿戴式设备及其识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368175A (zh) * | 2020-05-27 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种事件抽取方法和系统及实体分类模型 |
CN111639189A (zh) * | 2020-04-29 | 2020-09-08 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112906382A (zh) * | 2021-02-05 | 2021-06-04 | 山东省计算中心(国家超级计算济南中心) | 基于图神经网络的政策文本多标签标注方法及系统 |
CN113256438A (zh) * | 2021-05-27 | 2021-08-13 | 山东省计算中心(国家超级计算济南中心) | 网络用户的角色识别方法及系统 |
CN113901818A (zh) * | 2021-09-26 | 2022-01-07 | 四川大学 | 一种面向威胁情报的实体识别及关系抽取方法 |
CN114707718A (zh) * | 2022-03-29 | 2022-07-05 | 山东省计算中心(国家超级计算济南中心) | 基于gat-lstm的信息级联预测方法 |
CN115034224A (zh) * | 2022-01-26 | 2022-09-09 | 华东师范大学 | 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 |
CN115329770A (zh) * | 2022-07-27 | 2022-11-11 | 天津市国瑞数码安全系统股份有限公司 | 基于语义分析的威胁情报提取方法和系统 |
CN115495744A (zh) * | 2022-10-10 | 2022-12-20 | 北京天融信网络安全技术有限公司 | 威胁情报分类方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10810472B2 (en) * | 2017-05-26 | 2020-10-20 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
-
2023
- 2023-04-24 CN CN202310443033.2A patent/CN116150509B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639189A (zh) * | 2020-04-29 | 2020-09-08 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN111368175A (zh) * | 2020-05-27 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种事件抽取方法和系统及实体分类模型 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112906382A (zh) * | 2021-02-05 | 2021-06-04 | 山东省计算中心(国家超级计算济南中心) | 基于图神经网络的政策文本多标签标注方法及系统 |
CN113256438A (zh) * | 2021-05-27 | 2021-08-13 | 山东省计算中心(国家超级计算济南中心) | 网络用户的角色识别方法及系统 |
CN113901818A (zh) * | 2021-09-26 | 2022-01-07 | 四川大学 | 一种面向威胁情报的实体识别及关系抽取方法 |
CN115034224A (zh) * | 2022-01-26 | 2022-09-09 | 华东师范大学 | 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 |
CN114707718A (zh) * | 2022-03-29 | 2022-07-05 | 山东省计算中心(国家超级计算济南中心) | 基于gat-lstm的信息级联预测方法 |
CN115329770A (zh) * | 2022-07-27 | 2022-11-11 | 天津市国瑞数码安全系统股份有限公司 | 基于语义分析的威胁情报提取方法和系统 |
CN115495744A (zh) * | 2022-10-10 | 2022-12-20 | 北京天融信网络安全技术有限公司 | 威胁情报分类方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
The Hyperbolic Temporal Attention Based Differentiable Neural Turing Machines for Diachronic Graph Embedding in Cyber Threat Intelligence;Binghua Song,等;《2022 IEEE 25th International Conference on Computer Supported Cooperative Work in Design (CSCWD)》;第1353-1359页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116150509A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116150509B (zh) | 社交媒体网络的威胁情报识别方法、系统、设备及介质 | |
CN110059181B (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
Ranjan et al. | LFNN: Lion fuzzy neural network-based evolutionary model for text classification using context and sense based features | |
CN113961922B (zh) | 一种基于深度学习的恶意软件行为检测与分类系统 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN110119449B (zh) | 一种基于序列增强胶囊网络的刑事案件罪名预测方法 | |
ALRashdi et al. | Deep learning and word embeddings for tweet classification for crisis response | |
CN112257066A (zh) | 面向带权异质图的恶意行为识别方法、系统和存储介质 | |
CN112241481A (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
CN111143553B (zh) | 一种实时文本数据流的特定信息识别方法及系统 | |
CN112507136A (zh) | 一种知识驱动的业务操作图谱构建方法 | |
CN107205016A (zh) | 物联网设备的检索方法 | |
CN109241199B (zh) | 一种面向金融知识图谱发现的方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN112329444B (zh) | 融合文本和传播结构的早期谣言检测方法 | |
Han et al. | L-Net: lightweight and fast object detector-based ShuffleNetV2 | |
Sun et al. | Network structure and transfer behaviors embedding via deep prediction model | |
CN107908757A (zh) | 网站分类方法及系统 | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
CN112925907A (zh) | 基于事件图卷积神经网络的微博评论观点对象分类方法 | |
CN114428806A (zh) | 案件隐性知识挖掘方法、装置及电子设备 | |
Li et al. | Using big data from the web to train chinese traffic word representation model in vector space | |
Feng et al. | Implementation of Short Video Click-Through Rate Estimation Model Based on Cross-Media Collaborative Filtering Neural Network | |
Chen et al. | Deep Learning Techniques for Aspect Based Sentiment Analysis | |
Zheng et al. | Detection Approach of Malicious JavaScript Code Based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |