CN116932661A - 一种面向网络安全的事件知识图谱构建方法 - Google Patents
一种面向网络安全的事件知识图谱构建方法 Download PDFInfo
- Publication number
- CN116932661A CN116932661A CN202310896974.1A CN202310896974A CN116932661A CN 116932661 A CN116932661 A CN 116932661A CN 202310896974 A CN202310896974 A CN 202310896974A CN 116932661 A CN116932661 A CN 116932661A
- Authority
- CN
- China
- Prior art keywords
- event
- network security
- text
- knowledge graph
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000013145 classification model Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000002372 labelling Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 32
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 229910052711 selenium Inorganic materials 0.000 claims description 2
- 239000011669 selenium Substances 0.000 claims description 2
- 230000006378 damage Effects 0.000 claims 1
- 230000007123 defense Effects 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Security & Cryptography (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络安全领域,提供一种面向网络安全的事件知识图谱构建方法。该方法包括:(10)定义网络安全事件数据Schema;(20)从互联网中获取网络安全事件非结构化文本数据,通过标注形成网络安全事件抽取中文数据集;(30)构建事件分类模型,用于网络安全事件的分类;(40)构建事件元素抽取模型,用于抽取各类事件的事件元素(50)实现相似事件识别算法,在知识图谱中建立相似事件关系;(60)通过上述步骤,完成知识图谱的自动化构建。该方法能够将非结构化事件信息转为结构化知识图谱,本发明适用于网络安全领域事件知识图谱自动化构建,对后续进一步研究知识图谱,深入分析网络安全态势,挖掘有价值的网络安全信息有重要的实用价值。
Description
技术领域
本发明设计网络安全领域,具体为一种网络安全事件知识图谱构建方法。
背景技术
网络安全知识图谱是一张由实体、概念、属性和实体之间的关系构成的图谱,在网络安全领域具有重要的意义,网络安全知识图谱将众多的网络安全领域概念和实体组织起来,将其进行规范化和结构化,提供图结构形式的知识表示,如今,传统知识图谱的研究主要集中在“实体”层面,将客观物理世界的具体实体作为知识映射到知识图谱中,能够对客观物理世界实体的静态特征进行描述,但这无法体现客观物理世界的一些动态特征,以“事件”为基本单位构建的知识图谱,更符合人们对客观世界的理解,并且更符合知识更新的需要,以网络安全事件为核心构建事件知识图谱可以更准确地表达事实信息,并帮助人们学习和理解网络安全动态事件,为人们提供更有效的分析和决策支持。
目前网络安全事件图谱自动构建技术存在一些问题和待改进的地方:在数据方面,网络安全领域的中文事件抽取数据集不足,基本以英文为主;网络安全事件本体模型方面,目前没有网络安全事件的分类定义规范,大多数研究没有统一的标准;在事件抽取方面,中文的汉字和语法结构更加错综复杂和灵活多变,这增加了从中文中提取事件信息的困难程度;在图谱构建方面,网络安全领域具有较强专业领域特征,图谱构建自动化程度较低,需要涉及图谱相似事件识别相关知识,实现难度较大。
针对网络安全事件图谱自动构建的问题,目前亟需一种面向网络安全的事件知识图谱自动构建方法,对后续进一步研究知识图谱,深入分析网络安全态势,挖掘有价值的网络安全信息有重要的实用价值和理论意义。
发明内容
有鉴于此,本发明的目的在于提供一种面向网络安全的事件知识图谱的构建方法,旨在解决网络安全领域事件知识图谱构建中数据集不足、非结构化文本抽取中存在的问题。本发明通过下述技术方案得以解决:
一种面向网络安全的事件知识图谱构建方法,包括如下步骤:
(10)定义网络安全领域事件数据Schema,包含网络安全事件类型和事件元素;
(20)获取互联网上网络安全事件相关的原始语料,通过数据预处理和数据标注,构建网络安全事件抽取中文数据集;
(30)构建网络安全事件分类模型,使用基于BERT预训练模型进行深度学习,得到网络安全事件分类模型;
(40)构建网络安全事件元素抽取模型,使用基于BERT预训练模型进行深度学习训练,得到网络安全事件元素抽取模型;
(50)实现相似事件识别算法,使用文本语义级别的相似度与实体级别的相似度形成综合相似度,以综合相似度作为相似事件识别条件;
(60)利用事件分类模型与事件元素抽取模型将事件变成结构化的三元组数据,并且利用相似事件识别算法,建立事件实体的相似关系,完成网络安全事件知识图谱的构建。
本发明的有益效果为:本发明定义了网络安全事件Schema,并由此构建了网络安全领域事件抽取数据集。对网络安全事件分类任务建模为文本多标签分类任务,利用增强词向量与融合分类标签信息提升了文本输入特征,进而提升了模型分类效能。将网络安全事件元素抽取任务建模为序列标注任务,通过增强词向量提升文本输入特征,通过事件类型条件特征输入,解决了事件间的重叠事件元素问题。计算计算文本相似度与事件元素实体相似度形成事件综合相似度建立事件实体之间的相似关系。最终形成一套网络安全事件知识图谱的构建流程。
附图说明:
图1为本发明方法步骤图;
图2为本发明事件分类模型图;
图3为本发明事件元素抽取模型图;
图4为本发明网络安全事件知识图谱构建流程图;
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明作进一步详细的说明。本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
本发明的设计提出一种面向网络安全事件知识图谱的构建方法,如图1所示,本发明方法包括以下步骤:
(10)定义网络安全领域事件数据Schema,包含网络安全事件类型和事件元素,具体网络安全事件类型与其对应的事件元素如表1所示:
表1网络安全事件数据格式
(20)获取互联网上网络安全事件相关的原始语料,通过数据预处理和数据标注,构建网络安全事件抽取中文数据集;
进一步的,(20)的具体方式为:
(21)使用Selenium框架对网络上的网络安全非结构化的事件文本进行采集;
(22)使用数据预处理手段,对爬取下来的数据进行数据清洗,去除重复、无用的非结构化文本,并且去除文本里特殊字符;
(23)使用开源数据标注工具doccano对数据进行人工标注,使用BIOES序列标注方法,完成对事件类型、事件元素的标注。
(24)根据人工标注生成的数据集生成匹配字典,用匹配字典来进行文本匹配标注。在自动标注后,进行人工审核确保标注的正确性。构建网络安全事件抽取中文数据集。
(30)构建网络安全事件分类模型,使用基于BERT预训练模型进行深度学习,得到网络安全事件分类模型,具体模型如图2所示;
进一步的,(30)的具体方式为:
(31)将事件分类标签Label1......Labeln与原始文本拼接在一块,构建模型输入文本,形成的输入文本:
text=C1C2C3......CmL11L12......Lnk
其中,Ci表示文本第i个字符,Lij表示第i个标签的第j个字符;
(32)网络安全事件分类模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化,并且通过字词对齐的方式对向量进行拼接,实现词级别的增强的文本向量化,由于数据集为中文,BERT会按字进行切分,得到字级别的向量,每个字被映射到768维;对文本进行Jieba分词,使用Word2Vec模型,对分词结果进行词级别的向量化,每个词被映射到200维的特征上,两者特征融合的方式为:
其中Eenhanced表示融合增强后的字向量,EBERT表示BERT模型输出的字向量,Eword表示Word2Vec模型输出的词向量,为拼接运算符,经过横向拼接后融合增强后的字向量为968维的字向量;
(33)使用自注意力机制,计算每个词上下文对当前词的影响权重得到注意力向量;
(34)使用Linear全连接层与Sigmoid激活函数作为输出层,Sigmoid函数:
(35)计算Loss并且反向传播,训练模型,构建网络安全事件分类模型,由于该分类为多分类任务,Loss函数选用BCE Loss:
BEC Loss=-(ylog(p(x)+(1-y)log(1-p(x))
其中p(x)为模型输出,y为真实标签。
(40)构建网络安全事件元素抽取模型,使用基于BERT预训练模型进行深度学习训练,得到网络安全事件元素抽取模型,具体模型如图3所示;
进一步的,(40)的具体方式为:
(41)网络安全事件元素抽取模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化,并且通过字词对齐的方式对向量进行拼接,实现词级别的增强的文本向量化,用BERT模型和Word2Vec模型对文本进行向量化,由于数据集为中文,BERT会按字进行切分,得到字级别的向量,每个字被映射到768维;对文本进行Jieba分词,使用Word2Vec模型,对分词结果进行词级别的向量化,每个词被映射到200维的特征上,两者特征融合的方式为:
其中Eenhanced表示融合增强后的字向量,EBERT表示BERT模型输出的字向量,Eword表示Word2Vec模型输出的词向量,为拼接运算符,经过横向拼接后融合增强后的字向量为968维的字向量;
(42)将该文本的事件类型通过随机Embedding进行编码,作为条件特征与向量化的文本特征融合,并对得到的向量进行归一化,将输入层向量Eenhanced与事件类型向量Eevent_type输入Conditional Layer Norm层,并进行归一化得到EConditional,ConditionalLayerNorm层的公式如下:
其中,x为输入量,c为条件,μx为输入量的特征均值,σx为输入量的特征标准差,γc为可学习得缩放参数,βc为学习得偏移参数;
(43)将(42)生成输入层向量EConditional输入Bi-LSTM层获取上下文语义特征,Bi-LSTM为双向LSTM模型,ct为记忆单元,用于保存当前LSTM的状态信息并传递到下个时刻,具体公式如下:
上式中,ft为遗忘门,用于控制上一时刻ct-1进入当前时刻的特征,it为输入门,用于控制的特征,/>为临时记忆单元:
ft=σ(Wf·[ht-1,Et enhanced]+bf)
it=σ(Wi·[ht-1,Et enhanced]+bi)
其中,W和b为神经网络模型参数,σ为sigmoid激活函数,ht-1为上一时刻隐藏状态,Et enhanced为当前时刻增强级字符输入向量,当前隐藏层ht的计算公式如下:
ht=ot*tanh(ct)
上式中,ct为当前时刻记忆单元,ot为当前时刻的输出门:
ot=σ(Wo·[ht-1,Et enhanced]+bo)
在Bi-LSTM中使用得到的隐藏层ht的特征,有前向LSTM与后向LSTM,将两个特征横向拼接得到ht Bi-LSTM:
(44)使用全连接层将Bi-LSTM的隐藏层信息hBi-LSTM映射到事件类型标签种类数量维度,并且输入CRF层进行标签预测。
(45)计算CRF Loss并且反向传播,训练模型,构建网络安全事件元素抽取模型,CRF Loss计算公式为:
其中为第N条路径的路径分数;
(50)实现相似事件识别算法,使用文本语义级别的相似度与实体级别的相似度形成综合相似度,以综合相似度作为相似事件识别条件;
进一步的,(50)的具体方式为:
(51)使用Jieba对文本进行分词,并使用Word2Vec对分词进行向量化;
(52)通过(20)获取的网络安全事件文本生成TF-IDF词袋模型:
TF(w)是词w在这个句子中出现的次数,DF(w)是词w在所有句子中出现的次数,N是句子总数;
(53)对每个词的Word2Vec词向量利用TF-IDF词袋模型进行加权平均表示文本向量:
其中,wi是第i个词的TF-IDF权重,vi是第i个词的词向量;
(54)通过对事件进行文本向量化,与文本计算余弦相似度,得到文本余弦相似度cosine(x,y):
(55)计算相同事件类型事件的事件元素之间的相似度entitysim(x,y):
其中,Uintersect为事件1与事件2中事件角色的交集数量,Uunion为事件1与事件2中事件角色的并集数量,m为Uintersect中事件角色的数量,lev为编辑距离相似度,a,b分别为事件1与事件2相同事件角色中的具体事件元素。
(56)通过文本相似度与事件元素相似度计算综合相似度:
general_similarity=cosine(x,y)+entitysim(x,y)
(60)利用事件分类模型与事件元素抽取模型将事件变成结构化的三元组数据,并且利用相似事件识别算法,建立事件实体的相似关系,完成网络安全事件知识图谱的构建。构建流程图如图4所示。
进一步的,(60)的具体方式为:
(61)使用事件文本分类模型对网络安全事件文本进行分类;
(62)使用事件元素抽取模型,对网络安全事件文本进行事件元素抽取;
(63)在知识图谱中构建该事件实体与其事件元素实体;
(64)计算该网络安全事件与网络安全知识图谱中其他事件的相似度,若相似度大于阈值,则与知识图谱中的事件实体构建相似关系。
以上所述仅是本发明的优选实施方式,发明不局限于上述实施方式,任何人应得知在本发明的启示下做出的与本发明具有相同或相近的技术方案,均落入本发明的保护范围。
Claims (7)
1.一种面向网络安全的事件知识图谱构建方法,其特征在于,所述方法的步骤如下:
(10)定义网络安全领域事件数据Schema,包含网络安全事件类型和事件元素;
(20)获取互联网上网络安全事件相关的原始语料,通过数据预处理和数据标注,构建网络安全事件抽取中文数据集;
(30)构建网络安全事件分类模型,使用基于BERT预训练模型进行深度学习,得到网络安全事件分类模型;
(40)构建网络安全事件元素抽取模型,使用基于BERT预训练模型进行深度学习训练,得到网络安全事件元素抽取模型;
(50)实现相似事件识别算法,使用文本语义级别的相似度与实体级别的相似度形成综合相似度,以综合相似度作为相似事件识别条件;
(60)利用事件分类模型与事件元素抽取模型将事件变成结构化的三元组数据,并且利用相似事件识别算法,建立事件实体的相似关系,完成网络安全事件知识图谱的构建。
2.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法,其特征在于,所述(10)具体步骤为:
定义网络安全事件的Schema,包括网络攻击事件、数据安全事件、安全漏洞事件、加强防御事件、设备破坏事件、有害程序事件与其事件对应的事件角色。
3.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法,其特征在于,所述(20)具体步骤为:
(21)使用Selenium框架对网络上的网络安全非结构化的事件文本进行采集;
(22)使用数据预处理手段,对爬取下来的数据进行数据清洗,去除重复、无用的非结构化文本,并且去除文本里特殊字符;
(23)使用开源数据标注工具doccano对数据进行人工标注,使用BIOES序列标注方法,完成对事件类型、事件元素的标注。
(24)根据人工标注生成的数据集生成匹配字典,用匹配字典来进行文本匹配标注。在自动标注后,进行人工审核确保标注的正确性。构建网络安全事件抽取中文数据集。
4.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法,其特征在于,所述(30)具体步骤为:
(31)将事件分类标签Label1......Labeln与原始文本拼接在一块,构建模型输入文本;
(32)网络安全事件分类模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化,并且通过字词对齐的方式对向量进行拼接,实现词级别的增强的文本向量化;
(33)使用自注意力机制,计算每个词上下文对当前词的影响权重得到注意力向量;
(34)使用Linear全连接层与Sigmoid激活函数作为输出层;
(35)计算Loss并且反向传播,训练模型,构建网络安全事件分类模型。
5.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于,所述(40)具体步骤为:
(41)网络安全事件元素抽取模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化,并且通过字词对齐的方式对向量进行拼接,实现词级别的增强的文本向量化;
(42)将该文本的事件类型通过随机Embedding进行编码,作为条件特征与向量化的文本特征融合,并对得到的向量进行归一化;
(43)将(42)生成的向量输入Bi-LSTM层获取文本上下文语义特征;
(44)使用全连接层将Bi-LSTM的隐藏层信息映射到事件类型标签种类数量维度,并且输入CRF层进行标签预测。
(45)计算CRF Loss并且反向传播,训练模型,构建网络安全事件元素抽取模型。
6.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于,所述(50)具体步骤为:
(51)使用Jieba对文本进行分词,并使用Word2Vec对分词进行向量化;
(52)通过(20)获取的网络安全事件文本生成TF-IDF词袋模型;
(53)对每个词的Word2Vec词向量利用TF-IDF词袋模型进行加权平均表示文本向量;
(54)通过对事件进行文本向量化,与文本计算余弦相似度,得到文本余弦相似度cosine(x,y);
(55)计算相同事件类型事件的事件元素之间的相似度entitysim(x,y);
(56)通过文本相似度与事件元素相似度计算综合相似度。
7.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于,所述(60)具体步骤为:
(61)使用事件文本分类模型对网络安全事件文本进行分类;
(62)使用事件元素抽取模型,对网络安全事件文本进行事件元素抽取;
(63)在知识图谱中构建该事件实体与其事件元素实体;
(64)计算该网络安全事件与网络安全知识图谱中其他事件的相似度,若相似度大于阈值,则与知识图谱中的事件实体构建相似关系,完成网络安全事件知识图谱的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310896974.1A CN116932661A (zh) | 2023-07-20 | 2023-07-20 | 一种面向网络安全的事件知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310896974.1A CN116932661A (zh) | 2023-07-20 | 2023-07-20 | 一种面向网络安全的事件知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116932661A true CN116932661A (zh) | 2023-10-24 |
Family
ID=88380112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310896974.1A Pending CN116932661A (zh) | 2023-07-20 | 2023-07-20 | 一种面向网络安全的事件知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932661A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131944A (zh) * | 2023-10-24 | 2023-11-28 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117454987A (zh) * | 2023-12-25 | 2024-01-26 | 临沂大学 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
CN117474956A (zh) * | 2023-12-25 | 2024-01-30 | 浙江优众新材料科技有限公司 | 基于运动估计注意力的光场重建模型训练方法及相关设备 |
-
2023
- 2023-07-20 CN CN202310896974.1A patent/CN116932661A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131944A (zh) * | 2023-10-24 | 2023-11-28 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117131944B (zh) * | 2023-10-24 | 2024-01-12 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117454987A (zh) * | 2023-12-25 | 2024-01-26 | 临沂大学 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
CN117474956A (zh) * | 2023-12-25 | 2024-01-30 | 浙江优众新材料科技有限公司 | 基于运动估计注意力的光场重建模型训练方法及相关设备 |
CN117454987B (zh) * | 2023-12-25 | 2024-03-19 | 临沂大学 | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 |
CN117474956B (zh) * | 2023-12-25 | 2024-03-26 | 浙江优众新材料科技有限公司 | 基于运动估计注意力的光场重建模型训练方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
Er et al. | Attention pooling-based convolutional neural network for sentence modelling | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN107330032B (zh) | 一种基于递归神经网络的隐式篇章关系分析方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN116932661A (zh) | 一种面向网络安全的事件知识图谱构建方法 | |
CN108182295A (zh) | 一种企业知识图谱属性抽取方法及系统 | |
CN111125367B (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN111651974A (zh) | 一种隐式篇章关系分析方法和系统 | |
Xiao et al. | DAA: Dual LSTMs with adaptive attention for image captioning | |
CN113239663B (zh) | 一种基于知网的多义词中文实体关系识别方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
Sun et al. | Transformer based multi-grained attention network for aspect-based sentiment analysis | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN111522963A (zh) | 一种基于公安知识图谱引擎的智能助理应用交互方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN115422362B (zh) | 一种基于人工智能的文本匹配方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |