CN116932661A - 一种面向网络安全的事件知识图谱构建方法 - Google Patents

一种面向网络安全的事件知识图谱构建方法 Download PDF

Info

Publication number
CN116932661A
CN116932661A CN202310896974.1A CN202310896974A CN116932661A CN 116932661 A CN116932661 A CN 116932661A CN 202310896974 A CN202310896974 A CN 202310896974A CN 116932661 A CN116932661 A CN 116932661A
Authority
CN
China
Prior art keywords
event
network security
text
knowledge graph
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310896974.1A
Other languages
English (en)
Inventor
周文宇
刘伟
顾泽宇
徐伟鹏
赵东阳
陈剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310896974.1A priority Critical patent/CN116932661A/zh
Publication of CN116932661A publication Critical patent/CN116932661A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网络安全领域,提供一种面向网络安全的事件知识图谱构建方法。该方法包括:(10)定义网络安全事件数据Schema;(20)从互联网中获取网络安全事件非结构化文本数据,通过标注形成网络安全事件抽取中文数据集;(30)构建事件分类模型,用于网络安全事件的分类;(40)构建事件元素抽取模型,用于抽取各类事件的事件元素(50)实现相似事件识别算法,在知识图谱中建立相似事件关系;(60)通过上述步骤,完成知识图谱的自动化构建。该方法能够将非结构化事件信息转为结构化知识图谱,本发明适用于网络安全领域事件知识图谱自动化构建,对后续进一步研究知识图谱,深入分析网络安全态势,挖掘有价值的网络安全信息有重要的实用价值。

Description

一种面向网络安全的事件知识图谱构建方法
技术领域
本发明设计网络安全领域,具体为一种网络安全事件知识图谱构建方法。
背景技术
网络安全知识图谱是一张由实体、概念、属性和实体之间的关系构成的图谱,在网络安全领域具有重要的意义,网络安全知识图谱将众多的网络安全领域概念和实体组织起来,将其进行规范化和结构化,提供图结构形式的知识表示,如今,传统知识图谱的研究主要集中在“实体”层面,将客观物理世界的具体实体作为知识映射到知识图谱中,能够对客观物理世界实体的静态特征进行描述,但这无法体现客观物理世界的一些动态特征,以“事件”为基本单位构建的知识图谱,更符合人们对客观世界的理解,并且更符合知识更新的需要,以网络安全事件为核心构建事件知识图谱可以更准确地表达事实信息,并帮助人们学习和理解网络安全动态事件,为人们提供更有效的分析和决策支持。
目前网络安全事件图谱自动构建技术存在一些问题和待改进的地方:在数据方面,网络安全领域的中文事件抽取数据集不足,基本以英文为主;网络安全事件本体模型方面,目前没有网络安全事件的分类定义规范,大多数研究没有统一的标准;在事件抽取方面,中文的汉字和语法结构更加错综复杂和灵活多变,这增加了从中文中提取事件信息的困难程度;在图谱构建方面,网络安全领域具有较强专业领域特征,图谱构建自动化程度较低,需要涉及图谱相似事件识别相关知识,实现难度较大。
针对网络安全事件图谱自动构建的问题,目前亟需一种面向网络安全的事件知识图谱自动构建方法,对后续进一步研究知识图谱,深入分析网络安全态势,挖掘有价值的网络安全信息有重要的实用价值和理论意义。
发明内容
有鉴于此,本发明的目的在于提供一种面向网络安全的事件知识图谱的构建方法,旨在解决网络安全领域事件知识图谱构建中数据集不足、非结构化文本抽取中存在的问题。本发明通过下述技术方案得以解决:
一种面向网络安全的事件知识图谱构建方法,包括如下步骤:
(10)定义网络安全领域事件数据Schema,包含网络安全事件类型和事件元素;
(20)获取互联网上网络安全事件相关的原始语料,通过数据预处理和数据标注,构建网络安全事件抽取中文数据集;
(30)构建网络安全事件分类模型,使用基于BERT预训练模型进行深度学习,得到网络安全事件分类模型;
(40)构建网络安全事件元素抽取模型,使用基于BERT预训练模型进行深度学习训练,得到网络安全事件元素抽取模型;
(50)实现相似事件识别算法,使用文本语义级别的相似度与实体级别的相似度形成综合相似度,以综合相似度作为相似事件识别条件;
(60)利用事件分类模型与事件元素抽取模型将事件变成结构化的三元组数据,并且利用相似事件识别算法,建立事件实体的相似关系,完成网络安全事件知识图谱的构建。
本发明的有益效果为:本发明定义了网络安全事件Schema,并由此构建了网络安全领域事件抽取数据集。对网络安全事件分类任务建模为文本多标签分类任务,利用增强词向量与融合分类标签信息提升了文本输入特征,进而提升了模型分类效能。将网络安全事件元素抽取任务建模为序列标注任务,通过增强词向量提升文本输入特征,通过事件类型条件特征输入,解决了事件间的重叠事件元素问题。计算计算文本相似度与事件元素实体相似度形成事件综合相似度建立事件实体之间的相似关系。最终形成一套网络安全事件知识图谱的构建流程。
附图说明:
图1为本发明方法步骤图;
图2为本发明事件分类模型图;
图3为本发明事件元素抽取模型图;
图4为本发明网络安全事件知识图谱构建流程图;
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明作进一步详细的说明。本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
本发明的设计提出一种面向网络安全事件知识图谱的构建方法,如图1所示,本发明方法包括以下步骤:
(10)定义网络安全领域事件数据Schema,包含网络安全事件类型和事件元素,具体网络安全事件类型与其对应的事件元素如表1所示:
表1网络安全事件数据格式
(20)获取互联网上网络安全事件相关的原始语料,通过数据预处理和数据标注,构建网络安全事件抽取中文数据集;
进一步的,(20)的具体方式为:
(21)使用Selenium框架对网络上的网络安全非结构化的事件文本进行采集;
(22)使用数据预处理手段,对爬取下来的数据进行数据清洗,去除重复、无用的非结构化文本,并且去除文本里特殊字符;
(23)使用开源数据标注工具doccano对数据进行人工标注,使用BIOES序列标注方法,完成对事件类型、事件元素的标注。
(24)根据人工标注生成的数据集生成匹配字典,用匹配字典来进行文本匹配标注。在自动标注后,进行人工审核确保标注的正确性。构建网络安全事件抽取中文数据集。
(30)构建网络安全事件分类模型,使用基于BERT预训练模型进行深度学习,得到网络安全事件分类模型,具体模型如图2所示;
进一步的,(30)的具体方式为:
(31)将事件分类标签Label1......Labeln与原始文本拼接在一块,构建模型输入文本,形成的输入文本:
text=C1C2C3......CmL11L12......Lnk
其中,Ci表示文本第i个字符,Lij表示第i个标签的第j个字符;
(32)网络安全事件分类模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化,并且通过字词对齐的方式对向量进行拼接,实现词级别的增强的文本向量化,由于数据集为中文,BERT会按字进行切分,得到字级别的向量,每个字被映射到768维;对文本进行Jieba分词,使用Word2Vec模型,对分词结果进行词级别的向量化,每个词被映射到200维的特征上,两者特征融合的方式为:
其中Eenhanced表示融合增强后的字向量,EBERT表示BERT模型输出的字向量,Eword表示Word2Vec模型输出的词向量,为拼接运算符,经过横向拼接后融合增强后的字向量为968维的字向量;
(33)使用自注意力机制,计算每个词上下文对当前词的影响权重得到注意力向量;
(34)使用Linear全连接层与Sigmoid激活函数作为输出层,Sigmoid函数:
(35)计算Loss并且反向传播,训练模型,构建网络安全事件分类模型,由于该分类为多分类任务,Loss函数选用BCE Loss:
BEC Loss=-(ylog(p(x)+(1-y)log(1-p(x))
其中p(x)为模型输出,y为真实标签。
(40)构建网络安全事件元素抽取模型,使用基于BERT预训练模型进行深度学习训练,得到网络安全事件元素抽取模型,具体模型如图3所示;
进一步的,(40)的具体方式为:
(41)网络安全事件元素抽取模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化,并且通过字词对齐的方式对向量进行拼接,实现词级别的增强的文本向量化,用BERT模型和Word2Vec模型对文本进行向量化,由于数据集为中文,BERT会按字进行切分,得到字级别的向量,每个字被映射到768维;对文本进行Jieba分词,使用Word2Vec模型,对分词结果进行词级别的向量化,每个词被映射到200维的特征上,两者特征融合的方式为:
其中Eenhanced表示融合增强后的字向量,EBERT表示BERT模型输出的字向量,Eword表示Word2Vec模型输出的词向量,为拼接运算符,经过横向拼接后融合增强后的字向量为968维的字向量;
(42)将该文本的事件类型通过随机Embedding进行编码,作为条件特征与向量化的文本特征融合,并对得到的向量进行归一化,将输入层向量Eenhanced与事件类型向量Eevent_type输入Conditional Layer Norm层,并进行归一化得到EConditional,ConditionalLayerNorm层的公式如下:
其中,x为输入量,c为条件,μx为输入量的特征均值,σx为输入量的特征标准差,γc为可学习得缩放参数,βc为学习得偏移参数;
(43)将(42)生成输入层向量EConditional输入Bi-LSTM层获取上下文语义特征,Bi-LSTM为双向LSTM模型,ct为记忆单元,用于保存当前LSTM的状态信息并传递到下个时刻,具体公式如下:
上式中,ft为遗忘门,用于控制上一时刻ct-1进入当前时刻的特征,it为输入门,用于控制的特征,/>为临时记忆单元:
ft=σ(Wf·[ht-1,Et enhanced]+bf)
it=σ(Wi·[ht-1,Et enhanced]+bi)
其中,W和b为神经网络模型参数,σ为sigmoid激活函数,ht-1为上一时刻隐藏状态,Et enhanced为当前时刻增强级字符输入向量,当前隐藏层ht的计算公式如下:
ht=ot*tanh(ct)
上式中,ct为当前时刻记忆单元,ot为当前时刻的输出门:
ot=σ(Wo·[ht-1,Et enhanced]+bo)
在Bi-LSTM中使用得到的隐藏层ht的特征,有前向LSTM与后向LSTM,将两个特征横向拼接得到ht Bi-LSTM
(44)使用全连接层将Bi-LSTM的隐藏层信息hBi-LSTM映射到事件类型标签种类数量维度,并且输入CRF层进行标签预测。
(45)计算CRF Loss并且反向传播,训练模型,构建网络安全事件元素抽取模型,CRF Loss计算公式为:
其中为第N条路径的路径分数;
(50)实现相似事件识别算法,使用文本语义级别的相似度与实体级别的相似度形成综合相似度,以综合相似度作为相似事件识别条件;
进一步的,(50)的具体方式为:
(51)使用Jieba对文本进行分词,并使用Word2Vec对分词进行向量化;
(52)通过(20)获取的网络安全事件文本生成TF-IDF词袋模型:
TF(w)是词w在这个句子中出现的次数,DF(w)是词w在所有句子中出现的次数,N是句子总数;
(53)对每个词的Word2Vec词向量利用TF-IDF词袋模型进行加权平均表示文本向量:
其中,wi是第i个词的TF-IDF权重,vi是第i个词的词向量;
(54)通过对事件进行文本向量化,与文本计算余弦相似度,得到文本余弦相似度cosine(x,y):
(55)计算相同事件类型事件的事件元素之间的相似度entitysim(x,y):
其中,Uintersect为事件1与事件2中事件角色的交集数量,Uunion为事件1与事件2中事件角色的并集数量,m为Uintersect中事件角色的数量,lev为编辑距离相似度,a,b分别为事件1与事件2相同事件角色中的具体事件元素。
(56)通过文本相似度与事件元素相似度计算综合相似度:
general_similarity=cosine(x,y)+entitysim(x,y)
(60)利用事件分类模型与事件元素抽取模型将事件变成结构化的三元组数据,并且利用相似事件识别算法,建立事件实体的相似关系,完成网络安全事件知识图谱的构建。构建流程图如图4所示。
进一步的,(60)的具体方式为:
(61)使用事件文本分类模型对网络安全事件文本进行分类;
(62)使用事件元素抽取模型,对网络安全事件文本进行事件元素抽取;
(63)在知识图谱中构建该事件实体与其事件元素实体;
(64)计算该网络安全事件与网络安全知识图谱中其他事件的相似度,若相似度大于阈值,则与知识图谱中的事件实体构建相似关系。
以上所述仅是本发明的优选实施方式,发明不局限于上述实施方式,任何人应得知在本发明的启示下做出的与本发明具有相同或相近的技术方案,均落入本发明的保护范围。

Claims (7)

1.一种面向网络安全的事件知识图谱构建方法,其特征在于,所述方法的步骤如下:
(10)定义网络安全领域事件数据Schema,包含网络安全事件类型和事件元素;
(20)获取互联网上网络安全事件相关的原始语料,通过数据预处理和数据标注,构建网络安全事件抽取中文数据集;
(30)构建网络安全事件分类模型,使用基于BERT预训练模型进行深度学习,得到网络安全事件分类模型;
(40)构建网络安全事件元素抽取模型,使用基于BERT预训练模型进行深度学习训练,得到网络安全事件元素抽取模型;
(50)实现相似事件识别算法,使用文本语义级别的相似度与实体级别的相似度形成综合相似度,以综合相似度作为相似事件识别条件;
(60)利用事件分类模型与事件元素抽取模型将事件变成结构化的三元组数据,并且利用相似事件识别算法,建立事件实体的相似关系,完成网络安全事件知识图谱的构建。
2.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法,其特征在于,所述(10)具体步骤为:
定义网络安全事件的Schema,包括网络攻击事件、数据安全事件、安全漏洞事件、加强防御事件、设备破坏事件、有害程序事件与其事件对应的事件角色。
3.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法,其特征在于,所述(20)具体步骤为:
(21)使用Selenium框架对网络上的网络安全非结构化的事件文本进行采集;
(22)使用数据预处理手段,对爬取下来的数据进行数据清洗,去除重复、无用的非结构化文本,并且去除文本里特殊字符;
(23)使用开源数据标注工具doccano对数据进行人工标注,使用BIOES序列标注方法,完成对事件类型、事件元素的标注。
(24)根据人工标注生成的数据集生成匹配字典,用匹配字典来进行文本匹配标注。在自动标注后,进行人工审核确保标注的正确性。构建网络安全事件抽取中文数据集。
4.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法,其特征在于,所述(30)具体步骤为:
(31)将事件分类标签Label1......Labeln与原始文本拼接在一块,构建模型输入文本;
(32)网络安全事件分类模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化,并且通过字词对齐的方式对向量进行拼接,实现词级别的增强的文本向量化;
(33)使用自注意力机制,计算每个词上下文对当前词的影响权重得到注意力向量;
(34)使用Linear全连接层与Sigmoid激活函数作为输出层;
(35)计算Loss并且反向传播,训练模型,构建网络安全事件分类模型。
5.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于,所述(40)具体步骤为:
(41)网络安全事件元素抽取模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化,并且通过字词对齐的方式对向量进行拼接,实现词级别的增强的文本向量化;
(42)将该文本的事件类型通过随机Embedding进行编码,作为条件特征与向量化的文本特征融合,并对得到的向量进行归一化;
(43)将(42)生成的向量输入Bi-LSTM层获取文本上下文语义特征;
(44)使用全连接层将Bi-LSTM的隐藏层信息映射到事件类型标签种类数量维度,并且输入CRF层进行标签预测。
(45)计算CRF Loss并且反向传播,训练模型,构建网络安全事件元素抽取模型。
6.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于,所述(50)具体步骤为:
(51)使用Jieba对文本进行分词,并使用Word2Vec对分词进行向量化;
(52)通过(20)获取的网络安全事件文本生成TF-IDF词袋模型;
(53)对每个词的Word2Vec词向量利用TF-IDF词袋模型进行加权平均表示文本向量;
(54)通过对事件进行文本向量化,与文本计算余弦相似度,得到文本余弦相似度cosine(x,y);
(55)计算相同事件类型事件的事件元素之间的相似度entitysim(x,y);
(56)通过文本相似度与事件元素相似度计算综合相似度。
7.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于,所述(60)具体步骤为:
(61)使用事件文本分类模型对网络安全事件文本进行分类;
(62)使用事件元素抽取模型,对网络安全事件文本进行事件元素抽取;
(63)在知识图谱中构建该事件实体与其事件元素实体;
(64)计算该网络安全事件与网络安全知识图谱中其他事件的相似度,若相似度大于阈值,则与知识图谱中的事件实体构建相似关系,完成网络安全事件知识图谱的构建。
CN202310896974.1A 2023-07-20 2023-07-20 一种面向网络安全的事件知识图谱构建方法 Pending CN116932661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310896974.1A CN116932661A (zh) 2023-07-20 2023-07-20 一种面向网络安全的事件知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310896974.1A CN116932661A (zh) 2023-07-20 2023-07-20 一种面向网络安全的事件知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN116932661A true CN116932661A (zh) 2023-10-24

Family

ID=88380112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310896974.1A Pending CN116932661A (zh) 2023-07-20 2023-07-20 一种面向网络安全的事件知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN116932661A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131944A (zh) * 2023-10-24 2023-11-28 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统
CN117454987A (zh) * 2023-12-25 2024-01-26 临沂大学 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN117474956A (zh) * 2023-12-25 2024-01-30 浙江优众新材料科技有限公司 基于运动估计注意力的光场重建模型训练方法及相关设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131944A (zh) * 2023-10-24 2023-11-28 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统
CN117131944B (zh) * 2023-10-24 2024-01-12 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统
CN117454987A (zh) * 2023-12-25 2024-01-26 临沂大学 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN117474956A (zh) * 2023-12-25 2024-01-30 浙江优众新材料科技有限公司 基于运动估计注意力的光场重建模型训练方法及相关设备
CN117454987B (zh) * 2023-12-25 2024-03-19 临沂大学 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN117474956B (zh) * 2023-12-25 2024-03-26 浙江优众新材料科技有限公司 基于运动估计注意力的光场重建模型训练方法及相关设备

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
Er et al. Attention pooling-based convolutional neural network for sentence modelling
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN116932661A (zh) 一种面向网络安全的事件知识图谱构建方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN111651974A (zh) 一种隐式篇章关系分析方法和系统
Xiao et al. DAA: Dual LSTMs with adaptive attention for image captioning
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Sun et al. Transformer based multi-grained attention network for aspect-based sentiment analysis
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN111522963A (zh) 一种基于公安知识图谱引擎的智能助理应用交互方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination