CN116362246A - 一种面向多源威胁情报的实体识别及关系抽取方法 - Google Patents

一种面向多源威胁情报的实体识别及关系抽取方法 Download PDF

Info

Publication number
CN116362246A
CN116362246A CN202310126446.8A CN202310126446A CN116362246A CN 116362246 A CN116362246 A CN 116362246A CN 202310126446 A CN202310126446 A CN 202310126446A CN 116362246 A CN116362246 A CN 116362246A
Authority
CN
China
Prior art keywords
entity
feature vector
text data
intermediate feature
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310126446.8A
Other languages
English (en)
Inventor
程克非
李宗良
陈京浩
张亮
李琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310126446.8A priority Critical patent/CN116362246A/zh
Publication of CN116362246A publication Critical patent/CN116362246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向多源威胁情报的实体识别及关系抽取方法,包括:获取与APT攻击相关的原始情报文本数据,并采用YEEDA对原始文本数据中的实体进行标注得到标注语料文本数据;构建实体识别模型和实体关系抽取模型,将标注语料文本数据做为训练样本对实体识别模型和实体关系抽取模型进行训练;获取目标情报文本数据,将目标情报文本数据输入训练好的实体识别模型和实体关系抽取模型,通过实体识别模型识别出目标情报文本中的实体;通过实体关系抽取模型抽取目标情报文本中实体之间的关系,本发明通过实体识别模型和实体关系抽取模型能够自动且准确的识别出文本中的实体与实体之间的关系,及时的发现网络攻击,提高网络的安全。

Description

一种面向多源威胁情报的实体识别及关系抽取方法
技术领域
本发明属于网络空间安全技术领域,具体涉及一种面向多源威胁情报的实体识别及关系抽取方法。
背景技术
近年来,伴随着信息技术的快速发展,网络基础设施不断趋于完善,网络传输速度不断提升,网络安全形势也变得日益严峻。网络已成为生活中必不可少的一部分,在人们越来越依赖网络的同时,网络安全问题也逐渐映入人们的眼帘,各类境外组织和不法分子怀着种种目的,使用各种手段进行网络攻击,致使网络安全事件层出不穷,给国家安全、社会稳定、人民生活造成严重影响,如何有效防范并且抵御网络上的各种攻击已成为保证网络安全的重要环节。
网络空间安全领域的威胁情报数据十分丰富,主要有威胁情报平台(360、奇安信、安恒)发布的APT报告和安全博客等,威胁情报数据往往都是碎片化的情报,情报之间关联性低,独立性高,在追踪溯源问题上无法提供强有力的支撑,难以深度挖掘出潜在的攻击组织、攻击控制资源等,如何从非结构化数据中提取出威胁情报相关的信息,识别出这些信息中的实体以及实体间的关系,目前在该领域还没有一种比较好的解决方案。
目前在通用领域的命名实体识别效果较好,但是无法直接运用到威胁情报领域,相比于通用领域,威胁情报领域命名规则复杂,实体种类较多,中英文混杂,这都为威胁情报实体识别带来了更大的挑战。
传统的实体识别方法大都基于word2vec和双向长短时记忆网络,然而word2vec忽略了上下文语义信息,双向长短时记忆网络忽略了文本的局部特征,对于威胁情报数据这种命名规则复杂,实体种类较多,中英文混杂的文本数据来说,实体识别的效果不佳,从而无法及时准确的发现威胁情报,无法及时的阻止网络攻击。
发明内容
为了解决背景技术中存在的问题,本发明提供一种面向多源威胁情报的实体识别及关系抽取方法,包括:
S1:获取与APT攻击相关的原始情报文本数据,并采用YEEDA对原始文本数据中的实体进行标注得到标注语料文本数据;
S2:构建实体识别模型和实体关系抽取模型,将标注语料文本数据做为训练样本对实体识别模型和实体关系抽取模型进行训练;
S3:获取目标情报文本数据,将目标情报文本数据输入训练好的实体识别模型和实体关系抽取模型,通过实体识别模型识别出目标情报文本中的实体;通过实体关系抽取模型抽取目标情报文本中实体之间的关系。
本发明至少具有以下有益效果
本发明提出BERT-BiLSTM-IDCNN-Attention-CRF的实体识别模型和BERT-TextCNN-BiGRU-Attention实体关系抽取模型,通过使用BERT获得的词向量包括上下文的语义信息特征,解决静态词嵌入不能表征一词多义的缺点,通过引入IDCNN解决了BiLSTM在提取全局特征时忽略局部特征的缺点,在BiLSTM和IDCNN提取的全局特征和局部特征的基础上通过注意力机制对特征向量进行权重分配,对识别实体重要的信息分配更高的权重,对识别实体不重要的信息分配小的权重或忽略,最后输入CRF进行标签预测,数据输入到BERT预训练模型得到威胁情报文本中每个字符的特征向量,将通过BERT模型得到的特征向量输入到BiGRU-Attention模型进行编码得到威胁情报语句的全局语义特征,引入TextCNN提取威胁情报语句的局部语义特征,解决单独使用BiGRU模型可能无法捕获实体对间完备的语义特征的缺点,最后将威胁情报语句全局语义特征、局部语义特征融合利用Softmax进行关系分类,解决了当前威胁情报实体识别中实体关系抽取准确率较低的问题,从而快速从海量威胁情报中获取关键数据保障网络安全。
附图说明
图1为本发明的方法流程图;
图2为本发明实体识别流程图;
图3为本发明实体关系抽取流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1,本发明提供一种面向多源威胁情报的实体识别及关系抽取方法,包括:
S1:获取与APT攻击相关的原始情报文本数据,并采用YEEDA对原始文本数据中的实体进行标注得到标注语料文本数据;
优选地,采用YEEDA标注工具对原始情报文本数据进行标注,使用“BIO”标注策略对原始情报文本中的实体进行标注,其中,所述实体包括:攻击组织(Organization)、组织代号(Alisa)、地理位置(Location)、攻击领域(Domain)、恶意软件(Malware)、攻击方式(Method)、CVE编号(CVE),例如,对于文本“透明部落是位于南非的APT组织”,“BIO”标注策略为对句子中的实体开头标注为B对实体非开头部分标注为I,对非实体标注为O。
获取与APT攻击相关的原始情报文本数据包括:数据采集和数据处理两个步骤:
数据采集:
使用Puppeteer爬虫从360威胁情报平台、奇安信威胁情报中心、安恒威胁分析平台和安全博客获取网页内容并转换为PDF文件;
数据处理;
对获取到的PDF文件进行筛选得到与APT报告相关的文件,然后对与APT报告相关的PDF文件进行数据清洗包括:使用PDFPlumber将PDF文件转换为文本文件,再使用正则表达式过滤页眉和页脚等无效信息得到原始情报文本数据。
S2:构建实体识别模型和实体关系抽取模型,将标注语料文本数据做为训练样本对实体识别模型和实体关系抽取模型进行训练;
优选地,所述实体识别模型包括:第一BERT层、IDCNN模块、Bilstm模块、第一Attention机制模块和CRF模块;
所述实体关系抽取模型包括:第二BERT层、TextCNN模块、BiGRU模块、全连接层、softmax和第二Attention机制模块;
所述将标注语料文本数据作为训练样本对实体识别模型和实体关系抽取模型进行训练包括:
S21:将标注语料文本数据划分为第一训练集和第二训练集;
S22:将第一训练集中的标注语料文本数据作为训练样本对实体识别模型进行训练;利用训练好的实体识别模型对第二训练集中标注语料文本数据的实体进行识别得到标注语料文本数据中的实体对;
请参阅图2,优选地,所述将第一训练集中的标注语料文本数据作为训练样本对实体识别模型进行训练包括:
S221:将标注语料文本数据通过第一BERT层映射到低维的向量空间生成第一中间特征向量;
BERT层的流程为:使用BERT-Base-Chinese将输入的文本映射到低维的向量空间,充分考虑字符、句子和文本间的特征,增加字向量的语义信息。
S222:将第一中间特征向量输入IDCNN模块提取第一中间特征向量的局部特征得到第二中间特征向量;
IDCNN层的流程为:将BERT输出的第二中间特征向量作为IDCNN的输入,对标注语料文本中每个词对应的向量生成一个logits,通过在经典的卷积网络中增加了一个膨胀宽度,通过调整膨胀宽度在卷积核大小不变的情况下增大或缩小视野,IDCNN的膨胀宽度设为1,1,2;并加入dropout解决过拟合的问题并设置为0.5。
S223:将第一中间特征向量输入Bilstm模块提取标注语料文本的上下文语义信息得到第三中间特征向量;
Bilstm流程为:将BERT输出的第一中间特征向量作为Bilstm的输入,正向Lstm隐状态输出
Figure BDA0004082284300000052
和反向Lstm隐状态输出/>
Figure BDA0004082284300000053
将/>
Figure BDA0004082284300000054
和/>
Figure BDA0004082284300000055
拼接得到具有上下文语义信息的第三中间特征向量/>
Figure BDA0004082284300000056
其中,隐藏层层数设置为200,学习率为0.001。
S224:将第二中间特征向量和第三中间特征向量拼接后输入第一Attention机制模块利用注意力机制计算得到第四中间特征向量;所述将第二中间特征向量和第三中间特征向量采用ConCat函数进行拼接;
优选地,所述第四中间特征向量包括:
Figure BDA0004082284300000051
Figure BDA0004082284300000061
其中,
Figure BDA0004082284300000062
注意力权重系数,st表示第四中间特征向量,hi表示第二中间特征向量和第三中间特征向量拼接后的特征向量中的第i个词向量,n表示标注语料文本数据中的字符数量。
S225:将第四中间特征向量输入CRF模块预测实体标签序列的概率分布,并将概率最高的实体标签序列作为预测结果;根据预测结果将实体标签映射回实体,输出标注语料文本中的实体对;
对于一个输入序列X=(x1,x2,…,xn),其对应的预测序列为Y=(y1,y2,…,yn),则Y关于X的概率分数计算公式表达如下:
Figure BDA0004082284300000063
其中,
Figure BDA0004082284300000064
表示第四特征向量中的第i个词向量被分类到第j个标签的概率,
Figure BDA0004082284300000065
是CRF的特征矩阵参数表示第四特征向量中第i个词向量的预测标签yi到第四特征向量中第i+1个词向量的预测标签yi+1的转移分数,n表示第四特征向量中的词向量数量,CRF可以学习到句子的约束条件,这些约束可以在训练数据时被CRF自动学习得到,例如,命名实体的开头应该是“B-”而不是“I-”。有了这些有用的约束,错误的预测序列将会大大减少。
S226:根据预测结果和YEEDA标注利用交叉熵损失函数通过反向传播的机制更新实体识别模型的参数。
请参阅图3,S23:对第二训练集中标注语料文本数据中的实体对之间的关系进行标注,并将标注语料文本数据中的实体对、实体对之间的关系和标注语料文本数据作为训练样本对实体关系抽取模型进行训练;其中,实体对之间的关系包括:来源(comes-from)、使用(uses)、有代号(has-alisa)、属于(belongs)、有恶意软件(has-malware)、有领域(has-domain);
S231:将标注语料文本数据中的实体对、实体对之间的关系和标注语料文本中的词按照次序组成文本序列;例如,透明部落南非来源<e1>透明部落<e1>是位于<e2>南非<e2>的APT组织;
S232:将文本序列通过第二BERT层映射到低维的向量空间生成第五中间特征向量;
S233:将第五中间特征向量输入TextCNN提取文本序列的局部信息得到第六中间特征向量;
S234:将第五中间特征向量通过BiGRU层提取文本序列的上下文信息得到第七中间特征向量;
TextCNN层的流程为:通过第二BERT层处理后的特征向量通过CNN进行卷积,获得卷积特征后,通过池化层,采用最大池化层从多个值中取最大值,然后输出第六中间特征向量。
具体地,首先通过第二BERT层处理后的特征向量作为TextCNN输入层的初始输入E,可以表示为
Figure BDA0004082284300000071
表示第i个文本有n个词,然后通过卷积层提取窗口内文本的局部特征信息T,即Ti=f(W·Ei:i+h-1+b),其中W为权重矩阵,b为偏执项,f(·)为激活函数。
S235:将第七中间特征向量输入第二Attention机制模块利用注意力机制计算得到第八中间特征向量;
优选地,所述第八中间特征向量包括:
Figure BDA0004082284300000072
Figure BDA0004082284300000073
其中,
Figure BDA0004082284300000074
注意力权重系数,st为第八中间特征向量,hB为第七中间特征向量。
S236:将第六中间特征向量和第八中间特征向量进行拼接得到第九中间特征向量;
S237:将第九中间特征向量依次输入全连接层和softmax对文本序列中实体对之间的关系进行关系预测,根据预测的结果和实体对之间的关系标注利用交叉熵损失函数通过反向传播的机制更新实体关系抽取模型的参数:
y=softmax(WiSj+bi)
其中,Sj表示第九中间特征向量,Wi为权重矩阵,bi为偏置系数,y为最终的预测结果。
S3:获取目标情报文本数据,将目标情报文本数据输入训练好的实体识别模型和实体关系抽取模型,通过实体识别模型识别出目标情报文本中的实体;通过实体关系抽取模型抽取目标情报文本中实体之间的关系。
本发明提出BERT-BiLSTM-IDCNN-Attention-CRF的实体识别模型和BERT-TextCNN-BiGRU-Attention实体关系抽取模型,通过使用BERT获得的词向量包括上下文的语义信息特征,解决静态词嵌入不能表征一词多义的缺点,通过引入IDCNN解决了BiLSTM在提取全局特征时忽略局部特征的缺点,在BiLSTM和IDCNN提取的全局特征和局部特征的基础上通过注意力机制对特征向量进行权重分配,对识别实体重要的信息分配更高的权重,对识别实体不重要的信息分配小的权重或忽略,最后输入CRF进行标签预测,数据输入到BERT预训练模型得到威胁情报文本中每个字符的特征向量,将通过BERT模型得到的特征向量输入到BiGRU-Attention模型进行编码得到威胁情报语句的全局语义特征,引入TextCNN提取威胁情报语句的局部语义特征,解决单独使用BiGRU模型可能无法捕获实体对间完备的语义特征的缺点,最后将威胁情报语句全局语义特征、局部语义特征融合利用Softmax进行关系分类,解决了当前威胁情报实体识别中实体关系抽取准确率较低的问题,从而快速从海量威胁情报中获取关键数据保障网络安全。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,而非对其限制,本申请的保护范围并不局限于此,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种面向多源威胁情报的实体识别及关系抽取方法,其特征在于,包括以下步骤:
S1:获取与APT攻击相关的原始情报文本数据,并采用YEEDA对原始文本数据中的实体进行标注得到标注语料文本数据;
S2:构建实体识别模型和实体关系抽取模型,将标注语料文本数据做为训练样本对实体识别模型和实体关系抽取模型进行训练;
S3:获取目标情报文本数据,将目标情报文本数据输入训练好的实体识别模型和实体关系抽取模型,通过实体识别模型识别出目标情报文本中的实体;通过实体关系抽取模型抽取目标情报文本中实体之间的关系。
2.根据权利要求1所述的一种面向多源威胁情报的实体识别及关系抽取方法,其特征在于,采用YEEDA标注工具对原始情报文本数据进行标注,使用BIO标注策略对原始情报文本中的实体进行标注,其中,所述实体包括:攻击组织、组织代号、地理位置、攻击领域、恶意软件、攻击方式和CVE编号。
3.根据权力要求1所述的一种面向多源威胁情报的实体识别及关系抽取方法,其特征在于,所述实体识别模型包括:第一BERT层、IDCNN模块、Bilstm模块、第一Attention机制模块和CRF模块;
所述实体关系抽取模型包括:第二BERT层、TextCNN模块、BiGRU模块、全连接层、softmax和第二Attention机制模块;
所述将标注语料文本数据作为训练样本对实体识别模型和实体关系抽取模型进行训练包括:
S21:将标注语料文本数据划分为第一训练集和第二训练集;
S22:将第一训练集中的标注语料文本数据作为训练样本对实体识别模型进行训练;利用训练好的实体识别模型对第二训练集中标注语料文本数据的实体进行识别得到标注语料文本数据中的实体对;
S23:对第二训练集中标注语料文本数据中的实体对之间的关系进行标注,并将标注语料文本数据中的实体对、实体对之间的关系和标注语料文本数据作为训练样本对实体关系抽取模型进行训练,其中,实体对之间的关系包括:来源、使用、有代号、属于、有恶意软件和有领域。
4.根据权力要求3所述的一种面向多源威胁情报的实体识别及关系抽取方法,其特征在于,所述将第一训练集中的标注语料文本数据作为训练样本对实体识别模型进行训练包括:
S221:将标注语料文本数据通过第一BERT层映射到低维的向量空间生成第一中间特征向量;
S222:将第一中间特征向量输入IDCNN模块提取第一中间特征向量的局部特征得到第二中间特征向量;
S223:将第一中间特征向量输入Bilstm模块提取标注语料文本的上下文语义信息得到第三中间特征向量;
S224:将第二中间特征向量和第三中间特征向量拼接后输入第一Attention机制模块利用注意力机制计算得到第四中间特征向量;
S225:将第四中间特征向量输入CRF模块预测实体标签序列的概率分布,并将概率最高的实体标签序列作为预测结果;根据预测结果将实体标签映射回实体,输出标注语料文本中的实体对;
S226:根据预测结果和YEEDA标注利用交叉熵损失函数通过反向传播的机制更新实体识别模型的参数。
5.根据权力要求4所述的一种面向多源威胁情报的实体识别及关系抽取方法,其特征在于,所述第四中间特征向量包括:
Figure FDA0004082284290000021
Figure FDA0004082284290000022
其中,
Figure FDA0004082284290000023
注意力权重系数,st表示第四中间特征向量,hi表示第二中间特征向量和第三中间特征向量拼接后的特征向量中的第i个词向量,n表示标注语料文本数据中的字符数量。
6.根据权力要求4所述的一种面向多源威胁情报的实体识别及关系抽取方法,其特征在于,所述实体标签序列的概率分布包括:
对于一个输入序列X=(x1,x2,…,xn),其对应的预测序列为Y=(y1,y2,…,yn),则Y关于X的概率分数计算公式表达如下:
Figure FDA0004082284290000031
其中,
Figure FDA0004082284290000032
表示第四特征向量中的第i个词向量被分类到第j个标签的概率,/>
Figure FDA0004082284290000033
是CRF的特征矩阵参数表示第四特征向量中第i个词向量的预测标签yi到第四特征向量中第i+1个词向量的预测标签yi+1的转移分数,n表示第四特征向量中的词向量数量。
7.根据权力要求3所述的一种面向多源威胁情报的实体识别及关系抽取方法,其特征在于,所述对实体关系抽取模型进行训练包括:
S231:将标注语料文本数据中的实体对、实体对之间的关系和标注语料文本中的词按照次序组成文本序列;
S232:将文本序列通过第二BERT层映射到低维的向量空间生成第五中间特征向量;
S233:将第五中间特征向量输入TextCNN提取文本序列的局部信息得到第六中间特征向量;
S234:将第五中间特征向量通过BiGRU层提取文本序列的上下文信息得到第七中间特征向量;
S235:将第七中间特征向量输入第二Attention机制模块利用注意力机制计算得到第八中间特征向量;
S236:将第六中间特征向量和第八中间特征向量进行拼接得到第九中间特征向量;
S237:将第九中间特征向量依次输入全连接层和softmax对文本序列中实体对之间的关系进行关系预测,根据预测的结果和实体对之间的关系标注利用交叉熵损失函数通过反向传播的机制更新实体关系抽取模型的参数。
8.根据权力要求7所述的一种面向多源威胁情报的实体识别及关系抽取方法,其特征在于,所述对文本序列中实体对之间的关系进行关系预测包括:
y=softmax(WiSj+bi)
其中,Sj表示第九中间特征向量,Wi为权重矩阵,bi为偏置系数,y为最终的预测结果。
CN202310126446.8A 2023-02-16 2023-02-16 一种面向多源威胁情报的实体识别及关系抽取方法 Pending CN116362246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310126446.8A CN116362246A (zh) 2023-02-16 2023-02-16 一种面向多源威胁情报的实体识别及关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310126446.8A CN116362246A (zh) 2023-02-16 2023-02-16 一种面向多源威胁情报的实体识别及关系抽取方法

Publications (1)

Publication Number Publication Date
CN116362246A true CN116362246A (zh) 2023-06-30

Family

ID=86912438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310126446.8A Pending CN116362246A (zh) 2023-02-16 2023-02-16 一种面向多源威胁情报的实体识别及关系抽取方法

Country Status (1)

Country Link
CN (1) CN116362246A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236333A (zh) * 2023-10-17 2023-12-15 哈尔滨工业大学(威海) 一种基于威胁情报的复杂命名实体识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236333A (zh) * 2023-10-17 2023-12-15 哈尔滨工业大学(威海) 一种基于威胁情报的复杂命名实体识别方法

Similar Documents

Publication Publication Date Title
CN111709241B (zh) 一种面向网络安全领域的命名实体识别方法
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
Qiao et al. A joint model for entity and relation extraction based on BERT
CN110633409A (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
US20220300546A1 (en) Event extraction method, device and storage medium
CN114239585B (zh) 一种生物医学嵌套命名实体识别方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN115587594B (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN114742016B (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN116362246A (zh) 一种面向多源威胁情报的实体识别及关系抽取方法
CN116662591A (zh) 一种基于对比学习的鲁棒视觉问答模型训练方法
CN114048314B (zh) 一种自然语言隐写分析方法
CN113869054B (zh) 一种基于深度学习的电力领域项目特征识别方法
CN113312498B (zh) 用无向图嵌入知识图谱的文本信息抽取方法
Li et al. Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching
CN115129862A (zh) 语句实体处理方法、装置、计算机设备及存储介质
Shan Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment
Yang [Retracted] Application of English Vocabulary Presentation Based on Clustering in College English Teaching
CN113792144B (zh) 基于半监督的图卷积神经网络的文本分类方法
CN113919351A (zh) 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置
CN113627185A (zh) 一种用于肝癌病理文本命名的实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination