CN116186237A - 一种基于事件因果推断的实体关系的联合抽取方法 - Google Patents

一种基于事件因果推断的实体关系的联合抽取方法 Download PDF

Info

Publication number
CN116186237A
CN116186237A CN202310199312.9A CN202310199312A CN116186237A CN 116186237 A CN116186237 A CN 116186237A CN 202310199312 A CN202310199312 A CN 202310199312A CN 116186237 A CN116186237 A CN 116186237A
Authority
CN
China
Prior art keywords
target
event
model
entity
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310199312.9A
Other languages
English (en)
Inventor
栾婷婷
邓明月
张丽佳
张雪
李红儒
常建超
李晓云
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Petrochemical Technology
Original Assignee
Beijing Institute of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Petrochemical Technology filed Critical Beijing Institute of Petrochemical Technology
Priority to CN202310199312.9A priority Critical patent/CN116186237A/zh
Publication of CN116186237A publication Critical patent/CN116186237A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于事件因果推断的实体关系的联合抽取方法,通过获取至少一条事件调查报告,抽取事件调查报告中的关键文本数据;其中,关键文本数据至少包括实体数据及关系数据;实体数据包括事件原因和事件结果;构建目标联合抽取模型;其中,联合抽取模型包含目标编码子模型和目标解码子模型;利用目标联合抽取模型识别关键文本数据中的目标三元组;其中,目标三元组包括目标事件原因、目标关系和目标事件结果;目标关系包括直接关系和间接关系。由此,抽取准确的目标三元组来构建事件因果推断知识图谱,实现发现高数据量下出现某种事故结果可能存在的直接或者间接原因,并构建检索和问答系统,协助专业人士来对可能的原因做出分析和推断。

Description

一种基于事件因果推断的实体关系的联合抽取方法
技术领域
本发明涉及知识图谱技术领域,具体涉及一种基于事件因果推断的实体关系的联合抽取方法。
背景技术
由于化工事故原因呈现多元性和复杂化,化工事故因果推断分析作为预防和避免危化品事故的有效手段,面临着新的难题。
化工事故的原因调查是因果推断任务的重要表现之一,化工事故的事件调查报告中会有对事故直接原因和间接原因的分析,提取事件调查报告中的三元组,即头尾实体(事件原因和事件结果)以及两者之间的关系,是化工事故的实践因果推断的重要步骤。但在事件调查报告中往往存在大量长文本的情况,且一条事件调查报告中往往会包含多个事件结果,以及各个事件结果的各个直接和间接原因,容易出现实体关系稀疏以及实体复杂重叠的提取影响因素。其中,实体关系稀疏会造成实体关系提取不准确。实体重叠情况包括:某一三元组中的头实体也是另一三元组中的尾实体;某一三元组中的头实体也是另一三元组中的头实体;某一三元组中的头实体尾实体同时包含多种关系等。因此,难以完成针对化工事故调查报告中三元组的准确抽取。
发明内容
为此,本发明提供一种基于事件因果推断的实体关系的联合抽取方法,旨在利用事件调查报告中对事件因果进行准确的分析推断,并以此来构建事件因果推断知识图谱,以协助发现高数据量下出现某种事件结果可能存在的直接或者间接原因。
为实现以上目的,本发明采用如下技术方案:
依据本发明第一方面,本发明提供一种基于事件因果推断的实体关系联合抽取方法,所述方法包括:
获取至少一条事件调查报告,抽取所述事件调查报告中的关键文本数据;其中,所述关键文本数据至少包括实体数据及关系数据;所述实体数据包括事件原因和事件结果;
构建目标联合抽取模型;其中,所述联合抽取模型包含目标编码子模型和目标解码子模型;
利用所述目标联合抽取模型识别所述关键文本数据中的目标三元组;其中,所述目标三元组包括目标事件原因、目标关系和目标事件结果;所述目标关系包括直接关系和间接关系。
可选地,所述构建目标联合抽取模型包括:
构建基于预训练Bert模型的包含Bert-base-chinese构架的目标编码子模型;
在所述目标解码模型的序列编码层上叠加统一的目标解码子模型,得到联合抽取模型;
利用预设样本对所述联合抽取模型进行训练,得到训练完成的目标联合抽取模型。
可选地,所述目标解码子模型为基于指针网络的span方法的解码框架模型;
所述目标解码子模型包括低级主体标记解码器和高级客体关系标记解码器。
可选地,所述利用所述目标联合抽取模型识别关键文本数据中的目标三元组,包括:
将所述关键文本数据输入所述联合抽取模型;
利用所述目标编码子模型将所述关键文本数据转换为用于表征语义特征的特征向量;
利用所述低级主体标记解码器基于所述特征向量识别用于表征目标事件原因的头实体;
利用所述高级客体关系标记解码器识别所述头实体所在特定关系上对应的尾实体;其中,所述特定关系为直接关系或间接关系,所述尾实体用于表征目标事件结果。
可选地,所述利用预设样本对所述联合抽取模型进行训练,得到训练完成的目标联合抽取模型,包括:
利用预设训练样本输入所述目标编码子模型,得到共享参数;
利用共享参数中的头实体样本和尾实体样本训练所述低级主体标记解码器;
利用在特定关系下的头实体样本的位置信息训练所述高级客体关系标记解码器;
利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,得到参数优化后的目标联合抽取模型。
可选地,所述利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,包括:
对原有损失参数补充基于二分类的交叉熵损失函数,得到平衡交叉熵损失函数,所述平衡交叉熵损失函数用公式表示为:
Figure SMS_1
其中,yi为目标值,pi是模型训练的输出值;
或,
在模型随输入梯度无贡献值达到预设阈值时,利用基于稀疏场景下的平衡交叉熵损失函数对所述联合抽取模型进行模型损失优化;
所述基于稀疏场景下的平衡交叉熵损失函数用公式表示为:
Figure SMS_2
其中,pw为样本权重控制参数,yi为目标值,pi是模型训练的输出值。
可选地,所述利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,还包括:
基于FGM方法对所述联合抽取模型进行对抗训练,所述FGM方法计算公式表示为:
Radv=∈(‖g‖)2
Figure SMS_3
其中,Radv为扰动项,x为原样本,g为grad梯度,θ与y为模型参数。
可选地,所述利用所述目标编码子模型将所述关键文本数据转换为用于表征语义特征的特征向量,包括:
对所述关键文本数据进行预处理,所述预处理包括字符标注处理和语句标注处理;
利用文本输入词嵌入层对预处理后的关键文本数据进行向量映射,得到所述关键文本数据对应的词嵌入向量;
利用特征提取层对所述词嵌入向量进行语义抽取处理,得到包含所述关键文本数据对应的语义特征的特征向量。
可选地,所述抽取所述事件调查报告中的关键文本数据,包括:
对所述事件调查报告进行因果关系对抽取,得到至少一对事件原因和所述事件原因对应的事件结果。
可选地,所述方法还包括:
基于所述目标三元组构建事件因果知识图谱,对所述事件因果知识图谱进行页面显示;和/或,
基于所述事件因果知识图谱构建用户交互界面;其中,所述包括事件因果检索功能和事件因果问答功能中至少之一。
本发明采用以上技术方案,至少具备以下有益效果:
通过本发明方案,获取至少一条事件调查报告,抽取所述事件调查报告中的关键文本数据;构建目标联合抽取模型;利用所述目标联合抽取模型识别所述关键文本数据中包括目标事件原因、目标关系和目标事件结果的目标三元组。由此,抽取准确的目标三元组来构建事件因果推断知识图谱,实现发现高数据量下出现某种事故结果可能存在的直接或者间接原因,并构建检索和问答系统,协助专业人士来对可能的原因做出分析和推断。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一实施例提供的基于事件因果推断的实体关系联合抽取方法的流程示意图;
图2示出了本发明一实施例提供的Bert-base-chinese模型构架的简要示意图;
图3示出了本发明一实施例提供的联合抽取模型的训练流程图;
图4示出了本发明一实施例提供的事件因果知识图谱的简要示意图;
图5示出了本发明一实施例提供的事件因果检索交互页面的简要示意图;
图6示出了本发明一实施例提供的事件因果问答交互页面的简要示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种基于事件因果推断的实体关系联合抽取方法,如图1所示,至少可以包括以下步骤S101~S103:
步骤S101,获取至少一条事件调查报告,抽取事件调查报告中的关键文本数据。
其中,事件调查报告可以为专业人士在某事件发生后针对多种事件构成因素进行调查分析总结的文本数据,事件因素可以包括事件主体、发生时间、发生地点、事件原因和事件结果等。事件调查报告资料库可以收集近些年国内外的事件调查报告,每个事件调查报告中都详细介绍有该事件发生的前因后果,包括对事件直接原因和间接原因的分析。本发明实施例可以将这些时间调查报告的内容切分为txt格式的文档,每个txt文档对应有一个事件案例。
具体地,可以对事件调查报告进行因果关系对抽取,得到至少一对事件原因和事件原因对应的事件结果。关键文本数据为抽取到的实体数据和关系数据,其中,实体数据即为事件原因和事件结果。
本发明实施例在对事件调查报告进行因果关系对抽取后,还可以将抽取的文本数据保存在json文件中,json是轻量级的数据交换格式,易于机器解析与生成,相较于XML更小、更快,更易解析,可以分为test.json和train.json,以便后续进行模型训练。
为了进一步了解关键文本数据的抽取过程,本发明实施例提供了下述例举:以某一事件调查报告中包含的部分文本数据为例,“X年X月X日X时X分许,位于X地X公司的液氯工段在对液氯槽车充装液氯过程中,发生氯气泄漏,造成相邻企业多人受伤住院、直接经济损失数十万元”,对该文本数据进行因果关系对抽取,可以得到一段包含多个字段内容的关键文本数据如下:
{"outputs":{"annotation":{"T":["",{"type":"T","name":"事件原因","value":"X地X公司","start":29,"end":39,"attributes":[],"id":1},{"type":"T","name":"事件原因","value":"对液氯槽车充装液氯过程","start":56,"end":67,"attributes":[],"i
d":2},{"type":"T","name":"事件原因","value":"发生氯气泄漏","start":69,"end":75
,"attributes":[],"id":3},{"type":"T","name":"事件结果","value":"相邻企业多人受伤住院","start":78,"end":89,"attributes":[],"id":4},{"type":"T","name":"事件结果","value":"直接经济损失数十万元","start":90,"end":100,"attributes":[],"id":5},{"
type":"T","name":"事件结果","value":"对液氯槽车充装液氯过程","start":56,"end
":67,"attributes":[],"id":6},{"type":"T","name":"事件结果","value":"发生氯气泄漏","start":69,"end":75,"attributes":[],"id":7}],"E":[""],"R":["",{"name":"间接原因","
from":1,"to":6,"arg1":"Arg1","arg2":"Arg2"},{"name":"间接原因","from":2,"to":
7,"arg1":"Arg1","arg2":"Arg2"},{"name":"直接原因","from":3,"to":4,"arg1":"Arg1
","arg2":"Arg2"},{"name":"直接原因","from":3,"to":5,"arg1":"Arg1","arg2":"Arg2
"}],"A":[""]}},"time_labeled":1670985851087,"labeled":true,"content":"X年X月X日X时X分许,位于X地X公司的液氯工段在对液氯槽车充装液氯过程中,发生氯气泄漏,造成相邻企业多人受伤住院、直接经济损失数十万元。"
步骤S102,构建目标联合抽取模型。
由于上述提取的关键文本数据中可能存在识别不准确、实体关系稀疏、实体复杂重叠的情况,为了解决该技术问题,本发明实施例提出一种目标联合抽取模型,用于准确识别句子中所有可能的三元组,目标联合抽取模型包含目标编码子模型和目标解码子模型。
本发明实施例中所描述的三元组为头实体、关系和尾实体,头实体对应为事件原因、关系对应为直接原因或间接原因、尾实体对应为事件结果。
具体地,可以构建基于预训练Bert模型的包含Bert-base-chinese构架的目标编码子模型;在目标解码模型的序列编码层上叠加统一的目标解码子模型,得到联合抽取模型;利用预设样本对联合抽取模型进行训练,得到训练完成的目标联合抽取模型。
其中,目标编码子模型具有基于预训练Bert模型的Bert-base-chinese构架。
BERT(Bidirectional Encoder Representations from Transformers)模型是一种Transformer的双向编码器,其可以通过左右上下文中共有的条件汲取信息进行计算,以预先训练来自无标号文本的深度双向表示。因此,经过预先训练的BERT模型只需一个额外的输出层就可以进行微调,从而为各种自然语言处理任务生成目标模型。BERT的预训练可以在包含整个维基百科的无标签号文本的大语料库中和/或图书语料库中进行,并根据具体的自然语言处理任务对此大型模型进行微调,以利用此模型获得大型知识库。
本发明实施例提出的Bert-base-chinese模型,可以为具有12层(transformerblocks)及12头注意力(attention head)、以及1.1亿个参数的base级别的预训练Bert模型。如图2所示,为Bert-base-chinese模型构架的简要示意图。通过Bert-base-chinese模型构架,可以将文本数据转换为富含语义特征的特征向量。
具体地,如图2所示,使用目标编码子模型的隐含语义输出包括三个部分,第一部分为[CLS]标签,第二部分为第一个实体的隐含向量,第三部分为第二个实体的隐含向量。第一部分的[CLS]标签可以保存整个句子的整体语义信息,后两部分则可以用来保存两个实体的信息。其中,[CLS]用于表征该部分为单一向量,因此可以直接将其输入双向长短期记忆网络中。H0表示[CLS]向量的隐含层输出,W0和b0分别为第一个Linear层的权重和偏置项。
H′0=W0(tanh(H0))+b0
另外,两部分实体信息可以利用相同方法和相同神经网络结构机芯处理,分别将实体的每个向量进行算术平均和后,输入到双向长短期记忆网络中,其中Ht表示实体信息中每个字符的隐含层输出。W1和b1分别为第二个Linear层的权重和偏置项。其中,i、j、k、m分别表示第一个实体的开始字符位置、第一个实体的末尾字符位置、第二个实体的开始字符位置、第二个实体的末尾字符位置。同时,三个Linear层共用相同的权重系数和相同的偏置项参数,即W0=W1=W2、b0=b1=b2。H1‘和H2‘分别为:
Figure SMS_4
Figure SMS_5
将三部分输出(H′0,H′1,H′2)进行拼接作为最终全连接层的输入,最后用softmax分类器输出关系分类结果。
进一步地,本发明实施例提出的目标解码子模型为基于指针网络的span方法的解码框架模型;目标解码子模型包括低级主体标记解码器和高级客体关系标记解码器。
其中,基于span方法的解码框架(SPANNER:Named Entity Re-/Recognition asSpan Prediction),属于指针网络(PointerNet)的一种,其最早应用于机器阅读理解(MRC)中,而MRC任务通常为根据问题从文本段落中抽取1个答案片段。在事件因果抽取的应用场景下,MRC任务就转换为从文本数据中搜索一对首尾位置的所在,即span方法的解码框架可以用于解决2个m元SoftMax分类预测头指针和尾指针位置的问题。在实体识别任务中,实体识别的实体种类数目可能存在多种,实体种类一一对应相同数目的以两个为一组分别代表首尾位置的全连接层的多层label指针网络,为了适用于多种实体类型识别的指针网络分类预测,实体识别任务由此转化为了n个m元SoftMax分类。
本发明实施例使用指针网络取代常用的序列标注模型去解决稀疏长文本下的实体抽取问题,实现在长文本且实体稀疏的情况下,指针网络只需要预测实体的头尾位置,大大减少了计算量。且使用指针网络还可以方便的解决实体层面的更多问题,例如使用两层神经网络去解决实体嵌套;利用双仿射变化来增强实体抽取的效果等。
目标解码子模型包括低级主体标记解码器和高级客体关系标记解码器,其中,低级主体标记解码器用于识别表征事件原因的头实体,高级客体关系标记解码器用于在给定的特定关系下识别表征事件结果的尾实体。
本发明实施例提出的联合抽取模型,先利用目标解码子模型将以将关键文本数据转换为富含语义特征的特征向量,再将特征向量输入目标解码子模型,利用低级主体标记解码器识别所有可能的头实体,在给定的类别关系下,识别头实体对应的尾实体,从而得到完整的目标三元组。
需要说明的是,传统的pipline模型一般是先识别实体对,再对实体对进行两两匹配和关系分类。本发明实施例使用联合抽取模型取代传统的pipline模型,具有以下优点:实体、关系联合抽取避免了实体抽取错误对关系抽取的不良影响;更加适用于包含多个实体对的文本抽取,避免关系分类时的重复编码,大大减少了计算资源耗费;加强了实体抽取和关系识别的内在联系和依赖关系,使抽取到的目标三元组更准确。
可以理解的是,在基于上述目标编码子模型和目标解码子模型完成联合抽取模型构建后,还需要利用预设样本对联合抽取模型进行训练,得到训练完成的目标联合抽取模型,最终得到的目标联合抽取模型才可以用于对进行关键文本数据进行实体关系抽取。
具体地,联合抽取模型的训练过程可以为:利用预设训练样本输入目标编码子模型,得到共享参数;利用共享参数中的头实体样本和尾实体样本训练低级主体标记解码器;利用在特定关系下的头实体样本的位置信息训练高级客体关系标记解码器;利用训练得到的头实体位置信息和尾实体信息对联合抽取模型进行模型损失优化,得到参数优化后的目标联合抽取模型。
如图3所示,为联合抽取模型的训练流程图。可以看出,在训练时,联合抽取模型在基于同样的目标编码子模型的共享参数的情况下,分别训练低级主体标记解码器和高级客体关系标记解码器,其中,低级主体标记解码器是基于头实体样本和尾实体样本训练的,高级客体关系标记解码器是在特定关系下的基于共享参数中的真实数据的头实体位置信息进行训练的。在训练完成一次后,记录训练得到的头实体位置信息和多层Linear下的尾实体信息,进行Loss优化。
进一步地,本发明实施例中利用训练得到的头实体位置信息和尾实体信息对联合抽取模型进行模型损失优化,具体可以通过对不同任务的loss前添加了不同的权重以分配模型训练重点;为了缓解样本不平衡的问题,加入Focal loss作为补充loss,将其值与前者相加后求取平均loss。Focal loss的构建数学公式与过程如下:
Focal loss是基于二分类交叉熵CE的一个动态缩放的交叉熵损失,通过一个动态缩放因子,可以动态降低训练过程中易区分样本的权重,从而将重心快速聚焦在难区分的样本上。
Cross Entropy Loss(CEloss)是基于二分类的交叉熵损失,公式(1)如下:
Figure SMS_6
其中,
Figure SMS_7
的取值为1和-1,分别代表前景和背景;p的取值范围为0~1,为模型预测属于前景的概率。定义一个关于p的函数
Figure SMS_8
,公式(2)如下:
Figure SMS_9
结合上式(1)~(2),可得到简化公式:
CE(p,y)=
Figure SMS_10
BCELOSS:Balanced Cross Entropy(平衡交叉熵损失参数)loss,公式(3)如下:
Figure SMS_11
其中,
Figure SMS_12
为目标值,
Figure SMS_13
是模型训练的输出值。
利用上述公式解决了正负样本不平衡问题,但并没有区分简单还是难分样本。当易区分负样本量多时,整个训练过程将会围绕着易区分负样本进行,进而淹没正样本,造成大损失。因此,本发明实施例还提出了一个调制因子,用来聚焦难分样本,公式(4)如下:
FocalLoss(p)=-(1-Pt)γlog(pt)
其中,γ为范围在[0,5]的参数,(1-Pt)γ为调制因子。可知,当γ为0时,公式为原始的CE损失函数。
可以理解的是,当Pt趋向于1时,说明该样本是易区分样本,此时调制因子是趋向于0,说明对损失的贡献较小,即减低了易区分样本的损失比例。当Pt很小,即若某个样本被分到正样本,但该样本为前景的概率特别小,即被错分到正样本了,此时调制因子趋向于1,对loss没有太大的影响。也就是说,Focal Loss减低了易分样本的损失贡献,增加了难分样本的损失比例,一定程度上缓解了样本不平衡带来的负面影响。
在另一可选实施例中,为了在BCEloss的基础上进一步缓解样本不平衡的问题,需要改变正例的计算权重。
可以理解的是,上述平衡交叉熵损失函数即为交叉熵损失在类别数N=2时候的特例,由于类别数为2,属于第一类的概率为y,那么属于第二类的概率自然就是(1-y)。因此,平衡交叉熵损失函数套用交叉熵损失的计算方法,用对应的标签乘以对应的预测值再求和,就得到了最终的损失。但由于这种损失的计算使得loss的变化十分剧烈,不利于反映损失真实的变化情况。为了提高计算的稳定性,本发明实施例引入BCEWithLogitsLoss,即先对数据进行sigmod函数操作,再将结果进行BCELoss计算,并且加入样本权重控制参数pos_weight,用于设置损失的class权重,以缓解样本的不均衡问题。具体的,若正类样本较多,设置pos_weight<1,若负类样本较多,设置pos_weight>1。
具体公式可为:
Figure SMS_14
其中,pw为样本权重控制参数,yi为目标值,pi是模型训练的输出值。
进一步地,在模型随输入梯度无贡献值达到预设阈值时,即在样本稀疏的应用场景下,为了解决样本稀疏的问题,需要利用基于稀疏场景下的平衡交叉熵损失函数对联合抽取模型进行模型损失优化,其中,基于稀疏场景下的平衡交叉熵损失函数公式可以表示为:
Figure SMS_15
其中,pw为样本权重控制参数,yi为目标值,pi是模型训练的输出值。
进一步地,本发明实施例还可以基于FGM方法对联合抽取模型进行对抗训练,以对模型参数进行更新,FGM方法计算公式表示为:
Radv=∈(‖g‖)2
Figure SMS_16
其中,Radv为扰动项,x为原样本,g为grad梯度,θ与y为模型参数。
对抗训练的具体过程可以为:
S1:计算原始样本x的前向loss、反向传播得到grad梯度;
S2:根据embedding矩阵的梯度计算出Radv,并添加至当前embedding,得到新对抗样本x+R;
S3:计算新对抗样本x+R的前向loss,再次反向传播得到对抗梯度,累加到原始样本x的梯度上;
S4:将embedding恢复为初始值;
S5:根据S3所得梯度(原始梯度+对抗梯度)对模型参数进行更新;
可选地,本发明实施例在进行模型训练时,可以使用Adan优化器,对不同的参数选用不同学习率的Warm_up和Decay机制。
其中,Adan是一种动量算法,用以有效地加速深度神经网络的训练。Adan首先使用一个普通的Nestrov加速度来求出一种新的Nesterov momentum estimation(NME)方法,以避免了在推断时计算梯度的额外计算和内存开销。Adan引导NME在收敛加速的自适应梯度算法中估计梯度的一阶和二阶矩,比以往的自适应梯度算法具有更快的收敛速度,通过结合改写的Nesterov冲量与自适应优化算法,并引入解耦的权重衰减,可以得到最终的Adan优化器。利用外推点,Adan可以提前感知周围的梯度信息,从而高效地逃离尖锐的局部极小区域,以增加模型的泛化性。
进一步地,Warm_up和Decay机制都是神经网络调参机制,反向传播主要完成参数更新:
θt=θt-1-a*gt
其中,a为学习率,gt为梯度更新量,而Warm_up、Decay即为调整a的方式,优化器决定梯度更新方式即gt的计算方式。
Warm_up和Decay是模型训练过程中,一种学习率(learning rate)的调整策略。Warm_up是在ResNet中提到的一种学习率预热的方法,它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(例如4个epoches,10000steps),再修改为预先设置的学习来进行训练。同理,Decay是学习率衰减方法,它指定在训练到一定epoches或者steps后,按照线性或者余弦函数等方式,将学习率降低至指定值。一般使用Warm_up和Decay,学习率会遵循从小到大,再减小的规律。
需要说明的是,Adan结合了自适应优化器、Nesterov冲量以及解耦的权重衰减策略的优点,能承受更大的学习率和batch size,以及可以实现对模型参数的动态L2正则。
进一步地,本发明实施例采用评价模型性能的指标分别为:召回率(Recall)、精准率(Precision)、F1值(平均值)。当预测产生的实体-关系三元组与真实的实体-关系三元组完全一致时,可以作为正确识别的三元组。以上指标的计算公式为:
Precision=
Figure SMS_17
Recall=
Figure SMS_18
Figure SMS_19
2
Figure SMS_20
其中,TP代表实际为正且预测为正的标签数;
Figure SMS_21
代表实际为负但预测为正的标签数,
Figure SMS_22
为代表实际为正但预测为负的标签数。
通过本发明实施例提出的目标联合抽取模型对实体关系进行联合抽取得到的实验数据计算得出,目标联合抽取模型的性能指标平均值F1可以达到0.815,由此可知,本发明实施例提出的目标联合抽取模型为具有高精确性、可用性的实体关系抽取模型。
步骤S103,利用目标联合抽取模型识别关键文本数据中的目标三元组。
具体地,利用目标联合抽取模型识别关键文本数据中的目标三元组的具体过程可以为:将关键文本数据输入联合抽取模型;利用目标编码子模型将关键文本数据转换为用于表征语义特征的特征向量;利用低级主体标记解码器基于特征向量识别用于表征目标事件原因的头实体;利用高级客体关系标记解码器识别头实体所在特定关系上对应的尾实体;其中,特定关系为直接关系或间接关系,尾实体用于表征目标事件结果。
其中,利用目标编码子模型将关键文本数据转换为用于表征语义特征的特征向量,包括:对关键文本数据进行预处理,预处理包括字符标注处理和语句标注处理;利用文本输入词嵌入层对预处理后的关键文本数据进行向量映射,得到关键文本数据对应的词嵌入向量;利用特征提取层对词嵌入向量进行语义抽取处理,得到包含关键文本数据对应的语义特征的特征向量。
也就是说,本发明实施例中目标编码子模型可以对输入的长度为N的关键文本数据进行预处理,对关键文本数据中标注的Token1到TokenN的每个字符添加特殊标识符,例如,特殊标识符[CLS]和[SEP],分别用于标识句子开头和句子结尾或两句子之间的分割。经过字符标注和语句标识后,将文本输入词嵌入层(Word Embedding)进行向量映射。针对每个字符,首先将其下标映射到词表矩阵对应的词向量Ec,加上其所在的绝对位置的编码Ep,最终的词嵌入表示为E=Ec+Ep。得到词嵌入后,将其输入到特征提取层(FeatureExtraction)。特征提取层能在词嵌入向量的基础上,学习不同词之间的关联与交互,利用注意力机制实现深层次的语义的抽取,捕捉长序列的语义依赖,最终输出富含语义特征的特征向量。
进一步地,本发明实施例中的目标解码子模型分为两部分,第一部分为低级主体标记解码器,第二部分为高级客体关系标记解码器。其中,低级主体标记模块用来标识句子中所有头实体(subject),高级客体关系标记模块用来标识低层实体所在特定关系(predicate)上所对应的客体(object),从而输出三元组信息头实体、关系、尾实体(subject,predicate,object)。
首先,目标解码子模型的低级主体标记解码器直接对目标编码子模型的输出结果进行解码,以识别所有可能的头实体。此时低级主体标记解码器采用二分类的方式识别头实体span,也就是start和end位置。进而通过高级客体关系标记解码器进行关系和尾实体的联合识别,低级主体标记解码器的结构与高级客体关系标记解码器是一样的,区别在于输入参数的不同。
需要说明的是,本发明实施例采用的指针解码方式不关注实体的中间部分,只关注同一个实体的头部和尾部的位置,因此不需要使用BIO或者BIOES标签进行标注。假设,分词后词向量的长度为Sentence_len,该方法将实体识别问题转化成Sentence_len×2的sigmoid分类预测的{0,1}标注问题,一行表示实体头标签,一行表示实体尾标签,使用sigmoid函数对每个分词的特征向量求其概率,当超过某个阈值时,标记为1,否则标记为0。该方法一般采用就近原则,即当实体的头部位置序号小于它之后的第一个实体尾部位置的序号时,认为该步骤检测到的实体的头部位置序号和实体尾部位置序号的组合构成该实体的范围,此时,一个实体的识别过程也就完成了。
基于以上描述的目标联合抽取模型对关键文本数据中的目标三元组进行抽取,得到包含目标事件原因、目标关系和目标事件结果的目标三元组。其中,目标关系包括直接关系和间接关系。
在一些可选实施例中,还可以基于目标三元组构建事件因果知识图谱,对事件因果知识图谱进行页面显示。
知识图谱是一种由节点和边构成的图数据结构,每个节点表示现实世界中客观存在的实体,每个边作为实体与实体之间的关系。将这种抽象的图数据结构进行可视化,能够使用户以更直观的交互方式实现对数据的观测、探索及分析,从而挖掘数据中隐藏的信息特征、关系和模式。如图4所示,为一种基于目标三元组构建事件因果知识图谱,通过构建描述事件演化规律和发展逻辑的因果关系图,能够结构化的还原突发事件的演化过程,从而可以发现事故演化过程的特点,便于更好的理解和把握事件发展趋势;同时为应急管理领域的专家学者提供事件演化信息数据的支持,以便面对事故时正确快速做出应急决策活动,进一步加强安全管理。
在另一些可选实施例中,还可以基于事件因果知识图谱构建用户交互界面;其中,包括事件因果检索功能和事件因果问答功能。
如图5所示,为一种事件因果检索交互页面的简要示意图;如图6所示,为一种事件因果问答交互页面的简要示意图。用户可以通过交互页面进行事件因果关系检索和问答查询。
具体地,本发明实施例可以基于echarts+Django实现前后端可视化平台的构建。其中,ECharts为使用JavaScript实现的开源可视化库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器,底层依赖矢量图形库ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。Django为一个由Python写成的开放源代码的Web应用框架,可以简便、快速的开发数据库驱动,使多个组件可以很方便的以“插件”形式服务于整个框架,Django有许多功能强大的第三方插件,甚至可以很方便的开发出自己的工具包,具有很强的可扩展性。
进一步地,本发明实施例可以在Neo4j数据库中存储事件原因和事件结果及两者关系,并使用Django框架将系统的前后台连接起来,利用ECharts生成前端的可视化图谱。系统从Neo4j数据库中检索出结果后利用Echarts在前端生成可以以直观展示的事件因果知识图谱。另外,本发明实施例构建的用户交互界面还可以为事件因果知识图谱预留出对接上传的新知识的页面和接口,以实现数据上传或导出。
本发明实施例提供了一种基于事件因果推断的实体关系的联合抽取方法,通过获取至少一条事件调查报告,抽取事件调查报告中的关键文本数据;构建目标联合抽取模型;利用目标联合抽取模型识别关键文本数据中包括目标事件原因、目标关系和目标事件结果的目标三元组。由此,抽取准确的目标三元组来构建事件因果推断知识图谱,实现发现高数据量下出现某种事故结果可能存在的直接或者间接原因,并构建检索和问答系统,协助专业人士来对可能的原因做出分析和推断。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。

Claims (10)

1.一种基于事件因果推断的实体关系联合抽取方法,其特征在于,所述方法包括:
获取至少一条事件调查报告,抽取所述事件调查报告中的关键文本数据;其中,所述关键文本数据至少包括实体数据及关系数据;所述实体数据包括事件原因和事件结果;
构建目标联合抽取模型;其中,所述联合抽取模型包含目标编码子模型和目标解码子模型;
利用所述目标联合抽取模型识别所述关键文本数据中的目标三元组;其中,所述目标三元组包括目标事件原因、目标关系和目标事件结果;所述目标关系包括直接关系和间接关系。
2.根据权利要求1所述的方法,其特征在于,所述构建目标联合抽取模型包括:
构建基于预训练Bert模型的包含Bert-base-chinese构架的目标编码子模型;
在所述目标解码模型的序列编码层上叠加统一的目标解码子模型,得到联合抽取模型;
利用预设样本对所述联合抽取模型进行训练,得到训练完成的目标联合抽取模型。
3.根据权利要求1所述的方法,其特征在于,所述目标解码子模型为基于指针网络的span方法的解码框架模型;
所述目标解码子模型包括低级主体标记解码器和高级客体关系标记解码器。
4.根据权利要求3所述的方法,其特征在于,所述利用所述目标联合抽取模型识别关键文本数据中的目标三元组,包括:
将所述关键文本数据输入所述联合抽取模型;
利用所述目标编码子模型将所述关键文本数据转换为用于表征语义特征的特征向量;
利用所述低级主体标记解码器基于所述特征向量识别用于表征目标事件原因的头实体;
利用所述高级客体关系标记解码器识别所述头实体所在特定关系上对应的尾实体;其中,所述特定关系为直接关系或间接关系,所述尾实体用于表征目标事件结果。
5.根据权利要求3所述的方法,其特征在于,所述利用预设样本对所述联合抽取模型进行训练,得到训练完成的目标联合抽取模型,包括:
利用预设训练样本输入所述目标编码子模型,得到共享参数;
利用共享参数中的头实体样本和尾实体样本训练所述低级主体标记解码器;
利用在特定关系下的头实体样本的位置信息训练所述高级客体关系标记解码器;
利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,得到参数优化后的目标联合抽取模型。
6.根据权利要求5所述的方法,其特征在于,所述利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,包括:
对原有损失参数补充基于二分类的交叉熵损失函数,得到平衡交叉熵损失函数,所述平衡交叉熵损失函数用公式表示为:
Figure FDA0004108489230000021
其中,yi为目标值,pi是模型训练的输出值;
或,
在模型随输入梯度无贡献值达到预设阈值时,利用基于稀疏场景下的平衡交叉熵损失函数对所述联合抽取模型进行模型损失优化;
所述基于稀疏场景下的平衡交叉熵损失函数用公式表示为:
Figure FDA0004108489230000022
其中,pw为样本权重控制参数,yi为目标值,pi是模型训练的输出值。
7.根据权利要求5所述的方法,其特征在于,所述利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,还包括:
基于FGM方法对所述联合抽取模型进行对抗训练,所述FGM方法计算公式表示为:
Radv=∈(‖g‖)2
Figure FDA0004108489230000031
其中,Radv为扰动项,x为原样本,g为grad梯度,θ与y为模型参数。
8.根据权利要求4所述的方法,其特征在于,所述利用所述目标编码子模型将所述关键文本数据转换为用于表征语义特征的特征向量,包括:
对所述关键文本数据进行预处理,所述预处理包括字符标注处理和语句标注处理;
利用文本输入词嵌入层对预处理后的关键文本数据进行向量映射,得到所述关键文本数据对应的词嵌入向量;
利用特征提取层对所述词嵌入向量进行语义抽取处理,得到包含所述关键文本数据对应的语义特征的特征向量。
9.根据权利要求1所述的方法,其特征在于,所述抽取所述事件调查报告中的关键文本数据,包括:
对所述事件调查报告进行因果关系对抽取,得到至少一对事件原因和所述事件原因对应的事件结果。
10.根据权利要求1~9任一项所述的方法,其特征在于,所述方法还包括:
基于所述目标三元组构建事件因果知识图谱,对所述事件因果知识图谱进行页面显示;和/或,
基于所述事件因果知识图谱构建用户交互界面;其中,所述包括事件因果检索功能和事件因果问答功能中至少之一。
CN202310199312.9A 2023-02-28 2023-02-28 一种基于事件因果推断的实体关系的联合抽取方法 Pending CN116186237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310199312.9A CN116186237A (zh) 2023-02-28 2023-02-28 一种基于事件因果推断的实体关系的联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310199312.9A CN116186237A (zh) 2023-02-28 2023-02-28 一种基于事件因果推断的实体关系的联合抽取方法

Publications (1)

Publication Number Publication Date
CN116186237A true CN116186237A (zh) 2023-05-30

Family

ID=86447379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310199312.9A Pending CN116186237A (zh) 2023-02-28 2023-02-28 一种基于事件因果推断的实体关系的联合抽取方法

Country Status (1)

Country Link
CN (1) CN116186237A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432655A (zh) * 2023-06-12 2023-07-14 山东大学 基于语用知识学习的少样本命名实体识别方法和装置
CN117408247A (zh) * 2023-12-15 2024-01-16 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432655A (zh) * 2023-06-12 2023-07-14 山东大学 基于语用知识学习的少样本命名实体识别方法和装置
CN116432655B (zh) * 2023-06-12 2023-12-08 山东大学 基于语用知识学习的少样本命名实体识别方法和装置
CN117408247A (zh) * 2023-12-15 2024-01-16 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法
CN117408247B (zh) * 2023-12-15 2024-03-29 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法

Similar Documents

Publication Publication Date Title
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN112069302B (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN116186237A (zh) 一种基于事件因果推断的实体关系的联合抽取方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN111666500A (zh) 文本分类模型的训练方法及相关设备
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114510570A (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN114492460A (zh) 基于衍生提示学习的事件因果关系抽取方法
Bin Application of improved image restoration algorithm and depth generation in English intelligent translation teaching system
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN113657092B (zh) 识别标签的方法、装置、设备以及介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN115357711A (zh) 一种方面级情感分析方法、装置、电子设备及存储介质
CN112836482B (zh) 一种基于模板的序列生成模型生成问题的方法及装置
CN117235271A (zh) 信息抽取方法、装置、计算机存储介质及电子设备
CN114510561A (zh) 答案选择方法、装置、设备及存储介质
CN113378571A (zh) 一种文本数据的实体数据关系抽取方法
CN111444338A (zh) 文本处理、装置、存储介质及设备
Prakash et al. Alice: A natural language question answering system using dynamic attention and memory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination