CN116611443A - 知识交互图指导的事件因果关系识别系统及方法 - Google Patents
知识交互图指导的事件因果关系识别系统及方法 Download PDFInfo
- Publication number
- CN116611443A CN116611443A CN202310441340.7A CN202310441340A CN116611443A CN 116611443 A CN116611443 A CN 116611443A CN 202310441340 A CN202310441340 A CN 202310441340A CN 116611443 A CN116611443 A CN 116611443A
- Authority
- CN
- China
- Prior art keywords
- event
- knowledge
- nodes
- vector representation
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 96
- 230000001364 causal effect Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 66
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 abstract description 15
- 238000012549 training Methods 0.000 abstract description 14
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000001907 polarising light microscopy Methods 0.000 description 31
- 239000010410 layer Substances 0.000 description 19
- 238000002474 experimental method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000002655 kraft paper Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种知识交互图指导的事件因果关系识别系统及方法,该系统包括文档编码器,用于获得原始文本、事件知识和提示模板中的词向量表示;交互构造器,用于通过事件知识交互图利用GCN获取事件节点的向量表示,将其与提示模板中的事件向量融合,得到包含事件语义和关系知识的新的向量表示;预测器,用于将融合后的向量表示送入Roberta,通过Roberta预测因果关系分类结果。本发明通过融入外部知识,充分利用事件知识和提示学习激活预训练模型潜力完成因果关系识别;设计了指导机制,并构建了知识交互图,通过文本、事件与知识的深度交互,有效指导外部知识精准增强事件的向量表示,帮助更好地捕获隐式因果关系。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种知识交互图指导的事件因果关系识别系统及方法。
背景技术
因果关系识别(Event Causality Identification,ECI)是自然语言理解中一项极富挑战性的任务,其目标是识别文本中两个事件是否存在因果关系,这一技术在机器阅读理解、问答推理和事件预测等方面都有着广泛的应用。如图1中给定的两个句子S1、S2,ECI模型需要识别出句子中提及的事件对之间的因果关系,①S1中这种是由因果关系词because等连接的显式因果关系,模型较容易识别出来。②S2中这种没有明显的因果关系词连接的是隐式因果关系,需要在理解上下文深层语义的基础上进行推理才能得出,所以相对来说不容易识别。
ECI任务早期采用基于特征的方法,最近使用深度学习的方法取得了state-of-the-art,尽管性能有了不少提升,但现有的方法主要采用“预训练+微调”的方法,如图2所示,预训练语言模型(Pre-training Language Models,PLMs)是完形填空形式,而ECI作为分类问题,使用微调方法需要在PLMs后面接上分类层,由于下游任务与PLMs之间存在一定的差异,导致模型不能充分激发PLMs的潜力。提示学习通过任务相关模板提示的方式调整下游任务,使其与语言模型具有相同的预训练方式,从而充分利用PLMs学习到的先验知识帮助完成ECI任务。
虽然提示学习使ECI任务去迁就PLMs,但仍面临着两个挑战:(1)隐式因果关系不易识别。PLMs主要从海量未标注、无结构化数据中学习,蕴含丰富的通用高频实体、常识等知识,然而更多的长尾实体、多元关联关系和复杂逻辑知识,如事件知识、因果关系等很难从PLMs中获得。所以,对于ECI任务,由于PLMs缺乏事件知识,即使使用基本的提示学习也很难识别因果关系,尤其是隐式因果关系。(2)事件与知识交互不够。最近,一些工作研究利用外部知识增强文本理解的方法,然而这些知识却缺乏与原文本之间的交互。
发明内容
因果关系识别任是识别文本中事件提及对之间是否存在因果关系,现有的模型通常将其作为有监督的分类任务,采用预训练语言模型来解决,然而隐式因果关系不易识别、事件与知识交互不够使因果关系识别面临着很大的挑战,本发明提出了一种知识交互图指导的事件因果关系识别(Knowledge Interaction Graph guided Prompt Tuning forEvent Causality Identification,KIGP)系统及方法。(1)引入外部事件知识增强PLMs。从文本语义和Prompt提示两个层面增强。事件知识描述使得上下文对事件的理解从概念上更加清晰、深刻;另外,帮助提示模板激活PLMs对事件与事件关系的认知,促进更加准确地识别隐式因果关系。(2)利用交互图捕获上下文、上下文中的事件提及、提示模板中的事件提及与外部知识之间的潜在语义交互,架起外部知识与因果关系之间的桥梁。
为了实现上述目的,本发明采用以下技术方案:
本发明一方面提出一种知识交互图指导的事件因果关系识别系统,包括:文档编码器,交互构造器及预测器;
所述文档编码器用于获得原始文本、事件知识和Prompt模板(提示模板)中的词向量表示;
所述交互构造器用于通过事件知识交互图利用GCN获取事件节点的向量表示,将其与Prompt模板中的事件向量融合,得到包含事件语义和关系知识的新的向量表示;
所述预测器用于将融合后的向量表示送入Roberta,通过Roberta预测因果关系分类结果。
进一步地,所述文档编码器采用预训练语言模型Roberta。
进一步地,按照以下方式获得事件知识:
在ConceptNet中检索到原始文本中提及事件对<es,et>的节点,对其进行词形还原;
匹配与事件提及相关的语义关系及关联节点的子图;
从ConceptNet中获取到关于事件的相关知识;
将每个事件提及与关联的每一解释项分别存入一个列表;
最后将这些三元组线性化为文本形式,将语义关系词修改为自然语言描述,并将线性化为文本形式的三元组作为事件知识以拼接方式植入输入序列。
进一步地,按照以下方式构建事件知识交互图:
将文档映射为三种类型的节点,节点的类型包括:单词节点,事件节点,知识节点;
依据指导机制在节点之间构建边以构建事件知识交互图,边的类型包括:事件-事件边,事件-知识边;所述事件-事件边指事件节点与事件节点之间构成的边,所述事件-知识边指事件节点与知识节点之间构成的边。
本发明另一方面提出一种知识交互图指导的事件因果关系识别方法,包括:
获得原始文本、事件知识和Prompt模板中的词向量表示;
通过事件知识交互图利用GCN获取事件节点的向量表示,将其与Prompt模板中的事件向量融合,得到包含事件语义和关系知识的新的向量表示;
将融合后的向量表示送入Roberta,通过Roberta预测因果关系分类结果。
进一步地,采用预训练语言模型Roberta获得原始文本、事件知识和Prompt模板中的词向量表示。
进一步地,按照以下方式获得事件知识:
在ConceptNet中检索到原始文本中提及事件对<es,et>的节点,对其进行词形还原;
匹配与事件提及相关的语义关系及关联节点的子图;
从ConceptNet中获取到关于事件的相关知识;
将每个事件提及与关联的每一解释项分别存入一个列表;
最后将这些三元组线性化为文本形式,将语义关系词修改为自然语言描述,并将线性化为文本形式的三元组作为事件知识以拼接方式植入输入序列。
进一步地,按照以下方式构建事件知识交互图:
将文档映射为三种类型的节点,节点的类型包括:单词节点,事件节点,知识节点;
依据指导机制在节点之间构建边以构建事件知识交互图,边的类型包括:事件-事件边,事件-知识边;所述事件-事件边指事件节点与事件节点之间构成的边,所述事件-知识边指事件节点与知识节点之间构成的边。
与现有技术相比,本发明具有的有益效果:
(1)提出了一种知识交互图指导的事件因果关系识别系统及方法,通过引入外部知识,充分利用事件知识和提示学习激活PLMs潜力完成ECI,本发明是第一个采用GCN与提示学习结合进行ECI任务的工作。
(2)设计了指导机制,并构建了知识交互图,通过文本、事件与知识的深度交互,有效指导外部知识精准增强事件的向量表示,帮助更好地捕获隐式因果关系。这使模型有较好的解决ECI任务的能力。
实验结果表明,本发明在两个基准数据集EventStoryLine和Causal-TimeBank上,性能优于最近的state-of-the-art方法,F1值分别提升了6.3%和2.9%。
附图说明
图1为句子中事件对之间的显示因果关系与隐式因果关系示例;
图2为因果关系识别的微调和提示学习方法示例;其中,(a)为微调方法,(b)为提示学习方法;
图3为本发明实施例一种知识交互图指导的事件因果关系识别系统整体框架示意图;
图4为本发明实施例从外部知识图谱ConceptNet获取的关于事件提及的知识;
图5为本发明实施例交互图指导机制;
图6为本发明实施例事件知识交互图邻接矩阵示例;
图7为EventStoryLine和Causal-TimeBank数据集中不同数量范围对应的模型性能对比;
图8为三种形式的知识位置实验对比;其中(a)为知识位置的三种形式,xi表示原文本中的单词(蓝色),ei表示事件提及(橘色),ki表示事件知识(紫色),(b)表示不同知识位置的模型准确率(%)对比;
图9为交互图GCN不同的层数对应模型F1值的变化;
图10为本发明实施例一种知识交互图指导的事件因果关系识别方法流程示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
1系统
图3展示了一种知识交互图指导的事件因果关系识别(Knowledge InteractionGraph guided Prompt Tuning for Event Causality Identification,KIGP)系统的整体框架。模型包含三个组件:文档编码器Document Encoder——交互构造器InteractionConstructor——预测器Prediction。
文档编码器:获得原始文本、事件知识和Prompt for ECI的词向量表示。
交互构造器:目的是通过图结构获取聚合知识的事件向量,用以增强prompt中事件的表示。通过事件知识交互图利用知识编码器GCN获取事件节点的向量表示,这些表示聚合了图结构中邻居知识节点的特征。将其与prompt中的事件向量融合,得到包含了事件语义和关系知识的新的向量表示。
预测器:将融合后的向量表示送入Roberta,结合Prompt,根据RobertaLM head获得MASK-feature对应的词汇概率分布,预测因果关系分类结果。
1.1问题定义
我们将ECI任务转化为掩码语言模型(mask language modeling,MLM)的预测任务问题,使用MLM head进行预测。与之前大多数二分类问题(Causality,NoCausality)不同的是,我们采用三分类,将Causality进一步细化为“Cause”和“CausedBy”。给定一个句子S={x1,x2,...,xl}和句子中的事件对<es,et>,其中l表示token的数量,设定标签表示事件对<es,et>是否存在因果关系,其中/>={Cause,CausedBy,Null},Cause代表es是原因,et是结果;CausedBy代表es是结果,et是原因;Null代表事件对<es,et>没有因果关系。ECI模型的目的就是去预测<es,et>的因果关系标签/>
根据设计的ECI模板TECI(X),使用MLM编码输入数据并诱导模型生成一个与给定标签相关的文本输出。将[CLS]和[SEP]分别拼接到X的开头和结束位置,同时在TECI(X)后面加上[SEP],X'表示为:
X'=[CLS]X[SEP]TECI(X)[SEP] (1)
将X'喂入MLM,模型会得到候选类别的概率分布p([MASK]|X'),因此:
p(y|X')=p([MASK]=m|X') (2)
其中,m表示类别y的第m个标签的token。
1.2文档编码器
选择使用动态掩码、具有更优预测性能的预训练语言模型Roberta作为文档编码器,将输入序列(原文本Original Text、事件知识EventText和Prompt template)中的每个单词编码为向量表示,结果序列H=[HX;HPrompt],其中HX={hCLS,h1,h2,...,hn,hSEP},HPrompt={hes,hMASK,het,...,hSEP}。这一模块涉及事件知识获取和Prompt模板设计。
1.2.1事件知识获取与线性化
包含大量的常识、实体知识和语义关系的知识图谱无疑是外部知识的最好选择。ConceptNet是一个有着丰富概念和语义关系的知识图谱,包含2100万个边、800万个以上的节点和34种核心关系。对于ECI任务来说,需要详细的事件描述知识去补充或激活PLMs的潜能,同时给予提示学习更好地提示作用,因此,我们在ConceptNet中检索原文本S中包含的事件的定义和我们认为与ECI相关的16种语义关系:CapableOf,Causes,CauseDesire,UsedFor,HasA,PartOf,Entails,Desires,HasContext,HasSubevent,HasPrerequisite,ReceivesAction,IsA,HasProperty,MannerOf and CreatedBy。
具体来说,首先在知识图谱(ConceptNet)中检索到原文本中事件提及es、et的节点,注意到事件提及单词大多涉及单词的复数、过去式或分词等形式,因此对其进行了词形还原。然后匹配与事件提及相关的16种语义关系及关联节点的子图Sub-Graph。如图4所示,从ConceptNet中获取到关于事件“shot”和“kill”的相关知识,等,一个事件提及对应多种关系知识,每一种关系中可能还对应着多种解释项(事件提及“kill”对应的HasSubevent关系除了有HasSubevent shoot这一解释项外,还有HasSubEvent someone or something dies等解释项),将每个事件提及与关联的每一解释项分别存入一个列表,这些知识是对事件的较为完整、详细的描述,能够丰富事件表示。最后将这些三元组线性化为文本形式EventText。为使知识描述更加自然、流畅,将语义关系词IsA、HasSubevent等修改为自然语言描述is a,hassubevent等,EventText以拼接方式植入输入序列。
1.2.2ECI提示模板的设计
提示学习通过引入任务相关的模板将下游任务转换成和预训练目标一致的形式,设计的ECI提示模板TECI(X)为:
TECI(X):In this sentence,'es'<t>[MASK]</t>'et'.
采用向模板中添加一些可学习的tokens(如<t>,</t>等)以动态适应PLMs的训练,模板中的[MASK]token需要填充标签词。
在ECI任务中,标签词V是PLM词汇表中的词,但由于PLM词汇表空间庞大,可能一些词语不能很好地表示因果关系,因此,采用与先前的工作也一样的设置虚拟词的方法。标签词V使用设置的三个虚拟词:{Cause,CausedBy,Null},这些虚拟词也是可学习的tokens,Cause和CauseBy有利于模型学习因果关系的直接特征,标签映射则直接使用这三个labelwords对应因果关系labels。MLM的[MASK]位置使用V中标签词的概率分布作为因果关系labels的概率分布。
1.3交互构造器
从文档编码器得到每个单词的向量表示,经过模型训练可以直接得到分类结果,但考虑到文本、事件、知识之间存在紧密的关联,这些关联能够聚焦事件语义和概念知识,为因果关系识别提供了更加丰富的语义特征。因此,提出了交互指导机制并设计了交互构造器,依据指导机制有效指导外部知识增强相关节点的向量表示,通过构造文档、事件、知识之间的交互图以产生各个节点的隐藏交互向量表示。
1.3.1指导机制
指导机制(如图5所示)分为两类:指导原文本(guide original text,got)和指导prompt事件(guide events in prompt template,get)。其中got机制目的是利用外部事件描述知识增强原文本的语义理解能力,因此桥接外部知识与文本事件提及;get机制是为了增强提示模板中的事件关系的推理能力,因此桥接外部知识与提示模板中的中事件提及。
1.3.2构建交互图
如何形成文档的交互图来学习ECI有效的表示向量呢?核心是依据指导机制构建图中的节点和边。
(1)节点
图中的节点应该能够捕获文档D中与事件es、et相关的内容,以便预测因果关系。我们考虑了三种节点类型:
①原文本节点(Word Node),也称单词节点,即文档的上下文单词;
②事件节点(Event Node),文档或提示模板中的事件提及,E={e1,e2,...,el};
③知识节点(Knowledge Node),即与事件相关的外部知识,K={k1,k2,...,km}。
因此,节点集合N={D∪E∪K}={x1,x2,...,xn},n为节点个数(n=i+l+m),如图3,蓝色圆圈为单词节点,橘色为事件节点,紫色为知识节点。
(2)边edge
将文档映射为三种类型的节点之后,哪些顶点之间有边呢?依据指导机制在节点之间构建以下两种类型的边以建模交互图:
①事件-事件边(Event-Event Edge,E-E),文档中事件对会分散在不同的句子中,主要目的是为了识别两个事件之间的因果关系,因此事件-事件是非常有价值的信息,为一个文档中的事件es、et之间添加边。
②事件-知识边(Event-Knowledge Edge,E-K),为了增强事件表示,补充文档中事件的概念知识和语义知识,构建事件节点与外部知识之间的边。
(3)交互图特征提取
使用邻接矩阵(adjacency matrix)A表示已构造的事件知识交互图G,节点数为n,则A为n×n的矩阵。
Aij=1表示节点i和节点j之间有边相连。使用GCN进行特征提取,生成交互图中节点的向量表示,具体地GCN模型使用经过文档编码器得到的token特征向量表示H(0)=[hCLS,hks,hkt,h1,hes,h3,...,het,...,hSEP,hes,hMASK,het,hSEP]作为初始向量,经过l层聚合后,第(l+1)层的特征向量H(l+1)表示为:
H(l+1)=ReLU(AH(l)W(l))
其中,H(l)和H(l+1)分别表示节点在第l、(l+1)层的特征向量,W(l)表示第l层的权重矩阵,ReLU为激活函数,经过G层GCN,为了方便,将H(g)记为H(g)=GCN(A,H(0),G)。GCN模型输出事件节点es,et的特征向量为kes,ket,此时的kes,ket从结构上聚合了相邻知识节点的特征,将其与提示模板中的hes,het通过拼接形式进行融合,得到新的特征向量hkes,hket用以增强事件的语义表示。最终融合后的特征向量表示H(g)=[h'CLS,hk′s,hk′t,h′1,he's,h'3,...,he't,...,h'SEP,hkes,h'MASK,hket,h'SEP],蕴含了事件节点与其相邻知识节点之间的关系,实现了事件、知识的交互,为因果关系预测提供了更加丰富、抽象的深层特征。
假设输入文档是图4中的S2,则输入格式为:
[CLS]<ks>shooting is a homicide,causes death...</ks>.<kt>kill causesdeath,has subevent shoot...<kt>.[SEP]A disgruntled woman shot at a Kraftfactory,two workers were killed.[SEP]In this sentence,shot[MASK]killed.[SEP]
其中[CLS]、[SEP]和[MASK]是Roberta中的标记符号,在Roberta的输入文本中起到特殊的作用。[CLS]是“classification”的缩写,放在句子的首位,表示句子的开始,[SEP]是“seperation”缩写,用于分开两个输入句子,[MASK]用于遮盖句子中的一些单词。
分别用es,et表示上述文本中的两个事件shot和killed,用ks,kt表示两个事件对应的知识“shooting causes death...”和“kill has subevent shoot...”,则在训练过程中构建的事件知识交互图的邻接矩阵如图6所示,单词自身用对角线上的1表示,ks,kt分别与原文本、提示模板中的es,et交互。
1.4预测器
经过交互构造器的GCN模块获取到的向量表示H(g)具有了交互特征,增强了提示模板中事件的表示。将H(g)继续喂入RobertaLM Head得到MASK-Feature([MASK]的特征),预测器会根据MASK-Feature得到候选类别的概率分布p([MASK]|H(g)),进而预测出<es,et>的因果关系标签y∈{Cause,CausedBy,Null}。
综上,本发明借助提示学习,并使用GCN处理交互图,但与这些不同的是,①为避免错误累积,同时考虑到句法结构可以直接通过PLMs获得,构图的过程没有使用现成的NLP工具,而是依据指导机制设计完成的;②没有直接使用GCN进行节点分类或关系预测,而是利用GCN在图数据中强大的特征提取优势,获得节点在知识交互图中的隐藏层特征;③使用蕴含着更加丰富交互知识的特征表示,精准指导提示模板,有效激发PLMs的潜力。
为验证本发明效果,进行如下实验:
2实验
实验目的是为了证明(1)外部事件知识是否能有效提升PLMs对隐式因果关系识别的能力,(2)事件知识交互图是否能够精准指导模型增强ECI。
2.1数据集和评价指标
在两个广泛使用的数据集EventStoryLine(version 0.9)和Causal-TimeBank上评估KIGP模型。EventStoryLine包含258个文档,5334个事件,1770个因果事件对,与Gao etal.的做法相同,按照主题对文档分组,并按照主题IDs排序,使用最后2个主题的文档作为开发集,剩余20个主题的文档采用5折交叉验证;Causal-TimeBank包含184个文档,1813个事件,318个因果事件对,仿照Liu etal.和Zuo et al.的做法,与他们使用相同的数据划分,采用10折交叉验证。对于评估,采用Precision(P),Recall(R)和F1-score(F1)作为评价指标。
2.2实验设置
使用预训练语言模型Roberta-base作为文档编码器产生词向量,隐藏层是768维,在Robert-base中添加的新token的embedding也是768维,设置Adam优化器学习率为1e-4。
由于ECI数据集正例样本的稀疏性,模型训练过程中采用负采样,负采样率为0.5,batch size为16。基于开发集性能使用梯度搜索微调超参数并执行早停。交互图构造部分使用单层GCN模型,GCN隐藏层使用2000维,外部知识图谱选用ConceptNet5.5。
2.3基准方法
与三种不同类型的ECI基准方法进行比较。
之前的sota方法:基于依存树的序列模型;LSTM、Seq最初用于时序关系预测;LR+、LIP,文档结构模型;RB,基于规则的系统;ML,基于特征的模型。
使用预训练语言模型和引入外部知识的方法:LearnDA,一种通过引入外部知识库增强训练数据的方法;CauseRL,一种通过外部因果语句学习上下文因果模式的自监督方法;MM,基于BERT的方法。
使用GCN的方法:RichGCN使用GCN捕获文档结构图中的相互关联;ERGO构建了事件关系图,使用GCN做节点分类。
2.4结果
表1和表2分别展示了在EventStoryLine和Causal-TimeBank数据集上本文方法和所有基准模型的性能,其中*表示0.05水平的显著测试。
表1在EventStoryLine数据集上的结果(%)
表2在Causal-TimeBank数据集上的结果(%)
(1)从总体性能看,提出的模型KIGP在EventStoryLine和Causal-Timebank两个数据集上性能均优于现有的baseline。与现有的sota方法ERGO模型性能相比,分别获得了6.3%和2.9%的提升,说明所提方法对于ECI任务是十分有效的。
(2)从外部知识和预训练角度看,LearnDA、CauSeRL表明了外部知识会影响因果关系的预测结果,但外部知识和因果关系之间存在着语义鸿沟;预训练模型MM致力于通过激发PLMs本身的知识,其性能没有添加外部知识的方法好,原因可能是PLMs本身并没有足够的事件知识和因果关系知识可供学习。KEPT充分利用背景知识和关系信息,使用TransE联合优化事件和因果关系的表示进而捕捉隐式关系,性能较好于LearnDA和CauSeRL。
(3)KIGP模型采用“PLMs+事件知识+prompting”模式,为PLMs补充事件知识的同时,使用prompting探索PLMs潜在语义,性能较CauSeRL和KEPT在两个数据集上提升大约8%,说明外部事件知识能有效提升PLMs对隐式因果关系识别的能力。
(4)从交互图结构角度看,与使用图结构的RichGCN、ERGO模型相比,KIGP模型在两个数据集上F1值均有提升,原因可能是,构建事件知识交互图的过程,避免了借助现有的NLP工具引入噪声并造成错误累积,另外直接使用GCN强大的特征提取能力增强节点的隐藏层表示,精准指导模型理解语义帮助因果关系预测。
2.5消融实验
为了分析我们提出的KIGP模型中每个模块是否对性能提升有所贡献,设置了消融实验,每次去掉一个模块,如表3和表4所示,其中Δ表示低于KIGP的百分点。
表3在EventStoryLine数据集上的消融结果(%)
表4在Causal-TimeBank数据集上的结果(%)
(1)交互图模块的有效性。w/o intergcn,为了验证交互图模块的有效性,移除了交互图,仅使用Roberta编码产生隐藏层向量表示H,而不是再经过GCN层增强prompt中事件向量表示。没有了文本、事件与知识之间的交互作用进行引导,模型的性能在两个数据集上分别下降了2.1%和1.8%。这表明了事件知识交互的重要性,交互后的特征对因果关系推理起着一定的引导作用。
(2)外部事件知识的有效性。w/o eventkg,从文档编码器的输入部分移除从外部知识图谱获取到的事件知识文本EventText,同时,交互图模块也失去作用。结果,F1值在两个数据集上分别下降了2.9%和2.4%。这表明外部事件知识能够促进PLMs对文本关于事件关系的语义理解能力。
(3)提示模板的作用。w/o prmeci,为了证明提示模板模块的必要性,删除了prompt,只用原文本和事件知识作为输入,不给模型任何提示的情况下进行ECI,导致了性能的大幅下滑(3.6%和3.2%)。这说明了提示模板能够激发PLMs的学习能力,且精准的提示促使模型更准确的理解和预测。
2.6知识数量和位置的影响
知识数量。观察到从ConceptNet获取到的每个事件知识三元组的数量各不相同,其范围在[0,20],对EventStoryLine和Causal-TimeBank数据集中相关的事件知识数量统计如图7。大多数事件知识在5条以内,分别使用不同数量(2,5,10,不限数量)的事件知识进行实验,从结果可以发现,模型性能并没有随着知识数量的增加不断提升,而是将知识数量限制在5条以内的性能最佳,6条以上或者不加限制的知识可能会产生知识噪声,混淆语义,影响PLMs对原文本的理解。
知识位置。知识增强的事件文本作为文档编码器的输入有三种形式:前置、后置与内插。前置是将线性化后的知识放置在原文本前面,即X=[EventText,Original Text];后置是将线性化后的知识放置在原文本后面,即X=[Original Text,EventText]。内插是指将线性化后的知识直接插入原文本中事件提及的位置,将文本中事件提及e1,e2的相关知识k1,k2直接插入到e1,e2后面。对三种形式的知识位置进行实验对比,如图8所示,结果发现,知识前置的准确率高于知识后置,知识内插的效果最差。直观上,内插形式虽然能够模型帮助对事件本身的理解,但会使文本中两个事件提及距离增大,降低原文本的流畅度,使模型不易寻找到事件之间的关系。
2.7交互图GCN层数的影响
交互图模块使用GCN进行特征提取,在文本分类任务中,通常使用两层GCN聚合邻居节点特征就可以达到很好地效果,在ECI任务中,针对GCN层数的选择(G=1,2,3)进行了实验,实验结果如图9所示,结果显示模型在两个数据集上的F1值均呈现出1层>2层>3层。分析其原因,交互图中明确了文本节点、事件节点和知识节点,目的是为了利用知识增强对事件的理解,其中知识与事件提及一一对应,且知识节点直接作为事件节点的邻居,因此通过单层就可以直接聚合知识特征。
2.8案例分析
为了直观地展示知识交互指导因果关系识别方法每个部分的有效性,我们做了案例分析,对比了KIGP和RichGCN两种方法的识别结果,如表5所示,其中<es,et>表示事件对,GT表示真实的事件对关系(Ground Truth),Rich表示使用RichGCN方法,粗体加下划线的单词表示事件,表示模型识别的结果为事件对之间存在因果关系,/>表示模型识别的结果为事件对之间不存在因果关系。
表5案例分析
案例1中,RichGCN识别出<war,bombs>是因果关系对,而事实上,war和bombs之间并不存在因果关系,模型可能对词语理解有误,将war与其位置接近的warns混淆了;因为文本中没有显式线索词,RichGCN未能识别“bombs”和“death”之间的因果关系,这种隐式因果关系往往需要依赖常识知识才能正确推测。而KIGP中补充了这类事件知识,如协助模型正确识别出两者之间的因果关系。案例2中,RichGCN和KIGP都能正确判断出earthquake cause injured,earthquake cause killed,但对于<earthquake,destroyed>这一因果事件对,RichGCN未能识别,说明仅仅使用文档结构图从结构特征捕获事件之间的关联,可能会缺乏对文本语义的理解,而KIGP在利用结构特征的同时强调语义特征,准确识别出earthquake cause destroyed。KIGP能够正确识别出两个案例中所有的因果关系对,说明我们提出的方法能够通过融入外部知识与文本、事件交互促进隐式因果关系的识别,从而增强ECI模型效果。
最后,实验证明(1)外部事件知识的融入能够增强PLMs对文本中事件及事件关系的语义理解,通过提示学习进一步提升对隐式因果关系识别的效果,(2)通过事件知识交互图提取的交互结构特征能够更加精准指导模型识别因果关系,增强ECI能力。
3方法
在上述实施例的基础上,如图10所示,本发明还提出一种知识交互图指导的事件因果关系识别方法,包括:
获得原始文本、事件知识和Prompt模板中的词向量表示;
通过事件知识交互图利用GCN获取事件节点的向量表示,将其与Prompt模板中的事件向量融合,得到包含事件语义和关系知识的新的向量表示;
将融合后的向量表示送入Roberta,通过Roberta预测因果关系分类结果。
具体来说,方法的实现有三个主要步骤:(1)从外部知识图谱ConceptNet中获取文本中事件提及的三元组,线性化为知识文本。(2)通过设计基于事件对的提示模板和答案映射,利用提示学习诱发PLMs的学习能力,提升隐式因果关系识别效果。(3)为了增强文本、事件与知识的交互,提出交互图指导机制,通过构建交互图,利用GCN从全局视角增强各类节点的特征表示,有效指导模型进行因果关系识别。
进一步地,采用预训练语言模型Roberta获得原始文本、事件知识和Prompt模板中的词向量表示。
进一步地,按照以下方式获得事件知识:
在ConceptNet中检索到原始文本中提及事件对<es,et>的节点,对其进行词形还原;
匹配与事件提及相关的语义关系及关联节点的子图;
从ConceptNet中获取到关于事件的相关知识;
将每个事件提及与关联的每一解释项分别存入一个列表;
最后将这些三元组线性化为文本形式,将语义关系词修改为自然语言描述,并将线性化为文本形式的三元组作为事件知识以拼接方式植入输入序列。
进一步地,按照以下方式构建事件知识交互图:
将文档映射为三种类型的节点,节点的类型包括:单词节点,事件节点,知识节点;
依据指导机制在节点之间构建边以构建事件知识交互图,边的类型包括:事件-事件边,事件-知识边;所述事件-事件边指事件节点与事件节点之间构成的边,所述事件-知识边指事件节点与知识节点之间构成的边。
综上,本发明提出了一种新颖的基于知识交互图指导的提示学习方法进行ECI。为了增强ECI模型识别隐式因果关系的能力,融入了外部事件知识并设计了包含事件抽取的提示模板,充分激活PLMs强大的学习能力;为了对模型进行精准指导,增强事件与知识之间的交互,引入了指导机制来构造交互图提取深层隐藏特征。在两个广泛使用的ECI数据集上的实验结果表明,我们的方法超过了现有的sota方法,一定程度上解决了隐式因果关系识别和事件知识交互的挑战。未来的工作中,将考虑如何自动生成ECI模型的提示模板,进一步提升性能。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种知识交互图指导的事件因果关系识别系统,其特征在于,包括:文档编码器,交互构造器及预测器;
所述文档编码器用于获得原始文本、事件知识和提示模板中的词向量表示;
所述交互构造器用于通过事件知识交互图利用GCN获取事件节点的向量表示,将其与提示模板中的事件向量融合,得到包含事件语义和关系知识的新的向量表示;
所述预测器用于将融合后的向量表示送入Roberta,通过Roberta预测因果关系分类结果。
2.根据权利要求1所述的知识交互图指导的事件因果关系识别系统,其特征在于,所述文档编码器采用预训练语言模型Roberta。
3.根据权利要求1所述的知识交互图指导的事件因果关系识别系统,其特征在于,按照以下方式获得事件知识:
在ConceptNet中检索到原始文本中提及事件对<es,et>的节点,对其进行词形还原;
匹配与事件提及相关的语义关系及关联节点的子图;
从ConceptNet中获取到关于事件的相关知识;
将每个事件提及与关联的每一解释项分别存入一个列表;
最后将这些三元组线性化为文本形式,将语义关系词修改为自然语言描述,并将线性化为文本形式的三元组作为事件知识以拼接方式植入输入序列。
4.根据权利要求1所述的知识交互图指导的事件因果关系识别系统,其特征在于,按照以下方式构建事件知识交互图:
将文档映射为三种类型的节点,节点的类型包括:单词节点,事件节点,知识节点;
依据指导机制在节点之间构建边以构建事件知识交互图,边的类型包括:事件-事件边,事件-知识边;所述事件-事件边指事件节点与事件节点之间构成的边,所述事件-知识边指事件节点与知识节点之间构成的边。
5.一种知识交互图指导的事件因果关系识别方法,其特征在于,包括:
获得原始文本、事件知识和提示模板中的词向量表示;
通过事件知识交互图利用GCN获取事件节点的向量表示,将其与提示模板中的事件向量融合,得到包含事件语义和关系知识的新的向量表示;
将融合后的向量表示送入Roberta,通过Roberta预测因果关系分类结果。
6.根据权利要求5所述的知识交互图指导的事件因果关系识别方法,其特征在于,采用预训练语言模型Roberta获得原始文本、事件知识和提示模板中的词向量表示。
7.根据权利要求5所述的知识交互图指导的事件因果关系识别方法,其特征在于,按照以下方式获得事件知识:
在ConceptNet中检索到原始文本中提及事件对<es,et>的节点,对其进行词形还原;
匹配与事件提及相关的语义关系及关联节点的子图;
从ConceptNet中获取到关于事件的相关知识;
将每个事件提及与关联的每一解释项分别存入一个列表;
最后将这些三元组线性化为文本形式,将语义关系词修改为自然语言描述,并将线性化为文本形式的三元组作为事件知识以拼接方式植入输入序列。
8.根据权利要求5所述的知识交互图指导的事件因果关系识别方法,其特征在于,按照以下方式构建事件知识交互图:
将文档映射为三种类型的节点,节点的类型包括:单词节点,事件节点,知识节点;
依据指导机制在节点之间构建边以构建事件知识交互图,边的类型包括:事件-事件边,事件-知识边;所述事件-事件边指事件节点与事件节点之间构成的边,所述事件-知识边指事件节点与知识节点之间构成的边。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310441340.7A CN116611443A (zh) | 2023-04-23 | 2023-04-23 | 知识交互图指导的事件因果关系识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310441340.7A CN116611443A (zh) | 2023-04-23 | 2023-04-23 | 知识交互图指导的事件因果关系识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611443A true CN116611443A (zh) | 2023-08-18 |
Family
ID=87684494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310441340.7A Pending CN116611443A (zh) | 2023-04-23 | 2023-04-23 | 知识交互图指导的事件因果关系识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611443A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350386A (zh) * | 2023-12-04 | 2024-01-05 | 南京信息工程大学 | 一种事件溯因推理方法及系统 |
CN117851373A (zh) * | 2024-03-08 | 2024-04-09 | 南京数策信息科技有限公司 | 一种知识文档分层管理方法、存储介质及管理系统 |
-
2023
- 2023-04-23 CN CN202310441340.7A patent/CN116611443A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350386A (zh) * | 2023-12-04 | 2024-01-05 | 南京信息工程大学 | 一种事件溯因推理方法及系统 |
CN117350386B (zh) * | 2023-12-04 | 2024-03-19 | 南京信息工程大学 | 一种事件溯因推理方法及系统 |
CN117851373A (zh) * | 2024-03-08 | 2024-04-09 | 南京数策信息科技有限公司 | 一种知识文档分层管理方法、存储介质及管理系统 |
CN117851373B (zh) * | 2024-03-08 | 2024-06-11 | 南京数策信息科技有限公司 | 一种知识文档分层管理方法、存储介质及管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018214675B2 (en) | Systems and methods for automatic semantic token tagging | |
CN112528034B (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
CN106933804B (zh) | 一种基于深度学习的结构化信息抽取方法 | |
CN116611443A (zh) | 知识交互图指导的事件因果关系识别系统及方法 | |
Maniparambil et al. | Enhancing clip with gpt-4: Harnessing visual descriptions as prompts | |
JP2022508737A (ja) | 自然言語文書を検索するシステム | |
Pan et al. | Automatic noisy label correction for fine-grained entity typing | |
CN113157959A (zh) | 基于多模态主题补充的跨模态检索方法、装置及系统 | |
CN115688753A (zh) | 中文预训练语言模型的知识注入方法和交互系统 | |
Mao et al. | Grammar-based grounded lexicon learning | |
Atkinson-Abutridy | Text Analytics: An Introduction to the Science and Applications of Unstructured Information Analysis | |
Garrido-Munoz et al. | A holistic approach for image-to-graph: application to optical music recognition | |
Lei et al. | Materials science in the era of large language models: a perspective | |
Ramnath et al. | Worldly wise (WoW)-cross-lingual knowledge fusion for fact-based visual spoken-question answering | |
Mao et al. | Bootstrapping knowledge graphs from images and text | |
Maetschke et al. | Understanding in artificial intelligence | |
Zhai et al. | MLNet: a multi-level multimodal named entity recognition architecture | |
Devkota et al. | Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity | |
Ferreira et al. | CAPTION: Caption Analysis with Proposed Terms, Image of Objects, and Natural Language Processing | |
Irsoy | Deep sequential and structural neural models of compositionality | |
Strømsvåg | Exploring the why in ai: Investigating how visual question answering models can be interpreted by post-hoc linguistic and visual explanations | |
Chen et al. | SSL Framework for Causal Inconsistency between Structures and Representations | |
Meguellati et al. | Feature selection for location metonymy using augmented bag-of-words | |
CN116227484B (zh) | 模型训练方法、装置、设备、存储介质和计算机程序产品 | |
Yashaswini et al. | Story telling: learning to visualize sentences through generated scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |