CN112528676A - 文档级别的事件论元抽取方法 - Google Patents
文档级别的事件论元抽取方法 Download PDFInfo
- Publication number
- CN112528676A CN112528676A CN202011506990.8A CN202011506990A CN112528676A CN 112528676 A CN112528676 A CN 112528676A CN 202011506990 A CN202011506990 A CN 202011506990A CN 112528676 A CN112528676 A CN 112528676A
- Authority
- CN
- China
- Prior art keywords
- event
- document
- model
- text
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 61
- 235000019580 granularity Nutrition 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 16
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 abstract 1
- 102100022693 Mucin-4 Human genes 0.000 description 9
- 108010008699 Mucin-4 Proteins 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 102100021908 3-mercaptopyruvate sulfurtransferase Human genes 0.000 description 3
- 102100031048 Coiled-coil domain-containing protein 6 Human genes 0.000 description 3
- 101000753843 Homo sapiens 3-mercaptopyruvate sulfurtransferase Proteins 0.000 description 3
- 101000777370 Homo sapiens Coiled-coil domain-containing protein 6 Proteins 0.000 description 3
- 101000640206 Tityus serrulatus Alpha-mammal toxin Ts2 Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种文档级别的事件论元抽取方法,本发明公开的方法是以非结构化的文档文本作为输入数据,构建基于深度学习的文档级别事件论元抽取模型,包含两个阶段,一个预训练阶段用于微调训练好的文本表示模型,一个抽取模型的训练和预测阶段用于学习各类事件角色的特征和生成预测结果,在两个阶段中均利用了事件角色的语义信息作为文本特征的扩充,以生成更加准确的事件论元抽取结果。对于普遍使用的文档级别事件论元抽取数据集,本发明的方法效果显著优于目前现有的文档级别事件论元抽取方法,证明事件角色的语义信息有助于从文档中进行事件论元的抽取。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种从文档即包含多个句子作为输入的文本中抽取事件论元的技术。
背景技术
随着大数据时代的到来,越来越多的信息以非结构化文本的形式呈现在互联网中,如何从这些海量的文本中寻找有用信息,抽取出对应知识的需求变得越来越强烈。
文档级别的事件论元抽取任务作为信息抽取领域的一项重要子任务,旨在从文档中识别出与特定事件相关的论元以及它们在事件中扮演的角色类别,从而形成结构化的事件知识。一个性能良好的事件论元抽取系统能够促进许多下游应用,如基于事件的知识图谱构建,风险预测分析以及决策支持系统构建。
文档级别的事件论元抽取任务近年来得到了广泛的研究。传统的事件论元抽取研究主要采用基于特征工程的机器学习方法,这类方法以人为设计好的语言学文本特征作为前提,训练相应的机器学习模型;近些年来的研究尝试利用深度学习模型来学习不同的文本表示向量,以提升事件论元抽取的效果。然而,这些方法都只考虑了文本的语义特征而忽略了事件角色类别所包含的语义信息。
在事件论元的抽取任务中,每个事件论元均有一个事件角色与之对应,这些事件角色描述了事件论元和它们所参与的事件之间的关系。除此之外,事件角色还描述了一类事件论元均具备的抽象属性等。
这些关系以及抽象属性的描述均属于事件角色语义信息的一部分,对这些信息显式地利用将有助于提升文档级别的事件论元抽取效果。例如,袭击类事件共包含5种事件角色:袭击者个体、袭击者组织、袭击目标、受害者以及袭击工具,其中,根据事件角色语义信息,袭击者个体和受害者表示这两个类别的事件论元应该指代一个人而非一个物体。借助这些事件角色语义信息,在进行文档级别的事件论元抽取时,对指代人的单词,将更容易地将这些单词与袭击者个体和受害者这两类事件角色相关联,然后根据文本的上下文语义,能更加准确地识别出这些单词对应的事件角色。
综上所述,结合事件角色语义信息进行文档级别的事件论元抽取是一个创新的研究思路,具有重要的研究意义和应用价值。
发明内容
本发明的目的是解决现有的文档级别的事件论元抽取方法对事件角色语义信息考虑不足的问题,提出一种结合事件角色语义信息的文档级别的事件论元抽取方法。该方法以序列标注模型为基本框架,在两个阶段的训练任务中结合事件角色语义信息,使文档级别的事件论元抽取更加准确和完整。
本发明的技术方案
文档级别的事件论元抽取方法,该方法构建一个融合事件角色语义的序列标注模型,在不同粒度的文本语义信息基础上结合事件角色的语义信息,最终提升文档级别的事件论元抽取效果。本发明提出的方法的具体步骤如下:
步骤1、文本表示模型微调;
该阶段的目标是将文本的语义空间和事件角色所描述的语义空间进行关联。因为预训练好的文本表示模型没有将事件角色的语义特征考虑在内,而论元的文本语义不一定包含对事件角色的描述信息,所以需要将文本和事件角色在语义空间上进行关联,以丰富文本的表示。
步骤1.1、生成论元与事件角色匹配/非匹配对;
给定一个文档d通常由多个句子组成,即d={s1,s2,...,sn},其中,n是句子的数量。每一个句子又可以被表示一个符号序列,如第i个句子可以表示为其中,x表示文本经分词器分词处理后得到的不同符号,li表示第i个句子中符号的数量。
对于每一个事件论元,记其在文档中对应的符号序列为xa,其分配的事件角色为rt,其中t表示该事件角色为m个事件角色中的第t个。通过组合xa和rt生成论元与事件角色的匹配对。对于每一个生成的匹配对,从文档中随机选择一个和xa具有相同长度的符号序列xna,要求该符号序列不对应任何事件论元。通过组合xna和rt生成论元与事件角色的非匹配对。为保证数据的平衡性,匹配对和非匹配对的数量保持一致。
步骤1.2、利用论元与事件角色对微调文本表示模型;
本发明中利用上下文表示模型BERT生成符号的原始嵌入向量表示,文本表示模型微调的目标是利用事件角色语义信息微调原始训练好的BERT模型。根据匹配/非匹配对的使用方式,本发明中设计了两种不同的微调策略。一种是基于符号序列分类的微调策略TC,另一种是基于符号序列和角色标签关系预测的微调策略TLP。
TC微调策略中将事件角色视作简单的标记,通过对符号序列的分类来微调训练好的BERT模型。对于匹配和非匹配对,此微调策略在符号序列xa和xna的头部添加分类符号[CLS],以及在尾部添加分割符号[SEP]。此微调策略中以这些扩充得到的符号序列作为BERT的输入,然后根据BERT模型最后一层中对[CLS]符号的表示进行输出。对于匹配对,其输出应为匹配对中事件角色所对应的标记下标,如下标0表示袭击类事件中的袭击者个体这一事件角色;对于任意非匹配对,其输出应为非事件角色这一固定标记的下标。至此,TC微调策略的优化目标为:对符号序列分类其正确的事件角色标记下标。
TLP微调策略中将匹配对/非匹配对中的事件角色替换为描述性文本,这些描述性文本是对不同事件角色的简要描述,例如,袭击者个体这一事件角色的描述性文本为“发动袭击的个人”。记事件角色rt的描述性文本为rdt。对于匹配和非匹配对,此微调策略在符号序列的头部添加分类符号[CLS],在符号序列和事件角色的描述性文本之间添加分割符号[SEP],以及在事件角色的描述性文本尾部添加分割符号[SEP]。TLP微调策略中以这些扩充得到的序列作为BERT的输入,然后根据BERT模型最后一层中对[CLS]符号的表示进行输出。对于匹配对,其输出应为0,表示输入的符号序列和事件角色描述性文本是相关的;对于非匹配对,其输出应为1,表示输入的符号序列与事件角色描述性文本无关。至此,TLP微调策略的优化目标为:对符号序列和事件角色描述性文本预测其正确的关系。
步骤2、生成文本的上下文特征表示;
步骤1将文本的语义空间和事件角色所描述的语义空间进行关联,接下来利用这种关联来引导文档级别的事件论元抽取。整体抽取模型以序列标注模型为基础,首先生成包含上下文语义的文本特征表示。因为以序列标注模型为基础,所以原始的标注数据被转变为符号和BIO标签对的格式,这些符号和BIO标签分别作为抽取模型的输入和输出。
为捕获文本序列的双向特征,本发明采用BiLSTM网络模型生成文本的上下文表示。经过步骤1微调过的BERT模型后,输入抽取模型的第i个句子被表示为一个向量序列的集合,记为其中,表示不同符号的嵌入向量。这些向量序列作为BiLSTM模型的输入。BiLSTM模型包括正向LSTM和反向LSTM两个模型,这两个LSTM模型的计算遵循相同的公式和过程,区别在于输入序列的顺序不同。
因为在句子层面和文档层面分别表达了不同的上下文语义信息,所以对输入抽取模型的文档文本,分别建立句子层面和文档层面的文本上下文表征模型。这些上下文表征模型结构相同,均为BiLSTM,区别在于输入的文本长度不同,前者以单一句子作为输入,后者以多个句子作为输入。
步骤2.1、生成句子级别的文本上下文特征表示;
步骤2.2、生成文档级别的文本上下文特征表示;
步骤3、融合文本上下文特征和事件角色语义特征;
步骤2生成的特征表示涵盖了文本的上下文信息,为充分利用步骤1中关联的事件角色语义信息,通过构建事件角色语义的注意力模块生成事件角色语义特征向量,并将文本上下文特征向量和事件角色语义特征向量进行融合,丰富各符号的语义信息。
步骤3.1、生成事件角色语义特征向量;
在文本表示层之上,构建事件角色语义注意力模块以捕获各符号对不同的事件角色语义的注意度。因为步骤2中对每个符号的文本上下文表示包括句子级别和文档级别的,因此分别为不同粒度的文本上下文表示生成对应的事件角色语义特征向量。此过程为每个事件角色生成其对应的简要描述文本,该文本与步骤1.2中TLP微调策略使用的描述性文本相同。这些描述性文本经过微调后的文本表示模型,生成的向量结果即为不同的事件角色语义。
给定符号和事件角色语义rt,它们之间的注意力分值通过向量内积计算得出,即两个向量中对应位置的元素相乘并对相乘后的结果进行求和。给定符号对不同事件角色语义的注意力权重通过softmax函数计算得出,该函数将符号和各事件角色语义的注意力分值映射为区间[0,1]之间的实数,并保证归一化后的数值加和为1。如给定符号对第t个事件角色rt的注意力权重计算为:
其中,m为事件角色的数量。
步骤3.2、融合不同粒度的文本上下文特征向量和事件角色语义特征向量;
经过步骤2生成文本上下文特征向量和3.1步生成事件角色语义特征向量后,每个句子均有两种粒度的文本上下文表示,以及两种粒度的事件角色语义特征表示。通过拼接的方式将同一粒度的文本上下文表示和事件角色语义特征表示进行结合,得到完整的句子级别特征和文档级别特征,分别记作和即:
由于不同粒度下的特征对最终预测结果有着不同程度的影响,需要对句子级别的特征和文档级别的特征进行融合。通过门控融合策略将两种粒度下的特征表示进行融合,其计算过程如下:
其中,W1,W2和b是模型的超参数,符号⊙表示逐元素进行乘积运算。
步骤4、基于融合特征输出预测标签,训练整个抽取模型的参数;
步骤3融合得到的特征包括了不同粒度的文本上下文信息以及事件角色语义信息,为实现合理的抽取结果,本发明运用条件随机场(conditional randomfield,CRF)模块,基于融合后的特征表示,输出每个符号的BIO标签预测结果。
为了满足CRF模块的输入,通过一个线性层将融合后的特征向量映射成长度为M的向量z,其中,M表示BIO标签的数量。向量z中的各个值分别表示当前符号对不同BIO标签的评分。在输入序列和候选的BIO标签序列y,该标签序列的分值通过以下过程进行计算:
训练阶段的模型优化目标是令真实的BIO标签序列ygold在所有BIO标签序列中具有最大似然概率,且基于Score函数计算得到的损失变化满足设定阈值。测试阶段模型输出具有最大似然概率的BIO标签序列作为预测结果。
步骤5、抽取未知文档的事件论元;
利用训练集的已知标注数据对整体抽取模型的参数进行训练学习后,以未知的待抽取文档作为测试集数据,从中抽取相关的事件论元。
对待测试的未知文档,使用和训练集数据相同的处理方式,通过分词器将文档转换为符号序列,然后输入至此前训练得到的抽取模型中,输出具有最大似然概率的BIO标签序列。在得到BIO标签序列之后,将同一类BIO标签对应的连续符号重新组合成单词或短语,也就是根据BIO标签还原文本中的单词或短语,即可得到未知文档中的事件论元抽取结果。
本发明的优点和积极效果:
本发明开创性地提出一个结合事件角色语义信息的文档级别的事件论元抽取方法,通过微调预训练好的文本表示模型来关联文本语义和事件角色语义的空间,然后分别生成两种粒度的文本上下文特征向量和事件角色语义特征向量,并通过门控融合策略融合两种粒度下的特征表示,基于融合后的特征进行文档级别的事件论元抽取。特别的,为充分利用在微调文本表示模型阶段关联的事件角色语义信息,在生成文本上下文特征向量的基础上,通过构建注意力模块生成事件角色语义特征向量,丰富各符号的语义信息,以此实现更加准确的抽取效果。本发明重点关注事件角色语义信息对文档级别的事件论元抽取任务的影响,通过两个阶段的模型训练充分利用事件角色语义信息,以此提升从文档中抽取事件论元的效果,同时令抽取的论元短语更加完整。
附图说明
图1为文档级别的事件论元抽取方法的流程图。
图2为文档级别的事件论元抽取定义图。
图3为用于事件论元抽取的结合了事件角色语义的序列标注模型。
图4为基于MUC-4数据集的事件论元抽取的宏平均结果示意图。
图5为基于核心词匹配评估的各类事件角色上的抽取结果示意图。
图6为基于完全匹配评估的各类事件角色上的召回数量结果示意图。
图7为基于不同句子数量作为输入的抽取结果示意图。
具体实施方式
本发明提出了一种文档级别的事件论元抽取方法,方法的主要流程如图1所示。
本发明的具体实施过程分为五个步骤,其中第2到4步是基于如图3所示的结合了事件角色语义的序列标注模型执行的。下面结合附图详细说明本发明的具体实施方式。
本发明解决从文档中抽取出与特定事件相关的论元这一研究问题,图2为该问题的定义图,左侧为待抽取的非结构化文档文本,要求通过事件论元抽取技术,从文档中抽取出预先定义好结构的事件的特定论元。例如,应当从文档中抽取出“youngmen”这一短语,并识别其在袭击事件中扮演的事件角色为袭击者个体。
本发明提出的文档级别的事件论元抽取方法,在实施阶段采用了普遍使用的文档级别事件论元抽取数据集MUC-4,此数据集是由MessageUnderstandingConferences(MUCs)会议公开的标准信息抽取数据集,包括了关于袭击事件的大量新闻报道以及不同事件类型的模板。该数据集最初公布的划分文件中共包含5个集合,分别是DEV,TST1,TST2,TST3和TST4。其中,DEV集合包含了1300篇文档以及对应事件模板的标注结果;TST1,TST2,TST3和TST4这几个集合分别包含100篇文档以及对应的标注。
在获得事件论元抽取的文档数据集后,设置从文档中应抽取的属于何种事件角色的论元。遵循在MUC-4数据集上一致的研究设定,从MUC-4标注的事件模板中,选择5个事件角色,分别是袭击者个体、袭击者组织、袭击目标、受害者以及袭击工具。同样地,遵循在MUC-4数据集上一致的数据划分设定,将DEV集合作为模型的训练集,TST1和TST2集合作为模型的验证集,TST3和TST4集合作为测试集。这样就得到了用于模型训练,参数选择以及测试的数据。
第1步、文本表示模型微调
预训练好的文本表示模型BERT中没有包含事件角色所描述的语义信息,为了关联文本的语义信息,构建文本表示模型的微调模型来使得生成的文本表示携带有事件角色语义信息。从MUC-4数据集的训练集中,将标注的格式转换为事件论元与事件角色相对应的匹配对xa-rt。为了让生成的文本表示能够区分事件论元和非事件论元,在生成每个匹配对的同时,生成非匹配对xna-rt。使用相同数量的匹配对和非匹配对作为微调模型训练的输入,能够避免微调模型过拟合于事件论元或非事件论元。
本发明提供两种微调模型:基于符号序列分类的TC微调模型,以及基于符号序列和角色标签关系预测的TLP微调模型。
TC微调模型在符号序列的首部和尾部分别添加分类符号和分割符号,并以此作为输入,然后在BERT模型最后一层中对分类符号[CLS]的表示向量之上,构建全连接层以输出此符号序列对应的事件角色(或属于非事件角色),所以该微调模型的优化目标是令符号序列对应的事件角色(或非事件角色)具有最大的输出概率,通过这样的方式从事件论元的文本表示中学习事件角色的语义特征。
TLP微调模型与TC不同,为每个事件角色rt生成描述性文本rdt,将此描述性文本通过BERT产生的向量作为事件角色的语义信息,然后通过预测符号序列和事件角色语义信息的关系来关联文本语义空间和事件角色语义空间。具体的,将xa-rdt合并为一个序列,然后在首部添加分类符号,在xa和rdt之间以及序列尾部添加分割符号,以此作为TLP的输入。同样基于BERT模型中最后一层对[CLS]的表示向量,构建全连接层来输出符号序列和事件角色之间的关系,其中,以匹配对作为输入时,输出应为0表示符号序列和事件角色是相关的;以非匹配对作为输入时,输出应为1表示它们之间是不相关的。所以TLP的优化目标是令正确的关系表示具有最大的输出概率,以此为文本表示关联事件角色语义信息。
第2步、生成文本的上下文特征表示
经过微调后的文本表示模型,其生成的文本嵌入向量表示隐式地携带了不同的事件角色语义信息。为捕获输入文本所在句子和文档中的不同上下文信息,构建两个BiLSTM网络来捕获不同粒度的文本上下文语义特征。
该BiLSTM网络所输入的句子数量作为模型的超参数。
第3步、融合文本上下文和事件角色语义特征
经过两个BiLSTM网络后,抽取模型已经学习到了不同粒度的文本上下文特征,同时隐式地包含了事件角色语义特征。为了更加充分和显式地利用事件角色语义信息,抽取模型在生成文本上下文特征表示后,通过事件角色语义的注意力模块(RoleSemanticsAttention,RSA)生成对应粒度的事件角色语义特征向量和
之前隐式包含的事件角色语义特征将会在一定程度上引导RSA模块生成更加有效的事件角色语义特征向量。经过文本表示模块和RSA模块,已经得到了分别在句子级别和文档级别的文本特征向量以及事件角色语义特征向量,接下来考虑如何有效地结合这些特征向量以生成表征多粒度文本语义及事件角色语义的特征向量。
为生成不同粒度的特征向量,模型通过拼接的方式结合此前生成的事件角色语义特征向量和上一步生成的文本上下文特征向量,形成如下的特征向量:
为生成表征多粒度文本语义和事件角色语义的特征向量,模型通过门控融合(GatedFusion,GF)模块为不同粒度的特征向量分配不同的权重并将它们进行融合:
融合得到的特征向量Si即为输入文档的第i个句子的特征向量表示,它同时包含了句子级别和文档级别的文本语义信息及事件角色语义信息。
第4步、基于融合特征输出预测标签,训练更新整个抽取模型的参数
经融合后得到的特征向量同时表达了文本的语义信息以及事件角色的语义信息,同时还考虑了句子层面的上下文信息和文档层面的上下文信息。为利用这些丰富的语义信息从文档中抽取事件论元,模型通过CRF模块为文档中的每个符号预测BIO格式的标签。CRF模块要求预测得到的BIO标签序列符合序列标注模型中符号序列之间的关系,由此保证输出结果的合理性。为使得预测的BIO标签序列更加准确,需要对抽取模型中所有超参数的集合H进行训练,模型的训练目标是令真实的BIO标签序列ygold在所有候选的BIO标签序列中具有最大似然概率,且令基于Score函数计算的损失变化达到阈值或达到最优值。通过有监督的方式对模型进行训练,以预测的BIO标签序列分值和真实BIO标签序列分值之间的误差设置目标损失函数,训练更新整个抽取模型的参数,使得最终得到的模型能够从文档中更加准确且更加完整地抽取出与5种选定事件角色相对应的事件论元。
第5步、针对未知的待抽取文档,利用训练好的抽取模型抽取出其中的事件论元
对于测试集中未知的待抽取文档数据,使用和训练集数据相同的处理方式,将待抽取文档通过分词器转换为符号序列。将处理后的符号序列输入至此前通过训练集训练得到的抽取模型中,生成相应的BIO预测标签序列。基于得到的BIO预测标签序列,将描述同一个事件角色的BIO标签所对应的符号进行合并,还原得到待抽取文档中对应的单词或短语,即可获得未知文档中所包含的事件论元。
在MUC-4数据集上验证了本发明提出的文档级别的事件论元抽取方法,设置两种类别的共计八个方法作为对比实验:第一组方法为基于特征工程的传统事件论元抽取方法,即GLACIER、TIER、Coh-Ext;第二组为近期基于不同深度学习模型的事件论元抽取方法,即SSR、CR、MGR、GTT、DYGIE++。我们以精确率(Precision)、召回率(Recall)和F1值作为事件论元抽取效果的衡量指标:F1值越高,表明模型整体的抽取效果越好;F1值越低,表示模型整体的抽取效果越差。精确率、召回率和F1值的计算方式有两种:一种是基于完全匹配进行评估,它评估抽取出的短语和标注的论元短语是否完全一致;第二种是基于核心词匹配进行评估,它评估抽取出的短语中是否包含了标注论元短语的核心词。第一种评估方式反映模型抽取完整的事件论元短语的效果,第二种则反映模型抽取事件论元核心词的效果。
图4展示了基于MUC-4数据集的事件论元抽取的宏平均结果。通过图4能够发现,本发明提出的方法RSA(TC)和RSA(TLP)在MUC-4数据集上取得了优于所有对比方法的抽取效果,基于完全匹配评估和核心词匹配评估的最高F1值分别为58.36和63.04。相比于最优的对比方法,分别实现了6%和4%的提升。由此可见,本发明提出的模型方法能取得不错的抽取效果。图5展示了基于核心词匹配评估的各类事件角色上的抽取结果,通过图5能够发现,本发明提出的方法在4个事件角色上的抽取效果明显优于对比方法,在袭击工具这一事件角色上,取得了和对比方法相接近的抽取效果。图6展示了基于完全匹配评估的各类事件角色上的召回数量结果,由图6可知,本发明提出的方法能够在4个事件角色中召回最多的完整论元短语,在袭击者组织这一事件角色上能召回和最优对比方法相近数量的完整论元短语,该结果说明本发明提出的方法能够抽取出更多完整的事件论元。图7展示了基于不同句子数量作为输入的抽取结果,输入抽取模型的句子的数量作为本发明方法的一个超参数,影响着文档级别的特征表示,根据图7的结果,发现同时输入模型的句子数量为3时能达到最好的抽取效果。以上对比结果充分说明了本发明提出的方法在文档级别的事件论元抽取任务上取得了不错的效果。
Claims (8)
1.一种文档级别的事件论元抽取方法,其特征在于:包括以下步骤:
步骤1、从训练集的文档标注数据中,构造论元与事件角色的匹配/非匹配对,进而微调预先训练好的文本表示模型;
步骤2、将训练集的标注数据格式转换为符号和BIO标签对,利用第1步微调好的模型生成文本符号的初始嵌入向量表示,通过构造两个不同输入序列长度的BiLSTM网络为符号序列生成句子级别和文档级别的文本上下文特征表示;
步骤3、基于第2步生成的上下文特征表示,通过事件角色语义注意力模块生成与不同粒度上下文特征表示相对应的事件角色语义特征向量,融合这些特征向量生成每个符号的特征向量表示;
步骤4、基于融合后的每个符号的特征向量数据作为输入,采用CRF模块输出每个符号的BIO标签预测结果,通过BIO标签预测结果与步骤2中训练集中对应的真实BIO标签之间的误差设置目标损失函数,训练更新步骤2至4的整个抽取模型的参数;
步骤5、针对未知的待抽取文档,利用训练好的抽取模型抽取出其中的事件论元。
2.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,预先训练好的文本表示模型采用BERT文本表示模型。
3.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,微调预训练好的文本表示模型的具体方法是:
从原始数据中选择事件论元的符号序列,以及标注的事件角色,构建匹配对xa-rt,并通过非事件论元的符号序列构建非匹配对xna-rt;
对预先训练好的文本表示模型,通过基于符号序列分类的TC策略来进行微调:
对于匹配和非匹配对,在符号序列xa和xna的头部添加分类符号[CLS],以及在尾部添加分割符号[SEP],以这些扩充得到的符号序列作为预先训练好的文本表示模型的输入,然后根据模型最后一层中对[CLS]符号的表示进行输出,得到文本符号序列相对应的事件角色类别。
4.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤1中,微调预训练好的文本表示模型的具体方法是:
从原始数据中选择事件论元的符号序列,以及标注的事件角色,构建匹配对xa-rt,并通过非事件论元的符号序列构建非匹配对xna-rt;
对预先训练好的文本表示模型,通过基于符号序列和角色标签关系预测的TLP策略来进行微调:
对于匹配和非匹配对,在符号序列的头部添加分类符号[CLS],在符号序列和事件角色的描述性文本之间添加分割符号[SEP],以及在事件角色的描述性文本尾部添加分割符号[SEP],以这些扩充得到的序列作为预先训练好的文本表示模型的输入,然后根据模型最后一层中对[CLS]符号的表示进行输出,得到文本符号序列与事件角色描述性文本之间的相关关系。
6.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤3,具体包括以下步骤:
步骤3.1、事件角色语义注意力模块为句子级别和文档级别的文本上下文特征表示分别计算不同的注意力权重:
使用计算的注意力权重值,通过加权求和的方式得到事件角色的语义特征向量:
步骤3.2、通过拼接的方式将同一粒度的文本上下文特征向量和事件角色语义特征向量进行结合,得到完整的句子级别特征和文档级别特征:
通过门控融合策略将句子级别的特征和文档级别的特征进行融合:
其中,W1,W2和b是模型的超参数,符号⊙表示逐元素进行乘积运算。
7.根据权利要求1所述的文档级别的事件论元抽取方法,其特征在于:在步骤4中:
为了满足CRF模块的输入,通过一个线性层将融合后的特征向量映射成长度为M的向量z,其中,M表示BIO标签的数量,向量z中的各个值分别表示当前符号对不同BIO标签的评分,在输入序列和候选的BIO标签序列y,该标签序列的分值通过以下过程进行计算:
通过预测的BIO标签序列分值和真实BIO标签序列分值之间的误差设置目标损失函数,训练更新整个抽取模型的参数。
8.根据权力要求1所述的文档级别的事件论元抽取方法,其特征在于:步骤5抽取未知文档的事件论元的具体方法是:
首先通过分词器,将未知文档转换为符号序列,输入至训练好的抽取模型中并得到相应的BIO标签序列输出,根据得到的BIO标签结果还原文档中对应的单词或短语,作为未知文档的事件论元抽取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011506990.8A CN112528676B (zh) | 2020-12-18 | 2020-12-18 | 文档级别的事件论元抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011506990.8A CN112528676B (zh) | 2020-12-18 | 2020-12-18 | 文档级别的事件论元抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528676A true CN112528676A (zh) | 2021-03-19 |
CN112528676B CN112528676B (zh) | 2022-07-08 |
Family
ID=75001860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011506990.8A Active CN112528676B (zh) | 2020-12-18 | 2020-12-18 | 文档级别的事件论元抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528676B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239694A (zh) * | 2021-06-04 | 2021-08-10 | 北京理工大学 | 一种基于论元短语的论元角色识别的方法 |
CN113239696A (zh) * | 2021-05-25 | 2021-08-10 | 浙江大学 | 一种基于树状事件扁平化的文档级别多事件抽取方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN113761875A (zh) * | 2021-07-21 | 2021-12-07 | 中国科学院自动化研究所 | 事件抽取方法、装置、电子设备及存储介质 |
CN113836269A (zh) * | 2021-09-27 | 2021-12-24 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN113887836A (zh) * | 2021-11-04 | 2022-01-04 | 南开大学 | 一种融合事件环境信息的叙述性事件预测方法 |
CN113919319A (zh) * | 2021-10-15 | 2022-01-11 | 中国人民解放军国防科技大学 | 基于动作场景强化的脚本事件预测方法 |
CN113987104A (zh) * | 2021-09-28 | 2022-01-28 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
CN114444484A (zh) * | 2022-01-13 | 2022-05-06 | 重庆邮电大学 | 一种基于双层图的文档级事件抽取方法及系统 |
CN114492377A (zh) * | 2021-12-30 | 2022-05-13 | 永中软件股份有限公司 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
CN114741516A (zh) * | 2021-12-08 | 2022-07-12 | 商汤国际私人有限公司 | 一种事件抽取方法和装置、电子设备及存储介质 |
CN114936559A (zh) * | 2022-01-05 | 2022-08-23 | 华能贵诚信托有限公司 | 一种基于多模型融合的多级事件抽取方法和抽取系统 |
CN115238685A (zh) * | 2022-09-23 | 2022-10-25 | 华南理工大学 | 一种基于位置感知的建筑工程变更事件联合抽取方法 |
CN115983274A (zh) * | 2022-12-20 | 2023-04-18 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
CN116579338A (zh) * | 2023-07-13 | 2023-08-11 | 江西财经大学 | 基于集成联合学习的文档级事件抽取方法和系统 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080319735A1 (en) * | 2007-06-22 | 2008-12-25 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
US20090326919A1 (en) * | 2003-11-18 | 2009-12-31 | Bean David L | Acquisition and application of contextual role knowledge for coreference resolution |
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN110297913A (zh) * | 2019-06-12 | 2019-10-01 | 中电科大数据研究院有限公司 | 一种电子公文实体抽取方法 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111581345A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种文档级别的事件抽取方法和装置 |
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和系统及设备 |
CN111797241A (zh) * | 2020-06-17 | 2020-10-20 | 北京北大软件工程股份有限公司 | 基于强化学习的事件论元抽取方法及装置 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
CN112052665A (zh) * | 2020-09-12 | 2020-12-08 | 广东工业大学 | 一种远程监督事件抽取方法及其应用 |
US20200387574A1 (en) * | 2019-06-07 | 2020-12-10 | Raytheon Bbn Technologies Corp. | Linguistically rich cross-lingual text event embeddings |
-
2020
- 2020-12-18 CN CN202011506990.8A patent/CN112528676B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090326919A1 (en) * | 2003-11-18 | 2009-12-31 | Bean David L | Acquisition and application of contextual role knowledge for coreference resolution |
US20080319735A1 (en) * | 2007-06-22 | 2008-12-25 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
US20200387574A1 (en) * | 2019-06-07 | 2020-12-10 | Raytheon Bbn Technologies Corp. | Linguistically rich cross-lingual text event embeddings |
CN110297913A (zh) * | 2019-06-12 | 2019-10-01 | 中电科大数据研究院有限公司 | 一种电子公文实体抽取方法 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111581345A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种文档级别的事件抽取方法和装置 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111797241A (zh) * | 2020-06-17 | 2020-10-20 | 北京北大软件工程股份有限公司 | 基于强化学习的事件论元抽取方法及装置 |
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和系统及设备 |
CN112052665A (zh) * | 2020-09-12 | 2020-12-08 | 广东工业大学 | 一种远程监督事件抽取方法及其应用 |
Non-Patent Citations (2)
Title |
---|
XINYA DU,CLAIRE CARDIE: "Document-Level Event Role Filler Extraction using Multi-Granularity Contextualized Encoding", 《ARXIV:2005.06579V》, 13 May 2020 (2020-05-13) * |
YUNYAN ZHANG ET AL.: "A Question Answering-Based Framework for One-Step Event Argument Extraction", 《IEEE ACCESS》, 17 April 2020 (2020-04-17) * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN113239696A (zh) * | 2021-05-25 | 2021-08-10 | 浙江大学 | 一种基于树状事件扁平化的文档级别多事件抽取方法 |
CN113239696B (zh) * | 2021-05-25 | 2024-01-05 | 浙江大学 | 一种基于树状事件扁平化的文档级别多事件抽取方法 |
CN113239694A (zh) * | 2021-06-04 | 2021-08-10 | 北京理工大学 | 一种基于论元短语的论元角色识别的方法 |
CN113239694B (zh) * | 2021-06-04 | 2022-06-14 | 北京理工大学 | 一种基于论元短语的论元角色识别的方法 |
CN113761875B (zh) * | 2021-07-21 | 2022-12-06 | 中国科学院自动化研究所 | 事件抽取方法、装置、电子设备及存储介质 |
CN113761875A (zh) * | 2021-07-21 | 2021-12-07 | 中国科学院自动化研究所 | 事件抽取方法、装置、电子设备及存储介质 |
CN113836269A (zh) * | 2021-09-27 | 2021-12-24 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN113836269B (zh) * | 2021-09-27 | 2024-04-02 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN113987104A (zh) * | 2021-09-28 | 2022-01-28 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
CN113919319A (zh) * | 2021-10-15 | 2022-01-11 | 中国人民解放军国防科技大学 | 基于动作场景强化的脚本事件预测方法 |
CN113887836A (zh) * | 2021-11-04 | 2022-01-04 | 南开大学 | 一种融合事件环境信息的叙述性事件预测方法 |
CN113887836B (zh) * | 2021-11-04 | 2024-04-19 | 南开大学 | 一种融合事件环境信息的叙述性事件预测方法 |
CN114741516A (zh) * | 2021-12-08 | 2022-07-12 | 商汤国际私人有限公司 | 一种事件抽取方法和装置、电子设备及存储介质 |
CN114492377A (zh) * | 2021-12-30 | 2022-05-13 | 永中软件股份有限公司 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
CN114492377B (zh) * | 2021-12-30 | 2024-04-16 | 永中软件股份有限公司 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
CN114936559A (zh) * | 2022-01-05 | 2022-08-23 | 华能贵诚信托有限公司 | 一种基于多模型融合的多级事件抽取方法和抽取系统 |
CN114444484A (zh) * | 2022-01-13 | 2022-05-06 | 重庆邮电大学 | 一种基于双层图的文档级事件抽取方法及系统 |
CN115238685A (zh) * | 2022-09-23 | 2022-10-25 | 华南理工大学 | 一种基于位置感知的建筑工程变更事件联合抽取方法 |
CN115983274A (zh) * | 2022-12-20 | 2023-04-18 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
CN115983274B (zh) * | 2022-12-20 | 2023-11-28 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
CN116579338A (zh) * | 2023-07-13 | 2023-08-11 | 江西财经大学 | 基于集成联合学习的文档级事件抽取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112528676B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN110909529B (zh) | 一种公司形象提升系统的用户情感分析和预判系统 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
Alshahrani et al. | Identifying optimism and pessimism in twitter messages using xlnet and deep consensus | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
CN114936277A (zh) | 相似问题匹配方法和户相似问题匹配系统 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN114048286A (zh) | 一种融合图转换器和共同注意力网络的自动事实验证方法 | |
Ko et al. | Paraphrase bidirectional transformer with multi-task learning | |
CN114048314B (zh) | 一种自然语言隐写分析方法 | |
CN113076490B (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
CN117725999A (zh) | 一种基于提示学习和外部知识嵌入的关系抽取方法 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
Jing et al. | Chinese text sentiment analysis based on transformer model | |
CN110377753A (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |