CN115168541A - 基于框架语义映射和类型感知的篇章事件抽取方法及系统 - Google Patents

基于框架语义映射和类型感知的篇章事件抽取方法及系统 Download PDF

Info

Publication number
CN115168541A
CN115168541A CN202210827114.8A CN202210827114A CN115168541A CN 115168541 A CN115168541 A CN 115168541A CN 202210827114 A CN202210827114 A CN 202210827114A CN 115168541 A CN115168541 A CN 115168541A
Authority
CN
China
Prior art keywords
event
argument
type
text
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210827114.8A
Other languages
English (en)
Inventor
李茹
卢江
梁吉业
谭红叶
王智强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202210827114.8A priority Critical patent/CN115168541A/zh
Publication of CN115168541A publication Critical patent/CN115168541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及知识图谱和自然语言处理领域,公开了一种基于框架语义映射和类型感知的篇章事件抽取方法及系统。系统包括编码器模块、事件检测模块以及论元识别模块。方法中框架语义映射是在事件检测模块中将汉语框架网(Chinese FrameNet,CFN)与篇章事件进行映射,同时在文本输入阶段对篇章进行滑窗机制的文本切分并融入触发词释义信息,从而改善了篇章事件抽取中的数据稀疏问题;而类型感知则是在论元识别模块中通过事件类型标签对篇章多事件进行分离,将篇章多事件转化为多个单事件,缓解了多值论元耦合问题,最后本发明将事件检测与论元识别两个模块的输出标签进行整合,形成完整的事件表示,在中文篇章事件抽取相关数据集上取得了良好的效果。

Description

基于框架语义映射和类型感知的篇章事件抽取方法及系统
技术领域
本发明涉及知识图谱和自然语言处理领域,具体为一种基于框架语义映射和类型感知的篇章事件抽取方法及系统。
背景技术
篇章事件抽取(Document Event Extraction,DEE)是信息抽取(InformationExtraction)中的一个重要研究方向,旨在从非结构化文本中抽取结构化事件类型和事件要素。DEE是舆情监控和金融领域的重要任务之一,事件也是知识图谱(Knowledge Graph)的重要组成部分,事件抽取对于图谱推理和事件分析至关重要。
DEE包含事件检测和论元识别两部分,其任务难点主要在于文本的复杂性和事件结构的复杂性。文本的复杂性体现在输入文本为篇章,这使得输入文本受限的模型需要在考虑篇章全局信息的情况下进行数据预处理;事件结构的复杂性体现在篇章中包含多事件,不同事件之间互有重叠,较单一事件抽取难度更大。
分析主流的篇章事件抽取数据集发现,DEE任务面临的挑战主要体现在两个方面:1)篇章数据稀疏。现有数据集人工标注难度较大,导致篇章中各事件类型呈现长尾分布;2)篇章包含多事件。同一论元分布于不同事件中,存在多值论元耦合现象,也即论元重叠。因此本文探索引入汉语框架网(Chinese FrameNet,CFN)与事件建立一定的映射以改善数据稀疏问题,融合事件类型信息和篇章全局信息缓解多值论元耦合问题。
基于深度学习的事件抽取方法避免了人工设计特征的繁琐工作,使用具有丰富语言特征的词向量作为输入,以减少由底层NLP工具引起的错误。通过引入预训练模型,在一定程度上丰富了文本语义表示,但针对中文篇章事件检测任务,现阶段并未考虑引入外部知识提升其性能,同时将事件检测和论元识别任务孤立地完成,缺少信息间的交互。已有大多数篇章事件抽取方法使用深度学习和联合学习进行特征交互,通过图构建的方式捕获事件类型与论元之间的交互,避免了错误传播,但是针对篇章事件中多值论元耦合的问题并不能有效的解决。
事实上,事件检测和论元识别两阶段的上下文表示本质上捕获了不同的信息,然而联合抽取方式共享两者的模型结构和参数,因此会影响事件抽取整体性能。本文采用Pipeline抽取方式,相比于大多数Pipeline模型,更加注重事件类型与论元的交互。在事件检测阶段,引入框架语义映射,将CFN相关事件句作为外部数据在一定程度上改善了事件稀疏问题;在论元识别阶段,设计了基于类型感知的多事件分离策略,在一定程度上缓解了多值论元耦合问题。
发明内容
针对上述问题本发明提供了一种基于框架语义映射和类型感知的篇章事件抽取方法及系统,该方法及系统是基于框架语义映射和类型感知的篇章事件抽取,其中,框架语义映射是在事件检测阶段,通过建立CFN与篇章事件的映射,同时融入触发词释义信息和经过滑动窗口处理后的文本片段,从而改善了篇章事件抽取中的数据稀疏问题;而类型感知标签则是在论元识别阶段通过事件类型标签对篇章多事件进行分离,从而将篇章多事件转化为多个单事件,进一步缓解了多值论元耦合问题。最后本发明将事件检测与论元识别两个阶段进行联合优化,在中文篇章事件抽取相关数据集上取得了良好的效果。
为了达到上述目的,本发明采用了下列技术方案:
第一方面,本发明提供一种基于框架语义映射和类型感知的篇章事件抽取方法,包括以下步骤:
步骤1:通过编码器模块的编码器对事件检测模块和论元识别模块的文本分别进行编码,得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示;
步骤2:在事件检测模块中针对篇章事件数据稀疏问题,建立了CFN框架与中文事件的两级映射,进而融合篇章触发词释义信息和CFN相关事件句对预先定义的事件类型进行预测;
步骤3:在论元识别模块中针对多值论元耦合问题,建立了基于类型标签感知的多事件分离器,通过预先定义的事件论元角色对文本中的论元进行预测;
步骤4,将事件检测模块预测的全部事件类型标签与论元识别模块预测的所有论元标签进行拼接,即完成最终的篇章事件抽取。
进一步,所述步骤1的具体操作为:采用预训练语言模型BERT-Fin作为编码器,对事件检测模块和论元识别模块的文本分别进行编码;
其中,对事件检测模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,ci}作为事件检测任务的一次输入,ci表示文本片段中的第i个字符;同时为了增强触发词对事件类型的语义理解,将其汉语释义信息t={t1,t2,...,tj}拼接到文本片段的触发词之后,共同作为文本的输入,tj表示触发词释义中的第j个字符,计算公式如下所示:
s1=[CLS]+s+[SEP]+t+[SEP]
s′1=Bert-FinEncoder(s1)
其中,s1表示事件检测模型的输入,[CLS]表示开始位置,[SEP]表示分隔符;s′1={c1,c2,...,clen},s′1∈Rlen×d,len表示文本片段与释义信息的总长度,d为隐层维度;
对论元识别模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,ci}作为论元识别任务的一次输入,ci表示文本片段中的的第i个字符;将事件检测阶段预测的每个事件类型标签e={e1,e2,...,ej}分别与输入文本片段进行拼接共同作为模型输入特征,ej表示当前事件类型的第j个字符,计算公式如下所示:
s2=[CLS]+s+[SEP]+e+[SEP]
s′2=Bert-FinEncoder(s2)
其中,s2表示论元识别模型的输入,s′2={c1,c2,...,clen},s′2∈Rlen×d,len表示文本片段与类型标签的总长度,d为隐层维度。
进一步,所述步骤2包括CFN框架与中文事件映射和序列建模两部分;具体操作为:
(1)CFN框架与中文事件映射:将篇章事件与CFN框架映射后的相关事件句、触发词释义以及滑动窗口的文本片段通过编码器模块得到片段和触发词释义的向量s′1,为了进一步增强篇章中的长实体信息的表示,在预训练模型之后加入bi_lstm进一步增强其语义表示,具体计算过程见如下公式所示:
h=bi_lstm(s′1)
Figure BDA0003744412080000041
h表示隐层向量,包含前向
Figure BDA0003744412080000042
向量和后向
Figure BDA0003744412080000043
向量,经过向量拼接作为下一层的输入I;
(2)序列建模:在解码阶段,将隐层输出作为CRF发射概率,CRF层转移概率矩阵Ai,j表示从第i个标签tagi到第j个标签tagj的转移得分,因此对于已知的输入序列s′1={c1,c2,...,clen}对应的输出标签结果为ye=(y1,y2,...,yn),定义当前序列得分的计算如下公式所示:
Figure BDA0003744412080000051
其中,Ii,yi表示第i个位置softmax输出为yi的概率;完整序列的得分score(s′1,ye)等于每个位置打分之和,每个位置得分由隐层输出向量I和CRF转移矩阵A共同组成;最后利用softmax计算事件类型标签归一化后的概率,如下公式所示:
Figure BDA0003744412080000052
式中y′e表示输出标签的归一化值,采用最大对数似然函数优化目标函数,其对数似然计算如下公式所示:
Figure BDA0003744412080000053
使用动态规划Viterbi算法求得最优标签序列,s1′表示输入序列,ye *表示真实标签,ye表示预测标签,其计算如下公式所示:
ye *=argmax(score(ye|s1′))
经过融合CFN框架语义映射后的事件检测模型,能够很好的解决篇章事件中的数据稀疏问题,提升事件类型识别的准确率。
进一步,所述步骤3包括多类型感知层和多标签解码层两部分;具体操作为:
(1)多类型感知层:本阶段设置了一个类型感知模块,其核心在于将事件检测阶段感知的每个事件类型标签e={e1,e2,...,ej}分别与输入文本片段s={c1,c2,c3,..i.c,拼接共同作为模型输入特征,依据不同的类型标签将文本中多事件转化为多个单事件,为了进一步增强事件检测与论元识别阶段的交互,将事件检测中的篇章全局信息经过maxpooling得到向量
Figure BDA0003744412080000061
然后和文本片段编码向量s′2进行融合,进一步增强文本信息表示,隐藏层计算如下公式所示:
Figure BDA0003744412080000062
Figure BDA0003744412080000063
其中,In表示篇章中滑窗切分后的第n个片段的隐层编码,s″2表示融合篇章全局信息的隐层表示;
(2)多标签解码层:将经过类型标签分离后的单事件分别经过各自的CRF解码层,由原先对多事件论元角色的分类转化为多个单事件论元角色的分类;CRF解码结构与事件检测阶段一致,CRF解码序列计算公式如下所示:
Figure BDA0003744412080000064
Figure BDA0003744412080000065
其中,
Figure BDA0003744412080000066
表示第i个事件经过CRF解码之后的标签序列,
Figure BDA0003744412080000067
表示所有事件的论元标签序列集合;为解决正负样本分布不均衡现象,采用Focal loss损失函数,计算过程如下公式所示:
Figure BDA0003744412080000068
Figure BDA0003744412080000069
其中,s′2表示输入序列,y′a表示输出标签的归一化值,P表示当前序列得分经过softmax后的归一化概率值,p*表示样本真实标签的概率值,α为正负样本比例权重平衡因子,初始值设置为1.0;γ为样本难度权重平衡因子,初始值设置为2.0;
使用动态规划Viterbi算法求得最优标签序列,
Figure BDA0003744412080000071
表示真实标签,ya表示预测标签,其计算如下公式所示:
Figure BDA0003744412080000072
Figure BDA0003744412080000073
将事件检测预测的全部事件类型标签
Figure BDA0003744412080000074
与论元识别预测的所有论元标签
Figure BDA0003744412080000075
进行拼接,y*表示完整的事件,最终完成整体的篇章事件抽取。
第二方面,本发明提供一种基于框架语义映射和类型感知的篇章事件抽取系统,包括编码器模块、事件检测模块以及论元识别模块;其中:
所述编码器模块是对事件检测输入的文本片段和触发词释义信息进行编码,对论元识别输入的文本片段和事件类型标签进行编码,得到输入特征中每个字或词的向量表示;
所述事件检测模块是对编码器模块事件检测编码后的向量经过序列建模层完成事件类型的判断,然后采用序列标注的方式得到最优的事件类型序列标签;
所述论元识别模块是对编码器模块论元识别编码后的向量经过多类型感知层和多标签解码层进行判断,然后采用序列标注的方式得到最优的论元序列标签。
进一步,所述编码器模块包含两部分:1)事件检测阶段的篇章文本编码。通过对滑动窗口处理后的篇章片段、触发词释义信息以及CFN与篇章事件映射后的事件句进行编码,得到篇章片段和触发词释义信息中每个字或词的向量表示。2)论元识别阶段的篇章文本编码。通过对滑动窗口处理的篇章片段和事件类型标签进行编码,得到篇章片段和事件类型标签中每个字或词的向量表示;所述事件检测模块是基于汉语框架网与中文事件结构的相似性进行的两级映射,改善了事件检测中的数据稀疏问题;所述论元识别模块是基于事件类型标签感知的多事件分离方法,将篇章多事件分离为多个单事件,缓解了篇章多值论元耦合问题。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于框架语义映射和类型感知的篇章事件抽取方法。
第四方面,本发明提供一种非暂态计算机可读存储介质,所述介质上存储有计算机程序,该计算机程序用于被处理器执行时实现上述基于框架语义映射和类型感知的篇章事件抽取方法。
与现有技术相比本发明具有以下优点:
(1)本发明将CFN与中文篇章事件抽取任务相结合,探索框架与事件间的关系,有助于改善篇章事件抽取中数据稀疏的问题。
(2)在事件检测阶段,本发明通过引入CFN这一外部知识,构造CFN框架与事件的二级映射,将CFN映射后的相关事件句作为外部数据改善了篇章事件抽取中数据稀疏问题。
(3)在论元识别阶段,通过融合事件类型标签以及整合全局上下文信息,将篇章多事件转化为多个单事件,在一定程度上缓解了多值论元耦合问题。
附图说明
图1为本发明实施例提供的一种基于框架语义映射和类型感知的篇章事件抽取方法整体架构图;
图2为本发明使用的数据样例;
图3为本发明的事件检测模块结构图;
图4为本发明的论元识别模块结构图;
图5为本发明的多标签整合结构图;
图6为本发明实施例提供的一种基于框架语义映射和类型感知的篇章事件抽取系统的结构示意图;
具体实施方式
下面结合实施例和附图对本发明做进一步详细描述,所举实施例只用于解释本发明,并非用于限定本发明的保护范围。
实施例1
图1为本发明实施例提供的一种基于框架语义映射和类型感知的篇章事件抽取方法整体架构图,主要包括编码器模块、事件检测模块和论元识别模块。
各模块的具体内容如下:
编码器模块对事件检测和论元识别分别进行编码,得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示;
事件检测模块,利用CFN与中文事件的两级映射、滑动窗口机制以及触发词释义信息共同改善事件检测阶段数据稀疏问题。通过两级框架语义映射,将CFN中相关的事件句用于事件检测,提升事件检测任务的性能。
论元识别模块,利用类型感知标签和融合篇章全局信息缓解篇章中的多值论元耦合问题。通过类型感知模块将篇章多事件分离为多个单事件进行识别。
标签整合:将事件检测模块预测的全部事件类型标签与论元识别模块预测的所有论元标签进行拼接,完成最终的篇章事件抽取。
实施例2
图2为2021百度最新发布的金融领域篇章级事件抽取数据集(DuEE-fin)的示例,包含13个事件类型的1.17万个篇章,同时存在部分非目标篇章作为负样例。事件类型来源于常见的金融事件,数据集中的篇章来自金融领域的新闻和公告,覆盖了真实应用场景中诸多难以解决的问题。篇章级事件抽取输入:包含事件信息的一个或多个连续完整篇章;输出:预先定义的事件类型和论元角色的事件论元。
1、采用预训练语言模型BERT-Fin作为编码器,对事件检测模块和论元识别模块的文本分别进行编码。
事件检测模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,ci}作为事件检测任务的一次输入,ci表示文本片段中的第i个字符;同时为了增强触发词对事件类型的语义理解,将其汉语释义信息t={t1,t2,...,tj}拼接到文本片段的触发词之后,共同作为文本的输入,tj表示触发词释义中的第j个字符,计算公式如下所示:
s1=[CLS]+s+[SEP]+t+[SEP]
s′1=Bert-FinEncoder(s1)
其中,s1表示事件检测模型的输入,[CLS]表示开始位置,[SEP]表示分隔符;s′1={c1,c2,...,clen},s′1∈Rlen×d,len表示文本片段与释义信息的总长度,d为隐层维度;
论元识别模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,ci}作为论元识别任务的一次输入,ci表示文本片段中的的第i个字符;将事件检测阶段预测的每个事件类型标签e={e1,e2,...,ej}分别与输入文本片段进行拼接共同作为模型输入特征,ej表示当前事件类型的第j个字符,计算公式如下所示:
s2=[CLS]+s+[SEP]+e+[SEP]
s′2=Bert-FinEncoder(s2)
其中,s2表示论元识别模型的输入,s′2={c1,c2,...,clen},s′2∈Rlen×d,len表示文本片段与类型标签的总长度,d为隐层维度。
2、在事件检测模块中针对篇章事件数据稀疏问题,融合篇章触发词释义信息和CFN相关事件句对预先定义的事件类型进行预测,包括CFN框架与中文事件映射和序列建模两部分。事件检测模块结构图如图3所示。
(1)CFN框架与中文事件映射:将篇章事件与CFN框架映射后的相关事件句、触发词释义以及滑动窗口的文本片段通过编码器模块得到片段和触发词释义的向量s′1,为了进一步增强篇章中的长实体信息的表示,在预训练模型之后加入bi_lstm进一步增强其语义表示,具体计算过程见如下公式所示:
h=bi_lstm(s′1)
Figure BDA0003744412080000111
h表示隐层向量,包含前向
Figure BDA0003744412080000112
向量和后向
Figure BDA0003744412080000113
向量,经过向量拼接作为下一层的输入I;
(2)序列建模:在解码阶段,将隐层输出作为CRF发射概率,CRF层转移概率矩阵Ai,j表示从第i个标签tagi到第j个标签tagj的转移得分,因此对于已知的输入序列s′1={c1,c2,...,clen}对应的输出标签结果为ye=(y1,y2,...,yn),定义当前序列得分的计算如下公式所示:
Figure BDA0003744412080000114
其中,Ii,yi表示第i个位置softmax输出为yi的概率;完整序列的得分score(s′1,ye)等于每个位置打分之和,每个位置得分由隐层输出向量I和CRF转移矩阵A共同组成;最后利用softmax计算事件类型标签归一化后的概率,如下公式所示:
Figure BDA0003744412080000121
式中y′e表示输出标签的归一化值,采用最大对数似然函数优化目标函数,其对数似然计算如下公式所示:
Figure BDA0003744412080000122
使用动态规划Viterbi算法求得最优标签序列,s1′表示输入序列,ye *表示真实标签,ye表示预测标签,其计算如下公式所示:
ye *=argmax(score(ye|s1′))
经过融合CFN框架语义映射后的事件检测模型,能够很好的解决篇章事件中的数据稀疏问题,提升事件类型识别的准确率。
3、在论元识别阶段,针对多值论元耦合问题,通过预先定义的事件论元角色对文本中的论元进行预测,包括多类型感知层和多标签解码层两部分。论元识别模块结构图如图4所示。
(1)多类型感知层:本阶段设置了一个类型感知模块,其核心在于将事件检测阶段感知的每个事件类型标签e={e1,e2,...,ej}分别与输入文本片段s={c1,c2,c3,..i.c,拼接共同作为模型输入特征,依据不同的类型标签将文本中多事件转化为多个单事件,为了进一步增强事件检测与论元识别阶段的交互,将事件检测中的篇章全局信息经过maxpooling得到向量
Figure BDA0003744412080000123
然后和文本片段编码向量s′2进行融合,进一步增强文本信息表示,隐藏层计算如下公式所示:
Figure BDA0003744412080000131
Figure BDA0003744412080000132
其中,In表示篇章中滑窗切分后的第n个片段的隐层编码,s″2表示融合篇章全局信息的隐层表示;
(2)多标签解码层:将经过类型标签分离后的单事件分别经过各自的CRF解码层,由原先对多事件论元角色的分类转化为多个单事件论元角色的分类;CRF解码结构与事件检测阶段一致,CRF解码序列计算公式如下所示:
Figure BDA0003744412080000133
Figure BDA0003744412080000134
其中,
Figure BDA0003744412080000135
表示第i个事件经过CRF解码之后的标签序列,
Figure BDA0003744412080000136
表示所有事件的论元标签序列集合;为解决正负样本分布不均衡现象,采用Focal loss损失函数,计算过程如下公式所示:
Figure BDA0003744412080000137
Figure BDA0003744412080000138
其中,s′2表示输入序列,y′a表示输出标签的归一化值,P表示当前序列得分经过softmax后的归一化概率值,p*表示样本真实标签的概率值,α为正负样本比例权重平衡因子,初始值设置为1.0;γ为样本难度权重平衡因子,初始值设置为2.0;
使用动态规划Viterbi算法求得最优标签序列,
Figure BDA0003744412080000139
表示真实标签,ya表示预测标签,其计算如下公式所示:
Figure BDA00037444120800001310
Figure BDA0003744412080000141
将事件检测预测的全部事件类型标签
Figure BDA0003744412080000142
与论元识别预测的所有论元标签
Figure BDA0003744412080000143
进行拼接,y*表示完整的事件,最终完成整体的篇章事件抽取。
本发明在最终预测阶段的多标签整合结构图如图5所示。
结合图2可以看出:本发明方法在中文篇章事件抽取相关数据集上取得了良好的效果。
实施例3
图6为本发明实施例提供的一种基于框架语义映射和类型感知的篇章事件抽取系统的结构示意图,如图6所示,该篇章事件抽取系统包括:编码器模块、事件检测模块、论元识别模块,其中:
编码器模块:对事件检测输入的文本片段和触发词释义信息进行编码,对论元识别输入的文本片段和事件类型标签进行编码,得到输入特征中每个字或词的向量表示;
事件检测模块:对事件检测编码后的向量经过序列建模层完成事件类型的判断,然后采用序列标注的方式得到最优的事件类型序列标签;
论元识别模块:对论元识别编码后的向量经过多类型感知层和多标签解码层进行判断,然后采用序列标注的方式得到最优的论元序列标签;
本发明实施例提供一种基于框架语义映射和类型感知的篇章事件抽取系统,具体执行上述一种框架语义映射和类型感知的篇章事件抽取方法实施例流程,具体请详见上述一种框架语义映射和类型感知的篇章事件抽取方法实施例的内容,在此不再赘述。
实施例4
本实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于框架语义映射和类型感知的篇章事件抽取方法。
实施例5
本实施例提供一种非暂态计算机可读存储介质,所述介质上存储有计算机程序,该计算机程序用于被处理器执行时实现上述的基于框架语义映射和类型感知的篇章事件抽取方法。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上实施例仅用于说明本发明的技术方案而并非对其进行限制,凡未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明技术方案的范围内。

Claims (7)

1.一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:包括以下步骤:
步骤1:通过编码器模块对事件检测模块和论元识别模块的文本分别进行编码,得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示;
步骤2:在事件检测模块中针对篇章事件数据稀疏问题,建立了CFN框架与中文事件的两级映射,进而融合篇章触发词释义信息和CFN相关事件句对预先定义的事件类型进行预测;
步骤3:在论元识别模块中针对多值论元耦合问题,建立了基于类型标签感知的多事件分离器,通过预先定义的事件论元角色对文本中的论元进行预测;
步骤4,将事件检测模块预测的全部事件类型标签与论元识别模块预测的所有论元标签进行拼接,即完成最终的篇章事件抽取。
2.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:所述步骤1的具体操作为:采用预训练语言模型BERT-Fin作为编码器,对事件检测模块和论元识别模块的文本分别进行编码;
其中,对事件检测模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,ci}作为事件检测任务的一次输入,ci表示文本片段中的第i个字符;同时为了增强触发词对事件类型的语义理解,将其汉语释义信息t={t1,t2,...,tj}拼接到文本片段的触发词之后,共同作为文本的输入,tj表示触发词释义中的第j个字符,计算公式如下所示:
s1=[CLS]+s+[SEP]+t+[SEP]
s1′=Bert-FinEncoder(s1)
其中,s1表示事件检测模型的输入,[CLS]表示开始位置,[SEP]表示分隔符;s1′={c1,c2,...,clen},s1′∈Rlen×d,len表示文本片段与释义信息的总长度,d为隐层维度;
对论元识别模块文本的编码具体为:采用滑窗机制对输入文本进行数据预处理,将文本切分为多片段,每个片段s={c1,c2,c3,...,ci}作为论元识别任务的一次输入,ci表示文本片段中的的第i个字符;将事件检测阶段预测的每个事件类型标签e={e1,e2,...,ej}分别与输入文本片段进行拼接共同作为模型输入特征,ej表示当前事件类型的第j个字符,计算公式如下所示:
s2=[CLS]+s+[SEP]+e+[SEP]
s′2=Bert-FinEncoder(s2)
其中,s2表示论元识别模型的输入,s′2={c1,c2,...,clen},s′2∈Rlen×d,len表示文本片段与类型标签的总长度,d为隐层维度。
3.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:所述步骤2包括CFN框架与中文事件映射和序列建模两部分;具体操作为:
(1)CFN框架与中文事件映射:将篇章事件与CFN框架映射后的相关事件句、触发词释义以及滑动窗口的文本片段通过编码器模块得到片段和触发词释义的向量s1′,为了进一步增强篇章中的长实体信息的表示,在预训练模型之后加入bi_lstm进一步增强其语义表示,具体计算过程见如下公式所示:
h=bi_lstm(s1′)
Figure FDA0003744412070000021
h表示隐层向量,包含前向
Figure FDA0003744412070000022
向量和后向
Figure FDA0003744412070000023
向量,经过向量拼接作为下一层的输入I;
(2)序列建模:在解码阶段,将隐层输出作为CRF发射概率,CRF层转移概率矩阵Ai,j表示从第i个标签tagi到第j个标签tagj的转移得分,因此对于已知的输入序列s1′={c1,c2,...,clen}对应的输出标签结果为ye=(y1,y2,...,yn),定义当前序列得分的计算如下公式所示:
Figure FDA0003744412070000031
其中,Ii,yi表示第i个位置softmax输出为yi的概率;完整序列的得分score(s1′,ye)等于每个位置打分之和,每个位置得分由隐层输出向量I和CRF转移矩阵A共同组成;最后利用softmax计算事件类型标签归一化后的概率,如下公式所示:
Figure FDA0003744412070000032
式中ye′表示输出标签的归一化值,采用最大对数似然函数优化目标函数,其对数似然计算如下公式所示:
Figure FDA0003744412070000033
使用动态规划Viterbi算法求得最优标签序列,s1′表示输入序列,ye *表示真实标签,ye表示预测标签,其计算如下公式所示:
ye *=argmax(score(ye|s1′))
经过融合CFN框架语义映射后的事件检测模型,能够很好的解决篇章事件中的数据稀疏问题,提升事件类型识别的准确率。
4.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法,其特征在于:所述步骤3包括多类型感知层和多标签解码层两部分;具体操作为:
(1)多类型感知层:本阶段设置了一个类型感知模块,其核心在于将事件检测阶段感知的每个事件类型标签e={e1,e2,...,ej}分别与输入文本片段s={c1,c2,c3,...,ci}拼接共同作为模型输入特征,依据不同的类型标签将文本中多事件转化为多个单事件,为了进一步增强事件检测与论元识别阶段的交互,将事件检测中的篇章全局信息经过maxpooling得到向量
Figure FDA0003744412070000041
然后和文本片段编码向量s′2进行融合,进一步增强文本信息表示,隐藏层计算如下公式所示:
Figure FDA0003744412070000042
Figure FDA0003744412070000043
其中,In表示篇章中滑窗切分后的第n个片段的隐层编码,s″2表示融合篇章全局信息的隐层表示;
(2)多标签解码层:将经过类型标签分离后的单事件分别经过各自的CRF解码层,由原先对多事件论元角色的分类转化为多个单事件论元角色的分类;CRF解码结构与事件检测阶段一致,CRF解码序列计算公式如下所示:
Figure FDA0003744412070000044
Figure FDA0003744412070000045
其中,
Figure FDA0003744412070000046
表示第i个事件经过CRF解码之后的标签序列,
Figure FDA0003744412070000047
表示所有事件的论元标签序列集合;为解决正负样本分布不均衡现象,采用Focal loss损失函数,计算过程如下公式所示:
Figure FDA0003744412070000048
Figure FDA0003744412070000049
其中,s2′表示输入序列,ya′表示输出标签的归一化值,P表示当前序列得分经过softmax后的归一化概率值,p*表示样本真实标签的概率值,α为正负样本比例权重平衡因子,初始值设置为1.0;γ为样本难度权重平衡因子,初始值设置为2.0;
使用动态规划Viterbi算法求得最优标签序列,
Figure FDA0003744412070000051
表示真实标签,ya表示预测标签,其计算如下公式所示:
Figure FDA0003744412070000052
Figure FDA0003744412070000053
将事件检测预测的全部事件类型标签
Figure FDA0003744412070000054
与论元识别预测的所有论元标签
Figure FDA0003744412070000055
进行拼接,y*表示完整的事件,最终完成整体的篇章事件抽取。
5.一种基于框架语义映射和类型感知的篇章事件抽取系统,其特征在于:包括编码器模块、事件检测模块和论元识别模块;其中:
所述编码器模块是对事件检测输入的文本片段和触发词释义信息进行编码,对论元识别输入的文本片段和事件类型标签进行编码,得到输入特征中每个字或词的向量表示;
所述事件检测模块是对编码器模块事件检测编码后的向量经过序列建模层完成事件类型的判断,然后采用序列标注的方式得到最优的事件类型序列标签;
所述论元识别模块是对编码器模块论元识别编码后的向量经过多类型感知层和多标签解码层进行判断,然后采用序列标注的方式得到最优的论元序列标签。
6.一种电子设备,其特征在于:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的基于框架语义映射和类型感知的篇章事件抽取方法。
7.一种非暂态计算机可读存储介质,其特征在于:所述介质上存储有计算机程序,该计算机程序用于被处理器执行时实现如权利要求1-4任一项所述的基于框架语义映射和类型感知的篇章事件抽取方法。
CN202210827114.8A 2022-07-13 2022-07-13 基于框架语义映射和类型感知的篇章事件抽取方法及系统 Pending CN115168541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210827114.8A CN115168541A (zh) 2022-07-13 2022-07-13 基于框架语义映射和类型感知的篇章事件抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210827114.8A CN115168541A (zh) 2022-07-13 2022-07-13 基于框架语义映射和类型感知的篇章事件抽取方法及系统

Publications (1)

Publication Number Publication Date
CN115168541A true CN115168541A (zh) 2022-10-11

Family

ID=83493434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210827114.8A Pending CN115168541A (zh) 2022-07-13 2022-07-13 基于框架语义映射和类型感知的篇章事件抽取方法及系统

Country Status (1)

Country Link
CN (1) CN115168541A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577112A (zh) * 2022-12-09 2023-01-06 成都索贝数码科技股份有限公司 一种基于类型感知门控注意力机制的事件抽取方法及系统
CN115757826A (zh) * 2022-11-18 2023-03-07 中国科学院空天信息创新研究院 事件图谱构建方法、装置、设备及介质
CN116205220A (zh) * 2023-04-23 2023-06-02 北京邮电大学 一种触发词和论元的抽取方法、系统、设备及介质
CN116562299A (zh) * 2023-02-08 2023-08-08 中国科学院自动化研究所 文本信息的论元抽取方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757826A (zh) * 2022-11-18 2023-03-07 中国科学院空天信息创新研究院 事件图谱构建方法、装置、设备及介质
CN115757826B (zh) * 2022-11-18 2024-01-05 中国科学院空天信息创新研究院 事件图谱构建方法、装置、设备及介质
CN115577112A (zh) * 2022-12-09 2023-01-06 成都索贝数码科技股份有限公司 一种基于类型感知门控注意力机制的事件抽取方法及系统
CN116562299A (zh) * 2023-02-08 2023-08-08 中国科学院自动化研究所 文本信息的论元抽取方法、装置、设备及存储介质
CN116562299B (zh) * 2023-02-08 2023-11-14 中国科学院自动化研究所 文本信息的论元抽取方法、装置、设备及存储介质
CN116205220A (zh) * 2023-04-23 2023-06-02 北京邮电大学 一种触发词和论元的抽取方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN111651974B (zh) 一种隐式篇章关系分析方法和系统
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
CN111259153B (zh) 一种完全注意力机制的属性级情感分析方法
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN115080750B (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN115017266A (zh) 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN112966524B (zh) 基于多粒度孪生网络的中文句子语义匹配方法及系统
CN114996442A (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN114818713A (zh) 一种基于边界检测的中文命名实体识别方法
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination