CN116108127A - 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 - Google Patents

一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 Download PDF

Info

Publication number
CN116108127A
CN116108127A CN202211490817.2A CN202211490817A CN116108127A CN 116108127 A CN116108127 A CN 116108127A CN 202211490817 A CN202211490817 A CN 202211490817A CN 116108127 A CN116108127 A CN 116108127A
Authority
CN
China
Prior art keywords
event
entity
document
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211490817.2A
Other languages
English (en)
Inventor
尚家兴
付晨阳
郑林江
陈逢文
周尚波
黄为希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202211490817.2A priority Critical patent/CN116108127A/zh
Publication of CN116108127A publication Critical patent/CN116108127A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,该方法包括以下步骤:S1:对文本进行预处理,获取目标文本的分词组;S2:使用Bert对目标文本进行编码得到目标文本的词向量;S3:将词向量输入到条件随机场进行命名实体识别;S4:构建文档异构图,初始化句子节点向量和实体提及节点向量,获取不同边对应的邻接矩阵;S5:将不同邻接矩阵作为掩码矩阵,利用多头注意力机制学习异构图表示的节点特征;S6:基于多头注意力机制进行事件检测;S7:根据预先定义的事件角色队列,依次填充角色对应的论元。该方法通过改变Transformer的多头注意力的掩码机制,使得多头注意力以更高效的方式关注异构图的结构信息,提高了事件抽取的精确度。

Description

一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法
技术领域
本发明属于信息处理技术领域,特别是文档级事件抽取方法领域,涉及一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法。
背景技术
随着互联网上的数据源种类不断丰富和数据量爆炸式增长,合理地利用海量数据中蕴含的有价值信息进行决策愈发重要。然而,大量的互联网数据为结构复杂或非结构化数据,其中最具代表性的数据类型之一便是文本数据。对于这些海量文本数据,完全依靠人工对其进行分析整理会消耗大量的人力物力资源,因此,如何利用计算机从非结构化的数据中快速、自动地抽取结构化信息,变得尤为重要并已成为一项重要挑战。近年来,随着自然语言处理、人工智能等技术的快速发展,利用计算机从非结构化文本中抽取结构化信息的可能性不断增加。因此,针对文本数据的信息抽取,已成为自然语言处理中的重要的研究方向,对知识图谱构建、内容推荐等下游应用产生深远的影响。
事件抽取研究的是从非结构化的文本中抽取结构化的事件信息,在信息检索、智能问答等场景有着巨大的应用前景,广泛用于处理量大且增长迅速的金融、法律、医疗和政务等领域文档。相比于一般的信息抽取任务,事件抽取往往面临着更复杂的文本结构、更长的文本长度等挑战,且文档通常包含多个事件,其元素分散并混合在文档中,导致其比一般的结构化信息抽取更加困难,是当前自然语言处理领域的研究热点问题和难点问题。
事件抽取根据抽取方法的不同,可以分为基于模板的方法,基于特征工程的方法和基于神经网络的方法。基于模板的方法主要利用人工编写的规则进行抽取,如语法树或者正则表达式等,在特定的领域内有较好的性能,但是由于针对不同的领域需要构造不用的模板,需要消耗大量的人力。并且从一个领域移植到另一个领域时,需要重新构建新的模板,可移植性较差。根据所使用特征的范围,事件抽取方法还可以分为句子级的事件抽取方法和文档级的事件抽取方法。总体来说,句子级的事件抽取方法只使用句子内部获取的特征,而文档级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而文档级特征则属于面向实际任务挖掘的特殊特征。由于文档级事件抽取的应用价值通常远大于句子级事件抽取,近些年来,文档级事件抽取成为自然语言处理的热点研究问题。许多工作依靠基于特征的分类器来区分候选事件论元和普通文本,并取得了更好的性能。
近几年,随着深度学习技术的快速发展,越来越多研究人员开始利用多种基于神经网络的方法来解决这项任务。文档级事件抽取任务存在两个难题,一是事件论元可能分散在不同的句子中,二是文档可能包含多个事件。针对上述问题,Doc2EDAG模型尝试通过三个Transformer编码器,对实体进行文档级编码,然而其不仅忽略了事件间的交互,而且模型过大,训练较慢。鉴于此,本发明采用异构图的形式表示文档的信息,相比于传统的序列相关的文本特征,异构图能够反映更多的文档之间的空间特征、句子间特征、词语间特征等,从而在实际应用中拥有更好的表现。然而传统的神经网络,如卷积神经网络和递归神经网络,难以处理图数据结构。图神经网络GNN因为局部传播的特点,存在训练时间较长,过平滑问题。因此,相较于使用传统的RNN、GNN等神经网络,可以通过Transformer抽取文档异构图信息,利用Transformer的全局传播的特点,加快训练速度,并且保证事件抽取的精确度。虽然一般的Transformer将异构图视为全连接,能够进行全局交互,但是Transformer仍然是对序列建模,无法区分图的边信息,会导致事件抽取精确度较低。
发明内容
有鉴于此,本发明的目的在于提供一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,该方法通过改变Transformer的多头注意力的掩码机制,使得多头注意力以更高效的方式关注异构图的结构信息,提高了事件抽取的精确度。
为达到上述目的,本发明提供如下技术方案:
一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,该方法包括以下步骤:S1:对文本进行预处理,获取目标文本的分词组;S2:使用Bert对目标文本进行编码得到目标文本的词向量;S3:将词向量输入到条件随机场进行命名实体识别;S4:构建文档异构图,初始化句子节点向量和实体提及节点向量,获取不同边对应的邻接矩阵;S5:将不同邻接矩阵作为掩码矩阵,利用多头注意力机制学习异构图表示的节点特征;S6:基于多头注意力机制进行事件检测;S7:根据预先定义的事件角色队列,依次填充角色对应的论元。
进一步,在本方法中,事件抽取需从文本中抽取事件类型及事件角色对应的论元,非结构化文本是指包含多组句子的文档
Figure BDA0003963215860000021
其中|D|表示文档中的句子数,句子si由一系列词语组成
Figure BDA0003963215860000022
其中wj表示句子si中的第j个词语;事件抽取任务分解为实体提取、事件类型检测、事件角色填充三个子任务,其中实体提取旨在抽取作为论元候选词的实体
Figure BDA0003963215860000023
Figure BDA0003963215860000024
事件类型检测旨在识别文档所包含的事件类型T,而一个文档可能包含多个事件类型;事件角色填充旨在将提取的实体填充到对应事件角色中。
进一步,在本方法中,所述事件抽取需要进行命名实体识别任务,该任务一是为了抽取待填充的论元实体,二是为了进行初始的词向量上下文表示;本方法将实体识别任务视为BIO(Begin,Inside,Other)序列标注任务,将每个字标注为“B-X”、“I-X”或O,“B-X”表示该字所在实体属于角色X并且该字在该实体的开头,“I-X”表示该字所在实体属于角色X并且该字在该实体的中间位置或者结束位置,O表示该字不属于任何实体;
通过对文本句子进行预处理,获取文本句子分词序列
Figure BDA0003963215860000031
使用Bert模型将si编码为向量序列
Figure BDA0003963215860000032
使用条件随机场进行命名实体识别,获取命名实体识别损失为:
Figure BDA0003963215860000033
其中,s表示目标文本句子的分词序列,ys为该分词序列s对应的标记序列,P(ys|s)表示单词序列最有可能的标记序列的概率。为了获取最有可能的标签序列,本发明采用维特比算法以最大概率解码标签序列。
进一步,在本方法中,将文档映射成文档异构图,通过学习异构图的表示,将融合文档信息的多组句子作为事件检测的特征矩阵;采用的文档异构图包含两种类型节点和五种类型的边,其中,节点包含实体提及节点和句子节点,边包括同实体边、实体提及边、句子-实体提及边、句子-句子边、全连接边;其中,同实体边表示同一个实体的实体提及之间的连接,实体提及边表示同一个句子的多个实体提及之间的连接,句子-实体提及边表示句子节点与实体提及之间的连接,句子-句子边表示句子节点按照先后顺序进行相连,句子节点之间的连接;全连接边表示任意节点两两相连,包含节点的自我连接;
初始化句子节点特征向量hs=max(Hi),其中,max(·)表示最大池化,Hi表示单词序列的隐藏层表示;对于一个实体提及的所有隐藏层表示,使用最大池化获取实体提及表示
Figure BDA0003963215860000034
Figure BDA0003963215860000035
其中,max(·)表示最大池化,Nm表示同实体提及的词向量集合;将离散的实体提及类型转化为类型嵌入lj,进而获得最终的实体表示
Figure BDA0003963215860000036
其中,
Figure BDA0003963215860000037
将文档的句子节点表示与所有实体表示重组成节点特征矩阵
Figure BDA0003963215860000038
Transformer原有的掩码机制是一种填充掩码,当输入的句子长不一样时,计算注意力分数会出现偏差。为了保证句子长度的一致性进行了零填充,而填充的0是无意义的,经过Softmax之后也会有对应的概率输出,影响全局概率。为了避免这种影响,Transformer设计了掩码机制将0值部分掩盖,经过Softmax之后,这些值的输出概率为0,不影响全局概率的预测。
受Transformer的掩码机制的启发,本方法中为了让模型关注异构图的边的信息,根据定义的文档异构图节点间边的类型,将文档异构图拆分成5个边不同的子图,获得5个表示不同边的邻接矩阵:
A=<A1,A2,A3,A4,A5>
采用一种特殊的掩码注意机制,将不同邻接矩阵作为掩码矩阵,使得模型关注异构图的边信息;为了抽取多个不同的子图,使用多头注意力机制,让不同的注意力头负责关注不同的子图:
Y=MultiHead(Q,K,V,A)=Concat(head1,…,head5)WO
其中
Figure BDA0003963215860000041
其中,
Figure BDA0003963215860000042
均为可学习参数矩阵;MASK(·)表示掩码操作;如果子图中两节点间不存在边,为了使Softmax后子图中不含边的输出概率为0,将掩码后所得矩阵中对应值赋为负无穷;
Figure BDA0003963215860000043
该步骤让不同的注意力头关注异构图的不同边;
由于一个文本文档可能包含多个事件,并且事件类型可能不同,因此本方法将事件类型检测任务视为多标签分类任务,基于多头注意力机制进行多标签分类:
A=MultiHead(Q,S,S)
R=σ(ATWt)
其中,Q和Wt为可训练参数,σ(·)表示sigmoid激活函数;MultiHead()表示标准的多头注意力机制;采用交叉熵损失作为事件类型检测任务的损失函数:
Figure BDA0003963215860000044
其中,T表示事件类型数量,yt表示事件类型标签,当事件类型为t时,yt=1,否则,yt=0。
进一步,在本方法中,对于每种事件类型,定义一个事件角色序列;然后,按照此序列将每个事件记录转换为论元的顺序连接,其中每个论元节点要么是实体,要么是特殊的空节点;因此,将事件记录填充任务视为从事件类型节点开始的路径拓展任务;依照预先定义的事件角色队列,依次填充角色对应的论元;
将每一个路径拓展子任务视为多个二分类任务,预测每个实体是否能够作为事件角色的填充;为了便于训练,采用交叉熵损失函数作为事件记录填充任务的损失函数:
Figure BDA0003963215860000051
其中,ND表示事件记录路径的节点集,
Figure BDA0003963215860000052
表示论元填充分类任务标签,如果第t个实体能被填充为节点n的下一个论元,则
Figure BDA0003963215860000053
否则
Figure BDA0003963215860000054
将三个子任务损失函数加权求和,得到总体损失函数Lall
Lall=λ1Lner2Ldet3Lrec
其中,λ1、λ2、λ3为超参数。
本发明的有益效果在于:
目前在现有技术中,基于RNN、LSTM等序列模型的文档级事件抽取模型,仅能建模序列相关文本特征,无法抽取异构图特征,忽略了句子间的交互,性能较差;虽然图神经网络GNN可以抽取异构图信息,但因其局部传播的特点,在面对只有少量事件的文档时,极易产生过平滑的现象。所以,针对上述问题,本发明提供了一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,该方法通过改变Transformer的多头注意力的掩码机制,使得多头注意力以更高效的方式关注异构图的结构信息,提高了事件抽取的精确度。本发明利用了掩码多头注意力机制,充分学习异构图结点的特征表示,提升了模型对文档级信息的理解,进而提高了事件抽取的精确度。并且相比于使用了多个Transformer的模型如Doc2EDAG,本发明所采取的方案在训练时收敛更快,训练时间较短。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述方法的流程示意图;
图2为本发明模型框架图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明。
图1为本发明所述方法的流程示意图,如图所示,本发明所述方法包括以下步骤:S1:对文本进行预处理,获取目标文本的分词组;S2:使用Bert对目标文本进行编码得到目标文本的词向量;S3:将词向量输入到条件随机场进行命名实体识别;S4:构建文档异构图,初始化句子节点向量和实体提及节点向量,获取不同边对应的邻接矩阵;S5:将不同邻接矩阵作为掩码矩阵,利用多头注意力机制学习异构图表示的节点特征;S6:基于多头注意力机制进行事件检测;S7:根据预先定义的事件角色队列,依次填充角色对应的论元。下面结合具体实施例对本发明技术方案进行详细说明。
事件抽取研究的是从非结构化的文本中抽取结构化的事件信息。如表1所示,文档中包含三个事件。其中,事件类型均为股权增持,事件角色为“持有者”、“交易量”、“持有股份”等,事件论元为事件角色所对应的实体,如“倪张根”、“1084584股”等。
表1一个事件抽取文档及结果示例
Figure BDA0003963215860000061
事件抽取需从文本中抽取事件类型及事件角色对应的论元。一般来说,非结构化文本是指包含多组句子的文档
Figure BDA0003963215860000062
其中|D|表示文档中的句子数,句子si由一系列词语组成
Figure BDA0003963215860000071
其中wj表示句子si中的第j个词语。一般地,事件抽取任务可分解为实体提取、事件类型检测、事件角色填充三个子任务。其中,实体提取旨在抽取作为论元候选词的实体
Figure BDA0003963215860000072
Figure BDA0003963215860000073
事件类型检测旨在识别文档所包含的事件类型T,而一个文档可能包含多个事件类型。事件角色填充旨在将提取的实体填充到对应事件角色中。
实体识别:
事件抽取首先需要进行命名实体识别任务,该任务一是为了抽取待填充的论元实体,二是为了进行初始的词向量上下文表示。本发明将实体识别任务视为BIO(Begin,Inside,Other)序列标注任务。将每个字标注为“B-X”、“I-X”或O,“B-X”表示该字所在实体属于角色X并且该字在该实体的开头;“I-X”表示该字所在实体属于角色X并且该字在该实体的中间位置或者结束位置;O表示该字不属于任何实体。
本发明通过对文本句子进行预处理,获取文本句子分词序列
Figure BDA0003963215860000074
使用Bert模型将si编码为向量序列
Figure BDA0003963215860000075
使用条件随机场进行命名实体识别,获取命名实体识别损失为:
Figure BDA0003963215860000076
其中,s表示目标文本句子的分词序列,ys为该分词序列s对应的标记序列,P(ys|s)表示单词序列最有可能的标记序列的概率。为了获取最有可能的标签序列,本发明采用维特比算法以最大概率解码标签序列。
事件类型检测:
事件类型检测用来识别事件所属的事件类型。由于文档中往往包含多个事件,并且存在同一个事件跨越多个句子的情况。因此,仅仅利用句子信息进行事件类型检测准确率较低。本发明将文档映射成文档异构图,通过学习异构图的表示,将融合文档信息的多组句子作为事件检测的特征矩阵。本发明所采用的文档异构图包含两种类型节点和五种类型的边。其中,节点包含实体提及节点和句子节点。边包括同实体边、实体提及边、句子-实体提及边、句子-句子边、全连接边。其中,同实体边表示同一个实体的实体提及之间的连接,以表1示例为例,实体提及“倪张根”出现在文档的多个句子中,所构建异构图中包含多个该实体提及节点,并且两两相连为同实体边;实体提及边表示同一个句子的多个实体提及之间的连接,示例中第1句包含实体提及“倪张根”和实体提及“2017年7月17日”,使用实体提及边连接;句子-实体提及边表示句子节点与实体提及之间的连接;句子-句子边表示句子节点按照先后顺序进行相连,句子节点之间的连接;全连接边表示任意节点两两相连,包含节点的自我连接。
本发明初始化句子节点特征向量hs=max(Hi),其中,max(·)表示最大池化,Hi表示单词序列的隐藏层表示。对于一个实体提及的所有隐藏层表示,使用最大池化获取实体提及表示
Figure BDA0003963215860000081
Figure BDA0003963215860000082
其中,max(·)表示最大池化,Nm表示同实体提及的词向量集合。将离散的实体提及类型转化为类型嵌入lj,进而获得最终的实体表示
Figure BDA0003963215860000083
其中,
Figure BDA0003963215860000084
将文档的句子节点表示与所有实体表示重组成节点特征矩阵
Figure BDA0003963215860000085
Transformer原有的掩码机制是一种填充掩码,当输入的句子长不一样时,计算注意力分数会出现偏差。为了保证句子长度的一致性进行了零填充,而填充的0是无意义的,经过Softmax之后也会有对应的概率输出,影响全局概率。为了避免这种影响,Transformer设计了掩码机制将0值部分掩盖,经过Softmax之后,这些值的输出概率为0,不影响全局概率的预测。
受Transformer的掩码机制的启发,本发明为了让模型关注异构图的边的信息,根据定义的文档异构图节点间边的类型,将文档异构图拆分成5个边不同的子图,获得5个表示不同边的邻接矩阵。
A=<A1,A2,A3,A4,A5>
本发明采用了一种特殊的掩码注意机制,将不同邻接矩阵作为掩码矩阵,使得模型关注异构图的边信息。为了抽取多个不同的子图,本发明使用多头注意力机制,让不同的注意力头负责关注不同的子图。
Y=MultiHead(Q,K,V,A)=Concat(head1,…,head5)WO
其中
Figure BDA0003963215860000086
其中,
Figure BDA0003963215860000087
均为可学习参数矩阵。MASK(·)表示掩码操作。如果子图中两节点间不存在边,为了使Softmax后子图中不含边的输出概率为0,将掩码后所得矩阵中对应值赋为负无穷。
Figure BDA0003963215860000088
该步骤让不同的注意力头关注异构图的不同边。
由于一个文本文档可能包含多个事件,并且事件类型可能不同,因此本发明将事件类型检测任务视为多标签分类任务,基于多头注意力机制进行多标签分类。
A=MultiHead(Q,S,S)
R=σ(ATWt)
其中,Q和Wt为可训练参数。σ(·)表示sigmoid激活函数。MultiHead()表示标准的多头注意力机制。采用交叉熵损失作为事件类型检测任务的损失函数。
Figure BDA0003963215860000091
其中,T表示事件类型数量,yt表示事件类型标签,当事件类型为t时,yt=1,否则,yt=0。
事件记录填充:
对于每种事件类型,定义一个事件角色序列。然后,按照此序列将每个事件记录转换为论元的顺序连接,其中每个论元节点要么是实体,要么是特殊的空节点。因此,将事件记录填充任务视为从事件类型节点开始的路径拓展任务。依照预先定义的事件角色队列,依次填充角色对应的论元。
将每一个路径拓展子任务视为多个二分类任务。预测每个实体是否能够作为事件角色的填充。
为了便于训练,采用交叉熵损失函数作为事件记录填充任务的损失函数。
Figure BDA0003963215860000092
其中,ND表示事件记录路径的节点集,
Figure BDA0003963215860000093
表示论元填充分类任务标签,如果第t个实体能被填充为节点n的下一个论元,则
Figure BDA0003963215860000094
否则
Figure BDA0003963215860000095
将三个子任务损失函数加权求和,得到总体损失函数Lall
Lall=λ1Lner2Ldet3Lrec
其中,λ1、λ2、λ3为超参数。
本实施例所使用的数据集为中文金融数据集ChFinAnn。该数据集为目前最大规模的事件抽取数据集,包含32040个金融财务公告文档,具有5种不同的事件类型,包括股权质押、股权增持、股权减持、股权回购和股权冻结,共有35种事件角色,其中29%的文档包含多个事件。
使用两张NvidiaRTX Titan GPU显卡对模型进行训练,采用的Bert模型为ALBERT-ZN,词嵌入向量维度为768,采用Adam优化器,学习率设为5e-4,设置100个Epoch,损失函数Lall中超参数λ1=λ2=λ3=1.0。
表2为模型的训练时间对比表。由于Doc2EDAG使用了3个Transformer,模型较大并且设备的限制,可设置的最大Batch Size为2。在同样显存的限制下,本发明Batch Size可设置最大值为8。本发明的训练耗时相比于Doc2EDAG的耗时,单Epoch耗时仅有27.4%,到达最佳F1总耗时仅有22.4%。
表2模型训练时间对比表
模型 最佳Epoch 单Epoch耗时(分钟) 总耗时(小时)
Doc2EDAG 82 201.4 275.2
本发明 67 55.2 61.6
表3模型宏F1分数与微F1分数评估结果对比
Figure BDA0003963215860000101
表3为模型宏F1分数与微F1分数评估结果对比。其中单记录表示仅有文档中仅包含一条事件记录的数据对比,多记录表示文档中包含两条及以上事件记录的数据对比,全部表示整体的对比。本发明分别采用宏F1分数与微F1分数对模型的精确度进行评估,从实验结果可以看出,相比于Doc2EDAG模型,本发明在单记录和多记录均有不同程度的领先。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,其特征在于:该方法包括以下步骤:
S1:对文本进行预处理,获取目标文本的分词组;
S2:使用Bert对目标文本进行编码得到目标文本的词向量;
S3:将词向量输入到条件随机场进行命名实体识别;
S4:构建文档异构图,初始化句子节点向量和实体提及节点向量,获取不同边对应的邻接矩阵;
S5:将不同邻接矩阵作为掩码矩阵,利用多头注意力机制学习异构图表示的节点特征;
S6:基于多头注意力机制进行事件检测;
S7:根据预先定义的事件角色队列,依次填充角色对应的论元。
2.根据权利要求1所述的一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,其特征在于:在本方法中,事件抽取需从文本中抽取事件类型及事件角色对应的论元,非结构化文本是指包含多组句子的文档
Figure FDA0003963215850000011
其中|D|表示文档中的句子数,句子si由一系列词语组成
Figure FDA0003963215850000012
其中wj表示句子si中的第j个词语;事件抽取任务分解为实体提取、事件类型检测、事件角色填充三个子任务,其中实体提取旨在抽取作为论元候选词的实体
Figure FDA0003963215850000013
事件类型检测旨在识别文档所包含的事件类型T,而一个文档可能包含多个事件类型;事件角色填充旨在将提取的实体填充到对应事件角色中。
3.根据权利要求2所述的一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,其特征在于:在本方法中,所述事件抽取需要进行命名实体识别任务,该任务一是为了抽取待填充的论元实体,二是为了进行初始的词向量上下文表示;本方法将实体识别任务视为BIO(Begin,Inside,Other)序列标注任务,将每个字标注为“B-X”、“I-X”或O,“B-X”表示该字所在实体属于角色X并且该字在该实体的开头,“I-X”表示该字所在实体属于角色X并且该字在该实体的中间位置或者结束位置,O表示该字不属于任何实体;
通过对文本句子进行预处理,获取文本句子分词序列
Figure FDA0003963215850000014
使用Bert模型将si编码为向量序列
Figure FDA0003963215850000015
使用条件随机场进行命名实体识别,获取命名实体识别损失为:
Figure FDA0003963215850000016
其中,s表示目标文本句子的分词序列,ys为该分词序列s对应的标记序列,P(ys|s)表示单词序列最有可能的标记序列的概率。
4.根据权利要求3所述的一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,其特征在于:在本方法中,将文档映射成文档异构图,通过学习异构图的表示,将融合文档信息的多组句子作为事件检测的特征矩阵;采用的文档异构图包含两种类型节点和五种类型的边,其中,节点包含实体提及节点和句子节点,边包括同实体边、实体提及边、句子-实体提及边、句子-句子边、全连接边;其中,同实体边表示同一个实体的实体提及之间的连接,实体提及边表示同一个句子的多个实体提及之间的连接,句子-实体提及边表示句子节点与实体提及之间的连接,句子-句子边表示句子节点按照先后顺序进行相连,句子节点之间的连接;全连接边表示任意节点两两相连,包含节点的自我连接;
初始化句子节点特征向量hs=max(Hi),其中,max(·)表示最大池化,Hi表示单词序列的隐藏层表示;对于一个实体提及的所有隐藏层表示,使用最大池化获取实体提及表示
Figure FDA0003963215850000021
Figure FDA0003963215850000022
其中,max(·)表示最大池化,Nm表示同实体提及的词向量集合;将离散的实体提及类型转化为类型嵌入lj,进而获得最终的实体表示
Figure FDA0003963215850000023
其中,
Figure FDA0003963215850000024
将文档的句子节点表示与所有实体表示重组成节点特征矩阵
Figure FDA0003963215850000025
本方法中,根据定义的文档异构图节点间边的类型,将文档异构图拆分成5个边不同的子图,获得5个表示不同边的邻接矩阵:
A=<A1,A2,A3,A4,A5>
采用一种特殊的掩码注意机制,将不同邻接矩阵作为掩码矩阵,使得模型关注异构图的边信息;为了抽取多个不同的子图,使用多头注意力机制,让不同的注意力头负责关注不同的子图:
Y=MultiHead(Q,K,V,A)=Concat(head1,…,head5)WO
其中
Figure FDA0003963215850000026
其中,
Figure FDA0003963215850000027
Figure FDA0003963215850000028
均为可学习参数矩阵;MASK(·)表示掩码操作;如果子图中两节点间不存在边,为了使Softmax后子图中不含边的输出概率为0,将掩码后所得矩阵中对应值赋为负无穷;
Figure FDA0003963215850000029
该步骤让不同的注意力头关注异构图的不同边;
由于一个文本文档可能包含多个事件,并且事件类型可能不同,因此本方法将事件类型检测任务视为多标签分类任务,基于多头注意力机制进行多标签分类:
A=MultiHead(Q,S,S)
R=σ(ATWt)
其中,Q和Wt为可训练参数,σ(·)表示sigmoid激活函数;MultiHead()表示标准的多头注意力机制;采用交叉熵损失作为事件类型检测任务的损失函数:
Figure FDA0003963215850000031
其中,T表示事件类型数量,yt表示事件类型标签,当事件类型为t时,yt=1,否则,yt=0。
5.根据权利要求4所述的一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法,其特征在于:在本方法中,对于每种事件类型,定义一个事件角色序列;然后,按照此序列将每个事件记录转换为论元的顺序连接,其中每个论元节点要么是实体,要么是特殊的空节点;因此,将事件记录填充任务视为从事件类型节点开始的路径拓展任务;依照预先定义的事件角色队列,依次填充角色对应的论元;
将每一个路径拓展子任务视为多个二分类任务,预测每个实体是否能够作为事件角色的填充;为了便于训练,采用交叉熵损失函数作为事件记录填充任务的损失函数:
Figure FDA0003963215850000032
其中,ND表示事件记录路径的节点集,
Figure FDA0003963215850000033
表示论元填充分类任务标签,如果第t个实体能被填充为节点n的下一个论元,则
Figure FDA0003963215850000034
否则
Figure FDA0003963215850000035
将三个子任务损失函数加权求和,得到总体损失函数Lall
Lall=λ1Lner2Ldet3Lrec
其中,λ1、λ2、λ3为超参数。
CN202211490817.2A 2022-11-25 2022-11-25 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法 Pending CN116108127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211490817.2A CN116108127A (zh) 2022-11-25 2022-11-25 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211490817.2A CN116108127A (zh) 2022-11-25 2022-11-25 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法

Publications (1)

Publication Number Publication Date
CN116108127A true CN116108127A (zh) 2023-05-12

Family

ID=86264623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211490817.2A Pending CN116108127A (zh) 2022-11-25 2022-11-25 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法

Country Status (1)

Country Link
CN (1) CN116108127A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648473A (zh) * 2024-01-29 2024-03-05 河北省中医院 档案分类方法及平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648473A (zh) * 2024-01-29 2024-03-05 河北省中医院 档案分类方法及平台
CN117648473B (zh) * 2024-01-29 2024-04-16 河北省中医院 档案分类方法及平台

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN111950269A (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN109389166A (zh) 基于局部结构保存的深度迁移嵌入聚类机器学习方法
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN110888927A (zh) 简历信息抽取方法及系统
Wang et al. Graph neural networks: Self-supervised learning
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113128622B (zh) 基于语义-标签多粒度注意力的多标签分类方法及系统
CN112417289A (zh) 一种基于深度聚类的资讯信息智能推荐方法
Chen et al. Binarized neural architecture search for efficient object recognition
CN113535953A (zh) 一种基于元学习的少样本分类方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
Sun et al. Network structure and transfer behaviors embedding via deep prediction model
Yang et al. Generative counterfactuals for neural networks via attribute-informed perturbation
CN116595406A (zh) 基于角色一致性的事件论元角色分类方法及系统
CN116108127A (zh) 一种基于异构图交互和掩码多头注意力机制的文档级事件抽取方法
Marconi et al. Hyperbolic manifold regression
CN111126443A (zh) 基于随机游走的网络表示学习方法
Li et al. Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning
Denli et al. Geoscience language processing for exploration
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
CN114648005A (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置
CN114519344A (zh) 一种基于论元子图提示生成与引导的篇章级多事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination