CN116757159B - 一种端到端的多任务联合篇章级事件抽取方法及系统 - Google Patents
一种端到端的多任务联合篇章级事件抽取方法及系统 Download PDFInfo
- Publication number
- CN116757159B CN116757159B CN202311021717.XA CN202311021717A CN116757159B CN 116757159 B CN116757159 B CN 116757159B CN 202311021717 A CN202311021717 A CN 202311021717A CN 116757159 B CN116757159 B CN 116757159B
- Authority
- CN
- China
- Prior art keywords
- event
- argument
- entity
- identification
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 239000012634 fragment Substances 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000009466 transformation Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000000844 transformation Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及端到端的多任务联合篇章级事件抽取方法及系统,属自然语言处理领域;方法包括:筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;通过回归的方式对每种类型的事件数量做出预测;对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;利用片段打分方式识别文档中的实体作为候选论元;将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;通过多任务联合学习方式,实现端到端的篇章级事件抽取;根据上述功能模块化制成系统,对事件进行抽取,本发明预测了事件论元及论元角色的关系,缓解论元重叠问题。
Description
技术领域
本发明涉及一种端到端的多任务联合篇章级事件抽取方法及系统,属于自然语言处理技术领域。
背景技术
篇章事件抽取(Document Event Extraction,DEE)是信息抽取的一个重要研究方向,旨在从非结构文本中抽取结构化事件类型和事件要素。
DEE包含事件检测和论元识别两个子任务,在事件检测阶段,之前的工作将此任务建模为触发词分类任务,预测给定句子中的每个单词是否是事件触发器以及所触发的事件类型。基于触发词的事件检测依赖于对触发词的识别,然而,触发词的识别并不是事件检测的目的,另外,相较于句子级的事件检测来说,文档的篇幅大,对于触发词的标注是耗时耗力的,于是出现了无触发词的事件检测。
在论元识别阶段,一个篇章存在多种事件类型的多个事件,可能是同一种事件类型下有多个事件,或者是不同的事件类型还存在多个事件;另外,还会存在同一个论元会充当多个事件的论元角色,这就是论元重叠问题。那么,对于论元属于哪个事件什么事件类型的哪种论元角色来说,论元的分配就变得尤其困难。已有的大多数篇章级事件抽取方法使用深度学习和联合学习进行特征交互,通过图构建的方式捕获事件类型和论元之间的关系,但是针对篇章事件中的论元重叠问题还是不能很好的解决。
另外,事件检测和论元识别并不是两个孤立的过程,对于在事件检测阶段获取到的具有上下文语义信息的伪触发词和在实体识别阶段得到的候选论元来说,如果它们属于同一事件的事件要素来说,它们的关系是紧密的,如果它们不属于同一事件要素来说,它们的关系是相对疏远的。基于此,我们将候选论元特征与伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系,缓解论元重叠问题。
发明内容
针对上述问题,本发明提供了一种端到端的多任务联合篇章级事件抽取方法及系统,本发明在没有标注触发词的情况下,通过对文档的编码获取具有上下文语义信息的词,从而完成事件类型的检测、事件数量的预测和伪触发词的识别;将候选论元特征与伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系,缓解论元重叠问题。
本发明的技术方案是:第一方面,本发明提供一种端到端的多任务联合篇章级事件抽取方法,所述方法的具体步骤如下:
步骤1:使用预训练语言模型对文本进行编码,得到每个句子的特征表示,然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测,实体识别和事件论元识别三个模块的输入;
步骤2:在事件检测模块中,将事件检测看作多分类任务,使用从预训练语言模型获取具有上下文语义信息的词,并筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;同时,通过回归的方式对每种类型的事件数量做出预测;另外,对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;
步骤3:在实体识别模块中,利用片段打分方式识别文档中的实体作为候选论元;
步骤4:在事件论元识别模块中,将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;
步骤5:将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练,用训练好的模型实现端到端的篇章级事件抽取。
作为本发明的进一步方案,所述步骤1中包含以下步骤:
步骤1.1:对输入的文档d进行分句预处理操作,得到n个句子的文档:
;
使用预训练语言模型PLM分词器对句子进行分词处理,每个句子表示为:
;
其中,n代表文档的句子数,l代表句子切分项token的数量,代表token的特征维
度;
步骤1.2:将文档的n个句子经过预训练语言模型PLM编码后,得到每个句子的向量序列:
;
于是文档表示为:,其中,;
然后,针对事件检测模块、实体识别模块、事件论元识别模块,对句子向量进行三
组线性变换,分别得到事件检测特征、实体识别特征、事件论元识别特征:
事件检测特征:;
实体识别特征:;
论元识别特征:;
其中,代表进行线性变换后的新的token特征维度。
作为本发明的进一步方案,所述步骤2中包含以下步骤:
步骤2.1:在事件检测模块中,将得到的事件检测特征再次进行两个线性变换
得到两组特征:和:
;
;
其中,代表进行两个线性变换后的新的token特征维度;用作事件类型和
事件数量的预测,用作伪触发词的识别;token代表句子切分项;
步骤2.2:将中所有句子的隐状态拼成一个长序列,,其
中,N代表文档中的token数;
步骤2.3:将通过层归一化和线性层后得到文档中所有token对于每种事件类
型的分数:
;
其中,N代表文档中的token数,m代表事件类型数;
步骤2.4:对于事件类型的预测,将事件类型的预测看作多分类任务,对于每一种事件类型取文档中所有token对于每种事件类型的分数最大的值作为对应事件类型的得分:
;
对文档的事件类型标签]和所得事件类型得分,采用交叉熵损失计算事件类型损失:
;
均分别表示事件类型标签中的其中一个事件类型;
步骤2.5:对于事件数量的预测,将其看作回归任务,对每一种事件类型,将文档中所有token对于每种事件类型的分数经过sigmoid激活函数后取和作为每类事件的事件数量:
;
对文档的每种事件类型对应的事件数量标签和
所得每类事件的事件数量,采用均方误差损失计算事件数量损失:
;均分别表示事件
类型分别对应的事件数量;
步骤2.6:对于伪触发词的识别,认为对于每种事件类型来说贡献最大的token就是触发词;所以,首先针对文档中不定的k个事件和m种事件类型,从步骤2.3所得的文档中所有token对于每种事件类型的分数中,选出k组得分最高的token及其索引:
;
然后通过索引,从找到伪触发词的特征,其中;
步骤2.7:为了后续计算,将伪触发词的特征进行维度变换得到最终的伪触发
词的特征:
;
其中,代表事件数量。
作为本发明的进一步方案,所述步骤3中包含以下步骤:
步骤3.1:在实体识别模块中,首先对步骤1所得实体识别特征进行线性变换得到和:
;
;
Q作为实体片段头部特征,K作为实体片段尾部特征,表示Q中的元素,表示K中的元素,n代表文档的句子数,l代表句子切分项token的数量,代表进
行线性变换后的新的token特征维度;
步骤3.2:接着,采用内积的方式,为文档中每一种可能的实体片段进行打分:;
得到文档中所有片段的得分,表示文档中所有片段;然后选择片段
得分大于0的片段作为候选论元,表示为;i代表实体片段头部,j代表实体片段尾部;
训练过程中,命名实体识别采用多标签分类交叉熵损失:。
作为本发明的进一步方案,所述步骤4中包含以下步骤:
步骤4.1:在事件论元识别模块中,为了简化计算,只使用实体头部特征进行计算,
将步骤1得到的事件论元识别特征进行线性变换得到所有实体头部特征:;
n代表文档的句子数,l代表句子切分项token的数量,代表进行两个线性变换后
的新的token特征维度;
步骤4.2:通过实体标签索引,在实体头部特征中找到候选论元的实体头部
特征,其中,代表候选论元的个数;
步骤4.4:为了识别候选论元的角色类型,对候选论元的实体头部特征进行
线性变换和维度变换得到:;
其中,代表论元角色的类型数;
步骤4.3:使用爱因斯坦求和约定,对步骤2所得的最终的伪触发词特征与候选
论元实体头部特征进行计算:;
其中,;
目的是综合候选论元特征和事件伪触发词特征,对所有候选论元进行多标
签分类,预测候选论元与论元角色的关系;
对候选论元的识别使用多标签分类交叉熵损失:;
其中,是单个候选论元,i代表实体片段头部,j代表实体片段尾部,m代表事
件类型数。
作为本发明的进一步方案,所述步骤5中包含以下步骤:
将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式
进行联合优化训练,用训练好的模型实现端到端的篇章级事件抽取,其中事件检测模块包
括事件类型的预测和事件数量的预测,联合学习的损失为:;
为事件类型损失,为事件数量损失,为命名实体识别采用
的多标签分类交叉熵损失,为对候选论元的识别使用的多标签分类交叉熵损失。
第二方面,本发明还提供一种端到端的多任务联合篇章级事件抽取系统,该系统包括用于执行上述第一方面的方法的模块。
本发明的有益效果是:
(1)本发明利用采用多任务联合的方式实现端到端的篇章级事件抽取;
(2)本发明在事件检测模块中,在没有标注触发词的情况下,通过对文档的编码获取具有上下文语义信息的词,从而完成事件类型的检测、事件数量的预测和伪触发词的识别;
(3)在事件论元识别模块,将候选论元特征与伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;其中,计算时仅使用实体头部特征,以简化计算过程;
(4)将候选论元特征与伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系,缓解论元重叠问题。
附图说明
图1为本发明方法整体框架图;
图2为本发明使用的数据样例;
图3为本发明的事件检测模块结构图;
图4为本发明的实体识别模块结构图;
图5为本发明的事件论元识别模块图。
具体实施方式
下面结合附图,对本发明的实施例进行描述。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、智能手机、平板电脑、可穿戴设备、个人数字助理(英文:Personal DigitalAssistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行文本处理的终端,本发明对此不作任何限制。
图1为本发明实例提供的一种端到端的多任务联合篇章级事件抽取方法整体框架图,第一方面,本实施例提供的一种端到端的多任务联合篇章级事件抽取方法包括以下步骤:
步骤1:使用预训练语言模型对文本进行编码,得到每个句子的特征表示,然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测,实体识别和事件论元识别三个模块的输入;
所述步骤1中包含以下步骤:
步骤1.1:对输入的文档d进行分句预处理操作,得到n个句子的文档:
;
使用预训练语言模型PLM分词器对句子进行分词处理,每个句子表示为:
;
其中,n代表文档的句子数,l代表句子切分项token的数量,代表token的特征维
度;
步骤1.2:将文档的n个句子经过预训练语言模型PLM编码后,得到每个句子的向量序列:
;
于是文档表示为:,其中,;
然后,针对事件检测模块、实体识别模块、事件论元识别模块,对句子向量进行三
组线性变换,分别得到事件检测特征、实体识别特征、事件论元识别特征:
事件检测特征:;
实体识别特征:;
论元识别特征:;
其中,代表进行线性变换后的新的token特征维度。
步骤2:在事件检测模块中,将事件检测看作多分类任务,使用从预训练语言模型获取具有上下文语义信息的词,并筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;同时,通过回归的方式对每种类型的事件数量做出预测;另外,对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;事件检测模块结构图如图3所示。
所述步骤2中包含以下步骤:
步骤2.1:在事件检测模块中,将得到的事件检测特征再次进行两个线性变换
得到两组特征:和:
;
;
其中,代表进行两个线性变换后的新的token特征维度;用作事件类型和
事件数量的预测,用作伪触发词的识别;token代表句子切分项;
步骤2.2:将中所有句子的隐状态拼成一个长序列,,其
中,N代表文档中的token数;
步骤2.3:将通过层归一化和线性层后得到文档中所有token对于每种事件类
型的分数:
;
其中,N代表文档中的token数,m代表事件类型数;
步骤2.4:对于事件类型的预测,将事件类型的预测看作多分类任务,对于每一种事件类型取文档中所有token对于每种事件类型的分数最大的值作为对应事件类型的得分:
;
对文档的事件类型标签]和所得事件类型得分,采用交叉熵损失计算事件类型损失:
;
均分别表示事件类型标签中的其中一个事件类型;
步骤2.5:对于事件数量的预测,将其看作回归任务,对每一种事件类型,将文档中所有token对于每种事件类型的分数经过sigmoid激活函数后取和作为每类事件的事件数量:
;
对文档的每种事件类型对应的事件数量标签和
所得每类事件的事件数量,采用均方误差损失计算事件数量损失:
;均分别表示事件
类型分别对应的事件数量;
步骤2.6:对于伪触发词的识别,认为对于每种事件类型来说贡献最大的token就是触发词;所以,首先针对文档中不定的k个事件和m种事件类型,从步骤2.3所得的文档中所有token对于每种事件类型的分数中,选出k组得分最高的token及其索引:
;
然后通过索引,从找到伪触发词的特征,其中;
步骤2.7:为了后续计算,将伪触发词的特征进行维度变换得到最终的伪触发
词的特征:
;
其中,代表事件数量。
步骤3:在实体识别模块中,利用片段打分方式识别文档中的实体作为候选论元;实体识别结构图如图4所示。
所述步骤3中包含以下步骤:
步骤3.1:在实体识别模块中,首先对步骤1所得实体识别特征进行线性变换得到和:
;
;
Q作为实体片段头部特征,K作为实体片段尾部特征,表示Q中的元素,表示K中的元素,n代表文档的句子数,l代表句子切分项token的数量,代表进
行线性变换后的新的token特征维度;
步骤3.2:接着,采用内积的方式,为文档中每一种可能的实体片段进行打分:;
得到文档中所有片段的得分,表示文档中所有片段;然后选择片段
得分大于0的片段作为候选论元,表示为;i代表实体片段头部,j代表实体片段尾部;
训练过程中,命名实体识别采用多标签分类交叉熵损失:。
步骤4:在事件论元识别模块中,将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;事件论元识别模块结构图如图5所示。
所述步骤4中包含以下步骤:
步骤4.1:在事件论元识别模块中,为了简化计算,只使用实体头部特征进行计算,
将步骤1得到的事件论元识别特征进行线性变换得到所有实体头部特征:;
n代表文档的句子数,l代表句子切分项token的数量,代表进行两个线性变换后
的新的token特征维度;
步骤4.2:通过实体标签索引,在实体头部特征中找到候选论元的实体头部
特征,其中,代表候选论元的个数;
步骤4.4:为了识别候选论元的角色类型,对候选论元的实体头部特征进行
线性变换和维度变换得到:;
其中,代表论元角色的类型数;
步骤4.3:使用爱因斯坦求和约定,对步骤2所得的最终的伪触发词特征与候选
论元实体头部特征进行计算:;
其中,;
目的是综合候选论元特征和事件伪触发词特征,对所有候选论元进行多标
签分类,预测候选论元与论元角色的关系;
对候选论元的识别使用多标签分类交叉熵损失:;
其中,是单个候选论元,i代表实体片段头部,j代表实体片段尾部,m代表事
件类型数。
步骤5:将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学
习方式进行联合优化训练,用训练好的模型实现端到端的篇章级事件抽取,其中事件检测
模块包括事件类型的预测和事件数量的预测,联合学习的损失为:;
为事件类型损失,为事件数量损失,为命名实体识别采用
的多标签分类交叉熵损失,为对候选论元的识别使用的多标签分类交叉熵损失。
下面为本发明系统的实施例,本发明系统实施例用于执行本发明方法第一实施例实现的方法,为了便于说明,仅示出了本发明实施例相关的部分,具体未揭示的部分,请参照本发明第一实施例。
本发明实施例提供一种端到端的多任务联合篇章级事件抽取系统,该系统包括:
编码模块:用于使用预训练语言模型对文本进行编码,得到每个句子的特征表示,然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测,实体识别和事件论元识别三个模块的输入;
事件检测模块:用于将事件检测看作多分类任务,使用从预训练语言模型获取具有上下文语义信息的词,并筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;同时,通过回归的方式对每种类型的事件数量做出预测;另外,对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;
实体识别模块:用于利用片段打分方式识别文档中的实体作为候选论元;
事件论元识别模块:用于将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;
优化抽取模块:用于将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练,用训练好的模型实现端到端的篇章级事件抽取。
图2为金融领域篇章级事件抽取数据集(ChFinAnn)的示例,数据集共包含五种事件类型:股票冻结(EF)、股票回购(ER)、股票减持(EU)、股票增持(EO)和股票质押(EP),共32040篇文档。将数据集划分为训练集、验证集和测试集,比例为8:1:1。篇章级事件抽取的输入:包含事件信息的一个完整的连续篇章;输出:预定义的事件类型和论元角色的事件论元。
本发明在所介绍的金融领域篇章级事件抽取数据集(ChFinAnn)上进行了实验,对五种事件类型:股票冻结(EF)、股票回购(ER)、股票减持(EU)、股票增持(EO)和股票质押(EP),采用精确率(P)、召回率(R)和F1-Score(F1)值衡量实验结果,并且与现有DCFEE-S、DCFEE-M、Greedy-Dec、Doc2EDAG、ReDEE文档级事件抽取模型进行了对比。最终的结果如表1所示:
表1为实验结果
从表1中可以看出,与其他现有方法对比,本发明方法在不同事件类型的抽取上均达到了好的抽取效果,R值,P值,F1值均得到提升。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (3)
1.一种端到端的多任务联合篇章级事件抽取方法,其特征在于:所述方法的具体步骤如下:
步骤1:使用预训练语言模型对文本进行编码,得到每个句子的特征表示,然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测、实体识别和事件论元识别三个模块的输入;
步骤2:在事件检测模块中,将事件检测看作多分类任务,使用从预训练语言模型获取具有上下文语义信息的词,并筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;同时,通过回归的方式对每种类型的事件数量做出预测;另外,对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;
步骤3:在实体识别模块中,利用片段打分方式识别文档中的实体作为候选论元;
步骤4:在事件论元识别模块中,将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;
步骤5:将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练,用训练好的模型实现端到端的篇章级事件抽取;
所述步骤1中包含以下步骤:
步骤1.1:对输入的文档d进行分句预处理操作,得到n个句子的文档:
;
使用预训练语言模型PLM分词器对句子进行分词处理,每个句子表示为:
;
其中,n代表文档的句子数,l代表句子切分项token的数量,代表token的特征维度;
步骤1.2:将文档的n个句子经过预训练语言模型PLM编码后,得到每个句子的向量序列:
;
于是文档表示为:,其中,/>;
然后,针对事件检测模块、实体识别模块、事件论元识别模块,对句子向量进行三组线性变换,分别得到事件检测特征、实体识别特征/>、事件论元识别特征/>:
事件检测特征:;
实体识别特征:;
论元识别特征:;
其中,代表进行线性变换后的新的token特征维度;
所述步骤2中包含以下步骤:
步骤2.1:在事件检测模块中,将得到的事件检测特征再次进行两个线性变换得到两组特征:/>和/>:
;
;
其中,代表进行两个线性变换后的新的token特征维度;/>用作事件类型和事件数量的预测,/>用作伪触发词的识别;token代表句子切分项;
步骤2.2:将中所有句子的隐状态拼成一个长序列/>,/>,其中,N代表文档中的token数;
步骤2.3:将通过层归一化和线性层后得到文档中所有token对于每种事件类型的分数:
;
其中,N代表文档中的token数,m代表事件类型数;
步骤2.4:对于事件类型的预测,将事件类型的预测看作多分类任务,对于每一种事件类型取文档中所有token对于每种事件类型的分数最大的值作为对应事件类型的得分:
;
对文档的事件类型标签]和所得事件类型得分/>,采用交叉熵损失计算事件类型损失/>:
;
均分别表示事件类型标签中的其中一个事件类型;
步骤2.5:对于事件数量的预测,将其看作回归任务,对每一种事件类型,将文档中所有token对于每种事件类型的分数经过sigmoid激活函数后取和作为每类事件的事件数量:
;
对文档的每种事件类型对应的事件数量标签和所得每类事件的事件数量/>,采用均方误差损失计算事件数量损失/>:
;/>均分别表示事件类型分别对应的事件数量;
步骤2.6:对于伪触发词的识别,认为对于每种事件类型来说贡献最大的token就是触发词;所以,首先针对文档中不定的k个事件和m种事件类型,从步骤2.3所得的文档中所有token对于每种事件类型的分数中,选出k组得分最高的token及其索引:
;
然后通过索引,从找到伪触发词的特征/>,其中/>;
步骤2.7:为了后续计算,将伪触发词的特征进行维度变换得到最终的伪触发词的特征/>:
;
其中,代表事件数量;
所述步骤3中包含以下步骤:
步骤3.1:在实体识别模块中,首先对步骤1所得实体识别特征进行线性变换得到/>和/>:
;
;
Q作为实体片段头部特征,K作为实体片段尾部特征,表示Q中的元素,表示K中的元素,n代表文档的句子数,l代表句子切分项token的数量,/>代表进行线性变换后的新的token特征维度;
步骤3.2:接着,采用内积的方式,为文档中每一种可能的实体片段进行打分:/>;
得到文档中所有片段的得分,其中/>表示文档中所有片段;然后选择片段得分大于0的片段作为候选论元,表示为/>;i代表实体片段头部,j代表实体片段尾部;
训练过程中,命名实体识别采用多标签分类交叉熵损失:;
所述步骤4中包含以下步骤:
步骤4.1:在事件论元识别模块中,为了简化计算,只使用实体头部特征进行计算,将步骤1得到的事件论元识别特征进行线性变换得到所有实体头部特征/>:;
n代表文档的句子数,l代表句子切分项token的数量,代表进行两个线性变换后的新的token特征维度;
步骤4.2:通过实体标签索引,在实体头部特征中找到候选论元的实体头部特征,其中,/>代表候选论元的个数;
步骤4.3:为了识别候选论元的角色类型,对候选论元的实体头部特征进行线性变换和维度变换得到/>:/>;
其中,代表论元角色的类型数;
步骤4.4:使用爱因斯坦求和约定,对步骤2所得的最终的伪触发词特征与候选论元实体头部特征/>进行计算:/>;
其中,;
目的是综合候选论元特征和事件伪触发词特征,对所有候选论元进行多标签分类,预测候选论元与论元角色的关系;
对候选论元的识别使用多标签分类交叉熵损失:;
其中,是单个候选论元,i代表实体片段头部,j代表实体片段尾部,m代表事件类型数。
2.根据权利要求1所述的端到端的多任务联合篇章级事件抽取方法,其特征在于:所述步骤5中包含以下步骤:
将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练,用训练好的模型实现端到端的篇章级事件抽取,其中事件检测模块包括事件类型的预测和事件数量的预测,联合学习的损失为:;
为事件类型损失,/>为事件数量损失,/>为命名实体识别采用的多标签分类交叉熵损失,/>为对候选论元的识别使用的多标签分类交叉熵损失。
3.一种端到端的多任务联合篇章级事件抽取系统,其特征在于,包括用于执行如权利要求1-2任一权利要求所述的方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311021717.XA CN116757159B (zh) | 2023-08-15 | 2023-08-15 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311021717.XA CN116757159B (zh) | 2023-08-15 | 2023-08-15 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116757159A CN116757159A (zh) | 2023-09-15 |
CN116757159B true CN116757159B (zh) | 2023-10-13 |
Family
ID=87959389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311021717.XA Active CN116757159B (zh) | 2023-08-15 | 2023-08-15 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116757159B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428504A (zh) * | 2020-03-17 | 2020-07-17 | 北京明略软件系统有限公司 | 一种事件抽取方法和装置 |
CN111581346A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种事件抽取方法和装置 |
CN111581345A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种文档级别的事件抽取方法和装置 |
CN113312916A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 基于触发词语态学习的金融文本事件抽取方法及装置 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN114036955A (zh) * | 2021-10-30 | 2022-02-11 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 中心词跨句事件论元检测方法 |
CN114297394A (zh) * | 2022-03-11 | 2022-04-08 | 中国科学院自动化研究所 | 对文本中的事件论元进行抽取的方法和电子设备 |
CN114610866A (zh) * | 2022-05-12 | 2022-06-10 | 湖南警察学院 | 基于全局事件类型的序列到序列联合事件抽取方法和系统 |
CN114742016A (zh) * | 2022-04-01 | 2022-07-12 | 山西大学 | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 |
CN114880434A (zh) * | 2022-05-24 | 2022-08-09 | 昆明理工大学 | 基于知识图信息引导的篇章级事件角色识别方法 |
CN114880431A (zh) * | 2022-05-10 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于prompt的事件论元抽取方法及系统 |
CN115080709A (zh) * | 2021-03-15 | 2022-09-20 | 阿里巴巴新加坡控股有限公司 | 文本识别方法、装置、非易失性存储介质及计算机设备 |
CN115481217A (zh) * | 2022-01-27 | 2022-12-16 | 昆明理工大学 | 一种基于句子成分感知注意力机制的端到端属性级情感分析方法 |
CN116167368A (zh) * | 2023-04-23 | 2023-05-26 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
CN116383387A (zh) * | 2023-04-06 | 2023-07-04 | 西安电子科技大学 | 一种基于事理逻辑的联合事件抽取方法 |
CN116562302A (zh) * | 2023-06-29 | 2023-08-08 | 昆明理工大学 | 融合汉越关联关系的多语言事件观点对象识别方法 |
-
2023
- 2023-08-15 CN CN202311021717.XA patent/CN116757159B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428504A (zh) * | 2020-03-17 | 2020-07-17 | 北京明略软件系统有限公司 | 一种事件抽取方法和装置 |
CN111581346A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种事件抽取方法和装置 |
CN111581345A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种文档级别的事件抽取方法和装置 |
CN115080709A (zh) * | 2021-03-15 | 2022-09-20 | 阿里巴巴新加坡控股有限公司 | 文本识别方法、装置、非易失性存储介质及计算机设备 |
CN113312916A (zh) * | 2021-05-28 | 2021-08-27 | 北京航空航天大学 | 基于触发词语态学习的金融文本事件抽取方法及装置 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN114036955A (zh) * | 2021-10-30 | 2022-02-11 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 中心词跨句事件论元检测方法 |
CN115481217A (zh) * | 2022-01-27 | 2022-12-16 | 昆明理工大学 | 一种基于句子成分感知注意力机制的端到端属性级情感分析方法 |
CN114297394A (zh) * | 2022-03-11 | 2022-04-08 | 中国科学院自动化研究所 | 对文本中的事件论元进行抽取的方法和电子设备 |
CN114742016A (zh) * | 2022-04-01 | 2022-07-12 | 山西大学 | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 |
CN114880431A (zh) * | 2022-05-10 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于prompt的事件论元抽取方法及系统 |
CN114610866A (zh) * | 2022-05-12 | 2022-06-10 | 湖南警察学院 | 基于全局事件类型的序列到序列联合事件抽取方法和系统 |
CN114880434A (zh) * | 2022-05-24 | 2022-08-09 | 昆明理工大学 | 基于知识图信息引导的篇章级事件角色识别方法 |
CN116383387A (zh) * | 2023-04-06 | 2023-07-04 | 西安电子科技大学 | 一种基于事理逻辑的联合事件抽取方法 |
CN116167368A (zh) * | 2023-04-23 | 2023-05-26 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
CN116562302A (zh) * | 2023-06-29 | 2023-08-08 | 昆明理工大学 | 融合汉越关联关系的多语言事件观点对象识别方法 |
Non-Patent Citations (3)
Title |
---|
严浩 ; 许洪波 ; 沈英汉 ; 程学旗 ; .开放式中文事件检测研究.广西师范大学学报(自然科学版).2020,(第02期),第68-75页. * |
余辉 ; 徐畅 ; 刘雅茹 ; 付玉伟 ; 高东平 ; .基于BiLSTM-CRF的中文临床指南治疗事件抽取.中华医学图书情报杂志.2020,(第02期),第13-18页. * |
王晓浪 ; 邓蔚 ; 胡峰 ; 邓维斌 ; 张清华 ; .基于序列标注的事件联合抽取方法.重庆邮电大学学报(自然科学版).2020,(第05期),第210-216页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116757159A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seo et al. | Comparative study of deep learning-based sentiment classification | |
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
Ay Karakuş et al. | Evaluating deep learning models for sentiment classification | |
CN110196982B (zh) | 上下位关系抽取方法、装置及计算机设备 | |
CN111897954B (zh) | 一种用户评论方面挖掘系统、方法、及存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
Lee et al. | Protein family classification with neural networks | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN112084435A (zh) | 搜索排序模型训练方法及装置、搜索排序方法及装置 | |
Liu et al. | Automatic document metadata extraction based on deep networks | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN111274494B (zh) | 结合深度学习和协同过滤技术的复合标签推荐方法 | |
Gifu | AI-backed OCR in Healthcare | |
CN114818718A (zh) | 合同文本识别方法及装置 | |
Barbhuiya et al. | Gesture recognition from RGB images using convolutional neural network‐attention based system | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
Peleshchak et al. | Text Tonality Classification Using a Hybrid Convolutional Neural Network with Parallel and Sequential Connections Between Layers. | |
Esmail Zadeh Nojoo Kambar et al. | Chemical-gene relation extraction with graph neural networks and bert encoder | |
CN116757159B (zh) | 一种端到端的多任务联合篇章级事件抽取方法及系统 | |
CN114818713B (zh) | 一种基于边界检测的中文命名实体识别方法 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN115618875A (zh) | 一种基于命名实体识别的舆情评分方法、系统及存储介质 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
Gadri et al. | An efficient system to predict customers’ satisfaction on touristic services using ML and DL approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |