CN112613305B - 基于循环神经网络的中文事件抽取方法 - Google Patents

基于循环神经网络的中文事件抽取方法 Download PDF

Info

Publication number
CN112613305B
CN112613305B CN202011571592.4A CN202011571592A CN112613305B CN 112613305 B CN112613305 B CN 112613305B CN 202011571592 A CN202011571592 A CN 202011571592A CN 112613305 B CN112613305 B CN 112613305B
Authority
CN
China
Prior art keywords
vector
event
model
network
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011571592.4A
Other languages
English (en)
Other versions
CN112613305A (zh
Inventor
王嘉旭
王洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011571592.4A priority Critical patent/CN112613305B/zh
Publication of CN112613305A publication Critical patent/CN112613305A/zh
Application granted granted Critical
Publication of CN112613305B publication Critical patent/CN112613305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于循环神经网络的中文事件抽取方法,本发明提出的中文事件抽取联合模型主要有三个阶段:1)词向量编码阶段;2)特征提取阶段;3)分类器训练阶段;本发明的循环神经网络的输入为经过bert模型编码的动态词向量,向量能充分获取单词语义信息,克服了对多义性文本表示的不足的缺点;将由bert模型编码的词向量输入到双向循环神经网络中进行特征提取,为了丰富文本的特征向量,对句子特征进行拼接处理;考虑到触发词和事件元素之间的关联,将经过特征提取的向量输入到CRF模型中进行训练分类;之后将经CRF分类器处理的事件检测和事件元素识别两个阶段的四个子任务结合到一个端到端的模型,达到对事件进行联合抽取的目的。

Description

基于循环神经网络的中文事件抽取方法
技术领域
本发明属于自然语言处理与信息抽取领域,提出了一种基于循环神经网络的中文事件抽取联合模型。该模型可用于针对新闻资讯、客服问答等海量中文文本数据的事件抽取任务,而且能够为事理图谱构建、关系抽取、信息检索、自动问答等任务提供基础服务。
背景技术
自动内容抽取(Automatic Content Extraction,ACE)国际评测会议将事件定义为:发生在某个特定时间点或时间段,某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变[1]。事件抽取任务的目标就是将现实世界中人们用自然语言表达出来的事件以结构化的形式表示出来。事件抽取任务分为事件检测和事件元素识别两个子任务,事件检测任务是指从文本中发现事件并且确定事件的类别,事件元素识别任务是指对特定类别事件中的元素进行识别并且确定元素的角色。事件抽取任务是自然语言处理 (NLP)领域中一项至关重要的任务,在信息检索、自动问答、自动摘要、推荐系统等方面均有广泛应用[2]。近年来国内外学者已经针对事件抽取问题进行了一系列研究与探索,主要包括基于模式匹配、基于统计机器学习和基于深度学习的三种研究方法。
基于模式匹配的方法通常是指在一些模式的指导下对某类事件进行识别,利用模式匹配算法将待抽取的句子和提前制定好的模板进行匹配[3],从而实现事件类型的识别,应用这类方法的系统有ExDisco[4]、GenPAM[5]等。但是该方法往往依赖具体语言、具体领域及文本格式。规则模板的编制过程费时费力且容易产生错误,往往需要富有经验的语言学家才能完成[6]。且抽取的模式无法涵盖所有的事件类型,当从一种语料转移到另一种语料时,为保证不损失性能,需要花费很多精力进行模式提取,因此可移植性较差,性价比不高。
基于传统机器学习的方法通常是指判断句子中的每个词是否为最能描述某个事件发生的触发词,如果是,则将其归为正例,并用一个多元分类器对其进行分类,获得其所属的事件类别。Ahn[7]、Grishman[8]等、Hardy[9]等、赵妍妍[10]等提出的方法都属于传统机器学习的方法。虽然该方法在一定程度上减少了人工干预,但是在过程中引入了大量的反例,导致正反例严重不平衡。且多类分类器在语料规模较小的时候存在一定的数据稀疏问题。
基于深度学习的模型主要有管道模型和联合模型两种类型。其中,管道模型是指将事件抽取的各个子任务独立解决,由于子任务之间的级联特性,管道模型不可避免的存在误差传播的缺点。典型的管道模型有Chen等[11]提出的利用卷积神经网络来捕获词汇层面的线索,并使用动态多池化来捕捉句子层次特征的模型(DMCNN),以及域适用的卷积神经网络模型[12]、基于Skip-Grams的卷积神经网络模型[13]、阶段性神经网络模型[14]、基于Skip-Windows 的卷积神经网络模型[15]、C-BiLSTM事件检测模型[16]、混合神经网络模型(HNN)[17]、NPN 网络[18]等。相比于管道模型,联合模型是指建立一个模型,同时完成事件抽取的各个子任务。联合模型不仅解决了管道模型的误差传播问题,还更加关注于事件抽取各个子任务之间的关联。联合模型中比较经典的模型有感知机模型[19],JRNN模型[20],DBRNN模型[21]、 JMEE模型[22]等。上述模型均为英文事件抽取模型,相较于英文的事件抽取模型,中文的事件抽取模型难度更大,主要原因有中文语法的多样性,语义的多义性以及中文口语化严重,句式复杂。近年来,多项研究表明循环神经网络可以高效的捕捉文本向量的上下文信息,在多项自然语言处理任务中取得了不错的效果,例如郭庆[23]、邱莹莹[24]提出了基于循环神经网络的事件抽取联合模型。虽然现有的中文事件抽取联合模型具有自动提取文本特征,大大减少人工干预,避免了误差传播等特点,但依然存在以下挑战:
1.在词向量的表示上,通常使用Word2vec、glove等静态词嵌入模型,静态词嵌入模型中每个字向量都是固定的,并不会随着所处语境而变化,对词语多义性的处理有待提高;
2.在特征提取阶段,未考虑到句子特征向量对事件检测任务的影响;
3.中文事件抽取联合模型,大多只结合了事件检测阶段的两个子任务,没有做到事件抽取两个阶段共四个子任务的联合提取。
发明内容
针对当前事件抽取任务所面临的挑战,本发明提出了一种基于循环神经网络的中文事件抽取联合模型。本发明的循环神经网络的输入为经过bert模型编码的动态词向量,向量能充分获取单词语义信息,克服了对多义性文本表示的不足的缺点;将由bert模型编码的词向量输入到双向循环神经网络中进行特征提取,为了丰富文本的特征向量,对句子特征进行拼接处理;考虑到触发词和事件元素之间的关联,将经过特征提取的向量输入到CRF模型中进行训练分类;之后将经CRF分类器处理的事件检测和事件元素识别两个阶段的四个子任务结合到一个端到端的模型,达到对事件进行联合抽取的目的。本发明提出的中文事件抽取联合模型主要有三个阶段:1)词向量编码阶段;2)特征提取阶段;3)分类器训练阶段;
为了实现上述内容,需要进行以下步骤:
步骤1:将语料库中的语料进行分句处理,并把每一个句子输入到预训练的bert模型中,得到句子中每一个字对应的动态编码;
步骤2:将经过步骤1编码的向量输入到循环神经网络中,经过双向的lstm单元进行特征提取,得到每一个字对应的网络输出和整个句子向量的网络输出即网络前向和后向的最后一个隐层向量。
步骤3:将步骤3得到的循环神经网络前向和后向的最后一个隐层向量与循环神经网络的输出拼接成触发词的特征向量,之后输入到CRF层进行触发词的识别。
步骤4:通过CRF层对触发词的类别进行识别,训练CRF,识别触发词并确定其类别。
步骤5:将步骤4已识别的触发词的特征向量与当前的字向量进行拼接作为事件元素的特征向量,之后输入到CRF层进行事件元素的识别。
步骤6:通过CRF层对事件元素进行分类识别,训练CRF,识别事件元素并确定其角色信息。
步骤7:将两个CRF分类器联合到一个模型中,为了协调不同子任务的收敛速率,在交叉熵损失函数的基础上增加软约束,在较短的时间内完成对模型的训练。
与现有技术相比,本发明具有如下有益效果:
1.应用bert框架进行动态编码,解决了传统静态词嵌入模型字向量固定不变的问题,增强了对多义性文本的向量表示;
2.在特征提取阶段,将整个句子的特征与触发词的特征进行拼接,丰富触发词的特征向量表示;
3.考虑到分类标签之间的关系,应用条件随机场模型进行分类,使得分类结果更加准确;
4.为了协调事件检测和事件元素识别两个子任务的收敛速率,依据数据集的特点,设计了针对损失函数的软约束,在较少的epoch上完成模型的收敛。
附图说明
图1为本发明的技术路线图。
图2为bert编码模型向量的初始表示。
图3为bert模型的结构图。
图4为BiLSTM的网络结构图。
图5为在ITQA数据集上随着epoch的变化loss的变化。
图6为在ITQA数据集上随着epoch的变化三个评价指标的变化。
图7为Wiki+BiLSTM、Bert+CNN、Bert+BiLSTM三个算法在ITQA数据集上的对比。
图8为DuEE、Bert+CNN、Bert+BiLSTM三个算法在DuEE1.0数据集上的对比。
具体实施方式
为了使本发明的目的、技术方案和特点更加清楚明白,通过结合具体实施例子,并参照附图,对本发明进行进一步的细化说明。
本发明具体的的改进可以归纳为以下几个方面:1)采用bert动态编码方式取代word2vec、glove等静态编码方式对语料进行编码,增强了对文本字向量的表示,进而增强了模型的抽取效果;2)在特征提取阶段,通过拼接句子向量特征和已识别到的触发词特征向量来丰富触发词和事件元素的特征向量表示,有利于提取高阶特征,获取更好的抽取结果; 3)在分类器训练阶段,考虑到数据标签之间的影响,运用CRF分类器进行分类,进一步获得更加可信的抽取结果;4)为了协调事件检测和事件元素识别两个子任务的收敛速率,在交叉熵损失函数的基础上根据语料库数据的概率分布增加软约束,在较少的训练时间内完成了对模型的训练。实验证明,本发明所提出的方法在多个评价指标上均有明显优势。
图1为本发明的技术路线图,如图1所示,首先对语料库中的句子进行编码,通过由预训练的bert模型构成的词嵌入层得到句子中每个字的向量编码,之后通过双向LSTM网络进行特征提取,最后分别将触发词和事件元素的特征向量表示输入到其对应的CRF层中进行训练得到最终结果。具体的实施过程分为向量编码、特征提取、分类器训练三个阶段:
一:向量编码阶段
步骤1:对于语料库D中一个长度为n的句子表示为如下形式:
W=W1,W2,...,Wn
其中,Wi表示句子中的第i个字。句子中的每个字采用BIO方式进行标注,Wi对应的触发词的标签为ti,对应的事件元素的标签为ai。统一设置语料库中的句子长度为n,对于长度大于的句子进行截取,对于长度小于n的句子则用特殊符号<pad>将其补齐,这里使用 0来表示<pad>。假设句子总数为N,则输入层即为个长度为n的句子集合,用N×n的向量表示。
步骤2:在句子W的开头和末尾分别添加[CLS]和[SEP]标识符,对W进行初始编码,如图2所示。句子中第i个字的初始编码表示如下:
这里为向量拼接操作,其中/>表示Wi对应的向量编码,/>表示Wi的语义编码,/>表示Wi的位置编码,三部分拼接得到Wi的初始编码Ei。句子W的初始编码E即为:
E=E1,E2,...,En
步骤3:如图3所示,将步骤2得到的由三部分向量组成的初始编码E输入到bert模型中,经过双向transformer结构得到最终的向量编码X:
X=x1,x2,...,xn
假设词嵌入长度为K,则X用N×n×K的向量表示。
二:特征提取阶段
步骤4:本发明所用的循环神经网络模型为双向的LSTM网络,如图4所示,将步骤3得到的向量输入到双向的LSTM网络中进行特征提取。网络在t时刻的隐层向量表示如下:
其中,表示LSTM单元在t时刻的前向隐层向量输出,/>表示LSTM单元在t时刻的后向隐层向量输出,ht表示LSTM单元在t时刻的输出,是由t时刻的前向和后向隐层向量拼接而成。将步骤3得到的向量编码X输入到双向LSTM网络中,设置网络的隐藏状态的大小为hidden_dim,则最终h向量的大小为N×n×hidden_dim。
步骤5:根据步骤4得到tri时刻对应的网络输出htri,即为触发词Wtri对应的双向LSTM 网络输出的特征向量。Wtri所处的句子W的句子向量hs表示如下:
其中,表示前向LSTM网络的最后一个隐层向量,/>表示后向LSTM网络的最后一个隐层向量,将/>和/>拼接得到句子特征向量hs。之后将句子特征向量hs和触发词本身的特征向量htri拼接得到触发词的特征向量C,表示如下:
C=[htri,hs]
步骤6:根据步骤4得到arg时刻对应的网络输出harg,即为事件元素Warg对应的双向LSTM网络输出的特征向量。假设其所对应的事件触发词为Wtri,则该事件元素的特征向量 A表示如下:
三:分类器训练阶段:
步骤7:将步骤5得到的触发词的特征表示向量C输入到触发词CRF网络中进行训练。假设当前的训练样本为Ci,它所对应的标记为ti,则其损失函数计算为:
LCRF(ti′,ti)=-logscoreCRF(Ci,ti)
步骤8:将步骤6得到的事件元素特征向量A输入到事件元素CRF网络中进行训练。假设当前的训练样本为Ai,它所对应的标记为ai,则其损失函数计算为:
LCRF(ai′,ai)=-logscoreCRF(Ai,ai)
步骤9:对整体网络模型进行处理。在模型训练阶段,使用Adam算法对网络参数进行优化,设置网络模型的整体损失函数为:
Loss=λ×losstri+lossarg
其中losstri为触发词对应的损失函数值,lossarg为事件元素对应的损失函数值。由于事件检测和事件元素识别两个子任务的收敛速率不一致,因此添加λ参数调整整体模型损失函数的下降速率。λ参数的取值依赖于触发词和事件元素的类别数量,假设触发词类别总数为numtri,事件元素角色总数为numarg,则
λ=numarg÷numtri
当模型收敛时,可以得到触发词的类别t′i和事件元素的对应角色a′i,即对应模型的最终输出。
实验设备与所需环境
Win1064位操作系统,I7处理器,GPU类型1080ti,内存11G。实验代码采用的编程语言为python3.6,深度学习环境为pytorch结合transformer框架。
预处理及参数设置
实验中,采用中文roberta预处理模型,相较于传统的bert模型,roberta模型训练语料库更多且训练时间更长,能够更好地表示文本特征,所表示的词向量的维度为618。在模型设计过程中,将语料库中句子的最大长度设置为35,双向lstm网络的隐藏层维度为50,Dropout参数设置为0.5。以上参数是针对计算机问答领域的语料库ITQA设置的,对于其他语料库的数据还需要进行微调。本发明为了验证所提出模型的有效性和泛化能力,分别用计算机问答领域语料库ITQA和DuEE1.0中文事件语料库进行实验,均在较少的训练epoch下取得不错的实验效果。
实验设置与评价指标
首先进行实验分析模型的收敛速度,在模型收敛之后,对模型的抽取效果进行实验分析。用计算机问答领域语料库ITQA进行实验,并与Wiki+RNN、Bert+CNN网络算法进行对比。为了验证模型的通用性,用DuEE1.0中文事件抽取语料库进行实验,并和基线模型DuEE进行对比。试验采取了准确率(precision)、召回率(recall)、F1值(F1-measure)作为评价标准,计算如下:
1)准确率(precision):
2)召回率(recall):
3)F1值(F1-measure):
其中TP表示正样本预测为正样本数目,TN表示负样本预测为负样本数量,FN表示正样本预测为负样本的数量,FP表示负样本预测为正样本的数量,N表示样本总数。
实验结果分析
首先,在ITQA数据集上进行实验并分析模型的收敛速度。在不同epoch下模型的损失如图5所示,在增加了λ参数之后,模型的整体损失值接近于事件元素的损失值,有效解决了事件检测和事件元素识别两个子任务收敛速度不同的问题。在不同epoch下训练集的评价指标变化如图6所示,经分析可得,在较少的epoch下模型的三个指标趋于稳定,模型的整体收敛效果较好。
在模型收敛之后,对模型的抽取效果进行实验分析。在计算机问答语料库ITQA上对三种算法进行对比实验,实验结果如图7所示。其中本发明提出的Bert+BiLSTM算法在事件抽取四个子任务上的精确率、召回率、F1值三个指标上优于其他算法。从结果分析可得,同为Bert模型编码的Bert+BiLSTM和Bert+CNN算法要优于Wiki+BiLSTM算法,表明了 Bert模型在词向量编码上具有一定的优势。其次,Bert+BiLSTM算法的精确率要优于 Bert+CNN算法,这是由于RNN相较于CNN更加关注文本的上下文信息,因此取得了更好的效果。
为了验证模型的通用性,使用DUEE1.0数据集对本发明提出的算法和DuEE、Bert+CNN 算法进行了对比实验,如图8所示。从实验结果可以看出,相较于DuEE算法,Bert+BiLSTM 和Bert+CNN算法在四个子任务上的三个评价指标都稍有提升,从而验证了联合模型在事件抽取任务上比管道模型更有优势,它有效的避免了误差传播问题。由于DuEE数据集相较于 ITQA数据集事件模式更加丰富且数据量更大,Bert+BiLSTM算法所取得的抽取成果略差于在ITQA数据集上的抽取效果。但是Bert+BiLSTM在DuEE1.0上的表现依旧略优于其他两种算法,进而说明了本发明提出的模型的通用性。
考文献
[1]Doddington G R,Mitchell A,Przybocki M A,et al.The AutomaticContent Extraction (ACE)Program-Tasks,Data,and Evaluation[C]//Proc of the2004International Conference on Language Resources and Evaluation.Lisbon,Portugal:European Language Resources Association,2004:837-840.
[2]沈兰奔.结合注意力机制与长短期记忆网络的中文事件抽取方法研究[D].北京交通大学,2019.
[3]Yangarber R.Scenario customization for information extraction[D].New York University, 2001.
[4]姜吉发.一种跨语句汉语事件信息抽取方法[J].计算机工程,2005,31(2):27-29.
[5]谭红叶.中文事件抽取关键技术研究[D].哈尔滨工业大学,2008.
[6]Liu J,Chen Y,Liu K,et al.Event detection via gated multilingualattention mechanism[C]// Proceedings oftheAAAI,2018:4865-4872.
[7]DavidAhn.The stages ofevent extraction[C]//Proceedings oftheWorkshop on Annotations and Resoning about Time and Events.USA:Associationfor Computational Linguistics,2006: 1-8.
[8]Grishman R,Westbrook D,Meyers A.NYU’s English ACE 2005systemdescription[C]// Proceedings ofACE 2005Evaluation Workshop.Washington,US,2005:05-19.
[9]Hardy H,Kanchakouskaya V,Strzalkowski T.Automatic eventclassification using surface text features[C]//Proceedings of AAAI Workshopon Event Extraction and Synthesis. Boston,USA:AmericanAssociationforArtificial Intelligence,2006:27-31.
[10]赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008(01):3-8.
[11]Chen Y,Xu L,Liu K,et al.Event extraction via dynamic multi-pooling convolutional neural networks[C]//Proceedings ofthe 53rdAnnualMeeting ofthe Association for Computational Linguistics andthe 7thInternational Joint Conference onNatural Language Processing,2015: 167-176.
[12]Nguyen T H,Grishman R.Event detection and domain adaptation withconvolutional neural networks[C]//Proceedings ofthe 53rdAnnual Meeting oftheAssociation for Computational Linguistics andthe 7th International JointConference onNatural Language Processing,2015: 365-371.
[13]Nguyen T H,Grishman R.Modeling skip-grams for event detectionwith convolutional neural networks[C]//Proceedings ofthe 2016Conference onEmpirical Methods in Natural Language Processing,2016:886-891.
[14]Nguyen T H,Fu L,Cho K,et al.A two-stage approach for extendingevent detection to new types via neural networks[C]//Proceedings ofthe 1stWorkshop on Representation Learning forNLP,2016:158-165.
[15]Zhang Z,Xu W,Chen Q.Joint Event extraction based on skip-windowconvolutional neural networks[C]//Proceedings ofthe 5th CCF Conference onNatural Language Understanding and IntelligentApplications.Springer,Cham,2016:324-334.
[16]Zeng Y,Yang H,Feng Y,et al.A convolution BiLSTM neural networkmodel for Chinese event extraction[C]//Proceedings of the 5th CCF Conferenceon Natural Language Understanding andIntelligentApplications,2016:275-287.
[17]Feng X,Huang L,Tang D,et al.A language-independent neural networkfor event detection[C]//Proceedings ofthe 54thAnnual Meeting oftheAssociation for Computational Linguistics,2016:66-71.
[18]Lin H,Lu Y,Han X,et al.Nugget proposal networks for Chinese eventdetection[C]// Proceedings of the 56th Annual Meeting of the Association forComputational Linguistics, 2018:1565-1574.
[19]Qi Li,Heng Ji,Liang Huang.Joint event extraction via structuredprediction with global features[C]//Proceedings ofthe 51th Annual Meetingofthe Association for Computational Linguistics,2013:73-82.
[20]Nguyen T H,Cho K,Grishman R.Joint event extraction via recurrentneural networks[C]// Proceedings ofthe 2016Conference of the North AmericanChapter of the Association for Computational Linggustics:Human LanguageTechnologies,2016:300-309.
[21]Sha L,Qian F,Chang B,et al.Jointly extracting event triggers andarguments by dependency-bridge RNN and Tensor-based argument interaction[C]//Proceedings of the 32ndAAAI Conference onArtifiual Intelligences,2018:5916-5923.
[22]X Liu,Z Luo,H Huang,et al.Jointly multiple events extraction viaattention-based graph information aggregation.2018,arXiv:1809.09078.
[23]郭庆.中文事件抽取技术研究[D].南京师范大学,2018.
[24]邱盈盈,洪宇,周文瑄,姚建民,朱巧明.面向事件抽取的深度与主动联合学习方法[J]. 中文信息学报,2018,32(06):98-10。

Claims (3)

1.基于循环神经网络的中文事件抽取方法,其特征在于:该方法包括如下步骤,
步骤1:将语料库中的语料进行分句处理,并把每一个句子输入到预训练的bert模型中,得到句子中每一个字对应的动态编码;
步骤2:将经过步骤1编码的向量输入到循环神经网络中,经过双向的lstm单元进行特征提取,得到每一个字对应的网络输出和整个句子向量的网络输出即网络前向和后向的最后一个隐层向量;
步骤3:将步骤3得到的循环神经网络前向和后向的最后一个隐层向量与循环神经网络的输出拼接成触发词的特征向量,之后输入到CRF层进行触发词的识别;
步骤4:通过CRF层对触发词的类别进行识别,训练CRF,识别触发词并确定其类别;
步骤5:将步骤4已识别的触发词的特征向量与当前的字向量进行拼接作为事件元素的特征向量,之后输入到CRF层进行事件元素的识别;
步骤6:通过CRF层对事件元素进行分类识别,训练CRF,识别事件元素并确定其角色信息;
步骤7:将两个CRF分类器联合到一个模型中,为了协调不同子任务的收敛速率,在交叉熵损失函数的基础上增加软约束,在较短的时间内完成对模型的训练;
在句子W的开头和末尾分别添加[CLS]和[SEP]标识符,对W进行初始编码,句子中第i个字的初始编码表示如下:
这里为向量拼接操作,其中/>表示Wi对应的向量编码,/>表示Wi的语义编码,表示Wi的位置编码,三部分拼接得到Wi的初始编码Ei;句子W的初始编码E即为:
E=E1,E2,...,En
将由三部分向量组成的初始编码E输入到bert模型中,经过双向transformer结构得到最终的向量编码X:
X=x1,x2,...,xn
假设词嵌入长度为K,则X用N×n×K的向量表示;
根据得到tri时刻对应的网络输出htri,即为触发词Wtri对应的双向LSTM网络输出的特征向量;Wtri所处的句子W的句子向量hs表示如下:
其中,表示前向LSTM网络的最后一个隐层向量,/>表示后向LSTM网络的最后一个隐层向量,将/>和/>拼接得到句子特征向量hs;之后将句子特征向量hs和触发词本身的特征向量htri拼接得到触发词的特征向量C,表示如下:
C=[htri,hs]
根据得到arg时刻对应的网络输出harg,即为事件元素Warg对应的双向LSTM网络输出的特征向量;假设其所对应的事件触发词为Wtri,则该事件元素的特征向量A表示如下:
A=[harg,htri]
将得到的触发词的特征表示向量C输入到触发词CRF网络中进行训练;假设当前的训练样本为Ci,它所对应的标记为ti,则其损失函数计算为:
LCRF(ti′,ti)=-logscoreCRF(Ci,ti)
将得到的事件元素特征向量A输入到事件元素CRF网络中进行训练;假设当前的训练样本为Ai,它所对应的标记为ai,则其损失函数计算为:
LCRF(ai′,ai)=-logscoreCRF(Ai,ai)
对整体网络模型进行处理;在模型训练阶段,使用Adam算法对网络参数进行优化,设置网络模型的整体损失函数为:
Loss=λ×losstri+lossarg
其中losstri为触发词对应的损失函数值,lossarg为事件元素对应的损失函数值;由于事件检测和事件元素识别两个子任务的收敛速率不一致,添加λ参数调整整体模型损失函数的下降速率;λ参数的取值依赖于触发词和事件元素的类别数量,假设触发词类别总数为numtri,事件元素角色总数为numarg,则
λ=numarg÷numtri
当模型收敛时,得到触发词的类别ti'和事件元素的对应角色ai',即对应模型的最终输出。
2.根据权利要求1所述的基于循环神经网络的中文事件抽取方法,其特征在于:对于语料库D中一个长度为n的句子表示为如下形式:
W=W1,W2,...,Wn
其中,Wi表示句子中的第i个字;句子中的每个字采用BIO方式进行标注,Wi对应的触发词的标签为ti,对应的事件元素的标签为ai;统一设置语料库中的句子长度为n,对于长度大于的句子进行截取,对于长度小于n的句子则用特殊符号<pad>将其补齐,这里使用0来表示<pad>;假设句子总数为N,则输入层即为个长度为n的句子集合,用N×n的向量表示。
3.根据权利要求1所述的基于循环神经网络的中文事件抽取方法,其特征在于:所用的循环神经网络模型为双向的LSTM网络,将步骤3得到的向量输入到双向的LSTM网络中进行特征提取;网络在t时刻的隐层向量表示如下:
其中,表示LSTM单元在t时刻的前向隐层向量输出,/>表示LSTM单元在t时刻的后向隐层向量输出,ht表示LSTM单元在t时刻的输出,是由t时刻的前向和后向隐层向量拼接而成;将步骤3得到的向量编码X输入到双向LSTM网络中,设置网络的隐藏状态的大小为hidden_dim,则最终h向量的大小为N×n×hidden_dim。
CN202011571592.4A 2020-12-27 2020-12-27 基于循环神经网络的中文事件抽取方法 Active CN112613305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011571592.4A CN112613305B (zh) 2020-12-27 2020-12-27 基于循环神经网络的中文事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011571592.4A CN112613305B (zh) 2020-12-27 2020-12-27 基于循环神经网络的中文事件抽取方法

Publications (2)

Publication Number Publication Date
CN112613305A CN112613305A (zh) 2021-04-06
CN112613305B true CN112613305B (zh) 2024-04-09

Family

ID=75248001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011571592.4A Active CN112613305B (zh) 2020-12-27 2020-12-27 基于循环神经网络的中文事件抽取方法

Country Status (1)

Country Link
CN (1) CN112613305B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220871B (zh) * 2021-05-31 2023-10-20 山东外国语职业技术大学 一种基于深度学习的文学人物关系识别方法
CN113282713B (zh) * 2021-06-29 2022-09-20 中国人民解放军国防科技大学 基于差异性神经表示模型的事件触发词检测方法
CN113626577B (zh) * 2021-07-01 2022-11-01 昆明理工大学 基于阅读理解的汉越跨语言新闻事件要素抽取方法
CN113886524A (zh) * 2021-09-26 2022-01-04 四川大学 一种基于短文本的网络安全威胁事件抽取方法
CN114004231A (zh) * 2021-10-27 2022-02-01 浙江诺诺网络科技有限公司 一种中文专词抽取方法、系统、电子设备及存储介质
CN113821739B (zh) * 2021-11-22 2022-03-08 南方科技大学 本地事件检测方法、装置、设备和存储介质
CN113946681B (zh) * 2021-12-20 2022-03-29 军工保密资格审查认证中心 文本数据的事件抽取方法、装置、电子设备及可读介质
CN114707483B (zh) * 2022-03-07 2024-09-10 华泰证券股份有限公司 基于对比学习和数据增强的零样本事件抽取系统及方法
CN114416914B (zh) * 2022-03-30 2022-07-08 中建电子商务有限责任公司 一种基于图片问答的处理方法
CN114880468B (zh) * 2022-04-21 2024-07-16 淮阴工学院 基于BiLSTM与知识图谱的建筑规范审查方法与系统
CN115062146B (zh) * 2022-06-07 2024-06-28 重庆邮电大学 基于BiLSTM结合多头注意力的中文重叠事件抽取系统
CN115983274B (zh) * 2022-12-20 2023-11-28 东南大学 一种基于两阶段标签校正的噪声事件抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860630B2 (en) * 2018-05-31 2020-12-08 Applied Brain Research Inc. Methods and systems for generating and traversing discourse graphs using artificial neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chinese Event Extraction Based on Attention and Semantic Features: A Bidirectional Circular Neural Network;Yue Wu 等;future internet;20181231;全文 *
基于注意力机制BiLSTM的事件抽取方法;盛煜堃 等;电子设计工程;20200420(第08期);全文 *

Also Published As

Publication number Publication date
CN112613305A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112613305B (zh) 基于循环神经网络的中文事件抽取方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
Rasool et al. WRS: a novel word-embedding method for real-time sentiment with integrated LSTM-CNN model
Mahima et al. A text-based hybrid approach for multiple emotion detection using contextual and semantic analysis
Gan et al. DHF-Net: A hierarchical feature interactive fusion network for dialogue emotion recognition
Liu et al. Deep bi-directional interaction network for sentence matching
CN112287119B (zh) 一种在线资源相关信息抽取的知识图谱生成方法
Hu et al. Emotion prediction oriented method with multiple supervisions for emotion-cause pair extraction
Cui et al. Zero-shot domain adaptation for natural language inference by projecting superficial words out
Sundararajan et al. Probabilistic model based context augmented deep learning approach for sarcasm detection in social media
Zhu et al. Attention based BiLSTM-MCNN for sentiment analysis
Putra et al. Textual Entailment Technique for the Bahasa Using BiLSTM
Wen et al. Few-shot named entity recognition with joint token and sentence awareness
Su et al. Automatic ontology population using deep learning for triple extraction
Olivero Figurative Language Understanding based on Large Language Models
Zhuang et al. Research and Application of Artificial Intelligence Large Language Models Based on Feature Enhancement
Li et al. Semantic similarity modeling based on multi-granularity interaction matching
Dai et al. A novel attention-based BiLSTM-CNN model in valence-arousal space
Philip et al. A Brief Survey on Natural Language Processing Based Text Generation and Evaluation Techniques
Ji et al. Measurement of sentence similarity based on constituency parsing and dilated convolution
Matrane et al. WeVoTe: A Weighted Voting Technique for Automatic Sentiment Annotation of Moroccan Dialect Comments
Huang et al. An Entity-Level Sentiment Analysis of Financial Text Based on Pre-Trained Language Model
Sahoo et al. Comparative Analysis of BERT Models for Sentiment Analysis on Twitter Data
Saha et al. A Bangla Word Sense Disambiguation Technique using Minimum Edit Distance Algorithm and Cosine Distance
Lin et al. A Feedback-Enhanced Two-Stage Framework for judicial machine reading comprehension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant