CN113836269A - 一种基于问答式系统的篇章级核心事件抽取方法 - Google Patents

一种基于问答式系统的篇章级核心事件抽取方法 Download PDF

Info

Publication number
CN113836269A
CN113836269A CN202111133607.3A CN202111133607A CN113836269A CN 113836269 A CN113836269 A CN 113836269A CN 202111133607 A CN202111133607 A CN 202111133607A CN 113836269 A CN113836269 A CN 113836269A
Authority
CN
China
Prior art keywords
event
question
word
events
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111133607.3A
Other languages
English (en)
Other versions
CN113836269B (zh
Inventor
王继民
韩斌
王飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202111133607.3A priority Critical patent/CN113836269B/zh
Publication of CN113836269A publication Critical patent/CN113836269A/zh
Application granted granted Critical
Publication of CN113836269B publication Critical patent/CN113836269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于问答系统的篇章级核心事件抽取方法,包括如下步骤:使用现有的BiLSTM‑CRF模型对文章进行事件检测,设计问题模板构建问答系统的先验问题;跨句子构造待抽取文本,将触发词来源的事件句子和文档中的其余句子结合,以产生多个待抽取文本;构造问题,将问题与文本组合起来,从文本中找出问题的答案;基于BERT预训练模型和双向LSTM模型的问答系统对文档内事件元素进行提取;对事件进行共指融合,使用TextRank算法对同个文档内多个事件的重要性进行排序,从多个事件中选取核心事件。本发明通过基于问答系统的篇章级事件抽取方法可以提取出分布在不同句子中的事件元素,可以从多事件、无标题的文本中提取出核心事件,提高了核心事件抽取的效果。

Description

一种基于问答式系统的篇章级核心事件抽取方法
技术领域
本发明涉及信息处理方法,特别涉及一种基于问答式系统的篇章级核心事件抽取方法。
背景技术
篇章核心事件抽取主要从整篇文档中提取出相应的事件元素,并从多个事件中找出核心事件。其中,核心事件抽取是在一篇文档多个事件中找出一个或多个表达文档中心的事件。存在的难点在于:事件元素分布在不同句子及如何从多个事件中选取核心事件。如下描述存在的难点及方法存在的局限和问题:
(1)事件元素分布在文档不同句子。目前,多数事件抽取技术是在句子范围内进行研究,从单个句子中找出事件触发词及其事件元素,而现实生活中,往往事件触发词和事件元素分布在文档不同句子中,只在句子范围内进行事件元素抽取会导致事件元素提取不完整。
同篇文本中可能存在多个相似事件或多次描述相同事件,这些多个事件之间元素可能存在互补关系,针对这个特点,现有的方法大多是先对每个事件句子抽取出触发词及事件元素,然后抽取结果中多个相同或相似的事件进行融合,从而获得一个完整的事件信息。虽然通过多个事件进行融合可以对事件进行事件元素补充,但如果事件元素不在事件句子中,那么无法对事件元素进行补充。
(2)文档核心事件选择。篇章级事件抽取应以文本中描述的主要事件为中心,用简洁、结构化的形式呈现给用户。目前核心事件研究方法存在两种:1) 从文档中找出最能表达该文档核心的一个中心句,然后基于这个中心句周围的句子进行事件元素补充。这种方法的缺点在于如果文档中多句存在重要事件,那么单个中心句范围太小。一些方法使用TextRank算法从新闻报道中先抽取出几个关键句子,然后基于这些关键句子提取出事件。关键句虽能较好的概括文本,但关键句不等同于事件句子,关键句子中可能会遗失一些事件句。2)找出文本中所有事件,然后根据所有和文档标题一致的事件作为文档的核心事件。这种方法限定每篇文档都含有标题并且标题能够代表文本主旨,类似新闻报道文本。
发明内容
发明目的:针对现有技术存在的问题,本发明提供一种基于问答系统的抽取篇章级核心技术的方法,来克服事件元素分布在不同句子的问题和文档核心事件选取的问题。
技术方案:一种基于问答式系统的篇章级核心事件抽取方法,包括以下步骤:
(1)通过BiLSTM-CRF模型对文章进行事件检测,抽取得到文档内事件触发词及对应的类型;
(2)设计不同问题的模板,并生成带有先验信息的问题;
(3)跨句子构造待抽取文本,将触发词来源的事件句子和文档中的其余句子结合,以产生多个待抽取文本;
(4)构造问题,将问题与文本组合起来,从待抽取文本中找出问题的答案;
(5)基于BERT预训练模型和双向LSTM模型的问答系统提取文档内事件触发词对应的事件元素,将每个事件触发词及该触发词对应的事件元素以“(触发词,事件元素)”的格式保存,进而得到文章所有事件触发词以及对应事件元素结果的集合;
(6)对步骤(5)保存的集合进行事件共指融合:对事件触发词和事件元素以补全方式进行融合,即相同事件类型的不同事件触发词、事件元素都保留,相同的触发词、事件元素仅保留一个;
(7)使用TextRank算法对同个文档内多个事件的重要性进行排序,选取核心事件。
进一步的,步骤(1)中构建先验问题时,考虑到问题设计的好坏对识别结果有着重要的影响,问题中会携带事件元素角色的先验信息素抽取结果的影响。因此定义如下三种问题模板:
模板1:直接使用事件元素角色作为问答系统中的问题;
表示方式如下:
“[事件元素角色]”
模板2:根据事件元素角色的类型使用不同的问题;
表示方式如下:
“[事件元素角色]是[谁/什么]?”
模板3:事件触发词信息;
表示方式如下:
“触发词是[触发词],[事件元素角色]是[谁/什么]?”
对三种模板进行对比。对比模板1和模板2,模板2会根据事件角色产生不同的问题。对比模板2和模板3,模板3中带有触发词这一先验信息,带有的语义信息更多。
进一步的,步骤(3)中跨句子构造待抽取文本的方式如下:
将一篇文本分为n句话,从这些句子里找到一句触发来源句,将该触发来源句与其他句子分别进行组合拼接,最终得到n-1个待抽取文本。
进一步的,步骤(4)中将问题与文本组合的方式如下:
一个触发词需要多个事件元素角色,为每个事件元素角色构造一个问题,每个问题与步骤(3)产生的n-1个待抽取文本进行组合,从这些文本中找出问题的答案。
进一步的,步骤(5)中提取文档内事件元素的方式如下:
(5.1)基于BERT预训练模型进行微调来处理阅读理解和问答任务;在 BERT预训练模型后添加双向LSTM层用于捕获文本序列上下文特征;所述 BERT预训练模型的结构由输入层、BERT编码层、双向LSTM编码层、输出层组成。
(5.2)对每个字进行二分类判断其是事件元素的开始还是结束。
进一步的,步骤(6)中对事件进行共指融合以及选取核心事件的方式如下:
(6.1)根据事件之间的触发词和类型来判断两个事件是否为同类事件,用补全的方式融合触发词和事件元素角色,保留相同角色的不同元素;
(6.2)通过TextRank算法计算出文档内保留词的重要性得分,然后根据每个事件的触发词和其事件元素词计算出每个事件的重要性得分,选取重要性最高的前N个事件作为核心事件。
进一步的,通过TextRank算法计算出文档内保留词的重要性得分的具体步骤如下:
S1:以“。?!”三个字符对文本切分,得到多个句子;
S2:对于每个句子,进行分词和词性标注,过滤停用词,只保留名词、动词和形容词作为候选词;
S3:构建候选关键词图G=(V,E),其中V为节点集合,由S2产生的候选词组成,E是节点的边集合;通过TextRank算法判断两个词之间是否存在连接的方法为:查看某个词是否在当前节点长度为K的窗口中,如果某个词在当前节点长度为K的窗口中,则该词与当前节点的候选词存在连接;反之该词与当前节点的候选词不存在连接;
S4:采用如下公式不断迭代,直至收敛:
Figure RE-GDA0003353500920000031
其中,WS(Vi)是节点Vi在一轮迭代后的节点权重值,初始值为1;d为阻尼系数,默认为0.85;In(Vi)表示指向节点Vi的集合,out(Vj)表示节点Vj指出的集合,
Figure RE-GDA0003353500920000041
表示节点i链接到节点j的权重占节点j指向所有链接的权重之和的比例;
TextRank算法计算出保留词的得分,假设一个事件为{c1,c2,...,cn},ci表示第i个词,采用如下公式计算每个事件重要性得分:
Figure RE-GDA0003353500920000042
其中,WSci为事件中ci的重要性得分,若ci不存在保留词中,则得分为0。
有益效果:
和现有技术相比,本发明具有以下优点:
现有的事件抽取技术,多数是在句子级找到事件元素和触发词,不适用于事件的触发词和元素分布在不同的句子中的情况,而对于事件元素不在事件句中的情况,现有的抽取事件抽取技术因此这些事件抽取技术可能无法提取到完整的事件元素。另外,现有的核心事件选取的办法存在单个中心句范围太小、提取关键句遗失事件句以及对文章的标题有严格的要求这些缺点。本发明提出了基于问答系统的篇章级核心事件抽取。其基于基于问答系统方式可以提升事件元素抽取,对于文档核心事件选取,使用事件共指融合方法消除冗余事件,然后使用 TextRank算法选取核心事件。经过TextRank和TF-IDF实验论证了TextRank在文档核心事件选取具有有效性。带有先验信息的问题能提高事件元素角色抽取的准确率、召回率和F1值;本发明提出的待抽取文本构造方法可以跨句子抽取事件元素;提出的基于BERT的双向LSTM模型在事件元素分类提取上的表现优于BERT模型。
附图说明
图1为本发明的流程图;
图2为本发明的问题与文本组合方式图;
图3为本发明基于BERT-BiLSTM模型的问答系统事件元素抽取模型图;
图4为实验中三种模板在相同训练轮数下事件元素分类准确率对比图;
图5为BBiLSTM-事件句和BBiLSTM-跨事件句元素分类准确率对比图;
图6为BERT-模板3模型和BTBiLSTM-模板3模型元素分类准确率图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明的技术方案。
实施例1:
如图1所示,一种基于问答式系统的篇章级核心事件抽取方法,包括如下步骤:
(1)通过BiLSTM-CRF模型对文章进行事件检测,抽取得到文档内事件触发词及对应的类型;
(2)设计不同问题的模板,并生成带有先验信息的问题;
(3)跨句子构造待抽取文本,将触发词来源的事件句子和文档中的其余句子结合,以产生多个待抽取文本;
(4)构造问题,将问题与文本组合起来,从待抽取文本中找出问题的答案;
(5)基于BERT预训练模型和双向LSTM模型的问答系统提取文档内事件触发词对应的事件元素,将每个事件触发词及该触发词对应的事件元素以“(触发词,事件元素)”的格式保存,进而得到文章所有事件触发词以及对应事件元素结果的集合;
(6)对步骤(5)保存的集合进行事件共指融合:对事件触发词和事件元素以补全方式进行融合,即相同事件类型的不同事件触发词、事件元素都保留,相同的触发词、事件元素仅保留一个;
(7)使用TextRank算法对同个文档内多个事件的重要性进行排序,选取核心事件。
具体的,步骤(1)对文章进行事件检测的具体步骤如下:
(1.1)将每篇待检测的文档按照“。!?”进行句子切分,得到文档句子集合S={S1,S2,……,Sn}。
(1.2)根据文档分句得到的句子集合S,使用现有的BiLSTM-CRF模型分别对S1到Sn每句话进行触发词识别,得到文档所有事件,将每个触发词、触发词类型和触发词来源句子以(触发词,触发词类型,事件句)三元组形式存储为集合。
进一步的,步骤(2)进行先验问题生成的具体步骤如下:
(2.1)基于问答系统的事件元素抽取中,问题设计的好坏对识别结果有着重要的影响,问题中会携带事件元素角色的先验信息素抽取结果的影响。因此设计三种问题模板,包括:
模板1:直接使用事件元素角色作为问答系统中的问题。其表示方式如下:
[事件元素角色]
模板2:根据事件元素角色的类型使用不同的问题。表示方式如下:
[事件元素角色]是[谁/什么]?
模板3:为了获取更多的语义信息,在模板2的基础上加上事件触发词信息。表示方式如下:
触发词是[触发词],[事件元素角色]是[谁/什么]?
(2.2)对三种模板进行对比。对比模板1和模板2,模板2会根据事件角色产生不同的问题。对比模板2和模板3,模板3中带有触发词这一先验信息,带有的语义信息更多。
步骤(3)进行跨句子构造待抽取文本的具体步骤如下:
假设一篇文本有n句话S=[S1,...,S5,...,Sn],S5是一个触发词来源句,那么将S5和其他句子分别组合,如:文本=[S1,S5],是将第一句话和第五句事件句拼接,通过这种方式依次将触发词来源句和其他句子进行拼接,最终得到n-1个待抽取文本。
步骤(4)进行问题和文本组合的步骤如下:
例如,一个触发词需要m个事件元素角色,为每个事件元素角色构造一个问题,形成m个问题,文档有n句话S=[S1,...,S5,...,Sn],该触发词来自S5,按照4.4.3节待抽取文本构造方法生成n-1个文本,最终问题和文本组合方式如图2 所示,每个问题和n-1个文本进行组合,从n-1个文本中找出答案。
步骤(5)中,基于问答系统事件元素抽取模型基于BERT预训练模型和双向LSTM的问答系统实现:首先在BERT预训练模型的基础上进行微调来处理阅读理解和问答任务,然后在BERT模型后添加双向LSTM层用于捕获文本序列上下文特征,最后对每个字进行二分类判断其是事件元素的开始还是结束;
基于问答系统事件元素抽取模型结构如图3所示,由输入层、BERT编码层、双向LSTM编码层、输出层组成。各层的具体设计如下:
(5.1.1)输入层
根据所述步骤(4)问题和文本组合方式,本文将一个问题与一个待抽取文本相连作为模型的输入,相连方式如:[CLS]一个问题[SEP]一个待抽取文本[SEP]。其中,[CLS]表示句子的开始,[SEP]用于分割两个句子和文本的结尾,如图3所示。将问题和待抽取文本按照字符进行切分,可以表示如下:
Figure RE-GDA0003353500920000071
其中,
Figure RE-GDA0003353500920000072
表示问题第i个字符表示,
Figure RE-GDA0003353500920000073
表示待抽取文本第i个字符表示。
(5.1.2)BERT编码层
BERT模型采用12层Transformer编码器,每层使用12个独立的注意力机制。注意力中增加多头注意力机制,扩展了模型专注于不同位置的能力。多头注意力模块的计算如式4-2、4-3、4-4所示。
Figure RE-GDA0003353500920000074
MultiHead(Q,K,V)=[head1,...,headn]WO (4-3)
headi=Attention(QWi Q,KWi K,VWi V) (4-4)
其中,注意力机制将每个待检测的词向量经过三个不同的矩阵映射成三个向量:Query(Q)、Key(K)、Value(V)。多头注意力机制用来学习每个字与其他字的依赖关系和上下文语义,然后通过前馈神经网络对Attention计算后的输入进行变换,最终得到序列的全局信息。通过BERT模型编码后,输出序列可表示为:
Figure RE-GDA0003353500920000075
(5.1.3)双向LSTM编码层
为了更好地学习构造文本的上下文的特征,本发明在BERT模型输出层后加上双向LSTM层,用来捕获文本序列语义信息,获取文本中长距离依赖。双向 LSTM接收BERT编码层输出向量,然后分别从正反两个方向对BERT模型输出进行编码,得出输出,分别表示为:
Figure RE-GDA0003353500920000076
Figure RE-GDA0003353500920000077
其中第i个字符最终表示由两个拼接得到
Figure RE-GDA0003353500920000078
(5.1.4)输出层
如图3所示,输出层作用是确定当前字符是答案的开始位置(Answer_start) 还是结束位置(Answer_end)。若文本中没有问题的答案,则开始位置为0。开始位置和结束位置使用softmax函数对每个字符二分类处理,找出当前字符作为事件元素的开始和结尾概率,具体计算方式如下:
Ps(i)=soft max(Wshi),Ws∈RH×1 (4-6)
Pe(i)=soft max(Wehi),We∈RH×1 (4-7)
其中,Ps表示开始概率,Pe表示结束概率,Ws和We是两个参数矩阵,hi是双向LSTM输出,H是双向LSTM的隐藏层大小。最终,若当前字符为开始位置,则开始位置预测结果为“1”;若为结束位置,则结束位置为“1”;若不是答案,则为“0”。根据开始位置和结束位置确定答案跨度,如图3所示。
模型损失函数为二分类交叉熵,训练过程使用Adam优化器,通过最小化交叉熵损失完成训练调优,二分类交叉熵具体计算如下:
Figure RE-GDA0003353500920000081
Lloss=Lstart+Lend (4-9)
其中,N表示序列的长度,yi表示第i个样本真实标签,Pi表示第i个样本预测标签概率,Lstart和Lend分别为开始位置和结束位置的损失,最终损失由开始和结束位置共同决定。
步骤(6)进行事件共指融合的具体步骤如下:
根据本发明提出事件抽取的方法,将会产生多个事件本发明根据事件之间触发词或类型相同来判断两个事件是同类事件。然后对触发词和事件元素角色以补全方式进行融合,即相同角色的不同元素都保留,相同元素保留一个。
步骤(7)进行核心事件选取的具体步骤如下:
TextRank是一种用于对文本关键词或关键句提取的算法。在关键词提取过程中,TextRank将词看作是图中节点,如果一个词出现在很多词后面,则说明这个词比较重要,一个TextRank值很高的词链接到另一个词时,那么另一个词的TextRank值相应得也会较高。TextRank算法计算保留词得分主要步骤如下:
(7.1)以“。?!”三个字符对文本切分,得到多个句子;
(7.2)对于每个句子,进行分词和词性标注,过滤停用词,只保留名词、动词和形容词作为候选词;
(7.3)构建候选关键词图G=(V,E),其中V为节点集合,由上一步产生的候选词组成,E是节点的边集合。根据TextRank算法:如果某个词在当前节点长度为K的窗口中,则判断该词与当前节点的候选词存在连接。
(7.4)根据公式4-10,不断迭代,直至收敛。
Figure RE-GDA0003353500920000091
其中,WS(Vi)是节点Vi在一轮迭代后的节点权重值,初始值为1,d默认为 0.85。In(Vi)表示指向节点Vi的集合,out(Vj)表示节点Vj指出的集合,
Figure RE-GDA0003353500920000092
表示节点i链接到节点j的权重占节点j指向所有链接的权重之和的比例。
TextRank算法计算出保留词的得分,假设一个事件为{c1,c2,...,cn},ci表示第i个词,根据公式4-11计算每个事件重要性得分。
Figure RE-GDA0003353500920000093
其中,WSci为事件中ci的重要性得分,若ci不存在保留词中,则得分为0。
实施例2:
本实施例使用ACE2005中文中文语料作为模型的训练和测试数据,为了使实验公平,随机选取569篇文档作为训练集,选取64篇文档作为测试集。ACE2005 中文语料该语料定义33种触发词类型,并为每种触发词类型分配事件角色。
单篇核心事件抽取的总体流程如下:首先对每篇文档使用现有的 BiLSTM-CRF模型进行事件检测,将每篇文章的触发词以(触发词,触发词类型,触发词来源句)三元组保存,根据触发词类型找出该类型需要的事件元素角色,然后为每个事件元素角色生成带有先验信息的问题,接着构造事件元素角色待抽取跨句子文本,然后将问题和跨句子文本组合形成多组数据,最后通过 BERT-BiLSTM模型的问答系统从多组数据中提取出答案;然后对提取出的事件进行共指融合,最后使用TextRank算法抽取出文章的核心事件。
将文档按照“。!?”进行句子切分,得到该文档中所有句子。对每个句子使用BIO标注方法对每个句子触发词进行标注。BIO标注方法用B-X、I-X或O 这三种方式对每个字符进行标注。其中,B-X表示当前字符是触发词的开始,X 表示当前触发词类型。I-X表示当前字符是触发词的中间或结尾。O表示当前不属于任何类型。标注方法如下所示:
Figure RE-GDA0003353500920000101
使用BERT模型对每一个句子进行编码得到每一个字的字符编码,将其作为BiLSTM-CRF模型的输入,模型输出每个字符的触发词类型和类型结果,将其保存为(触发词,触发词类型,事件句)的三元组。三元组的具体存储示例如下所示:
(“到”,运送,“为方便人们到游泳大世界游泳”)
根据所有触发词及类型结果的三元组,为每个触发词从定义的事件元素角色表中找出其对应所需的事件元素角色。具体实例如下所示:
表1触发词“成立”对应的事件元素角色
Figure RE-GDA0003353500920000102
Figure RE-GDA0003353500920000111
基于上述三元组,按照模板1,模板2,模板3分别设计问题,以触发词为成立类型的事件为例,按照三种问题模板生成不同的问题。三种模板生成问题的实例如下所示:
表2不同事件角色对应的三种模板问题
Figure RE-GDA0003353500920000112
将触发词来源句子与文档中其他句子进行拼接。具体拼接方式为:假设一篇文本有n句话S=[S1,...,S5,...,Sn],S5是一个触发词来源句,那么将S5和其他句子分别组合,如:文本=[S1,S5],是将第一句话和第五句事件句拼接,通过这种方式依次将触发词来源句和其他句子进行拼接,最终得到n-1个待抽取文本。
将所生成的问题与生成的跨句子文本组合起来,作为模型的输入。相连方式如:[CLS]一个问题[SEP]一个待抽取文本[SEP]。例如,问题为“收益方是谁?”,待抽取文本为“浙江某集团为此向足球俱乐部支付了2500万元。据了解,此次被“售出”的是足球一队29名球员和下赛季甲B联赛参赛资格”,那么将“[CLS] 收益方是谁?[SEP]浙江某集团为此向足球俱乐部...[SEP]”作为BERT-BiLSTM 模型的一个输入。
将所有问题文本组合,经过12层Transformer、每层12个独立的注意力机制的BERT编码层,将得到的输出序列作为双向LSTM层的输入以捕获文本序列语义信息。经过LSTM层后得到事件元素的开始和结尾以及跨度,将事件元素抽取出来。
对本发明提出的基于问答系统的事件抽取模型抽取到的事件,按照触发词是否相同、以及事件类型是否相同进行事件融合。以一篇旅行的散文为例,文章的部分文本如下所示:
Figure RE-GDA0003353500920000121
上述文本中,事件句如下所示:
Figure RE-GDA0003353500920000122
对该文本的事件抽取结果如下所示:
表3文本的事件抽取结果示例
Figure RE-GDA0003353500920000123
Figure RE-GDA0003353500920000131
表中序号1、3、4和6,彼此之间的事件类型是一致的并且是同一个事件。对相同角色的不同元素都保留,相同元素保留一个。通过这种方式对事件抽取示例表中事件进行融合,从融合结果来看,最终形成的事件数量几乎减少了一半,事件融合结果表如下所示:
表4文本的事件融合结果
Figure RE-GDA0003353500920000132
使用TextRank算法对融合后的事件计算重要性得分。使用TextRank算法对文章的保留词进行计算,根据事件的保留词得分使用如下公式计算事件的得分。
Figure RE-GDA0003353500920000133
选择重要性得分最高的事件作为核心事件。以这篇沃哈斯旅行文章为例,选取重要性最高的两个事件作为核心事件,该文章的核心事件的重要性得分如下所示。
表5文章核心事件重要性得分
Figure RE-GDA0003353500920000134
Figure RE-GDA0003353500920000141
实验验证
(1)实验思路
为验证本发明方法在实际应用中的性能,首先对比三种问题模型对比事件元素分类的准确性,证明带有先验信息能够提升事件元素提取效果;其次,对比 BBiLSTM-事件句和BBiLSTM-跨事件句模型在相同轮次训练过程中准确率情况,验证说明本发明的方法能够通过跨事件句找出事件元素;接着对比BTBiLSTM- 模板3模型在相同训练轮数下事件元素分类的准确率,验证本发明提出的 BTBiLSTM-模板3模型在事件元素提取上优于BERT-模板3模型;然后,将本发明提出的基于问答系统事件元素抽取方法与前人方法对比,本文提出跨句子的基于BERT-BiLSTM网络的问答系统可以提升事件元素抽取以及提取分布在不同句子中的事件元素;最后对比TextRank算法和TF-IDF算法计算核心事件的准确率,验证本发明使用TextRank算法选取核心事件更合理、准确。
(2)实验环境
本发明的实验设备环境为Windows10,实验过程以Python语言作为编程语言,以Pycharm平台做为开发工具,处理器使用的是英特尔Core i7,显卡为Nvidia QuadroP4000,开发平台TensorFlow 1.7.1、keras 2.2.4。
(3)数据处理方法
(3.1)获取触发词对应的事件元素数据的方法为:“text”是根据跨句子待抽取文本构造方式生成,“trigger”表示为触发词,“trigger_type”为触发词类型,“questions”表示该触发词类型下所需事件元素角色,“Q”为问题,“Answer”为问题答案,若文本中不存在答案,设置为“N”。使用问题模板3的标注事件元素抽取数据的实例如下所示:
Figure RE-GDA0003353500920000142
Figure RE-GDA0003353500920000151
(3.2)核心事件的选取方法为:核心事件数据对事件元素抽取在测试集内进行研究。测试集文档中分为带标题文档和无标题文档两类,在事件共指融合前人工为每篇定义核心事件,其中对于标题能够表示文本含义的文档,将和标题相关的事件作为核心事件,对于标题不能表示文本含义以及无标题的文档,人工从事件中选取核心事件。
(4)事件元素抽取的评价参数以及实验模型的相关参数设置如下:
(4.1)评价事件元素抽取正误的标准为:在事件元素抽取实验在触发词分类正确前提下,若事件元素及其对应的角色均与标注相同则视为正确,否则视为预测错误,若触发词分类错误则将所有的元素与角色均视为预测错误。
(4.2)实验模型相关参数设置主要包括LSTM层神经元个数、学习率、文本最大长度、优化器数量、批处理大小以及训练轮数。具体参数值如下表所示:
表7实验模型相关参数值
参数名称 参数值
LSTM层神经元个数 100
学习率 5e-5
文本最大长度 300
优化器 Adam
批处理大小 8
训练轮数 10
(5)本发明的验证方法如下:
(5.1)验证带有先验信息的问题能提高事件元素角色抽取。分别基于模板1 和BERT的双向LSTM模型(BTBiLSTM-模板1)、基于模板2和BERT的双向LSTM模型(BTBiLSTM-模板2)、基于模板3和BERT的双向LSTM模型 (BTBiLSTM-模板3)进行实验,使用事件元素分类评价标准对比它们事件元素分类的准确率。
(5.2)验证本发明提出的待抽取文本构造方法可以跨句子抽取事件元素。对待抽取文本构造存在两种方法:1)待抽取文本只为事件句;2)事件句与文本中其它句子结合(跨事件句)。在问题模板3下,分别基于事件句和BERT的 BiLSTM模型(BBiLSTM-事件句)和基于跨事件句和BERT的BiLSTM模型 (BBiLSTM-跨事件句)进行实验,使用事件元素分类评价标准对比各模型事件元素分类的准确率。
(5.3)验证本发明提出基于BERT的双向LSTM模型在事件元素分类提取上的表现优于基于BERT模型,在相同的实验数据下,分别进行基于模板3和 BERT的BiLSTM模型(BTBiLSTM-模板3)和基于模板3和BERT模型(BERT- 模板3)实验,对比各模型事件元素分类的准确率。
(5.4)验证本发明提出的方法有效,将本文事件元素抽取实验结果和前人方法结果进行对比分析。
(6)实验结果分析
(6.1)图4显示是三种模型训练过程中事件元素分类准确率情况。从图4 可以看出,BTBiLSTM-模板3在事件元素提取上表现最好。因为BTBiLSTM-模板1仅仅表示事件元素角色信息,模型正确提取出对应的事件元素比较困难; BTBiLSTM-模板2根据不同事件角色类型设置问题,可以知道文本中所需事件角色类型信息,但对于事件元素的描述还不足够;BTBiLSTM-模板3融入触发词和事件元素角色信息。从上述分析可知,在问题设计上加入触发词和事件元素角色信息表现最好,这也论证了带有先验信息能够提升事件元素提取。
(6.2)本文提出待抽取文本构造方法可以跨句子抽取事件元素。图5记录着BBiLSTM-事件句和BBiLSTM-跨事件句模型在相同轮次训练过程中准确率情况。根据图5,BBiLSTM-事件句模型的召回率高于BBiLSTM-跨事件句模型,而准确率低于跨事件句子。准确率低是因为单个事件句子中缺少一些事件元素,即问题的答案为空,这种情况往往会被预测错误,导致准确率低,而跨句子从多个待检测文本中找出答案,弥补单个事件句子事件元素缺失部分,促使准确率增加。根据上述对比,可以说明本发明的方法能够通过跨事件句找出事件元素。
(6.3)BTBiLSTM-模板3模型在事件元素提取上优于BERT-模板3模型。图6记录着它们训练过程中准确率对比,在相同训练轮数下二个模型事件元素分类准确率变化情况,从中可以看出,在10轮中,BTBiLSTM-模板3的事件元素分类准确率明显高于BERT-模板3模型。由上对比可知,本发明提出基于BERT 的双向LSTM模型在事件元素分类提取上优于基于BERT模型。
(6.4)本发明提出的基于问答系统事件元素抽取方法与前人方法对比
本文方法和前人方法在事件元素分类最好的F1值下,各个模型准确率、召回率结果如下表所示:
表8前人方法和本文方法事件元素分类对比表
Figure RE-GDA0003353500920000171
JRNN为Nguyen等人提出使用双向RNN和手动设计特征来实现事件元素抽取的方法。C-BiLSTM为Zeng等人提出的一种结合LSTM和CNN的卷积双向 LSTM神经网络来获取词汇信息,把事件元素抽取看成多分类任务的方法。 BERT_QA为Du等人提出基于BERT预训练模型以一种问答系统方式从句子范围内抽取事件元素的方法。BERT-模板3为本文复现的BERT_QA模型,唯一区别就是BERT_QA是从事件句找出事件元素,本文BERT跨事件句寻找事件元素,将本文BERT模型作为一个基准。BTBiLSTM-模板3为本文实验结果中最好的模型。从表11可以看出,在事件元素分类上,本文提出的BTBi LSTM-模板3 模型的结果数据都高于其它模型。对比BERT_QA模型、JRNN和C-BiLSTM模型,可知基于问答系统方式提取事件元素表现要好,其原因在于:基于阅读理解方式通过问题编码让模型学习到事件元素角色的先验信息,如触发词信息,在 JRNN和C-BiLSTM模型中没有利用到这些特征。对比本文BERT-模板3和 BERT_QA模型,可以发现准确率明显高于BERT_QA模型,高出约2.8%,其原因在于:句子范围内存在缺失事件元素,即有的问题答案为空,这种情况下往往会被预测错误,根据事件元素分类准确率评价公式可知,在句子范围内提取事件元素导致FP数目增加,而跨句子可以弥补一些答案为空的数目,促使FP数目减少,导致准确率上升。
综上所述,本发明首先根据已知的先验信息构建具有先验信息的事件元素角色问题并作为特征输入到BERT-BiLSTM问答模型,模型从待抽取文本中找出问题答案。然后以事件共指融合对抽取结果中多个相同事件进行融合、消除冗余事件,最后使用TextRank算法计算出每个事件重要性得分,选取得分最高的事件作为核心事件。本发明设计了三种模板构建问答系统的先验问题,通过先验信息的问题让模型学习到语义信息;本发明提出跨句子构造待抽取文本方法,将触发词来源的事件句子和文档中其余句子结合以产生多个待抽取文本;本发明提出了基于BERT预训练模型和双向LSTM模型的问答系统对文档内事件元素进行提取。本发明针对同文档中可能存在多个要性不同的事件的问题,提出了通过TextRank算法计算出每个事件的重要性得分选取核心事件的方法。
经实例验证,本发明可以从多事件、无标题的文本中提取出核心事件,提高了核心事件抽取的效果。

Claims (9)

1.一种基于问答式系统的篇章级核心事件抽取方法,其特征在于,包括以下步骤:
(1)通过BiLSTM-CRF模型对文章进行事件检测,抽取得到文档内事件触发词及对应的类型;
(2)设计不同问题的模板,并生成带有先验信息的问题;
(3)跨句子构造待抽取文本,将触发词来源的事件句子和文档中的其余句子结合,以产生多个待抽取文本;
(4)构造问题,将问题与文本组合起来,从待抽取文本中找出问题的答案;
(5)基于BERT预训练模型和双向LSTM模型的问答系统提取文档内事件触发词对应的事件元素,将每个事件触发词及该触发词对应的事件元素以“(触发词,事件元素)”的格式保存,进而得到文章所有事件触发词以及对应事件元素结果的集合;
(6)对步骤(5)保存的集合进行事件共指融合:对事件触发词和事件元素以补全方式进行融合,即相同事件类型的不同事件触发词、事件元素都保留,相同的触发词、事件元素仅保留一个;
(7)使用TextRank算法对同个文档内多个事件的重要性进行排序,选取核心事件。
2.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(1)中对篇章进行事件检测时流程如下:
将要抽取的文章按照“。!?”进行句子切分,并使用BERT模型对句子进行编码,然后通过BiLSTM-CRF模型对文章所有句子进行事件检测,得到所有事件触发词以及其对应的类型。
3.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(2)中构建先验问题时,定义如下三种问题模板:
模板1:直接使用事件元素角色作为问答系统中的问题;
表示方式如下:
“[事件元素角色]”
模板2:根据事件元素角色的类型使用不同的问题;
表示方式如下:
“[事件元素角色]是[谁/什么]?”
模板3:事件触发词信息;
表示方式如下:
“触发词是[触发词],[事件元素角色]是[谁/什么]?”。
4.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(3)中跨句子构造待抽取文本的具体方式如下:
将一篇文本分为n句话,从这些句子里找到一句触发来源句,将该触发来源句与其他句子分别进行组合拼接,最终得到n-1个待抽取文本。
5.根据权利要求2所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(4)中将问题与文本组合的具体方式如下:
一个触发词需要多个事件元素角色,为每个事件元素角色构造一个问题,每个问题与步骤(3)产生的n-1个待抽取文本进行组合,从这些文本中找出问题的答案。
6.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(5)中提取文档内事件元素的具体方式如下:
(5.1)基于BERT预训练模型进行微调来处理阅读理解和问答任务;在BERT预训练模型后添加双向LSTM层用于捕获文本序列上下文特征;
(5.2)对每个字进行二分类判断其是事件元素的开始还是结束。
7.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(6)中对事件进行共指融合的具体方式如下:
根据事件之间的触发词和类型来判断两个事件是否为同类事件,用补全的方式融合触发词和事件元素角色,保留相同角色的不同元素。
8.根据权利要求1所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,步骤(7)中选取核心事件的具体方式如下:
通过TextRank算法计算出文档内保留词的重要性得分,然后根据每个事件的触发词和其事件元素词计算出每个事件的重要性得分,选取重要性最高的前N个事件作为核心事件。
9.根据权利要求8所述的一种基于问答系统的篇章级核心事件抽取方法,其特征在于,通过TextRank算法计算出文档内保留词的重要性得分的具体步骤如下:
S1:以“。?!”三个字符对文本切分,得到多个句子;
S2:对于每个句子,进行分词和词性标注,过滤停用词,只保留名词、动词和形容词作为候选词;
S3:构建候选关键词图G=(V,E),其中V为节点集合,由S2产生的候选词组成,E是节点的边集合;通过TextRank算法判断两个词之间是否存在连接的方法是:查看某个词是否在当前节点长度为K的窗口中,如果在当前节点的窗口中,则该词与当前节点的候选词存在连接;反之该词与当前节点的候选词不存在连接;
S4:采用如下公式不断迭代,直至收敛:
Figure FDA0003281244180000031
其中,WS(Vi)是节点Vi在一轮迭代后的节点权重值,初始值为1;d为阻尼系数,默认为0.85;In(Vi)表示指向节点Vi的集合,out(Vj)表示节点Vj指出的集合,
Figure FDA0003281244180000032
表示节点i链接到节点j的权重占节点j指向所有链接的权重之和的比例;
TextRank算法计算出保留词的得分,假设一个事件为{c1,c2,...,cn},ci表示第i个词,采用如下公式计算每个事件重要性得分:
Figure FDA0003281244180000033
其中,WSci为事件中ci的重要性得分,若ci不存在保留词中,则得分为0。
CN202111133607.3A 2021-09-27 2021-09-27 一种基于问答式系统的篇章级核心事件抽取方法 Active CN113836269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111133607.3A CN113836269B (zh) 2021-09-27 2021-09-27 一种基于问答式系统的篇章级核心事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111133607.3A CN113836269B (zh) 2021-09-27 2021-09-27 一种基于问答式系统的篇章级核心事件抽取方法

Publications (2)

Publication Number Publication Date
CN113836269A true CN113836269A (zh) 2021-12-24
CN113836269B CN113836269B (zh) 2024-04-02

Family

ID=78970569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111133607.3A Active CN113836269B (zh) 2021-09-27 2021-09-27 一种基于问答式系统的篇章级核心事件抽取方法

Country Status (1)

Country Link
CN (1) CN113836269B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064937A (zh) * 2022-01-14 2022-02-18 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统
CN115115873A (zh) * 2022-06-08 2022-09-27 中国船舶集团有限公司系统工程研究院 基于可微分网络结构搜索的图像分类方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765231A (zh) * 2019-10-11 2020-02-07 南京摄星智能科技有限公司 一种基于共指融合的篇章事件抽取方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111611399A (zh) * 2020-04-15 2020-09-01 广发证券股份有限公司 一种基于自然语言处理的资讯事件图谱化系统及方法
US10769374B1 (en) * 2019-04-24 2020-09-08 Honghui CHEN Answer selection method for question answering system and the system
CN112069811A (zh) * 2020-08-24 2020-12-11 武汉大学 多任务交互增强的电子文本事件抽取方法
CN112507124A (zh) * 2020-12-04 2021-03-16 武汉大学 一种基于图模型的篇章级别事件因果关系抽取方法
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769374B1 (en) * 2019-04-24 2020-09-08 Honghui CHEN Answer selection method for question answering system and the system
CN110765231A (zh) * 2019-10-11 2020-02-07 南京摄星智能科技有限公司 一种基于共指融合的篇章事件抽取方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111611399A (zh) * 2020-04-15 2020-09-01 广发证券股份有限公司 一种基于自然语言处理的资讯事件图谱化系统及方法
CN112069811A (zh) * 2020-08-24 2020-12-11 武汉大学 多任务交互增强的电子文本事件抽取方法
CN112507124A (zh) * 2020-12-04 2021-03-16 武汉大学 一种基于图模型的篇章级别事件因果关系抽取方法
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒲梅;周枫;周晶晶;严馨;周兰江;: "基于加权TextRank的新闻关键事件主题句提取", 计算机工程, no. 08, 15 August 2017 (2017-08-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064937A (zh) * 2022-01-14 2022-02-18 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统
CN115115873A (zh) * 2022-06-08 2022-09-27 中国船舶集团有限公司系统工程研究院 基于可微分网络结构搜索的图像分类方法及装置

Also Published As

Publication number Publication date
CN113836269B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN109885672B (zh) 一种面向在线教育的问答式智能检索系统及方法
CN111708873B (zh) 智能问答方法、装置、计算机设备和存储介质
CN108733742B (zh) 全局归一化阅读器系统和方法
US11238093B2 (en) Video retrieval based on encoding temporal relationships among video frames
CN111783428B (zh) 基于深度学习的应急管理类客观题自动生成系统
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN111428443B (zh) 一种基于实体上下文语义交互的实体链接方法
CN112883175B (zh) 结合预训练模型及模板生成的气象服务交互方法及系统
CN115269857A (zh) 一种基于文档关系抽取的知识图谱构建方法和装置
CN113836269B (zh) 一种基于问答式系统的篇章级核心事件抽取方法
CN115599899B (zh) 基于飞行器知识图谱的智能问答方法、系统、设备及介质
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN113297364A (zh) 一种面向对话系统中的自然语言理解方法及装置
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN111143507A (zh) 一种基于复合式问题的阅读理解方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112818106A (zh) 一种生成式问答的评价方法
CN113282711A (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN115080715B (zh) 基于残差结构和双向融合注意力的跨度提取阅读理解方法
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN113407697A (zh) 深度百科学习的中文医疗问句分类系统
CN114611520A (zh) 一种文本摘要生成方法
CN115017279A (zh) 基于文本语义匹配的Stack Overflow相关问答检索方法
CN114491023A (zh) 一种文本处理方法、装置、电子设备和存储介质
CN111581365A (zh) 一种谓词抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant