CN112507124A - 一种基于图模型的篇章级别事件因果关系抽取方法 - Google Patents
一种基于图模型的篇章级别事件因果关系抽取方法 Download PDFInfo
- Publication number
- CN112507124A CN112507124A CN202011408734.5A CN202011408734A CN112507124A CN 112507124 A CN112507124 A CN 112507124A CN 202011408734 A CN202011408734 A CN 202011408734A CN 112507124 A CN112507124 A CN 112507124A
- Authority
- CN
- China
- Prior art keywords
- event
- index
- text data
- sentence
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 163
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 101100256746 Mus musculus Setdb1 gene Proteins 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 abstract 1
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 2
- 241001134453 Lista Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于图模型的篇章级别事件因果关系抽取方法。本发明进行数据收集并进行训练集合、测试集合的划分;对训练集合进行事件与事件因果关系人工标注;对数据进行预处理操作得到规范化后的输入数据;将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量;将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量;基于包含篇章信息的事件语义向量利用图模型计算事件因果关系;利用梯度下降算法进行训练得到可用于预测事件因果关系的模型。本发明的事件因果关系抽取性能更加优良,且也能推广至其他类型实体关系、事件关系抽取任务之中。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及其中的要素抽取任务,是一种面向自然文本的事件因果关系抽取方法及其计算系统。
背景技术
事件关系抽取是指从自然文本当中自动判断事件之间存在的语义逻辑关系,包括事件关系的类型与方向。作为重要的要素抽取手段之一,事件关系抽取能服务于多种自然语言处理任务与应用,如自动问答、阅读理解、事件预测等。鉴于其重要性,越来越多的研究者开始关注事件关系抽取。
因果关系作为一类重要的事件关系,能反应事件之间的内在逻辑。在自然文本当中,因果关系有显式与隐式两类,其中显式因果关系是指文本当中存在明显的反映因果关系的文字线索,如“由于”、“导致”等;隐式因果关系是指文本当中不存在明显的反应因果关系的文字线索,但是在语义、情景层面蕴涵因果逻辑。其中,后者在实际场景中更为常见,但识别与抽取的难度也更大。目前已有事件关系、实体关系抽取算法主要以句子为粒度已进行要素抽取,且依赖于明显的文本线索,在实际应用中具有局限性。本发明综合利用多种深度学习算法,提出一种基于图模型的篇章级别事件因果关系抽取方法及其计算系统。
发明内容
本发明提出一种基于图模型的篇章级别事件因果关系自动抽取方法及其计算系统,旨在于从非结构化自然文本当中自动捕获事件因果关系的类型与方向,进而服务于智能问答、文本摘要、阅读理解等下游自然语言处理应用。相对于以往方法,本发明不需要人工构造复杂的文本特征,主要基于语言模型、层次注意力模型来建模事件与文本语义信息,并训练图模型来自动捕获事件之间隐含的推理关系。所述技术方案如下:
本发明提出一种基于图模型的篇章级别事件因果关系抽取方法,包括以下步骤:
步骤1:收集篇章文本数据,通过随机抽取算法分别得到多篇文本组成未标注训练数据集合,剩余文本组成预测数据集合;将未标注训练数据集合利用CAT方法进行人工标注,得到包含事件位置下标索引与事件之间对应因果关系的训练数据集合。
步骤2:将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的规范化后的输入数据;
步骤3:将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量。
步骤4:将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量。
步骤5:基于包含篇章信息的事件语义向量利用图模型计算事件因果关系。
步骤6:将步骤3、4、5所述模型利用梯度下降算法进行训练得到可用于预测事件因果关系的模型。
作为优选,步骤1训练数据集合为:
{{Content1,Event_index1,Event_relation1},
{Content2,Event_index2,Event_relation2},…,
{ContentN,Event_indexN,Event_relationN}}
其中,Contentn表示训练数据集合中第n个文本数据,n∈[1,N],N=100为训练数据集合中文本数据的数量
Evet_indexn表示第n个文本数据对应的事件下标索引列表,其定义如下:
其中,Event_index_startn,m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本起始下标,Event_index_endn,m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本终止下标,m∈[1,Mn],Mn表示第n个文本数据中事件数量。
Event_relationn表示第n个文本数据对应的事件因果关系列表,定义如下:
其中,rn,k表示第n个文本数据对应的事件因果关系列表中第k个事件关系,
k∈[1,Mn*(Mn-1)/2],Mn*(Mn-1)/2表示第n个文本数据中共可以组成Mn*(Mn-1)/2个事件关系。
作为优选,步骤2所述将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的数据包括以下步骤:
步骤2.1、将数据集合中每个文本数据即(Content1、Content2、…、ContentN),分别利用正则表达式匹配算法对文本进行无意义内容清洗以及文本分句处理,得到文本句子列表;
步骤2.2、将文本句子列表中的每个句子基于下述步骤转换为BERT语言模型输入需要的索引列表;
利用BERT模型的分词算法得到词片列表;
利用列表插入算法在词片列表收尾项增加“[CLS]”与“[SEP]”标记;
利用BERT模型的字典映射算法得到词片列表对应的索引列表;
第n个文本数据中第ns个句子对应的索引列表定义如下:
[indexn,ns,1,indexn,ns,2,indexn,ns,3,…,indexn,ns,Q-1,indexn,ns,Q]
其中,indexn,ns1表示第n个文本数据中第ns个句子对应的“[CLS]”标记字典映射后得到的索引值,indexn,ns,Q表示第n个文本数据中第ns个句子对应的“[SEP]”标记字典映射后得到的索引值,indexn,ns,Q-1表示第n个文本数据中第ns个句子对应的列表中第Q个词片字典映射后得到的索引值。
作为优选,步骤3所述规范化后的输入数据利用BERT语言模型获得事件与句子的语义向量包括以下步骤:
步骤3.1、将规范化后的输入数据逐句利用BERT语言模型中词嵌入算法、多头自注意力算法,得到各句子的词向量列表。
第n个文本数据中第ns个句子的词向量列表可定义为:
[wn,ns,1,wn,ns,2,wn,ns,3,…,wn,ns,Q-1,wn,ns,Q]。
其中,wn,ns,1表示第n个文本数据中第ns个句子对应的“[CLS]”对应索引计算得到的向量值,wn,ns,Q表示第n个文本数据中第ns个句子对应的“[SEP]”对应索引计算得到的向量值,wn,ns,Q-1表示第n个文本数据中第ns个句子对应的索引列表中第Q个对应索引计算得到的向量值。
步骤3.2、将各句子的词向量列表,利用列表切片操作取出各列表首项向量,作为各句子语义向量。
第n个文本数据中第ns个句子的语义向量可定义为:sn,ns=wn,ns,1。
其中,NSn表示第n个文本数据中句子数量。
步骤3.3、将各句子的词向量列表,按照步骤1.2所述事件位置下标索引逐句取出各事件向量序列,并对事件向量序列求取向量平均值,作为各事件语义向量。
第n个文本数据中第m个事件语义向量可定义为:
其中,Evet_index_startn,m表示步骤1所述第n个文本数据中第m个事件对应的文本起始下标,Evet_index_endn,m表示步骤1所述第n个文本数据中第m个事件对应的文本终止下标。
其中Mn表示第n个文本数据中事件数量。
作为优选,步骤4所述将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量,包括以下步骤:
步骤4.1、通过前述步骤3.2得到的句子语义向量,利用注意力机制计算得到包含篇章信息的句子语义向量。公式如下:
其中,NSn表示第n个文本数据中句子的数量;sn,i表示第n个文本数据中第i个句子语义向量;sn,u表示第n个文本数据中第u个句子语义向量;sdn,i表示sn,i在融合了其他句子信息后的语义向量,即第n个文本数据中第i个包含篇章信息的句子语义向量;Ws是待训练矩阵参数;bs是待训练偏置项参数。
步骤4.2、通过前述步骤3.3得到的事件语义向量与步骤4.1得到的包含篇章信息的句子语义向量,利用注意力机制计算得到包含篇章信息的事件语义向量。公式如下:
其中,NSn表示第n个文本数据中句子的数量;en,i表示第n个文本数据中第i个事件语义向量;edn,u是指步骤4.1中获得的第n个文本数据中第u个包含了篇章信息的句子语义向量;edn,i指en,i在融合了各sdn,u之后的语义向量,即第n个文本数据中第i个包含篇章信息的事件语义向量,Wes是待训练矩阵参数;bes是待训练偏置项参数。
作为优选,步骤5所述包含篇章信息的事件语义向量利用图模型计算事件因果关系包括以下步骤:
步骤5.1:将包含篇章信息的各事件语义向量利用列表插入操作形成事件语义向量列表;
步骤5.2:将事件语义向量列表利用Biaffine算法得到事件因果关系矩阵:
其中,H是事件语义向量列表,U(1)、U(2)分别为第一待训练矩阵参数、第二待训练矩阵参数,b为待训练偏置项参数;
步骤5.3、基于事件因果关系矩阵,利用图模型进行计算得到包含因果推理信息的事件语义向量列表:
其中,表示事件语义向量列表中第i个事件语义向量在第L+1次迭代后得到的新的事件语义向量,表示事件语义向量列表中第i个事件语义向量在第L次迭代时的事件语义向量。Gi表示与事件语义向量列表中第i个事件构成邻接关系的事件集合,cij为该集合所包含事件数量,c表示图中存在的连接关系类型数量,所述连接关系类型包括:无关系、正向因果关系、反向因果关系,Wn是连接关系为n时待训练矩阵参数,bn是连接关系为n时待训练偏置项参数,αn是连接关系为n时信息更新权重。
步骤5.4、基于包含因果推理信息的事件语义向量列表,利用Biaffine算法得到最终事件因果关系预测结果:
其中,H′是包含因果推理信息的事件语义向量列表,U(1)、U(2)、b与步骤5.2中所述参数保持一致。
将Biaffine(H)计算得到的结果经过降维算法得到最终预测结果,定义为:
其中NRn表示第n个文本数据中篇章中预测出的事件数量,NRn=Mn*(Mn-1)/2,Mn为步骤1所述第n个文本数据中事件数量。
作为优选,步骤6.1、将步骤5.4所述最终事件因果关系预测结果与步骤1.2所述事件之间对应因果关系标注结果利用交叉熵算法计算预测损失梯度;
步骤6.2、将预测损失梯度利用梯度下降算法对步骤3-步骤5所述模型进行训练更新;
步骤6.3、执行上述两步骤直到训练终止得到可用于预测事件因果关系的模型;
所述训练终止条件:每轮次训练后,基于训练数据集合,以F1-score为评价指标,进行五折交叉验证,连续多轮次评价指标分数不上升即终止训练。
另一方面,本发明提供一种计算机系统,所述计算机系统至少包括处理器、存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述基于图模型的篇章级别事件因果关系抽取方法。
本发明的有益效果
本发明提出一种基于图模型的篇章级别事件因果关系抽取方法及其计算系统,旨在于从非结构化自然文本当中自动捕获蕴涵的事件因果关系,进而服务于智能问答、文本摘要、阅读理解等下游自然语言处理应用。
本发明解决了以往方法中需要人工构造大量文本特征、依赖语言线索、篇章信息融合能力差、隐含关系捕获能力差等问题,利用预训练语言模型自动捕获事件与文本语义信息,并利用层次注意力机制模型融合篇章信息,以及使用一种新颖的图模型来完成事件关系的推理与预测。实验实例表明,相对于以往方法,本发明的事件因果关系抽取性能更加优良。同时,该方法也能推广至其他类型实体关系、事件关系抽取任务之中。
附图说明
图1:本发明方法流程示意图。
图2:本发明与以往方法的实验结果对比图。
图3:计算系统结构示意图。
具体实施方法
该部分结合实例对本发明所涉及的方法以及计算系统作进一步详细描述。
下面结合图1至图3介绍本发明的具体实施方式。
本发明实施实例按照图1所示的流程示意图进行,包括以下步骤:
一种基于图模型的篇章级别事件因果关系抽取方法,包括以下步骤:
步骤1:收集篇章文本数据,通过随机抽取算法分别得到多篇文本组成未标注训练数据集合,剩余文本组成预测数据集合;将未标注训练数据集合利用CAT方法进行人工标注,得到包含事件位置下标索引与事件之间对应因果关系的训练数据集合。本实例使用EventStoryLine这一开源且已经进行上述标注的数据集进行实施方法介绍。
步骤1训练数据集合为:
{{Content1,Event_index1,Event_relation1},
{Content2,Event_index2,Event_relation2},…,
{ContentN,Event_indexN,Event_relationN}}
其中,Contentn表示训练数据集合中第n个文本数据,n∈[1,N],N=254为训练数据集合中文本数据的数量;
Evet_indexn表示第n个文本数据对应的事件下标索引列表,其定义如下:
其中,Event_index_startn,m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本起始下标,Event_index_endn,m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本终止下标,m∈[1,Mn],Mn表示第n个文本数据中事件数量。
Event_relationn表示第n个文本数据对应的事件因果关系列表,定义如下:
其中,rn,k表示第n个文本数据对应的事件因果关系列表中第k个事件关系,
k∈[1,Mn*(Mn-1)/2],Mn*(Mn-1)/2表示第n个文本数据中共可以组成Mn*(Mn-1)/2个事件关系。
步骤2:将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的规范化后的输入数据;
步骤3:将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量。
步骤4:将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量。
步骤5:基于包含篇章信息的事件语义向量利用图模型计算事件因果关系。
步骤6:将步骤3、4、5所述模型利用梯度下降算法进行训练得到可用于预测事件因果关系的模型。
步骤2所述将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的数据包括以下步骤:
步骤2.1、将数据集合中每个文本数据即(Content1、Content2、…、ContentN),分别利用正则表达式匹配算法对文本进行无意义内容清洗以及文本分句处理,得到文本句子列表;
步骤2.2、将文本句子列表中的每个句子基于下述步骤转换为BERT语言模型输入需要的索引列表;
利用BERT模型的分词算法得到词片列表;
利用列表插入算法在词片列表收尾项增加“[CLS]”与“[SEP]”标记;
利用BERT模型的字典映射算法得到词片列表对应的索引列表;
第n个文本数据中第ns个句子对应的索引列表定义如下:
其中,indexn,ns1表示第n个文本数据中第ns个句子对应的“[CLS]”标记字典映射后得到的索引值,indexn,ns,Q表示第n个文本数据中第ns个句子对应的“[SEP]”标记字典映射后得到的索引值,indexn,ns,Q-1表示第n个文本数据中第ns个句子对应的列表中第Q个词片字典映射后得到的索引值。
步骤3所述规范化后的输入数据利用BERT语言模型获得事件与句子的语义向量包括以下步骤:
步骤3.1、将规范化后的输入数据逐句利用BERT语言模型中词嵌入算法、多头自注意力算法,得到各句子的词向量列表。
第n个文本数据中第ns个句子的词向量列表可定义为:
[wn,ns,1,wn,ns,2,wn,ns,3,…,wn,ns,Q-1,wn,ns,Q]。
其中,wn,ns,1表示第n个文本数据中第ns个句子对应的“[CLS]”对应索引计算得到的向量值,wn,ns,Q表示第n个文本数据中第ns个句子对应的“[SEP]”对应索引计算得到的向量值,wn,ns,Q-1表示第n个文本数据中第ns个句子对应的索引列表中第Q个对应索引计算得到的向量值。
步骤3.2、将各句子的词向量列表,利用列表切片操作取出各列表首项向量,作为各句子语义向量。
第n个文本数据中第ns个句子的语义向量可定义为:sn,ns=wn,ns,1。
其中,NSn表示第n个文本数据中句子数量。
步骤3.3、将各句子的词向量列表,按照步骤1.2所述事件位置下标索引逐句取出各事件向量序列,并对事件向量序列求取向量平均值,作为各事件语义向量。
第n个文本数据中第m个事件语义向量可定义为:
其中,Evet_index_startn,m表示步骤1所述第n个文本数据中第m个事件对应的文本起始下标,Evet_index_endn,m表示步骤1所述第n个文本数据中第m个事件对应的文本终止下标。
第n个文本数据中所有事件语义向量组成的事件语义向量列表定义为:
其中Mn表示第n个文本数据中事件数量。
步骤4所述将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量,包括以下步骤:
步骤4.1、通过前述步骤3.2得到的句子语义向量,利用注意力机制计算得到包含篇章信息的句子语义向量。公式如下:
其中,NSn表示第n个文本数据中句子的数量;sn,i表示第n个文本数据中第i个句子语义向量;sn,u表示第n个文本数据中第u个句子语义向量;sdn,i表示sn,i在融合了其他句子信息后的语义向量,即第n个文本数据中第i个包含篇章信息的句子语义向量;Ws是待训练矩阵参数;bs是待训练偏置项参数。
步骤4.2、通过前述步骤3.3得到的事件语义向量与步骤4.1得到的包含篇章信息的句子语义向量,利用注意力机制计算得到包含篇章信息的事件语义向量。公式如下:
其中,NSn表示第n个文本数据中句子的数量;en,i表示第n个文本数据中第i个事件语义向量;sdn,u是指步骤4.1中获得的第n个文本数据中第u个包含了篇章信息的句子语义向量;edn,i指en,i在融合了各sdn,u之后的语义向量,即第n个文本数据中第i个包含篇章信息的事件语义向量,Wes是待训练矩阵参数;bes是待训练偏置项参数。
步骤5所述包含篇章信息的事件语义向量利用图模型计算事件因果关系包括以下步骤:
步骤5.1:将包含篇章信息的各事件语义向量利用列表插入操作形成事件语义向量列表;
步骤5.2:将事件语义向量列表利用Biaffine算法得到事件因果关系矩阵:
其中,H是事件语义向量列表,U(1)、U(2)分别为第一待训练矩阵参数、第二待训练矩阵参数,b为待训练偏置项参数;
步骤5.3、基于事件因果关系矩阵,利用图模型进行计算得到包含因果推理信息的事件语义向量列表:
其中,L=2为迭代总次数;表示事件语义向量列表中第i个事件语义向量在第L+1次迭代后得到的新的事件语义向量,表示事件语义向量列表中第i个事件语义向量在第L次迭代时的事件语义向量。Gi表示与事件语义向量列表中第i个事件构成邻接关系的事件集合,cij为该集合所包含事件数量,c=3表示图中存在的连接关系类型数量,所述连接关系类型包括:无关系、正向因果关系、反向因果关系,Wn是连接关系为n时待训练矩阵参数,bn是连接关系为n时待训练偏置项参数,αn是连接关系为n时信息更新权重。
步骤5.4、基于包含因果推理信息的事件语义向量列表,利用Biaffine算法得到最终事件因果关系预测结果:
其中,H′是包含因果推理信息的事件语义向量列表,U(1)、U(2)、b与步骤5.2中所述参数保持一致。
将Biaffine(H′)计算得到的结果经过降维算法得到最终预测结果,定义为:
其中NRn表示第n个文本数据中篇章中预测出的事件数量,NRn=Mn*(Mn-1)/2,Mn为步骤1所述第n个文本数据中事件数量。
步骤6:将步骤3-步骤5所述模型利用梯度下降算法进行训练得到可用于预测事件因果关系的模型包括以下步骤:
步骤6.1、将步骤5.4所述最终事件因果关系预测结果与步骤1.2所述事件之间对应因果关系标注结果利用交叉熵算法计算预测损失梯度;
步骤6.2、将预测损失梯度利用梯度下降算法对步骤3-步骤5所述模型进行训练更新;
步骤6.3、执行上述两步骤直到训练终止得到可用于预测事件因果关系的模型;
所述训练终止条件:每轮次训练后,基于训练数据集合,以F1-score为评价指标,进行五折交叉验证,连续多轮次评价指标分数不上升即终止训练。
图2展示了本专利提出的技术方案(表格中最下方的DCGIM模型)与其它算法模型在Event Storyline数据集上的结果对比,可以看出,本专利提出的方案具有更好的事件因果关系抽取性能。
在计算系统方面,本发明提供的方法,各步骤的执行依托于计算系统。该计算系统至少包括处理器以及存储器,存储器用于存储计算程序指令,处理器用于运行程序指令并执行上述基于图模型的篇章级别事件因果关系抽取方法。一般来说,具备数据计算、处理和存储能力的电子设备都可以用作本发明的计算系统,如个人计算机、服务器或移动终端等。
图3展示了本实例所使用的一种计算系统结构示意图。其中设备包括中央处理单元(CPU)、图形处理单元(GPU)、系统存储器,系统存储器又包括随机存取存储器(RAM)和只读存储器(ROM)。上述组件由系统总线相连,帮助实现各单元之间的通信。此外,该计算系统还可以包括操作系统、应用程序、输入/输出系统等其他组成部分。
所述系统存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行。在上述实例中处理器个数为四(四核处理器)。
所述图形处理单元(GPU)可用于加速本专利所述方法的训练、执行效率,其使用方法是在程序运行时指定计算系统的某一图形处理单元为程序执行单元,需要注意该图形处理单元的存储空间大小不能小于程序所需存储空间大小,本专利所述实例在11G存储空间的图形处理单元中运行。
所述输入/输出系统包括用于显示信息的显示器等输出设备和用于用户输入信息的鼠标、键盘等输入设备。其中所述输入/输出设备都连接至输入输出控制器,进而接入系统总线。输入输出控制器可用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。
所述应用程序用于启动某个特定的待执行程序,可以看作是一种计算机程序产品,当该计算机程序产品被执行时,其用于实现上述实例提供的基于图模型的篇章级别事件因果关系抽取方法。
本发明未尽事宜为公知技术。上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于图模型的篇章级别事件因果关系抽取方法,其特征在于,包括以下步骤:
步骤1:收集篇章文本数据,通过随机抽取算法分别得到多篇文本组成未标注训练数据集合,剩余文本组成预测数据集合;将未标注训练数据集合利用CAT方法进行人工标注,得到包含事件位置下标索引与事件之间对应因果关系的训练数据集合;
步骤2:将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的规范化后的输入数据;
步骤3:将规范化后的输入数据通过BERT语言模型获得事件与句子的语义向量;
步骤4:将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量;
步骤5:基于包含篇章信息的事件语义向量利用图模型计算事件因果关系;
步骤6:将步骤3、4、5所述模型利用梯度下降算法进行训练得到可用于预测事件因果关系的模型。
2.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法,其特征在于:
步骤1训练数据集合为:
{{Content1,Event_index1,Event_relation1},{Content2,Event_index2,Event_relation2},…,{ContentN,Event_indexN,Event_relationN}}
其中,Contentn表示训练数据集合中第n个文本数据,n∈[1,N],N=100为训练数据集合中文本数据的数量
Evet_indexn表示第n个文本数据对应的事件下标索引列表,其定义如下:
其中,Event_index_startn,m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本起始下标,Event_index_endn,m表示第n个文本数据对应的事件下标索引列表中第m个事件对应的文本终止下标,m∈[1,Mn],Mn表示第n个文本数据中事件数量;
Event_relationn表示第n个文本数据对应的事件因果关系列表,定义如下:
其中,rn,k表示第n个文本数据对应的事件因果关系列表中第k个事件关系,
k∈[1,Mn*(Mn-1)/2],Mn*(Mn-1)/2表示第n个文本数据中共可以组成Mn*(Mn-1)/2个事件关系。
3.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法,其特征在于:
步骤2所述将训练数据集合中每个文本数据进行数据预处理得到符合BERT语言模型输入规范的数据包括以下步骤:
步骤2.1、将数据集合中每个文本数据即(Content1、Content2、…、ContentN),分别利用正则表达式匹配算法对文本进行无意义内容清洗以及文本分句处理,得到文本句子列表;
步骤2.2、将文本句子列表中的每个句子基于下述步骤转换为BERT语言模型输入需要的索引列表;
利用BERT模型的分词算法得到词片列表;
利用列表插入算法在词片列表收尾项增加“[CLS]”与“[SEP]”标记;
利用BERT模型的字典映射算法得到词片列表对应的索引列表;
第n个文本数据中第ns个句子对应的索引列表定义如下:
[indexn,ns,1,indexn,ns,2,indexn,ns,3,…,indexn,ns,Q-1,indexn,ns,Q]
其中,indexn,ns1表示第n个文本数据中第ns个句子对应的“[CLS]”标记字典映射后得到的索引值,indexn,ns,Q表示第n个文本数据中第ns个句子对应的“[SEP]”标记字典映射后得到的索引值,indexn,ns,Q-1表示第n个文本数据中第ns个句子对应的列表中第Q个词片字典映射后得到的索引值。
4.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法,其特征在于:
步骤3所述规范化后的输入数据利用BERT语言模型获得事件与句子的语义向量包括以下步骤:
步骤3.1、将规范化后的输入数据逐句利用BERT语言模型中词嵌入算法、多头自注意力算法,得到各句子的词向量列表;
第n个文本数据中第ns个句子的词向量列表可定义为:
[wn,ns,1,wn,ns,2,wn,ns,3,…,wn,ns,Q-1,wn,ns,Q];
其中,wn,ns,1表示第n个文本数据中第ns个句子对应的“[CLS]”对应索引计算得到的向量值,wn,ns,Q表示第n个文本数据中第ns个句子对应的“[SEP]”对应索引计算得到的向量值,wn,ns,Q-1表示第n个文本数据中第ns个句子对应的索引列表中第Q个对应索引计算得到的向量值;
步骤3.2、将各句子的词向量列表,利用列表切片操作取出各列表首项向量,作为各句子语义向量;
第n个文本数据中第ns个句子的语义向量可定义为:sn,ns=wn,ns,1;
其中,NSn表示第n个文本数据中句子数量;
步骤3.3、将各句子的词向量列表,按照步骤1.2所述事件位置下标索引逐句取出各事件向量序列,并对事件向量序列求取向量平均值,作为各事件语义向量;
第n个文本数据中第m个事件语义向量可定义为:
其中,Evet_index_startn,m表示步骤1所述第n个文本数据中第m个事件对应的文本起始下标,Evet_index_endn,m表示步骤1所述第n个文本数据中第m个事件对应的文本终止下标;
其中Mn表示第n个文本数据中事件数量。
5.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法,其特征在于:
步骤4所述将事件与句子的语义向量利用层次注意力机制获取包含篇章信息的事件语义向量,包括以下步骤:
步骤4.1、通过前述步骤3.2得到的句子语义向量,利用注意力机制计算得到包含篇章信息的句子语义向量;公式如下:
其中,NSn表示第n个文本数据中句子的数量;sn,i表示第n个文本数据中第i个句子语义向量;sn,u表示第n个文本数据中第u个句子语义向量;sdn,i表示sn,i在融合了其他句子信息后的语义向量,即第n个文本数据中第i个包含篇章信息的句子语义向量;Ws是待训练矩阵参数;bs是待训练偏置项参数;
步骤4.2、通过前述步骤3.3得到的事件语义向量与步骤4.1得到的包含篇章信息的句子语义向量,利用注意力机制计算得到包含篇章信息的事件语义向量;公式如下:
其中,NSn表示第n个文本数据中句子的数量;en,i表示第n个文本数据中第i个事件语义向量;sdn,u是指步骤4.1中获得的第n个文本数据中第u个包含了篇章信息的句子语义向量;edn,i指en,i在融合了各sdn,u之后的语义向量,即第n个文本数据中第i个包含篇章信息的事件语义向量,Wes是待训练矩阵参数;bes是待训练偏置项参数。
6.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法,其特征在于:
步骤5所述包含篇章信息的事件语义向量利用图模型计算事件因果关系包括以下步骤:
步骤5.1:将包含篇章信息的各事件语义向量利用列表插入操作形成事件语义向量列表;
步骤5.2:将事件语义向量列表利用Biaffine算法得到事件因果关系矩阵:
其中,H是事件语义向量列表,U(1)、U(2)分别为第一待训练矩阵参数、第二待训练矩阵参数,b为待训练偏置项参数;
步骤5.3、基于事件因果关系矩阵,利用图模型进行计算得到包含因果推理信息的事件语义向量列表:
其中,表示事件语义向量列表中第i个事件语义向量在第L+1次迭代后得到的新的事件语义向量,表示事件语义向量列表中第i个事件语义向量在第L次迭代时的事件语义向量;Gi表示与事件语义向量列表中第i个事件构成邻接关系的事件集合,cij为该集合所包含事件数量,c表示图中存在的连接关系类型数量,所述连接关系类型包括:无关系、正向因果关系、反向因果关系,Wn是连接关系为n时待训练矩阵参数,bn是连接关系为n时待训练偏置项参数,αn是连接关系为n时信息更新权重;
步骤5.4、基于包含因果推理信息的事件语义向量列表,利用Biaffine算法得到最终事件因果关系预测结果:
其中,H′是包含因果推理信息的事件语义向量列表,U(1)、U(2)、b与步骤5.2中所述参数保持一致;
将Biaffine(H′)计算得到的结果经过降维算法得到最终预测结果,定义为:
其中NRn表示第n个文本数据中篇章中预测出的事件数量,NRn=Mn*(Mn-1)/2,Mn为步骤1所述第n个文本数据中事件数量。
7.根据权利要求1所述的基于图模型的篇章级别事件因果关系抽取方法,其特征在于:
步骤6.1、将步骤5.4所述最终事件因果关系预测结果与步骤1.2所述事件之间对应因果关系标注结果利用交叉熵算法计算预测损失梯度;
步骤6.2、将预测损失梯度利用梯度下降算法对步骤3-步骤5所述模型进行训练更新;
步骤6.3、执行上述两步骤直到训练终止得到可用于预测事件因果关系的模型;
所述训练终止条件:每轮次训练后,基于训练数据集合,以F1-score为评价指标,进行五折交叉验证,连续多轮次评价指标分数不上升即终止训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011408734.5A CN112507124B (zh) | 2020-12-04 | 2020-12-04 | 一种基于图模型的篇章级别事件因果关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011408734.5A CN112507124B (zh) | 2020-12-04 | 2020-12-04 | 一种基于图模型的篇章级别事件因果关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507124A true CN112507124A (zh) | 2021-03-16 |
CN112507124B CN112507124B (zh) | 2024-03-19 |
Family
ID=74971740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011408734.5A Active CN112507124B (zh) | 2020-12-04 | 2020-12-04 | 一种基于图模型的篇章级别事件因果关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507124B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836269A (zh) * | 2021-09-27 | 2021-12-24 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN114265943A (zh) * | 2021-12-24 | 2022-04-01 | 吉林大学 | 一种因果关系事件对提取方法及系统 |
CN114492460A (zh) * | 2022-04-08 | 2022-05-13 | 东南大学 | 基于衍生提示学习的事件因果关系抽取方法 |
CN115577678A (zh) * | 2022-09-21 | 2023-01-06 | 中国人民解放军海军工程大学 | 文档级事件因果关系识别方法、系统、介质、设备及终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100235165A1 (en) * | 2009-03-13 | 2010-09-16 | Invention Machine Corporation | System and method for automatic semantic labeling of natural language texts |
CN111651983A (zh) * | 2020-05-12 | 2020-09-11 | 哈尔滨工业大学 | 一种基于自训练与噪声模型的因果事件抽取方法 |
CN111709244A (zh) * | 2019-11-20 | 2020-09-25 | 中共南通市委政法委员会 | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 |
CN111767408A (zh) * | 2020-05-27 | 2020-10-13 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
-
2020
- 2020-12-04 CN CN202011408734.5A patent/CN112507124B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100235165A1 (en) * | 2009-03-13 | 2010-09-16 | Invention Machine Corporation | System and method for automatic semantic labeling of natural language texts |
CN102439590A (zh) * | 2009-03-13 | 2012-05-02 | 发明机器公司 | 用于自然语言文本的自动语义标注的系统和方法 |
CN111709244A (zh) * | 2019-11-20 | 2020-09-25 | 中共南通市委政法委员会 | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 |
CN111651983A (zh) * | 2020-05-12 | 2020-09-11 | 哈尔滨工业大学 | 一种基于自训练与噪声模型的因果事件抽取方法 |
CN111767408A (zh) * | 2020-05-27 | 2020-10-13 | 青岛大学 | 一种基于多种神经网络集成的因果事理图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
YI GUO等: "Cognitive Causality Detection with Associative Memory in Textual Events", 《IEEE:2009 INTERNATIONAL SYMPOSIUM ON INFORMATION ENGINEERING AND ELECTRONIC COMMERCE》, 28 July 2009 (2009-07-28), pages 140 * |
杨竣辉等: "基于语义事件因果关系识别", 《小型微型计算机系统》, vol. 37, no. 3, 31 March 2016 (2016-03-31), pages 433 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836269A (zh) * | 2021-09-27 | 2021-12-24 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN113836269B (zh) * | 2021-09-27 | 2024-04-02 | 河海大学 | 一种基于问答式系统的篇章级核心事件抽取方法 |
CN114265943A (zh) * | 2021-12-24 | 2022-04-01 | 吉林大学 | 一种因果关系事件对提取方法及系统 |
CN114492460A (zh) * | 2022-04-08 | 2022-05-13 | 东南大学 | 基于衍生提示学习的事件因果关系抽取方法 |
CN114492460B (zh) * | 2022-04-08 | 2022-07-12 | 东南大学 | 基于衍生提示学习的事件因果关系抽取方法 |
CN115577678A (zh) * | 2022-09-21 | 2023-01-06 | 中国人民解放军海军工程大学 | 文档级事件因果关系识别方法、系统、介质、设备及终端 |
CN115577678B (zh) * | 2022-09-21 | 2024-04-02 | 中国人民解放军海军工程大学 | 文档级事件因果关系识别方法、系统、介质、设备及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN112507124B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020114429A1 (zh) | 关键词提取模型训练方法、关键词提取方法及计算机设备 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN109299237B (zh) | 基于行动者评论家强化学习算法的循环网络人机对话方法 | |
CN109657226B (zh) | 多联结注意力的阅读理解模型、系统及方法 | |
CN112507124A (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN112101031B (zh) | 一种实体识别方法、终端设备及存储介质 | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
JP2022145623A (ja) | ヒント情報を提示する方法及び装置並びにコンピュータプログラム | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN112287672A (zh) | 文本意图识别方法及装置、电子设备、存储介质 | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN110991175A (zh) | 多模态下的文本生成方法、系统、设备及存储介质 | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN115906835B (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN112215005A (zh) | 实体识别方法及装置 | |
CN115687576B (zh) | 一种主题约束表示的关键词抽取方法及装置 | |
CN116756605A (zh) | 一种基于ernie_cn-gru语步自动识别方法、系统、设备及介质 | |
CN116186219A (zh) | 一种人机对话交互方法方法、系统及存储介质 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |