CN111881688B - 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置 - Google Patents
基于屏蔽泛化机制的事件因果关系识别方法、系统、装置 Download PDFInfo
- Publication number
- CN111881688B CN111881688B CN202010801363.0A CN202010801363A CN111881688B CN 111881688 B CN111881688 B CN 111881688B CN 202010801363 A CN202010801363 A CN 202010801363A CN 111881688 B CN111881688 B CN 111881688B
- Authority
- CN
- China
- Prior art keywords
- feature
- event
- input text
- entity information
- causal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000000694 effects Effects 0.000 claims abstract description 36
- 238000013145 classification model Methods 0.000 claims abstract description 30
- 230000000873 masking effect Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于自然语言处理技术领域,具体涉及一种基于屏蔽泛化机制的事件因果关系识别方法、系统、装置,旨在解决模型训练困难以及事件因果关系识别鲁棒性较差的问题。本发明方法包括:获取待识别事件因果关系的文本,作为输入文本;通过BERT模型提取输入文本与因果事件的实体信息对应的三元组集合融合后的特征,作为第一特征;通过BERT模型提取输入文本中未屏蔽信息的特征,作为第二特征;将第一特征、第二特征进行融合,将融合后的特征作为第三特征;基于第三特征,通过预构建的分类模型获取输入文本中事件因果关系的识别结果。本发明简化了模型训练的难度,并提高了事件因果关系识别的鲁棒性。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于屏蔽泛化机制的事件因果关系识别方法、系统、装置。
背景技术
互联网的发展让信息的获取变得容易。人们无时无刻都会接触来自各个领域的海量信息。如何从这些海量信息中快速发现有用的信息是目前亟需解决的问题之一。
事件因果关系识别旨在从无结构化文本中发现事件因果关系,它是信息抽取的一个重要子任务。例如,对于文本“地震引发强烈的海啸”,一个事件因果关系识别模型应该从中推断出:“地震”和“海啸”这两个事件之间具有因果关系。事件因果关系识别对于事件预测、灾害预警、因果分析等方面具有重要意义。
尽管事件因果关系识别非常重要,现有的研究相对较少。其中一个主要难点在于现有的标注数据集普遍较小,很难从中学习一个很好的统计模型。另外,现有的方法在事件因果关系识别过程中往往只利用文本进行特征提取,它们忽视了对于事件因果关系识别非常重要的背景知识。基于此,本发明提出了一种基于屏蔽泛化机制的事件因果关系识别方法。
发明内容
为了解决现有技术中的上述问题,即为了解决因标注数据集较少,导致事件因果关系识别模型训练较为困难;以及忽视背景知识,导致事件因果关系识别模型的鲁棒性较差的问题,本发明提出了一种基于屏蔽泛化机制的事件因果关系识别方法,该方法包括:
步骤S10,获取待识别事件因果关系的文本,作为输入文本;
步骤S20,提取所述输入文本中因果事件的实体信息;通过外部知识库获取各实体信息对应的三元组集合,并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征,作为第一特征;
步骤S30,利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽,并通过BERT模型提取所述输入文本中未屏蔽信息的特征,作为第二特征;
步骤S40,通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征;
步骤S50,基于所述第三特征,通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果;所述分类模型基于深度神经网络构建;
所述外部知识库为存储实体对应的三元组集合的数据库。
在一些优选的实施方式中,步骤S20中“通过BERT模型提取所述输入文本与所述三元组集合融合后的特征”,其方法为:通过BERT模型分别提取所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征;所述因果事件的实体信息包括原因事件实体信息、结果事件实体信息。
在一些优选的实施方式中,步骤S30中“通过BERT模型提取所述输入文本中未屏蔽信息的特征”,其方法为:通过BERT模型分别提取输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征。
在一些优选的实施方式中,步骤S40中“通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征”,其方法为:
步骤S41,将所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征进行拼接,作为第一联合特征;
步骤S42,将输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征进行拼接,得到第二联合特征;
步骤S43,将所述第一联合特征、所述第二联合特征进行融合,得到第三特征。
在一些优选的实施方式中,“将所述第一联合特征、所述第二联合特征进行融合,得到第三特征”,其方法为:
T=g·C+(1-g)·D
g=w*[C+D]+b
其中,T表示第三特征,C表示第一联合特征,D表示第二联合特征,w表示注意力网络的权重向量,b表示注意力网络的权重偏置项。
在一些优选的实施方式中,步骤S50中“通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果”,其方法为:基于所述第三特征,通过预构建的分类模型获取所述输入文本中因果事件的实体信息的概率权重,若该概率权重大于设定的阈值,则认为原因事件实体信息、结果事件实体信息表达了因果关系。
在一些优选的实施方式中,“通过预构建的分类模型获取所述输入文本中因果事件信息的概率权重”,其方法为:
p=wo*T+bo
其中,wo、bo分别表示分类模型的权重向量、权重偏置项,T表示第三特征,p表示输入文本中因果事件的实体信息的概率权重。
本发明的第二方面,提出了一种基于屏蔽泛化机制的事件因果关系识别系统,该系统包括:文本获取模块、知识增强模块、屏蔽泛化模块、特征融合模块、分类输出模块;
所述文本获取模块,配置为获取待识别事件因果关系的文本,作为输入文本;
所述知识增强模块,配置为提取所述输入文本中因果事件的实体信息;通过外部知识库获取各实体信息对应的三元组集合,并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征,作为第一特征;
所述屏蔽泛化模块,配置为利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽,并通过BERT模型提取所述输入文本中未屏蔽信息的特征,作为第二特征;
所述特征融合模块,配置为通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征;
所述分类输出模块,配置为基于所述第三特征,通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果;所述分类模型基于深度神经网络构建;
所述外部知识库为存储实体对应的三元组集合的数据库。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的基于屏蔽泛化机制的事件因果关系识别方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于屏蔽泛化机制的事件因果关系识别方法。
本发明的有益效果:
本发明简化了模型训练的难度,并提高了事件因果关系识别的鲁棒性。本发明一方面通过外部知识库对输入文本进行知识扩充,获得因果事件的知识增强特征,增强因果事件的表示,另一方面利用屏蔽机制对文本中的事件信息进行屏蔽,以获得与因果事件信息无关的特征,学习更具泛化性的事件无关表示。将获取的知识增强特征、事件无关特征进行融合,可以极大提升因果关系识别的鲁棒性,并降低了因标注数据较少导致识别模型的训练难度。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于屏蔽泛化机制的事件因果关系识别方法的流程示意图;
图2为本发明一种实施例的基于屏蔽泛化机制的事件因果关系识别系统的框架示意图;
图3是本发明一种实施例的基于屏蔽泛化机制的事件因果关系识别方法的简略结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明第一实施例的一种基于屏蔽泛化机制的事件因果关系识别方法,如图1所示,该方法包括以下步骤:
步骤S10,获取待识别事件因果关系的文本,作为输入文本;
步骤S20,提取所述输入文本中因果事件的实体信息;通过外部知识库获取各实体信息对应的三元组集合,并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征,作为第一特征;
步骤S30,利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽,并通过BERT模型提取所述输入文本中未屏蔽信息的特征,作为第二特征;
步骤S40,通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征;
步骤S50,基于所述第三特征,通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果;所述分类模型基于深度神经网络构建;
所述外部知识库为存储实体对应的三元组集合的数据库。
为了更清晰地对本发明基于屏蔽泛化机制的事件因果关系识别方法进行说明,下面对本发明方法一种实施例中各步骤进行展开详述。
步骤S10,获取待识别事件因果关系的文本,作为输入文本;
在本实施例中,获取待处理的文本,即待识别事件因果关系的文本,作为输入文本。
步骤S20,提取所述输入文本中因果事件的实体信息;通过外部知识库获取各实体信息对应的三元组集合,并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征,作为第一特征;
在本实施例中,根据输入文本的内容,从外部知识库中提取和文本中表述的因果事件相关联的知识,把提取到的知识与输入文本内容进行融合,以学习知识增强的特征表示,如图3所示,图3中的其余部分在下文中描述。具体如下:
假设待识别事件因果关系的文本为“地震引发强烈的海啸”,提取该文本中因果事件的实体信息(包括原因事件的实体信息,结果事件的实体信息),即提取到的原因事件的实体信息为“地震”、结果事件的实体信息为“海啸”。
基于提取到的原因事件的实体信息、结果事件的实体信息,通过外部知识库获取各实体信息对应的三元组集合。例如:关于“地震”事件提取的一条三元组为“地震->自然灾害”,这种背景知识对于事件因果关系识别非常重要,但它们可能并没有被包含在待识别的文本中。
其中,外部知识库为存储实体对应的三元组集合的数据库。本发明中外部知识库优选采用ConceptNet知识库。
在获取各实体信息对应的三元组集合后,将他们嵌入在输入文本中,以学习事件的增强表示。本发明加入两个特殊的符号<S></S>,以区分输入文本中的原文本内容与三元组集合对应的知识信息,比如把“地震->自然灾害”这一知识信息嵌入融合到输入文本后,得到的结果为:
“地震<S>地震->自然灾害<S>引发强烈的海啸”。
利用融合后的文本,可以学习知识的事件特征表示,它们更具表征力。本发明通过BERT模型提取融合后的文本的特征,作为第一特征。其中第一特征包括原因事件知识增强特征、结果事件知识增强特征,原因事件知识增强特征为输入文本与原因事件实体信息对应的三元组集合融合后的特征,结果事件知识增强特征为输入文本与结果事件实体信息对应的三元组集合融合后的特征,本实施例中将关于“地震”和“海啸”学习到的知识增强特征表示记为F地震和F海啸。
步骤S30,利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽,并通过BERT模型提取所述输入文本中未屏蔽信息的特征,作为第二特征;
在本实施例中,利用屏蔽机制对输入文本中的因果事件的实体信息进行屏蔽,以学习与因果事件无关的特征表示,如图3所示,这种特征更具泛化性。具体如下:
对输入文本“地震引发强烈的海啸”,把因果事件表示词“地震”和“海啸”进行显示地屏蔽,把它们替换成一个特征符号[MASK]。由此可以得到:
“[MASK]引发强烈的[MASK]”
采用这种方法的目的是学习与事件无关的特征表示,以增强模型的泛化性。例如,以上特征可以用来识别“讲话”和“争议”的事件因果关系:“讲话引发强烈的争议”,通过BERT模型提取屏蔽因果事件表示词后的特征,作为第二特征,第二特征包括原因事件无关特征、结果事件无关特征,原因事件无关特征为提取输入文本中不包含原因事件实体信息的特征;结果事件无关特征为提取输入文本中不包含结果事件实体信息的特征。本实施例中将学习到的关于“地震”和“海啸”的事件无关的特征表示记为H地震和H海啸,即分别提取“[MASK]引发强烈的海啸”,“地震引发强烈的[MASK]”的文本的特征。
另外本发明中的屏蔽机制即将输入文本中的因果事件的实体信息进行屏蔽,
步骤S40,通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征;
在本实施例中,利用注意力机制建模第一特征和第二特征的权重,以进行以上两种特征的融合。具体如下:
步骤S41,将原因事件知识增强特征、结果事件知识增强特征进行拼接,作为第一联合特征;
步骤S42,将原因事件无关特征、结果事件无关特征进行拼接,作为第二联合特征;
步骤S43,将第一联合特征、第二联合特征进行融合,得到第三特征。
例如上述文中提出的特征F地震、F海啸以及H地震、H海啸,将“地震”、“海啸”事件知识增强特征,即第一联合特征记为C, 代表向量拼接操作。将“地震”、“海啸”事件无关特征的联合特征,即第二联合特征记为D,
利用注意力机制建模C和D,以进行特征融合。具体如下:
利用注意力网络,计算一个特征权重g,如式(1)所示:
g=w*[C+D]+b (1)
其中,C表示第一联合特征,D表示第二联合特征,w表示注意力网络的权重向量,b表示注意力网络的权重偏置项。
基于特征权重,将第一联合特征、第二联合特征进行融合,得到第三特征,如式(2)所示:
T=g·C+(1-g)·D (2)
其中,T表示第三特征,·代表标量与向量相乘操作。
步骤S50,基于所述第三特征,通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果;所述分类模型基于深度神经网络构建。
在本实施例中,基于深度神经网络构建分类模型,以融合后的特征作为输入,计算一个概率权重,以表征所关注的事件是否具有因果关系,并进行最终的事件因果关系的识别。具体如下:
基于第三特征,通过预构建的分类模型获取输入文本中因果事件的实体信息的概率权重,若该概率权重大于设定的阈值,则认为原因事件实体信息、结果事件实体信息表达了因果关系。
其中,通过预构建的分类模型获取输入文本中因果事件信息的概率权重,如式(3)所示:
p=wo*T+bo (3)
其中,wo、bo分别表示分类模型的权重向量、权重偏置项,p表示输入文本中因果事件的实体信息的概率权重。
在本发明中,优选设定的阈值为0.5,即如果p的值大于0.5,认为两个事件表达因果关系;否则,不表达因果关系。分类模型在训练时,采用随机梯度下降的方法进行模型参数学习。
另外,为验证本发明的有效性,使用公开数据集EventStoryLine对本发明方法进行评测。该数据集共包含258篇标注文档,分为12个主题。总有5334个事件,形成7805个事件对(只考虑句内事件对),其中1770个事件对之间具有因果关系。使用10折交叉验证评测方法的性能。本发明方法与现有方法的对比结果如表1所示:
表1
表1中PRE、REC表示、F1表示各方法(METHODS)在公开数据集EventStoryLine的精确率、召回率和F1得分指标,其中,OP[Caselli and Vossen,2017]为基于二项匹配的事件因果关系识别方法,LSTM[Cheng and Miyao,2017]为基于LSTM网络的事件因果关系识别方法,Seq[Cheng and Miyao,2017]为基于序列标注的事件因果关系识别方法,LR+[Gao etal,2019]为基于整数线性规划以及篇章信息的事件因果关系识别方法,LIP[Gao et al,2019]为基于整数线性规划的事件因果关系识别方法,BERT为基于BERT网络的事件因果关系识别方法,MKG[Ours]表示仅使用本发明知识增强特征表示的实验结果,MMMR[Ours]表示仅使用本发明事件无关的特征表示的实验结果,MFULL[Ours]表示本发明方法的实验结果,从实验结果可以看到,基于屏蔽泛化机制的事件因果关系识别方法在该任务上较已有方法具有显著提升。
本发明第二实施例的一种基于屏蔽泛化机制的事件因果关系识别系统,如图2所示,包括:文本获取模块100、知识增强模块200、屏蔽泛化模块300、特征融合模块400、分类输出模块500;
所述文本获取模块100,配置为获取待识别事件因果关系的文本,作为输入文本;
所述知识增强模块200,配置为提取所述输入文本中因果事件的实体信息;通过外部知识库获取各实体信息对应的三元组集合,并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征,作为第一特征;
所述屏蔽泛化模块300,配置为利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽,并通过BERT模型提取所述输入文本中未屏蔽信息的特征,作为第二特征;
所述特征融合模块400,配置为通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征;
所述分类输出模块500,配置为基于所述第三特征,通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果;所述分类模型基于深度神经网络构建;
所述外部知识库为存储实体对应的三元组集合的数据库。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于屏蔽泛化机制的事件因果关系识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于屏蔽泛化机制的事件因果关系识别方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于屏蔽泛化机制的事件因果关系识别方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (6)
1.一种基于屏蔽泛化机制的事件因果关系识别方法,其特征在于,该方法包括:
步骤S10,获取待识别事件因果关系的文本,作为输入文本;
步骤S20,提取所述输入文本中因果事件的实体信息;通过外部知识库获取各实体信息对应的三元组集合,并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征,作为第一特征;所述因果事件的实体信息包括原因事件实体信息、结果事件实体信息;
步骤S30,利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽,并通过BERT模型提取所述输入文本中未屏蔽信息的特征,作为第二特征;
步骤S40,通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征;
步骤S50,基于所述第三特征,通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果;所述分类模型基于深度神经网络构建;
所述外部知识库为存储实体信息对应的三元组集合的数据库;
其中,“通过BERT模型提取所述输入文本与所述三元组集合融合后的特征”,其方法为:通过BERT模型分别提取所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征;
“通过BERT模型提取所述输入文本中未屏蔽信息的特征”,其方法为:通过BERT模型分别提取输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征;
“通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征”,其方法为:
将所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征进行拼接,作为第一联合特征;
将输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征进行拼接,得到第二联合特征;
将所述第一联合特征、所述第二联合特征进行融合,得到第三特征;
“通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果”,其方法为:基于所述第三特征,通过预构建的分类模型获取所述输入文本中因果事件的实体信息的概率权重,若该概率权重大于设定的阈值,则认为原因事件实体信息、结果事件实体信息表达了因果关系。
2.根据权利要求1所述的基于屏蔽泛化机制的事件因果关系识别方法,其特征在于,“将所述第一联合特征、所述第二联合特征进行融合,得到第三特征”,其方法为:
T=g·C+(1-g)·D
g=w*[C+D]+b
其中,T表示第三特征,C表示第一联合特征,D表示第二联合特征,w表示注意力网络的权重向量,b表示注意力网络的权重偏置项,·代表标量与向量相乘操作。
3.根据权利要求1所述的基于屏蔽泛化机制的事件因果关系识别方法,其特征在于,“通过预构建的分类模型获取所述输入文本中因果事件信息的概率权重”,其方法为;
p=wo*T+bo
其中,wo、bo分别表示分类模型的权重向量、权重偏置项,T表示第三特征,p表示输入文本中因果事件的实体信息的概率权重。
4.一种基于屏蔽泛化机制的事件因果关系识别系统,其特征在于,该系统包括:文本获取模块、知识增强模块、屏蔽泛化模块、特征融合模块、分类输出模块;
所述文本获取模块,配置为获取待识别事件因果关系的文本,作为输入文本;
所述知识增强模块,配置为提取所述输入文本中因果事件的实体信息;通过外部知识库获取各实体信息对应的三元组集合,并通过BERT模型提取所述输入文本与所述三元组集合融合后的特征,作为第一特征;所述因果事件的实体信息包括原因事件实体信息、结果事件实体信息;
所述屏蔽泛化模块,配置为利用预设的屏蔽机制对所述输入文本中的因果事件的实体信息进行屏蔽,并通过BERT模型提取所述输入文本中未屏蔽信息的特征,作为第二特征;
所述特征融合模块,配置为通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征;
所述分类输出模块,配置为基于所述第三特征,通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果;所述分类模型基于深度神经网络构建;
所述外部知识库为存储实体对应的三元组集合的数据库;
其中,“通过BERT模型提取所述输入文本与所述三元组集合融合后的特征”,其方法为:通过BERT模型分别提取所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征;
“通过BERT模型提取所述输入文本中未屏蔽信息的特征”,其方法为:通过BERT模型分别提取输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征;
“通过注意力网络将所述第一特征、所述第二特征进行融合,将融合后的特征作为第三特征”,其方法为:
将所述输入文本与原因事件实体信息对应的三元组集合融合后的特征、所述输入文本与结果事件实体信息对应的三元组集合融合后的特征进行拼接,作为第一联合特征;
将输入文本中不包含原因事件实体信息的特征、输入文本中不包含结果事件实体信息的特征进行拼接,得到第二联合特征;
将所述第一联合特征、所述第二联合特征进行融合,得到第三特征;
“通过预构建的分类模型获取所述输入文本中事件因果关系的识别结果”,其方法为:基于所述第三特征,通过预构建的分类模型获取所述输入文本中因果事件的实体信息的概率权重,若该概率权重大于设定的阈值,则认为原因事件实体信息、结果事件实体信息表达了因果关系。
5.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于屏蔽泛化机制的事件因果关系识别方法。
6.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于屏蔽泛化机制的事件因果关系识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010801363.0A CN111881688B (zh) | 2020-08-11 | 2020-08-11 | 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010801363.0A CN111881688B (zh) | 2020-08-11 | 2020-08-11 | 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881688A CN111881688A (zh) | 2020-11-03 |
CN111881688B true CN111881688B (zh) | 2021-09-14 |
Family
ID=73203632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010801363.0A Active CN111881688B (zh) | 2020-08-11 | 2020-08-11 | 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881688B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463970B (zh) * | 2020-12-16 | 2022-11-22 | 吉林大学 | 一种基于时间关系对文本包含的因果关系进行抽取的方法 |
CN112836502B (zh) * | 2021-03-01 | 2023-05-09 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
CN113779190B (zh) * | 2021-07-20 | 2023-08-18 | 中国科学院自动化研究所 | 事件因果关系识别方法、装置、电子设备与存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704890A (zh) * | 2019-08-12 | 2020-01-17 | 上海大学 | 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法 |
CN111026852A (zh) * | 2019-11-28 | 2020-04-17 | 广东工业大学 | 一种面向金融事件的混合型因果关系发现方法 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10554672B2 (en) * | 2016-01-05 | 2020-02-04 | Palo Alto Networks Inc. | Causality identification and attributions determination of processes in a network |
-
2020
- 2020-08-11 CN CN202010801363.0A patent/CN111881688B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704890A (zh) * | 2019-08-12 | 2020-01-17 | 上海大学 | 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法 |
CN111026852A (zh) * | 2019-11-28 | 2020-04-17 | 广东工业大学 | 一种面向金融事件的混合型因果关系发现方法 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111881688A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881688B (zh) | 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置 | |
CN110837550B (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
US20210240682A1 (en) | Automatic entity resolution with rules detection and generation system | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN108459874A (zh) | 融合深度学习和自然语言处理的代码自动化摘要方法 | |
Mišić et al. | Improving source code plagiarism detection: Lessons learned | |
Chan et al. | Rapid customization for event extraction | |
CN111428503A (zh) | 同名人物的识别处理方法及处理装置 | |
Liu et al. | Graph topic scan statistic for spatial event detection | |
CN111563373A (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
Wang et al. | Prompting large language models for topic modeling | |
CN112836019B (zh) | 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 | |
Sreenivasulu et al. | Implementation of latest machine learning approaches for students grade prediction | |
CN112101484B (zh) | 基于知识巩固的增量事件识别方法、系统、装置 | |
Mishra | Information extraction from digital social trace data with applications to social media and scholarly communication data | |
Schirmer et al. | A new dataset for topic-based paragraph classification in genocide-related court transcripts | |
CN116610758A (zh) | 信息溯源方法、系统及存储介质 | |
Chang et al. | Incorporating word embedding into cross-lingual topic modeling | |
JP2017027168A (ja) | 嗜好学習方法、嗜好学習プログラム、及び嗜好学習装置 | |
Suresh et al. | A fuzzy based hybrid hierarchical clustering model for twitter sentiment analysis | |
CN115374940A (zh) | 基于知识图谱的风险标签确定方法以及装置 | |
CN111538898B (zh) | 基于组合特征提取的Web服务包推荐方法及系统 | |
Jiang et al. | On length divergence bias in textual matching models | |
Weerasundara et al. | Comparative analysis of named entity recognition in the dungeons and dragons domain | |
Elwert | Network analysis between distant reading and close reading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |