CN113761874A - 事件事实性预测方法、装置、电子设备与存储介质 - Google Patents
事件事实性预测方法、装置、电子设备与存储介质 Download PDFInfo
- Publication number
- CN113761874A CN113761874A CN202110815460.XA CN202110815460A CN113761874A CN 113761874 A CN113761874 A CN 113761874A CN 202110815460 A CN202110815460 A CN 202110815460A CN 113761874 A CN113761874 A CN 113761874A
- Authority
- CN
- China
- Prior art keywords
- sentence
- graph
- factual
- prediction
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种事件事实性预测方法、装置、电子设备与存储介质,所述方法包括:确定待分析的句子;将所述句子输入至事实性预测模型,得到事实性预测模型输出的所述句子中各个事件触发词的事实性取值;其中,所述事实性预测模型基于稀疏自注意力机制提取所述句子的语义图,并基于所述句子的语义图和句法图进行事实性预测;所述句法图是对所述句子进行句法分析得到的;所述事实性预测模型是基于样本句子以及所述样本句子中各个样本事件触发词的样本事实性取值训练得到的。本发明提供的方法、装置、电子设备与存储介质,能够极大地提高事件事实性预测的准确性,减轻句法分析工具带来的误差累积问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种事件事实性预测方法、装置、电子设备与存储介质。
背景技术
现如今,网络已经成为人们生活中不可缺少的一部分。为了能利用计算机高效处理互联网上的海量文本数据,信息抽取技术发展起来。信息抽取主要包括三个子任务:命名实体识别、关系抽取和事件抽取。其中,事件抽取任务只关注了事件的部分信息,比如事件发生的时间、地点、人物等。除了这些客观事实外,理解一个事件还需要关注文本传达出的主观信息。事件事实性就是一种主观性信息,表达了事件发生的可能性。例如,对于句子“昨天下雨了”,过去时说明“下雨”这一事件一定发生;对于句子“明天可能是晴天”,受“可能”这一不确定线索词影响,“晴天”这一事件只是可能发生。
事件事实性预测旨在通过给定文本判断指定事件发生的可能性。为了让从文本中抽取的事件事实有用,例如用于信息抽取和知识图谱构建等,准确预测事件的事实性非常重要。目前,基于深度学习的方法在句子级事件事实性预测任务上取得了较好结果。但现有方法在进行预测时通常仅利用了句法信息,导致事件事实性的预测不够准确。
发明内容
本发明提供一种事件事实性预测方法、装置、电子设备与存储介质,用以解决现有技术中事件事实性的预测不够准确的缺陷,实现提高事件事实性预测的准确性。
本发明提供一种事件事实性预测方法,包括:
确定待分析的句子;
将所述句子输入至事实性预测模型,得到事实性预测模型输出的所述句子中各个事件触发词的事实性取值;
其中,所述事实性预测模型基于稀疏自注意力机制提取所述句子的语义图,并基于所述句子的语义图和句法图进行事实性预测;所述句法图是对所述句子进行句法分析得到的;所述事实性预测模型是基于样本句子以及所述样本句子中各个样本事件触发词的样本事实性取值训练得到的。
根据本发明提供的一种事件事实性预测方法,所述事实性预测模型包括语义提取网络和预测网络;
所述将所述句子输入至事实性预测模型,得到事实性预测模型输出的所述句子中各个事件触发词的事实性取值,包括:
将所述句子输入至所述语义提取网络,得到所述句子的语义图;
将所述语义图和所述句法图输入至所述预测网络,得到所述各个事件触发词的事实性取值。
根据本发明提供的一种事件事实性预测方法,所述预测网络包括融合网络和回归网络;
所述将所述语义图和所述句法图输入至所述预测网络,得到所述各个事件触发词的事实性取值,包括:
将所述语义图和所述句法图输入至所述融合网络,得到所述句子中各个事件触发词的特征表示;
将所述各个事件触发词的特征表示输入至所述回归网络,得到所述各个事件触发词的事实性取值。
根据本发明提供的一种事件事实性预测方法,所述融合网络为门控图神经网络,所述融合网络基于所述语义图确定融合权重,并基于所述融合权重融合所述语义图和所述句法图。
根据本发明提供的一种事件事实性预测方法,所述语义提取网络包括编码网络和稀疏自注意力网络;
所述将所述句子输入至所述语义提取网络,得到所述句子的语义图,包括:
将所述句子输入至所述编码网络,得到所述句子中各个分词的语义表示;
将所述各个分词的语义表示输入至所述稀疏自注意力网络,得到所述语义图。
根据本发明提供的一种事件事实性预测方法,所述将所述语义图和所述句法图输入至所述预测网络,得到所述各个事件触发词的事实性取值,包括:
将所述语义图,所述句法图以及所述各个分词的语义表示输入至所述预测网络,得到所述各个事件触发词的事实性取值。
根据本发明提供的一种事件事实性预测方法,所述句法图是基于如下步骤确定的:
对所述句子进行依存句法分析,得到所述句子的依存句法树;
基于所述依存句法树中各条依存边,构建所述句子的句法图。
本发明还提供一种事件事实性预测装置,包括:
确定模块,用于确定待分析的句子;
预测模块,用于将所述句子输入至事实性预测模型,得到事实性预测模型输出的所述句子中各个事件触发词的事实性取值;
其中,所述事实性预测模型基于稀疏自注意力机制提取所述句子的语义图,并基于所述句子的语义图和句法图进行事实性预测;所述句法图是对所述句子进行句法分析得到的;所述事实性预测模型是基于样本句子以及所述样本句子中各个样本事件触发词的样本事实性取值训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述事件事实性预测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述事件事实性预测方法的步骤。
本发明提供的事件事实性预测方法、装置、电子设备与存储介质,通过稀疏自注意力机制提取句子的语义图,能够充分挖掘语义信息,并抽取与事实性高度相关的事件特征,在此基础上,结合语义图和句法图来进行事实性预测,能够极大地提高事件事实性预测的准确性,减轻句法分析工具带来的误差累积问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的事件事实性预测方法的流程示意图之一;
图2是本发明提供的事件事实性预测方法的流程示意图之二;
图3是本发明提供的事实性预测模型的网络结构示意图;
图4是本发明提供的事件事实性预测装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种事件事实性预测方法。图1是本发明提供的事件事实性预测方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定待分析的句子。
具体地,待分析的句子即需要对所包含的事件进行事实性预测的句子,该句子可以是网络爬虫或者其他手段进行数据抓取得到的,也可以是人为输入的,还可以是将采集所得的音频进行语音转写后得到的,或者是通过扫描仪、手机、相机等图像采集设备采集得到图像,并对图像进行OCR(Optical Character Recognition,光学字符识别)得到的,本发明实施例对此不作具体限定。
步骤120,将句子输入至事实性预测模型,得到事实性预测模型输出的句子中各个事件触发词的事实性取值;
其中,事实性预测模型基于稀疏自注意力机制提取句子的语义图,并基于句子的语义图和句法图进行事实性预测;句法图是对句子进行句法分析得到的;事实性预测模型是基于样本句子以及样本句子中各个样本事件触发词的样本事实性取值训练得到的。
具体地,考虑到现有方法在进行预测时通常仅利用了句法信息,该方法没有充分挖掘句子的上下文信息,并且容易受到句法分析工具带来的误差累积问题的影响,都会导致事件事实性的预测不够准确。为了有效结合语义和句法信息,以充分挖掘句子的上下文信息,进而提高事件事实性预测的准确性,本发明实施例提供了一个结合句法和语义信息的事实性预测模型,该模型首先对输入的待分析句子进行语义信息提取,得到用于表征该句子的语义特征的语义图,在此基础上,再利用该句子的语义图和句法图这两部分信息进行事实性预测,最终得到该句子中每个事件触发词的事实性取值。
此处,事件触发词即待分析的句子中能够表示事件发生的核心词,可以是对该句子进行触发词抽取得到的,触发词抽取可以基于统计的方法、基于规则的方式或者机器学习的方法实现,本发明实施例对此不作具体限定。句法图可以是对待分析的句子进行句法分析后,绘制出的用于表征句子的语法结构或句子中词汇之间的依存关系的图。另外,考虑到基于结合语义信息和句法信息的事件事实性预测方法,可能会存在引入无关上下文的噪声的情况,导致事件事实性的预测仍不准确。针对这一问题,本发明实施例设置事实性预测模型在对待分析句子进行语义信息提取时,利用稀疏自注意力机制来提取该句子的语义图。
稀疏自注意力机制根据语义图中每两个上下文节点之间的相关性计算它们之间进行信息传递的权重,两个上下文节点对应分词之间的相关性越高,对应的权重则会越大,在此基础上,每两个上下文节点之间基于该权重进行动态地信息传递,从而使得语义图内的信息传递更有针对性,每个节点仅注意到与其高度相关的上下文节点,进而避免无关上下文节点所造成的噪声干扰,使得最终提取出的语义图更加准确可靠。
另外,在执行步骤120之前,还需要预先训练得到事实性预测模型,具体可通过如下方式训练得到事实性预测模型:首先,收集大量样本句子,并确定这些样本句子中各个样本事件触发词的样本事实性取值。随即,基于样本句子以及样本句子对应的各个样本事实性取值对初始模型进行训练,从而得到事实性预测模型。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合。
本发明实施例提供的方法,通过稀疏自注意力机制提取句子的语义图,能够充分挖掘语义信息,并抽取与事实性高度相关的事件特征,在此基础上,结合语义图和句法图来进行事实性预测,能够极大地提高事件事实性预测的准确性,减轻句法分析工具带来的误差累积问题。
基于上述任一实施例,事实性预测模型包括语义提取网络和预测网络;
步骤120包括:
将句子输入至语义提取网络,得到句子的语义图;
将语义图和句法图输入至预测网络,得到各个事件触发词的事实性取值。
具体地,为了进一步提高事实性预测模型的性能,可以设置事实性预测模型包括语义提取网络和预测网络,在此基础上,将待分析的句子输入到事实性预测模型之后,首先由语义提取网络针对该句子进行语义信息提取,从而得到该句子的语义图,随即将该句子的语义图和句法图输入到预测网络中,预测网络结合语义信息和句法信息进行事实性预测,从而得到该句子中各个事件触发词的事实性取值。
此处,各个事件触发词的事实性取值可以是预测网络分别对语义图和句法图进行事实性预测后,将二者预测的结果进行加权求和得到,也可以是预测网络对语义图和句法图进行融合,再基于融合结果进行事实性预测得到,本发明实施例对此不作具体限定。
基于上述任一实施例,预测网络包括融合网络和回归网络;
将语义图和句法图输入至预测网络,得到各个事件触发词的事实性取值,包括:
将语义图和句法图输入至融合网络,得到句子中各个事件触发词的特征表示;
将各个事件触发词的特征表示输入至回归网络,得到各个事件触发词的事实性取值。
具体地,为了更好地结合语义信息和句法信息,具体可以通过如下方式得到句子中各个事件触发词的事实性取值:首先,将语义图和句法图输入到预测网络中的融合网络,融合网络对语义图和句法图进行特征融合,从而得到该句子中各个事件触发词的特征表示;随即,将该句子中各个事件触发词的特征表示输入到预测网络中的回归网络,回归网络对各个事件触发词的特征表示进行映射,从而得到该句子中各个事件触发词的事实性取值。
此处,融合网络可以是图神经网络(Graph Neural NetWorks,GNN)、图卷积网络(Graph Convolutional Network,GCN)、门控图神经网络(Gated Graph Neural NetWorks,GGNN)等神经网络,回归网络可以是线性回归网络,也可以是非线性回归网络,本发明实施例对此不作具体限定。
基于上述任一实施例,融合网络为门控图神经网络,融合网络基于语义图确定融合权重,并基于融合权重融合语义图和句法图。
具体地,为了更加有效地融合句法图和语义图上的特征信息,本发明实施例采用门控图神经网络作为融合网络,在此基础上,融合网络即可根据待分析句子的语义图确定融合权重,再根据该融合权重来动态地融合语义图和句法图,从而使得混合图中各个事件触发词对应的节点能够充分学习到语义信息和句法信息,最终得到各个事件触发词的特征表示。
基于上述任一实施例,可以从融合网络得到的最后一层隐状态中抽取出各个事件触发词的特征表示,再利用回归网络将各个事件触发词的特征表示直接映射为各个实数值,即可得到句子中各个事件触发词对应的事实性取值。此处,回归网络可以是仅包含线性层的线性回归网络。
基于上述任一实施例,语义提取网络包括编码网络和稀疏自注意力网络;
将句子输入至语义提取网络,得到句子的语义图,包括:
将句子输入至编码网络,得到句子中各个分词的语义表示;
将各个分词的语义表示输入至稀疏自注意力网络,得到语义图。
具体地,在待分析的句子输入到语义提取网络之后,具体可以通过如下方式得到该句子的语义图:首先,将待分析的句子输入到语义提取网络中的编码网络,编码网络对该句子中的每个分词进行语义编码,从而得到该句子中每个分词的语义表示,此处,编码网络具体可以采用长短期记忆网络(Long Short-Term Memory,LSTM)、循环神经网络(Recurrent Neural Network,RNN)、预训练的语言模型等神经网络,本发明实施例对此不作具体限定;
随即,将该句子中每个分词的语义表示输入到语义提取网络中的稀疏自注意力网络,稀疏自注意力网络基于各个分词的语义表示确定语义图中每两个上下文节点之间的相关性,再由此确定每两个上下文节点之间进行信息传递的权重,在此基础上,每两个上下文节点之间基于该权重进行动态地信息传递,最终得到待分析句子的语义图。
基于上述任一实施例,将语义图和句法图输入至预测网络,得到各个事件触发词的事实性取值,包括:
将语义图,句法图以及各个分词的语义表示输入至预测网络,得到各个事件触发词的事实性取值。
具体地,为了保留更多的输入信息,进一步提高事件事实性预测的准确性,本发明实施例将各个分词的语义表示直接输入到预测网络中,无需经过稀疏自注意力网络的非线性变换,在此基础上,预测网络结合语义图,句法图以及各个分词的语义表示这三部分信息进行事实性预测,最终得到待分析的句子中各个事件触发词的事实性取值。
进一步地,预测网络中的融合网络可以首先对语义图和句法图进行融合,再将融合结果和各个分词的语义表示进行融合得到句子中各个事件触发词的特征表示,随即将各个特征表示输入到预测网络中的回归网络,即可得到各个事件触发词的事实性取值。此处,各个分词的语义表示可以通过高速网络直接输入到预测网络中,从而不仅提高了事实性预测的速度,还使得事实性预测过程所利用的信息更加全面,进一步提高了事实性预测的准确性。
基于上述任一实施例,首先,可以将待分析的句子进行分词,并在首尾分别插入起始标志位[CLS]和终止标志位[SEP]后输入到预训练的BERT(Bidirectional EncoderRepresentation from Transformers,基于Transformer的双向编码器表示)模型中进行编码,在BERT分词级别的输出上使用平均池化方法得到分词级别的语义表示:
H=[h1,h2,...,hn]=BERT([w1,w2,...,wn])
其中,hi(i=1,2,...,n)表示第i个分词的语义表示,wi表示第i个分词;
随即,将各个分词的语义表示输入到多头的稀疏自注意力网络中,由该稀疏自注意力网络计算基于语义信息的语义图,从而使每个节点仅注意到高度相关的上下文节点,计算公式如下:
接着,将语义图,句法图以及各个分词的语义表示输入到预测网络中,预测网络中的门控图神经网络动态地融合上述三部分信息,得到句子中各个事件触发词的特征表示,计算公式如下:
其中,Adep表示句法图的邻接矩阵,H(l-1)表示前一层输出、第l层输入的句子的特征表示,W(l)表示第l层线性变换的权重,σ()表示激活函数,表示第l层的融合权重,λ表示融合超参,表示句法图和语义图的融合结果,ρ()表示激活函数,b(l)表示线性变换的偏置,H(l)表示第l层输出的句子的特征表示。
基于上述任一实施例,句法图是基于如下步骤确定的:
对句子进行依存句法分析,得到句子的依存句法树;
基于依存句法树中各条依存边,构建句子的句法图。
具体地,可以通过如下方式获得待分析句子的句法图:首先,对该句子进行依存句法分析,即可得到该句子对应的依存句法树,依存句法树中的每个节点代表句子中的每一个分词,依存句法树中的每条依存边即代表对应的两个分词之间存在句法关系;随即,根据依存句法树中每条依存边对应分词之间的句法关系,构建该句子对应的句法图。
进一步地,具体的构建方法可以是将句子中的每个分词作为一个节点,根据依存句法树中每条依存边对应分词之间的句法关系进行连边,在此基础上,为了加强节点之间的联系以及引入节点自身的信息,为每个节点增加自循环边,为每一条边增加反向边,从而得到最终的句法图。该句法图的邻接矩阵表示为:
其中,表示邻接矩阵中第i行第j列的值,如果句子中第i个分词和第j个分词间在句法图里存在原向边或反向边,或者第i个分词等于第j个分词,则在邻接矩阵中对应的值都为1,反之,则在邻接矩阵中对应的值为0。可见,最终得到的邻接矩阵是一个对称矩阵,可以将最终的句法图视作无向图来处理。
基于上述任一实施例,图2是本发明提供的事件事实性预测方法的流程示意图之二,如图2所示,首先,对待分析的句子进行依存句法分析,得到该句子的依存句法树,再基于该依存句法树构建句子的句法图;另外,基于稀疏自注意力机制,提取待分析句子的语义图;在此基础上,将语义图和句法图输入到门控图神经网络中,得到句子中各个事件触发词的特征表示,随即将各个事件触发词的特征表示输入到回归网络中,即可得到各个事件触发词的事实性取值。
基于上述任一实施例,图3是本发明提供的事实性预测模型的网络结构示意图,编码网络即图中的编码器,稀疏自注意力网络即图中的稀疏SAN,门控图神经网络即图中的门控GCN,L表示图神经网络的层数。如图3所示,将待分析句子输入到编码网络中,得到句子各个分词的语义表示即图中的图输入,将各个分词的语义表示输入到稀疏自注意力网络中,得到语义图;随即,门控图神经网络对句法图和语义图进行融合,得到句子中各个事件触发词的特征表示,再结合高速网络引入的各个分词的语义表示,得到最终的图输出;最后,将图输出输入到线性回归网络中,即可得到各个事件触发词的事实性取值。
基于上述任一实施例,事实性预测模型具体可以通过如下方式得到:收集大量样本句子,将样本句子以及样本句子对应的各个样本事实性取值作为训练数据,对初始模型进行训练,在训练过程中,为了得到更好的预测性能,使用Huber损失函数,并采用了梯度下降的方法来更新模型的参数,最终得到训练完成的事实性预测模型。
基于上述任一实施例,为了克服现有技术存在的缺陷,本发明针对在非结构文本中进行句子级事件事实性预测的问题,设计了一个基于混合图神经网络的结合句法和语义信息的事实性预测模型。该模型通过稀疏自注意力网络构建语义图,并使用门控图神经网络有效融合句法图和语义图上的特征信息,动态调整句法图和语义图特征传播的比重,获得混合图的最终表示,再根据混合图的最终表示确定句子中各个事件触发词的特征表示,在此基础上进行事实性预测,得到各个事件触发词的事实性取值。
为了说明本发明提供方法的有效性,本发明实施例做了实验来验证该方法的性能:使用FactBank数据集、UW数据集和MEANTIME数据集作为训练和测试语料。三个数据集均被划分成了固定的训练集、开发集和测试集。通过对比已有方法和本发明方法的效果来说明其有效性。FactBank、UW和MEANTIME数据集的对比结果如下表所示:
其中,MAE表示平均绝对误差,r表示输出和目标之间的相关性,BiLSTM表示双向长短期记忆网络。从上表的实验结果可以看到,本发明提供的方法在多个句子级数据集上对于事件事实性的预测表现超过了已有方法,这表明本发明提供的方法能有效结合句子的句法信息和语义信息,抽取与事实性更相关的特征表示,提升了预测事件事实性的准确度。
需要说明的是,上表中图的线性组合方法虽然也结合了句法图和语义图,但是该方法存在以下问题:构建的语义图是全连接的,引入过多噪声;语义图仅由两个单词语义特征表示的拼接得到,较为简单,不能有效抓住单词之间的关系;语义图和句法图根据先验知识线性组合,不一定是最佳的结合方式。而本发明的方法中,语义图由稀疏自注意力网络得到,学习了单词之间传递信息的权重;句法图和语义图通过门控机制动态融合,由模型主动学习二者的结合程度,鲁棒性更强。
基于上述任一实施例,本发明实施例提供了一种事件事实性预测系统,该系统主要编码层、图表示层、图计算层和预测层四个部分组成。其中,编码层,使用预训练语言模型BERT编码句子中各个分词的语义表示;图表示层,分别构建基于依存句法树的句法图和基于稀疏自注意力网络的语义图;图计算层,使用堆叠的门控图神经网络动态融合句法图和语义图上的信息,并采用高速网络保留更多的输入信息;预测层,从图计算层得到的最后一层隐状态中抽取事件触发词的特征表示,通过一个线性层得到预测出的事实性取值。
下面对本发明提供的事件事实性预测装置进行描述,下文描述的事件事实性预测装置与上文描述的事件事实性预测方法可相互对应参照。
基于上述任一实施例,本发明实施例提供了一种事件事实性预测装置。图4是本发明提供的事件事实性预测装置的结构示意图,如图4所示,该装置包括:
确定模块,用于确定待分析的句子;
预测模块,用于将句子输入至事实性预测模型,得到事实性预测模型输出的句子中各个事件触发词的事实性取值;
其中,事实性预测模型基于稀疏自注意力机制提取句子的语义图,并基于句子的语义图和句法图进行事实性预测;句法图是对句子进行句法分析得到的;事实性预测模型是基于样本句子以及样本句子中各个样本事件触发词的样本事实性取值训练得到的。
本发明实施例提供的装置,通过稀疏自注意力机制提取句子的语义图,能够充分挖掘语义信息,并抽取与事实性高度相关的事件特征,在此基础上,结合语义图和句法图来进行事实性预测,能够极大地提高事件事实性预测的准确性,减轻句法分析工具带来的误差累积问题。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行事件事实性预测方法,该方法包括:确定待分析的句子;将句子输入至事实性预测模型,得到事实性预测模型输出的句子中各个事件触发词的事实性取值;其中,事实性预测模型基于稀疏自注意力机制提取句子的语义图,并基于句子的语义图和句法图进行事实性预测;句法图是对句子进行句法分析得到的;事实性预测模型是基于样本句子以及样本句子中各个样本事件触发词的样本事实性取值训练得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的事件事实性预测方法,该方法包括:确定待分析的句子;将句子输入至事实性预测模型,得到事实性预测模型输出的句子中各个事件触发词的事实性取值;其中,事实性预测模型基于稀疏自注意力机制提取句子的语义图,并基于句子的语义图和句法图进行事实性预测;句法图是对句子进行句法分析得到的;事实性预测模型是基于样本句子以及样本句子中各个样本事件触发词的样本事实性取值训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的事件事实性预测方法,该方法包括:确定待分析的句子;将句子输入至事实性预测模型,得到事实性预测模型输出的句子中各个事件触发词的事实性取值;其中,事实性预测模型基于稀疏自注意力机制提取句子的语义图,并基于句子的语义图和句法图进行事实性预测;句法图是对句子进行句法分析得到的;事实性预测模型是基于样本句子以及样本句子中各个样本事件触发词的样本事实性取值训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种事件事实性预测方法,其特征在于,包括:
确定待分析的句子;
将所述句子输入至事实性预测模型,得到事实性预测模型输出的所述句子中各个事件触发词的事实性取值;
其中,所述事实性预测模型基于稀疏自注意力机制提取所述句子的语义图,并基于所述句子的语义图和句法图进行事实性预测;所述句法图是对所述句子进行句法分析得到的;所述事实性预测模型是基于样本句子以及所述样本句子中各个样本事件触发词的样本事实性取值训练得到的。
2.根据权利要求1所述的事件事实性预测方法,其特征在于,所述事实性预测模型包括语义提取网络和预测网络;
所述将所述句子输入至事实性预测模型,得到事实性预测模型输出的所述句子中各个事件触发词的事实性取值,包括:
将所述句子输入至所述语义提取网络,得到所述句子的语义图;
将所述语义图和所述句法图输入至所述预测网络,得到所述各个事件触发词的事实性取值。
3.根据权利要求2所述的事件事实性预测方法,其特征在于,所述预测网络包括融合网络和回归网络;
所述将所述语义图和所述句法图输入至所述预测网络,得到所述各个事件触发词的事实性取值,包括:
将所述语义图和所述句法图输入至所述融合网络,得到所述句子中各个事件触发词的特征表示;
将所述各个事件触发词的特征表示输入至所述回归网络,得到所述各个事件触发词的事实性取值。
4.根据权利要求3所述的事件事实性预测方法,其特征在于,所述融合网络为门控图神经网络,所述融合网络基于所述语义图确定融合权重,并基于所述融合权重融合所述语义图和所述句法图。
5.根据权利要求2所述的事件事实性预测方法,其特征在于,所述语义提取网络包括编码网络和稀疏自注意力网络;
所述将所述句子输入至所述语义提取网络,得到所述句子的语义图,包括:
将所述句子输入至所述编码网络,得到所述句子中各个分词的语义表示;
将所述各个分词的语义表示输入至所述稀疏自注意力网络,得到所述语义图。
6.根据权利要求5所述的事件事实性预测方法,其特征在于,所述将所述语义图和所述句法图输入至所述预测网络,得到所述各个事件触发词的事实性取值,包括:
将所述语义图,所述句法图以及所述各个分词的语义表示输入至所述预测网络,得到所述各个事件触发词的事实性取值。
7.根据权利要求1至6中任一项所述的事件事实性预测方法,其特征在于,所述句法图是基于如下步骤确定的:
对所述句子进行依存句法分析,得到所述句子的依存句法树;
基于所述依存句法树中各条依存边,构建所述句子的句法图。
8.一种事件事实性预测装置,其特征在于,包括:
确定模块,用于确定待分析的句子;
预测模块,用于将所述句子输入至事实性预测模型,得到事实性预测模型输出的所述句子中各个事件触发词的事实性取值;
其中,所述事实性预测模型基于稀疏自注意力机制提取所述句子的语义图,并基于所述句子的语义图和句法图进行事实性预测;所述句法图是对所述句子进行句法分析得到的;所述事实性预测模型是基于样本句子以及所述样本句子中各个样本事件触发词的样本事实性取值训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述事件事实性预测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述事件事实性预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815460.XA CN113761874A (zh) | 2021-07-19 | 2021-07-19 | 事件事实性预测方法、装置、电子设备与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110815460.XA CN113761874A (zh) | 2021-07-19 | 2021-07-19 | 事件事实性预测方法、装置、电子设备与存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761874A true CN113761874A (zh) | 2021-12-07 |
Family
ID=78787673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110815460.XA Pending CN113761874A (zh) | 2021-07-19 | 2021-07-19 | 事件事实性预测方法、装置、电子设备与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761874A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562299A (zh) * | 2023-02-08 | 2023-08-08 | 中国科学院自动化研究所 | 文本信息的论元抽取方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090265304A1 (en) * | 2008-04-22 | 2009-10-22 | Xerox Corporation | Method and system for retrieving statements of information sources and associating a factuality assessment to the statements |
CN106844448A (zh) * | 2016-12-16 | 2017-06-13 | 苏州大学 | 一种中文事件事实性识别方法和系统 |
CN108345583A (zh) * | 2017-12-28 | 2018-07-31 | 中国科学院自动化研究所 | 基于多语注意力机制的事件识别及分类方法及装置 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
CN112686040A (zh) * | 2020-12-31 | 2021-04-20 | 北京理工大学 | 一种基于图循环神经网络的事件事实性检测方法 |
-
2021
- 2021-07-19 CN CN202110815460.XA patent/CN113761874A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090265304A1 (en) * | 2008-04-22 | 2009-10-22 | Xerox Corporation | Method and system for retrieving statements of information sources and associating a factuality assessment to the statements |
CN106844448A (zh) * | 2016-12-16 | 2017-06-13 | 苏州大学 | 一种中文事件事实性识别方法和系统 |
CN108345583A (zh) * | 2017-12-28 | 2018-07-31 | 中国科学院自动化研究所 | 基于多语注意力机制的事件识别及分类方法及装置 |
CN111897908A (zh) * | 2020-05-12 | 2020-11-06 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
CN112686040A (zh) * | 2020-12-31 | 2021-04-20 | 北京理工大学 | 一种基于图循环神经网络的事件事实性检测方法 |
Non-Patent Citations (2)
Title |
---|
AMIR POURAN BEN VEYSEH等: "Graph based Neural Networks for Event Factuality Prediction using Syntactic and Semantic Structures", pages 1 - 7, Retrieved from the Internet <URL:https://arxiv.org/abs/1907.03227> * |
CHENHUA CHEN等: "Inducing Target-Specific Latent Structures for Aspect Sentiment Classification", 《ACL ANTHOLOGY》, pages 5596 - 5607 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562299A (zh) * | 2023-02-08 | 2023-08-08 | 中国科学院自动化研究所 | 文本信息的论元抽取方法、装置、设备及存储介质 |
CN116562299B (zh) * | 2023-02-08 | 2023-11-14 | 中国科学院自动化研究所 | 文本信息的论元抽取方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112069295B (zh) | 相似题推荐方法、装置、电子设备和存储介质 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111027292B (zh) | 一种限定采样文本序列生成方法及其系统 | |
CN112100464B (zh) | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
CN113947084A (zh) | 基于图嵌入的问答知识检索方法、装置及设备 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113779190A (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN113486174A (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 | |
CN110717316A (zh) | 字幕对话流的主题分割方法及装置 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN115757695A (zh) | 一种日志语言模型训练方法及系统 | |
CN115640200A (zh) | 对话系统的评估方法、装置、电子设备及存储介质 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN113094504A (zh) | 基于自动机器学习的自适应文本分类方法及装置 | |
CN114942980B (zh) | 一种确定文本匹配方法及装置 | |
CN113568969B (zh) | 信息抽取方法、装置、设备以及计算机可读存储介质 | |
CN116227484B (zh) | 模型训练方法、装置、设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |