CN114298053A - 一种基于特征和注意力机制融合的事件联合抽取系统 - Google Patents
一种基于特征和注意力机制融合的事件联合抽取系统 Download PDFInfo
- Publication number
- CN114298053A CN114298053A CN202210230832.7A CN202210230832A CN114298053A CN 114298053 A CN114298053 A CN 114298053A CN 202210230832 A CN202210230832 A CN 202210230832A CN 114298053 A CN114298053 A CN 114298053A
- Authority
- CN
- China
- Prior art keywords
- vector
- feature
- representation
- layer
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 67
- 238000000605 extraction Methods 0.000 title claims abstract description 63
- 230000004927 fusion Effects 0.000 title claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 57
- 238000012805 post-processing Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 167
- 238000000034 method Methods 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 16
- 239000013604 expression vector Substances 0.000 claims description 16
- 238000013135 deep learning Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- UEJJHQNACJXSKW-UHFFFAOYSA-N 2-(2,6-dioxopiperidin-3-yl)-1H-isoindole-1,3(2H)-dione Chemical compound O=C1C2=CC=CC=C2C(=O)N1C1CCC(=O)NC1=O UEJJHQNACJXSKW-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 229960003433 thalidomide Drugs 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于特征和注意力机制融合的事件联合抽取系统,包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;将预训练层输出的信息结合词性和位置信息输入到BiGRU和CNN中,得到句子的上下文语义特征矩阵和局部特征矩阵,再利用注意力机制融合这两种特征,最后将三种表示联合起来进行事件抽取;词嵌入层使用预训练模型BioBERT,并对其进行微调,以提高模型的效果;事件联合抽取,避免了级联错误的产生,提升模型的效果。
Description
技术领域
本发明属于事件抽取领域,尤其涉及一种基于特征和注意力机制融合的事件联合抽取系统、设备及存储介质。
背景技术
生物事件的定义包含四部分,分别是事件类型、事件触发词、事件论元以及论元角色。例如下面的句子S,其中包含了两个事件,第一个事件类型是Development,触发词是formation,事件论元是capillary tubes,论元角色是Theme类型;第二个事件类型是Negative Regulation,触发词是inhibited,事件论元是Thalidomide,论元角色是Theme类型。
S:Thalidomide inhabited the formation of capillary tubes.
根据上述生物事件的定义,生物医学事件抽取分为两个子任务,触发词识别、论元分类。
目前,对事件抽取的方法主要分为3类:
基于规则模式的方法的优点是所需标注语料少,在特定领域中准确率较高,但需要依赖领域知识来制定大量的事件抽取规则,灵活性与可移植性较差。
与基于规则模式的方法相比,基于机器学习的方法克服了过度依赖领域规则的问题,具有较好的鲁棒性和灵活性,但在很大程度上依赖于语料库规模和标注质量,容易产生数据矩阵稀疏问题。
基于深度学习的事件抽取模型具有学习特征表示的能力,能自动从自然语言中抽取特征,避免了复杂的特征工程以及人工干预带来的问题。
然而,目前的事件抽取模型研究只利用了一部分浅层的语义信息,且大多数的事件抽取模型为管道模型,采用管道式的处理方法,这样容易导致触发词识别阶段产生的误差传递到论元分类阶段。
发明内容
为解决上述技术问题,本发明提出一种基于特征和注意力机制融合的事件联合抽取系统、设备及存储介质的技术方案,以解决上述技术问题。
本发明第一方面公开了一种基于特征和注意力机制融合的事件联合抽取系统,所述系统包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;
所述输入层:将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示,再将所述单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示进行拼接,得到嵌入层表示;
所述特征提取层包括:局部特征提取层、全局特征提取层和注意力机制层;
所述局部特征提取层:将所述嵌入层表示输入卷积神经网络,经卷积运算,得到卷积特征表示,再对所述卷积特征表示进行最大池化,得到局部特征矩阵;
所述全局特征提取层:将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵;
所述注意力机制层:根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量,再将所述局部特征矩阵、深度学习网络的最后一维隐层输出和特征融合注意力机制的信息向量进行拼接,得到特征表示向量;
所述触发词和论元识别层:根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量;
根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果;
所述事件后处理层:根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件。
在一些实施例中,所述将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵的具体方法包括:将所述嵌入层表示输入双向门控循环单元网络,得到正向门控循环单元的输出和反向门控循环单元的输出,再将所述正向门控循环单元的输出和反向门控循环单元的输出拼接,得到上下文语义特征矩阵。
在一些实施例中,所述根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量的具体方法包括:
计算所述卷积特征表示和上下文语义特征矩阵之间的注意力权重,然后将所述注意力权重和上下文语义特征矩阵进行加权,得到特征融合注意力机制的信息向量。
在一些实施例中,所述根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量的具体方法包括:
根据所述特征表示向量和其对应的标签序列,应用触发词识别的条件随机场得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量。
在一些实施例中,所述根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果的具体方法包括:
将所述特征表示向量和所述条件概率信息向量融合,根据触发词和候选词的位置,分别抽取出触发词和候选词的向量表示;
再将所述触发词和候选词的向量表示拼接起来,并将拼接后的结果送入论元识别的条件随机场,得到论元识别的结果。
在一些实施例中,所述根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件的具体方法包括:
根据所述触发词的识别结果和所述论元识别的结果,利用基于SVM的后处理方法生成完整的符合定义的事件。
在一些实施例中,所述将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示的具体方法包括:
将每个单词转换为d维的单词向量,最后由BioBERT模型编码生成单词向量表示矩阵,即单词向量嵌入式表示;所述BioBERT模型为用于自然语言上的预训练模型;
应用Stanford Parser工具来得到单词的词性向量,即词性向量嵌入式表示。
在一些实施例中,将文本进行语料预处理,得到实体向量嵌入式表示的具体方法包括:
引入序列标注模型BIO对输入的语料进行标注,最后通过查找实体标签表将实体类型标签转换为对应的实值向量,得到实体向量嵌入式表示。
本发明第二方面提供了一种电子设备,所述设备包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如本发明第一方面所述的一种基于特征和注意力机制融合的事件联合抽取系统中的方法。
本发明第三方面提供了一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现如本发明第一方面所述的一种基于特征和注意力机制融合的事件联合抽取系统中的方法。
本发明提出的方案,具有如下有益效果:
1)词嵌入层使用预训练模型BioBERT,并对其进行微调,以提高模型的效果;
2)提出事件联合抽取,避免了级联错误的产生,提升模型的效果;
3)提出基于特征和注意力机制融合的网络结构。将预训练层输出的信息结合词性和位置信息输入到BiGRU和CNN中,得到句子的上下文语义特征矩阵和局部特征矩阵,再利用注意力机制融合这两种特征,最后将三种表示联合起来进行事件抽取。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种基于特征和注意力机制融合的事件联合抽取系统的结构示意图;
图2为根据本发明实施例的基于特征和注意力机制融合的事件联合抽取系统的结构图;
图3为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
实施例1:
本发明第一方面公开了一种基于特征和注意力机制融合的事件联合抽取系统,图1为根据本发明实施例的一种基于特征和注意力机制融合的事件联合抽取系统的结构图,具体如图1和图2所示,所述系统包括:
所述系统包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;
所述输入层:将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示,再将所述单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示进行拼接,得到嵌入层表示。
在一些实施例中,将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示的具体方法包括:
将每个单词转换为d维的单词向量,最后由BioBERT模型编码生成单词向量表示矩阵,即单词向量嵌入式表示;所述BioBERT模型为用于自然语言上的预训练模型;
应用Stanford Parser工具来得到单词的词性向量,即词性向量嵌入式表示;
引入序列标注模型BIO对输入的语料进行标注,最后通过查找实体标签表将实体类型标签转换为对应的实值向量,得到实体向量嵌入式表示。
所述特征提取层包括:局部特征提取层、全局特征提取层和注意力机制层;
所述局部特征提取层:将所述嵌入层表示输入卷积神经网络,经卷积运算,得到卷积特征表示,再对所述卷积特征表示进行最大池化,得到局部特征矩阵;
所述全局特征提取层:将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵。
在一些实施例中,所述将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵的具体方法包括:将所述嵌入层表示输入双向门控循环单元网络,得到正向门控循环单元的输出和反向门控循环单元的输出,再将所述正向门控循环单元的输出和反向门控循环单元的输出拼接,得到上下文语义特征矩阵;
所述注意力机制层:根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量,再将所述局部特征矩阵、深度学习网络的最后一维隐层输出和特征融合注意力机制的信息向量进行拼接,得到特征表示向量;其中,最后一维隐层输出是指隐层输出的最后一维向量。
在一些实施例中,所述根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量的具体方法包括:
计算所述卷积特征表示和上下文语义特征矩阵之间的注意力权重,然后将所述注意力权重和上下文语义特征矩阵进行加权,得到特征融合注意力机制的信息向量;
所述触发词和论元识别层:根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量。
在一些实施例中,所述根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量的具体方法包括:
根据所述特征表示向量和其对应的标签序列,应用触发词识别的条件随机场得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量;
根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果。
在一些实施例中,所述根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果的具体方法包括:
将所述特征表示向量和所述条件概率信息向量融合,根据触发词和候选词的位置,分别抽取出触发词和候选词的向量表示;
再将所述触发词和候选词的向量表示拼接起来,并将拼接后的结果送入论元识别的条件随机场,得到论元识别的结果;
所述事件后处理层:根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件。
在一些实施例中,所述根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件的具体方法包括:
根据所述触发词的识别结果和所述论元识别的结果,利用基于SVM的后处理方法生成完整的符合定义的事件。
综上,本发明各个方面的技术方案与现有技术相比具有如下优点:
1)词嵌入层使用预训练模型BioBERT,并对其进行微调,以提高模型的效果;
2)提出事件联合抽取,避免了级联错误的产生,提升模型的效果;
3)提出基于特征和注意力机制融合的网络结构。将预训练层输出的信息结合词性和位置信息输入到BiGRU和CNN中,得到句子的上下文表示和局部表示,再利用注意力机制融合这两种特征,最后将三种表示联合起来进行事件抽取。
实施例2:
一种基于特征和注意力机制融合的事件联合抽取系统,图1为根据本发明实施例的一种基于特征和注意力机制融合的事件联合抽取系统的结构图,具体如图1和图2所示,所述系统包括:
所述系统包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;
所述输入层:将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示,再将所述单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示进行拼接,得到嵌入层表示;
所述特征提取层包括:局部特征提取层、全局特征提取层和注意力机制层;
所述局部特征提取层:将所述嵌入层表示输入卷积神经网络,经卷积运算,得到卷积特征表示,再对所述卷积特征表示进行最大池化,得到局部特征矩阵;
所述全局特征提取层:将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵;
所述注意力机制层:根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量,再将所述局部特征矩阵、深度学习网络的最后一维隐层输出和特征融合注意力机制的信息向量进行拼接,得到特征表示向量;
所述触发词和论元识别层:根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量;
根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果;
所述事件后处理层:根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件。
在一些实施例中,将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示的具体方法包括:
将每个单词转换为d维的单词向量,最后由BioBERT模型编码生成单词向量表示矩阵,即单词向量嵌入式表示;所述BioBERT模型为用于自然语言上的预训练模型;
应用Stanford Parser工具来得到单词的词性向量,即词性向量嵌入式表示;
引入序列标注模型BIO对输入的语料进行标注,最后通过查找实体标签表将实体类型标签转换为对应的实值向量,得到实体向量嵌入式表示。
具体的,近年来BERT(Bidirectional Encoder Representations fromTransformers)在各项NLP任务中,如序列标注和文本分类等,都取得了不错的效果提升。采用了基于BERT改进而来的BioBRET预训练模型,其在大规模语料上通过PubMed(PubMedAbstracts)和 PMC(PMC full-text articles)两个生物医学语料库进行训练 ,更有利于学习生物文本中每个词的上下文相关向量表示。为了进一步抽取到文本中的语义信息和抽象特征,采用微调的方式,来提升整个模型的效果。给定一个句子,将每个单词转换为d维的单词向量,最后由BioBERT模型编码生成单词向量表示矩阵,即单词向量嵌入式表示;所述BioBERT模型为用于自然语言上的预训练模型。
原始语料中的单词没有词性标注,而获得词性向量可有效提升事件抽取的效果。应用Stanford Parser工具来得到单词的词性向量,即词性向量嵌入式表示。
对于实体向量嵌入式表示,引入序列标注模型BIO对输入的语料进行标注,最后通过查找实体标签表将实体类型标签转换为对应的实值向量,得到实体向量嵌入式表示。
再将所述单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示进行拼接,得到嵌入层表示。
特征提取层包括:局部特征提取层、全局特征提取层和注意力机制层;
所述局部特征提取层:将所述嵌入层表示输入卷积神经网络,经卷积运算,得到卷积特征表示,再对所述卷积特征表示进行最大池化,得到局部特征矩阵;
所述全局特征提取层:将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵;
所述注意力机制层:根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量,再将所述局部特征矩阵、深度学习网络的最后一维隐层输出和特征融合注意力机制的信息向量进行拼接,得到特征表示向量。
在一些实施例中,所述将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵的具体方法包括:将所述嵌入层表示输入双向门控循环单元网络,得到正向门控循环单元的输出和反向门控循环单元的输出,再将所述正向门控循环单元的输出和反向门控循环单元的输出拼接,得到上下文语义特征矩阵。
在一些实施例中,所述根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量的具体方法包括:
计算所述卷积特征表示和上下文语义特征矩阵之间的注意力权重,然后将所述注意力权重和上下文语义特征矩阵进行加权,得到特征融合注意力机制的信息向量。
具体的,局部特征提取层:将所述嵌入层表示,其输入是矩阵X,卷积运算是卷积核和输入矩阵的乘积运算,使用卷积核的窗口大小为w,通过窗口的滑动操作来得到输入词向量的特征表示,具体计算公式如下所示:
其中,di是词向量的特征表示;σ是非线性激活函数,xi表示第i个特征在窗口w内的特征向量表示,b为偏置项,W为权重。对于输入矩阵X,通过卷积层后,可以得到以下卷积特征向量d:
其中,N是句子中单词个数;
为了选取出最有价值的特征,采用最大池化策略来对特征进行采样和降维。输入为卷积特征向量d,取其包含的最大值,得到局部最优特征向量,表示如下:
Pi是局部最优特征向量;
将局部最优特征向量进行拼接,得到一个最终的特征矩阵P,即局部特征矩阵。
全局特征提取层:由于传统循环神经网络RNN在处理长句时存在梯度消失和梯度爆炸等问题,引入双向门控循环单元网络(BIGRU)来得到更好的上下文语义特征。GRU由LSTM改进而来,结构更简化了,相比LSTM少一个门,整体训练速度较后者快。对于某一时刻t,具体运算公式如下:
其中,xt表示t时刻的输入,yt表示t时刻的输出,g为记忆单元t时刻的激活值,zt和rt分别对应更新门和重置门,w z 、w r 、w g 、w y 为对应的权重,σ为非线性激活函数,ht为t时刻GRU单元的激活值,ht-1 为t-1时刻GRU单元的激活值,tanh为激活函数。
为了提取出文本的上下文语义特征,将嵌入层表示X输入到双向GRU网络模型中。BIGRU由正反向GRU构成,则其输出H表示如下:
注意力机制层:近年来,注意力机制获得了广泛的关注,其具有的并行计算能力和无视词之间的距离来建立依赖的能力在自然语言处理任务中取得了良好的效果。因此引入注意力机制来处理两个神经网络的特征提取结果。
计算所述卷积特征表示d和上下文语义特征矩阵H之间的注意力权重,然后将所述注意力权重和上下文语义特征矩阵H进行加权,得到特征融合注意力机制的信息向量G。将G和P以及H l 拼接得到最后的特征表示向量Z。
触发词和论元识别层:根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量;
根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果。
在一些实施例中,所述根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量的具体方法包括:
根据所述特征表示向量和其对应的标签序列,应用触发词识别的条件随机场得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量;
所述根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果的具体方法包括:
将所述特征表示向量和所述条件概率信息向量融合,根据触发词和候选词的位置,分别抽取出触发词和候选词的向量表示;
再将所述触发词和候选词的向量表示拼接起来,并将拼接后的结果送入论元识别的条件随机场,得到论元识别的结果。
具体的,当标签之间存在一定的关联性时,使用条件随机场(CRF)可以约束前面经过计算的一些类别数的标签,从而获得一个全局最优的标签序列,并且能够避免一些不可能出现的标签序列的情况,如带有I标签前的类别不带有B标签的情况。
对于一个词序列经过前面所有的计算得到的特征表示向量Z,其和对应标签序列的得分公式如下:
利用反向传播对参数进行优化。按照上述得可到单词的触发词类别标签得分,并返回单词的条件概率信息向量。
将所述特征表示向量Z和所述条件概率信息向量C融合,根据触发词和候选词的位置,分别抽取出触发词和候选词的向量表示;
再将所述触发词和候选词的向量表示拼接起来,并将拼接后的结果送入论元识别的条件随机场,得到论元识别的结果。
事件后处理层:根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件。
在一些实施例中,所述根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件的具体方法包括:
根据所述触发词的识别结果和所述论元识别的结果,利用基于SVM的后处理方法生成完整的符合定义的事件。
评价指标:使用召回率(Recall)、准确率(Precision)和F1 分数(F1 Score)作为评测指标。
实施例3:
本发明公开了一种电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种基于特征和注意力机制融合的事件联合抽取系统中的步骤。
图3为根据本发明实施例的一种电子设备的结构图,如图3所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,流程模型建模的装置即为基于特征和注意力机制融合的事件联合抽取系统对应的装置;该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例4:
本发明公开了一种存储介质,具体涉及计算机的可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种基于特征和注意力机制融合的事件联合抽取系统中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述系统包括:输入层、特征提取层、触发词和论元识别层和事件后处理层;
所述输入层:将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示,再将所述单词向量嵌入式表示、词性向量嵌入式表示和实体向量嵌入式表示进行拼接,得到嵌入层表示;
所述特征提取层包括:局部特征提取层、全局特征提取层和注意力机制层;
所述局部特征提取层:将所述嵌入层表示输入卷积神经网络,经卷积运算,得到卷积特征表示,再对所述卷积特征表示进行最大池化,得到局部特征矩阵;
所述全局特征提取层:将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵;
所述注意力机制层:根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量,再将所述局部特征矩阵、深度学习网络的最后一维隐层输出和特征融合注意力机制的信息向量进行拼接,得到特征表示向量;
所述触发词和论元识别层:根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量;
根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果;
所述事件后处理层:根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件。
2.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述将所述嵌入层表示输入深度学习网络,得到上下文语义特征矩阵的具体方法包括:将所述嵌入层表示输入双向门控循环单元网络,得到正向门控循环单元的输出和反向门控循环单元的输出,再将所述正向门控循环单元的输出和反向门控循环单元的输出拼接,得到上下文语义特征矩阵。
3.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述根据所述卷积特征表示和上下文语义特征矩阵,应用注意力机制,得到特征融合注意力机制的信息向量的具体方法包括:
计算所述卷积特征表示和上下文语义特征矩阵之间的注意力权重,然后将所述注意力权重和上下文语义特征矩阵进行加权,得到特征融合注意力机制的信息向量。
4.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述根据所述特征表示向量和其对应的标签序列,得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量的具体方法包括:
根据所述特征表示向量和其对应的标签序列,应用触发词识别的条件随机场得到触发词类别标签得分和触发词的识别结果,并返回所述触发词的条件概率信息向量。
5.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述根据所述特征表示向量和所述条件概率信息向量,得到论元识别的结果的具体方法包括:
将所述特征表示向量和所述条件概率信息向量融合,根据触发词和候选词的位置,分别抽取出触发词和候选词的向量表示;
再将所述触发词和候选词的向量表示拼接起来,并将拼接后的结果送入论元识别的条件随机场,得到论元识别的结果。
6.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述根据所述触发词的识别结果和所述论元识别的结果,生成完整的符合定义的事件的具体方法包括:
根据所述触发词的识别结果和所述论元识别的结果,利用基于SVM的后处理方法生成完整的符合定义的事件。
7.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,所述将文本进行语料预处理,得到单词向量嵌入式表示、词性向量嵌入式表示的具体方法包括:
将每个单词转换为d维的单词向量,最后由BioBERT模型编码生成单词向量表示矩阵,即单词向量嵌入式表示;所述BioBERT模型为用于自然语言上的预训练模型;
应用Stanford Parser工具来得到单词的词性向量,即词性向量嵌入式表示。
8.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统,其特征在于,将文本进行语料预处理,得到实体向量嵌入式表示的具体方法包括:
引入序列标注模型BIO对输入的语料进行标注,最后通过查找实体标签表将实体类型标签转换为对应的实值向量,得到实体向量嵌入式表示。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1至8任意一项所述的一种基于特征和注意力机制融合的事件联合抽取系统中的方法。
10.一种存储介质,其特征在于,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现如权利要求1至8中任一项所述的一种基于特征和注意力机制融合的事件联合抽取系统中的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210230832.7A CN114298053B (zh) | 2022-03-10 | 2022-03-10 | 一种基于特征和注意力机制融合的事件联合抽取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210230832.7A CN114298053B (zh) | 2022-03-10 | 2022-03-10 | 一种基于特征和注意力机制融合的事件联合抽取系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114298053A true CN114298053A (zh) | 2022-04-08 |
CN114298053B CN114298053B (zh) | 2022-05-24 |
Family
ID=80978581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210230832.7A Active CN114298053B (zh) | 2022-03-10 | 2022-03-10 | 一种基于特征和注意力机制融合的事件联合抽取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114298053B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490953A (zh) * | 2022-04-18 | 2022-05-13 | 北京北大软件工程股份有限公司 | 训练事件抽取模型、事件抽取的方法和目标事件抽取模型 |
CN114818721A (zh) * | 2022-06-30 | 2022-07-29 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
CN114936563A (zh) * | 2022-04-27 | 2022-08-23 | 苏州大学 | 一种事件抽取方法、装置及存储介质 |
CN115238685A (zh) * | 2022-09-23 | 2022-10-25 | 华南理工大学 | 一种基于位置感知的建筑工程变更事件联合抽取方法 |
CN115577112A (zh) * | 2022-12-09 | 2023-01-06 | 成都索贝数码科技股份有限公司 | 一种基于类型感知门控注意力机制的事件抽取方法及系统 |
CN116127321A (zh) * | 2023-02-16 | 2023-05-16 | 广东工业大学 | 一种船舶新闻推送模型的训练方法、推送方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765952A (zh) * | 2020-12-28 | 2021-05-07 | 大连理工大学 | 一种图卷积注意力机制下的条件概率联合事件抽取方法 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN113705218A (zh) * | 2021-09-03 | 2021-11-26 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
US20210406476A1 (en) * | 2020-06-30 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, electronic device, and storage medium for extracting event from text |
-
2022
- 2022-03-10 CN CN202210230832.7A patent/CN114298053B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210406476A1 (en) * | 2020-06-30 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, electronic device, and storage medium for extracting event from text |
CN112765952A (zh) * | 2020-12-28 | 2021-05-07 | 大连理工大学 | 一种图卷积注意力机制下的条件概率联合事件抽取方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
CN113705218A (zh) * | 2021-09-03 | 2021-11-26 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490953A (zh) * | 2022-04-18 | 2022-05-13 | 北京北大软件工程股份有限公司 | 训练事件抽取模型、事件抽取的方法和目标事件抽取模型 |
CN114490953B (zh) * | 2022-04-18 | 2022-08-19 | 北京北大软件工程股份有限公司 | 训练事件抽取模型的方法、事件抽取的方法、装置及介质 |
CN114936563A (zh) * | 2022-04-27 | 2022-08-23 | 苏州大学 | 一种事件抽取方法、装置及存储介质 |
CN114818721A (zh) * | 2022-06-30 | 2022-07-29 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
CN114818721B (zh) * | 2022-06-30 | 2022-11-01 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
CN115238685A (zh) * | 2022-09-23 | 2022-10-25 | 华南理工大学 | 一种基于位置感知的建筑工程变更事件联合抽取方法 |
CN115577112A (zh) * | 2022-12-09 | 2023-01-06 | 成都索贝数码科技股份有限公司 | 一种基于类型感知门控注意力机制的事件抽取方法及系统 |
CN116127321A (zh) * | 2023-02-16 | 2023-05-16 | 广东工业大学 | 一种船舶新闻推送模型的训练方法、推送方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114298053B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114298053B (zh) | 一种基于特征和注意力机制融合的事件联合抽取系统 | |
US11423233B2 (en) | On-device projection neural networks for natural language understanding | |
CN111783462B (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN107066464B (zh) | 语义自然语言向量空间 | |
US20210141798A1 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110377916B (zh) | 词预测方法、装置、计算机设备及存储介质 | |
CN110678882B (zh) | 使用机器学习从电子文档选择回答跨距的方法及系统 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
JP7224447B2 (ja) | 符号化方法、装置、機器およびプログラム | |
CN113743099B (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN113886601B (zh) | 电子文本事件抽取方法、装置、设备及存储介质 | |
CN112380863A (zh) | 一种基于多头自注意力机制的序列标注方法 | |
CN110334186A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN112163089A (zh) | 一种融合命名实体识别的军事高技术文本分类方法及系统 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN117992800B (zh) | 图文数据匹配检测方法、装置、设备及介质 | |
CN116341564A (zh) | 基于语义理解的问题推理方法和装置 | |
Souha et al. | Pre-trained models for intent classification in chatbot: Comparative study and critical analysis | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
CN116955579B (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |