CN115238045A - 一种生成式事件论元抽取方法、系统及存储介质 - Google Patents
一种生成式事件论元抽取方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115238045A CN115238045A CN202211151343.9A CN202211151343A CN115238045A CN 115238045 A CN115238045 A CN 115238045A CN 202211151343 A CN202211151343 A CN 202211151343A CN 115238045 A CN115238045 A CN 115238045A
- Authority
- CN
- China
- Prior art keywords
- event
- argument extraction
- trigger words
- candidate
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明涉及事件抽取技术领域,特别涉及一种生成式事件论元抽取方法、系统及存储介质,本发明的生成式事件论元抽取方法中的触发词检测模型可以将候选触发词的位置信息、上下文信息以及事件类型提供给事件论元抽取模型,因此事件论元抽取模型可以融入显式的触发词位置提示信息和隐式的触发词上下文提示信息,这些信息都增强了事件论元抽取模型在进行论元抽取时更加关注事件内部的关联关系,即触发词和论元之间的关联关系,最终提升了事件论元的抽取准确率。本发明还提供了一种事件论元抽取系统与存储介质,与本发明的事件论元抽取方法有益效果相同。
Description
技术领域
本发明涉及事件抽取技术领域,特别涉及一种生成式事件论元抽取方法、系统及存储介质。
背景技术
事件抽取是指从自然语言文本中抽取指定类型的事件以及相关实体信息,并形成结构化数据输出的文本处理技术,包括事件发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。一个事件蕴含事件触发词、事件参与元素等多个要素。现有的事件抽取方法主要分为几类:基于分类的事件抽取方法、基于问答的事件抽取方法、基于序列标注的事件抽取方法和基于生成式的事件抽取方法。前三种方法一般被统一称为抽取式的事件抽取方法。虽然这三类方法通常具有较高的准确率,但它们都需要大量复杂的人工标注数据用于训练模型,并且最终训练出来的模型也不容易扩展到提取新的事件类型抽取上。与之相反,生成式事件论元抽取模型正好能弥补这些不足。
在实际应用场景中,文本中是不会明确标注出触发词的,现有的生成式事件论元抽取模型往往关注于事件论元的抽取,而将触发词作为已知信息给到模型,这是不符合真实场景的;另外,即使有的模型也有触发词检测模块,或者其他辅助的过滤无关事件模块,但这些模块和生成模块都是独立训练、流水线结合的,误差传播、训练次优等问题明显,从而影响事件论元抽取的准确率。
发明内容
为提高事件论元抽取的准确率,本发明提供了一种生成式事件论元抽取方法、系统及存储介质。
本发明解决技术问题的方案是提供一种生成式事件论元抽取方法,包括以下步骤:
将原始文本输入触发词检测模型以获取候选触发词以及候选触发词的相关信息;所述候选触发词的相关信息包括候选触发词的位置信息、候选触发词的上下文信息以及候选触发词的事件类型中的一种或多种;
基于所述候选触发词和所述相关信息构造预设事件输入信息;
将所述预设事件输入信息输入事件论元抽取模型以获取自然语言文本,所述自然语言文本包括事件触发词和事件元素;
对所述自然语言文本进行解析以将事件触发词、事件元素分离得到包括事件论元的结构化事件。
优选地,基于所述候选触发词和所述相关信息构造预设事件输入信息包括以下步骤:
构造自然语言组织的事件类型提示;
构造特定于事件类型的事件填充模板;
使用标识符标记出候选触发词在文本中的位置;
将事件类型提示、事件填充模板以及候选触发词在文本中的位置拼接成为预设事件输入信息。
优选地,基于所述候选触发词和所述相关信息构造预设事件输入信息还包括以下步骤:
将候选触发词的上下文信息作为预设事件输入信息。
优选地,采用模板匹配的方式对所述自然语言文本进行解析。
优选地,所述触发词检测模型为基于BERT预训练语言模型的词级分类模型。
优选地,所述事件论元抽取模型为BART模型。
优选地,所述触发词检测模型与所述事件论元抽取模型均为训练后的模型,所述触发词检测模型与所述事件论元抽取模型训练时采用联合训练的方式同时训练。
优选地,事件论元抽取模型采用贪婪搜索的方式生成包括事件触发词、事件元素的自然语言文本。
本发明为解决上述技术问题还提供一种事件论元抽取系统,包括触发词检测模块、事件论元抽取模块与构造模块,所述构造模块分别与所述触发词检测模块以及所述事件论元抽取模块信号连接;
所述触发词检测模块用于获取原始文本中的候选触发词以及候选触发词的相关信息;
所述构造模块用于根据所述候选触发词和所述相关信息构造预设事件输入信息;
所述事件论元抽取模块基于所述预设事件输入信息获取包括事件论元的结构化事件。
本发明为解决上述技术问题还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的生成式事件论元抽取方法。
与现有技术相比,本发明的一种生成式事件论元抽取方法、系统及存储介质具有以下优点:
1、本发明的生成式事件论元抽取方法,包括以下步骤:将原始文本输入触发词检测模型以获取候选触发词以及候选触发词的相关信息;候选触发词的相关信息包括候选触发词的位置信息、候选触发词的上下文信息以及候选触发词的事件类型中的一种或多种;基于候选触发词和相关信息构造预设事件输入信息;将预设事件输入信息输入事件论元抽取模型以获取自然语言文本,自然语言文本包括事件触发词和事件元素;对自然语言文本进行解析以将事件触发词、事件元素分离得到包括事件论元的结构化事件。可以理解,本发明的生成式事件论元抽取方法中的事件论元抽取模型可以融入显式的候选触发词位置提示信息和隐式的候选触发词上下文提示信息,这些信息都增强了事件论元抽取模型在进行论元抽取时更加关注事件内部的关联关系,即触发词和论元之间的关联关系,最终提升了论元的抽取准确率。
2、本发明的生成式事件论元抽取方法中基于候选触发词和相关信息构造预设事件输入信息包括以下步骤:构造自然语言组织的事件类型提示;构造特定于事件类型的事件填充模板;
使用标识符标记出候选触发词在文本中的位置;将事件类型提示、事件填充模板以及候选触发词在文本中的位置拼接成为预设事件输入信息。可以理解,事件类型信息和事件模板信息增强了事件论元抽取模型对一类事件的共性语义特征的学习,特定于事件类型的提示和模板都能为事件论元抽取模型提供足够的事件类型信息,而显式地将候选触发词在原文中标记出来的做法,则能够辅助事件论元抽取模型定位事件的分布范围,且提供了更加细粒度的事件类型信息,使得事件论元抽取模型能够更准确地识别出可能是同一个事件内部的论元,而不只是可能是同一种事件类型的论元,进而提高论元抽取的准确率。
3、本发明的生成式事件论元抽取方法中基于候选触发词和相关信息构造预设事件输入信息还包括以下步骤:将候选触发词的上下文信息作为预设事件输入信息,增强了事件论元抽取模型在进行论元抽取时更加关注事件内部的关联关系,有利于提高论元抽取的准确率。
4、本发明的生成式事件论元抽取方法中采用模板匹配的方式对自然语言文本进行解析,可以得到更加结构化的信息便于后续存储到数据中。
5、本发明的生成式事件论元抽取方法中触发词检测模型与事件论元抽取模型均为训练后的模型,触发词检测模型与事件论元抽取模型训练时采用联合训练的方式同时训练,分类任务和生成任务互相促进,所以本发明的方法可以取得比单纯的事件论元抽取模型更好的事件论元抽取效果,同时又能较好地适应少量标注数据的情况,符合真实世界的应用场景。
6、本发明的生成式事件论元抽取方法中事件论元抽取模型采用贪婪搜索的方式生成包括事件触发词、事件元素的自然语言文本,有利于提高计算速度。
7、本发明还提供一种事件论元抽取系统,具有与上述生成式事件论元抽取方法相同的有益效果,在此不做赘述。
8、本发明还提供一种存储介质,其上存储有计算机程序,该计算机程序被执行时实现上述生成式事件论元抽取方法,具有与上述生成式事件论元抽取方法相同的有益效果,在此不做赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种生成式事件论元抽取方法的步骤流程图。
图2是本发明第一实施例提供的一种生成式事件论元抽取方法之步骤S2的流程图。
图3是本发明第一实施例提供的一种生成式事件论元抽取方法的示例图。
图4是本发明第二实施例提供的一种事件论元抽取系统的框图。
附图标识说明:
1、事件论元抽取系统;10、触发词检测模块;20、事件论元抽取模块;30、构造模块。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种生成式事件论元抽取方法,包括以下步骤:
S1、将原始文本输入触发词检测模型以获取候选触发词以及候选触发词的相关信息;候选触发词的相关信息包括候选触发词的位置信息、候选触发词的上下文信息以及候选触发词的事件类型中的一种或多种;
S2、基于候选触发词和候选触发词的相关信息构造预设事件输入信息;
S3、将预设事件输入信息输入事件论元抽取模型以获取自然语言文本,自然语言文本包括事件触发词和事件元素;
S4、对自然语言文本进行解析以将事件触发词、事件元素分离得到包括事件论元的结构化事件。
具体地,在本发明的实施例中候选触发词的相关信息包括候选触发词的位置信息、候选触发词的上下文信息以及候选触发词的事件类型,因此,事件论元抽取模型在处理的过程中可以融入候选触发词的位置信息、上下文信息以及事件类型,增强了事件论元抽取模型在进行论元抽取时更加关注事件内部的关联关系,即触发词和论元之间的关联关系,最终提升了论元的抽取准确率。
可以理解,为提高事件论元抽取正确率,本发明第一实施例提供的生成式事件论元抽取方法中的触发词检测模型与事件论元抽取模型均为训练后的模型。具体地,触发词检测模型与事件论元抽取模型训练时采用联合训练的方式同时训练。在联合抽取的训练模式下,分类任务与生成任务互相促进,所以本发明可以取得比单纯的生成式模型更好的事件抽取效果,事件论元抽取的正确率高,同时又能较好地适应少量标注数据的情况,符合真实世界的应用场景。
进一步地,为提高模型训练速度以及保证模型训练效果,训练时触发词检测模型与事件论元抽取模型的输入是独立的。但是由于触发词检测模型与事件论元抽为联合训练,因此训练的总损失是触发词检测模型的损失与事件论元抽取模型的损失之和,总损失用于反向传播,并同时优化更新两个模型的参数,可以避免或减少误差传播、训练次优等问题,进而保证论元抽取的准确率。具体地,触发词检测模型的损失函数是交叉熵损失;事件论元抽取模型的损失函数与基本的生成式任务损失函数一致,但是如果一段文本中包含多个事件,那么每次抽取论元都会产生一个独立的损失,最终一段文本的论元抽取损失是其所有事件的论元抽取损失之和。
进一步地,触发词检测模型与事件论元抽取模型在联合训练时,触发词检测模型的训练目标是找出候选触发词并为候选触发词分类其所属事件类型,本发明中的事件类型是根据用户需求定制的。事件论元抽取模型的训练目标是输出包括事件触发词、事件论元的自然语言。
进一步地,触发词检测模型为基于BERT预训练语言模型的词级分类模型,触发词检测模型的输入是一段文本,触发词检测模型会先对这段文本进行语义向量编码,然后取出所有层的隐层表示,经过池化操作之后输入到预测层(全连接层)。可以理解,由于触发词检测模型会输出最后一个transformer层的隐向量,其中蕴含了输入文本高维的语义信息,也包含了每个单词的上下文信息,因此,可以将候选触发词的隐向量表示单独取出提供给事件论元抽取模型,使事件论元抽取模型可以融入显式的触发词位置提示信息和隐式的触发词上下文提示信息,这些信息都增强了事件论元抽取模型在进行论元抽取时更加关注事件内部的关联关系,即触发词和论元之间的关联关系,最终提升了论元的抽取准确率。
具体地,全连接层上的候选触发词的隐向量表示可以映射到事件论元抽取模型的嵌入层(embedding层)编码的向量相同的语义空间上,接着再将其和候选触发词经过事件论元抽取模型嵌入层编码得到的embedding向量相加,相加的结果继续传递给事件论元抽取模型编码层的其余部分,指导后面transformer层的学习。通过这种方式在事件论元抽取模型初始阶段就隐式地加入候选触发词的上下文信息,能使事件论元抽取模型快速学习到与候选触发词相关的上下文的信息,加快事件论元抽取模型的收敛速度;而这个上下文信息也会因为触发词检测模型与事件论元抽取模型联合训练而不断改善。
进一步地,触发词检测模型的分类层可以对每个单词进行多分类,判断该单词是否为触发词,若是,则该单词为候选触发词,且预测层预测出该候选触发词属于哪个事件类型;若该单词不是触发词,则预测层赋予该单词一个预定义的标签(比如0),表示该单词不是触发词。可以理解,一段文本中可以包括多个事件,每个事件对应一个候选触发词,因此,根据候选触发词的数量就可以判断出一段文本中有几个事件,且这些候选触发词在文本中的位置也能获得。
具体地,判断单词是否为触发词的步骤为:
S11、分类层对每个token给出所有类别的分值;
S12、将softmax(归一化函数)应用在分类层的输出上,得到每个token每个类别的概率值;其中,所有类别的概率值之和为1;
S13、选择概率值最大的标签作为预测结果。
可以理解,因为“不是触发词”也是一个标签,如为“0”号标签,所以最后的总标签数量比“所有事件类型”的数量多一个。因此,将最后得到的总标签数减去一个,即为一段文本中的事件数量。
进一步地,事件论元抽取模型为BART模型,因为BART模型的预训练任务就是将挖空的模板填充完整,非常契合事件生成以及事件论元抽取任务。进一步地,由于触发词检测模型检测出的每个候选触发词都代表一个独立的事件,因此,事件论元抽取模型会依次对这些事件进行论元抽取,即每次选定一个候选触发词进行事件论元抽取直至选完所有的候选触发词。
请参阅图2,进一步地,步骤S2具体包括以下步骤:
S21、构造自然语言组织的事件类型提示;
S22、构造特定于事件类型的事件填充模板;
S23、使用标识符标记出候选触发词在文本中的位置;
S24、将事件类型提示、事件填充模板以及候选触发词在文本中的位置拼接成为预设事件输入信息。
可以理解,步骤S23中的标识符可以是<trg></trg>这种HTML(超文本标记语言)形式的标识符,也可以为其他能够被计算机识别的标识符。特定于事件类型的提示和事件填充模板都能为事件论元抽取模型提供足够的事件类型信息,而显式地将触发词在原文中标记出来的做法,则能够辅助事件论元抽取模型定位事件的分布范围,且提供了更加细粒度的事件类型信息,使得事件论元抽取模型能够更准确地识别出可能是同一个事件内部的论元,而不只是可能是同一种事件类型的论元,保证了事件论元抽取的准确率。
进一步地,为了提高事件论元抽取的准确率,候选触发词的上下文信息也会作为预设事件输入信息。
进一步地,步骤S3中采用贪婪搜索的方式生成包括事件触发词、事件元素的自然语言文本,有利于提高生成速度。
进一步地,步骤S4中采用模板匹配的方式对自然语言文本进行解析。具体地,这里的模板为步骤S22构造的事件填充模板。
示例性地,请参阅图3,触发词检测模型包括编码器,事件论元抽取模型包括编码器和解码器。以待测文本中包括一个候选触发词为例,本发明第一实施例提供的生成式事件论元抽取方法工作流程大致如下:
首先,输入待测文本到触发词检测模型,如:Kelly was to fly to Seoul thesame day to meet with south Korean officials,触发词检测模型筛选出文本中的候选触发词为meet,并预测出候选触发词的事件类型(Event type),本示例中预测出候选触发词meet为Meet(会议)类,同时将候选触发词meet的上下文信息映射到事件论元抽取模型。
接下来,基于触发词检测模型的输出结果搜索模板构造Meet类型的事件填充模板,如:<arg1> met with <arg2> in <arg3> place;接着构造提示即构造自然语言组织的Meet类型提示,如:<s> Event type is meet </s><s><arg> met with <arg> in <arg>place </s>;同时标记出候选触发词meet在文本中的位置,如:Kelly was to fly toSeoul the same day to <trg> meet </trg> with south Korean officials。然后将Meet类型的事件填充模板、Meet类型提示以及候选触发词meet在文本中的位置拼接作为事件论元抽取模型的输入。
最后,经过事件论元抽取模型处理,编码器输出的结果为:Kelly met withofficials in Seoul place,是一个包括事件触发词、事件元素的自然语言文本。为了得到更加结构化的信息,进一步对Kelly met with officials in Seoul place进行解析可以得到包括事件触发词、事件元素的结构化事件,如:
(事件类型:Meet,事件角色:Entity,事件论元:Kelly)
(事件类型:Meet,事件角色:Entity,事件论元:officials)
(事件类型:Meet,事件角色:Place,事件论元:Seoul)。
可以理解,触发词检测模型的输入文本可以是中文也可以是英文,或者其他类型,并且输入文本的长短也不做限制,可以是一句话,也可以是一篇文章等。
请参阅图4,本发明第二实施例提供一种事件论元抽取系统1,包括触发词检测模块10、事件论元抽取模块20与构造模块30,构造模块30分别与触发词检测模块10以及事件论元抽取模块20信号连接;触发词检测模块10用于获取原始文本中的候选触发词以及候选触发词的相关信息;构造模块30用于根据候选触发词和候选触发词的相关信息构造预设事件输入信息;事件论元抽取模块20基于预设事件输入信息获取包括事件论元的结构化事件。
进一步地,候选触发词的相关信息包括候选触发词的事件类型、候选触发词的位置信息以及候选触发词的上下文信息。
具体地,预设事件输入信息包括事件类型提示、事件填充模板以及候选触发词在文本中的位置三者的拼接以及候选触发词的上下文信息。
进一步地,事件论元抽取模块20包括编码器、解码器以及解析模块,解码器分别与编码器以及解析模块信号连接。具体地,构造模块30构造的预设事件输入信息为事件论元抽取模块20的编码器的输入。
进一步地,编码器的输出通过解码器解码之后解码器输出的是包括事件触发词、事件元素的自然语言文本。
进一步地,解析模块用于对解码器输出的自然语言文本解析以将事件触发词、事件元素分离得到包括事件论元的结构化事件。
可以理解,本发明第二实施例提供的事件论元抽取系统与本发明第一实施例提供的生成式事件论元抽取方法具有相同的有益效果,在此不做赘述。
进一步地,本发明第三实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一实施例提供的生成式事件论元抽取方法。可以理解,本发明第三实施例提供的存储介质与本发明第一实施例提供的生成式事件论元抽取方法具有相同的有益效果,在此不做赘述。
可以理解地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明的一种生成式事件论元抽取方法、系统及存储介质具有以下优点:
1、本发明的生成式事件论元抽取方法,包括以下步骤:将原始文本输入触发词检测模型以获取候选触发词以及候选触发词的相关信息;候选触发词的相关信息包括候选触发词的位置信息、候选触发词的上下文信息以及候选触发词的事件类型中的一种或多种;基于候选触发词和相关信息构造预设事件输入信息;将预设事件输入信息输入事件论元抽取模型以获取自然语言文本,自然语言文本包括事件触发词和事件元素;对自然语言文本进行解析以将事件触发词、事件元素分离得到包括事件论元的结构化事件。可以理解,本发明的生成式事件论元抽取方法中的事件论元抽取模型可以融入显式的候选触发词位置提示信息和隐式的候选触发词上下文提示信息,这些信息都增强了事件论元抽取模型在进行论元抽取时更加关注事件内部的关联关系,即触发词和论元之间的关联关系,最终提升了论元的抽取准确率。
2、本发明的生成式事件论元抽取方法中基于候选触发词和相关信息构造预设事件输入信息包括以下步骤:构造自然语言组织的事件类型提示;构造特定于事件类型的事件填充模板;
使用标识符标记出候选触发词在文本中的位置;将事件类型提示、事件填充模板以及候选触发词在文本中的位置拼接成为预设事件输入信息。可以理解,事件类型信息和事件模板信息增强了事件论元抽取模型对一类事件的共性语义特征的学习,特定于事件类型的提示和模板都能为事件论元抽取模型提供足够的事件类型信息,而显式地将候选触发词在原文中标记出来的做法,则能够辅助事件论元抽取模型定位事件的分布范围,且提供了更加细粒度的事件类型信息,使得事件论元抽取模型能够更准确地识别出可能是同一个事件内部的论元,而不只是可能是同一种事件类型的论元,进而提高论元抽取的准确率。
3、本发明的生成式事件论元抽取方法中基于候选触发词和相关信息构造预设事件输入信息还包括以下步骤:将候选触发词的上下文信息作为预设事件输入信息,增强了事件论元抽取模型在进行论元抽取时更加关注事件内部的关联关系,有利于提高论元抽取的准确率。
4、本发明的生成式事件论元抽取方法中采用模板匹配的方式对自然语言文本进行解析,可以得到更加结构化的信息便于后续存储到数据中。
5、本发明的生成式事件论元抽取方法中触发词检测模型与事件论元抽取模型均为训练后的模型,触发词检测模型与事件论元抽取模型训练时采用联合训练的方式同时训练,分类任务和生成任务互相促进,所以本发明的方法可以取得比单纯的事件论元抽取模型更好的事件论元抽取效果,同时又能较好地适应少量标注数据的情况,符合真实世界的应用场景。
6、本发明的生成式事件论元抽取方法中事件论元抽取模型采用贪婪搜索的方式生成包括事件触发词、事件元素的自然语言文本,有利于提高计算速度。
7、本发明还提供一种事件论元抽取系统,具有与上述生成式事件论元抽取方法相同的有益效果,在此不做赘述。
8、本发明还提供一种存储介质,其上存储有计算机程序,该计算机程序被执行时实现上述生成式事件论元抽取方法,具有与上述生成式事件论元抽取方法相同的有益效果,在此不做赘述。
以上对本发明实施例公开的一种生成式事件论元抽取方法、系统及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
Claims (10)
1.一种生成式事件论元抽取方法,其特征在于:包括以下步骤:
将原始文本输入触发词检测模型以获取候选触发词以及候选触发词的相关信息;所述候选触发词的相关信息包括候选触发词的位置信息、候选触发词的上下文信息以及候选触发词的事件类型中的一种或多种;
基于所述候选触发词和所述相关信息构造预设事件输入信息;
将所述预设事件输入信息输入事件论元抽取模型以获取自然语言文本,所述自然语言文本包括事件触发词和事件元素;
对所述自然语言文本进行解析以将事件触发词、事件元素分离得到包括事件论元的结构化事件。
2.如权利要求1所述的生成式事件论元抽取方法,其特征在于:基于所述候选触发词和所述相关信息构造预设事件输入信息包括以下步骤:
构造自然语言组织的事件类型提示;
构造特定于事件类型的事件填充模板;
使用标识符标记出候选触发词在文本中的位置;
将事件类型提示、事件填充模板以及候选触发词在文本中的位置拼接成为预设事件输入信息。
3.如权利要求1所述的生成式事件论元抽取方法,其特征在于:基于所述候选触发词和所述相关信息构造预设事件输入信息还包括以下步骤:
将候选触发词的上下文信息作为预设事件输入信息。
4.如权利要求2所述的生成式事件论元抽取方法,其特征在于:采用模板匹配的方式对所述自然语言文本进行解析。
5.如权利要求1所述的生成式事件论元抽取方法,其特征在于:所述触发词检测模型为基于BERT预训练语言模型的词级分类模型。
6.如权利要求1所述的生成式事件论元抽取方法,其特征在于:所述事件论元抽取模型为BART模型。
7.如权利要求1所述的生成式事件论元抽取方法,其特征在于:所述触发词检测模型与所述事件论元抽取模型均为训练后的模型,所述触发词检测模型与所述事件论元抽取模型训练时采用联合训练的方式同时训练。
8.如权利要求1所述的生成式事件论元抽取方法,其特征在于:事件论元抽取模型采用贪婪搜索的方式生成包括事件触发词、事件元素的自然语言文本。
9.一种事件论元抽取系统,其特征在于:包括触发词检测模块、事件论元抽取模块与构造模块,所述构造模块分别与所述触发词检测模块以及所述事件论元抽取模块信号连接;
所述触发词检测模块用于获取原始文本中的候选触发词以及候选触发词的相关信息;
所述构造模块用于根据所述候选触发词和所述相关信息构造预设事件输入信息;
所述事件论元抽取模块基于所述预设事件输入信息获取包括事件论元的结构化事件。
10.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-8任一项所述的生成式事件论元抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211151343.9A CN115238045B (zh) | 2022-09-21 | 2022-09-21 | 一种生成式事件论元抽取方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211151343.9A CN115238045B (zh) | 2022-09-21 | 2022-09-21 | 一种生成式事件论元抽取方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115238045A true CN115238045A (zh) | 2022-10-25 |
CN115238045B CN115238045B (zh) | 2023-01-24 |
Family
ID=83681679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211151343.9A Active CN115238045B (zh) | 2022-09-21 | 2022-09-21 | 一种生成式事件论元抽取方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238045B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116205220A (zh) * | 2023-04-23 | 2023-06-02 | 北京邮电大学 | 一种触发词和论元的抽取方法、系统、设备及介质 |
CN117435697A (zh) * | 2023-12-21 | 2024-01-23 | 中科雨辰科技有限公司 | 一种获取核心事件的数据处理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967268A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
WO2021004333A1 (zh) * | 2019-07-08 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
CN113987104A (zh) * | 2021-09-28 | 2022-01-28 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
WO2022104967A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
-
2022
- 2022-09-21 CN CN202211151343.9A patent/CN115238045B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021004333A1 (zh) * | 2019-07-08 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
CN111967268A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
WO2022104967A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN113987104A (zh) * | 2021-09-28 | 2022-01-28 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
Non-Patent Citations (1)
Title |
---|
李培峰等: "基于语义的中文事件触发词抽取联合模型", 《软件学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116205220A (zh) * | 2023-04-23 | 2023-06-02 | 北京邮电大学 | 一种触发词和论元的抽取方法、系统、设备及介质 |
CN117435697A (zh) * | 2023-12-21 | 2024-01-23 | 中科雨辰科技有限公司 | 一种获取核心事件的数据处理系统 |
CN117435697B (zh) * | 2023-12-21 | 2024-03-22 | 中科雨辰科技有限公司 | 一种获取核心事件的数据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115238045B (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115238045B (zh) | 一种生成式事件论元抽取方法、系统及存储介质 | |
WO2019046463A1 (en) | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
EP3913521A1 (en) | Method and apparatus for creating dialogue, electronic device and storage medium | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN114722839B (zh) | 人机协同对话交互系统及方法 | |
CN111625634A (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN113849162B (zh) | 一种利用模型驱动和深度神经网络相结合的代码生成方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN110084323A (zh) | 端到端语义解析系统及训练方法 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN113392197A (zh) | 问答推理方法、装置、存储介质及电子设备 | |
CN114281968A (zh) | 一种模型训练及语料生成方法、装置、设备和存储介质 | |
CN114327609A (zh) | 一种代码补全方法、模型和工具 | |
CN112599129B (zh) | 语音识别方法、装置、设备和存储介质 | |
CN115906818A (zh) | 语法知识预测方法、装置、电子设备和存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN110851572A (zh) | 会话标注方法、装置、存储介质及电子设备 | |
CN114625759A (zh) | 模型训练方法、智能问答方法、设备、介质及程序产品 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
CN116775848B (zh) | 生成对话信息的控制方法、装置、计算设备及存储介质 | |
CN113378543B (zh) | 数据分析方法、训练数据分析模型的方法及电子设备 | |
US20230342553A1 (en) | Attribute and rating co-extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |