发明内容
本说明书提出一种事件抽取方法,所述方法包括:
提取目标语句中包含的候选事件元素,并基于提取出的候选事件元素生成候选事件元素集合;以及,确定所述目标语句描述的事件类型,并基于确定出的事件类型生成候选事件类型集合;
将所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行交叉组合,生成与所述目标语句对应的若干候选事件;
将生成的候选事件推送给事件标注人员,并获取事件标注人员从所述若干候选事件中选择出的正确候选事件,作为从所述目标语句中抽取出的目标事件。
可选的,所述提取目标语句中包含的候选事件元素,包括:
基于预设的命名实体识别算法识别所述目标语句中包含的命名实体;
提取从所述目标语句中识别出的命名实体作为候选事件元素。
可选的,所述提取所述目标语句中包含的候选事件元素之前,还包括:
确定所述目标语句中是否包含与预设事件集合中的有效事件对应的事件触发词;如果是,进一步提取所述目标语句中包含的候选事件元素;如果否,将所述目标语句作为无效语句进行丢弃处理。
可选的,所述确定所述目标语句描述的事件类型,包括:
将所述目标语句与预设的事件判断规则进行匹配;其中,所述事件判断规则包括预设事件类型;以及,与所述预设事件类型对应的预设命名实体类型和预设事件触发词;
如果所述目标语句包含所述预设命名实体类型和预设事件触发词,则将所述预设事件类型确定为所述目标语句描述的事件类型。
可选的,所述候选事件为提问式标注题目;
其中,所述提问式标注题目包括题干和题目选项;所述题干包括所述目标语句和用于提示所述目标语句是否包含指定候选事件的文本提示;所述指定候选事件为由所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行组合生成的候选事件;所述题目选项包括正确选项和错误选项。
可选的,所述获取事件标注人员从所述若干候选事件中选择出的正确候选事件,包括:
获取事件标注人员选择的题目选项;
将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件。
可选的,所述提问式标注题目的题干中包含的候选事件,被添加了对应于所述候选事件的事件描述。
可选的,所述将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件,包括:
确定选择了正确选项的事件标注人员的数量,与事件标注人员的总数量的比值是否达到预设阈值;如果是,将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件。
本说明书还提出一种事件抽取装置,所述装置包括:
提取模块,提取目标语句中包含的候选事件元素,并基于提取出的候选事件元素生成候选事件元素集合;
确定模块,确定所述目标语句描述的事件类型,并基于确定出的事件类型生成候选事件类型集合;
生成模块,将所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行交叉组合,生成与所述目标语句对应的若干候选事件;
推送模块,将生成的候选事件推送给事件标注人员;
获取模块,获取事件标注人员从所述若干候选事件中选择出的正确候选事件,作为从所述目标语句中抽取出的目标事件。
可选的,所述提取模块:
基于预设的命名实体识别算法识别所述目标语句中包含的命名实体;
提取从所述目标语句中识别出的命名实体作为候选事件元素。
可选的,所述提取模块:
在提取所述目标语句中包含的候选事件元素之前,确定所述目标语句中是否包含与预设事件集合中的有效事件对应的事件触发词;如果是,进一步提取所述目标语句中包含的候选事件元素;如果否,将所述目标语句作为无效语句进行丢弃处理。
可选的,所述确定模块:
将所述目标语句与预设的事件判断规则进行匹配;其中,所述事件判断规则包括预设事件类型;以及,与所述预设事件类型对应的预设命名实体类型和预设事件触发词;
如果所述目标语句包含所述预设命名实体类型和预设事件触发词,则将所述预设事件类型确定为所述目标语句描述的事件类型。
可选的,所述候选事件为提问式标注题目;
其中,所述提问式标注题目包括题干和题目选项;所述题干包括所述目标语句和用于提示所述目标语句是否包含指定候选事件的文本提示;所述指定候选事件为由所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行组合生成的候选事件;所述题目选项包括正确选项和错误选项。
可选的,所述获取模块:
获取事件标注人员选择的题目选项;
将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件。
可选的,所述提问式标注题目的题干中包含的候选事件,被添加了对应于所述候选事件的事件描述。
可选的,所述获取模块进一步:
确定选择了正确选项的事件标注人员的数量,与事件标注人员的总数量的比值是否达到预设阈值;如果是,将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件。
本说明书还提出一种电子设备,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与事件抽取逻辑对应的机器可执行指令,所述处理器被促使:
提取目标语句中包含的候选事件元素,并基于提取出的候选事件元素生成候选事件元素集合;以及,确定所述目标语句描述的事件类型,并基于确定出的事件类型生成候选事件类型集合;
将所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行交叉组合,生成与所述目标语句对应的若干候选事件;
将生成的候选事件推送给事件标注人员,并获取事件标注人员从所述若干候选事件中选择出的正确候选事件,作为从所述目标语句中抽取出的目标事件。
在以上技术方案中,一方面,通过从目标语句中提取出候选事件元素,并确定出上述目标语句所描述的事件类型,可以避免由事件标注人员对目标语句中包含的候选事件元素,以及目标语句所描述的事件类型进行人工标注,进而可以在事件标注人员对目标语句进行正式标注之前,完成针对目标语句的预标注;
另一方面,通过将从上述目标语句中提取出候选事件元素,以及确定出的上述目标语句所描述的事件类型进行交叉组合生成候选事件,并将生成的候选事件推送给事件标注人员,由事件标注人员从候选事件中选择出正确的候选事件,来完成对目标语句的事件抽取,使得事件标注人员仅需要通过简单的选择操作,就可以完成对目标语句的事件抽取,因而可以显著的降低标注难度,提升标注效率。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
目标文本中所描述的事件,通常包括事件类型和事件类型两种要素。所谓事件类型,通常可以包括预先定义好的事件范畴;所谓事件元素,通常可以包括文本中描述的与事件相关的各种属性信息(比如,事件的参与者)。
例如,以原始文本为“A公司今日在港交所成功挂牌交易,股票代码为X”为例,该文本所描述的事件类型为金融领域的“上市事件”;该文本所描述的事件元素,可以包括“上市事件”的参与者(A公司),以及与“上市事件”相关的时间(今日)和地点(港交所)等。
在实际应用中,从目标文本中提取事件,通过依赖于由事件标注人员采用传统的“填空式”的标注方式,人工标注出文本语句中描述的事件类型和事件元素;
例如,仍以原始文本为“A公司今日在港交所成功挂牌交易,股票代码为X”为例,需要事件标注人员在认真解读原始文本中后,基于自身所掌握的专业知识从众多候选事件类型中判断得出正确的事件类型,并筛选出相关的事件元素后,以填空的方式对原始文本进行标注,得到标注结果。
基于以上技术背景,本说明书旨在提出一种基于“选择式”的标注方式从目标文本中抽取事件的技术方案。
在实现时,仍然可以提取从目标文本中拆分出的目标语句中包含的候选事件元素,并基于提取出的候选事件元素生成候选事件元素集合;以及,确定拆分出的目标语句所描述的事件类型,并基于确定出的事件类型生成候选事件类型集合;
进一步的,可以将上述候选事件元素集合中的候选事件元素与上述候选事件类型集合中的事件类型进行交叉组合,生成与该目标语句对应的若干候选事件,然后将生成的候选事件推送给事件标注人员,并获取事件标注人员从上述若干候选事件中选择出的正确候选事件,作为从上述目标语句中抽取出的目标事件。
在以上技术方案中,在以上技术方案中,一方面,通过从目标语句中提取出候选事件元素,并确定出上述目标语句所描述的事件类型,可以避免由事件标注人员对目标语句中包含的候选事件元素,以及目标语句所描述的事件类型进行人工标注,进而可以在事件标注人员对目标语句进行正式标注之前,完成针对目标语句的预标注;
另一方面,通过将从上述目标语句中提取出候选事件元素,以及确定出的上述目标语句所描述的事件类型进行交叉组合生成候选事件,并将生成的候选事件推送给事件标注人员,由事件标注人员从候选事件中选择出正确的候选事件,来完成对目标语句的事件抽取,使得事件标注人员仅需要通过简单的选择操作,就可以完成对目标语句的事件抽取,因而可以显著的降低标注难度,提升标注效率。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
请参考图1,图1是本申请一实施例提供的一种事件抽取方法,所述方法执行以下步骤:
步骤102,提取目标语句中包含的候选事件元素,并基于提取出的候选事件元素生成候选事件元素集合;以及,确定所述目标语句描述的事件类型,并基于确定出的事件类型生成候选事件类型集合;
步骤104,将所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行交叉组合,生成若干候选事件;
步骤106,将生成的候选事件推送给事件标注人员,并获取事件标注人员从所述若干候选事件中选择出的正确候选事件,作为从所述目标语句中抽取出的目标事件。
在实际应用中,采用传统的“填空式”的标注方式,从目标文本中抽取事件,通常需要事件标注人员,对目标文本中的语句进行认真解读,然后从众多的候选事件类型中判断出正确的事件类型;因此,这种“填空式”的标注方式,对事件标注人员的要求要高,需要其掌握相关领域的专业知识。
而在本说明书中,将不再采用传统的“填空式”的标注方式,而是采集“选择式”的标注方式,从目标文本中提取事件。进而来降低标注难度,提升标注效率。
请参见图2,图2为本说明书示出的采用“选择式”的标注方式从目标文本中提取事件的流程图。
其中,需要说明的是,本说明书中描述的“选择式”标注方式,是一种在系统对目标文本中的语句进行预标注的基础之上,由事件标注人员从系统对目标文本中的语句进行预标注生成的若干候选事件中,选择出该语句中所包含的正确事件的标注方式。
采用“选择式”的标注方式,对于事件标注人员而言,只需要完成简单的选择操作,而并不需要掌握过多的专业知识,因此有助提升标注效率,降低标注难度。
以下将结合图2示出的流程对本说明书的技术方案进行详细描述。
如图2所示,系统在从目标文本中抽取事件之前,首先可以可对目标文本进行数据预处理。
其中,由于一个事件大多只出现在一个完整的语句之中,因此在本说明书中,对目标文本进行标注,可以以语句为标注单位。基于此,本说明书中中描述的对目标文本进行数据预处理的过程,具体可以包括对目标文本执行的文本拆分预处理。通过文本拆分预处理,可以将目标文本拆分成若干语句。
需要说明的是,对目标文本进行文本拆分预处理所采用的具体的拆分方式,在本说明书中不进行特别限定;
例如,在示出的一种实现方式中,可以以目标文本中的标点符号作为分隔符,对目标文本进行文本拆分,将目标文本拆分为若干语句。
在本说明书中,由于最终拆分出的若干语句中,可能还包括一些无效的语句;因此,在对目标文本进行数据预处理的阶段,在完成了对目标文本的文本拆分预处理以后,还可以针对拆分出的若干语句进行过滤预处理,以过滤掉拆分出的若干语句中的无效语句。
在示出的一种实施方式中,可以采用事件触发词集合作为过滤条件,对拆分出的若干语句进行过滤。其中,事件触发词,通常是指用于标识和描述事件的谓词。触发词的出现,一定程度可以表征事件的发生。
在定义事件阶段,一方面,可以预先定义若干种有效事件,并基于定义的有效事件,创建事件集合;另一方面,对于定义的有效事件,还可以预先人工整理出与这些有效事件对应的事件触发词,并基于定义的所有有效事件对应的事件触发词,来创建事件触发词集合。
在针对拆分出的任一目标语句进行过滤预处理时,可以将上述事件触发词集合作为过滤条件,来确定拆分出的语句中是否包含上述事件触发词集合中的事件触发词;对于包含上述事件触发词集合中的事件触发词的语句,可以判定为有效语句。而对于不包含上述事件触发词集合中任何一个事件触发词的语句,则可以直接判定为无效语句。对于无效语句,可以采用直接丢弃的方式进行过滤处理。
通过这种方式,可以在数据预处理阶段,就过滤掉拆分出的语句中不含有具体事件的无效语句,从而可以避免在标注阶段产生大量的无效语句。
请继续参见图2,在完成针对目标文本的数据预处理之后,系统可以进一步对最终保留的有效语句逐一进行预标注。其中,在本说明书中,对有效语句进行预标注,具体可以包括事件元素预标注和事件类型预标注。
所谓事件元素预标注,是指识别和提取出有效语句中包含的事件元素的过程;而所谓事件类型预标注,是指确定出有效语句所描述的事件类型的过程。
在示出的一种实施方式中,可以将最终保留的有效语句中所包含的命名实体(named entity),作为语句所描述的事件相关的事件元素。
在这种情况下,对最终保留的有效语句中的任一目标语句进行事件预标注的过程,即为识别出上述目标语句中包含的命名实体的过程。系统可以基于预设的NER(NamedEntity Recognition,命名实体识别)算法,识别出该目标语句中所包含的命名实体;
其中,系统采用的上述NER算法的具体算法类型,在本说明书中不进行特别限定,在实际应用中,可以基于具体的需求进行灵活的选择。
例如,在实现时,可以采用成熟的BiLSTM+CRF的算法架构,将语句作为算法框架的输入,并在基于该算法框架的计算后,输出语句中所包含的实体词(比如“公司”)和对应的实体类型(比如,company类型)。
进一步的,当基于NER算法分别提取出这些有效语句中包含的命名实体之后,可以将从各个有效语句中提取出的命名实体作为候选事件元素,针对各个有效语句来分别创建候选事件元素集合。也即,对于每一个有效语句而言,可以基于从该有效语句中提取出的候选事件元素,创建一个与该有效语句对应的候选事件元素集合。
在示出的一种实施方式中,系统可以采用预配置的事件判断规则,对最终保留的有效语句中所描述的事件类型进行判断。
其中,在上述事件判断规则中,具体可以声明预设事件类型;以及,与上述预设事件类型对应的预设命名实体类型和预设事件触发词。
系统可以将这些有效语句分别与上述事件判断规则进行匹配;如果这些语句中的任一目标语句,包含上述事件判断规则中声明的预设命名实体类型和预设事件触发词,此时该目标语句与该事件判断规则匹配,可以直接该事件判断规则中声明的预设事件类型,确定为该目标语句所描述的事件类型。
例如,在实现时,上述事件判断规则,具体可以是声明了预设事件类型,以及与该预设事件类型对应的预设命名实体类型和预设事件触发词的判断语句。系统可以执行该判断语句,来判断语句中是否包含该事件判断规则中声明的预设命名实体类型和预设事件触发词;如果是,可以直接将该判断语句中声明的预设事件类型,确定为该语句所描述的事件类型。
其中,需要说明的是,在实际应用中,系统预配置的事件判断规则,具体可以是一个包含多条事件判断规则的规则列表。
在这种情况下,通过以上描述的匹配规则的过程,对这些有效语句中的任一目标语句而言,可能会与上述规则列表中的多条事件判断规则匹配。也即,通过以上描述的匹配规则的过程,对于这些有效语句中的任一目标语句而言,可能会确定出该目标语句描述了多种事件类型。进一步的,当系统采用预配置的事件判断规则,确定出最终保留的有效语句中所描述的事件类型之后,可以基于确定出的各个有效语句描述的事件类型,针对每一个有效语句来分别创建事件类型集合。也即,对于每一个有效语句而言,可以基于确定出的该有效语句所描述的事件类型,创建一个与该有效语句对应的候选事件类型集合。
在本说明书中,系统在完成针对最终保留的有效语句的预标注之后,此时最终保留的每一条有效语句,均已经创建了与之对应的候选事件元素集合和候选事件类型集合。系统可以针对最终保留的每一条有效语句对应的候选事件元素集合和候选事件类型集合,来为每一条有效语句分别生成候选事件。
请继续参见图2,对于最终保留的这些有效语句中的任一目标语句而言,系统可以将与该目标语句对应的候选事件元素集合中的候选事件元素,和与该目标语句对应的候选事件类型集合中的事件类型进行交叉组合,来为该目标语句生成若干候选事件。
需要说明的是,所谓交叉组合,是指将候选事件元素集合中的各个事件元素,分别与上述候选事件类型集合中的各个事件类型进行组合。通过这种方式,可以列举出所有可能出现的候选事件,避免候选事件发生遗漏。
当为上述目标语句生成了若干候选事件之后,系统可以将生成的这些候选事件,推送给事件标注人员,由事件标注人员对这些候选事件进行人工标注,从中选择出该目标语句所包含的正确候选事件。相应的,系统可以获取事件标注人员从推送的这些候选事件中选择出的正确候选事件,作为从该目标语句中抽取出的目标事件,以完成针对该目标语句的事件抽取。
需要说明的是,在本说明书中,为了便于事件标注人员能够直观的完成事件标注,系统生成的这些候选事件,具体可以是系统基于具体的可视化策略,进行可视化处理之后的候选事件。
其中,上述可视化策略对应的具体策略内容,在本说明书中不进行特别限定,本领域技术人员可以基于实际的需求来进行灵活选择。也即,在实际应用中,上述候选事件最终以何种形式呈现给事件标注人员,可以基于实际的需求进行灵活的定制。
在示出的一种实施方式中,系统生成的这些候选事件,具体可以由系统进一步处理成提问式标注题目的形式。在这种场景下,系统可以基于上述若干候选事件的具体内容,来创建若干提问式标注题目,然后将创建的提问式标注题目推送给事件标注人员。
其中,上述提问式标注题目,具体可以包括题干,和与题干对应的题目选项两部分。
上述提问式标注题目的题干,具体可以包括上述目标语句的原始内容,和用于提示该目标语句中是否包含指定候选事件的文本提示;其中,该指定候选事件,即为由上述候选事件元素集合中的候选事件元素,和上述候选事件类型集合中的事件类型组合生成的候选事件。
例如,上述文本提示具体可以是一条“下面语句中,A公司发生了股权转让事件。请问这个说法是否正确吗?”的文本提示。其中,“A公司”为来自于上述事件元素集合中的事件元素;“股权转让事件”为来自于上述事件类型集合中的事件类型;事件元素“A公司”和事件类型“股权转让事件”,组合生成了“A公司的股权转让”这一候选事件。而上述提问式标注题目的题目选项,具体可以包括正确选项和错误选项。
在示出的一种实施方式中,系统为预先定义的有效事件,创建一个事件定义知识库。在该事件定义知识库中,存储每一种有效事件对应的事件类型的定义解释。
当系统在基于上述若干候选事件的具体内容,来创建若干提问式标注题目时,还可以在创建的提问式标注题目的题干中,为题干所包含的候选事件,添加对应的定义解释,作为该候选事件的描述信息。
通过这种方式,使得事件标注人员通过阅读题干中针对候选事件的描述信息,就可以理解所要标注的事件的含义,可以避免由于事件标注人员缺失专业知识,不理解事件含义而造成的误标注的情况。
以下通过一个具体的示例来详细描述上述提问式标注题目的具体内容。
在本示例中,将以目标语句为“A公司将部分股权转让给了B公司”为例,假设与该目标语句对应的候选事件元素集合为{A公司、B公司},与该目标语句对应的候选事件类型集合为{股权转让,股权受让}。
系统将候选事件元素集合中的选事件元素,与候选事件类型集合中的候选事件类型进行交叉组合,得到的候选事件可以如下所示:
A公司的股权转让事件、B公司的股权转让事件、A公司的股权受让事件、B公司的股权受让事件。
进一步的,系统可以基于以上示出的四种候选事件,来分别创建提问式标注题目。以上述“A公司的股权转让事件”为例,系统基于该事件创建的提问式标注题目可以如下表所示:
题目1 |
请判断题目是否正确 |
提干 |
<![CDATA[下面语句中,<u>A公司</u>发生了<u>股权转让事件</u>。请问这个说法正确吗?]]> |
语句 |
A公司将部分股权转让给了B公司 |
事件定义 |
股权转让:公司依法将自己的股东权益有偿转让给其他公司 |
答案选项 |
正确/错误 |
其中,需要说明的是,对于以上示出的“B公司的股权转让事件”、“A公司的股权受让事件”、“B公司的股权受让事件”,系统为其生成的提问式标注题目的具体格式,与上表相同,仅需对题干中的文本提示进行修改,在本说明书中不再进行示例。
请继续参见图2,当系统基于上述若干候选事件的具体内容,分别创建了对应的提问式标注题目之后,可以将创建的提问式标注题目推送给事件标注人员进行人工标注。事件标注人员在收到系统推送的提问式标注题目之后,可以通过阅读题干来理解事件的定义,并基于个人的理解来进行“答题”,从中选择出相应的答题选项。
而系统可以获取事件标注人员选择的题目选项,然后将事件标注人员选了“正确选项”的提问式标注题目中,所包含的候选事件,确定事件标注人员从上述若干候选事件中选择出的正确候选事件,作为从该目标语句中抽取出的目标事件,以完成针对该目标语句的事件抽取
在示出的一种实施方式中,系统在向事件标注人员推送创建的提问式标注题目时,可以将创建的提问式标注题目,推送给多个事件标注人员同时进行“答题”。
例如,请参见图2,图2中示出的为,将题目推送至众包标注平台,由众多标注平台上的多人进行数据达标标注;其中,需要解释的是,所谓众包标注(Crowdsourcedtagging),是指公司或机构(对应以上描述的系统的角色)把过去由自己员工执行的数据标注任务,以自由自愿的形式外包给非特定的大众网络人员(通常并不具有过多的专业知识)来标注的做法。
在这种场景下,由于是多个事件标注人员针对相同的提问式标注题目同时进行“答题”,即便针对同一提问式标注题目,各个事件标注人员选择的题目选项也可能存在差异;因此,在本说明书中,在上述系统中还可以引入基于投票机制的标注结果确认流程。
假设系统将创建的提问式标注题目推送给了N个事件标注人员(比如N可以取奇数),每个题目由N个事件标注人员进行“答题”。针对每个题目,待所有事件标注人员均“答题”完成后,系统可以采用投票机制来确认最终的标注结果。
以上示出的投票机制,具体可以是,针对某一题目,如果选择了某一答题选项的事件标注人员的数量,与事件标注人员的总数量的比值达到预设阈值,则将该答题选项作为该题目的最终标注结果。
例如,以上述预设阈值为N/2取整得到的数值为例,假设N=5,此时该预设阈值为3,那么针对同一题目,如果选择了“正确”选项的事件标注人员的人数,达到了3人,则该题目的最终标注结果为“正确”;反之,如果选择了“错误”选项的事件标注人员的人数,达到了3人,则该题目的最终标注结果为“错误”。
在这种情况下,系统在获取到各个事件标注人员对某一提问式标注题目的选择的题目选项后,可以进一步确定选择了正确选项的事件标注人员的数量,与事件标注人员的总数量的比值是否达到预设阈值;如果是,则可以将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从上述若干候选事件中选择出的正确候选事件。
例如,仍以上述预设阈值为N/2取整得到的数值为例,假设N=5,此时该预设阈值为3,系统在获取到所有事件标注人员针对上表中示出的“题目1”的题目选项后,可以确定选择了“正确”选项的事件标注人员的人数,是否达到了3人;如果是,则可以直接将该题目1的题干中所包含的“A公司的股权转让事件”这一候选事件,确定为从“A公司将部分股权转让给了B公司”这一语句中抽取出的目标事件。
在本说明书中,当系统按照以上描述的实施过程,从上述目标语句中抽取出了目标事件之后,还可以基于该目标语句,以及从该目标语句中抽取出的目标事件来创建训练样本;然后,可以基于创建的训练样本来训练事件抽取模型。
例如,系统可以将所有最终标注结果为“正确”的提问式标注题目收集起来,提取出这些题目中包含的语句,以及这些题目中包含的事件元素和事件类型等,就得到了训练事件抽取模型所需的训练语料。
其中,需要说明的是,本说明书描述的事件抽取模型具体可以是机器学习模型。而关于上述机器学习模型的具体类型,以及具体的训练过程,在本说明书中不再进行详述,本领域技术人员可以参考相关技术中的记载。
在以上技术方案中,一方面,通过从目标语句中提取出候选事件元素,并确定出上述目标语句所描述的事件类型,可以避免由事件标注人员对目标语句中包含的候选事件元素,以及目标语句所描述的事件类型进行人工标注,进而可以在事件标注人员对目标语句进行正式标注之前,完成针对目标语句的预标注;
另一方面,通过将从上述目标语句中提取出候选事件元素,以及确定出的上述目标语句所描述的事件类型进行交叉组合生成候选事件,并将生成的候选事件推送给事件标注人员,由事件标注人员从候选事件中选择出正确的候选事件,来完成对目标语句的事件抽取,使得事件标注人员仅需要通过简单的选择操作,就可以完成对目标语句的事件抽取,因而可以显著的降低标注难度,提升标注效率。
与上述方法实施例相对应,本申请还提供了装置的实施例。
与上述方法实施例相对应,本说明书还提供了一种事件抽取装置的实施例。本说明书的事件抽取装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书的事件抽取装置所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
图4是本说明书一示例性实施例示出的一种事件抽取装置的框图。
请参考图4,所述事件抽取装置40可以应用在前述图3所示的电子设备中,包括:
提取模块401,提取目标语句中包含的候选事件元素,并基于提取出的候选事件元素生成候选事件元素集合;
确定模块402,确定所述目标语句描述的事件类型,并基于确定出的事件类型生成候选事件类型集合;
生成模块403,将所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行交叉组合,生成与所述目标语句对应的若干候选事件;
推送模块404,将生成的候选事件推送给事件标注人员;
获取模块405,获取事件标注人员从所述若干候选事件中选择出的正确候选事件,作为从所述目标语句中抽取出的目标事件。
在本实施例中,所述提取模块401:
基于预设的命名实体识别算法识别所述目标语句中包含的命名实体;
提取从所述目标语句中识别出的命名实体作为候选事件元素。
在本实施例中,所述提取模块401:
在提取所述目标语句中包含的候选事件元素之前,确定所述目标语句中是否包含与预设事件集合中的有效事件对应的事件触发词;如果是,进一步提取所述目标语句中包含的候选事件元素;如果否,将所述目标语句作为无效语句进行丢弃处理。
在本实施例中,所述确定模块402:
将所述目标语句与预设的事件判断规则进行匹配;其中,所述事件判断规则包括预设事件类型;以及,与所述预设事件类型对应的预设命名实体类型和预设事件触发词;
如果所述目标语句包含所述预设命名实体类型和预设事件触发词,则将所述预设事件类型确定为所述目标语句描述的事件类型。
在本实施例中,所述候选事件为提问式标注题目;
其中,所述提问式标注题目包括题干和题目选项;所述题干包括所述目标语句和用于提示所述目标语句是否包含指定候选事件的文本提示;所述指定候选事件为由所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行组合生成的候选事件;所述题目选项包括正确选项和错误选项。
在本实施例中,所述获取模块405:
获取事件标注人员选择的题目选项;
将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件。
在本实施例中,所述提问式标注题目的题干中包含的候选事件,被添加了对应于所述候选事件的事件描述。
在本实施例中,所述获取模块405进一步:
确定选择了正确选项的事件标注人员的数量,与事件标注人员的总数量的比值是否达到预设阈值;如果是,将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的装置、装置、模块或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与上述方法实施例相对应,本说明书还提供了一种电子设备的实施例。该电子设备包括:处理器以及用于存储机器可执行指令的存储器;其中,处理器和存储器通常通过内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与事件抽取逻辑对应的机器可执行指令,所述处理器被促使:
提取目标语句中包含的候选事件元素,并基于提取出的候选事件元素生成候选事件元素集合;以及,确定所述目标语句描述的事件类型,并基于确定出的事件类型生成候选事件类型集合;
将所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行交叉组合,生成与所述目标语句对应的若干候选事件;
将生成的候选事件推送给事件标注人员,并获取事件标注人员从所述若干候选事件中选择出的正确候选事件,作为从所述目标语句中抽取出的目标事件。
在本实施例中,通过读取并执行所述存储器存储的与事件抽取逻辑对应的机器可执行指令,所述处理器被促使:
基于预设的命名实体识别算法识别所述目标语句中包含的命名实体;
提取从所述目标语句中识别出的命名实体作为候选事件元素。
在本实施例中,通过读取并执行所述存储器存储的与事件抽取逻辑对应的机器可执行指令,所述处理器被促使:
在提取所述目标语句中包含的候选事件元素之前,确定所述目标语句中是否包含与预设事件集合中的有效事件对应的事件触发词;如果是,进一步提取所述目标语句中包含的候选事件元素;如果否,将所述目标语句作为无效语句进行丢弃处理。
在本实施例中,通过读取并执行所述存储器存储的与事件抽取逻辑对应的机器可执行指令,所述处理器被促使:
将所述目标语句与预设的事件判断规则进行匹配;其中,所述事件判断规则包括预设事件类型;以及,与所述预设事件类型对应的预设命名实体类型和预设事件触发词;
如果所述目标语句包含所述预设命名实体类型和预设事件触发词,则将所述预设事件类型确定为所述目标语句描述的事件类型。
在本实施例中,所述候选事件为提问式标注题目;
其中,所述提问式标注题目包括题干和题目选项;所述题干包括所述目标语句和用于提示所述目标语句是否包含指定候选事件的文本提示;所述指定候选事件为由所述候选事件元素集合中的候选事件元素与所述候选事件类型集合中的事件类型进行组合生成的候选事件;所述题目选项包括正确选项和错误选项。
在本实施例中,通过读取并执行所述存储器存储的与事件抽取逻辑对应的机器可执行指令,所述处理器被促使:
获取事件标注人员选择的题目选项;
将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件。
在本实施例中,所述提问式标注题目的题干中包含的候选事件,被添加了对应于所述候选事件的事件描述。
在本实施例中,通过读取并执行所述存储器存储的与事件抽取逻辑对应的机器可执行指令,所述处理器被促使:
确定选择了正确选项的事件标注人员的数量,与事件标注人员的总数量的比值是否达到预设阈值;如果是,将事件标注人员选择了正确选项的提问式标注题目中所包含的候选事件,确定为事件标注人员从所述若干候选事件中选择出的正确候选事件。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。