CN114297394B - 对文本中的事件论元进行抽取的方法和电子设备 - Google Patents
对文本中的事件论元进行抽取的方法和电子设备 Download PDFInfo
- Publication number
- CN114297394B CN114297394B CN202210238820.9A CN202210238820A CN114297394B CN 114297394 B CN114297394 B CN 114297394B CN 202210238820 A CN202210238820 A CN 202210238820A CN 114297394 B CN114297394 B CN 114297394B
- Authority
- CN
- China
- Prior art keywords
- argument
- event
- text
- answer
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 155
- 239000013604 expression vector Substances 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 76
- 239000013598 vector Substances 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 56
- 238000001514 detection method Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 238000002372 labelling Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000000386 athletic effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本公开涉及一种对文本中的事件论元进行抽取的方法和电子设备,该方法包括:对待处理文本中包含的事件类型进行检测,得到目标事件类型;根据该目标事件类型及对应的目标论元角色的先验关联信息,构造得到论元抽取问题;将待处理文本和论元抽取问题进行拼接,得到目标文本;将该目标文本的表示向量输入至机器阅读理解模型中,该模型包括两层依序设置的分类器,第一层分类器同步对该目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;根据该答案预测结果和对应的标签,输出事件论元。
Description
技术领域
本公开涉及文本数据处理领域和人工智能技术领域,尤其涉及一种对文本中的事件论元进行抽取的方法和电子设备。
背景技术
在面对海量信息时,如何从海量的文本数据中挖掘有用信息成为重要问题。许多信息一般是以事件的形式存在,而事件抽取就是从大量非结构化文本中抽取特定类型的事件触发词以及相应的事件论元并以结构化的形式呈现出来,这是信息抽取领域中的一个重要的任务。
在实现本公开构思的过程中,发现相关技术中至少存在如下技术问题:在事件论元抽取时存在一个论元角色对应多个论元实体和论元为嵌套实体的场景,目前的方法无法对上述两种场景做到论元的精确提取;级联式抽取先对候选论元进行抽取,再对候选论元分类,存在误差传递的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种对文本中的事件论元进行抽取的方法和电子设备。
第一方面,本公开的实施例提供了一种对文本中的事件论元进行抽取的方法。上述方法包括:对待处理文本中包含的事件类型进行检测,得到目标事件类型;根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题;将上述待处理文本和上述论元抽取问题进行拼接,得到拼接后的目标文本;将上述目标文本的表示向量输入至机器阅读理解模型中,上述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对上述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对上述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;以及根据上述答案预测结果和对应的答案指示标签,输出与上述目标事件类型对应匹配的事件论元。
根据本公开的实施例,上述第一层分类器包括三个分类器,分别为第一分类器、第二分类器和第三分类器,其中第一分类器用于预测上述目标文本是否存在针对上述论元抽取问题的答案,得到的预测结果为上述答案指示标签,第二分类器用于预测上述表示向量对应的每个词素是否为答案的开始位置,第三分类器用于预测上述表示向量对应的每个词素是否为答案的结束位置。
根据本公开的实施例,上述目标文本的表示向量为字节对编码向量、分段向量和位置向量这三种向量进行拼接后的拼接向量形式。
根据本公开的实施例,上述目标论元角色的先验关联信息包括:上述目标论元角色对应的关键词描述信息、上述目标论元角色对应的标注文档定义信息、以及上述目标论元角色对应的事件先验信息;上述事件先验信息包括以下至少一种:目标论元角色的实体类型、实体列举实例;根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题,包括以下至少一种:采用在一已知事件中提问上述目标论元角色对应的关键词描述信息的方式来构造得到论元抽取问题;或者,采用在一已知事件中提问上述目标论元角色对应的标注文档定义信息的方式来构造得到论元抽取问题;或者,采用在一已知事件中提问上述目标论元角色对应的事件先验信息的方式来构造得到论元抽取问题;其中,已知事件为上述目标事件类型对应的事件。
根据本公开的实施例,对待处理文本中包含的事件类型进行检测,得到目标事件类型,包括:将待处理文本的文本编码向量输入至预训练语言模型中,输出得到上述待处理文本的隐层向量;将上述隐层向量输入至条件随机场(CRF)模型中,输出得到与上述待处理文本对应的最优文本标签序列,上述条件随机场模型用于建模标签之间的关系;以及根据上述最优文本标签序列,得到上述待处理文本的目标事件类型及所对应的事件触发词。根据本公开的实施例,上述阅读理解模型通过以下方式构建得到:对待训练文本中包含的事件类型进行检测,得到候选事件类型;根据上述候选事件类型和上述候选事件类型对应的候选论元角色的先验关联信息,构造得到针对上述待训练文本的训练用论元抽取问题;将上述待训练文本和上述训练用论元抽取问题进行拼接,得到拼接后的目标训练文本;将上述目标训练文本的表示向量输入至待训练阅读理解模型中,上述待训练阅读理解模型的第一层分类器同步对上述目标训练文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有候选答案指示标签的候选位置预测结果;上述待训练阅读理解模型的第二层分类器对上述候选位置预测结果中开始位置和结束位置进行配对组合后的候选预测实体是否为候选事件论元进行预测,得到候选答案预测结果,将上述目标训练文本的真实值作为标签来对上述待训练阅读理解模型进行训练,训练完成的待训练阅读理解模型为机器阅读理解模型。
根据本公开的实施例,上述待训练阅读理解模型的损失函数包含两部分:答案指示标签损失函数和事件论元抽取损失函数,所述事件论元抽取损失函数为第一交叉熵损失函数、第二交叉熵损失函数、第三交叉熵损失函数与各自对应权重之间的加权和;上述第一交叉熵损失函数、上述第二交叉熵损失函数和上述第三交叉熵损失函数各自对应的权重为预设参数且三者之和为1;上述第一交叉熵损失函数为进行开始位置识别预测对应的交叉熵损失函数;上述第二交叉熵损失函数为进行结束位置识别预测对应的交叉熵损失函数;上述第三交叉熵损失函数为进行开始位置和结束位置匹配预测对应的交叉熵损失函数;上述答案指示标签损失函数为进行答案指示标签识别对应的交叉熵损失函数。
第二方面,本公开的实施例提供了一种对文本中的事件论元进行抽取的装置。上述装置包括:事件类型检测模块、问题构造模块、文本生成模块、事件论元抽取模块和事件论元输出模块。上述事件类型检测模块,用于对待处理文本中包含的事件类型进行检测,得到目标事件类型。上述问题构造模块,用于根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题。上述文本生成模块,用于将上述待处理文本和上述论元抽取问题进行拼接,得到拼接后的目标文本。上述事件论元抽取模块,用于将上述目标文本的表示向量输入至机器阅读理解模型中,上述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对上述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对上述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果。上述事件论元输出模块,用于根据上述答案预测结果和对应的答案指示标签,输出与上述目标事件类型对应匹配的事件论元。
根据本公开的实施例,根据上述答案预测结果和对应的答案指示标签,输出与上述目标事件类型对应匹配的事件论元,包括:当上述答案指示标签指示上述目标文本不存在答案时,上述答案预测结果中包含的事件论元预测实体被视为无效,输出不存在与上述目标事件类型匹配的事件论元的结果;当上述答案指示标签指示上述目标文本存在答案时,上述答案预测结果中包含的事件论元预测实体被视为有效,将上述答案预测结果中的事件论元预测实体作为待输出的事件论元,并将上述待输出的事件论元与对应的目标事件类型进行匹配后输出。
第三方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的对文本中的事件论元进行抽取的方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的对文本中的事件论元进行抽取的方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
(1)通过根据待处理文本检测得到的目标事件类型及其对应的目标论元角色的先验关联信息来构造得到针对上述待处理文本的论元抽取问题,结合了每个目标论元角色的先验关联信息和对应的目标事件类型,由此构造得到的目标文本在进行答案预测时,在一个论元角色对应于多个论元实体的场景下,基于第一层分类器能够得到同一个论元角色对应的多个开始位置和多个结束位置,进一步基于第二层分类器对开始位置和结束位置的匹配组合的预测实体进行论元识别预测,从而能够输出得到同一个论元角色对应的多个论元实体,解决同一个论元角色对应多个论元实体场景下的论元抽取不准确的问题;另外,在多个论元实体嵌套/重叠的场景下,嵌套实体只需要回答两个独立的论元抽取问题即可,能够实现论元的精准定位,解决嵌套实体场景下的论元抽取不精确的问题;
同时将事件论元的抽取构造为基于机器阅读理解模型进行答案提取的方式,并通过设置机器阅读理解模型中的两层分类器的处理逻辑,能够联合地完成论元识别和论元分类这两个任务,在第一层分类器同步进行是否存在答案的识别(论元识别任务)、对答案的开始位置(可能为0个、1个或多个)和结束位置(可能为0个、1个或多个)进行识别预测,得到携带有答案指示标签的位置预测结果,并继续在第二层分类器对位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果,上述答案预测结果得到的事件论元预测实体本身已经是和构造的论元抽取问题中的目标论元角色是匹配的,能够联合完成确定待处理文本中是否存在事件论元这一识别任务和对事件论元进行分类的任务,如此能够有效避免级联式抽取存在误差传递的问题;
(2)此外,在构建机器阅读理解模型时,通过根据先验关联信息和目标事件类型二者结合的方式来构造训练用论元抽取问题,由此训练得到的机器阅读理解模型有一定能力消除相似标签之间可能存在的语义歧义,从而具有更好的泛化性和鲁棒性;阅读理解抽取范式能够提升模型在少样本甚至零样本情景中的抽取性能,在遇到新类型事件也能表现出良好的迁移性能,满足了真实业务场景的需求;经实验表明,在基准数据集ACE2005中文语料上采用上述方法或者基于上述构建得到的机器阅读理解模型来进行事件论元抽取时,抽取性能超过目前中文事件论元抽取的最优模型约2个百分点。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了根据本公开实施例的对文本中的事件论元进行抽取的方法的流程图;
图2A示意性地示出了根据本公开实施例的步骤S110的详细实施流程图;
图2B示意性地示出了根据本公开实施例的步骤S110的详细实施过程图;
图3示意性地示出了根据本公开实施例的步骤S140的详细实施过程图;
图4示意性地示出了根据本公开实施例的构建机器阅读理解模型的流程图;
图5示意性地示出了根据本公开实施例的方法分别在33类事件的训练语料中训练、抽取其中4种事件的测试语料进行结果测试的实施例和在29类事件的训练语料进行训练、相同的4种事件的测试语料进行测试的实施例的性能测试结果对比图;
图6示意性地示出了使用不同比例训练数据训练模型时,本公开实施例的方法的论元抽取性能;以及
图7示意性示出了本公开实施例提供的电子设备的结构框图。
具体实施方式
事件抽取被广泛研究,取得了令人瞩目的进展,但其中的许多问题仍并未被完全解决。以中文事件的抽取为例,在面对更为复杂且贴近真实的场景中已有方法的抽取效果并不理想。其存在的问题主要概括为以下四类:
(1)多论元实体问题。在事件论元抽取时存在一个论元角色对应多个论元实体的情况,现有模型方法大多未关注到该问题或只是通过简单的人工设定过滤阈值来确定候选论元结果,即便如此,阈值的设定也存在泛化性问题,无法得到较为精确的论元结果。
(2)嵌套实体问题。在中文事件论元抽取中,论元中重叠实体是很常见的现象,然而现有基于序列标注的命名实体识别方法因每次只能给候选词标注单个标签因而局限于非重叠实体的识别上,这就导致在存在嵌套实体的场景下无法准确地抽取出事件论元。例如在语句“20××年××月××日,××国田径队在×××场馆进行训练”这句话中,“××国田径队”涉及论元实体的嵌套/重叠。
(3)级联式抽取存在误差传递问题。有的方法中进行事件论元抽取分为两个阶段:第一阶段进行候选论元的抽取/提取,提取命名实体识体作为候选的事件论元;第二阶段对候选论元进行分类,判断候选论元在对应事件中担任的角色。事件候选论元分类依赖于候选论元的抽取结果,如果采用级联式的抽取方法,则候选论元抽取产生的误差就会传递到分类任务中,从而造成误差累积。
(4)数据稀疏问题。首先,相较于实体和关系,事件具有更加复杂的结构、更为多样的类型。其结构的复杂性和类型的多样性给人工标注带来了困难,极大地限制了现有数据集的规模。目前应用最广泛的ACE2005中文事件抽取数据集仅提供了633篇标注文档,并且超过70%的事件类型只有不超过100个训练样本。另外,在真实场景中,无法获得所有事件类型的训练语料,所以当出现了新的事件类型,传统模型无法表现出好的性能。
有鉴于此,本公开的实施例提供了一种对文本中的事件论元进行抽取的方法和电子设备,通过将事件类型及其对应的论元角色的先验关联信息结合起来构造得到论元抽取问题,结合了每个目标论元角色的先验关联信息和对应的目标事件类型,由此构造得到的目标文本在进行答案预测时,在一个论元角色对应于多个论元实体的场景下,基于第一层分类器能够得到同一个论元角色对应的多个开始位置和多个结束位置,进一步基于第二层分类器对开始位置和结束位置的匹配组合的预测实体进行论元识别预测,从而能够输出得到同一个论元角色对应的多个论元实体,解决同一个论元角色对应多个论元实体场景下的论元抽取不准确的问题;另外,在多个论元实体或多个论元实体嵌套/重叠的场景下,重叠实体只需要回答两个独立的论元抽取问题即可,能够实现论元的精准定位,解决嵌套实体场景下的论元抽取不精确的问题;同时将事件论元的抽取构造为基于机器阅读理解模型进行答案提取的方式,并通过设置机器阅读理解模型中的两层分类器的处理逻辑,能够联合地完成论元识别和论元分类这两个任务,如此能够有效避免级联式抽取存在误差传递的问题。
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
下面先对本公开涉及的术语进行解释说明。
事件抽取:把事件信息从非结构化的文本中抽取出来,并以结构化的形式呈现出来。事件抽取一般包括对事件触发词(event trigger)的抽取和对事件论元(eventargument)的抽取。
事件:一般地,根据ACE(Automatic Content Extraction)的定义,事件由事件触发词与事件论元组成,其中事件触发词为代表该事件类型的一个单词或短语,事件论元(也可以简称为论元)为描述该事件属性的多个单词或短语。每一个事件实例都是由一个事件触发词与多个事件论元组成的结构化的多元组。例如“××社报道,2018年3月15日,张三在南京长江大桥旅游时救援了一只流浪狗”这句话中,“救援”这一事件触发词对应的论元包括:“张三”(主体/施动者)、“流浪狗”(客体/受动者)、“南京”(城市地点)、“南京长江大桥”(具体地点)等;“旅游”这一事件触发词对应的论元包括:“张三”、“南京长江大桥”等。论元对应的语义角色可以涵盖诸如:动作所涉及的主体/施动者、客体/受动者,动作、行为、状态所处的场所,动作的起点、方向、终点,动作的原因及引起的结果,动作凭借的工具等等。上述“南京”和“南京长江大桥”为论元实体嵌套的示例。
本公开的第一个示例性实施例提供了一种对文本中的事件论元进行抽取的方法。
图1示意性地示出了根据本公开实施例的对文本中的事件论元进行抽取的方法的流程图。
参照图1所示,本公开实施例提供的对文本中的事件论元进行抽取的方法,包括以下步骤:S110、S120、S130、S140和S150。
在步骤S110,对待处理文本中包含的事件类型进行检测,得到目标事件类型;
在步骤S120,根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题;
在步骤S130,将上述待处理文本和上述论元抽取问题进行拼接,得到拼接后的目标文本;
在步骤S140,将上述目标文本的表示向量输入至机器阅读理解模型中,上述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对上述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对上述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;
在步骤S150,根据上述答案预测结果和对应的答案指示标签,输出与上述目标事件类型对应匹配的事件论元。
包含步骤S110~S150的实施例中,通过根据待处理文本检测得到的目标事件类型及其对应的目标论元角色的先验关联信息来构造得到针对上述待处理文本的论元抽取问题,结合了每个目标论元角色的先验关联信息和对应的目标事件类型,由此构造得到的目标文本在进行答案预测时,在一个论元角色对应于多个论元实体的场景下,基于第一层分类器能够得到同一个论元角色对应的多个开始位置和多个结束位置,进一步基于第二层分类器对开始位置和结束位置的匹配组合的预测实体进行论元识别预测,从而能够输出得到同一个论元角色对应的多个论元实体,解决同一个论元角色对应多个论元实体场景下的论元抽取不准确的问题;另外,在多个论元实体嵌套/重叠的场景下,重叠实体只需要回答两个独立的论元抽取问题即可,能够实现论元的精准定位,解决重叠实体场景下的论元抽取不精确的问题;同时将事件论元的抽取构造为基于机器阅读理解模型进行答案提取的方式,并通过设置机器阅读理解模型中的两层分类器的处理逻辑,能够联合地完成论元识别和论元分类这两个任务,确定待处理文本中是否存在事件论元的结果这一识别任务以及事件论元本身已经是和构造的论元抽取问题中的目标论元角色是匹配的,即同时还实现了对事件论元的分类任务,如此能够有效避免级联式抽取存在误差传递的问题。
步骤S110~S150可以由具有运算能力的电子设备进行处理,电子设备可以是安装有应用的终端设备或者为上述终端设备提供服务的服务端,例如应用服务器或者云端服务器等。
上述方法的执行场景可以是响应于用户的请求进行文本处理,或者是在数据筛选/存储/信息提取的场景中,自动对文本信息进行处理,得到文本中的事件论元,后续可以基于提取出的事件论元进行相关场景的拓展,例如利用事件论元形成文本摘要、利用事件论元构造文本的存储格式、利用事件类型和对应的事件论元来支持内容搜索等。
下面结合具体实施例来对本公开的各个步骤进行详细介绍。
本公开的实施例中,将事件抽取分为两个子任务进行执行,事件检测和事件论元抽取。事件检测可以包括从文本中抽取触发词并判断触发词所属的事件类别。事件论元抽取是根据事件检测的结果从文本中识别事件论元,并判断事件论元在这个事件中扮演的角色。
通过在步骤S110中对待处理文本中包含的事件类型进行检测,可以得到待处理文本所包含的事件触发词以及对应的目标事件类型。
上述步骤S110中,待处理文本可以是一个或多个句子、一个或多个段落、一篇或多篇文章等,待处理文本可以是电子设备获取到的文本,或者将语音形式的内容转换为文本形式后得到;待处理文本的来源可以是新闻资讯类信息、小程序中的公众号内容、网站的各种文本信息等。
例如,在一具体实例中,待处理文本SA为“××社报道,2018年3月15日,张三在南京长江大桥旅游时救援了一只流浪狗”;待处理文本SB为“Two customers named Lisa andBob were rescued when a fire broke out at ×× shopping mall counter on May10,2020”,待处理文本SB对应的中文译文可以是:2020年5月10日,××商场专柜发生火灾,名叫Lisa和Bob的两名顾客获得救援。
具体地,电子设备可以通过已有的或者改进的各个模型/算法,对上述待处理文本SA包含的事件类型进行检测,得到目标事件类型包括:旅游事件和救援事件,对应的触发词分别为:旅游、救援。
对上述待处理文本SB包含的事件类型进行检测,得到目标事件类型包括:火灾事件、救援事件,对应的触发词分别为:rescued、a fire broke out。
图2A示意性地示出了根据本公开实施例的步骤S110的详细实施流程图;图2B示意性地示出了根据本公开实施例的步骤S110的详细实施过程图。
根据本公开的优选实施例,参照图2A和图2B所示,上述步骤S110中,对待处理文本中包含的事件类型进行检测,得到目标事件类型,包括以下步骤:S210~S230。
在步骤S210,将待处理文本的文本编码向量输入至预训练语言模型中,输出得到上述待处理文本对应的隐层向量。
待处理文本s={s1,s2,……,sn}是一个包含词素(单词、字、词语等形式)和符号的序列形式,其中,s1,s2,……,sn对应表示待处理文本中的第1个词素,第2个词素,……,第n个词素,n表示待处理文本包含的词素总个数,n为正整数。
待处理文本构造的序列[CLS] s [SEP]进行编码处理,其中[CLS]为开头标记,[SEP]为结尾标记。对待处理文本s构造的序列中每个词素[CLS],s1,s2,……,sn,[SEP]计算字节对编码向量(byte pair encodings),分段向量(segmentation embeddings)和位置向量(Position embeddings)后,将每个词素的字节对编码向量、分段向量和位置向量进行拼接,得到待处理文本的文本编码向量,即该待处理文本的序列[CLS],s1,s2,……,sn,[SEP]中每个词素对应的文本编码向量为三种向量表达拼接后的向量形式,例如图2B示例的对应于各个词素的文本编码向量为:RCLS、R1、R2、……、Rn、RSEP。输出的隐层向量对应表示为hCLS、h1、h2、……、hn、hSEP。
在一实施例中,考虑到事件抽取的总体数据规模较小,神经网络模型往往结构复杂,且参数量大,有限的数据难以训练出鲁棒的深度学习模型。相较而言,预训练语言模型通过在大规模无标注语料上进行预训练,能够捕捉到更通用的上下文语义特征,有效提升多种自然语言任务的表现,因此在本公开的实施例中,可以基于BERT模型这一预训练语言模型来进行事件检测。
上述预训练模型可以是经由序列标注方式标注得到的标注语料预训练得到的BERT模型(BERT模型是一种基于Transformer的双向编码器表示模型),例如在图2B中示例的包含Trm(Transformer)的BERT模型。
上述步骤S210中,可以基于BIO(一种常见序列标注的方式)标注方式或BIOES(一种常见序列标注的方式)标注方式来对训练语料进行序列标注。
在BIO标注方式,将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型的实体并且此元素在此实体的开头,“I-X”表示此元素所在的片段属于X类型的实体并且此元素在此实体的中间位置或结尾位置,“O”表示不属于任何类型的实体。在BIOES标注方式中,进一步包括的元素含义为“E-X”表示此元素所在的片段属于X类型的实体并且此元素在此实体的结尾;“S”表示单个字符,本身就是一个实体。
在步骤S220,将上述隐层向量输入至条件随机场(CRF)模型中,输出得到与上述待处理文本对应的最优文本标签序列。
条件随机场模型用于建模标签之间的关系,例如,对于当前词素而言,当前词素对应的下一个词素有多种可能的标签时,通过计算当前词素的标签(一个或多个标签)与下一个词素的标签组合的概率来确定最大概率对应的最优文本标签序列。针对输入的每个词素的隐层向量,可以对应于多种标签可能的概率得分,基于条件随机场算法,可以计算得到输入的待处理文本中各个词素标签之间的最优路径所对应的最优文本标签序列。[CLS],s1,s2,……,sn,[SEP]依次对应的最优文本标签序列例如为图2B示例的“O、…… B-旅、I-游、…… B-救、I-援、……、O”。
在步骤S230,根据上述最优文本标签序列,确定上述待处理文本中的事件类型及所对应的触发词。
参照图2B所示,根据最优文本标签序列“O、…… B-旅、I-游、…… B-救、I-援、……、O”,可以确定目标事件类型包括:旅游事件类型、救援事件类型以及对应的触发词包括:旅游、救援。
基于步骤S210~S230,通过结合BERT模型和条件随机场模型,能高效率且准确地得到待处理文本中的事件类型及所对应的触发词。
上述步骤S120中,根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题。
在语料库中具有各个事件类型以及发生各个事件类型所对应的各种论元角色,比如:“救援”这一类型的事件有“被救援者”、“施救者”、“工具”、“时间”、“地点”等5种论元角色,“旅游”这一类型的事件有“旅游者”、“时间”、“地点”等3种论元角色,“火灾”事件这一事件类型对应的论元角色包括:地点、时间、火灾缘由、火灾级别共4种论元角色。那么当电子设备执行步骤S110得到目标事件类型包括“救援”时,可以确定救援事件这一目标事件类型对应的目标论元角色为被救援者、施救者、工具、时间和地点。其他类型的目标事件类型与目标论元角色的对应关系类似。
根据本公开的实施例,上述目标论元角色的先验关联信息包括:上述目标论元角色对应的关键词描述信息、上述目标论元角色对应的标注文档定义信息、以及上述目标论元角色对应的事件先验信息。上述事件先验信息包括以下至少一种:目标论元角色的实体类型、实体列举实例。例如目标论元角色为施救者,其对应的实体类型包括:组织机构(ORG)、人(PER);组织机构对应的实体列举实例包括:××公益组织、××协会等。
根据目标事件类型及其对应的目标论元角色的先验关联信息来构造得到的论元抽取问题具有单一针对性,例如,针对待处理文本SA中的救援事件,构造的论元抽取问题(问题均为疑问句,这里省略其标点符号)可以包括:“在这次救援事件中,谁(提问施救者)实施了救援”,“在这次救援事件中,谁(提问被施救者)被救援了”,为了同时提取嵌套的论元信息,例如可以分别构造以下两个论元抽取问题:“在这次救援事件中,在哪个城市(提问具体城市)发生的救援”,“在这次救援事件中,在哪个位置/地点(提问具体地点)发生的救援”。
通过步骤S120得到的论元抽取问题后续形成的目标文本作为机器阅读理解模型的阅读理解对象进行答案抽取时,在多个论元实体嵌套/重叠的场景下,例如“南京长江大桥”这种嵌套式实体,重叠实体只需要回答两个独立的论元抽取问题“在这次救援事件中,在哪个城市(提问具体城市,正确答案为南京)发生的救援”,“在这次救援事件中,在哪个位置/地点(提问具体地点,正确答案为南京长江大桥)发生的救援”便能够实现论元的精准定位。
在一实施例中,构造得到针对上述待处理文本的论元抽取问题的方式包括:采用在一已知事件中提问上述目标论元角色对应的关键词描述信息的方式来构造得到论元抽取问题。已知事件为上述目标事件类型对应的事件。或者在另一实施例中,构造得到论元抽取问题的方式包括:提问目标论元角色对应的关键词描述信息的方式来构造得到论元抽取问题。
例如,针对上述旅游事件,对应的目标论元角色包括:旅游者、时间、地点,以旅游者这一目标论元角色为例,旅游者对应的关键词描述信息为:人。构造的论元抽取问题例如为:“在这次旅游事件中,谁是旅游者”;或者,构造的论元抽取问题例如为:“出现的人/组织机构”。可以理解的是,论元抽取问题的句尾有问号这个字符,这里省略句尾的问号,后续的情况相同。
在一实施例中,构造得到针对上述待处理文本的论元抽取问题的方式包括:采用在一已知事件中提问上述目标论元角色对应的标注文档定义信息的方式来构造得到论元抽取问题。
例如,针对上述旅游事件,对应的目标论元角色包括:旅游者、时间、地点,以地点这一目标论元角色为例,地点对应的标注文档定义信息为:所在的地理位置/地点。构造的论元抽取问题例如为:在这次旅游事件中,张三在什么地方旅游;或者,构造的论元抽取问题例如为:出现的地点。
在一实施例中,构造得到针对上述待处理文本的论元抽取问题的方式包括:采用在一已知事件中提问上述目标论元角色对应的事件先验信息的方式来构造得到论元抽取问题。上述目标论元角色对应的事件先验信息包括以下至少一种:目标论元角色的实体类型、实体列举实例。
例如,针对上述旅游事件,对应的目标论元角色包括:旅游者、时间、地点,以地点这一目标论元角色为例,地点对应的实体类型包括:城市、街道、山峰、桥梁等。构造的论元抽取问题例如为:“在这次旅游事件中,张三在什么地方旅游,例如在哪个城市、街道、山峰或桥梁进行旅游”。
上述步骤S130中,将上述待处理文本和上述论元抽取问题进行拼接,得到拼接后的目标文本。在针对待处理文本构造有多个论元抽取问题的情况下,一种可实现的实施方式是:可以将每个论元抽取问题和待处理文本进行拼接,得到对应个数的目标文本,并执行多次后续的步骤S140即可。
待处理文本s={s1,s2,……,sn}是一个包含词素(单词、字、词语等形式)和符号的序列形式,q={q1,q2,……qm}为构造得到的一个论元抽取问题,q1,q2,……qm对应表示论元抽取问题中的第1个词素,第2个词素,……,第m个词素;m表示论元抽取问题包含的词素总个数,m为正整数。
针对一个待处理文本,根据前述步骤S120执行的结果可以构造多个问题,那么这种情况下可以将构造的多个(例如为3个)问题中的每个问题与待处理文本进行拼接后的目标文本执行对应次数(例如对应为3次)后续的步骤S140来得到多个结果(3个结果)。
为了学习q和s的上下文表示,拼接后的目标文本可以表示为以下结构:[CLS] q [SEP] s [SEP],[CLS]为开头标记,[SEP]为结尾标记。
上述步骤S140中,可以先确定上述目标文本的表示向量;然后将上述表示向量输入至机器阅读理解模型中,以输出得到答案预测结果。
图3示意性地示出了根据本公开实施例的步骤S140的详细实施过程图。
参照图3所示,上述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对上述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对上述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果。
根据本公开的实施例,对上述目标文本中的每个词素计算字节对编码向量(bytepair encodings),分段向量(segmentation embeddings)和位置向量(Positionembeddings),上述目标文本的表示向量为该目标文本的字节对编码向量、分段向量和位置向量这三种向量进行拼接后的拼接向量形式,换句话说,目标文本中各个词素的表达向量为针对每个词素的字节对编码向量RB、分段向量RS和位置向量RP的拼接向量{RB,RS,RP}。
根据本公开的实施例,上述第一层分类器包括三个分类器,分别为第一分类器、第二分类器和第三分类器,其中第一分类器用于预测上述目标文本是否存在针对上述论元抽取问题的答案,得到的预测结果为上述答案指示标签,第二分类器用于预测上述表示向量对应的每个词素是否为答案的开始位置,第三分类器用于预测上述表示向量对应的每个词素是否为答案的结束位置。例如参照图3所示,针对目标文本[CLS]{q1,q2,……qm}[SEP]{s1,s2,……,sn} [SEP],该目标文本各个词素的表示向量依序对应为:RCLS、R11、……、R1m、RSEP、R21、……、R2n、RSEP,其中,RCLS为开头标记的拼接向量(即为表示向量),R11为词素q1的拼接向量,……R1m为词素qm的拼接向量,RSEP为结尾标记的拼接向量,R21为词素s1的拼接向量,……R2n为词素sn的拼接向量。
第一层分类器可以基于BERT模型来实现,基于BERT模型建模各个词素之间的内在关联,可以同步(独立)进行以下三种预测:预测上述目标文本是否存在针对上述论元抽取问题的答案(例如通过第一分类器来实现),预测表示向量对应的每个词素是否为答案的开始位置(例如通过第二分类器来实现),预测表示向量对应的每个词素是否为答案的结束位置(例如通过第三分类器来实现),在图3中,为了在同一个输入中区别表示q和s的表示向量,采用两位数的角标进行区别表示,与前面图2B中除了角标的表示差异之外,表示符号的含义是一致,h表示隐层向量,Trm表示Transformer编码器。
对于机器阅读理解模型整体而言,可以将输出中的[CLS]标签当作目标文本中是否包含答案的答案指示标签,若目标文本中存在答案,该机器阅读理解模型输出的答案预测结果为有效结果,否则,判定为目标文本中不存在答案,即使有答案预测结果输出也会视为无效。
可能的情况是第一分类器输出的答案指示标签为“是(Yes)”,第二分类器和第三分类器各自对应输出一个或多个开始位置、一个或多个结束位置(开始位置和结束位置的个数可以相等或不相等),将开始位置和结束位置进行配对组合得到的预测实体输入至第二层分类器进行预测;第一分类器输出的答案指示标签为“否(No)”,由于第二分类器和第三分类器是同步处理的,因此有可能在第二分类器和第三分类器各自输出0个、一个或多个开始位置,0个、一个或多个结束位置,同样会将开始位置和结束位置进行配对组合得到的预测实体输入至第二层分类器进行预测;这两种情况下,不论答案指示标签为“是”或者“否”,第一层分类器输出的开始位置和结束位置匹配的预测实体均会输入至第二层分类器进行计算,得到答案预测结果和对应的答案指示标签;当涉及到答案指示标签为“否”时,将模型输出的答案预测结果视为无效。
参照图3所示,第一层分类器中的第一分类器预测目标文本存在/不存在答案,对应于答案指示标签为:Yes、No,第二分类器预测的答案的开始位置例如分别为start1,start2,第三分类器预测的答案的结束位置例如分别为end1,end2,对应在第一层分类器输出得到的为Estart1、Estart2、Eend1、Eend2。
接着,将位置预测结果中开始位置和结束位置进行配对组合后得到预测实体,例如图3中示例的预测实体包括:[Estart1,end1],[Estart1,end2],[Estart2,end1],[Estart2,end2],其中,start1表示预测的第一开始位置,start2表示预测的第二开始位置,end1表示预测的第一结束位置,end2表示预测的第二结束位置,Estart1表示位于第一开始位置start1的词素的表示向量;Estart2表示位于第二开始位置start2的词素的表示向量;Eend1表示位于第一结束位置end1的词素的表示向量;Eend2表示位于第二结束位置end2的词素的表示向量;[Estart1,end1]表示从第一开始位置的词素到第一结束位置的词素之间(包含端点的两个词素)的所有词素构成的预测实体的表示向量,[Estart1,end2]表示从第一开始位置start1的词素到第二结束位置end2的词素之间的所有词素构成的预测实体的表示向量;[Estart2,end1]表示从第二开始位置start2的词素到第一结束位置end1的词素之间的所有词素构成的预测实体的表示向量;[Estart2,end2]表示从第二开始位置start2的词素到第二结束位置end2的词素之间的所有词素构成的预测实体的表示向量。
将上述预测实体分别输入至第二层分类器中,第二层分类器对输入的预测实体是否为事件论元进行预测,得到答案预测结果,该答案预测结果是将预测实体为事件论元的概率超出设定阈值的结果进行输出,参照图3中示例的输出的答案预测结果为:[Estart2,end1]和[Estart2,end2]所示。
由此,得到针对当前输入的目标文本的答案预测结果,在构造有多个论元抽取问题的前提下,对应有多次目标文本的输入,对应得到多次的输出结果,从而得到待处理文本针对每个论元抽取问题的一个或多个答案,那么根据上述答案预测结果和对应的答案指示标签,可以确定与每个论元抽取问题中目标事件类型对应的一个或多个事件论元,便可以输出与上述目标事件类型对应匹配的事件论元。
在预测开始和结束位置时,通过采用两个二分类器,一个用来预测每个token(词素)是否为开始位置,另一个用来预测每个token是否为结束位置,在一个论元角色对应于多个论元实体的场景下,基于第一层分类器能够得到同一个论元角色对应的多个开始位置和多个结束位置,进一步基于第二层分类器对开始位置和结束位置的匹配组合的预测实体进行论元识别预测,从而能够输出得到同一个论元角色对应的多个论元实体,解决同一个论元角色对应多个论元实体场景下的论元抽取不准确的问题,实现对一个论元角色所对应的多个论元实体的抽取。
例如,在一实施例中,一个论元角色对应于多个论元实体的场景包括:“A大学、B大学、C科研所举办了首都挑战杯的科技创新大赛”,那么其中举办事件的举办方这一论元角色对应的就是多个论元实体,分别包括:A大学、B大学和C科研所。
基于本公开的方法,将构造的论元抽取问题“什么人/组织机构举办了首都挑战杯的科技创新大赛”和待处理文本“A大学、B大学、C科研所举办了首都挑战杯的科技创新大赛”进行组合构造得到的目标文本输入至机器阅读理解模型进行处理,执行步骤S140,可以得到答案预测结果为三个论元实体:A大学、B大学和C科研所,实现同一个论元角色下的多论元实体的精准抽取。
基于本公开的方法,将构造的论元抽取问题“在这次救援事件中,在哪个城市发生的救援”与待处理文本SA为“××社报道,2018年3月15日,张三在南京长江大桥旅游时救援了一只流浪狗”进行组合构造得到的目标文本输入至机器阅读理解模型进行处理,执行步骤S140,可以得到答案预测结果对应为“南京”;将构造的论元抽取问题“在这次救援事件中,在哪个位置/地点发生的救援”与待处理文本SA为“××社报道,2018年3月15日,张三在南京长江大桥旅游时救援了一只流浪狗”进行组合构造得到的目标文本输入至机器阅读理解模型进行处理,执行步骤S140,可以得到答案预测结果对应为“南京长江大桥”,实现嵌套论元场景下的论元精准抽取。
图4示意性地示出了根据本公开实施例的构建机器阅读理解模型的流程图。
根据本公开的实施例,参照图4所示,机器阅读理解模型通过以下方式构建得到:
步骤S410,对待训练文本中包含的事件类型进行检测,得到候选事件类型;
步骤S420,根据上述候选事件类型和上述候选事件类型对应的候选论元角色的先验关联信息,构造得到针对上述待训练文本的训练用论元抽取问题;
步骤S430,将上述待训练文本和上述训练用论元抽取问题进行拼接,得到拼接后的目标训练文本;
步骤S440,将上述目标训练文本的表示向量输入至待训练阅读理解模型中,将上述目标训练文本的真实值作为标签来对上述待训练阅读理解模型进行训练,训练完成的待训练阅读理解模型为上述机器阅读理解模型。
上述待训练阅读理解模型的第一层分类器同步对上述目标训练文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有候选答案指示标签的候选位置预测结果;上述待训练阅读理解模型的第二层分类器对上述候选位置预测结果中开始位置和结束位置进行配对组合后的候选预测实体是否为候选事件论元进行预测,得到候选答案预测结果。
在步骤S440中,待训练阅读理解模型中的第一层分类器可以采用BERT模型来实现;
进行论元抽取的预测阶段是对是否存在答案、开始/结束位置进行预测,对应于前述步骤S140中第一层分类器的执行逻辑,可以采用以下表达式进行表示:
P answer=softmax(E·Tanswer)(1)
P start=softmax(E·Tstart)(2),
P end=softmax(E·Tend)(3),
其中,E表示待训练阅读理解模型的第一层分类器的输出文本表示矩阵,该输出文本表示矩阵里面的矩阵元素为输出隐层表示向量,P answer表示待训练阅读理解模型第一层分类器的输出文本表示矩阵中是否包含答案的概率,P start表示待训练阅读理解模型第一层分类器的输出隐层表示向量对应的输入词素为答案的开始位置的概率,P end表示待训练阅读理解模型第一层分类器的输出隐层表示向量对应的输入词素为答案的结束位置的概率,Tanswer、Tstart、Tend分别为待训练阅读理解模型第一层分类器中第一分类器、第二分类器、第三分类器各自训练时的权重参数,·表示点积运算。
在待训练文本中,同一论元角色有时对应多个论元实体,待训练阅读理解模型会预测得到多个开始位置和多个结束位置,对此,通过计算出所有可能论元实体的开始位置start i 和结束位置end j ,其中,i和j表示开始位置和结束位置的序号;然后通过一个分类器(第二层分类器)来预测开始位置和结束位置的概率分布,对应于前述操作S140中第二层分类器的执行逻辑,采用表达式可以表示如下:
P starti,endj =sigmoid(Q·concat(Estarti ,Eendj ))(4),
其中,Q表示需要待训练阅读理解模型在训练中不断学习更新的权重,P starti,endj 表示对训练过程中预测得到的开始位置start i 和结束位置end j 进行配对组合后的预测实体为事件论元的概率;concat表示拼接函数,concat(Estarti ,Eendj )表示从表示向量Estarti 对应的输入词素的开始位置start i 到表示向量Eendj 对应的输入词素的结束位置end j 之间的预测实体的表示向量Estarti,endj 。
根据本公开的实施例,上述待训练阅读理解模型的损失函数包括两个部分:答案指示标签损失函数Lanswer、以及事件论元抽取损失函数,该事件论元抽取损失函数为第一交叉熵损失函数、第二交叉熵损失函数和第三交叉熵损失函数和各自对应权重之间的加权和;上述第一交叉熵损失函数、上述第二交叉熵损失函数和上述第三交叉熵损失函数各自对应的权重为预设参数且三者之和为1;
上述第一交叉熵损失函数可以表示为Lstart,为进行开始位置识别预测对应的交叉熵损失函数;
上述第二交叉熵损失函数可以表示为Lend,为进行结束位置识别预测对应的交叉熵损失函数;
上述第三交叉熵损失函数可以表示为Lspan,为进行开始位置和结束位置匹配预测对应的交叉熵损失函数;
上述答案指示标签损失函数可以表示为Lanswer,为进行答案指示标签识别对应的交叉熵损失函数;
可以采用以下表达式进行表示:
Lstart=CE(P start,Y start)(5),
Lend=CE(P end,Y end)(6),
Lspan=CE(P start, end,Y start, end)(7),
Lanswer=CE(P answer,Y answer)(8),
其中,CE表示交叉熵损失;Y start表示开始位置标签向量的真实值;Y end表示结束位置标签向量的真实值;Y start, end表示开始位置和结束位置匹配后的实体对应的标签向量的真实值;P start, end表示各个开始位置和各个结束位置匹配组合后的实体为事件论元的概率;
待训练阅读理解模型的损失函数包含两部分:答案指示标签损失函数Lanswer、以及事件论元抽取损失函数,事件论元抽取损失函数可表示为L,且L满足以下表达式:
L=αLstart+βLend+θLspan(9),
α,β,θ为区间[0,1]的常数,三者之和为1,具体值可以调整,用于控制对总体训练目标的贡献度。训练过程中可以设定训练次数,训练达到预设次数,训练停止。
在构建机器阅读理解模型时,通过根据先验关联信息和目标事件类型二者结合的方式来构造训练用论元抽取问题,由此训练得到的机器阅读理解模型有一定能力消除相似标签之间可能存在的语义歧义,从而具有更好的泛化性和鲁棒性,能够提升模型在少样本甚至零样本情景中的抽取性能。
基于本公开实施例提供的方法或者对上述机器阅读理解模型的性能进行实验,来测试上述方法或模型的性能。
实验数据集是ACE2005中文数据集,此数据集共有633篇文档,包含了8大类33小类事件。选择了33篇文章作为验证集,66篇文章作为测试集,566篇文章作为训练集。
使用事件检测精确度(P)、召回率(R)、和F1值(F1-score)来评估模型的性能,其中事件检测精确度(P)、召回率(R)、和F1值(F1-score)分别满足以下表达式:
得到的结果见表1所示:
表1 实测结果
由表1可知,实测结果中,基于本公开实施例提供的方法得到的模型BERTMRCAE(先采用BERT+CRF的进行事件类型检测,然后采用机器阅读理解问答方式进行事件论元抽取)和模型MRCAE(采用完全正确的事件类型标签构造阅读理解问题进行事件论元抽取)都表现出很好的性能。由于本申请提出的方案能够有效解决两步法论元抽取的误差传递问题,嵌套实体和多论元实体抽取问题,该模型BERT-MRCAE的抽取性能F1值在ACE2005中文数据集上比目前最好的模型提升2.1个百分点。另外,模型MRCAE的事件论元抽取F1值达到了80.0%。
此外,通过实验测试发现不同的问题构造策略对模型的抽取性能影响很大,其中步骤S120中融合了论元角色、事件类型等更多先验信息的方法表现出良好的性能,由于先验信息的加入,注意力机制使得模型能更好的捕捉到有帮助的特征,从而使模型具备了对论元更好的抽取能力。
图5示意性地示出了根据本公开实施例的方法分别在33类事件的训练语料中训练、抽取其中4种事件的测试语料进行结果测试的实施例和在29类事件的训练语料进行训练、相同的4种事件的测试语料进行测试的实施例的性能测试结果对比图。
真实场景中经常会出现模型没有见过的新事件类型情况,为了验证模型在新类型事件上的抽取能力,在本实验中,将ACE2005的33类事件中随机划分出4类事件用来进行测试,剩余的29类事件用于训练模型。如图5中MRCAE_transfer是模型在29类事件上训练,在另外4类事件上测试的结果,MRCAE是模型在全部语料上的训练,并在相同的4类事件上测试的结果。测试结果参照图5所示,相对于在有丰富语料训练的情况下,模型在新事件类型零训练样本的情况下其事件论元抽取性能下降不足10%。这充分证明了模型具有较强的迁移能力,也证明了模型在解决新出现事件类型问题上的有效性。
为了研究模型在少次事件抽取问题上的性能,本实验中仅使用小部分训练数据进行模型训练。图6示意性地示出了使用不同比例训练数据训练模型时,本公开实施例的方法的论元抽取性能。由图6可以看出,在数据量极度稀缺的情况下,模型仍能取得约为72%的抽取效果。观察该图趋势线可知,模型在该数据上抽取性能上限的F1值约为80%,然而在仅需不到45%的数据量就能够接近这一上限,说明本公开实施例的模型对训练数据的利用比较有效,从而降低了对标注数据的依赖。
综上所述,经实验表明,在基准数据集ACE2005中文语料上采用上述方法或者基于上述构建得到的机器阅读理解模型来进行事件论元抽取时,抽取性能超过目前中文事件论元抽取的最优模型约2个百分点,在遇到新类型事件也能表现出良好的迁移性能,满足了真实业务场景的需求。
本公开上述实施例提供的各个技术方案可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的电子设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
基于相同的技术构思,本公开的实施例提供了一种对文本中的事件论元进行抽取的装置。
本公开实施例提供的装置包括:事件类型检测模块、问题构造模块、文本生成模块、事件论元抽取模块和事件论元输出模块。
上述事件类型检测模块,用于对待处理文本中包含的事件类型进行检测,得到目标事件类型。
上述问题构造模块,用于根据上述目标事件类型和上述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对上述待处理文本的论元抽取问题。论元抽取问题的具体构造方法可以参照第一个实施例的描述,这里不再赘述。
上述文本生成模块,用于将上述待处理文本和上述论元抽取问题进行拼接,得到拼接后的目标文本。
上述事件论元抽取模块,用于将上述目标文本的表示向量输入至机器阅读理解模型中,上述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对上述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;第二层分类器对上述位置预测结果中开始位置和结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果。
上述事件论元输出模块,用于根据上述答案预测结果,输出与上述候选事件类型对应匹配的事件论元。
上述事件类型检测模块、问题构造模块、文本生成模块、事件论元抽取模块和事件论元输出模块中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。事件类型检测模块、问题构造模块、文本生成模块、事件论元抽取模块和事件论元输出模块中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,事件类型检测模块、问题构造模块、文本生成模块、事件论元抽取模块和事件论元输出模块中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
本公开的第三个示例性实施例提供了一种电子设备。
图7示意性示出了本公开实施例提供的一种电子设备的结构框图。
参照图7所示,本公开实施例提供的电子设备700包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信;存储器703,用于存放计算机程序;处理器701,用于执行存储器上所存放的程序时,实现如上所述的对文本中的事件论元进行抽取的方法。
本公开的第四个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的对文本中的事件论元进行抽取的方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种对文本中的事件论元进行抽取的方法,其特征在于,包括:
对待处理文本中包含的事件类型进行检测,得到目标事件类型;
根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对所述待处理文本的论元抽取问题;
将所述待处理文本和所述论元抽取问题进行拼接,得到拼接后的目标文本;
将所述目标文本的表示向量输入至机器阅读理解模型中,所述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对所述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;在一个论元角色对应于多个论元实体的场景下,基于第一层分类器得到同一个论元角色对应的多个开始位置和多个结束位置;第二层分类器对所述位置预测结果中所述多个开始位置和所述多个结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;以及
根据所述答案预测结果和对应的答案指示标签,输出与所述目标事件类型对应匹配的事件论元;
其中,所述第一层分类器包括三个分类器,分别为第一分类器、第二分类器和第三分类器,所述第一分类器用于预测所述目标文本中是否存在针对所述论元抽取问题的答案,得到的预测结果为所述答案指示标签,所述第二分类器用于预测所述表示向量对应的每个词素是否为答案的开始位置,所述第三分类器用于预测所述表示向量对应的每个词素是否为答案的结束位置;
所述阅读理解模型通过以下方式构建得到:
对待训练文本中包含的事件类型进行检测,得到候选事件类型;
根据所述候选事件类型和所述候选事件类型对应的候选论元角色的先验关联信息,构造得到针对所述待训练文本的训练用论元抽取问题;
将所述待训练文本和所述训练用论元抽取问题进行拼接,得到拼接后的目标训练文本;
将所述目标训练文本的表示向量输入至待训练阅读理解模型中,所述待训练阅读理解模型的第一层分类器同步对所述目标训练文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有候选答案指示标签的候选位置预测结果;所述待训练阅读理解模型的第二层分类器对所述候选位置预测结果中开始位置和结束位置进行配对组合后的候选预测实体是否为候选事件论元进行预测,得到候选答案预测结果,将所述目标训练文本的真实值作为标签来对所述待训练阅读理解模型进行训练,训练完成的待训练阅读理解模型为所述机器阅读理解模型;
所述待训练阅读理解模型的损失函数包含两部分:答案指示标签损失函数和事件论元抽取损失函数,所述事件论元抽取损失函数为第一交叉熵损失函数、第二交叉熵损失函数、第三交叉熵损失函数与各自对应权重之间的加权和;所述第一交叉熵损失函数、所述第二交叉熵损失函数和所述第三交叉熵损失函数各自对应的权重为预设参数且三者之和为1;
所述第一交叉熵损失函数为进行开始位置识别预测对应的交叉熵损失函数;
所述第二交叉熵损失函数为进行结束位置识别预测对应的交叉熵损失函数;
所述第三交叉熵损失函数为进行开始位置和结束位置匹配预测对应的交叉熵损失函数;
所述答案指示标签损失函数为进行答案指示标签识别对应的交叉熵损失函数。
2.根据权利要求1所述的方法,其特征在于,所述目标文本的表示向量为字节对编码向量、分段向量和位置向量这三种向量进行拼接后的拼接向量形式。
3.根据权利要求1所述的方法,其特征在于,所述目标论元角色的先验关联信息包括:所述目标论元角色对应的关键词描述信息、标注文档定义信息、事件先验信息;所述事件先验信息包括以下至少一种:实体类型、实体列举实例;
所述根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对所述待处理文本的论元抽取问题,包括以下至少一种:
采用在一已知事件中提问所述目标论元角色对应的关键词描述信息的方式来构造得到论元抽取问题;或者,
采用在一已知事件中提问所述目标论元角色对应的标注文档定义信息的方式来构造得到论元抽取问题;或者,
采用在一已知事件中提问所述目标论元角色对应的事件先验信息的方式来构造得到论元抽取问题;
所述已知事件为所述目标事件类型对应的事件。
4.根据权利要求1所述的方法,其特征在于,所述对待处理文本中包含的事件类型进行检测,得到目标事件类型,包括:
将所述待处理文本的文本编码向量输入至预训练语言模型中,输出得到所述待处理文本对应的隐层向量;
将所述隐层向量输入至条件随机场模型中,输出得到与所述待处理文本对应的最优文本标签序列,所述条件随机场模型用于建模标签之间的关系;以及
根据所述最优文本标签序列,得到所述待处理文本的目标事件类型及所对应的事件触发词。
5.根据权利要求1所述的方法,其特征在于,根据所述答案预测结果和对应的答案指示标签,输出与所述目标事件类型对应匹配的事件论元,包括:
当所述答案指示标签指示所述目标文本不存在答案时,所述答案预测结果中包含的事件论元预测实体被视为无效,输出不存在与上述目标事件类型匹配的事件论元的结果;
当所述答案指示标签指示所述目标文本存在答案时,所述答案预测结果中包含的事件论元预测实体被视为有效,将所述答案预测结果中的事件论元预测实体作为待输出的事件论元,并将所述待输出的事件论元与对应的目标事件类型进行匹配后输出。
6.一种对文本中的事件论元进行抽取的装置,其特征在于,包括:
事件类型检测模块,用于对待处理文本中包含的事件类型进行检测,得到目标事件类型;
问题构造模块,用于根据所述目标事件类型和所述目标事件类型对应的目标论元角色的先验关联信息,构造得到针对所述待处理文本的论元抽取问题;
文本生成模块,用于将所述待处理文本和所述论元抽取问题进行拼接,得到拼接后的目标文本;
事件论元抽取模块,用于将所述目标文本的表示向量输入至机器阅读理解模型中,所述机器阅读理解模型包括两层依序设置的分类器,第一层分类器同步对所述目标文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有答案指示标签的位置预测结果;在一个论元角色对应于多个论元实体的场景下,基于第一层分类器得到同一个论元角色对应的多个开始位置和多个结束位置;第二层分类器对所述位置预测结果中所述多个开始位置和所述多个结束位置进行配对组合后的预测实体是否为事件论元进行预测,得到答案预测结果;所述第一层分类器包括三个分类器,分别为第一分类器、第二分类器和第三分类器,所述第一分类器用于预测所述目标文本中是否存在针对所述论元抽取问题的答案,得到的预测结果为所述答案指示标签,所述第二分类器用于预测所述表示向量对应的每个词素是否为答案的开始位置,所述第三分类器用于预测所述表示向量对应的每个词素是否为答案的结束位置;
事件论元输出模块,用于根据所述答案预测结果和对应的答案指示标签,输出与所述目标事件类型对应匹配的事件论元;
阅读理解模型构建模块,用于对待训练文本中包含的事件类型进行检测,得到候选事件类型;根据所述候选事件类型和所述候选事件类型对应的候选论元角色的先验关联信息,构造得到针对所述待训练文本的训练用论元抽取问题;将所述待训练文本和所述训练用论元抽取问题进行拼接,得到拼接后的目标训练文本;将所述目标训练文本的表示向量输入至待训练阅读理解模型中,所述待训练阅读理解模型的第一层分类器同步对所述目标训练文本是否存在答案、对答案的开始位置和结束位置进行识别预测,得到携带有候选答案指示标签的候选位置预测结果;所述待训练阅读理解模型的第二层分类器对所述候选位置预测结果中开始位置和结束位置进行配对组合后的候选预测实体是否为候选事件论元进行预测,得到候选答案预测结果,将所述目标训练文本的真实值作为标签来对所述待训练阅读理解模型进行训练,训练完成的待训练阅读理解模型为所述机器阅读理解模型;
所述待训练阅读理解模型的损失函数包含两部分:答案指示标签损失函数和事件论元抽取损失函数,所述事件论元抽取损失函数为第一交叉熵损失函数、第二交叉熵损失函数、第三交叉熵损失函数与各自对应权重之间的加权和;所述第一交叉熵损失函数、所述第二交叉熵损失函数和所述第三交叉熵损失函数各自对应的权重为预设参数且三者之和为1;
所述第一交叉熵损失函数为进行开始位置识别预测对应的交叉熵损失函数;
所述第二交叉熵损失函数为进行结束位置识别预测对应的交叉熵损失函数;
所述第三交叉熵损失函数为进行开始位置和结束位置匹配预测对应的交叉熵损失函数;
所述答案指示标签损失函数为进行答案指示标签识别对应的交叉熵损失函数。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210238820.9A CN114297394B (zh) | 2022-03-11 | 2022-03-11 | 对文本中的事件论元进行抽取的方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210238820.9A CN114297394B (zh) | 2022-03-11 | 2022-03-11 | 对文本中的事件论元进行抽取的方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114297394A CN114297394A (zh) | 2022-04-08 |
CN114297394B true CN114297394B (zh) | 2022-07-01 |
Family
ID=80978637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210238820.9A Active CN114297394B (zh) | 2022-03-11 | 2022-03-11 | 对文本中的事件论元进行抽取的方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297394B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936563B (zh) * | 2022-04-27 | 2023-07-25 | 苏州大学 | 一种事件抽取方法、装置及存储介质 |
CN114996434B (zh) * | 2022-08-08 | 2022-11-08 | 深圳前海环融联易信息科技服务有限公司 | 一种信息抽取方法及装置、存储介质、计算机设备 |
CN115186820B (zh) * | 2022-09-07 | 2023-01-10 | 粤港澳大湾区数字经济研究院(福田) | 事件共指消解方法、装置、终端及计算机可读存储介质 |
CN116757159B (zh) * | 2023-08-15 | 2023-10-13 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
CN117093728B (zh) * | 2023-10-19 | 2024-02-02 | 杭州同花顺数据开发有限公司 | 一种金融领域事理图谱构建方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797241B (zh) * | 2020-06-17 | 2023-08-22 | 北京北大软件工程股份有限公司 | 基于强化学习的事件论元抽取方法及装置 |
CN111967268B (zh) * | 2020-06-30 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN112231447B (zh) * | 2020-11-21 | 2023-04-07 | 杭州投知信息技术有限公司 | 一种中文文档事件抽取的方法和系统 |
CN113312464B (zh) * | 2021-05-28 | 2022-05-31 | 北京航空航天大学 | 一种基于对话状态追踪技术的事件抽取方法 |
-
2022
- 2022-03-11 CN CN202210238820.9A patent/CN114297394B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114297394A (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114297394B (zh) | 对文本中的事件论元进行抽取的方法和电子设备 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN109325228B (zh) | 英文事件触发词抽取方法和系统 | |
CN112528034B (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
CN111274815A (zh) | 用于挖掘文本中的实体关注点的方法和装置 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
Mao et al. | Mapping near-real-time power outages from social media | |
CN111324696B (zh) | 实体抽取方法、实体抽取模型的训练方法、装置及设备 | |
Bekoulis et al. | An attentive neural architecture for joint segmentation and parsing and its application to real estate ads | |
US20240143644A1 (en) | Event detection | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
US20220100772A1 (en) | Context-sensitive linking of entities to private databases | |
CN112131881B (zh) | 信息抽取方法及装置、电子设备、存储介质 | |
CN110678882A (zh) | 使用机器学习从电子文档选择回答跨距 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN116228383A (zh) | 风险预测方法及装置、存储介质和电子设备 | |
Caicedo et al. | Bootstrapping semi-supervised annotation method for potential suicidal messages | |
CN112599211B (zh) | 一种医疗实体关系抽取方法及装置 | |
CN114880427A (zh) | 基于多层级注意力机制的模型、事件论元抽取方法及系统 | |
CN115292568A (zh) | 一种基于联合模型的廉政和民生新闻事件抽取方法 | |
Wang et al. | Weighted graph convolution over dependency trees for nontaxonomic relation extraction on public opinion information | |
CN110222139A (zh) | 道路实体数据去重方法、装置、计算设备和介质 | |
An et al. | Resource mention extraction for MOOC discussion forums | |
US20220100967A1 (en) | Lifecycle management for customized natural language processing | |
Pradana et al. | Chatbot-based Information Service using RASA Open-SourceFrameworkin Prambanan Temple Tourism Object |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |