CN114328838A - 事件抽取方法、装置、电子设备及可读存储介质 - Google Patents

事件抽取方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114328838A
CN114328838A CN202111666534.4A CN202111666534A CN114328838A CN 114328838 A CN114328838 A CN 114328838A CN 202111666534 A CN202111666534 A CN 202111666534A CN 114328838 A CN114328838 A CN 114328838A
Authority
CN
China
Prior art keywords
event
sentence
sentence text
extraction
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111666534.4A
Other languages
English (en)
Inventor
代文
花新宇
陈帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd, Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202111666534.4A priority Critical patent/CN114328838A/zh
Publication of CN114328838A publication Critical patent/CN114328838A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本公开涉及一种事件抽取方法、装置、电子设备及可读存储介质,该方法包括:通过训练样本训练得到事件类型‑事件触发词联合模型,通过事件类型‑事件触发词联合模型识别验证样本得到预测事件类型集合和预测事件触发词集合,预测事件类型集合和预测事件触发词集合作为额外特征融入到事件论元识别当中,多个基于事件类型的事件论元抽取模型和多个基于事件触发词的事件论元抽取模型分别对验证样本中的句子文本进行事件抽取,得到每个句子文本的多个第一事件抽取结果,从得到的多个第一事件抽取结果确定所述句子文本的事件抽取结果,提高了事件抽取的准确率、效率的同时降低了人/物力成本,避免了过于依赖领域经验。

Description

事件抽取方法、装置、电子设备及可读存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种事件抽取方法、装置、电子设备及可读存储介质。
背景技术
事件抽取是一种信息抽取的任务,它是自然语言处理(Natural LanguageProcessing,NLP)领域中一个富有挑战性的任务。事件抽取是从一段开放文本中识别出与用户的目标相关的事件的重要元素。这种开放文本可以是半结构化或者非结构化的。事件抽取的直接目标,是从文本中识别出特定类型的事件,并把事件中担任既定角色的元素抽取出来。
现有的事件抽取方法不能同时兼顾高效、低成本、高准确率这几个因素,因此,亟需一种能同时兼顾这几个因素的事件抽取方法。
发明内容
为克服相关技术中存在的问题,本公开提供一种事件抽取方法、装置、电子设备及可读存储介质。
根据本公开实施例的第一方面,提供一种事件抽取方法方法,包括:获取样本数据;所述样本数据包括多个句子文本,所述多个句子文本的事件类型和事件触发词,所述多个句子文本的事件类型组成标准事件类型集合,所述多个句子文本的事件触发词组成标准事件触发词集合,所述样本数据分为训练样本和验证样本;通过所述训练样本训练事件类型-事件触发词联合模型;所述事件类型-事件触发词联合模型用于识别句子文本中的事件类型和事件触发词;利用所述事件类型-事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合;通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型,以及通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型;对于所述验证样本中的每一个句子文本,通过所述预定数量个基于事件类型的事件论元抽取模型以及所述预测事件类型集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果,以及通过所述预定数量个基于事件触发词的事件论元抽取模型以及所述预测事件触发词集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果;根据得到的多个所述第一事件抽取结果确定所述句子文本的事件抽取结果。
可选的,所述样本数据中还包括所述多个句子文本的标注,所述通过所述训练样本训练事件类型-事件触发词联合模型的步骤包括:对所述句子文本进行预处理,得到所述句子文本的特征表示向量;将所述句子文本的特征表示向量输入至所述事件类型-事件触发词联合模型的输出层,得到所述输出层输出的所述句子文本属于各个事件类型的概率;将所述句子文本的特征表示向量输入至条件随机场CRF层,得到所述CRF层输出的所述句子文本的标注之间的转移概率及似然概率;根据所述句子文本属于各个事件类型的概率、所述句子文本的标注、所述句子文本的标注之间的转移概率及似然概率得到所述事件类型-事件触发词联合模型的损失函数;根据所述损失函数训练所述事件类型-事件触发词联合模型。
可选的,所述对所述句子文本进行预处理,得到所述句子文本的特征表示向量的步骤包括:在所述句子文本的句首添加起始字符,在所述句子文本的句末添加结束字符,得到添加字符后的句子文本;将所述添加字符后的句子文本输入至所述事件类型-事件触发词联合模型,以通过所述事件类型-事件触发词联合模型对所述句子文本中每个字符进行语义学习,得到所述句子文本的表示向量;对所述表示向量进行最大池化处理得到所述句子文本的所述特征表示向量。
可选的,所述损失函数的计算公式包括:
L=λLtype+(1-λ)Ltrigger
其中,λ为比例系数;Ltype为事件类型识别的损失函数,
Figure BDA0003451280670000031
T为所述训练样本中事件类型的种类的数量,yi为所述句子文本的事件类型i的标注结果,pi为所述句子文本属于事件类型i的概率;
Ltrigger为事件触发词识别的损失函数,
Figure BDA0003451280670000032
Figure BDA0003451280670000033
为所述句子文本的标注序列,
Figure BDA0003451280670000034
Figure BDA0003451280670000035
为所述句子文本中第n个字符的标注,
Figure BDA0003451280670000036
Figure BDA0003451280670000037
的可信度分数,
Figure BDA0003451280670000038
Figure BDA0003451280670000039
为所述句子文本中第j个字符对应的标注为
Figure BDA00034512806700000310
的似然概率,
Figure BDA00034512806700000311
为所述句子文本中从
Figure BDA00034512806700000312
Figure BDA00034512806700000313
的转移概率矩阵。
可选的,所述利用所述事件类型-事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合的步骤包括:对于所述验证样本中的每一个句子文本:利用所述事件类型-事件触发词联合模型识别所述句子文本属于各个事件类型的概率;筛选出大于第一阈值的所述概率所对应的事件类型,作为所述句子文本的预测事件类型;利用所述事件类型-事件触发词联合模型得到所述句子文本的事件触发词的标注序列的可信度分数;筛选出所述可信度分数最大的标注序列所对应的事件触发词,作为所述句子文本的预测事件触发词;集合所述验证样本中的每一个句子文本的预测事件类型得到所述预测事件类型集合,集合所述验证样本中的每一个句子文本的预测事件触发词得到所述预测事件触发词集合。
可选的,所述方法还包括:将所述样本数据均分为预定数量份;选择所述预定数量份中任意一份作为所述验证样本,剩下的样本数据作为所述训练样本。
可选的,所述通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型的步骤包括:扩展所述训练样本中句子文本的事件角色和事件论元的位置标注,得到扩展后的第一位置标注,以及扩展位置标注后的第一句子文本;所述第一位置标注包括:事件类型、事件角色和所述位置标注;对于所述训练样本中的每一个所述第一句子文本:获取所述第一句子文本的标准事件类型;将所述标准事件类型与对应的所述第一句子文本形成的句对作为输入数据,利用所述基于事件类型的论元抽取模型的损失函数训练所述基于事件类型的论元抽取模型,得到所述预定数量个基于事件类型的论元抽取模型。
可选的,所述基于事件类型的论元抽取模型的损失函数的计算公式包括:
Figure BDA0003451280670000041
其中,
Figure BDA0003451280670000042
为所述第一句子文本的标注序列,
Figure BDA0003451280670000043
Figure BDA0003451280670000044
为所述第一句子文本中第n个字符的标注,
Figure BDA0003451280670000045
Figure BDA0003451280670000046
的可信度分数,
Figure BDA0003451280670000047
Figure BDA0003451280670000048
为所述第一句子文本中第j个字符对应的标注为
Figure BDA0003451280670000049
的似然概率,
Figure BDA00034512806700000410
为所述第一句子文本中从
Figure BDA00034512806700000411
Figure BDA00034512806700000412
的转移概率矩阵。
可选的,所述通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型的步骤包括:扩展所述训练样本中句子文本的事件角色和事件论元的位置标记位置标注,得到扩展位置标记位置标注后的第一位置标记位置标注,以及扩展位置标记位置标注后的第一句子文本;所述第一位置标记位置标注包括事件类型、事件角色和所述位置标记位置标注;对于所述训练样本中的每一个所述第一句子文本:通过BRET模型获取所述第一句子文本的标准事件触发词;获取所述第一句子文本中每个字符到所述标准事件触发词的距离;根据所述距离的得到表示标准事件触发词的距离特征的矩阵;将所述矩阵与所述第一句子文本的表示向量级联起来,得到第二向量序列;将所述第二向量序列输入至CRF层,根据所述基于事件触发词的论元抽取模型的损失函数进行训练,得到所述预定数量个基于事件触发词的论元抽取模型。
可选的,所述基于事件触发词的论元抽取模型的损失函数的计算公式包括:
Figure BDA0003451280670000051
其中,
Figure BDA0003451280670000052
为所述第一句子文本的标注序列,
Figure BDA0003451280670000053
Figure BDA0003451280670000054
为所述第一句子文本中第n个字符的标注,
Figure BDA0003451280670000055
Figure BDA0003451280670000056
的可信度分数,
Figure BDA0003451280670000057
Figure BDA0003451280670000058
为所述第一句子文本中第j个字符对应的标注为
Figure BDA0003451280670000059
的似然概率,
Figure BDA00034512806700000510
为所述第一句子文本中从
Figure BDA00034512806700000511
Figure BDA00034512806700000512
的转移概率矩阵。
可选的,所述通过所述预定数量个基于事件类型的事件论元抽取模型以及所述预测事件类型集合对所述句子文本进行事件抽取,得到预定数量个第一事件抽取结果的步骤包括:对所述验证样本中的每一个句子文本:从所述预测事件类型集合中获取所述句子文本对应的预测事件类型;将所述句子文本以及所述句子文本对应的预测事件类型输入至所述基于事件类型的事件论元抽取模型,得到可信度分数最高的标注序列;根据所述可信度分数最高的标注序列的第二位置标注得到所述句子文本的第一事件类型;当所述第一事件类型与所述句子文本对应的预测事件类型相同时,将所述第二位置标注对应的字符作为所述句子文本的事件论元;将所述事件论元以及所述第二位置标注中的事件类型、事件角色作为所述句子文本的第一事件抽取结果。
可选的,所述通过所述预定数量个基于事件触发词的事件论元抽取模型以及预测事件触发词集合对所述句子文本进行事件抽取,得到预定数量个第一事件抽取结果的步骤包括:对所述验证样本中的每一个句子文本:从所述预测事件触发词集合中获取所述句子文本对应的预测事件触发词;根据所述句子文本对应的预测事件触发词得到所述句子文本中每个字符到所述预测事件触发词的距离;根据所述距离构建距离向量矩阵;将所述句子文本以及所述句子文本对应的距离向量矩阵输入至所述基于事件触发词的事件论元抽取模型,得到可信度分数最高的标注序列;根据所述可信度分数最高的标注序列的第二位置标注得到所述句子文本的第一事件触发词;当所述第一事件触发词与所述句子文本对应的预测事件触发词相同时,将所述第二位置标注对应的字符作为所述句子文本的事件论元;将所述事件论元以及所述第二位置标注中的事件类型、事件角色作为所述句子文本的第一事件抽取结果。
可选的,所述根据得到的多个第一事件抽取结果确定所述句子文本的事件抽取结果,包括:在所述多个第一事件抽取结果中确定出现的次数小于第三数量的第一事件抽取结果;丢弃所述出现的次数小于第三数量的第一事件抽取结果,将剩余的第一事件抽取结果作为所述句子文本的事件抽取结果。
根据本公开实施例的第二方面,提供一种事件抽取方法装置,包括:获取模块,被配置为获取样本数据;所述样本数据包括多个句子文本,所述多个句子文本的事件类型和事件触发词,所述多个句子文本的事件类型组成标准事件类型集合,所述多个句子文本的事件触发词组成标准事件触发词集合,所述样本数据分为训练样本和验证样本;训练模块,被配置为通过所述训练样本训练事件类型-事件触发词联合模型;所述事件类型-事件触发词联合模型用于识别句子文本中的事件类型和事件触发词;识别模块,被配置为利用所述事件类型-事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合;所述训练模块,还被配置为通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型,以及通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型;处理模块,被配置为对于所述验证样本中的每一个句子文本,通过所述预定数量个基于事件类型的事件论元抽取模型以及所述预测事件类型集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果,以及通过所述预定数量个基于事件触发词的事件论元抽取模型以及所述预测事件触发词集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果;所述处理模块,还被配置为根据得到的多个所述第一事件抽取结果确定所述句子文本的事件抽取结果。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令实现前述的事件抽取方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的事件抽取方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过训练样本训练得到事件类型-事件触发词联合模型,通过事件类型-事件触发词联合模型识别验证样本得到预测事件类型集合和预测事件触发词集合,预测事件类型集合和预测事件触发词集合作为额外特征融入到事件论元识别当中,多个基于事件类型的事件论元抽取模型和多个基于事件触发词的事件论元抽取模型分别对验证样本中的句子文本进行事件抽取,得到每个句子文本的多个第一事件抽取结果,从得到的多个第一事件抽取结果确定所述句子文本的事件抽取结果,提高了事件抽取的准确率、效率的同时降低了人/物力成本,避免了过于依赖领域经验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开示例性实施例示出的计算机系统的结构示意图。
图2是本公开示例性实施例示出的一种事件抽取方法的流程图。
图3是本公开示例性实施例示出的一种事件类型-事件触发词联合模型的结构示意图。
图4是本公开示例性实施例示出的另一种事件抽取方法的流程图。
图5是本公开示例性实施例示出的子步骤S102的流程图。
图6是本公开示例性实施例示出的一种基于事件类型的论元抽取模型的结构示意图。
图7是本公开示例性实施例示出的一种基于事件触发词的论元抽取模型的结构示意图。
图8是本公开示例性实施例示出的一种事件抽取装置框图。
图9是根据一示例性实施例示出的一种用于事件抽取的装置的框图。
图10是根据一示例性实施例示出的一种用于事件抽取的装置的框图。
附图标记说明
120-终端;140-服务器;20-事件抽取装置;201-获取模块;202-训练模块;203-识别模块;204-处理模块;800-装置;802-处理组件;804-存储器;806-电力组件;808-多媒体组件;810-音频组件;812-输入/输出(I/O)接口;814-传感器组件;816-通信组件;1900-装置;1922-处理组件;1926-电源组件;1932-存储器;1950-网络接口;1958-输入输出(I/O)接口。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在事件抽任务中,一般来说,用户需要先制定一个事件类型体系,以及各类事件类型里的重要角色,也就是模式(schema)。比如对于“降价”这样一个事件类型,这个事件类型可能相关的重要角色有“时间”、“降价方”、“降价物”、“降价幅度”等。那么对于一个输入的非结构化文本:“虽然4月A地区的优特钢市场价格下跌了170元/吨,但B地区的优特钢市场价格的加速下跌,扩大了与A地区市场的区域价差,目前两地价差已经达到200元/吨”,其中涉及到的重要角色取值分别为:“时间”是“4月”,“降价物”是“优特钢”,“降价幅度”是“170元/吨”。事件角色也可以没有取值,比如在上面这个文本中,就没有提到“降价方”信息。通过事件抽取,用户可以自动化地从开放文本中快速地抽取有效信息,这些信息可以用于知识图谱、智能问答等系统,从而指导人们的工作和实践。通过自动化的事件抽取,用户可以加快信息抽取的效率。
在事件抽取中有四个重要的概念,为了方便叙述,先对四个概念进行一些介绍。这四个概念分别是事件类型、事件触发词、事件角色和事件论元:
不同的开放文本,谈论的事件可能不一样,有的谈论的是“降价”,有的谈论的是“涨价”,这些不同的事件对象,就是事件类型。
每种事件类型,都有一些词可以用来识别这个事件。这些用于识别事件的核心词,就称之为事件触发词。比如,对于“降价”这个事件类型,触发词可能有“下跌”、“跌至”等,当开放文本中包含这些词时,它描述的可能就是“降价”这种事件。
对于每一种事件类型,需要预先定义这个事件类型的参与者和属性,比如前文中“降价”这个事件类型对应的“时间”、“降价方”、“降价物”、“降价幅度”,这些角色是描述这个事件的参与者和属性,称之为事件角色。
每一个事件角色在输入文本中的具体对应的取值,称之为事件论元。一个事件角色可能有取值,也可能没有取值。
如果事件抽取涉及到T种事件类型,对于每个事件类型,都预先定义好事件角色,那么这T个事件类型的体系,就称之为事件schema。事件schema可以指导事件抽取工作。
事件schema的定义:
a)根据业务需要,制定事件类型。比如,如果是证券领域,事件类型可能包括“上市”、“融资”、“涨停”、“跌停”等;如果是法律领域,事件类型可能包括“开庭”、“立案”、“起诉”等。在制定事件类型的时候,结合业务需求,尽可能制定覆盖较为全面的事件类型。假设一共制定了T种事件类型,这些事件类型构成列表L。
b)对于每个事件类型,预定义好事件角色。事件角色的制定,应该结合业务经验和场景需求,目标是能尽可能全面的描述事件类型的相关参与者和属性。比如,对于”起诉”这个事件类型,相关的事件角色包括”起诉时间”、”原告”和”被告”等。可以以一个映射表m来表示这个事件类型:m={“事件类型”:“起诉”,“事件角色列表”:[{“事件角色”:“起诉时间”},{“事件角色”:“原告”},{“事件角色”:“被告”}]}
c)针对每一个事件类型,我们都预定义好事件角色的映射表m。那么,所有事件类型的事件角色就构成了事件schema,记为S={mi,1<=i<=T}。事件schema可以指导后续的事件抽取工作,对于每一种事件类型,只需要找到schema中预定义好的事件角色的取值,这些取值就是事件论元。
事件抽取任务的输入可以是一个句子,也可以是一个文档。句子一般比较短,文档一般会更长,这两者面临的问题和解决的方案有所不同。本公开针对的输入是一个句子,提出的是句子级的事件抽取方案。将事件抽取结果的最小粒度表示为三元组的形式,三元组包括事件类型、事件角色和事件论元。
现有技术中,主要有以下三种事件抽取方案:
现有技术方案一:基于模板匹配的方法是一种基础的事件抽取方法。基于模板匹配的方法,会维护一个触发词表和一个模板库。首先,对输入文本进行分词、词性标注和句法分析等基础处理。然后,通过触发词表,找到输入文本中的触发词。接着,通过这个触发词相关的模板去对输入文本进行匹配,从而找到相关的事件角色和事件论元。
现有技术方案二:基于特征工程的传统机器学习方法。在这种方法中,首先需要从输入文本中提取一些有效特征,比如词性特征、句法依赖特征、实体特征、词向量特征等。在这些特征的基础之上,通过几个环节来进行事件抽取。第一个环节是触发词识别,首先从输入文本中识别到触发词,并通过触发词来判断事件类型。第二个环节是事件论元的抽取,需要从输入文本中识别出哪些部分可能是事件论元。第三个环节是事件角色的判断,需要判断第二个环节中识别出的事件论元分别是哪种事件角色。这三个环节都可以基于特征工程来训练传统机器学习模型。常用的机器学习模型有支持向量机(SVM)、条件随机场(CRF)等。这三个环节的机器学习模型训练好之后,就可以流水线式地来开展事件抽取工作。
现有技术方案三:基于深度学习的方法。这种方法主要分为触发词识别和事件论元识别两个步骤。在这个方法中,输入就是原始文本,无需做任何的语义解析处理。按照字粒度的,映射得到每个字的向量表示。在触发词识别中,把触发词识别建模为序列标注问题,通过深度学习模型来训练一个序列标注模型,从而对触发词进行识别。触发词识别的结果会作为额外特征融入到第二步的事件论元识别当中。在事件论元识别中,也同样是把它建模为一个序列标注问题,使用的同样也是基于深度学习的序列标注模型。在事件论元识别这一步中,使用的标注(label)不是只有B/I/O(B是Beginnging,代表事件论元的起始位置;I是Inside,代表事件论元的中间位置,O是Outside,代表非事件论元)这么简单,而是从每一个事件类型的每一个事件角色都扩展出B和I。这样,根据序列标注的结果直接就可以判断出每一个事件论元所属的事件类型和事件角色。
然而上述的现有技术均有各自的弊端:
现有技术方案一的缺点:基于模板匹配的方法非常依赖所构造的模板。它有两个突出的缺点。第一,模板的构造非常耗费人力和时间,成本比较高。第二,模板的召回比较有限,必须与模板精确匹配才能成功抽取出事件论元,文本稍有变化便不能成功提取。这两个缺点严重地制约了现有技术方案一的通用性。
现有技术方案二的缺点:基于特征工程的传统机器学习的方法,比较依赖特征工程的质量。如果特征选取的比较好,事件抽取的准确率会相应地比较高。但如果特征选取的不好,事件抽取的质量也会受到影响。而特征的选取比较依赖领域经验,同时特征工程的工作也比较耗时耗力,这是现有技术方案二的主要缺点。
现有技术方案三的缺点:基于深度学习的方法,是目前主流的方法。但是触发词识别-事件论元识别的两步法,会使得第一步当中触发词识别的错误往下传递,影响整体的准确率。同时,这种方法也没有利用事件类型的信息,这一点也限制了的事件抽取的准确率。以上两点是技术方案三的主要缺点。
基于上述三种方案的缺点,本公开采用一种联合方法用于句子文本的事件抽取。区别于技术方案三,本公开提出的联合方法同时利用了事件类型和事件触发词这两种信息,来进行事件论元的抽取。现有技术都只使用了事件触发词或者事件类型来辅助事件论元的抽取,本发明提出的联合方法,同时利用了事件类型和事件触发词中蕴含的信息,将两者融合,相互补充,相互弥补对方的错误,从而提高了事件抽取的准确性。
图1示出了本公开一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。
终端120与服务器140之间通过有线或者无线网络相互连接。
终端120可以包括智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。
终端120包括显示器;显示器用于显示事件抽取结果。
终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现本公开提供的事件抽取方法。第一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory,RAM)、只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。
第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网络处理器(NetworkProcessor,NP)。可选地,第一处理器可以实现本公开提供的事件抽取方法。示例性的,终端中的训练事件类型-事件触发词联合模型、基于事件类型的论元抽取模型及基于事件触发词的事件论元抽取模型可以是由终端训练得到的;或,由服务器训练得到,终端从服务器获取。
服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本公开提供的事件抽取方法。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、PROM、EPROM、EEPROM。可选地,第二处理器可以是通用处理器,比如,CPU或者NP。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
图2是本公开示例性实施例示出的一种事件抽取方法的流程图,该方法由计算机设备来执行,例如,由图1所示的计算机系统中的终端或服务器来执行,图2所示的事件抽取方法包括以下步骤:
在步骤S101中,获取样本数据。
样本数据包括多个句子文本,多个句子文本的事件类型和事件触发词,样本数据分为训练样本和验证样本,其中,训练样本用于训练事件类型-事件触发词联合模型、基于事件类型的论元抽取模型及基于事件触发词的事件论元抽取模型,验证样本用于验证事件类型-事件触发词联合模型、基于事件类型的论元抽取模型及基于事件触发词的事件论元抽取模型。在一种实施方式中,可以将样本数据文本均分为10份,选择其中任意一份作为验证样本,剩余的作为训练样本。
样本数据还包括标准事件类型集合和标准事件触发词集合,验证样本中,句子文本的事件类型组成标准事件类型集合,句子文本的事件触发词组成标准事件触发词集合,需要说明的是标准事件类型集合为人工标注的事件类型的集合,标准事件触发词集合为人工标注的事件触发词的集合;
示例性的,可以准备一批业务领域内的句子文本。对每一个句子进行人工标注,判断句子文本是否存在事件类型列表L范畴内的事件类型。如果不存在,将这一个句子文本丢弃,如果存在则保留这个句子文本,并标注出这个句子文本存在的事件类型和事件触发词。另外,如果一个句子文本中存在多个事件类型,则将这个句子复制多次,每次对应一个事件类型。在一种实施方式中,通过人工标注保留1万条句子文本,作为样本数据。
在步骤S102中,通过训练样本训练事件类型-事件触发词联合模型。
示例性的,可以通过前述提到的1万条句子文本中的训练样本来训练事件类型-事件触发词联合模型。
事件类型-事件触发词联合模型,将事件类型识别和事件触发词识别这两个任务合二为一,通过事件类型-事件触发词联合模型对两者进行同时的识别。实际上,事件类型的识别结果和事件触发词的识别结果是相互影响的。比如,当事件类型是“结婚”的时候,触发词不可能是“婚外情”;反过来,当触发词是“婚期”的时候,事件类型不可能是“离婚”。所以,事件类型-事件触发词联合模型有其内在的合理性,两个任务的识别结果相互制约,从而提升识别的准确率。请参阅图3,图3是本公开示例性实施例示出的一种事件类型-事件触发词联合模型的结构示意图。
在步骤S103中,利用事件类型-事件触发词联合模型识别验证样本得到预测事件类型集合和预测事件触发词集合。
示例性的,可以利用事件类型-事件触发词联合模型识别前述提到的1万条句子文本中的验证样本,得到验证样本中每个句子文本的预测事件类型和预测事件触发词,集合验证样本中每个句子文本的预测事件类型得到预测事件类型集合,集合验证样本中每个句子文本的预测事件触发词得到预测事件触发词集合。
在步骤S104中,通过训练样本及标准事件类型集合训练预定数量个基于事件类型的论元抽取模型,以及通过训练样本及标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型。
对于训练样本中的每一个第一句子文本,从标准事件类型集合中获取第一句子文本的标准事件类型,将标准事件类型与对应的第一句子文本形成的句对作为输入数据,利用基于事件类型的论元抽取模型的损失函数训练BERT模型,得到预定数量个基于事件类型的论元抽取模型。
对于训练样本中的每一个第一句子文本:通过BRET模型从标准事件触发词集合中获取第一句子文本的标准事件触发词,获取第一句子文本中每个字符到标准事件触发词的距离,根据距离的得到表示事件触发词的距离特征的矩阵,将矩阵与第一句子文本的向量表示级联起来,得到第二向量序列,将第二向量序列输入至CRF层,根据基于事件触发词的论元抽取模型的损失函数进行训练,得到预定数量个基于事件触发词的论元抽取模型。
示例性的,将前述提到的作为样本数据的1万条句子文本均分为10份,选择其中任意一份作为验证样本,剩余的作为训练样本。有十种选择方式,选择不同的训练样本可以得到不同的基于事件类型的论元抽取模型,因此可以训练得到10个基于事件类型的论元抽取模型。同理,可以训练得到10个基于事件触发词的论元抽取模型。
此外,该预定数量还可以是其他值,例如20、30等,分别对应于将样本数据均分为20份、30份,本公开对此不作限制。
在步骤S105中,对于验证样本中的每一个句子文本,通过预定数量个基于事件类型的事件论元抽取模型以及预测事件类型集合对句子文本进行事件抽取,得到预定数量个第一事件抽取结果,以及通过预定数量个基于事件触发词的事件论元抽取模型以及预测事件触发词集合对句子文本进行事件抽取,得到预定数量个第一事件抽取结果。
第一事件抽取结果可以是三元组,三元组为句子文本的事件类型、事件角色及事件论元。
示例性的,通过训练得到了10个基于事件类型的论元抽取模型,及10个基于事件触发词的论元抽取模型。
对于验证样本中的每一个句子文本,利用10个基于事件类型的论元抽取模型分别对句子文本进行事件抽取,得到10个三元组;利用10个基于事件触发词的论元抽取模型分别对句子文本进行事件抽取,得到10个三元组。
在步骤S106中,根据得到的多个第一事件抽取结果确定句子文本的事件抽取结果。
可以理解的,在理想的情况下,对于验证样本中的每一个句子文本,得到的20个三元组应当是一致的,但是因为识别结果存在一定的误差,会存在某些句子文本的三元组出现的次数低于20次的情况,而三元组的出现次数也反应了前述的10个基于事件类型的论元抽取模型,及10个基于事件触发词的论元抽取模型的识别准确率,因此可以根据三元组的出现次数来确定句子文本的事件抽取结果。
请参阅图4,图4为本公开示例性实施例示出的另一种事件抽取方法的流程图。该方法由计算机设备来执行,例如,由图1所示的计算机系统中的终端或服务器来执行。
需要说明的是,图4所示的事件抽取方法与图2所示的事件抽取方法的实施方式内容一致,图4中未提及之处可以参考图2的描述,在此不再赘述。
图4所示的事件抽取方法包括以下步骤:
在步骤S101中,获取样本数据。
示例性的,对于前述提到的作为样本数据的1万条句子文本,人工标注每一个句子文本的事件类型对应的事件角色和事件论元。需要注意的是,对于事件触发词和事件论元,需要标注好它的起始位置,可以采用前述提到的B/I/O标注体系(B是Beginging,代表事件论元/事件触发词的起始位置;I是Inside,代表事件论元/事件触发词的中间位置,O是Outside,代表非事件论元/事件触发词)。比如,输入句子文本为:“D国E地区的F机构24日宣布,以H罪名为由对M企业的A人员、B人员和C人员提起诉讼”,通过“提起诉讼”这个词,可以发现这个句子文本描述的事件类型是“起诉”,所以事件触发词是“提起诉讼”,事件触发词“提起诉讼”的起始位置是36(从0开始计数)。然后标注一下事件角色和事件论元,容易发现:事件角色“起诉时间”的事件论元是“24日”,起始位置是9;事件角色“原告”的事件论元是“D国E地区的F机构”,起始位置是0;事件角色“被告”的事件论元是“M企业的A人员”、“B人员”和“C人员”,起始位置分别是21、29和33。
在步骤S102中,通过训练样本训练事件类型-事件触发词联合模型。
需要说明的是,步骤S102还包括子步骤S1021、子步骤S1022、子步骤S1023、子步骤S1024、子步骤S1025、子步骤S1026及子步骤S1027,训练事件类型-事件触发词联合模型的具体方式将在步骤S102的子步骤中进行详细描述。请参阅图5,图5是本公开示例性实施例示出的子步骤S102的流程图。
在子步骤S1021中,在句子文本的句首添加起始字符,在句子文本的句末添加结束字符,得到添加字符后的句子文本。
请继续参阅图3所示的事件类型-事件触发词联合模型,包括BERT模型、CRF层、池化层和输出层,对于训练数据中的每一个句子文本,直接以句子文本作为输入,句子文本中的一个字符就是一个token,输入字符序列可以表示为{token1,token2,…,tokenK}。在句子文本的句首添加一个起始字符[CLS],在句子文本的句末添加一个[SEP]。
在子步骤S1022中,将添加字符后的句子文本输入至事件类型-事件触发词联合模型,以通过事件类型-事件触发词联合模型对句子文本中每个字符进行语义学习,得到句子文本的表示向量。
将前述得到的添加字符后的句子文本输入给事件类型-事件触发词联合模型的BERT模型,BERT模型会根据句子文本的上下文对每个token蕴含的语义进行学习,经过BERT模型之后得到每个token的表示向量,以o来表示,那么经过BERT之后得到的字符序列表示为{C,o1,o2,…,oK,S}。其中,C为[CLS]字符对应的表示向量,S为[SEP]字符对应的表示向量。
在子步骤S1023中,对表示向量进行最大池化处理得到句子文本的特征表示向量。
通过池化层提取字符序列的表示向量的特征,得到字符序列的特征表示向量。
在子步骤S1024中,将句子文本的特征表示向量输入至事件类型-事件触发词联合模型的输出层,得到输出层输出的句子文本属于各个事件类型的概率。
输出层对特征表示向量进行分类,得到特征表示向量属于各个事件类型的概率,即句子文本属于各个事件类型的概率。
在子步骤S1025中,将句子文本的特征表示向量输入至条件随机场CRF层,得到CRF层输出的句子文本的标注之间的转移概率及似然概率。
在子步骤S1026中,根据句子文本属于各个事件类型的概率、句子文本的标注、句子文本的标注之间的转移概率及似然概率得到事件类型-事件触发词联合模型的损失函数。
事件类型-事件触发词联合模型的损失函数的计算公式包括:
L=λLtype+(1-λ)Ltrigger
其中,λ为比例系数,用来调节事件类型识别和事件触发词识别这两个任务的比重;Ltype为事件类型识别的损失函数,
Figure BDA0003451280670000201
T为训练样本中事件类型的种类的数量,yi为句子文本的事件类型i的标注结果,pi为句子文本属于事件类型i的概率;
Ltrigger为事件触发词识别的损失函数,
Figure BDA0003451280670000202
Figure BDA0003451280670000203
为句子文本的标注序列,
Figure BDA0003451280670000204
Figure BDA0003451280670000205
为句子文本中第n个字符的标注,
Figure BDA0003451280670000206
Figure BDA0003451280670000207
的可信度分数,
Figure BDA0003451280670000208
Figure BDA0003451280670000209
为句子文本中第j个字符对应的标注为
Figure BDA00034512806700002010
的似然概率,
Figure BDA00034512806700002011
为句子文本中从
Figure BDA00034512806700002012
Figure BDA00034512806700002013
的转移概率矩阵。
概率转移矩阵A是一个3*3的矩阵(3对应的是B/I/0三个标注),矩阵中每一个元素代表从一个标注(label)到另一个标注的转移概率。
在子步骤S1027中,根据损失函数训练事件类型-事件触发词联合模型。
在一种实施方式中,训练事件类型-事件触发词联合模型时,可以设置句子文本的最大字符序列长度max_seq_length=250,训练批次大小train_batch_size=16,学习率learning_rate=1e-5,训练轮数num_train_epochs=50,参数λ=0.7。经过训练之后,得到事件类型-事件触发词联合模型。
在步骤S103中,利用事件类型-事件触发词联合模型识别验证样本得到预测事件类型集合和预测事件触发词集合。
对于验证样本中的每一个句子文本:利用事件类型-事件触发词联合模型识别句子文本属于各个事件类型的概率,筛选出大于第一阈值的概率所对应的事件类型,作为句子文本的预测事件类型;在一种实施方式中,第一阈值可以是0.5。
对于验证样本中的每一个句子文本:利用事件类型-事件触发词联合模型得到句子文本的事件触发词的标注序列的可信度分数,筛选出可信度分数
Figure BDA0003451280670000211
最大的标注序列
Figure BDA0003451280670000212
从这个标注序列挑选出以一个B开头,紧接着一个或多个I的片段,这些片段对应的原始token合起来就是事件触发词,这些片段对应的位置就是事件触发词的位置。
集合验证样本中的每一个句子文本的预测事件类型得到预测事件类型集合,记为Stype,集合验证样本中的每一个句子文本的预测事件触发词得到预测事件触发词集合,记为Strigger
在步骤S104中,通过训练样本及标准事件类型集合训练预定数量个基于事件类型的论元抽取模型,以及通过训练样本及标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型。
在训练之前,先扩展训练样本中句子文本的事件角色和事件论元的位置标注,得到扩展后的位置标注,记为第一位置标注,以及扩展位置标注后的句子文本,记为第一句子文本。扩展前的位置标注为B/I/O标注体系,扩展后的第一位置标注包括事件类型、事件角色和位置标注。
示例性的,对训练样本中的每一个第一句子文本,假设输入序列表示为{token1,token2,…,tokenK},人工标注的事件类型为type,人工标注的事件触发词为trigger。扩展前使用的标注体系依旧是包含B/I/O的三种位置标注。但是,抽取出事件论元片段后,还需要识别出该事件论元所属的事件角色,所以本步骤对B/I/O标注体系进行了扩展。从每一个事件类型的每一个事件角色都扩展出B和I。比如事件类型“起诉”有一个事件角色是“原告”,那么就可以扩展出第一位置标注“起诉-原告-B”和“起诉-原告-I”。同理,对于其他事件类型或其他事件角色也可以这样扩展。扩展后的第一位置标注由事件类型、事件角色和B/I三部分组成。那么在应用的时候,就只需要将第一位置标注拆分成三部分,就可以同时地识别事件角色和事件论元。假设训练样本中所有的事件类型对应的所有事件角色一共有R个,那么标注体系就一共有2R+1个不同的第一位置标注,多出来的1个是O,代表不属于任何事件角色。
请参阅图6,图6是本公开示例性实施例示出的一种基于事件类型的论元抽取模型的结构示意图。
图6所示的基于事件类型的论元抽取模型,包括BERT模型和CRF层。对于训练样本中的每一个第一句子文本,获取第一句子文本的标准事件类型,标准事件类型为人工标注的第一句子文本的事件类型,将标准事件类型与对应的第一句子文本形成的句对作为输入数据,标准事件类型作为句1,标准事件类型对应的第一句子文本作为句2,输入给BERT模型,经过BERT模型之后得到第一句子文本中每个token的表示向量。将BERT模型的输出接入CRF层。对于第一句子文本的第一位置标注序列
Figure BDA0003451280670000221
记第j个位置上的token对应的标注为
Figure BDA0003451280670000222
的似然概率为
Figure BDA0003451280670000223
也可以称之为发射概率。另外,记概率转移矩阵为A,它是一个(2R+1)*(2R+1)的矩阵,那么从
Figure BDA0003451280670000224
Figure BDA0003451280670000225
的转移概率就是
Figure BDA0003451280670000226
则第一位置标注序列
Figure BDA00034512806700002216
的可信度分数可以表示为似然概率和转移概率之和:
Figure BDA0003451280670000227
那么,基于事件类型的论元抽取模型的损失函数的计算公式可以为:
Figure BDA0003451280670000228
其中,
Figure BDA0003451280670000229
为第一句子文本的第一位置标注序列,
Figure BDA00034512806700002210
Figure BDA00034512806700002211
为第一句子文本中第n个字符的第一位置标注,
Figure BDA00034512806700002212
Figure BDA00034512806700002213
的可信度分数,
Figure BDA00034512806700002214
Figure BDA00034512806700002215
为第一句子文本中第j个字符对应的第一位置标注为
Figure BDA0003451280670000231
的似然概率,
Figure BDA0003451280670000232
为第一句子文本中从
Figure BDA0003451280670000233
Figure BDA0003451280670000234
的转移概率矩阵。
在一种实施方式中,训练基于事件类型的论元抽取模型时,可以设置第一句子文本的最大字符长度max_seq_length=250,训练批次大小train_batch_size=16,学习率learning_rate=1e-5,训练轮数num_train_epochs=50。经过训练之后,得到预定数量个基于事件类型的论元抽取模型。
请参阅图7,图7是本公开示例性实施例示出的一种基于事件触发词的论元抽取模型的结构示意图。
图7所示的基于事件触发词的论元抽取模型,包括BERT模型、触发词距离特征层和CRF层。对于训练样本中的每一个第一句子文本:直接以第一句子文本作为输入,第一句子文本的序列可以表示为{token1,token2,…,tokenK},以单句形式输入BERT模型。在句首添加一个[CLS],在句后面添加一个[SEP],经过BERT模型之后得到每个token的表示向量,以o来表示,那么经过BERT模型之后得到的表示向量序列表示为{C,o1,o2,…,oK,S}。其中,C表示[CLS]字符对应的表示向量,S表示[SEP]字符对应的表示向量。
通过BRET模型获取第一句子文本的标准事件触发词,标准事件触发词为人工标注的事件触发词,获取第一句子文本中每个字符到标准事件触发词的距离。第一句子文本中每个字符到标准事件触发词的距离可以影响基于事件触发词的论元抽取模型的判断,因此将每个字符到标准事件触发词的距离作为额外特征,引入到基于事件触发词的论元抽取模型中。初始化一个距离参数矩阵D,距离参数矩阵D的维度为m*d。其中,m为第一句子文本的字符长度,在一种实施方式中,可以限定输入句子的最大长度为250,d是预设定的距离参数矩阵的向量的维度。对于第一句子文本序列中的每一个token,以一个独热编码向量(one-hot)的向量v来表示,这个one-hot向量的维度是250,记这个token到标准事件触发词的距离为c,则在向量v的第c维上取1。所有token的one-hot向量组合在一起,可以记为矩阵V,它的维度为n*250,其中,n表示第一句子文本序列中token的数量。这样,可以得到表示标准事件触发词的距离特征的矩阵F:
F=VD
矩阵F的维度是n*d,矩阵F的每一行表示对应token到标准事件触发词的距离的向量f。将tokeni的向量fi作为额外特征,与表示向量oi级联起来得到新的向量o'i,o'i=[oi,fi]。将新的向量o'i序列接入CRF层。
对于第一句子文本的一个第一位置标注序列,记第j个位置上的token对应的标注为
Figure BDA0003451280670000241
的似然概率为
Figure BDA0003451280670000242
也可以称之为发射概率。另外,记概率转移矩阵为A,它是一个(2R+1)*(2R+1)的矩阵,那么从
Figure BDA0003451280670000243
Figure BDA0003451280670000244
的转移概率为
Figure BDA0003451280670000245
则第一位置标注序列
Figure BDA0003451280670000246
的可信度分数可以表示为似然概率和转移概率之和:
Figure BDA0003451280670000247
那么,基于事件触发词的论元抽取模型的损失函数的计算公式可以为:
Figure BDA0003451280670000248
其中,
Figure BDA0003451280670000249
为第一句子文本的第一位置标注序列,
Figure BDA00034512806700002410
Figure BDA00034512806700002411
为第一句子文本中第n个字符的第一位置标注,
Figure BDA00034512806700002412
Figure BDA00034512806700002413
的可信度分数,
Figure BDA00034512806700002414
Figure BDA00034512806700002415
为第一句子文本中第j个字符对应的第一位置标注为
Figure BDA00034512806700002416
的似然概率,
Figure BDA00034512806700002417
为第一句子文本中从
Figure BDA00034512806700002418
Figure BDA00034512806700002419
的转移概率矩阵。
在一种实施方式中,训练基于事件触发词的论元抽取模型时,可以设置第一句子文本的最大字符长度max_seq_length=250,训练批次大小train_batch_size=16,学习率learning_rate=1e-5,训练轮数num_train_epochs=50,距离特征的向量维度d=256。经过训练之后,得到预定数量个基于事件触发词的论元抽取模型。
需要说明的是,在一种实施方式中,可以将前述提到的作为样本数据的1万条句子文本均分为10份,选择其中任意一份作为验证样本,剩余的作为训练样本。有十种选择方式,选择不同的训练样本可以得到不同的基于事件类型的论元抽取模型,因此可以训练得到10个基于事件类型的论元抽取模型M1。同理,可以训练得到10个基于事件触发词的论元抽取模型M2。
在步骤S105中,对于验证样本中的每一个句子文本,通过预定数量个基于事件类型的事件论元抽取模型以及预测事件类型集合对句子文本进行事件抽取,得到预定数量个第一事件抽取结果,以及通过预定数量个基于事件触发词的事件论元抽取模型以及预测事件触发词集合对句子文本进行事件抽取,得到预定数量个第一事件抽取结果。
示例性的,第一事件抽取结果可以是三元组,三元组为句子文本的事件类型、事件角色及事件论元。
示例性的,通过前述的样本选择方式可以训练得到10个基于事件类型的论元抽取模型,及10个基于事件触发词的论元抽取模型。
对于验证样本中的每一个句子文本,利用10个基于事件类型的论元抽取模型分别对句子文本进行事件抽取,得到10个三元组。示例性的,从预测事件类型集合Stype中获取句子文本对应的预测事件类型,将句子文本以及句子文本对应的预测事件类型作为输入,输入至基于事件类型的事件论元抽取模型,得到可信度分数
Figure BDA0003451280670000251
最高的标注序列
Figure BDA0003451280670000252
将可信度分数最高的标注序列记为第二位置标注,从第二位置标注中挑选出以一个B开头,紧接着一个或多个I的片段,这个片段里所有的标注必须具有相同的事件类型(type)和事件角色(role)。将这个片段的事件类型记为第一事件类型,当第一事件类型与句子文本对应的预测事件类型相同时,那么这个片段对应的原始token合起来就是该句子文本的事件论元(argument),而第二位置标注对应的role就是这个事件论元的事件角色。因此,这个片段对应的事件抽取结果就是三元组(type,role,argument)。所有符合要求的片段对应的三元组集合就是这个句子的事件抽取的结果。
对于验证样本中的每一个句子文本,利用10个基于事件触发词的论元抽取模型分别对句子文本进行事件抽取,得到10个三元组。示例性的,从预测事件触发词集合中获取句子文本对应的预测事件触发词,根据句子文本对应的预测事件触发词得到句子文本中每个token到预测事件触发词的距离,从而根据该距离各个token的one-hot组合得到的距离向量矩阵V。将句子文本以及句子文本对应的距离向量矩阵V作为输入,输入至基于事件触发词的事件论元抽取模型,预测得到可信度分数
Figure BDA0003451280670000265
最高的标注序列,将可信度分数最高的标注序列记为第二位置标注,从第二位置标注中挑选出以一个B开头,紧接着一个或多个I的片段,这个片段里所有的标注必须具有相同的事件类型(type)和事件角色(role)。将这个片段的事件触发词记为第一事件触发词,当第一事件触发词与句子文本对应的预测事件类型相同时,那么这个片段对应的原始token合起来就是该句子文本的事件论元(argument),而第二位置标注对应的role就是这个事件论元的事件角色。因此,这个片段对应的事件抽取结果就是三元组(type,role,argument)。所有符合要求的片段对应的三元组集合就是这个句子的事件抽取的结果。
在步骤S106中,根据得到的多个三元组确定句子文本的事件抽取结果。
通过前述的样本选择方式可以训练得到10个基于事件类型的论元抽取模型,记为
Figure BDA0003451280670000261
及10个基于事件触发词的论元抽取模型,记为
Figure BDA0003451280670000262
可以理解的,在理想的情况下,对于验证样本中的每一个句子文本,得到的20个三元组应当是一致的,但是因为识别结果存在一定的误差,会存在某些句子文本的三元组出现的次数低于20次的情况,而三元组的出现次数也反应了
Figure BDA0003451280670000263
Figure BDA0003451280670000264
的识别准确率,三元组的出现次数越高,则识别准确率越高,三元组的出现次数越低,则识别准确率越低。因此可以根据三元组的出现次数来确定句子文本的事件抽取结果。例如,可以丢弃出现的次数小于第三数量的三元组,将剩余的三元组作为句子文本的事件抽取结果。在一种实施方式中,第三数量可以是但不限于10。
本公开采用了一种事件类型-事件触发词联合方法用于句子文本的事件抽取任务。这种联合方法,同时对句子文本的事件类型和事件触发词进行预测,并分别以事件类型和事件触发词作为额外特征去构建基于事件类型的论元抽取模型及基于事件触发词的事件论元抽取模型。最终,将基于事件类型的论元抽取模型和基于事件触发词的事件论元抽取模型的预测结果进行投票组合,得到最终的事件抽取结果。有益效果包括:通过深度学习的方式,避免了模板构造和特征工程的繁琐工作,召回的泛化性更好。通过事件类型-事件触发词联合模型,提升了事件类型和事件触发词的识别准确率。将事件类型和事件触发词分别作为额外特征去预测事件论元,并通过投票组合的策略得到最终的事件抽取结果,两组模型的结果相互补充,相互弥补对方的错误,提升了事件抽取的准确率。
综上所述,本公开提供的事件抽取方法,通过训练样本训练得到事件类型-事件触发词联合模型,通过事件类型-事件触发词联合模型识别验证样本得到预测事件类型集合和预测事件触发词集合,预测事件类型集合和预测事件触发词集合作为额外特征融入到事件论元识别当中,多个基于事件类型的事件论元抽取模型和多个基于事件触发词的事件论元抽取模型分别对验证样本中的句子文本进行事件抽取,得到每个句子文本的多个第一事件抽取结果,从得到的多个第一事件抽取结果确定所述句子文本的事件抽取结果,提高了事件抽取的准确率、效率的同时降低了人/物力成本,避免了过于依赖领域经验。
图8是本公开示例性实施例示出的一种事件抽取装置框图。参照图8,该装置20包括获取模块201,训练模块202、识别模块203和处理模块204。
该获取模块201,被配置为获取样本数据;所述样本数据包括多个句子文本,所述多个句子文本的事件类型和事件触发词,所述多个句子文本的事件类型组成标准事件类型集合,所述多个句子文本的事件触发词组成标准事件触发词集合,所述样本数据分为训练样本和验证样本;
该训练模块202,被配置为通过所述训练样本训练事件类型-事件触发词联合模型;所述事件类型-事件触发词联合模型用于识别句子文本中的事件类型和事件触发词;
该识别模块203,被配置为利用所述事件类型-事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合;
该训练模块202,还被配置为通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型,以及通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型;
该处理模块204,被配置为对于所述验证样本中的每一个句子文本,通过所述预定数量个基于事件类型的事件论元抽取模型以及所述预测事件类型集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果,以及通过所述预定数量个基于事件触发词的事件论元抽取模型以及所述预测事件触发词集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果;
该处理模块204,还被配置为根据得到的多个所述第一事件抽取结果确定所述句子文本的事件抽取结果。
可选的,该训练模块202,还被配置为对于所述训练数据中的每一个句子文本:
对所述句子文本进行预处理,得到所述句子文本的特征表示向量;
将所述句子文本的特征表示向量输入至所述事件类型-事件触发词联合模型的输出层,得到所述输出层输出的所述句子文本属于各个事件类型的概率;
将所述句子文本的特征表示向量输入至条件随机场CRF层,得到所述CRF层输出的所述句子文本的标注之间的转移概率及似然概率;
根据所述句子文本属于各个事件类型的概率、所述句子文本的标注、所述句子文本的标注之间的转移概率及似然概率得到所述事件类型-事件触发词联合模型的损失函数;
根据所述损失函数训练所述事件类型-事件触发词联合模型。
可选的,该训练模块202,还被配置为在所述句子文本的句首添加起始字符,在所述句子文本的句末添加结束字符,得到添加字符后的句子文本;
将所述添加字符后的句子文本输入至所述事件类型-事件触发词联合模型,以通过所述事件类型-事件触发词联合模型对所述句子文本中每个字符进行语义学习,得到所述句子文本的表示向量;
对所述表示向量进行最大池化处理得到所述句子文本的所述特征表示向量。
可选的,所述损失函数的计算公式包括:
L=λLtype+(1-λ)Ltrigger
其中,λ为比例系数;Ltype为事件类型识别的损失函数,
Figure BDA0003451280670000291
T为所述训练样本中事件类型的种类的数量,yi为所述句子文本的事件类型i的标注结果,pi为所述句子文本属于事件类型i的概率;
Ltrigger为事件触发词识别的损失函数,
Figure BDA0003451280670000301
Figure BDA0003451280670000302
为所述句子文本的标注序列,
Figure BDA0003451280670000303
Figure BDA0003451280670000304
为所述句子文本中第n个字符的标注,
Figure BDA0003451280670000305
Figure BDA0003451280670000306
的可信度分数,
Figure BDA0003451280670000307
Figure BDA0003451280670000308
为所述句子文本中第j个字符对应的标注为
Figure BDA0003451280670000309
的似然概率,
Figure BDA00034512806700003010
为所述句子文本中从
Figure BDA00034512806700003011
Figure BDA00034512806700003012
的转移概率矩阵。
可选的,该识别模块203,被配置为对于所述验证样本中的每一个句子文本:
利用所述事件类型-事件触发词联合模型识别所述句子文本属于各个事件类型的概率;
筛选出大于第一阈值的所述概率所对应的事件类型,作为所述句子文本的预测事件类型;
利用所述事件类型-事件触发词联合模型得到所述句子文本的事件触发词的标注序列的可信度分数;
筛选出所述可信度分数最大的标注序列所对应的事件触发词,作为所述句子文本的预测事件触发词;
集合所述验证样本中的每一个句子文本的预测事件类型得到所述预测事件类型集合,集合所述验证样本中的每一个句子文本的预测事件触发词得到所述预测事件触发词集合。
可选的,该处理模块204,还被配置为将所述样本数据均分为预定数量份;
选择所述预定数量份中任意一份作为所述验证样本,剩下的样本数据作为所述训练样本。
可选的,该训练模块202,还被配置为扩展所述训练样本中句子文本的事件角色和事件论元的位置标注,得到扩展后的第一位置标注,以及扩展位置标注后的第一句子文本;所述第一位置标注包括:事件类型、事件角色和所述位置标注;
对于所述训练样本中的每一个所述第一句子文本:
获取所述第一句子文本的标准事件类型;
将所述标准事件类型与对应的所述第一句子文本形成的句对作为输入数据,利用所述基于事件类型的论元抽取模型的损失函数训练所述基于事件类型的论元抽取模型,得到所述预定数量个基于事件类型的论元抽取模型。
可选的,所述基于事件类型的论元抽取模型的损失函数的计算公式包括:
Figure BDA0003451280670000311
其中,
Figure BDA0003451280670000312
为所述第一句子文本的标注序列,
Figure BDA0003451280670000313
Figure BDA0003451280670000314
为所述第一句子文本中第n个字符的标注,
Figure BDA0003451280670000315
Figure BDA0003451280670000316
的可信度分数,
Figure BDA0003451280670000317
Figure BDA0003451280670000318
为所述第一句子文本中第j个字符对应的标注为
Figure BDA0003451280670000319
的似然概率,
Figure BDA00034512806700003110
为所述第一句子文本中从
Figure BDA00034512806700003111
Figure BDA00034512806700003112
的转移概率矩阵。
可选的,该训练模块202,还被配置为扩展所述训练样本中句子文本的事件角色和事件论元的位置标注,得到扩展位置标注后的第一位置标注,以及扩展位置标注后的第一句子文本;所述第一位置标注包括事件类型、事件角色和所述位置标注;
对于所述训练样本中的每一个所述第一句子文本:
通过BRET模型获取所述第一句子文本的标准事件触发词;
获取所述第一句子文本中每个字符到所述标准事件触发词的距离;
根据所述距离的得到表示标准事件触发词的距离特征的矩阵;
将所述矩阵与所述第一句子文本的表示向量级联起来,得到第二向量序列;
将所述第二向量序列输入至CRF层,根据所述基于事件触发词的论元抽取模型的损失函数进行训练,得到所述预定数量个基于事件触发词的论元抽取模型。
可选的,所述基于事件触发词的论元抽取模型的损失函数的计算公式包括:
Figure BDA0003451280670000321
其中,
Figure BDA0003451280670000322
为所述第一句子文本的标注序列,
Figure BDA0003451280670000323
Figure BDA0003451280670000324
为所述第一句子文本中第n个字符的标注,
Figure BDA0003451280670000325
Figure BDA0003451280670000326
的可信度分数,
Figure BDA0003451280670000327
Figure BDA0003451280670000328
为所述第一句子文本中第j个字符对应的标注为
Figure BDA0003451280670000329
的似然概率,
Figure BDA00034512806700003210
为所述第一句子文本中从
Figure BDA00034512806700003211
Figure BDA00034512806700003212
的转移概率矩阵。
可选的,该处理模块204还被配置为对所述验证样本中的每一个句子文本:
从所述预测事件类型集合中获取所述句子文本对应的预测事件类型;
将所述句子文本以及所述句子文本对应的预测事件类型输入至所述基于事件类型的事件论元抽取模型,得到可信度分数最高的标注序列;
根据所述可信度分数最高的标注序列的第二位置标注得到所述句子文本的第一事件类型;
当所述第一事件类型与所述句子文本对应的预测事件类型相同时,将所述第二位置标注对应的字符作为所述句子文本的事件论元;
将所述事件论元以及所述第二位置标注中的事件类型、事件角色作为所述句子文本的第一事件抽取结果。
可选的,该处理模块204还被配置为对所述验证样本中的每一个句子文本:
从所述预测事件触发词集合中获取所述句子文本对应的预测事件触发词;
根据所述句子文本对应的预测事件触发词得到所述句子文本中每个字符到所述预测事件触发词的距离;
根据所述距离构建距离向量矩阵;
将所述句子文本以及所述句子文本对应的距离向量矩阵输入至所述基于事件触发词的事件论元抽取模型,得到可信度分数最高的标注序列;
根据所述可信度分数最高的标注序列的第二位置标注得到所述句子文本的第一事件触发词;
当所述第一事件触发词与所述句子文本对应的预测事件触发词相同时,将所述第二位置标注对应的字符作为所述句子文本的事件论元;
将所述事件论元以及所述第二位置标注中的事件类型、事件角色作为所述句子文本的第一事件抽取结果。
可选的,该处理模块204还被配置为在所述多个第一事件抽取结果中确定出现的次数小于第三数量的第一事件抽取结果;
丢弃所述出现的次数小于第三数量的第一事件抽取结果,将剩余的第一事件抽取结果作为所述句子文本的事件抽取结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的事件抽取方法的步骤。
图9是本公开示例性实施例示出的一种用于事件抽取的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的事件抽取方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的事件抽取方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述的事件抽取方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的事件抽取方法的代码部分。
图10是根据一示例性实施例示出的一种用于事件抽取的装置1900的框图。例如,装置1900可以被提供为一服务器。参照图10,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述的事件抽取方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种事件抽取方法,其特征在于,包括:
获取样本数据;所述样本数据包括多个句子文本,所述多个句子文本的事件类型和事件触发词,所述多个句子文本的事件类型组成标准事件类型集合,所述多个句子文本的事件触发词组成标准事件触发词集合,所述样本数据分为训练样本和验证样本;
通过所述训练样本训练事件类型-事件触发词联合模型;所述事件类型-事件触发词联合模型用于识别句子文本中的事件类型和事件触发词;
利用所述事件类型-事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合;
通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型,以及通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型;
对于所述验证样本中的每一个句子文本,通过所述预定数量个基于事件类型的事件论元抽取模型以及所述预测事件类型集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果,以及通过所述预定数量个基于事件触发词的事件论元抽取模型以及所述预测事件触发词集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果;
根据得到的多个所述第一事件抽取结果确定所述句子文本的事件抽取结果。
2.根据权利要求1所述方法,其特征在于,所述样本数据中还包括所述多个句子文本的标注,所述通过所述训练样本训练事件类型-事件触发词联合模型的步骤包括:
对于所述训练样本中的每一个句子文本:
对所述句子文本进行预处理,得到所述句子文本的特征表示向量;
将所述句子文本的特征表示向量输入至所述事件类型-事件触发词联合模型的输出层,得到所述输出层输出的所述句子文本属于各个事件类型的概率;
将所述句子文本的特征表示向量输入至条件随机场CRF层,得到所述CRF层输出的所述句子文本的标注之间的转移概率及似然概率;
根据所述句子文本属于各个事件类型的概率、所述句子文本的标注、所述句子文本的标注之间的转移概率及似然概率得到所述事件类型-事件触发词联合模型的损失函数;
根据所述损失函数训练所述事件类型-事件触发词联合模型。
3.根据权利要求1所述方法,其特征在于,所述对所述句子文本进行预处理,得到所述句子文本的特征表示向量的步骤包括:
在所述句子文本的句首添加起始字符,在所述句子文本的句末添加结束字符,得到添加字符后的句子文本;
将所述添加字符后的句子文本输入至所述事件类型-事件触发词联合模型,以通过所述事件类型-事件触发词联合模型对所述句子文本中每个字符进行语义学习,得到所述句子文本的表示向量;
对所述表示向量进行最大池化处理得到所述句子文本的所述特征表示向量。
4.根据权利要求2所述方法,其特征在于,所述损失函数的计算公式包括:
L=λLtype+(1-λ)Ltrigger
其中,λ为比例系数;Ltype为事件类型识别的损失函数,
Figure FDA0003451280660000021
{1<=i<=T},T为所述训练样本中事件类型的种类的数量,yi为所述句子文本的事件类型i的标注结果,pi为所述句子文本属于事件类型i的概率;
Ltrigger为事件触发词识别的损失函数,
Figure FDA0003451280660000031
Figure FDA0003451280660000032
为所述句子文本的标注序列,
Figure FDA0003451280660000033
Figure FDA0003451280660000034
为所述句子文本中第n个字符的标注,
Figure FDA0003451280660000035
Figure FDA00034512806600000312
的可信度分数,
Figure FDA0003451280660000036
Figure FDA0003451280660000037
为所述句子文本中第j个字符对应的标注为
Figure FDA0003451280660000038
的似然概率,
Figure FDA0003451280660000039
为所述句子文本中从
Figure FDA00034512806600000310
Figure FDA00034512806600000311
的转移概率矩阵。
5.根据权利要求1所述方法,其特征在于,所述利用所述事件类型-事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合的步骤包括:
对于所述验证样本中的每一个句子文本:
利用所述事件类型-事件触发词联合模型识别所述句子文本属于各个事件类型的概率;
筛选出大于第一阈值的所述概率所对应的事件类型,作为所述句子文本的预测事件类型;
利用所述事件类型-事件触发词联合模型得到所述句子文本的事件触发词的标注序列的可信度分数;
筛选出所述可信度分数最大的标注序列所对应的事件触发词,作为所述句子文本的预测事件触发词;
集合所述验证样本中的每一个句子文本的预测事件类型得到所述预测事件类型集合,集合所述验证样本中的每一个句子文本的预测事件触发词得到所述预测事件触发词集合。
6.根据权利要求1所述方法,其特征在于,所述方法还包括:
将所述样本数据均分为预定数量份;
选择所述预定数量份中任意一份作为所述验证样本,剩下的样本数据作为所述训练样本。
7.根据权利要求6所述方法,其特征在于,所述通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型的步骤包括:
扩展所述训练样本中句子文本的事件角色和事件论元的位置标注,得到扩展后的第一位置标注,以及扩展位置标注后的第一句子文本;所述第一位置标注包括:事件类型、事件角色和所述位置标注;
对于所述训练样本中的每一个所述第一句子文本:
获取所述第一句子文本的标准事件类型;
将所述标准事件类型与对应的所述第一句子文本形成的句对作为输入数据,利用所述基于事件类型的论元抽取模型的损失函数训练所述基于事件类型的论元抽取模型,得到所述预定数量个基于事件类型的论元抽取模型。
8.根据权利要求7所述方法,其特征在于,
所述基于事件类型的论元抽取模型的损失函数的计算公式包括:
Figure FDA0003451280660000041
其中,
Figure FDA0003451280660000042
为所述第一句子文本的标注序列,
Figure FDA0003451280660000043
Figure FDA0003451280660000044
为所述第一句子文本中第n个字符的标注,
Figure FDA0003451280660000045
Figure FDA0003451280660000046
的可信度分数,
Figure FDA0003451280660000047
Figure FDA0003451280660000048
为所述第一句子文本中第j个字符对应的标注为
Figure FDA0003451280660000051
的似然概率,
Figure FDA0003451280660000052
为所述第一句子文本中从
Figure FDA0003451280660000053
Figure FDA0003451280660000054
的转移概率矩阵。
9.根据权利要求6所述方法,其特征在于,所述通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型的步骤包括:
扩展所述训练样本中句子文本的事件角色和事件论元的位置标注,得到扩展位置标注后的第一位置标注,以及扩展位置标注后的第一句子文本;所述第一位置标注包括事件类型、事件角色和所述位置标注;
对于所述训练样本中的每一个所述第一句子文本:
通过BRET模型获取所述第一句子文本的标准事件触发词;
获取所述第一句子文本中每个字符到所述标准事件触发词的距离;
根据所述距离的得到表示标准事件触发词的距离特征的矩阵;
将所述矩阵与所述第一句子文本的表示向量级联起来,得到第二向量序列;
将所述第二向量序列输入至CRF层,根据所述基于事件触发词的论元抽取模型的损失函数进行训练,得到所述预定数量个基于事件触发词的论元抽取模型。
10.根据权利要求9所述方法,其特征在于,
所述基于事件触发词的论元抽取模型的损失函数的计算公式包括:
Figure FDA0003451280660000055
其中,
Figure FDA0003451280660000056
为所述第一句子文本的标注序列,
Figure FDA0003451280660000057
Figure FDA0003451280660000058
为所述第一句子文本中第n个字符的标注,
Figure FDA0003451280660000059
Figure FDA00034512806600000510
的可信度分数,
Figure FDA00034512806600000511
为所述第一句子文本中第j个字符对应的标注为
Figure FDA0003451280660000061
的似然概率,
Figure FDA0003451280660000062
为所述第一句子文本中从
Figure FDA0003451280660000063
Figure FDA0003451280660000064
的转移概率矩阵。
11.根据权利要求7所述方法,其特征在于,
所述通过所述预定数量个基于事件类型的事件论元抽取模型以及所述预测事件类型集合对所述句子文本进行事件抽取,得到预定数量个第一事件抽取结果的步骤包括:
对所述验证样本中的每一个句子文本:
从所述预测事件类型集合中获取所述句子文本对应的预测事件类型;
将所述句子文本以及所述句子文本对应的预测事件类型输入至所述基于事件类型的事件论元抽取模型,得到可信度分数最高的标注序列;
根据所述可信度分数最高的标注序列的第二位置标注得到所述句子文本的第一事件类型;
当所述第一事件类型与所述句子文本对应的预测事件类型相同时,将所述第二位置标注对应的字符作为所述句子文本的事件论元;
将所述事件论元以及所述第二位置标注中的事件类型、事件角色作为所述句子文本的所述第一事件抽取结果。
12.根据权利要求9所述方法,其特征在于,
所述通过所述预定数量个基于事件触发词的事件论元抽取模型以及预测事件触发词集合对所述句子文本进行事件抽取,得到预定数量个第一事件抽取结果的步骤包括:
对所述验证样本中的每一个句子文本:
从所述预测事件触发词集合中获取所述句子文本对应的预测事件触发词;
根据所述句子文本对应的预测事件触发词得到所述句子文本中每个字符到所述预测事件触发词的距离;
根据所述距离构建距离向量矩阵;
将所述句子文本以及所述句子文本对应的距离向量矩阵输入至所述基于事件触发词的事件论元抽取模型,得到可信度分数最高的标注序列;
根据所述可信度分数最高的标注序列的第二位置标注得到所述句子文本的第一事件触发词;
当所述第一事件触发词与所述句子文本对应的预测事件触发词相同时,将所述第二位置标注对应的字符作为所述句子文本的事件论元;
将所述事件论元以及所述第二位置标注中的事件类型、事件角色作为所述句子文本的所述第一事件抽取结果。
13.根据权利要求1所述方法,其特征在于,所述根据得到的多个第一事件抽取结果确定所述句子文本的事件抽取结果,包括:
在所述多个第一事件抽取结果中确定出现的次数小于第三数量的第一事件抽取结果;
丢弃所述出现的次数小于第三数量的第一事件抽取结果,将剩余的第一事件抽取结果作为所述句子文本的事件抽取结果。
14.一种事件抽取装置,其特征在于,包括:
获取模块,被配置为获取样本数据;所述样本数据包括多个句子文本,所述多个句子文本的事件类型和事件触发词,所述多个句子文本的事件类型组成标准事件类型集合,所述多个句子文本的事件触发词组成标准事件触发词集合,所述样本数据分为训练样本和验证样本;
训练模块,被配置为通过所述训练样本训练事件类型-事件触发词联合模型;所述事件类型-事件触发词联合模型用于识别句子文本中的事件类型和事件触发词;
识别模块,被配置为利用所述事件类型-事件触发词联合模型识别所述验证样本得到预测事件类型集合和预测事件触发词集合;
所述训练模块,还被配置为通过所述训练样本及所述标准事件类型集合训练预定数量个基于事件类型的论元抽取模型,以及通过所述训练样本及所述标准事件触发词集合训练预定数量个基于事件触发词的事件论元抽取模型;
处理模块,被配置为对于所述验证样本中的每一个句子文本,通过所述预定数量个基于事件类型的事件论元抽取模型以及所述预测事件类型集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果,以及通过所述预定数量个基于事件触发词的事件论元抽取模型以及所述预测事件触发词集合对所述句子文本进行事件抽取,得到所述预定数量个第一事件抽取结果;
所述处理模块,还被配置为根据得到的多个所述第一事件抽取结果确定所述句子文本的事件抽取结果。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令实现权利要求1~13中任一项所述方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1~13中任一项所述方法的步骤。
CN202111666534.4A 2021-12-31 2021-12-31 事件抽取方法、装置、电子设备及可读存储介质 Pending CN114328838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111666534.4A CN114328838A (zh) 2021-12-31 2021-12-31 事件抽取方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111666534.4A CN114328838A (zh) 2021-12-31 2021-12-31 事件抽取方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114328838A true CN114328838A (zh) 2022-04-12

Family

ID=81020452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111666534.4A Pending CN114328838A (zh) 2021-12-31 2021-12-31 事件抽取方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114328838A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936563A (zh) * 2022-04-27 2022-08-23 苏州大学 一种事件抽取方法、装置及存储介质
CN115982339A (zh) * 2023-03-15 2023-04-18 上海蜜度信息技术有限公司 突发事件抽取方法、系统、介质、电子设备
CN116049345A (zh) * 2023-03-31 2023-05-02 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及系统
CN116205220A (zh) * 2023-04-23 2023-06-02 北京邮电大学 一种触发词和论元的抽取方法、系统、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936563A (zh) * 2022-04-27 2022-08-23 苏州大学 一种事件抽取方法、装置及存储介质
CN115982339A (zh) * 2023-03-15 2023-04-18 上海蜜度信息技术有限公司 突发事件抽取方法、系统、介质、电子设备
CN116049345A (zh) * 2023-03-31 2023-05-02 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及系统
CN116049345B (zh) * 2023-03-31 2023-10-10 江西财经大学 基于双向事件完全图的文档级事件联合抽取方法及系统
CN116205220A (zh) * 2023-04-23 2023-06-02 北京邮电大学 一种触发词和论元的抽取方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
US11500917B2 (en) Providing a summary of a multimedia document in a session
US10402703B2 (en) Training image-recognition systems using a joint embedding model on online social networks
US11062270B2 (en) Generating enriched action items
US11315546B2 (en) Computerized system and method for formatted transcription of multimedia content
US20190103111A1 (en) Natural Language Processing Systems and Methods
CN110580290A (zh) 用于文本分类的训练集的优化方法及装置
US10083379B2 (en) Training image-recognition systems based on search queries on online social networks
CN114328838A (zh) 事件抽取方法、装置、电子设备及可读存储介质
US20170154104A1 (en) Real-time recommendation of reference documents
CN107851092A (zh) 个人实体建模
CN110069624B (zh) 文本处理方法及装置
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
CN108345625B (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN111651586A (zh) 文本分类的规则模板生成方法、分类方法及装置、介质
CN113849723A (zh) 搜索方法及搜索装置
CN113688231A (zh) 一种答案文本的摘要提取方法及装置、电子设备及介质
CN117708428A (zh) 推荐信息预测方法、装置以及电子设备
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN111832297A (zh) 词性标注方法、装置及计算机可读存储介质
CN115730073A (zh) 文本处理方法、装置及存储介质
CN113609380B (zh) 标签体系更新方法、搜索方法、装置以及电子设备
CN115718801A (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN115017324A (zh) 实体关系抽取方法、装置、终端及存储介质
CN110362686B (zh) 一种词库的生成方法、装置、终端设备和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination