CN111339311A - 基于生成式网络抽取结构化事件的方法、装置与处理器 - Google Patents

基于生成式网络抽取结构化事件的方法、装置与处理器 Download PDF

Info

Publication number
CN111339311A
CN111339311A CN201911399203.1A CN201911399203A CN111339311A CN 111339311 A CN111339311 A CN 111339311A CN 201911399203 A CN201911399203 A CN 201911399203A CN 111339311 A CN111339311 A CN 111339311A
Authority
CN
China
Prior art keywords
event
model
data
training
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911399203.1A
Other languages
English (en)
Inventor
刘粉香
贠瑞峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Internetware Ltd
Original Assignee
Smart Shenzhou Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Shenzhou Beijing Technology Co ltd filed Critical Smart Shenzhou Beijing Technology Co ltd
Priority to CN201911399203.1A priority Critical patent/CN111339311A/zh
Publication of CN111339311A publication Critical patent/CN111339311A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种基于生成式网络抽取结构化事件的方法、装置、存储介质与处理器。该方法包括:从已有事件知识图谱中获取原始数据,原始数据包括事件的结构化数据和事件的原始文本;利用原始数据构建训练数据,训练数据包括序列标注标签和生成模型标签;将训练数据输入至编码‑解码架构进行训练,获取事件抽取模型;对事件抽取模型的输出进行预定处理;根据预定处理结果抽取事件。提高了事件抽取方法的准确率,解决了现有技术中结构化事件抽取的方法准确率较低的问题。

Description

基于生成式网络抽取结构化事件的方法、装置与处理器
技术领域
本申请涉及知识图谱领域,具体而言,涉及一种基于生成式网络抽取结构化事件的方法、装置、存储介质与处理器。
背景技术
事件知识图谱仍处于发展阶段,目前仍然需要解决大量技术问题,其中事件抽取是知识图谱构建的重要基础,也是难点之一。事件在知识图谱中数据表现方式分为结构化数据和非结构化数据。事件的非结构化数据包含的属性一般为事件主题名称、事件时间、主体、客体等等,除了主题名称,并不要求每个属性必须有属性值,而且也可能有属性的属性(比如,主体有自己的属性)。事件的结构化数据包含的属性一般为事件类型、触发词、论元、角色;例如,句子“在Baghdad,当一个某国坦克对着Palestine酒店开火时一个摄影师死去了”,它包含两个事件,可以描述为如表1的形式。
表1
Figure RE-GDA0002486044390000011
目前高度自动化的结构化事件抽取主要的技术手段是流水线作业形式:1、使用序列标注模型完成触发词和事件类型识别任务;2、将得到的一组触发词和事件类型结果与原始句子一起输入另一个序列标注模型,完成论元和角色识别任务。这种流水线形式使得两个任务之间是制约关系,导致最终事件抽取结果准确率较低,比如,任务1模型的准确率是80%,任务2模型的准确率是80%,那么整个系统的准确率就是64%。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种基于生成式网络抽取结构化事件的方法、装置、存储介质与处理器,以解决现有技术中结构化事件抽取的方法准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于生成式网络抽取结构化事件的方法,包括:从已有事件知识图谱中获取原始数据,所述原始数据包括事件的结构化数据和事件的原始文本;利用所述原始数据构建训练数据,所述训练数据包括序列标注标签和生成模型标签;将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;对所述事件抽取模型的输出进行预定处理;根据所述预定处理结果抽取事件。
进一步地,所述事件的结构化数据包括事件类型、触发词、论元以及角色。
进一步地,所述事件抽取模型为多任务事件抽取模型,所述多任务事件抽取模型包括生成任务和序列标注任务,所述生成任务和所述序列标注任务的输入相同,所述序列标注任务用于训练所述事件类型和所述触发词的识别,所述生成任务用于输出所述事件的结构化数据的所有信息。
进一步地,利用所述原始数据构建所述序列标注标签,包括:对所述原始文本进行分词处理;根据所述分词处理后的所述原始文本,采用标记法对相应的触发词进行标记,得到所述序列标注标签。
进一步地,利用所述原始数据构建所述生成模型标签,包括:将事件的所述结构化数据转化为生成任务标签;通过编码将所述生成任务标签转化为所述生成模型标签。
进一步地,将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,包括:将所述序列标注标签和所述生成模型标签输入至编码-解码架构进行训练,获取所述事件抽取模型。
进一步地,对所述事件抽取模型的输出进行预定处理,包括:对所述事件抽取模型的输出进行掩膜处理;根据所述预定处理结果抽取事件,包括:根据所述掩膜处理的结果抽取事件。
根据本申请的另一方面,提供了一种基于生成式网络抽取结构化事件的装置,包括:第一获取单元,用于从已有事件知识图谱中获取原始数据,所述原始数据包括事件的结构化数据和事件的原始文本;构建单元,用于利用所述原始数据构建训练数据,所述训练数据包括序列标注标签和生成模型标签;第二获取单元,将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;处理单元,用于对所述事件抽取模型的输出进行预定处理;抽取单元,用于根据所述预定处理结果抽取事件。
根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行任意一种所述的方法。
根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一种所述的方法。
应用本申请的技术方案,上述方案中,首先,从已有事件知识图谱中获取原始数据,所述原始数据包括事件的结构化数据和事件的原始文本,之后,利用所述原始数据构建训练数据,所述训练数据包括序列标注标签和生成模型标签,之后,将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,之后,对所述事件抽取模型的输出进行预定处理,最后,根据所述预定处理结果抽取事件。通过对序列标注标签和生成模型标签进行训练,获取事件抽取模型,再对事件抽取模型的输出进行预定处理,根据预定处理的结果抽取事件,相对于现有技术而言,本方法将序列标注标签和生成模型标签一起进行训练,训练过程综合了两种数据信息,两者之间没有相互制约的关系,而是相辅相成的关系,并且根据这两种数据生成的事件抽取模型更加准确且全面,提高了事件抽取方法的准确率,解决了现有技术中结构化事件抽取的方法准确率较低的问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的实施例的一种基于生成式网络抽取结构化事件的方法流程图;以及
图2示出了根据本申请的实施例的一种基于生成式网络抽取结构化事件的装置示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
集束搜索:(Beam Search)是一种启发式图搜索算法,通常用在图的解空间比较大的情况下,为了减少搜索所需要的时间和空间,在每一步深度扩展的时候,减掉一些质量比较差的结点,保留下一些质量较高的结点,这样减少了空间消耗,并提高了时间效率,但缺点是有可能存在潜在的最佳方案别丢弃。
MASK:掩膜,全称单片机掩膜,是指程序数据已经做成光刻板,在单片机生成过程中把程序做进去,程序可靠且成本低,但是批量要求大,每次修改程序就需要重新做光刻板,不同程序不能同时生产,供货周期长。
正如背景技术中所介绍的,现有技术中高度自动化的结构化事件抽取主要的技术手段是流水线作业形式,事件抽取结果准确率不高,为解决结构化事件抽取的方法准确率较低的问题,本申请的一种典型的实施例提供了一种基于生成式网络抽取结构化事件的方法、装置、存储介质与处理器。
根据本申请的实施例,提供了一种基于生成式网络抽取结构化事件的方法。图1是根据本申请实施例的基于生成式网络抽取结构化事件的方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,从已有事件知识图谱中获取原始数据,上述原始数据包括事件的结构化数据和事件的原始文本;
步骤S102,利用上述原始数据构建训练数据,上述训练数据包括序列标注标签和生成模型标签;
步骤S103,将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;
步骤S104,对上述事件抽取模型的输出进行预定处理;
步骤S105,根据上述预定处理结果抽取事件。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
上述方案中,首先,从已有事件知识图谱中获取原始数据,上述原始数据包括事件的结构化数据和事件的原始文本,之后,利用上述原始数据构建训练数据,上述训练数据包括序列标注标签和生成模型标签,之后,将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,之后,对上述事件抽取模型的输出进行预定处理,最后,根据上述预定处理结果抽取事件。通过对序列标注标签和生成模型标签进行训练,获取事件抽取模型,再对事件抽取模型的输出进行预定处理,根据预定处理的结果抽取事件,相对于现有技术而言,本方法将序列标注标签和生成模型标签一起进行训练,训练过程综合了两种数据信息,两者之间没有相互制约的关系,而是相辅相成的关系,并且根据这两种数据生成的事件抽取模型更加准确且全面,提高了事件抽取方法的准确率,解决了现有技术中结构化事件抽取的方法准确率较低的问题。
本申请的一种实施例中,上述事件的结构化数据包括事件类型、触发词、论元以及角色。在事件的结构化数据中,事件类型的个数和种类是确定的,角色的个数和种类也是确定的,触发词和论元的值是不确定的。例如:原始文本:在Baghdad,当一个某国坦克对着Palestine 酒店开火时,一个摄影师死去了。事件结构化数据为:{{类型:死亡},{触发词:死去},{论元:[摄影师,某国坦克,Baghdad]},{角色:[受害者,工具,地点]}}。
本申请的一种实施例中,上述事件抽取模型为多任务事件抽取模型,上述多任务事件抽取模型包括生成任务和序列标注任务,上述生成任务和上述序列标注任务的输入相同,上述序列标注任务用于训练上述事件类型和上述触发词的识别,上述生成任务用于输出上述事件的结构化数据的所有信息。提取的模型是多任务训练模型,一个任务是生成,一个任务是序列标注,这两个任务的有相同的输入,但有不同的标签。序列标注任务作为辅助任务,训练事件类型和触发词的识别,生成任务则输出所有信息(事件类型、触发词、论元、角色),这样就可以完成两个任务,两个任务的关系是相辅相成的,提高了后续事件抽取结果的准确率。
本申请的一种实施例中,利用上述原始数据构建上述序列标注标签,包括:对上述原始文本进行分词处理,根据上述分词处理后的上述原始文本,采用标记法对相应的触发词进行标记,得到上述序列标注标签。对原始文本进行分词处理,然后转换为字典编码,字典编码即为网络的输入,举例如下:
原始文本:在Baghdad,当一个某国坦克对着Palestine酒店开火时,一个摄影师死去了。
分词:在\Baghdad\,\当\一个\某国\坦克\对着\Palestine\酒店\开火\时\,\一个 \摄影师\死\去\了\。
字典编码:430 7765 10 3232 859 9012 349 821 901 384 6569 211 10 8599123 1093 5229 13854 3451
在分词的基础上,给相应的触发词用BIO标记法标记事件类型。举例如下:
分词:在\Baghdad\,\当\一个\某国\坦克\对着\Palestine\酒店\开火\时\,\一个 \摄影师\死\去\了\。
Figure RE-GDA0002486044390000051
其中,“开火”标记为7,“死”标记为3,“去”标记为4,这里7代表事件类型“O-攻击”的编号,3代表“B-死亡”的编号,4代表“I-死亡”的编号,这样就能对原始文本进行分词处理并对词进行标记,后续可以更加高效地生成模型,从而使得结构化事件抽取的方法准确率更高。
本申请的另一种实施例中,利用上述原始数据构建上述生成模型标签,包括:将事件的上述结构化数据转化为生成任务标签,通过编码将上述生成任务标签转化为上述生成模型标签。将事件的结构化数据,转为生成任务标签,标签形式为:
Figure RE-GDA0002486044390000061
其中,K为角色类型的个数。触发词以及论元1~论元K的长度均设定为固定长度L(比如L=4),长度不足用<pad>标记补足,事件类型以及角色1~角色K长度为1,<seg>是分割符号长度为1。具体举例如下:
假设,角色类型={受害者,工具,地点,目标,出发点},编号分别为{5,6,7,8,9},L=4,事件类型={NULL,死亡,攻击,捐助},编号分别为{10,11,12,13},其中NULL表示这句话没有事件,<pad>编号为0,<seg>编号为4,<bos>编号为1,表示序列开始,<eos>编号为2,表示序列结尾。
事件是结构化数据为:
{{类型:死亡},{触发词:死去},{论元:[摄影师,某国坦克,Baghdad]},{角色:[受害者,工具,地点]}}。
Decode训练输入:
[<bos>\死亡\死\去\<pad>\<pad>\
<seg>\受害者\摄影师\<pad>\<pad>\<pad>\
<seg>\工具\某国\坦克\<pad>\<pad>\
<seg>\地点\Baghdad\<pad>\<pad>\<pad>\
<seg>\目标\<pad>\<pad>\<pad>\<pad>\
<seg>\出发点\<pad>\<pad>\<pad>\<pad>]
转为Decode训练输入编号:
Figure RE-GDA0002486044390000071
生成模型标签:
[死亡\死\去\<pad>\<pad>\
<seg>\受害者\摄影师\<pad>\<pad>\<pad>\
<seg>\工具\某国\坦克\<pad>\<pad>\
<seg>\地点\Baghdad\<pad>\<pad>\<pad>\
<seg>\目标\<pad>\<pad>\<pad>\<pad>\
<seg>\出发点\<pad>\<pad>\<pad>\<pad>
<eos>]
转为生成模型标签编号:
Figure RE-GDA0002486044390000072
这样就可生成所需要的模型标签,后续可以根据生成的模型标签进行训练。
本申请的再一种实施例中,将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,包括:将上述序列标注标签和上述生成模型标签输入至编码-解码架构进行训练,获取上述事件抽取模型。使用的模型基于编码-解码(Encode-Decode)架构(当前有很多现成算法,比如transformer,bert等),在现有算法的基础上做一些修改,把生成模型,变成带序列标注的多任务模型。这里序列标注任务是生成任务的辅助,序列标注任务加强了模型编码部分(Encode)对事件类型和触发词特征提取的效果。序列标注和生成模型两个任务同时进行训练。 Encode的输入为字典编码,基于Encode的输出logits,增加一个分类层,用于序列标注,标签为序列标注标签。Encode端输入与序列标注相同,即字典编码。Decode端的输入为Encode 输出的logits,以及的Decode训练输入,标签为生成模型标签。这样就可以更加高效地进行后续的模型预测。
本申请的又一种实施例中,对上述事件抽取模型的输出进行预定处理,包括:对上述事件抽取模型的输出进行掩膜处理,根据上述预定处理结果抽取事件,包括:根据上述掩膜处理的结果抽取事件。根据生成模型的编号,我们可以看出,生成模型输出的序列长度必为36,而且,在第一个位置上,模型从字典中的选择必须只有事件类型(在训练过程中不保证这一点,但在预测过程中,必须保证在这个位置上,模型的输出只能是从事件类型中选择),在第 6、12、18、24、30位置上,模型选择只有<seg>,在第7、13、19、25、31位置上,必须保证模型的选择是角色类型。
为了控制在特定位置上的模型输出,本发明在beam-search阶段使用mask方法控制模型在字典中的搜索范围。使用例子举例,在第6个位置上,模型Decode端的输出logits为O= (0.0012,0,0003,...,-0.00984)v,中,v为字典的大小。在第6个位置上,模型必须从角色类型中选取,即输出向量O的第5、6、7、8、9位置上的概率应该远远大于其他位置上概率。构造角色Player_Mask=(10e-10,...,0,0,0,0,0,10e10,...,10e10)v,,即构造一个v维的向量,除了第5、6、7、8、9位置上为0,其他位置上都是1010,然后更新O,O=O-Player_Mask,用更新后的O做beam_search,那么模型输出基本上就被限制从第5、6、7、8、9中选择。同理构造事件类型和<seg>的Mask,其他不需要限制的位置不做处理或Mask=0即可。这样就可以对模型进行更准确的预测,并根据预测的结果抽取所需要的事件。本申请实施例还提供了一种基于生成式网络抽取结构化事件的装置,需要说明的是,本申请实施例的基于生成式网络抽取结构化事件的装置可以用于执行本申请实施例所提供的用于基于生成式网络抽取结构化事件的方法。以下对本申请实施例提供的装置进行介绍。
图2是根据本申请实施例的基于生成式网络抽取结构化事件的装置的示意图。如图2所示,该装置包括:
第一获取单元10,用于从已有事件知识图谱中获取原始数据,上述原始数据包括事件的结构化数据和事件的原始文本;
构建单元20,用于利用上述原始数据构建训练数据,上述训练数据包括序列标注标签和生成模型标签;
第二获取单元30,将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;
处理单元40,用于对上述事件抽取模型的输出进行预定处理;
抽取单元50,用于根据上述预定处理结果抽取事件。
上述的装置中,第一获取单元从已有事件知识图谱中获取原始数据,上述原始数据包括事件的结构化数据和事件的原始文本,构建单元利用上述原始数据构建训练数据,上述训练数据包括序列标注标签和生成模型标签,第二获取单元将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,处理单元对上述事件抽取模型的输出进行预定处理,抽取单元根据上述预定处理结果抽取事件。通过对序列标注标签和生成模型标签进行训练,获取事件抽取模型,再对事件抽取模型的输出进行预定处理,根据预定处理的结果抽取事件,相对于现有技术而言,将序列标注标签和生成模型标签一起进行训练,训练过程综合了两种数据信息,两者之间没有相互制约的关系,而是相辅相成的关系,并且根据这两种数据生成的事件抽取模型更加准确且全面,提高了事件抽取装置的准确率,解决了现有技术中结构化事件抽取的方法准确率较低的问题。
本申请的一种实施例中,上述事件的结构化数据包括事件类型、触发词、论元以及角色。在事件的结构化数据中,事件类型的个数和种类是确定的,角色的个数和种类也是确定的,触发词和论元的值是不确定的。例如:原始文本:在Baghdad,当一个某国坦克对着Palestine 酒店开火时,一个摄影师死去了。事件结构化数据为:{{类型:死亡},{触发词:死去},{论元:[摄影师,某国坦克,Baghdad]},{角色:[受害者,工具,地点]}}。
本申请的一种实施例中,上述事件抽取模型为多任务事件抽取模型,上述多任务事件抽取模型包括生成任务和序列标注任务,上述生成任务和上述序列标注任务的输入相同,上述序列标注任务用于训练上述事件类型和上述触发词的识别,上述生成任务用于输出上述事件的结构化数据的所有信息。提取的模型是多任务训练模型,一个任务是生成,一个任务是序列标注,这两个任务的有相同的输入,但有不同的标签。序列标注任务作为辅助任务,训练事件类型和触发词的识别,生成任务则输出所有信息(事件类型、触发词、论元、角色),这样就可以完成两个任务,两个任务的关系是相辅相成的,提高了后续事件抽取结果的准确率。
本申请的一种实施例中,构建单元包括分词模块和标记模块,分词模块用于对上述原始文本进行分词处理,标记模块用于根据上述分词处理后的上述原始文本,采用标记法对相应的触发词进行标记,得到上述序列标注标签。对原始文本进行分词处理,然后转换为字典编码,字典编码即为网络的输入,举例如下:
原始文本:在Baghdad,当一个某国坦克对着Palestine酒店开火时,一个摄影师死去了。
分词:在\Baghdad\,\当\一个\某国\坦克\对着\Palestine\酒店\开火\时\,\一个 \摄影师\死\去\了\。
字典编码:430 7765 10 3232 859 9012 349 821 901 384 6569 211 10 8599123 1093 5229 13854 3451。
在分词的基础上,给相应的触发词用BIO标记法标记事件类型。举例如下:
分词:在\Baghdad\,\当\一个\某国\坦克\对着\Palestine\酒店\开火\时\,\一个 \摄影师\死\去\了\。
Figure RE-GDA0002486044390000101
其中,“开火”标记为7,“死”标记为3,“去”标记为4,这里7代表事件类型“O-攻击”的编号,3代表“B-死亡”的编号,4代表“I-死亡”的编号,这样就能对原始文本进行分词处理并对词进行标记,后续可以更加高效地生成模型,从而使得结构化事件抽取的装置准确率更高。
本申请的另一种实施例中,构建单元包括生成模块和转化模块,生成模块用于,转化模块用于将事件的上述结构化数据转化为生成任务标签,通过编码将上述生成任务标签转化为上述生成模型标签。将事件的结构化数据,转为生成任务标签,标签形式为
Figure RE-GDA0002486044390000102
其中K为角色类型的个数。触发词以及论元1~论元K的长度均设定为固定长度L(比如 L=4),长度不足用<pad>标记补足,事件类型以及角色1~角色K长度为1,<seg>是分割符号长度为1。具体举例如下:
假设,角色类型={受害者,工具,地点,目标,出发点},编号分别为{5,6,7,8,9},L=4,事件类型={NULL,死亡,攻击,捐助},编号分别为{10,11,12,13},其中NULL表示这句话没有事件,<pad>编号为0,<seg>编号为4,<bos>编号为1,表示序列开始,<eos>编号为2,表示序列结尾。
事件是结构化数据为:
{{类型:死亡},{触发词:死去},{论元:[摄影师,某国坦克,Baghdad]},{角色:[受害者,工具,地点]}}
Decode训练输入:
[<bos>\死亡\死\去\<pad>\<pad>\
<seg>\受害者\摄影师\<pad>\<pad>\<pad>\
<seg>\工具\某国\坦克\<pad>\<pad>\
<seg>\地点\Baghdad\<pad>\<pad>\<pad>\
<seg>\目标\<pad>\<pad>\<pad>\<pad>\
<seg>\出发点\<pad>\<pad>\<pad>\<pad>]
转为Decode训练输入编号:
Figure RE-GDA0002486044390000111
生成模型标签:
[死亡\死\去\<pad>\<pad>\
<seg>\受害者\摄影师\<pad>\<pad>\<pad>\
<seg>\工具\某国\坦克\<pad>\<pad>\
<seg>\地点\Baghdad\<pad>\<pad>\<pad>\
<seg>\目标\<pad>\<pad>\<pad>\<pad>\
<seg>\出发点\<pad>\<pad>\<pad>\<pad>
<eos>]
转为生成模型标签编号:
Figure RE-GDA0002486044390000112
这样就可生成所需要的模型标签,后续可以根据生成的模型标签进行训练。
本申请的再一种实施例中,第二获取单元包括获取模块,用于将上述序列标注标签和上述生成模型标签输入至编码-解码架构进行训练,获取上述事件抽取模型。使用的模型基于编码- 解码(Encode-Decode)架构(当前有很多现成算法,比如transformer,bert等),在现有算法的基础上做一些修改,把生成模型,变成带序列标注的多任务模型。这里序列标注任务是生成任务的辅助,序列标注任务加强了模型编码部分(Encode)对事件类型和触发词特征提取的效果。序列标注和生成模型两个任务同时进行训练。Encode的输入为字典编码,基于Encode的输出logits,增加一个分类层,用于序列标注,标签为序列标注标签。Encode端输入与序列标注相同,即字典编码。Decode端的输入为Encode输出的logits,以及的Decode训练输入,标签为生成模型标签。这样就可以更加高效地进行后续的模型预测。
本申请的又一种实施例中,处理单元包括处理模块,抽取单元包括抽取模块,处理模块用于对上述事件抽取模型的输出进行掩膜处理,抽取模块用于根据上述掩膜处理的结果抽取事件。根据生成模型的编号,我们可以看出,生成模型输出的序列长度必为36,而且,在第一个位置上,模型从字典中的选择必须只有事件类型(在训练过程中不保证这一点,但在预测过程中,必须保证在这个位置上,模型的输出只能是从事件类型中选择),在第6、12、18、 24、30位置上,模型选择只有<seg>,在第7、13、19、25、31位置上,必须保证模型的选择是角色类型。
为了控制在特定位置上的模型输出,本发明在beam-search阶段使用mask方法控制模型在字典中的搜索范围。使用例子举例,在第6个位置上,模型Decode端的输出logits为O= (0.0012,0,0003,...,-0.00984)v,中,v为字典的大小。在第6个位置上,模型必须从角色类型中选取,即输出向量O的第5、6、7、8、9位置上的概率应该远远大于其他位置上概率。构造角色Player_Mask=(10e-10,...,0,0,0,0,0,10e10,...,10e10)v,,即构造一个v维的向量,除了第5、6、7、8、9位置上为0,其他位置上都是1010,然后更新O,O=O-Player_Mask,用更新后的O做beam_search,那么模型输出基本上就被限制从第5、6、7、8、9中选择。同理构造事件类型和<seg>的Mask,其他不需要限制的位置不做处理或Mask=0即可。这样就可以对模型进行更准确的预测,并根据预测的结果抽取所需要的事件。
上述基于生成式网络抽取结构化事件的装置包括处理器和存储器,上述第一获取单元,构建单元,第二获取单元,处理单元和抽取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高结构化事件抽取的方法的准确率
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述基于生成式网络抽取结构化事件的方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述基于生成式网络抽取结构化事件的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
步骤S101,从已有事件知识图谱中获取原始数据,上述原始数据包括事件的结构化数据和事件的原始文本;
步骤S102,利用上述原始数据构建训练数据,上述训练数据包括序列标注标签和生成模型标签;
步骤S103,将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;
步骤S104,对上述事件抽取模型的输出进行预定处理;
步骤S105,根据上述预定处理结果抽取事件。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
步骤S101,从已有事件知识图谱中获取原始数据,上述原始数据包括事件的结构化数据和事件的原始文本;
步骤S102,利用上述原始数据构建训练数据,上述训练数据包括序列标注标签和生成模型标签;
步骤S103,将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;
步骤S104,对上述事件抽取模型的输出进行预定处理;
步骤S105,根据上述预定处理结果抽取事件。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的基于生成式网络抽取结构化事件的方法,首先,从已有事件知识图谱中获取原始数据,上述原始数据包括事件的结构化数据和事件的原始文本,之后,利用上述原始数据构建训练数据,上述训练数据包括序列标注标签和生成模型标签,之后,将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,之后,对上述事件抽取模型的输出进行预定处理,最后,根据上述预定处理结果抽取事件。通过对序列标注标签和生成模型标签进行训练,获取事件抽取模型,再对事件抽取模型的输出进行预定处理,根据预定处理的结果抽取事件,相对于现有技术而言,本方法将序列标注标签和生成模型标签一起进行训练,训练过程综合了两种数据信息,两者之间没有相互制约的关系,而是相辅相成的关系,并且根据这两种数据生成的事件抽取模型更加准确且全面,提高了事件抽取方法的准确率,解决了现有技术中结构化事件抽取的方法准确率较低的问题。
2)、本申请的基于生成式网络抽取结构化事件的装置,第一获取单元从已有事件知识图谱中获取原始数据,上述原始数据包括事件的结构化数据和事件的原始文本,构建单元利用上述原始数据构建训练数据,上述训练数据包括序列标注标签和生成模型标签,第二获取单元将上述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,处理单元对上述事件抽取模型的输出进行预定处理,抽取单元根据上述预定处理结果抽取事件。通过对序列标注标签和生成模型标签进行训练,获取事件抽取模型,再对事件抽取模型的输出进行预定处理,根据预定处理的结果抽取事件,相对于现有技术而言,将序列标注标签和生成模型标签一起进行训练,训练过程综合了两种数据信息,两者之间没有相互制约的关系,而是相辅相成的关系,并且根据这两种数据生成的事件抽取模型更加准确且全面,提高了事件抽取装置的准确率,解决了现有技术中结构化事件抽取的方法准确率较低的问题。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于生成式网络抽取结构化事件的方法,其特征在于,包括:
从已有事件知识图谱中获取原始数据,所述原始数据包括事件的结构化数据和事件的原始文本;
利用所述原始数据构建训练数据,所述训练数据包括序列标注标签和生成模型标签;
将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;
对所述事件抽取模型的输出进行预定处理;
根据所述预定处理结果抽取事件。
2.根据权利要求1所述的方法,其特征在于,所述事件的结构化数据包括事件类型、触发词、论元以及角色。
3.根据权利要求2所述的方法,其特征在于,所述事件抽取模型为多任务事件抽取模型,所述多任务事件抽取模型包括生成任务和序列标注任务,所述生成任务和所述序列标注任务的输入相同,所述序列标注任务用于训练所述事件类型和所述触发词的识别,所述生成任务用于输出所述事件的结构化数据的所有信息。
4.根据权利要求2所述的方法,其特征在于,利用所述原始数据构建所述序列标注标签,包括:
对所述原始文本进行分词处理;
根据所述分词处理后的所述原始文本,采用标记法对相应的触发词进行标记,得到所述序列标注标签。
5.根据权利要求1所述的方法,其特征在于,利用所述原始数据构建所述生成模型标签,包括:
将事件的所述结构化数据转化为生成任务标签;
通过编码将所述生成任务标签转化为所述生成模型标签。
6.根据权利要求1所述的方法,其特征在于,将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型,包括:
将所述序列标注标签和所述生成模型标签输入至编码-解码架构进行训练,获取所述事件抽取模型。
7.根据权利要求1所述的方法,其特征在于,
对所述事件抽取模型的输出进行预定处理,包括:对所述事件抽取模型的输出进行掩膜处理;
根据所述预定处理结果抽取事件,包括:根据所述掩膜处理的结果抽取事件。
8.一种基于生成式网络抽取结构化事件的装置,其特征在于,包括:
第一获取单元,用于从已有事件知识图谱中获取原始数据,所述原始数据包括事件的结构化数据和事件的原始文本;
构建单元,用于利用所述原始数据构建训练数据,所述训练数据包括序列标注标签和生成模型标签;
第二获取单元,将所述训练数据输入至编码-解码架构进行训练,获取事件抽取模型;
处理单元,用于对所述事件抽取模型的输出进行预定处理;
抽取单元,用于根据所述预定处理结果抽取事件。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至7中任意一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的方法。
CN201911399203.1A 2019-12-30 2019-12-30 基于生成式网络抽取结构化事件的方法、装置与处理器 Pending CN111339311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911399203.1A CN111339311A (zh) 2019-12-30 2019-12-30 基于生成式网络抽取结构化事件的方法、装置与处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911399203.1A CN111339311A (zh) 2019-12-30 2019-12-30 基于生成式网络抽取结构化事件的方法、装置与处理器

Publications (1)

Publication Number Publication Date
CN111339311A true CN111339311A (zh) 2020-06-26

Family

ID=71183524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911399203.1A Pending CN111339311A (zh) 2019-12-30 2019-12-30 基于生成式网络抽取结构化事件的方法、装置与处理器

Country Status (1)

Country Link
CN (1) CN111339311A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269901A (zh) * 2020-09-14 2021-01-26 合肥中科类脑智能技术有限公司 一种基于知识图谱的故障判别推理方法
CN113342935A (zh) * 2021-06-04 2021-09-03 北京捷通华声科技股份有限公司 语义识别方法、装置、电子设备及可读存储介质
CN113609244A (zh) * 2021-06-08 2021-11-05 中国科学院软件研究所 一种基于可控生成的结构化记录抽取方法和装置
CN114662481A (zh) * 2020-12-23 2022-06-24 中移(苏州)软件技术有限公司 事件抽取方法、事件抽取网络的训练方法及装置
CN114723527A (zh) * 2022-04-08 2022-07-08 中国银行股份有限公司 一种产品推荐方法、系统、电子设备及存储介质
CN115525776A (zh) * 2022-10-31 2022-12-27 中国电信股份有限公司 事件抽取模型训练方法、事件抽取方法以及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN109190098A (zh) * 2018-08-15 2019-01-11 上海唯识律简信息科技有限公司 一种基于自然语言处理的文档自动生成方法和系统
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110135457A (zh) * 2019-04-11 2019-08-16 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张阳;王佳贺;魏凡翔;魏松杰;: "基于知识图谱的网络安全数据组织方法" *
王学锋;杨若鹏;李雯;: "基于深度学习的作战文书事件抽取方法" *
项威;王邦;: "中文事件抽取研究综述" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269901A (zh) * 2020-09-14 2021-01-26 合肥中科类脑智能技术有限公司 一种基于知识图谱的故障判别推理方法
CN112269901B (zh) * 2020-09-14 2021-11-05 合肥中科类脑智能技术有限公司 一种基于知识图谱的故障判别推理方法
CN114662481A (zh) * 2020-12-23 2022-06-24 中移(苏州)软件技术有限公司 事件抽取方法、事件抽取网络的训练方法及装置
CN113342935A (zh) * 2021-06-04 2021-09-03 北京捷通华声科技股份有限公司 语义识别方法、装置、电子设备及可读存储介质
CN113609244A (zh) * 2021-06-08 2021-11-05 中国科学院软件研究所 一种基于可控生成的结构化记录抽取方法和装置
CN113609244B (zh) * 2021-06-08 2023-09-05 中国科学院软件研究所 一种基于可控生成的结构化记录抽取方法和装置
CN114723527A (zh) * 2022-04-08 2022-07-08 中国银行股份有限公司 一种产品推荐方法、系统、电子设备及存储介质
CN115525776A (zh) * 2022-10-31 2022-12-27 中国电信股份有限公司 事件抽取模型训练方法、事件抽取方法以及相关设备

Similar Documents

Publication Publication Date Title
CN111339311A (zh) 基于生成式网络抽取结构化事件的方法、装置与处理器
WO2021072852A1 (zh) 序列标注方法、系统和计算机设备
CN111885000B (zh) 一种基于图神经网络的网络攻击检测方法、系统及装置
CN110825827B (zh) 一种实体关系识别模型训练、实体关系识别方法及装置
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN117057325B (zh) 一种应用于电网领域表单填写方法、系统和电子设备
CN112395412A (zh) 文本分类的方法、装置以及计算机可读介质
CN117765132A (zh) 图像生成方法、装置、设备与存储介质
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN108170661B (zh) 一种规则文本的管理方法及系统
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN114282513A (zh) 文本语义相似度的匹配方法、系统、智能终端及存储介质
CN113051920A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN116738974B (zh) 一种基于泛化因果网络的语言模型生成方法、设备及介质
CN115132186A (zh) 端到端语音识别模型训练方法、语音解码方法及相关装置
CN112541341A (zh) 一种文本事件元素提取方法
CN109558582B (zh) 基于视角的句子情感分析方法及装置
CN113255292B (zh) 基于预训练模型的端到端文本生成方法及相关设备
CN113849640A (zh) 一种数据处理方法、装置、设备及介质
CN117951515A (zh) 模型训练方法及装置
CN118093059A (zh) 多模态非结构化数据处理方法、装置、及电子设备
CN114911927A (zh) 一种神经语言模型的训练方法、系统及存储介质
CN118132979A (zh) 文本特征提取模型训练、文本数据处理方法及相关设备
Jain et al. A Novel Remote Sensing Image Captioning Architecture for Resource Constrained Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200803

Address after: 1608, 14 / F, No. 65, Beisihuan West Road, Haidian District, Beijing 100080

Applicant after: BEIJING INTERNETWARE Ltd.

Address before: No. 603, floor 6, No. 9, Shangdi 9th Street, Haidian District, Beijing 100085

Applicant before: Smart Shenzhou (Beijing) Technology Co.,Ltd.

TA01 Transfer of patent application right
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240927