CN114490953B - 训练事件抽取模型的方法、事件抽取的方法、装置及介质 - Google Patents

训练事件抽取模型的方法、事件抽取的方法、装置及介质 Download PDF

Info

Publication number
CN114490953B
CN114490953B CN202210401413.5A CN202210401413A CN114490953B CN 114490953 B CN114490953 B CN 114490953B CN 202210401413 A CN202210401413 A CN 202210401413A CN 114490953 B CN114490953 B CN 114490953B
Authority
CN
China
Prior art keywords
argument
codes
event
training
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210401413.5A
Other languages
English (en)
Other versions
CN114490953A (zh
Inventor
王宇
赵文
李皓辰
孙永荻
冯添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Peking University Software Engineering Co ltd
Original Assignee
Beijing Peking University Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Peking University Software Engineering Co ltd filed Critical Beijing Peking University Software Engineering Co ltd
Priority to CN202210401413.5A priority Critical patent/CN114490953B/zh
Publication of CN114490953A publication Critical patent/CN114490953A/zh
Application granted granted Critical
Publication of CN114490953B publication Critical patent/CN114490953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了训练事件抽取模型、事件抽取的方法和目标事件抽取模型,该方法包括:对目标事件抽取模型的第i次训练过程包括如下步骤:根据所有实体标签获取目标训练文本编码,并且获取所有论元角色编码;将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合,获得融合论元角色编码和融合训练文本编码;基于所述融合论元角色编码对事件检测模块进行训练,以及基于所述融合训练文本编码对论元分类模块进行训练;其中,i为大于或等于1的整数。通过本申请的一些实施例能够实现无需使用触发词即可实现事件抽取任务,同时能够提高事件抽取任务的准确率。

Description

训练事件抽取模型的方法、事件抽取的方法、装置及介质
技术领域
本申请实施例涉及自然语言处理领域,具体涉及训练事件抽取模型、事件抽取的方法和目标事件抽取模型。
背景技术
相关技术中,事件抽取任务是信息提取过程中的重要任务之一,通常执行事件抽取任务的算法需要先识别触发词,之后再基于触发词进行事件抽取。但是,在许多文本中,事件触发词存在难以识别或者存在歧义的情况,因此,一旦触发词识别不准确则导致最终的事件抽取准确率降低。
因此,如何提高事件抽取的准确率成为需要解决的问题。
发明内容
本申请实施例提供训练事件抽取模型、事件抽取的方法和目标事件抽取模型,通过本申请的一些实施例至少能够实现无需使用触发词即可完成事件抽取任务,从而能够提高事件抽取的准确率。
第一方面,本申请提供了一种训练事件抽取模型的方法,所述事件抽取模型包括事件检测模块和论元分类模块,对所述事件抽取模型的第i次训练过程包括如下步骤:根据所有实体标签获取目标训练文本编码,并且获取所有论元角色编码;将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合,获得融合论元角色编码和融合训练文本编码;至少基于所述融合论元角色编码对事件检测模块进行训练,以及至少基于所述融合训练文本编码对论元分类模块进行训练;其中,i为大于或等于1的整数。
因此,本申请实施例通过标签语义特征(即所有实体标签)和注意力机制,能够实现无需触发词即可执行事件抽取任务,并且能够通过编码融合提升事件抽取任务的准确率。
结合第一方面,在本申请的一些实施例中,所述将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合,获得融合论元角色编码和融合训练文本编码,包括:通过所述注意力机制模块使所述所有论元角色编码学习所述目标训练文本编码中的特征,获得所述融合论元角色编码;以及使所述目标训练文本编码学习所述所有论元角色编码中的特征,获得所述融合训练文本编码。
因此,本申请实施例通过双通道注意力机制,模拟论元角色编码与目标训练文本编码之间的交互,能够在使用融合训练文本编码进行论元分类和使用融合论元角色编码进行事件检测的过程中,提升运行速度和事件抽取的准确率。
结合第一方面,在本申请的一些实施例中,所述根据所有实体标签获取目标训练文本编码,包括:获取训练文本,并且对所述训练文本进行编码获得训练文本编码,其中,所述训练文本编码由多个字段特征组成;根据所述训练文本编码和所述所有实体标签,获取与所述多个字段特征相对应的多个实体标签编码;将所述多个字段特征分别与相对应的实体标签编码进行加和计算,获得所述目标训练文本编码。
因此,本申请实施例通过将多个字段特征与相对应的实体标签编码进行加和计算的方式,使多个字段特征学习到相对应的实体标签编码的特征,从而能够在后续事件抽取的过程中,提升运行速度和准确率。
结合第一方面,在本申请的一些实施例中,在所述根据标签语义编码模块获取目标训练文本编码和所有论元角色编码之前,所述方法还包括:获取多个事件类型描述语句;提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签;对所述所有事件类型、所有论元角色和所述所有实体标签进行编码,获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码;其中,所述至少基于所述融合论元角色编码对所述事件检测模块进行训练,包括:基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练;所述根据所述训练文本编码和所述所有实体标签,获取与所述多个字段特征相对应的多个实体标签编码,包括:根据所述训练文本编码和所述所有实体标签编码,获取与所述多个字段特征相对应的多个实体标签编码。
因此,本申请实施例通过对所有事件类型等进行编码,能够预先在训练模型之前,将输入该模型的所有事件类型编码、所有论元角色编码和所有实体标签编码准备完成,能够节省运算时间,提升运算速度。
结合第一方面,在本申请的一些实施例中,所述基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练,包括:基于所述所有事件类型编码和所述融合论元角色编码,进行事件类型抽取,获得事件类型抽取结果;将所述事件类型抽取结果与正确事件抽取结果相比较,获得事件类型抽取准确率;根据所述事件类型抽取准确率调整所述事件检测模块的参数,其中,在确认所述事件类型抽取准确率满足要求时终止对所述事件检测模块的训练得到目标事件抽取模块。
因此,本申请实施例通过融合论元角色编码对事件检测模块进行训练,能够增强事件检测模块的分类能力,提升事件类型抽取的准确率。
结合第一方面,在本申请的一些实施例中,所述基于所述融合训练文本编码对论元分类模块进行训练,包括:获取所述融合训练文本编码;基于所述融合训练文本编码,进行论元角色抽取,获得论元角色抽取结果;将所述论元角色抽取结果与正确论元抽取结果相比较,获得论元角色抽取准确率;根据所述论元角色抽取准确率调整所述论元分类模块的参数,其中,在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标论元分类模块。
因此,本申请实施例通过融合训练文本编码对论元分类模块进行训练,能够增强论元分类模块的分类能力,提升论元角色抽取的准确率。
第二方面,本申请提供了一种训练事件抽取模型的装置,所述装置包括:编码获取模块,被配置为根据所有实体标签获取目标训练文本编码,并且获取所有论元角色编码;编码融合模块,被配置为将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合,获得融合论元角色编码和融合训练文本编码;分类训练模块,被配置为至少基于所述融合论元角色编码对事件检测模块进行训练,以及至少基于所述融合训练文本编码对论元分类模块进行训练。
结合第二方面,在本申请的一些实施例中,所述编码融合模块还被配置为:通过所述注意力机制模块使所述所有论元角色编码学习所述目标训练文本编码中的特征,获得所述融合论元角色编码;以及使所述目标训练文本编码学习所述所有论元角色编码中的特征,获得所述融合训练文本编码。
结合第二方面,在本申请的一些实施例中,所述编码获取模块还被配置为:获取训练文本,并且对所述训练文本进行编码获得训练文本编码,其中,所述训练文本编码由多个字段特征组成;根据所述训练文本编码和所述所有实体标签,获取与所述多个字段特征相对应的多个实体标签;将所述多个字段特征分别与相对应的实体标签进行加和计算,获得所述目标训练文本编码。
结合第二方面,在本申请的一些实施例中,所述编码获取模块还被配置为:获取多个事件类型描述语句;提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签;对所述所有事件类型、所有论元角色和所述所有实体标签进行编码,获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码;基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练;根据所述训练文本编码和所述所有实体标签编码,获取与所述多个字段特征相对应的多个实体标签编码。
结合第二方面,在本申请的一些实施例中,所述分类训练模块还被配置为:获取所有事件类型编码和所述融合论元角色编码;基于所述所有事件类型编码和所述融合论元角色编码,进行事件类型抽取,获得事件类型抽取结果;将所述事件类型抽取结果与正确事件抽取结果相比较,获得事件类型抽取准确率;根据所述事件类型抽取准确率调整所述事件检测模块的参数,其中,在确认所述事件类型抽取准确率满足要求时终止对所述事件检测模块的训练得到目标事件抽取模块。
结合第二方面,在本申请的一些实施例中,所述分类训练模块还被配置为:获取所述融合训练文本编码;基于所述融合训练文本编码,进行论元角色抽取,获得论元角色抽取结果;将所述论元角色抽取结果与正确论元抽取结果相比较,获得论元角色抽取准确率;根据所述论元角色抽取准确率调整所述论元分类模块的参数,其中,在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标事件抽取模块。
第三方面,本申请实施例提供了一种目标事件抽取模型,所述目标事件抽取模型包括:文本编码模块,被配置为:获取待抽取文本,并且对所述待抽取文本进行编码获得待抽取文本编码,其中,所述待抽取文本编码由多个字段特征组成;根据所述待抽取文本编码,获取与所述多个字段特征相对应的多个实体标签;将所述多个字段特征分别与相对应的实体标签进行加和计算,获得所述目标文本编码;注意力机制模块,被配置为:将所述目标文本编码和所有论元角色编码进行融合,获得融合论元角色编码和融合目标文本编码;目标事件抽取模块,被配置为:基于所述融合论元角色编码进行事件类型抽取,获得事件类型抽取结果;目标论元分类模块,被配置为:基于所述融合目标文本编码进行论元角色抽取,获得论元角色抽取结果。
结合第三方面,在本申请的一些实施例中,所述注意力机制模块,还被配置为:使所述所有论元角色编码学习所述目标文本编码中的特征,获得所述融合论元角色编码;以及使所述目标文本编码学习所述所有论元角色编码中的特征,获得所述融合目标文本编码。
因此,本申请实施例中通过注意力计算的方式,使所有论元角色编码学习目标文本编码的特征,以及使目标文本编码学习所有论元角色编码的特征,能够在事件分类和论元分类的过程中携带论元角色的编码,从而提升事件抽取的准确率。
结合第三方面,在本申请的一些实施例中,所述目标事件抽取模型还包括标签语义编码模块;所述标签语义编码模块,被配置为:获取多个事件类型描述语句;提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签;对所述所有事件类型、所有论元角色和所述所有实体标签进行编码,获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码。
因此,本申请实施例通过标签语义编码模块,能够预先在使用目标事件抽取模块之前将输入该模块的所有事件类型编码、所有论元角色编码和所有实体标签编码准备完成,能够节省运算时间,提升运算速度。
第四方面,本申请实施例提供了一种事件抽取的方法,所述方法包括:获取待抽取文本;将所述待抽取文本输入到通过第一方面任意实施例所述的方法训练获得目标事件抽取模型中,获得事件类型抽取结果和论元角色抽取结果。
第五方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线;所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如第一方面任意实施例所述方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被执行时实现如第一方面任意实施例所述方法。
附图说明
图1为本申请实施例示出的一种事件抽取的场景组成示意图;
图2为本申请实施例示出的目标事件抽取模型的结构图之一;
图3为本申请实施例示出的目标事件抽取模型的结构图之二;
图4为本申请实施例示出的一种事件抽取的方法流程图;
图5为本申请实施例示出的一种事件抽取的装置组成框图;
图6为本申请实施例示出的一种电子设备组成示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对附图中提供的本申请的实施例的详情描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护范围。
事件抽取任务分为事件类型抽取和论元角色抽取两个任务。事件类型抽取是从文本中寻找包含事件的句子,并且将其分类至预定于的事件类型中。论元角色抽取是从文本中抽取出事件中的元素(例如,参与者、时间、地点等重要元素)。
本申请实施例可以应用于对待抽取文本进行事件抽取(例如,事件类型抽取和论元角色抽取)的场景。为了改善背景技术中的问题,在本申请的一些实施例中,通过注意力机制使待抽取文本所对应的编码中包括学习事件类型、论元角色和实体标签的特征,从而实现事件抽取。例如,在本申请的一些实施例中,电子设备至少被配置为:将目标训练文本编码和所有论元角色编码进行融合,获得融合论元角色编码和融合训练文本编码,之后根据融合论元角色编码和融合训练文本编码分别进行事件抽取,获得事件类型抽取结果和论元角色抽取结果。通过本申请实施例能够实现无需使用触发词即可实现事件抽取任务,同时能够提高事件抽取任务的准确率。
下面结合附图详细描述本申请实施例中的方法步骤。
图1提供了本申请一些实施例中的事件抽取场景的组成示意图,该场景包括用户110、客户端120和服务器130。具体的,用户110在客户端120中的输入界面中输入待抽取文本,客户端120在接收到待抽取文本后,由于客户端120的算力限制,因此将待抽取文本发送至服务器130,服务器130在接收到待抽取文本后,对待抽取文本进行事件抽取,获得事件类型抽取结果和论元角色抽取结果,之后服务器130将该事件类型抽取结果和论元角色抽取结果返回至客户端120进行显示。
与本申请实施例不同的是相关技术中,通常执行事件抽取任务的算法需要先识别触发词,之后再基于触发词进行事件抽取。但是,在许多文本中,事件触发词存在难以识别或者存在歧义的情况,因此,一旦触发词识别不准确则导致最终的事件抽取准确率降低。而本申请的实施例是通过将目标文本编码(目标文本编码是根据实体标签和待抽取文本获得的)与所有论元角色编码进行融合之后,再进行事件抽取,因此,本申请的实施例并不需要像相关技术中需要触发词进行事件抽取。
下文将示例性的描述本申请一些实施例提供的目标事件抽取模型。
如图2所示,事件抽取模型(或者目标事件抽取模型)包括:文本编码模块220、注意力机制模块230、目标事件抽取模块240和目标论元分类模块250。
需要说明的是,事件抽取模型的输入包括:输入到文本编码模块220的所有实体标签编码和用户输入的待抽取文本(包括训练过程的待抽取文本以及实际应用过程中的待抽取文本);输入到注意力机制模块230的所有论元角色编码;输入到目标事件抽取模块240的所有事件类型编码。其中,所有实体标签编码、所有论元角色编码和所有事件类型编码的获取方式有两种:
在本申请的一种实施方式中,如图3所示,目标事件抽取模型还包括标签语义编码模块310,由标签语义编码模块生成上述所有实体标签编码、所有论元角色编码和所有事件类型编码。具体的,首先,获取多个事件类型描述语句。然后,提取多个事件类型描述语句中的所有事件类型、所有论元角色和所有实体标签。最后,对所有事件类型、所有论元角色和所有实体标签进行编码,获得所有事件类型编码、所有论元角色编码和所有实体标签编码(例如,如图3所示,经过BERT模型编码获得所有事件类型编码、所有论元角色编码和所有实体标签编码)。其中,在一种具体的实施例中,所有论元角色320包括论元-B1、论元-B2、论元-B3和论元-B4。
在本申请的另一种实施方式中,在使用目标事件抽取模型之前,在数据库中已经保存了所有事件类型编码、所有论元角色编码和所有实体标签编码。在使用目标事件抽取模型时,直接从数据库中读取。
例如,本申请实施例通过标签语义编码模块,能够预先在使用目标事件抽取模型之前生成输入该模型的所有事件类型编码、所有论元角色编码和所有实体标签编码。
在本申请的一些实施例根据标签语义编码模块输出的所有事件类型编码、所有论元角色编码和所有实体标签编码进行时间抽取的过程包括:
如图2所示,在本申请的一些实施例中,目标事件抽取模型中的各模块所对应的实施方式,如下所示:
文本编码模块220被配置为:
文本编码模块220在获取得到待抽取文本之后,首先,使用相关技术中的预训练语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)对待抽取文本进行编码,获得待抽取文本编码。可以理解的是,待抽取文本编码是由与待抽取文本相对应的多个字段的特征编码组成。
然后,文本编码模块220获取所有实体标签编码。提取多个字段的特征编码相对应的多个实体标签,之后在所有实体标签编码中找到与多个实体标签相对应的编码,获得多个实体标签编码。
最后,将多个实体标签编码与相对应的多个字段特征分别进行加和,获得目标文本编码。
例如,如图3所示,输入待抽取文本所对应的字段(即A1、A2、A3、A4、A5和A6),之后经过BERT模型编码,抽取多个字段的特征编码相对应的多个实体标签编码,再将多个实体标签编码与相对应的多个字段特征分别进行加和,获得目标文本编码Seq。
例如,待抽取文本为“小张下午2点在会议室开会”,则多个字段分别为“小张”、“下午2点”、“在会议室”和“开会”,与多个字段相对应的多个实体标签分别为人物、时间、地点和动作,之后在所有实体标签编码中查找到与上述多个实体标签相对应的编码,获得多个实体标签编码(即人物的编码、时间的编码、地点的编码和动作的编码)。
注意力机制模块230被配置为:
将目标文本编码和所有论元角色编码进行融合,获得融合论元角色编码和融合目标文本编码。
也就是说,将所有论元角色编码和在文本编码模块220得到的目标文本编码输入到注意力机制模块230中。注意力机制模块230使所有论元角色编码学习目标文本编码的特征,获取与所有论元角色的维度相同的融合论元角色编码;使目标文本编码学习所有论元角色编码的特征,获得与所目标文本编码的维度相同的融合目标文本编码。
例如,如图3所示,将所有论元角色编码和目标文本编码输入到注意力机制模块230中,获得融合论元角色编码和融合目标文本编码。
例如,输入的所有论元角色编码的维度为20,则输出的融合论元角色编码的维度也为20。输入的目标文本编码的维度为30,则输出的融合目标文本编码的维度也为30。
因此,本申请实施例中通过注意力计算的方式,使所有论元角色编码学习目标文本编码的特征,以及使目标文本编码学习所有论元角色编码的特征,能够在事件分类和论元分类的过程中携带论元角色的编码,从而提升事件抽取的准确率。
目标事件抽取模块240,被配置为:获取注意力机制模块230输出的融合论元角色编码,并且获取所有事件类型编码。之后将融合论元角色编码比对所有事件类型编码进行事件抽取操作,获得事件类型抽取结果。
作为本申请一具体实施例,如图3所示,将融合论元角色编码(即D1、D2、D3和D4)比对所有事件类型编码进行事件抽取操作,经过事件分类层,获得事件类型抽取结果,其中,使用1表示存在该事件类型,使用0表示不存在该事件类型。例如,存在天气预告事件、不存在教育事件以及不存在结婚事件。
需要说明的是,目标事件抽取模块240中使用的神经网络是本领域技术人员公知的网络,例如:全连接Softmax分类器,在此不再赘述。
目标论元分类模块250,被配置为:获取注意力机制模块230输出的融合目标文本编码,之后对融合目标文本编码进行论元角色的抽取,获得论元角色抽取结果。
作为本申请一具体实施例,如图3所示,将融合目标文本编码输入到目标论元分类模块250中,即将融合目标文本编码对应的多个向量(即C1、C2、C3、C4、C5和C6)输入到论元分类模块250包括的论元分类层中,输出表征论元是否存在的向量。
需要说明的是,论元分类模块250中使用的神经网络是本领域技术人员公知的网络,例如:全连接Softmax分类器,在此不再赘述。
上文描述了本申请一些实施例所采用的事件抽取模型的架构,下文将以一次训练过程(以第i次为例)示例性阐述由服务器执行的对事件抽取模型训练方法。
在本申请的一些实施例中,如图4所示,对目标事件抽取模型的第i次训练过程包括如下步骤:
S410,根据所有实体标签获取目标训练文本编码,并且获取所有论元角色编码。
在本申请的一种实施方式中,在S410之前还包括:获取所有事件类型编码、所有论元角色编码和所有实体标签编码。具体步骤如下所示:
步骤一:获取多个事件类型描述语句。
也就是说,获取包含有事件类型、论元角色和实体标签的定义或描述的多个句子,其中,以句子Q为例,由如下表达式(1)进行表示:
Figure 120442DEST_PATH_IMAGE001
(1)
其中,Q表示多个句子中包括的句子Q,
Figure 661145DEST_PATH_IMAGE002
表示能够表征句子Q整体语义的特征向量,
Figure 304616DEST_PATH_IMAGE003
表示句子Q中被分割的各字段,
Figure 702099DEST_PATH_IMAGE004
表示与其他句子的分隔符。
步骤二:提取多个事件类型描述语句中的所有事件类型、所有论元角色和所有实体标签。
也就是说,在获取多个事件类型的描述语句之后,将多个事件类型描述语句中的所有事件类型、所有论元角色和所有实体标签分离出来,并且按照类别归类。
步骤三:对所有事件类型、所有论元角色和所有实体标签进行编码,获得所有事件类型编码、所有论元角色编码和所有实体标签编码。
也就是说,通过BERT模型对所有事件类型、所有论元角色和所有实体标签进行编码,以对所有事件类型进行编码为例,编码过程通过如下表达式(2)进行表示:
Figure 431021DEST_PATH_IMAGE005
(2)
其中
Figure 509835DEST_PATH_IMAGE006
表示第
Figure 7813DEST_PATH_IMAGE007
个事件类型编码,
Figure 326930DEST_PATH_IMAGE008
表示所有事件类型的总数,
Figure 543148DEST_PATH_IMAGE009
表示所有事件类型编码的向量维度。可以理解的是,向量维度由使用的BERT模型而决定,通常为768维,
Figure 425653DEST_PATH_IMAGE010
表示多个句子中的任意一个句子。
因此,本申请实施例通过对所有事件类型等进行编码,能够预先在训练模型之前,将输入该模型的所有事件类型编码、所有论元角色编码和所有实体标签编码准备完成,能够节省运算时间,提升运算速度。
在本申请的一种实施方式中,S410包括:将所有实体标签编码与训练文本进行融合,获得目标训练文本编码,具体步骤如下所示:
步骤一:获取训练文本,并且对训练文本进行编码获得训练文本编码,其中,训练文本编码由多个字段特征组成。
也就是说,获取的训练文本中包括多个句子,以句子S为例,句子
Figure 840454DEST_PATH_IMAGE011
,其中
Figure 783002DEST_PATH_IMAGE012
表示句子S包括的n个字段,使用BERT模型对句子S进行编码,获得训练文本编码,编码过程由如下表达式(3)进行表示:
Figure 220937DEST_PATH_IMAGE013
(3)
其中,E表示句子S的训练文本编码,
Figure 641554DEST_PATH_IMAGE014
表示句子S中的任意一个字段所对应的特征,n表示句子S中多个字段的个数,
Figure 425708DEST_PATH_IMAGE015
表示训练文本编码的维度,由使用的BERT模型而决定,通常为768维。
句子
Figure 273578DEST_PATH_IMAGE016
中的n个字段所对应的编码由如下表达式(4)进行表示:
Figure 198809DEST_PATH_IMAGE017
(4)
其中,E表示句子S的训练文本编码,
Figure 423117DEST_PATH_IMAGE018
表示句子S中的n个字段所对应的编码。
步骤二:根据训练文本编码,获取与多个字段特征相对应的多个实体标签编码。
也就是说,在获得训练文本编码后,提取训练文本中的多个字段特征中各字段特征对应的实体标签。之后,获取S410中生成的所有实体标签编码,并且在所有实体标签编码中寻找与各字段特征对应的实体标签,获得各字段特征对应的实体标签编码。
以句子S为例,句子S中每个字段
Figure 812510DEST_PATH_IMAGE019
对应一个实体标签,例如,“北京市”对应的实体标签为地区。若句子S中的多个字段分别为:北京市、4点和召开会议,则句子S多个字段特征中各字段特征对应的实体标签为:地区、时间和动作,之后在所有实体标签编码中查找到与地区、时间和动作相对应的编码,即为与多个字段特征相对应的多个实体标签编码。
可以理解的是,提取文本中的实体标签是本领域人员根据开源程序能够获得的,本申请实施例中不对提取文本中的实体标签的方法进行限制。
步骤三:将多个字段特征分别与相对应的实体标签编码进行加和计算,获得目标训练文本编码。
也就是说,将在步骤一获得的多个字段特征分别与步骤二中获得的相对应的实体标签编码进行加和,获得目标训练文本编码。
以句子S为例,与句子S对应的目标训练文本编码由如下表达式(5)进行表示:
Figure 96861DEST_PATH_IMAGE020
(5)
其中,
Figure 509387DEST_PATH_IMAGE021
表示与句子S对应的目标训练文本编码,
Figure 271807DEST_PATH_IMAGE022
表示任意一个与实体标签相对应的语义特征编码,
Figure 266439DEST_PATH_IMAGE023
表示句子S中的任意一个字段所对应的特征,n表示句子S中多个字段的个数,
Figure 721691DEST_PATH_IMAGE024
表示目标训练文本编码的维度,由使用的BERT模型而决定,通常为768维。
因此,本申请实施例通过将多个字段特征与相对应的实体标签编码进行加和计算的方式,使多个字段特征学习到相对应的实体标签编码的特征,从而能够在后续事件抽取的过程中,提升运行速度和准确率。
S420,将目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合,获得融合论元角色编码和融合训练文本编码。
也就是说,与相关技术不同的是,本申请实施例中的注意力机制模块采用的是双通道的注意力层来执行句子级的事件检测任务和词级别的参数提取任务。
在本申请的一种实施方式中,S420包括:
步骤一:使所有论元角色编码学习目标训练文本编码中的特征,获得融合论元角色编码。
也就是说,步骤一使用的是双通道中的其中一个,获得的融合论元角色编码用于进行事件类型检测。通过计算注意力机制计算的方式使所有论元角色编码学习目标训练文本编码中的特征。
具体的,获取所有论元角色编码和目标训练文本编码,将所有论元角色编码作为查询,将目标训练文本编码作为键和值。为增大参数量,引入参数矩阵
Figure 621514DEST_PATH_IMAGE025
Figure 187624DEST_PATH_IMAGE026
Figure 286030DEST_PATH_IMAGE027
,之后将参数矩阵与所有论元角色编码和目标训练文本编码相乘,由如下表达式(6-8)所示:
Figure 912184DEST_PATH_IMAGE028
(6)
Figure 299303DEST_PATH_IMAGE029
(7)
Figure 403525DEST_PATH_IMAGE030
(8)
其中,
Figure 874214DEST_PATH_IMAGE031
表示查询矩阵,
Figure 671269DEST_PATH_IMAGE032
表示所有论元角色编码,
Figure 280105DEST_PATH_IMAGE033
表示查询参数矩阵,
Figure 515914DEST_PATH_IMAGE034
表示所有论元角色编码中包括的论元角色的个数,
Figure 526595DEST_PATH_IMAGE035
表示参数矩阵的维度,
Figure 494551DEST_PATH_IMAGE036
表示键的矩阵,
Figure 590683DEST_PATH_IMAGE037
表示目标训练文本编码,
Figure 849757DEST_PATH_IMAGE038
表示键的参数矩阵,n表示目标训练文本编码中的字段个数,
Figure 980524DEST_PATH_IMAGE039
表示值的矩阵,
Figure 119382DEST_PATH_IMAGE040
表示值的参数矩阵,
Figure 702810DEST_PATH_IMAGE041
表示目标训练文本编码的维度。
之后,将查询矩阵
Figure 952526DEST_PATH_IMAGE031
、键的矩阵
Figure 116DEST_PATH_IMAGE036
和值的矩阵
Figure 309875DEST_PATH_IMAGE039
输入到softmax函数中进行计算,获得融合论元角色编码,如表达式(9)所示:
Figure 380599DEST_PATH_IMAGE042
(9)
其中,
Figure 745590DEST_PATH_IMAGE043
表示融合论元角色编码,
Figure 585370DEST_PATH_IMAGE031
表示查询矩阵,
Figure 66030DEST_PATH_IMAGE036
表示键的矩阵,
Figure 358471DEST_PATH_IMAGE039
表示值的矩阵,
Figure 277885DEST_PATH_IMAGE044
表示参数矩阵的维度,
Figure 972172DEST_PATH_IMAGE034
表示所有论元角色编码中包括的论元角色的个数,
Figure 623733DEST_PATH_IMAGE041
表示目标训练文本编码的维度。
步骤二:使目标训练文本编码学习所有论元角色编码中的特征,获得融合训练文本编码。
也就是说,步骤二使用的是双通道中的另一个通道,获得的融合训练文本编码用于进行论元分类任务。通过计算注意力机制计算的方式使目标训练文本编码学习所有论元角色编码中的特征。
具体的,获取所有论元角色编码和目标训练文本编码,将目标训练文本编码作为查询,将所有论元角色编码作为键和值。为增大参数量,引入参数矩阵
Figure 669050DEST_PATH_IMAGE045
Figure 877308DEST_PATH_IMAGE046
Figure 426101DEST_PATH_IMAGE047
,之后将参数矩阵与所有论元角色编码和目标训练文本编码相乘,由如下表达式(10-12)所示:
Figure 514143DEST_PATH_IMAGE048
(10)
Figure 781176DEST_PATH_IMAGE049
(11)
Figure 714497DEST_PATH_IMAGE050
(12)
其中,
Figure 445693DEST_PATH_IMAGE051
表示查询矩阵,
Figure 704636DEST_PATH_IMAGE052
表示所有论元角色编码,
Figure 507900DEST_PATH_IMAGE053
表示查询参数矩阵,
Figure 510491DEST_PATH_IMAGE054
表示所有论元角色编码中包括的论元角色的个数,
Figure 33876DEST_PATH_IMAGE055
表示参数矩阵的维度,
Figure 198141DEST_PATH_IMAGE056
表示键的矩阵,
Figure 439767DEST_PATH_IMAGE037
表示目标训练文本编码,
Figure 42787DEST_PATH_IMAGE057
表示键的参数矩阵,n表示目标训练文本编码中的字段个数,
Figure 420678DEST_PATH_IMAGE058
表示值的矩阵,
Figure 21424DEST_PATH_IMAGE059
表示值的参数矩阵,
Figure 484766DEST_PATH_IMAGE060
表示目标训练文本编码的维度。
之后,将查询矩阵
Figure 642209DEST_PATH_IMAGE051
、键的矩阵
Figure 140187DEST_PATH_IMAGE056
和值的矩阵
Figure 646254DEST_PATH_IMAGE058
输入到softmax函数中进行计算,获得融合论元角色编码,如表达式(13)所示:
Figure 862472DEST_PATH_IMAGE061
(13)
其中,
Figure 807294DEST_PATH_IMAGE062
表示融合训练文本编码,
Figure 159778DEST_PATH_IMAGE051
表示查询矩阵,
Figure 836747DEST_PATH_IMAGE056
表示键的矩阵,
Figure 586266DEST_PATH_IMAGE058
表示值的矩阵,
Figure 272463DEST_PATH_IMAGE055
表示参数矩阵的维度,
Figure 479453DEST_PATH_IMAGE054
表示所有论元角色编码中包括的论元角色的个数,
Figure 592903DEST_PATH_IMAGE060
表示目标训练文本编码的维度。
可以理解的是,融合论元角色编码
Figure 580450DEST_PATH_IMAGE043
是句子级的特征,融合训练文本编码
Figure 804758DEST_PATH_IMAGE062
是词级别的特征。
因此,本申请实施例通过双通道注意力机制,模拟论元角色编码与目标训练文本编码之间的交互,能够在使用融合训练文本编码进行论元分类和使用融合论元角色编码进行事件检测的过程中,提升运行速度和事件抽取的准确率。
可以理解的是,本申请实施例不限制S420中的步骤一和步骤二的执行顺序。在本申请的一种实施方式中,可以先执行步骤一,后执行步骤二。在本申请的另一种实施方式中,可以先执行步骤二,后执行步骤一。在本申请的再一种实施方式中,可以步骤一和步骤二同时执行。
S430,至少基于融合论元角色编码对事件检测模块进行训练以及至少基于融合训练文本编码对论元分类模块进行训练。
也就是说,在S420中的注意力机制模块获得融合论元角色编码和融合训练文本编码后,将融合论元角色编码输入到事件检测模块中,并且对事件检测模块进行训练,同时将融合训练文本编码输入到论元分类模块中,并且对论元分类模块进行训练。
在本申请的一种实施方式中,对事件检测模块进行训练的过程包括如下步骤:
步骤一:获取所有事件类型编码和融合论元角色编码。
步骤二:基于所有事件类型编码和融合论元角色编码,进行事件类型抽取,获得事件类型抽取结果。
也就是说,由于不同的事件类型对应不同的事件结构,即不同的事件类型包含了不同的论元,因此,使用掩码矩阵
Figure 131834DEST_PATH_IMAGE063
将参数映射到相对应的事件,即可得到句子级事件特征
Figure 416185DEST_PATH_IMAGE064
,由如下表达式(14)进行表示:
Figure 376182DEST_PATH_IMAGE065
(14)
其中,
Figure 404181DEST_PATH_IMAGE066
表示输入的训练文本的句子级事件特征,
Figure 585763DEST_PATH_IMAGE067
表示事件类型的个数,
Figure 41016DEST_PATH_IMAGE068
表示掩码矩阵,
Figure 3155DEST_PATH_IMAGE043
表示融合论元角色编码。
具体的,使用一个双层的线性分类层作为事件类型分类器,在其中一层中将各事件类型编码
Figure 569266DEST_PATH_IMAGE069
与句子级事件特征
Figure 605355DEST_PATH_IMAGE070
相加,计算方法由如下表达式(15)和表达式(16)所示:
Figure 231508DEST_PATH_IMAGE071
(15)
Figure 655844DEST_PATH_IMAGE072
(16)
其中,
Figure 25645DEST_PATH_IMAGE073
Figure 181820DEST_PATH_IMAGE074
表示线性层的参数,
Figure 978875DEST_PATH_IMAGE075
表示激活函数(即高斯误差线性单元(Gaussian Error Linerar Units,GELU),
Figure 650027DEST_PATH_IMAGE076
表示所有事件类型编码中的各事件类型编码,
Figure 557940DEST_PATH_IMAGE077
表示第一个线性层的中间结果,
Figure 568622DEST_PATH_IMAGE078
表示第二个线性层输出的事件分类结果。
可以理解的是,由于每个句子可能包含多个类型的事件,因此本申请实施例中输出的事件分类结果为多个二分类结果,即输出的事件分类结果是由0和1组成的矩阵,0表示不存在相对应的事件类型,1表示存在相对应的事件类型。
步骤三:将事件类型抽取结果与正确事件抽取结果相比较,获得事件类型抽取准确率。
也就是说,将步骤二中输出的由0和1组成的矩阵,与正确分类的矩阵相对应,获得事件类型抽取的准确率。
步骤四:根据事件类型抽取准确率调整事件检测模块的参数。
因此,本申请实施例通过融合论元角色编码对事件检测模块进行训练,能够增强事件检测模块的分类能力,提升事件类型抽取的准确率。
在本申请的一种实施方式中,对论元分类模块进行训练的过程包括如下步骤:
步骤一:获取融合训练文本编码。
步骤二:基于融合训练文本编码,进行论元角色抽取,获得论元角色抽取结果。
也就是说,本申请实施例使用词级别的融合训练文本编码进行轮元角色分类,为了弥补融合训练文本编码不包含每个字段的词汇特征的缺点,因此本申请实施例在训练过程中添加了目标训练文本编码
Figure 536578DEST_PATH_IMAGE021
。具体过程由如下表达式(17)、表达式(18)和表达式(19)所示:
Figure 632710DEST_PATH_IMAGE079
(17)
其中,
Figure 157363DEST_PATH_IMAGE080
表示融合训练文本编码和目标训练文本编码的组合序列,
Figure 288130DEST_PATH_IMAGE081
表示融合训练文本编码中的第i个字段,
Figure 426988DEST_PATH_IMAGE082
表示目标训练文本编码中的第i个字段。
本申请实施例对于每个论元角色,均使用单独的线性神经网络作为论元角色分类器。因此,首先将获得
Figure 744836DEST_PATH_IMAGE083
个独立的分类器,其中任意一个分类器为:
Figure 260131DEST_PATH_IMAGE084
(18)
其中,
Figure 307722DEST_PATH_IMAGE085
Figure 617480DEST_PATH_IMAGE086
表示第
Figure 422625DEST_PATH_IMAGE087
个分类层的参数,
Figure 787616DEST_PATH_IMAGE088
表示任意一个分类器的输出结果。
然后,获得由多个分类器输出结果组成的序列,该序列由如下表达式所示:
Figure 627397DEST_PATH_IMAGE089
(19)
其中,
Figure 108056DEST_PATH_IMAGE090
是由0和1组成的矩阵,0表示不存在相对应的论元角色,1表示存在相对应的论元角色。
步骤三:将论元角色抽取结果与正确论元抽取结果相比较,获得论元角色抽取准确率。
也就是说,将步骤二中输出的由0和1组成的矩阵,与正确分类的矩阵相对应,获得论元角色抽取的准确率。
步骤四:根据论元角色抽取准确率调整论元分类模块的参数。
因此,本申请实施例通过融合训练文本编码对论元分类模块进行训练,能够增强论元分类模块的分类能力,提升论元角色抽取的准确率。
可以理解的是,在S430中获得论元角色抽取准确率和事件类型抽取准确率之后,在确认论元角色抽取准确率和事件类型抽取准确率满足要求时,终止对论元分类模块和事件检测模块的训练,得到目标事件抽取模块和目标论元分类模块,即论元角色抽取准确率和事件类型抽取准确率,需要同时满足相对应的准确率阈值,则训练结束,获得目标事件抽取模型,否则将继续进行训练。
例如,事件类型抽取的准确率阈值为90%,论元角色抽取的准确率阈值为85%,则需要事件类型抽取的准确率大于或等于90%,并且论元角色抽取的准确率大于或等于85%,才能结束训练,否则继续进行下一循环的训练。
因此,本申请实施例通过语义标签嵌入(Semantic Tag Embedding)来获取事件类型、论元角色和实体标签的语义特征。构建了基于双通道注意力机制(Dual-channelAttention)的联合抽取模型,该模型跳过了触发识别的过程,直接对事件类型和论元角色进行联合抽取。
上文描述了本申请实施例中训练目标事件抽取模型的方法,下文将描述本申请实施例中一种事件抽取的装置。
如图5所示,本申请实施例中的一种事件抽取的装置500包括:编码获取模块510、编码融合模块520和分类训练模块530。
本申请提供了一种训练事件抽取模型的装置500,所述装置包括:编码获取模块510,被配置为根据所有实体标签获取目标训练文本编码,并且获取所有论元角色编码;编码融合模块520,被配置为将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合,获得融合论元角色编码和融合训练文本编码;分类训练模块530,被配置为至少基于所述融合论元角色编码对事件检测模块进行训练,以及至少基于所述融合训练文本编码对论元分类模块进行训练;其中,i为大于或等于1的整数。
在本申请的一些实施例中,所述编码融合模块520还被配置为:使所述所有论元角色编码学习所述目标训练文本编码中的特征,获得所述融合论元角色编码;以及使所述目标训练文本编码学习所述所有论元角色编码中的特征,获得所述融合训练文本编码。
在本申请的一些实施例中,所述编码获取模块510还被配置为:获取训练文本,并且对所述训练文本进行编码获得训练文本编码,其中,所述训练文本编码由多个字段特征组成;根据所述训练文本编码和所述所有实体标签,获取与所述多个字段特征相对应的多个实体标签;将所述多个字段特征分别与相对应的实体标签进行加和计算,获得所述目标训练文本编码。
在本申请的一些实施例中,所述编码获取模块510还被配置为:获取多个事件类型描述语句;提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签;对所述所有事件类型、所有论元角色和所述所有实体标签进行编码,获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码;基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练;根据所述训练文本编码和所述所有实体标签编码,获取与所述多个字段特征相对应的多个实体标签编码。
在本申请的一些实施例中,所述分类训练模块530还被配置为:获取所有事件类型编码和所述融合论元角色编码;基于所述所有事件类型编码和所述融合论元角色编码,进行事件类型抽取,获得事件类型抽取结果;将所述事件类型抽取结果与正确事件抽取结果相比较,获得事件类型抽取准确率;根据所述事件类型抽取准确率调整所述事件检测模块的参数,其中,在确认所述事件类型抽取准确率满足要求时终止对所述事件检测模块的训练得到目标事件抽取模块。
在本申请的一些实施例中,所述分类训练模块530还被配置为:获取所有事件类型编码和所述融合训练文本编码;基于所述所有事件类型编码和所述融合训练文本编码,进行论元角色抽取,获得论元角色抽取结果;将所述论元角色抽取结果与正确论元抽取结果相比较,获得论元角色抽取准确率;根据所述论元角色抽取准确率调整所述论元分类模块的参数,其中,在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标事件抽取模块。
在本申请实施例中,图5所示模块能够实现图1至图4方法实施例中的各个过程。图5中的各个模块的操作和/或功能,分别为了实现图1至图4中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
如图6所示,本申请实施例提供一种电子设备600,包括:处理器610、存储器620和总线630,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如上述所有实施例中任一项所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
其中,总线用于实现这些组件直接的连接通信。其中,本申请实施例中处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,可以执行上述实施例中所述的方法。
可以理解,图6所示的结构仅为示意,还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现上述所有实施方式中任一所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种训练事件抽取模型的方法,其特征在于,所述事件抽取模型包括事件检测模块和论元分类模块,对所述事件抽取模型的第i次训练过程包括如下步骤:
根据所有实体标签获取目标训练文本编码,并且获取所有论元角色编码;
将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合,获得融合论元角色编码和融合训练文本编码;
至少基于所述融合论元角色编码对所述事件检测模块进行训练,以及至少基于所述融合训练文本编码对所述论元分类模块进行训练;
其中,i为大于或等于1的整数;
其中,通过计算注意力机制计算的方式使所述所有论元角色编码学习所述目标训练文本编码中的特征,获得所述融合论元角色编码,并且所述融合论元角色编码用于进行事件类型检测;
通过计算所述注意力机制计算的方式使所述目标训练文本编码学习所述所有论元角色编码中的特征,获得所述融合训练文本编码,并且所述融合训练文本编码用于论元分类任务;
其中,所述基于所述融合训练文本编码对论元分类模块进行训练,包括:
获取所述融合训练文本编码;基于所述融合训练文本编码进行论元角色抽取,获得论元角色抽取结果;将所述论元角色抽取结果与正确论元抽取结果相比较,获得论元角色抽取准确率;根据所述论元角色抽取准确率调整所述论元分类模块的参数,其中,在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标论元分类模块。
2.根据权利要求1所述的方法,其特征在于,所述根据所有实体标签获取目标训练文本编码,包括:
获取训练文本,并且对所述训练文本进行编码获得训练文本编码,其中,所述训练文本编码由多个字段特征组成;
根据所述训练文本编码和所述所有实体标签,获取与所述多个字段特征相对应的多个实体标签编码;
将所述多个字段特征分别与相对应的实体标签编码进行加和计算,获得所述目标训练文本编码。
3.根据权利要求2所述的方法,其特征在于,在所述根据所有实体标签获取目标训练文本编码,并且获取所有论元角色编码之前,所述方法还包括:
获取多个事件类型描述语句;
提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所述所有实体标签;
对所述所有事件类型、所有论元角色和所述所有实体标签进行编码,获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码;
其中,
所述至少基于所述融合论元角色编码对所述事件检测模块进行训练,包括:基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练;
所述根据所述训练文本编码和所述所有实体标签,获取与所述多个字段特征相对应的多个实体标签编码,包括:根据所述训练文本编码和所述所有实体标签编码,获取与所述多个字段特征相对应的多个实体标签编码。
4.根据权利要求3所述的方法,其特征在于,所述基于所述所有事件类型编码和所述融合论元角色编码对所述事件检测模块进行训练,包括:
基于所述所有事件类型编码和所述融合论元角色编码,进行事件类型抽取,获得事件类型抽取结果;
将所述事件类型抽取结果与正确事件抽取结果相比较,获得事件类型抽取准确率;
根据所述事件类型抽取准确率调整所述事件检测模块的参数,其中,在确认所述事件类型抽取准确率满足要求时终止对所述事件检测模块的训练得到目标事件抽取模块。
5.一种目标事件抽取的装置,其特征在于,所述装置包括:
文本编码模块,被配置为:
获取待抽取文本,并且对所述待抽取文本进行编码获得待抽取文本编码,其中,所述待抽取文本编码由多个字段特征组成;
根据所述待抽取文本编码,获取与所述多个字段特征相对应的多个实体标签编码;
将所述多个字段特征分别与相对应的实体标签编码进行加和计算,获得目标文本编码;
注意力机制模块,被配置为:
将所述目标文本编码和所有论元角色编码进行融合,获得融合论元角色编码和融合目标文本编码;
其中,所述注意力机制模块还被配置为:使所述所有论元角色编码学习所述目标文本编码的特征,获取与所述所有论元角色的维度相同的所述融合论元角色编码;使所述目标文本编码学习所述所有论元角色编码的特征,获得与所述目标文本编码的维度相同的所述融合目标文本编码;
目标事件抽取模块,被配置为:
基于所述融合论元角色编码进行事件类型抽取,获得事件类型抽取结果;
目标论元分类模块,被配置为:
基于所述融合目标文本编码进行论元角色抽取,获得论元角色抽取结果;
其中,所述目标论元分类模块是通过如下方法训练获得的:
获取融合训练文本编码;基于所述融合训练文本编码进行论元角色抽取,获得论元角色抽取结果;将所述论元角色抽取结果与正确论元抽取结果相比较,获得论元角色抽取准确率;根据所述论元角色抽取准确率调整论元分类模块的参数,其中,在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到所述目标论元分类模块。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括标签语义编码模块;
所述标签语义编码模块,被配置为:
获取多个事件类型描述语句;
提取所述多个事件类型描述语句中的所有事件类型、所有论元角色和所有实体标签;
对所述所有事件类型、所有论元角色和所有实体标签进行编码,获得所有事件类型编码、所述所有论元角色编码和所有实体标签编码。
7.一种事件抽取的方法,其特征在于,所述方法包括:
获取待抽取文本;
将所述待抽取文本输入到通过权利要求1-4任一项所述的方法训练获得的目标事件抽取模型中,获得事件类型抽取结果和论元角色抽取结果。
8.一种事件抽取的装置,其特征在于,所述装置包括:
编码获取模块,被配置为根据所有实体标签获取目标训练文本编码,并且获取所有论元角色编码;
编码融合模块,被配置为将所述目标训练文本编码和所有论元角色编码通过注意力机制模块进行融合,获得融合论元角色编码和融合训练文本编码;
分类训练模块,被配置为至少基于所述融合论元角色编码对事件检测模块进行训练,以及至少基于所述融合训练文本编码对论元分类模块进行训练;
其中,通过计算注意力机制计算的方式使所述所有论元角色编码学习所述目标训练文本编码中的特征,获得所述融合论元角色编码,并且所述融合论元角色编码用于进行事件类型检测;
通过计算所述注意力机制计算的方式使所述目标训练文本编码学习所述所有论元角色编码中的特征,获得所述融合训练文本编码,并且所述融合训练文本编码用于论元分类任务;
其中,所述分类训练模块还被配置为:
获取所述融合训练文本编码;基于所述融合训练文本编码进行论元角色抽取,获得论元角色抽取结果;将所述论元角色抽取结果与正确论元抽取结果相比较,获得论元角色抽取准确率;根据所述论元角色抽取准确率调整所述论元分类模块的参数,其中,在确认所述论元角色抽取准确率满足要求时终止对所述论元分类模块的训练得到目标论元分类模块。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线;
所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如权利要求1-4任一项所述方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被执行时实现如权利要求1-4任一项所述方法。
CN202210401413.5A 2022-04-18 2022-04-18 训练事件抽取模型的方法、事件抽取的方法、装置及介质 Active CN114490953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210401413.5A CN114490953B (zh) 2022-04-18 2022-04-18 训练事件抽取模型的方法、事件抽取的方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210401413.5A CN114490953B (zh) 2022-04-18 2022-04-18 训练事件抽取模型的方法、事件抽取的方法、装置及介质

Publications (2)

Publication Number Publication Date
CN114490953A CN114490953A (zh) 2022-05-13
CN114490953B true CN114490953B (zh) 2022-08-19

Family

ID=81489370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210401413.5A Active CN114490953B (zh) 2022-04-18 2022-04-18 训练事件抽取模型的方法、事件抽取的方法、装置及介质

Country Status (1)

Country Link
CN (1) CN114490953B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757189B (zh) * 2022-06-13 2022-10-18 粤港澳大湾区数字经济研究院(福田) 事件抽取方法、装置、智能终端及存储介质
CN115525776A (zh) * 2022-10-31 2022-12-27 中国电信股份有限公司 事件抽取模型训练方法、事件抽取方法以及相关设备
CN117648397B (zh) * 2023-11-07 2024-09-10 中译语通科技股份有限公司 篇章事件抽取方法、系统、设备及存储介质
CN117910473A (zh) * 2024-03-19 2024-04-19 北京邮电大学 融合实体类型信息的事件论元抽取方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704598A (zh) * 2019-09-29 2020-01-17 北京明略软件系统有限公司 一种语句信息的抽取方法、抽取装置及可读存储介质
CN111797241A (zh) * 2020-06-17 2020-10-20 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN111897908A (zh) * 2020-05-12 2020-11-06 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及系统
CN114298053A (zh) * 2022-03-10 2022-04-08 中国科学院自动化研究所 一种基于特征和注意力机制融合的事件联合抽取系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414482B (zh) * 2020-03-20 2024-02-20 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704598A (zh) * 2019-09-29 2020-01-17 北京明略软件系统有限公司 一种语句信息的抽取方法、抽取装置及可读存储介质
CN111897908A (zh) * 2020-05-12 2020-11-06 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111797241A (zh) * 2020-06-17 2020-10-20 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN114298053A (zh) * 2022-03-10 2022-04-08 中国科学院自动化研究所 一种基于特征和注意力机制融合的事件联合抽取系统

Also Published As

Publication number Publication date
CN114490953A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN114490953B (zh) 训练事件抽取模型的方法、事件抽取的方法、装置及介质
CN113312916B (zh) 基于触发词语态学习的金融文本事件抽取方法
CN110928997A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN115151903A (zh) 文本抽取方法及装置、计算机可读存储介质以及电子设备
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
EP3029607A1 (en) Method for text recognition and computer program product
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN115409018B (zh) 基于大数据的公司舆情监测系统及其方法
CN113821605A (zh) 一种事件抽取方法
CN114417785A (zh) 知识点标注方法、模型的训练方法、计算机设备及存储介质
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN117709465A (zh) 一种基于大语言模型的关键信息抽取方法
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN113836929B (zh) 命名实体识别方法、装置、设备及存储介质
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN114490954A (zh) 一种基于任务调节的文档级生成式事件抽取方法
CN115687939B (zh) 一种基于多任务学习的Mask文本匹配方法及介质
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN118318235A (zh) 建模注意力以改进分类并提供内在的可解释性
CN114416925B (zh) 敏感词识别方法、装置、设备、存储介质及程序产品
CN114385793B (zh) 一种事件抽取方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant