CN114840642A - 事件抽取方法、装置、设备及存储介质 - Google Patents

事件抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114840642A
CN114840642A CN202210503921.4A CN202210503921A CN114840642A CN 114840642 A CN114840642 A CN 114840642A CN 202210503921 A CN202210503921 A CN 202210503921A CN 114840642 A CN114840642 A CN 114840642A
Authority
CN
China
Prior art keywords
argument
parameters
parameter
input text
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210503921.4A
Other languages
English (en)
Inventor
聂芹芹
吴飞
王玉杰
方四安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Ustc Iflytek Co ltd
Original Assignee
Hefei Ustc Iflytek Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Ustc Iflytek Co ltd filed Critical Hefei Ustc Iflytek Co ltd
Priority to CN202210503921.4A priority Critical patent/CN114840642A/zh
Publication of CN114840642A publication Critical patent/CN114840642A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种事件抽取方法、装置、设备及存储介质,本申请预先配置了事件联合抽取模型,该模型同时融合了触发词识别任务、论元识别任务及论元关系识别任务三个子任务进行训练,三个子任务能够共享事件联合抽取模型的网络参数,使得训练得到的事件联合抽取模型在处理三个子任务时能够互相制约、促进,也即触发词识别过程会同时参考输入文本中的论元及论元关系的影响,论元识别过程也会同时参考输入文本中的触发词以及不同论元关系间的影响,论元关系识别过程也会同时参考输入文本中的触发词及论元的影响,三个子任务相辅相成,能够极大提升最终抽取的触发词、论元、论元类型及论元关系的准确度。

Description

事件抽取方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种事件抽取方法、装置、设备及存储介质。
背景技术
事件抽取(Event Extraction,EE)是NLP领域中一种经典的信息抽取任务,在商业、舆情等领域的信息收集、信息检索、文档合成、信息问答等工作方面有着广泛应用。事件抽取任务即将用户感兴趣的事件类型及相关的参数信息从半结构化、非结构化数据中抽取出来。
传统的机器学习方法将事件抽取任务建模为多分类问题。如将事件抽取分为触发词识别及论元参数识别等任务,不同任务分为串行的多个阶段进行处理,如在触发词识别阶段,训练触发词识别模型;在论元参数识别阶段,训练论元识别模型。并且,论元参数识别是在触发词识别的基础上进行的。由于先进行触发词识别,再进行论元参数识别,触发词识别模型不能够考虑到论元参数的影响,从而对触发词的识别产生影响,并且,论元参数的识别又依赖触发词的识别结果,容易产生曝光误差,即在触发词识别错误的情况下,导致论元参数识别也出现错误。
发明内容
鉴于上述问题,提出了本申请以便提供一种事件抽取方法、装置、设备及存储介质,以解决现有技术存在的触发词及论元参数抽取结果不准确的问题。具体方案如下:
第一方面,提供了一种事件抽取方法,包括:
获取待进行事件抽取的输入文本;
利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;其中,所述事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到;
基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
第二方面,提供了另一种事件抽取方法,包括:
获取待抽取事件论元的输入文本;
将所述输入文本输入预配置的论元抽取模型,得到模型输出的标签矩阵,其中,所述论元抽取模型以标注有标签矩阵的训练文本训练得到,标注的标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词至第j个分词之间的文本是否属于论元参数,以及在属于论元参数时对应的论元类型;
基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型。
第三方面,提供了再一种事件抽取方法,包括:
获取待抽取事件论元关系的输入文本;
将所述输入文本输入预配置的论元关系识别模型,得到模型输出的标签矩阵,其中,所述论元关系识别模型以标注有标签矩阵的训练文本训练得到,标注的标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词与第j个分词之间的关系类别,所述关系类别包括以第i、j个分词为首的论元参数之间存在关联H-H、以第i、j个分词为尾的论元参数之间存在关联E-E,以及除去关系H-H、E-E外的其余关系O;
基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系类别。
第四方面,提供了一种事件抽取装置,包括:
输入文本获取单元,用于获取待进行事件抽取的输入文本;
模型处理单元,用于利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;其中,所述事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到;
论元参数划分单元,用于基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
第五方面,提供了一种事件抽取设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上的事件抽取方法的各个步骤。
第六方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上的事件抽取方法的各个步骤。
借由上述技术方案,本申请预先配置了事件联合抽取模型,该模型同时融合了触发词识别任务、论元识别任务及论元关系识别任务三个子任务进行训练,三个子任务能够共享事件联合抽取模型的网络参数,使得训练得到的事件联合抽取模型在处理三个子任务时能够互相制约、促进,也即触发词识别过程会同时参考输入文本中的论元及论元关系的影响,论元识别过程也会同时参考输入文本中的触发词以及不同论元关系间的影响,论元关系识别过程也会同时参考输入文本中的触发词及论元的影响,三个子任务相辅相成,能够极大提升最终抽取的触发词、论元、论元类型及论元关系的准确度。
进一步,本案在传统的触发词、论元识别的基础上,进一步增加了论元关系的识别,通过融合论元关系识别任务,能够增强触发词及论元参数识别的准确度。并且,对于一些复杂场景,如多事件糅杂的场景,不同事件间的论元参数可能存在重叠,按照现有技术无法区分不同事件的论元参数,本申请通过增加论元关系识别任务,模型最终能够识别出各个论元参数之间的关系,从而能够辅助理清属于不同场景的论元参数,对解决多事件糅杂问题起到很好的帮助。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的事件抽取方法的一流程示意图;
图2示例了一种事件联合抽取模型结构示意图;
图3示例了一种论元参数标注示意图;
图4示例了一种论元参数关系连接示意图;
图5示例了一种论元参数关系标注示意图;
图6为本申请实施例提供的一种事件抽取装置结构示意图;
图7为本申请实施例提供的事件抽取设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种事件抽取方案,能够从文本中抽取出事件信息,如触发词、论元参数及类型、论元参数间的关系等。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图1所述,本申请的事件抽取方法可以包括如下步骤:
步骤S100、获取待进行事件抽取的输入文本。
具体地,输入文本为需要进行事件抽取的自然语言文本。
步骤S110、利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系。
其中,事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到。
本实施例中,为了提高事件抽取结果的准确度,同时减少机器资源消耗,预先训练了融合触发词识别、论元识别、论元关系识别三个任务的事件联合抽取模型,能够在识别触发词的同时,实现论元参数纪类型的识别以及论元参数间关系的识别。
在模型训练过程,可以采用携带有标签的训练文本进行训练,其中,为了实现三个任务,训练文本的标签可以包括触发词标签、论元标签、论元类型标签及论元关系标签。
步骤S120、基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
具体地,根据输入文本所属场景的不同,其中包含的事件可能有一条或多条。为了更好的区分不同事件所属的论元参数,本步骤中基于模型输出的各论元参数间的关系,将各论元参数划分为至少一个集合,一个集合中的各论元参数对应一个事件,不同集合对应不同的事件。
本申请实施例提供的事件抽取方法,通过预先配置了事件联合抽取模型,该模型同时融合了触发词识别任务、论元识别任务及论元关系识别任务三个子任务进行训练,三个子任务能够共享事件联合抽取模型的网络参数,使得训练得到的事件联合抽取模型在处理三个子任务时能够互相制约、促进,也即触发词识别过程会同时参考输入文本中的论元及论元关系的影响,论元识别过程也会同时参考输入文本中的触发词以及不同论元关系间的影响,论元关系识别过程也会同时参考输入文本中的触发词及论元的影响,三个子任务相辅相成,能够极大提升最终抽取的触发词、论元、论元类型及论元关系的准确度。
进一步,本申请在传统的触发词、论元识别的基础上,进一步增加了论元关系的识别,通过融合论元关系识别任务,能够增强触发词及论元参数识别的准确度。并且,对于一些复杂场景,如多事件糅杂的场景,不同事件间的论元参数可能存在重叠,按照现有技术无法区分不同事件的论元参数,本申请通过增加论元关系识别任务,模型最终能够识别出各个论元参数之间的关系,从而能够辅助理清属于不同场景的论元参数,对解决多事件糅杂问题起到很好的帮助。
在本申请的一些实施例中,为了保证不同事件数据的界限,事件联合抽取模型可以被配置为,以触发词识别结果来引导对应论元参数的识别以及论元参数间关系的识别。具体地,事件联合抽取模型可以被配置为:对输入文本进行编码,基于编码向量预测输入文本包含的触发词,以及,对触发词的编码向量及输入文本的编码向量进行组合,基于组合编码向量分别预测输入文本包含的论元参数、论元类型及各论元参数间的关系的内部状态表示。
结合图2,介绍一种可选的事件联合抽取模型的组成结构。事件联合抽取模型可以包括编码模块、编码组合模块、触发词抽取模块、论元抽取模块和论元关系识别模块,其中:
1)编码模块用于对输入文本进行编码,得到文本编码向量。
编码模块可以采用BERT编码或其它编码方式,由于BERT是采用双向Transformer作为特征抽取器,因此能够很好的学习到深层语义信息。
对于输入文本可以表示为:
X={x0,x1,x2,...,xn-2,xn-1}
其中,n为输入文本包含分词token数量。按照BERT的编码规则,在输入文本首尾分别拼接[CLS]和[SEP]后输入到BERT编码模块中,得到文本编码向量:
E={ecls,e0,e1,e2,...,en-2,en-1,esep}。
E={ecls,e0,e1,e2,...,en-2,en-1,esep}=BERT({x0,x1,x2,...,xn-2,xn-1})
2)触发词抽取模块用于基于所述文本编码向量,预测输入文本包含的触发词。
触发词抽取模块可以采用序列标注方法,如采用LSTM+CRF的模型组合,经编码模块编码后的文本编码向量E输入至触发词抽取模块之后,可以直接得到需要的序列标注结果。
本实施例中触发词抽取模块可以采用BIO序列标注方法,对于输入文本X,其对应的序列标注结果为Ytrg
Ytrg={y0,y1,y2,...,yn-2,yn-1}
其中,yi为xi对应的类型,若xi不为触发词,则yi=O;若xi为触发词的首位,则yi=B-type,其中type为触发词类型;若xi为触发词的非首位,则yi=I-type。
参照图2示例的输入文本“14日中刘小明在北京露面”,其对应的触发词标注结果如下表1所示:
X 14
Y<sub>trg</sub> O O O O O O O O O B-出现 I-出现
以触发词抽取模块采用LSTM+CRF的模型组合为例:
Ytrg=LSTM-CRF({ecls,e0,e1,e2,...,en-2,en-1,esep})
3)编码组合模块用于对触发词抽取模块输出的每一组触发词进行编码,将一组触发词的编码向量与所述文本编码向量组合,得到组合编码向量。
具体地,为了使得论元抽取模块抽取论元参数时能够考虑到触发词的影响,本实施例中以触发词来引导论元参数的抽取,以及论元关系的识别。将触发词抽取模块输出的每一组触发词进行编码后,与文本编码结果组合,得到组合编码向量,该组合编码向量用于供论元抽取模块及论元关系识别模块输入使用。
同时,考虑到输入文本中可能存在多组触发词,编码组合模块每次对一组触发词的编码结果与文本编码结果组合,后续输入至论元抽取模块及论元关系识别模块时,一次仅输入一组触发词对应的组合编码向量,能够更好的区分不同事件数据的界限。
由上文可知,触发词抽取结果表示为Ytrg,则一组触发词可以表示为Ytrg。本实施例中在对触发词进行编码时,可以采用label-embedding的方法,触发词编码结果表示为Etrg,将触发词编码结果与文本编码结果E相加,作为组合编码向量Xarg
Etrg=BERT(Ytrg)
Xarg=Etrg+E
4)论元抽取模块用于基于所述组合编码向量预测输入文本包含的论元参数,以及每一论元参数的论元类型。
具体地,论元抽取模块的输入为组合编码向量Xarg,输出的论元参数可以表示为Outputarg。论元抽取模块可以基于输入的组合编码向量,预测输入文本中包含的论元参数,以及每一论元参数的论元类型。
5)论元关系识别模块用于基于所述组合编码向量预测输入文本包含各论元参数间的关系。
具体地,论元关系识别模块的输入为组合编码向量Xarg,输出的论元关系可以表示为Outputrel。论元关系识别模块可以基于输入的组合编码向量,预测输入文本中各论元参数间的关系。
在本申请的一些实施例中,介绍事件联合抽取模型的一种可选训练方式。
由于本申请的事件联合抽取模型融合了触发词抽取、论元参数及类型抽取、论元关系识别三种任务,因此在训练模型时可以获取标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本。
进一步将训练文本输入事件联合抽取模型,得到模型预测输出的训练文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系。基于模型预测的训练文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系,以及训练文本标注的所述触发词标签、论元标签、论元类型标签及论元关系标签,确定总损失函数,并按照所述总损失函数更新所述事件联合抽取模型的网络参数,直至达到设定训练结束条件。
以上述实施例介绍的事件联合抽取模型的结构为例,包含三个任务模块即:触发词抽取模块、论元抽取模块和论元关系识别模型,因此事件联合抽取模型训练时的loss函数可以由三个任务模块的loss之和组成。
在本申请的一些实施例中,对事件联合抽取模型的训练过程做进一步介绍。
考虑到现有的事件抽取任务存在文本重叠问题及单论元多类型问题:
(1)文本重叠问题:对于文本中的两个论元参数,会有部分内容重叠,如“沈从文自传”文本中,“沈从文自传”与“沈从文”两个论元参数分别属于作品和作者参数类型,两个论元参数存在重叠。
(2)单论元多类型问题:在一些文本中,某些论元参数可能对应多个参数类型,如“考虑礼貌问题,小明检查了自己”,其中“小明”分别为“检查”事件的主体和客体。
对于现有的序列标注方法,由于序列标注中一个分词token是不能存在两个以上的标签的,因此对于文本重叠及单论元多类型问题是无法解决的。为此,本实施例中提供了一种解决方案:
本实施例中提供了一种基于多标签分类的填表标注方式,在模型训练阶段,采用标签矩阵形式对训练文本标注论元标签及论元类型标签。具体地,训练文本标注的论元标签及论元类型标签包括第一标签矩阵,该第一标签矩阵为n*n的矩阵,n为训练文本包含的分词token数量,第一标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词至第j个分词之间的文本是否属于论元参数,以及在属于论元参数时对应的论元类型。
可以理解的是,第一标签矩阵中可以通过设置不同元素的值来表示文本是否属于论元参数,以及在属于论元参数时对应的论元类型。
参考图3示例的第一标签矩阵的标注示意图,以训练文本为“14日刘小明在北京露面”为例,第一标签矩阵为11*11的矩阵,矩阵中元素的值并未在图3中示例出,图3仅示例性的对第一标签矩阵进行说明。其中,用斜线填充的几个位置,分别表示训练文本中几个论元参数及其类型。如,第1行第2列对应的论元参数为“14日”,对应的论元类型为“时间”。第3行第6列对应的论元参数为“中”,对应的论元类型有两种,分别为“主体所属”和“国籍”。
按照本申请实施例提供的标注方式,可以有效解决文本重叠问题及单论元多类型问题。
基于本实施例的标注方式所训练的事件联合抽取模型,处理输入文本,得到输入文本包含的论元参数、各论元参数的论元类型的过程,可以包括:
S1利用事件联合抽取模型处理输入文本,得到模型输出的第一标签矩阵;
S2、基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型。
进一步地,本申请实施例中提供了第一标签矩阵中元素值的一种可选标记形式。
在训练阶段,训练文本对应的第一标签矩阵中,第i行第j列的元素的值可以用1*num_arg的向量表示,num_arg为论元类型的类别数,向量中所属的论元类型对应位置的值为1,其余位置为0。
具体地,对于第i行第j列的元素的值1*num_arg可以表示为:
(i,j)={a0,a1,...,aλ,...,anum_arg-2,anum_arg-1}
其中,num_arg为论元类型的类别数,aλ为训练文本中第i个分词至第j个分词之间的文本xi:xj,属于第λ个论元类型的概率。由于训练阶段训练文本中每个分词是否为论元是确定的,若第i个分词至第j个分词之间的文本不属于论元参数,则第一标签矩阵中第i行第j列的向量中各位置均为0;若第i个分词至第j个分词之间的文本属于论元参数,且其所属的论元类型也是确定的,则第一标签矩阵中第i行第j列的向量中,对于所属论元类型对应位置的值为1,其余位置为0。
以图3为例,其中第3行第6列对应的论元参数为“中”,对应的论元类型有两种,分别为“主体所属”和“国籍”,则第一标签矩阵中第3行第6列的向量元素中,类型“主体所属”和“国籍”对应的位置值为1,其余为0。
基于上述第一标签矩阵的标注方式,在训练事件联合抽取模型时,可以通过多标签分类实现论元参数及论元类型的抽取,其中多标签分类阈值可以根据实际情况设置,如设置为0.5。对于模型输出的第一标签矩阵,可以按照多标签分类阈值进行处理,将大于等于阈值的元素值调整为1,将小于阈值的元素值调整为0,得到的最终的第一标签矩阵中的元素值全部由0和1组成。
Outputarg=sigmoid(Warg*Xarg+barg)
其中,Warg和barg为模型参数。
按照上述第一标签矩阵标注形式,前述步骤S2,基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型的过程,具体可以包括:
S21、在模型输出的第一标签矩阵中查找非全0向量元素的位置,所述位置包括向量在第一标签矩阵中所处目标行数x及目标列数y;
S22、对于每一非全0向量元素,基于其位置确定所述输入文本中第x个分词至第y个分词之间的文本属于论元参数,以及,确定所述非全0向量元素中值为1的位置对应的目标论元类型,作为所述论元参数的论元类型。
再进一步的,现有的事件抽取任务在处理某些复杂场景时还可能存在多事件糅杂问题。对于一个事件,由触发词和论元参数组成。同一事件的触发词以及论元参数之间一定是有所联系的,不同事件间所包含的参数是不一致的,且论元参数间是没有关联的。对于某些文本中,一个触发词对应了多个事件。参照图4所示,对于文本:“10日,小明和小红分别去刘奶奶、牛奶奶家帮忙打扫卫生。”,文本中触发词“打扫卫生”对应了两个事件:“10日,小明去刘奶奶家帮忙打扫卫生”与“10日,小红去牛奶奶家帮忙打扫卫生”。两个事件共享了时间参数“10日”。对于此类多事件糅杂问题,现有技术无法很好的区分不同事件所属的论元参数。
本实施例中,基于图的思想来定义论元参数间的关系,构造一种新的标注方式,实现论元关系的识别。
具体地,在事件联合抽取模型训练阶段,采用标签矩阵形式对训练文本标注论元关系标签。具体地,训练文本标注的论元关系标签包括第二标签矩阵,该第二标签矩阵为n*n的矩阵,第二标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词与第j个分词之间的关系类别,所述关系类别包括以第i、j个分词为首的论元参数之间存在关联H-H、以第i、j个分词为尾的论元参数之间存在关联E-E,以及除去关系H-H、E-E外的其余关系O。
可以理解的是,第二标签矩阵中可以通过设置不同元素的值来表示分词间不同的关系类别。
参考图5示例的第二标签矩阵的标注示意图,以训练文本为“14日刘小明在北京露面”为例,第二标签矩阵为11*11的矩阵,矩阵中元素的值并未在图5中示例出,图5仅示例性的对第二标签矩阵进行说明。其中,用网格填充的位置表示H-H关系,用竖线填充的位置表示E-E关系,其余空白填充的位置表示O关系。示例如,论元参数“14日”与“北京”之间存在关系,则图5中“14”与“北”对应的位置(第1行第8列,以及,第1列第8行)用网格填充,“日”与“京”对应的位置(第2行第9列,以及,第2列第9行)用竖线填充。
按照本申请实施例提供的标注方式,训练得到的事件联合抽取模型可以预测输入文本中包含的各个论元参数间的关系,在知道了论元参数间关系之后,可以更好的梳理不同事件所属的论元参数,可以有效解决多事件糅杂问题。
基于本实施例的标注方式所训练的事件联合抽取模型,处理输入文本,得到输入文本包含的论元参数间关系的过程,可以包括:
S1利用事件联合抽取模型处理输入文本,得到模型输出的第二标签矩阵;
S2、基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系。
进一步地,本申请实施例中提供了第二标签矩阵中元素值的一种可选标记形式。
在训练阶段,训练文本对应的第二标签矩阵中,第i行第j列的元素的值为1*num_rel的向量,num_rel为论元关系的类别数3(H-H关系、E-E关系以及O关系),向量中所属的论元关系类别对应位置的值为1,其余位置为0。
具体地,对于第i行第j列的元素的值1*num_rel可以表示为:
(i,j)={a0,a1,a2}
其中,ak为训练文本中第i个分词与第j个分词之间属于第k中关系类型的概率。由于训练阶段训练文本中每个分词是否为论元是确定的,若第i个分词与第j个分词并非论元参数的首/尾分词,则第二标签矩阵中第i行第j列的向量中对于所属O关系类型对应位置的值为1,其余位置为0;若第i个分词与第j个分词属于论元参数的首分词,则第二标签矩阵中第i行第j列的向量中,对于所属H-H关系类型对应位置的值为1,其余位置为0;若第i个分词与第j个分词属于论元参数的尾分词,则第二标签矩阵中第i行第j列的向量中,对于所属E-E关系类型对应位置的值为1,其余位置为0。
基于上述第二标签矩阵的标注方式,事件联合抽取模型输出的第二标签矩阵可以表示为:
Outputrel=softmax(Wrel*Xarg+brel)
其中,Wrel和brel为模型参数。
按照上述第二标签矩阵标注形式,前述步骤S2,基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系的过程,具体可以包括:
S21、在所述模型输出的第二标签矩阵中,对于第z行第h列的向量元素:
确定其中值为1的位置对应的目标论元关系类别,作为所述输入文本中第z个分词与第h个分词之间的论元关系。
在本申请的一些实施例中,对前述实施例中步骤S120,基于所述各论元参数间的关系,将各论元参数划分为至少一个集合的过程进行介绍。
一种可选的方式下,在确定了各论元参数间的关系后,可以绘制论元参数关系图,并基于论元参数关系图进行不同事件所属论元参数的划分。具体地,按照如下步骤实施:
S1、以论元参数作为顶点,将存在关联关系的论元参数代表的顶点间连线,得到论元参数关系图。
S2、在所述论元参数关系图中选择一个未添加到集合中的顶点作为目标顶点,添加至创建的空的集合中。
S3、确定与所述目标顶点连接的邻居顶点,将所述邻居顶点添加到所述集合中,并将所述邻居顶点作为新的目标顶点,返回执行S3确定与所述目标顶点连接的邻居顶点的步骤,直至找不到新的邻居顶点为止。
S4、判断所述论元参数关系图中是否还存在未添加到集合中的顶点,若否,结束,若是,返回执行在所述论元参数关系图中选择一个未添加到集合中的顶点作为目标顶点,添加至创建的空的集合中的步骤。
本实施例介绍的方案对于一些简单场景可以很好的适配,但是,对于不同事件共享论元参数的情况,容易出现划分错误的情况。
为此,本申请进一步提供了另一种论元参数划分方式,为了能够识别不同事件共享的论元参数,准确的解析不同事件的论元参数,本实施例中基于图算法的思想设计了一种方案:
为了衡量论元参数间关系的强度,本申请定义论元参数间的关联度:
Asso(i,j)=mean(fE-E,fH-H)
其中,fE-E为论元参数i与论元参数j的末尾分词间存在关联关系的概率值,fH-H为论元参数i与论元参数j的首个分词间存在关联关系的概率值,两个参量均可以在事件联合抽取模型输出的结果中获取,mean()函数表示求平均值。
则每个论元参数的节点度为与该论元参数存在关联关系的所有论元参数的关联度之和:
Figure BDA0003636557240000141
其中,I为与论元参数i存在关联关系的所有论元参数的集合。
本实施例中设定了一个适应度函数,通过使得该适应度函数最大化来实现各论元参数的集合划分:
Figure BDA0003636557240000142
其中,K为划分的集合数,
Figure BDA0003636557240000143
为第k个集合的内部度,其为集合内所有论元参数间的关联度Asso之和,
Figure BDA0003636557240000144
为第k个集合的外部度,其为集合内所有论元参数与集合外各论元参数间的关联度Asso之和。
本实施例中进一步提供了一种解析算法,通过该解析算法实现以最大化设定的适应度函数为目标,将各论元参数划分为至少一个集合的目的。具体解析算法的流程如下:
S1、在未添加到集合的各论元参数中,选择节点度最高的论元参数作为初始论元参数。
S2、创建一空白的集合,将所述初始论元参数添加至创建的集合中。
S3、对于与所述初始论元参数具备关联关系的每个邻居论元参数,计算所述邻居论元参数对于所述集合的适应度:存在和不存在所述邻居论元参数时集合的适应度变化值。
具体地,适应度可以通过上述适应度函数计算得到。存在所述邻居论元参数时集合的适应度,减去不存在所述邻居论元参数时集合的适应度作为适应度变化值,邻居论元参数对于集合的适应度等于所述适应度变化值。
S4、从所有邻居论元参数中选择适应度最大的邻居论元参数添加至集合中,并更新集合的适应度,返回执行步骤S3,计算所述邻居论元参数对于所述集合的适应度的步骤,直至没有邻居论元参数使得集合的适应度增加。
S5、计算集合中除初始论元参数外的每个论元参数对于所述集合的适应度:存在和不存在论元参数时集合的适应度变化值。
S6、从集合中删除适应度最小的论元参数,并更新集合的适应度,返回执行步骤S5,计算集合中除初始论元参数外的每个论元参数对于所述集合的适应度的步骤,直至集合中没有论元参数使得集合的适应度减少。
S7、判断是否还存在未添加到任何集合中的论元参数,若是,返回执行步骤S1,在未添加到集合的各论元参数中,选择节点度最高的论元参数作为初始论元参数的步骤;若否,结束,得到各个集合,每一集合对应一事件所属的论元参数。
按照本实施例提供的解析算法,对于图4示例的各论元参数关系,最终将会划分为两个集合,一个集合为[小明,刘奶奶家,10日],另一个集合为[小红,10日,牛奶奶家]。
在本申请的一些实施例中,还提供了另一种事件抽取方法,用于在输入文本中抽取事件论元参数,并且,能够解决文本重叠问题及单论元多类型问题。具体方案如下:
S1、获取待抽取事件论元的输入文本。
S2、将所述输入文本输入预配置的论元抽取模型,得到模型输出的标签矩阵。
其中,所述论元抽取模型以标注有标签矩阵的训练文本训练得到,标注的标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词至第j个分词之间的文本是否属于论元参数,以及在属于论元参数时对应的论元类型。
具体地,本实施例中的标签矩阵可以参考前文介绍的第一标签矩阵,详细不再赘述。
S3、基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型。
可选的,所述论元抽取模型训练过程标注的标签矩阵中,第i行第j列的元素的值为1*num_arg的向量,num_arg为论元类型的类别数,向量中所属的论元类型对应位置的值为1,其余位置为0。在此基础上,上述步骤S3,基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型的过程,可以包括:
在所述模型输出的标签矩阵中查找非全0向量元素的位置,所述位置包括向量在标签矩阵中所处目标行数x及目标列数y;
对于每一非全0向量元素,基于其位置确定所述输入文本中第x个分词至第y个分词之间的文本属于论元参数,以及,确定所述非全0向量元素中值为1的位置对应的目标论元类型,作为所述论元参数的论元类型。
按照本实施例提供的标签矩阵标注形式,能够以多标签形式对训练文本进行论元及论元类型的标注,基于此训练的事件联合抽取模型,能够解决文本重叠问题及单论元多类型问题。
可选的,所述论元关系识别模型训练过程标注的标签矩阵中,第i行第j列的元素的值为1*num_rel的向量,num_rel为论元关系的类别数3,向量中所属的论元关系类别对应位置的值为1,其余位置为0。在此基础上,上述步骤S3,基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中各论元间的关系类别的过程,可以包括:
在所述模型输出的第二标签矩阵中,对于第z行第h列的向量元素:
确定其中值为1的位置对应的目标论元关系类别,作为所述输入文本中第z个分词与第h个分词之间的论元关系。
按照本实施例提供的标签矩阵标注形式,能够以分词为单位进行论元参数关系的标注,基于此训练的事件联合抽取模型,能够识别输入文本中包含的各论元参数间的关系,解决多事件糅杂问题。
在本申请的一些实施例中,还提供了另一种事件抽取方法,用于在输入文本中抽取事件论元关系,并且,能够解决多事件糅杂问题。具体方案如下:
S1、获取待抽取事件论元关系的输入文本。
S2、将所述输入文本输入预配置的论元关系识别模型,得到模型输出的标签矩阵。
其中,所述论元关系识别模型以标注有标签矩阵的训练文本训练得到,标注的标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词与第j个分词之间的关系类别,所述关系类别包括以第i、j个分词为首的论元参数之间存在关联H-H、以第i、j个分词为尾的论元参数之间存在关联E-E,以及除去关系H-H、E-E外的其余关系O。
具体地,本实施例中的标签矩阵可以参考前文介绍的第二标签矩阵,详细不再赘述。
S3、基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系类别。
在得到各论元参数关系之后,还可以基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
具体地,基于各论元参数间的关系,将各论元参数划分为至少一个集合的过程可以参照前文相关介绍,此处不再赘述。
下面对本申请实施例提供的事件抽取装置进行描述,下文描述的事件抽取装置与上文描述的事件抽取方法可相互对应参照。
参见图6,图6为本申请实施例公开的一种事件抽取装置结构示意图。
如图6所示,该装置可以包括:
输入文本获取单元11,用于获取待进行事件抽取的输入文本;
模型处理单元12,用于利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;其中,所述事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到;
论元参数划分单元13,用于基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
可选的,上述事件联合抽取模型可以被配置为:对输入文本进行编码,基于编码向量预测输入文本包含的触发词,以及,对触发词的编码向量及输入文本的编码向量进行组合,基于组合编码向量分别预测输入文本包含的论元参数、论元类型及各论元参数间的关系的内部状态表示。
可选的,上述事件联合抽取模型可以包括编码模块、编码组合模块、触发词抽取模块、论元抽取模块和论元关系识别模块。在此基础上,上述模型处理单元利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数以及各论元参数间的关系的过程,可以包括:
利用所述编码模块对输入文本进行编码,得到文本编码向量;
利用所述触发词抽取模块基于所述文本编码向量,预测输入文本包含的触发词;
利用所述编码组合模块对所述触发词抽取模块输出的每一组触发词进行编码,将一组触发词的编码向量与所述文本编码向量组合,得到组合编码向量;
利用所述论元抽取模块基于所述组合编码向量预测输入文本包含的论元参数,以及每一论元参数的论元类型;
利用所述论元关系识别模块基于所述组合编码向量预测输入文本包含各论元参数间的关系。
可选的,本申请的装置还可以包括模型训练单元,用于训练得到事件联合抽取模型,事件联合抽取模型的训练过程,可以包括:
获取标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本;
将所述训练文本输入事件联合抽取模型,得到模型预测的所述训练文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;
基于模型预测的所述训练文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系,以及训练文本标注的所述触发词标签、论元标签、论元类型标签及论元关系标签,确定总损失函数,并按照所述总损失函数更新所述事件联合抽取模型的网络参数,直至达到设定训练结束条件。
可选的,上述训练文本标注的论元标签及论元类型标签可以包括:第一标签矩阵,所述第一标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,第一标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词至第j个分词之间的文本是否属于论元参数,以及在属于论元参数时对应的论元类型。在此基础上,上述模型处理单元利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的论元参数、各论元参数的论元类型的过程,可以包括:
利用预配置的事件联合抽取模型处理所述输入文本,得到模型输出的第一标签矩阵;
基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型。
可选的,上述事件联合抽取模型训练过程训练文本标注的第一标签矩阵中,第i行第j列的元素的值为1*num_arg的向量,num_arg为论元类型的类别数,向量中所属的论元类型对应位置的值为1,其余位置为0;则,模型处理单元基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型的过程,可以包括:
在所述模型输出的第一标签矩阵中查找非全0向量元素的位置,所述位置包括向量在第一标签矩阵中所处目标行数x及目标列数y;
对于每一非全0向量元素,基于其位置确定所述输入文本中第x个分词至第y个分词之间的文本属于论元参数,以及,确定所述非全0向量元素中值为1的位置对应的目标论元类型,作为所述论元参数的论元类型。
可选的,上述训练文本标注的论元关系标签可以包括:第二标签矩阵,所述第二标签矩阵为n*n的矩阵,第二标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词与第j个分词之间的关系类别,所述关系类别包括以第i、j个分词为首的论元参数之间存在关联H-H、以第i、j个分词为尾的论元参数之间存在关联E-E,以及除去关系H-H、E-E外的其余关系O。在此基础上,上述模型处理单元利用预配置的事件联合抽取模型处理所述输入文本,得到各论元参数间的关系的过程,可以包括:
利用预配置的事件联合抽取模型处理所述输入文本,得到模型输出的第二标签矩阵;
基于所述模型输出的第二标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系。
可选的,上述事件联合抽取模型训练过程训练文本标注的第二标签矩阵中,第i行第j列的元素的值为1*num_rel的向量,num_rel为论元关系的类别数3,向量中所属的论元关系类别对应位置的值为1,其余位置为0;则,模型处理单元基于所述模型输出的第二标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系的过程,可以包括:
在所述模型输出的第二标签矩阵中,对于第z行第h列的向量元素:
确定其中值为1的位置对应的目标论元关系类别,作为所述输入文本中第z个分词与第h个分词之间的论元关系。
可选的,上述论元参数划分单元基于所述各论元参数间的关系,将各论元参数划分为至少一个集合的过程,可以包括:
以论元参数作为顶点,将存在关联关系的论元参数代表的顶点间连线,得到论元参数关系图;
在所述论元参数关系图中选择一个未添加到集合中的顶点作为目标顶点,添加至创建的空的集合中;
确定与所述目标顶点连接的邻居顶点,将所述邻居顶点添加到所述集合中,并将所述邻居顶点作为新的目标顶点,返回执行所述确定与所述目标顶点连接的邻居顶点的步骤,直至找不到新的邻居顶点为止;
判断所述论元参数关系图中是否还存在未添加到集合中的顶点,若否,结束,若是,返回执行在所述论元参数关系图中选择一个未添加到集合中的顶点作为目标顶点,添加至创建的空的集合中的步骤。
可选的,上述论元参数划分单元基于所述各论元参数间的关系,将各论元参数划分为至少一个集合的过程,可以包括:
以最大化设定的适应度函数为目标,将各论元参数划分为至少一个集合,其中所述适应度函数为:
Figure BDA0003636557240000211
其中,K为划分的集合数,
Figure BDA0003636557240000212
为第k个集合的内部度,其为集合内所有论元参数间的关联度Asso之和,
Figure BDA0003636557240000213
为第k个集合的外部度,其为集合内所有论元参数与集合外各论元参数间的关联度Asso之和;
其中,论元参数i、j间的关联度Asso为:
Asso(i,j)=mean(fE-E,fH-H)
fE-E为论元参数i与论元参数j的末尾分词间存在关联关系的概率值,fH-H为论元参数i与论元参数j的首个分词间存在关联关系的概率值,mean()函数表示求平均值。
可选的,上述论元参数划分单元以最大化设定的适应度函数为目标,将各论元参数划分为至少一个集合的过程,可以包括:
在未添加到集合的各论元参数中,选择节点度最高的论元参数作为初始论元参数,其中,论元参数i的节点度表示为:
Figure BDA0003636557240000214
其中,I为与论元参数i存在关联关系的所有论元参数的集合;
创建一空白的集合,将所述初始论元参数添加至创建的集合中;
对于与所述初始论元参数具备关联关系的每个邻居论元参数,计算所述邻居论元参数对于所述集合的适应度:存在和不存在所述邻居论元参数时集合的适应度变化值;
从所有邻居论元参数中选择适应度最大的邻居论元参数添加至集合中,并更新集合的适应度,返回执行计算所述邻居论元参数对于所述集合的适应度的步骤,直至没有邻居论元参数使得集合的适应度增加;
计算集合中除初始论元参数外的每个论元参数对于所述集合的适应度:存在和不存在论元参数时集合的适应度变化值;
从集合中删除适应度最小的论元参数,并更新集合的适应度,返回执行计算集合中除初始论元参数外的每个论元参数对于所述集合的适应度的步骤,直至集合中没有论元参数使得集合的适应度减少;
判断是否还存在未添加到任何集合中的论元参数,若否,结束,若是,返回执行在未添加到集合的各论元参数中,选择节点度最高的论元参数作为初始论元参数的步骤。
本申请实施例提供的事件抽取装置可应用于事件抽取设备,如终端:手机、电脑等。可选的,图7示出了事件抽取设备的硬件结构框图,参照图7,事件抽取设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待进行事件抽取的输入文本;
利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;其中,所述事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到;
基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待进行事件抽取的输入文本;
利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;其中,所述事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到;
基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (20)

1.一种事件抽取方法,其特征在于,包括:
获取待进行事件抽取的输入文本;
利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;其中,所述事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到;
基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
2.根据权利要求1所述的方法,其特征在于,所述事件联合抽取模型被配置为:对输入文本进行编码,基于编码向量预测输入文本包含的触发词,以及,对触发词的编码向量及输入文本的编码向量进行组合,基于组合编码向量分别预测输入文本包含的论元参数、论元类型及各论元参数间的关系的内部状态表示。
3.根据权利要求2所述的方法,其特征在于,所述事件联合抽取模型包括编码模块、编码组合模块、触发词抽取模块、论元抽取模块和论元关系识别模块;
所述利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数以及各论元参数间的关系,包括:
利用所述编码模块对输入文本进行编码,得到文本编码向量;
利用所述触发词抽取模块基于所述文本编码向量,预测输入文本包含的触发词;
利用所述编码组合模块对所述触发词抽取模块输出的每一组触发词进行编码,将一组触发词的编码向量与所述文本编码向量组合,得到组合编码向量;
利用所述论元抽取模块基于所述组合编码向量预测输入文本包含的论元参数,以及每一论元参数的论元类型;
利用所述论元关系识别模块基于所述组合编码向量预测输入文本包含各论元参数间的关系。
4.根据权利要求1所述的方法,其特征在于,所述事件联合抽取模型的训练过程,包括:
获取标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本;
将所述训练文本输入事件联合抽取模型,得到模型预测的所述训练文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;
基于模型预测的所述训练文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系,以及训练文本标注的所述触发词标签、论元标签、论元类型标签及论元关系标签,确定总损失函数,并按照所述总损失函数更新所述事件联合抽取模型的网络参数,直至达到设定训练结束条件。
5.根据权利要求4所述的方法,其特征在于,所述训练文本标注的论元标签及论元类型标签包括:第一标签矩阵,所述第一标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,第一标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词至第j个分词之间的文本是否属于论元参数,以及在属于论元参数时对应的论元类型。
6.根据权利要求5所述的方法,其特征在于,利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的论元参数、各论元参数的论元类型的过程,包括:
利用预配置的事件联合抽取模型处理所述输入文本,得到模型输出的第一标签矩阵;
基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型。
7.根据权利要求6所述的方法,其特征在于,所述事件联合抽取模型训练过程训练文本标注的第一标签矩阵中,第i行第j列的元素的值为1*num_arg的向量,num_arg为论元类型的类别数,向量中所属的论元类型对应位置的值为1,其余位置为0;
则,所述基于所述模型输出的第一标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型,包括:
在所述模型输出的第一标签矩阵中查找非全0向量元素的位置,所述位置包括向量在第一标签矩阵中所处目标行数x及目标列数y;
对于每一非全0向量元素,基于其位置确定所述输入文本中第x个分词至第y个分词之间的文本属于论元参数,以及,确定所述非全0向量元素中值为1的位置对应的目标论元类型,作为所述论元参数的论元类型。
8.根据权利要求4所述的方法,其特征在于,所述训练文本标注的论元关系标签包括:第二标签矩阵,所述第二标签矩阵为n*n的矩阵,第二标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词与第j个分词之间的关系类别,所述关系类别包括以第i、j个分词为首的论元参数之间存在关联H-H、以第i、j个分词为尾的论元参数之间存在关联E-E,以及除去关系H-H、E-E外的其余关系O。
9.根据权利要求8所述的方法,其特征在于,利用预配置的事件联合抽取模型处理所述输入文本,得到各论元参数间的关系的过程,包括:
利用预配置的事件联合抽取模型处理所述输入文本,得到模型输出的第二标签矩阵;
基于所述模型输出的第二标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系。
10.根据权利要求9所述的方法,其特征在于,所述事件联合抽取模型训练过程训练文本标注的第二标签矩阵中,第i行第j列的元素的值为1*num_rel的向量,num_rel为论元关系的类别数3,向量中所属的论元关系类别对应位置的值为1,其余位置为0;
则,所述基于所述模型输出的第二标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系,包括:
在所述模型输出的第二标签矩阵中,对于第z行第h列的向量元素:
确定其中值为1的位置对应的目标论元关系类别,作为所述输入文本中第z个分词与第h个分词之间的论元关系。
11.根据权利要求1-10任一项所述的方法,其特征在于,基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,包括:
以论元参数作为顶点,将存在关联关系的论元参数代表的顶点间连线,得到论元参数关系图;
在所述论元参数关系图中选择一个未添加到集合中的顶点作为目标顶点,添加至创建的空的集合中;
确定与所述目标顶点连接的邻居顶点,将所述邻居顶点添加到所述集合中,并将所述邻居顶点作为新的目标顶点,返回执行所述确定与所述目标顶点连接的邻居顶点的步骤,直至找不到新的邻居顶点为止;
判断所述论元参数关系图中是否还存在未添加到集合中的顶点,若否,结束,若是,返回执行在所述论元参数关系图中选择一个未添加到集合中的顶点作为目标顶点,添加至创建的空的集合中的步骤。
12.根据权利要求9所述的方法,其特征在于,基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,包括:
以最大化设定的适应度函数为目标,将各论元参数划分为至少一个集合,其中所述适应度函数为:
Figure FDA0003636557230000041
k∈(1,K)
其中,K为划分的集合数,
Figure FDA0003636557230000042
为第k个集合的内部度,其为集合内所有论元参数间的关联度Asso之和,
Figure FDA0003636557230000043
为第k个集合的外部度,其为集合内所有论元参数与集合外各论元参数间的关联度Asso之和;
其中,论元参数i、j间的关联度Asso为:
Asso(i,j)=mean(fE-E,fH-H)
fE-E为论元参数i与论元参数j的末尾分词间存在关联关系的概率值,fH-H为论元参数i与论元参数j的首个分词间存在关联关系的概率值,mean()函数表示求平均值。
13.根据权利要求12所述的方法,其特征在于,所述以最大化设定的适应度函数为目标,将各论元参数划分为至少一个集合,包括:
在未添加到集合的各论元参数中,选择节点度最高的论元参数作为初始论元参数,其中,论元参数i的节点度表示为:
Figure FDA0003636557230000051
其中,I为与论元参数i存在关联关系的所有论元参数的集合;
创建一空白的集合,将所述初始论元参数添加至创建的集合中;
对于与所述初始论元参数具备关联关系的每个邻居论元参数,计算所述邻居论元参数对于所述集合的适应度:存在和不存在所述邻居论元参数时集合的适应度变化值;
从所有邻居论元参数中选择适应度最大的邻居论元参数添加至集合中,并更新集合的适应度,返回执行计算所述邻居论元参数对于所述集合的适应度的步骤,直至没有邻居论元参数使得集合的适应度增加;
计算集合中除初始论元参数外的每个论元参数对于所述集合的适应度:存在和不存在论元参数时集合的适应度变化值;
从集合中删除适应度最小的论元参数,并更新集合的适应度,返回执行计算集合中除初始论元参数外的每个论元参数对于所述集合的适应度的步骤,直至集合中没有论元参数使得集合的适应度减少;
判断是否还存在未添加到任何集合中的论元参数,若否,结束,若是,返回执行在未添加到集合的各论元参数中,选择节点度最高的论元参数作为初始论元参数的步骤。
14.一种事件抽取方法,其特征在于,包括:
获取待抽取事件论元的输入文本;
将所述输入文本输入预配置的论元抽取模型,得到模型输出的标签矩阵,其中,所述论元抽取模型以标注有标签矩阵的训练文本训练得到,标注的标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词至第j个分词之间的文本是否属于论元参数,以及在属于论元参数时对应的论元类型;
基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型。
15.根据权利要求14所述的方法,其特征在于,所述论元抽取模型训练过程标注的标签矩阵中,第i行第j列的元素的值为1*num_arg的向量,num_arg为论元类型的类别数,向量中所属的论元类型对应位置的值为1,其余位置为0;
所述基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中的论元参数,以及所述论元参数的论元类型,包括:
在所述模型输出的标签矩阵中查找非全0向量元素的位置,所述位置包括向量在标签矩阵中所处目标行数x及目标列数y;
对于每一非全0向量元素,基于其位置确定所述输入文本中第x个分词至第y个分词之间的文本属于论元参数,以及,确定所述非全0向量元素中值为1的位置对应的目标论元类型,作为所述论元参数的论元类型。
16.一种事件抽取方法,其特征在于,包括:
获取待抽取事件论元关系的输入文本;
将所述输入文本输入预配置的论元关系识别模型,得到模型输出的标签矩阵,其中,所述论元关系识别模型以标注有标签矩阵的训练文本训练得到,标注的标签矩阵为n*n的矩阵,n为训练文本包含的分词数量,标签矩阵中第i行第j列的元素的值表示:训练文本中第i个分词与第j个分词之间的关系类别,所述关系类别包括以第i、j个分词为首的论元参数之间存在关联H-H、以第i、j个分词为尾的论元参数之间存在关联E-E,以及除去关系H-H、E-E外的其余关系O;
基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中各论元参数间的关系类别。
17.根据权利要求16所述的方法,其特征在于,所述论元关系识别模型训练过程标注的标签矩阵中,第i行第j列的元素的值为1*num_rel的向量,num_rel为论元关系的类别数3,向量中所属的论元关系类别对应位置的值为1,其余位置为0;
所述基于所述模型输出的标签矩阵中各位置元素的值,确定输入文本中各论元间的关系类别,包括:
在所述模型输出的第二标签矩阵中,对于第z行第h列的向量元素:
确定其中值为1的位置对应的目标论元关系类别,作为所述输入文本中第z个分词与第h个分词之间的论元关系。
18.一种事件抽取装置,其特征在于,包括:
输入文本获取单元,用于获取待进行事件抽取的输入文本;
模型处理单元,用于利用预配置的事件联合抽取模型处理所述输入文本,得到所述输入文本包含的触发词、论元参数、各论元参数的论元类型以及各论元参数间的关系;其中,所述事件联合抽取模型为,以标注有触发词标签、论元标签、论元类型标签及论元关系标签的训练文本训练得到;
论元参数划分单元,用于基于所述各论元参数间的关系,将各论元参数划分为至少一个集合,其中,一个集合中的各论元参数对应一个事件。
19.一种事件抽取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~13中任一项所述的事件抽取方法的各个步骤。
20.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~13中任一项所述的事件抽取方法的各个步骤。
CN202210503921.4A 2022-05-10 2022-05-10 事件抽取方法、装置、设备及存储介质 Pending CN114840642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210503921.4A CN114840642A (zh) 2022-05-10 2022-05-10 事件抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210503921.4A CN114840642A (zh) 2022-05-10 2022-05-10 事件抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114840642A true CN114840642A (zh) 2022-08-02

Family

ID=82569549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210503921.4A Pending CN114840642A (zh) 2022-05-10 2022-05-10 事件抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114840642A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631642A (zh) * 2023-07-24 2023-08-22 北京惠每云科技有限公司 一种临床发现事件的抽取方法及装置
CN118364094A (zh) * 2024-06-19 2024-07-19 北京乾图科技有限公司 一种可扩充的多事件信息联合抽取的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631642A (zh) * 2023-07-24 2023-08-22 北京惠每云科技有限公司 一种临床发现事件的抽取方法及装置
CN116631642B (zh) * 2023-07-24 2023-11-03 北京惠每云科技有限公司 一种临床发现事件的抽取方法及装置
CN118364094A (zh) * 2024-06-19 2024-07-19 北京乾图科技有限公司 一种可扩充的多事件信息联合抽取的方法及装置

Similar Documents

Publication Publication Date Title
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
US20220405480A1 (en) Text sentiment analysis method based on multi-level graph pooling
CN110019843B (zh) 知识图谱的处理方法及装置
CN111222305B (zh) 一种信息结构化方法和装置
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111967264B (zh) 一种命名实体识别方法
CN110704626A (zh) 一种用于短文本的分类方法及装置
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN113779994B (zh) 一种要素抽取方法、装置、计算机设备和存储介质
CN111460149A (zh) 文本分类方法、相关设备及可读存储介质
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
CN108763221B (zh) 一种属性名表征方法及装置
CN113076720A (zh) 长文本的分段方法及装置、存储介质、电子装置
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN114743029A (zh) 一种图像文本匹配的方法
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN113051869B (zh) 一种结合语义识别实现标识文本差异内容的方法及系统
CN114782720A (zh) 文案的配图确定方法、装置、电子设备、介质及程序产品
CN110413899A (zh) 服务器存储新闻的存储资源优化方法及系统
CN116227496B (zh) 一种基于深度学习的电力舆情实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination