CN116089584A - 事件抽取的方法、装置、电子设备和介质 - Google Patents
事件抽取的方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN116089584A CN116089584A CN202310120872.0A CN202310120872A CN116089584A CN 116089584 A CN116089584 A CN 116089584A CN 202310120872 A CN202310120872 A CN 202310120872A CN 116089584 A CN116089584 A CN 116089584A
- Authority
- CN
- China
- Prior art keywords
- event
- candidate
- record
- records
- arguments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 85
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 32
- 238000003860 storage Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 102100022191 Hemogen Human genes 0.000 description 1
- 101001045553 Homo sapiens Hemogen Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 208000037063 Thinness Diseases 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 206010048828 underweight Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例涉及事件抽取的方法、装置、电子设备和介质。该方法包括从文档中抽取作为多个事件论元的多个命名实体,其中文档包括至少两个句子,然后确定文档中的事件类型和与事件类型相对应的模板。该方法还包括将多个事件论元填充至模板中的相应位置以生成多个候选事件记录,然后过滤多个候选事件记录以获得一个或多个目标事件记录。根据本公开的实施例,在文档级抽取事件记录时通过迭代生成各个候选事件记录,能够避免事件角色生成顺序的人工选择而导致的性能波动,也能避免由于并行生成而导致的欠拟合现象,从而提高事件抽取的准确率。
Description
技术领域
本公开的实施例涉及计算机领域,并且更具体地,涉及事件抽取的方法、装置、电子设备和介质。
背景技术
事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化的事件记录形式呈现给用户。事件抽取在文本摘要、自动问答、以及事理图谱自动构建等领域具有广泛的应用。事件抽取任务的自动化可以利用计算设备自动地检测文档中包括的事件与事件内容,形成结构化的数据,以便于后续的处理。
发明内容
本公开的实施例提供了一种事件抽取的方法、装置、电子设备和计算机可读存储介质。
根据本公开实施例的第一方面,提供了一种事件抽取的方法。该方法包括从文档中抽取作为多个事件论元的多个命名实体,其中文档包括至少两个句子。该方法还包括确定文档中的事件类型和与事件类型相对应的模板。该方法还包括将多个事件论元填充至模板中的相应位置以生成多个候选事件记录,其中在多个候选事件记录的生成期间,从多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成。该方法还包括过滤多个候选事件记录以获得一个或多个目标事件记录。
在本公开实施例的第二方面中,提供了一种用于事件抽取的装置。该装置包括命名实体抽取模块,被配置为从文档中抽取作为多个事件论元的多个命名实体,其中文档包括至少两个句子。该装置还包括事件类型确定模块,被配置为还包括确定文档中的事件类型和与事件类型相对应的模板。该装置还包括事件记录生成模块,被配置为将多个事件论元填充至模板中的相应位置以生成多个候选事件记录,其中在多个候选事件记录的生成期间,从多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成。该装置还包括事件记录过滤模块,被配置为过滤多个候选事件记录以获得一个或多个目标事件记录。
根据本公开实施例的第三方面,提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使电子设备执行根据第一方面所述的方法。
在本公开实施例的第四方面中,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其它特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本公开的一些实施例的事件抽取的方法可以在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的命名提及的示意图;
图3示出了根据本公开的一些实施例的事件类型、事件论元、以及事件角色的示意图;
图4示出了根据本公开的一些实施例的事件抽取的方法的流程图;
图5示出了根据本公开的一些实施例的简化的事件抽取的过程的示意图;
图6示出了根据本公开的一些实施例的包括训练过程的事件抽取模型的示意图;
图7示出了根据本公开的一些实施例的事件的模板的示意图;
图8示出了根据本公开的一些实施例的预填充的过程的示意图;
图9示出了根据本公开的一些实施例的事件抽取的装置的框图;以及
图10示出了根据本公开的一些实施例的电子设备的框图。
在所有附图中,相同或相似参考数字表示相同或相似元素。
具体实施方式
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包括,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象,除非明确说明。下文还可能包括其它明确的和隐含的定义。
在本公开的一些实施例中,将以英文的事件抽取任务作为示例进行描述,然而,其他语言(例如中文)的事件抽取任务也可以和本公开的实施例结合使用。另外,本文所有具体数值都是示例,仅是为了帮助理解,绝无限定范围之意图。
在事件抽取任务中,需要进行事件检测(event detection),同时还要正确判定其事件类型。事件抽取任务还需要进行论元检测(argument detection),即检测事件的相关元素,同时正确判定这些元素在这个事件中承担的角色。
在一种传统的事件抽取方法中,无触发词事件抽取方法通过构建基于实体的有向无环图(entity-based directed acyclic graph,EDAG)自回归地按照预先给定的顺序生成事件论元。在另一种传统的事件抽取方法中,通过并行方法同时生成一条事件记录中的所有论元。
先前大部分的无触发词事件抽取方法通过构建基于实体的有向无环图自回归地按照预先给定的顺序生成事件论元,或者并行方法则同时生成一条事件记录中的所有论元。由于一条事件记录的事件论元通常分散在多个句子中,而包含在几条事件记录中的重叠论元出现得更多,这导致了触发词的低质量标注和对无触发词方法的需求。因此,在没有触发词的情况下提取多条事件记录是无触发词事件抽取方法的主要挑战。
然而,在研究中发现,基于实体的有向无环图的方法需要预先确定事件角色的生成顺序,不同的事件角色生成顺序造成了事件抽取模型性能的显著波动,并行方法避免了对事件角色的顺序的选择,然而并行方法存在严重的欠拟合问题,甚至在某些场景中表现为对很多事件角色抽取的准确率较低。
为解决这些问题,本公开的实施例提出了文档级事件抽取(document-levelevent extraction,DEE)的方案,旨在从整篇文档中提取多条事件记录。该方案提供了一种预填充迭代并行生成方法(iteratively parallel generation method with the pre-filling strategy,IPGPF)。本公开的方法能够迭代并行生成事件角色,以避免事件角色生成顺序的影响。由于无需预先给定的顺序生成事件论元,避免了人工地、仅依赖于经验的事件论元的顺序给定,能够避免事件角色生成顺序的人工选择而导致的性能波动。因此,即使一条事件记录的事件论元分散在多个句子中,由于无需人工地、提前地顺序给定,也能够准确地提取出事件记录。在一些实施例中,为缓解并行生成中的欠拟合问题,本公开还提出了预填充策略,在事件记录生成中,预填充策略首先从历史生成的结果中选择部分结果作为事件角色的填充,然后基于已经填充的事件角色生成未填充的事件角色。这种预填充策略能够避免常规并行而导致的欠拟合现象,从而提高事件抽取的准确率。
在下文描述中,某些实施例将参考英文文档的事件抽取的过程来讨论。但是应当理解,这仅仅是为了使本领域普通技术人员更好地理解本公开实施例的原理和思想,而无意以任何方式限制本公开的范围。
图1示出了根据本公开的一些实施例的事件抽取的方法可以在其中实现的示例环境100的示意图。如图1所示,示例环境100可以包括文档110。文档110至少由两个句子组成,例如句子1(即110-1)和句子2(即110-2)。可以理解,文档110还可以包括更多的句子(未示出)。
在环境100中,还包括计算设备120。计算设备120可以是计算机、计算系统、单个服务器、分布式服务器、或者基于云的服务器。计算设备120可以获取文档110。
在计算设备120中,配置有事件抽取模型130。事件抽取模型130获取文档110后,可以生成多个候选事件记录,例如候选事件记录140-1和候选事件记录140-2。可以理解,根据不同的需要,候选事件记录的数目可以变化,因此候选事件记录也可以存在更多个。
事件抽取模型130在生成了多个候选事件记录之后,将对这些候选事件记录进行过滤,得到目标事件记录150。可以理解,根据配置的不同,或者文档的内容的不同,目标事件记录的数目也可以变化,因此不限于一个目标事件记录。目标事件记录的数目一般少于候选事件记录的数目。
应当理解,仅出于示例性的目的来描述示例环境100中的架构和功能,而不暗示对本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的其他环境中。
下文将结合图2至图8详细描述根据本公开实施例的过程。为了便于理解,在下文描述中提及的具体数据均是示例性的,并不用于限定本公开的保护范围。可以理解,以下描述的实施例还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
图2示出了根据本公开的一些实施例的实体提及的示意图。在文档级事件抽取方法中,命名实体(named entity)可以理解为属于预定义语义类型(例如人物、地点、组织等)的名词文本。实体提及(entity mention)202可以理解为文档中对应某个命名实体的文本。
作为示例,文档210中可以包括句子S6:Jinggong Group increased itsholdings of the company’s stock by 182,038shares through the secondary marketon Dec 15,2011(Jinggong集团于2011年12月15日通过二级市场增持公司股票182,038股)。文档210中还可以包括句子S7、句子S9和句子S14,等等。在句子S6和句子S7中,Jinggong Group(Jinggong集团)即为实体提及202。在句子S9和句子S14中,JinggongGroup也为实体提及202。其他实体词也可以是实体提及202。
图3示出了根据本公开的一些实施例的事件类型、事件论元、以及事件角色的示意图300。事件记录(event record)可以理解为包含许多事件论元及其事件角色的事件表达式。例如事件记录310和事件记录320。在事件记录310中,EquityOverweight(股票增持)为事件类型302。在事件记录320中,EquityUnderweight(股票减持)为事件类型302。
以事件记录320作为示例,其包括事件论元(event argument)304和事件角色(event role)306。事件论元304可以理解为事件中扮演某个特殊事件角色的命名实体。例如Jinggong Group。事件角色306可以理解为预先定义的事件论元的类别(例如时间、地点、人物等)。例如EndDate(结束日期)。
在本公开中,采用无触发词的文档级事件抽取任务,通常包含三个子任务:(1)命名实体识别(named entity recognition,NER)。NER从文档中抽取命名实体作为候选的事件论元。(2)事件检测(event detection,ED)。ED判断文档中是否出现了某一类预定义的事件。(3)事件记录生成(event record generation,ERG),ERG按照事件类别逐类生成事件记录。没有触发词会增加文档级事件抽取的难度,但是能避免事件角色生成顺序的人工选择。下文将结合图6来详细介绍这些子任务。
图4示出了根据本公开的一些实施例的事件抽取400的方法的流程图。图5示出了根据本公开的一些实施例的简化的事件抽取的过程500的示意图。下面结合图4和图5来描述本公开的事件抽取任务。
在框402处,从文档中抽取作为多个事件论元的多个命名实体,其中文档包括至少两个句子。作为示例,对文档110进行命名实体识别,识别的事件论元所属于的事件角色有EquityHolder(股权持有人)510,TradeShares(交易股票)520,AveragePrice(平均价格)530。
在框404处,确定文档中的事件类型和与事件类型相对应的模板。作为示例,在502处,进行事件检测,确定其事件类型为EquityOverweight,那么对应的事件的模板也为股票增持的模板。关于事件的模板,下文将结合图7来详细介绍。
在框406处,将多个事件论元填充至模板中的相应位置以生成多个候选事件记录,其中在多个候选事件记录的生成期间,从多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成。作为示例,在504处,填充股票增持的模板以生成多个候选事件记录。第一个生成的候选事件记录基于事件模板生成。从第二个生成的候选事件记录开始,除了基于事件模板外,还基于已经生成的其他候选事件记录。在框408处,过滤多个候选事件记录以获得一个或多个目标事件记录。作为示例,在508处,对504处得到了多个候选事件记录进行过滤,获得一个或多个目标事件记录。作为示例,可以将第t(其中t是大于或等于2的整数)轮次的事件记录的论元表示和模版表示通过最大池化压缩得到该事件记录的表示。在第t+1轮次中,将历史生成的事件记录和本次要填充的模版合并,在第t轮次的事件记录的基础上,生成第t+1条事件记录。
在一些实施例中,在训练事件抽取模型130时,还可以包括预填充过程。作为示例,在506处,可以从历史生成的候选事件记录中选择一部分作为角色的填充,然后基于已经填充的角色生成未填充的角色。
通过本公开的实施例的方法400,能够在文档级进行事件抽取,并且避免事件角色生成顺序的人工选择。由于避免了对触发词的低质量的标注,还能够提高事件抽取的准确率。方法400也不需要预先确定事件角色的生成顺序,减少了事件抽取的准确率的显著波动,也减少了事件抽取模型的欠拟合的问题。
图6示出了根据本公开的一些实施例的包括训练过程的事件抽取模型600的示意图。过程600的主要思想为:对于给定的包含Ns个句子文档D(例如,文档602),文档级事件抽取任务旨在生成多条事件记录其中zi代表第i条事件记录,Nz为文档中的真实事件记录个数。一条事件记录由n个事件论元及其对应的事件角色构成。
在一些实施例中,首先从文档中抽取实体作为候选的事件论元,然后判断文档中是否包含给定类型的事件,最后模型迭代地生成多条事件记录,并行生成每条事件记录中的所有角色。在一些实施例中,在训练事件抽取模型时,为了提升事件抽取模型的并行生成能力,还可以使用预填充策略。
在一些实施例中,使用条件随机场解码抽取实体,并得到了命名实体识别的极大似然损失函数:
其中y表示词汇w的标签,采样来自BIO(Begin表示实体的起始位置,Inside表示实体中间字,Other表示非实体字)标注规范,P表示词汇w的标签是y的概率。
在一些实施例中,使用transformer编码器2对论元表示和句子表示做特征交互:
其中,Encoder2表示编码器2的操作。Ha表示经论元感知的事件论元表示。Hs表示论元感知后的句子表示。
在一些实施例中,编码器1和编码器2也可以合在一起使用。在一些实施例中,使用论元感知的句子表示Hs做多分类任务得到文档中每一类事件存在的概率:
Pc=Sigmoid(Hc) (6)
在一些实施例中,计算事件检测的交叉熵损失函数:
作为示例,框608中,事件类型EquityFreeze的概率较高,被确定为检测到的事件类型,EquityUnderweight的概率较低,没有被确定为检测到的事件类型。
在事件记录生成650中,可以基于事件的模版,通过填充给定模版来生成事件记录。下面先结合图7来介绍事件的模板。图7示出了根据本公开的一些实施例的事件的模板700的示意图。
并行生成事件中的所有角色能够有效避开人为选择角色生成顺序带来的不稳定性能。为了进一步帮助事件角色生成,可以为每一类事件构造了模版,如图7所示,需要生成的事件角色在这些模版中由特殊字符表示。基于这些模版,模型可以通过填充给定模版来生成事件记录。
模版700包括事件类型710和相应的模版720。仅作为示例,事件类型710包括EquityFreeze(股权冻结)、EquityRepurchase(股权回购)、EquityUnderweight(股权减持)、EquityOverweight(股权增持)、EquityPledge(股权质押)。可以理解,可以具有金融领域的更多的事件类型,也可以具有其他领域的模版。
在一些实施例中,股权冻结对应的模版为:On UnfrozeDate,Legallnstitutionfreezes or unfreezes the FrozeShares held by EquityHolder.It starts fromStartDate and ends at EndDate.At present,he/she/it still holdsTotalHoldingShares shares of the company,accounting for TotalHoldingRatio ofthe company’s total share capital(在UnfrozeDate,Legallnstitution冻结或解冻EquityHolder持有的FrozeShares。它从StartDate开始,到EndDate结束。目前,其仍持有公司TotalHoldingShares股份,占公司总股本的TotalHoldingRatio)。其中,下划线的部分为需要使用事件论元进行填充的位置。可以理解,模版可以具有其他样式,可以根据需要进行调整和优化。
现在返回到图6,在并行模板填充652中,对于给定的事件类型,首先确定Nt个模版词汇的表示:
然后使用transformer解码器1得到具有论元感知的模版表示:
Ht=Decoder1(Qt,Ha)
接下来,使用指针神经网络从候选论元Ha中筛选得到事件角色对应的论元:
Pr=Softmax(tanh(HrWr+HaWa)·v) (9)
其中表示Ht中的事件角色的表示,Wa,v表示模型参数,表示事件角色对应的事件论元的概率。最终,可以抽取了Nr个事件角色对应的事件论元作为示例,在框610中,Jinggong Group,35,000shares和19.88被选择为事件角色对应的事件论元。
在一些实施例中,在迭代生成654中,为了更好地利用历史生成的结果,可以使用迭代生成的方法。作为示例,对于一条历史生成的事件记录,可以将事件中的论元表示和模版表示通过最大池化压缩得到该事件记录的表示在第i+1条事件记录的生成中,可以将历史生成的事件记录和本次要填充的模版合并,在历史结果的帮助下生成第i+1条事件记录。
在一些实施例中,在事件记录过滤656中,为抽取文档中的所有事件记录,事件生成的迭代数可以大于真实事件记录的个数。所以,需要一个过滤器来筛选出部分模型输出的事件记录作为最终结果。在Ni轮迭代生成后,可以得到所有生成的事件记录的表示 然后,可以使用transformer解码器2和线性分类器过滤出最佳的事件记录作为最终结果:
作为示例,经过解码器1,Jinggong Group与记录1匹配,35,000shares与记录1匹配,19.88与记录2匹配。这些匹配作为候选事件记录614、616和618。在一些实施例中,生成的候选事件记录与模板612拼接后可以迭代地再生成候选事件记录。经过解码器2,事件记录620(即原事件记录614)与记录1匹配,事件记录622(即原事件记录616)没有匹配,事件记录624(即原事件记录618)与记录2匹配。
在一些实施例中,为完成模型训练,需要将真实标签分配给模型输出的事件记录,所以本公开提出了一种匹配方法。在模型训练中,将逐个事件类别生成该类别下的事件记录,并计算该类别的损失函数,最终加总所有事件类别的损失函数值作为最终损失。
在一些实施例中,在事件角色匹配658中,给定的事件论元抽取分数和真实论元其中且代表第i条事件记录中第j个角色对应的论元索引。在一些实施例中,可以定义损失函数(cost function)来成对计算每个事件抽取模型输出的事件记录与真实事件记录的损失:
在一些实施例中,为了激励事件抽取模型去生成历史没有生成过的事件记录,可以将真实事件记录无放回地分配给模型输出,当所有的真实事件记录都被分配给模型输出后,可以将所有真实事件记录放回,并有放回地分配给最相似的模型输出。
为了从模型输出的事件记录中过滤出最佳的结果作为最终结果,可以定义角色损失和事件损失:
其中,Crole表示角色损失,Call全部损失。
为找到模型输出的事件记录和真实事件记录的最佳匹配,可以定义将第j个真实事件记录映射到第i个模型输出事件记录的单射映射满足单射性质 定义为集合Iz到集合的单射集合。在一些实施例中,可以使用匈牙利算法得到最小损失的匹配:
然后可以计算二分类交叉熵损失作为事件匹配的损失函数:
其中γ1,γ2∈(0,1)为模型的超参数。
图8示出了根据本公开的一些实施例的预填充的过程800的示意图。过程800的主要思想是对于给定的文档D,事件抽取模型的目标是拟合所有事件角色的联合分布P(y1,y2,…,yn|D)。然而,并行生成方法对复杂高维分布的直接拟合会导致欠拟合问题。为了缓解欠拟合问题,本公开还提出了预填充策略,将对联合分布的拟合转换为对条件分布 的拟合。
在一些实施例中,选出一条历史事件记录后,从被正确预测的论元中选择分数Pr大于β的论元,以κ的概率做伯努利(Bernoulli采样)。然后,在本轮生成开始前,预先将采样出的论元填充到模版中对应的角色,从而只需要在生成时填充剩余的角色。在计算损失函数时,只计算被填充的角色损失,而不计算预填充的角色损失。
作为示例,在802处,事件论元812、事件论元814和事件论元816填充至模板。其中,阈值分数β可以被设置为0.75。事件论元812的分数为0.98,因此被无需被预填充。事件论元814的分数为0.95,并且被采样为需要被预填充804。事件论元816的分数为0.22,因此直接确定为需要预填充。事件论元814和事件论元816被掩码,其掩码的模板的相应位置需要再次被填充。经过模板填充806,事件论元814没有改变,事件论元816改变为事件论元822,这时其分数为0.89。事件论元814没有被预填充,因此不计算角色损失824。事件论元814和事件论元822需要计算角色损失826。
由于预填充策略需要真实标签来采样被正确预测的事件论元,所以事件抽取模型在训练阶段使用预填充策略,在推理阶段可以不使用预填充策略。由于使用了预填充策略,显著缓解了并行事件抽取方法的欠拟合问题,提升事件抽取的准确率。
图9示出了根据本公开的某些实施例的事件抽取的装置900的框图。如图9所示,装置900包括命名实体抽取模块902,被配置为从文档中抽取作为多个事件论元的多个命名实体,其中文档包括至少两个句子。装置900还包括事件类型确定模块904,被配置为还包括确定文档中的事件类型和与事件类型相对应的模板。装置900还包括事件记录生成模块906,被配置为将多个事件论元填充至模板中的相应位置以生成多个候选事件记录,其中在多个候选事件记录的生成期间,从多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成。装置900还包括事件记录过滤模块908,被配置为过滤多个候选事件记录以获得一个或多个目标事件记录。装置900还可以包括其他模块,实现根据本公开的实施例的方法400的步骤,为了简洁,在此不再赘述。
可以理解,通过本公开的装置900,可以实现如上文描述的方法或过程所能够实现的诸多优点中的至少一个。例如能够在文档级进行事件抽取,并且避免事件角色生成顺序的人工选择,提高事件抽取的准确率。又例如不需要预先确定事件角色的生成顺序,能够避免事件角色生成顺序的人工选择而导致的性能波动,也减少了事件抽取模型的欠拟合的问题。
图10示出了根据本公开的某些实施例的电子设备1000的框图,设备1000可以是本公开的实施例所描述的设备或装置。如图10所示,设备1000包括中央处理单元(CPU)和/或图形处理单元(GPU)1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1003中,还可以存储设备1000操作所需的各种程序和数据。CPU/GPU 1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。虽然未在图10中示出,设备1000还可以包括协处理器。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如互联网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个方法或过程可以由CPU/GPU 1001来执行。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序被加载到RAM 1003并由CPU/GPU 1001执行时,可以执行上文描述的方法或过程中的一个或多个步骤或动作。
在一些实施例中,以上所描述的方法和过程可以被实现为计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如互联网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言,以及常规的过程式编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用互联网服务提供商来通过互联网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使得本技术领域的其它普通技术人员能理解本文公开的各实施例。
以下列出了本公开的一些示例实现。
示例1.一种事件抽取的方法,包括:
从文档中抽取作为多个事件论元的多个命名实体,其中所述文档包括至少两个句子;
确定所述文档中的事件类型和与所述事件类型相对应的模板;
将所述多个事件论元填充至所述模板中的相应位置以生成多个候选事件记录,其中在所述多个候选事件记录的生成期间,从所述多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成;以及
过滤所述多个候选事件记录以获得一个或多个目标事件记录。
示例2.根据示例1所述的方法,其中从文档中抽取作为多个事件论元的多个命名实体包括:
对所述文档中的多个词语进行编码;
确定与编码后的所述多个词语相关联的多个句子表示;以及
解码所述多个句子表示以获取所述多个命名实体。
示例3.根据示例1-2中任一项所述的方法,其中确定所述文档中的事件类型和与所述事件类型相对应的模板包括:
确定所述多个命名实体的多个实体向量;
对所述多个实体向量进行压缩以生成候选论元表示集;
确定所述文档的多个句子向量;
对所述多个句子向量进行压缩以生成句子表示集;以及
基于所述候选论元表示集和所述句子表示集,确定所述事件类型。
示例4.根据示例1-3中任一项所述的方法,其中将所述多个事件论元填充至所述模板中的相应位置以生成多个候选事件记录包括:
确定表示模版的模板词语的词语表示集;以及
对所述候选论元表示集和所述词语表示集进行解码以确定所述候选事件记录。
示例5.根据示例1-4中任一项所述的方法,其中对所述候选论元表示集和所述词语表示集进行解码以确定所述候选事件记录包括:
基于所述候选论元表示集和所述词语表示集,生成与事件论元相关联的模板表示;
确定表示多个事件角色所对应的多个事件论元的多个概率;
基于所述多个概率,过滤所述多个事件论元以确定与所述多个事件角色相对应的事件论元;以及
将所述事件论元和所述事件角色确定为所述候选事件记录。
示例6.根据示例1-5中任一项所述的方法,还包括:
将所述多个候选事件记录中的第一事件记录中的第一事件论元和所述模板表示进行压缩以生成所述第一事件记录的表示;以及
基于所述第一事件记录的表示、所述文档中的句子表示以及所述多个事件论元的表示,生成第二事件记录。
示例7.根据示例1-6中任一项所述的方法,其中过滤所述多个候选事件记录以获得一个或多个目标事件记录包括:
确定所述多个候选事件记录的候选表示集;
基于所述候选表示集,对所述多个句子表示进行过滤以确定所述多个句子表示的多个抽取得分;以及
基于所述多个抽取得分,确定所述一个或多个目标事件记录。
示例8.根据示例1-7中任一项所述的方法,其中所述方法在经训练的机器学习模型中执行,并且在训练阶段基于所述多个抽取得分,确定所述一个或多个目标事件记录包括:
确定与所述多个抽取得分、以及作为标签的真实事件论元集相关联的角色损失,其中所述真实事件论元集指示多个真实事件论元和对应的多个事件角色;
基于与所述角色损失相关联的角色损失函数,确定所述多个候选事件记录和对应的真实事件论元;以及
将所述多个候选事件记录中的每个事件记录与对应的真实事件记录进行匹配。
示例9.根据示例1-8中任一项所述的方法,其中将所述多个候选事件记录中的每个事件记录与对应的真实事件记录进行匹配包括:
确定所述多个候选事件记录的多个过滤得分;
确定与所述多个过滤得分、以及作为标签的多个真实事件记录相关联的事件损失;
基于与所述事件损失和所述角色损失,确定总损失;
确定与所述总损失相关联的事件记录损失函数;以及
基于所述事件记录损失函数,匹配真实事件记录与所述多个候选事件记录中的相应事件记录。
示例10.根据示例1-9中任一项所述的方法,其中训练所述机器学习模型还包括:
在多个事件记录中选择第一事件记录;
基于得分利用事件论元填充所述第一事件记录中的事件角色;以及
基于所述第一事件记录中的未被填充的事件角色,训练所述机器学习模型。
示例11.根据示例1-10中任一项所述的方法,其中基于得分利用事件论元填充事件角色包括:
响应于所述得分超过阈值,将所述得分超过阈值的事件论元填充至对应的事件角色;以及
确定未被填充的剩余事件角色;以及
利用所述多个事件论元填充所述剩余事件角色。
示例12.根据示例1-11中任一项所述的方法,还包括:
计算所述剩余事件角色的角色损失;以及
基于所述剩余事件角色的角色损失,训练所述机器学习模型。
示例13.一种事件抽取的装置,包括:
命名实体抽取模块,被配置为从文档中抽取作为多个事件论元的多个命名实体,其中所述文档包括至少两个句子;
事件类型确定模块,被配置为确定所述文档中的事件类型和与所述事件类型相对应的模板;
事件记录生成模块,被配置为将所述多个事件论元填充至所述模板中的相应位置以生成多个候选事件记录,其中在所述多个候选事件记录的生成期间,从所述多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成;以及
事件记录过滤模块,被配置为过滤所述多个候选事件记录以获得一个或多个目标事件记录。
示例14.根据示例13所述的装置,其中所述命名实体抽取模块包括:
第一编码模块,被配置为对所述文档中的多个词语进行编码;
第一句子表示确定模块,被配置为确定与编码后的所述多个词语相关联的多个句子表示;以及
命名实体获取模块,被配置为解码所述多个句子表示以获取所述多个命名实体。
示例15.根据示例13-14中任一项所述的装置,其中所述事件类型确定模块包括:
实体向量确定模块,被配置为确定所述多个命名实体的多个实体向量;
候选论元表示集生成模块,被配置为对所述多个实体向量进行压缩以生成候选论元表示集;
句子向量确定模块,被配置为确定所述文档的多个句子向量;
句子表示集生成模块,被配置为对所述多个句子向量进行压缩以生成句子表示集;以及
第二事件类型确定模块,被配置为基于所述候选论元表示集和所述句子表示集,确定所述事件类型。
示例16.根据示例13-15中任一项所述的装置,其中所述事件记录生成模块包括:
词语表示集确定模块,被配置为确定表示模版的模板词语的词语表示集;以及
候选事件记录生成模块,被配置为对所述候选论元表示集和所述词语表示集进行解码以确定所述候选事件记录。
示例17.根据示例13-16中任一项所述的装置,其中所述候选事件记录生成模块包括:
模板表示生成模块,被配置为基于所述候选论元表示集和所述词语表示集,生成与事件论元相关联的模板表示;
概率确定模块,被配置为确定表示多个事件角色所对应的多个事件论元的多个概率;
第二事件记录过滤模块,被配置为基于所述多个概率,过滤所述多个事件论元以确定与所述多个事件角色相对应的事件论元;以及
第二候选事件记录确定模块,被配置为将所述事件论元和所述事件角色确定为所述候选事件记录。
示例18.根据示例13-17中任一项所述的装置,还包括:
模板表示压缩模块,被配置为将所述多个候选事件记录中的第一事件记录中的第一事件论元和所述模板表示进行压缩以生成所述第一事件记录的表示;以及
第二事件记录生成模块,被配置为基于所述第一事件记录的表示、所述文档中的句子表示以及所述多个事件论元的表示,生成第二事件记录。
示例19.根据示例13-18中任一项所述的装置,其中所述事件记录过滤模块包括:
候选表示集确定模块,被配置为确定所述多个候选事件记录的候选表示集;
抽取得分确定模块,被配置为基于所述候选表示集,对所述多个句子表示进行过滤以确定所述多个句子表示的多个抽取得分;以及
目标事件记录确定模块,被配置为基于所述多个抽取得分,确定所述一个或多个目标事件记录。
示例20.根据示例13-19中任一项所述的装置,其中所述装置是经训练的机器学习模型,并且在训练阶段时目标事件记录确定模块包括:
第一训练模块,被配置为确定与所述多个抽取得分、以及作为标签的真实事件论元集相关联的角色损失,其中所述真实事件论元集指示多个真实事件论元和对应的多个事件角色;
第二训练模块,被配置为基于与所述角色损失相关联的角色损失函数,确定所述多个候选事件记录和对应的真实事件论元;以及
第三训练模块,被配置为将所述多个候选事件记录中的每个事件记录与对应的真实事件记录进行匹配。
示例21.根据示例13-20中任一项所述的装置,其中所述第三训练模块包括:
过滤得分确定模块,被配置为确定所述多个候选事件记录的多个过滤得分;
事件损失确定模块,被配置为确定与所述多个过滤得分、以及作为标签的多个真实事件记录相关联的事件损失;
总损失确定模块,被配置为基于与所述事件损失和所述角色损失,确定总损失;
事件记录损失函数确定模块,被配置为确定与所述总损失相关联的事件记录损失函数;以及
第一匹配模块,被配置为基于所述事件记录损失函数,匹配真实事件记录与所述多个候选事件记录中的相应事件记录。
示例22.根据示例13-21中任一项所述的装置,还包括:
事件记录选择模块,被配置为在多个事件记录中选择第一事件记录;
事件角色填充模块,被配置为基于得分利用事件论元填充所述第一事件记录中的事件角色;以及
第四训练模块,被配置为基于所述第一事件记录中的未被填充的事件角色,训练所述机器学习模型。
示例23.根据示例13-22中任一项所述的装置,其中所述事件角色填充模块包括:
第二事件角色填充模块,被配置为响应于所述得分超过阈值,将所述得分超过阈值的事件论元填充至对应的事件角色;以及
第三事件角色填充模块,被配置为确定所述第一事件记录中未被填充的剩余事件角色;以及
第四事件角色填充模块,被配置为利用所述多个事件论元填充所述剩余事件角色。
示例24.根据示例13-23中任一项所述的装置,还包括:
角色损失计算模块,被配置为计算所述剩余事件角色的角色损失;以及
第五训练模块,被配置为基于所述剩余事件角色的角色损失,训练所述机器学习模型。
示例25.一种电子设备,包括:
处理器;以及
与所述处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被所述处理器执行时使所述电子设备执行动作,所述动作包括:
从文档中抽取作为多个事件论元的多个命名实体,其中所述文档包括至少两个句子;
确定所述文档中的事件类型和与所述事件类型相对应的模板;
将所述多个事件论元填充至所述模板中的相应位置以生成多个候选事件记录,其中在所述多个候选事件记录的生成期间,从所述多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成;以及
过滤所述多个候选事件记录以获得一个或多个目标事件记录。
示例26.根据示例25所述的电子设备,其中从文档中抽取作为多个事件论元的多个命名实体包括:
对所述文档中的多个词语进行编码;
确定与编码后的所述多个词语相关联的多个句子表示;以及
解码所述多个句子表示以获取所述多个命名实体。
示例27.根据示例25-26中任一项所述的电子设备,其中确定所述文档中的事件类型和与所述事件类型相对应的模板包括:
确定所述多个命名实体的多个实体向量;
对所述多个实体向量进行压缩以生成候选论元表示集;
确定所述文档的多个句子向量;
对所述多个句子向量进行压缩以生成句子表示集;以及
基于所述候选论元表示集和所述句子表示集,确定所述事件类型。
示例28.根据示例25-27中任一项所述的电子设备,其中将所述多个事件论元填充至所述模板中的相应位置以生成多个候选事件记录包括:
确定表示模版的模板词语的词语表示集;以及
对所述候选论元表示集和所述词语表示集进行解码以确定所述候选事件记录。
示例29.根据示例25-28中任一项所述的电子设备,其中对所述候选论元表示集和所述词语表示集进行解码以确定所述候选事件记录包括:
基于所述候选论元表示集和所述词语表示集,生成与事件论元相关联的模板表示;
确定表示多个事件角色所对应的多个事件论元的多个概率;
基于所述多个概率,过滤所述多个事件论元以确定与所述多个事件角色相对应的事件论元;以及
将所述事件论元和所述事件角色确定为所述候选事件记录。
示例30.根据示例25-29中任一项所述的电子设备,所述动作还包括:
将所述多个候选事件记录中的第一事件记录中的第一事件论元和所述模板表示进行压缩以生成所述第一事件记录的表示;以及
基于所述第一事件记录的表示、所述文档中的句子表示以及所述多个事件论元的表示,生成第二事件记录。
示例31.根据示例25-30中任一项所述的电子设备,其中过滤所述多个候选事件记录以获得一个或多个目标事件记录包括:
确定所述多个候选事件记录的候选表示集;
基于所述候选表示集,对所述多个句子表示进行过滤以确定所述多个句子表示的多个抽取得分;以及
基于所述多个抽取得分,确定所述一个或多个目标事件记录。
示例32.根据示例25-31中任一项所述的电子设备,其中所述动作在经训练的机器学习模型中执行,并且在训练阶段基于所述多个抽取得分,确定所述一个或多个目标事件记录包括:
确定与所述多个抽取得分、以及作为标签的真实事件论元集相关联的角色损失,其中所述真实事件论元集指示多个真实事件论元和对应的多个事件角色;
基于与所述角色损失相关联的角色损失函数,确定所述多个候选事件记录和对应的真实事件论元;以及
将所述多个候选事件记录中的每个事件记录与对应的真实事件记录进行匹配。
示例33.根据示例25-32中任一项所述的电子设备,其中将所述多个候选事件记录中的每个事件记录与对应的真实事件记录进行匹配包括:
确定所述多个候选事件记录的多个过滤得分;
确定与所述多个过滤得分、以及作为标签的多个真实事件记录相关联的事件损失;
基于与所述事件损失和所述角色损失,确定总损失;
确定与所述总损失相关联的事件记录损失函数;以及
基于所述事件记录损失函数,匹配真实事件记录与所述多个候选事件记录中的相应事件记录。
示例34.根据示例25-33中任一项所述的电子设备,其中训练所述机器学习模型还包括:
在多个事件记录中选择第一事件记录;
基于得分利用事件论元填充所述第一事件记录中的事件角色;以及
基于所述第一事件记录中的未被填充的事件角色,训练所述机器学习模型。
示例35.根据示例25-34中任一项所述的电子设备,其中基于得分利用事件论元填充事件角色包括:
响应于所述得分超过阈值,将所述得分超过阈值的事件论元填充至对应的事件角色;以及
确定未被填充的剩余事件角色;以及
利用所述多个事件论元填充所述剩余事件角色。
示例36.根据示例25-35中任一项所述的电子设备,其中所述动作还包括:
计算所述剩余事件角色的角色损失;以及
基于所述剩余事件角色的角色损失,训练所述机器学习模型。
示例37.一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据示例1至12中任一项所述的方法。
示例38.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在由设备执行时使所述设备执行根据示例1至12中任一项所述的方法。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (15)
1.一种事件抽取的方法,包括:
从文档中抽取作为多个事件论元的多个命名实体,其中所述文档包括至少两个句子;
确定所述文档中的事件类型和与所述事件类型相对应的模板;
将所述多个事件论元填充至所述模板中的相应位置以生成多个候选事件记录,其中在所述多个候选事件记录的生成期间,从所述多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成;以及
过滤所述多个候选事件记录以获得一个或多个目标事件记录。
2.根据权利要求1所述的方法,其中从文档中抽取作为多个事件论元的多个命名实体包括:
对所述文档中的多个词语进行编码;
确定与编码后的所述多个词语相关联的多个句子表示;以及
解码所述多个句子表示以获取所述多个命名实体。
3.根据权利要求1所述的方法,其中确定所述文档中的事件类型和与所述事件类型相对应的模板包括:
确定所述多个命名实体的多个实体向量;
对所述多个实体向量进行压缩以生成候选论元表示集;
确定所述文档的多个句子向量;
对所述多个句子向量进行压缩以生成句子表示集;以及
基于所述候选论元表示集和所述句子表示集,确定所述事件类型。
4.根据权利要求3所述的方法,其中将所述多个事件论元填充至所述模板中的相应位置以生成多个候选事件记录包括:
确定表示模版的模板词语的词语表示集;以及
对所述候选论元表示集和所述词语表示集进行解码以确定所述候选事件记录。
5.根据权利要求4所述的方法,其中对所述候选论元表示集和所述词语表示集进行解码以确定所述候选事件记录包括:
基于所述候选论元表示集和所述词语表示集,生成与事件论元相关联的模板表示;
确定表示多个事件角色所对应的多个事件论元的多个概率;
基于所述多个概率,过滤所述多个事件论元以确定与所述多个事件角色相对应的事件论元;以及
将所述事件论元和所述事件角色确定为所述候选事件记录。
6.根据权利要求5所述的方法,还包括:
将所述多个候选事件记录中的第一事件记录中的第一事件论元和所述模板表示进行压缩以生成所述第一事件记录的表示;以及
基于所述第一事件记录的表示、所述文档中的句子表示以及所述多个事件论元的表示,生成第二事件记录。
7.根据权利要求2-6任一项所述的方法,其中过滤所述多个候选事件记录以获得一个或多个目标事件记录包括:
确定所述多个候选事件记录的候选表示集;
基于所述候选表示集,对所述多个句子表示进行过滤以确定所述多个句子表示的多个抽取得分;以及
基于所述多个抽取得分,确定所述一个或多个目标事件记录。
8.根据权利要求7所述的方法,其中所述方法在经训练的机器学习模型中执行,并且在训练阶段基于所述多个抽取得分,确定所述一个或多个目标事件记录包括:
确定与所述多个抽取得分、以及作为标签的真实事件论元集相关联的角色损失,其中所述真实事件论元集指示多个真实事件论元和对应的多个事件角色;
基于与所述角色损失相关联的角色损失函数,确定所述多个候选事件记录和对应的真实事件论元;以及
将所述多个候选事件记录中的每个事件记录与对应的真实事件记录进行匹配。
9.根据权利要求8所述的方法,其中将所述多个候选事件记录中的每个事件记录与对应的真实事件记录进行匹配包括:
确定所述多个候选事件记录的多个过滤得分;
确定与所述多个过滤得分、以及作为标签的多个真实事件记录相关联的事件损失;
基于与所述事件损失和所述角色损失,确定总损失;
确定与所述总损失相关联的事件记录损失函数;以及
基于所述事件记录损失函数,匹配真实事件记录与所述多个候选事件记录中的相应事件记录。
10.根据权利要求9所述的方法,其中训练所述机器学习模型包括:
在多个事件记录中选择第一事件记录;
基于得分利用事件论元填充所述第一事件记录中的事件角色;以及
基于所述第一事件记录中的未被填充的事件角色,训练所述机器学习模型。
11.根据权利要求10所述的方法,其中基于得分利用事件论元填充事件角色包括:
响应于所述得分超过阈值,将所述得分超过阈值的事件论元填充至对应的事件角色;
确定所述第一事件记录中未被填充的剩余事件角色;以及
利用所述多个事件论元填充所述剩余事件角色。
12.根据权利要求11所述的方法,还包括:
计算所述剩余事件角色的角色损失;以及
基于所述剩余事件角色的角色损失,训练所述机器学习模型。
13.一种事件抽取的装置,包括:
命名实体抽取模块,被配置为从文档中抽取作为多个事件论元的多个命名实体,其中所述文档包括至少两个句子;
事件类型确定模块,被配置为确定所述文档中的事件类型和与所述事件类型相对应的模板;
事件记录生成模块,被配置为将所述多个事件论元填充至所述模板中的相应位置以生成多个候选事件记录,其中在所述多个候选事件记录的生成期间,从所述多个候选事件中的第二个候选事件记录起,每个候选事件记录是基于先前生成的候选事件记录而被迭代生成;以及
事件记录过滤模块,被配置为过滤所述多个候选事件记录以获得一个或多个目标事件记录。
14.一种电子设备,包括:
处理器;以及
与所述处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被处理器执行时,使得所述电子设备执行根据权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机可执行指令,其中所述计算机可执行指令被处理器执行以实现根据权利要求1至12中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120872.0A CN116089584A (zh) | 2023-02-02 | 2023-02-02 | 事件抽取的方法、装置、电子设备和介质 |
US18/415,327 US20240265027A1 (en) | 2023-02-02 | 2024-01-17 | Method, apparatus, electronic device and medium for event extraction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310120872.0A CN116089584A (zh) | 2023-02-02 | 2023-02-02 | 事件抽取的方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116089584A true CN116089584A (zh) | 2023-05-09 |
Family
ID=86210125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310120872.0A Pending CN116089584A (zh) | 2023-02-02 | 2023-02-02 | 事件抽取的方法、装置、电子设备和介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240265027A1 (zh) |
CN (1) | CN116089584A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493486A (zh) * | 2023-11-10 | 2024-02-02 | 华泰证券股份有限公司 | 基于数据重放的可持续金融事件抽取系统及方法 |
CN118468870A (zh) * | 2024-07-11 | 2024-08-09 | 天津大学合肥创新发展研究院 | 文档级事件论元提取方法及系统 |
-
2023
- 2023-02-02 CN CN202310120872.0A patent/CN116089584A/zh active Pending
-
2024
- 2024-01-17 US US18/415,327 patent/US20240265027A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493486A (zh) * | 2023-11-10 | 2024-02-02 | 华泰证券股份有限公司 | 基于数据重放的可持续金融事件抽取系统及方法 |
CN118468870A (zh) * | 2024-07-11 | 2024-08-09 | 天津大学合肥创新发展研究院 | 文档级事件论元提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20240265027A1 (en) | 2024-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111241287A (zh) | 用于生成对抗文本的生成模型的训练方法及装置 | |
CN116089584A (zh) | 事件抽取的方法、装置、电子设备和介质 | |
CN111753086A (zh) | 一种垃圾邮件识别方法和装置 | |
CN113360699A (zh) | 模型训练方法和装置、图像问答方法和装置 | |
CN115063875A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN116501898A (zh) | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 | |
CN115880502A (zh) | 检测模型的训练方法、目标检测方法、装置、设备和介质 | |
CN114299194A (zh) | 图像生成模型的训练方法、图像生成方法及装置 | |
CN115840808A (zh) | 科技项目咨询方法、装置、服务器及计算机可读存储介质 | |
CN115730590A (zh) | 意图识别方法以及相关设备 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115168537A (zh) | 语义检索模型的训练方法、装置、电子设备及存储介质 | |
CN114579725A (zh) | 问答对生成方法、装置、电子设备和存储介质 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN117911079A (zh) | 一种个性化商户营销智能推荐方法和系统 | |
CN114897183B (zh) | 问题数据处理方法、深度学习模型的训练方法和装置 | |
CN114707518A (zh) | 面向语义片段的目标情感分析方法、装置、设备及介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN113886543A (zh) | 生成意图识别模型的方法、装置、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |