CN115329746A - 一种事件抽取方法、装置及设备 - Google Patents
一种事件抽取方法、装置及设备 Download PDFInfo
- Publication number
- CN115329746A CN115329746A CN202210938697.1A CN202210938697A CN115329746A CN 115329746 A CN115329746 A CN 115329746A CN 202210938697 A CN202210938697 A CN 202210938697A CN 115329746 A CN115329746 A CN 115329746A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- sentence
- target
- mention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Abstract
本申请提供一种事件抽取方法、装置及设备,该方法包括:获取目标文本中的多个句子、多个句子中的多个实体和多个实体提及;确定与多个句子对应的初始句子向量、与多个实体对应的初始实体向量、与多个实体提及对应的初始实体提及向量;基于多个句子、多个实体和多个实体提及生成异质关系图谱,所述异质关系图谱包括句子、实体提及与实体之间的关联关系;基于异质关系图谱、初始句子向量、初始实体向量和初始实体提及向量,确定目标句子向量和目标实体向量;基于目标句子向量和目标实体向量确定目标文本对应的至少一条事件记录,事件记录包括用于描述同一事件的多个实体。通过本申请的技术方案,能够准确从文本中抽取出多种事件类型的多条事件记录。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种事件抽取方法、装置及设备。
背景技术
事件抽取(Event Extraction,EE)是舆情管理领域和金融领域的重要任务之一,事件在金融领域是投资分析、资产管理的重要决策参考,事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。在大数据时代,数据信息的形式多样、错综复杂,难以挖掘和处理,难以利用和分析,为了从文本中提取更多有价值的信息,关键就是对文本中包含的实体、关系及事件进行抽取,对它们之间的作用关系进行分析和预测,以将提取的信息展现的更加系统化规范化。事件作为信息的表现形式之一,主要描述特定时间、地点、人和物相互作用的客观事实。事件抽取主要是从描述事件信息的文本中抽取出什么人、什么时间、在什么地点、做了什么事,以更加结构化的方式呈现。事件抽取作为主流的自然语言处理-任务,包括一系列抽取任务,如事件触发词的识别、事件类型的识别、事件论元及论元角色的提取等。但是,如何从文本中抽取出用于描述同一事件的实体,在相关技术中并没有合理的抽取方式,无法准确从文本中抽取出用于描述同一事件的实体。
发明内容
本申请提供一种事件抽取方法,所述方法包括:获取目标文本中的多个句子、所述多个句子中的多个实体和多个实体提及;确定与所述多个句子对应的初始句子向量、与所述多个实体对应的初始实体向量、与所述多个实体提及对应的初始实体提及向量;基于所述多个句子、所述多个实体和所述多个实体提及生成异质关系图谱,所述异质关系图谱包括句子、实体提及与实体之间的关联关系;基于所述异质关系图谱、所述初始句子向量、所述初始实体向量和所述初始实体提及向量,分别确定所述初始句子向量对应的目标句子向量和所述初始实体向量对应的目标实体向量;基于所述目标句子向量和所述目标实体向量确定所述目标文本对应的至少一条事件记录,事件记录包括用于描述同一事件的多个实体。
本申请提供一种事件抽取装置,所述装置包括:获取模块,用于获取目标文本中的多个句子、并获取所述多个句子中的多个实体和多个实体提及;确定模块,用于确定与所述多个句子对应的初始句子向量、与所述多个实体对应的初始实体向量、与所述多个实体提及对应的初始实体提及向量;生成模块,用于基于所述多个句子、多个实体和多个实体提及生成异质关系图谱,所述异质关系图谱包括句子、实体提及与实体之间的关联关系;所述确定模块,还用于基于所述异质关系图谱、所述初始句子向量、所述初始实体向量和所述初始实体提及向量,分别确定所述初始句子向量对应的目标句子向量和所述初始实体向量对应的目标实体向量;所述确定模块,还用于基于所述目标句子向量和所述目标实体向量确定目标文本对应的至少一条事件记录,事件记录包括用于描述同一事件的多个实体。
本申请提供一种事件抽取设备,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现上述示例公开的事件抽取方法。
由以上技术方案可见,本申请实施例中,提出一种基于图模型的篇章级事件抽取方法,能够准确从文本中抽取出用于描述同一事件的多个实体。针对篇章级事件抽取任务,设计一种包含句子、实体提及和实体的关系图谱,并针对性的设计一种多层次(节点注意力和图谱注意力)的注意力机制,来模拟“句子-实体提及-实体”之间的信息流动模式,来反应不同节点、不同边、不同图谱对最终表征向量的影响,分别对三个局部图谱表征,从而更好地捕获同一事件中不同事件元素之间的关联关系。图谱蕴含了更丰富的关系,有利于捕获跨句实体之间的联系,能够避免篇章级事件抽取中的论元分散问题。可以有效地建模同一事件下各事件元素的交互关系,可以极大提升事件抽取系统的性能。本申请实施例中,通过将事件表格填充任务建模为路径扩展任务,从而解决了精度差、耗时长的缺点,并且能够实现对事件类型识别、事件论元识别、事件表格填充进行端到端建模,有效解决了篇章级事件抽取中的多事件抽取和论元分散问题,可以极大提升事件抽取系统的性能。
附图说明
图1是本申请一种实施方式中的事件抽取方法的流程示意图;
图2是本申请一种实施方式中的事件抽取方法的流程示意图;
图3是本申请一种实施方式中的实体识别模型的处理示意图;
图4是本申请一种实施方式中的构建异质关系图谱的示意图;
图5是本申请一种实施方式中的异质关系图谱的示意图;
图6是本申请一种实施方式中的向量更新的示意图;
图7是本申请一种实施方式中的路径扩展任务的示意图;
图8是本申请一种实施方式中的事件抽取装置的结构示意图;
图9是本申请一种实施方式中的事件抽取设备的硬件结构图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请实施例中提出一种事件抽取方法,该方法可以应用于任意类型的设备,参见图1所示,为该方法的流程示意图,该方法可以包括:
步骤101、获取目标文本中的多个句子、多个句子中的多个实体和多个实体提及,即从多个句子中获取多个实体,从多个句子中获取多个实体提及。
步骤102、确定与多个句子对应的初始句子向量、与多个实体对应的初始实体向量、与多个实体提及对应的初始实体提及向量。
步骤103、基于多个句子、多个实体和多个实体提及生成异质关系图谱,该异质关系图谱可以包括句子、实体提及与实体之间的关联关系。
可以构建与多个句子对应的多个句子节点、与多个实体对应的多个实体节点、与多个实体提及对应的多个实体提及节点。构建句子节点与句子节点之间的边关系;构建句子节点与实体提及节点之间的边关系;构建实体提及节点与实体提及节点之间的边关系;构建实体提及节点与实体节点之间的边关系。
在一种可能的实施方式中,在构建句子节点与句子节点之间的边关系时,针对任一句子,该句子对应的句子节点与该句子后面多个句子对应的句子节点具有边关系。在构建句子节点与实体提及节点之间的边关系时,若句子中包括实体提及,则该句子对应的句子节点与该实体提及对应的实体提及节点具有边关系。在构建实体提及节点与实体提及节点之间的边关系时,若两个实体提及处于同一句子,则两个实体提及对应的实体提及节点具有边关系;若两个实体提及具有相同事件角色,则两个实体提及对应的实体提及节点具有边关系;若两个实体提及表示同一实体,则两个实体提及对应的实体提及节点具有边关系。在构建实体提及节点与实体节点之间的边关系时,若实体提及对应实体,则该实体提及对应的实体提及节点与该实体对应的实体节点具有边关系。
步骤104、基于该异质关系图谱、该初始句子向量、该初始实体向量和该初始实体提及向量,分别确定初始句子向量对应的目标句子向量和初始实体向量对应的目标实体向量。
示例性的,可以基于该异质关系图谱获取句子关系图谱、句子与实体提及关系图谱、实体提及与实体关系图谱;其中,句子关系图谱包括句子和句子之间的关联关系,句子与实体提及关系图谱包括句子和实体提及之间的关联关系,实体提及与实体关系图谱包括实体提及和实体之间的关联关系。可以基于句子关系图谱、句子与实体提及关系图谱、初始句子向量和初始实体提及向量,确定初始句子向量对应的目标句子向量。可以基于实体提及与实体关系图谱、初始实体向量和初始实体提及向量,确定初始实体向量对应的目标实体向量。
在一种可能的实施方式中,基于句子关系图谱、句子与实体提及关系图谱、初始句子向量和初始实体提及向量,确定初始句子向量对应的目标句子向量,可以包括:基于句子关系图谱确定初始句子向量对应的关联句子向量,基于初始句子向量和关联句子向量确定第一节点注意力向量;基于第一节点注意力向量和关联句子向量确定句子间图谱融合特征;基于句子间图谱融合特征和初始句子向量确定第一图谱注意力向量。基于句子与实体提及关系图谱确定初始句子向量对应的初始实体提及向量,基于初始句子向量和初始实体提及向量确定第二节点注意力向量;基于第二节点注意力向量和初始实体提及向量确定句子提及间图谱融合特征;基于句子提及间图谱融合特征和初始句子向量确定第二图谱注意力向量;基于句子间图谱融合特征、第一图谱注意力向量、句子提及间图谱融合特征、第二图谱注意力向量和初始句子向量,确定目标句子向量。
在一种可能的实施方式中,基于实体提及与实体关系图谱、初始实体向量和初始实体提及向量,确定初始实体向量对应的目标实体向量,可以包括但不限于:基于实体提及与实体关系图谱确定初始实体向量对应的初始实体提及向量;基于初始实体向量和初始实体提及向量确定节点注意力向量;基于节点注意力向量和初始实体提及向量确定实体提及与实体间图谱融合特征;基于实体提及与实体间图谱融合特征和初始实体向量,确定目标实体向量。
步骤105、基于目标句子向量和目标实体向量确定目标文本对应的至少一条事件记录,每条事件记录均包括用于描述同一事件的多个实体。
示例性的,可以基于目标句子向量确定目标文本对应的目标事件类型,并确定该目标事件类型对应的多个事件角色。针对每个事件角色,基于目标句子向量和目标实体向量,从多个实体中选取与该事件角色对应的目标实体。基于每个事件角色对应的目标实体确定目标文本对应的事件记录。
基于目标句子向量确定目标文本对应的目标事件类型,可以包括但不限于:针对事件类型列表中的每个事件类型,将目标句子向量输入给已训练的事件类型识别模型,得到该事件类型对应的预测概率;若该预测概率大于预设阈值,则可以确定该事件类型为目标事件类型;若该预测概率不大于预设阈值,则可以确定该事件类型不为目标事件类型。
针对每个事件角色,基于目标句子向量和目标实体向量,从多个实体中选取与该事件角色对应的目标实体,可以包括:确定与该事件角色对应的路径表征矩阵,该路径表征矩阵可以包括该事件角色前面的各事件角色对应的目标实体对应的特征向量;在目标文本对应多个目标事件类型时,确定记忆矩阵,该记忆矩阵可以包括目标文本对应的多个目标事件类型的路径表征矩阵,一个路径表征矩阵对应一条事件记录中所有事件角色对应的目标实体对应的特征向量。在此基础上,可以基于该目标句子向量、该目标实体向量、该路径表征矩阵和该记忆矩阵,从多个实体中选取与该事件角色对应的目标实体;或者,可以基于该目标句子向量、该目标实体向量和该路径表征矩阵,从多个实体中选取与该事件角色对应的目标实体。
在一种可能的实施方式中,基于目标句子向量、目标实体向量、路径表征矩阵和记忆矩阵,从多个实体中选取与该事件角色对应的目标实体,可以包括但不限于:针对每个实体,将目标句子向量、目标实体向量、路径表征矩阵和记忆矩阵输入给分类器模型,得到该实体对应的预测概率;若该预测概率大于预设阈值,则确定该实体为该事件角色对应的目标实体,否则,若该预测概率不大于预设阈值,则确定该实体不为该事件角色对应的目标实体。
示例性的,在得到目标文本对应的至少一条事件记录之后,可以基于目标文本对应的事件记录进行处理,比如说,可以采用以下至少一种方式对目标文本对应的事件记录进行处理。
在一种可能的实施方式中,在确定目标文本对应的至少一条事件记录之后,可以在目标页面展示目标文本对应的事件记录。比如说,通过在目标页面展示目标文本对应的事件记录,使得用户可以查询目标文本对应的事件记录,继而获知目标文本中的事件记录。
在一种可能的实施方式中,在确定目标文本对应的至少一条事件记录之后,可以在目标知识图谱中存储目标文本对应的事件记录。比如说,基于已构建的目标知识图谱(对此目标知识图谱的构建过程不做限制),可以将目标文本对应的事件记录作为目标知识图谱的补充数据,将目标文本对应的事件记录存储到目标知识图谱中,对此过程不做限制。
在一种可能的实施方式中,在确定目标文本对应的至少一条事件记录之后,若目标文本对应的事件记录与目标感兴趣信息匹配,则将目标文本对应的信息推送给目标感兴趣信息对应的目标设备。比如说,可以预先配置目标感兴趣信息(如实体A、实体B等)和该目标感兴趣信息对应的目标设备信息(如IP地址、手机号等),在此基础上,若目标文本对应的事件记录与目标感兴趣信息匹配(如该事件记录包括实体A、实体B等),则可以将目标文本对应的信息(如目标文本本身、目标文本的链接、目标文本对应的事件记录等等)推送给该目标设备信息对应的目标设备,如基于IP地址或者手机号等将信息推送给目标设备。
由以上技术方案可见,本申请实施例中,提出一种基于图模型的篇章级事件抽取方法,能够准确从文本中抽取出用于描述同一事件的多个实体。针对篇章级事件抽取任务,设计一种包含句子、实体提及和实体的关系图谱,并针对性的设计一种多层次(节点注意力和图谱注意力)的注意力机制,来模拟“句子-实体提及-实体”之间的信息流动模式,来反应不同节点、不同边、不同图谱对最终表征向量的影响,分别对三个局部图谱表征,从而更好地捕获同一事件中不同事件元素之间的关联关系。图谱蕴含了更丰富的关系,有利于捕获跨句实体之间的联系,能够避免篇章级事件抽取中的论元分散问题。可以有效地建模同一事件下各事件元素的交互关系,可以极大提升事件抽取系统的性能。此外,本申请实施例中,通过将事件表格填充任务建模为路径扩展任务,从而解决了精度差、耗时长的缺点,并且能够实现对事件类型识别、事件论元识别、事件表格填充进行端到端建模,有效解决了篇章级事件抽取中的多事件抽取和论元分散问题,可以极大提升事件抽取系统的性能。
以下结合具体应用场景,对本申请实施例的技术方案进行说明。
事件抽取是指,从非结构化的文本中,将目标事件(如股权质押等)中感兴趣的事件元素(如人名、机构名、时间等)抽取出来,将这些事件元素组成一条事件记录。事件抽取是舆情管理领域和金融领域的重要任务,事件在金融领域是投资分析、资产管理的重要决策参考,事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。
本申请实施例中提出一种事件抽取方法,该事件抽取方法是基于图模型的篇章级事件抽取方法,通过图模型可以有效地建模同一事件下各事件元素的交互关系,可以极大提升事件抽取系统的性能。针对篇章级事件抽取任务,本实施例设计一种包含句子、实体提及和实体的关系图谱,可以更有效的建模“句子-实体提及-实体”的信息流动模式。在节点表征时,本实施例设计一种多层次(节点注意力和图谱注意力)的注意力机制,来反应不同节点/不同边/不同图谱对最终表征向量的影响。通过将事件表格填充加入到整体算法框架,提高算法性能。
参见图2所示,为事件抽取方法的流程示意图,该事件抽取方法可以包括:
步骤201、篇章级文本预处理。比如说,输入是篇章级文本,通过正则表达式等方式将该篇章级文本切分为N个句子,每个句子的长度低于预设长度阈值。
步骤202、实体识别。比如说,输入是篇章级文本的N个句子,从每个句子中识别出感兴趣的事件元素(如人名、机构名、金额、时间等)。
步骤203、构建异质关系图谱。比如说,可以构建异质关系图谱,该异质关系图谱可以包括句子节点、实体节点和实体提及节点等,该异质关系图谱中的节点关系可以包括顺序关系、从属关系、相同论元角色关系等。
步骤204、异质图交互网络表征。比如说,基于异质关系图谱,设计一种关系图驱动的自注意力机制,来捕获同一事件中不同事件元素之间的交互信息。
步骤205、事件类型识别,即利用句子信息来判断篇章级文本中的事件类型。
步骤206、事件表格填充,即通过路径扩展的方式进行事件表格的填充。
以下结合具体实施例,对步骤201-步骤206的处理过程进行说明。
一、篇章级文本预处理。示例性的,可以获取目标文本,目标文本可以是篇章级文本。可以获取该目标文本中的多个句子,比如说,可以通过正则表达式等方式将目标文本切分为N个句子,每个句子的长度可以低于预设长度阈值(可以根据经验配置)。
二、实体识别。示例性的,在将目标文本切分为多个句子(如N个句子)之后,还可以从多个句子中获取多个实体,并从多个句子中获取多个实体提及,并获取初始句子向量、初始实体提及向量和初始实体向量。其中,实体提及是句子中表示实体的连续字符串,例如,句子“张先生是公司的董事长”中的“董事长”为一个实体提及,在多个句子中出现的“董事长”表示不同的实体提及。字符相同的实体提及表示同一个实体,例如,虽然“董事长”在多个句子中出现,但是这些实体提及均对应同一个实体“董事长”。
在从多个句子中获取多个实体(如M个实体)之后,可以确定每个实体对应的初始实体向量,例如,一个实体可以包括多个词语或单词,基于这些词语或单词的词向量确定该实体对应的初始实体向量,对此过程不做限制,这样,可以得到M个实体对应的M个初始实体向量,将M个初始实体向量记为{e1,e2,...,eM},e1表示第1个实体对应的初始实体向量,e2表示第2个实体对应的初始实体向量,以此类推,eM表示第M个实体对应的初始实体向量。
示例性的,在从多个句子中获取多个实体提及(如P个实体提及)后,可以确定每个实体提及对应的初始实体提及向量,例如,一个实体提及可以包括多个词语或单词,可以基于这些词语或单词的词向量确定该实体提及对应的初始实体提及向量,对此过程不做限制,这样,可以得到P个实体提及对应的P个初始实体提及向量,将P个初始实体提及向量记为{m1,m2,...,mP},m1表示第1个实体提及对应的初始实体提及向量,m2表示第2个实体提及对应的初始实体提及向量,以此类推,mP表示第P个实体提及对应的初始实体提及向量。
在从多个句子中获取多个实体和多个实体提及后,可以确定每个句子对应的初始句子向量,例如,一个句子包括大量词语或单词,可以基于这些词语或单词的词向量确定该句子对应的初始句子向量,对此确定过程不做限制,这样,可以得到N个句子对应的N个初始句子向量,将这N个初始句子向量记为{s1,s2,...,sN},s1表示第1个句子对应的初始句子向量,s2表示第2个句子对应的初始句子向量,以此类推,sN表示第N个句子对应的初始句子向量。
在一种可能的实施方式中,为了从多个句子中获取多个实体和多个实体提及,可以预先训练一个实体识别模型,该实体识别模型可以为采用Transformer和CRF(Conditional Random Field,条件随机场)的网络模型,对此实体识别模型的训练过程不做限制,实体识别模型用于从句子中获取实体和实体提及,并生成初始句子向量、初始实体提及向量和初始实体向量。比如说,训练样本可以是样本句子和标定信息,该标定信息用于表示样本句子中的实体和实体提及,这样,就可以基于训练样本训练得到实体识别模型。
基于已训练的实体识别模型,在将目标文本切分为N个句子后,就可以将N个句子输入给实体识别模型,由实体识别模型对N个句子进行处理,对此处理过程不做限制,得到N个句子中的多个实体和多个实体提及,如M个实体和P个实体提及,而M个实体和P个实体提及是N个句子中的感兴趣的事件元素。参见图3所示,左侧是N个句子,可以将N个句子输入给实体识别模型,由实体识别模型对N个句子进行处理,得到多个实体提及,右侧是多个实体提及。
三、构建异质关系图谱。示例性的,在得到多个句子、多个实体和多个实体提及之后,就可以基于多个句子、多个实体和多个实体提及生成异质关系图谱,该异质关系图谱可以包括句子、实体提及与实体之间的关联关系,该异质关系图谱中的节点关系可以包括但不限于:顺序关系、从属关系、相同论元角色关系等。
示例性的,关系图谱定义为一个具有对象类型映射函数V→A和关系类型映射函数ψ:E→R的有向图G=(V,E),关系图谱中的每个节点v∈V属于A中的一个特定对象类型,关系图谱中的每条边E∈E属于R中的一个特定关系类型。若关系图谱的对象类型数|A|>1或者关系类型数|R|>1,那么,将关系图谱称为异质关系图谱,否则,将关系图谱称为同质关系图谱,也就是说,同质关系图谱中只包含一种节点和一种关系,异质关系图谱中节点类型数目加关系类型数目大于1,本实施例中的关系图谱是指异质关系图谱。
示例性的,参见图4所示,可以采用如下步骤构建异质关系图谱:
步骤401、构建与多个句子对应的多个句子节点、与多个实体对应的多个实体节点、与多个实体提及对应的多个实体提及节点。
示例性的,可以构建异质关系图谱中的节点,如句子节点、实体节点和实体提及节点,比如说,每个句子对应一个句子节点,N个句子就对应N个句子节点,每个实体对应一个实体节点,M个实体就对应M个实体节点,每个实体提及对应一个实体提及节点,P个实体提及就对应P个实体提及节点。
步骤402、构建句子节点与句子节点之间的边关系。
示例性的,在构建句子节点与句子节点之间的边关系时,针对任一句子,该句子对应的句子节点与该句子后面多个句子对应的句子节点具有边关系。
示例性的,句子节点与句子节点之间的边关系是顺序关系,针对N个句子中的每个句子,该句子对应的句子节点与该句子后面的k个句子对应的句子节点具有边关系,k为正整数。假设k为2,那么,第1个句子对应的句子节点与第2、3个句子对应的句子节点具有边关系,第2个句子对应的句子节点与第3、4个句子对应的句子节点具有边关系,以此类推。
步骤403、构建句子节点与实体提及节点之间的边关系。示例性的,在构建句子节点与实体提及节点之间的边关系时,若句子中包括实体提及,则该句子对应的句子节点与该实体提及对应的实体提及节点具有边关系。
示例性的,句子节点与实体提及节点之间的边关系是从属关系,针对N个句子中的每个句子,若该句子中包括实体提及,则该句子对应的句子节点与该实体提及对应的实体提及节点具有边关系。例如,若该句子中包括1个实体提及,则该句子节点与1个实体提及节点具有边关系,若该句子中包括2个实体提及,则该句子节点与2个实体提及节点具有边关系,以此类推。若该句子中不包括实体提及,那么,该句子节点与任何实体提及节点没有边关系。
步骤404、构建实体提及节点与实体提及节点之间的边关系。
示例性的,在构建实体提及节点与实体提及节点之间的边关系时,若两个实体提及处于同一句子,则两个实体提及对应的实体提及节点具有边关系。比如说,若某句子包括至少两个实体提及,则对于所述至少两个实体提及中的任意两个实体提及,这两个实体提及对应的实体提及节点具有边关系,且这两个实体提及对应的实体提及节点之间的边关系是顺序关系。
示例性的,在构建实体提及节点与实体提及节点之间的边关系时,若两个实体提及具有相同事件角色,则这两个实体提及对应的实体提及节点具有边关系。比如说,从所有实体提及中选取具有相同事件角色(如董事长和监事均代表职位名称,属于同一事件角色)的至少两个实体提及,对于至少两个实体提及中的任意两个实体提及,这两个实体提及对应的实体提及节点具有边关系,且这两个实体提及对应的实体提及节点之间的边关系是同论元关系。
在构建实体提及节点与实体提及节点之间的边关系时,若两个实体提及表示同一实体,则两个实体提及对应的实体提及节点具有边关系。比如说,从所有实体提及中选取具有相同实体角色(如张三上学和张三放学,两个句子的张三为两个实体提及,代表同一实体)的至少两个实体提及,对于至少两个实体提及中的任意两个实体提及,两个实体提及对应的实体提及节点具有边关系,且这两个实体提及对应的实体提及节点之间的边关系是同实体关系。
步骤405、构建实体提及节点与实体节点之间的边关系。
在构建实体提及节点与实体节点之间的边关系时,若实体提及对应实体,则该实体提及对应的实体提及节点与该实体对应的实体节点具有边关系。比如说,一个实体可以对应多个实体提及,那么,针对该实体对应的每个实体提及,该实体提及对应的实体提及节点与该实体对应的实体节点具有边关系,且该实体提及节点与该实体节点之间的边关系是从属关系。
步骤406、基于异质关系图谱获取句子关系图谱、句子与实体提及关系图谱、实体提及与实体关系图谱。其中,句子关系图谱可以包括句子和句子之间的关联关系,句子与实体提及关系图谱可以包括句子和实体提及之间的关联关系,句子与实体提及关系图谱可以包括实体提及和实体提及之间的关联关系,实体提及与实体关系图谱可以包括实体提及和实体之间的关联关系。
示例性的,基于步骤401-步骤405,可以构建出异质关系图谱,参见图5所示,示出了异质关系图谱的示意图,第一个圆内的节点为句子节点,第二个圆内的节点为实体提及节点,第三个圆内的节点为实体节点,该异质关系图谱可以包括句子节点与句子节点之间的关联关系、句子节点与实体提及节点之间的关联关系、实体提及节点与实体提及节点之间的关联关系、实体提及节点与实体节点之间的关联关系。在得到异质关系图谱之后,可以将异质关系图谱拆解为三个相互独立的局部图谱,来更好地学习句子、实体提及、实体的关系。
三个相互独立的局部图谱是句子关系图谱、句子与实体提及关系图谱、实体提及与实体关系图谱。其中,句子关系图谱可以包括句子节点之间的关系,表示为参见图5所示,第一个圆内的关系图谱用于表示句子关系图谱。句子与实体提及关系图谱可以包括句子节点和实体提及节点之间的关系,表示为参见图5所示,第一个圆和第二个圆内的关系图谱用于表示句子与实体提及关系图谱。实体提及与实体关系图谱可以包括实体提及节点和实体节点之间的关系,表示为参见图5所示,第二个圆和第三个圆内的关系图谱用于表示实体提及与实体关系图谱。在句子关系图谱中,S表示句子节点对应的句子向量,表示句子节点与句子节点之间的边关系。在句子与实体提及关系图谱中,S表示句子节点对应的句子向量,M表示实体提及节点对应的实体提及向量,表示句子节点与实体提及节点之间的边关系,表示实体提及节点与实体提及节点之间的边关系。在实体提及与实体关系图谱中,M表示实体提及节点对应的实体提及向量,E表示实体节点对应的实体向量,表示实体提及节点与实体节点之间的边关系。
四、异质图交互网络表征。
示例性的,为了解决异质关系图谱的异质性问题,异质关系图谱可以采用多层次(如节点注意力和图谱注意力)的注意力结构,并通过多次迭代更新句子向量、实体向量和实体提及向量,句子向量的初始值记为就是上述初始句子向量,实体向量的初始值记为就是上述初始实体向量,实体提及向量的初始值记为就是上述初始实体提及向量。其中,表示第k个句子对应的初始句子向量,k的取值范围是1-N,为了方便描述,后续以第k个句子对应的初始句子向量为例。表示第z个实体对应的初始实体向量,z的取值范围是1-M,为了方便描述,后续以第z个实体对应的初始实体向量为例。表示第d个实体提及对应的初始实体提及向量,d的取值范围是1-P,为了方便描述,后续以第d个实体提及对应的初始实体提及向量为例。
对初始句子向量进行第一次迭代后的句子向量记为将作为初始句子向量继续进行第二次迭代,第二次迭代后的句子向量记为将作为初始句子向量继续进行第三次迭代,以此类推,一直到进行最后一次迭代,将最后一次迭代后的句子向量作为目标句子向量,综上所述,可以对初始句子向量进行多次迭代,得到初始句子向量对应的目标句子向量。
对初始实体向量进行第一次迭代后的实体向量记为将作为初始实体向量继续进行第二次迭代,第二次迭代后的实体向量记为将作为初始实体向量继续进行第三次迭代,以此类推,一直到进行最后一次迭代,将最后一次迭代后的实体向量作为目标实体向量,综上所述,可以对初始实体向量进行多次迭代,得到初始实体向量对应的目标实体向量。
其中,对初始实体提及向量进行第一次迭代后的实体提及向量记为将作为初始实体提及向量继续进行第二次迭代,第二次迭代后的实体提及向量记为将作为初始实体提及向量继续进行第三次迭代,以此类推,直到进行最后一次迭代,将最后一次迭代后的实体提及向量作为目标实体提及向量,综上所述,可以对初始实体提及向量进行多次迭代,得到目标实体提及向量。
以第l轮迭代过程为例,第l次迭代后的句子向量记为第l次迭代后的实体向量记为第l次迭代后的实体提及向量记为基于句子向量实体向量和实体提及向量就可以确定第l+1次迭代后的句子向量第l+1次迭代后的实体向量记为第l+1次迭代后的实体提及向量记为
综上所述,在l为0时,基于第0次迭代后的句子向量实体向量和实体提及向量确定第1次迭代后的句子向量实体向量和实体提及向量在l为1时,基于第1次迭代后的句子向量实体向量和实体提及向量确定第2次迭代后的句子向量实体向量和实体提及向量以此类推,假设一共进行10次迭代,则l为9时,基于第9次迭代后的句子向量实体向量和实体提及向量确定出第10次迭代后的句子向量实体向量和实体提及向量而第10次迭代后的句子向量实体向量和实体提及向量就是目标句子向量、目标实体向量和目标实体提及向量,至此,完成迭代过程,得到目标句子向量、目标实体向量和目标实体提及向量。
以第l轮迭代过程为例,基于句子向量实体向量和实体提及向量可以采用如下步骤确定出l+1轮的句子向量实体向量和实体提及向量为了区分方便,可以将第l轮的句子向量称为初始句子向量,将第l轮的实体向量称为初始实体向量,将第l轮的实体提及向量称为初始实体提及向量,将l+1轮的句子向量称为目标句子向量,将l+1轮的实体向量称为目标实体向量,将l+1轮的实体提及向量称为目标实体提及向量。需要注意的是,在进行下一轮迭代时,这里的目标句子向量会更新为初始句子向量、目标实体向量会更新为初始实体向量、目标实体提及向量会更新为初始实体提及向量,从而重复迭代过程,一直到最后一轮迭代过程,对此过程不再重复赘述。
步骤S11、句子向量的更新。
在公式(1)中,表示第k个句子对应的目标句子向量,表示第k个句子对应的初始句子向量,表示句子节点与句子节点之间的边关系,表示与句子与句子节点之间的第r种关系,句子与句子节点之间关系数量可以为1个,也可以为多个。表示第一图谱注意力向量,表示句子间图谱融合特征,表示第二图谱注意力向量,表示句子提及间图谱融合特征。从公式(1)可以看出,可以基于句子间图谱融合特征第一图谱注意力向量句子提及间图谱融合特征第二图谱注意力向量和初始句子向量确定第k个句子对应的目标句子向量
在公式(2)中,表示与第k个句子节点具有第r种边关系的句子节点,也就是说,基于句子关系图谱,可以找到与第k个句子节点具有第r种边关系的句子节点,这些句子节点记为a,就表示句子节点a的句子向量,句子节点a的数量可以为1个,也可以为多个,句子节点a的句子向量可以记为第k个句子节点的初始句子向量对应的关联句子向量。可以用于表示参数矩阵,可以根据经验进行配置,或从训练好的模型中获取,对此参数矩阵不做限制。表示第k个句子节点与句子节点a之间的节点级别注意力,用于表示第k个句子节点的初始句子向量与句子节点a的关联句子向量之间的相似度,可以记为第一节点注意力向量。对于第一节点注意力向量还可以通过公式(3)确定第一节点注意力向量当然,公式(3)只是一个示例,对此不做限制。
在公式(3)中,Ws l表示参数矩阵,表示第k个句子节点的初始句子向量,表示第k个句子节点的初始句子向量对应的关联句子向量。Fss表示相似度函数,可以根据经验配置,对此不做限制。综上所述,可以将初始句子向量和关联句子向量代入相似度函数Fss,得到第一节点注意力向量
结合公式(2)和公式(3)可以看出,可以基于句子关系图谱确定初始句子向量对应的关联句子向量(即基于句子关系图谱找到与第k个句子节点具有边关系的句子节点a,继而得到句子节点a对应的句子向量),基于初始句子向量和关联句子向量就可以确定第一节点注意力向量可以基于第一节点注意力向量和关联句子向量确定句子间图谱融合特征
在公式(4)中,表示与第k个句子节点具有边关系的实体提及节点,基于句子与实体提及关系图谱,可以找到与第k个句子节点具有边关系的实体提及节点,这些实体提及节点记为b,就表示实体提及节点b的实体提及向量,实体提及节点b的数量可以为1个或多个,实体提及节点b的实体提及向量可以记为第k个句子节点的初始句子向量对应的初始实体提及向量。用于表示参数矩阵,可以根据经验进行配置。表示第k个句子节点与实体提及节点b之间的节点级别注意力,用于表示第k个句子节点的初始句子向量与实体提及节点b的初始实体提及向量之间的相似度,可以记为第二节点注意力向量。
在公式(5)中,表示参数矩阵,表示第k个句子节点的初始句子向量,表示第k个句子节点的初始句子向量对应的初始实体提及向量。Fsm表示相似度函数,可以根据经验配置,对此不做限制。综上所述,可以将初始句子向量和初始实体提及向量代入相似度函数Fsm,得到第二节点注意力向量
结合公式(4)和公式(5)可以看出,可以基于句子与实体提及关系图谱确定初始句子向量对应的初始实体提及向量(即基于句子与实体提及关系图谱找到与第k个句子节点具有边关系的实体提及节点b,继而得到实体提及节点b对应的初始实体提及向量),基于初始句子向量和初始实体提及向量就可以确定第二节点注意力向量然后,可以基于第二节点注意力向量和初始实体提及向量确定句子提及间图谱融合特征
在公式(6)中,表示第k个句子节点的初始句子向量,表示句子间图谱融合特征,Fsp表示映射函数,可以根据经验配置,对此不做限制。综上所述,可以将初始句子向量和句子间图谱融合特征代入映射函数Fsp,得到第一图谱注意力向量显然,从公式(6)可以看出,可以基于句子间图谱融合特征和初始句子向量确定第一图谱注意力向量
在公式(7)中,表示第k个句子节点的初始句子向量,表示句子提及间图谱融合特征,Fsp表示映射函数,可以根据经验配置,对此不做限制。综上所述,可以将初始句子向量和句子提及间图谱融合特征代入映射函数Fsp,得到第二图谱注意力向量显然,从公式(7)可以看出,可以基于句子提及间图谱融合特征和初始句子向量确定第二图谱注意力向量
结合公式(1)-公式(7),从上述内容可以看出,在步骤S11中,可以基于句子关系图谱确定初始句子向量对应的关联句子向量,基于初始句子向量和关联句子向量确定第一节点注意力向量;基于第一节点注意力向量和关联句子向量确定句子间图谱融合特征;基于句子间图谱融合特征和初始句子向量确定第一图谱注意力向量。基于句子与实体提及关系图谱确定初始句子向量对应的初始实体提及向量,基于初始句子向量和初始实体提及向量确定第二节点注意力向量;基于第二节点注意力向量和初始实体提及向量确定句子提及间图谱融合特征;基于句子提及间图谱融合特征和初始句子向量确定第二图谱注意力向量。基于句子间图谱融合特征、第一图谱注意力向量、句子提及间图谱融合特征、第二图谱注意力向量和初始句子向量,确定目标句子向量。
步骤S12、实体提及向量的更新。示例性的,当更新实体提及向量时,可以汇聚句子与实体提及关系图谱的信息和实体提及与实体关系图谱的信息,得到实体提及向量比如说,可以采用公式(8)确定实体提及向量当然,公式(8)只是一个示例,对此不做限制。
在公式(8)中,表示第d个实体提及对应的目标实体提及向量,表示第d个实体提及对应的初始实体提及向量,表示实体提及节点与实体提及节点之间的边关系,表示实体提及节点与实体提及节点之间的第r种关系,如:顺序关系、同论元关系、同实体关系等。表示图谱注意力向量1,表示句子与实体提及间图谱融合特征,表示图谱注意力向量2,表示实体提及与实体提及间第r种关系的图谱融合特征,表示图谱注意力向量3,表示实体提及与实体间图谱融合特征。从公式(8)可以看出,可以基于句子与实体提及间图谱融合特征、图谱注意力向量1、实体提及与实体提及间图谱融合特征、图谱注意力向量2、实体提及与实体间图谱融合特征、图谱注意力向量3和初始实体提及向量,确定目标实体提及向量。
在公式(8)中,表示句子与实体提及间图谱融合特征,用于表征句子与实体提及关系图谱的信息,如句子与实体提及关系图谱中句子与实体提及间的信息,即实体提及节点与句子节点的融合特征,比如说,可以通过公式(9)确定句子与实体提及间图谱融合特征对此不做限制。
在公式(9)中,表示与第d个实体提及节点具有边关系的句子节点,也就是说,基于句子与实体提及关系图谱,可以找到与第d个实体提及节点具有边关系的句子节点,这些句子节点记为a,就表示句子节点a的句子向量,句子节点a的句子向量可以记为初始实体提及向量对应的初始句子向量。Ws l用于表示参数矩阵,可以根据经验进行配置。表示第d个实体提及节点与句子节点a之间的节点级别注意力,用于表示第d个实体提及节点的初始实体提及向量与初始句子向量之间的相似度,可以记为节点注意力向量1。
对于节点注意力向量1,还可以通过公式(10)确定,对此不做限制。
在公式(8)中,表示实体提及与实体提及间图谱融合特征,用于表征句子与实体提及关系图谱的信息,如句子与实体提及关系图谱中实体提及与实体提及间的信息,即实体提及节点与实体提及节点的融合特征,比如说,通过公式(11)确定实体提及与实体提及间图谱融合特征对此不做限制。
在公式(11)中,表示与第d个实体提及节点具有第r种边关系的实体提及节点,也就是说,基于句子与实体提及关系图谱,可以找到与第d个实体提及节点具有第r种边关系的实体提及节点,这些实体提及节点记为b,就表示实体提及节点b的实体提及向量,实体提及节点b的实体提及向量可以记为初始实体提及向量对应的关联实体提及向量。用于表示参数矩阵,可以根据经验进行配置。表示第d个实体提及节点与实体提及节点b之间的节点级别注意力,用于表示第d个实体提及节点的初始实体提及向量与实体提及节点b的关联实体提及向量之间的相似度,可以记为节点注意力向量2。
对于节点注意力向量2,还可以通过公式(12)确定,对此不做限制。
在公式(13)中,表示与第d个实体提及节点具有边关系的实体节点,也就是说,基于实体提及与实体关系图谱,可以找到与第d个实体提及节点具有边关系的实体节点,这些实体节点记为c,就表示实体节点c的实体向量,实体节点c的实体向量可以记为初始实体提及向量对应的初始实体向量。We l用于表示参数矩阵,可以根据经验进行配置。表示第d个实体提及节点与实体节点c之间的节点级别注意力,用于表示第d个实体提及节点的初始实体提及向量与实体节点c的初始实体向量之间的相似度,可以记为节点注意力向量3。对于节点注意力向量3,还可以通过公式(14)确定,对此不做限制。
在公式(8)中,表示图谱注意力向量1,用于表示句子与实体提及间图谱融合特征的权重,如通过公式(15)确定图谱注意力向量1。表示图谱注意力向量2,用于表示实体提及与实体提及间图谱融合特征的权重,如通过公式(16)确定图谱注意力向量2。表示图谱注意力向量3,用于表示实体提及与实体间图谱融合特征的权重,如通过公式(17)确定图谱注意力向量3。
结合公式(8)-公式(17),从上述内容可以看出,在步骤S12中,可以基于句子与实体提及关系图谱确定初始实体提及向量对应的初始句子向量,基于初始实体提及向量和初始句子向量确定节点注意力向量1;基于节点注意力向量1和初始句子向量确定句子与实体提及间图谱融合特征;基于句子与实体提及间图谱融合特征和初始实体提及向量确定图谱注意力向量1。可以基于句子与实体提及关系图谱确定初始实体提及向量对应的关联实体提及向量,基于初始实体提及向量和关联实体提及向量确定节点注意力向量2;基于节点注意力向量2和关联实体提及向量确定实体提及与实体提及间图谱融合特征;基于实体提及与实体提及间图谱融合特征和初始实体提及向量确定图谱注意力向量2。可以基于实体提及与实体关系图谱确定初始实体提及向量对应的初始实体向量,基于初始实体提及向量和初始实体向量确定节点注意力向量3;基于节点注意力向量3和初始实体向量确定实体提及与实体间图谱融合特征;基于实体提及与实体间图谱融合特征和初始实体提及向量确定图谱注意力向量3。可以基于句子与实体提及间图谱融合特征、图谱注意力向量1、实体提及与实体提及间图谱融合特征、图谱注意力向量2、实体提及与实体间图谱融合特征、图谱注意力向量3和初始实体提及向量,确定该初始实体提及向量对应的目标实体提及向量。
在公式(18)中,表示第z个实体对应的目标实体向量,表示第z个实体对应的初始实体向量,表示图谱注意力向量,表示实体提及与实体间图谱融合特征。从公式(18)可以看出,可以基于实体提及与实体间图谱融合特征图谱注意力向量和第z个实体对应的初始实体向量确定第z个实体对应的目标实体向量
在公式(19)中,表示与第z个实体具有边关系的实体提及节点,也就是说,基于实体提及与实体关系图谱,可以找到与第z个实体节点具有边关系的实体提及节点,这些实体提及节点记为a,就表示实体提及节点a的实体提及向量,实体提及节点a的实体提及向量可以记为初始实体向量对应的初始实体提及向量。用于表示参数矩阵,可以根据经验进行配置。表示第z个实体节点与实体提及节点a之间的节点级别注意力,用于表示第z个实体节点的初始实体向量与初始实体提及向量之间的相似度,可以记为节点注意力向量。对于该节点注意力向量,还可以通过公式(20)确定,对此不做限制。
结合公式(18)-公式(21),在步骤S13中,可以基于实体提及与实体关系图谱确定初始实体向量对应的初始实体提及向量,基于初始实体向量和初始实体提及向量确定节点注意力向量;基于节点注意力向量和初始实体提及向量确定实体提及与实体间图谱融合特征;基于实体提及与实体间图谱融合特征和初始实体向量确定图谱注意力向量。可以基于实体提及与实体间图谱融合特征、图谱注意力向量和初始实体向量,确定该初始实体向量对应的目标实体向量。
综上所述,可以基于实体提及与实体关系图谱确定初始实体向量对应的初始实体提及向量;基于初始实体向量和初始实体提及向量确定节点注意力向量;基于节点注意力向量和初始实体提及向量确定实体提及与实体间图谱融合特征;基于实体提及与实体间图谱融合特征和初始实体向量,确定目标实体向量。
综上可以看出,本实施例中,可以得到N个初始句子向量对应的N个目标句子向量,N个目标句子向量为{s1,s2,...,sN},得到M个初始实体向量对应的M个目标实体向量,M个目标实体向量为{e1,e2,...,eM},得到P个初始实体提及向量对应的P个目标实体提及向量,P个目标实体提及向量为{m1,m2,...,mP}。
参见图6所示,示出了句子向量更新、实体提及向量更新和实体向量更新的示意图,即针对性的设计一种多层次(节点注意力和图谱注意力)的注意力机制,来模拟“句子-实体提及-实体”之间的信息流动模式,来反应不同节点、不同边、不同图谱对最终表征向量的影响。
五、事件类型识别。示例性的,在得到目标句子向量之后,可以基于目标句子向量确定目标文本对应的目标事件类型,即识别目标文本中的所有事件类型,比如说,可以采用如下步骤确定目标文本对应的目标事件类型:
步骤S21、预先定义事件类型列表,该事件类型列表可以包括所有事件类型,例如,该事件类型列表可以包括股票增持、股票减持、股权质押等事件类型。
步骤S22、预先训练事件类型识别模型,对此事件类型识别模型的训练过程不做限制,事件类型识别模型用于识别N个句子向量对应的事件类型。比如说,训练样本可以是N个句子向量和标定信息,该标定信息用于表示N个句子向量对应的事件类型,这样,就可以基于训练样本训练得到事件类型识别模型。
示例性的,事件类型识别模型可以为采用Transformer和Softmax的网络模型,也可以是其它类型的网络模型,对此事件类型识别模型的结构不做限制。
步骤S23、针对事件类型列表中的每个事件类型,将N个目标句子向量输入给事件类型识别模型,得到该事件类型对应的预测概率。若该预测概率大于预设阈值(可以根据经验配置,如0.5、0.6等),则确定该事件类型为目标事件类型;若该预测概率不大于预设阈值,则确定该事件类型不为目标事件类型。
可以从事件类型列表中依次遍历每个事件类型,针对当前遍历的事件类型,可以将N个目标句子向量{s1,s2,...,sN}和该事件类型输入给事件类型识别模型,由事件类型识别模型对N个目标句子向量进行处理,得到该事件类型对应的预测概率,对此处理过程不做限制,该预测概率表示N个目标句子向量与该事件类型匹配的概率值,显然,当预测概率越大时,N个目标句子向量与该事件类型匹配的可能性越大,反之,二者匹配的可能性越大。
若该预测概率大于预设阈值,则确定该事件类型为目标文本对应的目标事件类型;若该预测概率不大于预设阈值,则确定该事件类型不为目标文本对应的目标事件类型。至此,可以确定目标文本对应的目标事件类型,并输出事件类型集合S,事件类型集合S用于记录目标文本对应的目标事件类型,事件类型集合S可能包括1个目标事件类型,也可能包括至少两个目标事件类型。
在另一种可能的实施方式中,可以将N个目标句子向量{s1,s2,...,sN}输入给事件类型识别模型,由事件类型识别模型对N个目标句子向量进行处理,如获取整篇文本的表征,最终得到每个事件类型对应的预测概率(即事件类型列表中的每个事件类型对应的预测概率),对此处理过程不做限制。基于每个事件类型对应的预测概率,若该预测概率大于预设阈值,则确定该事件类型为目标文本对应的目标事件类型;若该预测概率不大于预设阈值,则确定该事件类型不为目标文本对应的目标事件类型。至此,可以确定目标文本对应的目标事件类型,并输出事件类型集合S,该事件类型集合S用于记录目标文本对应的目标事件类型。
六、事件表格填充。针对目标文本对应的每个目标事件类型,生成与该目标事件类型对应的多条事件记录,一条事件记录包括用于描述同一事件的多个实体。目标文本中可能包含多个目标事件类型,每个目标事件类型可能对应多条事件记录。
在一种可能的实施方式中,可以采用如下步骤实现事件表格填充:
步骤S31、从事件类型集合S中遍历出一个目标事件类型。
步骤S32、确定该目标事件类型对应的多个事件角色。
示例性的,针对事件类型列表中的每个事件类型,预先配置该事件类型对应的多个事件角色,并配置多个事件角色的顺序,因此,在遍历出目标事件类型后,可以确定目标事件类型对应的多个事件角色,确定多个事件角色的顺序。比如说,目标事件类型对应事件角色1、事件角色2、事件角色3和事件角色4,这4个事件角色的顺序是:事件角色1-事件角色2-事件角色3-事件角色4。
步骤S33、按照多个事件角色的顺序,从多个事件角色中依次遍历每个事件角色,针对当前遍历的事件角色执行后续步骤。比如说,先遍历出事件角色1,针对事件角色1执行后续步骤,然后,遍历出事件角色2,针对事件角色2执行后续步骤,以此类推,一直到遍历出最后一个事件角色。
步骤S34、针对当前遍历的事件角色,确定与该事件角色对应的目标句子向量、目标实体向量、路径表征矩阵和记忆矩阵。示例性的,该路径表征矩阵可以包括该事件角色前面的各事件角色对应的目标实体对应的特征向量,该记忆矩阵包括目标文本对应的多个目标事件类型的路径表征矩阵,一个路径表征矩阵对应一条事件记录中所有事件角色对应的目标实体对应的特征向量。
比如说,在异质图交互网络表征过程中,已经得到目标文本对应的N个目标句子向量{s1,s2,...,sN},可以将N个目标句子向量作为该事件角色对应的目标句子向量,可以将该事件角色对应的目标句子向量记为矩阵S。
在异质图交互网络表征过程中,已经得到目标文本对应的M个目标实体向量{e1,e2,...,eM},可以将M个目标实体向量作为该事件角色对应的目标实体向量,可以将该事件角色对应的目标实体向量记为矩阵E。或者,还可以基于该事件角色对应的角色信息(如角色向量)更新矩阵E,得到更新后的实体表征矩阵RoleJ表示该事件角色对应的角色信息,可以将实体表征矩阵作为该事件角色对应的目标实体向量,即将目标实体向量记为矩阵
示例性的,针对当前遍历的事件角色,还可以确定与该事件角色对应的路径表征矩阵,比如说,事件角色1对应的路径表征矩阵可以为空,事件角色2对应的路径表征矩阵可以包括事件角色1对应的目标实体对应的特征向量,关于事件角色1对应的目标实体的确定方式,可以参见后续实施例。事件角色3对应的路径表征矩阵可以包括事件角色1对应的目标实体对应的特征向量和事件角色2对应的目标实体对应的特征向量。事件角色4对应的路径表征矩阵可以包括事件角色1对应的目标实体对应的特征向量、事件角色2对应的目标实体对应的特征向量和事件角色3对应的目标实体对应的特征向量。
示例性的,针对当前遍历的事件角色,还可以确定与该事件角色对应的记忆矩阵,比如说,对于事件类型集合S中的第1个目标事件类型1,记忆矩阵可以为空,对于事件类型集合S中的第2个目标事件类型2,记忆矩阵可以包括目标事件类型1的所有事件角色对应的目标实体对应的特征向量,对于事件类型集合S中的第3个目标事件类型3,记忆矩阵可以包括目标事件类型1和目标事件类型2的所有事件角色对应的目标实体对应的特征向量,以此类推。
步骤S35、针对当前遍历的事件角色,若存在记忆矩阵,则可以基于该事件角色对应的目标句子向量、目标实体向量、路径表征矩阵和记忆矩阵,从多个实体(即N个句子中的M个实体)中选取与该事件角色对应的目标实体。或者,若不若存在记忆矩阵,则可以基于该事件角色对应的目标句子向量、目标实体向量和路径表征矩阵,从多个实体中选取与该事件角色对应的目标实体。
示例性的,事件表格填充用于将描述同一个事件的实体组成一条事件记录,本实施例可以将事件表格填充任务建模为路径扩展任务,即事件角色组合顺序是预先定义,可以从一个虚拟节点开始,按照特定顺序对路径进行扩展。
参见图7所示,目标事件类型对应事件角色1、事件角色2、事件角色3和事件角色4,初始化一个虚拟节点作为初始节点,确定与事件角色1对应的目标句子向量、目标实体向量、路径表征矩阵和记忆矩阵。目标句子向量记为矩阵S、目标实体向量记为矩阵路径表征矩阵记为矩阵Ui、记忆矩阵记为矩阵G。其中,对于矩阵Ui来说,假设当前路径共包含J-1个实体,则当前路径的表征矩阵当前路径的表征矩阵Ui为这J-1个实体表征的拼接后结果。对于事件角色1来说,矩阵Ui可以为空。对于矩阵G来说,矩阵G由历史完整路径上的实体表征组成,即对于目标事件类型1的各事件角色来说,矩阵G可以为空,对于其它目标事件类型的各事件角色来说,矩阵G不为空。
在得到矩阵S、矩阵矩阵Ui、矩阵G之后,还可以更新这些矩阵,学习矩阵S、矩阵矩阵Ui、矩阵G之间的交互信息,比如说,使用Transformer模型学习矩阵S、矩阵矩阵Ui、矩阵G之间的交互信息,得到更新后的矩阵矩阵矩阵矩阵即
然后,确定与事件角色2对应的目标句子向量、目标实体向量、路径表征矩阵和记忆矩阵。目标句子向量记为矩阵S、目标实体向量记为矩阵路径表征矩阵记为矩阵Ui、记忆矩阵记为矩阵G。由于存在两条路径,因此,事件角色2对应两个矩阵Ui,1个矩阵Ui包括目标实体A对应的特征向量,另1个矩阵Ui包括目标实体B对应的特征向量。在此基础上,基于矩阵S、矩阵两个矩阵Ui和矩阵G,确定事件角色2对应的目标实体,参见图7所示,在目标实体A的路径下对应目标实体C和目标实体D,在目标实体B的路径下对应目标实体C。
然后,确定与事件角色3对应的目标句子向量、目标实体向量、路径表征矩阵和记忆矩阵。目标句子向量记为矩阵S、目标实体向量记为矩阵路径表征矩阵记为矩阵Ui、记忆矩阵记为矩阵G。由于存在三条路径,因此,事件角色3对应三个矩阵Ui,1个矩阵Ui包括目标实体A对应的特征向量和目标实体C对应的特征向量,另1个矩阵Ui包括目标实体A对应的特征向量和目标实体D对应的特征向量,另1个矩阵Ui包括目标实体B对应的特征向量和目标实体C对应的特征向量。在此基础上,基于矩阵S、矩阵三个矩阵Ui和矩阵G,确定事件角色3对应的目标实体,参见图7所示,在目标实体A和目标实体C的路径下对应目标实体E,在目标实体A和目标实体D的路径下对应目标实体F,在目标实体B和目标实体C的路径下对应目标实体G。
然后,确定与事件角色4对应的目标句子向量、目标实体向量、路径表征矩阵和记忆矩阵。目标句子向量记为矩阵S、目标实体向量记为矩阵路径表征矩阵记为矩阵Ui、记忆矩阵记为矩阵G。由于存在三条路径,因此,事件角色4对应三个矩阵Ui,1个矩阵Ui包括目标实体A对应的特征向量、目标实体C对应的特征向量和目标实体E对应的特征向量,另1个矩阵Ui包括目标实体A对应的特征向量、目标实体D对应的特征向量和目标实体F对应的特征向量,另1个矩阵Ui包括目标实体B对应的特征向量、目标实体C对应的特征向量和目标实体G对应的特征向量。在此基础上,基于矩阵S、矩阵三个矩阵Ui和矩阵G,确定事件角色4对应的目标实体,参见图7所示,第一条路径下对应目标实体H,第二条路径下对应目标实体I,第三条路径下对应目标实体J。
至此,得到目标事件类型对应的三条路径,三条路径表示3个事件记录,这些事件记录用于描述该目标事件类型。事件记录1包括用于描述同一事件的目标实体A、目标实体C、目标实体E和目标实体H,事件记录2包括用于描述同一事件的目标实体A、目标实体D、目标实体F和目标实体I,事件记录3包括用于描述同一事件的目标实体B、目标实体C、目标实体G和目标实体J。
综上所述,可以基于每个事件角色对应的目标实体确定目标文本对应的事件记录,该事件记录可以包括事件记录1、事件记录2和事件记录3。
示例性的,在得到上述三条完整路径之后,就可以更新矩阵G,即1个矩阵G包括目标实体A对应的特征向量、目标实体C对应的特征向量、目标实体E对应的特征向量和目标实体H对应的特征向量,另1个矩阵G包括目标实体A对应的特征向量、目标实体D对应的特征向量、目标实体F对应的特征向量和目标实体I对应的特征向量,另1个矩阵G包括目标实体B对应的特征向量、目标实体C对应的特征向量、目标实体G对应的特征向量和目标实体J对应的特征向量。在对其它目标事件类型进行处理时,就可以使用更新后的矩阵G。
显然,由于不同目标事件类型的实体存在广泛的相互依赖性,因此,通过矩阵G记录历史上完整的事件记录(路径),在预测新的目标事件类型对应的事件记录时,可以将矩阵G作为输入,从而利用已有记录的有用交互信息。
在一种可能的实施方式中,可以预先训练分类器模型,对此分类器模型的训练过程不做限制,分类器模型可以为采用Transformer的网络模型,也可以是其它类型的网络模型,对此分类器模型的结构不做限制。通过分类器模型判断下一步路径上应该填充的实体,如果下一步路径上存在多个符合事件元素角色的实体,则当前节点将在提取过程中展开多个分支,参见图7所示。针对M个实体中的每个实体,可以将目标句子向量S、目标实体向量路径表征矩阵Ui和记忆矩阵G输入给已训练的分类器模型(如线性分类器),由分类器模型判断该实体是否是路径的下一个事件元素,并给出该实体对应的预测概率,当预测概率越大时,该实体是路径的下一个事件元素的可能性越大,反之,当预测概率越小时,该实体是路径的下一个事件元素的可能性越小。若该预测概率大于预设阈值(可以根据经验配置,如0.5、0.6等),则确定该实体为该事件角色对应的目标实体,即在路径上填充该实体,否则,若该预测概率不大于预设阈值,则确定该实体不为该事件角色对应的目标实体。
由以上技术方案可见,本申请实施例中,提出一种基于图模型的篇章级事件抽取方法,能够准确从文本中抽取出用于描述同一事件的多个实体。针对篇章级事件抽取任务,设计一种包含句子、实体提及和实体的关系图谱,并针对性的设计一种多层次(节点注意力和图谱注意力)的注意力机制,来模拟“句子-实体提及-实体”之间的信息流动模式,来反应不同节点、不同边、不同图谱对最终表征向量的影响,分别对三个局部图谱表征,从而更好地捕获同一事件中不同事件元素之间的关联关系。图谱蕴含了更丰富的关系,有利于捕获跨句实体之间的联系,能够避免篇章级事件抽取中的论元分散问题。可以有效地建模同一事件下各事件元素的交互关系,可以极大提升事件抽取系统的性能。可以将事件表格填充任务建模为路径扩展任务,提高匹配精度,提高算法性能。此外,本申请实施例中,通过将事件表格填充任务建模为路径扩展任务,从而解决了精度差、耗时长的缺点,并且能够实现对事件类型识别、事件论元识别、事件表格填充进行端到端建模,有效解决了篇章级事件抽取中的多事件抽取和论元分散问题,可以极大提升事件抽取系统的性能。
基于与上述方法同样的申请构思,本申请实施例中提出一种事件抽取装置,参见图8所示,为所述事件抽取装置的结构示意图,所述装置可以包括:
获取模块81,用于获取目标文本中的多个句子、并获取所述多个句子中的多个实体和多个实体提及;确定模块82,用于确定与所述多个句子对应的初始句子向量、与所述多个实体对应的初始实体向量、与所述多个实体提及对应的初始实体提及向量;生成模块83,用于基于所述多个句子、多个实体和多个实体提及生成异质关系图谱,所述异质关系图谱包括句子、实体提及与实体之间的关联关系;所述确定模块82,还用于基于所述异质关系图谱、所述初始句子向量、所述初始实体向量和所述初始实体提及向量,分别确定所述初始句子向量对应的目标句子向量和所述初始实体向量对应的目标实体向量;所述确定模块82,还用于基于所述目标句子向量和目标实体向量确定目标文本对应的至少一条事件记录,事件记录包括用于描述同一事件的多个实体。
示例性的,所述生成模块83基于所述多个句子、多个实体和多个实体提及生成异质关系图谱时具体用于:构建与所述多个句子对应的多个句子节点、与所述多个实体对应的多个实体节点、与所述多个实体提及对应的多个实体提及节点;可以构建句子节点与句子节点之间的边关系;可以构建句子节点与实体提及节点之间的边关系;可以构建实体提及节点与实体提及节点之间的边关系;可以构建实体提及节点与实体节点之间的边关系。
示例性的,在构建句子节点与句子节点之间的边关系时,针对任一句子,则该句子对应的句子节点与该句子后面多个句子对应的句子节点具有边关系;在构建句子节点与实体提及节点之间的边关系时,若句子中包括实体提及,则该句子对应的句子节点与该实体提及对应的实体提及节点具有边关系;在构建实体提及节点与实体提及节点之间的边关系时,若两个实体提及处于同一句子,则两个实体提及对应的实体提及节点具有边关系;若两个实体提及具有相同事件角色,则两个实体提及对应的实体提及节点具有边关系;若两个实体提及表示同一实体,则两个实体提及对应的实体提及节点具有边关系;在构建实体提及节点与实体节点之间的边关系时,若实体提及对应实体,则该实体提及对应的实体提及节点与该实体对应的实体节点具有边关系。
示例性的,所述确定模块82基于所述异质关系图谱、所述初始句子向量、所述初始实体向量和所述初始实体提及向量,分别确定所述初始句子向量对应的目标句子向量和所述初始实体向量对应的目标实体向量时具体用于:基于所述异质关系图谱获取句子关系图谱、句子与实体提及关系图谱、实体提及与实体关系图谱;其中,所述句子关系图谱用于表示句子和句子之间的关联关系,所述句子与实体提及关系图谱用于表示句子和实体提及之间的关联关系,所述实体提及与实体关系图谱用于表示实体提及和实体之间的关联关系;基于所述句子关系图谱、所述句子与实体提及关系图谱、所述初始句子向量和所述初始实体提及向量,确定所述初始句子向量对应的目标句子向量;基于所述实体提及与实体关系图谱、所述初始实体向量和所述初始实体提及向量,确定所述初始实体向量对应的目标实体向量。
示例性的,所述确定模块82基于所述句子关系图谱、句子与实体提及关系图谱、所述初始句子向量和所述初始实体提及向量,确定所述初始句子向量对应的目标句子向量时具体用于:基于句子关系图谱确定所述初始句子向量对应的关联句子向量,基于所述初始句子向量和所述关联句子向量确定第一节点注意力向量;基于第一节点注意力向量和所述关联句子向量确定句子间图谱融合特征;基于句子间图谱融合特征和所述初始句子向量确定第一图谱注意力向量;基于所述句子与实体提及关系图谱确定初始句子向量对应的初始实体提及向量,基于所述初始句子向量和所述初始实体提及向量确定第二节点注意力向量;基于第二节点注意力向量和所述初始实体提及向量确定句子提及间图谱融合特征;基于句子提及间图谱融合特征和所述初始句子向量确定第二图谱注意力向量;基于所述句子间图谱融合特征、第一图谱注意力向量、所述句子提及间图谱融合特征、第二图谱注意力向量和所述初始句子向量,确定目标句子向量。
示例性的,所述确定模块82基于实体提及与实体关系图谱、初始实体向量和所述初始实体提及向量,确定所述初始实体向量对应的目标实体向量时具体用于:基于所述实体提及与实体关系图谱确定初始实体向量对应的初始实体提及向量;基于所述初始实体向量和所述初始实体提及向量确定节点注意力向量;基于节点注意力向量和初始实体提及向量确定实体提及与实体间图谱融合特征;基于实体提及与实体间图谱融合特征和初始实体向量确定目标实体向量。
示例性的,所述确定模块82基于所述目标句子向量和所述目标实体向量确定所述目标文本对应的至少一条事件记录时具体用于:基于所述目标句子向量确定目标事件类型;确定所述目标事件类型对应的多个事件角色;针对每个事件角色,基于所述目标句子向量和所述目标实体向量,从所述多个实体中选取与所述事件角色对应的目标实体;基于每个事件角色对应的目标实体确定所述事件记录。
示例性的,所述确定模块82基于所述目标句子向量确定目标事件类型时具体用于:针对事件类型列表中的每个事件类型,将所述目标句子向量输入给已训练的事件类型识别模型,得到所述事件类型对应的预测概率;若所述预测概率大于预设阈值,则确定所述事件类型为目标事件类型;若所述预测概率不大于预设阈值,则确定所述事件类型不为目标事件类型。
示例性的,所述确定模块82基于所述目标句子向量和所述目标实体向量,从所述多个实体中选取与所述事件角色对应的目标实体时具体用于:确定与所述事件角色对应的路径表征矩阵,所述路径表征矩阵包括所述事件角色前面的各事件角色对应的目标实体对应的特征向量;在所述目标文本对应多个目标事件类型时,确定记忆矩阵,所述记忆矩阵包括所述目标文本对应的多个目标事件类型的路径表征矩阵,一个路径表征矩阵对应一条事件记录中所有事件角色对应的目标实体对应的特征向量;基于所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵,从所述多个实体中选取与所述事件角色对应的目标实体;或者,基于所述目标句子向量、所述目标实体向量和所述路径表征矩阵,从所述多个实体中选取与所述事件角色对应的目标实体。
示例性的,所述确定模块82基于所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵,从所述多个实体中选取与所述事件角色对应的目标实体时具体用于:针对每个实体,将所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵输入给分类器模型,得到所述实体对应的预测概率;若所述预测概率大于预设阈值,则确定所述实体为所述事件角色对应的目标实体,否则,确定所述实体不为所述事件角色对应的目标实体。
示例性的,所述确定模块82基于所述目标句子向量和所述目标实体向量确定所述目标文本对应的至少一条事件记录之后还用于:在目标页面展示所述目标文本对应的事件记录;和/或,在目标知识图谱中存储所述目标文本对应的事件记录;和/或,若所述目标文本对应的事件记录与目标感兴趣信息匹配,则将所述目标文本对应的信息推送给所述目标感兴趣信息对应的目标设备。
基于与上述方法同样的申请构思,本申请实施例中提出一种事件抽取设备,参见图9所示,事件抽取设备包括:处理器91和机器可读存储介质92,机器可读存储介质92存储有能够被所述处理器91执行的机器可执行指令;处理器91用于执行机器可执行指令,以实现本申请上述示例公开的事件抽取方法。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本申请上述示例公开的事件抽取方法。其中,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (14)
1.一种事件抽取方法,其特征在于,所述方法包括:
获取目标文本中的多个句子、所述多个句子中的多个实体和多个实体提及;
确定与所述多个句子对应的初始句子向量、与所述多个实体对应的初始实体向量、与所述多个实体提及对应的初始实体提及向量;
基于所述多个句子、所述多个实体和所述多个实体提及生成异质关系图谱,所述异质关系图谱包括句子、实体提及与实体之间的关联关系;
基于所述异质关系图谱、所述初始句子向量、所述初始实体向量和所述初始实体提及向量,分别确定所述初始句子向量对应的目标句子向量和所述初始实体向量对应的目标实体向量;
基于所述目标句子向量和所述目标实体向量确定所述目标文本对应的至少一条事件记录,事件记录包括用于描述同一事件的多个实体。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个句子、所述多个实体和所述多个实体提及生成异质关系图谱,包括:
构建与所述多个句子对应的多个句子节点、与所述多个实体对应的多个实体节点、与所述多个实体提及对应的多个实体提及节点;
构建句子节点与句子节点之间的边关系;
构建句子节点与实体提及节点之间的边关系;
构建实体提及节点与实体提及节点之间的边关系;
构建实体提及节点与实体节点之间的边关系。
3.根据权利要求2所述的方法,其特征在于,
在构建句子节点与句子节点之间的边关系时,针对任一句子,该句子对应的句子节点与该句子后面多个句子对应的句子节点具有边关系;
在构建句子节点与实体提及节点之间的边关系时,若句子中包括实体提及,则该句子对应的句子节点与该实体提及对应的实体提及节点具有边关系;
在构建实体提及节点与实体提及节点之间的边关系时,若两个实体提及处于同一句子,则两个实体提及对应的实体提及节点具有边关系;若两个实体提及具有相同事件角色,则两个实体提及对应的实体提及节点具有边关系;若两个实体提及表示同一实体,则两个实体提及对应的实体提及节点具有边关系;
在构建实体提及节点与实体节点之间的边关系时,若实体提及对应实体,则该实体提及对应的实体提及节点与该实体对应的实体节点具有边关系。
4.根据权利要求1所述的方法,其特征在于,
所述基于所述异质关系图谱、所述初始句子向量、所述初始实体向量和所述初始实体提及向量,分别确定所述初始句子向量对应的目标句子向量和所述初始实体向量对应的目标实体向量,包括:
基于所述异质关系图谱获取句子关系图谱、句子与实体提及关系图谱、实体提及与实体关系图谱;其中,所述句子关系图谱包括句子和句子之间的关联关系,所述句子与实体提及关系图谱包括句子和实体提及之间的关联关系,所述实体提及与实体关系图谱包括实体提及和实体之间的关联关系;
基于所述句子关系图谱、所述句子与实体提及关系图谱、所述初始句子向量和所述初始实体提及向量,确定所述初始句子向量对应的目标句子向量;
基于所述实体提及与实体关系图谱、所述初始实体向量和所述初始实体提及向量,确定所述初始实体向量对应的目标实体向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述句子关系图谱、所述句子与实体提及关系图谱、所述初始句子向量和所述初始实体提及向量,确定所述初始句子向量对应的目标句子向量,包括:
基于所述句子关系图谱确定所述初始句子向量对应的关联句子向量,基于所述初始句子向量和所述关联句子向量确定第一节点注意力向量;基于所述第一节点注意力向量和所述关联句子向量确定句子间图谱融合特征;基于所述句子间图谱融合特征和所述初始句子向量确定第一图谱注意力向量;
基于所述句子与实体提及关系图谱确定初始句子向量对应的初始实体提及向量,基于所述初始句子向量和所述初始实体提及向量确定第二节点注意力向量;基于第二节点注意力向量和初始实体提及向量确定句子提及间图谱融合特征;基于句子提及间图谱融合特征和初始句子向量确定第二图谱注意力向量;
基于所述句子间图谱融合特征、第一图谱注意力向量、所述句子提及间图谱融合特征、第二图谱注意力向量和所述初始句子向量,确定目标句子向量。
6.根据权利要求4所述的方法,其特征在于,
所述基于所述实体提及与实体关系图谱、所述初始实体向量和所述初始实体提及向量,确定所述初始实体向量对应的目标实体向量,包括:
基于所述实体提及与实体关系图谱确定初始实体向量对应的初始实体提及向量;基于所述初始实体向量和所述初始实体提及向量确定节点注意力向量;基于节点注意力向量和初始实体提及向量确定实体提及与实体间图谱融合特征;
基于实体提及与实体间图谱融合特征和初始实体向量,确定目标实体向量。
7.根据权利要求1所述的方法,其特征在于,所述基于所述目标句子向量和所述目标实体向量确定所述目标文本对应的至少一条事件记录,包括:
基于所述目标句子向量确定所述目标文本对应的目标事件类型;
确定所述目标事件类型对应的多个事件角色;
针对每个事件角色,基于所述目标句子向量和所述目标实体向量,从所述多个实体中选取与所述事件角色对应的目标实体;
基于每个事件角色对应的目标实体确定所述目标文本对应的事件记录。
8.根据权利要求7所述的方法,其特征在于,
所述基于所述目标句子向量确定所述目标文本对应的目标事件类型,包括:
针对事件类型列表中的每个事件类型,将所述目标句子向量输入给已训练的事件类型识别模型,得到所述事件类型对应的预测概率;
若所述预测概率大于预设阈值,则确定所述事件类型为目标事件类型;
若所述预测概率不大于预设阈值,则确定所述事件类型不为目标事件类型。
9.根据权利要求7所述的方法,其特征在于,
所述针对每个事件角色,基于所述目标句子向量和所述目标实体向量,从所述多个实体中选取与所述事件角色对应的目标实体,包括:
确定与所述事件角色对应的路径表征矩阵,所述路径表征矩阵包括所述事件角色前面的各事件角色对应的目标实体对应的特征向量;
在所述目标文本对应多个目标事件类型时,确定记忆矩阵,所述记忆矩阵包括所述目标文本对应的多个目标事件类型的路径表征矩阵,一个路径表征矩阵对应一条事件记录中所有事件角色对应的目标实体对应的特征向量;
基于所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵,从所述多个实体中选取与所述事件角色对应的目标实体;或者,
基于所述目标句子向量、所述目标实体向量和所述路径表征矩阵,从所述多个实体中选取与所述事件角色对应的目标实体。
10.根据权利要求9所述的方法,其特征在于,
所述基于所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵,从所述多个实体中选取与所述事件角色对应的目标实体,包括:
针对每个实体,将所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵输入给分类器模型,得到所述实体对应的预测概率;
若所述预测概率大于预设阈值,则确定所述实体为所述事件角色对应的目标实体,否则,确定所述实体不为所述事件角色对应的目标实体。
11.根据权利要求1或7所述的方法,其特征在于,
所述基于所述目标句子向量和所述目标实体向量确定所述目标文本对应的至少一条事件记录之后,所述方法还包括:
在目标页面展示所述目标文本对应的事件记录;和/或,
在目标知识图谱中存储所述目标文本对应的事件记录;和/或,
若所述目标文本对应的事件记录与目标感兴趣信息匹配,则将所述目标文本对应的信息推送给所述目标感兴趣信息对应的目标设备。
12.一种事件抽取装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本中的多个句子、并获取所述多个句子中的多个实体和多个实体提及;
确定模块,用于确定与所述多个句子对应的初始句子向量、与所述多个实体对应的初始实体向量、与所述多个实体提及对应的初始实体提及向量;
生成模块,用于基于所述多个句子、多个实体和多个实体提及生成异质关系图谱,所述异质关系图谱包括句子、实体提及与实体之间的关联关系;
所述确定模块,还用于基于所述异质关系图谱、所述初始句子向量、所述初始实体向量和所述初始实体提及向量,分别确定所述初始句子向量对应的目标句子向量和所述初始实体向量对应的目标实体向量;
所述确定模块,还用于基于所述目标句子向量和所述目标实体向量确定目标文本对应的至少一条事件记录,事件记录包括用于描述同一事件的多个实体。
13.根据权利要求12所述的装置,其特征在于,其中,所述生成模块基于所述多个句子、多个实体和多个实体提及生成异质关系图谱时具体用于:构建与所述多个句子对应的多个句子节点、与所述多个实体对应的多个实体节点、与所述多个实体提及对应的多个实体提及节点;构建句子节点与句子节点之间的边关系;构建句子节点与实体提及节点之间的边关系;构建实体提及节点与实体提及节点之间的边关系;构建实体提及节点与实体节点之间的边关系;
其中,在构建句子节点与句子节点之间的边关系时,针对任一句子,则该句子对应的句子节点与该句子后面多个句子对应的句子节点具有边关系;在构建句子节点与实体提及节点之间的边关系时,若句子中包括实体提及,则该句子对应的句子节点与该实体提及对应的实体提及节点具有边关系;在构建实体提及节点与实体提及节点之间的边关系时,若两个实体提及处于同一句子,则两个实体提及对应的实体提及节点具有边关系;若两个实体提及具有相同事件角色,则两个实体提及对应的实体提及节点具有边关系;若两个实体提及表示同一实体,则两个实体提及对应的实体提及节点具有边关系;在构建实体提及节点与实体节点之间的边关系时,若实体提及对应实体,则该实体提及对应的实体提及节点与该实体对应的实体节点具有边关系;
其中,所述确定模块基于所述异质关系图谱、所述初始句子向量、所述初始实体向量和所述初始实体提及向量,分别确定所述初始句子向量对应的目标句子向量和所述初始实体向量对应的目标实体向量时具体用于:基于所述异质关系图谱获取句子关系图谱、句子与实体提及关系图谱、实体提及与实体关系图谱;其中,所述句子关系图谱用于表示句子和句子之间的关联关系,所述句子与实体提及关系图谱用于表示句子和实体提及之间的关联关系,所述实体提及与实体关系图谱用于表示实体提及和实体之间的关联关系;基于所述句子关系图谱、所述句子与实体提及关系图谱、所述初始句子向量和所述初始实体提及向量,确定所述初始句子向量对应的目标句子向量;基于所述实体提及与实体关系图谱、所述初始实体向量和所述初始实体提及向量,确定所述初始实体向量对应的目标实体向量;
其中,所述确定模块基于所述句子关系图谱、所述句子与实体提及关系图谱、所述初始句子向量和所述初始实体提及向量,确定所述初始句子向量对应的目标句子向量时具体用于:基于句子关系图谱确定所述初始句子向量对应的关联句子向量,基于所述初始句子向量和所述关联句子向量确定第一节点注意力向量;基于第一节点注意力向量和所述关联句子向量确定句子间图谱融合特征;基于句子间图谱融合特征和所述初始句子向量确定第一图谱注意力向量;基于所述句子与实体提及关系图谱确定初始句子向量对应的初始实体提及向量,基于所述初始句子向量和所述初始实体提及向量确定第二节点注意力向量;基于第二节点注意力向量和所述初始实体提及向量确定句子提及间图谱融合特征;基于句子提及间图谱融合特征和所述初始句子向量确定第二图谱注意力向量;基于所述句子间图谱融合特征、第一图谱注意力向量、所述句子提及间图谱融合特征、第二图谱注意力向量和所述初始句子向量,确定目标句子向量;
其中,所述确定模块基于所述实体提及与实体关系图谱、所述初始实体向量和所述初始实体提及向量,确定所述初始实体向量对应的目标实体向量时具体用于:基于所述实体提及与实体关系图谱确定初始实体向量对应的初始实体提及向量;基于所述初始实体向量和所述初始实体提及向量确定节点注意力向量;基于节点注意力向量和初始实体提及向量确定实体提及与实体间图谱融合特征;基于实体提及与实体间图谱融合特征和初始实体向量确定目标实体向量;
其中,所述确定模块基于所述目标句子向量和所述目标实体向量确定所述目标文本对应的至少一条事件记录时具体用于:基于所述目标句子向量确定目标事件类型;确定所述目标事件类型对应的多个事件角色;针对每个事件角色,基于所述目标句子向量和所述目标实体向量,从所述多个实体中选取与所述事件角色对应的目标实体;基于每个事件角色对应的目标实体确定所述事件记录;
其中,所述确定模块基于所述目标句子向量确定目标事件类型时具体用于:针对事件类型列表中的每个事件类型,将所述目标句子向量输入给已训练的事件类型识别模型,得到所述事件类型对应的预测概率;若所述预测概率大于预设阈值,则确定所述事件类型为目标事件类型;若所述预测概率不大于预设阈值,则确定所述事件类型不为目标事件类型;
其中,所述确定模块基于所述目标句子向量和所述目标实体向量,从所述多个实体中选取与所述事件角色对应的目标实体时具体用于:确定与所述事件角色对应的路径表征矩阵,所述路径表征矩阵包括所述事件角色前面的各事件角色对应的目标实体对应的特征向量;在所述目标文本对应多个目标事件类型时,确定记忆矩阵,所述记忆矩阵包括所述目标文本对应的多个目标事件类型的路径表征矩阵,一个路径表征矩阵对应一条事件记录中所有事件角色对应的目标实体对应的特征向量;基于所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵,从所述多个实体中选取与所述事件角色对应的目标实体;或者,基于所述目标句子向量、所述目标实体向量和所述路径表征矩阵,从所述多个实体中选取与所述事件角色对应的目标实体;
其中,所述确定模块基于所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵,从所述多个实体中选取与所述事件角色对应的目标实体时具体用于:针对每个实体,将所述目标句子向量、所述目标实体向量、所述路径表征矩阵和所述记忆矩阵输入给分类器模型,得到所述实体对应的预测概率;若所述预测概率大于预设阈值,则确定所述实体为所述事件角色对应的目标实体,否则,确定所述实体不为所述事件角色对应的目标实体;
其中,所述确定模块基于所述目标句子向量和所述目标实体向量确定所述目标文本对应的至少一条事件记录之后还用于:在目标页面展示所述目标文本对应的事件记录;和/或,在目标知识图谱中存储所述目标文本对应的事件记录;和/或,若所述目标文本对应的事件记录与目标感兴趣信息匹配,则将所述目标文本对应的信息推送给所述目标感兴趣信息对应的目标设备。
14.一种事件抽取设备,其特征在于,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现权利要求1-11任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210938697.1A CN115329746A (zh) | 2022-08-05 | 2022-08-05 | 一种事件抽取方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210938697.1A CN115329746A (zh) | 2022-08-05 | 2022-08-05 | 一种事件抽取方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329746A true CN115329746A (zh) | 2022-11-11 |
Family
ID=83922753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210938697.1A Pending CN115329746A (zh) | 2022-08-05 | 2022-08-05 | 一种事件抽取方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329746A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757826A (zh) * | 2022-11-18 | 2023-03-07 | 中国科学院空天信息创新研究院 | 事件图谱构建方法、装置、设备及介质 |
CN116306581A (zh) * | 2023-05-08 | 2023-06-23 | 中新宽维传媒科技有限公司 | 一种事件抽取方法及装置 |
-
2022
- 2022-08-05 CN CN202210938697.1A patent/CN115329746A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757826A (zh) * | 2022-11-18 | 2023-03-07 | 中国科学院空天信息创新研究院 | 事件图谱构建方法、装置、设备及介质 |
CN115757826B (zh) * | 2022-11-18 | 2024-01-05 | 中国科学院空天信息创新研究院 | 事件图谱构建方法、装置、设备及介质 |
CN116306581A (zh) * | 2023-05-08 | 2023-06-23 | 中新宽维传媒科技有限公司 | 一种事件抽取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10958748B2 (en) | Resource push method and apparatus | |
US20210216813A1 (en) | Data clustering | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN115329746A (zh) | 一种事件抽取方法、装置及设备 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
JPWO2018051841A1 (ja) | モデル学習装置、その方法、及びプログラム | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN108630197A (zh) | 用于语音识别的训练方法和设备 | |
CN110334208B (zh) | 基于贝叶斯信念网络的lkj故障预测诊断方法和系统 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN110414003B (zh) | 建立文本生成模型的方法、装置、介质和计算设备 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN110737779A (zh) | 知识图谱的构建方法、装置、存储介质和电子设备 | |
CN111597400A (zh) | 基于寻路算法的计算机检索系统及方法 | |
CN111582313A (zh) | 样本数据生成方法、装置及电子设备 | |
CN108229572B (zh) | 一种参数寻优方法及计算设备 | |
CN116089595A (zh) | 基于科技成果的数据处理推送方法、装置及介质 | |
CN115329083A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
CN114821248A (zh) | 面向点云理解的数据主动筛选标注方法和装置 | |
CN114091595A (zh) | 样本处理方法、设备及计算机可读存储介质 | |
CN113596061A (zh) | 基于区块链技术的网络安全漏洞响应方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |