CN114357197A

CN114357197A - 事件推理方法和装置

Info

Publication number: CN114357197A
Application number: CN202210218758.7A
Authority: CN
Inventors: 林昊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-04-15
Anticipated expiration: 2042-03-08
Also published as: CN114357197B

Abstract

本说明书实施例提供了一种事件推理方法和装置。根据该实施例的方法，首先从事件相关文本中抽取事件信息和关联实体信息；利用事件信息和关联实体信息构成第一子图，第一子图中的节点包括事件和关联实体，边体现事件与关联实体之间的关系；然后查询与事件类型相关的知识图谱，以确定知识图谱中各关联实体的第二子图，第二子图中的节点包括关联实体和与关联实体在预设关系范围内的其他实体，边体现实体之间的关系；其中，知识图谱的节点中包括目标类型的实体；再将第一子图和第二子图进行融合得到事件子图信息；最后将事件子图信息输入预先训练得到的事件影响预测模型，得到事件对目标类型的实体的影响信息。

Description

事件推理方法和装置

技术领域

本说明书一个或多个实施例涉及人工智能技术领域，尤其涉及一种事件推理方法和装置。

背景技术

近年来基于深度学习的文本推理技术被广泛关注，文本推理的很多任务都依赖于对事理逻辑知识的深刻理解。事件是人类社会的核心特征之一，人们的社会活动往往是事件驱动的。事件在时间维度上相继发生的演化规律和模式是一种十分有价值的知识，挖掘这种事理逻辑知识对认识人类行为和社会发展变化规律非常有意义，这种挖掘称为事件推理。例如，在金融领域，股市、基金等一般伴随着短期内随机事件的小波动，以及长期内重大事件驱动的大波动。那么如何通过事件推理确定事件对目标类型实体的影响成为亟待解决的问题。

发明内容

有鉴于此，本说明书一个或多个实施例描述了一种事件推理方法及装置，用以确定事件对目标实体的影响。

根据第一方面，提供了一种事件推理方法，该方法包括：

从事件相关文本中抽取事件信息和关联实体信息；

利用所述事件信息和所述关联实体信息构成第一子图，所述第一子图中的节点包括事件和关联实体，所述边体现事件与关联实体之间的关系；

查询与所述事件的类型相关的知识图谱，以确定知识图谱中各所述关联实体的第二子图，所述第二子图中的节点包括所述关联实体和与所述关联实体在预设关系范围内的其他实体，边体现实体之间的关系；其中，所述知识图谱的节点中包括目标类型的实体；

将所述第一子图和所述第二子图进行融合得到事件子图信息；

将所述事件子图信息输入预先训练得到的事件影响预测模型，得到所述事件对所述目标类型的实体的影响信息。

根据本申请实施例中一可实现的方式，在所述从事件相关文本中抽取事件信息和关联实体信息之前，还包括：

从与所述目标类型所对应领域的事件相关文本中，筛选出热点事件相关文本；

对筛选出的热点事件相关文本进行聚类和去重处理；

分别从各聚类结果中选择N个事件相关文本用以执行所述抽取事件信息和关联实体信息的处理，所述N为预设的自然数。

根据本申请实施例中一可实现的方式，所述从事件相关文本中抽取事件信息和关联实体信息包括：

基于预设的词典、模板和事件抽取模型中的至少一种，从事件相关文本中抽取事件信息和关联实体信息；

其中所述词典包括事件关键词和实体关键词；

所述模板包括事件对应的语义表达模板和实体对应的语义表达模板。

根据本申请实施例中一可实现的方式，所述影响信息包括：影响到的目标类型的实体信息及对应的影响程度。

根据本申请实施例中一可实现的方式，将所述第一子图和所述第二子图进行融合得到事件子图信息包括：

将所述第一子图和所述第二子图进行融合；

对融合的结果进行结构化处理，得到以事件为初始节点、以各目标类型的实体分别为结束节点的链式结构数据。

根据本申请实施例中一可实现的方式，所述事件影响预测模型从所述事件子图信息中获取各节点的属性信息和各边的属性信息，对各节点的属性信息和边的属性信息进行编码，分别得到各节点的特征向量表示和各边的特征向量表示；将所述事件子图中的事件和各目标类型的实体分别构成待预测的候选对，基于所述事件子图中各节点的特征向量表示和各边的特征向量表示预测各候选对的得分，其中，候选对的得分体现该候选对中事件对目标类型的实体的影响程度。

根据本申请实施例中一可实现的方式，所述事件信息为金融相关的事件类型；

所述目标类型的实体为股票或基金的实体。

根据第二方面，提供了一种获取事件影响预测模型的方法，包括：

获取训练数据，所述训练数据包括第一子图样本、第二子图样本以及影响信息标签，其中所述第一子图样本是利用从历史事件相关文本中抽取出的事件信息和关联实体信息构建的，所述第一子图中的节点包括事件和关联实体，边体现事件与关联实体之间的关系；所述第二子图样本是依据第一子图样本中关联实体信息查询知识图谱而得到，第二子图中的节点包括所述关联实体和与所述关联实体在预设关系范围内的其他实体，边体现实体之间的关系，所述知识图谱的节点中包括目标类型的实体；所述影响信息标签包括从历史时间相关文本中抽取出的事件对目标类型的实体的影响信息；

利用所述训练数据训练图模型得到所述事件影响预测模型，其中将所述第一子图样本和所述第二子图样本融合后得到的事件子图信息作为所述图模型的输入，将所述影响信息标签作为所述图模型的目标输出。

根据第三方面，提供了一种事件推理装置，包括：

事件抽取单元，被配置为从事件相关文本中抽取事件信息和关联实体信息；

第一子图构建单元，被配置为利用所述事件信息和所述关联实体信息构成第一子图，所述第一子图中的节点包括事件和关联实体，所述边体现事件与关联实体之间的关系；

第二子图构建单元，被配置为查询与所述事件的类型相关的知识图谱，以确定知识图谱中各所述关联实体的第二子图，所述第二子图中的节点包括所述关联实体和与所述关联实体在预设关系范围内的其他实体，边体现实体之间的关系；其中，所述知识图谱的节点中包括目标类型的实体；

融合单元，被配置为将所述第一子图和所述第二子图进行融合得到事件子图信息；

影响预测单元，被配置为将所述事件子图信息输入预先训练得到的事件影响预测模型，得到所述事件对所述目标类型的实体的影响信息。

根据第四方面，提供了一种获取事件影响预测模型的装置，包括：

数据获取单元，被配置为获取训练数据，所述训练数据包括第一子图样本、第二子图样本以及影响信息标签，其中所述第一子图样本是利用从历史事件相关文本中抽取出的事件信息和关联实体信息构建的，所述第一子图中的节点包括事件和关联实体，边体现事件与关联实体之间的关系；所述第二子图样本是依据第一子图样本中关联实体信息查询知识图谱而得到，第二子图中的节点包括所述关联实体和与所述关联实体在预设关系范围内的其他实体，边体现实体之间的关系，所述知识图谱的节点中包括目标类型的实体；所述影响信息标签包括从历史时间相关文本中抽取出的事件对目标类型的实体的影响信息；

模型训练单元，被配置为利用所述训练数据训练图模型得到所述事件影响预测模型，其中将所述第一子图样本和所述第二子图样本融合后得到的事件子图信息作为所述图模型的输入，将所述影响信息标签作为所述图模型的目标输出。

根据第五方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的方法和装置，采用事件信息的抽取以及基于知识图谱的子图构建，并通过事件影响预测模型实现了事件对目标类型实体的影响预估。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的示例性系统架构；

图2为本申请实施例提供的事件推理方法的主要流程图；

图3为本申请实施例提供的训练事件抽取模型的方法流程图；

图4a、图4b和图4c分别为本申请实施例提供的第一子图、第二子图和事件子图的实例图；

图5为本申请实施例提供的获取事件影响预测模型的方法流程图；

图6示出根据一个实施例的事件推理装置的示意性框图；

图7示出根据一个实施例的获取事件影响预测模型的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

图1示出了可以应用本申请实施例的示例性系统架构。如图1所示，该系统架构可以包括终端设备101和102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用，例如网页浏览器应用、通信类应用、电子商务类应用等等。

终端设备101和102可以是各种用户设备。可以包括但不限于诸如：智能移动终端、智能家居设备、可穿戴式设备、PC（个人计算机）等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA（个人数字助理）、互联网汽车等。智能家居设备可以包括智能家电设备，诸如智能电视、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、智能手环、虚拟现实设备、增强现实设备、混合现实设备（即可以支持虚拟现实和增强现实的设备）等等。

服务器104可以是单一服务器，也可以是多个服务器构成的服务器群组，还可以是云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPs，Virtual Private Server）服务中存在的管理难度大，服务扩展性弱的缺陷。

本发明所提供的事件推理装置可以设置并运行于上述服务器104中。其可以实现成多个软件或软件模块（例如用来提供分布式服务），也可以实现成单个软件或软件模块，在此不做具体限定。

例如，事件推理装置设置于服务器104，其负责利用获取的事件相关文本执行本申请实施例中的事件推理方法，得到事件对目标类型的实体所产生的影响信息。可以将该影响信息通过网络103发送给终端设备101或102以供用户查看。或者，可以依据该影响信息生成相关内容推荐发送给终端设备101或102以供用户查看。还可以是基于影响信息进行的其他服务内容的发送。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2为本申请实施例提供的事件推理方法的主要流程图。该可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行，例如可以由图1所示系统架构中的服务器端执行。如图2所示，该方法包括:

步骤201：从事件相关文本中抽取事件信息和关联实体信息。

步骤203：利用事件信息和关联实体信息构成第一子图，第一子图中的节点包括事件和关联实体，边体现事件与关联实体之间的关系。

步骤205：查询与事件类型相关的知识图谱，以确定知识图谱中各关联实体的第二子图，第二子图中的节点包括关联实体和与关联实体在预设关系范围内的其他实体，边体现实体之间的关系；其中，知识图谱的节点中包括目标类型的实体。

步骤207：将第一子图和第二子图进行融合得到事件子图信息。

步骤209：将事件子图信息输入预先训练得到的事件影响预测模型，得到事件对目标类型的实体的影响信息。

可以看出，上述技术方案采用了事件信息的抽取以及基于知识图谱的子图构建，并通过事件影响预测模型实现了事件对目标类型实体的影响预估。

本申请提供的技术方案可以应用于多种应用场景。

例如，可以预测地质灾害事件对旅游类实体的影响，即事件为地质灾害，目标类型为旅游类，旅游类实体可以包括各景点、酒店、餐馆等。

再例如，可以预测金融事件对基金类实体的影响，即事件为金融事件，目标类型为基金类，基金类实体可以包括各种基金。为了方便描述，后续实施例中将以该种应用场景为例进行描述。

下面描述图2所示的各个步骤的执行方式。首先结合实施例对上述步骤201即“从事件相关文本中抽取事件信息和关联实体信息”进行详细描述。

对于事件信息而言，最丰富、最方便获取的事件信息来源是互联网中的大量与事件相关的文本，例如政府公告、新闻报道、自媒体文章等等，可以从这些来源获取事件相关文本。另外在一些场景下，对实时性具有非常高的要求，例如，在金融领域发生的金融事件可能会对基金等产生影响。尽可能快速地预测影响信息是非常重要的。因此，可以从预设的数据来源周期性获取最新的事件相关文本。例如每天获取当天的事件相关文本，每小时获取最新一小时的事件相关文本。

另外，由于每天发生的事件很多，事件相关文本也很多，为了节约网络或计算资源，提高效率，可以首先对获取的事件相关文本进行筛选。确定目标类型所对应领域的事件相关文本，仍以金融事件对基金的影响为例，从各种数据来源中首先筛选出金融类事件相关文本；然后进一步筛选出热点事件相关文本；再对筛选出的事件相关文本进行聚类和去重处理；最后分别从各聚类结果中选择N个事件相关文本用以进行抽取时间信息的处理。N为预设的自然数。

其中，关于筛选出金融类事件相关文本可以从各数据来源的金融类栏目下，或者从金融类平台等获取金融类事件相关文本。

由于互联网中金融事件相关文本也是海量的，通常热点事件的影响较为显著，因此可以从中筛选出热点事件相关文本。对于各网站、平台等数据来源而言，通常会有自己对于热点事件的评估，并依据评估出的热点事件来维护事件相关文本。因此，本申请实施例中可以仅筛选并获取热点事件相关文本。或者，也可以利用与事件相关的资讯的热度来体现事件热度，然后从中筛选出热点事件的事件相关文本。

在对筛选出的事件相关文本进行聚类和去重处理后，每一个聚类结果中包含的基本上都是同一类型事件的相关文本。从各聚类结果中选择一个或多个事件相关文本来执行后续抽取时间信息的处理，这样可以大大提高处理效率，避免对大量重复或无关的事件相关文本进行处理。聚类方法可以采用诸如基于距离的聚类方法、基于密度的聚类方法等，本申请对于聚类方法并不加以限制。

在对时间相关文本进行事件信息的抽取时，可以基于预设的词典、预设的模板和事件抽取模型中的至少一种，从事件相关文本中抽取事件信息。

其中，预设的词典可以包括事件关键词和实体关键词等，将事件相关文本与预设的词典进行匹配，抽取出事件信息和关联实体信息。

可以预先设置各类型事件所对应的词典，例如对于地质灾害事件设置其词典中包含诸如泥石流、滑坡、地质破坏、崩塌、地裂缝、地面塌陷、岩土膨胀、水土流失、地震、火山等等关键词。对于金融事件可以设置其词典中包含诸如股市、基金、崩盘、爆仓、通胀、破产、减员等等关键词。若事件相关文本对某类型事件词典的命中状况符合预设要求，则可以抽取出该事件信息。

针对各关联实体也分别设置实体关键词，例如，对于金融事件可以设置公司名、股票名、金融机构名、金融服务名等等。将事件相关文本与这些实体关键词进行匹配，可以抽取出其中的关联实体。

模板可以包括事件对应的语义表达模板和实体对应的语义表达模板。例如，事件对应的语义表达模板可以是“在【时间格式】出现【事件关键词】”、“在【地点关键词】出现【事件关键词】”、“导致了【事件关键词】的发生”等等。实体对应的语义表达模板可以是诸如“【事件关键词】导致【实体关键词】”、“【事件关键词】的影响下【实体关键词】出现”等等。

可以由具有一定经验的人员人为设置一些关键词构成词典或者设置一些语义表达模板，然后可以采用一定的相似词、同义词、相似表达等对人为设置的词典或表达模板进行扩充完善。

事件抽取模型可以是基于分类模型预先训练得到的，将事件相关文本输入事件抽取模型，事件抽取模型可以输出事件信息和相关实体信息。

在训练事件抽取模型时采用的训练数据可以是大量事件相关文本样本，以及对事件相关文本样本标注的标签样本，该标签样本包括事件标签和相关实体标签。训练过程中将事件相关文本样本作为分类模型的输入，将标签样本作为分类模型的目标输出。

作为一种可实现的方式，对事件相关文本样本进行的标注可以采用人工标注的方式。这种方式训练得到的模型效果较好，但需要大量的时间和人力成本。

作为另一种可实现的方式，对事件相关文本样本进行的标注可以采用主动学习（Active Learning）的方式。具体地，可以如图3中所示，包括以下步骤：

步骤301：基于预设的规则，获取事件相关文本样本对应的标签样本。

本步骤实际是基于简单的规则实现对事件相关文本样本的初步标注。其中预设的规则可以是预设的词典，也可以是预设的语义表达模板，还可以是其他规则。

步骤303：将事件相关文本样本及其标签样本作为训练样本以构建训练集和回测集，其中训练集和回测集均包含多个训练样本。

步骤301已经得到了大量的训练样本，根据后续步骤中的不同需求，可以取其中一部分作为训练集，其中一部分作为回测集。训练集用以进行分类模型的训练，回测集用作训练得到的分类模型的分类数据，并从这部分数据中进一步挑选出部分进行人工标注后加入训练集。

除了训练集和回测集之外，还可以取其中一部分作为测试集，测试集用以对训练得到的分类模型进行测试，来确定模型效果，例如模型的准确率。测试集可作为可选内容。

步骤305：利用训练集训练分类模型。

在训练分类模型时，训练样本中事件相关文本样本作为分类模型的输入，标签样本作为分类模型的目标输出。分类模型的训练目标为最小化输出的标签与对应标签样本之间的差异。在分类模型的训练过程中可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练停止条件。其中训练停止条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等，关于如何进行监督训练在此不做详述。需要注意的是，这里的训练停止条件指的是本步骤中对于分类模型的训练是否停止的条件。

步骤307：从回测集中选择对训练得到的分类模型产生满足预设要求的效果增益的训练样本。

为了保证分类模型的模型效果需要一批高质量的标注数据，那么对目前训练样本中的哪些进行人工标注，需要一方面保证模型效果，另一方面尽可能小的控制标注量。本步骤中采用的是Active Learning（主动学习）的思路，使用当前训练得到的分类模型对回测集中的事件相关文本样本进行分类，也就是说，将当前训练得到的分类模型部署为服务模型供回测集访问。分类模型对回测集中的事件相关文本样本均输出对应的分类结果，可以依据分类结果与事件相关文本样本的标签样本的差异来确定训练样本对分类模型的效果增益，从回测集中选择效果增益满足预设要求的训练样本。

也就是说，对于回测集中的各训练样本来说，通过分类结果与标签样本的差异来体现训练样本对分类模型的效果增益。由于分类结果实际上包括各标签样本的置信度，置信度低的说明分类结果对该标签样本的预测准确率低，若对于这些置信度低的训练样本进行准确标注后作为训练集中的训练样本进行训练，则会显著提高分类模型的分类效果。因此，作为一种可实现的方式，确定回测集中事件相关文本样本的标签样本在分类结果中的置信度；从回测集中选择置信度小于或等于预设第一阈值的事件相关文本样本，或者，从回测集中选择置信度最低的M个事件相关文本样本，M为预设的正整数。

步骤309：将选择的训练样本中事件相关文本样本提供给用户进行人工标注，获取进行人工标注的标签样本。

例如向标注人员的客户端或浏览器发送标注请求，在标注请求中携带所选择出训练样本中的事件相关文本样本。由标注人员通过客户端或浏览器对这部分训练样本中的事件相关文本样本进行人工标注。进行人工标注后的这部分训练样本就相当于高质量的训练样本，能够对分类模型产生较好的效果增益。

步骤311：将选择的事件相关文本样本及其标签样本构建新的训练样本加入训练集，转至步骤305，直至达到预设的结束条件，最终得到的分类模型作为事件抽取模型。

可以看出上述步骤305~311是循环执行的，形成了一个闭环，循环结束的条件是达到预设的结束条件。作为一种可实现的方式，在执行步骤305之后，可以判断是否满足预设的结束条件，如果是，则结束整个训练事件抽取模型的流程。否则，继续执行步骤307。

上述预设的结束条件可以是分类模型的准确率达到预设准确率阈值。例如，分类模型对测试集进行测试时，准确率达到90%则可以认为分类模型的效果已经比较好了，可以结束训练事件抽取模型的流程。

上述预设的结束条件也可以是循环执行训练分类模型的次数超过预设的循环次数阈值，这里的循环次数指的是循环执行上述步骤305~311的次数，而并非步骤305中训练分类模型的迭代系数。

上述预设的结束条件还可以是分类模型的分类效果收敛。例如，分类模型对测试集进行测试时，准确率达到80%时不再提升，则可以结束建立分类模型的流程。

作为一种可实现的方式，在每一次循环中，执行步骤305时，利用更新后的训练集训练分类模型时，可以利用训练集对分类模型进行重新训练。

但作为一种优选的实施方式，在每一次循环中，执行步骤305时，可以利用新加入训练集的训练样本，在之前已经训练得到的分类模型的基础上进行进一步的训练。也就是说，在之前已经训练得到的分类模型的模型参数基础上，进一步进行优化调整。

其中，抽取出的事件信息中可以包括事件类型信息、事件发生时间、发生地点等属性信息。关联实体信息可以包括各关联实体的名称、类型、描述等属性信息。

下面结合实施例对上述步骤203即“利用事件类型信息和关联实体信息构成第一子图”进行详细描述。

从事件相关文本中抽取出事件信息和相关实体信息后，可以利用事件信息和相关实体信息构建第一子图。在该第一子图中包括节点和边，其中节点包括事件和关联实体，边体现事件与关联实体之间的关系。可以理解为第一子图是体现事件类型指向各关联实体的图。

举个例子，假设从事件相关文本中抽取出如下内容：

事件：公司破产。

关联实体：公司A、银行B、股票C。

基于上述事件类型信息和关联实体信息构建的第一子图可以如图4a中所示。

下面结合实施例对上述步骤205即“查询与事件类型相关的知识图谱，以确定知识图谱中各关联实体的第二子图”进行详细描述。

鉴于目前在各个领域都已经累积了知识图谱，知识图谱反映了各领域中实体以及实体之间的关系，本申请实施例则是利用已经构建的海量知识图谱信息来得到第二子图。

以金融事件为例，可以查询金融领域的知识图谱，金融领域的知识图谱中会包含大量与金融相关的实体，例如公司名、金融机构名、股票名、基金名、交易市场名、人物名等等。在该知识图谱中能够查询到步骤201抽取出的各关联实体以及这些关联实体在知识图谱中的连接关系。本步骤中，可以获取知识图谱中关联实体和与关联实体在预设关系范围内的其他实体构成第二子图。

预设关系范围可以是例如3度关系之内、2度关系之内等等。所谓2度关系指的是与关联实体连接在2跳之内。

以公司A为例，在知识图谱中查询与公司A在2度关系之内的节点以及连接关系。公司A与公司D、基金E存在1度关系，进一步与股票F、基金G存在2度关系，这些构成公司A的第二子图。采用这种方式还可以得到：银行B的第二子图、股票C的第二子图。

还可以是依据关联实体查询到目标类型实体，或者查询到目标类型实体的1度关系节点，等等。但这种方式也通常会限制在预设度数之内结束，例如4跳之内，即便查不到目标类型实体也结束查询。

仍以公司A为例，在知识图谱中查询公司A存在关系的实体，如果查询到目标类型实体，则停止。例如图4b中所示，公司A存在1度关系的节点包括公司D和基金E，由于基金E是目标类型实体，该分支的查询结束。公司D不是目标类型实体，进一步查询与其存在关系的节点包括基金F，基金F是目标类型实体，该分支的查询结束。这种情况下，公司A、公司D、基金E、基金F之间的连接关系构成公司A的第二子图。

另外，为了保证实时性，本申请实施例中知识图谱可以存储于诸如GeaBase等具有高实时性、高可靠性的分布式图存储系统来存储知识图谱。GeaBase除了能够采用批量方式导入离线计算的知识图谱数据之外，还能够对一些具有高实时性要求的知识图谱数据提供实时更新。并且，能够支持高速查询，这些都进一步保证了诸如金融领域这些实时性要求较高的场景下的事件推理能力。

下面结合实施例对上述步骤207即“将第一子图和第二子图进行融合后得到事件子图信息”进行详细描述。

本步骤中可以将第一子图和各第二子图进行融合后得到一个子图，在此称为事件子图。融合过程可以看做将各第二子图按照关联实体连接到第一子图上。如图4c中所示，将图4a和诸如图4b中的第二子图进行融合后可以得到图4c中所示的事件子图。

对于融合后事件子图信息，为了方便进行存储以及后续事件影响预测模型的利用，可以对融合结果进行结构化处理，得到以事件为起始节点、以各目标类型的实体分别为结束节点的链式结构数据。

仍以图4c为例，可以建立以下几条链路：

链路1：事件（公司破产）-银行B-基金G；

链路2：事件（公司破产）-公司A-公司D-基金F；

链路3：事件（公司破产）-公司A-基金E。

在分别存储上述3个链路的数据时，可以采用结构化的方式进行存储。例如存储3个链路中初始节点的标识、属性、中间节点的标识、属性、结束节点的标识、属性、边的属性，等等。

下面结合实施例对上述步骤209即“将事件子图信息输入预先训练得到的事件影响预测模型，得到事件对目标类型的实体的影响信息”进行详细描述。

将事件子图信息输入事件影响预测模型，由事件影响预测模型对事件子图信息进行分析，基于预先学习到的先验知识预测事件对目标类型的实体的影响信息。仍以金融事件对基金的影响为例，将金融事件的事件子图信息输入事件影响预测模型后，就能够输出金融事件对基金的影响信息，包括对哪些基金产生影响，影响程度有多大等。

对于事件影响预测模型而言，从事件子图中提取各节点的特征向量表示以及各节点之间关系即边的特征向量表示，将事件子图中事件节点与各预设类型实体节点分别构成多个待预测的候选对，各候选对实际是“事件-预设类型实体”对。针对每一个候选对预测得分，该得分体现了该候选对中事件对实体的影响程度。其中，节点的特征向量表示可以对节点的属性信息进行诸如Embedding（嵌入）等编码处理后得到，边的特征向量表示可以是对边的属性进行诸如Embedding等编码处理后得到。整个过程可以看做是事件影响预测模型依据事件子图中体现出的节点的特征和各边的特征，从中推理出“事件-预设类型实体”对的影响程度得分。

从整体上看，本申请通过实时获取的事件相关文本，从中识别出事件信息和相关实体信息后，利用相关实体信息与知识图谱进行关联构建出事件子图，基于该事件子图进行事件对预测类型实体影响信息的预测，使得预测结果具有高实时性的特点。

事件影响预测模型是基于图模型预先训练得到的，在此提供一种事件影响预测模型的训练方法。如图5中所示，该训练方法可以包括以下步骤：

步骤501：获取训练数据，训练数据包括第一子图样本、第二子图样本以及影响标签，其中第一子图样本是利用从历史事件相关文本中抽取出的事件信息和关联实体信息构建的，第一子图中的节点包括事件和关联实体，边体现事件与关联实体之间的关系；第二子图样本是依据第一子图样本中关联实体信息查询知识图谱而得到，第二子图中的节点包括关联实体和与关联实体在预设关系范围内的其他实体，边体现实体之间的关系，知识图谱的节点中包括目标类型的实体；影响信息标签包括从历史时间相关文本中抽取出的事件对目标类型的实体的影响信息。

仍以金融事件为例，可以预先从历史金融事件相关文本中抽取出事件信息和相关实体，利用抽取出的事件信息和相关实体信息构成第一子图作为第一子图样本。事件信息和相关实体信息的抽取方式和第一子图的构建方式可以参见图2所示实施例中关于步骤201和203的相关记载，在此不做赘述。

利用第一子图样本查询与事件类型相关的知识图谱，确定知识图谱中与第一子图样本中各节点（即关联实体）在预设关系范围内的其他实体以及连接关系，构建第二子图作为第二子图样本。该部分可以参见图2所示实施例中关于步骤205的相关记载，在此不做赘述。

将第一子图样本和第二子图样本进行融合后得到事件子图样本。由于历史金融事件是已经发生过的，其产生的影响也是已知的且可被量化的，因此可以据此标注事件对事件子图样本中各基金的影响以及影响程度。可以采用人工的方式进行标注，也可以采用其他方式，本申请对此并不加以限制。

步骤503：利用训练数据训练图模型得到事件影响预测模型，其中将第一子图样本和第二子图样本融合后作为图模型的输入，将影响标签作为图模型的目标输出。

事件影响预测模型从事件子图信息中获取各节点的属性信息和各边的属性信息，对各节点的属性信息和边的属性信息进行编码，分别得到各节点的特征向量表示和各边的特征向量表示；将事件子图中的事件和各目标类型的实体分别构成待预测的候选对，基于事件子图中各节点的特征向量表示和各边的特征向量表示预测各候选对的得分，其中，候选对的得分体现该候选对中事件对目标类型的实体的影响程度。

事件影响预测模型在训练过程中，训练目标为最小化图模型输出的影响信息与影响标签之间的差异。可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

本申请实施例提供的上述方法可以应用于多种场景，例如获取到金融事件对基金的影响信息后，可以根据影响信息向用户进行基金推荐或者给用户进行基金风险的提示等等。经过试验，通过本申请实施例提供的上述方法能够在分钟级完成事件的发现及其影响信息的预测。在金融场景下效果显著，适用于除此之外的多种对时效性有较高要求的事件驱动型业务场景。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种事件推理装置。图6示出根据一个实施例的事件推理装置的示意性框图。可以理解，该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。如图6所示，该装置600包括：事件抽取单元601、第一子图构建单元602、第二子图构建单元603、融合单元604和影响预测单元605；还可以进一步包括预处理单元606。其中，各组成单元的主要功能如下：

事件抽取单元601，被配置为从事件相关文本中抽取事件信息和关联实体信息。

第一子图构建单元602，被配置为利用事件信息和关联实体信息构成第一子图，第一子图中的节点包括事件和关联实体，边体现事件与关联实体之间的关系。

第二子图构建单元603，被配置为查询与事件类型相关的知识图谱，以确定知识图谱中各关联实体的第二子图，第二子图中的节点包括关联实体和与关联实体在预设关系范围内的其他实体，边体现实体之间的关系；其中，知识图谱的节点中包括目标类型的实体。

融合单元604，被配置为将第一子图和第二子图进行融合得到事件子图信息。

影响预测单元605，被配置为将事件子图信息输入预先训练得到的事件影响预测模型，得到事件对目标类型的实体的影响信息。

其中，影响信息可以包括：影响到的目标类型的实体信息及对应的影响程度。

作为一种优选的实施方式，可以首先由预处理单元606对事件相关文本进行预处理，即预处理单元606被配置为从与目标类型所对应领域的事件相关文本中，筛选出热点事件相关文本；对筛选出的热点事件相关文本进行聚类和去重处理；分别从各聚类结果中选择N个事件相关文本用以提供给事件抽取单元601执行抽取事件信息和关联实体信息的处理，N为预设的自然数。

作为一种可实现的方式，事件抽取单元601可以具体被配置为：基于预设的词典、模板和事件抽取模型中的至少一种，从事件相关文本中抽取事件信息和关联实体信息；其中词典包括事件关键词和实体关键词；模板包括事件对应的语义表达模板和实体对应的语义表达模板。

作为一种可实现的方式，融合单元604可以具体被配置为：将第一子图和第二子图进行融合；对融合的结果进行结构化处理，得到以事件为初始节点、以各目标类型的实体分别为结束节点的链式结构数据。

其中，事件影响预测模型从事件子图信息中获取各节点的属性信息和各边的属性信息，对各节点的属性信息和边的属性信息进行编码，分别得到各节点的特征向量表示和各边的特征向量表示；将事件子图中的事件和各目标类型的实体分别构成待预测的候选对，基于事件子图中各节点的特征向量表示和各边的特征向量表示预测各候选对的得分，其中，候选对的得分体现该候选对中事件对目标类型的实体的影响程度。

作为一种典型的应用场景，上述事件信息可以为金融相关的事件类型，上述目标类型的实体可以为股票或基金的实体。

根据另一方面的实施例，提供了一种获取事件影响预测模型的装置。图7示出根据一个实施例的获取事件影响预测模型的装置的示意性框图。可以理解，该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。如图7所示，该装置700包括：数据获取单元710和模型训练单元720。其中，各组成单元的主要功能如下：

数据获取单元710，被配置为获取训练数据，训练数据包括第一子图样本、第二子图样本以及影响信息标签，其中第一子图样本是利用从历史事件相关文本中抽取出的事件信息和关联实体信息构建的，第一子图样本中的节点包括事件和关联实体，边体现事件与关联实体之间的关系；第二子图样本是依据第一子图样本中关联实体信息查询知识图谱而得到，第二子图中的节点包括关联实体和与关联实体在预设关系范围内的其他实体，边体现实体之间的关系，知识图谱的节点中包括目标类型的实体；影响信息标签包括从历史时间相关文本中抽取出的事件对目标类型的实体的影响信息。

模型训练单元720，被配置为利用训练数据训练图模型得到事件影响预测模型，其中将第一子图样本和第二子图样本融合后得到的事件子图信息作为图模型的输入，将影响信息标签作为图模型的目标输出。

其中，数据获取单元710可以具体包括：事件抽取子单元711、第一构建子单元712和第二构建子单元713。

其中，事件抽取子单元711，被配置为从历史事件相关文本中抽取事件信息和关联实体信息。

第一构建子单元712，被配置为利用事件信息和关联实体信息构成第一子图样本。

第二构建子单元713，被配置为查询与事件类型相关的知识图谱，以确定知识图谱中各关联实体的第二子图样本。

上述事件抽取子单元711、第一构建子单元712和第二构建子单元713可以复用图6所示事件推理装置中的事件抽取单元601、第一子图构建单元602和第二子图构建单元603。具体的相关处理可以参见图6所示装置实施例中的相关记载，在此不做赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图2或图5中所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图2或图5中所述的方法。

随着时间、技术的发展，计算机可读存储介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器

件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本说明书中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述的处理器可包括一个或多个单核处理器或多核处理器。处理器可包括任何一般用途处理器或专用处理器（如图像处理器、应用处理器基带处理器等）的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.事件的推理方法，包括：

从事件相关文本中抽取事件信息和关联实体信息；

2.根据权利要求1所述的方法，其中，在所述从事件相关文本中抽取事件信息和关联实体信息之前，还包括：

对筛选出的热点事件相关文本进行聚类和去重处理；

分别从各聚类结果中选择N个事件相关文本用以分别执行所述抽取事件信息和关联实体信息的处理，所述N为预设的自然数。

3.根据权利要求1所述的方法，其中，所述从事件相关文本中抽取事件信息和关联实体信息包括：

其中所述词典包括事件关键词和实体关键词；

4.根据权利要求1所述的方法，其中，所述影响信息包括：影响到的目标类型的实体信息及对应的影响程度。

5.根据权利要求1所述的方法，其中，将所述第一子图和所述第二子图进行融合得到事件子图信息包括：

将所述第一子图和所述第二子图进行融合；

6.根据权利要求1所述的方法，其中，所述得到所述事件对所述目标类型的实体的影响信息，包括：

所述事件影响预测模型从所述事件子图信息中获取各节点的属性信息和各边的属性信息，对各节点的属性信息和边的属性信息进行编码，分别得到各节点的特征向量表示和各边的特征向量表示；将所述事件子图中的事件和各目标类型的实体分别构成待预测的候选对，基于所述事件子图中各节点的特征向量表示和各边的特征向量表示预测各候选对的得分，其中，候选对的得分体现该候选对中事件对目标类型的实体的影响程度。

7.根据权利要求1至6中任一项所述的方法，其中，所述事件信息为金融相关的事件类型；

所述目标类型的实体为股票或基金的实体。

8.一种获取事件影响预测模型的方法，包括：

获取训练数据，所述训练数据包括第一子图样本、第二子图样本以及影响信息标签；其中所述第一子图样本是利用从历史事件相关文本中抽取出的事件信息和关联实体信息构建的，所述第一子图中的节点包括事件和关联实体，边体现事件与关联实体之间的关系；所述第二子图样本是依据第一子图样本中关联实体信息查询知识图谱而得到，第二子图中的节点包括所述关联实体和与所述关联实体在预设关系范围内的其他实体，边体现实体之间的关系，所述知识图谱的节点中包括目标类型的实体；所述影响信息标签包括从历史时间相关文本中抽取出的事件对目标类型的实体的影响信息；

9.根据权利要求8所述的方法，其中，所述事件影响预测模型从所述事件子图信息中获取各节点的属性信息和各边的属性信息，对各节点的属性信息和边的属性信息进行编码，分别得到各节点的特征向量表示和各边的特征向量表示；将所述事件子图中的事件和各目标类型的实体分别构成待预测的候选对，基于所述事件子图中各节点的特征向量表示和各边的特征向量表示预测各候选对的得分，其中，候选对的得分体现该候选对中事件对目标类型的实体的影响程度。

10.事件的推理装置，包括：

11.一种获取事件影响预测模型的装置，包括：

12.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。