CN113157931B

CN113157931B - 一种融合图谱构建方法及装置

Info

Publication number: CN113157931B
Application number: CN202110075629.2A
Authority: CN
Inventors: 汪铎; 葛通; 陈维强; 孙永良; 于涛; 王玮
Original assignee: Hisense TransTech Co Ltd
Current assignee: Hisense TransTech Co Ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2022-11-25
Anticipated expiration: 2041-01-20
Also published as: CN113157931A

Abstract

本申请公开一种融合图谱构建方法及装置，从各信源获取事件文本；针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，并确定事件组中原因事件和结果事件之间的因果强度；根据各事件组及各事件组中原因事件和结果事件之间的因果强度，确定事件图谱；通过所述事件图谱中各事件组与知识图谱中的实体构建图谱关系，从而形成融合图谱。该方式中通过使用融合了事件图谱的知识图谱来对城市工作进行评价，则可摆脱对专家经验的依赖，而仅根据城市运行过程中发生的事件与知识图谱的关联关系，即可以对城市态势进行监测或评价。

Description

一种融合图谱构建方法及装置

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种融合图谱构建方法及装置。

背景技术

随着科技的不断发展与进步，智慧城市的建设已成为当前科技创新的前进动力之一。建设智慧城市，不仅需要对海量城市数据进行有效存储、计算与分析，更需要从海量城市数据中挖掘潜在价值、探究城市运行规律，为城市运营决策提供有力支撑。

然而，在对智慧城市进行建设的过程中，尤其是在对城市工作进行评价时，主要依赖于专家经验。也即，在获取到海量城市数据并预处理后，将交由从事城市管理、规划工作的专门人士，由他们对城市数据进行分析，以提出好的城市运营方案。

显然，上述对城市工作进行评价的方式过于依赖专家经验，不够自动化与智能化。

发明内容

本申请提供一种融合图谱构建方法及装置，用以解决背景技术中强依赖于专家经验的方式来对城市工作进行评价的技术难题。

第一方面，本申请实施例提供一种融合图谱构建方法，该方法包括：从各信源获取事件文本；针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，并确定事件组中原因事件和结果事件之间的因果强度；根据各事件组及各事件组中原因事件和结果事件之间的因果强度，确定事件图谱；通过所述事件图谱中各事件组与知识图谱中的实体构建图谱关系，从而形成融合图谱。

基于该方案，对于城市运行过程中产生的各个事件文本，该些事件文本可以通过多种渠道进行发布，针对任一事件文本，确定该事件文本是否包括因果关系的事件组，并为包括因果关系的事件文本确定对应于它的事件组中原因事件与结果事件之间的因果强度，进而确定事件图谱，最后，通过将事件图谱与知识图谱进行融合，该知识图谱为城市运行过程中针对城市主体而建立的图谱，因而，通过使用融合了事件图谱的知识图谱来对城市工作进行评价，则可摆脱对专家经验的依赖，而仅根据城市运行过程中发生的事件与知识图谱的关联关系，即可以对城市态势进行监测或评价。

在一种可能实现的方法中，所述针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，包括：确定所述事件文本的语义特征向量和句法依存图；通过所述语义特征向量和所述句法依存图，确定所述事件文本的注意力特征；通过所述注意力特征，确定所述事件文本中存在因果关系的事件组。

基于该方案，在对一事件文本进行分析时，首先对事件文本进行切词，并基于切词后得到的分词，确定事件文本的语义特征向量和句法依存图；然后结合所得到的语义特征向量和句法依存图，可确定事件文本的注意力特征；最后，可根据注意力特征来确定事件文本中存在因果关系的事件组。该方式中，通过为切词后的事件文本确定语义特征向量，以及确定分词之间的依赖关系，从而可以全面地对事件文本进行描述，并实现对因果事件进行抽取的目标。

在一种可能实现的方法中，所述确定所述事件文本的语义特征向量，包括：通过双向深度转译预训练编码器Bert模型对所述事件文本中的多个分词进行向量化表示，得到每个分词对应的特征向量；通过双向长短期记忆模型 Bi-LSTM模型对所述多个分词分别对应的特征向量进行处理，得到每个分词对应的语义特征向量。

基于该方案，在为切词后的事件文本确定语义特征向量的过程中，首先可使用Bert模型对切词后得到的分词进行向量化表示，并得到每一个分词对应的特征向量；然后，可使用Bi-LSTM模型对该些分词分别对应的特征向量进行处理，从而得到每个分词对应的语义特征向量。该方式中通过联合使用Bert 模型与Bi-LSTM模型，可输出事件文本的语义特征向量，进而探究语义中潜在的因果关系。

在一种可能实现的方法中，所述确定所述事件文本的句法依存图，包括：通过句法分析层确定所述事件文本中的多个分词之间的依赖关系；根据所述多个分词之间的依赖关系，构建所述多个分词对应的句法依存图；所述句法依存图通过邻接矩阵的方式进行表示。

基于该方案，在为事件文本确定句法依存图时，通过将对事件文本切词后得到分词输入到句法分析层，使用句法依存分析技术，可使事件文本中原本互相独立的分词之间产生依赖关系，并对应构建该些分词的句法依存图，其中，句法依存图可以邻接矩阵的方式进行表示。

在一种可能实现的方法中，所述通过所述语义特征向量和所述句法依存图，确定所述事件文本的注意力特征，包括：将所述语义特征向量输入至图注意力模型GAT模型中的线性层，得到所述语义特征向量的强化值；将所述语义特征向量的强化值与所述句法依存图输入至所述GAT模型中的融合层，并通过所述GAT模型的多头注意力机制得到所述事件文本注意力特征。

基于该方案，在确定事件文本注意力特征的过程中，首先可基于GAT模型中的线性层为已经得到的语义特征向量做进一步的强化处理，从而得到语义特征向量的强化值；然后，将强化后的语义特征向量连同句法依存图，一同输入至GAT模型中的融合层，以由融合层基于GAT模型的多头注意力机制来确定事件文本的注意力特征。该方式中，融合层将强化后的语义特征转化为图形特征，使原本互相独立的分词特征通过句法依存图产生依赖关系。多头注意力机制在使用过程中，为每个分词计算自身注意力时，还为与其相邻的所有分词分配不同的权重，进而关注作用较大的分词，忽略作用较小的分词，使注意力更集中在要抽取的原因词和结果词上，进一步加强了因果语义的特征。

在一种可能实现的方法中，所述确定事件组中原因事件和结果事件之间的因果强度，包括：针对存在因果关系的任一事件组，确定在所有事件组中所述事件组中的原因事件作为所述事件组中的结果事件的必要条件的第一概率，及所述事件组中的原因事件作为所述事件组中的结果事件的充分条件的第二概率；根据所述第一概率和所述第二概率，确定所述原因事件和所述结果事件之间的因果强度。

基于该方案，在确定事件组中原因事件与结果事件之间存在的因果强度时，可以在所有事件组的范畴中，计算当前事件组中的原因事件作为当前事件组中结果事件的必要条件的概率值，即第一概率，以及计算原因事件作为结果事件的充分条件的概率值，即第二概率，进而基于第一概率和第二概率，将可以获取当前事件组中的原因事件与结果事件之间的因果强度。该方式中，通过全面、充分地考量事件文本中的每一个分词对事件文本可能存在的影响，如此，将可以充分地表达出事件组中原因事件与结果事件之间的因果强度。

在一种可能实现的方法中，所述方法还包括：为各事件组中的原因事件或结果事件，确定存在相似性的事件及存在相似性的事件之间的相似度；所述根据各事件组及各事件组中原因事件和结果事件之间的因果强度，确定事件图谱，包括：将各事件组中的原因事件和结果事件建立关联关系，并将原因事件和结果事件之间的因果强度设置为关联关系的关联强度；将存在相似性的事件之间建立关联关系，并将存在相似性的事件之间的相似度设置为关联关系的关联强度。

基于该方案，在城市演化过程中生成的事件文本，尤其为具有因果关系的事件文本，针对事件文本中的原因事件或者结果事件，往往存在与之相似的事件，因此，可确定与原因事件或者结果事件存在相似性的事件以及彼此之间的相似度，如此，在构建事件图谱的过程中，一方面可以基于因果强度建立起原因事件与结果事件之间的关联关系，另一方面还可以基于事件间的相似度建立起相似性事件间的关联关系，如此得到的事件图谱将可很全面地涵盖城市演化过程中的方方面面。

在一种可能实现的方法中，所述通过所述事件图谱中各事件组与知识图谱中的实体构建图谱关系，从而形成融合图谱，包括：针对任一事件组，通过对所述事件组的事件文本进行实体抽取，确定所述事件组中的实体；通过各事件组中的实体与知识图谱中的实体构建图谱关系，从而形成融合图谱。

基于该方案，在将事件图谱与知识图谱进行融合的过程中，通过对事件组的中事件文本进行实体抽取，确定事件组中的实体，然后通过研究事件组的实体与知识图谱中的实体之间存在的关联关系，则可以建立起事件图谱中的原因事件(或者结果事件)与知识图谱中的实体之间的联系，从而形成融合图谱，后续在对城市工作进行评价时，可依据此融合图谱而做出科学、合理的决策。

第二方面，本申请实施例提供一种融合图谱构建装置，该装置包括：事件文本获取单元，用于从各信源获取事件文本；事件文本处理单元，用于针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，并确定事件组中原因事件和结果事件之间的因果强度；事件图谱构建单元，用于根据各事件组及各事件组中原因事件和结果事件之间的因果强度，确定事件图谱；融合图谱构建单元，用于通过所述事件图谱中各事件组与知识图谱中的实体构建图谱关系，从而形成融合图谱。

在一种可能实现的方法中，所述事件文本处理单元，具体用于：确定所述事件文本的语义特征向量和句法依存图；通过所述语义特征向量和所述句法依存图，确定所述事件文本的注意力特征；通过所述注意力特征，确定所述事件文本中存在因果关系的事件组。

在一种可能实现的方法中，所述事件文本处理单元，具体用于：通过双向深度转译预训练编码器Bert模型对所述事件文本中的多个分词进行向量化表示，得到每个分词对应的特征向量；通过双向长短期记忆模型Bi-LSTM模型对所述多个分词分别对应的特征向量进行处理，得到每个分词对应的语义特征向量。

在一种可能实现的方法中，所述事件文本处理单元，具体用于：通过句法分析层确定所述事件文本中的多个分词之间的依赖关系；根据所述多个分词之间的依赖关系，构建所述多个分词对应的句法依存图；所述句法依存图通过邻接矩阵的方式进行表示。

在一种可能实现的方法中，所述事件文本处理单元，具体用于：将所述语义特征向量输入至图注意力模型GAT模型中的线性层，得到所述语义特征向量的强化值；将所述语义特征向量的强化值与所述句法依存图输入至所述GAT 模型中的融合层，并通过所述GAT模型的多头注意力机制得到所述事件文本注意力特征。

在一种可能实现的方法中，所述事件文本处理单元，具体用于：针对存在因果关系的任一事件组，确定在所有事件组中所述事件组中的原因事件作为所述事件组中的结果事件的必要条件的第一概率，及所述事件组中的原因事件作为所述事件组中的结果事件的充分条件的第二概率；根据所述第一概率和所述第二概率，确定所述原因事件和所述结果事件之间的因果强度。

在一种可能实现的方法中，该装置还包括相似确定单元；所述相似确定单元，用于：为各事件组中的原因事件或结果事件，确定存在相似性的事件及存在相似性的事件之间的相似度；事件图谱确定单元，具体用于：将各事件组中的原因事件和结果事件建立关联关系，并将原因事件和结果事件之间的因果强度设置为关联关系的关联强度；将存在相似性的事件之间建立关联关系，并将存在相似性的事件之间的相似度设置为关联关系的关联强度。

在一种可能实现的方法中，所述融合图谱构建单元，具体用于：针对任一事件组，通过对所述事件组的事件文本进行实体抽取，确定所述事件组中的实体；通过各事件组中的实体与知识图谱中的实体构建图谱关系，从而形成融合图谱。

第三方面，本申请实施例提供了一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行如第一方面任一所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行如第一方面任一所述的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种融合图谱构建方法；

图2为本申请实施例提供的一种句法依存树的示意图；

图3为本申请实施例提供的一种句法依存图的展现方式；

图4为本申请实施例提供的一种注意力计算的示意图；

图5为本申请实施例提供的一种融合图谱的应用示意图；

图6为本申请实施例提供的一种融合图谱构建装置。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

目前，在对城市工作进行评价时，主要依赖于专家经验。显然该种方式受到人为因素的影响将较大，不够自动化与智能化。

基于上述技术问题，本申请实施例提供一种融合图谱构建方法，如图1所示，该方法包括以下步骤：

步骤101，从各信源获取事件文本。

众所周知，随着信息技术在生活的广泛使用，一个城市范围内发生的事件也将可以通过多种不同的渠道进行发布。因此，本步骤中，城市事件信源包括但不限于城市新闻、政府信箱、社交平台、公众号、相关APP(Application，应用程序)，通过上述渠道，可以获取到事件文本，例如事件文本可以为“一男子因精神问题大量饮酒开车驶入步行街导致交通事故，造成人员伤亡”。

步骤102，针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，并确定事件组中原因事件和结果事件之间的因果强度。

在对城市工作进行评价的过程中，因为一些特定原因，城市事件在发展过程中将形成一定的结果；此外，所形成的结果，又可能是导致另外一些特定城市事件发生的原因。因此，通过使用“因果”这一逻辑关系，来对城市事件进行抽取，并在形成事件图谱后，又将可以反作用于城市工作的评价。因此，对于上一步骤101中获取到的任一事件文本，通过机器学习算法确定该事件文本中是否包含存在因果关系的事件组，其中，存在因果关系的事件组中包括原因事件和结果事件；如果确定该事件文本中包含存在因果关系的事件组，则进一步确定事件组中原因事件和结果事件之间的因果强度，其中，因果强度用于表示在一存在因果关系的事件组中，原因事件的发生对结果事件发生的影响程度值，也即，原因事件的发生将会在多大程度上导致结果事件的发生。

步骤103，根据各事件组及各事件组中原因事件和结果事件之间的因果强度，确定事件图谱。

在本步骤中，一方面，通过上一步骤102，可获取到存在因果关系的事件组中原因事件和结果事件之间的因果强度，进而可以构建事件图谱，比如可以将一存在因果关系的事件组中的原因事件和结果事件分别作为一个节点，并将二者之间的因果强度作为两个节点间产生联系的关联值；另一方面，在对事件图谱进行构建的过程中，在抽取事件之间的事理逻辑关系之余，还可关注事件自身的属性，其中，事件自身的属性表示附加到事件上的所有细节，也即，事件图谱的构建还可根据各事件组(即事件自身的属性)。

例如，关于城市事件“一男子因精神问题大量饮酒开车驶入步行街导致严重交通事故，造成大规模人员伤亡”这一文本，经分析可知：酒后驾车与(发生)交通事故是存在因果关系的事件组，酒后驾车为原因事件，(发生)交通事故是结果事件；进一步地，(发生)交通事故还带来了人员伤亡，因此，人员伤亡是(发生)交通事故这一事件的属性信息。如此，在构建事件图谱的过程中，可建立起酒后驾车与(发生)交通事故这两者之间的关联关系，以及，可建立起(发生)交通事故与人员伤亡这两者之间的关联关系，关联关系通过因果强度进行表示。

步骤104，通过所述事件图谱中各事件组与知识图谱中的实体构建图谱关系，从而形成融合图谱。

在本步骤中，在得到事件图谱后，可进一步地将事件图谱与知识图谱进行融合，从而可以使用经融合得到的综合图谱来对城市工作进行评价。其中，知识图谱指的是基于城市功能而构建的城市主体知识图谱，由于城市主体知识图谱的构建为现有技术，本申请实施例不做详细描述。例如，城市主体知识图谱可划分为人口图谱，法人图谱，政务图谱：

人口图谱按照“一数一源、多元校核”的原则，汇聚整合公安、人社、司法、卫计、民政等重要部门数据，完善以公民身份号码为唯一标识的完整、准确、鲜活的人口库，实现人口信息的共享、整合、存储、更新、服务。人口图谱可以完善人口库相关标准规范，建立人口库数据采集、管理、更新、服务的长效机制。为各类政务服务应用和宏观决策等提供基础数据支持与服务，提升政府治理能力；

法人图谱按照“一数一源、多元校核”的原则，汇聚工商行政、食药监、质监、司法、知识产权、商标、版权、税务等重要部门数据，建设一个数据全面、准确一致、动态更新，能够真实反映现状的法人单位信息整合库。法人图谱可以完善法人库相关标准规范，建立法人库数据采集、管理、更新、服务的长效机制。

以下将结合示例分别对上述一些步骤进行详细说明。

在上述步骤102的一个实施中，所述针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，包括：确定所述事件文本的语义特征向量和句法依存图；通过所述语义特征向量和所述句法依存图，确定所述事件文本的注意力特征；通过所述注意力特征，确定所述事件文本中存在因果关系的事件组。

例如，针对一事件文本，首先可将其导入输入层，由输入层对其进行切词，并将切词得到的多个分词分别输入网络层和句法分析层。由于网络层的输入需为定长的文本，因此本申请实施例中还将包括输入层执行预处理操作，其中，预处理操作可以包括对文本长度进行设置，如设置size＝228，从而在事件文本的长度少于设置size时，则用“u”补齐，并对大于设置size的事件文本进行缩减。

在将事件文本对应着的多个分词输入到网络层时，通过网络层可以确定事件文本的语义特征向量：

在本申请的某些实施中，所述确定所述事件文本的语义特征向量，包括：通过双向深度转译预训练编码器Bert模型对所述事件文本中的多个分词进行向量化表示，得到每个分词对应的特征向量；通过双向长短期记忆模型 Bi-LSTM模型对所述多个分词分别对应的特征向量进行处理，得到每个分词对应的语义特征向量。

网络层包括词嵌入层和神经网络层：词嵌入层中利用Bert模型 (BidirectionalEncoder Representations from Transformers，双向深度转译预训练编码器)对分词后的事件文本进行向量化表示，将所输入的语言文字转化为特征向量；接着，神经网络层通过Bi-LSTM模型(Bi-directional Long Short-Term Memory，双向长短期记忆模型)挖掘语义信息，充分利用上下文提取事件文本的深层语义特征，即得到Bi-LSTM隐藏层输出，进而探究语义中潜在的因果关系。

在将事件文本对应着的多个分词输入到句法分析层时，通过句法分析层可以确定事件文本的句法依存图：

在本申请的某些实施中，所述确定所述事件文本的句法依存图，包括：通过句法分析层确定所述事件文本中的多个分词之间的依赖关系；根据所述多个分词之间的依赖关系，构建所述多个分词对应的句法依存图；所述句法依存图通过邻接矩阵的方式进行表示。

句法依存分析是根据文本中词与词之间的依存关系，表示词语的句法结构信息(如主谓、动宾、定中等结构关系)的一种自然语言处理技术，其可通过句法依存树来表示处理结果。本申请实施例中，则将句法依存树拓展到句法依存图，其生成规则为：文本中的词为句法依存图的顶点，根据句法依存分析得到的句法依存树的弧生成句法依存图的边。其中，忽略“Root”指向根节点的弧，其他句法依存树的弧为句法依存图的边。由于句法依存图注重词与词之间的依赖关系，并不关注句法结构(如主谓、动宾、定中等结构关系)，故不需要存储句法依存树中弧的标签信息(如“Nsubj”、“Xcomp”、“Punct”等标签信息)。

基于上述方法，可以以邻接矩阵的方式存储句法依存图，有边的对应矩阵元素为1，否则为0。

在本申请实施例中，句法依存图可分为以下3类：

1、有向图。句法依存分析中的父节点指向子节点，弧是单向的。

2、无向图。句法依存分析中父节点指向子节点，同时子节点也指向父节点，父子节点间有一个无向弧连接，邻接矩阵为对称矩阵。

3、带有自环的图。节点自身指向自己，邻接矩阵对角元素为1。具体又可分为自环有向图和自环无向图。

如图2所示，为本申请实施例提供的一种句法依存树的示意图。其中，该句法依存树是基于“酒驾导致车祸.”这一文本进行构建的，由于句法依存树的构建方案是采用的现有技术，故本申请不展开描述。

如图3所示，为本申请实施例提供的一种句法依存图的展现方式。说明的是，图3所示意的4种句法依存图均是基于图2所示意的句法依存树进行制作的，其中，图3中的(a)是有向图，(b)是无向图，(c)是自环有向图，(d)是自环无向图，且(a)图、(b)图、(c)图和(d)图均是通过邻接矩阵的方式对句法依存图进行存储。

参照图3中的(d)图，以生成类型为自环无向图的句法依存图为例进行说明，也即，说明是如何得到(d)图所示的邻接矩阵的。其中，图的顶点分别为文本中单词“酒驾”，“导致”，“车祸”，“.”；忽略句法依存树中的弧“Root→导致”，并将其他的弧“导致→酒驾”，“导致→车祸”，“导致→.”转换成无向图的边，分别为正向边“导致-酒驾”，“导致-车祸”，“导致-.”，以及反向边“酒驾-导致”，“车祸-导致”，“.-导致”；此外，自环图的边分别为“酒驾-酒驾”，“导致-导致”，“车祸-车祸”，“.-.”，所有的顶点与边构成自环无向图的句法依存图，它是一个对角元素为1的对称矩阵。

在得到语义特征向量和句法依存图之后，可通过下述方式确定文本的注意力特征：

在本申请的某些实施中，所述通过所述语义特征向量和所述句法依存图，确定所述事件文本的注意力特征，包括：将所述语义特征向量输入至图注意力模型GAT模型中的线性层，得到所述语义特征向量的强化值；将所述语义特征向量的强化值与所述句法依存图输入至所述GAT模型中的融合层，并通过所述GAT模型的多头注意力机制得到所述事件文本注意力特征。

Bi-LSTM模型输出值(即语义特征向量，也称为Bi-LSTM隐藏层输出) 通过GAT模型(Graph Attention Networks，图注意力模型)中的线性层，可转化为更高层次的特征，获取表达能力更强的隐藏层输出，也即得到语义特征向量的强化值。然后，将语义特征向量的强化值与通过句法分析层生成的邻接矩阵输入到融合层，可进行图注意力的计算。其中，利用公式(1)和公式(2)，可计算注意力系数；然后，根据公式(3)进行加权求和，可得到注意力特征。

其中，h＝(h1,h2,…,hI)，hi∈R^F，h为文本中每个词对应的语义特征向量，在本申请实施例中为词向量输入到Bi-LSTM模型中的隐藏层输出。I为文本分词后词的个数，F为隐藏层输出的特征维度(词向量维度)。为了得到表达能力更强的Bi-LSTM隐藏层输出，用1个可学习的线性变换将隐藏层输出特征转化为更高层次的特征，将W∈R^F×F′的权重矩阵作用到Bi-LSTM的隐藏层输出上得到强化后的特征。句中词的个数I保持不变，改变了隐藏层输出的特征维度F′值。

e_ij表示词j对于词i的重要程度。注意力机制a是1个单层前馈网络，将权重矩阵W_a∈R^2F′作用在强化后的特征上；“||”表示连接。如图4所示，为本申请实施例提供的一种注意力计算的示意图，将词i、j强化后的特征向量相连接，输入到单层前馈网络，通过函数LeakyReLU非线性层得到e_ij。

设词i在句法依存图中直接相连的节点集合为N_i，e_ij通过函数softmax_j，得到注意力系数a_ij。基于句法依存图的邻接矩阵S_i，将词i在句法依存图中所有相邻词j的强化特征与对应的权重系数a_ij进行加权求和，通过非线性层σ得到注意力特征h′_i。

为了使模型结构更稳定，GAT采用多头注意力机制的思想，将K个互相独立的注意力特征根据公式(4)进行连接得到1层GAT的输出，该层堆叠n次。 GAT的输出层是根据公式(5)将注意力特征取平均值得到GAT的最终结果， GAT层数设为n′。GAT将强化后的线性特征转化为图形特征，原本互相独立的词特征通过句法依存图的边产生依赖关系。每个单词在计算自身注意力时，为其所有相邻单词分配不同的权重，进而关注作用较大的单词，忽略作用较小的单词，使注意力更集中在要抽取的原因词和结果词上，进一步加强了因果语义的特征。

其中，K为头的个数，W^k为强化特征的权重矩阵，

是计算第k注意力的权重系数。

接着，将GAT层的输出通过CRF层(Conditional Random Field，条件随机场)得到最终的因果标签。CRF层能够获取相邻词的信息，用多种特征函数给标签打分并加权求和，得分最高的标签为最终的输出结果，是全局最优化值。

最后，通过输出层输出最终的标签结果。其中，可用标签“C”代表“cause”，表示原因，标签“E”代表“effect”，表示结果，标签“O”代表“other”，表示无因果关系。

模型输入为文本“酒驾导致车祸.”，首先将输入的语言文字转化为特征向量，并通过Bi-LSTM挖掘上下文的语义信息，初步提取句子的因果语义特征；同时对输入的句子进行句法依存分析得到句法依存图，使句子中原本互相独立的单词之间产生依赖关系。然后，将初步提取的词特征根据依赖关系通过GAT 分配权重，进一步强化因果语义特征。最后，通过CRF层提取近距离的数据特征，并输出因果标签。得到的因果关系的抽取结果为：原因为“酒驾”，结果为“车祸”，即“酒驾”导致了“车祸”，达到了因果事件抽取的目的。

进一步地，事件图谱构建除了可抽取事件之间的事理逻辑关系外，还可关注事件自身的属性，事件属性是指附加到事件上的所有细节，事件属性抽取可通过实体抽取算法实现。

通过实体抽取算法，可以实现从例如新闻、文章和短消息等非结构化的文本信息中提取出结构化信息，实体即为文章中出现频率较高且具有实际信息价值的关键词，构建属性三元组。本申请实施例中，实体抽取算法为采用 Bert+Bi-LSTM+CRF网络模型的NER(Name Entity Recognition，命名实体识别)算法，其中，Bert为关于语言理解的双向深度转译预训练编码器，Bi-LSTM 为双向长短期记忆模型，用于建模上下文信息，CRF为条件随机场，通过引入自定义的特征函数表示当前观测与前后多个状态之间的复杂依赖。

此外，针对事件文本，确定出存在因果关系的事件组后，还可以对事件组中原因事件和结果事件的因果强度进行计算，包括：针对存在因果关系的任一事件组，确定在所有事件组中所述事件组中的原因事件作为所述事件组中的结果事件的必要条件的第一概率，及所述事件组中的原因事件作为所述事件组中的结果事件的充分条件的第二概率；根据所述第一概率和所述第二概率，确定所述原因事件和所述结果事件之间的因果强度。

例如，记f(i_c,j_e)为单词i出现在原因中且单词j出现在结果中的频数，则：

使用最大似然估计得到i作为j必要条件的概率，即第一概率：

类似地，使用最大似然估计得到i作为j充分条件的概率，即第二概率：

接着，求两个概率的加权几何平均数，作为i与j间的因果强度：

CS(i_c,j_e)＝CS_nec(i_c,j_e)^λCS_suf(i_c,j_e)^1-λ (8)

最后，对给定事件T₁,T₂，将其中所有单词的因果强度组合作为事件间的因果强度：

进一步的，一些事件之间还可能存在有一定程度的相似性，如“酒驾”事件和“醉驾”事件之间将存在某种程度上的相似性。为此，在确定事件图谱的过程中，还可以引入对各事件组之间相似性的计算，包括：为各事件组中的原因事件或结果事件，确定存在相似性的事件及存在相似性的事件之间的相似度。

例如，首先将(因果)事件组的原因事件和结果事件构造一个事件集合，为每个事件设置一个ID，然后对事件进行分词，如分词可通过开源的中文分词工具包jieba实现；

进一步地，统计所有事件集合中，每个词语的出现的频次并构建词表；

进一步地，接着按照TF-IDF公式计算文档词频矩阵：

tfidf_i,j＝tf_i,j×idf_i (10)

在上式中，tf为词频，关键词出现次数越多，tf值越大。TF-IDF值有效衡量了关键词在文本中的重要程度。

最后，计算两两事件之间的余弦相似度。

经过以上步骤，就可以得到事件相似度矩阵，使用以上方法计算事件相似度的时间复杂度为O(n²)。将相似度大于一定阈值(如0.75)的事件判定为相似事件，然后按照相似度由高到低的顺序取前3个事件，分别构造出两个事件之间的相似关系三元组<事件，相似，事件>。

在确定了各事件组中原因事件和结果事件之间的因果强度以及各事件组彼此之间的相似度之后，则可以通过下述方式确定事件图谱：

将各事件组中的原因事件和结果事件建立关联关系，并将原因事件和结果事件之间的因果强度设置为关联关系的关联强度；

将存在相似性的事件之间建立关联关系，并将存在相似性的事件之间的相似度设置为关联关系的关联强度。

例如，通过(因果)事件组抽取和事件相似度计算的步骤，可获得<原因事件，因果关系(因果强度)，结果事件>，以及<事件，相似关系(相似度)，事件>两种三元组。

在得到事件图谱之后，则可以对事件图谱与知识图谱进行融合，包括：针对任一事件组，通过对所述事件组的事件文本进行实体抽取，确定所述事件组中的实体；通过各事件组中的实体与知识图谱中的实体构建图谱关系，从而形成融合图谱。

例如，事件组中经常会提及很多实体，如公司名称、行业、股票板块、人物实体等，这些实体可以和知识图谱中的实体或实体的属性建立关联，从而实现知识图谱与事件图谱的融合，让知识图谱借助事件图谱中的因果逻辑事理进行推理和分析。本申请实施例通过构建一个实体词典来实现实体识别和抽取，然后通过实体的关联，将知识图谱与因果事件知识融合起来。进一步地，命名实体识别是自然语言处理的基础任务，其目标是从文本中抽取出实体并对实体进行分类，实体通常是根据应用场景的需要来定义的，常见的实体有人名、公司名、地理位置名称、机构等。基于词典的方法，通常依赖于知识库和词典的建立，准确率高，在封闭领域能够取得很好的效果，将实体关联到知识图谱中。由于这些实体都与知识图谱中的实体进行关联，因此可将城市主体知识图谱作为知识库来辅助事件中的实体的抽取。

首先，构造实体词典，将知识图谱中可以作为实体词典的实体及其属性加入到词典中。然而，由于知识图谱和(因果)事件组分别是从不同来源的数据构建的，事件中的实体和知识图谱中的实体之间可能存在实体链接的问题，比如在新闻中，由于用词比较灵活，经常在提及机构时使用简称或缩写，对于机构实体而言，除了与机构名称进行关联，还应该与机构的别名和简称进行关联，“机构简称”、“别名”、“英文名”在知识图谱构造过程已经作为了属性考虑进去。如，经过分析，知识图谱中适合作为词典的实体和属性可包括：(1)领域实体，比如“电力”、“金融”、“民生保障”等；(2)组织实体包括政府组织和个人组织，公司全称、简称、英文名、地点、官网链接等属性；(3)人物实体人名属性和其他基本信息属性；(4)政务服务业务实体，包括业务名称、时间、地点、对象、形式、费用等属性(5)指标实体，简称、别名、领域、部门、来源等属性(6)股票实体名称、类型、发行时间、市值等属性；(7)股票板块实体板块名称；(8)地域实体地域名称、地域标签等属性。

然后，通过命名实体抽取，提取出事件中出现的实体，便就可以将其与知识图谱中的实体进行关联匹配，从而构造出一个<事件实体，关联关系，知识图谱实体>的三元组，来表示实体和事件之间的关联关系。比如因果事件对中的“酒驾”和“交通事故”事件和知识图谱中的指标实体“交通事故发生次数”可以构成<酒驾导致交通事故，关联关系，交通事故发生次数>、<酒驾导致交通事故，关联关系，查处酒驾>这样的三元组。

如图5所示，为本申请实施例提供的一种融合图谱的应用示意图，其中以一个交通突发事件的图谱为例，说明事件图谱在城市态势监测中精准治理应用。在该图谱中，初始事件节点为酒驾导致了一场车祸，酒后驾车与车祸分别与政务图谱中的指标体系关联，此外，车祸信息还会和人口图谱中的车辆信息关联，查找相关人口信息。人口图谱与政务图谱通过政务服务进行链接。在政务图谱中，由于交通事故的处置不仅牵涉公安局的相关工作，还会涉及交通运输局、对于特大交通事故，还需要应急管理局参与。在该图谱上，交通事故事件与其可能的政府部门实行一对多的全面链接，一旦出现相关事件，可基于本申请中的事件图谱进行事件处置的统一指挥和调度，提高了应急效率，能够及时追责，降低了部门协同的成本。引入因果强度和事件相似度能够在因果事件分析过程中，提高治理针对性，实现城市运行精准治理。

另一方面，从民众角度分析，城市事件图谱与城市主体知识图谱的结合，使得民众与政府部门，城市态势紧密联系。民众可以根据城市事件的发生及时反应，积极参政问政，共同服务城市建设。政务图谱中政务服务事项实体，利用政务服务平台沉淀的资源数据，应用大数据分析技术，针对业务部门和中心领导等不同的用户对象和不同的业务需求，提供专题的数据可视化服务和语音问答服务，政务图谱数据治理一方面能够为民众政务办事提供便利，真正实现“审批事项少、办事效率高、服务质量优，只跑一次，一次办好”的政务环境，另一方面让公众了解政务服务、理解政务服务和监督政务服务，帮助业务部门掌握自身的优势和不足，辅助领导更科学的决策。

基于同样的构思，本申请实施例还提供一种融合图谱构建装置，如图6所示，该装置包括：

事件文本获取单元601，用于从各信源获取事件文本。

事件文本处理单元602，用于针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，并确定事件组中原因事件和结果事件之间的因果强度。

事件图谱构建单元603，用于根据各事件组及各事件组中原因事件和结果事件之间的因果强度，确定事件图谱。

融合图谱构建单元604，用于通过所述事件图谱中各事件组与知识图谱中的实体构建图谱关系，从而形成融合图谱。

进一步地，对于该装置，事件文本处理单元602，具体用于：确定所述事件文本的语义特征向量和句法依存图；通过所述语义特征向量和所述句法依存图，确定所述事件文本的注意力特征；通过所述注意力特征，确定所述事件文本中存在因果关系的事件组。

进一步地，对于该装置，事件文本处理单元602，具体用于：通过双向深度转译预训练编码器Bert模型对所述事件文本中的多个分词进行向量化表示，得到每个分词对应的特征向量；通过双向长短期记忆模型Bi-LSTM模型对所述多个分词分别对应的特征向量进行处理，得到每个分词对应的语义特征向量。

进一步地，对于该装置，事件文本处理单元602，具体用于：通过句法分析层确定所述事件文本中的多个分词之间的依赖关系；根据所述多个分词之间的依赖关系，构建所述多个分词对应的句法依存图；所述句法依存图通过邻接矩阵的方式进行表示。

进一步地，对于该装置，事件文本处理单元602，具体用于：将所述语义特征向量输入至图注意力模型GAT模型中的线性层，得到所述语义特征向量的强化值；将所述语义特征向量的强化值与所述句法依存图输入至所述GAT 模型中的融合层，并通过所述GAT模型的多头注意力机制得到所述事件文本注意力特征。

进一步地，对于该装置，事件文本处理单元602，具体用于：针对存在因果关系的任一事件组，确定在所有事件组中所述事件组中的原因事件作为所述事件组中的结果事件的必要条件的第一概率，及所述事件组中的原因事件作为所述事件组中的结果事件的充分条件的第二概率；根据所述第一概率和所述第二概率，确定所述原因事件和所述结果事件之间的因果强度。

进一步地，对于该装置，还包括相似确定单元605；相似确定单元605，用于：为各事件组中的原因事件或结果事件，确定存在相似性的事件及存在相似性的事件之间的相似度；事件图谱确定单元，具体用于：将各事件组中的原因事件和结果事件建立关联关系，并将原因事件和结果事件之间的因果强度设置为关联关系的关联强度；将存在相似性的事件之间建立关联关系，并将存在相似性的事件之间的相似度设置为关联关系的关联强度。

进一步地，对于该装置，融合图谱构建单元604，具体用于：针对任一事件组，通过对所述事件组的事件文本进行实体抽取，确定所述事件组中的实体；通过各事件组中的实体与知识图谱中的实体构建图谱关系，从而形成融合图谱。

本申请实施例提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant， PDA)等。该计算设备可以包括中央处理器(Center Processing Unit，CPU)、存储器、输入/输出设备等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器，可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中，存储器可以用于存储融合图谱构建方法的程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行融合图谱构建方法。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行融合图谱构建方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种融合图谱构建方法，其特征在于，包括：

从各信源获取事件文本；

针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，并确定事件组中原因事件和结果事件之间的因果强度，所述因果强度用于表示所述原因事件的发生对所述结果事件发生的影响程度值；

根据各事件组及各事件组中原因事件和结果事件之间的因果强度，确定事件图谱；

通过所述事件图谱中各事件组与知识图谱中的实体构建图谱关系，从而形成融合图谱；

其中，所述确定事件组中原因事件和结果事件之间的因果强度，包括：

针对存在因果关系的任一事件组，确定在所有事件组中所述事件组中的原因事件作为所述事件组中的结果事件的必要条件的第一概率，及所述事件组中的原因事件作为所述事件组中的结果事件的充分条件的第二概率；

根据所述第一概率和所述第二概率，确定所述原因事件和所述结果事件之间的因果强度。

2.如权利要求1所述的方法，其特征在于，

所述针对任一事件文本，通过机器学习算法确定所述事件文本中存在因果关系的事件组，包括：

确定所述事件文本的语义特征向量和句法依存图；

通过所述语义特征向量和所述句法依存图，确定所述事件文本的注意力特征；

通过所述注意力特征，确定所述事件文本中存在因果关系的事件组。

3.如权利要求2所述的方法，其特征在于，

所述确定所述事件文本的语义特征向量，包括：

通过双向深度转译预训练编码器Bert模型对所述事件文本中的多个分词进行向量化表示，得到每个分词对应的特征向量；

通过双向长短期记忆模型Bi-LSTM模型对所述多个分词分别对应的特征向量进行处理，得到每个分词对应的语义特征向量。

4.如权利要求2所述的方法，其特征在于，

所述确定所述事件文本的句法依存图，包括：

通过句法分析层确定所述事件文本中的多个分词之间的依赖关系；

根据所述多个分词之间的依赖关系，构建所述多个分词对应的句法依存图；所述句法依存图通过邻接矩阵的方式进行表示。

5.如权利要求2所述的方法，其特征在于，

所述通过所述语义特征向量和所述句法依存图，确定所述事件文本的注意力特征，包括：

将所述语义特征向量输入至图注意力模型GAT模型中的线性层，得到所述语义特征向量的强化值；

将所述语义特征向量的强化值与所述句法依存图输入至所述GAT模型中的融合层，并通过所述GAT模型的多头注意力机制得到所述事件文本注意力特征。

6.如权利要求1-5任一项所述的方法，其特征在于，

所述方法还包括：

为各事件组中的原因事件或结果事件，确定存在相似性的事件及存在相似性的事件之间的相似度；

所述根据各事件组及各事件组中原因事件和结果事件之间的因果强度，确定事件图谱，包括：

7.如权利要求1-5任一项所述的方法，其特征在于，

所述通过所述事件图谱中各事件组与知识图谱中的实体构建图谱关系，从而形成融合图谱，包括：

针对任一事件组，通过对所述事件组的事件文本进行实体抽取，确定所述事件组中的实体；

通过各事件组中的实体与知识图谱中的实体构建图谱关系，从而形成融合图谱。

8.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行如权利要求1-7任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，当所述程序在计算机上运行时，使得计算机实现执行如权利要求1-7任一项所述的方法。