CN114238656A

CN114238656A - 基于强化学习的事理图谱补全方法及其相关设备

Info

Publication number: CN114238656A
Application number: CN202111564078.2A
Authority: CN
Inventors: 王伟; 黄勇其; 于翠翠; 张黔
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: Runlian Software System Shenzhen Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-25

Abstract

本申请实施例属于知识图谱领域，涉及一种基于强化学习的事理图谱补全方法及其相关设备，包括接收事件语料，对事件语料进行事件实体识别操作，获得事件实体，对事件训练语料进行事件关系识别操作，获得事件关系，并基于事件实体和事件关系构建事理图谱；将事理图谱中各实体节点和边节点分别输入至Bert模型中，分别获得实体嵌入向量和边嵌入向量；将事理图谱中的任意实体节点作为起始节点,基于实体嵌入向量和边嵌入向量计算起始节点在事理图谱中每一步推理的状态向量；基于状态向量和预训练的推理模型在事理图谱中进行逐步推理,获得目标事理关系,根据目标事理关系补全所述事理图谱。本申请提高了对事理图谱补全的效率和准确率。

Description

基于强化学习的事理图谱补全方法及其相关设备

技术领域

本申请涉及知识图谱技术领域，尤其涉及基于强化学习的事理图谱补全方法及其相关设备。

背景技术

近年来，知识图谱已经在金融、电商、医疗等领域得到了广泛应用，但传统知识图谱也存在局限。首先，知识图谱中的知识是静态、确定的，而现实中知识是动态变化的；其次是知识图谱只能回答诸如“XX是什么”的问题，却很难回答“为什么”、“怎么做”等类型问题；这是由于实体之间没有建立起时序上的演变逻辑关系。新兴的一种知识图谱-事理图谱则是研究谓词性事件及事件之间随着时间变化产生的逻辑关系。因此，事理图谱是弥补传统知识图谱缺陷的新工具。

由于现实世界的复杂性，构建事理图谱需要花费较多精力，仍可能出现实体之间的逻辑关系遗漏等问题，因此实际应用中还需要做知识补全(或者叫推理)。知识补全是指给定事理图谱中需要补全的三元组<eh,r,？>，需要在整个事理图谱中进行搜索，经过若干中间实体的传递，最终找到满足关系r要求的尾实体t，从而形成完整的三元组<eh,r,et>；整个搜索序列可概括为：{(eh,r1,e1),...,(en,rn,et)}(n代表搜索序列中第n个实体)。举例来说，若存在以下序列：<巴西铁矿石价格上涨，导致，中国钢材价格上涨>，<中国钢材价格上涨，导致，国内汽车价格上涨>，<国内汽车价格上涨，同时，居民收入未增长>，<居民收入未增长，同时，加班时间增加>，<加班时间增加，带来，晚上地铁客流增长>，则可以发现缺失的事理关系：<巴西铁矿石价格上涨，带来，晚上地铁客流量增长>。

但是，目前现有的事理图谱的知识补全的方式存在特征提取的误差较大，导致最后判断事件之间关系的准确率不高的情况，对事理图谱的补全的完整度较差。

发明内容

本申请实施例的目的在于提出一种基于强化学习的事理图谱补全方法及其相关设备，提高了对事理图谱补全的效率和准确率。

为了解决上述技术问题，本申请实施例提供一种基于强化学习的事理图谱补全方法，采用了如下所述的技术方案：

一种基于强化学习的事理图谱补全方法，包括下述步骤：

接收事件语料，对所述事件语料进行事件实体识别操作，获得事件实体，对所述事件语料进行事件关系识别操作，获得事件关系，并基于所述事件实体和事件关系构建事理图谱；

调用预训练的Bert模型，将所述事理图谱中各实体节点和边节点分别输入至所述预训练的Bert模型中，分别获得实体嵌入向量和边嵌入向量；

将所述事理图谱中的任一所述实体节点作为起始节点,基于所述实体嵌入向量和所述边嵌入向量计算所述起始节点在所述事理图谱中每一步推理的状态向量；

基于所述状态向量和预训练的推理模型在所述事理图谱中进行逐步推理,获得两个所述实体节点之间的目标事理关系,根据所述目标事理关系补全所述事理图谱。

进一步的，所述对所述事件语料进行事件关系识别操作，获得事件关系的步骤包括：

接收多个关系词典，基于所述关系词典对所述事件训练语料中的句子进行分类，以确定所述句子对应的关系词典，其中，所述关系词典包括多个关系名称；

识别所述句子中各词语的词性，判断所述句子中是否有且仅有一个动词；

若是，则确定所述词性为动词的词语是否存在于所述关系词典中，若存在，则将所述词性为动词的词语作为所述事件实体对应的事件关系；

若不是有且仅有一个动词，则按预设方式从所述句子对应的关系词典中选择一个关系名称作为所述事件实体对应的事件关系。

进一步的，所述按预设方式从所述句子对应的关系词典中选择一个关系名称作为所述事件实体对应的事件关系的步骤包括：

将所述句子中词性为动词的词语分别输入至预训练的词向量转换模型中，分别获得输出的第一词嵌入向量，计算所述第一词嵌入向量的平均值，获得平均向量；

将所述关系词典的关系名称分别输入至所述词向量转换模型中，分别获得输出的第二词嵌入向量；

计算所述平均向量与所述第二词嵌入向量的语义相似度，将最大的语义相似度对应的关系名称作为所述事件关系。

进一步的，所述基于所述实体嵌入向量和所述边嵌入向量计算所述中心节点的在所述事理图谱中每一步推理的状态向量的步骤包括：

基于所述实体嵌入向量和所述边嵌入向量计算所述实体节点间的语义距离，获得实体语义距离；

在所述事理图谱中，以所述起始节点为圆心，预设第一语义距离为半径，形成第一兴趣区域，并基于所述实体语义距离确定处于所述第一兴趣区域内的实体节点，作为所述起始节点的第一邻居节点；

以所述第一邻居节点为圆心，预设第二语义距离为半径，形成第二兴趣区域，将处于所述第二兴趣区域内的所述实体节点作为所述第一邻居节点的第二邻居节点，并将在所述事理图谱中，与所述第一邻居节点相连接的所述第二邻居节点作为目标邻居节点；

基于所述目标邻居节点与所述第一邻居节点之间的边的边嵌入向量以及所述第一邻居节点的实体嵌入向量计算所述起始节点的所述状态向量。

进一步的，所述基于所述目标邻居节点与所述第一邻居节点之间的边的边嵌入向量以及所述第一邻居节点的实体嵌入向量计算所述起始节点的所述状态向量的步骤包括：

基于如下公式计算所述起始节点在第t步推理的状态向量：

其中，

表示所述起始节点在第t步的状态向量，“：”表示向量的拼接操作，

表示从所述起始节点出发在第t步到达的所述第一邻居节点的所述实体嵌入向量，

表示从所述起始节点出发在第t步到达所述第一邻居节点时经过的所述边嵌入向量之和，J表示所述第t步的所述第一邻居节点对应的所述目标邻居节点的数量，

表示从所述第t步的第一邻居节点对应的所述目标邻居节点出发，到达所述第t步的所述第一邻居节点所经过的边的边嵌入向量之和。

进一步的，基于所述状态向量和预训练的推理模型在所述事理图谱中进行逐步推理,获得两个所述实体节点之间的目标事理关系的步骤包括：

将每一步推理时所述起始节点对应的状态向量输入所述预训练的推理模型，所述推理模型将所述状态向量通过第一隐藏层进行处理，输出第一概率序列，将所述第一概率序列通过第二隐藏层进行处理，输出第二概率序列；

将所述第二概率序列通过softmax层进行处理，获得第三概率序列；

将所述第三概率序列中的数值最大的概率值对应的行动作为推理行动，并进行一次推理，获得推理节点和推理关系；

经过多次推理行动，直到推理到所述起始节点与所述推理节点相同时，将所述推理关系作为所述目标事理关系。

进一步的，在所述基于所述事件实体和事件关系构建事理图谱的步骤之后，还包括：

从所述事理图谱中提取训练数据，其中，所述训练数据为实体与关系构成的序列；

基于所述训练数据对预设推理模型进行奖励式强化学习，直到达到预设停止条件，获得所述预训练的推理模型。

为了解决上述技术问题，本申请实施例还提供一种基于强化学习的事理图谱补全装置，采用了如下所述的技术方案：

一种基于强化学习的事理图谱补全装置，包括：

接收模块，用于接收事件语料，对所述事件语料进行事件实体识别操作，获得事件实体，对所述事件语料进行事件关系识别操作，获得事件关系，并基于所述事件实体和事件关系构建事理图谱；

第一计算模块，用于调用预训练的Bert模型，将所述事理图谱中各实体节点和边节点分别输入至所述预训练的Bert模型中，分别获得实体嵌入向量和边嵌入向量；

第二计算模块，用于将所述事理图谱中的任一所述实体节点作为起始节点,基于所述实体嵌入向量和所述边嵌入向量计算所述起始节点的在所述事理图谱中每一步推理的状态向量；

推理模块，用于基于所述状态向量和预训练的推理模型在所述事理图谱中进行逐步推理,获得两个所述实体节点之间的目标事理关系,根据所述目标事理关系补全所述事理图谱。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的基于强化学习的事理图谱补全方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的基于强化学习的事理图谱补全方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请在对事理图谱的补全过程中，通过状态向量进行推理，考虑下一步行动，其中，状态向量的计算是基于实体嵌入向量和所述边嵌入向量计算获得，实现每个实体节点的推理都不仅仅是从自身的角度出发，结合了实体嵌入向量和边嵌入向量，寻找出最优路径，提高了对事理图谱补全的效率和准确率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于强化学习的事理图谱补全方法的一个实施例的流程图；

图3是根据本申请的基于强化学习的事理图谱补全装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：100、系统架构；101-103、终端设备；104、网络；105、服务器；200、计算机设备；201、存储器；202、处理器；203、网络接口；300、基于强化学习的事理图谱补全装置；301、接收模块；302、第一计算模块；303、第二计算模块；304、推理模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于强化学习的事理图谱补全方法一般由服务器/终端设备执行，相应地，基于强化学习的事理图谱补全装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于强化学习的事理图谱补全方法的一个实施例的流程图。所述的基于强化学习的事理图谱补全方法，包括以下步骤：

S1：接收事件语料，对所述事件语料进行事件实体识别操作，获得事件实体，对所述事件语料进行事件关系识别操作，获得事件关系，并基于所述事件实体和事件关系构建事理图谱。

在本实施例中，事理图谱的构造：给定用于训练模型的事件训练语料，对事件训练语料进行事件识别操作，具体分为事件实体识别操作和事件关系识别操作，分别获得事件实体和事件关系。对所述事件训练语料进行事件实体识别操作，获得事件实体的具体步骤包括:采用事件抽取方法从所述事件训练语料的每个句子中识别事件实体，事件实体为短语形式，例如:铁矿石价格上涨。其中，事件抽取方法种类较多，本申请采用远距离监督方法,其属于一种半监督学习算法。其中,远距离监督方法具体可以选用PCNN(PiecewiseConvolutional Neural Networks)模型,包含两层含义：Piecewise max pooling layer和Convolutional Neural Networds，对应到最大池化层和卷积层。用卷积神经网络强大的特征提取功能，能自动抽取丰富的特征，并且减少人工设计特征和NLP工具库抽取特征带来的误差。对所有事件，用识别得到的事件实体和事件实体的事件关系(即连接事件实体的边)构成事理图谱G，事理图谱G中所有实体节点(即事件实体)集合为E，所有边节点(即事件关系)的集合为R。

在本实施例中，基于强化学习的事理图谱补全方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收事件语料。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体的，所述对所述事件语料进行事件关系识别操作，获得事件关系的步骤包括：

在本实施例中，本申请定义七种基于数理逻辑的关系类型，包括：因果事理、条件事理、反转事理、顺承事理、上下位事理、组成事理和并发事理。收集每种关系类型常见的描述词，构建每种关系类型对应的关系词典，即因果事理关系词典、条件事理关系词典、反转事理关系词典、顺承事理关系词典、上下位事理关系词典、组成事理关系词典和并发事理关系词典。举例来说，因果事理关系词典：[关系类型：因果事理，关系名称：“带来”、“导致”]。本申请每个关系词典对应一种事理关系类型。采用分类算法，将每个事件所在句子中蕴含的关系判别为上述七种关系类型种的一种，即基于所述关系词典和分类算法对所述事件训练语料中的句子进行分类，以确定所述句子对应的关系词典。具体的，根据关系词典训练分类算法，获得训练后的分类算法，将所述句子输入至所述训练后的分类算法中，获得所述句子对应的关系词典。本申请中的句子指事件训练语料中的含有所述事件实体的句子。

识别事件实体所在的所述句子中各词语的词性，若只存在一个动词，则检查该动词是否存在于关系词典中，若存在则将其作为事件关系。由于事先定义的关系词典可能无法列举出生活中所有关系名称，故若不存在，则分别通过word2vec思想得到动词和关系词典中关系名称的词嵌入向量，计算它们之间的词嵌入向量的语义相似度，选择语义相似度最高的关系名称作为所述事件关系。例如，对某个事件，通过分类算法，识别为因果事理关系，句子中的动词为“致使”，这个词在词典中又未出现，那么通过上述方法，算出“致使”与“导致”语义相似度为0.95，与“带来”语义相似度为0.91，则将“导致”作为所述事件关系。若存在不止一个动词，则从该关系类型对应的关系词典中选择一个关系名称作为事件实体对应的事件关系。若句子中无动词，则从对应的关系词典中任选一个关系名称作为所述事件关系。

需要说明的是，本申请采用的分类算法包括但不限于NBC(Naive BayesianClassifier，朴素贝叶斯分类)算法、LR(Logistic Regress，逻辑回归)算法、ID3(Iterative Dichotomiser 3迭代二叉树3代)决策树算法、SVM(Support Vector Machine，支持向量机)算法、KNN(K-Nearest Neighbor，K最近邻近)算法和ANN(Artificial NeuralNetwork，人工神经网络)算法。在实际应用中，可以根据实际需要选择上述任意一种或多种分类算法，或者根据实际需要，选择其他分类算法，适用即可。

其中，所述按预设方式从所述句子对应的关系词典中选择一个关系名称作为所述事件实体对应的事件关系的步骤包括：

在本实施例中，分别通过词向量转换模型(word2vec模型)得到句子中所有动词的和关系词典中关系名称的词嵌入向量，并求得上述所有动词的平均值，本申请的词向量转换模型采用word2vec模型，word2vec模型是Google开源的一款用于词向量计算的工具word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练，该工具得到的训练结果——词向量(word embedding)，可以很好地度量词与词之间的相似性。计算该平均值与关系名称的词嵌入向量的语义相似度，即，向量之间的余弦相似度；选择语义相似度最高的关系名称作为所述事件关系。

S2：调用预训练的Bert模型，将所述事理图谱中各实体节点和边节点分别输入至所述预训练的Bert模型中，分别获得实体嵌入向量和边嵌入向量。

在本实施例中，将所述事理图谱G的所有实体节点和边节点分别输入至预训练的Bert模型中，获得输出的实体节点对应的实体嵌入向量和边节点对应的边嵌入向量。

S3：将所述事理图谱中的任一所述实体节点作为起始节点,基于所述实体嵌入向量和所述边嵌入向量计算所述起始节点在所述事理图谱中每一步推理的状态向量。

在本实施例中，根据实体嵌入向量和边嵌入向量计算出状态向量,便于推理模型在事理图谱中进行推理。当事理图谱G中每个实体节点完成一步推理后，均将自己当前状态的变化情况(即自己当前所经过的边和达到的实体节点)报告给推理模块(执行推理程序的模块)。事理图谱G中每个实体节点在下一步推理前，从推理模块处获得当前所在推理状态的邻居节点信息，包括该邻居节点的嵌入向量和到达该邻居节点所途经的推理路径，进而计算出状态向量，然后输入至推理模型，从而确定下一步推理的推理行动。

具体的，所述基于所述实体嵌入向量和所述边嵌入向量计算所述中心节点的在所述事理图谱中每一步推理的状态向量的步骤包括：

在本实施例中，对任一E_i(即起始节点)，初始指定一个语义距离为半径，形成一个兴趣区域(AOI，Area of Interesting)，位于AOI内的节点即为E_i(起始节点)的邻居节点。AOI的半径可动态变化，每隔一定训练周期，可根据训练效果扩大或减小AOI范围，其中，AOI范围可以人工调整，或者计算机根据推理准确率进行调整，具体的：若推理准确率(通过推理发现的正确关系数量/用于训练的样本总数)与训练开销(例如消耗的内存)之比上升，则可扩大AOI范围，反之缩小。本申请在强化学习和实际推理应用的过程中，从全局角度考虑下一步行动，每个实体节点的推理都不仅是从自身角度出发，更通过目标邻居节点与所述第一邻居节点之间的边的边嵌入向量以及第一邻居节点的实体嵌入向量，实现了结合邻近事件的信息，逐步寻找到最优路径，提高了事理图谱的补全的准确率。

需要说明的是，本申请中第一语义距离和第二语义距离的具体数值可以相同也可以不同，根据实际需要进行调整。

其中，所述基于所述目标邻居节点与所述第一邻居节点之间的边的边嵌入向量以及所述第一邻居节点的实体嵌入向量计算所述起始节点的所述状态向量的步骤包括：

基于如下公式计算所述起始节点在第t步推理的状态向量：

其中，

在本实施例中，第t步的推理状态：包括从E_i(起始节点)出发，在第t步到达的E_k(第一邻居节点)及它的目标邻居节点。实体节点状态向量编码：定义E_i在第t步的状态向量为

其中，所述状态向量在后续过程中用于输入模型，从而确定推理行动。本申请设从E_i(起始节点)出发，在第t步推理后到达E_k(第一邻居节点)，其中，每步指从当前实体节点出发沿着某条边到达下一个实体节点。

为从E_i(起始节点)出发到达E_k(第一邻居节点)时经过的推理路径(即事理图谱G中的边)的嵌入向量之和；找出E_k(第一邻居节点)的第二邻居节点中从自身出发经过推理到达E_k的实体节点E_m(目标邻居节点)(假设有J个)，

为从E_m(目标邻居节点)出发到达E_k(第一邻居节点)所经过的推理路径的嵌入向量之和。“：”表示向量的拼接操作。Encoder为基于深度神经网络的编码模型，可采用Transformer中encoder模块。

此外，基于所述实体嵌入向量和所述边嵌入向量计算所述实体节点间的语义距离，获得实体语义距离的步骤包括：

所述实体语义距离根据如下公式计算：

Ds(E_i，E_j)＝sim(VE_i，VE_j)×sim(∑VR_Ei，∑VR_Ej)，其中，Ds(E_i，E_j)

表示所述实体语义距离，E_i和E_j分别表示两个所述实体节点，VE_i和VE_j分别表示两个所述实体节点的实体嵌入向量，∑VR_Ei和∑VR_Ej分别表示两个所述实体节点的所有连接的边的边嵌入向量之和,sim表示余弦相似度。

在本实施例中，根据两个实体节点的实体嵌入向量和连接的边的边嵌入向量计算出实体语义距离。定义VE_i为E_i的嵌入向量，VR_Ei为边的边嵌入向量。sim(VE_i，VE_j)为两个实体节点的实体嵌入向量余弦相似度，∑VR_Ei为E_i所有连接边的边嵌入向量之和。定义Ds(E_i，E_j)为实体节点E_i和E_j之间的语义距离。

S4：基于所述状态向量和预训练的推理模型在所述事理图谱中进行逐步推理,获得两个所述实体节点之间的目标事理关系,根据所述目标事理关系补全所述事理图谱。

在本实施例中，推理模型为类别为N个推理行动的多层神经网络，其中，N为上述所有(本申请举例为7种)关系词典中所有关系名称的总数。将所述起始节点在当前步的状态向量输入至预训练的推理模型中，获得输出的概率最大的推理行动，在所述事理图谱中，根据所述概率最大的推理行动推理一次，最终获得所述目标事理关系。例如，在某事理图谱中，以实体节点“巴西铁矿石价格上涨”为起始节点，通过每一步推理选择一条边，到达一个节点，最终发现实体节点“巴西铁矿石价格上涨”与“晚上地铁客流量增长”之间具有“带来”关系。

具体的，基于所述状态向量和预训练的推理模型在所述事理图谱中进行逐步推理,获得两个所述实体节点之间的目标事理关系的步骤包括：

在本实施例中，本申请为了最大化推理行动的价值得分，采用强化学习领域常见的策略梯度方法对推理模型进行的优化，从而获得表现较佳的推理模型，具体的，通过第一隐藏层、第二隐藏层和softmax层对状态向量进行处理。实践中还可以采用更多隐藏层来获得更好效果。

其中，所述推理模型将所述状态向量通过第一隐藏层进行处理，输出第一概率序列，将所述第一概率序列通过第二隐藏层进行处理，输出第二概率序列的步骤包括：

所述第一隐藏层通过如下公式对所述状态向量进行处理：

o1＝relu(w1×v+b1)，其中，v为所述状态向量，o1为所述第一概率序列，w1为所述第一隐藏层的权重，relu为激活函数，b1为预设第一偏置量；

所述第二隐藏层通过如下公式对所述第一概率序列进行处理：

o2＝relu(w2×o1+b2)，其中，o2为所述第二概率序列，w2为所述第二隐藏层的权重，relu为激活函数，b2为预设第二偏置量。

在本实施例中，输入向量v(状态向量)，设隐藏层权重矩阵为w1，采用relu激活函数，偏置量为b1，输出o1＝relu(w1*v+b1)；设第二隐藏层权重矩阵为w2，偏置量为b2，输出o2＝relu(w2*o1+b2)，再通过softmax层得到o3(第三概率序列)，将o3中数值最大的概率值(Pa)对应的行动作为推理行动。

在所述基于所述事件实体和事件关系构建事理图谱的步骤之后，还包括：

在本实施例中，训练数据为从事理图谱中抽取的关系正确的实体-关系序列，例如：巴西铁矿石价格上涨-推动-国内汽车价格上涨-同时-居民收入未增长。本申请通过训练推理模型，使得推理模型能够发现实体之间的关系。训练好后，当面临新数据时，可以找到隐含的关系。

具体的，所述基于所述训练数据对预设推理模型进行奖励式强化学习的步骤包括：

在每一步推理后，判断推理是否正确；

若正确，则获得第一奖励值，其中，所述第一奖励值为

若错误，则获得第二奖励值，其中，所述第二奖励值为-len(path)，其中，所述len(path)表示推理经过的边的数量。

在本实施例中，在每一步推理后，判断推理是否正确，是指判断推理出来的实体和关系是否正确，即是否与预设的真实实体和真实关系相同。len(path)为经过的历史的边的数量。训练过程中，当每一次推理结束后，如果正确得到的实体，则获得事先定义的奖励值

否则得到奖励值-len(path)。显然经过多步后推理若出现失败，则会被给予更大的惩罚。在训练过程中，推理模型可能会选择错误的路径(即边)，所以需要用强化学习来训练，走对了就给奖励，走错了就给惩罚。让推理模型学习到路径之间的关联，找到正确的路径。

此外，所述直到达到预设停止条件，获得所述预训练的推理模型的步骤包括：

在每一步推理后，计算推理时执行的推理行动的潜在价值得分；

获取所述推理模型输出的所述推理行动的概率值；

计算所述概率值的对数和所述潜在价值得分乘积的负值，作为推理值；

直至所述推理值最小且趋于稳定，确定所述多层神经网络收敛，获得所述推理模型。

在本实施例中，由于每一次推理行动对于后续行动均会产生影响，且这种影响随着推理步数增加会逐渐衰减，因此还需要计算每次推理行动后的潜在价值得分。所述推理模型输出的所述推理行动的概率值为训练过程中的第三概率序列中的数值最大的概率值(Pa)。本申请以Pa的对数和推理行动的潜在价值得分乘积的负值为训练优化目标，当该值最小化，且几乎不再变化时，即多层神经网络收敛，可停止训练。对多层神经网络的优化可采用SGD(随机梯度下降)、Adam等机器学习领域常见优化方法。

进一步的，所述计算推理行动潜在价值得分的步骤包括：

根据所述推理行动经过的边的数量计算推理行动得分；

根据如下公式计算所述推理行动的潜在价值得分：

其中，S′表示所述潜在价值得分，γ表示价值衰减系数，S^i-1表示第i-1次的所述推理行动得分。

在本实施例中，S^i-1的计算公式与奖励值的计算公式相同。具体的：若推理正确，则S^i-1为i-1次推理行动所对应的

(第一奖励值)；若推理错误，则S^i-1为i-1次推理行动所对应的-len(path)(第二奖励值)。其中，len(path)表示推理路径长度，即推理过程中所经过的历史的边的数量。此外，本申请还计算最终推理行动总得分S,具体的，

在推理模型达到训练优化目标，即完成训练后，实现所述最终推理行动总得分S达到最大值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于强化学习的事理图谱补全装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于强化学习的事理图谱补全装置300包括：接收模块301、第一计算模块302、第二计算模块303以及推理模块304。其中：接收模块301，用于接收事件语料，对所述事件语料进行事件实体识别操作，获得事件实体，对所述事件语料进行事件关系识别操作，获得事件关系，并基于所述事件实体和事件关系构建事理图谱；第一计算模块302，用于调用预训练的Bert模型，将所述事理图谱中各实体节点和边节点分别输入至所述预训练的Bert模型中，分别获得实体嵌入向量和边嵌入向量；第二计算模块303，用于将所述事理图谱中的任一所述实体节点作为起始节点,基于所述实体嵌入向量和所述边嵌入向量计算所述起始节点的在所述事理图谱中每一步推理的状态向量；推理模块304，用于基于所述状态向量和预训练的推理模型在所述事理图谱中进行逐步推理,获得两个所述实体节点之间的目标事理关系,根据所述目标事理关系补全所述事理图谱。

在本实施例中，本申请在对事理图谱的补全过程中，通过状态向量进行推理，考虑下一步行动，其中，状态向量的计算是基于实体嵌入向量和所述边嵌入向量计算获得，实现每个实体节点的推理都不仅仅是从自身的角度出发，结合了实体嵌入向量和边嵌入向量，寻找出最优路径，提高了对事理图谱补全的效率和准确率。

接收模块301包括接收子模块、识别子模块、确定子模块和选择子模块。其中，所述接收子模块用于接收多个关系词典，基于所述关系词典对所述事件训练语料中的句子进行分类，以确定所述句子对应的关系词典，其中，所述关系词典包括多个关系名称；所述识别子模块用于识别所述句子中各词语的词性，判断所述句子中是否有且仅有一个动词；所述确定子模块用于在句子中有且仅有一个动词时，确定所述词性为动词的词语是否存在于所述关系词典中，若存在，则将所述词性为动词的词语作为所述事件实体对应的事件关系；所述选择子模块用于句子中不是有且仅有一个动词时，按预设方式从所述句子对应的关系词典中选择一个关系名称作为所述事件实体对应的事件关系。

所述选择子模块包括第一转换单元、第二转换单元和计算单元，其中，所述第一转换单元用于将所述句子中词性为动词的词语分别输入至预训练的词向量转换模型中，分别获得输出的第一词嵌入向量，计算所述第一词嵌入向量的平均值，获得平均向量；第二转换单元用于将所述关系词典的关系名称分别输入至所述词向量转换模型中，分别获得输出的第二词嵌入向量；计算单元用于计算所述平均向量与所述第二词嵌入向量的语义相似度，将最大的语义相似度对应的关系名称作为所述事件关系。

第二计算模块303包括第一计算子模块、第一区域形成子模块、第二区域形成子模块以及第二计算子模块；第一计算子模块，用于基于所述实体嵌入向量和所述边嵌入向量计算所述实体节点间的语义距离，获得实体语义距离；第一区域形成子模块，用于在所述事理图谱中，以所述起始节点为圆心，预设第一语义距离为半径，形成第一兴趣区域，并基于所述实体语义距离确定处于所述第一兴趣区域内的实体节点，作为所述起始节点的第一邻居节点；第二区域形成子模块，用于以所述第一邻居节点为圆心，预设第二语义距离为半径，形成第二兴趣区域，将处于所述第二兴趣区域内的所述实体节点作为所述第一邻居节点的第二邻居节点，并将在所述事理图谱中，与所述第一邻居节点相连接的所述第二邻居节点作为目标邻居节点；第二计算子模块，用于基于所述目标邻居节点与所述第一邻居节点之间的边的边嵌入向量以及所述第一邻居节点的实体嵌入向量计算所述起始节点的所述状态向量。

在本实施例的一些可选的实现方式中，上述第一计算子模块进一步用于：

所述实体语义距离根据如下公式计算：

Ds(E_i，E_j)＝sim(VE_i，VE_j)×sim(∑VR_Ei，∑VR_Ej)，其中，Ds(E_i，E_j)表示所述实体语义距离，E_i和E_j分别表示两个所述实体节点，VE_i和VE_j分别表示两个所述实体节点的实体嵌入向量，∑VR_Ei和∑VR_Ej分别表示两个所述实体节点的所有连接的边的边嵌入向量之和,sim表示余弦相似度。

在本实施例的一些可选的实现方式中，上述第二计算子模块进一步用于：基于如下公式计算所述起始节点在第t步推理的状态向量：

其中，

推理模块304包括第一输入子模块、第二输入子模块、推理子模块和获得子模块；第一输入子模块用于将每一步推理时所述起始节点对应的状态向量输入所述预训练的推理模型，所述推理模型将所述状态向量通过第一隐藏层进行处理，输出第一概率序列，将所述第一概率序列通过第二隐藏层进行处理，输出第二概率序列；第二输入子模块用于将所述第二概率序列通过softmax层进行处理，获得第三概率序列；推理子模块用于将所述第三概率序列中的数值最大的概率值对应的行动作为推理行动，并进行一次推理，获得推理节点和推理关系；获得子模块用于经过多次推理行动，直到推理到所述起始节点与所述推理节点相同时，将所述推理关系作为所述目标事理关系。

在本实施例的一些可选的实现方式中，上述第一输入子模块进一步用于：所述第一隐藏层通过如下公式对所述状态向量进行处理：o1＝relu(w1×v+b1)，其中，v为所述状态向量，o1为所述第一概率序列，w1为所述第一隐藏层的权重，relu为激活函数，b1为预设第一偏置量；所述第二隐藏层通过如下公式对所述第一概率序列进行处理：o2＝relu(w2×o1+b2)，其中，o2为所述第二概率序列，w2为所述第二隐藏层的权重，relu为激活函数，b2为预设第二偏置量。

在本实施例的一些可选的实现方式中，上述装置300还包括：提取模块和学习模块，提取模块用于从所述事理图谱中提取训练数据，其中，所述训练数据为实体与关系构成的序列；学习模块用于基于所述训练数据对预设推理模型进行奖励式强化学习，直到达到预设停止条件，获得所述预训练的推理模型。

所述提取模块包括判断子模块、第一奖励子模块和第二奖励子模块；判断子模块用于在每一步推理后，判断推理是否正确；第一奖励子模块用于在正确时，获得第一奖励值，其中，所述第一奖励值为

第二奖励子模块用于在错误时，获得第二奖励值，其中，所述第二奖励值为-len(path)，其中，所述len(path)表示推理经过的边的数量。

所述学习模块包括价值计算子模块、概率值获取子模块、推理值计算子模块和收敛子模块，其中，价值计算子模块用于在每一步推理后，计算推理时执行的推理行动的潜在价值得分；概率值获取子模块用于获取所述推理模型输出的所述推理行动的概率值；推理值计算子模块用于计算所述概率值的对数和所述潜在价值得分乘积的负值，作为推理值；收敛子模块用于直至所述推理值最小且趋于稳定，确定所述多层神经网络收敛，获得所述推理模型。

价值计算子模块包括得分计算单元和价值计算单元，其中，得分计算单元用于根据所述推理行动经过的边的数量计算推理行动得分；价值计算单元用于根据如下公式计算所述推理行动的潜在价值得分：

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于强化学习的事理图谱补全方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述基于强化学习的事理图谱补全方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于强化学习的事理图谱补全方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于强化学习的事理图谱补全方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于强化学习的事理图谱补全方法，其特征在于，所述对所述事件语料进行事件关系识别操作，获得事件关系的步骤包括：

3.根据权利要求2所述的基于强化学习的事理图谱补全方法，其特征在于，所述按预设方式从所述句子对应的关系词典中选择一个关系名称作为所述事件实体对应的事件关系的步骤包括：

4.根据权利要求1所述的基于强化学习的事理图谱补全方法，其特征在于，所述基于所述实体嵌入向量和所述边嵌入向量计算所述中心节点的在所述事理图谱中每一步推理的状态向量的步骤包括：

5.根据权利要求4所述的基于强化学习的事理图谱补全方法，其特征在于，所述基于所述目标邻居节点与所述第一邻居节点之间的边的边嵌入向量以及所述第一邻居节点的实体嵌入向量计算所述起始节点的所述状态向量的步骤包括：

基于如下公式计算所述起始节点在第t步推理的状态向量：

其中，

6.根据权利要求1所述的基于强化学习的事理图谱补全方法，其特征在于，基于所述状态向量和预训练的推理模型在所述事理图谱中进行逐步推理,获得两个所述实体节点之间的目标事理关系的步骤包括：

7.根据权利要求1所述的基于强化学习的事理图谱补全方法，其特征在于，在所述基于所述事件实体和事件关系构建事理图谱的步骤之后，还包括：

8.一种基于强化学习的事理图谱补全装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于强化学习的事理图谱补全方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于强化学习的事理图谱补全方法的步骤。