CN114580388A

CN114580388A - 数据处理方法、对象预测方法、相关设备及存储介质

Info

Publication number: CN114580388A
Application number: CN202011392885.6A
Authority: CN
Inventors: 赵瑞辉; 王婧雯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-06-03

Abstract

本发明实施例公开了一种数据处理方法、对象预测方法、相关设备及存储介质，数据处理方法包括：获取多个对象的诊断数据；调用学习模型学习各个对象的诊断数据中的实体词之间的因果关系，得到初始因果图；调用第一图神经网络根据初始因果图和参考对象的诊断数据，对参考对象进行诊断预测，得到预测诊断结果词；参考对象为多个对象中的任一对象；根据参考对象的基准诊断结果词和预测诊断结果词之间的差异，对学习模型进行强化学习训练；调用训练后的学习模型学习各个对象的诊断数据中的实体词之间的因果关系，得到目标因果图。本发明实施例可有效节省人力成本和时间成本以提升因果图生成效率，还可提升生成的目标因果图的准确性和使用价值。

Description

数据处理方法、对象预测方法、相关设备及存储介质

技术领域

本发明涉及互联网技术领域，具体涉及计算机技术领域，尤其涉及一种数据处理方法、一种对象预测方法、一种数据处理装置、一种对象预测装置、一种计算机设备及一种计算机存储介质。

背景技术

因果图(causal graph)，又可称为因果贝叶斯信念网络(causal Bayesiannetwork)；其可理解成一种可用来对数据生成过程进行编码的概率图模型，可以用于对推断过程进行建模。作为一种推断工具，因果图可以用来从非实验数据中估计某些因素的影响；基于此作用，因果图被运用在各种诊断场景中，如医疗诊断场景、机器诊断场景、车辆诊断场景，等等。在这些诊断场景中，计算机设备可基于因果图所指示的因果关系，对目标对象(如目标用户)进行诊断预测以得到预测诊断结果，从而减轻相关诊断人员(如医生)的工作负担。

目前，因果图往往是由专家用户花费大量时间和精力手动构建的。这样的方式不仅会消耗大量的人力成本和时间成本，导致构建效率较低；还会由于外界人为因素(如专家用户的主观性、专家用户的知识领域有限等)，无法全面地标注出因果关系或者标注出错误的因果关系，从而影响因果图的准确性和使用价值。

发明内容

本发明实施例提供了一种数据处理方法、对象预测方法、相关设备及存储介质，可以有效节省人力成本和时间成本以提升因果图生成效率，还可提升生成的目标因果图的准确性和使用价值。

一方面，本发明实施例提供了一种数据处理方法，所述方法包括：

获取多个对象的对象数据，每个对象的对象数据包括以下实体词：一个或多个异常指示词，及与各异常指示词关联的一个或多个状态描述词；与任一异常指示词关联的状态描述词用于描述：对象存在所述任一异常指示词指示的异常时所处的异常状态；

调用学习模型学习各个对象的对象数据中的实体词之间的因果关系，得到初始因果图，所述初始因果图中包括多个节点；一个节点记录一个实体词，且任意两个相连接的节点所记录的实体词之间具有因果关系；

调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对所述参考对象进行异常预测，得到预测结果；所述参考对象为所述多个对象中的任一对象；

根据所述参考对象的异常指示词和所述预测结果之间的差异，对所述学习模型进行强化学习训练；

调用训练后的学习模型学习所述各个对象的对象数据中的实体词之间的因果关系，得到目标因果图，以使得第二图神经网络基于所述目标因果图进行异常预测，所述第二图神经网络为所述第一图神经网络，或者由所述第一图神经网络进行强化学习训练后的图神经网络。

另一方面，本发明实施例提供了一种对象预测方法，所述方法包括：

获取目标对象的目标对象数据，所述目标对象数据包括以下目标实体词：一个或多个用于描述所述目标对象所处的异常状态的状态描述词；

根据目标因果图所指示的因果关系，采用所述目标对象数据中的目标实体词构建数据图，所述数据图中包括多个节点；一个节点记录一个目标实体词，且任意两个相连接的节点所记录的目标实体词之间具有因果关系；所述目标因果图是调用训练后的学习模型生成的，所述学习模型根据参考对象的异常指示词和预测结果之间的差异进行强化学习训练；所述预测结果是由第一图神经网络基于所述学习模型生成的初始因果图对所述参考对象进行异常预测得到的；

调用第二图神经网络根据所述数据图对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词；所述第二图神经网络为所述第一图神经网络，或者由所述第一图神经网络进行强化学习训练后的图神经网络。

再一方面，本发明实施例提供了一种数据处理装置，所述装置包括：

获取单元，用于获取多个对象的对象数据，每个对象的对象数据包括以下实体词：一个或多个异常指示词，及与各异常指示词关联的一个或多个状态描述词；与任一异常指示词关联的状态描述词用于描述：对象存在所述任一异常指示词指示的异常时所处的异常状态；

处理单元，用于调用学习模型学习各个对象的对象数据中的实体词之间的因果关系，得到初始因果图，所述初始因果图中包括多个节点；一个节点记录一个实体词，且任意两个相连接的节点所记录的实体词之间具有因果关系；

所述处理单元，还用于调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对所述参考对象进行异常预测，得到预测结果；所述参考对象为所述多个对象中的任一对象；

训练单元，用于根据所述参考对象的异常指示词和所述预测结果之间的差异，对所述学习模型进行强化学习训练；

所述处理单元，还用于调用训练后的学习模型学习所述各个对象的对象数据中的实体词之间的因果关系，得到目标因果图，以使得第二图神经网络基于所述目标因果图进行异常预测，所述第二图神经网络为所述第一图神经网络，或者由所述第一图神经网络进行强化学习训练后的图神经网络。

在一种实施方式中，处理单元在用于调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对所述参考对象进行异常预测，得到预测结果时，可具体用于：

根据所述参考对象的对象数据，从所述初始因果图中提取出参考子图，所述参考子图由记录了所述参考对象的对象数据中的各实体词的节点构成；

调用第一图神经网络对所述参考子图进行图卷积处理，得到所述参考子图中的每个节点的目标特征向量；

调用所述第一图神经网络根据所述参考子图中的每个节点的目标特征向量，对所述参考对象进行异常预测，得到预测结果。

再一种实施方式中，处理单元在用于调用第一图神经网络对所述参考子图进行图卷积处理，得到所述参考子图中的每个节点的目标特征向量时，可具体用于：

调用第一图神经网络遍历所述参考子图中的各个节点，并根据当前遍历的目标节点所记录的实体词生成所述目标节点的初始特征向量；

从参考子图中确定与当前遍历的目标节点相连接的一个或多个邻居节点，并分别根据各邻居节点所记录的实体词生成所述各邻居节点的初始特征向量；

采用参数矩阵分别对所述各邻居节点的初始特征向量进行卷积激活处理，得到所述各邻居节点的卷积特征向量；并根据所述各邻居节点的卷积特征向量计算所述目标节点的参考特征向量；

拼接所述目标节点的初始特征向量和所述参考特征向量，并采用所述参数矩阵对拼接后的特征向量进行卷积处理，以得到所述目标节点的目标特征向量。

再一种实施方式中，处理单元在用于根据所述各邻居节点的卷积特征向量计算所述目标节点的参考特征向量时，可具体用于：

从所述各邻居节点的卷积特征向量中，选取最大的卷积特征向量作为所述目标节点的参考特征向量；或者，

对所述各邻居节点的卷积特征向量进行均值运算，得到所述目标节点的参考特征向量。

再一种实施方式中，训练单元在用于根据所述参考对象的异常指示词和所述预测结果之间的差异，对所述学习模型进行强化学习训练时，可以具体用于：

采用损失函数根据所述参考对象的异常指示词和所述预测结果进行损失值运算，得到预测损失值；

采用负面奖励函数根据所述预测损失值进行奖励值运算，得到模型奖励值；

按照减小所述模型奖励值的方向，更新所述学习模型的模型参数。

再一种实施方式中，训练单元在用于采用负面奖励函数根据所述预测损失值进行奖励值运算，得到模型奖励值时，可以具体用于：

采用打分函数对所述初始因果图进行打分处理，得到所述初始因果图的分数值，所述分数值和所述初始因果图的质量成负相关；

对所述初始因果图的分数值和所述预测损失值进行加权求和，得到模型奖励值。

再一种实施方式中，训练单元在用于对所述初始因果图的分数值和所述预测损失值进行加权求和，得到模型奖励值时，可以具体用于：

采用无环约束函数计算所述初始因果图的无环约束值，所述无环约束值与所述初始因果图所包括的闭环的数量成正相关；

对所述无环约束值、所述初始因果图的分数和所述预测损失值进行加权求和，得到模型奖励值。

再一种实施方式中，所述第二图神经网络为：由所述第一图神经网络进行强化学习训练后的图神经网络；相应的，训练单元还可用于：

根据所述参考对象的异常指示词和所述预测结果之间的差异，同步对所述第一图神经网络进行强化学习训练，得到所述第二图神经网络。

再一种实施方式中，所述多个对象的对象数据是通过对多个用户的电子病历数据进行实体抽取得到的；所述异常指示词为疾病名称词，所述状态描述词为疾病症状词；

第二图神经网络用于根据所述目标因果图和目标用户的目标电子病历数据对所述目标用户进行异常预测，输出所述目标用户的预测疾病名称；所述目标电子病历数据包括：关于所述目标用户的一个或多个疾病症状词。

再一方面，本发明实施例提供了一种对象预测装置，所述装置包括：

获取单元，用于获取目标对象的目标对象数据，所述目标对象数据包括以下目标实体词：一个或多个用于描述所述目标对象所处的异常状态的状态描述词；

处理单元，用于根据目标因果图所指示的因果关系，采用所述目标对象数据中的目标实体词构建数据图，所述数据图中包括多个节点；一个节点记录一个目标实体词，且任意两个相连接的节点所记录的目标实体词之间具有因果关系；所述目标因果图是调用训练后的学习模型生成的，所述学习模型根据参考对象的异常指示词和预测结果之间的差异进行强化学习训练；所述预测结果是由第一图神经网络基于所述学习模型生成的初始因果图对所述参考对象进行异常预测得到的；

预测单元，用于调用第二图神经网络根据所述数据图对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词；所述第二图神经网络为所述第一图神经网络，或者由所述第一图神经网络进行强化学习训练后的图神经网络。

在一种实施方式中，预测单元在用于调用第二图神经网络根据所述数据图对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词时，可具体用于：

调用第二图神经网络对所述数据图进行图卷积处理，得到所述数据图中的每个节点的目标特征向量；

调用所述第二图神经网络根据所述数据图中的每个节点的目标特征向量，对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词。

再一方面，本发明实施例提供了一种计算机设备，所述计算机设备包括输入接口和输出接口，所述计算机设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条第一指令，所述一条或多条第一指令适于由所述处理器加载并执行如下步骤：

或者，所述计算机存储介质存储有一条或多条第二指令，所述一条或多条第二指令适于由所述处理器加载并执行如下步骤：

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条第一指令，所述一条或多条第一指令适于由所述处理器加载并执行如下步骤：

再一方面，本发明实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的数据处理方法，或者执行上述的对象预测方法。

本发明实施例在获取到多个对象的对象数据后，可先调用学习模型学习各个对象的对象数据中的实体词之间的因果关系以得到初始因果图。其次，可调用第一图神经网络根据初始因果图和参考对象的对象数据，对参考对象进行异常预测。然后，可根据预测结果和参考对象的异常指示词之间的差异，反向地对学习模型进行强化学习训练；使得学习模型在强化学习训练过程中，可基于预测结果动态地学习并调整因果图的结构，完成端到端的学习与训练，从而使得训练后的学习模型可以较为准确且全面地学习到各个对象的对象数据中的实体词之间的因果关系，进而得到较为准确的目标因果图。并且，由于预测结果是实际调用第一图神经网络进行异常预测得到的，因此通过实际的预测结果来指导学习模型关于因果图的学习，可实现将因果图的学习和异常预测这两部分有效结合起来，使其相互促进，从而使得学习得到的目标因果图更能准确地指导后续的异常预测，可有效提升目标因果图的使用价值。另外，整个数据处理过程均可自动化执行，无需用户手动构建，还可有效节省人力成本和时间成本，从而提升因果图的生成效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种学习模型的结构示意图；

图1b是本发明实施例提供的另一种学习模型的结构示意图；

图2是本发明实施例提供的一种数据处理方法的流程示意图；

图3a是本发明实施例提供的一种初始邻接矩阵的示意图；

图3b是本发明实施例提供的一种初始因果图和目标因果图的对比示意图；

图4是本发明另一实施例提供的一种数据处理方法的流程示意图；

图5是本发明实施例提供的一种学习模型的强化学习训练的原理图；

图6是本发明实施例提供的一种对象预测方法的流程示意图；

图7是本发明实施例提供的一种关于目标对象的数据图的构建示意图；

图8是本发明实施例提供的一种数据处理装置的结构示意图；

图9是本发明实施例提供的一种对象预测装置的结构示意图；

图10是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

随着互联网技术的不断发展，AI(Artificial Intelligence，人工智能)技术也随之得到更好的发展。所谓的AI是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术；其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能。相应的，AI技术是一门综合学科，其主要包括计算机视觉技术(Computer Vision，CV)、语音处理技术、自然语言处理技术以及机器学习(MachineLearning，ML)/深度学习等几大方向。

其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机设备具有智能的根据途径；所谓的机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科；其专门研究计算机设备怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习/深度学习通常可包括人工神经网络、置信网络、强化学习(Reinforcement Learning，RL)、迁移学习、归纳学习、式教学习等多种技术。此处所提及的强化学习又可称为再例学习、评价学习或增强学习，其主要用于描述和解决智能体(agent)在与环境的交互过程中，通过学习策略以达到回报最大化或实现特定目标的问题。

基于AI技术中的机器学习和强化学习技术，本发明实施例提出了一种自动学习因果图的数据处理方案，以生成较为准确且具有较高使用价值的因果图。该数据处理方案可由计算机设备执行，该计算机设备可以是终端或者服务器。其中，终端可包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。计算机设备中可部署有一个因果图学习模型(后续简称学习模型)，以及一个图卷积神经网络(Graph Convolutional Network，GCN)。

其中，学习模型是指可学习输入数据之间的因果关系，并根据学习结果采用输入数据构建因果图的神经网络模型；参见图1a所示，学习模型可具体包括编码器(encoder)和解码器(decoder)。在一种实施方式中，可采用Transformer(一种基于注意力机制的机器翻译模型)中的encoder-decoder构建学习模型的encoder-decoder结构，此情况下的学习模型的模型结构可进一步参见图1b所示；其中，在编码器的一个网络块中，由一个多头注意力子层和一个前馈神经网络子层组成，整个编码器栈式搭建了N个块。类似于编码器，只是解码器的一个网络块中多了一个蒙面多头注意力子层；且无论是编码器还是解码器，均使用了残差连接和对层进行了规范化(Add&Norm)。可选的，还可采用其他的encoder-decoder(如Enc-Dec模型(一种机器翻译模型)中的encoder-decoder)构建学习模型的encoder-decoder结构，等等。图卷积神经网络(后续简称图神经网络)是卷积神经网络的拓展，其是指在非规则排列的拓扑图结构上进行卷积，从而完成特征提取、分类、预测等任务的网络模型。

具体的，该数据处理方案的大致原理如下：首先，可获取大量的对象数据，每条对象数据中可包括以下实体词：一个或多个异常指示词，及与各异常指示词关联的一个或多个状态描述词。其次，可调用学习模型采用大量的对象数据中的实体词建立初步的因果图，并且利用初步的因果图对图神经网络的异常预测过程进行指导以得到预测结果。然后，可将图神经网络的预测结果整合到强化学习的reward(奖励函数)中，以通过奖励值去指导前面因果图的学习以实现对学习模型进行强化学习训练；这样可实现将因果图的学习和异常预测这两个部分结合起来，使其互相促进，从而得到鲁棒性较好的训练后的学习模型。最后，可调用训练后的学习模型再次采用大量的对象数据中的实体词构建最终的因果图，使得最终的因果图可较为准确地指导后续的异常预测，使得最终的因果图具有较高的使用价值。由于整个数据处理过程均可自动化执行，无需用户手动构建，还可有效节省人力成本和时间成本，从而提升因果图的生成效率。

基于上述的描述，本发明实施例提出一种数据处理方法，该数据处理方法可以由上述所提及的计算机设备执行。请参见图2，该数据处理方法可包括以下步骤S201-S205：

S201，获取多个对象的对象数据。

其中，对象可以包括以下任一种：人体、动物等活体对象，车辆、无人机等移动平台，手机、仪器等机器设备，等等。每个对象的对象数据可包括以下实体词：一个或多个异常指示词，及与各异常指示词关联的一个或多个状态描述词；此处所提及的异常指示词是指：可用于指示对象所存在的异常的词。例如，当对象为人体、动物等活体对象时，异常指示词可以为疾病名称词，如“急性胃炎”“胃癌”等；当对象为车辆时，异常指示词可以为车辆发生的故障的故障名称词，如“发动机异常”“照明系统失明”等；当对象为手机时，异常指示词可以为手机发生的故障的故障名称词，如“宕机”“显示器故障”，等等。

与任一异常指示词关联的状态描述词可用于描述：对象存在任一异常指示词指示的异常时所处的异常状态；也就是说，状态描述词是指：可用于描述对象所处的异常状态的词。例如，当对象为人体、动物等活体对象时，状态描述词可以为疾病症状词，如与“急性胃炎”这一疾病名称词(即异常指示词)关联的“胃痛”、“腹胀”等词；当对象为车辆时，状态描述词可以为故障表现词，如与“发动机异常”这一故障名称词(即异常指示词)相关联的“漏油”“高温”等词；当对象为手机时，状态描述词可以为故障现象词，如与“显示器故障”这一故障名称词(即异常指示词)相关联的“蓝屏”“黑屏”等词。

在具体实施过程中，每个对象的对象数据均可以通过对每个对象的异常描述信息进行实体抽取(Entity Extraction)得到的；所谓异常描述信息是指可用于描述对象存在一个或多个异常，且对象存在各异常时所处的异常状态的信息。例如，当对象是人体(即用户)时，异常描述信息可以为用户的EMR(Enterprise Medical Record，电子病历)数据、EHR(Electronic Health Records，电子医疗记录)数据等；所谓的EMR是用户在诊断和治疗过程中产生的数字医疗信息文档，是“以医疗为中心”的数字化健康档案，所谓的HER是指是以电子形式存储的患者人群的健康以及诊断信息等信息的文本，其可包含一系列统计数据，比如用户的病史，用药史，过敏史免疫状况，实验室检查结果，年龄，体重等信息。当对象为车辆或手机时，异常描述信息可以为车辆或手机的维修记录信息或者诊断记录信息，等等。

所谓的实体抽取是指从异常描述信息中识别并且标注出有特定意义的实体词的过程，此处的实体抽取的方法可包括但不限于：基于规则和字典的方法，基于统计的传统机器学习的方法以及基于深度学习的方法，等等。以异常描述信息为用户的EMR数据(即电子病历数据)为例，设用户A的EMR数据为“病人腹痛持续5个月，经常腹泻且有时会有晕厥，初步诊断为胃癌”；由于该EMR数据中包括“腹痛”“腹泻”“晕厥”等疾病症状词以及“胃癌”等疾病名称词，因此可从EMR数据中提取出这些疾病症状词和疾病名称词，并将提取出的词作为实体词以构建用户A的对象数据。

S202，调用学习模型学习各个对象的对象数据中的实体词之间的因果关系，得到初始因果图。

其中，初始因果图中可包括多个节点；一个节点记录一个实体词，且任意两个相连接的节点所记录的实体词之间具有因果关系。此处所提及的因果关系是指一个实体词(即“因”)和另一个实体词(即“果”)之间的作用关系，其中后一个实体词可被认为是因前一个实体词的存在而导致的结果。例如，由于“感冒”通常会引起“发烧”，或者由于诊断时通常可因“发烧”确定用户“感冒”，因此可确定“感冒”和“发烧”这两个实体词之间具有因果关系；又如，由于“胃炎”通常会引起“腹泻”，或者诊断时通常可因“腹泻”确定用户“胃炎”，因此可确定“胃炎”和“腹泻”这两个实体词之间具有因果关系，等等。

在具体实施步骤S202的过程中，计算机设备可先将多个对象的对象数据中的所有实体词依序排列，并按照各个实体词的排列顺序对每个对象的对象数据进行向量化处理，得到各对象数据的向量表示；其中，任一向量表示是一个d维的向量，d等于多个对象的对象数据中的实体词的总数量。假设第i个对象的对象数据的向量表示x的第j维元素的元素值用符号

表示，第j维元素与依序排列的第j个实体词对应，那么

的取值可以由以下公式表示：

其中，if patient i is positive of disease or symptom j表示如果第i个对象关于第j个实体词(如疾病症状词或疾病名称词)呈阳性，则

的取值等于1；相应的，ifpatient i is positive of disease or symptom j表示如果第i个对象关于第j个实体词(如疾病症状词或疾病名称词)呈为阴性，则

的取值等于0。需要说明的是，此处所提及的“第i个对象关于第j个实体词呈阳性”是指：第i个对象的对象数据中包括第j个实体词；相应的，此处所提及的“第i个对象关于第j个实体词呈阴性”是指：第i个对象的对象数据中不包括第j个实体词。

在将每条对象数据向量化之后，便可得到一个向量集合R^N*d；其中，N表示对象数据的数量。然后，计算机设备可调用学习模型根据该向量集合学习因果图的初始邻接矩阵A；其中，初始邻接矩阵A是一种可用于指示初始因果图中的各节点之间的连接关系的矩阵。具体的，若该初始邻接矩阵A中的第a行第b列的元素为非零元素，则可表示用于记录第a行对应的实体词的节点和用于记录第b列对应的实体词的节点在因果图中是相连接的，即可表明第a行对应的实体词和第b列对应的实体词之间具有因果关系；若该初始邻接矩阵A中的第a行第b列的元素为零元素，则可表示用于第a行对应的实体词的节点和用于记录第b列对应的实体词的节点在因果图中是未连接的，即可表明第a行对应的实体词和第b列对应的实体词之间不具有因果关系。然后，计算机设备可根据初始邻接矩阵A构建初始因果图；需要说明的是，初始因果图和初始邻接矩阵A是等价的，在其他实施例中，也可在得到初始邻接矩阵A后，就直接执行步骤S203。

举例来说，设总共有5条对象数据，如表1所示：

表1

第1条对象数据	恶心、肠胃炎
		第2条对象数据	腹泻、干呕、肠梗阻
第3条对象数据	腹泻、肠胃炎
		第4条对象数据	腹泻、恶心、干呕、肠梗阻
第5条对象数据	腹泻、晕厥、恶心、血便、胃癌

基于上述表1可知，5条对象数据总共包括如下8个实体词，将其依序排列如下：“晕厥”“腹泻”“血便”“恶心”“干呕”“肠胃炎”“肠梗阻”“胃癌”。那么通过按照上述公式对每条对象数据进行向量化，便可得到如表2所示的向量集合R^5*8”：

表2

对象数据	向量表示
		第1条对象数据	[0，0，0，1，0，1，0，0]
第2条对象数据	[0，1，0，0，1，0，1，0]
		第3条对象数据	[0，1，0，0，0，1，0，0]
第4条对象数据	[0，1，0，1，1，0，1，0]
		第5条对象数据	[1，1，1，1，0，0，0，1]

假设计算机设备调用学习模型根据该向量集合R^5*8，学习到如图3a左侧所示的初始邻接矩阵；那么，计算机设备可根据该初始邻接矩阵得到图3a右侧所示的初始因果图。其中，该初始邻接矩阵是一个5行5列的矩阵；该初始邻接矩阵的每一行对应着一个实体词，每一列也对应着一个实体词。例如，该初始邻接矩阵的第1行-第5行依次对应如下实体词：“晕厥”、“腹泻”、“血便”、“恶心”、“干呕”、“肠胃炎”、“肠梗阻”、“胃癌”；同理，该初始邻接矩阵的第1列-第5列也可依次对应如下实体词：“晕厥”、“腹泻”、“血便”、“恶心”、“干呕”、“肠胃炎”、“肠梗阻”、“胃癌”。

由于图3a左侧所示的初始邻接矩阵中的第1行第2列的元素为非零元素，因此可确定用于记录第1行对应的实体词(即“晕厥”)的节点和用于记录第2列对应的实体词(即“腹泻”)的节点在图3a右侧所示的初始因果图中是相连接的，即可表明实体词“晕厥”和实体词“腹泻”之间具有因果关系。由于图3a所示的初始邻接矩阵中的第1行第3列的元素为零元素，则可确定用于记录第1行对应的实体词(即“晕厥”)的节点和用于记录第3列对应的实体词(即“血便”)的节点在图3a左侧所示的初始因果图中是未连接的，即可表明实体词“晕厥”和实体词“血便”之间不具有因果关系，以此类推。

S203，调用第一图神经网络根据初始因果图和参考对象的对象数据，对参考对象进行异常预测，得到预测结果。

在具体实现中，为了测试初始因果图的准确性，可从多个对象中选取任一对象作为参考对象，并调用第一图神经网络根据初始因果图和参考对象的对象数据，对参考对象进行异常预测以得到预测结果，从而可根据预测结果和参考对象的异常指示词之间的差异来判断初始因果图的准确性。若差异较大，则可表明初始因果图的准确性较低；若差异较小，则可表明初始因果图的准确性较高。其中，若预测出参考对象不存在异常时，则预测结果可以为空或包括用于指示参考对象不存在异常的指示信息；若预测出参考对象存在异常时，则预测结果可包括预测异常指示词。

由于参考对象为多个对象中的任一对象，因此参考对象的对象数据的实体词应该是初始因果图所记录的所有实体词中的一个子集；那么，在调用第一图神经网络根据初始因果图和参考对象的对象数据，对参考对象进行异常预测时，可先根据参考对象的对象数据中的实体词，从之间构建的初始因果图中提取出一个仅包含用于记录参考对象对应的实体词的节点的参考子图。然后，可调用第一图神经网络根据参考子图对参考对象进行异常预测，得到预测结果。

需要说明的是，第一图神经网络可以是已采用其他样本进行模型训练后，具有较好的鲁棒性的图神经网络，也可以是未经过模型训练的图神经网络，对此不作限定。并且，由于图神经网络的输入是邻接矩阵，因此在调用第一图神经网络根据参考子图对参考对象进行异常预测时，实质上是将参考子图的邻接矩阵M输入至第一图神经网络中，以使得第一图神经网络根据该邻接矩阵M对对参考对象进行异常预测的。

S204，根据参考对象的异常指示词和预测结果之间的差异，对学习模型进行强化学习训练。

在具体实施过程中，计算机设备可采用损失函数根据参考对象的异常指示词和预测结果进行损失值运算，得到预测损失值；此处所提及的损失函数可以包括但不限于：最小平方误差函数，交叉熵损失函数，等等。其次，可采用负面奖励函数根据预测损失值进行奖励值运算，得到模型奖励值；然后，可按照减小模型奖励值的方向，更新学习模型的模型参数。可选的，计算机设备还可采用强化学习的reward函数(即负面奖励函数)作为桥梁，将学习模型的训练和第一图神经网络的训练连接起来，完成端到端的训练过程。也就是说，计算机设备还可根据参考对象的异常指示词和预测结果之间的差异，同步对第一图神经网络进行强化学习训练，得到第二图神经网络。这样通过将预测结果整合到强化学习的反馈(如负面奖励函数)中，可以实现对两个模型的融合以及整体训练，使这两个模型可相互促进提升各自的能力。

需要说明的是，计算机设备可执行一次或迭代执行多次上述步骤S201-S204，以得到训练后的学习模型。具体的，若第一次执行完步骤S204后，所得到的训练后的学习模型A达到收敛，则可直接将该学习模型A作为训练后的学习模型。若第一次执行完步骤S204后，所得到的训练后的学习模型A未达到收敛，则可继续调用该学习模型A学习各个对象的对象数据中的实体词之间的因果关系，得到因果图A；并采用因果图A指导第一图神经网络或者对第一图神经网络进行一次强化学习训练后的图神经网络，根据参考对象的对象数据，对参考对象进行异常预测，得到预测结果A；根据参考对象的异常指示词和预测结果A之间的差异，对学习模型A进行强化学习训练，得到学习模型B。若学习模型B达到收敛，则可直接将该学习模型B作为训练后的学习模型；若学习模型B未达到收敛，则可继续调用该学习模型B学习各个对象的对象数据中的实体词之间的因果关系，得到因果图B；并采用因果图B指导第一图神经网络或者对第一图神经网络进行二次强化学习训练后的图神经网络，根据参考对象的对象数据，对参考对象进行异常预测，得到预测结果B；根据参考对象的异常指示词和预测结果B之间的差异，对学习模型B进行强化学习训练，得到学习模型C，以此类推，直至强化学习训练后的学习模型达到收敛。其中，学习模型达到收敛是指学习模型不再发生变化或变化幅度小于阈值，或者是指根据预测结果计算的预测损失值或模型奖励值不再减小。

S205，调用训练后的学习模型学习各个对象的对象数据中的实体词之间的因果关系，得到目标因果图。

需要说明的是，上述所提及的第二图神经网络可以为第一图神经网络，或者也可以为由第一图神经网络进行强化学习训练后的图神经网络，对此不作限制。并且，通过步骤S205得到目标因果图的具体实施方式与步骤S202的具体实施方式类似，在此不再赘述。本发明实施例通过调用学习模型生成初始因果图，并采用基于初始因果图所预测得到的预测结果反向对学习模型进行强化学习，使其可以动态地学习并调整因果图的结构，完成端到端的学习与训练，从而使得训练后的学习模型可以较为准确且全面地学习到各个对象的对象数据中的实体词之间的因果关系，进而得到较为准确的目标因果图。例如，仍以图3a所示的初始因果图为例；该初始因果图指示了“晕厥”和“腹泻”之间具有因果关系，而“晕厥”和“血便”之间则不具有因果关系。但经实践表明：“晕厥”和“腹泻”之间通常是不具有因果关系的，而“晕厥”和“血便”之间通常是具有因果关系的；也就是说，初始因果图所指示的因果关系是不准确的。此情况下，通过步骤S203-S205便可实现对因果图的结构进行调整，从而得到较为准确的目标因果图；参见图3b所示，目标因果图指示了“晕厥”和“腹泻”之间不具有因果关系，而“晕厥”和“血便”之间具有因果关系。并且，该目标因果图不仅包括疾病症状词和疾病名称词之间的因果关系，还可包括疾病症状词和疾病症状词之间的因果关系，具有丰富的因果关系信息。

在实际应用中，通过上述步骤S201-S205得到目标因果图，可使得第二图神经网络基于该目标因果图进行异常预测：

例如，若多个对象的对象数据是通过对多个用户的电子病历数据进行实体抽取得到的，则还可获取目标用户的目标电子病历数据，该目标电子病历数据包括：关于目标用户的一个或多个疾病症状词；那么，第二图神经网络可用于根据目标因果图和目标用户的目标电子病历数据对目标用户进行异常预测，从而输出目标用户的预测疾病名称。可选的，目标电子病历数据中还可包括：关于目标用户的一个或多个疾病名称词，这些疾病名称词用于指示目标用户历史患有的疾病；那么在此情况下，目标因果图指导第二图神经网络进行异常预测时，第二图神经网络还可综合考虑目标用户历史患有的疾病来进行异常预测，从而输出预测疾病名称。

又如，若多个对象的对象数据是通过对多个车辆的维修记录信息进行实体抽取得到的，则还可获取目标车辆的目标诊断信息，该目标诊断信息包括：关于目标车辆的一个或多个故障表现词；那么，第二图神经网络可用于根据目标因果图和目标车辆的目标诊断信息对目标车辆进行异常预测，从而输出目标车辆的预测故障名称。

请参见图4，是本发明实施例提供的另一种数据处理方法的流程示意图。该数据处理方法可以由上述所提及的计算机设备执行。请参见图4，该数据处理方法可包括以下步骤S401-S407：

S401，获取多个对象的对象数据，每个对象的对象数据包括以下实体词：一个或多个异常指示词，及与各异常指示词关联的一个或多个状态描述词；与任一异常指示词关联的状态描述词用于描述：对象存在任一异常指示词指示的异常时所处的异常状态。

S402，调用学习模型学习各个对象的对象数据中的实体词之间的因果关系，得到初始因果图；该初始因果图中包括多个节点；一个节点记录一个实体词，且任意两个相连接的节点所记录的实体词之间具有因果关系。

S403，根据参考对象的对象数据，从初始因果图中提取出参考子图，该参考子图由记录了参考对象的对象数据中的各实体词的节点构成。

需要说明的是，步骤S401-S403的具体实施方式可参见上述发明实施例中的步骤S201-S203的相关描述，在此不再赘述。

S404，调用第一图神经网络对参考子图进行图卷积处理，得到参考子图中的每个节点的目标特征向量。

在一种实施方式中，第一图神经网络中的图卷积处理可采用下述式1.1-1.2实现：

在式1.1-1.2中，N(v)表示参考子图中第v个节点的邻居节点集，该邻居节点集中可包括第v个节点在参考子图中的所有邻居节点，所谓的邻居节点是指参考子图中与第v个节点相连接的节点。

表示邻居节点集中的第u个节点的当前特征向量，

表示第v个节点的当前特征向量；W表示用于进行卷积处理的参数矩阵，其可根据经验值或者业务需求设置。ReLU表示一种激活函数，MAX表示取最大值处理；

表示对第v个节点进行第k次卷积处理时，第v个节点的参考特征向量，

表示对第v个节点的当前特征向量和第v个节点的参考特征向量进行拼接处理，

表示对第v个节点进行第k次卷积处理后，第v个节点的特征向量。

再一种实施方式中，第一图卷积神经网络中的图卷积处理还可采用采用下述式1.3-1.4实现：

在式1.3-1.4中，E表示均值运算；其余的各个参数的具体含义可参见上述式1.1-1.2的相关描述，在此不再赘述。需要说明的是，本发明实施例只是示例性地列举了两种图卷积处理的实现方式，并非穷举。

基于上述描述，步骤S404的具体实施方式可以是：首先，调用第一图神经网络遍历参考子图中的各个节点，并根据当前遍历的目标节点所记录的实体词生成目标节点的初始特征向量。其次，可从参考子图中确定与当前遍历的目标节点相连接的一个或多个邻居节点，并分别根据各邻居节点所记录的实体词生成各邻居节点的初始特征向量。接着，可采用参数矩阵分别对各邻居节点的初始特征向量进行卷积激活处理，得到各邻居节点的卷积特征向量；此处的卷积激活处理包括：先对初始特征向量进行卷积处理，再对卷积处理结果进行激活处理。

然后，可根据各邻居节点的卷积特征向量计算目标节点的参考特征向量；具体的，可从各邻居节点的卷积特征向量中，选取最大的卷积特征向量作为目标节点的参考特征向量；或者，对各邻居节点的卷积特征向量进行均值运算，得到目标节点的参考特征向量。最后，可拼接目标节点的初始特征向量和参考特征向量，并采用参数矩阵对拼接后的特征向量进行卷积处理，以得到目标节点的目标特征向量。具体的，可直接将卷积处理后的特征向量作为目标节点的目标特征向量；或者，可基于上述式1.1-1.2或者式1.3-1.4，对卷积处理后的特征向量进行多次迭代卷积处理，得到目标节点的目标特征向量。

S405，调用第一图神经网络根据参考子图中的每个节点的目标特征向量，对参考对象进行异常预测，得到预测结果。

S406，根据参考对象的异常指示词和预测结果之间的差异，对学习模型进行强化学习训练。在具体实施过程中，步骤S406可包括以下步骤s11-s13：

s11，采用损失函数根据参考对象的异常指示词和预测结果进行损失值运算，得到预测损失值。

s12，采用负面奖励函数根据预测损失值进行奖励值运算，得到模型奖励值。

在一种实施方式中，可直接将预测损失值(采用prediction(EMR)表示)作为模型奖励值；在此实施方式下，负面奖励函数可参见下述式1.5所示：

reward＝prediction(EMR) 式1.5

再一种实施方式中，可先采用打分函数对初始因果图进行打分处理，得到初始因果图的分数值，分数值和初始因果图的质量成负相关。其中，打分函数可包括以下任一种：BIC(Bayesian Information Criterion，贝叶斯信息准则)函数，MDL(MinimumDescription Length，最小描述长度准则)函数、BGe(Bayesian Gaussian equivalent，贝叶斯高斯等价)函数，等等。为便于阐述，后续均以打分函数为BIC函数为例进行说明；其中，BIC函数可以由以下公式1.6进行定义：

其中，

表示第i个对象的对象数据的向量表示x的第k维元素的元素值，

表示第i个对象的对象数据的向量表示x的第k维元素的估计值，该估计值是通过假设每个对象的对象数据均服从一个分布，然后用各对象数据的向量表示中真实的元素值去学习这个分布的参数而得到的；N表示所有对象的数量，d表示多个对象的对象数据中的所有实体词的数量(即初始因果图的节点的数量)，num_(edges)表示初始因果图中的边的数量。

然后，可对初始因果图的分数值和预测损失值进行加权求和，得到模型奖励值。也就是说，在此具体实现下，计算机设备可至少综合考虑预测损失值以及初始因果图的分数，来对学习模型进行强化学习训练，如图5所示。

在一种具体实现中，可直接对初始因果图的分数值(采用BIC(C)表示)和预测损失值进行加权求和，得到模型奖励值；在此具体实现下，负面奖励函数可参见下述式1.7所示：

reward＝[BIC(G)+prediction(EMR)] 式1.7

再一种具体实现中，学习模型学习到的因果图应该是一个无环图，因此还可采用无环约束函数计算初始因果图的无环约束值，无环约束值与初始因果图所包括的闭环的数量成正相关。其中，无环约束函数可以由以下公式1.8进行定义；h(A)表示无环约束值，当且仅当h(A)＝0时，表明初始因果图无环；e^A表示初始因果图的初始邻接矩阵A的矩阵指数，trace(e^A)表示对e^A进行迹运算，所谓的迹是指待运算的矩阵的主对角线(从左上方至右下方的对角线)上各个元素的总和

h(A)＝trace(e^A)-d 式1.8

然后，对无环约束值、初始因果图的分数和预测损失值进行加权求和，得到模型奖励值；在此具体实现下，负面奖励函数可参见下述式1.9所示：

reward＝[BIC(G)+h(A)+prediction(EMR)] 式1.9

s13，按照减小模型奖励值的方向，更新学习模型的模型参数。

在具体实施过程中，在按照减小模型奖励值的方向，更新学习模型的模型参数后；若更新后的学习模型达到收敛，则可结束强化学习训练以得到训练后的学习模型。若更新后的学习模型未达到收敛，则可将更新后的模型参数作为学习模型的当前模型参数并再次执行步骤S401-S406以更新学习模型的当前模型参数(即前一次模型训练所得到的更新后的模型参数)；以此类推，重复迭代上述步骤S401-S406以使得更新后的学习模型达到收敛，从而得到训练后的学习模型。

举例来说，学习模型的初始模型参数为A1，第一次执行上述步骤S401-S406可以将学习模型的初始模型参数A1更新为A2；然后，可将A2作为学习模型的当前模型参数，并对学习模型进行第二次强化学习训练，即再次执行上述步骤S401-S406将学习模型的当前模型参数A2更新为A3；然后，可将A3作为学习模型的当前模型参数，并对学习模型进行第三次强化学习训练，即再次执行上述步骤S401-S406将学习模型的当前模型参数A3更新为A4…以此类推，不断对学习模型进行强化学习训练，使得学习模型达到收敛，将收敛的学习模型作为训练后的学习模型。

可选的，计算机设备还可根据参考对象的异常指示词和预测结果之间的差异，同步对第一图神经网络进行强化学习训练，得到第二图神经网络。针对第一图神经网络的强化学习训练原理与针对学习模型的强化学习训练原理类似，即可通过步骤s11-s12得到模型奖励值，并按照减小模型奖励值的方向，更新第一图神经网络的模型参数。

S407，调用训练后的学习模型学习各个对象的对象数据中的实体词之间的因果关系，得到目标因果图，以使得第二图神经网络基于目标因果图进行异常预测，第二图神经网络为第一图神经网络，或者由第一图神经网络进行强化学习训练后的图神经网络。

本发明实施例可从多个对象的对象数据中自动地学习生成目标因果图，无需人工预定义相关术语并手动构建因果图；可有效节省人力成本和时间成本，从而提升因果图的生成效率。进一步的，通过引入强化学习作为中间的桥梁，并将预测结果整合到强化学习的反馈(如负面奖励函数)中，可以实现对两个模型的融合以及整体训练，使得因果图的学习与异常预测可以结合起来；这样既可对图神经网络进行异常预测的准确性和可解释性做出了改进，也可以在学习过程中不断地对因果图进行修整。并且，通过不断地优化学习模型来自动完善学习模型所学习到的因果图，无需对因果图进行剪枝筛选，可进一步提升因果图的生成效率。

基于上述的描述，本发明实施例针对采用上述图2或图4所示的数据处理方法所生成的目标因果图，还提出了如图6所示的对象预测方法；该对象预测方法可由上述所提及的计算机设备执行。如图6所示，该对象预测方法可包括以下步骤S601-S603：

S601，获取目标对象的目标对象数据。

其中，目标对象可以包括以下任一种：人体、动物等活体对象，车辆、无人机等移动平台，手机、仪器等机器设备，等等。目标对象的目标对象数据可包括以下目标实体词：一个或多个用于描述目标对象所处的异常状态的状态描述词。具体的，当目标对象为人体、动物等活体对象时，状态描述词可以为疾病症状词；当目标对象为车辆时，状态描述词可以为故障表现词；当目标对象为手机时，状态描述词可以为故障现象词，等等。可选的，目标对象的目标对象数据中的目标实体词还可包括：关于目标用户的一个或多个异常指示词，这些异常指示词用于指示目标用户历史存在的异常。

S602，根据目标因果图所指示的因果关系，采用目标对象数据中的目标实体词构建数据图。

其中，目标因果图是调用训练后的学习模型生成的，学习模型根据参考对象的异常指示词和预测结果之间的差异进行强化学习训练；预测结果是由第一图神经网络基于学习模型生成的初始因果图对参考对象进行异常预测得到的。需要说明的是，目标因果图的具体生成过程可参见上述图2或图4所示的实施例的相关描述，在此不再赘述。

在具体实施过程中，可先采用目标对象数据中的目标实体词构建一个候选图，候选图中包括多个节点；一个节点记录一个目标实体词。其次，可根据目标因果图所指示的因果关系从目标对象数据中选取一对或多对因果词对，任一因果词对中的两个目标实体词之间具有目标因果图所指示的任一因果关系。然后，可遍历一对或多对因果词对；针对当前遍历的目标因果词对，可在候选图中将用于记录该目标因果词对中的两个目标实体词连接起来。当所有的因果词对均被遍历，则可得到数据图；可见，数据图中包括多个节点；一个节点记录一个目标实体词，且任意两个相连接的节点所记录的目标实体词之间具有因果关系。

举例来说：设目标对象的异常描述信息为目标用户的目标电子病历数据，那么目标对象数据中包括以下目标实体词：“晕厥”“腹痛”“胃肠炎”“胃癌”“恶心”“血便”……；且这多个目标实体词中至少包括如下因果词对：(“晕厥”，“血便”)、(“晕厥”，“腹痛”)、(“晕厥”，“恶心”)、(“腹痛”，“恶心”)(“腹痛”，“干呕”)、(“血便”，“恶心”)……。那么，计算机设备可在候选图中，分别各个因果词对所对应的节点，从而得到数据图，如图7所示。

S603，调用第二图神经网络根据数据图对目标对象进行异常预测，得到关于目标对象的预测异常指示词。

其中，第二图神经网络为第一图神经网络，或者由第一图神经网络进行强化学习训练后的图神经网络，对此不作限制。在具体实施过程中，计算机设备可调用第二图神经网络对数据图进行图卷积处理，得到数据图中的每个节点的目标特征向量；然后，可调用第二图神经网络根据数据图中的每个节点的目标特征向量，对目标对象进行异常预测，得到关于目标对象的预测异常指示词。

其中，计算机设备可调用第二图神经网络对数据图进行图卷积处理，得到数据图中的每个节点的目标特征向量的具体实施方式可以是：首先，可调用第二图神经网络遍历数据图中的各个节点，并根据当前遍历的目标节点所记录的目标实体词生成目标节点的初始特征向量。其次，可从数据图中确定与当前遍历的目标节点相连接的一个或多个邻居节点，并分别根据各邻居节点所记录的实体词生成各邻居节点的初始特征向量。然后，可采用参数矩阵分别对各邻居节点的初始特征向量进行卷积激活处理，得到各邻居节点的卷积特征向量；并根据各邻居节点的卷积特征向量计算目标节点的参考特征向量。最后，可拼接目标节点的初始特征向量和参考特征向量，并采用参数矩阵对拼接后的特征向量进行卷积处理，以得到目标节点的目标特征向量。

本发明实施例中的目标因果图是采用上述图2或图4所示的数据处理方法生成的，因此目标因果图具有较高的准确性和使用价值。那么在调用第二图卷积神经网络基于目标因果图中的信息进行异常预测时，可利用第二图神经网络充分发掘目标对象数据中的信息，以产生最终的预测结果；这样可以融合来自目标因果图中的知识，提高预测结果的可解释性以及准确性。

基于上述数据处理方法实施例的描述，本发明实施例还公开了一种数据处理装置，所述数据处理装置可以是运行于上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该数据处理装置可以执行图2或图4所示的方法。请参见图8，所述数据处理装置可以运行如下单元：

获取单元801，用于获取多个对象的对象数据，每个对象的对象数据包括以下实体词：一个或多个异常指示词，及与各异常指示词关联的一个或多个状态描述词；与任一异常指示词关联的状态描述词用于描述：对象存在所述任一异常指示词指示的异常时所处的异常状态；

处理单元802，用于调用学习模型学习各个对象的对象数据中的实体词之间的因果关系，得到初始因果图，所述初始因果图中包括多个节点；一个节点记录一个实体词，且任意两个相连接的节点所记录的实体词之间具有因果关系；

所述处理单元802，还用于调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对所述参考对象进行异常预测，得到预测结果；所述参考对象为所述多个对象中的任一对象；

训练单元803，用于根据所述参考对象的异常指示词和所述预测结果之间的差异，对所述学习模型进行强化学习训练；

所述处理单元802，还用于调用训练后的学习模型学习所述各个对象的对象数据中的实体词之间的因果关系，得到目标因果图，以使得第二图神经网络基于所述目标因果图进行异常预测，所述第二图神经网络为所述第一图神经网络，或者由所述第一图神经网络进行强化学习训练后的图神经网络。

在一种实施方式中，处理单元802在用于调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对所述参考对象进行异常预测，得到预测结果时，可具体用于：

再一种实施方式中，处理单元802在用于调用第一图神经网络对所述参考子图进行图卷积处理，得到所述参考子图中的每个节点的目标特征向量时，可具体用于：

再一种实施方式中，处理单元802在用于根据所述各邻居节点的卷积特征向量计算所述目标节点的参考特征向量时，可具体用于：

再一种实施方式中，训练单元803在用于根据所述参考对象的异常指示词和所述预测结果之间的差异，对所述学习模型进行强化学习训练时，可以具体用于：

再一种实施方式中，训练单元803在用于采用负面奖励函数根据所述预测损失值进行奖励值运算，得到模型奖励值时，可以具体用于：

再一种实施方式中，训练单元803在用于对所述初始因果图的分数值和所述预测损失值进行加权求和，得到模型奖励值时，可以具体用于：

再一种实施方式中，所述第二图神经网络为：由所述第一图神经网络进行强化学习训练后的图神经网络；相应的，训练单元803还可用于：

根据本申请的一个实施例，图2或图4所示的方法所涉及的各个步骤均可以是由图8所示的数据处理装置中的各个单元来执行的。例如，图2中所示的步骤S201可由图8中所示的获取单元801来执行，步骤S202-S203以及步骤S205均可由图8中所示的处理单元802来执行，步骤S204可由图8中所示的训练单元803来执行。又如，图4中所示的步骤S401可由图8中所示的获取单元801来执行，步骤S402-S405以及步骤S407均可由图8中所示的处理单元802来执行，步骤S406可由图8中所示的训练单元803来执行，等等。

根据本申请的另一个实施例，图8所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的数据处理装置设备，以及来实现本发明实施例的数据处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述对象预测方法实施例的描述，本发明实施例还公开了一种对象预测装置，所述对象预测装置可以是运行于上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该对象预测装置可以执行图6所示的方法。请参见图9，所述对象预测装置可以运行如下单元：

获取单元901，用于获取目标对象的目标对象数据，所述目标对象数据包括以下目标实体词：一个或多个用于描述所述目标对象所处的异常状态的状态描述词；

处理单元902，用于根据目标因果图所指示的因果关系，采用所述目标对象数据中的目标实体词构建数据图，所述数据图中包括多个节点；一个节点记录一个目标实体词，且任意两个相连接的节点所记录的目标实体词之间具有因果关系；所述目标因果图是调用训练后的学习模型生成的，所述学习模型根据参考对象的异常指示词和预测结果之间的差异进行强化学习训练；所述预测结果是由第一图神经网络基于所述学习模型生成的初始因果图对所述参考对象进行异常预测得到的；

预测单元903，用于调用第二图神经网络根据所述数据图对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词；所述第二图神经网络为所述第一图神经网络，或者由所述第一图神经网络进行强化学习训练后的图神经网络。

在一种实施方式中，预测单元903在用于调用第二图神经网络根据所述数据图对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词时，可具体用于：

根据本申请的一个实施例，图6所示的方法所涉及的各个步骤均可以是由图9所示的对象预测装置中的各个单元来执行的。例如，图6中所示的步骤S601-S603均可由图9中所示的获取单元901、处理单元902以及预测单元903来执行。

根据本申请的另一个实施例，图9所示的对象预测装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于对象预测装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图9中所示的对象预测装置设备，以及来实现本发明实施例的对象预测方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本发明实施例中的目标因果图是采用上述图2或图4所示的对象预测方法生成的，因此目标因果图具有较高的准确性和使用价值。那么在调用第二图卷积神经网络基于目标因果图中的信息进行异常预测时，可利用第二图神经网络充分发掘目标对象数据中的信息，以产生最终的预测结果；这样可以融合来自目标因果图中的知识，提高预测结果的可解释性以及准确性。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种计算机设备。请参见图10，该计算机设备可至少包括处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004。其中，计算机设备内的处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004可通过总线或其他方式连接。计算机存储介质1004可以存储在计算机设备的存储器中，所述计算机存储介质1004用于存储计算机程序，所述计算机程序包括程序指令，所述处理器1001用于执行所述计算机存储介质1004存储的程序指令。处理器1001(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本发明实施例所述的处理器1001可以用于进行一系列的数据处理处理，具体包括：

获取多个对象的对象数据，每个对象的对象数据包括以下实体词：一个或多个异常指示词，及与各异常指示词关联的一个或多个状态描述词；与任一异常指示词关联的状态描述词用于描述：对象存在所述任一异常指示词指示的异常时所处的异常状态；调用学习模型学习各个对象的对象数据中的实体词之间的因果关系，得到初始因果图，所述初始因果图中包括多个节点；一个节点记录一个实体词，且任意两个相连接的节点所记录的实体词之间具有因果关系；调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对所述参考对象进行异常预测，得到预测结果；所述参考对象为所述多个对象中的任一对象；根据所述参考对象的异常指示词和所述预测结果之间的差异，对所述学习模型进行强化学习训练；调用训练后的学习模型学习所述各个对象的对象数据中的实体词之间的因果关系，得到目标因果图，以使得第二图神经网络基于所述目标因果图进行异常预测，所述第二图神经网络为所述第一图神经网络，或者由所述第一图神经网络进行强化学习训练后的图神经网络，等等。

再一个实施例中，本发明实施例所述的处理器1001可以用于进行一系列的对象预测处理，具体包括：

获取目标对象的目标对象数据，所述目标对象数据包括以下目标实体词：一个或多个用于描述所述目标对象所处的异常状态的状态描述词；根据目标因果图所指示的因果关系，采用所述目标对象数据中的目标实体词构建数据图，所述数据图中包括多个节点；一个节点记录一个目标实体词，且任意两个相连接的节点所记录的目标实体词之间具有因果关系；所述目标因果图是调用训练后的学习模型生成的，所述学习模型根据参考对象的异常指示词和预测结果之间的差异进行强化学习训练；所述预测结果是由第一图神经网络基于所述学习模型生成的初始因果图对所述参考对象进行异常预测得到的；调用第二图神经网络根据所述数据图对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词；所述第二图神经网络为所述第一图神经网络，或者由所述第一图神经网络进行强化学习训练后的图神经网络，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，所述存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器1001加载并执行计算机存储介质中存放的一条或多条第一指令，以实现上述图2或图4有关数据处理方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条第一指令由处理器1001加载并执行如下步骤：

在一种实施方式中，在调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对所述参考对象进行异常预测，得到预测结果时，所述一条或多条第一指令可以由处理器1001加载并具体执行：

再一种实施方式中，在调用第一图神经网络对所述参考子图进行图卷积处理，得到所述参考子图中的每个节点的目标特征向量时，所述一条或多条第一指令可以由处理器1001加载并具体执行：

再一种实施方式中，在根据所述各邻居节点的卷积特征向量计算所述目标节点的参考特征向量时，所述一条或多条第一指令可以由处理器1001加载并具体执行：

再一种实施方式中，在根据所述参考对象的异常指示词和所述预测结果之间的差异，对所述学习模型进行强化学习训练时，所述一条或多条第一指令可以由处理器1001加载并具体执行：

再一种实施方式中，在采用负面奖励函数根据所述预测损失值进行奖励值运算，得到模型奖励值时，所述一条或多条第一指令可以由处理器1001加载并具体执行：

再一种实施方式中，在对所述初始因果图的分数值和所述预测损失值进行加权求和，得到模型奖励值时，所述一条或多条第一指令可以由处理器1001加载并具体执行：

再一种实施方式中，所述第二图神经网络为：由所述第一图神经网络进行强化学习训练后的图神经网络；相应的，所述一条或多条第一指令还可以由处理器1001加载并具体执行：

再一个实施例中，可由处理器1001加载并执行计算机存储介质中存放的一条或多条第二指令，以实现上述图6有关对象预测方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条第二指令由处理器1001加载并执行如下步骤：

在一种实施方式中，在调用第二图神经网络根据所述数据图对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词时，所述一条或多条第一指令可以由处理器1001加载并具体执行：

本发明实施例在获取到多个对象的对象数据后，可先调用学习模型学习各个对象的对象数据中的实体词之间的因果关系以得到初始因果图。其次，可调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对参考对象进行异常预测。然后，可根据预测结果和参考对象的异常指示词之间的差异，反向地对学习模型进行强化学习训练；使得学习模型在强化学习训练过程中，可基于预测结果动态地学习并调整因果图的结构，完成端到端的学习与训练，从而使得训练后的学习模型可以较为准确且全面地学习到各个对象的对象数据中的实体词之间的因果关系，进而得到较为准确的目标因果图。并且，由于预测结果是实际调用第一图神经网络进行异常预测得到的，因此通过实际的预测结果来指导学习模型关于因果图的学习，可实现将因果图的学习和异常预测这两部分有效结合起来，使其相互促进，从而使得学习得到的目标因果图更能准确地指导后续的异常预测，可有效提升目标因果图的使用价值。另外，整个数据处理过程均可自动化执行，无需用户手动构建，还可有效节省人力成本和时间成本，从而提升因果图的生成效率。

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图4所示的数据处理方法实施例方面的各种可选方式中提供的方法，或者执行图6所示的对象预测方法实施例方面的各种可选方式中提供的方法。例如，处理器可执行该计算机指令，执行如下方法步骤：

又如，处理器可执行该计算机指令，执行如下方法步骤：

并且，应理解的是，以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述调用第一图神经网络根据所述初始因果图和参考对象的对象数据，对所述参考对象进行异常预测，得到预测结果，包括：

3.如权利要求2所述的方法，其特征在于，所述调用第一图神经网络对所述参考子图进行图卷积处理，得到所述参考子图中的每个节点的目标特征向量，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述各邻居节点的卷积特征向量计算所述目标节点的参考特征向量，包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述参考对象的异常指示词和所述预测结果之间的差异，对所述学习模型进行强化学习训练，包括：

6.如权利要求5所述的方法，其特征在于，所述采用负面奖励函数根据所述预测损失值进行奖励值运算，得到模型奖励值，包括：

7.如权利要求6所述的方法，其特征在于，所述对所述初始因果图的分数值和所述预测损失值进行加权求和，得到模型奖励值，包括：

8.如权利要求1所述的方法，其特征在于，所述第二图神经网络为：由所述第一图神经网络进行强化学习训练后的图神经网络；所述方法还包括：

9.如权利要求1所述的方法，其特征在于，所述多个对象的对象数据是通过对多个用户的电子病历数据进行实体抽取得到的；所述异常指示词为疾病名称词，所述状态描述词为疾病症状词；

10.一种对象预测方法，其特征在于，包括：

11.如权利要求10所述的方法，其特征在于，所述调用第二图神经网络根据所述数据图对所述目标对象进行异常预测，得到关于所述目标对象的预测异常指示词，包括：

12.一种数据处理装置，其特征在于，包括：

13.一种对象预测装置，其特征在于，包括：

14.一种计算机设备，包括输入接口和输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条第一指令，所述一条或多条第一指令适于由所述处理器加载并执行如权利要求1-9任一项所述的数据处理方法；或者，所述计算机存储介质存储有一条或多条第二指令，所述一条或多条第二指令适于由所述处理器加载并执行如权利要求10或11所述的对象预测方法。

15.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条第一指令，所述一条或多条第一指令适于由所述处理器加载并执行如权利要求1-9任一项所述的数据处理方法；或者，所述计算机存储介质存储有一条或多条第二指令，所述一条或多条第二指令适于由所述处理器加载并执行如权利要求10或11所述的对象预测方法。