CN111882066A

CN111882066A - 基于深度表征学习的反事实推理设备

Info

Publication number: CN111882066A
Application number: CN202010719276.0A
Authority: CN
Inventors: 黄正行; 陈晋飙; 楚杰斌
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-11-03
Anticipated expiration: 2040-07-23
Also published as: CN111882066B

Abstract

本发明公开了一种基于深度表征学习的反事实推理设备，包含：基于深度表征学习的反事实推理模型单元和数据输入单元；反事实推理模型单元包括深度表征学习模块、正交损失模块、治疗策略预测模块、治疗策略预测对抗性模块和治疗效果预测模块；数据输入单元向模型单元输入训练数据集对其进行训练；数据输入单元向训练好的模型单元输入待预测的个体状态以得到预测结果。本发明的基于深度表征学习的反事实推理设备，通过治疗策略预测模块、治疗策略预测对抗性模块和正交损失模块的结合，使得表征学习模块中输出的表征h_t，h_y分别只与治疗策略和治疗效果相关，去掉了其中的混淆性因素，使基于表征h_y的治疗效果预测模块能更加准确和科学地预测治疗效果。

Description

基于深度表征学习的反事实推理设备

技术领域

本发明涉及一种基于深度表征学习的反事实推理设备。

背景技术

预测行为对个体的影响是许多领域的核心问题。例如医生确定哪种药物对病人的疗效更好；政府判断谁将从就业培训补贴中受益最多；或者老师决定哪个学习项目对某个特定的学生最有利。

在医学领域，个体化治疗效果(individualized treatment effects，ITE)是一种基于患者健康状况来确定特定治疗策略对该患者的治疗效果的方法。ITE被定义为处理结果和控制结果之间的预期差异，也经常在其他领域被用来作为判断处理方法有效性的指标。ITE的常用方法主要可分为前瞻性研究和回顾性研究，前瞻性研究一般是设置临床随机对照试验(randomized controlled trials，RCTs)，回顾性研究一般根据真实世界数据来估计治疗效果。

RCT是将患者随机分配到不同的治疗组中，观察不同治疗组中患者的治疗效果差异。然而RCT存在几个严重的局限性：(1)要求严格的纳入和排除标准；(2)RCT研究的结论不能自动应用于其他地区；(3)由于道德原因，RCT可能无法实行。

回顾性研究则直接根据真实世界数据估计治疗效果。由于真实世界数据的易获取，回顾性研究被广泛应用于各个领域。然而从真实世界数据估计个体治疗效果也面临两个主要挑战：反事实结果缺失和治疗选择偏差。由于在同一时间一位患者只能接受一种治疗方案，所以我们无从得知其他治疗(即反事实)的结果。此外，真实世界数据中可能存在某些变量会同时影响治疗策略和治疗结果，从而导致混淆。例如，在不同情况下，人们对于治疗的偏好不同，因此治疗策略在不同人群中可能存在相当大的分布差异，分布差异进一步导致对反事实的不准确估计。

为了克服上述挑战，一些传统的ITE估计方法将治疗作为特征，并训练回归模型来估计反事实结果，比如普通最小二乘法(Ordinary least squares，OLS)回归；还有研究采用基于最近邻匹配的方法来找到相似的训练样本，从而估计反事实结果，比如倾向性评分匹配(Propensity score matching，PSM)。

然而这些传统的方法很少从患者输入特征中提取特定于治疗的表征，使得预测结果仍旧受到治疗选择偏差的影响。

发明内容

本发明提供了一种基于深度表征学习的反事实推理设备，采用如下的技术方案：

一种基于深度表征学习的反事实推理设备，包含：基于深度表征学习的反事实推理模型单元和数据输入单元；

反事实推理模型单元包括：

深度表征学习模块，用于从输入特征中提取仅与治疗策略相关的策略表征h_t和仅与治疗效果相关的效果表征h_y；

正交损失模块，用于对深度表征学习模块输出的策略表征h_t和效果表征h_y进行正交化处理，消除同时影响治疗策略和治疗结果的混淆性因素；

治疗策略预测模块，用于对深度表征学习模块输出的策略表征h_t进行拟合，确保策略表征h_t与治疗策略相关；

治疗策略预测对抗性模块，用于对深度表征学习模块输出的效果表征h_y进行拟合，确保效果表征h_y与治疗策略无关；

治疗效果预测模块，用于对深度表征学习模块输出的效果表征h_y进行处理得到不同治疗策略下个体的治疗效果；

数据输入单元用于向反事实推理模型单元输入训练数据集以对反事实推理模型单元进行训练，数据集包括：描述个体特征的数据的自然状态集Θ＝{θ₁，θ₂，…,θ_n}、对个体可能采取的不同治疗策略的治疗策略集D＝{d₁，d₂，…,d_m}和治疗效果集O＝{o_ij}，(i＝1,…,n；j＝1,…,m)，其中o_ij即个体在真实自然状态θ_i下采取策略d_j时的治疗效果；

数据输入单元还用于向训练好的反事实推理模型单元输入待预测的个体状态以得到预测结果。

进一步地，深度表征学习模块包括两个独立且结构相同的第一多层感知机，其中一个用于提取策略表征h_t，另一个用于提取效果表征h_y；

第一多层感知机的结构设定为三层，以数据集中的数据作为第一多层感知机的输入层；

设定第一层输出n_i1个节点，第二层输出n_i2个节点，第三层输出n_i3个节点，第一多层感知机通过以下公式进行计算：

h₁＝σ(W₁x+b₁)，

h₂＝σ(W₂h₁+b₂)，

h₃＝σ(W₃h₂+b₃)，

其中，x表示输入层，x∈R^|n|×|x|，W₁表示第一层节点的权重矩阵，

b₁表示第一层的偏置，

W₂表示第二层节点的权重矩阵，

b₂表示第二层的偏置，

W₃表示第三层节点的权重矩阵，

b₃表示第三层的偏置，

h₁，h₂，h₃分别表示第一层、第二层和第三层输出的表征。

进一步地，正交损失模块对策略表征h_t和效果表征h_y进行正交化的计算公式如下：

其中，Orthogonal

表示正交损失，n_x表示输入样本的数目，n_i3代表表征层的节点数，h_ij表示第j个个体表征层第i个节点的值。

进一步地，治疗策略预测模块为第一SoftMax输出层，第一SoftMax输出层的神经元个数为n_t，n_t为治疗方案集D的方案总数，治疗策略预测模块通过以下公式进行计算：

t_i＝φ(W_th_t+b_t)_i，(i＝1,…,n_t)，

其中，策略表征h_t表示输入层，W_t表示权重矩阵，b_t表示偏置，t_i表示采用第i个策略的可能性，y_t表示预测的治疗策略。

进一步地，治疗策略预测对抗性模块为第二SoftMax输出层，第二SoftMax输出层的神经元个数也为n_t，治疗策略预测对抗性模块通过以下公式进行计算：

tanti_t_i＝φ(W_{anti_t}h_y+b_{anti_t})_i，(i＝1,…,n_t)，

其中，效果表征h_y表示输入层，W_{anti_t}表示权重矩阵，b_{anti_t}表示偏置，tanti_t_i表示采用第i个策略的可能性，y_{anti_t}表示预测的治疗策略。

进一步地，治疗效果预测模块由n_t个独立且结构相同的第二多层感知机组成；

每个第二多层感知机的结构设定为两层，设定第一层输出n_o1个节点，第二层输出1个节点，第二多层感知机通过以下公式进行计算；

h_o1＝σ(W_o1h_y+b_o1)，

h_o2＝W_o2h_o1+b_o2，

其中，效果表征h_y表示输入层，W_o1表示第一层节点的权重矩阵，b_o1代表第一层的偏置，W_o2表示第二层节点的权重矩阵，b_o2代表第二层的偏置，h_o1，h_o2分别表示第一层和第二层的输出。

进一步地，数据输入单元用于向反事实推理模型单元输入训练数据集以对反事实推理模型单元进行训练的具体方法为：

将数据集按照一定比例划分为训练集、测试集和验证集；

将训练集输入反事实推理模型单元对其进行训练；

将测试集和验证集输入反事实推理模型单元对其进行验证。

进一步地，将训练集输入反事实推理模型单元对其进行训练的具体方法为：

选择交叉熵函数作为治疗策略预测模块的损失函数，选择准确率作为治疗策略预测模块的评价指标，其中，

其中，treatment

为治疗策略预测模块的损失函数,n_t为治疗方案集D的方案总数，n_x表示输入样本的数目，T_ij表示第j位个体在第i种治疗方案的真实标签数据，t_ij表示模型预测的第j位个体采用第i个策略的可能性；

选择交叉熵函数的负值作为治疗策略预测对抗性模块的损失函数，选择准确率作为治疗策略预测对抗性模块的评价指标，其中，

其中，anti_treatment

为治疗策略预测对抗性模块的损失函数,n_t为治疗方案集D的方案总数，n_x表示输入样本的数目，T_ij表示第j位个体在第i种治疗方案的真实标签数据，anti_t_ij表示模型预测的第j位个体采用第i个策略的可能性；

选择绝对误差函数作为治疗效果预测模块的损失函数，

其中，treatment outcome

为治疗效果预测模块的损失函数，Y_j表示第j位个体在真实世界中所采取治疗方案的治疗效果，y_oj表示模型预测的第j位个体在真实世界中所采取治疗方案的治疗效果；

将训练集输入反事实推理模型单元；

反事实推理模型单元的总损失函数

为：

优化总损失函数

在总损失函数

不再下降时，停止训练。

进一步地，通过Adam算法优化优化总损失函数

本发明的有益之处在于所提供的基于深度表征学习的反事实推理设备，通过治疗策略预测模块、治疗策略预测对抗性模块和正交损失模块的结合，使得表征学习模块中输出的表征h_t，h_y分别只与治疗策略和治疗效果相关，去掉了其中的混淆性因素，因此基于表征h_y的治疗效果预测模块能更加准确和科学地预测治疗效果。

附图说明

图1是本发明的反事实推理模型单元的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

本发明提供一种基于深度表征学习的反事实推理设备，包含：基于深度表征学习的反事实推理模型单元和数据输入单元。

如图1所示，反事实推理模型单元包括：深度表征学习模块、正交损失模块、治疗策略预测模块、治疗策略预测对抗性模块和治疗效果预测模块。输入部分中，深色的代表仅与治疗策略相关特征，稍浅色代表仅与治疗结果相关特征，浅色代表与治疗策略和治疗结果均相关的特征。

数据输入单元用于向反事实推理模型单元输入训练数据集以对反事实推理模型单元进行训练，数据集包括：描述个体特征的数据的自然状态集Θ＝{θ₁，θ₂，…,θ_n}、对个体可能采取的不同治疗策略的治疗策略集D＝{d₁，d₂，…,d_m}和治疗效果集O＝{o_ij}，(i＝1,…,n；j＝1,…,m)，其中o_ij即个体在真实自然状态θ_i下采取策略d_j时的治疗效果。数据输入单元还用于向训练好的反事实推理模型单元输入待预测的个体状态以得到预测结果。

具体而言，深度表征学习模块用于从输入特征中提取仅与治疗策略相关的策略表征h_t和仅与治疗效果相关的效果表征h_y。深度表征学习模块包括两个独立且结构相同的第一多层感知机，其中一个用于提取策略表征h_t，另一个用于提取效果表征h_y。第一多层感知机的结构设定为三层，以数据集中的数据作为第一多层感知机的输入层。设定第一层输出n_i1个节点，第二层输出n_i2个节点，第三层输出n_i3个节点，第一多层感知机通过以下公式进行计算：

h₁＝σ(W₁x+b₁)，

h₂＝σ(W₂h₁+b₂)，

h₃＝σ(W₃h₂+b₃)，

b₁表示第一层的偏置，

W₂表示第二层节点的权重矩阵，

b₂表示第二层的偏置，

W₃表示第三层节点的权重矩阵，

b₃表示第三层的偏置，

为elu激活函数。两个第一多层感知机最终输出的表征分别为h_t和h_y。经过训练后，期望h_t仅与治疗策略相关，h_y仅与治疗效果相关。

正交损失模块用于对深度表征学习模块输出的策略表征h_t和效果表征h_y进行正交化处理，消除同时影响治疗策略和治疗结果的混淆性因素。具体的，正交损失模块对深度表征学习模块输出的策略表征h_t和效果表征h_y进行正交化处理，通过对输出的正交化结果最小化，可以去掉会同时影响治疗策略和治疗结果的混淆性因素，从而解决治疗选择偏差问题。正交损失模块对表征h_t，h_y进行正交化的计算公式如下：

其中，Orthogonal

治疗策略预测模块用于对深度表征学习模块输出的策略表征h_t进行拟合，确保策略表征h_t与治疗策略相关。治疗策略预测模块为第一SoftMax输出层，第一SoftMax输出层的神经元个数为n_t，n_t为治疗方案集D的方案总数，输出层中数值最大的节点下标即为预测的治疗策略，治疗策略预测模块通过以下公式进行计算：

t_i＝φ(W_th_t+b_t)_i，(i＝1,…,n_t)，

表示‘SoftMax’激活函数，argmax表示取向量中最大值的下标。

治疗策略预测对抗性模块用于对深度表征学习模块输出的效果表征h_y进行拟合，确保效果表征h_y与治疗策略无关。治疗策略预测对抗性模块为第二SoftMax输出层，第二SoftMax输出层的神经元个数也为n_t，治疗策略预测对抗性模块通过以下公式进行计算：

tanti_t_i＝φ(W_{anti_t}+h_y+b_{anti_t})_i，(i＝1,…,n_t)，

表示‘SoftMax’激活函数，argmax表示取向量中最大值的下标。

治疗效果预测模块用于对深度表征学习模块输出的效果表征h_y进行处理得到不同治疗策略下个体的治疗效果。治疗效果预测模块由n_t个独立且结构相同的第二多层感知机组成。每个第二多层感知机的结构设定为两层，设定第一层输出n_o1个节点，第二层输出1个节点，第二多层感知机通过以下公式进行计算。

h_o1＝σ(W_o1h_y+b_o1)，

h_o2＝W_o2h_o1+b_o2，

为elu激活函数。本模块最终输出n_t个h_o2值，表示为向量

代表不同治疗策略下个体的治疗效果。

结合以上五个模块，完成最终反事实推理模型单元的构建。数据输入单元向模型单元输入训练集，经过基于多层感知机的深度表征学习模块的特征提取分别输出表征h_t(与治疗策略相关)和表征h_y(与治疗效果相关)。h_t和h_y通过正交损失模块去掉表征中会同时影响治疗策略和治疗结果的混淆性因素。治疗策略预测模块以h_t为输入，治疗策略预测对抗性模块以h_y为输入，分别输出对于真实世界治疗策略的预测。同时治疗效果预测模块以h_y为输入，输出对于不同治疗策略下治疗效果的预测。

数据输入单元用于向反事实推理模型单元输入训练数据集以对反事实推理模型单元进行训练的具体方法为：

将数据集按照一定比例划分为训练集、测试集和验证集。根据需求将数据集中的数据随机打乱后(自然状态、治疗方案、治疗效果需一一对应)，按照a:b:c的比例划分为训练集、测试集和验证集，其中a，b，c为整数。

利用训练集训练基于深度表征学习的反事实推理模型。

通过测试集和验证集对基于深度表征学习的反事实推理模型进行验证。

其中，将所述训练集输入所述反事实推理模型单元对其进行训练的具体方法为：

其中，treatment

为治疗策略预测模块的损失函数,n_t为治疗方案集D的方案总数，n_x表示输入样本的数目，T_ij表示第j位个体在第i种治疗方案的真实标签数据，t_ij表示模型预测的第j位个体采用第i个策略的可能性，

准确率

其中N_A是被模块预测正确的标签数据的总数，N是所有标签数据的总数。

其中，anti_treatment

为治疗策略预测对抗性模块的损失函数,n_t为治疗方案集D的方案总数，n_x表示输入样本的数目，T_ij表示第j位个体在第i种治疗方案的真实标签数据，anti_t_ij表示模型预测的第j位个体采用第i个策略的可能性，

准确率

选择绝对误差函数作为治疗效果预测模块的损失函数，

其中，treatment outcome

为治疗效果预测模块的损失函数，Y_j表示第j位个体在真实世界中所采取治疗方案的治疗效果，y_oj表示模型预测的第j位个体在真实世界中所采取治疗方案的治疗效果。

将训练集输入到模型中，基于深度表征学习的反事实推理模型的总损失函数

为：

优化总损失函数

在总损失函数

不再下降时，停止训练。

作为一种优选的实施方式，具体的，调用TensorFlow内置的tf.train.Optimizer函数来使总损失函数L最小化，通过Adam算法优化优化总损失函数

应用时，反事实推理模型单元首先利用深度表征学习模块从真实世界数据中分别提取表征h_t和表征h_y。表征h_t和表征h_y通过治疗策略预测模块、治疗策略预测对抗性模块和正交损失模块去掉会同时影响治疗策略和治疗结果的混淆性因素，使得表征h_t仅与治疗策略相关，表征h_y仅与治疗效果相关。最后治疗效果预测模块以h_y为输入，输出对于不同治疗策略下治疗效果的预测。

当完成模型训练后，将预测的个体状态输入训练好的反事实推理模型单元中，模型单元能够根据个体状态输出不同的医疗策略下的医疗结果预测。

以现有的IHDP数据集，分别采用本发明的设备以及现有的倾向性评分匹配(PSM)设备和普通最小二乘法(OLS)回归设备进行对比。IHDP数据集是2011年Hill构建并公开的婴儿健康与发展计划数据集(the Infant Health and Development Program，IHDP)，是一项针对低体重早产儿的随机实验，旨在研究专家家访对三岁以下儿童未来认知测验成绩的影响。IHDP数据集包含747个婴儿样本、是否接受家访的标签、其他25个描述孩子及其母亲属性的特征、以及1000次在接受家访和未接受家访时对认知能力的仿真结果。

对于个体化治疗效果预测的评估，IHDP数据集存在仿真结果，所以用平均治疗效应(average treatment effect error，ATE)和异质效应估算精度(Precision in theestimation of heterogeneous effect，PEHE)来作为评估指标，ATE和PEHE越小就说明预测结果越准确。两者计算公式如下：

其中，Y₁(x_i)表示在治疗干预下的仿真结果，Y₀(x_i)表示无治疗干预下的仿真结果，y₁(x_i)表示模型预测的有治疗干预的结果，y₀(x_i)表示模型预测的无治疗干预的结果。对比结果如下，可见，本发明的设备预测效果更好。

表1IHDP数据集上本发明的预测设备与对比设备的表现

模型	PEHE(测试集)	ATE(测试集)	PEHE(验证集)	ATE(验证集)
					本发明设备	1.420±1.014	0.200±0.189	1.414±1.053	0.245±0.257
PSM设备	7.188±2.679	0.847±0.850	7.290±3.389	0.821±0.971
					(OLS)回归设备	10.280±3.794	0.730±0.410	5.245±0.986	0.943±0.625

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于深度表征学习的反事实推理设备，其特征在于，包含：基于深度表征学习的反事实推理模型单元和数据输入单元；

所述反事实推理模型单元包括：

正交损失模块，用于对所述深度表征学习模块输出的所述策略表征h_t和所述效果表征h_y进行正交化处理，消除同时影响治疗策略和治疗结果的混淆性因素；

治疗策略预测模块，用于对所述深度表征学习模块输出的所述策略表征h_t进行拟合，确保所述策略表征h_t与治疗策略相关；

治疗策略预测对抗性模块，用于对所述深度表征学习模块输出的所述效果表征h_y进行拟合，确保效果表征h_y与治疗策略无关；

治疗效果预测模块，用于对所述深度表征学习模块输出的所述效果表征h_y进行处理得到不同治疗策略下个体的治疗效果；

所述数据输入单元用于向所述反事实推理模型单元输入训练数据集以对所述反事实推理模型单元进行训练，所述数据集包括：描述个体特征的数据的自然状态集Θ＝{θ₁，θ₂，…,θ_n}、对个体可能采取的不同治疗策略的治疗策略集D＝{d₁，d₂，…,d_m}和治疗效果集O＝{o_ij}，(i＝1,…,n；j＝1,…,m)，其中o_ij即个体在真实自然状态θ_i下采取策略d_j时的治疗效果；

所述数据输入单元还用于向训练好的所述反事实推理模型单元输入待预测的个体状态以得到预测结果。

2.根据权利要求1所述的基于深度表征学习的反事实推理设备，其特征在于，

所述深度表征学习模块包括两个独立且结构相同的第一多层感知机，其中一个用于提取所述策略表征h_t，另一个用于提取所述效果表征h_y；

所述第一多层感知机的结构设定为三层，以所述数据集中的数据作为所述第一多层感知机的输入层；

设定第一层输出n_i1个节点，第二层输出n_i2个节点，第三层输出n_i3个节点，所述第一多层感知机通过以下公式进行计算：

h₁＝σ(W₁x+b₁)，

h₂＝σ(W₂h₁+b₂)，

h₃＝σ(W₃h₂+b₃)，

b₁表示第一层的偏置，

W₂表示第二层节点的权重矩阵，

b₂表示第二层的偏置，

W₃表示第三层节点的权重矩阵，

b₃表示第三层的偏置，

3.根据权利要求2所述的基于深度表征学习的反事实推理设备，其特征在于，

所述正交损失模块对所述策略表征h_t和所述效果表征h_y进行正交化的计算公式如下：

其中，Orthogonal

4.根据权利要求3所述的基于深度表征学习的反事实推理设备，其特征在于，

所述治疗策略预测模块为第一SoftMax输出层，所述第一SoftMax输出层的神经元个数为n_t，n_t为治疗方案集D的方案总数，所述治疗策略预测模块通过以下公式进行计算：

t_i＝φ(W_th_t+b_t)_i，(i＝l，…，n_t)，

其中，所述策略表征h_t表示输入层，W_t表示权重矩阵，b_t表示偏置，t_i表示采用第i个策略的可能性，y_t表示预测的治疗策略。

5.根据权利要求4所述的基于深度表征学习的反事实推理设备，其特征在于，

所述治疗策略预测对抗性模块为第二SoftMax输出层，所述第二SoftMax输出层的神经元个数也为n_t，所述治疗策略预测对抗性模块通过以下公式进行计算：

tanti_t_i＝φ(W_{anti_t}h_y+b_{anti_t})_i，(i＝1，…，n_t)，

其中，所述效果表征h_y表示输入层，W_{anti_t}表示权重矩阵，b_{anti_t}表示偏置，tanti_t_i表示采用第i个策略的可能性，y_{anti_t}表示预测的治疗策略。

6.根据权利要求5所述的基于深度表征学习的反事实推理设备，其特征在于，

所述治疗效果预测模块由n_t个独立且结构相同的第二多层感知机组成；

每个所述第二多层感知机的结构设定为两层，设定第一层输出n_o1个节点，第二层输出1个节点，所述第二多层感知机通过以下公式进行计算；

h_o1＝σ(W_o1h_y+b_o1)，

h_o2＝W_o2h_o1+b_o2，

其中，所述效果表征h_y表示输入层，W_o1表示第一层节点的权重矩阵，b_o1代表第一层的偏置，W_o2表示第二层节点的权重矩阵，b_o2代表第二层的偏置，h_o1，h_o2分别表示第一层和第二层的输出。

7.根据权利要求6所述的基于深度表征学习的反事实推理设备，其特征在于，

所述数据输入单元用于向所述反事实推理模型单元输入训练数据集以对所述反事实推理模型单元进行训练的具体方法为：

将所述数据集按照一定比例划分为训练集、测试集和验证集；

将所述训练集输入所述反事实推理模型单元对其进行训练；

将所述测试集和所述验证集输入所述反事实推理模型单元对其进行验证。

8.根据权利要求7所述的基于深度表征学习的反事实推理设备，其特征在于，

将所述训练集输入所述反事实推理模型单元对其进行训练的具体方法为：

选择交叉熵函数作为所述治疗策略预测模块的损失函数，选择准确率作为所述治疗策略预测模块的评价指标，其中，

其中，treatment

为所述治疗策略预测模块的损失函数,n_t为治疗方案集D的方案总数，n_x表示输入样本的数目，T_ij表示第j位个体在第i种治疗方案的真实标签数据，t_ij表示模型预测的第j位个体采用第i个策略的可能性；

选择交叉熵函数的负值作为所述治疗策略预测对抗性模块的损失函数，选择准确率作为所述治疗策略预测对抗性模块的评价指标，其中，

其中，anti_treatment

为所述治疗策略预测对抗性模块的损失函数,n_t为治疗方案集D的方案总数，n_x表示输入样本的数目，T_ij表示第j位个体在第i种治疗方案的真实标签数据，anti_t_ij表示模型预测的第j位个体采用第i个策略的可能性；

选择绝对误差函数作为治疗效果预测模块的损失函数，

其中，treatment outcome

为治疗效果预测模块的损失函数，Y_j表示第j位个体在真实世界中所采取治疗方案的治疗效果，

表示模型预测的第j位个体在真实世界中所采取治疗方案的治疗效果；

将所述训练集输入所述反事实推理模型单元；

所述反事实推理模型单元的总损失函数

为：

优化所述总损失函数

在所述总损失函数

不再下降时，停止训练。

9.根据权利要求8所述的基于深度表征学习的反事实推理设备，其特征在于，

通过Adam算法优化优化所述总损失函数