CN112435751A

CN112435751A - 基于变分推断和深度学习的腹膜透析模式辅助推荐系统

Info

Publication number: CN112435751A
Application number: CN202011247101.0A
Authority: CN
Inventors: 洪草根; 郝玉哲; 李伟; 陈大鹏; 董张慧雅; 王兆瑞; 郭小青; 李敬东; 韩天利; 梁钊铭
Original assignee: First Peoples Hospital of Lianyungang; 716th Research Institute of CSIC; Jiangsu Jari Technology Group Co Ltd
Current assignee: First Peoples Hospital of Lianyungang; 716th Research Institute of CSIC; Jiangsu Jari Technology Group Co Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-03-02
Anticipated expiration: 2040-11-10
Also published as: CN112435751B

Abstract

本发明公开了一种变分推断和深度学习的腹膜透析治疗效果预测系统，包括信息获取模块、计算处理模块、辅助推荐模块和、自学习模块，其中计算处理模块中采用基于变分推断和深度学习的预测模型，包括：获取回顾性实验数据集；推导得到变分下界，将最大化似然函数转化为最大化变分下界；构建对应模型，以最大化变分下界为优化目标；使用超参数搜索，挑选出最佳超参数组合；在测试集上测试采取最佳超参数训练的模型。该模型能够在给定个体特征的情况下，预测对该个体采用自动腹膜透析和手动腹膜透析的预期治疗效果差异，并且通过变分推断方法解耦隐变量，减少选择偏误对预测的影响，获得更准确的预测性能，能够更好地辅助决策者对治疗模式的选择。

Description

基于变分推断和深度学习的腹膜透析模式辅助推荐系统

技术领域

本发明涉及腹膜透析人工智能领域，特别是一种基于变分推断和深度学习的腹膜透析模式辅助推荐系统。

背景技术

腹膜透析和血液透析、肾移植是目前中末期肾脏病病人的三种主要治疗手段。由于肾源短缺导致肾移植的病人渐少，而各级血液透析中心的病人渐趋饱和，腹膜透析正被越来越多的病人所采用。腹膜透析又分为手动腹膜透析和自动腹膜透析，近几年来，随着科技的发展和人们生活水平的不断提高，自动腹膜透析的占比逐年增加，然而自动腹膜透析相较于手动腹膜透析是否有更好的治疗效果尚未可知。

“接受/不接受某种干预措施，该患者的病情会改善吗？”是临床医生普遍关心的问题。实际上，这是一个关于个体化干预效果(Individualized Treatment Effects，ITE)的典型问题。ITE被定义为在给定患者状况的情况下，采取和不采取某种干预措施的预期结果之间的差异。对ITE的估计是精准医学领域的一项重要任务，可帮助临床医生选择合适的治疗方法。更一般地，ITE估计在需要进行行为决策的其他场景中也很有用，例如政府判断谁将从就业培训补贴中受益最多，老师决定哪个学习项目对某个特定的学生最有利等。ITE估计的常用方法主要可分为前瞻性研究和回顾性研究，前瞻性研究一般是设置临床随机对照试验(randomized controlled trials，RCTs)，回顾性研究一般根据以往记录的真实世界数据来估计干预效果。

RCT是将患者随机分配到不同的干预组中，观察不同干预组中患者的干预效果差异。然而RCT研究花费的时间长，费用高，甚至在一些情况下由于医学伦理因素不能进行。

回顾性研究则直接根据利用既往数据估计干预效果。由于数据相对易于获取，回顾性研究受到越来越广泛的关注。然而从既往数据估计个体干预效果也面临两个主要挑战：反事实结果缺失和选择偏误。由于在同一时间一位患者只能接受一种干预方案，所以我们无从得知未采取的方案(即反事实)的结果。为此解决这一问题，一些传统的ITE估计方法通过回归模型来拟合患者特征与潜在干预结果之间的关联，从而估计反事实结果，比如普通最小二乘法(Ordinary least squares，OLS)回归；还有研究采用基于最近邻匹配的方法，在采取相反干预措施的样本中搜索特征最为相似的训练样本，以此估计反事实结果，比如倾向性评分匹配(Propensity score matching，PSM)。然而，由于既往数据中干预措施的选择并不受控，其可能受到患者特征的影响，从而导致选择偏误。例如，在是否进行手术的决策上，老年人更倾向于选择保守治疗而拒绝手术，年轻人则更倾向于手术。在这种情况下，不同干预方案的组别之间本身就存在分布上的差异，在通过上述方法估计ITE时会将这种差异引入，从而造成ITE估计的不正确。

发明内容

本发明的目的在于提供一种基于变分推断和深度学习的腹膜透析模式辅助推荐系统。

实现本发明目的的技术解决方案为：一种基于变分推断和深度学习的腹膜透析模式辅助推荐系统，包含：

信息获取模块，用于获取腹膜透析患者的基本信息；

计算处理模块，用于预测手动或自动腹膜透析模式下的治疗效果；

辅助推荐模块，用于决策者根据预测的治疗效果选择合适的治疗模式；

自学习模块，用于将实际治疗结果与预测的治疗效果相比较，并将实际结果输入到计算处理模块中，优化其算法；

其中，计算处理模块中采用基于变分推断和深度学习的预测模型，该模块包括：

数据划分模块，用于获取回顾性实验数据集，即腹膜透析患者的基本信息、采用的治疗模式及相关参数、腹膜透析充分性，将其按比例划分为训练集、验证集和测试集；

变分下界转化模块，通过变分推断，推导得到变分下界，将最大化似然函数转化为最大化变分下界；

深度神经网络模型构建模块，根据变分下界，利用深度神经网络构建对应模型，并以最大化变分下界为优化目标；

最佳超参数确定模块，使用超参数搜索，采用不同的超参数组合在训练集上训练，并在验证集上验证其性能，挑选出最佳超参数组合；

治疗效果预测模块，在测试集上测试采取最佳超参数训练的模型，得到预测的治疗效果。

进一步的，所述回顾性数据集

包含D个样本；其中每个样本

由特征向量x_i、采取的干预措施t_i以及对应观察到的干预结果

组成；

其中k是特征数量，即向量的维度；t∈{0,1}，0代表未采取该干预措施，1为采取该干预措施；

为连续值标量。

数据样本中，首先假设特征x包含相互独立的三部分隐变量：1)只影响干预结果的隐变量z_y；2)只影响治理措施选择的隐变量z_t；3)同时影响干预结果和干预措施选择的隐变量z_c。通过变分推断方法，对其进行解耦并获得变分下界，推导过程如下：

最终得到：

不等式左侧，log P_θ(t,y|x)为给定x下，t和y联合概率分布的对数似然函数，不等式右侧即其下界。模型的优化目标即最大化对数似然函数，可通过最大化其下界实现。

其中，P_θ为在给定x或z_y、z_t、z_c下的t或y的干预先验分布，

为在给定x下的z_y、z_t、z_c的结局预测先验分布，q_φ为在给定x及y或t下z_y、z_t、z_c的结局预测后验分布；log P_θ(t,y|x)为给定x下，t和y联合概率分布的对数似然函数，

为给定z_t、z_c下t的概率分布的对数的期望，

为给定z_t、z_c、t下y的概率分布的对数的期望。

假设各隐变量的条件概率分布

q_φ(z_c|y,t,x)，q_φ(z_t|t,x)，q_φ(z_y|y,x)为多元正态分布，使用深度神经网络拟合分布的参数，即均值向量μ和标准差向量σ，并通过正态分布的参数计算两个分布之间的KL距离。两个正态分布间的KL距离为：

最大化变分下界对应于最大化取反的三组KL距离，即最小化

和

对变分下界中的期望

利用深度神经网络拟合z_t,z_c与t的映射关系，以z_t,z_c为输入，预测t。最大化变分下界对应于最大化该期望，最大化该期望最终等价于最小化预测t的交叉熵。

其中N为样本数，t_i为真实值，

为预测值。

类似地，对变分下界中的期望

利用深度神经网络拟合z_y、z_c、t与y的映射关系，以z_y,z_c,t为输入，预测y。最大化变分下界对应于最大化该期望，最大化该期望最终等价于最小化预测y的均方误差。

其中y_i为真实值，

为预测值。

此步骤中，拟合多元正态分布参数、预测干预措施和预测干预结果都通过深度神经网络来实现。涉及到的深度神经网络均由多个全连接层组成，

H_i＝δ(W_i·H_i-1+b_i)，

H_i表示第i个全连接层的输出，i＝{1,2,3,…,m}，m为该神经网络的层数。特别地，我们定义H₀为神经网络的输入向量。W_i和b_i为第i个全连接层的权重矩阵和偏置向量。δ为激活函数。各个神经网络的层数以及各层的节点数通过超参数搜索确定。

最终，模型的损失函数为：

模型通过Adam优化器在训练集上最小化该损失函数进行训练。

与现有技术相比，本发明的显著优点为：(1)常用于ITE预测的回归算法和基于最近邻匹配的算法会将不同干预方案的组别之间数据分布上的差异引入，导致ITE预测不正确；而利用变分推断和深度学习技术，可以解耦隐变量，减少选择偏误和数据分布差异对算法的影响，提升了ITE预测的精准性，为腹膜透析模式辅助推荐提供支持；(2)该系统能够通过人工智能算法模型可视化地提供两种不同腹膜透析治疗方式的效果预测，从而提升腹膜透析的个性化、精准化治疗。

附图说明

图1是本发明的腹膜透析模式辅助推荐系统图。

图2是本发明的基于变分推断和深度学习的效果预测模型的示意图。

具体实施方式

为解决现有技术存在的问题，需要解耦出影响干预选择的部分患者特征，在预测潜在干预结果的过程中消除其影响，从而消除选择偏误。为此，本发明假设患者特征包含相互独立的三部分隐变量：1)只影响干预结果的隐变量，2)只影响治理措施选择的隐变量；3)同时影响干预结果和干预措施选择的隐变量，并对通过变分推断对三部分隐变量进行解耦，排除第2类隐变量的影响。本发明中的干预措施为是否选用自动腹膜透析治疗方式治疗。

下面结合附图对本发明进行详细说明。

本发明提供一种基于变分推断和深度学习的腹膜透析模式辅助推荐系统，如图1，包括：

信息获取模块，用于获取腹膜透析患者的基本信息，包括但不仅限于腹膜透析患者的身高、体重、性别、腹膜透析治疗模式、处方参数、治疗结果、化验信息等与患者治疗效果相关的参数；

计算处理模块，用于预测手动或自动腹膜透析模式下的治疗效果，包括但不仅限于腹膜透析充分性、容量负荷等；

辅助推荐模块，用于决策者根据预测的治疗效果选择合适的治疗模式，如自动腹膜透析和手动腹膜透析；

自学习模块，用于将实际治疗结果与预测的治疗效果相比较，并将实际结果输入到计算处理模块中，继续优化其算法，提升预测的精准性。

其中，计算处理模块采用基于变分推断和深度学习的预测模型，包含如下模块：

如图2所示，下面对该系统的自学习过程进行说明：

S101：获取训练数据集。回顾性数据集

包含D个样本。其中每个样本

组成。

为连续值标量。

S102：通过变分推断，推导得到变分下界，将最大化似然函数转化为最大化变分下界。根据推导得到的变分下界构建模型，并确定模型优化目标。

S1021：假设特征x包含相互独立的三部分隐变量：1)只影响干预结果的隐变量z_y；2)只影响治理措施选择的隐变量z_t；3)同时影响干预结果和干预措施选择的隐变量z_c。通过变分推断方法，对其进行解耦并获得变分下界，得到：

不等式右侧即为变分下界，将其最大化即可使不等式左侧的对数似然函数最大化。

S1022：对于变分下界中的三个KL距离中涉及到的6个分布，即

q_φ(z_c|y,t,x)，q_φ(z_t|t,x)，q_φ(z_y|y,x)，假设其为多元正态分布，并利用深度神经网络拟合其分布参数，包括均值向量μ和标准差向量σ。由于标准差非负，实际程序实现中，为简化模型，以logσ²代替。

两个正态分布间的KL距离可以通过其分布参数直接计算：

S1023：对于变分下界中的期望

交叉熵L_t为衡量预测分布与真实分布相似度的一种方法，是预测值

的损失函数。其中N为样本数，t_i为真实值，

为预测值。

对变分下界中的期望

利用深度神经网络拟合z_y,z_c,t与y的映射关系，以z_y,z_c,t为输入，预测y。最大化变分下界对应于最大化该期望，最大化该期望最终等价于最小化预测y的均方误差。

均方误差L_y是衡量真实分布与预测分布相似度的一种方法，也是一种损失函数。其中y_i为真实值，

为预测值。

z_y,z_c,z_t需要从分布中采样得到,但采样过程不可导，将导致训练过程中梯度无法传递，无法优化对分布的拟合。为解决该问题，在实际程序实现中，需要采样重参数化技巧，从标准正态分布中采样，再乘以对应分布的标准差并加上其均值，达到与从对应非标准正态分布中采样等同的效果，同时保证梯度能够通过分布参数传递。

S1024：上述所有深度神经网络均由多个全连接层组成，

H_i＝δ(W_i·H_i-1+b_i)，

H_i表示第i个全连接层的输出，i＝{1,2,3,…,m}，m为该神经网络的层数。特别地，我们定义H₀为神经网络的输入向量。W_i和b_i为第i个全连接层的权重矩阵和偏置向量。δ为激活函数。各个神经网络的层数以及各层的节点数通过超参数搜索确定。其中除t和y的预测输出层外，所有激活函数均采用ELU(exponential linear unit，ELU)函数，

t的预测输出层采用sigmoid函数作为激活函数；y的预测输出层不使用激活函数。

S1025:根据变分下界，得到模型的损失函数为：

S103：使用基于python的机器学习框架TensorFlow实现模型。

S104：将数据集按照一定比例划分为训练集、测试集和验证集。以不同的超参数组合构建模型，并输入训练集样本，通过Adam优化器最小化损失函数进行训练，将训练得到的模型分别在验证集上验证性能。在验证集上筛选出最优超参数组合后，将对应的模型在测试集上检验性能，最终得到该方法的性能。

S1041：具体地，本发明中按照63:27:10的比例划分训练集、验证集和测试集。

和

的计算过程中，排除了z_t，达到了削弱选择偏误的目的。

另外，在对L最小化的过程中，

和

最小化，拟合

的深度神经网络参数得到更新，使其分布分别向q_φ(z_c|y,t,x)，q_φ(z_t|t,x)，q_φ(z_y|y,x)接近。

S1043：由于实际应用场景中y,t应为未知，模型验证过程中，在预测得到

的过程中仅有x作为输入，通过对分布

采样得到z_c，z_t，z_y，再通过P_θ(y|z_y,z_c,t)映射得到预测的

其中，当t＝0时得到的预测值为不采取干预措施时预测的潜在结果，记作

t＝1时得到的预测值为采取干预措施时预测的潜在结果，记作

对一个个体，真实的干预效果ITE＝y⁽¹⁾-y⁽⁰⁾，模型对其估计的个体干预效果

S1044：以收集的腹膜透析数据集，分别采用本发明的方法以及现有的倾向性评分匹配(PSM)方法和普通最小二乘法(OLS)回归方法进行对比。

对于个体化治疗效果预测的评估，数据集存在真实结果，所以用平均干预效应绝对误差(absolute error in average treatment effect，∈ATE)和异质效应估算精度误差(error in precision in the estimation of heterogeneous effect，∈PEHE)来作为评估指标，ATE和PEHE越小就说明预测结果越准确。两者计算公式如下：

其中，y⁽¹⁾表示采取干预下的真实的潜在结果，y⁽⁰⁾表示无治疗干预下的真实的潜在结果。

经对比，本发明在ATE和PEHE方面均优于PSM和OLS方法。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。