发明内容
本发明的目的在于提供一种基于变分推断和深度学习的腹膜透析模式辅助推荐系统。
实现本发明目的的技术解决方案为:一种基于变分推断和深度学习的腹膜透析模式辅助推荐系统,包含:
信息获取模块,用于获取腹膜透析患者的基本信息;
计算处理模块,用于预测手动或自动腹膜透析模式下的治疗效果;
辅助推荐模块,用于决策者根据预测的治疗效果选择合适的治疗模式;
自学习模块,用于将实际治疗结果与预测的治疗效果相比较,并将实际结果输入到计算处理模块中,优化其算法;
其中,计算处理模块中采用基于变分推断和深度学习的预测模型,该模块包括:
数据划分模块,用于获取回顾性实验数据集,即腹膜透析患者的基本信息、采用的治疗模式及相关参数、腹膜透析充分性,将其按比例划分为训练集、验证集和测试集;
变分下界转化模块,通过变分推断,推导得到变分下界,将最大化似然函数转化为最大化变分下界;
深度神经网络模型构建模块,根据变分下界,利用深度神经网络构建对应模型,并以最大化变分下界为优化目标;
最佳超参数确定模块,使用超参数搜索,采用不同的超参数组合在训练集上训练,并在验证集上验证其性能,挑选出最佳超参数组合;
治疗效果预测模块,在测试集上测试采取最佳超参数训练的模型,得到预测的治疗效果。
进一步的,所述回顾性数据集
包含D个样本;其中每个样本
由特征向量x
i、采取的干预措施t
i以及对应观察到的干预结果
组成;
其中k是特征数量,即向量的维度;t∈{0,1},0代表未采取该干预措施,1为采取该干预措施;
为连续值标量。
数据样本中,首先假设特征x包含相互独立的三部分隐变量:1)只影响干预结果的隐变量zy;2)只影响治理措施选择的隐变量zt;3)同时影响干预结果和干预措施选择的隐变量zc。通过变分推断方法,对其进行解耦并获得变分下界,推导过程如下:
最终得到:
不等式左侧,log Pθ(t,y|x)为给定x下,t和y联合概率分布的对数似然函数,不等式右侧即其下界。模型的优化目标即最大化对数似然函数,可通过最大化其下界实现。
其中,P
θ为在给定x或z
y、z
t、z
c下的t或y的干预先验分布,
为在给定x下的z
y、z
t、z
c的结局预测先验分布,q
φ为在给定x及y或t下z
y、z
t、z
c的结局预测后验分布;log P
θ(t,y|x)为给定x下,t和y联合概率分布的对数似然函数,
为给定z
t、z
c下t的概率分布的对数的期望,
为给定z
t、z
c、t下y的概率分布的对数的期望。
假设各隐变量的条件概率分布
q
φ(z
c|y,t,x),q
φ(z
t|t,x),q
φ(z
y|y,x)为多元正态分布,使用深度神经网络拟合分布的参数,即均值向量μ和标准差向量σ,并通过正态分布的参数计算两个分布之间的KL距离。两个正态分布间的KL距离为:
最大化变分下界对应于最大化取反的三组KL距离,即最小化
和
对变分下界中的期望
利用深度神经网络拟合z
t,z
c与t的映射关系,以z
t,z
c为输入,预测t。最大化变分下界对应于最大化该期望,最大化该期望最终等价于最小化预测t的交叉熵。
类似地,对变分下界中的期望
利用深度神经网络拟合z
y、z
c、t与y的映射关系,以z
y,z
c,t为输入,预测y。最大化变分下界对应于最大化该期望,最大化该期望最终等价于最小化预测y的均方误差。
此步骤中,拟合多元正态分布参数、预测干预措施和预测干预结果都通过深度神经网络来实现。涉及到的深度神经网络均由多个全连接层组成,
Hi=δ(Wi·Hi-1+bi),
Hi表示第i个全连接层的输出,i={1,2,3,…,m},m为该神经网络的层数。特别地,我们定义H0为神经网络的输入向量。Wi和bi为第i个全连接层的权重矩阵和偏置向量。δ为激活函数。各个神经网络的层数以及各层的节点数通过超参数搜索确定。
最终,模型的损失函数为:
模型通过Adam优化器在训练集上最小化该损失函数进行训练。
与现有技术相比,本发明的显著优点为:(1)常用于ITE预测的回归算法和基于最近邻匹配的算法会将不同干预方案的组别之间数据分布上的差异引入,导致ITE预测不正确;而利用变分推断和深度学习技术,可以解耦隐变量,减少选择偏误和数据分布差异对算法的影响,提升了ITE预测的精准性,为腹膜透析模式辅助推荐提供支持;(2)该系统能够通过人工智能算法模型可视化地提供两种不同腹膜透析治疗方式的效果预测,从而提升腹膜透析的个性化、精准化治疗。
具体实施方式
为解决现有技术存在的问题,需要解耦出影响干预选择的部分患者特征,在预测潜在干预结果的过程中消除其影响,从而消除选择偏误。为此,本发明假设患者特征包含相互独立的三部分隐变量:1)只影响干预结果的隐变量,2)只影响治理措施选择的隐变量;3)同时影响干预结果和干预措施选择的隐变量,并对通过变分推断对三部分隐变量进行解耦,排除第2类隐变量的影响。本发明中的干预措施为是否选用自动腹膜透析治疗方式治疗。
下面结合附图对本发明进行详细说明。
本发明提供一种基于变分推断和深度学习的腹膜透析模式辅助推荐系统,如图1,包括:
信息获取模块,用于获取腹膜透析患者的基本信息,包括但不仅限于腹膜透析患者的身高、体重、性别、腹膜透析治疗模式、处方参数、治疗结果、化验信息等与患者治疗效果相关的参数;
计算处理模块,用于预测手动或自动腹膜透析模式下的治疗效果,包括但不仅限于腹膜透析充分性、容量负荷等;
辅助推荐模块,用于决策者根据预测的治疗效果选择合适的治疗模式,如自动腹膜透析和手动腹膜透析;
自学习模块,用于将实际治疗结果与预测的治疗效果相比较,并将实际结果输入到计算处理模块中,继续优化其算法,提升预测的精准性。
其中,计算处理模块采用基于变分推断和深度学习的预测模型,包含如下模块:
数据划分模块,用于获取回顾性实验数据集,即腹膜透析患者的基本信息、采用的治疗模式及相关参数、腹膜透析充分性,将其按比例划分为训练集、验证集和测试集;
变分下界转化模块,通过变分推断,推导得到变分下界,将最大化似然函数转化为最大化变分下界;
深度神经网络模型构建模块,根据变分下界,利用深度神经网络构建对应模型,并以最大化变分下界为优化目标;
最佳超参数确定模块,使用超参数搜索,采用不同的超参数组合在训练集上训练,并在验证集上验证其性能,挑选出最佳超参数组合;
治疗效果预测模块,在测试集上测试采取最佳超参数训练的模型,得到预测的治疗效果。
如图2所示,下面对该系统的自学习过程进行说明:
S101:获取训练数据集。回顾性数据集
包含D个样本。其中每个样本
由特征向量x
i、采取的干预措施t
i以及对应观察到的干预结果
组成。
其中k是特征数量,即向量的维度;t∈{0,1},0代表未采取该干预措施,1为采取该干预措施;
为连续值标量。
S102:通过变分推断,推导得到变分下界,将最大化似然函数转化为最大化变分下界。根据推导得到的变分下界构建模型,并确定模型优化目标。
S1021:假设特征x包含相互独立的三部分隐变量:1)只影响干预结果的隐变量zy;2)只影响治理措施选择的隐变量zt;3)同时影响干预结果和干预措施选择的隐变量zc。通过变分推断方法,对其进行解耦并获得变分下界,得到:
不等式右侧即为变分下界,将其最大化即可使不等式左侧的对数似然函数最大化。
S1022:对于变分下界中的三个KL距离中涉及到的6个分布,即
q
φ(z
c|y,t,x),q
φ(z
t|t,x),q
φ(z
y|y,x),假设其为多元正态分布,并利用深度神经网络拟合其分布参数,包括均值向量μ和标准差向量σ。由于标准差非负,实际程序实现中,为简化模型,以logσ
2代替。
两个正态分布间的KL距离可以通过其分布参数直接计算:
S1023:对于变分下界中的期望
利用深度神经网络拟合z
t,z
c与t的映射关系,以z
t,z
c为输入,预测t。最大化变分下界对应于最大化该期望,最大化该期望最终等价于最小化预测t的交叉熵。
交叉熵L
t为衡量预测分布与真实分布相似度的一种方法,是预测值
的损失函数。其中N为样本数,t
i为真实值,
为预测值。
对变分下界中的期望
利用深度神经网络拟合z
y,z
c,t与y的映射关系,以z
y,z
c,t为输入,预测y。最大化变分下界对应于最大化该期望,最大化该期望最终等价于最小化预测y的均方误差。
均方误差L
y是衡量真实分布与预测分布相似度的一种方法,也是一种损失函数。其中y
i为真实值,
为预测值。
zy,zc,zt需要从分布中采样得到,但采样过程不可导,将导致训练过程中梯度无法传递,无法优化对分布的拟合。为解决该问题,在实际程序实现中,需要采样重参数化技巧,从标准正态分布中采样,再乘以对应分布的标准差并加上其均值,达到与从对应非标准正态分布中采样等同的效果,同时保证梯度能够通过分布参数传递。
S1024:上述所有深度神经网络均由多个全连接层组成,
Hi=δ(Wi·Hi-1+bi),
Hi表示第i个全连接层的输出,i={1,2,3,…,m},m为该神经网络的层数。特别地,我们定义H0为神经网络的输入向量。Wi和bi为第i个全连接层的权重矩阵和偏置向量。δ为激活函数。各个神经网络的层数以及各层的节点数通过超参数搜索确定。其中除t和y的预测输出层外,所有激活函数均采用ELU(exponential linear unit,ELU)函数,
t的预测输出层采用sigmoid函数作为激活函数;y的预测输出层不使用激活函数。
S1025:根据变分下界,得到模型的损失函数为:
S103:使用基于python的机器学习框架TensorFlow实现模型。
S104:将数据集按照一定比例划分为训练集、测试集和验证集。以不同的超参数组合构建模型,并输入训练集样本,通过Adam优化器最小化损失函数进行训练,将训练得到的模型分别在验证集上验证性能。在验证集上筛选出最优超参数组合后,将对应的模型在测试集上检验性能,最终得到该方法的性能。
S1041:具体地,本发明中按照63:27:10的比例划分训练集、验证集和测试集。
S1042:将训练集样本中的y,t,x输入模型,通过对分布q
φ(z
c|y,t,x),q
φ(zt|t,x),q
φ(z
y|y,x)采样得到z
c,z
t,z
y。再通过P
θ(t|z
t,z
c),P
θ(y|z
y,z
c,t)映射得到预测的
和
并结合真实的t和y计算L
t和L
y。在对L最小化的过程中,L
t和L
y最小化,其梯度反向传播,更新深度神经网络参数,使其更好地拟合q
φ(z
c|y,t,x),q
φ(z
t|t,x),q
φ(z
y|y,x)三个分布以及P
θ(t|z
t,z
c),P
θ(y|z
y,z
c,t)两个分别预测t和y的映射。在此过程中,隐变量z
c,z
t,z
y得以解耦,并且在对
的计算过程中,排除了z
t,达到了削弱选择偏误的目的。
另外,在对L最小化的过程中,
和
最小化,拟合
的深度神经网络参数得到更新,使其分布分别向q
φ(z
c|y,t,x),q
φ(z
t|t,x),q
φ(z
y|y,x)接近。
S1043:由于实际应用场景中y,t应为未知,模型验证过程中,在预测得到
的过程中仅有x作为输入,通过对分布
采样得到z
c,z
t,z
y,再通过P
θ(y|z
y,z
c,t)映射得到预测的
其中,当t=0时得到的预测值为不采取干预措施时预测的潜在结果,记作
t=1时得到的预测值为采取干预措施时预测的潜在结果,记作
对一个个体,真实的干预效果ITE=y
(1)-y
(0),模型对其估计的个体干预效果
S1044:以收集的腹膜透析数据集,分别采用本发明的方法以及现有的倾向性评分匹配(PSM)方法和普通最小二乘法(OLS)回归方法进行对比。
对于个体化治疗效果预测的评估,数据集存在真实结果,所以用平均干预效应绝对误差(absolute error in average treatment effect,∈ATE)和异质效应估算精度误差(error in precision in the estimation of heterogeneous effect,∈PEHE)来作为评估指标,ATE和PEHE越小就说明预测结果越准确。两者计算公式如下:
其中,y(1)表示采取干预下的真实的潜在结果,y(0)表示无治疗干预下的真实的潜在结果。
经对比,本发明在ATE和PEHE方面均优于PSM和OLS方法。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。