CN116564523A

CN116564523A - 基于深度概率模型的患者聚类和生存风险预测方法及系统

Info

Publication number: CN116564523A
Application number: CN202310736421.XA
Authority: CN
Inventors: 徐正飞; 顾王逸青; 杨雪洁; 赵树平; 李鹏玉; 苏凯翔; 李娟�; 鲍萍; 宋律
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-08-08

Abstract

本发明提供一种基于深度概率模型的患者聚类和生存风险预测方法及系统，涉及生存分析技术领域。本发明首先获取右删失条件下的用户健康数据，并对该用户健康数据进行预处理；接着基于多任务学习框架的特征提取器，提取预处理后的右删失条件下的用户健康数据的特征表示；并基于特征表示，利用深度概率模型获取数据分布信息，并对数据分布信息进行重构优化；然后在不考虑参数假设的条件下，基于生存预测多任务子网络估计类别水平的风险函数，并基于风险函数获取个体风险估计结果；最后基于优化后的数据分布信息和个体风险估计结果的变分证据下界，获取聚类预测结果和事件时间预测结果。本发明提升了聚类和事件时间预测结果的精度。

Description

基于深度概率模型的患者聚类和生存风险预测方法及系统

技术领域

本发明涉及生存分析技术领域，具体涉及一种基于深度概率模型的患者聚类和生存风险预测方法及系统。

背景技术

生存分析方法是进行风险事件预测的常用手段，该方法能够结合统计和机器学习模型，来估计未来某一特定时间点t风险事件发生的概率，即事件时间预测，也称为“time-to-event prediction”(时间-事件预测或时间到事件预测)。在医疗健康领域，生存分析方法主要用于死亡或者回归事件的预测，其可以准确识别患者的临床风险，发现可解释的患者亚群，为临床医师的决策调整提供帮助。

随着深度学习的发展，比例风险、加速失效时间等基于参数假设的传统回归方法被基于深度神经网络的非线性建模方法所优化，使得研究者可以在不考虑参数假设的条件下直接开展风险估计。目前，生存分析方法主要集中在基于深度学习的生存分析的研究，主要包括：1）基于复杂深度学习的生存分析研究，其往往采用先进、复杂的深度学习模型提升时间-事件预测准确性；2）基于生存曲线校准的生存分析研究，其通过隐式定义生存分布对生存估计结果进行校准，提升模型信度以增强模型的解释性。

然而，将上述方法运用到医疗领域进行生存分析研究时，由于缺乏解释性，导致上述方法对于生存分析预测结果的解释性较差，然而却发现患者亚组可以增强深度学习模型的解释性。综上分析可知，现有技术无法实现同时进行类别分配和时间-事件预测的生存分析，更无法同时提升类别分配和时间-事件预测的综合性能。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种基于深度概率模型的患者聚类和生存风险预测方法及系统，解决了现有技术无法同时提升类别分配和时间-事件预测的综合性能的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明首先提出了一种基于深度概率模型的患者聚类和生存风险预测方法，所述方法包括：

获取右删失条件下的用户健康数据，并对所述右删失条件下的用户健康数据进行预处理；

基于多任务学习框架的特征提取器，提取预处理后的所述右删失条件下的用户健康数据的特征表示；所述多任务学习框架的特征提取器为深度概率模型的编码器；

基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化；所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息；

在不考虑参数假设的条件下，基于生存预测多任务子网络估计类别水平的风险函数，并基于所述风险函数获取个体风险估计结果；

基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界，获取聚类预测结果和事件时间预测结果。

优选的，所述基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化包括：

S31、基于所述特征表示，利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布，并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布；

S32、基于隐变量的后验概率分布，利用特征重构解码器重构所述特征表示的原始特征。

优选的，所述S31、基于所述特征表示，利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布，并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布，用公式表示为：

其中，变分后验分布表示隐变量/>和类别/>的隶属度的后验分布；第一项/>为重构项，表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征/>；第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>；第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>；其中，/>，表示类别c的隶属度先验概率分布；隐变量；/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。

优选的，所述S32、基于隐变量的后验概率分布，利用特征重构解码器重构所述特征表示的原始特征包括如下公式：

其中，表示原始输入特征的重构；/>=Bernoulli(x;/>)；L和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且；其中，/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。

优选的，所述基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界，获取聚类预测结果和事件时间预测结果包括：

设 (Z,X)和T条件独立于患者类别C，C和X条件独立于隐变量Z，则联合概率分布标为：

其中，变分分布，/>和/>分别表示隐变量z和类别c的隶属度的后验估计；/>表示利用参数化为/>的解码器对原始特征进行重构。

第二方面，本发明还提出了一种基于深度概率模型的患者聚类和生存风险预测系统，所述系统包括：

数据获取及预处理模块，用于获取右删失条件下的用户健康数据，并对所述右删失条件下的用户健康数据进行预处理；

数据特征表示提取模块，用于基于多任务学习框架的特征提取器，提取预处理后的所述右删失条件下的用户健康数据的特征表示；所述多任务学习框架的特征提取器为深度概率模型的编码器；

数据分布信息重构模块，用于基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化；所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息；

个体风险估计模块，用于在不考虑参数假设的条件下，基于生存预测多任务子网络估计类别水平的风险函数，并基于所述风险函数获取个体风险估计结果；

结果获取模块，用于基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界，获取聚类预测结果和事件时间预测结果。

优选的，所述数据分布信息重构模块基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化包括：

优选的，所述结果获取模块基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界，获取聚类预测结果和事件时间预测结果包括：

（三）有益效果

本发明提供了一种基于深度概率模型的患者聚类和生存风险预测方法及系统。与现有技术相比，具备以下有益效果：

1、本发明首先获取右删失条件下的用户健康数据，并对该用户健康数据进行预处理；接着基于多任务学习框架的特征提取器（即深度概率模型的编码器），提取预处理后的右删失条件下的用户健康数据的特征表示；并基于特征表示，利用深度概率模型获取数据分布信息，并对数据分布信息进行重构优化；然后在不考虑参数假设的条件下，基于生存预测多任务子网络估计类别水平的风险函数，并基于风险函数获取个体风险估计结果；最后基于优化后的数据分布信息和个体风险估计结果的变分证据下界，获取聚类预测结果和时间-事件（事件时间）预测结果。本发明基于优化数据分布信息和个体风险估计结果的变分证据下界，从而获取准确的聚类和时间-事件预测结果，同时解决了现有技术无法同时提升类别分配和时间-事件预测的综合性能的问题。

2、本发明提出的基于多任务学习框架的深度生存分析网络，将聚类生存预测多任务子网络与基于自编码器的深度概率模型相结合，联合优化时间-事件预测和聚类任务，且同步提升类别分配和时间-事件预测的综合性能，从而可以获取准确的聚类和时间-事件预测结果。

3、本发明在不考虑生存分布假设的条件下，同时对聚类和时间-事件预测结果进行估计，提升模型在真实世界数据中的可扩展性，与现有其他方法相比，所提出方法中的隐空间仅在于获取基于协变量的分布信息，而时间-事件预测网络直接与编码器相连获取生存估计结果，通过二者的联合建模可以获得更准确的类别加权时间-事件预测结果和类别隶属度后验估计。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于深度概率模型的患者聚类和生存风险预测方法的流程图；

图2为本发明基于深度概率模型的患者聚类和生存风险预测方法的实施例的流程图。

图3为本发明实施例中基于多任务学习框架的深度生存分析网络模型的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于深度概率模型的患者聚类和生存风险预测方法及系统，解决了现有技术无法同时提升类别分配和时间-事件预测的综合性能的问题，实现同时进行类别分配和时间-事件预测的高精度生存分析的目的。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

为了解决现有技术无法同时提升类别分配和时间-事件（事件时间）预测的综合性能的问题，以实现同时进行类别分配和时间-事件预测的高精度生存分析的目的，本申请的技术方案对右删失条件下的用户健康数据进行预处理后，将深度概率模型的编码器作为多任务网络的特征提取器，基于预处理后的数据获取特征表示，结合高斯混合先验和特征特征重构解码器实现输入协变量的隐空间嵌入来获取数据分布信息，利用多任务子网络中的生存预测网络，在不考虑生存分布假设的条件下估计群组水平的风险函数，通过优化结合生存估计和数据分布的变分证据下界获取准确的聚类和时间-事件预测结果。本申请的生存聚类和预测的方法与已有方法相比，可以同时在聚类和时间-事件预测任务上取得更为理想的效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

生存分析技术的主要挑战是对患者相关健康数据存在删失情况的处理，其旨在利用I个患者的临床特征、事件发生或删失时间/>，以及删失情况/>估计患者的风险概率h(t)以及一段时间内死亡、再入院等风险事件发生概率的累计分布函数F(t)。

生存分析数据集中患者的特征信息可以表示为。其中，/>表示第i个患者的感兴趣事件在观察期内可能不会发生，包括患者存活至随访结束、随访期间失访，以及患者的死亡原因并非感兴趣事件等右删失情况，而这类情况是生存分析技术领域中最常见的删失情况。患者的类别分配情况表示为c∈{1,...,N}。本申请的技术方案基于生存数据集来开展接下来的时间-事件预测和聚类任务。

基于此，本申请提出技术方案具体如下：

第一方面，本发明首先提出了一种基于深度概率模型的患者聚类和生存风险预测方法，参见图1，该方法包括：

S1、获取右删失条件下的用户健康数据，并对所述右删失条件下的用户健康数据进行预处理；

S2、基于多任务学习框架的特征提取器，提取预处理后的所述右删失条件下的用户健康数据的特征表示；所述多任务学习框架的特征提取器为深度概率模型的编码器；

S3、基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化；所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息；

S4、在不考虑参数假设的条件下，基于生存预测多任务子网络估计类别水平的风险函数，并基于所述风险函数获取个体风险估计结果；

S5、基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界，获取聚类预测结果和时间-事件预测结果。

可见，本实施例首先获取右删失条件下的用户健康数据，并对该用户健康数据进行预处理；接着基于多任务学习框架的特征提取器（即深度概率模型的编码器），提取预处理后的右删失条件下的用户健康数据的特征表示；并基于特征表示，利用深度概率模型获取数据分布信息，并对数据分布信息进行重构优化；然后在不考虑参数假设的条件下，基于生存预测多任务子网络估计类别水平的风险函数，并基于风险函数获取个体风险估计结果；最后基于优化后的数据分布信息和个体风险估计结果的变分证据下界，获取聚类预测结果和时间-事件预测结果。本实施例基于优化数据分布信息和个体风险估计结果的变分证据下界，从而获取准确的聚类和时间-事件预测结果。

下面结合附图1-3，以及对S1-S5具体步骤的解释，来详细说明本发明一个实施例的实现过程。

S1、获取右删失条件下的用户健康数据，并对所述右删失条件下的用户健康数据进行预处理。

首先，获取与患者用户的医疗、健康相关的右删失条件下的健康数据，其主要包括患者存活至随访结束、随访期间失访，以及患者的死亡原因并非感兴趣事件等右删失情况下的用户健康数据。在获取患者健康数据时，主要通过网络公开医疗数据集、与医院合作获取的电子病历数据以及基于生存分析特点生成的仿真数据。然后，对获取的上述用户健康数据进行预处理，实现数据的格式化。对用户健康数据进行预处理包括缺失值处理，连续变量归一化处理、离散数据向量化处理等，具体地：

对用户健康数据进行缺失值处理。依次读入需要处理的数据字段，判断该数据是否是空值异常，如果是空值异常，采用均值填充法填补缺失值。

对用户健康数据进行连续变量归一化处理。连续变量归一化处理的方法用公式可表示为：

其中，表示归一化处理后的用户健康数据，x是原始用户健康数据，u是样本均值，σ是样本标准差。

对右删失条件下的用户健康数据进行离散数据向量化。离散属性的数据进行向量化的方法为：利用one-hot编码方式，将离散特征的每一种取值都看成一种状态，若这一特征中有N个不同的取值，就将该特征抽象成N种不同的状态，N种状态中只有一种状态位值为1，其他状态位值都为0，即N个状态对应N串数字，每个数字只有一个1，其他为0，每串数字代表一个状态，不重复。

通过上述步骤获取患者健康数据，并对这些数据进行预处理，最终输出表格格式的患者健康数据。

S2、基于多任务学习框架的特征提取器，提取预处理后的所述右删失条件下的用户健康数据的特征表示；所述多任务学习框架的特征提取器为深度概率模型的编码器。

实际中，为了充分学习预处理后的患者健康数据的特征信息，从而辅助获得更准确的聚类和时间-事件预测结果，本实施例中一种较佳的处理方式是，将预处理后的患者健康数据输入特征提取器中学习数据特征表示。其中，该特征提取器为深度概率模型（图2中右侧表示深度概率模型）的编码器，即将深度概率模型的编码器作为生存预测多任务子网络（图2中左侧表示生存预测多任务子网络）的特征提取器，来学习患者健康数据的特征表示向量。在本实施例中，深度概率模型和生存预测多任务子网络共同形成了多任务学习框架，具体可参见图2和图3，图3为本实施例中基于多任务学习框架的深度生存分析网络模型的结构图，图2为本实施例中基于深度概率模型的患者聚类和生存风险预测方法的实施例的流程图。

S3、基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化；所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息。

S31、基于所述特征表示，利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布，并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布。

结合高斯混合先验和特征重构解码器实现输入特征的隐空间嵌入，来获取基于类别隶属度先验的隐变量先验概率分布，并利用KL散度使得编码器和重参数化技巧获取隐变量的后验概率分布逼近隐变量的先验分布。具体步骤和公式表示如下：

设类别c的隶属度的先验概率分布为，/>，隐变量/>；/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。

利用编码器获取的特征表示估计混合高斯后验分布信息，然后利用KL散度使得隐变量的后验概率分布接近于隐变量先验概率分布，进而优化变分证据下界，具体如下述公式（1）。

其中，公式（1）中的第一项为重构项，用于生成重构特征；第二项/>促使模型利用参数化为/>的时间-事件预测子网络进行群体水平的时间-事件预测；第三项/>表示利用KL散度使得包含隐变量的变分后验分布/>接近于先验分布。

具体的，其中，变分后验分布表示隐变量/>和类别/>的隶属度的后验分布；第一项/>为重构项，表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征x；第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>；第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>；其中，，/>表示类别c的隶属度先验概率分布；隐变量；/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。

基于隐变量后验信息和特征重构解码器重构原始特征时，具体过程如下公式（2）：

其中，表示原始输入特征的重构；/>=Bernoulli(x;/>)；L(L通常为1) 和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且、/>、/>。/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。采用重参数化技巧解决蒙特卡洛采样导致随机梯度下降过程中的不可微问题，/>。

S4、在不考虑参数假设的条件下，基于生存预测多任务子网络估计类别水平的风险函数，并基于所述风险函数获取个体风险估计结果。

在生存分析技术领域，定义为生存函数，/>表示给定时间段内感兴趣事件未发生的概率，这是通过事件发生时间的累积分布函数/>得出:

风险函数是一种条件概率，表示到时刻 t 时存活的个体在此后一个时间区间[t, t +∆t)内结局事件发生的概率，可用公式表示为：

其中，F(t)的概率密度函数表示为。

采用参数化为的生存预测多任务子网络，直接预测每一类别条件下各个时间分位点的生存风险/>，不考虑对生存分布进行参数假设，采用softplus函数将生存预测多任务子网络的输出转化为一定时间间隔内不同离散时间分位点/>的风险预测结果/>。根据总体生存时间预先定义一个时间轴，评估在0.25、0.5和0.75这三个时间分位点的C指数。为每一群体分配的权重则依赖于采样后的群体隶属度贝叶斯后验分布/>, 因此个体生存风险由群体水平生存风险结果进行加权求和得到。

基于累计风险函数获取的生存函数/>（对应公式（5））以及考虑删失(=0)情况下的似然函数（对应公式（6））分别表示为：

本实施例在不考虑生存分布假设的条件下，同时对聚类和时间-事件预测结果进行估计，可以提升模型在真实世界数据中的可扩展性，与现有其他方法相比，所提出方法中的隐空间仅在于获取基于协变量的分布信息，而时间-事件预测网络直接与编码器相连获取生存估计结果，通过二者的联合建模可以获得更准确的类别加权时间-事件预测结果和类别隶属度后验估计。

设 (Z,X)和T条件独立于患者类别C，C和X条件独立于隐变量Z，联合概率分布：

变分分布，/>和/>分别表示隐变量和类别隶属度的后验估计。/>表示利用参数化为/>的解码器对原始特征进行重构。由于聚类涉及对删失个体的贝叶斯估计，分别采用概率密度函数/>和累计分布函数/>计算个体在删失（/>=0）和非删失（/>=1）情况下的类别隶属度/>

在模型测试过程中，若考虑基于个体生存时间的半监督聚类，聚类结果为，若个体生存时间未知，聚类结果为/>。其中：

1）基于隐变量后验分布，类别先验/>和群体水平的个体风险估计结果计算类别分配后验概率估计/>

表示对于隐变量分布的估计：

其中，J表示向量和z的维度。/>

表示对于类别先验的优化：

（/>）表示对于变分后验的优化：

表示对于类别后验估计的优化：

2）基于类别分配后验估计加权群体水平个体风险/>获取个体风险估计结果/>。

表示对于风险估计结果的优化：

至此，则完成了本实施例一种基于深度概率模型的患者聚类和生存风险预测方法的全部流程。

本实施例通过实验，在合成和半合成数据集上对聚类和预测准确性进行验证，并通过四个真实世界数据集对时间-事件预测准确性进行进一步评价，结果显示本实施例的模型在时间-事件预测任务和针对具有不同生存分布群体的聚类任务中均实现最优表现，解决了以往涉及生存聚类任务的生存分析方法难以同时在生存聚类与时间-事件预测上实现性能提升的问题。

实施例2：

第二方面，本发明还提供了一种基于深度概率模型的患者聚类和生存风险预测系统，该系统包括：

可选的，所述数据分布信息重构模块基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化包括：

可选的，所述S31、基于所述特征表示，利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布，并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布，用公式表示为：

其中，变分后验分布表示隐变量/>和类别/>的隶属度的后验分布；第一项/>为重构项，表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征/>；第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>；第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>；其中，/>，表示类别c的隶属度先验概率分布；隐变量；/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。/>

可选的，所述S32、基于隐变量的后验概率分布，利用特征重构解码器重构所述特征表示的原始特征包括如下公式：

可选的，所述结果获取模块基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界，获取聚类预测结果和事件时间预测结果包括：

其中，变分分布，/>和/>分别表示隐变量/>和类别c隶属度的后验估计；/>表示利用参数化为/>的解码器对原始特征进行重构。

可理解的是，本发明实施例提供的基于深度概率模型的患者聚类和生存风险预测系统与上述基于深度概率模型的患者聚类和生存风险预测方法相对应，其有关内容的解释、举例、有益效果等部分可以参照基于深度概率模型的患者聚类和生存风险预测方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明首先获取右删失条件下的用户健康数据，并对该用户健康数据进行预处理；接着基于多任务学习框架的特征提取器（即深度概率模型的编码器），提取预处理后的右删失条件下的用户健康数据的特征表示；并基于特征表示，利用深度概率模型获取数据分布信息，并对数据分布信息进行重构优化；然后在不考虑参数假设的条件下，基于生存预测多任务子网络估计类别水平的风险函数，并基于风险函数获取个体风险估计结果；最后基于优化后的数据分布信息和个体风险估计结果的变分证据下界，获取聚类预测结果和时间-事件预测结果。本发明基于优化数据分布信息和个体风险估计结果的变分证据下界，从而获取准确的聚类和时间-事件预测结果，同时解决了现有技术无法同时提升类别分配和时间-事件预测的综合性能的问题。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度概率模型的患者聚类和生存风险预测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化包括：

3.如权利要求2所述的方法，其特征在于，所述S31、基于所述特征表示，利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布，并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布，用公式表示为：

4.如权利要求2所述的方法，其特征在于，所述S32、基于隐变量的后验概率分布，利用特征重构解码器重构所述特征表示的原始特征包括如下公式：

其中，表示原始输入特征的重构；/>= Bernoulli(x; />)；L和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且；其中，/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。

5.如权利要求1所述的方法，其特征在于，所述基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界，获取聚类预测结果和事件时间预测结果包括：

6.一种基于深度概率模型的患者聚类和生存风险预测系统，其特征在于，所述系统包括：

7.如权利要求6所述的系统，其特征在于，所述数据分布信息重构模块基于所述特征表示，利用所述深度概率模型获取数据分布信息，并对所述数据分布信息进行重构优化包括：

8.如权利要求7所述的系统，其特征在于，所述S31、基于所述特征表示，利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布，并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布，用公式表示为：

9.如权利要求7所述的系统，其特征在于，所述S32、基于隐变量的后验概率分布，利用特征重构解码器重构所述特征表示的原始特征包括如下公式：

10.如权利要求6所述的系统，其特征在于，所述结果获取模块基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界，获取聚类预测结果和事件时间预测结果包括：