CN116564523A - 基于深度概率模型的患者聚类和生存风险预测方法及系统 - Google Patents
基于深度概率模型的患者聚类和生存风险预测方法及系统 Download PDFInfo
- Publication number
- CN116564523A CN116564523A CN202310736421.XA CN202310736421A CN116564523A CN 116564523 A CN116564523 A CN 116564523A CN 202310736421 A CN202310736421 A CN 202310736421A CN 116564523 A CN116564523 A CN 116564523A
- Authority
- CN
- China
- Prior art keywords
- hidden variable
- distribution
- prior
- prediction
- distribution information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004083 survival effect Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000036541 health Effects 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 27
- 238000012217 deletion Methods 0.000 claims abstract description 23
- 230000037430 deletion Effects 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 239000000203 mixture Substances 0.000 claims description 20
- 238000013459 approach Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 24
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012614 Monte-Carlo sampling Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于深度概率模型的患者聚类和生存风险预测方法及系统,涉及生存分析技术领域。本发明首先获取右删失条件下的用户健康数据,并对该用户健康数据进行预处理;接着基于多任务学习框架的特征提取器,提取预处理后的右删失条件下的用户健康数据的特征表示;并基于特征表示,利用深度概率模型获取数据分布信息,并对数据分布信息进行重构优化;然后在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于风险函数获取个体风险估计结果;最后基于优化后的数据分布信息和个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果。本发明提升了聚类和事件时间预测结果的精度。
Description
技术领域
本发明涉及生存分析技术领域,具体涉及一种基于深度概率模型的患者聚类和生存风险预测方法及系统。
背景技术
生存分析方法是进行风险事件预测的常用手段,该方法能够结合统计和机器学习模型,来估计未来某一特定时间点t风险事件发生的概率,即事件时间预测,也称为“time-to-event prediction”(时间-事件预测或时间到事件预测)。在医疗健康领域,生存分析方法主要用于死亡或者回归事件的预测,其可以准确识别患者的临床风险,发现可解释的患者亚群,为临床医师的决策调整提供帮助。
随着深度学习的发展,比例风险、加速失效时间等基于参数假设的传统回归方法被基于深度神经网络的非线性建模方法所优化,使得研究者可以在不考虑参数假设的条件下直接开展风险估计。目前,生存分析方法主要集中在基于深度学习的生存分析的研究,主要包括:1)基于复杂深度学习的生存分析研究,其往往采用先进、复杂的深度学习模型提升时间-事件预测准确性;2)基于生存曲线校准的生存分析研究,其通过隐式定义生存分布对生存估计结果进行校准,提升模型信度以增强模型的解释性。
然而,将上述方法运用到医疗领域进行生存分析研究时,由于缺乏解释性,导致上述方法对于生存分析预测结果的解释性较差,然而却发现患者亚组可以增强深度学习模型的解释性。综上分析可知,现有技术无法实现同时进行类别分配和时间-事件预测的生存分析,更无法同时提升类别分配和时间-事件预测的综合性能。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于深度概率模型的患者聚类和生存风险预测方法及系统,解决了现有技术无法同时提升类别分配和时间-事件预测的综合性能的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明首先提出了一种基于深度概率模型的患者聚类和生存风险预测方法,所述方法包括:
获取右删失条件下的用户健康数据,并对所述右删失条件下的用户健康数据进行预处理;
基于多任务学习框架的特征提取器,提取预处理后的所述右删失条件下的用户健康数据的特征表示;所述多任务学习框架的特征提取器为深度概率模型的编码器;
基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化;所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息;
在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于所述风险函数获取个体风险估计结果;
基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果。
优选的,所述基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化包括:
S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布;
S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征。
优选的,所述S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布,用公式表示为:
其中,变分后验分布表示隐变量/>和类别/>的隶属度的后验分布;第一项/>为重构项,表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征/>;第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>;第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>;其中,/>,表示类别c的隶属度先验概率分布;隐变量;/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。
优选的,所述S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征包括如下公式:
其中,表示原始输入特征的重构;/>=Bernoulli(x;/>);L和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且;其中,/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。
优选的,所述基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果包括:
设 (Z,X)和T条件独立于患者类别C,C和X条件独立于隐变量Z,则联合概率分布标为:
其中,变分分布,/>和/>分别表示隐变量z和类别c的隶属度的后验估计;/>表示利用参数化为/>的解码器对原始特征进行重构。
第二方面,本发明还提出了一种基于深度概率模型的患者聚类和生存风险预测系统,所述系统包括:
数据获取及预处理模块,用于获取右删失条件下的用户健康数据,并对所述右删失条件下的用户健康数据进行预处理;
数据特征表示提取模块,用于基于多任务学习框架的特征提取器,提取预处理后的所述右删失条件下的用户健康数据的特征表示;所述多任务学习框架的特征提取器为深度概率模型的编码器;
数据分布信息重构模块,用于基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化;所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息;
个体风险估计模块,用于在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于所述风险函数获取个体风险估计结果;
结果获取模块,用于基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果。
优选的,所述数据分布信息重构模块基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化包括:
S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布;
S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征。
优选的,所述S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布,用公式表示为:
其中,变分后验分布表示隐变量/>和类别/>的隶属度的后验分布;第一项/>为重构项,表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征/>;第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>;第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>;其中,/>,表示类别c的隶属度先验概率分布;隐变量;/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。
优选的,所述S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征包括如下公式:
其中,表示原始输入特征的重构;/>=Bernoulli(x;/>);L和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且;其中,/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。
优选的,所述结果获取模块基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果包括:
设 (Z,X)和T条件独立于患者类别C,C和X条件独立于隐变量Z,则联合概率分布标为:
其中,变分分布,/>和/>分别表示隐变量z和类别c的隶属度的后验估计;/>表示利用参数化为/>的解码器对原始特征进行重构。
(三)有益效果
本发明提供了一种基于深度概率模型的患者聚类和生存风险预测方法及系统。与现有技术相比,具备以下有益效果:
1、本发明首先获取右删失条件下的用户健康数据,并对该用户健康数据进行预处理;接着基于多任务学习框架的特征提取器(即深度概率模型的编码器),提取预处理后的右删失条件下的用户健康数据的特征表示;并基于特征表示,利用深度概率模型获取数据分布信息,并对数据分布信息进行重构优化;然后在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于风险函数获取个体风险估计结果;最后基于优化后的数据分布信息和个体风险估计结果的变分证据下界,获取聚类预测结果和时间-事件(事件时间)预测结果。本发明基于优化数据分布信息和个体风险估计结果的变分证据下界,从而获取准确的聚类和时间-事件预测结果,同时解决了现有技术无法同时提升类别分配和时间-事件预测的综合性能的问题。
2、本发明提出的基于多任务学习框架的深度生存分析网络,将聚类生存预测多任务子网络与基于自编码器的深度概率模型相结合,联合优化时间-事件预测和聚类任务,且同步提升类别分配和时间-事件预测的综合性能,从而可以获取准确的聚类和时间-事件预测结果。
3、本发明在不考虑生存分布假设的条件下,同时对聚类和时间-事件预测结果进行估计,提升模型在真实世界数据中的可扩展性,与现有其他方法相比,所提出方法中的隐空间仅在于获取基于协变量的分布信息,而时间-事件预测网络直接与编码器相连获取生存估计结果,通过二者的联合建模可以获得更准确的类别加权时间-事件预测结果和类别隶属度后验估计。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于深度概率模型的患者聚类和生存风险预测方法的流程图;
图2为本发明基于深度概率模型的患者聚类和生存风险预测方法的实施例的流程图。
图3为本发明实施例中基于多任务学习框架的深度生存分析网络模型的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于深度概率模型的患者聚类和生存风险预测方法及系统,解决了现有技术无法同时提升类别分配和时间-事件预测的综合性能的问题,实现同时进行类别分配和时间-事件预测的高精度生存分析的目的。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
为了解决现有技术无法同时提升类别分配和时间-事件(事件时间)预测的综合性能的问题,以实现同时进行类别分配和时间-事件预测的高精度生存分析的目的,本申请的技术方案对右删失条件下的用户健康数据进行预处理后,将深度概率模型的编码器作为多任务网络的特征提取器,基于预处理后的数据获取特征表示,结合高斯混合先验和特征特征重构解码器实现输入协变量的隐空间嵌入来获取数据分布信息,利用多任务子网络中的生存预测网络,在不考虑生存分布假设的条件下估计群组水平的风险函数,通过优化结合生存估计和数据分布的变分证据下界获取准确的聚类和时间-事件预测结果。本申请的生存聚类和预测的方法与已有方法相比,可以同时在聚类和时间-事件预测任务上取得更为理想的效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
生存分析技术的主要挑战是对患者相关健康数据存在删失情况的处理,其旨在利用I个患者的临床特征、事件发生或删失时间/>,以及删失情况/>估计患者的风险概率h(t)以及一段时间内死亡、再入院等风险事件发生概率的累计分布函数F(t)。
生存分析数据集中患者的特征信息可以表示为。其中,/>表示第i个患者的感兴趣事件在观察期内可能不会发生,包括患者存活至随访结束、随访期间失访,以及患者的死亡原因并非感兴趣事件等右删失情况,而这类情况是生存分析技术领域中最常见的删失情况。患者的类别分配情况表示为c∈{1,...,N}。本申请的技术方案基于生存数据集来开展接下来的时间-事件预测和聚类任务。
基于此,本申请提出技术方案具体如下:
第一方面,本发明首先提出了一种基于深度概率模型的患者聚类和生存风险预测方法,参见图1,该方法包括:
S1、获取右删失条件下的用户健康数据,并对所述右删失条件下的用户健康数据进行预处理;
S2、基于多任务学习框架的特征提取器,提取预处理后的所述右删失条件下的用户健康数据的特征表示;所述多任务学习框架的特征提取器为深度概率模型的编码器;
S3、基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化;所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息;
S4、在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于所述风险函数获取个体风险估计结果;
S5、基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和时间-事件预测结果。
可见,本实施例首先获取右删失条件下的用户健康数据,并对该用户健康数据进行预处理;接着基于多任务学习框架的特征提取器(即深度概率模型的编码器),提取预处理后的右删失条件下的用户健康数据的特征表示;并基于特征表示,利用深度概率模型获取数据分布信息,并对数据分布信息进行重构优化;然后在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于风险函数获取个体风险估计结果;最后基于优化后的数据分布信息和个体风险估计结果的变分证据下界,获取聚类预测结果和时间-事件预测结果。本实施例基于优化数据分布信息和个体风险估计结果的变分证据下界,从而获取准确的聚类和时间-事件预测结果。
下面结合附图1-3,以及对S1-S5具体步骤的解释,来详细说明本发明一个实施例的实现过程。
S1、获取右删失条件下的用户健康数据,并对所述右删失条件下的用户健康数据进行预处理。
首先,获取与患者用户的医疗、健康相关的右删失条件下的健康数据,其主要包括患者存活至随访结束、随访期间失访,以及患者的死亡原因并非感兴趣事件等右删失情况下的用户健康数据。在获取患者健康数据时,主要通过网络公开医疗数据集、与医院合作获取的电子病历数据以及基于生存分析特点生成的仿真数据。然后,对获取的上述用户健康数据进行预处理,实现数据的格式化。对用户健康数据进行预处理包括缺失值处理,连续变量归一化处理、离散数据向量化处理等,具体地:
对用户健康数据进行缺失值处理。依次读入需要处理的数据字段,判断该数据是否是空值异常,如果是空值异常,采用均值填充法填补缺失值。
对用户健康数据进行连续变量归一化处理。连续变量归一化处理的方法用公式可表示为:
其中,表示归一化处理后的用户健康数据,x是原始用户健康数据,u是样本均值,σ是样本标准差。
对右删失条件下的用户健康数据进行离散数据向量化。离散属性的数据进行向量化的方法为:利用one-hot编码方式,将离散特征的每一种取值都看成一种状态,若这一特征中有N个不同的取值,就将该特征抽象成N种不同的状态,N种状态中只有一种状态位值为1,其他状态位值都为0,即N个状态对应N串数字,每个数字只有一个1,其他为0,每串数字代表一个状态,不重复。
通过上述步骤获取患者健康数据,并对这些数据进行预处理,最终输出表格格式的患者健康数据。
S2、基于多任务学习框架的特征提取器,提取预处理后的所述右删失条件下的用户健康数据的特征表示;所述多任务学习框架的特征提取器为深度概率模型的编码器。
实际中,为了充分学习预处理后的患者健康数据的特征信息,从而辅助获得更准确的聚类和时间-事件预测结果,本实施例中一种较佳的处理方式是,将预处理后的患者健康数据输入特征提取器中学习数据特征表示。其中,该特征提取器为深度概率模型(图2中右侧表示深度概率模型)的编码器,即将深度概率模型的编码器作为生存预测多任务子网络(图2中左侧表示生存预测多任务子网络)的特征提取器,来学习患者健康数据的特征表示向量。在本实施例中,深度概率模型和生存预测多任务子网络共同形成了多任务学习框架,具体可参见图2和图3,图3为本实施例中基于多任务学习框架的深度生存分析网络模型的结构图,图2为本实施例中基于深度概率模型的患者聚类和生存风险预测方法的实施例的流程图。
S3、基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化;所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息。
S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布。
结合高斯混合先验和特征重构解码器实现输入特征的隐空间嵌入,来获取基于类别隶属度先验的隐变量先验概率分布,并利用KL散度使得编码器和重参数化技巧获取隐变量的后验概率分布逼近隐变量的先验分布。具体步骤和公式表示如下:
设类别c的隶属度的先验概率分布为,/>,隐变量/>;/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。
利用编码器获取的特征表示估计混合高斯后验分布信息,然后利用KL散度使得隐变量的后验概率分布接近于隐变量先验概率分布,进而优化变分证据下界,具体如下述公式(1)。
其中,公式(1)中的第一项为重构项,用于生成重构特征;第二项/>促使模型利用参数化为/>的时间-事件预测子网络进行群体水平的时间-事件预测;第三项/>表示利用KL散度使得包含隐变量的变分后验分布/>接近于先验分布。
具体的,其中,变分后验分布表示隐变量/>和类别/>的隶属度的后验分布;第一项/>为重构项,表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征x;第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>;第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>;其中,,/>表示类别c的隶属度先验概率分布;隐变量;/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。
S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征。
基于隐变量后验信息和特征重构解码器重构原始特征时,具体过程如下公式(2):
其中,表示原始输入特征的重构;/>=Bernoulli(x;/>);L(L通常为1) 和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且、/>、/>。/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。采用重参数化技巧解决蒙特卡洛采样导致随机梯度下降过程中的不可微问题,/>。
S4、在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于所述风险函数获取个体风险估计结果。
在生存分析技术领域,定义为生存函数,/>表示给定时间段内感兴趣事件未发生的概率,这是通过事件发生时间的累积分布函数/>得出:
风险函数是一种条件概率,表示到时刻 t 时存活的个体在此后一个时间区间[t, t +∆t)内结局事件发生的概率,可用公式表示为:
其中,F(t)的概率密度函数表示为。
采用参数化为的生存预测多任务子网络,直接预测每一类别条件下各个时间分位点的生存风险/>,不考虑对生存分布进行参数假设,采用softplus函数将生存预测多任务子网络的输出转化为一定时间间隔内不同离散时间分位点/>的风险预测结果/>。根据总体生存时间预先定义一个时间轴,评估在0.25、0.5和0.75这三个时间分位点的C指数。为每一群体分配的权重则依赖于采样后的群体隶属度贝叶斯后验分布/>, 因此个体生存风险由群体水平生存风险结果进行加权求和得到。
基于累计风险函数获取的生存函数/>(对应公式(5))以及考虑删失(=0)情况下的似然函数(对应公式(6))分别表示为:
本实施例在不考虑生存分布假设的条件下,同时对聚类和时间-事件预测结果进行估计,可以提升模型在真实世界数据中的可扩展性,与现有其他方法相比,所提出方法中的隐空间仅在于获取基于协变量的分布信息,而时间-事件预测网络直接与编码器相连获取生存估计结果,通过二者的联合建模可以获得更准确的类别加权时间-事件预测结果和类别隶属度后验估计。
S5、基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和时间-事件预测结果。
设 (Z,X)和T条件独立于患者类别C,C和X条件独立于隐变量Z,联合概率分布:
变分分布,/>和/>分别表示隐变量和类别隶属度的后验估计。/>表示利用参数化为/>的解码器对原始特征进行重构。由于聚类涉及对删失个体的贝叶斯估计,分别采用概率密度函数/>和累计分布函数/>计算个体在删失(/>=0)和非删失(/>=1)情况下的类别隶属度/>
在模型测试过程中,若考虑基于个体生存时间的半监督聚类,聚类结果为,若个体生存时间未知,聚类结果为/>。其中:
1)基于隐变量后验分布,类别先验/>和群体水平的个体风险估计结果计算类别分配后验概率估计/>
表示对于隐变量分布的估计:
其中,J表示向量和z的维度。/>
表示对于类别先验的优化:
(/>)表示对于变分后验的优化:
表示对于类别后验估计的优化:
2)基于类别分配后验估计加权群体水平个体风险/>获取个体风险估计结果/>。
表示对于风险估计结果的优化:
至此,则完成了本实施例一种基于深度概率模型的患者聚类和生存风险预测方法的全部流程。
本实施例通过实验,在合成和半合成数据集上对聚类和预测准确性进行验证,并通过四个真实世界数据集对时间-事件预测准确性进行进一步评价,结果显示本实施例的模型在时间-事件预测任务和针对具有不同生存分布群体的聚类任务中均实现最优表现,解决了以往涉及生存聚类任务的生存分析方法难以同时在生存聚类与时间-事件预测上实现性能提升的问题。
实施例2:
第二方面,本发明还提供了一种基于深度概率模型的患者聚类和生存风险预测系统,该系统包括:
数据获取及预处理模块,用于获取右删失条件下的用户健康数据,并对所述右删失条件下的用户健康数据进行预处理;
数据特征表示提取模块,用于基于多任务学习框架的特征提取器,提取预处理后的所述右删失条件下的用户健康数据的特征表示;所述多任务学习框架的特征提取器为深度概率模型的编码器;
数据分布信息重构模块,用于基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化;所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息;
个体风险估计模块,用于在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于所述风险函数获取个体风险估计结果;
结果获取模块,用于基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果。
可选的,所述数据分布信息重构模块基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化包括:
S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布;
S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征。
可选的,所述S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布,用公式表示为:
其中,变分后验分布表示隐变量/>和类别/>的隶属度的后验分布;第一项/>为重构项,表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征/>;第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>;第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>;其中,/>,表示类别c的隶属度先验概率分布;隐变量;/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。/>
可选的,所述S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征包括如下公式:
其中,表示原始输入特征的重构;/>=Bernoulli(x;/>);L和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且;其中,/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。
可选的,所述结果获取模块基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果包括:
设 (Z,X)和T条件独立于患者类别C,C和X条件独立于隐变量Z,则联合概率分布标为:
其中,变分分布,/>和/>分别表示隐变量/>和类别c隶属度的后验估计;/>表示利用参数化为/>的解码器对原始特征进行重构。
可理解的是,本发明实施例提供的基于深度概率模型的患者聚类和生存风险预测系统与上述基于深度概率模型的患者聚类和生存风险预测方法相对应,其有关内容的解释、举例、有益效果等部分可以参照基于深度概率模型的患者聚类和生存风险预测方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明首先获取右删失条件下的用户健康数据,并对该用户健康数据进行预处理;接着基于多任务学习框架的特征提取器(即深度概率模型的编码器),提取预处理后的右删失条件下的用户健康数据的特征表示;并基于特征表示,利用深度概率模型获取数据分布信息,并对数据分布信息进行重构优化;然后在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于风险函数获取个体风险估计结果;最后基于优化后的数据分布信息和个体风险估计结果的变分证据下界,获取聚类预测结果和时间-事件预测结果。本发明基于优化数据分布信息和个体风险估计结果的变分证据下界,从而获取准确的聚类和时间-事件预测结果,同时解决了现有技术无法同时提升类别分配和时间-事件预测的综合性能的问题。
2、本发明提出的基于多任务学习框架的深度生存分析网络,将聚类生存预测多任务子网络与基于自编码器的深度概率模型相结合,联合优化时间-事件预测和聚类任务,且同步提升类别分配和时间-事件预测的综合性能,从而可以获取准确的聚类和时间-事件预测结果。
3、本发明在不考虑生存分布假设的条件下,同时对聚类和时间-事件预测结果进行估计,提升模型在真实世界数据中的可扩展性,与现有其他方法相比,所提出方法中的隐空间仅在于获取基于协变量的分布信息,而时间-事件预测网络直接与编码器相连获取生存估计结果,通过二者的联合建模可以获得更准确的类别加权时间-事件预测结果和类别隶属度后验估计。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于深度概率模型的患者聚类和生存风险预测方法,其特征在于,所述方法包括:
获取右删失条件下的用户健康数据,并对所述右删失条件下的用户健康数据进行预处理;
基于多任务学习框架的特征提取器,提取预处理后的所述右删失条件下的用户健康数据的特征表示;所述多任务学习框架的特征提取器为深度概率模型的编码器;
基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化;所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息;
在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于所述风险函数获取个体风险估计结果;
基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果。
2.如权利要求1所述的方法,其特征在于,所述基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化包括:
S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布;
S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征。
3.如权利要求2所述的方法,其特征在于,所述S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布,用公式表示为:
其中,变分后验分布表示隐变量/>和类别/>的隶属度的后验分布;第一项/>为重构项,表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征/>;第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>;第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>;其中,/>,表示类别c的隶属度先验概率分布;隐变量;/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。
4.如权利要求2所述的方法,其特征在于,所述S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征包括如下公式:
其中,表示原始输入特征的重构;/>= Bernoulli(x; />);L和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且;其中,/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。
5.如权利要求1所述的方法,其特征在于,所述基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果包括:
设 (Z,X)和T条件独立于患者类别C,C和X条件独立于隐变量Z,则联合概率分布标为:
其中,变分分布,/>和/>分别表示隐变量z和类别c的隶属度的后验估计;/>表示利用参数化为/>的解码器对原始特征进行重构。
6.一种基于深度概率模型的患者聚类和生存风险预测系统,其特征在于,所述系统包括:
数据获取及预处理模块,用于获取右删失条件下的用户健康数据,并对所述右删失条件下的用户健康数据进行预处理;
数据特征表示提取模块,用于基于多任务学习框架的特征提取器,提取预处理后的所述右删失条件下的用户健康数据的特征表示;所述多任务学习框架的特征提取器为深度概率模型的编码器;
数据分布信息重构模块,用于基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化;所述数据分布信息包括所述特征表示中基于类别隶属度先验的隐变量先验概率分布信息;
个体风险估计模块,用于在不考虑参数假设的条件下,基于生存预测多任务子网络估计类别水平的风险函数,并基于所述风险函数获取个体风险估计结果;
结果获取模块,用于基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果。
7.如权利要求6所述的系统,其特征在于,所述数据分布信息重构模块基于所述特征表示,利用所述深度概率模型获取数据分布信息,并对所述数据分布信息进行重构优化包括:
S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布;
S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征。
8.如权利要求7所述的系统,其特征在于,所述S31、基于所述特征表示,利用高斯混合先验获取基于类别隶属度先验的隐变量先验概率分布,并基于KL散度使得编码器和重参数化技巧获取的隐变量的后验概率分布逼近所述隐变量先验概率分布,用公式表示为:
其中,变分后验分布表示隐变量/>和类别/>的隶属度的后验分布;第一项/>为重构项,表示基于隐变量/>和参数化为/>的特征重构解码器重构原始特征/>;第二项/>促使模型利用参数化为φ的生存预测多任务子网络进行群体类别水平的事件时间预测/>;第三项表示利用KL散度使得变分后验分布/>接近于隐变量和类别隶属度先验分布/>;其中,/>,表示类别c的隶属度先验概率分布;隐变量;/>和/>分别表示由类别c决定的高斯混合先验分布的均值和方差。
9.如权利要求7所述的系统,其特征在于,所述S32、基于隐变量的后验概率分布,利用特征重构解码器重构所述特征表示的原始特征包括如下公式:
其中,表示原始输入特征的重构;/>= Bernoulli(x; />);L和W分别表示蒙特卡洛采样的次数以及协变量的维度; 且;其中,/>和/>分别表示参数为/>和/>的特征编码器和重构解码器。
10.如权利要求6所述的系统,其特征在于,所述结果获取模块基于优化后的所述数据分布信息和所述个体风险估计结果的变分证据下界,获取聚类预测结果和事件时间预测结果包括:
设 (Z,X)和T条件独立于患者类别C,C和X条件独立于隐变量Z,则联合概率分布标为:
其中,变分分布,/>和/>分别表示隐变量z和类别c的隶属度的后验估计;/>表示利用参数化为/>的解码器对原始特征进行重构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736421.XA CN116564523A (zh) | 2023-06-21 | 2023-06-21 | 基于深度概率模型的患者聚类和生存风险预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310736421.XA CN116564523A (zh) | 2023-06-21 | 2023-06-21 | 基于深度概率模型的患者聚类和生存风险预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564523A true CN116564523A (zh) | 2023-08-08 |
Family
ID=87493139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310736421.XA Pending CN116564523A (zh) | 2023-06-21 | 2023-06-21 | 基于深度概率模型的患者聚类和生存风险预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564523A (zh) |
-
2023
- 2023-06-21 CN CN202310736421.XA patent/CN116564523A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109659033B (zh) | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 | |
US11710571B2 (en) | Long short-term memory model-based disease prediction method and apparatus, and computer device | |
US20220254493A1 (en) | Chronic disease prediction system based on multi-task learning model | |
WO2016192612A1 (zh) | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 | |
Baio et al. | Bayesian cost-effectiveness analysis with the R package BCEA | |
Díaz Muñoz et al. | Super learner based conditional density estimation with application to marginal structural models | |
Zhang et al. | Multivariate time series missing data imputation using recurrent denoising autoencoder | |
Alvares et al. | Bayesian survival analysis with BUGS | |
WO2021151295A1 (zh) | 患者治疗方案的确定方法、装置、计算机设备及介质 | |
CN114864099B (zh) | 一种基于因果关系挖掘的临床数据自动化生成方法及系统 | |
CN107480435A (zh) | 一种应用于临床数据的自动搜索机器学习系统及方法 | |
CN110897634A (zh) | 一种基于生成对抗网络的心电信号生成方法 | |
CN113724815A (zh) | 基于决策分群模型的信息推送方法及装置 | |
CN116631564A (zh) | 一种急诊电子病历管理系统及管理方法 | |
CN116959585B (zh) | 基于深度学习的全基因组预测方法 | |
CN110060749B (zh) | 基于sev-sdg-cnn的电子病历智能诊断方法 | |
CN116759076A (zh) | 一种基于医疗影像的无监督疾病诊断方法及系统 | |
CN116564523A (zh) | 基于深度概率模型的患者聚类和生存风险预测方法及系统 | |
CN115376638A (zh) | 一种基于多源健康感知数据融合的生理特征数据分析方法 | |
Permanasari et al. | A web-based decision support system of patient time prediction using iterative dichotomiser 3 algorithm | |
CN111243697A (zh) | 一种基于神经网络对目标对象数据进行判断的方法及系统 | |
Butner et al. | Ghost hunting in the nonlinear dynamic machine | |
CN115966314B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
Segal | Representative curves for longitudinal data via regression trees | |
Zang et al. | Bayesian multistate life table methods for complex, high-dimensional state spaces: Development and illustration of a new method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |