CN116564524B - 一种伪标签演变趋势正则的预后预测装置 - Google Patents

一种伪标签演变趋势正则的预后预测装置 Download PDF

Info

Publication number
CN116564524B
CN116564524B CN202310791063.2A CN202310791063A CN116564524B CN 116564524 B CN116564524 B CN 116564524B CN 202310791063 A CN202310791063 A CN 202310791063A CN 116564524 B CN116564524 B CN 116564524B
Authority
CN
China
Prior art keywords
prognosis
patient
time period
time
patients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310791063.2A
Other languages
English (en)
Other versions
CN116564524A (zh
Inventor
胡丹青
朱晓峰
苏慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310791063.2A priority Critical patent/CN116564524B/zh
Publication of CN116564524A publication Critical patent/CN116564524A/zh
Application granted granted Critical
Publication of CN116564524B publication Critical patent/CN116564524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种伪标签演变趋势正则的预后预测装置,其执行时:获取包含多名患者的预后数据集,选择出患者发生终点事件或失访的时间最大值并将其划分成多个等间隔的时间段,计算所有患者每个时间段内的预后标签结果,其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果;构建预后预测模型,预测患者每个时间段内发生终点事件的概率;构建损失函数,包括各时间段内预测结果和预后标签结果之间的误差,以及根据预后标签结果计算的预后演变趋势正则化项;基于损失函数对预后预测模型进行参数优化;利用优化的预后预测模型进行预后预测。

Description

一种伪标签演变趋势正则的预后预测装置
技术领域
本发明涉及医疗数据挖掘技术领域,特别涉及预后预测方面,具体涉及一种伪标签演变趋势正则的预后预测装置。
背景技术
预后预测是指预测当前时间点之后未来某时间点发生终点事件风险的研究。常见的预后预测问题有生存分析、癌症复发预测等等。
预后数据有一类典型特征,即为删失数据。删失数据指的是在随访期间,还未发生终点事件的患者,在某一时间点失访,从而在失访时间点后患者是否发生终点事件处于未知状态。
针对预后数据的这一特点,研究人员首先利用Cox比例风险回归、随机生存森林、Deepsurv等生存分析方法,来构建预后预测模型。然而,这类方法通常具有比例风险假设,且得到的预测结果还需要通过配合估计得到的基线生存函数才能得到患者在某时刻的生存积累(Jared L. Katzman, Uri Shaham, Alexander Cloninger, Jonathan Bates,Tingting Jiang, Yuval Kluger. DeepSurv: personalized treatment recommendersystem using a Cox proportional hazards deep neural network. BMC MedicalResearch Methodology, 2018, 18(1): 24.)。
另一种方式是将预后预测问题转换成分类问题,即预测患者在某时间段内发生终点事件的风险。然而,这一类方法首先无法应对删失数据,因为在某些时间段内,患者数据出现删失则无法确定患者的标签是什么;此外,这类方法在同时预测多个时间段预后情况,也并未考虑不同时间段患者预后情况的演变趋势(Shengqiang Chi, Yu Tian, FengWang, Yu Wang, Ming Chen, Jingsong Li. Deep Semisupervised Multitask LearningModel and Its Interpretability for Survival Analysis. IEEE Journal ofBiomedical and Health Informatics, 2021, 25(8): 3185-96.)。
发明内容
针对上述技术问题以及本领域存在的不足之处,本发明提供了一种伪标签演变趋势正则的预后预测装置,利用KM曲线(Kaplan-Meier生存曲线)估计患者失访导致的删失数据在失访以及之后的时间段内发生终点事件的概率作为伪标签,然后将分类任务转换为回归任务预测患者各个时间段内的发生终点事件的概率,最后利用正则化项,将不同时间段预后情况的演变趋势添加到对应模型参数之中,从而实现更为精准的预后预测。
一种伪标签演变趋势正则的预后预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取包含多名患者的预后数据集,选择出患者发生终点事件或失访的时间最大值(即最长的随访时间)并将其划分成多个等间隔的时间段,计算所有患者每个时间段内的预后标签结果,其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果;
构建预后预测模型,预测患者每个时间段内发生终点事件的概率;
构建损失函数,包括各时间段内预测结果和预后标签结果之间的误差,以及根据预后标签结果计算的预后演变趋势正则化项;
基于损失函数对预后预测模型进行参数优化;
利用优化的预后预测模型进行预后预测。
所述的伪标签演变趋势正则的预后预测装置,时间段间隔可根据研究的具体预后事件发生事件跨度进行选择,例如可以为1小时、1天、1周、1月或1年等。
在一实施例中,所述的伪标签演变趋势正则的预后预测装置,对于未失访的患者,尚未发生终点事件的时间段内的预后标签结果为0,发生终点事件及之后的时间段内的预后标签结果为1。
在一实施例中,所述的伪标签演变趋势正则的预后预测装置,对于失访患者,在失访的时间段之前的各时间段内的预后标签结果为0。
在一实施例中,所述的伪标签演变趋势正则的预后预测装置,预后预测模型中设置的参数向量的数量与时间段的数量一致,各参数向量的长度等于患者临床数据的长度,采用Sigmoid函数基于患者临床数据预测患者每个时间段内发生终点事件的概率。
在一实施例中,所述的伪标签演变趋势正则的预后预测装置,采用均方误差计算各时间段内预测结果和预后标签结果之间的误差。
在一实施例中,所述的伪标签演变趋势正则的预后预测装置,构建的损失函数还包括利用范数2正则化约束预后预测模型参数矩阵数值大小。
在一实施例中,所述的伪标签演变趋势正则的预后预测装置,构建的损失函数还包括利用排序损失约束不同时间段预测结果大小关系,使得后面时间段的预测结果不小于前面时间段的预测结果。
所述的伪标签演变趋势正则的预后预测装置,根据预后标签结果计算的预后演变趋势正则化项可将不同时间段内患者预后的演变趋势融入预后预测模型的参数学习中,使得两个时间段内的患者预后标签结果相近时对应的预后预测模型参数也相近,其中可采用高斯核函数、范数2距离的平方或者范数1距离等计算两个时间段内所有患者预后标签结果之间的相似性。
本发明还提供了一种伪标签演变趋势正则的预后预测装置,包括:
数据获取单元,用于获取包含多名患者的预后数据集,选择出患者发生终点事件或失访的时间最大值并将其划分成多个等间隔的时间段,计算所有患者每个时间段内的预后标签结果,其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果;
模型构建单元,用于构建预后预测模型,预测患者每个时间段内发生终点事件的概率;
损失函数构建单元,用于构建损失函数,包括各时间段内预测结果和预后标签结果之间的误差,以及根据预后标签结果计算的预后演变趋势正则化项;
训练单元,用于基于损失函数对预后预测模型进行参数优化;
应用单元,用于利用优化的预后预测模型进行预后预测。
本发明与现有技术相比,有益效果有:
首先,根据患者随访数据将随访阶段划分为多个连续时间段;然后根据患者随访数据确定患者在每个时间段内的终点事件发生情况;针对患者失访而导致出现删失的情况,利用KM曲线计算该患者在失访以及失访之后的时间段内的终点事件发生的概率;然后利用模型预测每个时间段内发生终点事件的概率并利用误差损失以回归任务训练模型;并可利用排序损失Lossrank保证后续时间段的预测结果大于前面时间段的预测结果;利用根据预后标签结果计算的预后演变趋势正则化项Lossevol添加不同时间段预后情况的演变趋势,使得预后情况相近的两个时间段对应的模型参数相近,预后情况差异较大的两个时间段对应的模型参数差异大;利用上述损失函数的构建以及误差反向传播,更新模型参数得到最终的预后预测模型。针对测试样本,利用训练好的模型直接输出测试样本在各个时间段内发生终点事件的概率,从而实现更为精准的预后预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测装置的结构示意图。
图2为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测方法流程框图。
图3为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测方法流程中针对不同患者各时间段内预后标签结果分类计算示意图。
图4为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测方法流程中损失函数构建示意图。
图5为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测的另一结构示意图。
具体实施方式
下面结合附图及具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。
为了能够充分利用患者失访导致的删失数据信息以及患者预后随时间的演变趋势,本发明提供了一种伪标签演变趋势正则的预后预测装置,参见图1,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现以下过程:
获取包含多名患者的预后数据集,选择出患者发生终点事件或失访的时间最大值并将其划分成多个等间隔的时间段,计算所有患者每个时间段内的预后标签结果,其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果;
构建预后预测模型,预测患者每个时间段内发生终点事件的概率;
构建损失函数,包括各时间段内预测结果和预后标签结果之间的误差,以及根据预后标签结果计算的预后演变趋势正则化项;
基于损失函数对预后预测模型进行参数优化;
利用优化的预后预测模型进行预后预测。
上述过程具体可表现为如图2所示的方法和流程,包括步骤:
S101,将包含n名患者的预后数据集作为训练数据,设预后数据集D={(x1,T11),(x2,T22),..., (xi,Tii),..., (xn,Tnn)},其中,(xi,Tii)表示患者i的数据,xi表示患者i的临床数据,Ti表示发生终点事件或者失访的时间,δi则表示在随访期间是否发生终点事件或失访,当δi=1时,则Ti表示的是发生事件的时间,当δi=0时,则Ti表示的是失访的时间。首先从所有患者中选择出最大的随访时间Tmax=max([T1,T2,...,Ti,...,Tn]),然后根据一定的时间间隔t,将Tmax按照t划分成m个相应的时间段{(T0,Tt],(Tt,T2×t],..., (Tj×t,T(j+1)×t],..., (T(m-1)×t,Tmax]},j为0,1,...,m-1。
实施例中,可根据研究的具体预后事件发生事件跨度,选择适宜的时间间隔t,可以为1小时、1天、1周、1月或1年等。
S102,针对步骤S101得到的m个时间段,依据患者预后数据集D判断所有患者在每个时间段内的预后情况。参见图3,对于未失访患者,尚未发生终点事件的时间段内的预后标签结果为0,发生终点事件及之后的时间段内的预后标签结果为1,即当患者在时间段(Tj×t,T(j+1)×t]内未发生预后事件,即Ti> T(j+1)×t,则该患者在(Tj×t,T(j+1)×t]内的标签为0,若患者在时间段(Tj×t,T(j+1)×t]内发生预后事件,即Ti∈(Tj×t,T(j+1)×t]且δi=1,则该患者在(Tj×t,T(j+1)×t]内的标签为1,其在(Tj×t,T(j+1)×t]之后的所有时间段的标签均为一。对于失访患者,在失访的时间段之前的各时间段内的预后标签结果为0,患者失访的时间段及其之后各时间段内则利用KM曲线计算伪标签结果作为预后标签结果,例如,若患者在时间段(Tj×t,T(j+1)×t] (此时j为1,2,...,m-1)内失访,即Ti∈(Tj×t,T(j+1)×t]且δi=0,则该患者在(Tj×t,T(j+1)×t]内的伪标签由如下公式计算:,其中:S(T(j+1)×t)表示患者失访时间段(Tj×t,T(j+1)×t]内的伪标签结果,d (j+1)×t表示在时间段(Tj×t,T(j+1)×t]内发生终点事件的患者人数,r (j+1)×t表示到时间T(j+1)×t还未发生终点事件且未失访的患者人数,S(Tj×t)表示患者失访时间段(Tj×t,T(j+1)×t]的前一时间段(T(j-1)×t,Tj×t]内的伪标签结果,S(Tj×t)可参考上式反复迭代计算获得,例如,S(T1)可按照上式通过S(T0)计算获得,依次类推,初始值S(T0)设置为1;在该患者的后续时间段内,参照上述类似的公式,按照/>计算对应的伪标签结果,K为j+1,j+2,...,m-1。由此可得任一患者最终所有时间段内的预后标签结果,记为/>
S103,根据步骤S101和S102得到n名患者m个时间段内的预后标签结果(含伪标签结果)之后,构建预后预测模型。模型有m个参数向量,即参数矩阵,每个参数向量wi的长度等于临床数据xi的长度,用于预测对应时间段内患者的预后情况,其中τ(·)为Sigmoid函数;经过上式可得到任一患者m个时间段对应的m个预后预测结果/>
S104,参见图4,根据步骤S102和S103得到的m个时间段预后标签结果以及预后预测结果/>,利用如下均方误差计算预后标签结果与预后预测结果之间的误差:/>
其中n表示训练数据中患者数量,l表示训练数据中第l位患者,i表示对应第i个时间段。
S105,参见图4,为防止模型产生过拟合问题,利用如下范数2正则化约束参数矩阵数值大小:
即计算预后预测模型参数矩阵W的Frobenius范数的平方。
S106,参见图4,根据步骤S102和S103得到的m个时间段预后标签结果以及预后预测结果/>,为保证后续时间段的预测结果不小于前面时间段的预测结果,即j>i时,/>,则利用如下ranking损失函数,实现相关约束:
其中,n表示训练数据中患者数量,l表示训练数据中第l位患者,i、j分别表示对应第i、j个时间段。
S107,参见图4,根据步骤S102、S103得到的各个时间点预后标签结果 ,计算预后演变趋势正则化项,如下所示:
其中,h、g表示时间段,k是超参数,表示考虑预后演变的时间窗大小,Sim(yh,yg)用于计算两个时间段h、g内,所有患者预后情况之间的相似性,具体的,Sim(yh,yg)可以是高斯核相似度(其中σ为可人为设置的超参数),也可以是其他相似度度量方法,例如范数2距离的平方/>,范数1距离/>等;/>(其中n表示患者数)表示对应时间段所有患者预后标签向量;用于计算对应两个时间段h、g内,模型参数的一致性,wh表示时间段h对应的模型参数向量,wg表示时间段g对应的模型参数向量。当两个时间段之间的预后结果较为相似时,则Sim(yh,yg)的值较大,则最优化时会使得/>值更小,从而使得两个时间段对应的模型参数更加一致;反之,则会使两个时间段对应的模型参数差距变大,从而将不同时间段内患者预后的演变趋势融入的模型参数学习中来。通过超参数k,可以控制考虑预后演变趋势的时间窗大小,k值越大,则可以在参数优化每次迭代中直接对较远两个时间段对应参数进行直接约束;反之如果k值越小,则在每次参数优化迭代时仅考虑较近两个时间段之间的演变趋势,较远时间段参数的影响则只能通过多次迭代实现。
S108,根据步骤S104,S105,S106,S107得到的各个损失函数,针对n名患者的训练数据,利用如下公式计算总的损失函数:
其中,αβγ为超参数,用于控制各项约束对于模型参数影响的强度,优选α≥0,β≥0,γ≥0,进一步优选,γ>0。根据上述Loss,利用误差反向传播更新模型参数直至收敛。
S109,根据步骤S108训练好的模型,针对测试样本xtest,利用训练好的模型参数,利用/>得到各个时间段对应的预后预测结果
上述集成自适应相似患者图的疾病预测装置中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现如图2所示的方法和流程。
本发明还提供了一种如图5所示的一种伪标签演变趋势正则的预后预测装置500,同样能实现上述如图2所示的方法和流程,具体包括:
数据获取单元501,用于获取包含多名患者的预后数据集,选择出患者发生终点事件或失访的时间最大值并将其划分成多个等间隔的时间段,计算所有患者每个时间段内的预后标签结果,其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果;
模型构建单元502,用于构建预后预测模型,预测患者每个时间段内发生终点事件的概率;
损失函数构建单元503,用于构建损失函数,包括各时间段内预测结果和预后标签结果之间的误差,以及根据预后标签结果计算的预后演变趋势正则化项;
训练单元504,用于基于损失函数对预后预测模型进行参数优化;
应用单元505,用于利用优化的预后预测模型进行预后预测。
需要说明的是,上述具体实施方式提供的伪标签演变趋势正则的预后预测装置在执行上述如图2所示的方法和流程时,应以上述各功能单元的划分进行举例说明,可以根据需要将上述功能分配由不同的功能单元完成,即在终端或服务器的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的伪标签演变趋势正则的预后预测装置与其执行的方法流程实施例属于同一构思,其具体实现过程详见上文如图2所示的方法和流程介绍,这里不再赘述。
利用上述的一种伪标签演变趋势正则的预后预测装置进行具体实验,以验证其所执行的方法流程的效果。实验例中,我们以肺癌患者的死亡随访数据为标签,使用的数据包括患者在院的人口统计学、检查检验、癌症分期、病理结果等。实验例中选择Cox比例风险回归、随机生存森林、Deepsurv三种生存分析方法,以及逻辑回归、随机森林、梯度提升树三种分类方法;此外,我们还将患者失访导致的删失数据和演变趋势损失Lossevol去除,作为对比。实验采用10重交叉验证进行,每一重样本都作为测试集用于评估各个方法的性能。我们选择受试者工作特征曲线下面积AUC作为性能评估指标,我们选择1年、3年、5年三个特定的时间点计算该时间点预测结果的AUC值。实验结果如表1所示。能够看到,本发明公开的装置所执行的方法流程,相较于基线生存分析和分类方法都取得了更好的预测效果,特别是对于短期内预后预测效果提升显著。此外,相较于没有利用伪标签和演变趋势约束损失的模型,使用了两者的模型性能更好。
表1
总而言之,本发明具体实施方式装置在执行时,首先根据患者随访数据将随访阶段划分为多个连续时间段,然后根据患者随访数据确定患者在每个时间段内的终点事件发生情况,针对由于失访导致出现的删失情况,利用KM曲线计算该患者在失访及其之后时间段内的终点事件发生的概率,接着利用模型预测每个时间段内发生终点事件的概率并利用均方误差损失以回归任务训练模型,再利用Lossrank保证后续时间段的预测结果大于前面时间段的预测结果,利用Lossevol添加不同时间段预后情况的演变趋势,使得预后情况相近的两个时间段对应的模型参数相近,预后情况差异较大的两个时间段对应的模型参数差异大,利用上述损失函数的构建以及误差反向传播,更新模型参数得到最终的预后预测模型;针对测试样本,利用训练好的模型直接输出测试样本在各个时间段内发生终点事件的概率,从而实现更为精准的预后预测。
此外应理解,在阅读了本发明的上述描述内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (6)

1.一种伪标签演变趋势正则的预后预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,其特征在于,处理器执行计算机程序时实现以下步骤:
获取包含多名患者的预后数据集,选择出患者发生终点事件或失访的时间最大值并将其划分成m个等时间间隔t的时间段,计算所有患者每个时间段内的预后标签结果,其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果;若患者在时间段(Tj×t,T(j+1)×t]内失访,j为1,2,...,m-1,即Ti∈(Tj×t,T(j+1)×t]且δi=0,Ti表示患者i发生终点事件或者失访的时间,δi表示患者i在随访期间是否发生终点事件或失访,则该患者在(Tj×t,T(j+1)×t]内的伪标签由如下公式计算:,其中:S(T(j+1)×t)表示患者失访时间段(Tj×t,T(j+1)×t]内的伪标签结果,d (j+1)×t表示在时间段(Tj×t,T(j+1)×t]内发生终点事件的患者人数,r (j+1)×t表示到时间T(j+1)×t还未发生终点事件且未失访的患者人数,S(Tj×t)表示患者失访时间段(Tj×t,T(j+1)×t]的前一时间段(T(j-1)×t,Tj×t]内的伪标签结果,S(Tj×t)参考上式反复迭代计算获得;在该患者的后续时间段内,参照上述公式,按照/>计算对应的伪标签结果,K为j+1,j+2,...,m-1;
构建预后预测模型,预测患者每个时间段内发生终点事件的概率;预后预测模型中设置的参数向量的数量与时间段的数量一致,各参数向量的长度等于患者临床数据的长度,采用Sigmoid函数基于患者临床数据预测患者每个时间段内发生终点事件的概率;
构建损失函数Loss,包括各时间段内预测结果和预后标签结果之间的误差Lossmse,根据预后标签结果计算的预后演变趋势正则化项Lossevol,利用范数2 Lossl2正则化约束预后预测模型参数矩阵数值大小,以及利用排序损失Lossrank约束不同时间段预测结果大小关系,使得后面时间段的预测结果不小于前面时间段的预测结果;
其中,αβγ为超参数,用于控制各项约束对于模型参数影响的强度,α≥0,β≥0,γ>0;
根据预后标签结果计算的预后演变趋势正则化项可将不同时间段内患者预后的演变趋势融入预后预测模型的参数学习中,使得两个时间段内的患者预后标签结果相近时对应的预后预测模型参数也相近,其中采用高斯核函数、范数2距离的平方或者范数1距离计算两个时间段内所有患者预后标签结果之间的相似性:
其中,h、g表示时间段,k是超参数,表示考虑预后演变的时间窗大小,Sim(yh,yg)用于计算两个时间段h、g内,所有患者预后情况之间的相似性,Sim(yh,yg)为高斯核相似度,其中σ为人为设置的超参数,或范数2距离的平方/>,或范数1距离/>、/>表示对应时间段所有患者预后标签向量,其中n表示患者数;/>用于计算对应两个时间段h、g内,模型参数的一致性,wh表示时间段h对应的模型参数向量,wg表示时间段g对应的模型参数向量;
基于损失函数对预后预测模型进行参数优化;
利用优化的预后预测模型进行预后预测。
2.根据权利要求1所述的伪标签演变趋势正则的预后预测装置,其特征在于,时间段间隔为1小时、1天、1周、1月或1年。
3.根据权利要求1所述的伪标签演变趋势正则的预后预测装置,其特征在于,对于未失访的患者,尚未发生终点事件的时间段内的预后标签结果为0,发生终点事件及之后的时间段内的预后标签结果为1。
4.根据权利要求1所述的伪标签演变趋势正则的预后预测装置,其特征在于,对于失访患者,在失访的时间段之前的各时间段内的预后标签结果为0。
5.根据权利要求1所述的伪标签演变趋势正则的预后预测装置,其特征在于,采用均方误差计算各时间段内预测结果和预后标签结果之间的误差。
6.一种伪标签演变趋势正则的预后预测装置,其特征在于,包括:
数据获取单元,用于获取包含多名患者的预后数据集,选择出患者发生终点事件或失访的时间最大值并将其划分成m个等时间间隔t的时间段,计算所有患者每个时间段内的预后标签结果,其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果;若患者在时间段(Tj×t,T(j+1)×t]内失访,j为1,2,...,m-1,即Ti∈(Tj×t,T(j+1)×t]且δi=0,Ti表示患者i发生终点事件或者失访的时间,δi表示患者i在随访期间是否发生终点事件或失访,则该患者在(Tj×t,T(j+1)×t]内的伪标签由如下公式计算:,其中:S(T(j+1)×t)表示患者失访时间段(Tj×t,T(j+1)×t]内的伪标签结果,d (j+1)×t表示在时间段(Tj×t,T(j+1)×t]内发生终点事件的患者人数,r (j+1)×t表示到时间T(j+1)×t还未发生终点事件且未失访的患者人数,S(Tj×t)表示患者失访时间段(Tj×t,T(j+1)×t]的前一时间段(T(j-1)×t,Tj×t]内的伪标签结果,S(Tj×t)参考上式反复迭代计算获得;在该患者的后续时间段内,参照上述公式,按照计算对应的伪标签结果,K为j+1,j+2,...,m-1;
模型构建单元,用于构建预后预测模型,预测患者每个时间段内发生终点事件的概率;预后预测模型中设置的参数向量的数量与时间段的数量一致,各参数向量的长度等于患者临床数据的长度,采用Sigmoid函数基于患者临床数据预测患者每个时间段内发生终点事件的概率;
损失函数构建单元,用于构建损失函数Loss,包括各时间段内预测结果和预后标签结果之间的误差Lossmse,根据预后标签结果计算的预后演变趋势正则化项Lossevol,利用范数2 Lossl2正则化约束预后预测模型参数矩阵数值大小,以及利用排序损失Lossrank约束不同时间段预测结果大小关系,使得后面时间段的预测结果不小于前面时间段的预测结果;
其中,αβγ为超参数,用于控制各项约束对于模型参数影响的强度,α≥0,β≥0,γ>0;
根据预后标签结果计算的预后演变趋势正则化项可将不同时间段内患者预后的演变趋势融入预后预测模型的参数学习中,使得两个时间段内的患者预后标签结果相近时对应的预后预测模型参数也相近,其中采用高斯核函数、范数2距离的平方或者范数1距离计算两个时间段内所有患者预后标签结果之间的相似性:
其中,h、g表示时间段,k是超参数,表示考虑预后演变的时间窗大小,Sim(yh,yg)用于计算两个时间段h、g内,所有患者预后情况之间的相似性,Sim(yh,yg)为高斯核相似度,其中σ为人为设置的超参数,或范数2距离的平方/>,或范数1距离/>、/>表示对应时间段所有患者预后标签向量,其中n表示患者数;/>用于计算对应两个时间段h、g内,模型参数的一致性,wh表示时间段h对应的模型参数向量,wg表示时间段g对应的模型参数向量;
训练单元,用于基于损失函数对预后预测模型进行参数优化;
应用单元,用于利用优化的预后预测模型进行预后预测。
CN202310791063.2A 2023-06-30 2023-06-30 一种伪标签演变趋势正则的预后预测装置 Active CN116564524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310791063.2A CN116564524B (zh) 2023-06-30 2023-06-30 一种伪标签演变趋势正则的预后预测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310791063.2A CN116564524B (zh) 2023-06-30 2023-06-30 一种伪标签演变趋势正则的预后预测装置

Publications (2)

Publication Number Publication Date
CN116564524A CN116564524A (zh) 2023-08-08
CN116564524B true CN116564524B (zh) 2023-10-03

Family

ID=87486416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310791063.2A Active CN116564524B (zh) 2023-06-30 2023-06-30 一种伪标签演变趋势正则的预后预测装置

Country Status (1)

Country Link
CN (1) CN116564524B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640510A (zh) * 2020-04-09 2020-09-08 之江实验室 一种基于深度半监督多任务学习生存分析的疾病预后预测系统
CN112289455A (zh) * 2020-10-21 2021-01-29 王智 一种人工智能神经网络学习模型构建系统、构建方法
CN112381258A (zh) * 2019-11-26 2021-02-19 国家电网公司 表计运行生命周期预测方法及装置
CN114242254A (zh) * 2022-01-13 2022-03-25 南京鼓楼医院 一种系统性红斑狼疮患者的生存结局预测系统
CN116153495A (zh) * 2022-11-29 2023-05-23 厦门大学 一种食管癌患者免疫治疗预后生存预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7321881B2 (en) * 2004-02-27 2008-01-22 Aureon Laboratories, Inc. Methods and systems for predicting occurrence of an event
US20170177822A1 (en) * 2015-12-18 2017-06-22 Pointright Inc. Systems and methods for providing personalized prognostic profiles

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381258A (zh) * 2019-11-26 2021-02-19 国家电网公司 表计运行生命周期预测方法及装置
CN111640510A (zh) * 2020-04-09 2020-09-08 之江实验室 一种基于深度半监督多任务学习生存分析的疾病预后预测系统
WO2021203796A1 (zh) * 2020-04-09 2021-10-14 之江实验室 一种基于深度半监督多任务学习生存分析的疾病预后预测系统
CN112289455A (zh) * 2020-10-21 2021-01-29 王智 一种人工智能神经网络学习模型构建系统、构建方法
CN114242254A (zh) * 2022-01-13 2022-03-25 南京鼓楼医院 一种系统性红斑狼疮患者的生存结局预测系统
CN116153495A (zh) * 2022-11-29 2023-05-23 厦门大学 一种食管癌患者免疫治疗预后生存预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Development and Verify of Survival Analysis Models for Chinese Patients With Systemic Lupus Erythematosus;Linyu Geng, etal.;《Front. Immunol.》;第2-10页 *
Linyu Geng, etal..Development and Verify of Survival Analysis Models for Chinese Patients With Systemic Lupus Erythematosus.《Front. Immunol.》.2022,第2-10页. *

Also Published As

Publication number Publication date
CN116564524A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN109659033B (zh) 一种基于循环神经网络的慢性疾病病情变化事件预测装置
US20230108874A1 (en) Generative digital twin of complex systems
US20210125732A1 (en) System and method with federated learning model for geotemporal data associated medical prediction applications
US20140358831A1 (en) Systems and methods for bayesian optimization using non-linear mapping of input
CN111080397A (zh) 信用评估方法、装置及电子设备
US20210375392A1 (en) Machine learning platform for generating risk models
CN109326353B (zh) 预测疾病终点事件的方法、装置及电子设备
US11276495B2 (en) Systems and methods for predicting multiple health care outcomes
EP1388812A1 (en) Method for training a learning-capable system
US20110112380A1 (en) Method and System for Optimal Estimation in Medical Diagnosis
JP2021111399A (ja) 損失関数に基づいてトレーニングされたモデルの処理
CN112201346A (zh) 癌症生存期预测方法、装置、计算设备及计算机可读存储介质
US20230196406A1 (en) Siamese neural network model
WO2021077226A1 (en) Method and system for individual demand forecasting
Liseune et al. Leveraging latent representations for milk yield prediction and interpolation using deep learning
Chen et al. Multivariate arrival times with recurrent neural networks for personalized demand forecasting
JP2023551913A (ja) 生物学的疾患及び障害の動的ラマンプロファイリングのためのシステム及び方法
Lee et al. The predictive skill of convolutional neural networks models for disease forecasting
CN116564524B (zh) 一种伪标签演变趋势正则的预后预测装置
CN115240843A (zh) 基于结构因果模型的公平性预测系统
CN117859064A (zh) 用于生物学病症的动态免疫组织化学分析的系统和方法
Rodrigo Bayesian artificial neural networks in health and cybersecurity
WO2022033938A1 (en) Estimating patient risk of cytokine storm using biomarkers
US20220319158A1 (en) Cell nuclei classification with artifact area avoidance
EP4170562A1 (en) Determining a measure of subject similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant