CN116564524A

CN116564524A - 一种伪标签演变趋势正则的预后预测装置

Info

Publication number: CN116564524A
Application number: CN202310791063.2A
Authority: CN
Inventors: 胡丹青; 朱晓峰; 苏慧
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-08-08
Anticipated expiration: 2043-06-30
Also published as: CN116564524B

Abstract

本发明公开了一种伪标签演变趋势正则的预后预测装置，其执行时：获取包含多名患者的预后数据集，选择出患者发生终点事件或失访的时间最大值并将其划分成多个等间隔的时间段，计算所有患者每个时间段内的预后标签结果，其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果；构建预后预测模型，预测患者每个时间段内发生终点事件的概率；构建损失函数，包括各时间段内预测结果和预后标签结果之间的误差，以及根据预后标签结果计算的预后演变趋势正则化项；基于损失函数对预后预测模型进行参数优化；利用优化的预后预测模型进行预后预测。

Description

一种伪标签演变趋势正则的预后预测装置

技术领域

本发明涉及医疗数据挖掘技术领域，特别涉及预后预测方面，具体涉及一种伪标签演变趋势正则的预后预测装置。

背景技术

预后预测是指预测当前时间点之后未来某时间点发生终点事件风险的研究。常见的预后预测问题有生存分析、癌症复发预测等等。

预后数据有一类典型特征，即为删失数据。删失数据指的是在随访期间，还未发生终点事件的患者，在某一时间点失访，从而在失访时间点后患者是否发生终点事件处于未知状态。

针对预后数据的这一特点，研究人员首先利用Cox比例风险回归、随机生存森林、Deepsurv等生存分析方法，来构建预后预测模型。然而，这类方法通常具有比例风险假设，且得到的预测结果还需要通过配合估计得到的基线生存函数才能得到患者在某时刻的生存积累（Jared L. Katzman, Uri Shaham, Alexander Cloninger, Jonathan Bates,Tingting Jiang, Yuval Kluger. DeepSurv: personalized treatment recommendersystem using a Cox proportional hazards deep neural network. BMC MedicalResearch Methodology, 2018, 18(1): 24.）。

另一种方式是将预后预测问题转换成分类问题，即预测患者在某时间段内发生终点事件的风险。然而，这一类方法首先无法应对删失数据，因为在某些时间段内，患者数据出现删失则无法确定患者的标签是什么；此外，这类方法在同时预测多个时间段预后情况，也并未考虑不同时间段患者预后情况的演变趋势（Shengqiang Chi, Yu Tian, FengWang, Yu Wang, Ming Chen, Jingsong Li. Deep Semisupervised Multitask LearningModel and Its Interpretability for Survival Analysis. IEEE Journal ofBiomedical and Health Informatics, 2021, 25(8): 3185-96.）。

发明内容

针对上述技术问题以及本领域存在的不足之处，本发明提供了一种伪标签演变趋势正则的预后预测装置，利用KM曲线（Kaplan-Meier生存曲线）估计患者失访导致的删失数据在失访以及之后的时间段内发生终点事件的概率作为伪标签，然后将分类任务转换为回归任务预测患者各个时间段内的发生终点事件的概率，最后利用正则化项，将不同时间段预后情况的演变趋势添加到对应模型参数之中，从而实现更为精准的预后预测。

一种伪标签演变趋势正则的预后预测装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取包含多名患者的预后数据集，选择出患者发生终点事件或失访的时间最大值（即最长的随访时间）并将其划分成多个等间隔的时间段，计算所有患者每个时间段内的预后标签结果，其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果；

构建预后预测模型，预测患者每个时间段内发生终点事件的概率；

构建损失函数，包括各时间段内预测结果和预后标签结果之间的误差，以及根据预后标签结果计算的预后演变趋势正则化项；

基于损失函数对预后预测模型进行参数优化；

利用优化的预后预测模型进行预后预测。

所述的伪标签演变趋势正则的预后预测装置，时间段间隔可根据研究的具体预后事件发生事件跨度进行选择，例如可以为1小时、1天、1周、1月或1年等。

在一实施例中，所述的伪标签演变趋势正则的预后预测装置，对于未失访的患者，尚未发生终点事件的时间段内的预后标签结果为0，发生终点事件及之后的时间段内的预后标签结果为1。

在一实施例中，所述的伪标签演变趋势正则的预后预测装置，对于失访患者，在失访的时间段之前的各时间段内的预后标签结果为0。

在一实施例中，所述的伪标签演变趋势正则的预后预测装置，预后预测模型中设置的参数向量的数量与时间段的数量一致，各参数向量的长度等于患者临床数据的长度，采用Sigmoid函数基于患者临床数据预测患者每个时间段内发生终点事件的概率。

在一实施例中，所述的伪标签演变趋势正则的预后预测装置，采用均方误差计算各时间段内预测结果和预后标签结果之间的误差。

在一实施例中，所述的伪标签演变趋势正则的预后预测装置，构建的损失函数还包括利用范数2正则化约束预后预测模型参数矩阵数值大小。

在一实施例中，所述的伪标签演变趋势正则的预后预测装置，构建的损失函数还包括利用排序损失约束不同时间段预测结果大小关系，使得后面时间段的预测结果不小于前面时间段的预测结果。

所述的伪标签演变趋势正则的预后预测装置，根据预后标签结果计算的预后演变趋势正则化项可将不同时间段内患者预后的演变趋势融入预后预测模型的参数学习中，使得两个时间段内的患者预后标签结果相近时对应的预后预测模型参数也相近，其中可采用高斯核函数、范数2距离的平方或者范数1距离等计算两个时间段内所有患者预后标签结果之间的相似性。

本发明还提供了一种伪标签演变趋势正则的预后预测装置，包括：

数据获取单元，用于获取包含多名患者的预后数据集，选择出患者发生终点事件或失访的时间最大值并将其划分成多个等间隔的时间段，计算所有患者每个时间段内的预后标签结果，其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果；

模型构建单元，用于构建预后预测模型，预测患者每个时间段内发生终点事件的概率；

损失函数构建单元，用于构建损失函数，包括各时间段内预测结果和预后标签结果之间的误差，以及根据预后标签结果计算的预后演变趋势正则化项；

训练单元，用于基于损失函数对预后预测模型进行参数优化；

应用单元，用于利用优化的预后预测模型进行预后预测。

本发明与现有技术相比，有益效果有：

首先，根据患者随访数据将随访阶段划分为多个连续时间段；然后根据患者随访数据确定患者在每个时间段内的终点事件发生情况；针对患者失访而导致出现删失的情况，利用KM曲线计算该患者在失访以及失访之后的时间段内的终点事件发生的概率；然后利用模型预测每个时间段内发生终点事件的概率并利用误差损失以回归任务训练模型；并可利用排序损失Loss_rank保证后续时间段的预测结果大于前面时间段的预测结果；利用根据预后标签结果计算的预后演变趋势正则化项Loss_evol添加不同时间段预后情况的演变趋势，使得预后情况相近的两个时间段对应的模型参数相近，预后情况差异较大的两个时间段对应的模型参数差异大；利用上述损失函数的构建以及误差反向传播，更新模型参数得到最终的预后预测模型。针对测试样本，利用训练好的模型直接输出测试样本在各个时间段内发生终点事件的概率，从而实现更为精准的预后预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测装置的结构示意图。

图2为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测方法流程框图。

图3为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测方法流程中针对不同患者各时间段内预后标签结果分类计算示意图。

图4为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测方法流程中损失函数构建示意图。

图5为本发明具体实施方式中提供的一种伪标签演变趋势正则的预后预测的另一结构示意图。

具体实施方式

下面结合附图及具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。

为了能够充分利用患者失访导致的删失数据信息以及患者预后随时间的演变趋势，本发明提供了一种伪标签演变趋势正则的预后预测装置，参见图1，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现以下过程：

获取包含多名患者的预后数据集，选择出患者发生终点事件或失访的时间最大值并将其划分成多个等间隔的时间段，计算所有患者每个时间段内的预后标签结果，其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果；

基于损失函数对预后预测模型进行参数优化；

利用优化的预后预测模型进行预后预测。

上述过程具体可表现为如图2所示的方法和流程，包括步骤：

S101，将包含n名患者的预后数据集作为训练数据，设预后数据集D={(x₁,T₁,δ₁),(x₂,T₂,δ₂),..., (x_i,T_i,δ_i),..., (x_n,T_n,δ_n)}，其中，(x_i,T_i,δ_i)表示患者i的数据，x_i表示患者i的临床数据，T_i表示发生终点事件或者失访的时间，δ_i则表示在随访期间是否发生终点事件或失访，当δ_i=1时，则T_i表示的是发生事件的时间，当δ_i=0时，则T_i表示的是失访的时间。首先从所有患者中选择出最大的随访时间T_max=max([T₁,T₂,...,T_i,...,T_n])，然后根据一定的时间间隔t，将T_max按照t划分成m个相应的时间段{(T₀,T_t],(T_t,T_2×t],..., (T_j×t,T_(j+1)×t],..., (T_(m-1)×t,T_max]}，j为0,1,...,m-1。

实施例中，可根据研究的具体预后事件发生事件跨度，选择适宜的时间间隔t，可以为1小时、1天、1周、1月或1年等。

S102，针对步骤S101得到的m个时间段，依据患者预后数据集D判断所有患者在每个时间段内的预后情况。参见图3，对于未失访患者，尚未发生终点事件的时间段内的预后标签结果为0，发生终点事件及之后的时间段内的预后标签结果为1，即当患者在时间段(T_j×t,T_(j+1)×t]内未发生预后事件，即T_i> T_(j+1)×t，则该患者在(T_j×t,T_(j+1)×t]内的标签为0，若患者在时间段(T_j×t,T_(j+1)×t]内发生预后事件，即T_i∈(T_j×t,T_(j+1)×t]且δ_i=1，则该患者在(T_j×t,T_(j+1)×t]内的标签为1，其在(T_j×t,T_(j+1)×t]之后的所有时间段的标签均为一。对于失访患者，在失访的时间段之前的各时间段内的预后标签结果为0，患者失访的时间段及其之后各时间段内则利用KM曲线计算伪标签结果作为预后标签结果，例如，若患者在时间段(T_j×t,T_(j+1)×t] （此时j为1,2,...,m-1）内失访，即T_i∈(T_j×t,T_(j+1)×t]且δ_i=0，则该患者在(T_j×t,T_(j+1)×t]内的伪标签由如下公式计算：，其中：S(T_(j+1)×t)表示患者失访时间段(T_j×t,T_(j+1)×t]内的伪标签结果，d _(j+1)×t表示在时间段(T_j×t,T_(j+1)×t]内发生终点事件的患者人数，r _(j+1)×t表示到时间T_(j+1)×t还未发生终点事件且未失访的患者人数，S(T_j×t)表示患者失访时间段(T_j×t,T_(j+1)×t]的前一时间段(T_(j-1)×t,T_j×t]内的伪标签结果，S(T_j×t)可参考上式反复迭代计算获得，例如，S(T₁)可按照上式通过S(T₀)计算获得，依次类推，初始值S(T₀)设置为1；在该患者的后续时间段内，参照上述类似的公式，按照/>计算对应的伪标签结果，K为j+1,j+2,...,m-1。由此可得任一患者最终所有时间段内的预后标签结果，记为/>。

S103，根据步骤S101和S102得到n名患者m个时间段内的预后标签结果（含伪标签结果）之后，构建预后预测模型。模型有m个参数向量，即参数矩阵，每个参数向量wⁱ的长度等于临床数据x_i的长度，用于预测对应时间段内患者的预后情况，其中τ(·)为Sigmoid函数；经过上式可得到任一患者m个时间段对应的m个预后预测结果/>。

S104，参见图4，根据步骤S102和S103得到的m个时间段预后标签结果以及预后预测结果/>，利用如下均方误差计算预后标签结果与预后预测结果之间的误差：/>

其中n表示训练数据中患者数量，l表示训练数据中第l位患者，i表示对应第i个时间段。

S105，参见图4，为防止模型产生过拟合问题，利用如下范数2正则化约束参数矩阵数值大小：

即计算预后预测模型参数矩阵W的Frobenius范数的平方。

S106，参见图4，根据步骤S102和S103得到的m个时间段预后标签结果以及预后预测结果/>，为保证后续时间段的预测结果不小于前面时间段的预测结果，即j>i时，/>，则利用如下ranking损失函数，实现相关约束：

其中，n表示训练数据中患者数量，l表示训练数据中第l位患者，i、j分别表示对应第i、j个时间段。

S107，参见图4，根据步骤S102、S103得到的各个时间点预后标签结果，计算预后演变趋势正则化项，如下所示：/>

其中，h、g表示时间段，k是超参数，表示考虑预后演变的时间窗大小，Sim(y^h,y^g)用于计算两个时间段h、g内，所有患者预后情况之间的相似性，具体的，Sim(y^h,y^g)可以是高斯核相似度（其中σ为可人为设置的超参数），也可以是其他相似度度量方法，例如范数2距离的平方/>，范数1距离/>等；/>、/>（其中n表示患者数）表示对应时间段所有患者预后标签向量；/>用于计算对应两个时间段h、g内，模型参数的一致性，w^h表示时间段h对应的模型参数向量，w^g表示时间段g对应的模型参数向量。当两个时间段之间的预后结果较为相似时，则Sim(y^h,y^g)的值较大，则最优化时会使得/>值更小，从而使得两个时间段对应的模型参数更加一致；反之，则会使两个时间段对应的模型参数差距变大，从而将不同时间段内患者预后的演变趋势融入的模型参数学习中来。通过超参数k，可以控制考虑预后演变趋势的时间窗大小，k值越大，则可以在参数优化每次迭代中直接对较远两个时间段对应参数进行直接约束；反之如果k值越小，则在每次参数优化迭代时仅考虑较近两个时间段之间的演变趋势，较远时间段参数的影响则只能通过多次迭代实现。

S108，根据步骤S104，S105，S106，S107得到的各个损失函数，针对n名患者的训练数据，利用如下公式计算总的损失函数：

其中，α、β、γ为超参数，用于控制各项约束对于模型参数影响的强度，优选α≥0，β≥0，γ≥0，进一步优选，γ>0。根据上述Loss，利用误差反向传播更新模型参数直至收敛。

S109，根据步骤S108训练好的模型，针对测试样本x_test，利用训练好的模型参数，利用/>得到各个时间段对应的预后预测结果。

上述集成自适应相似患者图的疾病预测装置中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器（CPU）、微处理器（MPU）、数字信号处理器（DSP）、或现场可编程门阵列（FPGA），即可以通过这些处理器实现如图2所示的方法和流程。

本发明还提供了一种如图5所示的一种伪标签演变趋势正则的预后预测装置500，同样能实现上述如图2所示的方法和流程，具体包括：

数据获取单元501，用于获取包含多名患者的预后数据集，选择出患者发生终点事件或失访的时间最大值并将其划分成多个等间隔的时间段，计算所有患者每个时间段内的预后标签结果，其中利用KM曲线计算患者失访的时间段及其之后各时间段内的伪标签结果；

模型构建单元502，用于构建预后预测模型，预测患者每个时间段内发生终点事件的概率；

损失函数构建单元503，用于构建损失函数，包括各时间段内预测结果和预后标签结果之间的误差，以及根据预后标签结果计算的预后演变趋势正则化项；

训练单元504，用于基于损失函数对预后预测模型进行参数优化；

应用单元505，用于利用优化的预后预测模型进行预后预测。

需要说明的是，上述具体实施方式提供的伪标签演变趋势正则的预后预测装置在执行上述如图2所示的方法和流程时，应以上述各功能单元的划分进行举例说明，可以根据需要将上述功能分配由不同的功能单元完成，即在终端或服务器的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的伪标签演变趋势正则的预后预测装置与其执行的方法流程实施例属于同一构思，其具体实现过程详见上文如图2所示的方法和流程介绍，这里不再赘述。

利用上述的一种伪标签演变趋势正则的预后预测装置进行具体实验，以验证其所执行的方法流程的效果。实验例中，我们以肺癌患者的死亡随访数据为标签，使用的数据包括患者在院的人口统计学、检查检验、癌症分期、病理结果等。实验例中选择Cox比例风险回归、随机生存森林、Deepsurv三种生存分析方法，以及逻辑回归、随机森林、梯度提升树三种分类方法；此外，我们还将患者失访导致的删失数据和演变趋势损失Loss_evol去除，作为对比。实验采用10重交叉验证进行，每一重样本都作为测试集用于评估各个方法的性能。我们选择受试者工作特征曲线下面积AUC作为性能评估指标，我们选择1年、3年、5年三个特定的时间点计算该时间点预测结果的AUC值。实验结果如表1所示。能够看到，本发明公开的装置所执行的方法流程，相较于基线生存分析和分类方法都取得了更好的预测效果，特别是对于短期内预后预测效果提升显著。此外，相较于没有利用伪标签和演变趋势约束损失的模型，使用了两者的模型性能更好。

表1

总而言之，本发明具体实施方式装置在执行时，首先根据患者随访数据将随访阶段划分为多个连续时间段，然后根据患者随访数据确定患者在每个时间段内的终点事件发生情况，针对由于失访导致出现的删失情况，利用KM曲线计算该患者在失访及其之后时间段内的终点事件发生的概率，接着利用模型预测每个时间段内发生终点事件的概率并利用均方误差损失以回归任务训练模型，再利用Loss_rank保证后续时间段的预测结果大于前面时间段的预测结果，利用Loss_evol添加不同时间段预后情况的演变趋势，使得预后情况相近的两个时间段对应的模型参数相近，预后情况差异较大的两个时间段对应的模型参数差异大，利用上述损失函数的构建以及误差反向传播，更新模型参数得到最终的预后预测模型；针对测试样本，利用训练好的模型直接输出测试样本在各个时间段内发生终点事件的概率，从而实现更为精准的预后预测。

此外应理解，在阅读了本发明的上述描述内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种伪标签演变趋势正则的预后预测装置，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，其特征在于，处理器执行计算机程序时实现以下步骤：

基于损失函数对预后预测模型进行参数优化；

利用优化的预后预测模型进行预后预测。

2.根据权利要求1所述的伪标签演变趋势正则的预后预测装置，其特征在于，时间段间隔为1小时、1天、1周、1月或1年。

3.根据权利要求1所述的伪标签演变趋势正则的预后预测装置，其特征在于，对于未失访的患者，尚未发生终点事件的时间段内的预后标签结果为0，发生终点事件及之后的时间段内的预后标签结果为1。

4.根据权利要求1所述的伪标签演变趋势正则的预后预测装置，其特征在于，对于失访患者，在失访的时间段之前的各时间段内的预后标签结果为0。

5.根据权利要求1所述的伪标签演变趋势正则的预后预测装置，其特征在于，预后预测模型中设置的参数向量的数量与时间段的数量一致，各参数向量的长度等于患者临床数据的长度，采用Sigmoid函数基于患者临床数据预测患者每个时间段内发生终点事件的概率。

6.根据权利要求1所述的伪标签演变趋势正则的预后预测装置，其特征在于，采用均方误差计算各时间段内预测结果和预后标签结果之间的误差。

7.根据权利要求1所述的伪标签演变趋势正则的预后预测装置，其特征在于，构建的损失函数还包括利用范数2正则化约束预后预测模型参数矩阵数值大小。

8.根据权利要求1所述的伪标签演变趋势正则的预后预测装置，其特征在于，构建的损失函数还包括利用排序损失约束不同时间段预测结果大小关系，使得后面时间段的预测结果不小于前面时间段的预测结果。

9.根据权利要求1所述的伪标签演变趋势正则的预后预测装置，其特征在于，根据预后标签结果计算的预后演变趋势正则化项可将不同时间段内患者预后的演变趋势融入预后预测模型的参数学习中，使得两个时间段内的患者预后标签结果相近时对应的预后预测模型参数也相近，其中采用高斯核函数、范数2距离的平方或者范数1距离计算两个时间段内所有患者预后标签结果之间的相似性。

10.一种伪标签演变趋势正则的预后预测装置，其特征在于，包括：

应用单元，用于利用优化的预后预测模型进行预后预测。