CN116525126B

CN116525126B - 基于目标与外源数据多重适配增强的疾病风险预测系统

Info

Publication number: CN116525126B
Application number: CN202310815732.5A
Authority: CN
Inventors: 夏静; 李劲松; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-11-24
Anticipated expiration: 2043-07-05
Also published as: CN116525126A

Abstract

本发明公开了一种基于目标与外源数据多重适配增强的疾病风险预测系统，该系统包括数据输入及预处理模块、预测模型设置及预训练网络构建模块、预训练网络参数计算模块、目标疾病风险预测模型训练模块、疾病风险预测模块；本发明通过多重适配外源数据和目标数据，使外源数据中可共享的有用信息得到充分提取，并通过迁移预训练网络参数实现目标疾病风险预测模型构建的信息增强，提升目标疾病风险预测性能，解决样本量少对模型构建的限制，缓解收集大量目标疾病样本的压力。

Description

基于目标与外源数据多重适配增强的疾病风险预测系统

技术领域

本发明属于医疗健康信息技术领域，尤其涉及一种基于目标与外源数据多重适配增强的疾病风险预测系统。

背景技术

随着信息技术的快速发展及其在医学上的普及应用，大量临床数据得以电子化记录和存储。利用机器学习算法，数据驱动的临床预测模型能从电子病历中挖掘疾病相关有用信息以预警患者状况，辅助医护人员的临床决策，对提升临床诊疗水平和效率具有重要作用。然而，很多疾病的样本量较少，容易导致构建的预测模型过拟合，预测性能不佳。针对这一问题，目前方法是通过分析已有数据的特点进行样本生成扩增，该方法仅用到已有数据，即利用的信息量有限，因而对预测模型的性能提升作用受限。

发明内容

本发明的目的是提供一种基于目标与外源数据多重适配增强的疾病风险预测系统，解决了疾病样本量少的情况下现有技术构建的预测模型预测性能差的问题。

本发明的目的是通过以下技术方案实现的：一种基于目标与外源数据多重适配增强的疾病风险预测系统，包括：

(1)数据输入及预处理模块，输入用于训练的目标数据及目标数据以外、起辅助建模作用的外源数据，进行数据预处理后得到目标训练数据集和外源数据集；

(2)预测模型设置及预训练网络构建模块，用于设置目标疾病风险预测模型结构，建立目标数据与外源数据多重适配的预训练网络；

所述目标疾病风险预测模型包括动态变量归一化单元、时序特征提取单元、特征融合归一化单元和全连接层；

所述预训练网络包括针对外源数据部分的动态变量归一化单元、时序特征提取单元、特征融合归一化单元和全连接层，以及针对目标数据部分的动态变量归一化单元、时序特征提取单元和特征融合归一化单元；所述预训练网络的损失函数包括外源数据分类损失，以及目标数据与外源数据适配损失；

所述时序特征提取单元包括若干LSTM模块，用于提取归一化后的动态变量的时序特征；

(3)预训练网络参数计算模块，用于利用外源数据集和目标变量集，计算适配损失、分类损失和综合损失，以综合损失最小化为优化目标，得到共性建模导向的预训练网络最优参数；

(4)目标疾病风险预测模型训练模块，利用预训练网络最优参数对目标疾病风险预测模型参数进行初始化，并基于目标训练数据集训练得到个性建模导向的目标疾病风险预测模型；

(5)疾病风险预测模块，将新的目标样本输入训练好的目标疾病风险预测模型，得到疾病风险预测结果。

进一步地，所述外源数据集包含若干外源样本，所述目标训练数据集包含若干目标样本，每个外源样本/目标样本包括静态变量集、动态变量集和疾病风险标签，所述目标样本的静态变量集和动态变量集构成目标变量集。

进一步地，所述预训练网络参数计算模块包括如下子模块：

适配损失计算子模块，用于计算目标数据与外源数据的适配损失；

分类损失计算子模块，用于计算外源数据的分类损失；

综合损失计算子模块，用于根据适配损失和分类损失计算预训练网络的综合损失；

最优参数求解子模块，用于求解预训练网络最优参数，使综合损失尽可能小。

进一步地，所述适配损失计算子模块包括：

通过动态变量归一化单元计算外源数据部分和目标数据部分动态变量归一化后的输出；

通过时序特征提取单元计算归一化后的动态变量经过LSTM模块提取的时序特征；

通过特征融合归一化单元计算外源数据部分和目标数据部分的静态变量和时序特征经过融合归一化后的输出，得到外源复合特征和目标复合特征；

利用最大均值差异距离度量经过预训练网络得到的外源复合特征与目标复合特征之间的分布差异，取所述分布差异的平方为适配损失。

进一步地，所述适配损失的计算过程中，采用再生核希尔伯特空间的单位球函数作为非线性变换函数，利用核函数性质拆分适配损失的计算公式，采用高斯核作为核函数，建立适配损失与外源数据集、目标变量集的关系式。

进一步地，所述分类损失计算子模块包括：

通过动态变量归一化单元计算外源数据动态变量归一化后的输出；

通过特征融合归一化单元计算外源数据的静态变量和时序特征经过融合归一化后输出的外源复合特征，将所述外源复合特征经过一层全连接层处理后得到外源样本的预测值；

计算所有外源样本的真实标签与预测值的交叉熵，作为外源数据的分类损失。

进一步地，所述目标疾病风险预测模型的训练过程如下：

计算目标样本经过目标疾病风险预测模型处理后的预测值；

计算所有目标样本的真实标签与预测值的交叉熵，作为目标损失；

根据预训练网络最优参数进行目标疾病风险预测模型参数初始化；

以目标损失最小化为优化目标，求解目标疾病风险预测模型最优参数，完成训练。

进一步地，所述计算目标样本经过目标疾病风险预测模型处理后的预测值，包括：

通过动态变量归一化单元获取目标数据动态变量归一化后的输出；

通过特征融合归一化单元计算目标数据的静态变量和时序特征经过融合归一化后输出的目标复合特征，将所述目标复合特征经过一层全连接层处理后得到目标样本的预测值。

进一步地，所述根据预训练网络最优参数进行目标疾病风险预测模型参数初始化，包括：

将目标疾病风险预测模型的LSTM模块参数初始值设置为预训练网络最优参数；

将目标疾病风险预测模型的全连接层参数随机初始化。

进一步地，所述疾病风险预测模块包括：

通过动态变量归一化单元，根据目标训练数据集中所有目标样本所有时刻的动态变量均值和方差，计算新的目标样本动态变量归一化后的输出；

通过特征融合归一化单元，根据目标训练数据集中所有目标样本的复合特征均值和方差，计算新的目标样本的静态变量和时序特征经过融合归一化后输出的复合特征，将所述复合特征输入全连接层处理后得到新的目标样本的预测值。

本发明的有益效果是：本发明通过多重适配外源数据和目标数据，使外源数据中可共享的有用信息得到充分提取，并通过迁移预训练网络参数实现目标疾病风险预测模型构建的信息增强，提升目标疾病风险预测性能，解决样本量少对模型构建的限制，缓解收集大量目标疾病样本的压力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一示例性实施例示出的基于目标与外源数据多重适配增强的疾病风险预测系统结构图；

图2为一示例性实施例示出的目标疾病风险预测模型结构示意图；

图3为一示例性实施例示出的预训练网络结构示意图；

图4为一示例性实施例示出的目标疾病风险预测模型参数优化过程示意图；

图5为一示例性实施例示出的目标疾病风险预测模型应用流程示意图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

本发明实施例提供一种基于目标与外源数据多重适配增强的疾病风险预测系统，如图1所示，该系统包括数据输入及预处理模块、预测模型设置及预训练网络构建模块、预训练网络参数计算模块、目标疾病风险预测模型训练模块、疾病风险预测模块。

下述说明进一步给出了符合本申请要求的基于目标与外源数据多重适配增强的疾病风险预测系统各模块实现的部分实施例。

一、数据输入及预处理模块

输入用于训练的目标数据及目标数据以外、起辅助建模作用的外源数据，分别对其进行数据清洗、补缺等预处理得到格式统一且内容完整的数据集。

具体地，通过目标疾病领域的目标数据构建的目标训练数据集记为targetData，通过目标疾病相关的外源疾病领域的外源数据构建的外源数据集记为sourceData。

假设外源数据集sourceData包含个外源样本，表示为。其中，向量/>为第i个样本用于表征患者基础信息的静态变量集，包括C个静态变量，如年龄、体重、家族高血压史等；二维矩阵/>为第i个样本用于表征患者临床生理信息的动态变量集，包括T个时刻的D个动态变量，如收缩压、心率、白细胞数量、肌酐等；/>为第i个样本的疾病风险标签。/>可写成/>形式。向量/>包含D个动态变量，可表示为/>。这D个动态变量是目标疾病领域中对目标疾病风险预测任务有价值的临床指标。很多临床预测问题属于二分类问题，因此标签。/>取值0则该样本属于阴性组，代表生存或疾病好转；/>取值1则该样本属于阳性组，代表死亡或疾病恶化。

假设目标训练数据集targetData包含个目标样本，表示为。其中，向量/>为第i个样本用于表征患者基础信息的静态变量集，包括C个静态变量；二维矩阵/>为第i个样本用于表征患者临床生理信息的动态变量集，包含T个时刻的D个动态变量，向量/>；标签/>与外源数据集sourceData中的/>含义一样，/>，/>取值0则该样本属于阴性组，代表生存或疾病好转；/>取值1则该样本属于阳性组，代表死亡或疾病恶化。

二、预测模型设置及预训练网络构建模块，该模块用于设置目标疾病风险预测模型结构，建立目标数据与外源数据多重适配的预训练网络。

2.1综合考虑疾病数据特点、目标数据与外源数据适配的需求，构造如图2所示的目标疾病风险预测模型。

具体地，目标疾病风险预测模型包括动态变量归一化单元、时序特征提取单元、特征融合归一化单元和全连接层。时序特征提取单元由T个长短期记忆（LSTM，Long Short-Term Memory）模块构成。目标训练数据集targetData中的动态变量依次经动态变量归一化单元、时序特征提取单元得到所有目标样本的时序特征，将得到的时序特征与目标训练数据集targetData中的静态变量共同输入特征融合归一化单元得到复合特征，再经全连接层后得到目标疾病风险预测值。

2.2建立目标数据与外源数据多重适配的预训练网络，预训练网络的损失函数由两部分构成，一部分是外源数据分类损失，另一部分是目标数据与外源数据适配损失。

预训练网络的具体结构如图3所示，包括针对外源数据部分的动态变量归一化单元、时序特征提取单元、特征融合归一化单元和全连接层，以及针对目标数据部分的动态变量归一化单元、时序特征提取单元和特征融合归一化单元。时序特征提取单元由T个LSTM模块构成。

三、预训练网络参数计算模块，该模块利用外源数据集sourceData=和目标变量集/>，计算适配损失/>、分类损失/>和综合损失/>，以综合损失最小化为训练目标，得到共性建模导向的预训练网络参数。该模块包括以下子模块：

3.1适配损失计算子模块，用于计算目标数据与外源数据的适配损失。

（1）通过动态变量归一化单元计算动态变量归一化后的输出。

第i个外源样本所有时刻的动态变量均值为，所有外源样本所有时刻的动态变量均值为/>，方差为。

因此对于外源数据集中的第i个外源样本，经过归一化后的动态变量表示为：

类似的，第i个目标样本所有时刻的动态变量均值为，所有目标样本所有时刻的动态变量均值为/>，方差为。

因此对于目标训练数据集中的第i个目标样本，经过归一化后的动态变量表示为：

（2）通过时序特征提取单元计算经过LSTM模块提取有价值的时变信息得到的时序特征。

对于预训练网络的外源数据部分，LSTM模块的输入是归一化后的动态变量。通过以下公式依次计算第t个时刻的遗忘门/>、输入门/>、候选值/>、细胞状态/>、输出门/>和LSTM模块输出/>。

上述若干公式中，是LSTM模块中可训练的权重和偏置参数，/>是上一时刻的隐藏层状态，/>是上一时刻的细胞记忆值。符号/>代表sigmoid函数，符号/>代表双曲正切函数。/>表示将/>和/>进行拼接。符号/>代表矩阵乘法（Matrix multiplication），符号*代表元素积（Element-wise product）。

对于预训练网络的目标数据部分，LSTM模块的输入是归一化后的动态变量。通过以下公式依次计算第t个时刻的遗忘门/>、输入门/>、候选值/>、细胞状态/>、输出门/>和LSTM模块输出/>。

上述若干公式中，是上一时刻的隐藏层状态，/>是上一时刻的细胞记忆值。表示将/>和/>进行拼接。

（3）通过特征融合归一化单元计算静态变量和时序特征经过融合归一化后的输出。

首先拼接外源数据部分的静态变量和提取的时序特征得到复合特征，其中/>表示将/>和/>进行拼接，/>表示第i个外源样本第T个时刻的LSTM模块输出。计算所有外源样本的复合特征均值为，方差为/>。

因此静态变量和时序特征融合归一化后的外源复合特征表示为：

类似的，拼接目标数据部分的静态变量和提取的时序特征得到复合特征，其中/>表示将/>和/>进行拼接，/>表示第i个目标样本第T个时刻的LSTM模块输出。计算所有目标样本的复合特征均值为，方差为/>。

因此静态变量和时序特征融合归一化后的目标复合特征表示为：

（4）计算目标数据和外源数据联合适配损失。

利用最大均值差异（Maximum mean discrepancy，MMD）距离来度量经过预训练网络得到的外源复合特征与目标复合特征/>之间的分布差异。预期目标是完美适配，即上述分布差异为零。该分布差异越大，代表适配越不成功。因为取该分布差异的平方为适配损失/>，即

式中，为非线性变换函数，根据既往研究推荐选择再生核希尔伯特空间的单位球函数，但不限于此。

拆分适配损失的公式，并利用核函数性质/>，得到

选择高斯核作为上述公式中的核函数，即，/>是控制径向作用范围的带宽。因此，得到

式中，为径向基核函数的带宽，本实施例中设置/>。

通过上述处理，建立起了适配损失与外源数据集/>、目标变量集/>的关系式。

3.2分类损失计算子模块，用于计算外源数据的分类损失。

基于外源数据计算得到的外源复合特征，经过一层全连接层处理后得到外源样本的预测值/>。

式中，和/>是全连接层中可训练的权重和偏置参数。

计算所有外源样本的真实标签与预测值/>的交叉熵，即为外源数据的分类损失。

3.3综合损失计算子模块，用于计算预训练网络的综合损失，计算公式如下：

式中，为控制适配损失重要性的正则化系数，取值范围[0,+∞)。

3.4最优参数求解子模块，用于求解最优参数，使预训练网络的综合损失尽可能小。

具体地，以最小化预训练网络的综合损失为优化目标，采用梯度下降的方法，求解最优参数。预训练网络参数初始化设置为：LSTM模块权重参数/>和偏置参数/>随机初始化；全连接层权重参数/>和偏置参数/>随机初始化。

通过多次迭代调整所有网络参数，得到最小损失值对应的网络参数值，包括LSTM模块参数和全连接层参数/>。

四、目标疾病风险预测模型训练模块，该模块利用上述计算得到的预训练网络参数对目标疾病风险预测模型参数进行初始化，并基于目标训练数据集targetData=）训练得到个性建模导向的目标疾病风险预测模型。图4为目标疾病风险预测模型参数优化过程示意图。

该模块的整体思路是先根据预训练网络参数对目标疾病风险预测模型的LSTM模块参数进行初始化，并随机初始化全连接层参数，再利用目标数据调整整个模型。通过这样的方式进行信息传递，是因为外源疾病领域与目标疾病领域虽然疾病种类不同，数据分布不同，但两者数据中反映出的临床指标数值高低、指标变化趋势与患者病情变化的对应关系是一致的，而时序特征提取单元能够传递临床指标动态变化与病情发展的对应关系，从而对构建目标疾病风险预测模型起到辅助作用。该模块的实现包括以下步骤：

4.1计算目标样本经过目标疾病风险预测模型处理后的输出结果。

（1）获取动态变量归一化后的输出。

具体地，由预训练网络参数计算模块已获取目标数据动态变量归一化后的输出。

（2）通过时序特征提取单元计算LSTM模块的处理结果，即计算经过LSTM模块提取的时序特征。

对于目标疾病风险预测模型，LSTM模块的输入是归一化后的动态变量。通过以下公式依次计算第t个时刻的遗忘门/>、输入门/>、候选值/>、细胞状态/>、输出门/>和LSTM模块输出/>。获取到最后一个时刻的输出/>。

上述若干公式中，和/>是目标疾病风险预测模型的LSTM模块中可训练的权重和偏置参数。/>是上一时刻的隐藏层状态，/>是上一时刻的细胞记忆值。/>表示将/>和/>进行拼接。

拼接目标数据的静态变量和提取的时序特征得到复合特征，其中/>，/>表示将/>和/>进行拼接，/>表示第i个目标样本第T个时刻的LSTM模块输出。计算所有目标样本的复合特征均值为/>，方差为。

（4）计算全连接层的处理结果。

基于目标数据计算得到的，经过一层全连接层处理后得到目标样本的预测值/>。

式中，和/>是目标疾病风险预测模型的全连接层的权重和偏置参数。

4.2计算目标损失，具体为计算所有目标样本的真实标签与预测值/>的交叉熵，即为目标损失/>。

4.3根据预训练网络参数进行目标疾病风险预测模型参数初始化，参数初始化设置包括两部分：

（1）LSTM模块参数初始值设置为预训练网络中的最优参数，即；

（2）全连接层参数和/>随机初始化。

4.4求解最优参数，确定目标疾病风险预测模型。

以最小化目标损失为优化目标，采用梯度下降的方法，求解最优参数。通过多次迭代不断调整LSTM模块参数和全连接层参数，从而得到最小损失值以及对应的目标疾病风险预测模型参数值（/>），即确定了最终的目标疾病风险预测模型。

五、疾病风险预测模块，该模块中将新的目标样本输入训练好的目标疾病风险预测模型，计算得到预测结果。图5为目标疾病风险预测模型应用流程示意图。

记新的目标样本的静态变量集为，动态变量集为/>。其中，向量/>包括C个静态变量；二维矩阵/>，包含该样本T个时刻的D个动态变量，/>。

根据目标训练数据集中所有目标样本所有时刻的动态变量均值和方差，计算出新的目标样本动态变量归一化后的输出为

（2）通过时序特征提取单元计算经过LSTM模块提取的时序特征。

将归一化后的动态变量输入LSTM模块，利用已确定的最优参数/>，通过以下公式依次计算第t个时刻的遗忘门/>、输入门/>、候选值/>、细胞状态、输出门/>和LSTM模块输出/>。获取到最后一个时刻的输出/>。

上述若干公式中，是目标疾病风险预测模型训练模块中已确定的目标疾病风险预测模型的LSTM模块最优权重参数和偏置参数。/>是上一时刻的隐藏层状态，/>是上一时刻的细胞记忆值。

拼接静态变量和提取的时序特征得到复合特征，其中表示将/>和/>进行拼接。根据目标训练数据集中所有目标样本的复合特征均值/>和方差/>，计算出新的目标样本的静态变量和时序特征融合归一化后的复合特征，表示为：

（4）计算全连接层的处理结果。

将输入全连接层处理后得到新的目标样本的预测值/>。

式中，和/>是目标疾病风险预测模型训练模块中已确定的目标疾病风险预测模型的全连接层最优权重参数和偏置参数。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于目标与外源数据多重适配增强的疾病风险预测系统，其特征在于，包括：

(1)数据输入及预处理模块，输入用于训练的目标数据及目标数据以外、起辅助建模作用的外源数据，进行数据预处理后得到目标训练数据集和外源数据集；所述目标数据为目标疾病领域的数据，所述外源数据为目标疾病相关的外源疾病领域的数据；所述数据预处理包括数据清洗和补缺；

(2)预测模型设置及预训练网络构建模块，用于设置目标疾病风险预测模型结构，建立目标数据与外源数据多重适配的预训练网络结构；

所述预训练网络参数计算模块包括如下子模块：

适配损失计算子模块，用于计算目标数据与外源数据的适配损失，包括：

利用最大均值差异距离度量经过预训练网络得到的外源复合特征与目标复合特征之间的分布差异，取所述分布差异的平方为适配损失；

分类损失计算子模块，用于计算外源数据的分类损失，包括：

计算所有外源样本的真实标签与预测值的交叉熵，作为外源数据的分类损失；

最优参数求解子模块，用于求解预训练网络最优参数，使综合损失尽可能小；

所述目标疾病风险预测模型的训练过程如下：

计算目标样本经过目标疾病风险预测模型处理后的预测值；

根据预训练网络最优参数进行目标疾病风险预测模型参数初始化，包括：将目标疾病风险预测模型的LSTM模块参数初始值设置为预训练网络最优参数，将目标疾病风险预测模型的全连接层参数随机初始化；

以目标损失最小化为优化目标，求解目标疾病风险预测模型最优参数，完成训练；

2.根据权利要求1所述的基于目标与外源数据多重适配增强的疾病风险预测系统，其特征在于，所述外源数据集包含若干外源样本，所述目标训练数据集包含若干目标样本，每个外源样本/目标样本包括静态变量集、动态变量集和疾病风险标签，所述目标样本的静态变量集和动态变量集构成目标变量集。

3.根据权利要求1所述的基于目标与外源数据多重适配增强的疾病风险预测系统，其特征在于，所述适配损失的计算过程中，采用再生核希尔伯特空间的单位球函数作为非线性变换函数，利用核函数性质拆分适配损失的计算公式，采用高斯核作为核函数，建立适配损失与外源数据集、目标变量集的关系式。

4.根据权利要求1所述的基于目标与外源数据多重适配增强的疾病风险预测系统，其特征在于，所述计算目标样本经过目标疾病风险预测模型处理后的预测值，包括：

5.根据权利要求1所述的基于目标与外源数据多重适配增强的疾病风险预测系统，其特征在于，所述疾病风险预测模块包括：