CN116959715B

CN116959715B - 一种基于时序演进过程解释的疾病预后预测系统

Info

Publication number: CN116959715B
Application number: CN202311199176.XA
Authority: CN
Inventors: 李劲松; 金雨青; 吴承凯; 周天舒; 田雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2024-01-09
Anticipated expiration: 2043-09-18
Also published as: CN116959715A

Abstract

本发明公开了一种基于时序演进过程解释的疾病预后预测系统，该系统包括：数据采集模块，用于从电子病历数据库中提取患者的相关健康医疗数据；数据预处理模块，用于对相关健康医疗数据进行预处理；预后预测与归因模块，用于预测不同时间节点的预后，并对风险因素进行重要程度解释；可视化模块，基于预后预测与归因模块中得到的结果，解释预测结果并进行数据可视化。本发明融合了结构化的实验室检查数据和非结构化的病程记录的长期数据，在为患者不同时间周期下的预后做出精准预测的同时，对模型做出充分解释，并且提供可视化方法增加模型的透明度与可信度，利于责任相关方为患者提供优质、持续性的服务。

Description

一种基于时序演进过程解释的疾病预后预测系统

技术领域

本发明涉及疾病预后预测领域，尤其涉及一种基于时序演进过程解释的疾病预后预测系统。

背景技术

疾病预后预测是指根据患者的现状预测疾病未来的进展和结果，准确的预后预测对于疾病管理有着至关重要的作用。对于治疗而言，如果能够精准的预测未来疾病对患者的影响，可以帮助医生制定能够减轻甚至预防这些影响的有效治疗方案，而有效的治疗方案将直接对预后产生正面影响。对于患者而言，获得预后信息有助于帮助患者做出重要决策，例如如何根据自身健康状况进行健康管理，是否接受某些治疗方案等。

然而，目前现有的疾病预后和风险评估方法由于缺乏以下两方面的考虑而受到制约：缺乏临床可解释性和基于时序演进过程解释的患者预后预测方法。现有的预后预测方法主要包括两类，第一类方法是基于医疗领域的专家经验，人工的构建关于疾病预后的指标评分系统，用于预测疾病发生的风险和预后评估。第二类方法是基于算法，通过机器学习和深度学习等方法挖掘与疾病预后相关的指标，弥补了人工筛选的主观性。常见的方法包括神经网络、贝叶斯网络、逻辑回归等。

1）现有的机器学习预后预测方法虽充分利用了大量的临床数据，但是在实际应用过程中缺乏明确的临床解释性，从而影响了相关技术的临床转化，难以满足临床决策支持的实际需要。

2）当前的预后预测方法通常基于患者的单次就诊所产生的实验室检验等数据建模，然而这类方法只能给出短期内的预后预测，忽略了患者的身体状况会随时间推移发生改变的情况。这类方法的适用范围较小，对于会随时间不断变化发展的疾病，例如慢性疾病，缺乏临床可行性。

3）缺少系统评价预后的方法，当前主流的方法主要是通过治疗期的指标和短期结果来改善护理质量，最常见的是跟踪住院死亡类指标、医院感染类指标和手术并发症类指标。长期结果（例如，在1年和5年后），以及以患者为中心的结果（以冠心病为例，心绞痛负担、身体功能状态和与健康相关的生活质量），更多的反映了治疗最终效果，但鲜有相关方法能够实现长期预后的评估。因此，现有的方法未结合患者出院后的长期健康状况演变对预后进行综合考量，无法驱动医院以患者为核心，为患者提供优质医疗服务。

4）现有模型或方法缺乏对非结构化数据的应用。现有的方法普遍从结构化数据（即，电子病历）中提取患者的诊疗数据，并通过人工定义的医疗质量指标公式或者是机器学习算法挖掘的相关指标公式进行计算。然而，这类方法对于数据的格式、质量和数量要求较高，且忽略了以文本的形式储存的病程记录等信息。因此，模型或方法对于综合性预后的评价相对较为片面。

发明内容

本发明目的在于针对现有技术的不足，本发明提出一种基于时序演进过程解释的疾病预后预测系统。

本发明的目的是通过以下技术方案来实现的：一种基于时序演进过程解释的疾病预后预测系统，该系统包括数据采集模块、数据预处理模块、预后预测与归因模块和可视化模块；

所述数据采集模块用于从电子病历数据库中提取患者的相关健康医疗数据；

所述数据预处理模块用于对患者的相关健康医疗数据进行预处理；

所述预后预测与归因模块包括数据融合子模块、时间卷积网络子模块和深度泰勒分解子模块；

所述数据融合子模块用于输入预处理后的患者的相关健康医疗数据，对结构化数据进行处理使数据格式与预后指标保持一致，对非结构化数据进行处理得到向量化语义特征，与处理后的结构化数据拼接后输入时间卷积网络子模块预测患者的预后；

所述深度泰勒分解子模块用于获取预后与输入特征之间的关联，对当前预测预后的原因进行解释，判断预测预后的影响因素；

所述可视化模块基于预后预测与归因模块中得到的结果，解释预测结果并进行数据可视化。

进一步地，所述患者的相关健康医疗数据包括患者的病程记录、实验室检查记录和随访记录；病程记录包括用药记录和手术记录。

进一步地，患者的相关健康医疗数据存储在数据库的多张表中，且表间存在键值连接使得各表信息得到关联。

进一步地，所述预处理包括实验室检验数据的去极值处理、数据缺失值以及预测目标的标签处理。

进一步地，所述预测目标的标签包括术后病发症的短期指标和患者自评估的中长期指标。

进一步地，对结构化数据进行处理具体过程为：基于长短期记忆网络LSTM对结构化数据进行编码后，通过池化进行融合使数据格式与预后指标保持一致。

进一步地，对非结构化数据进行处理具体过程为：根据预设的病程记录模版，构造病程输入数据，使用大语言模型LLM输出病程记录文本对应的病程向量化特征；所述病程记录模版形式为：[病程记录元素_1：元素值_1, 病程记录元素_2：元素值_2, ......, 病程记录元素_i：元素值_i]，其中病程记录元素为记录的事件类型，元素值为对应症状数据。

进一步地，所述深度泰勒分解子模块将时间卷积网络子模块预测的预后作为输入，将其通过网络反向传播进行局部更新，并递归地定义上一层所有激活神经元对预测结果的贡献；通过深度泰勒分解，从一个神经元到前一层激活神经元的局部反向传播通过在被选中的节点上进行一阶泰勒分解来解释非线性因素，并对输出神经元的所有贡献度分数求和，获得节点的贡献度分数，最后得到不同输入特征对当前预测症状的影响权重。

进一步地，所述数据可视化包括当前患者后期可能出现的症状，以及这些症状出现的日期，且这些症状是由当前的哪些特征导致的。

进一步地，可视化模块实现患者维度数据可视化，患者维度的可视化界面由参数多选列表、点阵图和直方图构成，点阵图中包含数据点特征，直方图中包含数据点特征的分布情况，以及对应数据点在分布中的具体位置和其真实数值。

本发明的有益效果：本发明融合了结构化的实验室检查数据和非结构化的病程记录（包括体征、症状、既往史、用药和手术等）的长期数据（1-5年）；其次，通过由时序卷积网络和深度泰勒分解构成的预测模型进行短期和长期预后的预测，可根据患者的身体状况变化做出不同时期下的预后预测，并通过归因溯源对于患者预后产生重要影响的时期和相应的特征；基于预后预测和归因溯源的结果，提供一种可视化方法，从队列、患者维度分别呈现模型输入特征对于某一预后结果的影响；最终构建一种可解释的长期预后预测系统，在为患者不同时间周期下的预后做出精准预测的同时，对模型做出充分解释，并且提供可视化方法增加模型的透明度与可信度，利于责任相关方（例如医院、医生）为患者提供优质、持续性的服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明提供的一种基于时序演进过程解释的疾病预后预测系统的结构图。

图2为本发明的预后预测与归因模块中模型结构示意图。

图3为本发明的深度泰勒分解子模块示意图。

图4为本发明的可视化模块示意图。

图5为本发明的可视化模块中柱状图示意图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

本发明针对目前基于患者长时间健康状况变化的预后模型可解释方法的稀缺性，构建一种基于时序演进过程解释的疾病预后预测系统。

如图1所示，本发明提供的一种基于时序演进过程解释的疾病预后预测系统，包括：数据采集模块、模型预处理模块、预后预测与归因模块和可视化模块；

数据采集模块：从电子病历数据库中提取冠心病患者的相关健康医疗数据，包括患者的病程记录、实验室检查记录和随访记录；病程记录包括用药记录和手术记录。在本实施例中，这些信息储存在Oracle数据库的多张表中，且表间存在键值连接使得各表信息可以得到关联。

数据预处理模块：该模块用于对所述相关健康医疗数据进行预处理，包括实验室检验数据的去极值处理、数据缺失值以及预测标签处理等。

预后预测与归因模块：基于时序演进过程的预后预测模型TCN-DTD预测不同时间节点的预后，并对风险因素进行重要程度解释。所述模型由三个子模块构成：数据融合子模块、时间卷积网络子模块和深度泰勒分解子模块。所述数据融合子模块以数据预处理模块处理后的患者的相关健康医疗数据为输入，首先基于LSTM对结构化数据进行编码后通过池化对其进行融合使数据格式与预测标签保持一致，通过大语言模型（LLM）对非结构化数据进行处理得到向量化语义特征，与处理后的结构化数据拼接后输入时间卷积网络子模块预测患者的预后，然后利用深度泰勒分解子模块得到/>与输入特征之间的关联，对当前预测预后的原因进行解释，判断该预测预后是由患者的哪些特征影响或导致的。

可视化模块：基于预后预测与归因模块中得到的结果，解释患者的模型的预测结果并进行数据可视化，主要包括当前患者后期可能出现的症状，这些症状出现的日期，且这些症状是由当前的哪些特征影响或导致的，为患者的预防提前防范做准备。所述可视化模块包括患者维度和队列维度的可视化界面。

所述数据采集模块从数据库中分别提取随访记录、实验室检查记录和病程记录，病程记录包括用药记录和手术记录，根据患者的ID和就诊ID，对所述数据进行关联。

在本实施例中，患者每次就诊会产生对应的就诊号VISIT_OCCURRENCE_ID，用于关联单次就诊下的实验室检查记录、用药记录、手术记录和病程记录。患者的VISIT_OCCURRENCE_ID与患者的ID，即PERSON_ID之间存在记录的映射关系。例如，实验室检查记录由PERSON_ID、VISIT_OCCURRENCE_ID、测量时间、检查项目和检查结果组成。

所述数据预处理模块对于数据集中的每一位患者，将实验室检查记录、病程记录分别处理成时间序列数据,/>，其中T为能够观测到的最大时间长度。

由于模型需要预测的标签分为短期（术后病发症）和中长期指标（长期效果、患者自评估），需要对动态数据集按照标签特征的类型进行时序采样上的处理。预后标签类别如下：

以冠心病为例，使用正则匹配对随访记录进行提取，提取目标如表1所示：

表1

对于提取结果，长期效果和术后病发症两类以多任务二分类的形式进行建模；其中，每个具体指标类别对应一种二分类任务，共计9个二分类任务。患者自评估以多任务回归的方式进行建模，形成3个回归任务。

数据预处理包括数据清洗和缺失值填充。本实施例中，数据清洗包括极端值处理和删除错误值。此外，针对实验室指标类特征进行归一化处理。

对于数据集D中的极端值，本实施例中采用3倍标准差去极值方法。对于超过均值加减10倍标准差以外的数据，认为是异常数据进行剔除，对于均值加减3倍-10倍标准差之间的数据，认为是极端数据，拉回到均值加减3倍标准差，具体公式如下：

式中是标准差，/>是均值。

在患者时间序列数据中，存在一些缺失的数据。本实施例使用前向填充方法对缺失值进行填充。

所述预后预测与归因模块将经过数据预处理模块预处理后的患者数据作为模型输入，构建输入序列，所述患者数据包括实验室检查记录数据和病程记录的文本数据，其中实验室检查记录和病程记录作为模型的输入，随访记录作为预测标签；

模型的输入特征（实验室检查、病程记录）的采样频率由预后指标类比的频率决定，例如长期效果类标签的预测窗口可以为日、月、年，其对应的输入特征也应在传入预测模型前进行频率上的整合。

因此，如果预测标签特征的时间周期为数日，则需要将实验室检查按照能够观测到的最长时间维度进行前向填充，得到；病程时间序列以零填充方式得到/>，N为序列长度。

所述数据融合子模块对于时间周期为数月或数年的预后指标，则需要在预测前对输入特征按月进行聚合，以避免输入时序过长。具体的，实验室检查类特征将传入LSTM模型中进行编码和聚合，而文本类特征病程记录将传入大语言模型（LLM），如：MedBert预训练模型，进行特征提取。

如果预测预后指标是以数月或者数年为目标，则需要首先将按日为采样频率的实验室指标类特征输入LSTM进行编码后，再根据目标任务对得到的特征用池化方法进行融合，使按日为采样频率的特征与预后指标所需特征格式保持统一，进而能够同时对多种维度的病理数据进行建模。以预测患者三年后再入院概率为例，需要将实验室检查序列整合为以月为频率的时间序列，输入至预测模型中。

将上述的连续型指标拼接成大小为31×m的特征矩阵E，其中m是实验室指标类型的总数，将E输入至LSTM模型中进行编码输出同样大小的矩阵，最终进过平均池化得到大小为1×m的矩阵E’。具体计算方式如下：

在本实施例中，由于预测窗口为3年，输入的连续型数值频率为月，则表示输入序列应为36个月的实验室检查、用药和手术。因此，需要将上述步骤重复36次，最终形成输入的数据向量I。

对于非结构化数据（即病程记录），需要根据预设的病程记录模版，构造病程输入数据，使用LLM输出病程记录文本对应病程向量化特征。所述病程记录模版形式为：[病程记录元素_1：元素值_1, 病程记录元素_2：元素值_2, ......, 病程记录元素_i：元素值_i]，例如, [“主要诊断: 持续性发热”,“持续时间: 一周”,“伴随症状: 关节疼痛”,“伴随症状程度: 剧烈”,“异常体征: 排尿困难”，“既往史: 糖尿病史”，“用药：西乐葆”，“手术：无”]。该构造的序列输入至MedBert模型中得到其对应的向量化语义特征。

本实施例中，预设的医疗事件模版如表2所示：

表2

对于缺失记录的日期进行零填充。所述数据向量为。

其中，是输入的第一个特征，输入的特征总数为6个，/>表示第k时刻下患者的病程记录，N为时间序列的长度（即，能够观测到的最长时间维度）。按照目标预后指标频率，对B进行时间维度的特征融合，得到能够表示B的病程语义特征。如，以池化操作，对B按照时间维度t进行特征融合，得到一个1×6的病程语义特征/>；对后续每个时间窗内的病程特征进行上述操作，将得到一个与实验室指标采样频率相同的病程语义特征序列，，/>为第N时刻的病程语义特征。

将上述得到的实验室检查序列和病程语义特征序列拼接，，构成预测模型的输入特征集/>，M为输入的总特征数。时间卷积网络具有因果约束，因此在预测t时刻的预后/>时，只能使用已经观测到的序列/>，而不能使用/>。

如图2所示，所述时间卷积网络子模块主体由残差网络、膨胀卷积和全连接层组成：

残差网络包含两层膨胀卷积和非线性映射，并通过权重将卷积核的权值归一化。残差网络还配有dropout单元来达到网络正则化的目的。

残差网络的输出表达式为：

式中为激活函数，本实施例中使用的是ReLU函数。

该模块包含一个分支F，该分支引出一系列变化，其输出与残差网络的输入x相加，并通过激活函数最后生成残差网络的输出o。全连接层对前层输出的特征进行加权求和，并把结果输入到激活函数，最终完成目标的分类。加权求和计算公式如下：

其中，b为偏置，W为网络权重矩阵，f为全连接层使用的激活函数，本实施例中使用的为softmax函数。

所述公式中的/>即膨胀卷积，与传统卷积不同的是膨胀卷积允许卷积时的输入存在间隔采样，采样率受到膨胀系数d的控制。

基于滤波器，膨胀卷积在序列中每个元素s的操作为：

具体的，f(j)表示卷积核中的第j个元素，d为膨胀系数，k为滤波器大小，“”表示卷积运算。膨胀卷积的感受野大小为/>，因此可通过增大K或者d来增加感受野。膨胀卷积使得有效窗口的大小随着层数呈指数型增长，使模型可以在使用较少的层数的情况下，获得较大的感受野。

为保证每个隐藏层和输入层的长度一致，使用padding的方式来保持后续层的长度，padding的大小为。

根据不同的预测指标，时间卷积网络子模块将采用不同的损失函数对模型进行训练。

本实施例中，对于概率类的预后指标（例如，急性心梗、中风和心衰），使用交叉熵损失函数：

对于数值类的预后指标（例如，心绞痛程度、身体机能状况），使用均方误差：

其中，n为训练数据长度，为时间卷积网络输出值，/>为样本真实值，设定损失函数最小化为优化目标。

所述深度泰勒分解子模块将时间卷积网络子模块预测的预后作为输入，通过深度泰勒分解子模块将其分解为更简单的局部更新，并递归地定义上一层所有激活神经元对预测结果的贡献/>。

初始的贡献度分数为：

所述初始贡献度分数通过网络反向传播进行局部更新，如图3所示，最终将触达输入层。其中，p和q表示网络中的神经元，且p为q前一层网络中的激活神经元。

通过深度泰勒分解，从一个神经元到前一层激活神经元的局部反向传播通过在某些被选中的节点上进行一阶泰勒分解来解释模型中的非线性因素。为了将神经元p的相关性进一步向前反传，需要对输出神经元的所有贡献度分数求和，获得某一节点的贡献度分数/>：

其中，p在反向传播中对输出神经元有贡献，为局部贡献度分数，/>是经过ReLu激活函数的神经元，/>为权重。

最后得到不同输入特征对当前预测症状的影响权重。例如，对于急性肾损伤来说，肾小球滤过率、血红蛋白、血肌酐等指标对患者影响大，而脉搏、血压等指标对患者基本无影响。

所述可视化模块实现患者维度数据可视化，患者维度的可视化界面由参数多选列表、点阵图和直方图构成，如图4所示。用户可通过点击点阵图中的数据点，预览直方图中该特征的分布情况，以及该数据点在分布中的具体位置和其真实数值。

患者维度的界面参数包括：模型预测目标预后指标、患者ID、展示特征数量、时间维度以及模型训练的时间范围。

利用数据点的形状体现特征分布情况。其中三角形代表80-100百分位，星形代表60-80百分位，正方形代表40-60百分位，菱形代表20-40百分位，圆形代表0-20百分位。

数据点大小区分特征与预测预后之间的相关程度，数据点的半径与计算得到的贡献度分数成正比，相关性越高的特征对应的数据点半径越大，表示该特征对目标预后的影响程度越高。

在本实施例中，预后指标为数据采集模块中所列的各项指标。选择特征数量n将使得可视化界面展示与某预后指标最相关的n个特征。时间维度按照目标预后的指标类型，分为日、月和年。模型训练时间范围可在所选患者已有记录的时间段内，通过拖拽时间轴的起始和终止点来进行选择。

数据点的大小由深度泰勒分解子模块的输出决定。在本实施例中，数据点的半径r和深度泰勒分解子模块输出的相关性分数关系通过以下公式计算：

所述可视化模块还能够实现队列维度数据可视化，队列维度的可视化界面由参数多选列表、柱状图和点阵图构成。本实施例中，所述队列维度的界面参数包括：队列结局预后、患者性别、患者年龄段、病史、展示特征数量、时间维度和模型训练时间范围。用户可通过选择患者性别、年龄段、和病史构建队列，比较不同队列的差异性。

具体的，对于患者的年龄，按照1-6岁为幼童，7-18岁为少年，19-29岁为青年，30-39岁为中青年组，40-49岁为中年组和50岁以上为中老年组，共划分为六个年龄组。对于病史，本实施例中可选无基础疾病、高血压、糖尿病和血脂异常等。

如图5所示，柱状图反应了各指标与预后的平均相关性，点阵图汇总了各指标通过深度泰勒分解子模块得到的所有贡献度分数。队列维度主要用于全局性地展现对于某疾病或特定人群较为重要的指标，并根据平均相关性分数对所有指标的重要性排序。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于时序演进过程解释的疾病预后预测系统，其特征在于，该系统包括数据采集模块、数据预处理模块、预后预测与归因模块和可视化模块；

所述深度泰勒分解子模块用于获取预后与输入特征之间的关联，对当前预测预后的原因进行解释，判断预测预后的影响因素；所述深度泰勒分解子模块将时间卷积网络子模块预测的预后作为输入，将其通过网络反向传播进行局部更新，并递归地定义上一层所有激活神经元对预测结果的贡献C_q；

初始的贡献度分数为：

所述初始贡献度分数通过网络反向传播进行局部更新C_p←q，最终将触达输入层；

通过深度泰勒分解，从一个神经元到前一层激活神经元的局部反向传播通过在某些被选中的节点上进行一阶泰勒分解来解释模型中的非线性因素；为了将神经元p的相关性进一步向前反传，需要对输出神经元的所有贡献度分数C_p←q求和，获得某一节点的贡献度分数C_p：

C_p＝Σ_qC_p←q

其中，p在反向传播中对输出神经元有贡献，C_p←q为局部贡献度分数，a_p是经过ReLu激活函数的神经元，w_pq为权重；

对输出神经元的所有贡献度分数求和，获得节点的贡献度分数，最后得到不同输入特征对当前预测症状的影响权重；

2.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统，其特征在于，所述患者的相关健康医疗数据包括患者的病程记录、实验室检查记录和随访记录；病程记录包括用药记录和手术记录。

3.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统，其特征在于，患者的相关健康医疗数据存储在数据库的多张表中，且表间存在键值连接使得各表信息得到关联。

4.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统，其特征在于，所述预处理包括实验室检验数据的去极值处理、数据缺失值以及预测目标的标签处理。

5.根据权利要求4所述的一种基于时序演进过程解释的疾病预后预测系统，其特征在于，所述预测目标的标签包括术后病发症的短期指标和患者自评估的中长期指标。

6.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统，其特征在于，对结构化数据进行处理具体过程为：基于长短期记忆网络LSTM对结构化数据进行编码后，通过池化进行融合使数据格式与预后指标保持一致。

7.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统，其特征在于，对非结构化数据进行处理具体过程为：根据预设的病程记录模版，构造病程输入数据，使用大语言模型LLM输出病程记录文本对应的病程向量化特征；所述病程记录模版形式为：[病程记录元素_1：元素值_1,病程记录元素_2：元素值_2,......,病程记录元素_i：元素值_i]，其中病程记录元素为记录的事件类型，元素值为对应症状数据。

8.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统，其特征在于，所述数据可视化包括当前患者后期可能出现的症状，以及这些症状出现的日期，且这些症状是由当前的哪些特征导致的。

9.根据权利要求1所述的一种基于时序演进过程解释的疾病预后预测系统，其特征在于，可视化模块实现患者维度数据可视化，患者维度的可视化界面由参数多选列表、点阵图和直方图构成，点阵图中包含数据点特征，直方图中包含数据点特征的分布情况，以及对应数据点在分布中的具体位置和其真实数值。