CN117894473A

CN117894473A - 一种自适应集成学习模型的出院准备评估方法及系统

Info

Publication number: CN117894473A
Application number: CN202410056725.6A
Authority: CN
Inventors: 刘萍; 姜丽萍; 刘海平; 顾佳妮; 戈晓华; 王利维; 张婷婷
Original assignee: XinHua Hospital Affiliated To Shanghai JiaoTong University School of Medicine
Current assignee: XinHua Hospital Affiliated To Shanghai JiaoTong University School of Medicine
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-04-16

Abstract

本发明涉及一种自适应集成学习模型的出院准备评估方法及系统，属于医疗控制系统技术领域。其中，该方法包括：获取原始医用数据并进行预处理，划分为训练集和测试集；构建自适应评估模型，对训练集进行数据采样得到数据子集，采用基分类器对自适应评估模型进行分类预测得到第一分类预测结果；将数据子集作为训练集训练基分类器得到基分类模型，将测试集作为基分类模型的输入得到测试集预测结果；将测试集预测结果作为训练数据训练堆叠分类器得到堆叠分类模型，使用测试集作为堆叠分类模型的输入得到第二分类预测结果；将第一分类预测结果与第二分类预测结果进行信效度评估得到出院计划综合评估量表。实现了基于多方位信息的综合出院准备评估考量。

Description

一种自适应集成学习模型的出院准备评估方法及系统

技术领域

本发明属于医疗控制系统技术领域，具体涉及一种自适应集成学习模型的出院准备评估方法及系统。

背景技术

随着持续增长的院后卫生服务需求与医疗资源紧张的矛盾日益显著，在出院计划的实践过程中早期评估以确定高需求患者是促进其顺利实施的关键，由于关注点不同，护患双方对出院准备情况的认识并不一致，且对出院准备度的评估也存在差异；现有技术主要根据现有医疗控制系统中的数据信息做出主观判断，缺乏有效的整体评估标准，在面对大量数据时，无法及时做出响应，且数值型的评判标准无法适应数据分布的变化，在实际问题处理上缺乏综合考量。

发明内容

为解决现有技术中存在的上述问题，本发明提供了一种自适应集成学习模型的出院准备评估方法及系统；

本发明的目的可以通过以下技术方案实现：

S1：获取原始医用数据，对所述原始医用数据中缺失的属性值进行量化填充得到预处理结果，将所述预处理结果划分为训练集和测试集；

S2：构建自适应评估模型，分析所述训练集的类别平衡性得到不平衡率，预设检测阈值，若所述不平衡率小于所述检测阈值，则对所述训练集进行数据采样得到数据子集，若所述不平衡率大于所述检测阈值，则采用基分类器对所述自适应评估模型进行分类预测得到第一分类预测结果；

S3：将所述数据子集作为训练集训练基分类器得到基分类模型，将所述测试集作为所述基分类模型的输入得到测试集预测结果；

S4：将所述测试集预测结果作为训练数据训练堆叠分类器得到堆叠分类模型，使用所述测试集作为所述堆叠分类模型的输入得到第二分类预测结果；

S5：将所述第一分类预测结果与所述第二分类预测结果进行信效度评估得到出院计划综合评估量表。

具体地，所述原始医用数据包括患者自评量表、专家建议量表、照顾者自评量表、入院时间、术前时间、术后时间、疾病类别；所述患者自评量表包括人际关系敏感度、心理健康指数、焦虑状况、出院偏向度、睡眠状况、饮食状况、身体不适感共7项条目属性，上述7项条目属性的取值为1-10，所述专家建议量表包括体力恢复状态、精神状态、认知功能状态、健康评估、后遗症风险共5项条目属性，上述5项条目属性的取值为1-10，所述照顾者自评量表包括应对和管理紧急情况、照顾压力、出院照顾准备、亲属照顾出院意向值共4项条目属性，上述4项条目属性的取值为1-10，集成所述原始数据共20项属性，对采集的原始医用数据中缺失的属性值进行量化填充得到预处理结果。

作为本发明的一种优选技术方案，所述量化填充方法为：

对所述原始医用数据标注不同类别，将不同属性数据之间的相互距离标注为1，将相同属性数据之间的相互距离标注为0；将全部数据的属性值进行归一化，赋予不同属性数据相同的权值，并计算属性间的不完整信息相似度，计算公式为：

其中，S为不完整信息相似度，P为离散型属性个数，q为数据属性，j为数据集合任一簇中心，a为连续型数值属性，b、c为不同类别信息，c_j、c_k为c类信息下的第j、k个属性，q为数据集合；

通过所述不完整信息相似度计算原始医用数据的信息熵，以所述信息熵为参照对所述原始医用数据进行缺失数据填充，计算公式为：

其中，F为缺失数据的填充函数，H为信息熵，E为占位系数，K₁、K₂为相同类别中的不同数据，U为同类数据的相关性系数，d为缺失数据有效取值区间，k为属性取值；

将处理后的原始数据按照9：1的比例划分为训练集和测试集。

具体地，所述S2包括：

通过所述自适应评估模型将所述训练集分为多数样本集和少数样本集两类，预设数据子集个数和迭代次数；

从所述多数样本集中选取循环样本，将所述循环样本与所述少数样本集组成循环数据子集，通过所述循环数据子集训练集成分类器，并通过调整所述集成分类器的参数控制误差矩阵，并预设误差阈值和检测阈值；

选取所述误差矩阵小于所述误差阈值对应的所述循环样本，并在所述多数样本集中剔除所述循环样本，若所述多数样本集于所述少数样本集的比值小于所述检测阈值，则将所述循环数据子集保存为数据子集，若所述多数样本集于所述少数样本集的比值大于设定的不平衡率阈值，则采用基分类器对所述自适应评估模型进行分类预测得到第一分类预测结果。

具体地，所述基分类器训练方法为：通过输入的训练数据构建决策树集合得到目标函数，计算公式为：

其中，O(t)为目标函数，为训练损失，i为训练样本计数，n为训练样本总数，k为决策树计数，K为决策树棵树的总数，g为复杂系数，T为叶子节点个数，λ为梯度常数，||w_k||²为叶子节点的L2范数；

根据最优叶子权重求解所述目标函数得到模型参数，通过训练数据对所述基分类器进行迭代训练得到基分类模型。

具体地，所述堆叠分类器训练方法为：将每个基分类模型的输出结果组成新的训练集，基于所述基分类模型的特征分配权重，通过交叉验证拟合所述基分类模型得到堆叠分类模型，计算公式为：

其中，(c_l，w_l)为堆叠分类模型，c为基分类模型，w为基分类模型对应的权重，e为损失函数，n为基分类模型计数，N为基分类模型总数，s_l-1为基分类器组成的集成模型，x_n为模型输入，y_n为模型输出。

一种自适应集成学习模型的出院准备评估系统，包括数据预处理模块、自适应分类模块、模型训练模块、模型集成模块、分类预测模块；

所述数据预处理模块用于获取原始医用数据，对所述原始医用数据进行预处理后划分为训练集和测试集；

所述自适应分类模块用于构建自适应评估模型，分析所述训练集的类别平衡性得到不平衡率，预设检测阈值，若所述不平衡率小于所述检测阈值，则对所述训练集进行数据采样得到数据子集，若所述不平衡率大于所述检测阈值，则采用基分类器对所述自适应评估模型进行分类预测得到第一分类预测结果；

所述模型训练模块用于将所述数据子集作为训练集训练基分类器得到基分类模型，将所述测试集作为所述基分类模型的输入得到测试集预测结果；

所述模型集成模块用于将所述测试集预测结果作为训练数据训练堆叠分类器得到堆叠分类模型，使用所述测试集作为所述堆叠分类模型的输入得到第二分类预测结果；

所述分类预测模块用于将所述第一分类预测结果与所述第二分类预测结果进行信效度评估得到出院计划综合评估量表。

本发明的有益效果为：

(1)通过设置自适应评估模型来提取医用数据中的局部信息，并通过对数据填充来弥补系统信息录入时的缺失值，构建符合当前数据分布的训练集，能够对变化的数据自适应学习，提升分类模型的适应性，综合多方位信息考量，做出合理性评估。

(2)通过设置集成模型对超出阈值的不平衡数据进行处理，有效解决不平衡数据对模型的干扰，借助堆叠策略弥补数据欠采样的缺陷，充分利用原始样本数据。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的一种自适应集成学习模型的出院准备评估方法的流程示意图；。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下。

请参阅图1，一种自适应集成学习模型的出院准备评估方法：

作为本发明的一种优选技术方案，所述量化填充方法为：

本实施例中，采用基于sklearn模块内置的SimpleImputer方法实现数据填充，使用lightgbm进行快速、高效的内存插补，通过变量大量应用插补程序。通过将命名列表传递给variable_schema，为要估算的每个变量指定预测变量。通过传递有效值的字典来指定mean_match_candidates和变量，变量名作为键。

具体地，所述S2包括：

本实施例中，采用平衡级联算法减少多数类样本中的冗余样本，使得多数类和少数类样本数据尽可能平衡，有效克服利用随机欠采样技术随机去除样本而造成信息丢失的缺点，根据正负样本不平衡率设置数据子集的数量从而得到一个可调节数据子集数量的数据集合。提高数据集整体的代表性和鲁棒性，避免获得非代表性的预测。

本实施例中，采用XGBoost算法训练数据迭代构建决策树集合使得模型残差不断往梯度方向减少，从而构建出一个具有较强鲁棒性和分类性能的集成模型，在GBDT的基础上对目标函数进行了二阶泰勒展开，在模型训练过程中使用了二阶导数加快模型的收敛速度。

本实施例中，所有模型已采用5折交叉验证进行参数寻优，基分类器由1个LSTM层、2个全连接层和1个sigmoid输出层组成；初始学习率设置为0.001，使用Adam优化器进行训练，最大训练次数设置为200次。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种自适应集成学习模型的出院准备评估方法，其特征在于，包括：

2.根据权利要求1所述的一种自适应集成学习模型的出院准备评估方法，其特征在于，所述原始医用数据包括患者自评量表、专家建议量表、照顾者自评量表、入院时间、术前时间、术后时间、疾病类别；所述患者自评量表包括人际关系敏感度、心理健康指数、焦虑状况、出院偏向度、睡眠状况、饮食状况、身体不适感共7项条目属性，上述7项条目属性的取值为1-10，所述专家建议量表包括体力恢复状态、精神状态、认知功能状态、健康评估、后遗症风险共5项条目属性，上述5项条目属性的取值为1-10，所述照顾者自评量表包括应对和管理紧急情况、照顾压力、出院照顾准备、亲属照顾出院意向值共4项条目属性，上4项条目属性的取值为1-10，集成所述原始数据共20项属性，对采集的原始医用数据中缺失的属性值进行量化填充得到预处理结果。

3.根据权利要求1所述的一种自适应集成学习模型的出院准备评估方法，其特征在于，所述量化填充方法为：

4.根据权利要求1所述的一种自适应集成学习模型的出院准备评估方法，其特征在于，所述S2包括：

5.根据权利要求1所述的一种自适应集成学习模型的出院准备评估方法，其特征在于，所述基分类器训练方法为：通过输入的训练数据构建决策树集合得到目标函数，计算公式为：

6.根据权利要求1所述的一种自适应集成学习模型的出院准备评估方法，其特征在于，所述堆叠分类器训练方法为：将每个基分类模型的输出结果组成新的训练集，基于所述基分类模型的特征分配权重，通过交叉验证拟合所述基分类模型得到堆叠分类模型，计算公式为：

7.一种自适应集成学习模型的出院准备评估系统，用于执行如权利要求1-6中任一所述的一种自适应集成学习模型的出院准备评估方法，其特征在于，包括数据预处理模块、自适应分类模块、模型训练模块、模型集成模块、分类预测模块；