CN117290686A

CN117290686A - 一种预测患者跌倒风险的模型的构建方法

Info

Publication number: CN117290686A
Application number: CN202311560971.7A
Authority: CN
Inventors: 聂瑞; 许娟; 梁大柱; 张佳乐; 王瑞国; 费鸿高; 高剑伟; 吴玉杰; 刘燕波; 王剑仲; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2023-12-26

Abstract

本发明涉及一种预测患者跌倒风险的模型的构建方法，该构建方法包括：数据的采集、数据的预处理以及模型构建等步骤。本发明针对平衡能力数据以及步态能力数据，通过筛选出与平衡能力数据相关性较高的第一风险特征以及与步态能力数据相关性较高的第二风险特征，采用8种二分类的机器学习模型针对平衡能力和步态能力分别进行模型构建，并分别计算7种模型评价指标，分别选取AUROC最高的预测患者跌倒风险的模型作为最终模型，该模型能够实现对患者步态和平衡能力的快速预测，模型效果较好，且得到的评估结果更加能体现真实的平衡能力与步态能力，提高了患者跌倒风险预测结果的准确度。

Description

一种预测患者跌倒风险的模型的构建方法

技术领域

本发明涉及跌倒风险预测领域，尤其涉及一种预测患者跌倒风险的模型的构建方法。

背景技术

据估计，每年有超过30%的65岁以上人士和约50%的85岁以上人士会发生跌倒。而跌倒者中有12%～42%会导致受伤。此外，一旦个人发生了跌倒，他们第二次跌倒的可能性就会增加50%。相较于年轻同龄人，老年患者的与跌倒相关的死亡率更高。

跌倒通常是多因素共同作用的结果，包括步态和平衡障碍。通常需要医生结合标准化评分量表评估患者的平衡和步态能力，费时费力。此外，现有传感器采集到数据与标准评分量表存在差异，为直观评判患者跌倒风险带来挑战。基于此，本发明提供了一种预测患者跌倒风险的模型的构建方法，基于传感器数据并结合标准评分量表的评判标准采用8种机器学习模型，建立了跌倒风险预测模型，可实现对患者步态和平衡能力快速预测。

发明内容

基于此，有必要针对上述技术问题，提供一种预测患者跌倒风险的模型的构建方法。

本发明提供了一种预测患者跌倒风险的模型的构建方法，包括如下步骤：

数据的采集，采集平衡能力数据和步态能力数据，其中，平衡能力数据包括平衡能力异常数据和平衡能力正常数据，且平衡能力数据包含38个第一原始特征，步态能力数据包括步态能力异常数据和步态能力正常数据，且步态能力数据包含20个第二原始特征；

数据的预处理，将平衡能力数据和步态能力数据均进行缺失值填充处理，随后采用随机森林特征筛选方法，从第一原始特征和第二原始特征中，分别筛选出平衡能力数据和步态能力数据中前10个重要特征后，再采用spearman相关性分析方法，分别选取在平衡能力数据和步态能力数据中相关性较高的特征作为风险特征，得到第一风险特征和第二风险特征，其中，第一风险特征为与平衡能力数据相关性较高的8个第一原始特征，第二风险特征为与步态能力数据相关性较高的6个第二原始特征，并将平衡能力数据和步态能力数据进行标准化处理；

模型构建，将包含第一风险特征的平衡能力数据以及包含第二风险特征的步态能力数据分别划分成训练集和测试集，采用SMOTE算法对平衡能力数据和步态能力数据的训练集均进行过采样处理，基于选取的第一风险特征，构建8种预测患者跌倒风险的第一模型，并将平衡能力数据中测试集的第一风险特征作为输入值输入至第一模型中，计算7种模型评价指标，选取AUROC最高的预测患者跌倒风险的第一模型作为基于平衡能力的最终模型，基于选取的第二风险特征，构建8种预测患者跌倒风险的第二模型，并将步态能力数据中测试集的第二风险特征作为输入值输入至第二模型中，计算7种模型评价指标，选取AUROC最高的预测患者跌倒风险的第二模型作为基于步态能力的最终模型。

在本发明的一些具体实施方案中，所述将采集的平衡能力数据和步态能力数据进行缺失值填充处理，具体包括：采用中位数对平衡能力数据和步态能力数据中的缺失值进行缺失值填充处理。

在本发明的一些具体实施方案中，所述第一风险特征包括体重指数、测试者前庭感知的轨迹长度、患侧的摆幅均值、测试者双脚左右摆幅的最大值、测试者前庭感知左右摆幅的最大值、患侧的轨迹长度、测试者前庭感知的摆速均值以及健侧的前后摆幅的最大值，所述第二风险特征包括体重指数、年龄、减重、测试者双支撑时间的均值、测试者步宽的均值以及测试者站立时间的均值。

在本发明的一些具体实施方案中，所述标准化处理的公式如下：

其中，μ表示平均值，σ表示标准差，表示待标准化的平衡能力数据或步态能力数据，表示标准化的平衡能力数据或步态能力数据。

在本发明的一些具体实施方案中，所述将包含第一风险特征的平衡能力数据以及包含第二风险特征的步态能力数据分别划分成训练集和测试集，具体包括：将包含第一风险特征的平衡能力数据以及包含第二风险特征的步态能力数据均按照7:3的比例划分成训练集和测试集。

在本发明的一些具体实施方案中，所述8种预测患者跌倒风险的第一模型和8种预测患者跌倒风险的第二模型均包括朴素贝叶斯模型、K最近邻模型、支持向量机模型、逻辑斯谛回归模型、决策树模型、AdaBoost模型、XGBoost模型以及随机森林模型。

在本发明的一些具体实施方案中，所述7种模型评价指标包括准确率、敏感性、特异性、精确率、F1分数、AUROC和AUPRC。

在本发明的一些具体实施方案中，在所述选取AUROC最高的预测患者跌倒风险的第一模型作为基于平衡能力的最终模型以及选取AUROC最高的预测患者跌倒风险的第二模型作为基于步态能力的最终模型之后，均还包括：基于随机搜索，将最终模型进行超参数优化处理，将剩余的7种预测患者跌倒风险的第一模型和第二模型均进行默认超参数优化处理。

在本发明的一些具体实施方案中，在所述模型构建步骤之后，还包括采用列线图分别对多个第一风险特征以及多个第二风险特征进行整合，分别构建平衡能力评分图以及步态能力评分图，用于预测平衡能力或步态能力是否正常。

本发明还提供了所述的构建方法获得的预测患者跌倒风险的模型。

本发明的优点及有益效果在于：

本发明提供的一种预测患者跌倒风险的模型的构建方法，针对平衡能力数据以及步态能力数据，通过筛选出与平衡能力数据相关性较高的第一风险特征以及与步态能力数据相关性较高的第二风险特征，采用8种二分类的机器学习模型针对平衡能力和步态能力分别进行模型构建，并分别计算7种模型评价指标，分别选取AUROC最高的预测患者跌倒风险的模型作为最终模型，该模型能够实现对患者步态和平衡能力的快速预测，模型效果较好，且得到的评估结果更加能体现真实的平衡能力与步态能力，提高了患者跌倒风险预测结果的准确度。

附图说明

图1为预测患者跌倒风险的模型的构建方法的流程图；

图2为平衡能力评分图；

图3为步态能力评分图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明旨在解决现有技术中存在的不足之处，针对平衡能力以及步态能力，分别构建一套预测患者跌倒风险的模型，该两套预测患者跌倒风险的模型基于下述预测患者跌倒风险的模型的构建方法，包括如下步骤：

S101、数据的采集，采集平衡能力数据和步态能力数据，其中，平衡能力数据包括平衡能力异常数据和平衡能力正常数据，且平衡能力数据包含38个第一原始特征，步态能力数据包括步态能力异常数据和步态能力正常数据，且步态能力数据包含20个第二原始特征。

在一种实施方式中，例如：采集1527例平衡能力数据，其中，包含1407例平衡能力异常数据和120例平衡能力正常数据；又如：采集1995例步态能力数据，其中，包含1857例步态能力异常数据和138例步态能力正常数据，应当理解的是，此处的平衡能力异常数据和步态能力异常数据均代表着患者的平衡能力异常数据和步态能力异常数据，同理，平衡能力正常数据和步态能力正常数据均代表着正常人的平衡能力正常数据和步态能力正常数据。

S102、数据的预处理，将平衡能力数据和步态能力数据均进行缺失值填充处理，随后采用随机森林特征筛选方法，从第一原始特征和第二原始特征中，分别筛选出平衡能力数据和步态能力数据中前10个重要特征后，再采用spearman相关性分析方法，分别选取在平衡能力数据和步态能力数据中相关性较高的特征作为风险特征，得到第一风险特征和第二风险特征，其中，第一风险特征为与平衡能力数据相关性较高的8个第一原始特征，第二风险特征为与步态能力数据相关性较高的6个第二原始特征，并将平衡能力数据和步态能力数据进行标准化处理。

在一种实施方式中，所述将采集的平衡能力数据和步态能力数据进行缺失值填充处理，具体包括：采用中位数对平衡能力数据和步态能力数据中的缺失值进行缺失值填充处理，基于缺失值填充处理，能够在较大程度上还原了缺失数据的风险表现，为后续的建模性能带来较好提升。

在一种实施方式中，基于随机森林特征筛选方法筛，从第一原始特征和第二原始特征中，选出前10个重要特征后，再采用spearman相关性分析方法，分别选取相关性较高的特征作为风险特征，得到第一风险特征和第二风险特征，其中，为构建基于平衡能力数据的模型选取了第一风险特征，该第一风险特征为与平衡能力数据相关性较高的8个第一原始特征，具体包括：体重指数、测试者前庭感知的轨迹长度、患侧的摆幅均值、测试者双脚左右摆幅的最大值、测试者前庭感知左右摆幅的最大值、患侧的轨迹长度、测试者前庭感知的摆速均值以及健侧的前后摆幅的最大值；另外，为构建基于步态能力数据的模型选取了第二风险特征，该第二风险特征为与步态能力数据相关性较高的6个第二原始特征，具体包括：体重指数、年龄、减重、测试者双支撑时间的均值、测试者步宽的均值以及测试者站立时间的均值。

在一种实施方式中，将平衡能力数据和步态能力数据进行标准化处理，其中，标准化处理的公式如下：

其中，μ表示平均值，σ表示标准差，表示待标准化的平衡能力数据或步态能力数据，表示标准化的平衡能力数据或步态能力数据，其作用是将平衡能力异常数据或步态能力异常数据值线性变换到均值0，方差1的分布下，以减少规模、特征、分布差异等对后续构建模型的影响。

S103、模型构建，将包含第一风险特征的平衡能力数据以及包含第二风险特征的步态能力数据分别划分成训练集和测试集，采用SMOTE算法对平衡能力数据和步态能力数据的训练集均进行过采样处理，基于选取的第一风险特征，构建8种预测患者跌倒风险的第一模型，并将平衡能力数据中测试集的第一风险特征作为输入值输入至第一模型中，计算7种模型评价指标，选取AUROC最高的预测患者跌倒风险的第一模型作为基于平衡能力的最终模型，基于选取的第二风险特征，构建8种预测患者跌倒风险的第二模型，并将步态能力数据中测试集的第二风险特征作为输入值输入至第二模型中，计算7种模型评价指标，选取AUROC最高的预测患者跌倒风险的第二模型作为基于步态能力的最终模型。

在一种实施方式中，包含第一风险特征的平衡能力异常数据以及包含第二风险特征的步态能力异常数据分别按照7:3的比例拆分为训练集和测试集，并对平衡能力数据和步态能力数据的训练集使用SMOTE算法进行过采样处理，该方法通过在少数类样本（正常人）之间插值生成合成样本，可以增加正常样本的数目，从而可以改善训练集中正常异常样本不均衡的问题及增强模型的泛化能力。

在一种实施方式中，为了寻找到最优的模型，本发明针对平衡能力和步态能力，分别采用8种二分类的机器学习模型进行训练，该8种预测患者跌倒风险的模型为朴素贝叶斯模型、K最近邻模型、支持向量机模型、逻辑斯谛回归模型、决策树模型、AdaBoost模型、XGBoost模型以及随机森林模型，并且分别计算7种模型评价指标，7种模型评价指标具体包括：准确率、敏感性、特异性、精确率、F1分数、AUROC和AUPRC，分别选取AUROC最高的预测患者跌倒风险的模型作为最终模型，针对平衡能力和步态能力，对8种预测患者跌倒风险的模型分别进行7种模型评价的结果如下表1-2。

表1 基于平衡能力的模型的模型评价指标

模型	准确率	敏感性	特异性	精确率	F1分数	AUROC	AUPRC
								朴素贝叶斯模型	33%	28%	83%	95%	0.44	0.73	0.97
K最近邻模型	74%	75%	58%	96%	0.84	0.78	0.98
								支持向量机模型	79%	81%	58%	96%	0.88	0.80	0.98
逻辑斯谛回归模型	65%	62%	92%	99%	0.77	0.78	0.98
								决策树模型	80%	84%	33%	94%	0.88	0.59	0.96
AdaBoost模型	75%	78%	42%	94%	0.85	0.64	0.95
								XGBoost模型	86%	90%	33%	94%	0.92	0.75	0.97
随机森林模型	88%	94%	25%	94%	0.94	0.76	0.97

表2 基于步态能力的模型的模型评价指标

模型	准确率	敏感性	特异性	精确率	F1分数	AUROC	AUPRC
								朴素贝叶斯模型	32%	27%	93%	98%	0.44	0.68	0.97
K最近邻模型	68%	69%	50%	95%	0.80	0.62	0.96
								支持向量机模型	53%	52%	64%	95%	0.67	0.66	0.95
逻辑斯谛回归模型	66%	64%	86%	98%	0.78	0.84	0.99
								决策树模型	78%	81%	29%	94%	0.88	0.55	0.96
AdaBoost模型	73%	75%	43%	95%	0.84	0.76	0.98
								XGBoost模型	86%	90%	36%	95%	0.92	0.78	0.98
随机森林模型	85%	88%	36%	95%	0.91	0.76	0.98

由上表1-2可知，对于平衡能力的预测患者跌倒风险的模型而言，支持向量机模型的AUROC最高，因此，将支持向量机模型作为基于平衡能力的最终模型；对于步态能力的预测患者跌倒风险的模型而言，逻辑斯谛回归模型的AUROC最高，因此，将逻辑斯谛回归模型作为基于步态能力的最终模型。

在一种实施方式中，在选取AUROC最高的预测患者跌倒风险的第一模型作为基于平衡能力的最终模型以及选取AUROC最高的预测患者跌倒风险的第二模型作为基于步态能力的最终模型之后，均还包括：基于随机搜索，将最终模型进行超参数优化处理，将剩余的7种预测患者跌倒风险的第一模型和第二模型均进行默认超参数优化处理。

在一种实施方式中，例如：在基于平衡能力的模型中，对支持向量机模型采用随机搜索的方法进行超参数优化，如：支持向量机的超参数：，/>，其他剩余的7种模型则采用默认超参数优化。

在一种实施方式中，例如：在基于步态能力的模型中，对逻辑斯谛回归模型采用随机搜索的方法进行超参数优化，如：逻辑斯谛回归的超参数：，其他剩余的7种模型则采用默认超参数优化；另外，考虑到较高的敏感性，更适用于实际应用，因此对逻辑斯谛回归模型的预测概率进行了阈值调节，阈值可设置为0.4。

在一种实施方式中，不同模型的默认超参数具体如下：

（1）随机森林模型的默认超参数为：，/>，，/>；

（2）XGBoost模型的默认超参数为：，/>，；

（3）朴素贝叶斯模型的默认超参数为：；

（4）K最近邻模型的默认超参数为：，/>，/>；

（5）支持向量机模型的默认超参数为：，/>，/>，/>，；

（6）逻辑斯谛回归模型的默认超参数为：，/>，/>，；

（7）决策树模型的默认超参数为：，/>，/>，；

（8）AdaBoost模型的默认超参数为：，/>，，/>。

S104、采用列线图分别对多个第一风险特征以及多个第二风险特征进行整合，分别构建平衡能力评分图以及步态能力评分图，用于预测平衡能力或步态能力是否正常。

在一种实施方式中，采用列线图对多个第一风险特征进行整合，生成平衡能力评分图，根据多个第一风险特征的分值，并将所有第一风险特征的分值相加，基于所有第一风险特征的分值之和与平衡能力异常预测概率的映射关系，预测平衡能力是否正常，如：参考附图2所示，其中，附图2中包含测试者双脚左右摆幅的最大值、测试者前庭感知左右摆幅的最大值以及患侧的轨迹长度三种第一风险特征，分别查找每种第一风险特征的分值，如测试者双脚左右摆幅的最大值为5mm时，其分值为8分，测试者前庭感知左右摆幅的最大值取值为50mm时，其分值为0分，患侧的轨迹长度取值为100mm时，其分值为11分，此时三种第一风险特征的总分是19分，则对应于平衡能力异常预测概率为0.7，因此，表明有70%的可能性为异常。

在一种实施方式中，采用列线图对多个第二风险特征进行整合，生成步态能力评分图，根据多个第二风险特征的分值，并将所有第二风险特征的分值相加，基于所有第二风险特征的分值之和与步态能力异常预测概率的映射关系，预测步态能力是否正常，如：参考附图3所示，其中，附图3中包含年龄、减重以及测试者双支撑时间的均值三种第二风险特征，分别查找每种第二风险特征的分值，这里将年龄划分成4个组分，分别为中青年（≤45岁）、中年（45-60岁）、中老年（60-75岁）、老年（≥75岁），将减重划分成3个组分，分别为低（≤5.5kg）、中（5.5-10kg）、高（≥10kg），如测试者双支撑时间的均值取值为1s时，年龄是中年，减重是低时，三种第二风险特征的分值分别为：6分、6分、6分，此时第二风险特征的总分是18分，则对应于步态能力异常预测概率为0.75，因此，表明有75%的可能性为异常。

在一种实施方式中，本发明还提供了一种预测患者跌倒风险的模型，该模型是基于前述的预测患者跌倒风险的模型的构建方法获得的。

综上，本发明提供了一种预测患者跌倒风险的模型的构建方法，针对平衡能力数据以及步态能力数据，基于传感器数据以及标准评分量表的评判标准，通过筛选出与平衡能力数据相关性较高的第一风险特征以及与步态能力数据相关性较高的第二风险特征，采用8种机器学习模型，分别构建基于平衡能力的模型和步态能力的模型，并基于模型评价指标，分别选取AUROC最高的预测患者跌倒风险的模型作为最终模型，该模型用于实现对患者步态和平衡能力的快速预测，模型预测效果较好，具体来说，对于平衡能力的预测而言，AUROC为0.801，且在总评分大于40时，可预测患者具有较高风险的平衡能力异常（有90%的可能性为异常），对于步态能力的预测而言，AUROC为0.841，且在总评分大于20时，可预测患者具有较高风险的步态能力异常（有85%的可能性为异常）；另外，得到的评估结果更加能体现真实的平衡能力与步态能力，提高了患者跌倒风险预测结果的准确度。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种预测患者跌倒风险的模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的一种预测患者跌倒风险的模型的构建方法，其特征在于，所述将采集的平衡能力数据和步态能力数据进行缺失值填充处理，具体包括：采用中位数对平衡能力数据和步态能力数据中的缺失值进行缺失值填充处理。

3.根据权利要求1所述的一种预测患者跌倒风险的模型的构建方法，其特征在于，所述第一风险特征包括体重指数、测试者前庭感知的轨迹长度、患侧的摆幅均值、测试者双脚左右摆幅的最大值、测试者前庭感知左右摆幅的最大值、患侧的轨迹长度、测试者前庭感知的摆速均值以及健侧的前后摆幅的最大值，所述第二风险特征包括体重指数、年龄、减重、测试者双支撑时间的均值、测试者步宽的均值以及测试者站立时间的均值。

4.根据权利要求1所述的一种预测患者跌倒风险的模型的构建方法，其特征在于，所述标准化处理的公式如下：

其中，μ表示平均值，σ表示标准差，/>表示待标准化的平衡能力数据或步态能力数据，/>表示标准化的平衡能力数据或步态能力数据。

5.根据权利要求1所述的一种预测患者跌倒风险的模型的构建方法，其特征在于，所述将包含第一风险特征的平衡能力数据以及包含第二风险特征的步态能力数据分别划分成训练集和测试集，具体包括：将包含第一风险特征的平衡能力数据以及包含第二风险特征的步态能力数据均按照7:3的比例划分成训练集和测试集。

6.根据权利要求1所述的一种预测患者跌倒风险的模型的构建方法，其特征在于，所述8种预测患者跌倒风险的第一模型和8种预测患者跌倒风险的第二模型均包括朴素贝叶斯模型、K最近邻模型、支持向量机模型、逻辑斯谛回归模型、决策树模型、AdaBoost模型、XGBoost模型以及随机森林模型。

7.根据权利要求1所述的一种预测患者跌倒风险的模型的构建方法，其特征在于，所述7种模型评价指标包括准确率、敏感性、特异性、精确率、F1分数、AUROC和AUPRC。

8.根据权利要求1所述的一种预测患者跌倒风险的模型的构建方法，其特征在于，在所述选取AUROC最高的预测患者跌倒风险的第一模型作为基于平衡能力的最终模型以及选取AUROC最高的预测患者跌倒风险的第二模型作为基于步态能力的最终模型之后，均还包括：基于随机搜索，将最终模型进行超参数优化处理，将剩余的7种预测患者跌倒风险的第一模型和第二模型均进行默认超参数优化处理。

9.根据权利要求1所述的一种预测患者跌倒风险的模型的构建方法，其特征在于，在所述模型构建步骤之后，还包括采用列线图分别对多个第一风险特征以及多个第二风险特征进行整合，分别构建平衡能力评分图以及步态能力评分图，用于预测平衡能力或步态能力是否正常。