CN117334335A

CN117334335A - 一种基于机器学习的临床前骨质疏松筛查方法

Info

Publication number: CN117334335A
Application number: CN202311304451.XA
Authority: CN
Inventors: 谢瑶洁; 阳庆玲
Original assignee: Shenzhen Research Institute HKPU
Current assignee: Shenzhen Research Institute HKPU
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-02

Abstract

本发明公开一种基于机器学习的临床前骨质疏松筛查方法，按照纳入标准和排除标准筛选样本人群，编制问卷测量样本人群的骨质疏松症潜在预测变量值，得到数据集，构建多个骨质疏松症的全预测模型和简化预测模型，比较所有全预测模型和简化预测模型的辨别力，并选择辨别力最佳的模型作为最终预测模型；本发明公开了一种基于机器学习的临床前骨质疏松筛查方法，使用基于机器学习的算法进行预测变量选择和模型构建。模型预测变量简单，可由被试者自我报告获得，不需要做额外的健康检查，且模型的预测效果好，可以方便有效的应用于骨质疏松风险自我评估和社区筛查中。

Description

一种基于机器学习的临床前骨质疏松筛查方法

技术领域

本发明属于机器学习技术领域，尤其涉及一种基于机器学习的临床前骨质疏松筛查方法。

背景技术

骨质疏松症是一种全身性骨骼疾病，其特征是骨量降低和骨组织微结构退化，导致骨脆性增加，从而增加骨折风险。全世界有超过2亿人受到骨质疏松症的影响。患有骨质疏松性骨折的人可能会经历长期的慢性疼痛和残疾、丧失自理能力、负面的社会心理影响，导致生活质量下降。即使在康复后，骨微结构中不可逆的结构损失也会导致完全恢复骨骼强度成为不太可能的事情。因此，确定患骨质疏松症风险高的人并预防首次骨折的发生是医疗保健的重点，现有的传统算法开发的骨质疏松症筛查工具具有较高的灵敏度，但特异性较低。

发明内容

本发明提供一种基于机器学习的临床前骨质疏松筛查方法，旨在解决上述存在的问题。

本发明是这样实现的，一种基于机器学习的临床前骨质疏松筛查方法，包括以下步骤：

步骤S1：按照纳入标准和排除标准筛选样本人群，样本人群中每个年龄段的男女比例符合人口普查数据的男女年龄分布，并获取样本人群中每个个体的骨密度数据；

步骤S2：进行文献检索获得骨质疏松症的潜在预测变量，编制问卷测量样本人群的骨质疏松症潜在预测变量值，得到变量数据集；

步骤S3：使用单因素逻辑回归对变量数据集中的所有变量进行第一次筛选，得到第一次筛选后的变量数据集；使用Boruta变量选择算法进行第二次筛选，得到第二次筛选后的变量数据集；

步骤S4：将第二次筛选后的变量数据集随机分为第一训练集和第一测试集，构建多个骨质疏松症的全预测模型，第一训练集用于训练多个全预测模型和调整参数，第一测试集用于评估全预测模型的辨别力；

步骤S5：根据日常自我评估和医疗保健实践中可及性和便利性对第二次筛选后的变量数据集进行第三次筛选，得到最终变量数据集；

步骤S6：将最终变量数据集随机分为第二训练集和第二测试集，构建多个骨质疏松症的简化预测模型，第二训练集用于训练多个简化预测模型和调整参数，第二测试集用于评估简化预测模型的辨别力；

步骤S7：比较所有全预测模型和简化预测模型的辨别力，并选择辨别力最佳的模型作为最终预测模型。

进一步的，在步骤S2中，所述风险变量包括：社会人口统计信息变量、人体测量变量、个体特征变量、生殖健康信息变量、医疗健康信息变量、生活方式因素变量、膳食摄入量变量和家族史变量。

进一步的，在步骤S3中，使用单变量逻辑回归对变量数据集中的所有变量进行第一次筛选，选择单变量逻辑回归中P值小于0.10的变量作为下一次筛选的初始预测变量；其中，使用随机森林插补法来插补所选预测变量中的缺失值，缺失值的百分比范围为0％至13.20％。

进一步的，在步骤S3中，使用单变量逻辑回归对变量数据集中的所有变量进行第一次筛选，具体包括：

具有r个独立变量的向量b`＝(b₁,b₂…b_r)，设条件概率R(Y＝1|b)＝r为根据观测量相对于某事件发生的概率，逻辑回归模型表示为

其中，g(b)＝β₀+β₁b₁+β₂b₂+…+β_rb_r，如果含有名义变量，则将其变为dummy变量，一个具有k个取值的名义变量，将变为k-1个dummy变量，这样，有

定义不发生事件的条件概率为

那么，事件发生与事件不发生的概率之比为

这个比值称为事件的发生比odds，因为0<r<1，故odds>0，对odds取对数，得到线性函数：

假设有n个观测样本，观测值分别为y₁,y₂,…,y_n,设r_f＝R(y_f＝1|b_f)为给定条件下得到y_f＝1的概率，在同样条件下得到y_f＝0的条件概率为R(y_f＝0|b_f)＝1-r_f，于是，得到一个观测值的概率为

R(y_f)＝r_f ^yf(1-r_f)^(1-yf)

因为各项观测独立，所以它们的联合分布可以表示为各边际分布的乘积：

对上述函数求对数：

为了估计能使L(β)取得最大的参数β₀,β₁,…,β_r的值，对此函数求导，得到r+1个似然方程；

其中，c＝1,2,..,r；r为独立向量个数；

应用牛顿－拉斐森方法进行迭代求解，对L(β)求二阶偏导数，即Hessian矩阵为

写成矩阵形式，以H表示Hessian矩阵，B表示为：

令

则H＝B^TVB；

再令

得牛顿迭代法的形式为

W_new＝W_old-H^-1U

上式中矩阵H为对称正定的，求解H^-1U即为求解线性方程HB＝U中的矩阵B；

对H进行cholesky分解；

最大似然估计的渐近方差和协方差由信息矩阵的逆矩阵估计出来，而信息矩阵是L(β)二阶导数的负值，表示为

估计值的方差和协方差表示为var(β)＝F^-1，估计值β_c的方差为矩阵F的逆矩阵的对角线上的值，而估计值β_c和β_l的协方差为除了对角线以外的值；

使用估计值β_c的标准方差，表示为

for c＝0,1,2,…,r

零假设H₀:β_k＝0，表示自变量b_k对事件发生可能性无影响作用；如果零假设被拒绝，说明事件发生可能性依赖于b_k的变化；

对回归系数进行显著性检验，使用Wald检验，其公式为

其中，为/>的标准误差，单变量Wald统计量服从自由度等于1的λ²分布；

检验假设H₀:β₁＝β₂＝...＝β_r＝0，计算统计量

其中，为去掉/>所在的行和列的估计值，相应地，/>为去掉/>所在的行和列的标准误差；Wald统计量服从自由度等于r的λ²分布；

将上式写成矩阵形式，有矩阵Q是第一列为零的一常数矩阵；

将变量数据集中的所有变量依次作为自变量，将是/否骨质疏松症作为因变量，构建单因素逻辑回归模型，根据上式计算Wald统计量。选择较为宽松的显著性水平(P值)0.10来进行变量筛选。因为单因素逻辑回归的Wald统计服从自由度为1的λ²分布，当Wald统计量的值大于界值2.71时，对应的尾部概率(P值)小于0.10。通过单因素逻辑回归筛选P值小于0.10的变量作为下一步的初始预测变量。

进一步的，在步骤S3中，使用Boruta变量选择算法进行第二次筛选，具体包括：

复制所有变量，得到扩展数据集。复制的变量称为影子变量。随机打乱影子变量在不同个体间的顺序，以消除它们与因变量的相关性；

在扩展数据集上运行随机森林分类器，计算Z值。作为变量的重要性度量的Z值是通过对变量值进行随机排列，从而导致分类准确性的损失来获得的。给定变量进行分类的所有树都计算分类准确性的损失。然后，使用每棵树的平均损失除以标准差，即为Z值。

找到影子变量中的最大Z值，即MZSA；

对于每个变量的重要性Z值，执行与MZSA的双侧Z检验，将重要性显著低于MZSA的变量视为“不重要”变量并永久删除它们；将重要性显著高于MZSA的变量视为“重要”变量；

删除所有复制变量；

重复上述过程，直到为所有变量都被检验为“重要”变量或者“不重要”变量，或者算法达到先前设置的随机森林运行次数限制。

筛选出被检验为“重要”的变量作为下一步的初始预测变量。

进一步的，在步骤S6中，将最终变量数据集中的数据按照7：3随机分为第二训练集和第二测试集。

进一步的，在步骤S6中，采用梯度提升机GBM、支持向量机SVM、朴素贝叶斯NB和逻辑回归LR分别构建骨质疏松症的预测模型，使用训练集对四个预测模型进行训练，训练完成后，使用测试集对四个预测模型的辨别力进行测试，分别计算AUC、灵敏度、特异度、阳性预测值、阴性预测值、准确率和F1分数来评估模型效果。综合AUC、灵敏度和特异度最优的预测模型作为骨质疏松症预测模型。

与现有技术相比，本发明的有益效果是：本发明公开了一种基于机器学习的临床前骨质疏松筛查方法，使用基于机器学习的算法进行预测变量选择和模型构建。模型预测变量简单，可由被试者自我报告获得，不需要做额外的健康检查就可获得，模型预测效果好，可以方便有效的应用于骨质疏松风险自我评估和社区筛查中。相对于传统的统计模型，本发明中，基于机器学习的POST具有平衡的高灵敏度(83％)和特异性(83％)，因此有可能用作具有成本效益的骨质疏松症临床前筛查工具，以确定骨质疏松症的高危人群需要做DXA。

附图说明

图1为本发明中Boruta算法选择的预测变量和影子变量的变量重要性示意图；

图2为本发明中全模型和简化模型的骨质疏松症的接受者操作特征(ROC)曲线和曲线下面积(AUC)值图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

试验例

邀请接受FPAHK服务的人士参与这项研究，根据纳入和排除标准筛选参加者。

为确保整体样本的代表性，该数据提供了准确的男性和女性的年龄分布。

纳入标准包括：1)45岁或以上；2)能说、读、写中文的中国人；3)过去一年曾在FPAHK做过DXA扫描，或在未来1.5年内将会做DXA扫描，因为DXA扫描大多是一年一次；4)具有方便联系的电子邮件账户；5)愿意参与研究并提供知情同意；6)提供访问DXA数据的书面许可。

排除标准包括：1)目前怀孕；2)代谢性骨病(包括但不限于佩吉特病、骨软化症、肾性骨营养不良或成骨不全症)；3)存在已知转移至骨的癌症。

技术方案经FPAHK伦理委员会和香港理工大学批准，所有参与者都提供了书面知情同意书和访问DXA数据的许可。

将以往文献中报告的与骨密度/骨折/骨质疏松症/骨质减少显著相关的风险因素编入到问卷的初始版本中。

为了验证问卷，邀请六名流行病学家、六名临床医生、四名高级护士和四名在骨质疏松症治疗/研究方面具有丰富经验的高级研究人总共二十名专家，对所有问卷条目的相关性进行4分制评分：1＝不相关，2＝有点相关，3＝相当相关，4＝高度相关。

条目内容有效性指数(I-CVI，The Content Validity Index forItems)的计算方法是给出3或4分的专家人数除以专家总数。I-CVI的最佳值范围为0.78至1.00。

为了在研究中确定更多可能的骨质疏松症危险因素，问卷中保留了I-CVI值等于或大于0.50的条目。

共选择138个条目作为BMD/骨折/骨质疏松/骨质减少的初始潜在危险因素的测量。其中，103个条目的I-CVI等于或大于0.78，在这103个条目中，有3个条目因回答困难而被排除，因此100个条目保留在问卷中；对于I-CVI小于0.78的35个条目，直接剔除20个条目，根据专家建议对15个条目进行修改后保留在问卷中；最后，问卷中确定了115个条目作为潜在危险因素的测量。

最终问卷由八个部分组成，包括(1)社会人口统计信息(例如，性别、年龄)；(2)人体测量变量(如身高、体重、身高下降的幅度)；(3)个人特征(例如，牙齿脱落)；(4)生殖健康信息(如月经、绝经阶段、妊娠史、雌激素使用情况)；(5)医疗健康信息(如慢性疾病、长期服药、手术史、既往骨折史)；(6)生活方式因素(例如吸烟、饮酒、体力活动、久坐行为、日晒程度)；(7)膳食摄入量(例如，富含钙源的食物频率、钙补充剂(如果有)、咖啡因摄入量)；(8)家族史(例如，血缘亲属中的骨质疏松症)。

使用三步策略来选择最佳预测变量。

在第一步中，使用单变量逻辑回归对从问卷中收集的所有变量进行初步筛选。选择单变量逻辑回归中P值小于0.10的变量作为下一步的初始预测变量。在此步骤中，使用随机森林插补法来插补所选预测变量中的缺失值。缺失值的百分比范围为0％至13.20％。

在第二步中，使用Boruta变量选择算法来确定显著重要的预测变量。该算法为随机森林分类算法的包装器。随机森林算法可以输出变量重要性这一指标，表明每个变量对模型预测的贡献程度。Boruta迭代地将变量的重要性与影子变量的重要性进行比较，影子变量是通过打乱原始变量而创建的。重要性显著低于影子变量的变量被视为不重要的变量，并被连续删除。另一方面，显著优于影子变量的变量被认为是重要变量。使用Boruta算法确认的重要预测因子来构建全模型。

在第三步中，我们根据日常自我评估和医疗保健实践中可及性和便利性进一步选择预测因子。这些人为选择的变量用于构建研究中的简化模型，并从简化模型中选出性能最佳的模型。

数据集随机分为训练集(70％)和测试集(30％)。训练集用于训练预测模型和调整参数，而测试集用于测试模型的性能。四个分类器被用来构建骨质疏松症的全预测模型和简化预测模型——梯度提升机(GBM)、支持向量机(SVM)、朴素贝叶斯(NB)和逻辑回归(LR)。

测试集受试者工作特征曲线下的面积(AUC)用于测量模型辨别力。根据受试者工作曲线(ROC)的最佳阈值计算灵敏度、特异度、阳性预测值、阴性预测值、准确率F1分数。

考虑到AUC、灵敏度和特异度的最佳模型被选为“临床前骨质疏松筛查工具”(POST)，其输出是骨质疏松症的风险评分。此外，将训练集和测试集合并为一个包含800名参与者的集合数据集，通过绘制由集合数据集中预测风险的十分位数分层的观察和预测概率，以图形方式评估校准度。

研究包括800名参与者，并从问卷中收集了113个潜在预测变量。参与者的平均年龄为61.30岁，73.25％为女性，53.50％获得大专或以上学位，39.38％有工作。骨质疏松症的总体患病率为10.62％，男性为0.93％，女性为14.16％。

如图1所示，在特征选择过程中，15个变量被Boruta算法确认为显著重要的预测变量。确定的变量按重要性值排序为BMI、腰围、年龄、社会补贴、身高下降的程度、骨质脆弱、牙齿脱落数量、性别、体重增加的程度、维生素D补充剂摄入、消化性溃疡、就业状况、剧烈的体育活动、教育水平和疾病引起的牙齿脱落。

所有这些变量在骨质疏松状态之间均有显著差异(所有P值<0.05)，如表1所示，在这些变量中，年龄、性别、教育水平、身高下降程度、BMI、掉牙数量和维生素D补充剂的摄入根据其在日常自我评估和医疗保健实践中的可及性和便利性被进一步选择。

表1.训练和测试集的全模型和简化模型的预测变量的特征

连续变量的数据以均值(标准差)的形式呈现，分类变量的数据以例数(百分比)的形式呈现。分类变量的P值通过卡方检验计算，连续变量的P值通过t检验计算。

^a仅用于简化模型的预测变量

^b通过将当前身高减去过去最高身高来计算

^c通过将过去最轻体重减去当前体重来计算

与非骨质疏松症参与者相比，骨质疏松症参与者年龄更大、身高下降更多、BMI更低、牙齿脱落更多、女性比例更高、维生素D补充剂摄入量更高，获得第三或以上学位的比例更低。

训练集和测试集分别由560(70％)和240(30％)参与者组成，所有选定的预测变量和骨质疏松症状态在训练集和测试集之间分布是均衡的。

如图2所示，在全模型中，NB模型的AUC最高，为0.859，而LR模型的AUC最低，为0.825。

在简化模型中观察到类似的模式，其中NB模型和SVM模型达到最高AUC0.858，而LR模型具有最低AUC0.845，如表2所示。

表2.四种不同算法训练的全模型和简化模型的性能指标

表2报告了不同算法的完整模型和简化模型在其他性能指标方面的比较。NB模型的达到了最高的灵敏度，全模型为0.87和简化模型为0.83。SVM模型对全模型的特异性最高，为0.86，GBM模型对简化模型的特异性最高，为0.87。考虑到AUC、灵敏度和特异性，NB简化模型被确定为性能最佳的模型(以下简称POST)。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的临床前骨质疏松筛查方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法，其特征在于，在步骤S2中，所述风险变量包括：社会人口统计信息变量、人体测量变量、个体特征变量、生殖健康信息变量、医疗健康信息变量、生活方式因素变量、膳食摄入量变量和家族史变量。

3.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法，其特征在于，在步骤S3中，使用单变量逻辑回归对变量数据集中的所有变量进行第一次筛选，选择单变量逻辑回归中P值小于0.10的变量作为下一次筛选的初始预测变量；其中，使用随机森林插补法来插补所选预测变量中的缺失值。

4.根据权利要求3所述的一种基于机器学习的临床前骨质疏松筛查方法，其特征在于，在步骤S3中，使用单变量逻辑回归对变量数据集中的所有变量进行第一次筛选，具体包括：

定义不发生事件的条件概率为

那么，事件发生与事件不发生的概率之比为

R(y_f)＝r_f ^yf(1-r_f)^(1-yf)

对上述函数求对数：

其中，c＝1,2,..,r；r为独立向量个数；

写成矩阵形式，以H表示Hessian矩阵，B表示为：

令

则H＝B^TVB；

再令

得牛顿迭代法的形式为

W_new＝W_old-H^-1U

对H进行cholesky分解；

使用估计值β_c的标准方差，表示为

for c＝0,1,2,…,r

对回归系数进行显著性检验，使用Wald检验，其公式为

检验假设H₀:β₁＝β₂＝...＝β_r＝0，计算统计量

将上式写成矩阵形式，有矩阵Q是第一列为零的一常数矩阵；

将变量数据集中的所有变量依次作为自变量，将是/否骨质疏松症作为因变量，构建单因素逻辑回归模型，根据上式计算Wald统计量，选择较为宽松的显著性水平，即P值0.10来进行变量筛选；通过单因素逻辑回归筛选P值小于0.10的变量作为下一步的初始预测变量。

5.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法，其特征在于，在步骤S3中，使用Boruta变量选择算法进行第二次筛选，具体包括：

复制所有变量，得到扩展数据集，随机打乱复制变量在不同个体间的顺序，以消除它们与因变量的相关性；

在扩展数据集上运行随机森林分类器，计算Z值：给定变量进行分类的所有树都计算分类准确性的损失，使用每棵树的平均损失除以标准差，给定变量进行分类的所有树都计算分类准确性的损失，得到Z值；

找到复制变量中的最大Z值，即MZSA；

删除所有复制变量；

重复上述过程，直到为所有变量都被检验为“重要”变量或者“不重要”变量，或者算法达到先前设置的随机森林运行次数限制；

选出被检验为“重要”的变量作为下一步的初始预测变量。

6.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法，其特征在于，在步骤S6中，将最终变量数据集中的数据按照7：3随机分为第二训练集和第二测试集。

7.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法，其特征在于，在步骤S5中，采用梯度提升机GBM、支持向量机SVM、朴素贝叶斯NB和逻辑回归LR分别构建骨质疏松症的简化预测模型，使用第二训练集对四个预测模型进行训练，训练完成后，使用第二测试集对四个简化预测模型的辨别力进行测试，分别计算AUC、灵敏度、特异度、阳性预测值、阴性预测值、准确率和F1分数来评估模型效果。