CN117334335A - 一种基于机器学习的临床前骨质疏松筛查方法 - Google Patents
一种基于机器学习的临床前骨质疏松筛查方法 Download PDFInfo
- Publication number
- CN117334335A CN117334335A CN202311304451.XA CN202311304451A CN117334335A CN 117334335 A CN117334335 A CN 117334335A CN 202311304451 A CN202311304451 A CN 202311304451A CN 117334335 A CN117334335 A CN 117334335A
- Authority
- CN
- China
- Prior art keywords
- variables
- variable
- osteoporosis
- screening
- prediction models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000001132 Osteoporosis Diseases 0.000 title claims abstract description 51
- 238000012216 screening Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000010801 machine learning Methods 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 5
- 230000007717 exclusion Effects 0.000 claims abstract description 5
- 230000036541 health Effects 0.000 claims abstract description 5
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 26
- 238000007477 logistic regression Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 230000035945 sensitivity Effects 0.000 claims description 9
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000037182 bone density Effects 0.000 claims description 3
- 230000009933 reproductive health Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000001772 Wald test Methods 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims description 2
- 235000012054 meals Nutrition 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000010076 replication Effects 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract description 2
- 210000000988 bone and bone Anatomy 0.000 description 6
- 208000010392 Bone Fractures Diseases 0.000 description 5
- 206010017076 Fracture Diseases 0.000 description 5
- 208000008312 Tooth Loss Diseases 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 208000029725 Metabolic bone disease Diseases 0.000 description 3
- 229930003316 Vitamin D Natural products 0.000 description 3
- QYSXJUFSXHHAJI-XFEUOLMDSA-N Vitamin D3 Natural products C1(/[C@@H]2CC[C@@H]([C@]2(CCC1)C)[C@H](C)CCCC(C)C)=C/C=C1\C[C@@H](O)CCC1=C QYSXJUFSXHHAJI-XFEUOLMDSA-N 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 235000019166 vitamin D Nutrition 0.000 description 3
- 239000011710 vitamin D Substances 0.000 description 3
- 150000003710 vitamin D derivatives Chemical class 0.000 description 3
- 229940046008 vitamin d Drugs 0.000 description 3
- 206010049088 Osteopenia Diseases 0.000 description 2
- RYYVLZVUVIJVGH-UHFFFAOYSA-N caffeine Chemical compound CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000037081 physical activity Effects 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 208000013725 Chronic Kidney Disease-Mineral and Bone disease Diseases 0.000 description 1
- 208000000094 Chronic Pain Diseases 0.000 description 1
- 208000036119 Frailty Diseases 0.000 description 1
- LPHGQDQBBGAPDZ-UHFFFAOYSA-N Isocaffeine Natural products CN1C(=O)N(C)C(=O)C2=C1N(C)C=N2 LPHGQDQBBGAPDZ-UHFFFAOYSA-N 0.000 description 1
- 208000030136 Marchiafava-Bignami Disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000010191 Osteitis Deformans Diseases 0.000 description 1
- 206010031243 Osteogenesis imperfecta Diseases 0.000 description 1
- 208000001164 Osteoporotic Fractures Diseases 0.000 description 1
- 208000027868 Paget disease Diseases 0.000 description 1
- 208000002193 Pain Diseases 0.000 description 1
- 208000008469 Peptic Ulcer Diseases 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 206010003549 asthenia Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037118 bone strength Effects 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- VJEONQKOZGKCAK-UHFFFAOYSA-N caffeine Natural products CN1C(=O)N(C)C(=O)C2=C1C=CN2C VJEONQKOZGKCAK-UHFFFAOYSA-N 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 229940069978 calcium supplement Drugs 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 235000018823 dietary intake Nutrition 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940011871 estrogen Drugs 0.000 description 1
- 239000000262 estrogen Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 208000027202 mammary Paget disease Diseases 0.000 description 1
- 210000004914 menses Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000005368 osteomalacia Diseases 0.000 description 1
- 230000001009 osteoporotic effect Effects 0.000 description 1
- 208000011906 peptic ulcer disease Diseases 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 201000006409 renal osteodystrophy Diseases 0.000 description 1
- 230000000276 sedentary effect Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 230000004584 weight gain Effects 0.000 description 1
- 235000019786 weight gain Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Algebra (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于机器学习的临床前骨质疏松筛查方法,按照纳入标准和排除标准筛选样本人群,编制问卷测量样本人群的骨质疏松症潜在预测变量值,得到数据集,构建多个骨质疏松症的全预测模型和简化预测模型,比较所有全预测模型和简化预测模型的辨别力,并选择辨别力最佳的模型作为最终预测模型;本发明公开了一种基于机器学习的临床前骨质疏松筛查方法,使用基于机器学习的算法进行预测变量选择和模型构建。模型预测变量简单,可由被试者自我报告获得,不需要做额外的健康检查,且模型的预测效果好,可以方便有效的应用于骨质疏松风险自我评估和社区筛查中。
Description
技术领域
本发明属于机器学习技术领域,尤其涉及一种基于机器学习的临床前骨质疏松筛查方法。
背景技术
骨质疏松症是一种全身性骨骼疾病,其特征是骨量降低和骨组织微结构退化,导致骨脆性增加,从而增加骨折风险。全世界有超过2亿人受到骨质疏松症的影响。患有骨质疏松性骨折的人可能会经历长期的慢性疼痛和残疾、丧失自理能力、负面的社会心理影响,导致生活质量下降。即使在康复后,骨微结构中不可逆的结构损失也会导致完全恢复骨骼强度成为不太可能的事情。因此,确定患骨质疏松症风险高的人并预防首次骨折的发生是医疗保健的重点,现有的传统算法开发的骨质疏松症筛查工具具有较高的灵敏度,但特异性较低。
发明内容
本发明提供一种基于机器学习的临床前骨质疏松筛查方法,旨在解决上述存在的问题。
本发明是这样实现的,一种基于机器学习的临床前骨质疏松筛查方法,包括以下步骤:
步骤S1:按照纳入标准和排除标准筛选样本人群,样本人群中每个年龄段的男女比例符合人口普查数据的男女年龄分布,并获取样本人群中每个个体的骨密度数据;
步骤S2:进行文献检索获得骨质疏松症的潜在预测变量,编制问卷测量样本人群的骨质疏松症潜在预测变量值,得到变量数据集;
步骤S3:使用单因素逻辑回归对变量数据集中的所有变量进行第一次筛选,得到第一次筛选后的变量数据集;使用Boruta变量选择算法进行第二次筛选,得到第二次筛选后的变量数据集;
步骤S4:将第二次筛选后的变量数据集随机分为第一训练集和第一测试集,构建多个骨质疏松症的全预测模型,第一训练集用于训练多个全预测模型和调整参数,第一测试集用于评估全预测模型的辨别力;
步骤S5:根据日常自我评估和医疗保健实践中可及性和便利性对第二次筛选后的变量数据集进行第三次筛选,得到最终变量数据集;
步骤S6:将最终变量数据集随机分为第二训练集和第二测试集,构建多个骨质疏松症的简化预测模型,第二训练集用于训练多个简化预测模型和调整参数,第二测试集用于评估简化预测模型的辨别力;
步骤S7:比较所有全预测模型和简化预测模型的辨别力,并选择辨别力最佳的模型作为最终预测模型。
进一步的,在步骤S2中,所述风险变量包括:社会人口统计信息变量、人体测量变量、个体特征变量、生殖健康信息变量、医疗健康信息变量、生活方式因素变量、膳食摄入量变量和家族史变量。
进一步的,在步骤S3中,使用单变量逻辑回归对变量数据集中的所有变量进行第一次筛选,选择单变量逻辑回归中P值小于0.10的变量作为下一次筛选的初始预测变量;其中,使用随机森林插补法来插补所选预测变量中的缺失值,缺失值的百分比范围为0%至13.20%。
进一步的,在步骤S3中,使用单变量逻辑回归对变量数据集中的所有变量进行第一次筛选,具体包括:
具有r个独立变量的向量b`=(b1,b2…br),设条件概率R(Y=1|b)=r为根据观测量相对于某事件发生的概率,逻辑回归模型表示为
其中,g(b)=β0+β1b1+β2b2+…+βrbr,如果含有名义变量,则将其变为dummy变量,一个具有k个取值的名义变量,将变为k-1个dummy变量,这样,有
定义不发生事件的条件概率为
那么,事件发生与事件不发生的概率之比为
这个比值称为事件的发生比odds,因为0<r<1,故odds>0,对odds取对数,得到线性函数:
假设有n个观测样本,观测值分别为y1,y2,…,yn,设rf=R(yf=1|bf)为给定条件下得到yf=1的概率,在同样条件下得到yf=0的条件概率为R(yf=0|bf)=1-rf,于是,得到一个观测值的概率为
R(yf)=rf yf(1-rf)(1-yf)
因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积:
对上述函数求对数:
为了估计能使L(β)取得最大的参数β0,β1,…,βr的值,对此函数求导,得到r+1个似然方程;
其中,c=1,2,..,r;r为独立向量个数;
应用牛顿-拉斐森方法进行迭代求解,对L(β)求二阶偏导数,即Hessian矩阵为
写成矩阵形式,以H表示Hessian矩阵,B表示为:
令
则H=BTVB;
再令
得牛顿迭代法的形式为
Wnew=Wold-H-1U
上式中矩阵H为对称正定的,求解H-1U即为求解线性方程HB=U中的矩阵B;
对H进行cholesky分解;
最大似然估计的渐近方差和协方差由信息矩阵的逆矩阵估计出来,而信息矩阵是L(β)二阶导数的负值,表示为
估计值的方差和协方差表示为var(β)=F-1,估计值βc的方差为矩阵F的逆矩阵的对角线上的值,而估计值βc和βl的协方差为除了对角线以外的值;
使用估计值βc的标准方差,表示为
for c=0,1,2,…,r
零假设H0:βk=0,表示自变量bk对事件发生可能性无影响作用;如果零假设被拒绝,说明事件发生可能性依赖于bk的变化;
对回归系数进行显著性检验,使用Wald检验,其公式为
其中,为/>的标准误差,单变量Wald统计量服从自由度等于1的λ2分布;
检验假设H0:β1=β2=...=βr=0,计算统计量
其中,为去掉/>所在的行和列的估计值,相应地,/>为去掉/>所在的行和列的标准误差;Wald统计量服从自由度等于r的λ2分布;
将上式写成矩阵形式,有矩阵Q是第一列为零的一常数矩阵;
将变量数据集中的所有变量依次作为自变量,将是/否骨质疏松症作为因变量,构建单因素逻辑回归模型,根据上式计算Wald统计量。选择较为宽松的显著性水平(P值)0.10来进行变量筛选。因为单因素逻辑回归的Wald统计服从自由度为1的λ2分布,当Wald统计量的值大于界值2.71时,对应的尾部概率(P值)小于0.10。通过单因素逻辑回归筛选P值小于0.10的变量作为下一步的初始预测变量。
进一步的,在步骤S3中,使用Boruta变量选择算法进行第二次筛选,具体包括:
复制所有变量,得到扩展数据集。复制的变量称为影子变量。随机打乱影子变量在不同个体间的顺序,以消除它们与因变量的相关性;
在扩展数据集上运行随机森林分类器,计算Z值。作为变量的重要性度量的Z值是通过对变量值进行随机排列,从而导致分类准确性的损失来获得的。给定变量进行分类的所有树都计算分类准确性的损失。然后,使用每棵树的平均损失除以标准差,即为Z值。
找到影子变量中的最大Z值,即MZSA;
对于每个变量的重要性Z值,执行与MZSA的双侧Z检验,将重要性显著低于MZSA的变量视为“不重要”变量并永久删除它们;将重要性显著高于MZSA的变量视为“重要”变量;
删除所有复制变量;
重复上述过程,直到为所有变量都被检验为“重要”变量或者“不重要”变量,或者算法达到先前设置的随机森林运行次数限制。
筛选出被检验为“重要”的变量作为下一步的初始预测变量。
进一步的,在步骤S6中,将最终变量数据集中的数据按照7:3随机分为第二训练集和第二测试集。
进一步的,在步骤S6中,采用梯度提升机GBM、支持向量机SVM、朴素贝叶斯NB和逻辑回归LR分别构建骨质疏松症的预测模型,使用训练集对四个预测模型进行训练,训练完成后,使用测试集对四个预测模型的辨别力进行测试,分别计算AUC、灵敏度、特异度、阳性预测值、阴性预测值、准确率和F1分数来评估模型效果。综合AUC、灵敏度和特异度最优的预测模型作为骨质疏松症预测模型。
与现有技术相比,本发明的有益效果是:本发明公开了一种基于机器学习的临床前骨质疏松筛查方法,使用基于机器学习的算法进行预测变量选择和模型构建。模型预测变量简单,可由被试者自我报告获得,不需要做额外的健康检查就可获得,模型预测效果好,可以方便有效的应用于骨质疏松风险自我评估和社区筛查中。相对于传统的统计模型,本发明中,基于机器学习的POST具有平衡的高灵敏度(83%)和特异性(83%),因此有可能用作具有成本效益的骨质疏松症临床前筛查工具,以确定骨质疏松症的高危人群需要做DXA。
附图说明
图1为本发明中Boruta算法选择的预测变量和影子变量的变量重要性示意图;
图2为本发明中全模型和简化模型的骨质疏松症的接受者操作特征(ROC)曲线和曲线下面积(AUC)值图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
试验例
邀请接受FPAHK服务的人士参与这项研究,根据纳入和排除标准筛选参加者。
为确保整体样本的代表性,该数据提供了准确的男性和女性的年龄分布。
纳入标准包括:1)45岁或以上;2)能说、读、写中文的中国人;3)过去一年曾在FPAHK做过DXA扫描,或在未来1.5年内将会做DXA扫描,因为DXA扫描大多是一年一次;4)具有方便联系的电子邮件账户;5)愿意参与研究并提供知情同意;6)提供访问DXA数据的书面许可。
排除标准包括:1)目前怀孕;2)代谢性骨病(包括但不限于佩吉特病、骨软化症、肾性骨营养不良或成骨不全症);3)存在已知转移至骨的癌症。
技术方案经FPAHK伦理委员会和香港理工大学批准,所有参与者都提供了书面知情同意书和访问DXA数据的许可。
将以往文献中报告的与骨密度/骨折/骨质疏松症/骨质减少显著相关的风险因素编入到问卷的初始版本中。
为了验证问卷,邀请六名流行病学家、六名临床医生、四名高级护士和四名在骨质疏松症治疗/研究方面具有丰富经验的高级研究人总共二十名专家,对所有问卷条目的相关性进行4分制评分:1=不相关,2=有点相关,3=相当相关,4=高度相关。
条目内容有效性指数(I-CVI,The Content Validity Index forItems)的计算方法是给出3或4分的专家人数除以专家总数。I-CVI的最佳值范围为0.78至1.00。
为了在研究中确定更多可能的骨质疏松症危险因素,问卷中保留了I-CVI值等于或大于0.50的条目。
共选择138个条目作为BMD/骨折/骨质疏松/骨质减少的初始潜在危险因素的测量。其中,103个条目的I-CVI等于或大于0.78,在这103个条目中,有3个条目因回答困难而被排除,因此100个条目保留在问卷中;对于I-CVI小于0.78的35个条目,直接剔除20个条目,根据专家建议对15个条目进行修改后保留在问卷中;最后,问卷中确定了115个条目作为潜在危险因素的测量。
最终问卷由八个部分组成,包括(1)社会人口统计信息(例如,性别、年龄);(2)人体测量变量(如身高、体重、身高下降的幅度);(3)个人特征(例如,牙齿脱落);(4)生殖健康信息(如月经、绝经阶段、妊娠史、雌激素使用情况);(5)医疗健康信息(如慢性疾病、长期服药、手术史、既往骨折史);(6)生活方式因素(例如吸烟、饮酒、体力活动、久坐行为、日晒程度);(7)膳食摄入量(例如,富含钙源的食物频率、钙补充剂(如果有)、咖啡因摄入量);(8)家族史(例如,血缘亲属中的骨质疏松症)。
使用三步策略来选择最佳预测变量。
在第一步中,使用单变量逻辑回归对从问卷中收集的所有变量进行初步筛选。选择单变量逻辑回归中P值小于0.10的变量作为下一步的初始预测变量。在此步骤中,使用随机森林插补法来插补所选预测变量中的缺失值。缺失值的百分比范围为0%至13.20%。
在第二步中,使用Boruta变量选择算法来确定显著重要的预测变量。该算法为随机森林分类算法的包装器。随机森林算法可以输出变量重要性这一指标,表明每个变量对模型预测的贡献程度。Boruta迭代地将变量的重要性与影子变量的重要性进行比较,影子变量是通过打乱原始变量而创建的。重要性显著低于影子变量的变量被视为不重要的变量,并被连续删除。另一方面,显著优于影子变量的变量被认为是重要变量。使用Boruta算法确认的重要预测因子来构建全模型。
在第三步中,我们根据日常自我评估和医疗保健实践中可及性和便利性进一步选择预测因子。这些人为选择的变量用于构建研究中的简化模型,并从简化模型中选出性能最佳的模型。
数据集随机分为训练集(70%)和测试集(30%)。训练集用于训练预测模型和调整参数,而测试集用于测试模型的性能。四个分类器被用来构建骨质疏松症的全预测模型和简化预测模型——梯度提升机(GBM)、支持向量机(SVM)、朴素贝叶斯(NB)和逻辑回归(LR)。
测试集受试者工作特征曲线下的面积(AUC)用于测量模型辨别力。根据受试者工作曲线(ROC)的最佳阈值计算灵敏度、特异度、阳性预测值、阴性预测值、准确率F1分数。
考虑到AUC、灵敏度和特异度的最佳模型被选为“临床前骨质疏松筛查工具”(POST),其输出是骨质疏松症的风险评分。此外,将训练集和测试集合并为一个包含800名参与者的集合数据集,通过绘制由集合数据集中预测风险的十分位数分层的观察和预测概率,以图形方式评估校准度。
研究包括800名参与者,并从问卷中收集了113个潜在预测变量。参与者的平均年龄为61.30岁,73.25%为女性,53.50%获得大专或以上学位,39.38%有工作。骨质疏松症的总体患病率为10.62%,男性为0.93%,女性为14.16%。
如图1所示,在特征选择过程中,15个变量被Boruta算法确认为显著重要的预测变量。确定的变量按重要性值排序为BMI、腰围、年龄、社会补贴、身高下降的程度、骨质脆弱、牙齿脱落数量、性别、体重增加的程度、维生素D补充剂摄入、消化性溃疡、就业状况、剧烈的体育活动、教育水平和疾病引起的牙齿脱落。
所有这些变量在骨质疏松状态之间均有显著差异(所有P值<0.05),如表1所示,在这些变量中,年龄、性别、教育水平、身高下降程度、BMI、掉牙数量和维生素D补充剂的摄入根据其在日常自我评估和医疗保健实践中的可及性和便利性被进一步选择。
表1.训练和测试集的全模型和简化模型的预测变量的特征
连续变量的数据以均值(标准差)的形式呈现,分类变量的数据以例数(百分比)的形式呈现。分类变量的P值通过卡方检验计算,连续变量的P值通过t检验计算。
a仅用于简化模型的预测变量
b通过将当前身高减去过去最高身高来计算
c通过将过去最轻体重减去当前体重来计算
与非骨质疏松症参与者相比,骨质疏松症参与者年龄更大、身高下降更多、BMI更低、牙齿脱落更多、女性比例更高、维生素D补充剂摄入量更高,获得第三或以上学位的比例更低。
训练集和测试集分别由560(70%)和240(30%)参与者组成,所有选定的预测变量和骨质疏松症状态在训练集和测试集之间分布是均衡的。
如图2所示,在全模型中,NB模型的AUC最高,为0.859,而LR模型的AUC最低,为0.825。
在简化模型中观察到类似的模式,其中NB模型和SVM模型达到最高AUC0.858,而LR模型具有最低AUC0.845,如表2所示。
表2.四种不同算法训练的全模型和简化模型的性能指标
表2报告了不同算法的完整模型和简化模型在其他性能指标方面的比较。NB模型的达到了最高的灵敏度,全模型为0.87和简化模型为0.83。SVM模型对全模型的特异性最高,为0.86,GBM模型对简化模型的特异性最高,为0.87。考虑到AUC、灵敏度和特异性,NB简化模型被确定为性能最佳的模型(以下简称POST)。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于机器学习的临床前骨质疏松筛查方法,其特征在于,包括以下步骤:
步骤S1:按照纳入标准和排除标准筛选样本人群,样本人群中每个年龄段的男女比例符合人口普查数据的男女年龄分布,并获取样本人群中每个个体的骨密度数据;
步骤S2:进行文献检索获得骨质疏松症的潜在预测变量,编制问卷测量样本人群的骨质疏松症潜在预测变量值,得到变量数据集;
步骤S3:使用单因素逻辑回归对变量数据集中的所有变量进行第一次筛选,得到第一次筛选后的变量数据集;使用Boruta变量选择算法进行第二次筛选,得到第二次筛选后的变量数据集;
步骤S4:将第二次筛选后的变量数据集随机分为第一训练集和第一测试集,构建多个骨质疏松症的全预测模型,第一训练集用于训练多个全预测模型和调整参数,第一测试集用于评估全预测模型的辨别力;
步骤S5:根据日常自我评估和医疗保健实践中可及性和便利性对第二次筛选后的变量数据集进行第三次筛选,得到最终变量数据集;
步骤S6:将最终变量数据集随机分为第二训练集和第二测试集,构建多个骨质疏松症的简化预测模型,第二训练集用于训练多个简化预测模型和调整参数,第二测试集用于评估简化预测模型的辨别力;
步骤S7:比较所有全预测模型和简化预测模型的辨别力,并选择辨别力最佳的模型作为最终预测模型。
2.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法,其特征在于,在步骤S2中,所述风险变量包括:社会人口统计信息变量、人体测量变量、个体特征变量、生殖健康信息变量、医疗健康信息变量、生活方式因素变量、膳食摄入量变量和家族史变量。
3.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法,其特征在于,在步骤S3中,使用单变量逻辑回归对变量数据集中的所有变量进行第一次筛选,选择单变量逻辑回归中P值小于0.10的变量作为下一次筛选的初始预测变量;其中,使用随机森林插补法来插补所选预测变量中的缺失值。
4.根据权利要求3所述的一种基于机器学习的临床前骨质疏松筛查方法,其特征在于,在步骤S3中,使用单变量逻辑回归对变量数据集中的所有变量进行第一次筛选,具体包括:
具有r个独立变量的向量b`=(b1,b2…br),设条件概率R(Y=1|b)=r为根据观测量相对于某事件发生的概率,逻辑回归模型表示为
其中,g(b)=β0+β1b1+β2b2+…+βrbr,如果含有名义变量,则将其变为dummy变量,一个具有k个取值的名义变量,将变为k-1个dummy变量,这样,有
定义不发生事件的条件概率为
那么,事件发生与事件不发生的概率之比为
这个比值称为事件的发生比odds,因为0<r<1,故odds>0,对odds取对数,得到线性函数:
假设有n个观测样本,观测值分别为y1,y2,…,yn,设rf=R(yf=1|bf)为给定条件下得到yf=1的概率,在同样条件下得到yf=0的条件概率为R(yf=0|bf)=1-rf,于是,得到一个观测值的概率为
R(yf)=rf yf(1-rf)(1-yf)
因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积:
对上述函数求对数:
为了估计能使L(β)取得最大的参数β0,β1,…,βr的值,对此函数求导,得到r+1个似然方程;
其中,c=1,2,..,r;r为独立向量个数;
应用牛顿-拉斐森方法进行迭代求解,对L(β)求二阶偏导数,即Hessian矩阵为
写成矩阵形式,以H表示Hessian矩阵,B表示为:
令
则H=BTVB;
再令
得牛顿迭代法的形式为
Wnew=Wold-H-1U
上式中矩阵H为对称正定的,求解H-1U即为求解线性方程HB=U中的矩阵B;
对H进行cholesky分解;
最大似然估计的渐近方差和协方差由信息矩阵的逆矩阵估计出来,而信息矩阵是L(β)二阶导数的负值,表示为
估计值的方差和协方差表示为var(β)=F-1,估计值βc的方差为矩阵F的逆矩阵的对角线上的值,而估计值βc和βl的协方差为除了对角线以外的值;
使用估计值βc的标准方差,表示为
for c=0,1,2,…,r
零假设H0:βk=0,表示自变量bk对事件发生可能性无影响作用;如果零假设被拒绝,说明事件发生可能性依赖于bk的变化;
对回归系数进行显著性检验,使用Wald检验,其公式为
其中,为/>的标准误差,单变量Wald统计量服从自由度等于1的λ2分布;
检验假设H0:β1=β2=...=βr=0,计算统计量
其中,为去掉/>所在的行和列的估计值,相应地,/>为去掉/>所在的行和列的标准误差;Wald统计量服从自由度等于r的λ2分布;
将上式写成矩阵形式,有矩阵Q是第一列为零的一常数矩阵;
将变量数据集中的所有变量依次作为自变量,将是/否骨质疏松症作为因变量,构建单因素逻辑回归模型,根据上式计算Wald统计量,选择较为宽松的显著性水平,即P值0.10来进行变量筛选;通过单因素逻辑回归筛选P值小于0.10的变量作为下一步的初始预测变量。
5.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法,其特征在于,在步骤S3中,使用Boruta变量选择算法进行第二次筛选,具体包括:
复制所有变量,得到扩展数据集,随机打乱复制变量在不同个体间的顺序,以消除它们与因变量的相关性;
在扩展数据集上运行随机森林分类器,计算Z值:给定变量进行分类的所有树都计算分类准确性的损失,使用每棵树的平均损失除以标准差,给定变量进行分类的所有树都计算分类准确性的损失,得到Z值;
找到复制变量中的最大Z值,即MZSA;
对于每个变量的重要性Z值,执行与MZSA的双侧Z检验,将重要性显著低于MZSA的变量视为“不重要”变量并永久删除它们;将重要性显著高于MZSA的变量视为“重要”变量;
删除所有复制变量;
重复上述过程,直到为所有变量都被检验为“重要”变量或者“不重要”变量,或者算法达到先前设置的随机森林运行次数限制;
选出被检验为“重要”的变量作为下一步的初始预测变量。
6.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法,其特征在于,在步骤S6中,将最终变量数据集中的数据按照7:3随机分为第二训练集和第二测试集。
7.根据权利要求1所述的一种基于机器学习的临床前骨质疏松筛查方法,其特征在于,在步骤S5中,采用梯度提升机GBM、支持向量机SVM、朴素贝叶斯NB和逻辑回归LR分别构建骨质疏松症的简化预测模型,使用第二训练集对四个预测模型进行训练,训练完成后,使用第二测试集对四个简化预测模型的辨别力进行测试,分别计算AUC、灵敏度、特异度、阳性预测值、阴性预测值、准确率和F1分数来评估模型效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311304451.XA CN117334335A (zh) | 2023-10-10 | 2023-10-10 | 一种基于机器学习的临床前骨质疏松筛查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311304451.XA CN117334335A (zh) | 2023-10-10 | 2023-10-10 | 一种基于机器学习的临床前骨质疏松筛查方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117334335A true CN117334335A (zh) | 2024-01-02 |
Family
ID=89274968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311304451.XA Pending CN117334335A (zh) | 2023-10-10 | 2023-10-10 | 一种基于机器学习的临床前骨质疏松筛查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117334335A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203822A (zh) * | 2016-03-16 | 2017-09-26 | 上海吉贝克信息技术有限公司 | 基于Logistic回归的证券客户流失预测的方法及系统 |
CN111508604A (zh) * | 2020-04-20 | 2020-08-07 | 深圳大学 | 一种急性肾损伤患者死亡率预测方法、服务器及存储介质 |
CN113255204A (zh) * | 2020-12-01 | 2021-08-13 | 攀钢集团西昌钢钒有限公司 | 一种利用大数据计算统计炼钢钢铁料消耗的方法 |
CN114792567A (zh) * | 2022-05-19 | 2022-07-26 | 上海交通大学医学院附属瑞金医院 | 一种用于预测2型糖尿病患者骨折发生风险的装置 |
CN115482924A (zh) * | 2022-09-06 | 2022-12-16 | 浙江大学医学院附属儿童医院 | 孤独症谱系障碍儿童智力障碍诊断模型的建立方法及装置 |
-
2023
- 2023-10-10 CN CN202311304451.XA patent/CN117334335A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203822A (zh) * | 2016-03-16 | 2017-09-26 | 上海吉贝克信息技术有限公司 | 基于Logistic回归的证券客户流失预测的方法及系统 |
CN111508604A (zh) * | 2020-04-20 | 2020-08-07 | 深圳大学 | 一种急性肾损伤患者死亡率预测方法、服务器及存储介质 |
CN113255204A (zh) * | 2020-12-01 | 2021-08-13 | 攀钢集团西昌钢钒有限公司 | 一种利用大数据计算统计炼钢钢铁料消耗的方法 |
CN114792567A (zh) * | 2022-05-19 | 2022-07-26 | 上海交通大学医学院附属瑞金医院 | 一种用于预测2型糖尿病患者骨折发生风险的装置 |
CN115482924A (zh) * | 2022-09-06 | 2022-12-16 | 浙江大学医学院附属儿童医院 | 孤独症谱系障碍儿童智力障碍诊断模型的建立方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036553B (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
Van Belle et al. | Comparison of proposed diagnostic criteria with FACT-F and VAS for cancer-related fatigue: proposal for use as a screening tool | |
Neeleman et al. | Neuroticism, a central link between somatic and psychiatric morbidity: path analysis of prospective data | |
Temesgen et al. | Joint modeling of longitudinal CD4 count and time-to-death of HIV/TB co-infected patients: A case of Jimma University Specialized Hospital | |
Ambler et al. | The effect of frailty on long term outcomes in vascular surgical patients | |
Bustos et al. | Machine learning techniques as an efficient alternative diagnostic tool for COVID-19 cases | |
Ryder et al. | The advantage of imputation of missing income data to evaluate the association between income and self-reported health status (SRH) in a Mexican American cohort study | |
Byeon | Developing a random forest classifier for predicting the depression and managing the health of caregivers supporting patients with Alzheimer’s Disease | |
Amini et al. | Prevalence and determinants of preterm birth in Tehran, Iran: a comparison between logistic regression and decision tree methods | |
Lu et al. | Comparing socio-economic inequalities in healthy ageing in the United States of America, England, China and Japan: evidence from four longitudinal studies of ageing | |
Wang | Construct an optimal triage prediction model: A case study of the emergency department of a teaching hospital in Taiwan | |
Mannan | A practical application of a simple bootstrapping method for assessing predictors selected for epidemiologic risk models using automated variable selection | |
Kočišová et al. | The Efficiency of Public Health and Medical Care Systems in EU Countries: Dynamic Network Data Envelopment Analysis. | |
Kato et al. | Functional outcome prediction after spinal cord injury using ensemble machine learning | |
Ganguly et al. | Machine learning based comparative analysis of cervical cancer risk classifications algorithms | |
Kim et al. | Country-Level socioeconomic indicators associated with survival probability of becoming a centenarian among older European adults: gender inequality, male labour force participation and proportions of women in parliaments | |
Jarman et al. | An integrated framework for risk profiling of breast cancer patients following surgery | |
CN117334335A (zh) | 一种基于机器学习的临床前骨质疏松筛查方法 | |
CN113593703B (zh) | 一种构建压力性损伤风险预测模型的装置及方法 | |
Theodoraki et al. | Innovative data mining approaches for outcome prediction of trauma patients | |
Barwal et al. | Machine learning-based hybrid recommendation (SVOF-KNN) model for breast cancer coimbra dataset diagnosis | |
Greeley et al. | Preserving the discreteness of deficits during coding leads to a lower frailty index in individuals living in long-term care | |
Hansen et al. | Individual health indices via register-based health records and machine learning | |
Geng | A comparison of logistic regression to random forests for exploring differences in risk factors associated with stage atdiagnosis between black and white colon cancer patients | |
Miller et al. | Imputation of Non-Response in Height and Weight in the Mexican Health and Aging Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |