CN117275726A - 一种基于多组学生物标志物的osa发病风险预测方法及装置 - Google Patents
一种基于多组学生物标志物的osa发病风险预测方法及装置 Download PDFInfo
- Publication number
- CN117275726A CN117275726A CN202311224230.1A CN202311224230A CN117275726A CN 117275726 A CN117275726 A CN 117275726A CN 202311224230 A CN202311224230 A CN 202311224230A CN 117275726 A CN117275726 A CN 117275726A
- Authority
- CN
- China
- Prior art keywords
- osa
- data
- risk
- fat
- risk prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000000090 biomarker Substances 0.000 title claims abstract description 20
- 210000000577 adipose tissue Anatomy 0.000 claims abstract description 36
- 238000013058 risk prediction model Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000004060 metabolic process Effects 0.000 claims abstract description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 11
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 238000000540 analysis of variance Methods 0.000 claims description 7
- 108090001030 Lipoproteins Proteins 0.000 claims description 6
- 102000004895 Lipoproteins Human genes 0.000 claims description 6
- 230000002503 metabolic effect Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 108010010234 HDL Lipoproteins Proteins 0.000 claims description 5
- 102000015779 HDL Lipoproteins Human genes 0.000 claims description 5
- 108010007622 LDL Lipoproteins Proteins 0.000 claims description 5
- 102000007330 LDL Lipoproteins Human genes 0.000 claims description 5
- 108010062497 VLDL Lipoproteins Proteins 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 210000001596 intra-abdominal fat Anatomy 0.000 claims description 5
- 238000000611 regression analysis Methods 0.000 claims description 5
- 239000008280 blood Substances 0.000 claims description 4
- 210000004369 blood Anatomy 0.000 claims description 4
- 150000002632 lipids Chemical class 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 239000006096 absorbing agent Substances 0.000 claims 1
- 238000002705 metabolomic analysis Methods 0.000 claims 1
- 230000001431 metabolomic effect Effects 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 7
- 230000035945 sensitivity Effects 0.000 description 19
- 230000007958 sleep Effects 0.000 description 11
- 238000007477 logistic regression Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 4
- 206010021079 Hypopnoea Diseases 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 description 3
- 208000003417 Central Sleep Apnea Diseases 0.000 description 2
- 206010021143 Hypoxia Diseases 0.000 description 2
- 206010041235 Snoring Diseases 0.000 description 2
- 208000008784 apnea Diseases 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000001797 obstructive sleep apnea Diseases 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 210000004003 subcutaneous fat Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010001497 Agitation Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000007590 Disorders of Excessive Somnolence Diseases 0.000 description 1
- 206010021133 Hypoventilation Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 230000026279 RNA modification Effects 0.000 description 1
- 208000010340 Sleep Deprivation Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000091 biomarker candidate Substances 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 208000018875 hypoxemia Diseases 0.000 description 1
- 230000007954 hypoxia Effects 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000000575 proteomic method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 201000002859 sleep apnea Diseases 0.000 description 1
- 208000019116 sleep disease Diseases 0.000 description 1
- 230000003860 sleep quality Effects 0.000 description 1
- 230000008667 sleep stage Effects 0.000 description 1
- 230000002889 sympathetic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于多组学生物标志物的OSA发病风险预测方法,包括以下步骤:获取健康组和OSA发病组的医学数据;分别对体脂成分和代谢组学数据进行预处理,以获得包含体脂特征和代谢特征的组学特征,并将组学特征与医学数据组成数据集;根据所述数据集对预构建的预测模型进行训练,以获得风险预测模型;将待预测用户的医学数据输入至风险预测模型中,以获得用户的OSA发病风险预测结果。本发明还提供了一种OSA发病风险预测装置。本发明提供的方法可以提高OSA发病风险预测的准确率,从而为医师的医疗诊断提供有效的指导。
Description
技术领域
本发明属于医疗数据处理的技术领域,尤其涉及一种基于多组学生物标志物的OSA发病风险预测方法及装置。
背景技术
阻塞性睡眠呼吸暂停(obstructive sleep apnea,OSA)是一种常见的慢性睡眠呼吸障碍,主要为睡眠期间上呼吸道反复塌陷、部分或完全阻塞,伴有血氧饱和度下降、交感神经兴奋性增加和睡眠片段化,以夜间打鼾、晨起口干、日间嗜睡、注意力不集中和记忆力衰退等为主要临床表现。据估计,30-69岁的成年人患病率为2%-4%,近10亿人患有OSA,我国患病人数达1.76亿,位居全球首位。
其中,肥胖、年龄、性别、遗传和生活方式是OSA发病的危险因素。OSA不仅严重降低患者的睡眠质量,还与心血管、代谢和认知障碍的风险增加有关。目前诊断OSA的金标准是夜间多导睡眠图(polysomnography,PSG)检测下的呼吸暂停低通气指数(apnea hypopneaindex,AHI),然而PSG监测昂贵且耗时,不适合大规模筛查,严重阻碍了其在OSA的预防、早期诊断和治疗中的应用。
睡眠过程中常见的睡眠障碍主要有:原发性打鼾(primary snoring,PS)、睡眠呼吸障碍(sleep disordered breathing,SDB)、OSA、中枢性睡眠呼吸暂停(central sleepapnea,CSA)、睡眠相关肺泡低通气(Sleep related hypoventilation,SRH)、睡眠相关低氧血症(Sleep-related hypoxemia disorder,SRHD)等,应结合临床表现和辅助检查等进行鉴别诊断。
由于目前OSA的诊断主要依赖于临床检查和PSG睡眠监测技术,存在检测难度大、费用高、操作复杂、耗时等问题。因此,开发一种简单、非侵入性、低成本的OSA预测方法具有很高的临床价值。专利CN115040074A公开了一种基于生理数据和睡眠监测信号的OSA检测方法及装置,通过将生理数据和心电信号、血氧信号和脉搏信号输入至训练成功的睡眠分期分类模型、呼吸事件分类模型、高层样本分类模型以及多模态数据检测模型,得到被测人的OSA患病程度。
专利文献CN115527676A公开了一种基于皮下脂肪转录组测序结果的hub RNA修饰基因建立的风险评估模型,实现对人从基因角度预估OSA发病风险的概率。而该方法仅根据皮下脂肪对应的基因进行特征分析,不能全面反映机体状态。
专利文献CN105229165B公开了一种基于儿童尿液蛋白质组学分析识别的候选生物标志物,通过计算机算法评价所测生物标志物的表达水平来确定OSA的风险评分,为OSA的诊断提供了基于蛋白质表达水平的生物标志物。该方法仅参考了单一蛋白质组水平情况,其外部因素影响均未考虑,其结果存在偏差。
发明内容
本发明的目的是提供一种OSA发病风险预测方法及装置,该方法可以提高OSA发病风险预测的准确率,从而为医师的医疗诊断提供有效的指导。
为了实现本发明的第一个目的,提供了一种基于多组学生物标志物的OSA发病风险预测方法,该方法包括以下步骤:
获取健康组和OSA发病组的医学数据,其包括个人信息,和对应的体脂成分以及代谢组学数据;
分别对体脂成分和代谢组学数据进行预处理,以获得包含体脂特征和代谢特征的组学特征,并将所述组学特征与医学数据组成数据集;
根据所述组学特征分别对预构建的预测模型进行训练,以获得用于预测OSA发病风险的风险预测模型;
将待预测用户的医学数据输入至所述风险预测模型中,以获得用户的OSA发病风险预测结果。
本发明基于体成分分析与代谢组学技术,通过采集用户的身体成分和代谢组学成分以构建预测模型,从而以多维度、多尺度、多模态对OSA发病风险进行评估,获得更加准确的预测结果,为医师后续的诊断提供更有效的指导。
具体的,所述个人信息包括用户的年龄,性别以及BMI值。
具体的,通过双能X射线吸收测定法测量的全身体脂成分指标及其相关比值。
具体的,所述代谢组学数据基于血液采集分析获得,其包括脂蛋白和脂质。
具体的,通过核磁和质谱仪器获取的血浆非靶向代谢组学数据。
具体的,所述预处理包括数据标准化,ANOVA分析,相关性分析,mRMR与Lasso回归的特征筛选。
其具体过程如下:
对OSA组和健康组进行数据标准化,以获得对应的Z分数,并根据预设的异常值与Z分数进行比较以剔除异常数据,即剔除Z分数超出mean±3SD的异常值。
通过ANOVA分析获取OSA组与健康组之间的差异指标,将所有p<0.05的特征纳入进一步的相关性分析中。
采用相关性分析,设置相关性系数阈值为0.9,剔除相关性高于预设阈值的特征,进一步通过mRMR算法筛选出10个最相关的特征。
通过Lasso回归分别筛选体脂成分和代谢组学上述10个相关特征与目标变量发病风险最相关的特征集合,所述最佳特征集合包括体脂成分对应的android区域脂肪、内脏脂肪体积和四肢区域脂肪,以及代谢组学数据对应的高密度脂蛋白亚型,低密度脂蛋白亚型和极低密度脂蛋白亚型。
通过Lasso回归分析对数据进一步降维并获得最佳特征集合中各特征的权重。
具体的,所述ANOVA分析的表达式如下:
在表达式中,SST表示总平方和,SSB表示组间平方和,SSW表示组内平方和,k表示组数,ni表示第i组的样本数,表示第i组的均值,/>表示所有样本的均值。
其中,总平方和SST等于组间平方和SSB和组内平方和SSW的和,可表示为:
SST=SSB+SSw
其中,组间平方和SSB可表示为:
其中,组内平方和SSw可表示为:
以上表达式可用于对实验数据进行ANOVA分析,并得到实验因素之间的显著性差异。
具体的,所述相关性分析的表达式如下:
|Ri,j|≥a,for i,j=1,2,…,n
其中,对于n个特征X1,X2……Xn,它们的相关系数矩阵为R,Ri,j表示特征Xi和Xj之间的相关系数,根据设定的相关性阈值α,如果某两个特征Xi和Xj之间的相关系数Ri,j的绝对值大于等于α,则他们被认为是高相关性特征。
具体的,所述mRMR分析的表达式如下:
max(Relevance(fi,Y))-1/k*∑(j=1→k)max(Relavance(fi,fj))
其中,fi表示原始特征中的第i个特征,Y表示目标变量,k表示特征集合中要选择的特征数。
Relevance(fi,Y)表示第i个特征与目标变量的相关性,Relavance(fi,fj)表示第i个特征与第j个特征之间的相关性。
式中,max(Relevance(fi,Y))表示第i个特征与目标变量之间的最大相关性,∑(j=1→k)max(Relavance(fi,fj))表示第i个特征与其他特征之间的相关性之和。
通过mRMR特征筛选方法计算各个特征与目标变量之间的相关性,以及各个特征之间的相关性,筛选出最具代表性和相关性的特征,有效避免特征之间的冗余和噪声,提高模型的预测能力和泛化能力。
具体的,所述Lasso回归分析的表示如下:
Radscore=a1k1+a2k2+...+ankn+b1
其中,Radscore为Lasso回归分析的OSA发病风险评分,k1~kn为发病风险相关的体脂分布特征和代谢组学特征的n种类型,a1~an为n种类型对应的n个权重,b1为第一偏置。
具体的,所述四肢区域脂肪包括右臂全部脂肪、左腿全部脂肪以及躯干左侧区域脂肪。
具体的,所述高密度脂蛋白亚型包括H0A2和H0PL;
所述低密度脂蛋白亚型包括L2PN和L6TG;
所述极低密度脂蛋白亚型包括V1TG和V5PL。
具体的,在训练时,所述数据集采用smote算法进行数据增强,其表达式如下:
其中,对于OSA组中每一个样本x,以欧氏距离为标准计算它到OSA样本集中所有样本的距离,得到其k个近邻。
具体的,所述风险预测模型的表达式如下:
Nomoscore=
β1*性别+β2*年龄+β3*BMI+β4*fat_predicted+β5*lipop_predicted
其中,fat_predicted表示体脂特征,lipop_predicted表示代谢特征,β1,β2,β3,β4以及β5表示模型参数的权重参数。
为了实现本发明的第二个目的,提供了一种OSA发病风险预测装置,包括计算机存储器、传感器、计算机处理器以及存储在该计算机存储器中并可在该计算机处理器上执行的计算机程序,该计算机处理器采用上述的基于多组学生物标志物的OSA发病风险预测方法。
该计算机处理器执行计算机程序时实现以下步骤:将用户的医疗数据输入至风险预测模型中,以获得OSA发病风险预测结果并以图表形式输出。
与现有技术相比,本发明的有益效果:
结合体脂分布情况与代谢组学的生物标志物进行OSA发病风险的预测,利用多维表型数据全面反映机体状态以提高预测结果,从而为医师后续的医疗诊断提供更精准的指导。
附图说明
图1为本实施例提供的一种基于多组学生物标志物的OSA发病风险预测方法的流程图;
图2为本实施例提供的预测模型的训练流程图;
图3为本实施例提供的ROC曲线图;
图4为本实施例提供的DCA曲线图;
图5为本实施例提供的风险预测模型的Nomogram图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面将结合本发明中的附图1-5和具体实施例对本发明中的技术方案进行清楚、完整地描述,但应该清楚,本发明不限于具体实施方式的范围。
基于本发明中的实施例,对本技术领域的普通技术人员来讲,只要各种在所附的权利要求限定和确定的本发明的精神和范围内,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,不用于描述特定的顺序或先后次序。应该理解,这些术语在适当情况下可以互换,以确保本发明的实施例能够以除了在这里图示或描述的以外的顺序实施。
应当理解,本说明书中提到的术语“一个实施例”或“一实施例”是指与实施例有关的具有特定特征、结构或特性的实施例,其包含在本发明的至少一个实施例中。因此,在本说明书的任何部分中提到的“在一个实施例中”或“在一实施例中”未必涉及相同的实施例。此外,这些特定的特征、结构或特性可以以任何适当的方式在一个或多个实施例中进行组合。
如图1所示,为本实施例提供的一种基于多组学生物标志物的OSA发病风险预测方法,该方法包括以下步骤:
获取健康组和OSA发病组的医学数据,其包括个人信息,和对应的体脂成分以及代谢组学数据。
更进一步地,构建一个年龄范围为20-60岁,991人(包含892名健康人,99名OSA患者)的数据集,包含基本信息如性别、年龄、BMI、受教育程度,体脂分布数据以及脂蛋白和脂质代谢组学数据;其中994人有完整基本信息和体脂分布数据,851人有完整基本信息和脂蛋白数据(包含758名健康人,93名OSA患者),827人(包含736名健康人,91名OSA患者)有完整基本信息、体脂分布、脂蛋白数据。
分别对体脂成分和代谢组学数据进行预处理,以获得包含体脂特征和代谢特征的组学特征,并将所述组学特征与医学数据组成数据集。
更进一步地,首先对体脂分布数据及脂蛋白和脂质代谢组学数据进行标准化处理,转换为Z分数,剔除Z分数超出mean±3SD即大于3或小于-3的异常值,再通过ANOVA筛选对照组和OSA组显著性差异指标,将所有p<0.05的特征纳入进一步的相关性分析中。
采用相关性分析,设置相关性系数阈值为0.9,剔除相关性高于预设阈值即0.9的特征,进一步通过mRMR算法筛选出10个最相关的特征。
通过Lasso回归分析分别对上述特征进一步降维,筛选体脂成分中10个相关特征与目标变量发病风险最相关的特征集合,其包括体脂成分对应的android区域脂肪、内脏脂肪体积和四肢区域脂肪。
同时筛选代谢组学中10个相关特征与目标变量发病风险最相关的特征集合,其包括高密度脂蛋白亚型,低密度脂蛋白亚型和极低密度脂蛋白亚型。
而Lasso回归对数据进一步降维后,体脂成分得到5个与OSA发病风险最相关的特征集合,代谢组学得到6个与OSA发病风险最相关的特征集合,本实施例中体脂成分和代谢组学数据的最终特征表达如下:Label(体脂成分)=-2.9492+android区域脂肪*0.3932+内脏脂肪体积*0.9142+右臂全部脂肪*0.1958-左腿全部脂肪*0.490+躯干左侧区域脂肪*0.3543Label(代谢组学数据)=
2.5396+H0A2*0.0299+H0PL*0.4082-L2PN*0.0823-L6TG*0.2537-V1TG*0.4146-V5PL*0.2580
如图2所示,根据所述数据集对预构建的预测模型进行训练,以获得用于预测OSA发病风险的风险预测模型。
更进一步地,对数据集按8:2划分训练集和测试集,即训练集662人包含589名健康人和73名OSA患者,通过smote算法对OSA数据增强后新生成的训练集健康人和OSA患者人数相等。
测试集165人包含147名健康人和18名OSA患者。
训练集通过逻辑回归(logistic regression,LR)线性模型,极致梯度提升(extreme Gradient Boosting,XGBoost)、轻量梯度提升(light gradient boostingmechine,lightGBM)两种树模型,多层感知机(multilayer perceptron,MLP)深度学习模型,和高斯朴素贝叶斯算法(Gaussian Naive Bayes,GNB)概率分类算法对OSA进行预测。
其中,体脂分布特征数据训练集逻辑回归模型准确率为0.849±0.019,精确率为0.954±0.016,灵敏度为0.873±0.022,特异度为0.654±0.115;朴素贝叶斯算法模型准确率为0.849±0.029,精确率为0.946±0.025,灵敏度为0.882±0.030,特异度为0.590±0.160;极致梯度提升模型准确率为0.875±0.020,精确率为0.911±0.016,灵敏度为0.954±0.017,特异度为0.227±0.016;轻量梯度提升模型准确率为0.857±0.018,精确率为0.948±0.019,灵敏度为0.889±0.022,特异度为0.598±0.022;多层感知机模型准确率为0.907±0.022,精确率为0.915±0.020,灵敏度为0.988±0.014,特异度为0.243±0.084。综合评估五种模型,逻辑回归模型效能最高。
代谢组学数据训练集逻辑回归模型准确率为0.825±0.020,精确率为0.942±0.018,灵敏度为0.856±0.023,特异度为0.586±0.084;朴素贝叶斯算法模型准确率为0.865±0.029,精确率为0.932±0.020,灵敏度为0.915±0.025,特异度为0.468±0.101;极致梯度提升模型准确率为0.892±0.026,精确率为0.906±0.027,灵敏度为0.980±0.007,特异度为0.200±0.007;轻量梯度提升模型准确率为0.865±0.016,精确率为0.924±0.022,灵敏度为0.924±0.014,特异度为0.406±0.014;多层感知机模型准确率为0.896±0.027,精确率为0.906±0.027,灵敏度为0.985±0.005,特异度为0.201±0.086。综合评估五种模型,逻辑回归模型效能最高。
从而选用逻辑回归模型作为最终的风险预测模型。
在本实施例中,用户基本信息的3种类型分别为年龄、性别、BMI;筛选的体脂成分指标的5种类型分别为Android区域脂肪、内脏脂肪组织、右臂全部脂肪、左腿全部脂肪、躯干左侧区域脂肪,得到此5种特征的OSA预测概率值fat_predicted;筛选的代谢组学指标的6种类型分别为H0A2、H0PL、L2PN、L6TG、V1TG、V5PL,得到此6种特征的OSA预测概率值lipop_predicted。
针对上述13种类型,风险预测模型的表达式为:
Nomoscore=
β1*性别+β2*年龄+β3*BMI+β4*fat_predicted+β5*lipop_predicted
其中,fat_predicted表示体脂特征,lipop_predicted表示代谢特征,β1,β2,β3,β4以及β5表示模型参数的权重参数。
最终基于准确率(Accuracy)、精确率(Precision)、灵敏度(Sensitivity)、特异度(Specificity)、F1分数、ROC曲线下面积(Area under curve,AUC),DCA曲线等指标对风险预测模型进行效能评估,以评估OSA最佳预测模型的性能。通过对模型的效能进行评估,确定该模型的预测准确性和可靠性。
表1
Methods | 准确率 | 灵敏度 | 特异度 | 精确率 |
Logistic Regression | 0.856±0.037 | 0.851±0.042 | 0.781±0.068 | 0.97±0.009 |
Gaussian Naive Bayes | 0.848±0.018 | 0.871±0.024 | 0.655±0.098 | 0.955±0.011 |
XG Boost | 0.904±0.024 | 0.968±0.020 | 0.385±0.047 | 0.926±0.016 |
LightGBM | 0.854±0.021 | 0.880±0.028 | 0.646±0.061 | 0.952±0.011 |
MLP | 0.899±0.022 | 1 | 0 | 0.889±0.022 |
表1中的多组学数据逻辑回归模型准确率为0.856±0.037,精确率为0.970±0.009,灵敏度为0.851±0.042,特异度为0.781±0.068。
朴素贝叶斯算法模型准确率为0.848±0.018,精确率为0.955±0.011,灵敏度为0.871±0.024,特异度为0.655±0.098。
极致梯度提升模型准确率为0.904±0.024,精确率为0.926±0.016,灵敏度为0.968±0.020,特异度为0.385±0.047。
轻量梯度提升模型准确率为0.854±0.021,精确率为0.952±0.011,灵敏度为0.880±0.028,特异度为0.646±0.061。
多层感知机模型准确率为0.899±0.022,精确率为0.889±0.022,灵敏度为1,特异度为0。
综合评估五种模型,逻辑回归模型效能最好,灵敏度和特异度较高,曲线下面积(AUC)大于0.6,说明具有区分OSA样本和正常样本的潜力。
如图3所示,为本实施例所提效能评估中ROC曲线图,该模型对OSA具有良好的预测能力(曲线下面积AUC=0.874)。
如图4所示,为本实施例所提效能评估中DCA曲线图,表明模型具有显著的临床获益能力。
本实施例提供了一种OSA发病风险预测装置,包括计算机存储器、传感器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,该计算机处理器采用上述实施例提出的一种基于多组学生物标志物的OSA发病风险预测方法。
将用户的医学数据输入至风险预测模型中,以获得OSA发病风险预测结果并以Nomogram图形式输出。
如图5所示,为最终输出包括各个特征,如性别、年龄、BMI、体脂特征(fat_predicted)、代谢特征(lipop_predicted)的取值范围及其对风险值的贡献图表,医师可以根据其内容对用户后续的医疗诊断以及治疗方法提供更加准确的指导。
本发明整合了基本信息、体脂分布特征及代谢组学的生物标志物进行OSA的预测,通过多种算法构建预测模型,相较于传统的预测方法,本方法融合了多维表型数据的信息,更全面反映了机体状态,从而显著提高了预测精度。该模型可以用于OSA患者的早期识别,指导临床治疗,并对预防OSA相关并发症具有积极的临床意义。
Claims (10)
1.一种基于多组学生物标志物的OSA发病风险预测方法,其特征在于,包括以下步骤:
获取健康组和OSA发病组的医学数据,其包括个人信息,和对应的体脂成分以及代谢组学数据;
分别对体脂成分和代谢组学数据进行预处理,以获得包含体脂特征和代谢特征的组学特征,并将所述组学特征与医学数据组成数据集;
根据所述数据集对预构建的预测模型进行训练,以获得用于预测OSA发病风险的风险预测模型;
将待预测用户的医学数据输入至所述风险预测模型中,以获得用户的OSA发病风险预测结果。
2.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法,其特征在于,所述个人信息包括用户的年龄,性别以及BMI值。
3.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法,其特征在于,所述体脂成分基于双能X线吸收仪获得,其包括机体全身脂肪组织。
4.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法,其特征在于,所述代谢组学数据基于血液采集分析获得,其包括脂蛋白和脂质。
5.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法,其特征在于,所述预处理包括数据标准化,ANOVA分析,相关性分析以及基于mRMR与Lasso回归特征筛选,其具体过程如下:
对OSA组和健康组进行数据标准化,以获得对应的Z分数,并将Z分数超出mean±3SD的异常值剔除以去除离群数据;
通过ANOVA分析获取OSA组和健康组之间的差异指标,并根据所述差异指标采用相关性分析去除相关系数大于0.9的指标,并通过mRMR算法筛选出10个最相关特征,将所述10个最相关特征通过lasso回归筛选出与体脂成分和代谢组学最佳特征集合;
所述最佳特征集合包括体脂成分对应的android区域脂肪、内脏脂肪体积和四肢区域脂肪,以及代谢组学数据对应的高密度脂蛋白亚型,低密度脂蛋白亚型和极低密度脂蛋白亚型;
根据Lasso回归分析以获得最佳集合特征集合中各特征的权重;
将最佳特征集合与对应的权重组成组学特征。
6.根据权利要求5所述的基于多组学生物标志物的OSA发病风险预测方法,其特征在于,所述四肢区域脂肪包括右臂全部脂肪、左腿全部脂肪以及躯干左侧区域脂肪。
7.根据权利要求5所述的基于多组学生物标志物的OSA发病风险预测方法,其特征在于,所述高密度脂蛋白亚型包括H0A2和H0PL;
所述低密度脂蛋白亚型包括L2PN和L6TG;
所述极低密度脂蛋白亚型包括V1TG和V5PL。
8.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法,其特征在于,在训练时,所述数据集采用smote算法进行数据增强,其表达式如下:
其中,对于OSA组中每一个样本x,以欧氏距离为标准计算它到OSA样本集中所有样本的距离,得到其k个近邻。
9.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法,其特征在于,所述风险预测模型的表达式如下:
Nomoscore=
β1*性别+β2*年龄+β3*BMI+β4*fat_predicted+β5*lipop_predicted
其中,fat_predicted表示体脂特征,lipop_predicted表示代谢特征,β1,β2,β3,β4以及β5表示模型参数的权重参数。
10.一种OSA发病风险预测装置,包括计算机存储器、传感器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器采用如权利要求1~7任一项所述的基于多组学生物标志物的OSA发病风险预测方法;
所述计算机处理器执行所述计算机程序时实现以下步骤:将用户的医疗数据输入至风险预测模型中,以获得OSA发病风险预测结果并以图表形式输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311224230.1A CN117275726A (zh) | 2023-09-21 | 2023-09-21 | 一种基于多组学生物标志物的osa发病风险预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311224230.1A CN117275726A (zh) | 2023-09-21 | 2023-09-21 | 一种基于多组学生物标志物的osa发病风险预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117275726A true CN117275726A (zh) | 2023-12-22 |
Family
ID=89215326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311224230.1A Pending CN117275726A (zh) | 2023-09-21 | 2023-09-21 | 一种基于多组学生物标志物的osa发病风险预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117275726A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180156820A1 (en) * | 2015-06-05 | 2018-06-07 | Beckman Coulter, Inc. | Obstructive sleep apnea (osa) biomarker panel |
CN112420195A (zh) * | 2020-11-06 | 2021-02-26 | 清华大学 | 一种高血压风险预测方法及装置 |
CN115346665A (zh) * | 2022-10-19 | 2022-11-15 | 南昌大学第二附属医院 | 视网膜病变发病风险预测模型的构建方法、系统及设备 |
CN115527676A (zh) * | 2022-10-13 | 2022-12-27 | 四川大学华西医院 | 一种osa发病风险评估方法及系统 |
-
2023
- 2023-09-21 CN CN202311224230.1A patent/CN117275726A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180156820A1 (en) * | 2015-06-05 | 2018-06-07 | Beckman Coulter, Inc. | Obstructive sleep apnea (osa) biomarker panel |
CN112420195A (zh) * | 2020-11-06 | 2021-02-26 | 清华大学 | 一种高血压风险预测方法及装置 |
CN115527676A (zh) * | 2022-10-13 | 2022-12-27 | 四川大学华西医院 | 一种osa发病风险评估方法及系统 |
CN115346665A (zh) * | 2022-10-19 | 2022-11-15 | 南昌大学第二附属医院 | 视网膜病变发病风险预测模型的构建方法、系统及设备 |
Non-Patent Citations (2)
Title |
---|
苏帆主编: "循证医学与麻醉手术实践", 31 January 2011, 山东科学技术出版社, pages: 107 * |
韩莹莹: "成人OSA颈动脉粥样硬化的关系及代谢指标的中介效应分析", 成人OSA颈动脉粥样硬化的关系及代谢指标的中介效应分析, no. 02, 15 February 2023 (2023-02-15), pages 062 - 916 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fraiwan et al. | Recognition of pulmonary diseases from lung sounds using convolutional neural networks and long short-term memory | |
JP2023164839A (ja) | 呼吸器疾患を診断するために疾患シグネチャを使用して咳音を分析するための方法 | |
Exarchos et al. | Artificial intelligence techniques in asthma: a systematic review and critical appraisal of the existing literature | |
Sánchez Morillo et al. | Computer-aided diagnosis of pneumonia in patients with chronic obstructive pulmonary disease | |
Karamanli et al. | A prediction model based on artificial neural networks for the diagnosis of obstructive sleep apnea | |
Cheng et al. | Automated sleep apnea detection in snoring signal using long short-term memory neural networks | |
Sinha et al. | Analyzing chronic disease biomarkers using electrochemical sensors and artificial neural networks | |
Akhter et al. | Snore sound analysis can detect the presence of obstructive sleep apnea specific to NREM or REM sleep | |
Yücelbaş | Simple logistic hybrid system based on greedy stepwise algorithm for feature analysis to diagnose Parkinson’s disease according to gender | |
Wang et al. | BI-Directional long short-term memory for automatic detection of sleep apnea events based on single channel EEG signal | |
Brink-Kjaer et al. | Automatic detection of cortical arousals in sleep and their contribution to daytime sleepiness | |
US20220218274A1 (en) | Methods for Estimating Key Phenotypic Traits for Obstructive Sleep Apnea and Simplified Clinical Tools to Direct Targeted Therapy | |
Aly et al. | A novel deep learning model to detect COVID-19 based on wavelet features extracted from Mel-scale spectrogram of patients’ cough and breathing sounds | |
Bećirović et al. | Aritificial Inteligence Challenges in COPD management: a review | |
Rashid et al. | Artificial intelligence in acute respiratory distress syndrome: a systematic review | |
CN114300126A (zh) | 一种基于早癌筛查问卷与前馈神经网络的癌症预测系统 | |
Hajipour et al. | Regularized logistic regression for obstructive sleep apnea screening during wakefulness using daytime tracheal breathing sounds and anthropometric information | |
Ramalingam et al. | A comparative analysis of chronic obstructive pulmonary disease using machine learning, and deep learning | |
Arslan et al. | Sensitive deep learning application on sleep stage scoring by using all PSG data | |
CN117275726A (zh) | 一种基于多组学生物标志物的osa发病风险预测方法及装置 | |
CN115775630A (zh) | 一种术前基于睡眠阶段数据的术后肺部并发症概率预测方法 | |
Melese et al. | Deep learning based algorithms for detecting chronic obstructive pulmonary disease | |
Arslan | Sleep disorder and apnea events detection framework with high performance using two-tier learning model design | |
Liu et al. | A machine learning method for predicting the probability of MODS using only non-invasive parameters | |
Akhter et al. | Characterizing the NREM/REM sleep specific obstructive sleep apnea severity using snore sounds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |