CN117275726A

CN117275726A - 一种基于多组学生物标志物的osa发病风险预测方法及装置

Info

Publication number: CN117275726A
Application number: CN202311224230.1A
Authority: CN
Inventors: 田梅; 吴玉丹
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-22

Abstract

本发明公开了一种基于多组学生物标志物的OSA发病风险预测方法，包括以下步骤：获取健康组和OSA发病组的医学数据；分别对体脂成分和代谢组学数据进行预处理，以获得包含体脂特征和代谢特征的组学特征，并将组学特征与医学数据组成数据集；根据所述数据集对预构建的预测模型进行训练，以获得风险预测模型；将待预测用户的医学数据输入至风险预测模型中，以获得用户的OSA发病风险预测结果。本发明还提供了一种OSA发病风险预测装置。本发明提供的方法可以提高OSA发病风险预测的准确率，从而为医师的医疗诊断提供有效的指导。

Description

一种基于多组学生物标志物的OSA发病风险预测方法及装置

技术领域

本发明属于医疗数据处理的技术领域，尤其涉及一种基于多组学生物标志物的OSA发病风险预测方法及装置。

背景技术

阻塞性睡眠呼吸暂停(obstructive sleep apnea,OSA)是一种常见的慢性睡眠呼吸障碍，主要为睡眠期间上呼吸道反复塌陷、部分或完全阻塞，伴有血氧饱和度下降、交感神经兴奋性增加和睡眠片段化，以夜间打鼾、晨起口干、日间嗜睡、注意力不集中和记忆力衰退等为主要临床表现。据估计，30-69岁的成年人患病率为2％-4％，近10亿人患有OSA，我国患病人数达1.76亿，位居全球首位。

其中，肥胖、年龄、性别、遗传和生活方式是OSA发病的危险因素。OSA不仅严重降低患者的睡眠质量，还与心血管、代谢和认知障碍的风险增加有关。目前诊断OSA的金标准是夜间多导睡眠图(polysomnography,PSG)检测下的呼吸暂停低通气指数(apnea hypopneaindex,AHI)，然而PSG监测昂贵且耗时，不适合大规模筛查，严重阻碍了其在OSA的预防、早期诊断和治疗中的应用。

睡眠过程中常见的睡眠障碍主要有：原发性打鼾(primary snoring,PS)、睡眠呼吸障碍(sleep disordered breathing,SDB)、OSA、中枢性睡眠呼吸暂停(central sleepapnea,CSA)、睡眠相关肺泡低通气(Sleep related hypoventilation,SRH)、睡眠相关低氧血症(Sleep-related hypoxemia disorder,SRHD)等，应结合临床表现和辅助检查等进行鉴别诊断。

由于目前OSA的诊断主要依赖于临床检查和PSG睡眠监测技术，存在检测难度大、费用高、操作复杂、耗时等问题。因此，开发一种简单、非侵入性、低成本的OSA预测方法具有很高的临床价值。专利CN115040074A公开了一种基于生理数据和睡眠监测信号的OSA检测方法及装置，通过将生理数据和心电信号、血氧信号和脉搏信号输入至训练成功的睡眠分期分类模型、呼吸事件分类模型、高层样本分类模型以及多模态数据检测模型，得到被测人的OSA患病程度。

专利文献CN115527676A公开了一种基于皮下脂肪转录组测序结果的hub RNA修饰基因建立的风险评估模型，实现对人从基因角度预估OSA发病风险的概率。而该方法仅根据皮下脂肪对应的基因进行特征分析，不能全面反映机体状态。

专利文献CN105229165B公开了一种基于儿童尿液蛋白质组学分析识别的候选生物标志物，通过计算机算法评价所测生物标志物的表达水平来确定OSA的风险评分，为OSA的诊断提供了基于蛋白质表达水平的生物标志物。该方法仅参考了单一蛋白质组水平情况，其外部因素影响均未考虑，其结果存在偏差。

发明内容

本发明的目的是提供一种OSA发病风险预测方法及装置，该方法可以提高OSA发病风险预测的准确率，从而为医师的医疗诊断提供有效的指导。

为了实现本发明的第一个目的，提供了一种基于多组学生物标志物的OSA发病风险预测方法，该方法包括以下步骤：

获取健康组和OSA发病组的医学数据，其包括个人信息，和对应的体脂成分以及代谢组学数据；

分别对体脂成分和代谢组学数据进行预处理，以获得包含体脂特征和代谢特征的组学特征，并将所述组学特征与医学数据组成数据集；

根据所述组学特征分别对预构建的预测模型进行训练，以获得用于预测OSA发病风险的风险预测模型；

将待预测用户的医学数据输入至所述风险预测模型中，以获得用户的OSA发病风险预测结果。

本发明基于体成分分析与代谢组学技术，通过采集用户的身体成分和代谢组学成分以构建预测模型，从而以多维度、多尺度、多模态对OSA发病风险进行评估，获得更加准确的预测结果，为医师后续的诊断提供更有效的指导。

具体的，所述个人信息包括用户的年龄，性别以及BMI值。

具体的，通过双能X射线吸收测定法测量的全身体脂成分指标及其相关比值。

具体的，所述代谢组学数据基于血液采集分析获得，其包括脂蛋白和脂质。

具体的，通过核磁和质谱仪器获取的血浆非靶向代谢组学数据。

具体的，所述预处理包括数据标准化，ANOVA分析，相关性分析，mRMR与Lasso回归的特征筛选。

其具体过程如下：

对OSA组和健康组进行数据标准化，以获得对应的Z分数，并根据预设的异常值与Z分数进行比较以剔除异常数据，即剔除Z分数超出mean±3SD的异常值。

通过ANOVA分析获取OSA组与健康组之间的差异指标，将所有p<0.05的特征纳入进一步的相关性分析中。

采用相关性分析，设置相关性系数阈值为0.9，剔除相关性高于预设阈值的特征，进一步通过mRMR算法筛选出10个最相关的特征。

通过Lasso回归分别筛选体脂成分和代谢组学上述10个相关特征与目标变量发病风险最相关的特征集合，所述最佳特征集合包括体脂成分对应的android区域脂肪、内脏脂肪体积和四肢区域脂肪，以及代谢组学数据对应的高密度脂蛋白亚型，低密度脂蛋白亚型和极低密度脂蛋白亚型。

通过Lasso回归分析对数据进一步降维并获得最佳特征集合中各特征的权重。

具体的，所述ANOVA分析的表达式如下：

在表达式中，SS_T表示总平方和，SS_B表示组间平方和，SS_W表示组内平方和，k表示组数，n_i表示第i组的样本数，表示第i组的均值，/>表示所有样本的均值。

其中，总平方和SS_T等于组间平方和SS_B和组内平方和SS_W的和，可表示为：

SS_T＝SS_B+SS_w

其中，组间平方和SS_B可表示为：

其中，组内平方和SS_w可表示为：

以上表达式可用于对实验数据进行ANOVA分析，并得到实验因素之间的显著性差异。

具体的，所述相关性分析的表达式如下：

|R_i,j|≥a,for i,j＝1,2,…,n

其中，对于n个特征X₁,X₂……X_n，它们的相关系数矩阵为R，R_i,j表示特征X_i和X_j之间的相关系数，根据设定的相关性阈值α，如果某两个特征X_i和X_j之间的相关系数R_i,j的绝对值大于等于α，则他们被认为是高相关性特征。

具体的，所述mRMR分析的表达式如下：

max(Relevance(f_i,Y))-1/k*∑(j＝1→k)max(Relavance(f_i,f_j))

其中，f_i表示原始特征中的第i个特征，Y表示目标变量，k表示特征集合中要选择的特征数。

Relevance(f_i,Y)表示第i个特征与目标变量的相关性，Relavance(f_i,f_j)表示第i个特征与第j个特征之间的相关性。

式中，max(Relevance(f_i,Y))表示第i个特征与目标变量之间的最大相关性，∑(j＝1→k)max(Relavance(f_i,f_j))表示第i个特征与其他特征之间的相关性之和。

通过mRMR特征筛选方法计算各个特征与目标变量之间的相关性，以及各个特征之间的相关性，筛选出最具代表性和相关性的特征，有效避免特征之间的冗余和噪声，提高模型的预测能力和泛化能力。

具体的，所述Lasso回归分析的表示如下：

Radscore＝a₁k₁+a₂k₂+...+a_nk_n+b₁

其中，Radscore为Lasso回归分析的OSA发病风险评分，k₁～k_n为发病风险相关的体脂分布特征和代谢组学特征的n种类型，a₁～a_n为n种类型对应的n个权重，b₁为第一偏置。

具体的，所述四肢区域脂肪包括右臂全部脂肪、左腿全部脂肪以及躯干左侧区域脂肪。

具体的，所述高密度脂蛋白亚型包括H0A2和H0PL；

所述低密度脂蛋白亚型包括L2PN和L6TG；

所述极低密度脂蛋白亚型包括V1TG和V5PL。

具体的，在训练时，所述数据集采用smote算法进行数据增强，其表达式如下：

其中，对于OSA组中每一个样本x，以欧氏距离为标准计算它到OSA样本集中所有样本的距离，得到其k个近邻。

具体的，所述风险预测模型的表达式如下：

Nomoscore＝

β₁*性别+β₂*年龄+β₃*BMI+β₄*fat_predicted+β₅*lipop_predicted

其中，fat_predicted表示体脂特征，lipop_predicted表示代谢特征，β₁，β₂，β₃，β₄以及β₅表示模型参数的权重参数。

为了实现本发明的第二个目的，提供了一种OSA发病风险预测装置，包括计算机存储器、传感器、计算机处理器以及存储在该计算机存储器中并可在该计算机处理器上执行的计算机程序，该计算机处理器采用上述的基于多组学生物标志物的OSA发病风险预测方法。

该计算机处理器执行计算机程序时实现以下步骤：将用户的医疗数据输入至风险预测模型中，以获得OSA发病风险预测结果并以图表形式输出。

与现有技术相比，本发明的有益效果：

结合体脂分布情况与代谢组学的生物标志物进行OSA发病风险的预测，利用多维表型数据全面反映机体状态以提高预测结果，从而为医师后续的医疗诊断提供更精准的指导。

附图说明

图1为本实施例提供的一种基于多组学生物标志物的OSA发病风险预测方法的流程图；

图2为本实施例提供的预测模型的训练流程图；

图3为本实施例提供的ROC曲线图；

图4为本实施例提供的DCA曲线图；

图5为本实施例提供的风险预测模型的Nomogram图。

具体实施方式

为使本发明目的、技术方案和优点更加清楚，下面将结合本发明中的附图1-5和具体实施例对本发明中的技术方案进行清楚、完整地描述，但应该清楚，本发明不限于具体实施方式的范围。

基于本发明中的实施例，对本技术领域的普通技术人员来讲，只要各种在所附的权利要求限定和确定的本发明的精神和范围内，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，不用于描述特定的顺序或先后次序。应该理解，这些术语在适当情况下可以互换，以确保本发明的实施例能够以除了在这里图示或描述的以外的顺序实施。

应当理解，本说明书中提到的术语“一个实施例”或“一实施例”是指与实施例有关的具有特定特征、结构或特性的实施例，其包含在本发明的至少一个实施例中。因此，在本说明书的任何部分中提到的“在一个实施例中”或“在一实施例中”未必涉及相同的实施例。此外，这些特定的特征、结构或特性可以以任何适当的方式在一个或多个实施例中进行组合。

如图1所示，为本实施例提供的一种基于多组学生物标志物的OSA发病风险预测方法，该方法包括以下步骤：

获取健康组和OSA发病组的医学数据，其包括个人信息，和对应的体脂成分以及代谢组学数据。

更进一步地，构建一个年龄范围为20-60岁，991人(包含892名健康人，99名OSA患者)的数据集，包含基本信息如性别、年龄、BMI、受教育程度，体脂分布数据以及脂蛋白和脂质代谢组学数据；其中994人有完整基本信息和体脂分布数据，851人有完整基本信息和脂蛋白数据(包含758名健康人，93名OSA患者)，827人(包含736名健康人，91名OSA患者)有完整基本信息、体脂分布、脂蛋白数据。

分别对体脂成分和代谢组学数据进行预处理，以获得包含体脂特征和代谢特征的组学特征，并将所述组学特征与医学数据组成数据集。

更进一步地，首先对体脂分布数据及脂蛋白和脂质代谢组学数据进行标准化处理，转换为Z分数，剔除Z分数超出mean±3SD即大于3或小于-3的异常值，再通过ANOVA筛选对照组和OSA组显著性差异指标，将所有p<0.05的特征纳入进一步的相关性分析中。

采用相关性分析，设置相关性系数阈值为0.9，剔除相关性高于预设阈值即0.9的特征，进一步通过mRMR算法筛选出10个最相关的特征。

通过Lasso回归分析分别对上述特征进一步降维，筛选体脂成分中10个相关特征与目标变量发病风险最相关的特征集合，其包括体脂成分对应的android区域脂肪、内脏脂肪体积和四肢区域脂肪。

同时筛选代谢组学中10个相关特征与目标变量发病风险最相关的特征集合，其包括高密度脂蛋白亚型，低密度脂蛋白亚型和极低密度脂蛋白亚型。

而Lasso回归对数据进一步降维后，体脂成分得到5个与OSA发病风险最相关的特征集合，代谢组学得到6个与OSA发病风险最相关的特征集合，本实施例中体脂成分和代谢组学数据的最终特征表达如下：Label(体脂成分)＝-2.9492+android区域脂肪*0.3932+内脏脂肪体积*0.9142+右臂全部脂肪*0.1958-左腿全部脂肪*0.490+躯干左侧区域脂肪*0.3543Label(代谢组学数据)＝

2.5396+H0A2*0.0299+H0PL*0.4082-L2PN*0.0823-L6TG*0.2537-V1TG*0.4146-V5PL*0.2580

如图2所示，根据所述数据集对预构建的预测模型进行训练，以获得用于预测OSA发病风险的风险预测模型。

更进一步地，对数据集按8:2划分训练集和测试集，即训练集662人包含589名健康人和73名OSA患者，通过smote算法对OSA数据增强后新生成的训练集健康人和OSA患者人数相等。

测试集165人包含147名健康人和18名OSA患者。

训练集通过逻辑回归(logistic regression,LR)线性模型，极致梯度提升(extreme Gradient Boosting,XGBoost)、轻量梯度提升(light gradient boostingmechine,lightGBM)两种树模型，多层感知机(multilayer perceptron,MLP)深度学习模型，和高斯朴素贝叶斯算法(Gaussian Naive Bayes,GNB)概率分类算法对OSA进行预测。

其中，体脂分布特征数据训练集逻辑回归模型准确率为0.849±0.019，精确率为0.954±0.016，灵敏度为0.873±0.022，特异度为0.654±0.115；朴素贝叶斯算法模型准确率为0.849±0.029，精确率为0.946±0.025，灵敏度为0.882±0.030，特异度为0.590±0.160；极致梯度提升模型准确率为0.875±0.020，精确率为0.911±0.016，灵敏度为0.954±0.017，特异度为0.227±0.016；轻量梯度提升模型准确率为0.857±0.018，精确率为0.948±0.019，灵敏度为0.889±0.022，特异度为0.598±0.022；多层感知机模型准确率为0.907±0.022，精确率为0.915±0.020，灵敏度为0.988±0.014，特异度为0.243±0.084。综合评估五种模型，逻辑回归模型效能最高。

代谢组学数据训练集逻辑回归模型准确率为0.825±0.020，精确率为0.942±0.018，灵敏度为0.856±0.023，特异度为0.586±0.084；朴素贝叶斯算法模型准确率为0.865±0.029，精确率为0.932±0.020，灵敏度为0.915±0.025，特异度为0.468±0.101；极致梯度提升模型准确率为0.892±0.026，精确率为0.906±0.027，灵敏度为0.980±0.007，特异度为0.200±0.007；轻量梯度提升模型准确率为0.865±0.016，精确率为0.924±0.022，灵敏度为0.924±0.014，特异度为0.406±0.014；多层感知机模型准确率为0.896±0.027，精确率为0.906±0.027，灵敏度为0.985±0.005，特异度为0.201±0.086。综合评估五种模型，逻辑回归模型效能最高。

从而选用逻辑回归模型作为最终的风险预测模型。

在本实施例中，用户基本信息的3种类型分别为年龄、性别、BMI；筛选的体脂成分指标的5种类型分别为Android区域脂肪、内脏脂肪组织、右臂全部脂肪、左腿全部脂肪、躯干左侧区域脂肪，得到此5种特征的OSA预测概率值fat_predicted；筛选的代谢组学指标的6种类型分别为H0A2、H0PL、L2PN、L6TG、V1TG、V5PL，得到此6种特征的OSA预测概率值lipop_predicted。

针对上述13种类型，风险预测模型的表达式为：

Nomoscore＝

β₁*性别+β₂*年龄+β₃*BMI+β₄*fat_predicted+β₅*lipop_predicted

最终基于准确率(Accuracy)、精确率(Precision)、灵敏度(Sensitivity)、特异度(Specificity)、F1分数、ROC曲线下面积(Area under curve,AUC)，DCA曲线等指标对风险预测模型进行效能评估，以评估OSA最佳预测模型的性能。通过对模型的效能进行评估，确定该模型的预测准确性和可靠性。

表1

Methods	准确率	灵敏度	特异度	精确率
					Logistic Regression	0.856±0.037	0.851±0.042	0.781±0.068	0.97±0.009
Gaussian Naive Bayes	0.848±0.018	0.871±0.024	0.655±0.098	0.955±0.011
					XG Boost	0.904±0.024	0.968±0.020	0.385±0.047	0.926±0.016
LightGBM	0.854±0.021	0.880±0.028	0.646±0.061	0.952±0.011
					MLP	0.899±0.022	1	0	0.889±0.022

表1中的多组学数据逻辑回归模型准确率为0.856±0.037，精确率为0.970±0.009，灵敏度为0.851±0.042，特异度为0.781±0.068。

朴素贝叶斯算法模型准确率为0.848±0.018，精确率为0.955±0.011，灵敏度为0.871±0.024，特异度为0.655±0.098。

极致梯度提升模型准确率为0.904±0.024，精确率为0.926±0.016，灵敏度为0.968±0.020，特异度为0.385±0.047。

轻量梯度提升模型准确率为0.854±0.021，精确率为0.952±0.011，灵敏度为0.880±0.028，特异度为0.646±0.061。

多层感知机模型准确率为0.899±0.022，精确率为0.889±0.022，灵敏度为1，特异度为0。

综合评估五种模型，逻辑回归模型效能最好，灵敏度和特异度较高，曲线下面积(AUC)大于0.6，说明具有区分OSA样本和正常样本的潜力。

如图3所示，为本实施例所提效能评估中ROC曲线图，该模型对OSA具有良好的预测能力(曲线下面积AUC＝0.874)。

如图4所示，为本实施例所提效能评估中DCA曲线图，表明模型具有显著的临床获益能力。

本实施例提供了一种OSA发病风险预测装置，包括计算机存储器、传感器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，该计算机处理器采用上述实施例提出的一种基于多组学生物标志物的OSA发病风险预测方法。

将用户的医学数据输入至风险预测模型中，以获得OSA发病风险预测结果并以Nomogram图形式输出。

如图5所示，为最终输出包括各个特征，如性别、年龄、BMI、体脂特征(fat_predicted)、代谢特征(lipop_predicted)的取值范围及其对风险值的贡献图表，医师可以根据其内容对用户后续的医疗诊断以及治疗方法提供更加准确的指导。

本发明整合了基本信息、体脂分布特征及代谢组学的生物标志物进行OSA的预测，通过多种算法构建预测模型，相较于传统的预测方法，本方法融合了多维表型数据的信息，更全面反映了机体状态，从而显著提高了预测精度。该模型可以用于OSA患者的早期识别，指导临床治疗，并对预防OSA相关并发症具有积极的临床意义。

Claims

1.一种基于多组学生物标志物的OSA发病风险预测方法，其特征在于，包括以下步骤：

根据所述数据集对预构建的预测模型进行训练，以获得用于预测OSA发病风险的风险预测模型；

2.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法，其特征在于，所述个人信息包括用户的年龄，性别以及BMI值。

3.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法，其特征在于，所述体脂成分基于双能X线吸收仪获得，其包括机体全身脂肪组织。

4.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法，其特征在于，所述代谢组学数据基于血液采集分析获得，其包括脂蛋白和脂质。

5.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法，其特征在于，所述预处理包括数据标准化，ANOVA分析，相关性分析以及基于mRMR与Lasso回归特征筛选，其具体过程如下：

对OSA组和健康组进行数据标准化，以获得对应的Z分数，并将Z分数超出mean±3SD的异常值剔除以去除离群数据；

通过ANOVA分析获取OSA组和健康组之间的差异指标，并根据所述差异指标采用相关性分析去除相关系数大于0.9的指标，并通过mRMR算法筛选出10个最相关特征，将所述10个最相关特征通过lasso回归筛选出与体脂成分和代谢组学最佳特征集合；

所述最佳特征集合包括体脂成分对应的android区域脂肪、内脏脂肪体积和四肢区域脂肪，以及代谢组学数据对应的高密度脂蛋白亚型，低密度脂蛋白亚型和极低密度脂蛋白亚型；

根据Lasso回归分析以获得最佳集合特征集合中各特征的权重；

将最佳特征集合与对应的权重组成组学特征。

6.根据权利要求5所述的基于多组学生物标志物的OSA发病风险预测方法，其特征在于，所述四肢区域脂肪包括右臂全部脂肪、左腿全部脂肪以及躯干左侧区域脂肪。

7.根据权利要求5所述的基于多组学生物标志物的OSA发病风险预测方法，其特征在于，所述高密度脂蛋白亚型包括H0A2和H0PL；

所述低密度脂蛋白亚型包括L2PN和L6TG；

所述极低密度脂蛋白亚型包括V1TG和V5PL。

8.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法，其特征在于，在训练时，所述数据集采用smote算法进行数据增强，其表达式如下：

9.根据权利要求1所述的基于多组学生物标志物的OSA发病风险预测方法，其特征在于，所述风险预测模型的表达式如下：

Nomoscore＝

β₁*性别+β₂*年龄+β₃*BMI+β₄*fat_predicted+β₅*lipop_predicted

10.一种OSA发病风险预测装置，包括计算机存储器、传感器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器采用如权利要求1～7任一项所述的基于多组学生物标志物的OSA发病风险预测方法；

所述计算机处理器执行所述计算机程序时实现以下步骤：将用户的医疗数据输入至风险预测模型中，以获得OSA发病风险预测结果并以图表形式输出。