CN117079723B

CN117079723B - 一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用

Info

Publication number: CN117079723B
Application number: CN202311323194.4A
Authority: CN
Inventors: 何及; 陈国波; 樊东升; 刘德全
Original assignee: Beijing Jinyu Medical Examination Laboratory Co ltd; Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Beijing Jinyu Medical Examination Laboratory Co ltd; Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-02-02
Anticipated expiration: 2043-10-13
Also published as: CN117079723A

Abstract

本发明公开了一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用。本发明基于肌萎缩侧索硬化症患者队列，开发了基于机器学习算法的肌萎缩侧索硬化症风险评估模型，将通过严格质量控制的数据分为训练集和测试集，采用套索算法和极端梯度提升算法分别建立肌萎缩侧索硬化症风险评估模型，将建立的模型应用于测试集，对模型结果进行比较评估，得出最优的肌萎缩侧索硬化症风险评估模型，并识别最重要的差异甲基化基因作为肌萎缩侧索硬化症的DNA甲基化标志物，为肌萎缩侧索硬化症的早期诊断和识别提供依据。

Description

一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用

技术领域

本发明属于生物信息学技术领域，涉及一种与肌萎缩侧索硬化症相关的生物标志物及其应用。

背景技术

肌萎缩侧索硬化症（Amyotrophic Lateral Sclerosis，简称ALS）是一种进展性神经系统疾病，以肌肉无力、萎缩和进行性麻痹为特征。目前，ALS的诊断主要依赖于临床症状和体征的观察、神经电生理检查和影像学检查。然而，仅依靠临床和神经电生理检查，早期诊断很难实现。

生物学标志物一般在疾病的早期就已经出现改变，找到与肌萎缩侧索硬化症发生发展密切相关的生物学标志物对于疾病的早期诊断和治疗以及对疗效的评估都将产生巨大作用。基因组生物标志物为深入探讨疾病的发病机制及精准诊断和治疗提供了基础。自1993年第一个肌萎缩侧索硬化症致病基因SOD1的发现开始，目前已有30余个相关基因被明确与肌萎缩侧索硬化症的发病机制相关。这些基因代表当前诊断过程中最常见的基因突变，包括FUS、SQSTM1和TARDBP基因。基因检测阳性可加速肌萎缩侧索硬化症诊断进程，患者可尽早开始接受药物治疗。部分基因致病性变异与疾病的特异性表型相关，还可据此对其进行预后评价和遗传咨询。在部分患者中，基因检测也有助于与成人发病的脊髓性肌萎缩、肯尼迪病鉴别。对家族性肌萎缩侧索硬化症家族成员进行特定致病突变的基因检测对确诊和评估风险会有帮助。家族中肌萎缩侧索硬化症的再现风险可以通过确定遗传方式进行评估，肌萎缩侧索硬化症基因检测可为未患病但有风险的家族成员提供风险信息。

目前大多数已发表的肌萎缩侧索硬化症大队列研究都使用了欧洲血统的样本，而肌萎缩侧索硬化症的发病机制、病因、诊断和治疗很大程度上存在差异。中国北京的一项验证性研究利用欧洲人群的现有证据，确定了中国人群的两个易感位点。然而，目前还没有建立起稳定准确的基因筛选和风险评估模型，且缺乏可靠的生物标志物来进行ALS的诊断和鉴别。

综上所述，挖掘可靠的与肌萎缩侧索硬化症相关的生物标志物以及相应诊断方法，对于肌萎缩侧索硬化症治疗领域具有重要意义。

发明内容

针对现有技术的不足和实际需求，本发明提供一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用，为肌萎缩侧索硬化症诊断提供新方法、新思路。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型的方法，所述方法包括以下步骤：

（1）获取肌萎缩侧索硬化症患者及健康对照DNA甲基化检测数据，并进行数据预处理；

（2）执行线性回归和调整的t检验（moderated t-test）进行组间的差异甲基化分析，并执行邦费罗尼（bonferroni）进行多重检验校正，选择P值小于0.05的位点作为差异甲基化位点，通过注释得到对应的差异甲基化基因，获得差异甲基化基因数据集；

（3）将通过预处理的DNA甲基化数据集随机分为训练集和测试集，在训练集上分别执行5倍交叉验证套索算法和极端梯度提升算法，构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型，并获得相应的重要基因列表；

（4）重复步骤（3）n次，n为大于零的整数，通过在测试集中绘制ROC曲线并计算AUC值对构建的模型进行评价，合并每次获得的相应的重要基因列表，根据基因出现频次进行排序，基于二项分布0.05的显著性阈值确定保留出现频率大于0.037的基因（计算公式为：；n为重复次数，p为出现频率）并与步骤（2）中差异甲基化基因进行对照，选取排序前列的基因作为肌萎缩侧索硬化症的生物标志物。

本发明中，基于肌萎缩侧索硬化症患者队列，开发了基于机器学习算法的肌萎缩侧索硬化症风险评估模型。将通过严格质量控制的数据分为训练集和测试集，采用套索算法（Least absolute shrinkage and selection operator，Lasso）和极端梯度提升算法（Extreme gradient boosting，XGBoost）分别建立肌萎缩侧索硬化症风险评估模型，将建立的模型应用于测试集，对模型结果进行比较评估，得出最优的ALS风险评估模型，并识别最重要的差异甲基化基因作为肌萎缩侧索硬化症的DNA甲基化标志物，为肌萎缩侧索硬化症的早期诊断和识别提供依据。

本发明中，基因在模型中出现的频率符合二项分布规律。表示一个估计二项分布标准误差（standard error）的公式，用于测试模型筛选出的基因的可靠性。在这个公式中：n代表重抽样的次数，即模型运行次数。p代表某个基因在n次模型运行中出现的频率。如果计算得到的t值大于相应显著性水平下的t临界值（例如可取1.96，对应于0.05的双尾检验），那么可以拒绝零假设，即估计在给定显著性水平下是显著的，表明估计是可靠的。

优选地，选取序前20的基因作为萎缩侧索硬化症的生物标志物。

优选地，步骤（1）所述数据预处理包括：

（1’）排除一般信息缺失的样本及质量较差的探针位点（如非CpG探针、SNP相关探针、位于X或Y染色体上的探针、映射到基因组多个位置的探针）；

（2’）执行标准化处理，校正由于探针类型带来的技术偏差：在 Illumina beadarrays上，探针有两种不同的设计(称为I型和II型)，具有不同的杂交化学反应，这意味着这两种不同设计的探针将会呈现不同的分布。这是一种技术效应，与I型和II型探针的生物学特性（如CpG密度）的差异引起的变化无关，I型和II型甲基化分布之间最明显的区别是II型分布的动态范围减小，在监督分析中，这可能导致在选择I型而不是II型探针时出现偏差；（3）批次效应校正：消除由于基板芯片、位置和/或板变化等技术因素导致的变异的影响；（4）调整细胞异质性：全血样本提取的DNA，具有高度细胞类型特异性，需要消除由于细胞类型组成变化导致的变异的影响；（5）协变量调整（性别、年龄、地理区域等）。

第二方面，本发明提供一种肌萎缩侧索硬化症的生物标志物筛选及风险评估模型，所述模型由第一方面所述的构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型的方法构建得到。

第三方面，本发明提供一种与肌萎缩侧索硬化症相关的生物标志物，所述生物标志物由第二方面所述的肌萎缩侧索硬化症的生物标志物筛选及风险评估模型筛选得到，所述生物标志物包括以下基因中的任意一种或至少两种的组合：ANKLE2、SSH2、TNFRSF21、CDC42BPB、ADAMTS9、LOC100130581、ARID5A、PTPRN、ELAVL3、CLEC14A、JAG2、GALNT3、USP53、RNLS、MMADHC、KDM5A、SRGAP3和LRBA。

第四方面，本发明提供权利要求3所述的与肌萎缩侧索硬化症相关的生物标志物或检测其甲基化水平的试剂在制备检测肌萎缩侧索硬化症的产品中的应用。

第五方面，本发明提供一种检测肌萎缩侧索硬化症的试剂盒，所述试剂盒包括检测第三方面所述的与肌萎缩侧索硬化症相关的生物标志物的甲基化水平的试剂。

优选地，所述试剂包括用于全基因组甲基化筛选分析的试剂、用于基于芯片的甲基化图谱分析的试剂、用于甲基化特异性PCR分析的试剂、用于飞行质谱检测的试剂、用于亚硫酸盐处理后的基因组测序分析的试剂、用于联合亚硫酸氢盐限制性内切酶分析的试剂、用于甲基化特异性内切酶酶切和定量聚合酶链反应联合分析的试剂、用于甲基化敏感性高分辨率熔解曲线分析的试剂或用于焦磷酸测序法检测分析的试剂。

第六方面，本发明提供一种辅助明确肌萎缩侧索硬化诊断的装置，所述诊断装置包括数据获取单元、计算单元和判断单元。

通过检测患者基因（任意一种或至少两种的基因组合：ANKLE2, SSH2, TNFRSF21,CDC42BPB, ADAMTS9, LOC100130581, ARID5A, PTPRN, ELAVL3, CLEC14A, JAG2,GALNT3, USP53, RNLS, MMADHC, KDM5A, SRGAP3, LRBA）的DNA甲基化水平异常而辅助明确肌萎缩侧索硬化诊断。

所述数据获取单元用于执行包括：

获取受试者的生物样本中第三方面所述的与肌萎缩侧索硬化症相关的生物标志物的甲基化水平数据。

所述计算单元用于执行包括：

基于数据获取单元获取的甲基化水平数据，在全样本人群中拟合logistic模型，获得每个生物标志物的权重，然后通过线性组合计算出受试者患肌萎缩侧索硬化症的风险分数，风险分数计算公式为：

风险分数（risk score）= β₀x₀+ β₁x₁+ β₂x₂+ … + β_ix_i；

x₀, x₁, x₂, … x_i为筛选出的生物标志物，β₀, β₁, β₂, … β_i为logistic模型中拟合的每个生物标志物对应的权重系数。

所述判断单元用于执行包括：

基于计算单元获取的风险分数，风险分数<界值的受试者判定为低风险；风险分组≥界值的受试者判定为高风险；

所述界值的计算方法为通过灵敏度、特异度和约登指数进行评估，确定界值。约登指数反映了模型鉴别真正的患者与非患者的总能力，该值越大说明真实性越大。约登指数最大值也就对应着该方法的最佳诊断临界值。计算公式为：

灵敏度= ；

特异度= ；

约登指数=灵敏度+特异度-1；

TP代表真阳性，即指金标准确诊的患者中被诊断模型判断为患者的人数；FN代表假阴性，即指金标准确诊的患者中被诊断模型判断为非患者的人数；FP代表假阳性，即指金标准确诊的非患者中被诊断模型判断为患者的人数；TN代表真阴性，即指金标准确诊的非患者中被诊断模型判断为非患者的人数。

优选地，所述生物样本包括血液样本。

第七方面，本发明提供第三方面所述的与肌萎缩侧索硬化症相关的生物标志物作为靶点在筛选预防或治疗肌萎缩侧索硬化症的药物中的应用。

优选地，所述筛选包括基于候选药物使用前和使用后对所述与肌萎缩侧索硬化症相关的生物标志物的影响，从而确定候选药物是否可以用于预防或治疗肌萎缩侧索硬化症。

与现有技术相比，本发明具有如下有益效果：

1、通过机器学习方法，能够处理高维的DNA甲基化数据，提高了特征选择和模型训练的效果；

2、开发了基于DNA甲基化水平的肌萎缩侧索硬化症的风险评估模型，并进行了多次重复试验，两个模型的AUC值稳定在0.7以上，具有较高的准确性和稳定性，提高了肌萎缩侧索硬化症的鉴别和诊断的可靠性；

3、在数据预处理及特征选择阶段，均采取了不同的分析策略并进行了多次重复试验，最终在DNA甲基化水平识别出肌萎缩侧索硬化症相关的重要基因列表，保证了结果的稳定可靠性，有助于早期诊断和治疗。

附图说明

图1为Lasso回归模型在测试集中的ROC曲线及重要基因列表图；

图2为XGBoost算法在测试集中的ROC曲线及重要基因列表图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道购买获得的常规产品。

套索算法（Least absolute shrinkage and selection operator，Lasso）是Robert Tibshirani学者提出的一种惩罚类的回归方法，基本思想是从回归中的大量且潜在的多重共线性变量集中进行主动选择，从而产生一组更相关及可解释的预测变量。Lasso回归通过执行连续收缩操作，最小化回归系数以减少过拟合的可能性，该算法允许模型中存在大量协变量，它具有惩罚回归系数绝对值的特性，因此，调节系数可能对整体回归产生影响，惩罚越大，系数收缩越大，强制并产生恰好为0的系数，从而自动去除不必要或无影响的协变量，对于高维数据的处理，拥有非常好的效果。

极端梯度提升算法：极端梯度提升算法（Extreme gradient boosting，XGBoost）是一种高效、可扩展的机器学习算法，由Tianqi Chen学者在2016年推广。Gradientboosting决策树是XGBoost的原始模型，它将多棵决策树以推进的方式组合在一起。XGBoost进行特征选择主要是输入的每个特征后，可相对的得到每个特征的得分，能够用于评价该特征在模型中的重要性。其基本原理就是一个特征在模型构建决策树时用的越多，该特征就相对越重要。此算法可以快速准确地分析和解决许多数据库中需要预测的问题，可用于处理各种生物医学数据类型，包括疾病预测数据和生物电数据。

实施例1

本实施例构建肌萎缩侧索硬化症的DNA甲基化水平的生物标志物筛选及风险评估模型。

1、数据来源：本实施例开发数据来源于北京第三医院神经内科2003~2013年建立的中国ALS队列，包括689例样本（480例ALS患者及209例健康对照）的一般人口学数据及对应的484928个甲基化位点数据。所有受试者的血样采集均由各自医院的临床研究医生使用相同的研究方案进行。使用DNA提取试剂盒（北京艾德莱生物技术有限公司，北京，中国）从全血中提取基因组DNA。使用 Illumina Human Mmethylation 450 BeadChip 评估 DNA 样本的甲基化状态，该芯片可测量超过 480,000 个探针的 DNA 甲基化水平。甲基化水平量化为β值（范围从0到1），代表每个CpG位点的甲基化比率。 β值越高表明甲基化水平越高。

2、数据预处理：（1）排除2个年龄缺失样本及182876质量较差的探针位点（非CpG探针（m=5234）、SNP相关探针(m=175499)、位于X或Y染色体上的探针(m=0)、映射到基因组多个位置的探针(m=2143)）；（2）使用 Beta 混合分位数扩张 (Beta MIxture Quantiledilation，BMIQ) 方法对过滤后的数据执行标准化处理，以进行 I 型和 II 型探针校正；（3）使用经验贝叶斯方法校正批次效应，消除由于基板芯片、位置等技术因素导致的变异的影响；（4）由于使用全血样本提取的DNA，具有高度细胞类型特异性，采用约束多元回归校正细胞比例的影响；（5）使用线性回归对性别、年龄、地理区域等协变量进行调整。

3、差异甲基化分析：通过严格的质量控制，最终纳入分析687例样本（480例ALS患者和207列健康对照）及对应的302052个甲基化位点数据，在每个位点进行线性回归，测试DNA甲基化β值和病例对照状态之间的关联，通过bonferroni调整后P<0.05的显著性检验，共获得2710个差异甲基化位点并注释得到对应的差异甲基化基因。

4、模型构建与评估：首先，经过严格质量控制的数据集随机分为由2/3数据组成的训练集和由剩余1/3数据组成的测试集，按照病例对照分层随机抽样。然后，在训练集上分别执行5倍交叉验证Lasso回归和 XGBoost算法，将构建后的模型应用在测试集中进行验证，绘制ROC曲线并计算AUC 值对模型进行评估，将以上过程重复执行100次，最终在Lasso和XGBoost算法中100次AUC值均达到了0.7以上，确保了模型较高的准确性和稳定性，Lasso回归模型在测试集中的ROC曲线及重要基因列表图如图1所示，XGBoost算法在测试集中的ROC曲线及重要基因列表图如图2所示。

5、确定甲基化生物标志物：在100次模型构建步骤中，每次运行都会获得相应的重要基因列表，对100次的基因合并列表进行整理，根据其出现频次进行排序，结果出现频率最高的基因与步骤3中差异甲基化基因列表top 20基因高度重合，根据二项分布0.05的显著性阈值确定保留出现频率大于0.037的基因；n为100，t为1.96），最终得出27个最重要基因的可重复列表作为ALS的甲基化生物标志物。

6、构建甲基化风险评分：基于确定的27个甲基化生物标志物位点，在全样本中拟合逻辑回归模型，获得每个生物标志物的影响力权重，并通过线性组合计算出受试者患肌萎缩侧索硬化症的风险分数。本实施例中风险分数计算公式为：风险分数=（0.7786×cg26515084）+（0.01924×cg08613384）+（0.37316 ×cg09893424）+（0.29692×cg00743991）+（-0.06702×cg12078092）+（-0.10698 ×cg14650116）+（0.33221×cg16209303）+（-0.2574×cg01248460）+（-0.06883 ×cg10791930）+（0.07661×cg14338936）+（0.136×cg16684117）+（-0.1352 ×cg25118631）+（0.13739×cg00614832）+（0.30906×cg07322293）+（-0.11472 ×cg08021734）+（0.14169×cg15480897）+（0.23473×cg21407839）+（0.10864×cg27277439）+（-0.04001×cg09664186）+（-0.0315×cg14746032）+（0.09598×cg16125874）+（-0.15997×cg25459800）+（0.22259×cg25589651）+（0.19616×cg02978421）+（-0.25523×cg12778476）+（0.1123×cg23533254）+（-0.09704×cg27484483）。根据最大约登指数0.542确定最佳界值为0.880，在该界值下，模型的灵敏度为90.4%，特异度为63.8%，AUC达到0.832，阳性预测值达到0.853。

综上所述，本发明提供了一种通过机器学习方法在DNA甲基化水平上构建肌萎缩侧索硬化症的风险评估模型，并识别出重要的DNA甲基化差异基因作为肌萎缩侧索硬化症的生物标志物的技术方案。该方案具有较高的准确性、稳定性和可靠性，对于肌萎缩侧索硬化症的早期诊断和治疗具有重要的应用价值。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种构建肌萎缩侧索硬化症的生物标志物筛选模型的方法，其特征在于，所述方法包括以下步骤：

（2）对步骤（1）预处理后DNA甲基化检测数据执行线性回归和bonferroni调整后P值<0.05的t检验，进行组间的差异甲基化分析，并执行bonferroni进行多重检验校正，选择P值小于0.05的位点作为差异甲基化位点，通过注释得到对应的差异甲基化基因，获得差异甲基化基因数据集；

（3）将步骤（2）获得的差异甲基化基因数据集随机分为训练集和测试集，在训练集上分别执行5倍交叉验证套索算法和极端梯度提升算法，构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型，并获得相应的重要基因列表；

（4）重复步骤（3）n次，n为大于零的整数，通过在测试集中绘制ROC曲线并计算AUC值对构建的模型进行评价，合并每次获得的相应的重要基因列表，根据基因出现频次进行排序，基于二项分布0.05的显著性阈值确定保留出现频率大于0.037的基因，计算公式为：，n为重复次数，p为出现频率，并与步骤（2）中差异甲基化基因进行对照，选取排序前列的基因作为肌萎缩侧索硬化症的生物标志物。

2.一种肌萎缩侧索硬化症的生物标志物筛选模型，其特征在于，所述模型由权利要求1所述的构建肌萎缩侧索硬化症的生物标志物筛选模型的方法构建得到。

3.一种与肌萎缩侧索硬化症相关的生物标志物，其特征在于，所述生物标志物由权利要求2所述的肌萎缩侧索硬化症的生物标志物筛选模型筛选得到，所述生物标志物包括以下基因中的任意一种或至少两种的组合：ANKLE2、SSH2、TNFRSF21、CDC42BPB、ADAMTS9、LOC100130581、ARID5A、PTPRN、ELAVL3、CLEC14A、JAG2、GALNT3、USP53、RNLS、MMADHC、KDM5A、SRGAP3和LRBA。

4.检测权利要求3所述的与肌萎缩侧索硬化症相关的生物标志物甲基化水平的试剂在制备检测肌萎缩侧索硬化症的产品中的应用。

5.一种检测肌萎缩侧索硬化症的试剂盒，其特征在于，所述试剂盒包括检测权利要求3所述的与肌萎缩侧索硬化症相关的生物标志物的甲基化水平的试剂。

6.根据权利要求5所述的检测肌萎缩侧索硬化症的试剂盒，其特征在于，所述试剂包括用于全基因组甲基化筛选分析的试剂、用于基于芯片的甲基化图谱分析的试剂、用于甲基化特异性PCR分析的试剂、用于飞行质谱检测的试剂、用于亚硫酸盐处理后的基因组测序分析的试剂、用于联合亚硫酸氢盐限制性内切酶分析的试剂、用于甲基化特异性内切酶酶切和定量聚合酶链反应联合分析的试剂、用于甲基化敏感性高分辨率熔解曲线分析的试剂或用于焦磷酸测序法检测分析的试剂。

7.一种辅助明确肌萎缩侧索硬化诊断的装置，其特征在于，所述装置包括数据获取单元、计算单元和判断单元；

所述数据获取单元用于执行包括：

获取受试者的生物样本中权利要求3所述的与肌萎缩侧索硬化症相关的生物标志物的甲基化水平数据；

所述计算单元用于执行包括：

基于数据获取单元获取的甲基化水平数据，在全样本人群中拟合logistic模型，获得每个生物标志物的影响力权重，然后通过线性组合计算出受试者患肌萎缩侧索硬化症的风险分数，风险分数计算公式为：

风险分数= β₀x₀+ β₁x₁+ β₂x₂+ … + β_ix_i；

x₀, x₁, x₂, … x_i为筛选出的生物标志物，β₀, β₁, β₂, … β_i为logistic模型中拟合的每个生物标志物对应的权重系数；

所述判断单元用于执行包括：

基于计算单元获取的风险分数，风险分数<界值的受试者判定为低风险；风险分数≥界值的受试者判定为高风险；

所述界值的计算方法为通过灵敏度、特异度和约登指数进行评估，以确定风险分层的界值，约登指数最大值即为界值，计算公式为：

灵敏度= ；

特异度= ；

约登指数=灵敏度+特异度-1；

8.根据权利要求7所述的装置，其特征在于，所述生物样本包括血液样本。

9.权利要求3所述的与肌萎缩侧索硬化症相关的生物标志物作为靶点在筛选预防或治疗肌萎缩侧索硬化症的药物中的应用。

10.根据权利要求9所述的应用，其特征在于，所述筛选包括基于候选药物使用前和使用后对所述与肌萎缩侧索硬化症相关的生物标志物的影响，从而确定候选药物是否可以用于预防或治肌萎缩侧索硬化症。