CN116106398A

CN116106398A - 用于诊断ckd的标志物

Info

Publication number: CN116106398A
Application number: CN202210930185.0A
Authority: CN
Inventors: 周宏伟; 郑道文; 李泽文; 曾念宜; 陈慕璇
Original assignee: Southern Medical University Zhujiang Hospital
Current assignee: Southern Medical University Zhujiang Hospital
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2023-05-12

Abstract

本申请涉及一种用于诊断CKD的标志物，所述标志物包含一种或多种选自具有如下质荷比的多肽：M/Z_1212.03，M/Z_1948.19，M/Z_6215.39，M/Z_1594.15，M/Z_2941.82，M/Z_3279.24，M/Z_2265.63，M/Z_1637.03，M/Z_1089.32，M/Z_2427.4，M/Z_1734.95，M/Z_3040.02，M/Z_1267.75，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_2037.78，M/Z_1157.14，M/Z_6233.15，M/Z_1892.39，M/Z_1130.79，M/Z_1900.89，M/Z_1233.81，M/Z_1557.53，M/Z_4744.24，M/Z_2124.48，M/Z_6133.13，M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M/Z_2733.04，M/Z_2999.97，M/Z_3021.7，M/Z_3208.35，M/Z_3286.12，M/Z_3324.23和M/Z_6177.18。

Description

用于诊断CKD的标志物

技术领域

本申请涉及生物医药领域，具体的涉及用于诊断CKD的标志物。

背景技术

基质辅助激光解吸电离飞行时间质谱(matrix-assisted laser desorption/ionization time-of-flight mass spectrometry，简称MALDI-TOF MS)技术，是20世纪80年代末问世并迅速发展起来的一种质谱分析技术。其质量分析器是一个离子漂移管(iondirfttube)，由离子源产生的离子首先被收集，在收集器中所有离子速度变为0，使用一个脉冲电场加速后进入无场漂移管，并以恒定速度飞向离子接收器，离子质量越大，到达接收器所用时间越长；离子质量越小，到达接收器所用时间越短。根据这一原理，可以把不同质量的离子按质荷比大小进行分离，准确检测多肽、蛋白质、核酸、多糖等生物大分子的分子质量和纯度，具有准确性高、灵活性强、通量大、检测周期短、性价比高的优点。

慢性肾脏病是一个日益严重的公共卫生问题，影响了全世界8-16％的人口，并发症包括贫血、认知下降、骨质疏松、心血管疾病、急性肾损伤、肾衰竭等。慢性肾脏病被定义为肾小球超过3个月肾小球滤过率降低兼并或不兼并尿白蛋白排泄增加。我国成年人慢性肾脏病患病率高达10.8(10.2-11.3),患病人数高达1.195亿(1.129-1.250亿)，但知晓率仅为12.5％。

免疫球蛋白(IgA)肾病，由IgA复合物在肾脏沉积，导致肾脏局部自身免疫反应，引起肾组织病变，是一种最常见的原发性肾小球疾病。超过30％的患者在发病10-20年后进展至终末期肾脏病(ESRD)，使得IgA肾病成为引起尿毒症最常见的病因之一。目前IgA肾病诊断金标准为肾穿刺的病理组织活检，然而有创肾穿刺存在几个缺陷：(1)肾穿刺无法进行早期诊断，只能够检测发病的肾损伤已经形成的病人。(2)肾穿刺存在风险，因为许多病人存在肾穿刺相对禁忌症，或者医院不具备肾穿刺病理诊断的条件，而导致病人无法获得明确诊断并进行针对性的治疗。(3)肾穿刺医疗费用高，相当于一次手术，需要住院一个星期。因此临床上亟需开发有助于IgA肾病诊断以及鉴别诊断的无创性生物标志物。

发明内容

目前世界范围内已经尝试开发了不少IgAN风险预测模型，包括日本团队基于两个日本人群队列开发的预测IgAN肾病患者5年进展为ESRD的公式[PMID:24178970]以及中国团队基于全国7个肾病中心建立CLIN模型(基于临床数据)以及CLIN-PATH模型(基于临床数据以及牛津MEST评分)来预测IgAN肾病患者5年进展为ESRD的公式[PMID:29555434]。上述公式都是基于临床指标(尿蛋白、肌酐、肾小球滤过率等)以及患者人口特征(年龄、性别等)建立，而对疾病病理生理标志物方面缺乏关注，造成了许多模型的敏感性和特异性不足，不能完全满足临床及科研实践中的需求。尿液中蕴含着非常丰度的天然内源性多肽片段，这些天然多肽是由于肾脏生理活动中正常酶切形成，可反映肾脏健康生理状态。当肾脏功能受到损伤，相应的酶活动受影响，尿肽的种类以及丰度随之呈现变化。尿肽或可成为最佳的IgAN肾病严重程度以及风险评估指标。

本申请提供了一种利用基质辅助激光解吸电离飞行时间质谱(Matrix-AssistedLaser Desorption/Ionization Time of Flight Mass Spectrometry，MALDI-TOF MS)检测技术，从而经济、快捷简便地检测全谱尿液多肽。并且筛选出了25个CKD相关的多肽生物标志物和45个IgAN相关的多肽生物标志物。并利用筛选出的多肽生物标志物建立机器学习模型来鉴别诊断IgAN肾病以及其他组织类型的肾病。

本申请首次提出了CKD及IgAN疾病特征峰筛选标准，该标准综合考虑了特征峰的效能大小以及相对峰强度，筛选得到一批与疾病密切相关的疾病特征峰，并鉴定得到CKD相关的多肽生物标志物和IgAN相关的多肽生物标志物，通过机器学习模型构建出了CKD及IgAN疾病诊断模型，对临床医师预测患者的患病风险、评估患者肾功能严重程度以及预后情况，实现精准治疗、为各阶段的患者提供量身定做的干预方案提供了有效手段。

一方面，本申请提供一种基于MALDI-ToF MS数据的慢性肾脏病(CKD)诊断模型的构建方法，所述方法包括：

i)使用最小绝对收缩和选择算子Lasso、偏最小二乘判别分析PLS-DA和交叉验证递归消除RFECV三种机器学习方法对CKD人群和健康人群的尿液样本的MALDI-ToF MS数据进行特征峰筛选，将符合三种机器学习方法中任意一种的峰被选为候选特征峰；

其中，在Lasso选择中，随机选取测试数据集的80％样本，重复200次，选取重复出现频率>10％的峰值作为CKD的差异特征峰；在PLS-DA选择中，选取VIP得分排名前30的峰作为CKD的差异特征峰；在RFECV选择中，选取importance得分排名前30的峰作为CKD的差异特征峰；

ii)把i)中同时满足每组frequency>30％且AUC>60％的候选特征峰筛选为特征峰；

iii)利用识别出的差异特征峰，采用机器学习方法建立CKD疾病诊断模型。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰选自具有下列质荷比的峰：M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1108.1，M/Z_2279.32，M/Z_2925.93，M/Z_1563.44，M/Z_2078.53，M/Z_1396.23，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2037.78，M/Z_1752.24，M/Z_6233.15，M/Z_1557.53，M/Z_2124.48，M/Z_1130.79，M/Z_1975.09，M/Z_1283.46，M/Z_1401.5，M/Z_1233.81，M/Z_6194.59，M/Z_1291.05，M/Z_1267.75，M/Z_6133.13，M/Z_1077.66，M/Z_2427.4，M/Z_2412.91，M/Z_2540.75，M/Z_3279.24和M/Z_1734.95中的一种或多种；其中M/Z的计算相对误差(ppm)在0.002以内；

在某些实施方式中，其中所述i)中将符合以下标准中任一种的峰选为候选特征峰：其中，在Lasso选择中，随机选取测试数据集的80％样本，重复200次，选取重复出现频率>20％的峰值作为CKD的差异特征峰；在PLS-DA选择中，选取VIP得分排名前20的峰作为CKD的差异特征峰；在RFECV选择中，选取importance得分排名前20的峰作为CKD的差异特征峰。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰选自具有下列质荷比的峰：M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1108.1，M/Z_2279.32，M/Z_2925.93，M/Z_1563.44，M/Z_2078.53，M/Z_1396.23，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2037.78，M/Z_1752.24，M/Z_6233.15，M/Z_1557.53，M/Z_2124.48，M/Z_1130.79，M/Z_1975.09，M/Z_1283.46和M/Z_2427.4中的一种或多种；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰选自具有下列质荷比的峰：M/Z_1049.48，M/Z_1089.32，M/Z_1130.79，M/Z_1157.14，M/Z_1212.03，M/Z_1250.48，M/Z_1557.53，M/Z_1594.15，M/Z_1637.03，M/Z_1752.24，M/Z_1892.39，M/Z_1900.89，M/Z_1909.6，M/Z_1932.05，M/Z_1948.19，M/Z_2037.78，M/Z_2124.48，M/Z_2265.63，M/Z_2427.4，M/Z_3040.02，M/Z_4744.24，M/Z_6215.39和M/Z_6233.15中的一种或多种；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，其中所述i)中将符合以下标准中任一种的峰选为候选特征峰：其中，在Lasso选择中，随机选取测试数据集的80％样本，重复200次，选取重复出现频率>30％的峰值作为CKD的差异特征峰；在PLS-DA选择中，选取VIP得分排名前10的峰作为CKD的差异特征峰；在RFECV选择中，选取importance得分排名前10的峰作为CKD的差异特征峰。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰选自具有下列质荷比的峰：M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2124.48和M/Z_2427.4中的一种或多种；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，所述采用机器学习方法建立CKD疾病诊断模型包括采用机器学习方法应用5次重复10折交叉验证的建模方式建立疾病诊断模型。

在某些实施方式中，所述机器学习方法包括：支持向量机(SVM)、随机森林(RF)、朴素贝叶斯(NB)、梯度提升(GBM)、K-最近邻(KNN)、条件推断决策树(ctree)和/或自适应增强(Adaboost)。

在某些实施方式中，在对CKD人群和健康人群的尿液样本的MALDI-ToF MS数据进行筛选之前，还包括对CKD人群和健康人群的尿液样本的MALDI-ToF MS数据进行质控处理和标准化处理。

在某些实施方式中，所述质控处理包括：i)质量控制，ii)方差平稳，iii)平滑和基线校正和iv)Intensity校正。

在某些实施方式中，所述质量控制包括测试的所有都包含相同数量的数据点，并且不是NA值。

在某些实施方式中，所述方差平稳包括对原始质谱数据使用平方根变换。

在某些实施方式中，所述平滑和基线校正包括使用21point Savitzky-Golay-Filter方法来平滑谱图，然后用SNIP算法去除基线噪音。

在某些实施方式中，所述为Intensity校正包括：使用总离子电流校准来平衡intensity值。

在某些实施方式中，所述预处理包括：

i)质量控制，所述质量控制包括测试的所有都包含相同数量的数据点，并且不是NA值；

ii)方差平稳，所述方差平稳包括对原始质谱数据使用平方根变换；

iii)平滑和基线校正，所述平滑和基线校正包括使用21point Savitzky-Golay-Filter方法来平滑谱图，然后用SNIP算法去除基线噪音；和

iv)Intensity校正，所述为Intensity校正包括：使用总离子电流校准来平衡intensity值。

在某些实施方式中，所述标准化处理包括：i)峰质量对齐，ii)峰识别和iii)峰合并；

其中，所述峰质量对齐包括识别出现在大多数光谱中的第一个界标峰，通过将局部回归拟合到匹配的参考峰，为每个光谱计算非线性翘曲函数；

所述峰识别包括将峰强度大于噪声值的两倍(signal-to-noise ratio(SNR)≥2)的峰识别为信号峰；

所述峰合并包括在tolerance在0.002ppm范围内的将信号峰合并成一个信号峰。

在某些实施方式中，所述标准化处理还包括移除组内小于25％frequency的假阳性峰。

在某些实施方式中，所述方法包括：

i)对CKD人群和健康人群的尿液样本进行MALDI-ToF MS检测读取，获得两组尿液多肽的指纹图谱；

ii)对CKD人群和健康人群的尿液多肽的指纹图谱进行质控处理和标准化处理；

iii)使用最小绝对收缩和选择算子Lasso、偏最小二乘判别分析PLS-DA和交叉验证递归消除RFECV三种机器学习方法对CKD人群和健康人群的尿液多肽的指纹图谱进行特征峰筛选，将符合三种机器学习方法其中一种的峰被选为候选特征峰；

iii)利用识别出的差异特征峰，使用支持向量机(SVM)、随机森林(RF)、朴素贝叶斯(NB)、梯度提升(GBM)、K-最近邻(KNN)、条件推断决策树(ctree)和自适应增强(Adaboost)共7种机器学习方法建立CKD疾病诊断模型。

在某些实施方式中，还包括利用AUC指标评估疾病诊断模型。

在某些实施方式中，所述利用AUC指标评估疾病诊断模型包括采用独立的CKD人群和健康人群的MALDI-ToF MS数据对疾病诊断模型进行验证。

另一方面，本申请提供一种基于MALDI-ToF MS数据的慢性肾脏病(CKD)诊断模型的构建方法，所述方法包括：

i)对CKD人群和健康人群的尿液样本的MALDI-ToF MS数据进行筛选，得到一种或多种具有下列质荷比的CKD人群和健康人群之间的差异特征峰：M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2124.48和M/Z_2427.4；其中M/Z的计算相对误差(ppm)在0.002以内；

ii)利用识别出的差异特征峰，采用机器学习方法建立CKD疾病诊断模型。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰选自：

M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1108.1，M/Z_2279.32，M/Z_2925.93，M/Z_1563.44，M/Z_2078.53，M/Z_1396.23，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2037.78，M/Z_1752.24，M/Z_6233.15，M/Z_1557.53，M/Z_2124.48，M/Z_1130.79，M/Z_1975.09，M/Z_1283.46和M/Z_2427.4中的一种或多种；其中M/Z的计算相对误差(ppm)在0.002以内。

M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1108.1，M/Z_2279.32，M/Z_2925.93，M/Z_1563.44，M/Z_2078.53，M/Z_1396.23，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2037.78，M/Z_1752.24，M/Z_6233.15，M/Z_1557.53，M/Z_2124.48，M/Z_1130.79，M/Z_1975.09，M/Z_1283.46，M/Z_1401.5，M/Z_1233.81，M/Z_6194.59，M/Z_1291.05，M/Z_1267.75，M/Z_6133.13，M/Z_1077.66，M/Z_2427.4，M/Z_2412.91，M/Z_2540.75，M/Z_3279.24和M/Z_1734.95中的一种或多种；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰包括：M/Z_1948.19，M/Z_1909.6，M/Z_1932.05，M/Z_2427.4和M/Z_1637.03；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰包括：M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2124.48和M/Z_2427.4；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰包括：M/Z_1049.48，M/Z_1089.32，M/Z_1130.79，M/Z_1157.14，M/Z_1212.03，M/Z_1250.48，M/Z_1557.53，M/Z_1594.15，M/Z_1637.03，M/Z_1752.24，M/Z_1892.39，M/Z_1900.89，M/Z_1909.6，M/Z_1932.05，M/Z_1948.19，M/Z_2037.78，M/Z_2124.48，M/Z_2265.63，M/Z_2427.4，M/Z_3040.02，M/Z_4744.24，M/Z_6215.39和M/Z_6233.15；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰包括：M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1108.1，M/Z_2279.32，M/Z_2925.93，M/Z_1563.44，M/Z_2078.53，M/Z_1396.23，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2037.78，M/Z_1752.24，M/Z_6233.15，M/Z_1557.53，M/Z_2124.48，M/Z_1130.79，M/Z_1975.09，M/Z_1283.46和M/Z_2427.4；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，其中所述CKD人群和健康人群之间的差异特征峰包括：M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1108.1，M/Z_2279.32，M/Z_2925.93，M/Z_1563.44，M/Z_2078.53，M/Z_1396.23，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2037.78，M/Z_1752.24，M/Z_6233.15，M/Z_1557.53，M/Z_2124.48，M/Z_1130.79，M/Z_1975.09，M/Z_1283.46，M/Z_1401.5，M/Z_1233.81，M/Z_6194.59，M/Z_1291.05，M/Z_1267.75，M/Z_6133.13，M/Z_1077.66，M/Z_2427.4，M/Z_2412.91，M/Z_2540.75，M/Z_3279.24和M/Z_1734.95；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，所述CKD人群和健康人群之间的差异特征峰的筛选包括：

i)使用最小绝对收缩和选择算子Lasso、偏最小二乘判别分析PLS-DA和交叉验证递归消除RFECV三种机器学习方法对CKD人群和健康人群的尿液样本的MALDI-ToF MS数据进行特征峰筛选，将符合三种机器学习方法其中一种的峰被选为候选特征峰；

在某些实施方式中，其中当特征多肽M/Z_1948.19，M/Z_1909.6，M/Z_1932.05，M/Z_2427.4，M/Z_1637.03的峰上调时，表示该尿液样本为阳性样本，即该患者为CKD患者，10折交叉验证准确率不低于90％。

在某些实施方式中，其中所述CKD包括IgA肾病和Non-IgA肾病。

另一方面。本申请提供一种基于MALDI-ToF MS数据的特征峰在制备CKD的诊断模型的应用，所述CKD诊断模型为机器学习类模型，其中所述特征峰选自具有以下质荷比的峰：M/Z_1049.48，M/Z_1157.14，M/Z_1637.03，M/Z_1948.19，M/Z_4744.24，M/Z_6215.39，M/Z_1089.32，M/Z_2265.63，M/Z_1594.15，M/Z_1900.89，M/Z_3040.02，M/Z_1108.1，M/Z_2279.32，M/Z_2925.93，M/Z_1563.44，M/Z_2078.53，M/Z_1396.23，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_1212.03，M/Z_1892.39，M/Z_2037.78，M/Z_1752.24，M/Z_6233.15，M/Z_1557.53，M/Z_2124.48，M/Z_1130.79，M/Z_1975.09，M/Z_1283.46和M/Z_2427.4中的一种或多种；其中M/Z的计算相对误差(ppm)在0.002以内。

另一方面，本申请提供一种基于MALDI-ToF MS数据的CKD的诊断模型，所述CKD诊断模型为机器学习类模型，所述CKD的诊断模型具有多个CKD的特征峰，所述特征峰选自：M/Z_1049.48，M/Z_1089.32，M/Z_1130.79，M/Z_1157.14，M/Z_1212.03，M/Z_1250.48，M/Z_1557.53，M/Z_1594.15，M/Z_1637.03，M/Z_1752.24，M/Z_1892.39，M/Z_1900.89，M/Z_1909.6，M/Z_1932.05，M/Z_1948.19，M/Z_2037.78，M/Z_2124.48，M/Z_2265.63，M/Z_2427.4，M/Z_3040.02，M/Z_4744.24，M/Z_6215.39和M/Z_6233.15中的一种或多种；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，所述机器学习类模型包括：支持向量机(SVM)、随机森林(RF)、朴素贝叶斯(NB)、梯度提升(GBM)、K-最近邻(KNN)、条件推断决策树(ctree)和/或自适应增强(Adaboost)。

另一方面，本申请提供一种诊断CKD的方法，所述方法包括：i)获得受试者尿液样本的尿液多肽的指纹图谱，ii)选择指纹图谱中的CKD人群和健康人群之间的差异特征峰，将差异特征峰输入本申请所述的CKD的诊断模型，获得患者是否罹患CKD的概率。

在某些实施方式中，所述方法包括利用AUC指标判断受试者是否罹患CKD的概率。

另一方面，本申请提供一种CKD的诊断系统，其包含计算单元，所述计算单元执行本申请所述的CKD的诊断模型。

另一方面，本申请提供一种基于MALDI-ToF MS数据的IgA肾病(IgAN)诊断模型的构建方法，所述方法包括：

i)对IgAN人群和Non-IgAN人群的尿液样本的MALDI-ToF MS数据进行筛选，得到一种或多种具有下列质荷比的差异特征峰：M/Z_1049.48，M/Z_1212.03，M/Z_1948.19，M/Z_6215.39，M/Z_1594.15，M/Z_2941.82，M/Z_3279.24，M/Z_2265.63，M/Z_1637.03，M/Z_1089.32，M/Z_2427.4，M/Z_1734.95，M/Z_3040.02，M/Z_1267.75，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_2037.78，M/Z_1157.14，M/Z_6233.15，M/Z_1892.39，M/Z_1130.79，M/Z_1900.89，M/Z_1233.81，M/Z_1557.53，M/Z_4744.24，M/Z_2124.48，M/Z_6133.13，M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M/Z_2733.04，M/Z_2999.97，M/Z_3021.7，M/Z_3208.35，M/Z_3286.12，M/Z_3324.23和M/Z_6177.18；其中M/Z的计算相对误差(ppm)在0.002以内；

ii)利用识别出的差异特征峰，采用机器学习方法建立IgAN疾病诊断模型。

在某些实施方式中，其中所述Non-IgAN人群包括健康人群和Non-IgA肾病的CKD人群。

另一方面，本申请提供一种鉴别IgAN与Non-IgAN的模型的构建方法，所述方法包括：

i)对IgAN人群和Non-IgAN人群的尿液样本的MALDI-ToF MS数据进行筛选，得到一种或多种具有下列质荷比的CKD人群和健康人群之间的差异特征峰：M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1637.03，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M/Z_2733.04，M/Z_2941.82，M/Z_2999.97，M/Z_3021.7，M/Z_3040.02，M/Z_3208.35，M/Z_3279.24，M/Z_3286.12，M/Z_3324.23，M/Z_6177.18，M/Z_1612.3，M/Z_1714.8，M/Z_1773.68，M/Z_2191.28，M/Z_2863.06；其中M/Z的计算相对误差(ppm)在0.002以内；

ii)利用识别出的差异特征峰，采用机器学习方法建立鉴别IgAN与Non-IgAN的模型。

另一方面，本申请提供一种基于MALDI-ToF MS数据的IgA肾病(IgAN)诊断模型，所述IgAN诊断模型为机器学习类模型，所述IgAN的诊断模型具有多个IgAN的特征峰，所述特征峰选自：M/Z_1049.48，M/Z_1212.03，M/Z_1948.19，M/Z_6215.39，M/Z_1594.15，M/Z_2941.82，M/Z_3279.24，M/Z_2265.63，M/Z_1637.03，M/Z_1089.32，M/Z_2427.4，M/Z_1734.95，M/Z_3040.02，M/Z_1267.75，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_2037.78，M/Z_1157.14，M/Z_6233.15，M/Z_1892.39，M/Z_1130.79，M/Z_1900.89，M/Z_1233.81，M/Z_1557.53，M/Z_4744.24，M/Z_2124.48，M/Z_6133.13，M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M Z_2733.04，M/Z_2999.97，M/Z_3021.7，M/Z_3208.35，M/Z_3286.12，M/Z_3324.23和M/Z_6177.18；其中M/Z的计算相对误差(ppm)在0.002以内。

另一方面，本申请提供一种IgAN的诊断系统，其包含计算单元，所述计算单元执行权本申请所述的IgAN的诊断模型。

另一方面，本申请提供一种IgA肾病的诊断方法，包括：将受试者尿液样本的MALDI-ToF MS的数据输入本申请所述的IgA肾病的诊断模型，获得患者是否罹患IgAN的概率。

在某些实施方式中，所述方法包括利用AUC指标判断受试者是否罹患IgAN的概率。

另一方面，本申请提供一种鉴别IgAN与Non-IgAN的模型，所述鉴别IgAN与Non-IgAN的模型为机器学习类模型，所述鉴别IgAN与Non-IgAN的模型具有多个特征峰，所述特征峰选自：M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1637.03，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M/Z_2733.04，M/Z_2941.82，M/Z_2999.97，M/Z_3021.7，M/Z_3040.02，M/Z_3208.35，M/Z_3279.24，M/Z_3286.12，M/Z_3324.23，M/Z_6177.18，M/Z_1612.3，M/Z_1714.8，M/Z_1773.68，M/Z_2191.28，M/Z_2863.06；其中M/Z的计算相对误差(ppm)在0.002以内。

另一方面，本申请提供一种用于诊断CKD的标志物，所述标志物包含一种多种选自具有如下质荷比的多肽：M/Z_1212.03，M/Z_1948.19，M/Z_6215.39，M/Z_1594.15，M/Z_2941.82，M/Z_3279.24，M/Z_2265.63，M/Z_1637.03，M/Z_1089.32，M/Z_2427.4，M/Z_1734.95，M/Z_3040.02，M/Z_1267.75，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_2037.78，M/Z_1157.14，M/Z_6233.15，M/Z_1892.39，M/Z_1130.79，M/Z_1900.89，M/Z_1233.81，M/Z_1557.53，M/Z_4744.24，M/Z_2124.48，M/Z_6133.13，M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M/Z_2733.04，M/Z_2999.97，M/Z_3021.7，M/Z_3208.35，M/Z_3286.12，M/Z_3324.23和M/Z_6177.18；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，所述标志物包含一种或多种选自具有如下质荷比的多肽：M/Z_1049.48，M/Z_1089.32，M/Z_1108.1，M/Z_1130.79，M/Z_1157.14，M/Z_1212.03，M/Z_1250.48，M/Z_1283.46，M/Z_1396.23，M/Z_1557.53，M/Z_1563.44，M/Z_1594.15，M/Z_1637.03，M/Z_1752.24，M/Z_1892.39，M/Z_1900.89，M/Z_1909.6，M/Z_1932.05，M/Z_1948.19，M/Z_1975.09，M/Z_2037.78，M/Z_2078.53，M/Z_2265.63，M/Z_2279.32，M/Z_2427.4；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，所述标志物包含具有如下质荷比的多肽：M/Z_1948.19，M/Z_1909.6，M/Z_1932.05，M/Z_2427.4和/或M/Z_1637.03；其中M/Z的计算相对误差(ppm)在0.002以内。

在某些实施方式中，其中所述质荷比为M/Z_1049.48的多肽，其具有SEQ ID NO:1所示的氨基酸序列；

所述质荷比为M/Z_1089.32的多肽，其具有SEQ ID NO:2所示的氨基酸序列；

所述质荷比为M/Z_1108.1的多肽，其具有SEQ ID NO:3所示的氨基酸序列；

所述质荷比为M/Z_1130.79的多肽，其具有SEQ ID NO:4所示的氨基酸序列；

所述质荷比为M/Z_1157.14的多肽，其具有SEQ ID NO:5所示的氨基酸序列；

所述质荷比为M/Z_1212.03的多肽，其具有SEQ ID NO:6所示的氨基酸序列；

所述质荷比为M/Z_1250.48的多肽，其具有SEQ ID NO:7所示的氨基酸序列；

所述质荷比为M/Z_1283.46的多肽，其具有SEQ ID NO:8所示的氨基酸序列；

所述质荷比为M/Z_1396.23的多肽，其具有SEQ ID NO:9所示的氨基酸序列；

所述质荷比为M/Z_1557.53的多肽，其具有SEQ ID NO:10所示的氨基酸序列；

所述质荷比为M/Z_1563.44的多肽，其具有SEQ ID NO:11所示的氨基酸序列；

所述质荷比为M/Z_1594.15的多肽，其具有SEQ ID NO:12所示的氨基酸序列；

所述质荷比为M/Z_1637.03的多肽，其具有SEQ ID NO:13所示的氨基酸序列；

所述质荷比为M/Z_1752.24的多肽，其具有SEQ ID NO:14所示的氨基酸序列；

所述质荷比为M/Z_1892.39的多肽，其具有SEQ ID NO:15所示的氨基酸序列；

所述质荷比为M/Z_1900.89的多肽，其具有SEQ ID NO:16所示的氨基酸序列；

所述质荷比为M/Z_1909.6的多肽，其具有SEQ ID NO:16所示的氨基酸序列；

所述质荷比为M/Z_1932.05的多肽，其具有SEQ ID NO:18所示的氨基酸序列；

所述质荷比为M/Z_1948.19的多肽，其具有SEQ ID NO:19所示的氨基酸序列；

所述质荷比为M/Z_1975.09的多肽，其具有SEQ ID NO:20所示的氨基酸序列；

所述质荷比为M/Z_2037.78的多肽，其具有SEQ ID NO:21所示的氨基酸序列；

所述质荷比为M/Z_2078.53的多肽，其具有SEQ ID NO:22所示的氨基酸序列；

所述质荷比为M/Z_2265.63的多肽，其具有SEQ ID NO:23所示的氨基酸序列；

所述质荷比为M/Z_2279.32的多肽，其具有SEQ ID NO:24所示的氨基酸序列；

所述质荷比为M/Z_2427.4的多肽，其具有SEQ ID NO:25所示的氨基酸序列；

在某些实施方式中，所述试剂用于诊断CKD。

另一方面，本申请提供一种用于诊断CKD的系统，其包含检测本申请所述的标志物的试剂或装置。

另一方面，本申请提供一种诊断CKD的方法，包括检测受试者尿液样本中的本申请所述的标志物的存在或含量。

另一方面，本申请提供一种用于诊断IgAN的标志物，所述标志物包含一种多种选自具有如下质荷比的多肽：M/Z_1049.48，M/Z_1212.03，M/Z_1948.19，M/Z_6215.39，M/Z_1594.15，M/Z_2941.82，M/Z_3279.24，M/Z_2265.63，M/Z_1637.03，M/Z_1089.32，M/Z_2427.4，M/Z_1734.95，M/Z_3040.02，M/Z_1267.75，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_2037.78，M/Z_1157.14，M/Z_6233.15，M/Z_1892.39，M/Z_1130.79，M/Z_1900.89，M/Z_1233.81，M/Z_1557.53，M/Z_4744.24，M/Z_2124.48，M/Z_6133.13，M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M/Z_2733.04，M/Z_2999.97，M/Z_3021.7，M/Z_3208.35，M/Z_3286.12，M/Z_3324.23和M/Z_6177.18。

在某些实施方式中，所述标志物包含一种或多种选自具有如下质荷比的多肽：M/Z_1049.48，M/Z_1089.32，M/Z_1130.79，M/Z_1157.14，M/Z_1212.03，M/Z_1233.81，M/Z_1250.48，M/Z_1267.75，M/Z_1394.04，M/Z_1557.53，M/Z_1594.15，M/Z_1608.59，M/Z_1629.53，M/Z_1637.03，M/Z_1686.93，M/Z_1734.95，M/Z_1752.24，M/Z_1803.01，M/Z_1892.39，M/Z_1900.89，M/Z_1909.6，M/Z_1932.05，M/Z_1948.19，M/Z_2037.78，M/Z_2265.63，M/Z_2412.91，M/Z_2427.4，M/Z_2726.14，M/Z_2733.04，M/Z_2941.82，M/Z_3324.23。

所述质荷比为M/Z_1233.81的多肽，其具有SEQ ID NO:26所示的氨基酸序列；

所述质荷比为M/Z_1267.75的多肽，其具有SEQ ID NO:27所示的氨基酸序列；

所述质荷比为M/Z_1394.04的多肽，其具有SEQ ID NO:28所示的氨基酸序列；

所述质荷比为M/Z_1608.5的多肽，其具有SEQ ID NO:29所示的氨基酸序列；

所述质荷比为M/Z_1629.53的多肽，其具有SEQ ID NO:30所示的氨基酸序列；

所述质荷比为M/Z_1686.93的多肽，其具有SEQ ID NO:31所示的氨基酸序列；

所述质荷比为M/Z_1734.95的多肽，其具有SEQ ID NO:32所示的氨基酸序列；

所述质荷比为M/Z_1803.01的多肽，其具有SEQ ID NO:33所示的氨基酸序列；

所述质荷比为M/Z_2412.91的多肽，其具有SEQ ID NO:34所示的氨基酸序列；

所述质荷比为M/Z_2726.14的多肽，其具有SEQ ID NO:35所示的氨基酸序列；

所述质荷比为M/Z_2733.04的多肽，其具有SEQ ID NO:36所示的氨基酸序列；

所述质荷比为M/Z_2941.82的多肽，其具有SEQ ID NO:37所示的氨基酸序列；

所述质荷比为M/Z_3324.23的多肽，其具有SEQ ID NO:38所示的氨基酸序列。

另一方面，本申请还提供了一种所述的标志物在制备试剂中的用途，所述试剂用于诊断IgAN。

另一方面，本申请提供一种用于诊断IgAN的系统，其包含检测本申请所述的标志物的试剂或装置。

另一方面，本申请提供一种诊断IgAN的方法，包括检测受试者尿液样本中的本申请所述的标志物的存在或含量。

本申请提供了一种慢性肾脏病(CKD)和IgAN的诊断标志物。检测的样本是尿液，所需留取尿液不会给患者带来任何损伤和风险，非常安全可靠。检测方法实施简单且无创，可大大扩大适用人群范围，并且检测时无明显禁忌症，可以多次反复检测，适用于所有患者的检测。所筛选的多肽可以作为评估CKD或IgA肾病患者肾脏功能进展的新型生物学标志物。

本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的，本申请的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及发明的精神和范围。相应地，本申请的附图和说明书中的描述仅仅是示例性的，而非为限制性的。

附图说明

本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明书如下：

图1显示的是本申请所述疾病诊断模型的构建方法。

图2显示的是本申请所述疾病特征峰的按照Medium标准的筛选方法。

图3显示的是本申请在CKD诊断模型中采用7种机器学习方法的ROC曲线AUC结果。

图4显示的是本申请在IgAN诊断模型中采用7种机器学习方法的ROC曲线AUC结果。

图5显示的是本申请中31个CKD特征峰在健康对照、eGFR 1-2级、eGFR 3-4级组间的峰强度变化。

图6显示的是本申请中6个CKD特征峰M/Z_1250.48、M/Z_1900.89、M/Z_1909.6、M/Z_1975.09、M/Z_2925.93和M/Z_6215.39在健康对照、eGFR 1-2级和eGFR 3-4级之间特征峰强度分别显著升高/降低。

图7显示的是本申请中45个IgAN特征峰在健康对照、Lee分级1-2级和Lee分级3-4级组间的峰强度变化。

图8显示的是本申请中4个IgAN特征峰M/Z_1752.24、M/Z_1932.05、M/Z_2427.4和M/Z_6215.39在健康对照、Lee分级1-2级和Lee分级3-4级之间特征峰强度分别显著升高/降低。

具体实施方式

以下由特定的具体实施例说明本申请发明的实施方式，熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。

LASSO全称Least absolute shrinkage and selection operator，是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型，使得它压缩一些回归系数，即强制系数绝对值之和小于某个固定值；同时设定一些回归系数为零。因此保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。

偏最小二乘法判别分析(PLS-DA)是一种用于判别分析的多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值，来判断研究对象如何分类的常用统计分析方法。其原理是对不同处理样本(如观测样本、对照样本)的特性分别进行训练，产生训练集，并检验训练集的可信度。

RFECV指通过交叉验证来找到最优的特征数量。其中RFE(Recursive featureelimination)指递归特征消除，用来对特征进行重要性评级。CV(Cross Validation)指交叉验证，即在特征评级后，通过交叉验证，选择最佳数量的特征。

机器学习方法可以包括回归法、分类法或其组合。术语“机器学习”一般地表示在未明确编程的情况下，给予计算机学习能力的算法，包括从数据学习并对数据做出预测的算法。本文所公开的实施方式所使用的机器学习算法可以包括(但不限于)随机森林(“RF”)、最小绝对收缩和选择算子(“LASSO”)逻辑回归、正则化逻辑回归、XGBoost、决策树学习、人工神经网络(“ANN”)、深度神经网络(“DNN”)、支持向量机、基于规则的机器学习等。如线性回归或逻辑回归的算法可以用作机器学习过程的一部分。然而，将理解，作为机器学习过程一部分的线性回归或另一种算法的使用不同于统计分析的实施，如使用电子表格程序的回归。

十折交叉验证，英文名叫做10-fold cross-validation，用来测试算法准确性。是常用的测试方法。将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证(例如10次10折交叉验证)，再求其均值，作为对算法准确性的估计。应当指出的是，十折交叉验证准确率与实际检测的准确率(或敏感性)存在相关性但并非等同。在本发明评价测试算法的效果的过程中，效果符合置信区间的十折交叉验证准确率，如果随着特征多肽的数量而呈现相关性变化，并达到临床诊断可行的数值，则表明由这些多肽所构建的质谱模型符合临床诊断的要求。

除非另有说明，当本申请提及质谱或以图形形式出现的数据(例如MALDI-TOF MS)时，术语“峰”是指本领域的普通技术人员可识别的非背景噪音造成的峰或其它特殊特征。

正如本领域技术人员所熟知的，对任何指定的分子(如多肽)而言，获得质谱图时所用装置(如离子源的类型，离子束的空间和时间特性)、湿度、温度的取向以及其它参数均可能引起质谱图中峰的外观、强度和位置的一些变异性。在目前的情况中，±0.002ppm峰位的变异性考虑到了这些可能的变化，而不会妨碍所示分子的明确鉴定。分子的鉴别可以基于任意独特的差别峰或其组合，典型地是更显著的峰。根据本申请所用仪器状况，特征峰位置可存在±0.002ppm的误差容限。

不欲被任何理论所限，下文中的实施例仅仅是为了阐释本申请的方法和用途等，而不用于限制本申请发明的范围。

实施例

实施例1

1.1尿液样本前处理

对照组：收集健康受试者(48人)中段尿10ml于采集管中，3000rmp/min离心10min后取上清。摇匀后放4℃备用。(健康对照筛选条件：年龄、性别匹配，eGFR正常、微量白蛋白正常)

实验组：收集已病理活检确诊的慢性肾病(194人)中段尿10ml于采集管中，3000rmp/min离心10min后取上清。摇匀后放4℃备用。

1.2MALDI-TOF检测尿液

1)溶液配制：尿液上清2ul+18ulCHCA(浓度：10mg/ml)基质液。

2)点样：将上述溶液混匀后立马点2ul于洁净的靶板孔上。靶板放置40℃加热板上，使得点样后溶质均匀蒸干在靶板上。

3)样本检测：

仪器：青岛融智生物公司新一代Quantof(MALDI-TOF)

检测M/Z范围：1000-10,000Da

标准品：757.40Da，1045.00Da，2465.20Da，3494.65Da和5734.50Da。

1.3质谱数据处理

1)数据经过校准品校正后，导出原始数据，格式为M/ZML文件。

2)软件：采用R软件(版本：v.4.0.3),R包“MALDIquantForeign”(版本：0.12)以及“MALDIquant”(版本：1.19.3)处理原始质谱数据。处理流程如下：

①数据读入：使用“MALDIquantForeign”R包的importM/ZMl函数读入M/ZML原始数据。

②质量控制：我们测试是否读入的所有光谱(spectra)都包含相同数量的数据点，并且不是NA值。

③方差平稳：我们使用平方根变换来简化图形的可视化，并克服方差与均值之间的潜在依赖性。

④平滑和基线校正：接着使用21point Savitzky-Golay-Filter^[1]方法来平滑谱图。接着用SNIP算法^[2]来去除基线噪音。(Ryan et al.,1988)to correct baseline)

⑤Intensity校正：为了更好的比较和克服(非常)小的批效应，我们使用总离子电流校准(TIC,Total-Ion-Current-Calibration)来平衡intensity值。

⑥峰质量对齐：为了比较不同光谱(spectrum)中的峰，必须进行对齐。为了匹配属于相同质量的峰，我们使用基于统计回归的方法结合He et al(2011)^[3]和Wang et al(2010)^[4]的算法。具体而言，识别出现在大多数光谱(spectrum)中的第一个界标峰。随后，通过将局部回归拟合到匹配的参考峰，为每个光谱计算非线性翘曲函数。

⑥峰识别：我们选择一个较低的SNR＝2(signal-to-noise ratio)来尽可能保留识别到的信号峰。当SNR也就是信号的intensity大于噪声值的两倍，这个信号就会被识别为一个峰。

⑦峰合并：对齐后，峰值位置(质量)非常相似，但并不完全相同。需要装箱(bin)来使相似的峰值质量值相同。也就是mass值非常接近但有细微差别，符合tolerance在0.002ppm范围内，我们会把这些峰合并成一个mass。例如，1000m/z峰，tolerance设置为0.002ppm，则代表998-1002m/z峰均为1000m/z。

⑧峰表(feature matrix):接着会移除组内小于25％frequency的假阳性峰，减少识别峰的假阳性。我们得到峰表，每一列代表样本，每一行代表识别到的峰mass，数值为峰的相对intensity。缺失的值(未检测到的峰)是从相应的光谱(spectrum)中插值的。接着会移除组内小于25％frequency的假阳性峰，减少识别峰的假阳性。

如图1所示，将每组样本(健康人群和CKD人群)以2：1的比例随机分到训练集和验证集，训练集的样本用于特征峰的识别。识别出特征峰之后，用特征峰进行建模，应用5次重复10折交叉验证的建模方式(7种机器学习方法)建立模型，并用AUC指标评估模型效果。同时将模型外推到独立的验证集用于验证模型的区分效能，并与临床常见指标的区分效能做比较。

1.4特征峰识别

1)使用最小绝对收缩和选择算子Lasso(least absolute shrinkage andselection operator)、偏最小二乘判别分析PLS-DA(Partial least squaresDiscriminant Analysis)和交叉验证递归消除RFECV(recursive feature eliminationwith cross-validation)三种机器学习方法对测试集(160个样本：32个健康对照，128个慢性肾病患者)中的尿液多肽谱进行特征峰筛选。分别按照Strict标准，Medium标准(图2所示)和Loose标准筛选候选特征峰。

	Lasso选择	PLS-DA选择	RFECV选择
				Strict	重复出现频率>30％	VIP得分排名前10	importance得分排名前10
Medium	重复出现频率>20％	VIP得分排名前20	importance得分排名前20
				Loose	重复出现频率>10％	VIP得分排名前30	importance得分排名前30

2)把1)中同时满足组间频率frequency>30％且AUC>60％的候选特征峰筛选为特征峰。

如表1-1所示，按照Loose标准，共筛选出42个峰作为慢性肾病和健康对照组之间的差异特征峰。

表1-1

如表1-2所示，按照Strict标准，共筛选出18个峰作为慢性肾病和健康对照组之间的差异特征峰。

表1-2

peak	AUC-allparticipants	freq_CKD	freq_control
				MZ_1049.48	83.88101375	0.25257732	0.645833333
MZ_4744.24	80.6056701	0.365979381	0.833333333
				MZ_1089.32	77.64175258	0.319587629	0.625
MZ_2265.63	61.50128866	0.989690722	1
				MZ_1594.15	83.3225945	0.242268041	0.5625
MZ_3040.02	68.55670103	0.458762887	0.1875
				MZ_1900.89	83.18298969	0.391752577	0.520833333
MZ_1892.39	82.79639175	0.819587629	0.979166667
				MZ_1948.19	94.02920962	0.778350515	1
MZ_2427.4	90.89347079	0.530927835	0
				MZ_1909.6	92.85867698	0.716494845	1
MZ_1932.05	91.65592784	0.845360825	1
				MZ_6215.39	87.14561856	0.525773196	0.958333333
MZ_1637.03	90.51761168	0.634020619	1
				MZ_1157.14	83.70919244	0.396907216	0.708333333
MZ_2124.48	84.09579038	0.484536082	1
				MZ_1250.48	87.95103093	0.159793814	0.666666667
MZ_1212.03	87.18857388	0.340206186	0.6875

如表1-3所示，按照Medium标准，共筛选出31个峰作为慢性肾病和健康对照组之间的差异特征峰。

表1-3慢性肾病和健康对照组之间的差异特征峰

如表2-表3所示，共筛选出28个峰作为IgAN肾病和健康对照间的差异峰，26个峰作为IgAN肾病和Non-IgAN肾病之间的差异峰。

表2IgAN肾病和健康对照间的差异峰

peak	AUC	freq_control	freq_IgAN
				M/Z_1049.48	86.8140244	0.645833	0.182927
M/Z_1212.03	87.5	0.6875	0.317073
				M/Z_1948.19	92.6067073	1	0.804878
M/Z_6215.39	85.4166667	0.958333	0.634146
				M/Z_1594.15	83.0538618	0.5625	0.195122
M/Z_2941.82	66.8953252	0.520833	0.658537
				M/Z_3279.24	72.8658537	0.354167	0.439024
M/Z_2265.63	66.3871951	1	1
				M/Z_1637.03	86.7378049	1	0.719512
M/Z_1089.32	79.2936992	0.625	0.243902
				M/Z_2427.4	88.5670732	0	0.402439
M/Z_1734.95	64.9644309	0.979167	0.902439
				M/Z_3040.02	73.2977642	0.1875	0.536585
M/Z_1267.75	80.4115854	0.791667	0.158537
				M/Z_1909.6	89.5071138	1	0.817073
M/Z_1932.05	90.1422764	1	0.853659
				M/Z_1250.48	86.9410569	0.666667	0.158537
M/Z_2037.78	84.578252	0.895833	0.243902
				M/Z_1157.14	80.4878049	0.708333	0.341463
M/Z_6233.15	83.2825203	0.708333	0.243902
				M/Z_1892.39	80.6148374	0.979167	0.853659
M/Z_1130.79	78.125	0.416667	0.158537
				M/Z_1900.89	80.2337398	0.520833	0.378049
M/Z_1233.81	79.0396341	0.645833	0.170732
				M/Z_1557.53	82.3424797	0.979167	0.804878
M/Z_4744.24	78.0487805	0.833333	0.47561
				M/Z_2124.48	81.8089431	1	0.47561
M/Z_6133.13	76.7276423	0.729167	0.256098

表3IgAN肾病和Non-IgAN肾病之间的差异峰

peak	AUC	freq_IgAN	freq_otherCKD
				M/Z_1394.04	64.73214	0.45122	0.196429
M/Z_1608.59	71.19447	0.682927	0.267857
				M/Z_1629.53	66.94251	0.804878	0.651786
M/Z_1637.03	61.94469	0.719512	0.571429
				M/Z_1686.93	63.56707	0.780488	0.741071
M/Z_1752.24	67.82448	0.597561	0.321429
				M/Z_1803.01	68.85889	0.609756	0.482143
M/Z_2412.91	65.17857	0.439024	0.651786
				M/Z_2585.93	60.8885	0.365854	0.3125
M/Z_2601.72	64.92814	0.695122	0.544643
				M/Z_2726.14	68.73911	0.341463	0.241071
M/Z_2733.04	67.84625	0.45122	0.401786
				M/Z_2941.82	60.02831	0.658537	0.517857
M/Z_2999.97	62.48911	0.512195	0.321429
				M/Z_3021.7	64.18772	0.609756	0.419643
M/Z_3040.02	61.71603	0.536585	0.401786
				M/Z_3208.35	70.08929	0.646341	0.419643
M/Z_3279.24	65.70122	0.439024	0.348214
				M/Z_3286.12	68.11847	0.329268	0.1875
M/Z_3324.23	67.18206	0.560976	0.366071
				M/Z_6177.18	64.88458	0.95122	0.857143
M/Z_1612.3	66.33275	0.182927	0.25
				M/Z_1714.8	55.80357	0.329268	0.321429
M/Z_1773.68	59.97387	0.317073	0.455357
				M/Z_2191.28	57.78528	0.829268	0.875
M/Z_2863.06	59.76699	0.52439	0.491071

将表2与表3中的差异峰合并起来定义为IgAN相关的差异峰(表4)，共有45个符合筛选条件。在IgAN模型中纳入了IgAN肾病和健康对照间的差异峰，因此IgAN模型除能区分开IgAN与Non-IgAN外，还能将健康人与IgAN人区分开。后续还可以根据合并后的45个峰来做IgAN的严重程度分级。

表4IgAN相关的差异峰

1.5建立多种诊断模型

使用支持svm，nb，ctree，rf，gbm，adaboost和knn共7种机器学习方法，分别以慢性肾病相关特征峰、IgAN相关45个特征峰构建用于慢性肾病筛查诊断的分类模型以及IgAN肾病鉴别诊断模型。并绘制了已构建的不同机器学习模型的ROC曲线，使用曲线下面积(AUC)评估分类器的性能。

如表5所示，采用不同标准纳入的分析峰，在不同机器学习方法构建的CKD诊断模型中，均具有良好的疾病评价潜力，表明在此范围内所纳入的特征峰是合理的。

表5

如图3所示，在采用Medium纳入峰标准时，慢性肾病模型中所有机器学习方法的AUC均高于90％。用验证集(82个样本:12个健康对照，66个慢性肾病)对7种模型进行验证，除ctree外其他模型的AUC均高于97％。

如图4所示，IgAN鉴别诊断模型中svm、nb、gbm模型AUC接近80％，验证队列中svm模型AUC 81.39％，gbm模型AUC 85.06％。

1.5.1已构建模型用于检测新样本

先把待测样本根据实施例1中的方法进行MALDI-TOF检测尿液多肽组，将谱图进行质谱数据处理，得到新样本的峰表信息。新样本生成的峰表得到的mass值可能与建立模型所用的mass值(表2或表4)有细微差异，我们根据tolerance＝0.002ppm来匹配两者mass。然后将新样本上述31个CKD相关峰、45个IgAN相关峰挑选出给建立好的分类模型进行判断，得到分类的概率。根据建立好的模型最佳cutoff值来判断新样本归属于哪一类，进而评价受试者罹患CKD或IgAN的风险。

实施例2

2.1慢性肾病和健康对照组之间的差异特征峰鉴定

进一步用LC-MS/MS对31个作为慢性肾病和健康对照组之间的差异特征峰进行注释，结果如表6所示，31个特征峰中有25个被鉴定为蛋白质片段(区分健康对照以及CKD患者)。

表6CKD相关的差异峰的蛋白质片段鉴定结果

其中AUC表示这个峰用于鉴定CKD Vs Control，MH+是指采用传统二级质谱鉴定结果。

图5-6显示了31个挑选的CKD特征峰在control、eGFR 1-2级、eGFR 3-4级组间的峰强度存在显著变化，能够作为区分CKD人群和健康人群的特征峰。

2.2IgAN和Non-IgAN之间的差异特征峰鉴定

进一步用LC-MS/MS对45个作为IgAN相关的差异峰(区分IgAN以及Non-IgAN)进行注释，结果如表7所示，45个特征峰中有31个()被鉴定为蛋白质片段。

表7IgAN相关的差异峰的蛋白质片段鉴定结果

其中AUC between control-IgA表示这个峰用于鉴定IgA患者Vs Control，AUCbetween IgAN-other CKD表示这个峰用于鉴定IgA肾病患者Vs CKD患者，MH+是指采用传统二级质谱鉴定结果。

图7-8显示了45个挑选的IgAN特征峰在control、Lee分级1-2、Lee分级3-4组间的峰强度存在显著变化，能够作为区分IgAN和Non-IgAN人群的特征峰。

【参考文献】

[1]Savitzky,A.and Golay,M.J.E.(1964).Smoothing and difffferentiationof data by simplifified least squares procedures.Analytical Chemistry,36(8):1627–1639.

[2]Ryan,C.,Clayton,E.,Griffiffiffin,W.,Sie,S.,and Cousens,D.(1988).Snip,a statistics-sensitive background treatment for the quantitativeanalysis of pixe spectra in geoscience applications.Nuclear Instruments andMethods in Physics Research Section B:Beam Interactions with Materials andAtoms,34(3):396–402.

[3]He QP,et al.Self-calibrated warping for mass spectra alignment,Cancer Inform.,2011,vol.10(pg.65-82).

[4]Wang B,et al.DISCO:distance and spectrum correlation optimizationalignment for two-dimensional gas chromatography time-of-flight massspectrometry-based metabolomics,Anal.Chem.,2010,vol.82(pg.5069-5081)。

Claims

1.用于诊断CKD的标志物，所述标志物包含一种或多种选自具有如下质荷比的多肽：M/Z_1212.03，M/Z_1948.19，M/Z_6215.39，M/Z_1594.15，M/Z_2941.82，M/Z_3279.24，M/Z_2265.63，M/Z_1637.03，M/Z_1089.32，M/Z_2427.4，M/Z_1734.95，M/Z_3040.02，M/Z_1267.75，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_2037.78，M/Z_1157.14，M/Z_6233.15，M/Z_1892.39，M/Z_1130.79，M/Z_1900.89，M/Z_1233.81，M/Z_1557.53，M/Z_4744.24，M/Z_2124.48，M/Z_6133.13，M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M/Z_2733.04，M/Z_2999.97，M/Z_3021.7，M/Z_3208.35，M/Z_3286.12，M/Z_3324.23和M/Z_6177.18；其中M/Z的计算相对误差(ppm)在0.002以内。

2.根据权利要求1所述的标志物，所述标志物包含一种或多种选自具有如下质荷比的多肽：M/Z_1049.48，M/Z_1089.32，M/Z_1108.1，M/Z_1130.79，M/Z_1157.14，M/Z_1212.03，M/Z_1250.48，M/Z_1283.46，M/Z_1396.23，M/Z_1557.53，M/Z_1563.44，M/Z_1594.15，M/Z_1637.03，M/Z_1752.24，M/Z_1892.39，M/Z_1900.89，M/Z_1909.6，M/Z_1932.05，M/Z_1948.19，M/Z_1975.09，M/Z_2037.78，M/Z_2078.53，M/Z_2265.63，M/Z_2279.32，M/Z_2427.4；其中M/Z的计算相对误差(ppm)在0.002以内。

3.根据权利要求1-2中任一项所述的标志物，所述标志物包含具有如下质荷比的多肽：

M/Z_1948.19，M/Z_1909.6，M/Z_1932.05，M/Z_2427.4和/或M/Z_1637.03；其中M/Z的计算相对误差(ppm)在0.002以内。

4.根据权利要求1-3中任一项所述的标志物，其中所述质荷比为M/Z_1049.48的多肽，其具有SEQ ID NO:1所示的氨基酸序列；

所述质荷比为M/Z_2427.4的多肽，其具有SEQ ID NO:25所示的氨基酸序列；其中M/Z的计算相对误差(ppm)在0.002以内。

5.权利要求1-4中任一项所述的标志物在制备试剂中的用途，所述试剂用于诊断CKD。

6.一种用于诊断CKD的系统，其包含检测权利要求1-4中任一项所述的标志物的试剂或装置。

7.用于诊断IgAN的标志物，所述标志物包含一种或多种选自具有如下质荷比的多肽：M/Z_1049.48，M/Z_1212.03，M/Z_1948.19，M/Z_6215.39，M/Z_1594.15，M/Z_2941.82，M/Z_3279.24，M/Z_2265.63，M/Z_1637.03，M/Z_1089.32，M/Z_2427.4，M/Z_1734.95，M/Z_3040.02，M/Z_1267.75，M/Z_1909.6，M/Z_1932.05，M/Z_1250.48，M/Z_2037.78，M/Z_1157.14，M/Z_6233.15，M/Z_1892.39，M/Z_1130.79，M/Z_1900.89，M/Z_1233.81，M/Z_1557.53，M/Z_4744.24，M/Z_2124.48，M/Z_6133.13，M/Z_1394.04，M/Z_1608.59，M/Z_1629.53，M/Z_1686.93，M/Z_1752.24，M/Z_1803.01，M/Z_2412.91，M/Z_2585.93，M/Z_2601.72，M/Z_2726.14，M/Z_2733.04，M/Z_2999.97，M/Z_3021.7，M/Z_3208.35，M/Z_3286.12，M/Z_3324.23和M/Z_6177.18；其中M/Z的计算相对误差(ppm)在0.002以内。

8.根据权利要求7所述的标志物，所述标志物包含一种或多种选自具有如下质荷比的多肽：M/Z_1049.48，M/Z_1089.32，M/Z_1130.79，M/Z_1157.14，M/Z_1212.03，M/Z_1233.81，M/Z_1250.48，M/Z_1267.75，M/Z_1394.04，M/Z_1557.53，M/Z_1594.15，M/Z_1608.59，M/Z_1629.53，M/Z_1637.03，M/Z_1686.93，M/Z_1734.95，M/Z_1752.24，M/Z_1803.01，M/Z_1892.39，M/Z_1900.89，M/Z_1909.6，M/Z_1932.05，M/Z_1948.19，M/Z_2037.78，M/Z_2265.63，M/Z_2412.91，M/Z_2427.4，M/Z_2726.14，M/Z_2733.04，M/Z_2941.82，M/Z_3324.23；其中M/Z的计算相对误差(ppm)在0.002以内。

9.根据权利要求7-8中任一项所述的标志物，其中所述质荷比为M/Z_1049.48的多肽，其具有SEQ ID NO:1所示的氨基酸序列；

所述质荷比为M/Z_3324.23的多肽，其具有SEQ ID NO:38所示的氨基酸序列；其中M/Z的计算相对误差(ppm)在0.002以内。

10.权利要求7-9中任一项所述的标志物在制备试剂中的用途，所述试剂用于诊断IgAN。

11.一种用于诊断IgAN的系统，其包含检测权利要求7-9中任一项所述的标志物的试剂或装置。