CN112710722A

CN112710722A - 一种基于机器学习的生物标志物扩维筛选方法

Info

Publication number: CN112710722A
Application number: CN201911026970.8A
Authority: CN
Inventors: 申华莉; 张磊; 谢娟娟; 杨芃原
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-10-26
Filing date: 2019-10-26
Publication date: 2021-04-27

Abstract

本发明属于生物标志物领域，涉及生物标志物扩维筛选方法，具体涉及一种基于扩维算法和机器学习的生物标志物筛选和疾病分类的方法。本发明方法中，首先对生物标志物进行质谱定量数据采集，并进行预处理，获得特征数据集，再利用自动化工具对特征数据集进行扩维计算，引入代表生物标志物表达相关性的新特征，最后利用正交偏最小二乘法判别分析算法对特征进行分类和筛选；扩维筛选后，数据集有更好的分类效果，同时扩维后的特征数据在疾病判别中灵敏度和特异性明显高于单一生物分子（ROC曲线下的面积），利用随机森林算法对疾病进行成功分类，准确率达到0.97。

Description

一种基于机器学习的生物标志物扩维筛选方法

技术领域

本发明属于生物标志物领域，涉及一种基于机器学习的生物标志物扩维筛选方法，具体涉及一种基于扩维算法和机器学习的生物标志物筛选和在用于疾病分类中的用途。

背景技术

随着电子计算机技术和数学算法的快速发展，特别是近年来推陈出新的机器学习，深度学习技术，使得多分类算法的准确度明显提高，在医学领域，利用复杂数学算法，借助图像等数据对疾病进行分子标志物筛选和分型不断取得新进展。与此同时，质谱技术的飞速发展也帮助我们可以检测到更低丰度的潜在分子标志物，利用算法和质谱新技术结合，寻找新型分子标志物，从而对疾病进行精准分型具有远大的前景。

随机森林是机器学习中一种重要的分类算法，即通过集成学习的思想将多棵树集成的一种算法，其基本单元是决策树。随机森林实际上是一种特殊的装袋方法，随机选择训练集，然后训练构造决策树，在节点找特征进行分裂的时候，在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行分裂。随机森林对于样本和特征都进行了有放回的随机采样，通过两个随机，来避免过拟合，对于数据预测分类有较高的准确率。

在疾病研究实践中，通常所述的生物标志物是指用生化方法准确检测的生化指标，对生物标志物精确定性定量，可辅助判断机体当前所处的生物学过程中的进程；准确监测某种疾病特异的生物标志物，有助于早期对疾病进行诊断及预防、治疗；而寻找和发现精确的生物标志物一直是生物医学研究的一个重要热点。

蛋白质组概念在1994年提出，近十年来，定量蛋白质组学已经成为蛋白质组学研究的热点；所述定量蛋白质组学便是检测正常与疾病状态下组织全部表达蛋白质在量上的差别。定量蛋白质组学中的蛋白质定量技术也成为发现生物标志物的重要途径。

血清是生物标志物筛选和鉴定的最常见样本来源，具有无创，易获得，能反映多种生理病理状态的特征，蛋白质也是最主要的生物标志物来源。但是血清中蛋白丰度分布极广，高丰度蛋白的存在对中低丰度蛋白的鉴定造成很大困难。另外，血清蛋白丰度受多个组织器官生理病理状态的影响，指示单个疾病时的灵敏度和特异性都会受到影响；因此，每年FDA批准的血清蛋白标志物只有2-3个^[1]。

随着质谱技术的发展，基于质谱技术的蛋白质绝对定量方法开始大量应用于蛋白质绝对定量分析。针对于目标蛋白质的定量，本领域技术人员发展了一种新型的选择反应检测质谱技术(selected reaction monitoring，SRM； multiple reaction monitoring，MRM)^[2]；所述新技术是在三重四级杆质谱仪上完成的可大大提高了灵敏度，此方法一般用于后期的精确验证定量，癌症标志物筛选等等。

基于现有技术的基础与现状，本申请的发明人拟提供一种基于机器学习的生物标志物扩维筛选方法，以进一步用于制备疾病分类模型。

与本发明有关的文献有

[1]. Cohen, J.D., et al., Detection and localization of surgicallyresectable cancers with a multi-analyte blood test. Science, 2018. 359(6378):p. 926-930.

[2]. Picotti, P. and R. Aebersold, Selected reaction monitoring-basedproteomics: workflows, potential, pitfalls and future directions. NatMethods, 2012. 9(6): p. 555-66.。

发明内容

本发明的目的是基于现有技术的基础与现状，提供一种基于机器学习的生物标志物扩维筛选方法，具体涉及一种基于扩维算法和机器学习的生物标志物筛选和用于制备疾病分类模型中的用途。

本发明针对现有基于质谱技术的生物标志物筛选方法未考虑分子间相互关系和对于疾病诊断特异性不足的问题，提供一种基于扩维算法和机器学习的生物标志物筛选和疾病分类的方法；所述方法包括步骤：

（1）对潜在生物标志物进行质谱定量数据采集；

（2）对质谱数据进行预处理，获得特征数据（获得潜在生物标志物绝对量）；

（3）利用自动化工具对特征数据集进行扩维：对特征数据集进行扩维，加入同时上下调，互为上下调等潜在特征；

（4）利用正交偏最小二乘法判别分析算法对特征进行分类和筛选：

利用正交偏最小二乘法判别分析算法对所述步骤（3）、步骤（2）获得的特征进行分类和筛选，获得生物标志物；

（5）利用随机森林算法对疾病进行分型预测：利用所述步骤（4）筛选出的特征标志物和随机森林模型对三类疾病进行分类。

进一步的，本发明中，针对步骤（3）中的数据扩维算法，如公式（1）、公式（2）所示，对每个潜在生物标志物两两之间同时上下调，互为上下调进行了模拟计算，计算后的值

作为新的特征加入了原始数据，具体方法包括：利用两两之间相加和相乘或乘方模拟互为上下调；利用两两之间相减和相除模拟同时上下调，处理后获得的新特征作为潜在生物标志物加入到原始数据集，用于进一步筛选。

公式（1）

公式（2）

进一步的，本发明中，针对步骤（5）中的随机森林分类算法，使用步骤（4）中计算获得的所有生物标志物的质谱检测结果作为特征属性，用于模型建立，需要积累不同疾病类型的质谱数据，对于每种待分类疾病，需要10例以上的质谱定量数据，算法会有放回的随机选取病例和蛋白，进行不同的分类树训练，全部做完后，确定出疾病预测模型。

本发明所述方法中，对每个潜在生物标志物两两之间同时上下调，互为上下调进行了计算，计算后的值作为新的特征加入了原始数据，以两个蛋白表达量结果为P1，P2为例，具体方法如下：

a）如公式1所示，利用两两之间相加、相乘和乘方模拟互为上下调，将新的特征

加入数据集；

b）如公式2所示，利用两两之间相减和相除模拟同时上下调，将新的特征

加入数据集；

公式（1）

公式（2）

处理后获得的新特征作为潜在生物标志物加入到原始数据集，用于进一步筛选。

本发明所述方法，首先对生物标志物进行质谱定量数据采集，并进行预处理，获得特征数据集，再利用自动化工具对特征数据集进行扩维计算，引入代表生物标志物表达相关性的新特征，最后利用正交偏最小二乘法判别分析算法对特征进行分类和筛选；扩维筛选后，数据集有更好的分类效果，同时扩维后的特征数据在疾病判别中灵敏度和特异性都远高于单一生物分子（ROC曲线下的面积），最后，利用随机森林算法对疾病进行成功分类，准确率达到0.97。

本发明所述方法进一步用于制备疾病分类模型中。

本发明所述方法与现有生物标志物筛选和疾病分类的方法相比，具有以下优点：

（1）利用扩维算法，在寻找传统分子标志物的基础上，考虑分子间的表达相关性，寻找到更加准确的关联分子标志物。

（2）利用机器学习的算法和质谱数据，可以对疾病的不同亚型进行准确分类，提高分类准确率。

附图说明

图1为本发明所述方法的步骤图。

图2显示了筛选结果。

图3显示了扩维前后对比效果，其中，

A:扩维前后分子上下调效果，

B:扩维前后两两对比筛选显著特征效果，

C:扩维前后PCA分类效果。

图4显示了对特征数据集进行扩维，加入同时上下调，互为上下调等潜在特征，利用自动化脚本，利用两两之间相加和相乘模拟互为上下调；利用两两之间相减和相除模拟同时上下调后的结果。

具体实施方式

现结合附图对本发明的具体实施方式做进一步详细的说明。

实施例1

如图1所示，本发明提出了一种基于扩维算法和机器学习的生物标志物筛选和疾病分类的方法，其包括步骤：

步骤（1）对潜在生物标志物进行质谱定量数据采集，其中每个样品加入已知浓度重标分子，我们针对性的采集了134个蛋白质的定量质谱数据，涉及40个生物样本，共进行40次蛋白质组学MRM定量实验，最终获得所有质谱文件；

步骤（2）对质谱文件进行预处理，计算获得潜在生物标志物的质谱峰面积，代表各种蛋白质的绝对量；

步骤（3）如图4所示，对特征数据集进行扩维，加入同时上下调，互为上下调等潜在特征，利用自动化脚本，利用两两之间相加和相乘模拟互为上下调；利用两两之间相减和相除模拟同时上下调，获得扩维后特征17965条；将扩维前后数据合并用于下一步生物标志物筛选；

步骤（4）利用正交偏最小二乘法判别分析算法对特征进行分类和筛选，获得生物标志物；选用Simca软件中的VIP值作为筛选生物标志物的依据，将VIP值大于1的数据作为生物标志物，单个生物标志物计算ROC面积，扩维前后如图3A所示，分子具有了更好的可视化差异性；通过本发明所述扩维算法，如图3B所示扩维后，多组疾病间两两对比可以体现出更多的差异特征，帮助后续模型进一步得出有效结果；如图3C所示，可更好地利用扩维后的特征信息对不同类型的疾病进行分类，PCA分类效果更加明显；

步骤（5）利用步骤（4）筛选出的特征标志物和随机森林模型对三类疾病进行分类，若每个样本的特征维度为M，指定一个常数m<M，随机地从M个特征中选取m个特征子集，每次树进行分裂时，从所述m个特征中选择最优的子集，利用大量分类树形成随机森林，最终达到准确多分类目的，利用筛选出的蛋白对三类疾病进行分类，准确率可到达百分之97，效果良好。