CN112710722A - 一种基于机器学习的生物标志物扩维筛选方法 - Google Patents

一种基于机器学习的生物标志物扩维筛选方法 Download PDF

Info

Publication number
CN112710722A
CN112710722A CN201911026970.8A CN201911026970A CN112710722A CN 112710722 A CN112710722 A CN 112710722A CN 201911026970 A CN201911026970 A CN 201911026970A CN 112710722 A CN112710722 A CN 112710722A
Authority
CN
China
Prior art keywords
biomarker
screening
dimension
data set
dimension expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911026970.8A
Other languages
English (en)
Inventor
申华莉
张磊
谢娟娟
杨芃原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201911026970.8A priority Critical patent/CN112710722A/zh
Publication of CN112710722A publication Critical patent/CN112710722A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Hematology (AREA)
  • Theoretical Computer Science (AREA)
  • Biochemistry (AREA)
  • Urology & Nephrology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Food Science & Technology (AREA)
  • Evolutionary Computation (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medicinal Chemistry (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Electrochemistry (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于生物标志物领域,涉及生物标志物扩维筛选方法,具体涉及一种基于扩维算法和机器学习的生物标志物筛选和疾病分类的方法。本发明方法中,首先对生物标志物进行质谱定量数据采集,并进行预处理,获得特征数据集,再利用自动化工具对特征数据集进行扩维计算,引入代表生物标志物表达相关性的新特征,最后利用正交偏最小二乘法判别分析算法对特征进行分类和筛选;扩维筛选后,数据集有更好的分类效果,同时扩维后的特征数据在疾病判别中灵敏度和特异性明显高于单一生物分子(ROC曲线下的面积),利用随机森林算法对疾病进行成功分类,准确率达到0.97。

Description

一种基于机器学习的生物标志物扩维筛选方法
技术领域
本发明属于生物标志物领域,涉及一种基于机器学习的生物标志物扩维筛选方法,具体涉及一种基于扩维算法和机器学习的生物标志物筛选和在用于疾病分类中的用途。
背景技术
随着电子计算机技术和数学算法的快速发展,特别是近年来推陈出新的机器学习,深度学习技术,使得多分类算法的准确度明显提高,在医学领域,利用复杂数学算法,借助图像等数据对疾病进行分子标志物筛选和分型不断取得新进展。与此同时,质谱技术的飞速发展也帮助我们可以检测到更低丰度的潜在分子标志物,利用算法和质谱新技术结合,寻找新型分子标志物,从而对疾病进行精准分型具有远大的前景。
随机森林是机器学习中一种重要的分类算法,即通过集成学习的思想将多棵树集成的一种算法,其基本单元是决策树。随机森林实际上是一种特殊的装袋方法,随机选择训练集,然后训练构造决策树,在节点找特征进行分裂的时候,在特征中随机抽取一部分特征,在抽到的特征中间找到最优解,应用于节点,进行分裂。随机森林对于样本和特征都进行了有放回的随机采样,通过两个随机,来避免过拟合,对于数据预测分类有较高的准确率。
在疾病研究实践中,通常所述的生物标志物是指用生化方法准确检测的生化指标,对生物标志物精确定性定量,可辅助判断机体当前所处的生物学过程中的进程;准确监测某种疾病特异的生物标志物,有助于早期对疾病进行诊断及预防、治疗;而寻找和发现精确的生物标志物一直是生物医学研究的一个重要热点。
蛋白质组概念在1994年提出,近十年来,定量蛋白质组学已经成为蛋白质组学研究的热点;所述定量蛋白质组学便是检测正常与疾病状态下组织全部表达蛋白质在量上的差别。定量蛋白质组学中的蛋白质定量技术也成为发现生物标志物的重要途径。
血清是生物标志物筛选和鉴定的最常见样本来源,具有无创,易获得,能反映多种生理病理状态的特征,蛋白质也是最主要的生物标志物来源。但是血清中蛋白丰度分布极广,高丰度蛋白的存在对中低丰度蛋白的鉴定造成很大困难。另外,血清蛋白丰度受多个组织器官生理病理状态的影响,指示单个疾病时的灵敏度和特异性都会受到影响;因此,每年FDA批准的血清蛋白标志物只有2-3个[1]
随着质谱技术的发展,基于质谱技术的蛋白质绝对定量方法开始大量应用于蛋白质绝对定量分析。针对于目标蛋白质的定量,本领域技术人员发展了一种新型的选择反应检测质谱技术(selected reaction monitoring,SRM; multiple reaction monitoring,MRM)[2];所述新技术是在三重四级杆质谱仪上完成的可大大提高了灵敏度,此方法一般用于后期的精确验证定量,癌症标志物筛选等等。
基于现有技术的基础与现状,本申请的发明人拟提供一种基于机器学习的生物标志物扩维筛选方法,以进一步用于制备疾病分类模型。
与本发明有关的文献有
[1]. Cohen, J.D., et al., Detection and localization of surgicallyresectable cancers with a multi-analyte blood test. Science, 2018. 359(6378):p. 926-930.
[2]. Picotti, P. and R. Aebersold, Selected reaction monitoring-basedproteomics: workflows, potential, pitfalls and future directions. NatMethods, 2012. 9(6): p. 555-66.。
发明内容
本发明的目的是基于现有技术的基础与现状,提供一种基于机器学习的生物标志物扩维筛选方法,具体涉及一种基于扩维算法和机器学习的生物标志物筛选和用于制备疾病分类模型中的用途。
本发明针对现有基于质谱技术的生物标志物筛选方法未考虑分子间相互关系和对于疾病诊断特异性不足的问题,提供一种基于扩维算法和机器学习的生物标志物筛选和疾病分类的方法;所述方法包括步骤:
(1)对潜在生物标志物进行质谱定量数据采集;
(2)对质谱数据进行预处理,获得特征数据(获得潜在生物标志物绝对量);
(3)利用自动化工具对特征数据集进行扩维:对特征数据集进行扩维,加入同时上下调,互为上下调等潜在特征;
(4)利用正交偏最小二乘法判别分析算法对特征进行分类和筛选:
利用正交偏最小二乘法判别分析算法对所述步骤(3)、步骤(2)获得的特征进行分类和筛选,获得生物标志物;
(5)利用随机森林算法对疾病进行分型预测:利用所述步骤(4)筛选出的特征标志物和随机森林模型对三类疾病进行分类。
进一步的,本发明中,针对步骤(3)中的数据扩维算法,如公式(1)、公式(2)所示,对每个潜在生物标志物两两之间同时上下调,互为上下调进行了模拟计算,计算后的值
Figure 100002_DEST_PATH_IMAGE001
作为新的特征加入了原始数据,具体方法包括:利用两两之间相加和相乘或乘方模拟互为上下调;利用两两之间相减和相除模拟同时上下调,处理后获得的新特征作为潜在生物标志物加入到原始数据集,用于进一步筛选。
Figure 879025DEST_PATH_IMAGE002
公式(1)
Figure 100002_DEST_PATH_IMAGE003
公式(2)
进一步的,本发明中,针对步骤(5)中的随机森林分类算法,使用步骤(4)中计算获得的所有生物标志物的质谱检测结果作为特征属性,用于模型建立,需要积累不同疾病类型的质谱数据,对于每种待分类疾病,需要10例以上的质谱定量数据,算法会有放回的随机选取病例和蛋白,进行不同的分类树训练,全部做完后,确定出疾病预测模型。
本发明所述方法中,对每个潜在生物标志物两两之间同时上下调,互为上下调进行了计算,计算后的值作为新的特征加入了原始数据,以两个蛋白表达量结果为P1,P2为例,具体方法如下:
a)如公式1所示,利用两两之间相加、相乘和乘方模拟互为上下调,将新的特征
Figure 327324DEST_PATH_IMAGE004
加入数据集;
b)如公式2所示,利用两两之间相减和相除模拟同时上下调,将新的特征
Figure DEST_PATH_IMAGE005
加入数据集;
Figure 388952DEST_PATH_IMAGE002
公式(1)
Figure 784161DEST_PATH_IMAGE003
公式(2)
处理后获得的新特征作为潜在生物标志物加入到原始数据集,用于进一步筛选。
本发明所述方法,首先对生物标志物进行质谱定量数据采集,并进行预处理,获得特征数据集,再利用自动化工具对特征数据集进行扩维计算,引入代表生物标志物表达相关性的新特征,最后利用正交偏最小二乘法判别分析算法对特征进行分类和筛选;扩维筛选后,数据集有更好的分类效果,同时扩维后的特征数据在疾病判别中灵敏度和特异性都远高于单一生物分子(ROC曲线下的面积),最后,利用随机森林算法对疾病进行成功分类,准确率达到0.97。
本发明所述方法进一步用于制备疾病分类模型中。
本发明所述方法与现有生物标志物筛选和疾病分类的方法相比,具有以下优点:
(1)利用扩维算法,在寻找传统分子标志物的基础上,考虑分子间的表达相关性,寻找到更加准确的关联分子标志物。
(2)利用机器学习的算法和质谱数据,可以对疾病的不同亚型进行准确分类,提高分类准确率。
附图说明
图1为本发明所述方法的步骤图。
图2显示了筛选结果。
图3显示了扩维前后对比效果,其中,
A:扩维前后分子上下调效果,
B:扩维前后两两对比筛选显著特征效果,
C:扩维前后PCA分类效果。
图4显示了对特征数据集进行扩维,加入同时上下调,互为上下调等潜在特征,利用自动化脚本,利用两两之间相加和相乘模拟互为上下调;利用两两之间相减和相除模拟同时上下调后的结果。
具体实施方式
现结合附图对本发明的具体实施方式做进一步详细的说明。
实施例1
如图1所示,本发明提出了一种基于扩维算法和机器学习的生物标志物筛选和疾病分类的方法,其包括步骤:
步骤(1)对潜在生物标志物进行质谱定量数据采集,其中每个样品加入已知浓度重标分子,我们针对性的采集了134个蛋白质的定量质谱数据,涉及40个生物样本,共进行40次蛋白质组学MRM定量实验,最终获得所有质谱文件;
步骤(2)对质谱文件进行预处理,计算获得潜在生物标志物的质谱峰面积,代表各种蛋白质的绝对量;
步骤(3) 如图4所示,对特征数据集进行扩维,加入同时上下调,互为上下调等潜在特征,利用自动化脚本,利用两两之间相加和相乘模拟互为上下调;利用两两之间相减和相除模拟同时上下调,获得扩维后特征17965条;将扩维前后数据合并用于下一步生物标志物筛选;
步骤(4)利用正交偏最小二乘法判别分析算法对特征进行分类和筛选,获得生物标志物;选用Simca软件中的VIP值作为筛选生物标志物的依据,将VIP值大于1的数据作为生物标志物,单个生物标志物计算ROC面积,扩维前后如图3A所示,分子具有了更好的可视化差异性;通过本发明所述扩维算法,如图3B所示扩维后,多组疾病间两两对比可以体现出更多的差异特征,帮助后续模型进一步得出有效结果;如图3C所示,可更好地利用扩维后的特征信息对不同类型的疾病进行分类,PCA分类效果更加明显;
步骤(5)利用步骤(4)筛选出的特征标志物和随机森林模型对三类疾病进行分类,若每个样本的特征维度为M,指定一个常数m<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从所述m个特征中选择最优的子集,利用大量分类树形成随机森林,最终达到准确多分类目的,利用筛选出的蛋白对三类疾病进行分类,准确率可到达百分之97,效果良好。

Claims (3)

1.一种基于机器学习的生物标志物扩维筛选方法,其特征在于,其包括步骤:
(1)对潜在生物标志物进行质谱定量数据采集;
(2)对质谱数据预处理得特征数据,获得潜在生物标志物绝对量;
(3)对特征数据集进行扩维,加入同时上下调,互为上下调等潜在特征;
(4)利用正交偏最小二乘法判别分析算法对获得的特征分类和筛选,获得生物标志物;
(5)利用步骤(4)筛选的特征标志物和随机森林模型对三类疾病进行分类。
2.根据权利要求1所述的基于机器学习的生物标志物扩维筛选方法,其特征在于,该方法中,对每个潜在生物标志物两两之间同时上下调,互为上下调进行计算,计算后的值作为新的特征加入原始数据,以两个蛋白表达量结果为P1,P2为例,其步骤为:
如公式1所示,利用两两之间相加、相乘和乘方模拟互为上下调,将新的特征
Figure DEST_PATH_IMAGE001
加入数据集;
如公式2所示,利用两两之间相减和相除模拟同时上下调,将新的特征
Figure 82311DEST_PATH_IMAGE002
加入数据集;
Figure DEST_PATH_IMAGE003
公式(1)
Figure 8679DEST_PATH_IMAGE004
公式(2)
处理后获得的新特征作为潜在生物标志物加入到原始数据集,进一步筛选。
3.权利要求1所述的基于机器学习的生物标志物扩维筛选方法在用于制备疾病分类模型中的用途。
CN201911026970.8A 2019-10-26 2019-10-26 一种基于机器学习的生物标志物扩维筛选方法 Pending CN112710722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911026970.8A CN112710722A (zh) 2019-10-26 2019-10-26 一种基于机器学习的生物标志物扩维筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911026970.8A CN112710722A (zh) 2019-10-26 2019-10-26 一种基于机器学习的生物标志物扩维筛选方法

Publications (1)

Publication Number Publication Date
CN112710722A true CN112710722A (zh) 2021-04-27

Family

ID=75541043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911026970.8A Pending CN112710722A (zh) 2019-10-26 2019-10-26 一种基于机器学习的生物标志物扩维筛选方法

Country Status (1)

Country Link
CN (1) CN112710722A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103630528A (zh) * 2012-08-27 2014-03-12 深圳出入境检验检疫局食品检验检疫技术中心 一种利用茶叶中元素含量鉴别茶叶产地的方法
CN107075563A (zh) * 2014-09-30 2017-08-18 深圳华大基因科技有限公司 用于冠状动脉疾病的生物标记物
CN109797217A (zh) * 2019-03-27 2019-05-24 河北医科大学第二医院 帕金森生物标志物及其在制备检测产品中的应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103630528A (zh) * 2012-08-27 2014-03-12 深圳出入境检验检疫局食品检验检疫技术中心 一种利用茶叶中元素含量鉴别茶叶产地的方法
CN107075563A (zh) * 2014-09-30 2017-08-18 深圳华大基因科技有限公司 用于冠状动脉疾病的生物标记物
CN109797217A (zh) * 2019-03-27 2019-05-24 河北医科大学第二医院 帕金森生物标志物及其在制备检测产品中的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林燕: "偏最小二乘变量筛选法及其应用研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑(月刊)》 *
聂斌等: "基于粗糙集和随机森林算法辅助糖尿病并发症分类研究", 《江西师范大学学报(自然科学版)》 *

Similar Documents

Publication Publication Date Title
CN110838340B (zh) 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法
Petricoin et al. SELDI-TOF-based serum proteomic pattern diagnostics for early detection of cancer
Zhang et al. Review of peak detection algorithms in liquid-chromatography-mass spectrometry
US6909981B2 (en) Data management system and method for processing signals from sample spots
US11521842B2 (en) Mass spectrometric data analysis device and analysis method
Veenstra et al. Proteomic patterns for early cancer detection
US10319574B2 (en) Categorization data manipulation using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer
CN110890130B (zh) 基于多类型关系的生物网络模块标志物识别方法
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN114577972B (zh) 一种用于体液鉴定的蛋白质标志物筛选方法
CN112798678A (zh) 基于血清的新型冠状病毒感染快速检测方法
KR101311412B1 (ko) 당 동정을 위한 새로운 생물정보처리 분석 방법
Wang et al. A dynamic wavelet-based algorithm for pre-processing tandem mass spectrometry data
CN112710722A (zh) 一种基于机器学习的生物标志物扩维筛选方法
CN105447337B (zh) 一种基于动态网络图分析的时间序列数据处理方法
Meng et al. Feature extraction and analysis of ovarian cancer proteomic mass spectra
Tostengard et al. A review and evaluation of techniques for improved feature detection in mass spectrometry data
Zeng A Machine-Learning-Based Algorithm for Peptide Feature Detection from Protein Mass Spectrometry Data
CN118150830A (zh) 蛋白标志物组合在制备结直肠癌早期诊断产品中的应用
Gao et al. DreamDIA-XMBD: deep representation features improve the analysis of data-independent acquisition proteomics
CN117368388A (zh) 一种基于二级质谱定性结果的代谢组学色谱峰提取方法
Grissa et al. A Hybrid Approach for Mining Metabolomic Data
Hamzaoui et al. Analysis of Mass Spectrometry data: Significance Analysis of Microarrays for SELDI-MS Data in Proteomics
WO2024026114A1 (en) High-throughput proteome mapping
CN116400083A (zh) 一种融合靶向和非靶向的蛋白组学质谱分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210427

RJ01 Rejection of invention patent application after publication