CN111781292A - 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 - Google Patents
一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 Download PDFInfo
- Publication number
- CN111781292A CN111781292A CN202010681733.1A CN202010681733A CN111781292A CN 111781292 A CN111781292 A CN 111781292A CN 202010681733 A CN202010681733 A CN 202010681733A CN 111781292 A CN111781292 A CN 111781292A
- Authority
- CN
- China
- Prior art keywords
- data
- proteomics
- learning model
- deep learning
- spectrogram data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000002700 urine Anatomy 0.000 title claims abstract description 68
- 238000013136 deep learning model Methods 0.000 title claims abstract description 43
- 238000007405 data analysis Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000001294 liquid chromatography-tandem mass spectrometry Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 201000010099 disease Diseases 0.000 claims abstract description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 17
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 12
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 12
- 238000003745 diagnosis Methods 0.000 claims abstract description 7
- 238000010276 construction Methods 0.000 claims abstract description 4
- 239000000523 sample Substances 0.000 claims description 42
- 238000003062 neural network model Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 239000013610 patient sample Substances 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 208000023504 respiratory system disease Diseases 0.000 claims description 2
- 241001678559 COVID-19 virus Species 0.000 claims 2
- 230000002159 abnormal effect Effects 0.000 claims 1
- 108010026552 Proteome Proteins 0.000 abstract description 7
- 230000005856 abnormality Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 5
- 241000711573 Coronaviridae Species 0.000 description 8
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 206010035664 Pneumonia Diseases 0.000 description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 208000015181 infectious disease Diseases 0.000 description 3
- 229910052760 oxygen Inorganic materials 0.000 description 3
- 239000001301 oxygen Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 2
- 238000000738 capillary electrophoresis-mass spectrometry Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000004949 mass spectrometry Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 206010025102 Lung infiltration Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- QZUDBNBUXVUHMW-UHFFFAOYSA-N clozapine Chemical compound C1CN(C)CCN1C1=NC2=CC(Cl)=CC=C2NC2=CC=CC=C12 QZUDBNBUXVUHMW-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001731 electrophoresis-mass spectrometry Methods 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 230000024924 glomerular filtration Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004811 liquid chromatography Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920002401 polyacrylamide Polymers 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000009103 reabsorption Effects 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000005239 tubule Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N30/8644—Data segmentation, e.g. time windows
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N30/8631—Peaks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8696—Details of Software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/88—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
- G01N2030/8809—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample
- G01N2030/8813—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials
- G01N2030/8831—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials involving peptides or proteins
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统,所述系统包括以下三个部分:第一部分:一致性处理部分,在该部分将样本的蛋白质组学谱图数据进行一致性处理,得到标准化后的峰度矩阵;第二部分:深度学习模型构建部分;第三部分:深度学习模型的训练和预测部分。该分析系统通过“特征刈痕提取”方法对尿液蛋白质组的原始谱图数据进行一致性处理,有效提高了不同样本的谱图数据之间的可比性,克服了本领域的技术难题。该分析系统能够对尿液蛋白质组的LC‑MS/MS谱图数据进行解析和识别,从而高准确度的预测该尿液样本的来源是健康人还是疾病患者。该分析系统在开发与尿蛋白异常相关疾病的辅助诊断工具中具有广阔的应用前景。
Description
技术领域
本发明涉及蛋白质组学分析领域,特别是涉及一种基于深度学习模型的尿液蛋白质组学谱图数据分析系。
背景技术
尿液是血液经肾小球滤过,经肾小管和集合管重吸收、排泻及分泌产生的终末代谢产物,其组成与性状可反映整个机体的状况,是临床最常用的检测样本之一。尿液中蛋白质种类和数量的变化携带有某种疾病发生、发展及预后的信息,可作为研究尿液生物标志物的理想来源,也可以在一定程度上反映血液和整个机体的状态。此外,与血液样本相比,尿液样本具有获取无创、可大量获取、不受稳态调节、可以容纳并积累更多变化的特点。因此,尿液蛋白质组学作为诠释尿液蛋白所携带信息的最有效方法,获得了广泛的关注。
目前,常用于尿液蛋白质组学分离鉴定的方法主要有二维聚丙烯酰胺凝胶电泳-质谱联用(2D PAGE-MS)、液相色谱-质谱联用(LC-MS)、蛋白质芯片-质谱联用(PC-Ms)和毛细管电泳-质谱联用(CE-MS)等。其中,液相色谱-串联质谱技术(简称LC-MS/MS)作为一种联用技术,结合了液相色谱的高效分离能力和质谱采集的待检测分子的精确分子量及强度信息。该技术具有灵敏度高、选择性强的优势,可以获得丰富的蛋白质定性和定量信息,同时方便建立快速、高效的蛋白质组检测体系,因而在尿液蛋白质组学分析领域具有显著的优势。
但是,由于不同个体的尿液样品中蛋白质丰度跨度宽、个体差异性大,导致不同个体的尿液蛋白质组学分析缺乏可比性,极大的限制了尿液蛋白质组学分析方法在尿液生物标志物的检测及相关疾病的辅助诊断中的应用。
发明内容
针对上述问题,本发明的目的在于提供一种能够对尿液蛋白质组的谱图数据解析和识别,从而高准确度预测该尿液样本对应的对象是健康人还是某种疾病患者的分析系统,以及该分析系统在开发尿液蛋白质异常的相关疾病的辅助诊断工具中的用途。
本发明提供了一种基于深度学习模型的蛋白质组学谱图数据分析系统,所述系统包括以下三个部分:
第一部分:一致性处理部分,在该部分将样本的蛋白质组学谱图数据进行一致性处理,得到标准化后的峰度矩阵;一致性处理的方法包括以下步骤:
(a)将样本的蛋白质组学谱图数据编号,依次记为1,2,……,n-1,n;n为大于1的整数;然后根据样本的来源,分别对蛋白质组学谱图数据进行分类标记,将来源于健康人和患者样本的蛋白质组学谱图数据区分开;
(b)将步骤(a)中的每个蛋白质组学谱图数据按照横坐标均分成x份,记为x个窗口,将每个窗口中的所有峰值数据叠加,记为峰值数据之和,得到具有x个窗口、且每个窗口只有一个峰值数据之和的峰度矩阵;其中,x为大于等于1的整数;
(c)在步骤(b)所得的峰度矩阵中,将每个蛋白质组学谱图数据中每个窗口的峰值数据之和除以该谱图数据中最大的峰值,记为标准化后的峰值数据之和,得到标准化后的峰度矩阵;
第二部分:深度学习模型构建部分;
第三部分:深度学习模型的训练和预测部分。
进一步地,步骤(a)中,所述样本为尿液样本,优选为人的尿液样本;
和/或,所述蛋白质组学谱图数据为蛋白质组学液相色谱-质谱联用技术检测数据,所述液相色谱-质谱联用技术检测数据优选为原始液相色谱-串联质谱技术检测数据,更优选为一级原始液相色谱-串联质谱技术检测数据;
和/或,一个样本的蛋白质组学谱图数据为一个或多个。
进一步地,步骤(a)中,所述分类标记的方法为:将来源于健康人的尿液样本的蛋白质组学谱图数据标记为q,将来源于患者的尿液样本的蛋白质组学谱图数据标记为p,q与p不同;
优选的,所述来源于患者的尿液样本的蛋白质组学谱图数据中,将来源于轻度患者的尿液样本的蛋白质组学谱图数据标记为p1,和/或,将来源于中度患者的尿液样本的蛋白质组学谱图数据标记为p2,和/或,将来源于重度患者的尿液样本的蛋白质组学谱图数据标记为p3,p1、p2、p3、p互不相同。
进一步地,步骤(b)中,所述横坐标为质荷比;x为大于等于100的整数,优选为大于等于700小于等于800的整数;
和/或,步骤(b)中,所述峰度矩阵的计算公式如式(1)所示:
其中,IM为峰度矩阵;i为蛋白质组学谱图数据的序号,1≤i≤n;j为窗口的序号,1≤j≤x;k为第i个蛋白质组学谱图数据、第j个窗口中峰的序号,为第i个蛋白质组学谱图数据、第j个窗口的所有峰值数据之和;
和/或,步骤(c)中,所述标准化后的峰度矩阵的计算公式如式(2)所示:
NIM=IM/(max(I1,1…j),…,max(Ii,1…j)) (2)
其中,NIM为标准化后的峰度矩阵,max(Ii,1…j)为序号为i的蛋白质组学谱图数据中最大的峰值,IM表示步骤(b)计算得到的峰度矩阵。
进一步地,第二部分中,所述深度学习模型为深度神经网络模型,优选的,所述深度神经网络模型是基于Keras框架搭建的,更优选的,所述深度神经网络模型内嵌了一个初级的深度神经网络模型。
进一步地,所述初级的深度神经网络模型包括以下组成部分:输入层、隐藏层和输出层;优选的,所述隐藏层为3层,第一层有128个节点、第二层有64个节点、第三层有32个节点;更优选的,所述隐藏层中激活函数为线性整流函数ReLU,输出层激活函数为归一化指数函数SoftMax。
进一步地,第三部分中,所述深度学习模型的训练和预测的方法包括以下步骤:将第一部分得到的标准化的峰度矩阵分为训练集和测试集,先利用训练集中的标准化后的峰度矩阵对第二部分构建的深度学习模型进行训练,再利用训练后的深度学习模型对测试集中的标准化后的峰度矩阵进行预测,预测测试集对应的样本的来源。
进一步地,所述训练集中的数据个数为n1,测试集中的数据个数为n-n1,n-n1为大于等于1且小于n的整数,优选为1。
本发明还提供的上述基于深度学习模型的蛋白质组学谱图数据分析系统在制备疾病辅助诊断工具中的用途。
进一步地,所述疾病为与尿蛋白质异常相关的疾病,优选为受新型冠状病毒SARS-CoV-2感染的疾病,更优选为受新型冠状病毒SARS-CoV-2感染的呼吸道疾病。
本发明中,原始液相色谱-质谱联用技术检测数据是指未经处理的液相色谱-质谱联用技术检测的谱图数据,一级原始液相色谱-串联质谱技术检测数据是指连续采集的液相色谱-质谱联用技术检测的一级谱图数据。
本发明的分析系统中构建的深度学习模型,可以根据用户的需求进行搭建。
本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统通过“特征刈痕提取”方法对尿液蛋白质组的原始谱图数据进行一致性处理,有效提高了不同样本的谱图数据之间的可比性,克服了本领域的技术难题。
实验证明,利用本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统能够对尿液蛋白质组的原始LC-MS/MS谱图数据进行解析和识别,从而高准确度的预测该尿液样本对应的对象是健康人还是某种疾病的患者。本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统在开发尿蛋白异常相关疾病的辅助诊断工具中具有广阔的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1是本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统的运行流程框架示意图。
图2是利用“特征刈痕提取”的方法对原始LC-MS/MS谱图数据进行一致性处理的流程图。
图3是本发明中深度神经网络模型的训练和预测示意图。
具体实施方式
本发明所用原料与设备均为已知产品,通过购买市售产品所得。
实施例1基于深度学习模型的尿液蛋白质组学谱图数据分析系统
本发明所要研究的对象是基于液相色谱-串联质谱技术(简称LC-MS/MS)获得的蛋白质组学原始谱图数据,生物样本为人的尿液。
本发明的分析系统分为三个组成部分(如图1所示),具体如下:
第一部分:一致性处理部分,在该部分对原始LC-MS/MS谱图数据进行一致性处理,得到标准化的峰度矩阵
通过液相色谱-串联质谱仪得到原始谱图数据,因为每一个谱图数据内包含的峰的个数和强度都不一样,所以此类数据不适用于本发明的深度学习模型进行解析,必须要对原始谱图数据进行一致性处理。本发明开发了一种叫做“特征刈痕提取”(Feature SwathExtraction)的方法对原始LC-MS/MS谱图数据进行一致性处理,算法图解如图2所示,具体处理步骤如下:
(a)提取出n个一级原始谱图数据,顺序编号,一级原始谱图的序号依次记为1,2,3,……,n-1,n。然后根据样本的类别对每一个一级原始谱图进行标签标记,比如,若该一级原始谱图数据来源于健康人的样本,则标签标记为“0”,若该一级原始谱图数据来源于轻度患者的样本,则标签标记为“1”,若该一级原始谱图数据来源于重度患者的样本,则标签标记为“2”。
(b)预先设置“刈痕”的数量,这里的一个刈痕指的是一级原始谱图数据中一小段质荷比的范围,也可以称为一个窗口。然后根据设置的刈痕数量自动算出每个窗口的范围,比如在采集的一级原始谱图数据中,一级的质荷比范围为[300,1400],预先设置刈痕的数量为400,即每一个谱图数据都分为400个窗口,那么本发明的系统会自动根据这个设置计算得到每个窗口的范围(即[300,302.75],[302.75,305.5],……,[1397.25,1400])。每一个窗口的范围计算好以后,本发明的系统会将每一个窗口的谱图数据按照以下公式(1)进行叠加,这样就能保证每一个窗口中只有一个数值:
其中IM是指Intensity Matrix,即峰度矩阵,i表示谱图数据的序号,j表示窗口的序号,k表示第i个谱图数据、第j个窗口中峰的序号,表示第i个谱图数据(即序号为i的谱图数据)、第j个窗口中的所有的峰值之和。
(c)峰值标准化。经过步骤(b)的叠加后,每一个谱图数据的异质性仍然较大,即每个谱图数据之间还没有一个统一的尺度,因此可比性较低。本发明的系统利用公式(2)先将每一个谱图数据中每一个窗口的峰值之和分别除以该谱图数据中的最大峰值,然后得到标准化后的峰度矩阵(NIM),这样就能使数据之间更具可比性。
NIM=IM/(max(I1,1…j),…,max(Ii,1…j)) (2)
其中NIM表示Normalized Intensity Matrix,即标准化后的峰度矩阵,max(Ii,1…j)表示序号为i的谱图数据中最大的峰值,IM表示步骤(b)计算得到的峰度矩阵。
第二部分:深度学习模型构建部分
本发明使用的深度学习模型是深度神经网络模型,其基于Keras框架搭建,其内嵌了一个初级的深度神经网络模型(由以下部分组成:输入层、3个隐藏层(其中第一层128个节点、第二层64个节点、第三层32个节点)、输出层),隐藏层中激活函数为线性整流函数ReLU,输出层激活函数为归一化指数函数SoftMax。
第三部分:模型的训练和预测部分
将第一部分进行一致性处理后的数据分为训练集和测试集(训练和测试样本均为独立样本,相互不交叉),先用训练集数据对第二部分构建的深度神经网络模型进行训练,最后再用训练后的深度神经网络模型对测试集数据对应尿液样本的类别进行预测,并检查深度神经网络模型预测结果的准确度。
为了验证本发明上述分析系统的预测准确性,使用“留一法”的策略对深度神经网络模型的预测能力进行评估(过程如图3所示)。具体操作如下:收集人的尿液样本的n个蛋白质组学原始LC-MS/MS数据,其中来源于健康人的数据标签标记为“0”,来源于轻度患者的数据标签标记为“1”,来源于重度患者的数据标签标记为“2”。然后在每一次循环中,将n-1个经过第一部分的一致性处理后的数据作为训练集,对第二部分构建的深度神经网络模型进行训练,剩下的1个经过第一部分的一致性处理后的数据作为测试集数据。模型训练好以后对该测试集数据进行预测,如此循环n次,就可以得到每一个数据的预测结果,将该预测结果与最初的数据标签标记进行对比,就可以统计出预测结果的总正确率。
以下进一步说明如何预测每一个数据对应的样本的类别。如图3B所示,在每一次迭代过程中,比如要预测第K个数据对应的样本的类别,则需要先将其他n-1个蛋白质组学原始LC-MS/MS数据标准化后的峰度矩阵和对应的类别标签(健康人的为“0”,轻度患者的为“1”,重度患者的为“2”)输入给第二部分预先构建好的深度神经网络模型,该模型可以根据每一类别的数据特征进行训练,得到训练好的模型。接下来,将第K个数据标准化后的峰度矩阵输入到上述训练好的模型,该模型就可以对第K个数据中的每一个谱图数据的类别进行预测,那么,每一个谱图数据都可以得到3个概率值:类别为“0”的概率值,类别为“1”的概率值,类别为“2”的概率值。然后系统会自动将3个概率值中的最大值对应的类别标签作为该谱图数据类别的预测结果。预测完以后,将预测的类别与原始的类别标签进行比较,预测正确的画红勾,预测错误的画红叉,然后统计类别预测正确的谱图数据个数占总谱图数据个数的比例,如果该比例在3个类别结果中最大,则表示对第K个数据对应的样本类别预测正确,否则表示预测错误。
采用上述相同的方法,对其余n-1个数据对应的样本的类别进行循环预测,最后统计预测正确的样本个数占所有样本个数的比例,并将该比例作为评价参数,评价本发明分析系统的预测准确度。比如,若该比例大于等于0.8,则认为本发明的方法预测效果良好,如果该比例小于0.8,则认为本发明的方法预测效果不佳。
以下通过实验例证明本发明的有益效果。
实验例1本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统的预测效果评估
采用本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统,对4个健康人的尿液样本、6个受新型冠状病毒(SARS-CoV-2)感染的病人(其中3个轻度感染、3个重度感染)尿液样本、2个康复病人的尿液样本(康复病人来源于上述6个受新型冠状病毒感染的病人中的2个)的一级原始LC-MS/MS谱图数据的类别进行预测(测试数据来源于公共数据库IProX,数据ID:IPX0002166000),结果如表1所示。
表1本发明基于深度学习模型的尿液蛋白质组学原始谱图数据分析系统的效果评估
表1中,原始标签标记和预测类别中,“0”表是健康人,“1”表示受新型冠状病毒感染的轻度患者,“2”表示受新型冠状病毒感染的重度患者,11号样本由5号病人康复后得到,12号样本由10号病人康复后得到。其中轻度和重度的诊断标准是依据中国人民解放军总医院第五医疗中心印发的《新型冠状病毒肺炎的诊断与管理方案(试行第六版)》,比如轻度感染患者主要表现为发热、非肺炎或轻度肺炎,而重度患者主要表现为呼吸困难,呼吸频率≥30次/分钟,平均氧饱和度(≤93%,静息状态)或动脉血氧分压/氧浓度(PaO2/FiO2≤300mmHg),和/或24-48小时内肺浸润>50%。
预测正确率1是指预测健康人和不同程度的患者(轻度患者和重度患者视为两类)之间的准确度,预测正确率2是指预测健康人和患者(轻度健康和重度健康被统一视为一类)之间的准确度。
从表1可以看出,采用本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统,可以对人尿液蛋白质原始LC-MS/MS谱图数据进行高准确度的预测。以1-1~10-2样本的数据作为原始LC-MS/MS谱图数据库,健康人和患者之间的预测准确度为100%,健康人及不同程度的患者之间预测准确度为85%。进一步地,以1-1~10-2样本的数据作为训练数据,以11-1~12-2样本的数据作为测试数据,发现患者康复以后,本发明的分析系统也可以对其进行准确的预测(预测准确度为100%),从而准确的识别该尿液样本对应的对象是健康人还是尚处于感染期的新型冠状病毒感染患者。
综上,本发明提供了一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统。该分析系统利用“特征刈痕提取”方法对尿液蛋白质组的原始谱图数据进行一致性处理,有效提高了不同样本的谱图数据之间的可比性,克服了本领域的技术难题。实验证明,本发明的分析系统能够对尿液蛋白质组的LC-MS/MS谱图数据进行解析和识别,从而高准确度的预测该尿液样本的来源是健康人还是疾病患者。该分析系统在开发与尿蛋白异常相关疾病的辅助诊断工具中具有广阔的应用前景。
Claims (10)
1.一种基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:所述系统包括以下三个部分:
第一部分:一致性处理部分,在该部分将样本的蛋白质组学谱图数据进行一致性处理,得到标准化后的峰度矩阵;一致性处理的方法包括以下步骤:
(a)将样本的蛋白质组学谱图数据编号,依次记为1,2,……,n-1,n;n为大于1的整数;然后根据样本的来源,分别对蛋白质组学谱图数据进行分类标记,将来源于健康人和患者样本的蛋白质组学谱图数据区分开;
(b)将步骤(a)中的每个蛋白质组学谱图数据按照横坐标均分成x份,记为x个窗口,将每个窗口中的所有峰值数据叠加,记为峰值数据之和,得到具有x个窗口、且每个窗口只有一个峰值数据之和的峰度矩阵;其中,x为大于等于1的整数;
(c)在步骤(b)所得的峰度矩阵中,将每个蛋白质组学谱图数据中每个窗口的峰值数据之和除以该谱图数据中最大的峰值,记为标准化后的峰值数据之和,得到标准化后的峰度矩阵;
第二部分:深度学习模型构建部分;
第三部分:深度学习模型的训练和预测部分。
2.根据权利要求1所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:步骤(a)中,所述样本为尿液样本,优选为人的尿液样本;
和/或,所述蛋白质组学谱图数据为蛋白质组学液相色谱-质谱联用技术检测数据,所述液相色谱-质谱联用技术检测数据优选为原始液相色谱-串联质谱技术检测数据,更优选为一级原始液相色谱-串联质谱技术检测数据;
和/或,一个样本的蛋白质组学谱图数据为一个或多个。
3.根据权利要求2所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:步骤(a)中,所述分类标记的方法为:将来源于健康人的尿液样本的蛋白质组学谱图数据标记为q,将来源于患者的尿液样本的蛋白质组学谱图数据标记为p,q与p不同;
优选的,所述来源于患者的尿液样本的蛋白质组学谱图数据中,将来源于轻度患者的尿液样本的蛋白质组学谱图数据标记为p1,和/或,将来源于中度患者的尿液样本的蛋白质组学谱图数据标记为p2,和/或,将来源于重度患者的尿液样本的蛋白质组学谱图数据标记为p3,p1、p2、p3、p互不相同。
4.根据权利要求1~3任一项所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:步骤(b)中,所述横坐标为质荷比;x为大于等于100的整数,优选为大于等于700小于等于800的整数;
和/或,步骤(b)中,所述峰度矩阵的计算公式如式(1)所示:
其中,IM为峰度矩阵;i为蛋白质组学谱图数据的序号,1≤i≤n;j为窗口的序号,1≤j≤x;k为第i个蛋白质组学谱图数据、第j个窗口中峰的序号,为第i个蛋白质组学谱图数据、第j个窗口的所有峰值数据之和;
和/或,步骤(c)中,所述标准化后的峰度矩阵的计算公式如式(2)所示:
NIM=IM/(max(I1,1…j),…,max(Ii,1…j)) (2)
其中,NIM为标准化后的峰度矩阵,max(Ii,1…j)为序号为i的蛋白质组学谱图数据中最大的峰值,IM表示步骤(b)计算得到的峰度矩阵。
5.根据权利要求1~4任一项所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:第二部分中,所述深度学习模型为深度神经网络模型,优选的,所述深度神经网络模型是基于Keras框架搭建的,更优选的,所述深度神经网络模型内嵌了一个初级的深度神经网络模型。
6.根据权利要求5所述的基于深度学习模型的蛋白质组学分析系统,其特征在于:所述初级的深度神经网络模型包括以下组成部分:输入层、隐藏层和输出层;优选的,所述隐藏层为3层,第一层有128个节点、第二层有64个节点、第三层有32个节点;更优选的,所述隐藏层中激活函数为线性整流函数ReLU,输出层激活函数为归一化指数函数SoftMax。
7.根据权利要求1~6任一项所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:第三部分中,所述深度学习模型的训练和预测的方法包括以下步骤:将第一部分得到的标准化的峰度矩阵分为训练集和测试集,先利用训练集中的标准化后的峰度矩阵对第二部分构建的深度学习模型进行训练,再利用训练后的深度学习模型对测试集中的标准化后的峰度矩阵进行预测,预测测试集对应的样本的来源。
8.根据权利要求7所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:所述训练集中的数据个数为n1,测试集中的数据个数为n-n1,n-n1为大于等于1且小于n的整数,优选为1。
9.权利要求1~8任一项所述基于深度学习模型的蛋白质组学谱图数据分析系统在制备疾病辅助诊断工具中的用途。
10.根据权利要求9所述的用途,其特征在于:所述疾病为与尿蛋白质异常相关的疾病,优选为受新型冠状病毒SARS-CoV-2感染的疾病,更优选为受新型冠状病毒SARS-CoV-2感染的呼吸道疾病。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010681733.1A CN111781292B (zh) | 2020-07-15 | 2020-07-15 | 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010681733.1A CN111781292B (zh) | 2020-07-15 | 2020-07-15 | 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111781292A true CN111781292A (zh) | 2020-10-16 |
CN111781292B CN111781292B (zh) | 2022-06-21 |
Family
ID=72768007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010681733.1A Active CN111781292B (zh) | 2020-07-15 | 2020-07-15 | 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111781292B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112505133A (zh) * | 2020-12-28 | 2021-03-16 | 黑龙江莱恩检测有限公司 | 一种基于深度学习的质谱检测方法 |
CN113780425A (zh) * | 2021-09-13 | 2021-12-10 | 四川大学 | 一种肾小球滤过率自动计算方法 |
CN114664382A (zh) * | 2022-04-28 | 2022-06-24 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN114755357A (zh) * | 2022-04-14 | 2022-07-15 | 武汉迈特维尔生物科技有限公司 | 一种色谱质谱自动积分方法、系统、设备、介质 |
CN115064207A (zh) * | 2022-06-30 | 2022-09-16 | 南京医科大学 | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 |
CN115112778A (zh) * | 2021-03-19 | 2022-09-27 | 复旦大学 | 一种疾病蛋白质生物标志物鉴定方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213000A1 (en) * | 2016-01-25 | 2017-07-27 | Shenzhen University | Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof |
US20190034586A1 (en) * | 2017-07-28 | 2019-01-31 | The Translational Genomics Research Institute | Methods of Profiling Mass Spectral Data Using Neural Networks |
WO2019046814A1 (en) * | 2017-09-01 | 2019-03-07 | Venn Biosciences Corporation | IDENTIFICATION AND USE OF GLYCOPEPTIDES AS BIOMARKERS FOR THE DIAGNOSIS AND MONITORING OF TREATMENT |
WO2019079639A1 (en) * | 2017-10-18 | 2019-04-25 | Venn Biosciences Corporation | IDENTIFICATION AND USE OF BIOLOGICAL PARAMETERS FOR THE DIAGNOSIS AND MONITORING OF A TREATMENT |
CN110838340A (zh) * | 2019-10-31 | 2020-02-25 | 军事科学院军事医学研究院生命组学研究所 | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 |
-
2020
- 2020-07-15 CN CN202010681733.1A patent/CN111781292B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213000A1 (en) * | 2016-01-25 | 2017-07-27 | Shenzhen University | Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof |
US20190034586A1 (en) * | 2017-07-28 | 2019-01-31 | The Translational Genomics Research Institute | Methods of Profiling Mass Spectral Data Using Neural Networks |
WO2019046814A1 (en) * | 2017-09-01 | 2019-03-07 | Venn Biosciences Corporation | IDENTIFICATION AND USE OF GLYCOPEPTIDES AS BIOMARKERS FOR THE DIAGNOSIS AND MONITORING OF TREATMENT |
WO2019079639A1 (en) * | 2017-10-18 | 2019-04-25 | Venn Biosciences Corporation | IDENTIFICATION AND USE OF BIOLOGICAL PARAMETERS FOR THE DIAGNOSIS AND MONITORING OF A TREATMENT |
CN110838340A (zh) * | 2019-10-31 | 2020-02-25 | 军事科学院军事医学研究院生命组学研究所 | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 |
Non-Patent Citations (5)
Title |
---|
ZEMOURI, R 等: "Deep Learning in the Biomedical Applications: Recent and Future Status", 《APPLIED SCIENCES-BASEL》 * |
余燕 等: "人工智能深度学习技术在常见眼病辅助诊断的应用现状和进展", 《眼科新进展》 * |
孟辉 等: "基于可视化图形特征融合的蛋白质组学质谱数据分析", 《燕山大学学报》 * |
赵新元 等: "深度学习方法在生物质谱及蛋白质组学中的应用", 《生物化学与生物物理进展》 * |
韩路易 等: "基于深度学习的超声图像左心耳自动分割方法", 《计算机应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112505133A (zh) * | 2020-12-28 | 2021-03-16 | 黑龙江莱恩检测有限公司 | 一种基于深度学习的质谱检测方法 |
CN112505133B (zh) * | 2020-12-28 | 2023-09-12 | 黑龙江莱恩检测有限公司 | 一种基于深度学习的质谱检测方法 |
CN115112778A (zh) * | 2021-03-19 | 2022-09-27 | 复旦大学 | 一种疾病蛋白质生物标志物鉴定方法 |
CN115112778B (zh) * | 2021-03-19 | 2023-08-04 | 复旦大学 | 一种疾病蛋白质生物标志物鉴定方法 |
CN113780425A (zh) * | 2021-09-13 | 2021-12-10 | 四川大学 | 一种肾小球滤过率自动计算方法 |
CN113780425B (zh) * | 2021-09-13 | 2023-07-21 | 四川大学 | 一种肾小球滤过率自动计算方法 |
CN114755357A (zh) * | 2022-04-14 | 2022-07-15 | 武汉迈特维尔生物科技有限公司 | 一种色谱质谱自动积分方法、系统、设备、介质 |
CN114664382A (zh) * | 2022-04-28 | 2022-06-24 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN114664382B (zh) * | 2022-04-28 | 2023-01-31 | 中国人民解放军总医院 | 多组学联合分析方法、装置及计算设备 |
CN115064207A (zh) * | 2022-06-30 | 2022-09-16 | 南京医科大学 | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111781292B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111781292B (zh) | 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 | |
Ketterlinus et al. | Fishing for biomarkers: analyzing mass spectrometry data with the new ClinProTools™ software | |
CN104170052B (zh) | 用于改进的质谱分析法定量作用的方法和装置 | |
CN111479934A (zh) | 用于诊断和治疗监测的生物学指标的鉴定和用途 | |
JP4950993B2 (ja) | 複数のサンプルから得られる代謝物のデータを、コンピュータシステムのデータベースを用いて比較および編集するためのシステムおよび方法 | |
CN107463770A (zh) | 一种基于疾病诊断相关分组的评价方法和系统 | |
CN103776891B (zh) | 一种检测差异表达蛋白质的方法 | |
CN110141219A (zh) | 基于导联融合深度神经网络的心肌梗死自动检测方法 | |
CN101832977A (zh) | 一种卵巢肿瘤血清标志物 | |
WO2008003066A2 (en) | Apparatus, compositions, and methods for assessment of chronic obstructive pulmonary disease progression among rapid and slow decline conditions | |
Bridges et al. | ProtQuant: a tool for the label-free quantification of MudPIT proteomics data | |
CN113314211A (zh) | 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用 | |
CN111833330B (zh) | 基于影像与机器嗅觉融合的肺癌智能检测方法及系统 | |
CN115798712B (zh) | 一种诊断待测者是否是乳腺癌的系统以及生物标志物 | |
CN111413492A (zh) | 一种用于检测新型冠状病毒covid-2019肺炎的方法及系统 | |
CN114755357A (zh) | 一种色谱质谱自动积分方法、系统、设备、介质 | |
CN105683757A (zh) | 在尿样品中诊断结核病的方法 | |
CN114324549B (zh) | 基于呼出气质谱检测的肺结核风险评估方法及系统 | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
CN107818329B (zh) | 一种质谱数据分析方法 | |
CN111081374B (zh) | 基于共同注意力范式的孤独症辅助诊断装置 | |
CN110501443B (zh) | 无创识别/预警脂肪肝奶牛的新型生物标记物 | |
CN113545771B (zh) | 一种基于足底压力的集成k近邻帕金森病定量诊断系统 | |
KR20120124767A (ko) | 당 동정을 위한 새로운 생물정보처리 분석 방법 | |
Listgarten et al. | Practical proteomic biomarker discovery: taking a step back to leap forward |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |