CN111781292A - 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 - Google Patents

一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 Download PDF

Info

Publication number
CN111781292A
CN111781292A CN202010681733.1A CN202010681733A CN111781292A CN 111781292 A CN111781292 A CN 111781292A CN 202010681733 A CN202010681733 A CN 202010681733A CN 111781292 A CN111781292 A CN 111781292A
Authority
CN
China
Prior art keywords
data
proteomics
learning model
deep learning
spectrogram data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010681733.1A
Other languages
English (en)
Other versions
CN111781292B (zh
Inventor
王诗盛
杨浩
钟艺
郑文
胡立强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202010681733.1A priority Critical patent/CN111781292B/zh
Publication of CN111781292A publication Critical patent/CN111781292A/zh
Application granted granted Critical
Publication of CN111781292B publication Critical patent/CN111781292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8644Data segmentation, e.g. time windows
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8696Details of Software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
    • G01N2030/8809Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample
    • G01N2030/8813Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials
    • G01N2030/8831Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials involving peptides or proteins

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统,所述系统包括以下三个部分:第一部分:一致性处理部分,在该部分将样本的蛋白质组学谱图数据进行一致性处理,得到标准化后的峰度矩阵;第二部分:深度学习模型构建部分;第三部分:深度学习模型的训练和预测部分。该分析系统通过“特征刈痕提取”方法对尿液蛋白质组的原始谱图数据进行一致性处理,有效提高了不同样本的谱图数据之间的可比性,克服了本领域的技术难题。该分析系统能够对尿液蛋白质组的LC‑MS/MS谱图数据进行解析和识别,从而高准确度的预测该尿液样本的来源是健康人还是疾病患者。该分析系统在开发与尿蛋白异常相关疾病的辅助诊断工具中具有广阔的应用前景。

Description

一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统
技术领域
本发明涉及蛋白质组学分析领域,特别是涉及一种基于深度学习模型的尿液蛋白质组学谱图数据分析系。
背景技术
尿液是血液经肾小球滤过,经肾小管和集合管重吸收、排泻及分泌产生的终末代谢产物,其组成与性状可反映整个机体的状况,是临床最常用的检测样本之一。尿液中蛋白质种类和数量的变化携带有某种疾病发生、发展及预后的信息,可作为研究尿液生物标志物的理想来源,也可以在一定程度上反映血液和整个机体的状态。此外,与血液样本相比,尿液样本具有获取无创、可大量获取、不受稳态调节、可以容纳并积累更多变化的特点。因此,尿液蛋白质组学作为诠释尿液蛋白所携带信息的最有效方法,获得了广泛的关注。
目前,常用于尿液蛋白质组学分离鉴定的方法主要有二维聚丙烯酰胺凝胶电泳-质谱联用(2D PAGE-MS)、液相色谱-质谱联用(LC-MS)、蛋白质芯片-质谱联用(PC-Ms)和毛细管电泳-质谱联用(CE-MS)等。其中,液相色谱-串联质谱技术(简称LC-MS/MS)作为一种联用技术,结合了液相色谱的高效分离能力和质谱采集的待检测分子的精确分子量及强度信息。该技术具有灵敏度高、选择性强的优势,可以获得丰富的蛋白质定性和定量信息,同时方便建立快速、高效的蛋白质组检测体系,因而在尿液蛋白质组学分析领域具有显著的优势。
但是,由于不同个体的尿液样品中蛋白质丰度跨度宽、个体差异性大,导致不同个体的尿液蛋白质组学分析缺乏可比性,极大的限制了尿液蛋白质组学分析方法在尿液生物标志物的检测及相关疾病的辅助诊断中的应用。
发明内容
针对上述问题,本发明的目的在于提供一种能够对尿液蛋白质组的谱图数据解析和识别,从而高准确度预测该尿液样本对应的对象是健康人还是某种疾病患者的分析系统,以及该分析系统在开发尿液蛋白质异常的相关疾病的辅助诊断工具中的用途。
本发明提供了一种基于深度学习模型的蛋白质组学谱图数据分析系统,所述系统包括以下三个部分:
第一部分:一致性处理部分,在该部分将样本的蛋白质组学谱图数据进行一致性处理,得到标准化后的峰度矩阵;一致性处理的方法包括以下步骤:
(a)将样本的蛋白质组学谱图数据编号,依次记为1,2,……,n-1,n;n为大于1的整数;然后根据样本的来源,分别对蛋白质组学谱图数据进行分类标记,将来源于健康人和患者样本的蛋白质组学谱图数据区分开;
(b)将步骤(a)中的每个蛋白质组学谱图数据按照横坐标均分成x份,记为x个窗口,将每个窗口中的所有峰值数据叠加,记为峰值数据之和,得到具有x个窗口、且每个窗口只有一个峰值数据之和的峰度矩阵;其中,x为大于等于1的整数;
(c)在步骤(b)所得的峰度矩阵中,将每个蛋白质组学谱图数据中每个窗口的峰值数据之和除以该谱图数据中最大的峰值,记为标准化后的峰值数据之和,得到标准化后的峰度矩阵;
第二部分:深度学习模型构建部分;
第三部分:深度学习模型的训练和预测部分。
进一步地,步骤(a)中,所述样本为尿液样本,优选为人的尿液样本;
和/或,所述蛋白质组学谱图数据为蛋白质组学液相色谱-质谱联用技术检测数据,所述液相色谱-质谱联用技术检测数据优选为原始液相色谱-串联质谱技术检测数据,更优选为一级原始液相色谱-串联质谱技术检测数据;
和/或,一个样本的蛋白质组学谱图数据为一个或多个。
进一步地,步骤(a)中,所述分类标记的方法为:将来源于健康人的尿液样本的蛋白质组学谱图数据标记为q,将来源于患者的尿液样本的蛋白质组学谱图数据标记为p,q与p不同;
优选的,所述来源于患者的尿液样本的蛋白质组学谱图数据中,将来源于轻度患者的尿液样本的蛋白质组学谱图数据标记为p1,和/或,将来源于中度患者的尿液样本的蛋白质组学谱图数据标记为p2,和/或,将来源于重度患者的尿液样本的蛋白质组学谱图数据标记为p3,p1、p2、p3、p互不相同。
进一步地,步骤(b)中,所述横坐标为质荷比;x为大于等于100的整数,优选为大于等于700小于等于800的整数;
和/或,步骤(b)中,所述峰度矩阵的计算公式如式(1)所示:
Figure BDA0002586101690000021
其中,IM为峰度矩阵;i为蛋白质组学谱图数据的序号,1≤i≤n;j为窗口的序号,1≤j≤x;k为第i个蛋白质组学谱图数据、第j个窗口中峰的序号,
Figure BDA0002586101690000022
为第i个蛋白质组学谱图数据、第j个窗口的所有峰值数据之和;
和/或,步骤(c)中,所述标准化后的峰度矩阵的计算公式如式(2)所示:
NIM=IM/(max(I1,1…j),…,max(Ii,1…j)) (2)
其中,NIM为标准化后的峰度矩阵,max(Ii,1…j)为序号为i的蛋白质组学谱图数据中最大的峰值,IM表示步骤(b)计算得到的峰度矩阵。
进一步地,第二部分中,所述深度学习模型为深度神经网络模型,优选的,所述深度神经网络模型是基于Keras框架搭建的,更优选的,所述深度神经网络模型内嵌了一个初级的深度神经网络模型。
进一步地,所述初级的深度神经网络模型包括以下组成部分:输入层、隐藏层和输出层;优选的,所述隐藏层为3层,第一层有128个节点、第二层有64个节点、第三层有32个节点;更优选的,所述隐藏层中激活函数为线性整流函数ReLU,输出层激活函数为归一化指数函数SoftMax。
进一步地,第三部分中,所述深度学习模型的训练和预测的方法包括以下步骤:将第一部分得到的标准化的峰度矩阵分为训练集和测试集,先利用训练集中的标准化后的峰度矩阵对第二部分构建的深度学习模型进行训练,再利用训练后的深度学习模型对测试集中的标准化后的峰度矩阵进行预测,预测测试集对应的样本的来源。
进一步地,所述训练集中的数据个数为n1,测试集中的数据个数为n-n1,n-n1为大于等于1且小于n的整数,优选为1。
本发明还提供的上述基于深度学习模型的蛋白质组学谱图数据分析系统在制备疾病辅助诊断工具中的用途。
进一步地,所述疾病为与尿蛋白质异常相关的疾病,优选为受新型冠状病毒SARS-CoV-2感染的疾病,更优选为受新型冠状病毒SARS-CoV-2感染的呼吸道疾病。
本发明中,原始液相色谱-质谱联用技术检测数据是指未经处理的液相色谱-质谱联用技术检测的谱图数据,一级原始液相色谱-串联质谱技术检测数据是指连续采集的液相色谱-质谱联用技术检测的一级谱图数据。
本发明的分析系统中构建的深度学习模型,可以根据用户的需求进行搭建。
本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统通过“特征刈痕提取”方法对尿液蛋白质组的原始谱图数据进行一致性处理,有效提高了不同样本的谱图数据之间的可比性,克服了本领域的技术难题。
实验证明,利用本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统能够对尿液蛋白质组的原始LC-MS/MS谱图数据进行解析和识别,从而高准确度的预测该尿液样本对应的对象是健康人还是某种疾病的患者。本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统在开发尿蛋白异常相关疾病的辅助诊断工具中具有广阔的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1是本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统的运行流程框架示意图。
图2是利用“特征刈痕提取”的方法对原始LC-MS/MS谱图数据进行一致性处理的流程图。
图3是本发明中深度神经网络模型的训练和预测示意图。
具体实施方式
本发明所用原料与设备均为已知产品,通过购买市售产品所得。
实施例1基于深度学习模型的尿液蛋白质组学谱图数据分析系统
本发明所要研究的对象是基于液相色谱-串联质谱技术(简称LC-MS/MS)获得的蛋白质组学原始谱图数据,生物样本为人的尿液。
本发明的分析系统分为三个组成部分(如图1所示),具体如下:
第一部分:一致性处理部分,在该部分对原始LC-MS/MS谱图数据进行一致性处理,得到标准化的峰度矩阵
通过液相色谱-串联质谱仪得到原始谱图数据,因为每一个谱图数据内包含的峰的个数和强度都不一样,所以此类数据不适用于本发明的深度学习模型进行解析,必须要对原始谱图数据进行一致性处理。本发明开发了一种叫做“特征刈痕提取”(Feature SwathExtraction)的方法对原始LC-MS/MS谱图数据进行一致性处理,算法图解如图2所示,具体处理步骤如下:
(a)提取出n个一级原始谱图数据,顺序编号,一级原始谱图的序号依次记为1,2,3,……,n-1,n。然后根据样本的类别对每一个一级原始谱图进行标签标记,比如,若该一级原始谱图数据来源于健康人的样本,则标签标记为“0”,若该一级原始谱图数据来源于轻度患者的样本,则标签标记为“1”,若该一级原始谱图数据来源于重度患者的样本,则标签标记为“2”。
(b)预先设置“刈痕”的数量,这里的一个刈痕指的是一级原始谱图数据中一小段质荷比的范围,也可以称为一个窗口。然后根据设置的刈痕数量自动算出每个窗口的范围,比如在采集的一级原始谱图数据中,一级的质荷比范围为[300,1400],预先设置刈痕的数量为400,即每一个谱图数据都分为400个窗口,那么本发明的系统会自动根据这个设置计算得到每个窗口的范围(即[300,302.75],[302.75,305.5],……,[1397.25,1400])。每一个窗口的范围计算好以后,本发明的系统会将每一个窗口的谱图数据按照以下公式(1)进行叠加,这样就能保证每一个窗口中只有一个数值:
Figure BDA0002586101690000041
其中IM是指Intensity Matrix,即峰度矩阵,i表示谱图数据的序号,j表示窗口的序号,k表示第i个谱图数据、第j个窗口中峰的序号,
Figure BDA0002586101690000042
表示第i个谱图数据(即序号为i的谱图数据)、第j个窗口中的所有的峰值之和。
(c)峰值标准化。经过步骤(b)的叠加后,每一个谱图数据的异质性仍然较大,即每个谱图数据之间还没有一个统一的尺度,因此可比性较低。本发明的系统利用公式(2)先将每一个谱图数据中每一个窗口的峰值之和分别除以该谱图数据中的最大峰值,然后得到标准化后的峰度矩阵(NIM),这样就能使数据之间更具可比性。
NIM=IM/(max(I1,1…j),…,max(Ii,1…j)) (2)
其中NIM表示Normalized Intensity Matrix,即标准化后的峰度矩阵,max(Ii,1…j)表示序号为i的谱图数据中最大的峰值,IM表示步骤(b)计算得到的峰度矩阵。
第二部分:深度学习模型构建部分
本发明使用的深度学习模型是深度神经网络模型,其基于Keras框架搭建,其内嵌了一个初级的深度神经网络模型(由以下部分组成:输入层、3个隐藏层(其中第一层128个节点、第二层64个节点、第三层32个节点)、输出层),隐藏层中激活函数为线性整流函数ReLU,输出层激活函数为归一化指数函数SoftMax。
第三部分:模型的训练和预测部分
将第一部分进行一致性处理后的数据分为训练集和测试集(训练和测试样本均为独立样本,相互不交叉),先用训练集数据对第二部分构建的深度神经网络模型进行训练,最后再用训练后的深度神经网络模型对测试集数据对应尿液样本的类别进行预测,并检查深度神经网络模型预测结果的准确度。
为了验证本发明上述分析系统的预测准确性,使用“留一法”的策略对深度神经网络模型的预测能力进行评估(过程如图3所示)。具体操作如下:收集人的尿液样本的n个蛋白质组学原始LC-MS/MS数据,其中来源于健康人的数据标签标记为“0”,来源于轻度患者的数据标签标记为“1”,来源于重度患者的数据标签标记为“2”。然后在每一次循环中,将n-1个经过第一部分的一致性处理后的数据作为训练集,对第二部分构建的深度神经网络模型进行训练,剩下的1个经过第一部分的一致性处理后的数据作为测试集数据。模型训练好以后对该测试集数据进行预测,如此循环n次,就可以得到每一个数据的预测结果,将该预测结果与最初的数据标签标记进行对比,就可以统计出预测结果的总正确率。
以下进一步说明如何预测每一个数据对应的样本的类别。如图3B所示,在每一次迭代过程中,比如要预测第K个数据对应的样本的类别,则需要先将其他n-1个蛋白质组学原始LC-MS/MS数据标准化后的峰度矩阵和对应的类别标签(健康人的为“0”,轻度患者的为“1”,重度患者的为“2”)输入给第二部分预先构建好的深度神经网络模型,该模型可以根据每一类别的数据特征进行训练,得到训练好的模型。接下来,将第K个数据标准化后的峰度矩阵输入到上述训练好的模型,该模型就可以对第K个数据中的每一个谱图数据的类别进行预测,那么,每一个谱图数据都可以得到3个概率值:类别为“0”的概率值,类别为“1”的概率值,类别为“2”的概率值。然后系统会自动将3个概率值中的最大值对应的类别标签作为该谱图数据类别的预测结果。预测完以后,将预测的类别与原始的类别标签进行比较,预测正确的画红勾,预测错误的画红叉,然后统计类别预测正确的谱图数据个数占总谱图数据个数的比例,如果该比例在3个类别结果中最大,则表示对第K个数据对应的样本类别预测正确,否则表示预测错误。
采用上述相同的方法,对其余n-1个数据对应的样本的类别进行循环预测,最后统计预测正确的样本个数占所有样本个数的比例,并将该比例作为评价参数,评价本发明分析系统的预测准确度。比如,若该比例大于等于0.8,则认为本发明的方法预测效果良好,如果该比例小于0.8,则认为本发明的方法预测效果不佳。
以下通过实验例证明本发明的有益效果。
实验例1本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统的预测效果评估
采用本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统,对4个健康人的尿液样本、6个受新型冠状病毒(SARS-CoV-2)感染的病人(其中3个轻度感染、3个重度感染)尿液样本、2个康复病人的尿液样本(康复病人来源于上述6个受新型冠状病毒感染的病人中的2个)的一级原始LC-MS/MS谱图数据的类别进行预测(测试数据来源于公共数据库IProX,数据ID:IPX0002166000),结果如表1所示。
表1本发明基于深度学习模型的尿液蛋白质组学原始谱图数据分析系统的效果评估
Figure BDA0002586101690000061
Figure BDA0002586101690000071
表1中,原始标签标记和预测类别中,“0”表是健康人,“1”表示受新型冠状病毒感染的轻度患者,“2”表示受新型冠状病毒感染的重度患者,11号样本由5号病人康复后得到,12号样本由10号病人康复后得到。其中轻度和重度的诊断标准是依据中国人民解放军总医院第五医疗中心印发的《新型冠状病毒肺炎的诊断与管理方案(试行第六版)》,比如轻度感染患者主要表现为发热、非肺炎或轻度肺炎,而重度患者主要表现为呼吸困难,呼吸频率≥30次/分钟,平均氧饱和度(≤93%,静息状态)或动脉血氧分压/氧浓度(PaO2/FiO2≤300mmHg),和/或24-48小时内肺浸润>50%。
预测正确率1是指预测健康人和不同程度的患者(轻度患者和重度患者视为两类)之间的准确度,预测正确率2是指预测健康人和患者(轻度健康和重度健康被统一视为一类)之间的准确度。
从表1可以看出,采用本发明基于深度学习模型的尿液蛋白质组学谱图数据分析系统,可以对人尿液蛋白质原始LC-MS/MS谱图数据进行高准确度的预测。以1-1~10-2样本的数据作为原始LC-MS/MS谱图数据库,健康人和患者之间的预测准确度为100%,健康人及不同程度的患者之间预测准确度为85%。进一步地,以1-1~10-2样本的数据作为训练数据,以11-1~12-2样本的数据作为测试数据,发现患者康复以后,本发明的分析系统也可以对其进行准确的预测(预测准确度为100%),从而准确的识别该尿液样本对应的对象是健康人还是尚处于感染期的新型冠状病毒感染患者。
综上,本发明提供了一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统。该分析系统利用“特征刈痕提取”方法对尿液蛋白质组的原始谱图数据进行一致性处理,有效提高了不同样本的谱图数据之间的可比性,克服了本领域的技术难题。实验证明,本发明的分析系统能够对尿液蛋白质组的LC-MS/MS谱图数据进行解析和识别,从而高准确度的预测该尿液样本的来源是健康人还是疾病患者。该分析系统在开发与尿蛋白异常相关疾病的辅助诊断工具中具有广阔的应用前景。

Claims (10)

1.一种基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:所述系统包括以下三个部分:
第一部分:一致性处理部分,在该部分将样本的蛋白质组学谱图数据进行一致性处理,得到标准化后的峰度矩阵;一致性处理的方法包括以下步骤:
(a)将样本的蛋白质组学谱图数据编号,依次记为1,2,……,n-1,n;n为大于1的整数;然后根据样本的来源,分别对蛋白质组学谱图数据进行分类标记,将来源于健康人和患者样本的蛋白质组学谱图数据区分开;
(b)将步骤(a)中的每个蛋白质组学谱图数据按照横坐标均分成x份,记为x个窗口,将每个窗口中的所有峰值数据叠加,记为峰值数据之和,得到具有x个窗口、且每个窗口只有一个峰值数据之和的峰度矩阵;其中,x为大于等于1的整数;
(c)在步骤(b)所得的峰度矩阵中,将每个蛋白质组学谱图数据中每个窗口的峰值数据之和除以该谱图数据中最大的峰值,记为标准化后的峰值数据之和,得到标准化后的峰度矩阵;
第二部分:深度学习模型构建部分;
第三部分:深度学习模型的训练和预测部分。
2.根据权利要求1所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:步骤(a)中,所述样本为尿液样本,优选为人的尿液样本;
和/或,所述蛋白质组学谱图数据为蛋白质组学液相色谱-质谱联用技术检测数据,所述液相色谱-质谱联用技术检测数据优选为原始液相色谱-串联质谱技术检测数据,更优选为一级原始液相色谱-串联质谱技术检测数据;
和/或,一个样本的蛋白质组学谱图数据为一个或多个。
3.根据权利要求2所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:步骤(a)中,所述分类标记的方法为:将来源于健康人的尿液样本的蛋白质组学谱图数据标记为q,将来源于患者的尿液样本的蛋白质组学谱图数据标记为p,q与p不同;
优选的,所述来源于患者的尿液样本的蛋白质组学谱图数据中,将来源于轻度患者的尿液样本的蛋白质组学谱图数据标记为p1,和/或,将来源于中度患者的尿液样本的蛋白质组学谱图数据标记为p2,和/或,将来源于重度患者的尿液样本的蛋白质组学谱图数据标记为p3,p1、p2、p3、p互不相同。
4.根据权利要求1~3任一项所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:步骤(b)中,所述横坐标为质荷比;x为大于等于100的整数,优选为大于等于700小于等于800的整数;
和/或,步骤(b)中,所述峰度矩阵的计算公式如式(1)所示:
Figure FDA0002586101680000021
其中,IM为峰度矩阵;i为蛋白质组学谱图数据的序号,1≤i≤n;j为窗口的序号,1≤j≤x;k为第i个蛋白质组学谱图数据、第j个窗口中峰的序号,
Figure FDA0002586101680000022
为第i个蛋白质组学谱图数据、第j个窗口的所有峰值数据之和;
和/或,步骤(c)中,所述标准化后的峰度矩阵的计算公式如式(2)所示:
NIM=IM/(max(I1,1…j),…,max(Ii,1…j)) (2)
其中,NIM为标准化后的峰度矩阵,max(Ii,1…j)为序号为i的蛋白质组学谱图数据中最大的峰值,IM表示步骤(b)计算得到的峰度矩阵。
5.根据权利要求1~4任一项所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:第二部分中,所述深度学习模型为深度神经网络模型,优选的,所述深度神经网络模型是基于Keras框架搭建的,更优选的,所述深度神经网络模型内嵌了一个初级的深度神经网络模型。
6.根据权利要求5所述的基于深度学习模型的蛋白质组学分析系统,其特征在于:所述初级的深度神经网络模型包括以下组成部分:输入层、隐藏层和输出层;优选的,所述隐藏层为3层,第一层有128个节点、第二层有64个节点、第三层有32个节点;更优选的,所述隐藏层中激活函数为线性整流函数ReLU,输出层激活函数为归一化指数函数SoftMax。
7.根据权利要求1~6任一项所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:第三部分中,所述深度学习模型的训练和预测的方法包括以下步骤:将第一部分得到的标准化的峰度矩阵分为训练集和测试集,先利用训练集中的标准化后的峰度矩阵对第二部分构建的深度学习模型进行训练,再利用训练后的深度学习模型对测试集中的标准化后的峰度矩阵进行预测,预测测试集对应的样本的来源。
8.根据权利要求7所述的基于深度学习模型的蛋白质组学谱图数据分析系统,其特征在于:所述训练集中的数据个数为n1,测试集中的数据个数为n-n1,n-n1为大于等于1且小于n的整数,优选为1。
9.权利要求1~8任一项所述基于深度学习模型的蛋白质组学谱图数据分析系统在制备疾病辅助诊断工具中的用途。
10.根据权利要求9所述的用途,其特征在于:所述疾病为与尿蛋白质异常相关的疾病,优选为受新型冠状病毒SARS-CoV-2感染的疾病,更优选为受新型冠状病毒SARS-CoV-2感染的呼吸道疾病。
CN202010681733.1A 2020-07-15 2020-07-15 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 Active CN111781292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010681733.1A CN111781292B (zh) 2020-07-15 2020-07-15 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010681733.1A CN111781292B (zh) 2020-07-15 2020-07-15 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统

Publications (2)

Publication Number Publication Date
CN111781292A true CN111781292A (zh) 2020-10-16
CN111781292B CN111781292B (zh) 2022-06-21

Family

ID=72768007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010681733.1A Active CN111781292B (zh) 2020-07-15 2020-07-15 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统

Country Status (1)

Country Link
CN (1) CN111781292B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112505133A (zh) * 2020-12-28 2021-03-16 黑龙江莱恩检测有限公司 一种基于深度学习的质谱检测方法
CN113780425A (zh) * 2021-09-13 2021-12-10 四川大学 一种肾小球滤过率自动计算方法
CN114664382A (zh) * 2022-04-28 2022-06-24 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN114755357A (zh) * 2022-04-14 2022-07-15 武汉迈特维尔生物科技有限公司 一种色谱质谱自动积分方法、系统、设备、介质
CN115064207A (zh) * 2022-06-30 2022-09-16 南京医科大学 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法
CN115112778A (zh) * 2021-03-19 2022-09-27 复旦大学 一种疾病蛋白质生物标志物鉴定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213000A1 (en) * 2016-01-25 2017-07-27 Shenzhen University Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof
US20190034586A1 (en) * 2017-07-28 2019-01-31 The Translational Genomics Research Institute Methods of Profiling Mass Spectral Data Using Neural Networks
WO2019046814A1 (en) * 2017-09-01 2019-03-07 Venn Biosciences Corporation IDENTIFICATION AND USE OF GLYCOPEPTIDES AS BIOMARKERS FOR THE DIAGNOSIS AND MONITORING OF TREATMENT
WO2019079639A1 (en) * 2017-10-18 2019-04-25 Venn Biosciences Corporation IDENTIFICATION AND USE OF BIOLOGICAL PARAMETERS FOR THE DIAGNOSIS AND MONITORING OF A TREATMENT
CN110838340A (zh) * 2019-10-31 2020-02-25 军事科学院军事医学研究院生命组学研究所 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213000A1 (en) * 2016-01-25 2017-07-27 Shenzhen University Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof
US20190034586A1 (en) * 2017-07-28 2019-01-31 The Translational Genomics Research Institute Methods of Profiling Mass Spectral Data Using Neural Networks
WO2019046814A1 (en) * 2017-09-01 2019-03-07 Venn Biosciences Corporation IDENTIFICATION AND USE OF GLYCOPEPTIDES AS BIOMARKERS FOR THE DIAGNOSIS AND MONITORING OF TREATMENT
WO2019079639A1 (en) * 2017-10-18 2019-04-25 Venn Biosciences Corporation IDENTIFICATION AND USE OF BIOLOGICAL PARAMETERS FOR THE DIAGNOSIS AND MONITORING OF A TREATMENT
CN110838340A (zh) * 2019-10-31 2020-02-25 军事科学院军事医学研究院生命组学研究所 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ZEMOURI, R 等: "Deep Learning in the Biomedical Applications: Recent and Future Status", 《APPLIED SCIENCES-BASEL》 *
余燕 等: "人工智能深度学习技术在常见眼病辅助诊断的应用现状和进展", 《眼科新进展》 *
孟辉 等: "基于可视化图形特征融合的蛋白质组学质谱数据分析", 《燕山大学学报》 *
赵新元 等: "深度学习方法在生物质谱及蛋白质组学中的应用", 《生物化学与生物物理进展》 *
韩路易 等: "基于深度学习的超声图像左心耳自动分割方法", 《计算机应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112505133A (zh) * 2020-12-28 2021-03-16 黑龙江莱恩检测有限公司 一种基于深度学习的质谱检测方法
CN112505133B (zh) * 2020-12-28 2023-09-12 黑龙江莱恩检测有限公司 一种基于深度学习的质谱检测方法
CN115112778A (zh) * 2021-03-19 2022-09-27 复旦大学 一种疾病蛋白质生物标志物鉴定方法
CN115112778B (zh) * 2021-03-19 2023-08-04 复旦大学 一种疾病蛋白质生物标志物鉴定方法
CN113780425A (zh) * 2021-09-13 2021-12-10 四川大学 一种肾小球滤过率自动计算方法
CN113780425B (zh) * 2021-09-13 2023-07-21 四川大学 一种肾小球滤过率自动计算方法
CN114755357A (zh) * 2022-04-14 2022-07-15 武汉迈特维尔生物科技有限公司 一种色谱质谱自动积分方法、系统、设备、介质
CN114664382A (zh) * 2022-04-28 2022-06-24 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN114664382B (zh) * 2022-04-28 2023-01-31 中国人民解放军总医院 多组学联合分析方法、装置及计算设备
CN115064207A (zh) * 2022-06-30 2022-09-16 南京医科大学 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法

Also Published As

Publication number Publication date
CN111781292B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN111781292B (zh) 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统
Ketterlinus et al. Fishing for biomarkers: analyzing mass spectrometry data with the new ClinProTools™ software
CN104170052B (zh) 用于改进的质谱分析法定量作用的方法和装置
CN111479934A (zh) 用于诊断和治疗监测的生物学指标的鉴定和用途
JP4950993B2 (ja) 複数のサンプルから得られる代謝物のデータを、コンピュータシステムのデータベースを用いて比較および編集するためのシステムおよび方法
CN107463770A (zh) 一种基于疾病诊断相关分组的评价方法和系统
CN103776891B (zh) 一种检测差异表达蛋白质的方法
CN110141219A (zh) 基于导联融合深度神经网络的心肌梗死自动检测方法
CN101832977A (zh) 一种卵巢肿瘤血清标志物
WO2008003066A2 (en) Apparatus, compositions, and methods for assessment of chronic obstructive pulmonary disease progression among rapid and slow decline conditions
Bridges et al. ProtQuant: a tool for the label-free quantification of MudPIT proteomics data
CN113314211A (zh) 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用
CN111833330B (zh) 基于影像与机器嗅觉融合的肺癌智能检测方法及系统
CN115798712B (zh) 一种诊断待测者是否是乳腺癌的系统以及生物标志物
CN111413492A (zh) 一种用于检测新型冠状病毒covid-2019肺炎的方法及系统
CN114755357A (zh) 一种色谱质谱自动积分方法、系统、设备、介质
CN105683757A (zh) 在尿样品中诊断结核病的方法
CN114324549B (zh) 基于呼出气质谱检测的肺结核风险评估方法及系统
CN118312816A (zh) 基于成员选择的簇加权聚类集成医学数据处理方法及系统
CN107818329B (zh) 一种质谱数据分析方法
CN111081374B (zh) 基于共同注意力范式的孤独症辅助诊断装置
CN110501443B (zh) 无创识别/预警脂肪肝奶牛的新型生物标记物
CN113545771B (zh) 一种基于足底压力的集成k近邻帕金森病定量诊断系统
KR20120124767A (ko) 당 동정을 위한 새로운 생물정보처리 분석 방법
Listgarten et al. Practical proteomic biomarker discovery: taking a step back to leap forward

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant