CN113921086A - 基于质谱分析的蛋白质从头肽测序方法及系统 - Google Patents

基于质谱分析的蛋白质从头肽测序方法及系统 Download PDF

Info

Publication number
CN113921086A
CN113921086A CN202111076065.0A CN202111076065A CN113921086A CN 113921086 A CN113921086 A CN 113921086A CN 202111076065 A CN202111076065 A CN 202111076065A CN 113921086 A CN113921086 A CN 113921086A
Authority
CN
China
Prior art keywords
data
amino acid
mass
neural network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111076065.0A
Other languages
English (en)
Inventor
阮宏强
张鹏
薛冰冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Applied Protein Technology Co Ltd
Original Assignee
Shanghai Applied Protein Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Applied Protein Technology Co Ltd filed Critical Shanghai Applied Protein Technology Co Ltd
Priority to CN202111076065.0A priority Critical patent/CN113921086A/zh
Publication of CN113921086A publication Critical patent/CN113921086A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6818Sequencing of polypeptides
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Urology & Nephrology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hematology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Cell Biology (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Food Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供一种基于质谱分析的蛋白质从头肽测序方法及系统,包括卷积神经网络模型、迁移神经网络模型和多模态数据模型;卷积神经网络模型从原始质谱图中提取出质谱MS1数据和质谱MS2数据,并进行特征提取和处理;迁移神经网络模型对卷积神经网络模型进行深度学习;多模态数据模型利用氨基酸序列对卷积神经网络模型和迁移神经网络模型进行训练和预测,以得到肽段序列。通过质谱MS1数据的离子保留时间对质谱MS2数据进行过滤及筛选,再利用迁移神经网络模型对所述卷积模型进行深度学习,使得最终可精准预测原始图谱的肽段序列,解决了如何提高蛋白质从头肽测序中无参考测序的准确性的问题。

Description

基于质谱分析的蛋白质从头肽测序方法及系统
技术领域
本发明涉及生物信息技术领域,特别涉及一种基于质谱分析的蛋白质从头肽测序方法及系统。
背景技术
在蛋白质组学中,来自质谱分析中的氨基酸序列数据的从头肽测序在表征新蛋白质序列中起着关键作用。从头肽测序的任务是在给定质谱图(MS/MS谱)和肽序列的分子质量的情况下重建肽的氨基酸序列。质谱图可以表示为从质谱仪内的肽碎裂中获得的离子的强度与质量(更准确地说,质荷比m/z)的分布图。
在过去的很多年中,该领域得到了积极的研究,并提出了许多无参考测序工具,常用的例如PepNovo、PEAKS、NovoHMM、MSNovo、pNovo、UniNovo和Novor等。然而,计算挑战仍然存在,因为质谱分析的谱图包含很多噪声和模糊性,需要使用已经开发的多种形式的动态规划进行严格的全局优化。
在质谱分析中,DDA(Data Dependent Acquisition,数据依赖性采集技术)可以同时获得被测代谢物的质谱MS1和碎片信息,其中母离子的筛选主要依靠研究者预先设定的条件,如信噪比、同位素分布、离子强度、选择top-n等等。该方法由于采用了较窄的质荷比(通常单位为1Da)窗口进行筛选目标离子,从而减少了干扰离子的存在,因此可以为研究者提供较高质量的碎片信息。
然而,目标离子的筛选是一个随机的过程,强度较高的离子更容易被选择成为进行质谱MS2信息获取的目标离子,所以当分析复杂样本时,DDA分析的重复性较差,有时候会有采样不足的情况出现。如此,使得当有价值的离子不能满足目标筛选条件或者与很多强度较高的离子共同流出时,这些有价值的离子便不能被选择进行碎裂。
发明内容
本发明的目的在于提供一种基于质谱分析的蛋白质从头肽测序方法及系统,以解决如何提高蛋白质从头肽测序中无参考测序的准确性的问题。
为解决上述技术问题,本发明提供一种基于质谱分析的蛋白质从头肽测序方法,包括:
获取原始质谱图,并从所述原始质谱图中提取出质谱MS1数据和质谱MS2数据,所述质谱MS1数据包括有氨基酸序列的信息,所述质谱MS2数据包括有对氨基酸序列进行裂解后断裂的碎片的质量;
利用卷积神经网络将所述质谱MS1数据进行特征提取,以获得一级数据矩阵;
利用卷积神经网络将所述质谱MS2数据进行特征提取,以获得二级数据矩阵;
根据离子保留时间将所述二级数据矩阵与所述一级数据矩阵相关联,并整合得到卷积模型;
利用迁移神经网络模型对所述卷积模型进行深度学习,以获得多模态数据模型;
根据氨基酸序列可能存在的情况对氨基酸序列进行编码和分割,以对氨基酸序列进行标准化;
利用标准化后的氨基酸序列对所述多模态数据模型进行训练和预测,以得到肽段序列。
可选的,在所述的基于质谱分析的蛋白质从头肽测序方法中,所述获取原始质谱图,并从所述原始质谱图中提取出质谱MS1数据和质谱MS2数据的方法包括:
利用分辨率为0.05、信号最大峰值为1500的质谱分析仪对蛋白质进行质谱分析以得到原始质谱图;
从所述原始质谱图中提取离子保留时间和氨基酸序列的信息作为质谱MS1数据;
从所述原始质谱图中选取峰值最大的预设个峰进行打质谱MS2图,并从所述质谱MS2图中提取离子保留时间和氨基酸序列进行裂解后断裂的碎片的质量作为质谱MS2数据。
可选的,在所述的基于质谱分析的蛋白质从头肽测序方法中,所述获得一级数据矩阵的方法包括:
将128张原始质谱图作为一个一级数据集;
对所述一级数据集进行卷积运算,以对所述质谱MS1数据进行特征提取得到一级数据矩阵,其中卷积运算的参数为(128,1,23)。
可选的,在所述的基于质谱分析的蛋白质从头肽测序方法中,所述获得二级数据矩阵的方法包括:
将128张原始质谱图对应的128张质谱MS2图作为一个二级数据集;
对所述二级数据集进行卷积运算,以对所述质谱MS2数据进行特征提取得到二级数据矩阵,其中卷积运算的参数为(128,1,23)。
可选的,在所述的基于质谱分析的蛋白质从头肽测序方法中,所述得到卷积模型的方法包括:
对所述二级数据集进行格式转换,其中依次经历三次卷积层、一次Pool层和一次全连接层,以得到格式转换后的二级数据集;
将所述一级数据矩阵与所述二级数据矩阵根据离子保留时间进行关联,得到混合数据矩阵;
将格式转换后的二级数据集和所述混合数据矩阵进行融合汇总,得到卷积模型。
可选的,在所述的基于质谱分析的蛋白质从头肽测序方法中,所述对所述二级数据集进行格式转换的方法包括:
按照(128,6,1,10,23)的数据格式将所述二级数据集中的数据进行整理,得到格式转换后的二级数据集;
进行三次卷积层运算,其中每层卷积层运算使用的卷积核为(1,3,3)、(1,2,2)和(1,2,2),以得到输出格式为(128,6,1,10,64)的二级数据集;
进行Pool层运算,其中使用的卷积核为(1,2,2),以得到输出格式为(128,6,3,10,64)的二级数据集;
进行全连接层运算,其中使用的卷积核为(128,7680),以得到输出格式为(128,512)的二级数据集。
可选的,在所述的基于质谱分析的蛋白质从头肽测序方法中,所述获得多模态数据模型的方法包括:
将混合数据矩阵转换为二级谱图全峰数据矩阵,并使所述二级谱图全峰数据矩阵依次经历Pool层、2次卷积层、Pool层、调整层和全连接层,以得到与肽段序列相关联的卷积模型;
利用迁移神经网络模型对与肽段序列相关联的卷积模型进行深度学习,以获得多模态数据模型。
可选的,在所述的基于质谱分析的蛋白质从头肽测序方法中,所述得到与肽段序列相关联的卷积模型的方法包括:
按照(128,1,30000,1)的数据格式将所述混合数据矩阵进行转换,得到二级谱图全峰数据矩阵;
进行Pool层运算,其中使用的卷积核为(1,100),以得到输出格式为(128,1,3000,1)的二级谱图全峰数据矩阵;
进行2次卷积层运算,其中每次卷积层运算使用的卷积核均为(1,4),以得到输出格式为(128,1,3000,4)的二级谱图全峰数据矩阵;
进行Pool层运算,其中使用的卷积核为(1,6),以得到输出格式为(128,1,750,4)的二级谱图全峰数据矩阵;
进行调整层运算,以得到输出格式为(128,3000)的二级谱图全峰数据矩阵;
进行全连接层运算,以得到输出格式为(128,512)的二级谱图全峰数据矩阵。
可选的,在所述的基于质谱分析的蛋白质从头肽测序方法中,所述对氨基酸序列进行标准化的方法包括:
设定氨基酸序列的标准总长度;
将氨基酸序列的总长度与所述标准总长度进行对比,若所述氨基酸序列的总长度小于所述标准总长度,则使用空符将所述氨基酸序列的总长度补至所述标准总长度;
对每一氨基酸提出6种氨基酸状态,所述6种氨基酸状态包括正向标准氨基酸、负向标准氨基酸、正向缺H2O氨基酸、负向缺H2O氨基酸、正向缺NH3氨基酸和负向缺NH3氨基酸;
对总共23种氨基酸的6种氨基酸状态进行编码和分割,以对氨基酸序列进行标准化。
为解决上述技术问题,本发明还提供一种基于质谱分析的蛋白质从头肽测序系统,用于进行如上任一项所述的基于质谱分析的蛋白质从头肽测序方法,所述蛋白质从头肽测序系统包括卷积神经网络模型、迁移神经网络模型和多模态数据模型;所述卷积神经网络模型用于从原始质谱图中提取出质谱MS1数据和质谱MS2数据,并对所述质谱MS1数据和所述质谱MS2数据进行特征提取和处理;所述迁移神经网络模型用于对所述卷积神经网络模型进行深度学习;所述多模态数据模型用于利用氨基酸序列对所述卷积神经网络模型和所述迁移神经网络模型进行训练和预测,以得到肽段序列。
本发明提供的基于质谱分析的蛋白质从头肽测序方法及系统,包括卷积神经网络模型、迁移神经网络模型和多模态数据模型;所述卷积神经网络模型用于从原始质谱图中提取出质谱MS1数据和质谱MS2数据,并对所述质谱MS1数据和所述质谱MS2数据进行特征提取和处理;所述迁移神经网络模型用于对所述卷积神经网络模型进行深度学习;所述多模态数据模型用于利用氨基酸序列对所述卷积神经网络模型和所述迁移神经网络模型进行训练和预测,以得到肽段序列。通过卷积神经网络模型与迁移神经网络模型的组合,获得多模态数据模型以进行无参预测,对比传统分析方法考虑的因素更多,模型方法更为新颖;通过质谱MS1数据的离子保留时间对质谱MS2数据进行过滤及筛选,再利用迁移神经网络模型对所述卷积模型进行深度学习,使得最终可精准预测原始图谱的肽段序列,解决了如何提高蛋白质从头肽测序中无参考测序的准确性的问题。
附图说明
图1为本实施例提供的基于质谱分析的蛋白质从头肽测序方法流程图;
图2为本实施例提供的基于质谱分析的蛋白质从头肽测序系统的结构示意图;
图3为本实施例提供的质谱MS2数据的文件格式内容参考;
图4为本实施例提供的氨基酸序列编码的示意图;
图5为本实施例提供的氨基酸序列转换的示意图;
图6为本实施例提供的构建序列拟合部分的模型结构示意图;
图7为本实施例提供的多模态数据模型的结构示意图;
图8为本实施例提供的结合迁移神经网络模型进行预测的流程图;
图9为本实施例提供的模型训练的过程流程图。
具体实施方式
以下结合附图和具体实施例对本发明提出的基于质谱分析的蛋白质从头肽测序方法及系统作进一步详细说明。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。此外,附图所展示的结构往往是实际结构的一部分。特别的,各附图需要展示的侧重点不同,有时会采用不同的比例。
需要说明的是,本发明的说明书和权利要求书及附图说明中的“第一”、“第二”等是用于区别类似的对象,以便描述本发明的实施例,而不用于描述特定的顺序或先后次序,应该理解这样使用的结构在适当情况下可以互换。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本实施例提供一种基于质谱分析的蛋白质从头肽测序方法,如图1所示,包括:
获取原始质谱图,并从所述原始质谱图中提取出质谱MS1数据和质谱MS2数据,所述质谱MS1数据包括有氨基酸序列的信息,所述质谱MS2数据包括有对氨基酸序列进行裂解后断裂的碎片的质量;
利用卷积神经网络将所述质谱MS1数据进行特征提取,以获得一级数据矩阵;
利用卷积神经网络将所述质谱MS2数据进行特征提取,以获得二级数据矩阵;
根据离子保留时间将所述二级数据矩阵与所述一级数据矩阵相关联,并整合得到卷积模型;
利用迁移神经网络模型对所述卷积模型进行深度学习,以获得多模态数据模型;
根据氨基酸序列可能存在的情况对氨基酸序列进行编码和分割,以对氨基酸序列进行标准化;
利用标准化后的氨基酸序列对所述多模态数据模型进行训练和预测,以得到肽段序列。
本实施例提供的基于质谱分析的蛋白质从头肽测序方法,通过卷积神经网络模型与迁移神经网络模型的组合,获得多模态数据模型以进行无参预测,对比传统分析方法考虑的因素更多,模型方法更为新颖;通过质谱MS1数据的离子保留时间对质谱MS2数据进行过滤及筛选,再利用迁移神经网络模型对所述卷积模型进行深度学习,使得最终可精准预测原始图谱的肽段序列,解决了如何提高蛋白质从头肽测序中无参考测序的准确性的问题。
具体的,所述获取原始质谱图,并从所述原始质谱图中提取出质谱MS1数据和质谱MS2数据的方法包括:
利用分辨率为0.05、信号最大峰值为1500的质谱分析仪对蛋白质进行质谱分析以得到原始质谱图;
从所述原始质谱图中提取离子保留时间和氨基酸序列的信息作为质谱MS1数据;
从所述原始质谱图中选取峰值最大的预设个峰进行打质谱MS2图,并从所述质谱MS2图中提取离子保留时间和氨基酸序列进行裂解后断裂的碎片的质量作为质谱MS2数据。
以及,所述获得一级数据矩阵的方法包括:
将128张原始质谱图作为一个一级数据集;
对所述一级数据集进行卷积运算,以对所述质谱MS1数据进行特征提取得到一级数据矩阵,其中卷积核为(128,1,23)。
所述获得二级数据矩阵的方法包括:
将128张原始质谱图对应的128张质谱MS2图作为一个二级数据集;
对所述二级数据集进行卷积运算,以对所述质谱MS2数据进行特征提取得到二级数据矩阵,其中卷积核为(128,1,23)。
进一步的,在本实施例中,所述得到卷积模型的方法包括:
对所述二级数据集进行格式转换,其中依次经历三次卷积层、一次Pool层和一次全连接层,以得到格式转换后的二级数据集;
将所述一级数据矩阵与所述二级数据矩阵根据离子保留时间进行关联,得到混合数据矩阵;
将格式转换后的二级数据集和所述混合数据矩阵进行融合汇总,得到卷积模型。
其中,所述对所述二级数据集进行格式转换的方法包括:
按照(128,6,1,10,23)的数据格式将所述二级数据集中的数据进行整理,得到格式转换后的二级数据集;
进行三次卷积层运算,其中每层卷积层运算使用的卷积核为(1,3,3)、(1,2,2)和(1,2,2),以得到输出格式为(128,6,1,10,64)的二级数据集;
进行Pool层运算,其中使用的卷积核为(1,2,2),以得到输出格式为(128,6,3,10,64)的二级数据集;
进行全连接层运算,其中使用的卷积核为(128,7680),以得到输出格式为(128,512)的二级数据集。
以及,在本实施例中,所述获得多模态数据模型的方法包括:
将混合数据矩阵转换为二级谱图全峰数据矩阵,并使所述二级谱图全峰数据矩阵依次经历Pool层、2次卷积层、Pool层、调整层和全连接层,以得到与肽段序列相关联的卷积模型;
利用迁移神经网络模型对与肽段序列相关联的卷积模型进行深度学习,以获得多模态数据模型。
进一步的,所述得到与肽段序列相关联的卷积模型的方法包括:
按照(128,1,30000,1)的数据格式将所述混合数据矩阵进行转换,得到二级谱图全峰数据矩阵;
进行Pool层运算,其中使用的卷积核为(1,100),以得到输出格式为(128,1,3000,1)的二级谱图全峰数据矩阵;
进行2次卷积层运算,其中每次卷积层运算使用的卷积核均为(1,4),以得到输出格式为(128,1,3000,4)的二级谱图全峰数据矩阵;
进行Pool层运算,其中使用的卷积核为(1,6),以得到输出格式为(128,1,750,4)的二级谱图全峰数据矩阵;
进行调整层运算,以得到输出格式为(128,3000)的二级谱图全峰数据矩阵;
进行全连接层运算,以得到输出格式为(128,512)的二级谱图全峰数据矩阵。
在本实施例中,所述对氨基酸序列进行标准化的方法包括:
设定氨基酸序列的标准总长度;
将氨基酸序列的总长度与所述标准总长度进行对比,若所述氨基酸序列的总长度小于所述标准总长度,则使用空符将所述氨基酸序列的总长度补至所述标准总长度;
对每一氨基酸提出6种氨基酸状态,所述6种氨基酸状态包括正向标准氨基酸、负向标准氨基酸、正向缺H2O氨基酸、负向缺H2O氨基酸、正向缺NH3氨基酸和负向缺NH3氨基酸;
对总共23种氨基酸的6种氨基酸状态进行编码和分割,以对氨基酸序列进行标准化。
需要说明的是,本实施例中所述的卷积运算、深度学习等方法为本领域技术人员所熟知的,此处不再赘述。
本实施例还提供一种基于质谱分析的蛋白质从头肽测序系统,如图2所示,包括卷积神经网络模型、迁移神经网络模型和多模态数据模型;所述卷积神经网络模型用于从原始质谱图中提取出质谱MS1数据和质谱MS2数据,并对所述质谱MS1数据和所述质谱MS2数据进行特征提取和处理;所述迁移神经网络模型用于对所述卷积神经网络模型进行深度学习;所述多模态数据模型用于利用氨基酸序列对所述卷积神经网络模型和所述迁移神经网络模型进行训练和预测,以得到肽段序列。
以下,以一具体实施例说明本发明提供的基于质谱分析的蛋白质从头肽测序方法及系统的构建过程。
本实施例主要基于卷积神经网络模型CNN和迁移神经网络模型transforms,通过深度学习得到多模态模型,进而利用高性能GPU和海量大数据提供完整的端到端训练和预测解决方案。
本实施例的原理为:对于质谱生成的谱图数据进行分析,并在无参考序列的情况下预测出具体的肽段序列。由于通过质谱数据预测肽段很难,特别是没有参考序列的前提下进行组装预测,而本实施例提供的方法通过结合使用卷积神经网络模型与迁移神经网络模型,获得多模态混合进行无参预测,对比传统分析方法考虑的因素更多,模型方法更为新颖;通过质谱MS1信息的离子保留时间对质谱MS2信息进行过滤及筛选,再通过多个CNN深度学习网络对质谱MS1信息与质谱MS2信息在不同纬度进行特征提取、融合;对于输出的结果结合迁移神经网络模型与它合并预测,最终获得可以预测原始图谱的肽段序列的模型。
该系统的构建步骤包括:
第一步,载入MS2(质谱MS2数据)信息:
原始的质谱数据是raw文件,包含MS1(质谱MS1数据)及MS2(质谱MS2数据)的信息。此处我们使用的是DDA数据,DDA分析的时候会根据MS1时候的峰值进行判断是否进行MS2的提取,所以MS2都是明确的蛋白序列,因此所有MS2都可以作为输入分析的结果。我们可以直接提取所有MS2信息构建训练、测试及验证数据。
每一张MS2通过字符“BEGIN IONS”作为起始,“END IONS”作为终止信息,其中包含其他母离子质量、谱图ID及具体序列信息以及质谱MS2数据信息。
如图3所示,为给出的一种MS2的文件内容,其中“PEPMASS”是母离子质量,需要计算的氨基酸序列的质量求和后为这个质量,该信息为数值型;“CHARGE”表示是电荷数,在计算母离子质量时存在相关性,该信息为字符型,且只有1+、2+和3+这三种情况;“SCANS”表示具体的谱图信息,方便后期输出结果及与其他软件进行比较,该信息为字符型,并且需要唯一;“SEQ”为该张MS2谱图对应的具体序列信息;后续从第8行开始,通过空格分割的两列数据,分别表示MS2的x轴信息及y轴高度,具体行数不定;MS2中还可以存在RT(离子保留时间)信息,这个信息表示在质谱中存在的时间,后期可以通过蛋白序列的RT预测来分析预测出的序列是否准确,但在本实施例中并不包含该部分。
一个raw文件具有多少条谱图信息,就对应需要多少张MS2的谱图。在本实施例中,设定序列长度最多为50字符,并且氨基酸只存在20种可能性。
第二步,氨基酸序列编码转换:
将原始的序列数据进行编码,主要方便后期的数据输入,该部分可以设定序列的具体长度。因为一半氨基酸序列由于酶切或者其他方法都是片段序列,但片段长度不统一,比如有的是12个氨基酸,有的是19个。在本实施例中,设定固定长度作为预测氨基酸的总长度,如果该预测序列不到设定的总长度,则可以通过[PAD]作为弥补,[PAD]作为辅助,可以视为质量为0的氨基酸。在分析时,引入起始标记[GO]及终点标记[EOS]作为区分序列的具体信息。通过映射,将一个位置存在的氨基酸编码为512维度的序列,如图4所示。
第三步,构建方向序列,并且添加各种修饰情况:
因为峰图中的信号同时存在序列正向与序列负向,所以构建一条氨基酸序列存在两部分峰图,这里设正向的为b-,设负向的为y-;并且根据每一个氨基酸存在丢失H2O与NH3的情况,可以在为一个氨基酸的位置提出6种可能(正向正常氨基酸、负向正常氨基酸、正向缺H2O氨基酸、负向缺H2O氨基酸、正向缺NH3氨基酸和负向缺NH3氨基酸)。
根据第二步构建的[PAD]、[GO]、[EOS]等情况,一共有23种需要编码的字符,每一个存在6种可能性,具体可参见图5。
第四步,构建序列拟合部分的模型结构:
将128张谱图作为一个训练周期放入,每一个谱图的分子质量作为一个数据表,另一张表表示上一步骤每一个位置的信息,并且会分析每一个位点前后5个(一共10个)氨基酸状态。按照(128,6,1,10,23)的数据格式将所述二级数据集中的数据进行整理,其中6表示第三步对于双向的可能性,23表示20个氨基酸、起始、终止及空位符号表示。
如图6所示,构建序列拟合部分的模型结构包括三个数据转换层,将数据转换为对应格式,方便后面进行数据融合。结合卷积层将序列前后信息进重构;Pool层主要是降低数据维度,防止数据出现过拟合情况;全连接层是将数据进行汇总,最终将所有数据汇总到一张数据表格上使用。
第五步,对于每一个峰图进行编码:
因为质谱分析仪器具有最小的分辨率,在本实施例中,设定质谱的信号最大为1500、最小分辨率为0.05,如此总共需要对30000个信号进行编码。在本实施例中,每一批次数据为128个。如图7所示,首先使用Pool层降低维度,然后使用两次卷积层提取信息,然后再通过Pool降低维度后进行数据维度修改,最终达到我们需要的512维度。使数据变为512维度是为了和其他数据可以进行数据维度的融合计算。
第六步,结合迁移神经网络模型进行预测:
通过第二步的分析,可以将每一个氨基酸序列编码为512维度数据;结合第五步对于峰图信息的提取,可以将这些数据作为迁移神经网络模型的输入数据。迁移神经网络模型主要将序列数据输入,分析哪些峰图的信息具体重要性,再通过前后序列信息进行预测。输出的数据会结合第四步对于没有位点的候选结果进行多模态融合,即矩阵合并。通过考虑正负两个方向的修饰情况,数据最终进入预测部分,每一个位点会有23个分类,分别表示20种氨基酸及终止、起始等信息预测,具体过程如图8所示。
将真实数据作为输入,可以通过深度学习自动提供的参数优化将模型准确率进行提升。当训练好模型之后,预测时输入与训练一致的数据,只修改了原始谱图信息的SEQ信息。因为如果做预测,SEQ部分是未知的,提供一个序列如AAAAA作为输入即可;此外,由于模型的第一步迭代是随时数,所以不会影响结果。
在系统构建完毕后,便可以通过该系统进行蛋白质从头肽测序。
以下,参考图9,给出一个模型训练的过程。
首先,进行数据预处理:
收集一批标准样本,通过软件MaxQuant进行有参分析,获得序列的Seq文件,作为训练数据和测试数据的标准验证结果;
使用MSConvert对原始raw文件进行转码,获得需要的格式数据;
根绝MaxQuant计算出来的肽段匹配谱图,有一些谱图是没有序列对应的,这里进行过滤。
过滤完成后我们将所有的mgf文件进行合并,这个合并不会影响预测及训练结果。
然后,进行模型训练:
通过导入训练模型,调整输出模型路径,经过训练我们可以获得如下信息:
1.checkpoint:是后期方便再训练提供的文件,如果之后再载入训练数据,可以基于之前的模型再训练;
2.translate.ckpt-2400.data-00000-of-00001:为模型文件,是个二进制文件,里面保存了模型结构及结构上的参数;
3.log_file_caption_2dir.tab:日志文件。
在训练时,使用上述三个文件的信息就可以直接预测模型。
通过实际测试,2个样本需要训练4小时,12个样本需要12小时。当训练模型循环20000次左右时,在验证数据上的准确率超过40%。
综上所述,本实施例提供的基于质谱分析的蛋白质从头肽测序方法及系统,包括卷积神经网络模型、迁移神经网络模型和多模态数据模型;所述卷积神经网络模型用于从原始质谱图中提取出质谱MS1数据和质谱MS2数据,并对所述质谱MS1数据和所述质谱MS2数据进行特征提取和处理;所述迁移神经网络模型用于对所述卷积神经网络模型进行深度学习;所述多模态数据模型用于利用氨基酸序列对所述卷积神经网络模型和所述迁移神经网络模型进行训练和预测,以得到肽段序列。通过卷积神经网络模型与迁移神经网络模型的组合,获得多模态数据模型以进行无参预测,对比传统分析方法考虑的因素更多,模型方法更为新颖;通过质谱MS1数据的离子保留时间对质谱MS2数据进行过滤及筛选,再利用迁移神经网络模型对所述卷积模型进行深度学习,使得最终可精准预测原始图谱的肽段序列,解决了如何提高蛋白质从头肽测序中无参考测序的准确性的问题。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (10)

1.一种基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述蛋白质从头肽测序方法包括:
获取原始质谱图,并从所述原始质谱图中提取出质谱MS1数据和质谱MS2数据,所述质谱MS1数据包括有氨基酸序列的信息,所述质谱MS2数据包括有对氨基酸序列进行裂解后断裂的碎片的质量;
利用卷积神经网络将所述质谱MS1数据进行特征提取,以获得一级数据矩阵;
利用卷积神经网络将所述质谱MS2数据进行特征提取,以获得二级数据矩阵;
根据离子保留时间将所述二级数据矩阵与所述一级数据矩阵相关联,并整合得到卷积模型;
利用迁移神经网络模型对所述卷积模型进行深度学习,以获得多模态数据模型;
根据氨基酸序列可能存在的情况对氨基酸序列进行编码和分割,以对氨基酸序列进行标准化;
利用标准化后的氨基酸序列对所述多模态数据模型进行训练和预测,以得到肽段序列。
2.根据权利要求1所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述获取原始质谱图,并从所述原始质谱图中提取出质谱MS1数据和质谱MS2数据的方法包括:
利用分辨率为0.05、信号最大峰值为1500的质谱分析仪对蛋白质进行质谱分析以得到原始质谱图;
从所述原始质谱图中提取离子保留时间和氨基酸序列的信息作为质谱MS1数据;
从所述原始质谱图中选取峰值最大的预设个峰进行打质谱MS2图,并从所述质谱MS2图中提取离子保留时间和氨基酸序列进行裂解后断裂的碎片的质量作为质谱MS2数据。
3.根据权利要求2所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述获得一级数据矩阵的方法包括:
将128张原始质谱图作为一个一级数据集;
对所述一级数据集进行卷积运算,以对所述质谱MS1数据进行特征提取得到一级数据矩阵,其中卷积核为(128,1,23)。
4.根据权利要求3所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述获得二级数据矩阵的方法包括:
将128张原始质谱图对应的128张质谱MS2图作为一个二级数据集;
对所述二级数据集进行卷积运算,以对所述质谱MS2数据进行特征提取得到二级数据矩阵,其中卷积核为(128,1,23)。
5.根据权利要求4所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述得到卷积模型的方法包括:
对所述二级数据集进行格式转换,其中依次经历三次卷积层、一次Pool层和一次全连接层,以得到格式转换后的二级数据集;
将所述一级数据矩阵与所述二级数据矩阵根据离子保留时间进行关联,得到混合数据矩阵;
将格式转换后的二级数据集和所述混合数据矩阵进行融合汇总,得到卷积模型。
6.根据权利要求5所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述对所述二级数据集进行格式转换的方法包括:
按照(128,6,1,10,23)的数据格式将所述二级数据集中的数据进行整理,得到格式转换后的二级数据集;
进行三次卷积层运算,其中每层卷积层运算使用的卷积核为(1,3,3)、(1,2,2)和(1,2,2),以得到输出格式为(128,6,1,10,64)的二级数据集;
进行Pool层运算,其中使用的卷积核为(1,2,2),以得到输出格式为(128,6,3,10,64)的二级数据集;
进行全连接层运算,其中使用的卷积核为(128,7680),以得到输出格式为(128,512)的二级数据集。
7.根据权利要求5所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述获得多模态数据模型的方法包括:
将混合数据矩阵转换为二级谱图全峰数据矩阵,并使所述二级谱图全峰数据矩阵依次经历Pool层、2次卷积层、Pool层、调整层和全连接层,以得到与肽段序列相关联的卷积模型;
利用迁移神经网络模型对与肽段序列相关联的卷积模型进行深度学习,以获得多模态数据模型。
8.根据权利要求7所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述得到与肽段序列相关联的卷积模型的方法包括:
按照(128,1,30000,1)的数据格式将所述混合数据矩阵进行转换,得到二级谱图全峰数据矩阵;
进行Pool层运算,其中使用的卷积核为(1,100),以得到输出格式为(128,1,3000,1)的二级谱图全峰数据矩阵;
进行2次卷积层运算,其中每次卷积层运算使用的卷积核均为(1,4),以得到输出格式为(128,1,3000,4)的二级谱图全峰数据矩阵;
进行Pool层运算,其中使用的卷积核为(1,6),以得到输出格式为(128,1,750,4)的二级谱图全峰数据矩阵;
进行调整层运算,以得到输出格式为(128,3000)的二级谱图全峰数据矩阵;
进行全连接层运算,以得到输出格式为(128,512)的二级谱图全峰数据矩阵。
9.根据权利要求1所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述对氨基酸序列进行标准化的方法包括:
设定氨基酸序列的标准总长度;
将氨基酸序列的总长度与所述标准总长度进行对比,若所述氨基酸序列的总长度小于所述标准总长度,则使用空符将所述氨基酸序列的总长度补至所述标准总长度;
对每一氨基酸提出6种氨基酸状态,所述6种氨基酸状态包括正向标准氨基酸、负向标准氨基酸、正向缺H2O氨基酸、负向缺H2O氨基酸、正向缺NH3氨基酸和负向缺NH3氨基酸;
对总共23种氨基酸的6种氨基酸状态进行编码和分割,以对氨基酸序列进行标准化。
10.一种基于质谱分析的蛋白质从头肽测序系统,用于进行如权利要求1~9任一项所述的基于质谱分析的蛋白质从头肽测序方法,其特征在于,所述蛋白质从头肽测序系统包括卷积神经网络模型、迁移神经网络模型和多模态数据模型;所述卷积神经网络模型用于从原始质谱图中提取出质谱MS1数据和质谱MS2数据,并对所述质谱MS1数据和所述质谱MS2数据进行特征提取和处理;所述迁移神经网络模型用于对所述卷积神经网络模型进行深度学习;所述多模态数据模型用于利用氨基酸序列对所述卷积神经网络模型和所述迁移神经网络模型进行训练和预测,以得到肽段序列。
CN202111076065.0A 2021-09-14 2021-09-14 基于质谱分析的蛋白质从头肽测序方法及系统 Pending CN113921086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111076065.0A CN113921086A (zh) 2021-09-14 2021-09-14 基于质谱分析的蛋白质从头肽测序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111076065.0A CN113921086A (zh) 2021-09-14 2021-09-14 基于质谱分析的蛋白质从头肽测序方法及系统

Publications (1)

Publication Number Publication Date
CN113921086A true CN113921086A (zh) 2022-01-11

Family

ID=79234685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111076065.0A Pending CN113921086A (zh) 2021-09-14 2021-09-14 基于质谱分析的蛋白质从头肽测序方法及系统

Country Status (1)

Country Link
CN (1) CN113921086A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825198A (zh) * 2023-07-14 2023-09-29 湖南工商大学 基于图注意机制的肽序列标签鉴定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034586A1 (en) * 2017-07-28 2019-01-31 The Translational Genomics Research Institute Methods of Profiling Mass Spectral Data Using Neural Networks
US20190147983A1 (en) * 2017-07-17 2019-05-16 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
CN109817276A (zh) * 2019-01-29 2019-05-28 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
US20200327961A1 (en) * 2019-04-15 2020-10-15 Bruker Daltonik Gmbh Methods for determining isomeric amino acid residues of proteins and peptides
CN112927753A (zh) * 2021-02-22 2021-06-08 中南大学 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147983A1 (en) * 2017-07-17 2019-05-16 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
US20190034586A1 (en) * 2017-07-28 2019-01-31 The Translational Genomics Research Institute Methods of Profiling Mass Spectral Data Using Neural Networks
CN109817276A (zh) * 2019-01-29 2019-05-28 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
US20200327961A1 (en) * 2019-04-15 2020-10-15 Bruker Daltonik Gmbh Methods for determining isomeric amino acid residues of proteins and peptides
CN112927753A (zh) * 2021-02-22 2021-06-08 中南大学 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BOSHENG SONG等: "Pretraining model for biological sequence data", 《BRIEFINGS IN FUNCTIONAL GENOMICS》, vol. 20, no. 3, 28 May 2021 (2021-05-28) *
NGOC HIEU TRAN等: "Deep learning enables de novo peptide sequencing from data-independent-acquisition mass spectrometry", 《NATURE METHODS》, vol. 16, no. 1, 7 January 2019 (2019-01-07) *
白洁;张金松;刘倩宇;: "基于卷积网络特征迁移的小样本物体图像识别", 计算机仿真, no. 05, 15 May 2020 (2020-05-15) *
邱宁佳;王晓霞;王鹏;周思丞;王艳春;: "结合迁移学习模型的卷积神经网络算法研究", 计算机工程与应用, no. 05, 25 October 2019 (2019-10-25) *
陈冲;郑浩然;: "一种基于卷积神经网络的DIA数据预处理模型", 北京生物医学工程, no. 01, 13 February 2020 (2020-02-13) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825198A (zh) * 2023-07-14 2023-09-29 湖南工商大学 基于图注意机制的肽序列标签鉴定方法
CN116825198B (zh) * 2023-07-14 2024-05-10 湖南工商大学 基于图注意机制的肽序列标签鉴定方法

Similar Documents

Publication Publication Date Title
CN101871945B (zh) 一种利用质谱图库鉴定蛋白质及其修饰的方法
CN107328842B (zh) 基于质谱谱图的无标蛋白质定量方法
CN113362899B (zh) 一种基于深度学习的蛋白质质谱数据的分析方法及系统
CN110838340B (zh) 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法
WO1992010273A1 (en) Interpretation of mass spectra of multiply charged ions of mixtures
CN103810200B (zh) 开放式蛋白质鉴定的数据库搜索方法及其系统
US7555393B2 (en) Evaluating the probability that MS/MS spectral data matches candidate sequence data
CN113921086A (zh) 基于质谱分析的蛋白质从头肽测序方法及系统
CN110349621B (zh) 肽段-谱图匹配可信度检验方法、系统、存储介质及装置
CN101055558B (zh) 基于质谱数据同位素模式的质谱有效峰选取方法
CN113990387A (zh) 基于im-diat数据结构的应用方法及其应用
CN113567605A (zh) 质量色谱图的自动化解释模型构建方法、装置和电子设备
CN109946413B (zh) 脉冲式数据非依赖性采集质谱检测蛋白质组的方法
CN117250267A (zh) 一种新污染物非靶向筛查的高分辨质谱数据处理方法
CN114609258B (zh) 基于液相色谱-高分辨质谱的石油分子表征数据处理方法
CN114141316A (zh) 一种基于谱图分析的有机物生物毒性预测方法及系统
CN111896609B (zh) 一种基于人工智能分析质谱数据的方法
CN115221045A (zh) 一种基于多任务多视角学习的多目标软件缺陷预测方法
Sanders et al. A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data
CN114267413B (zh) 一种基于一级谱图与深度学习的色谱保留时间对齐方法
CN111739583A (zh) 基于优化数据库(Sub-Lib)的数据非依赖性质谱检测方法
KR100699437B1 (ko) 아미노산 서열 분석 장치 및 방법
CN112735532A (zh) 基于分子指纹预测的代谢物识别系统及其应用方法
CN116106464B (zh) 质谱数据质量程度或概率的控制系统、评估系统及方法
CN117877622B (zh) 基于化合物质谱信息预测化合物结构的装置、方法和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination