CN112464804B - 一种基于神经网络框架的肽段信号匹配方法 - Google Patents

一种基于神经网络框架的肽段信号匹配方法 Download PDF

Info

Publication number
CN112464804B
CN112464804B CN202011349418.5A CN202011349418A CN112464804B CN 112464804 B CN112464804 B CN 112464804B CN 202011349418 A CN202011349418 A CN 202011349418A CN 112464804 B CN112464804 B CN 112464804B
Authority
CN
China
Prior art keywords
peak
signal peak
matching
signal
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011349418.5A
Other languages
English (en)
Other versions
CN112464804A (zh
Inventor
刘超
吴剑波
李阳
陈紫微
宫鹏云
郭一洁
李威铮
汤敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011349418.5A priority Critical patent/CN112464804B/zh
Publication of CN112464804A publication Critical patent/CN112464804A/zh
Application granted granted Critical
Publication of CN112464804B publication Critical patent/CN112464804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/14Classification; Matching by matching peak patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于神经网络框架的肽段信号匹配方法,该方法包括:在目标肽段的待匹配的完整色谱区间中对每个目标信号峰的待匹配峰集合进行粗打分,筛选出与每个目标信号峰待匹配的多个候选信号峰。对每个候选信号峰和对应的目标信号峰的组合进行细打分匹配,以细打分得分的最高分的组合的候选信号峰作为唯一匹配信号峰。其中,进行细打分的二层细打分网络训练为:提取目标信号峰与待匹配信号峰的11维特征向量作为输入,将配对正确与否的赋值作为输出,制作打分训练集,训练搭建的二层打分网络。该方法能够给出丰富的谱图解析结果,达到更高的肽段信号匹配精度和更快的匹配速度。

Description

一种基于神经网络框架的肽段信号匹配方法
技术领域
本发明涉及生物技术与蛋白质组学技术领域,具体而言,涉及一种基于神经网络框架的肽段信号匹配方法。
背景技术
当前,蛋白质组学常采用质谱技术进行分析。其中一种主流算法的步骤是:首先酶切蛋白质,形成肽段。接着把肽段送入质谱仪,通过绘制一级谱图来反映离子信号从无到有再消失的过程。然后根据一级谱图相关信息在保留时间窗口内进行匹配,从另一个运行程序中得到对应色谱区间的肽段信息。最后按照以上步骤分批处理到来的组分,得到相应的质谱数据集,再通过算法推得蛋白质种类以及含量。其中,一级谱图的横坐标是谱峰信号的谱峰质荷比(mass-to-charge ratio,m/z),纵坐标是谱峰强度(Intensity),同一肽段的不同分子的同位素形成多同位素模式。
现有肽段保留时间匹配软件有MaxQuant软件等,但是普遍存在运行效率低的情况,因此,不能满足当前数据处理的要求。具体地,现有匹配软件主要存在以下缺点:
1.现有软件能解析的谱图数量有限,许多谱图无法进行解析,使得肽段定量值较少,效率低下。
2.现有软件只能给出定性分析,但是不能对每个相对蛋白质定量结果给出可信度评价。需要进一步进行可靠性评估来对结果进行优化。
3.现有软件处理数据效率不高,运行时间长。
鉴于此,特提出本发明。
发明内容
本发明的目的在于提供一种基于神经网络框架的肽段信号匹配方法,以改善上述问题。
本发明是这样实现的:
本发明提供了一种基于神经网络框架的肽段信号匹配方法,其包括:
在目标肽段的待匹配的完整色谱区间中对每个目标信号峰的待匹配峰集合进行粗打分,筛选出与每个目标信号峰待匹配的多个候选信号峰。
对每个候选信号峰和对应的目标信号峰的组合进行细打分匹配,以细打分得分的最高分的组合的候选信号峰作为唯一匹配信号峰。
其中,细打分匹配是通过二层细打分网络来进行打分,二层细打分网络通过以下步骤训练得到:以目标肽段所对应的一个目标信号峰和待匹配的完整色谱区间中的一个待匹配信号峰为一个匹配峰对,在所有目标肽段所对应的目标信号峰与待匹配的完整色谱区间中,提取多个匹配峰对的11维特征向量作为输入,将配对正确与否的赋值作为输出,制作打分训练集,训练搭建的二层打分网络,得到二层细打分网络。
11维特征向量包括:
两个强度类特征向量:目标信号峰同位素峰簇的谱峰的强度和与待匹配信号峰同位素峰簇的谱峰强度和;七个信号相似度类特征向量:目标信号峰与待匹配信号峰同位素峰簇的谱峰的整体相似度;目标信号峰与待匹配信号峰之间同位素峰簇的前三谱峰的相似度;待匹配信号峰同位素峰簇内的前三谱峰之间的相似度,前三谱峰指单同位素峰,第1同位素峰以及第2同位素峰,色谱相似度的计算方法均为向量夹角余弦;两个位置类特征向量:目标信号峰与待匹配信号峰在各自样品中鉴定的时间差;目标信号峰与待匹配信号峰在各自样品中鉴定的时间差经过高斯函数进行拟合的拟合值。
本发明具有以下有益效果:通过多个匹配峰对的11维特征向量对构建的二层打分网络进行训练,使得获得的二层细打分网络能够通过输入目标信号峰和粗打分筛选的多个候选信号峰组成的多个峰对的11维特征向量来进行细打分,精确比较更为准确的配比结果,确定保留时间匹配的定位色谱区间,能够给出丰富的谱图解析结果,达到更高的肽段信号匹配精度和更快的匹配速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的重构色谱曲线的示意图;
图2和图3为本发明实施例的肽段信号匹配的实例图;
图4为本发明实施例的方法流程图;
图5为本发明实施例的目标肽段所对应的待匹配的完整色谱区间数据和目标信号峰数据;
图6为本发明实施例的打分网络结构;
图7为本发明实施例的匹配过程的流程图;
图8为本发明实施例的评价结果的散点图;
图9为本发明实施例的每一个特征在正负样本上概率分布的闵可夫斯基距离;
图10为使用本发明实施例UltraQuant的基于神经网络框架的肽段信号匹配方法所得到的肽段强度相关系数图;
图11为使用MaxQuant的基于神经网络框架的肽段信号匹配方法所得到的肽段强度相关系数图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
下面对本发明提供的一种基于神经网络框架的肽段信号匹配方法进行具体说明。
本发明的一些实施方式提供了一种基于神经网络框架的肽段信号匹配方法,其包括:
S1、在目标肽段的待匹配的完整色谱区间中对每个目标信号峰的待匹配峰集合进行粗打分,筛选出与每个目标信号峰待匹配的多个候选信号峰。
需要说明的是,数据分析目标是通过比对任意两个RAW文件,在质量和保留时间窗口内进行匹配(即色谱数据以RAW文件的形式在质量和保留时间窗口内进行匹配),然后将肽段标识从已识别的肽上转移到相邻的未测序或未识别的肽上。RAW文件中质谱本身不能反映离子信号从无到有再消失的过程,通过提取母离子在各保留时间处的峰值,绘制色谱曲线,反映信号在质谱仪中的强度变化过程。
具体地,一些实施方式中,先输入所有目标肽段所对应的目标信号峰与待匹配的完整色谱区间,然后再对每个目标信号峰的待匹配峰集合进行粗打分筛选出与每个目标信号峰待匹配的多个候选信号峰。需要说明的是,多个目标信号峰的候选信号峰的筛选是在计算机中同时进行的。
具体地,粗打分方式是:遍历待匹配峰集合,计算与目标信号峰之间的相似度。筛选候选信号峰以筛选条件为同位素峰簇余弦相似度大于0.7来进行筛选。
S2、对每个候选信号峰和对应的目标信号峰的组合进行细打分匹配,以细打分得分的最高分的组合的候选信号峰作为唯一匹配信号峰。
具体地,一些实施方式中,对每个候选信号峰和对应的目标信号峰的组合进行细打分匹配包括:将每个候选信号峰和对应的目标信号峰的组合的11维特征向量输入训练好的二层细打分网络中,对目标信号峰与多个候选信号峰之间的匹配情况进行打分,并将打分结果0×c0+1×c1进行输出,并对打分结果进行排序,其中,c0元素代表匹配失败的概率,c1元素代表匹配成功的概率。
其中,细打分匹配是通过二层细打分网络来进行打分,二层细打分网络通过以下步骤训练得到:以目标肽段所对应的一个目标信号峰和待匹配的完整色谱区间中的一个待匹配信号峰为一个匹配峰对,在所有目标肽段所对应的目标信号峰与待匹配的完整色谱区间中,提取多个匹配峰对的11维特征向量作为输入,将配对正确与否的赋值作为输出,制作打分训练集,训练搭建的二层打分网络,得到二层细打分网络。
其中,11维特征向量包括:两个强度类特征向量:目标信号峰同位素峰簇的谱峰的强度和与待匹配信号峰同位素峰簇的谱峰强度和;七个信号相似度类特征向量:目标信号峰与待匹配信号峰同位素峰簇的谱峰的整体相似度;目标信号峰与待匹配信号峰之间同位素峰簇的前三谱峰的相似度;待匹配信号峰同位素峰簇内的前三谱峰之间的相似度,前三谱峰指单同位素峰,第1同位素峰以及第2同位素峰,色谱相似度的计算方法均为向量夹角余弦;两个位置类特征向量:目标信号峰与待匹配信号峰在各自样品中鉴定的时间差;目标信号峰与待匹配信号峰在各自样品中鉴定的时间差经过高斯函数进行拟合的拟合值。
通过上述11维特征向量的选择,使得其能够准确较为客观的反映出目标信号峰和待匹配信号峰之间的匹配性,进而再对通过大量数据构建的二层打分网络进行训练,即可得到能够准确评价匹配性能的细打分模型(即二层细打分网络)。
一些实施方式中,制作打分训练集的步骤包括:主要通过计算待匹配信号峰与目标信号峰之间的同位素峰簇余弦相似度、ratio值、和竞争峰之间的cos值差以及待匹配信号峰距离中心的位置来进行筛选,筛选出至少300个保证准确率的正确的匹配峰对,标注为正确,形成标注集合的正样本;其中,ratio为待匹配信号峰与目标信号峰之间同位素峰簇强度和比值。
以正样本中待匹配信号峰集合中的正确匹配信号峰为最高标准,在除去正确匹配信号峰的待匹配信号峰集合中进行筛选,提取与其具有最小差距的错误的匹配信号峰,筛选出至少300个保证错误率的错误的匹配峰对,标注为错误,形成标注集合的负样本。
通过大量正负样本的集合提取的大量11维特征向量能够充分对二层打分网络进行训练,得到可靠的二层细打分网络。
进一步地,一些实施方式中,筛选正确的匹配峰对包括:判断是否同时满足以下条件:待匹配信号峰与目标信号峰之间的同位素峰簇余弦相似>0.9;ratio<1.3;和竞争峰之间的cos值差>0.05;待匹配信号峰距离中心的位置<完整区间长度的10%,同时满足四个条件的待匹配信号峰为正确匹配信号峰。通过以上条件的设置,可以使得上述正负样本的可靠性得到保证。需要说明的是,根据需要还可以设置一些其他指标,以满足所有指标来确定正确匹配信号峰。
需要说明的是,训练搭建的二层打分网络采用两层神经网络,激活函数依次采用ReLU和Softmax,损失函数采用交叉熵,优化器采用SGD,调整好相应参数,然后进行训练,直到loss曲线下降至平稳。其中,除11维特征向量的选取以及正负样本的构建等,其他相关二层神经网络的构建和训练涉及的技术为本领域技术人员所知悉的公知技术。
进一步地,一些实施方式中,该基于神经网络框架的肽段信号匹配方法还包括以下步骤:
S3、对目标肽段对应的所有目标信号峰筛选得到的唯一匹配信号峰构成的定位色谱区间进行可信度评价,其中,可信度评价通过将目标信号峰和对应的已匹配的唯一匹配信号峰的23维特征向量输入训练后的评价神经网络进行评价。
具体地,23维特征向量包括:两个强度类:目标信号峰同位素峰簇内的谱峰的强度和与唯一匹配信号峰同位素峰簇内的谱峰的强度和。七个信号相似度类:目标信号峰与已匹配信号峰同位素峰簇的谱峰的整体相似度;目标信号峰与唯一匹配信号峰之间同位素峰簇的前三谱峰的相似度;唯一匹配信号峰同位素峰簇内的前三谱峰之间的相似度,前三谱峰指单同位素峰,第1同位素峰以及第2同位素峰,色谱相似度的计算方法均为向量夹角余弦。两个位置类:目标信号峰与唯一匹配信号峰在各自样品中鉴定的时间差,目标信号峰与唯一匹配信号峰在各自样品中鉴定的时间差经过高斯函数进行拟合的拟合值;一个匹配信号峰类:唯一匹配信号峰的细打分值。六个竞争候选信号峰类:候选信号峰的数量、唯一匹配信号峰与和它竞争最大的候选信号峰的余弦相似度差、谱峰强度比值差、位置差、细打分差。四个强度比值类:唯一匹配信号峰与目标信号峰峰簇内的谱峰的整体强度比值、唯一匹配信号峰与目标信号峰前三谱峰的强度比值。两个色谱保留曲线长度类:完整色谱区间长度,目标信号峰色谱区间长度。
通过重新构建和训练的二层神经网络可以更为准确地对定位色谱区间进行可靠性评价,使得整个便于对保留时间匹配过程进行检验和校正。一般认为可性度评价得分在0.9以上较为准确,在0.7以下不准确。
进一步地,一些实施方式中,评价神经网络通过以下步骤训练得到:通过将每个目标信号峰和对应的多个候选信号峰的组合的多个匹配峰对都进行细打分,筛选出保证正确率的至少300个匹配峰对和保证错误率的至少300个匹配峰对,分别标注正确或错误,形成标注集合的正负样本;提取标注集合中的匹配峰对的23维特征向量作为输入,将配对正确与否的赋值作为输出,制作评价训练集,训练搭建的评价神经网络。同样地,训练评价神经网络,网络结构与训练过程和二层细打分网络相同。即训练搭建的评价神经网络采用两层神经网络,激活函数依次采用ReLU和Softmax,损失函数采用交叉熵,优化器采用SGD,调整好相应参数,然后进行训练,直到loss曲线下降至平稳。
需要说明的是,一些其他方式中,如果采用不提取特征,将打分训练网络改为使输入图像尺寸不受限制卷积神经网络SPPNet。网络将变得更加复杂,速度降低,效率减少。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
实施例
本实施例样本iPRG的原始数据RAW文件由iPRG官方统一提供。文章链接如下:https://pubs.acs.org/doi/abs/10.1021/acs.jproteome.6b00881。
本次数据分析目标是通过比对任意两个RAW文件,在质量和保留时间窗口内进行匹配,然后将肽段标识从已识别的肽上转移到相邻的未测序或未识别的肽上。RAW文件中质谱本身不能反映离子信号从无到有再消失的过程,通过提取母离子在各保留时间处的峰值,绘制色谱曲线,反映信号在质谱仪中的强度变化过程。如图1所示,右图为重构色谱曲线。
将匹配后已匹配信号峰与目标信号峰之间同位素峰簇强度和比值定义为ratio。图2展示了结果表现较好的谱图对应的色谱曲线(ratio约等于1),以及图3展示了结果表现较差的谱图对应的色谱曲线(ratio与1相差较大),也就是定位到的色谱峰存在偏差现象,这个会导致计算的强度信息不可比,从而导致定量结果的偏差。
本实施例提供的蛋白质组学基于神经网络框架的肽段信号匹配方法参见图4所示的流程图进行。
步骤1:输入所有目标肽段所对应的目标信号峰与待匹配的完整色谱区间。输入的数据示意图如图5所示。
步骤2:以一对目标信号峰与待匹配的完整色谱区间为例,在完整色谱区间中对所有待匹配信号峰集合进行粗打分,筛选出多个候选信号峰。在操作过程中,是将所有对目标信号峰与待匹配的完整色谱区间在计算机中同时进行的。
具体操作为:遍历待匹配信号峰集合,计算与目标信号峰之间的相似度筛选出候选信号峰,筛选条件为同位素峰簇余弦相似度大于0.7。
步骤3:对所有候选信号峰与目标信号峰分别进行细打分匹配,根据打分最终确定唯一一个匹配信号峰。
其中细打分模型训练步骤如下:提取目标信号峰与待匹配信号峰的11维特征向量作为输入,将配对正确与否的赋值作为输出,制作打分训练集,训练搭建的二层打分网络,得到二层细打分网络。
具体地,步骤3的操作包括以下详细步骤:
1.制作打分训练集的正例:对于待匹配信号峰集合通过计算与目标信号峰之间的同位素峰簇余弦相似度大于0.9和其他指标:ratio<1.3、和竞争峰之间的cos值差>0.05、待匹配信号峰距离中心的位置<完整区间长度的10%来进行筛选。筛选出可以保证准确率的300个目标信号峰与正确匹配信号峰对,标注为正确,形成标注集合的正样本。
2.制作打分训练集的负例:以正例中待匹配信号峰集合中的正确匹配信号峰为最高标准,在除去正确匹配信号峰的待匹配信号峰集合中进行筛选,截取与其具有较小差距的错误候选信号峰。筛选出可以保证错误率且具有丰富错误类型的300个目标信号峰与错误匹配信号峰对,将其标注为错误,形成标注集合的负样本。
3.对每一对目标信号峰与待匹配信号峰提取11维特征向量,其包括三类,如表1所示,具体分别是:两个强度类特征向量:目标信号峰同位素峰簇的谱峰的强度和与待匹配信号峰同位素峰簇的谱峰强度和;七个信号相似度类特征向量:目标信号峰与待匹配信号峰同位素峰簇的谱峰的整体相似度;目标信号峰与待匹配信号峰之间同位素峰簇的前三谱峰的相似度;待匹配信号峰同位素峰簇内的前三谱峰之间的相似度,前三谱峰指单同位素峰,第1同位素峰以及第2同位素峰,色谱相似度的计算方法均为向量夹角余弦;两个位置类特征向量:目标信号峰与待匹配信号峰在各自样品中鉴定的时间差;目标信号峰与待匹配信号峰在各自样品中鉴定的时间差经过高斯函数进行拟合的拟合值。
表1训练打分网络提取的11维特征
Figure BDA0002800833370000111
4.训练打分网络,网络采用两层神经网络,激活函数依此采用ReLU和Softmax,损失函数采用交叉熵,优化器采用SGD,调整好相应参数,然后进行训练,直到loss曲线下降至平稳。网络结构如图6所示。
5.分别提取一对目标信号峰与多个候选信号峰对之间的相应11维特征向量。
6.将特征向量输入经过训练的打分神经网络(即二层细打分网络),对进行打分排序,得分最高所对应候选信号峰为最终的唯一匹配信号峰。匹配过程流程图如图7所示。在匹配运行模块中,上面的框中标注出目标信号峰,下面用两个或多个的框标注出候选信号峰,目标信号峰与多个的候选信号峰组成多个峰对。
在特征提取模块中,分别提取多个峰对的特征,包含三类:强度类、信号相似度类、位置类,组合成多个11维特征向量features。
在神经网络模块中,将上一模块中提取的多个features输入进训练好的神经网络,对目标信号峰与多个的候选信号峰之间的匹配情况进行打分,并将打分0×c0+1×c1进行输出(c0元素代表匹配失败的概率,c1元素代表匹配成功的概率)。
在结果模块中,将上一模块中输出的打分结果进行排序,得分最高所对应候选信号峰为最终的唯一匹配信号峰。
步骤4:对最终定位色谱区间进行可信度评价。其中可信度模型训练步骤如下:提取目标信号峰与已匹配的信号峰的23维特征向量作为输入,将配对正确与否的赋值作为输出,制作评价训练集,训练搭建二层评价网络。
具体地,步骤4的操作如下:
1.制作评价训练集的正负例:对于所有匹配结果通过细打分进行一定程度的筛选。分别筛选出可靠性高和可靠性低的300个匹配结果,标注为正确或者错误,形成标注集合的正负样本。
2.提取23维特征包括六类,如表2所示,具体分别是:
两个强度类:目标信号峰同位素峰簇内的谱峰的强度和与唯一匹配信号峰同位素峰簇内的谱峰的强度和。
七个信号相似度类:目标信号峰与已匹配信号峰同位素峰簇的谱峰的整体相似度;目标信号峰与唯一匹配信号峰之间同位素峰簇的前三谱峰的相似度;唯一匹配信号峰同位素峰簇内的前三谱峰之间的相似度,前三谱峰指单同位素峰,第1同位素峰以及第2同位素峰,色谱相似度的计算方法均为向量夹角余弦。
两个位置类:目标信号峰与唯一匹配信号峰在各自样品中鉴定的时间差,目标信号峰与唯一匹配信号峰在各自样品中鉴定的时间差经过高斯函数进行拟合的拟合值;
一个匹配信号峰类:唯一匹配信号峰的细打分值。
六个竞争候选信号峰类:候选信号峰的数量、唯一匹配信号峰与和它竞争最大的候选信号峰的余弦相似度差、谱峰强度比值差、位置差、细打分差。
四个强度比值类:唯一匹配信号峰与目标信号峰峰簇内的谱峰的整体强度比值、唯一匹配信号峰与目标信号峰前三谱峰的强度比值。
两个色谱保留曲线长度类:完整色谱区间长度,目标信号峰色谱区间长度。
表2训练评价网络提取的23维特征
Figure BDA0002800833370000131
3.训练评价网络,网络结构与训练过程和打分网络相同。
4.评价神经网络训练后的模型相当于一个评价函数,输入目标信号峰与已匹配信号峰,可以利用评价函数对所有的匹配结果进行评价。评价结果的散点图如图8所示。
进一步地,对每一个特征在正负样本上概率分布的闵可夫斯基距离进行分析,结果如图9所示。可知,目标信号峰与待匹配信号峰整体相似度、目标信号峰与待匹配信号峰绝对位置差,以及目标信号峰与待匹配信号峰高斯拟合相对位置差这三个特征对于正负样本区分能力最强。
将本发明实施例得到的UltraQuant与现有MaxQuant软件进行比较,结果为表3所示。将UltraQuant与MaxQuant肽段定量强度为0的部分定义为非数,即匹配失败。对比MaxQuant和UltraQuant可以看出,UltraQuant非数比MaxQuant少很多,说明UltraQuant具有丰富的谱图解析结果,效率更高。
表3 UltraQuant和MaxQuant非数比较
Figure BDA0002800833370000141
在六份样品中计算一个样品与其他五份样本之间的肽段强度皮尔逊相关系数图,UltraQuant与MaxQuant的结果依次如图10和图11所示。通过比较图10和图11,可以看出UltraQuant匹配后样品间的肽段强度皮尔逊相关系数整体上比MaxQuant匹配后样品间的肽段强度皮尔逊相关系数大,由于六份样品肽段比例大多应为1:1,说明UltraQuant检测到的肽段更准确,肽段信号匹配正确率更好,本发明实施例的方法肽段信号匹配精度更高。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于神经网络框架的肽段信号匹配方法,其特征在于,其包括:
在目标肽段的待匹配的完整色谱区间中对每个目标信号峰的待匹配峰集合进行粗打分,筛选出与每个所述目标信号峰待匹配的多个候选信号峰;
对每个所述候选信号峰和对应的所述目标信号峰的组合进行细打分匹配,以细打分得分的最高分的组合的候选信号峰作为唯一匹配信号峰;
其中,所述细打分匹配是通过二层细打分网络来进行打分,所述二层细打分网络通过以下步骤训练得到:以目标肽段所对应的目标信号峰和待匹配的完整色谱区间中的一个待匹配信号峰为一个匹配峰对,在所有目标肽段所对应的目标信号峰与待匹配的完整色谱区间中,提取多个所述匹配峰对的11维特征向量作为输入,将配对正确与否的赋值作为输出,以制作打分训练集,训练搭建的二层打分网络,得到二层细打分网络;
所述11维特征向量包括:
两个强度类特征向量:目标信号峰同位素峰簇的谱峰的强度和与待匹配信号峰同位素峰簇的谱峰强度和;
七个信号相似度类特征向量:目标信号峰与待匹配信号峰同位素峰簇的谱峰的整体相似度;目标信号峰与待匹配信号峰之间同位素峰簇的前三谱峰的相似度;待匹配信号峰同位素峰簇内的前三谱峰之间的相似度,前三谱峰指单同位素峰,第1同位素峰以及第2同位素峰,色谱相似度的计算方法均为向量夹角余弦;
两个位置类特征向量:目标信号峰与待匹配信号峰在各自样品中鉴定的时间差;目标信号峰与待匹配信号峰在各自样品中鉴定的时间差经过高斯函数进行拟合的拟合值。
2.根据权利要求1所述的基于神经网络框架的肽段信号匹配方法,其特征在于,制作打分训练集的步骤包括:主要通过计算待匹配信号峰与目标信号峰之间的同位素峰簇余弦相似度、ratio值、和竞争峰之间的cos值差以及待匹配信号峰距离中心的位置来进行筛选,筛选出至少300个保证准确率的正确的匹配峰对,标注为正确,形成标注集合的正样本;其中,ratio为待匹配信号峰与目标信号峰之间同位素峰簇强度和比值;
以正样本中待匹配信号峰集合中的正确匹配信号峰为最高标准,在除去正确匹配信号峰的待匹配信号峰集合中进行筛选,提取与其具有最小差距的错误的匹配信号峰,筛选出至少300个保证错误率的错误的匹配峰对,标注为错误,形成标注集合的负样本。
3.根据权利要求2所述的基于神经网络框架的肽段信号匹配方法,其特征在于,筛选正确的匹配峰对包括:判断是否同时满足以下条件:待匹配信号峰与目标信号峰之间的同位素峰簇余弦相似>0.9;ratio<1.3;和竞争峰之间的cos值差>0.05;待匹配信号峰距离中心的位置<完整区间长度的10%,同时满足四个条件的待匹配信号峰为正确匹配信号峰。
4.根据权利要求3所述的基于神经网络框架的肽段信号匹配方法,其特征在于,色谱数据以RAW文件的形式在质量和保留时间窗口内进行匹配,然后将肽段标识从已识别的肽上转移到相邻的未测序或未识别的肽上,通过提取母离子在各保留时间处的峰值,绘制色谱曲线,反映信号在质谱仪中的强度变化过程。
5.根据权利要求1~4任一项所述的基于神经网络框架的肽段信号匹配方法,其特征在于,训练搭建的二层打分网络采用两层神经网络,激活函数依次采用ReLU和Softmax,损失函数采用交叉熵,优化器采用SGD,调整好相应参数,然后进行训练,直到loss曲线下降至平稳。
6.根据权利要求1~4任一项所述的基于神经网络框架的肽段信号匹配方法,其特征在于,对每个所述候选信号峰和对应的所述目标信号峰的组合进行细打分匹配包括:将每个所述候选信号峰和对应的所述目标信号峰的组合的11维特征向量输入训练好的二层细打分网络中,对所述目标信号峰与多个所述候选信号峰之间的匹配情况进行打分,并将打分结果0×c0+1×c1进行输出,并对打分结果进行排序,其中,c0元素代表匹配失败的概率,c1元素代表匹配成功的概率。
7.根据权利要求1~4任一项所述的基于神经网络框架的肽段信号匹配方法,其特征在于,进行粗打分包括:遍历所述待匹配峰集合,计算与目标信号峰之间的相似度筛选出候选信号峰,筛选条件为同位素峰簇余弦相似度大于0.7。
8.根据权利要求1~4任一项所述的基于神经网络框架的肽段信号匹配方法,其特征在于,对目标肽段对应的所有目标信号峰筛选得到的唯一匹配信号峰构成的定位色谱区间进行可信度评价,其中,可信度评价通过将所述目标信号峰和对应的已匹配的唯一匹配信号峰的23维特征向量输入训练后的评价神经网络进行评价;
所述23维特征向量包括:
两个强度类:目标信号峰同位素峰簇内的谱峰的强度和与唯一匹配信号峰同位素峰簇内的谱峰的强度和;
七个信号相似度类:目标信号峰与已匹配信号峰同位素峰簇的谱峰的整体相似度;目标信号峰与唯一匹配信号峰之间同位素峰簇的前三谱峰的相似度;唯一匹配信号峰同位素峰簇内的前三谱峰之间的相似度,前三谱峰指单同位素峰,第1同位素峰以及第2同位素峰,色谱相似度的计算方法均为向量夹角余弦;
两个位置类:目标信号峰与唯一匹配信号峰在各自样品中鉴定的时间差,目标信号峰与唯一匹配信号峰在各自样品中鉴定的时间差经过高斯函数进行拟合的拟合值;
一个匹配信号峰类:唯一匹配信号峰的细打分值;
六个竞争候选信号峰类:候选信号峰的数量、唯一匹配信号峰与和它竞争最大的候选信号峰的余弦相似度差、谱峰强度比值差、位置差、细打分差;
四个强度比值类:唯一匹配信号峰与目标信号峰峰簇内的谱峰的整体强度比值、唯一匹配信号峰与目标信号峰前三谱峰的强度比值;
两个色谱保留曲线长度类:完整色谱区间长度,目标信号峰色谱区间长度。
9.根据权利要求8所述的基于神经网络框架的肽段信号匹配方法,其特征在于,评价神经网络通过以下步骤训练得到:
通过将每个所述目标信号峰和对应的多个候选信号峰的组合的多个匹配峰对都进行细打分,筛选出保证正确率的至少300个匹配峰对和保证错误率的至少300个匹配峰对,分别标注正确或错误,形成标注集合的正负样本;
提取标注集合中的匹配峰对的23维特征向量作为输入,将配对正确与否的赋值作为输出,制作评价训练集,训练搭建的评价神经网络。
10.根据权利要求9所述的基于神经网络框架的肽段信号匹配方法,其特征在于,训练搭建的评价神经网络采用两层神经网络,激活函数依次采用ReLU和Softmax,损失函数采用交叉熵,优化器采用SGD,调整好相应参数,然后进行训练,直到loss曲线下降至平稳。
CN202011349418.5A 2020-11-26 2020-11-26 一种基于神经网络框架的肽段信号匹配方法 Active CN112464804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011349418.5A CN112464804B (zh) 2020-11-26 2020-11-26 一种基于神经网络框架的肽段信号匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011349418.5A CN112464804B (zh) 2020-11-26 2020-11-26 一种基于神经网络框架的肽段信号匹配方法

Publications (2)

Publication Number Publication Date
CN112464804A CN112464804A (zh) 2021-03-09
CN112464804B true CN112464804B (zh) 2022-05-24

Family

ID=74808825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011349418.5A Active CN112464804B (zh) 2020-11-26 2020-11-26 一种基于神经网络框架的肽段信号匹配方法

Country Status (1)

Country Link
CN (1) CN112464804B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115112778B (zh) * 2021-03-19 2023-08-04 复旦大学 一种疾病蛋白质生物标志物鉴定方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495127A (zh) * 2011-11-11 2012-06-13 暨南大学 一种基于概率统计模型的蛋白质二级质谱鉴定方法
CN106529207A (zh) * 2016-10-08 2017-03-22 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法
CN106529204A (zh) * 2016-10-18 2017-03-22 中国科学院计算技术研究所 一种基于半监督学习的交联质谱多谱排序方法
CN107563148A (zh) * 2017-08-16 2018-01-09 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法与系统
CN107622184A (zh) * 2017-09-29 2018-01-23 中国科学院计算技术研究所 氨基酸可信度和修饰位点定位的评估方法
CN110277136A (zh) * 2019-07-05 2019-09-24 湖南大学 蛋白质序列数据库并行搜索鉴定方法与装置
CN110349621A (zh) * 2019-06-04 2019-10-18 中国科学院计算技术研究所 肽段-谱图匹配可信度检验方法、系统、存储介质及装置
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11644470B2 (en) * 2019-04-15 2023-05-09 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing using deep learning and spectrum pairs

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495127A (zh) * 2011-11-11 2012-06-13 暨南大学 一种基于概率统计模型的蛋白质二级质谱鉴定方法
CN106529207A (zh) * 2016-10-08 2017-03-22 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法
CN106529204A (zh) * 2016-10-18 2017-03-22 中国科学院计算技术研究所 一种基于半监督学习的交联质谱多谱排序方法
CN107563148A (zh) * 2017-08-16 2018-01-09 中国科学院计算技术研究所 一种基于离子索引的整体蛋白质鉴定方法与系统
CN107622184A (zh) * 2017-09-29 2018-01-23 中国科学院计算技术研究所 氨基酸可信度和修饰位点定位的评估方法
CN110349621A (zh) * 2019-06-04 2019-10-18 中国科学院计算技术研究所 肽段-谱图匹配可信度检验方法、系统、存储介质及装置
CN110277136A (zh) * 2019-07-05 2019-09-24 湖南大学 蛋白质序列数据库并行搜索鉴定方法与装置
CN110689920A (zh) * 2019-09-18 2020-01-14 上海交通大学 一种基于深度学习的蛋白质-配体结合位点预测算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
pepReap:基于支持向量机的肽鉴定算法;王海鹏 等;《计算机研究与发展》;20051231(第09期);全文 *
一种基于卷积神经网络的DIA数据预处理模型;陈冲等;《北京生物医学工程》;20200229;第39卷(第01期);全文 *
串联质谱谱库搜索鉴定技术综述;王耀君 等;《计算机工程》;20120430;第38卷(第7期);全文 *
基于多头注意力机制和残差神经网络的肽谱匹配打分算法;闵鑫 等;《计算机应用》;20200610(第06期);全文 *

Also Published As

Publication number Publication date
CN112464804A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
US8975577B2 (en) System and method for grouping precursor and fragment ions using selected ion chromatograms
Ahmed et al. Enhanced feature selection for biomarker discovery in LC-MS data using GP
CN107328842B (zh) 基于质谱谱图的无标蛋白质定量方法
Lee et al. Megavariate data analysis of mass spectrometric proteomics data using latent variable projection method
JP5299060B2 (ja) 糖ペプチド構造解析方法及び装置
CN104076115A (zh) 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN105334279A (zh) 一种高分辨质谱数据的处理方法
CN112824894B (zh) 糖肽解析装置
CN112464804B (zh) 一种基于神经网络框架的肽段信号匹配方法
US20050206363A1 (en) Method for clustering signals in spectra
CN104182658B (zh) 一种串联质谱谱图鉴定方法
CN103890578A (zh) 用于对n-连接糖肽进行高通量识别和定量的生物信息学平台
US9947519B2 (en) Computational method and system for deducing sugar chains using tandem MSn spectrometry data
US7230235B2 (en) Automatic detection of quality spectra
CN111537659A (zh) 一种筛选生物标志的方法
CN112326769B (zh) 一种鉴定完整糖肽上n-糖链分支结构的方法
Fung et al. Bioinformatics approaches in clinical proteomics
US20230410947A1 (en) Systems and methods for rapid microbial identification
CN114783539A (zh) 一种基于光谱聚类的中药成分分析方法及系统
US11495323B2 (en) Microbial classification of a biological sample by analysis of a mass spectrum
CN114067169A (zh) 一种基于卷积神经网络的拉曼光谱分析方法
CN114267413B (zh) 一种基于一级谱图与深度学习的色谱保留时间对齐方法
Zohora et al. PointIso: Point Cloud Based Deep Learning Model for Detecting Arbitrary-Precision Peptide Features in LC-MS Map through Attention Based Segmentation
CN110797083B (zh) 基于多网络的生物标志物识别方法
CN117347466A (zh) 基于多级质谱技术鉴定糖链混合物的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant