CN102445544A - 一种提高单同位素峰判断准确率的方法和系统 - Google Patents

一种提高单同位素峰判断准确率的方法和系统 Download PDF

Info

Publication number
CN102445544A
CN102445544A CN2010105082175A CN201010508217A CN102445544A CN 102445544 A CN102445544 A CN 102445544A CN 2010105082175 A CN2010105082175 A CN 2010105082175A CN 201010508217 A CN201010508217 A CN 201010508217A CN 102445544 A CN102445544 A CN 102445544A
Authority
CN
China
Prior art keywords
peak
bunch
isotopic
mass
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105082175A
Other languages
English (en)
Other versions
CN102445544B (zh
Inventor
袁作飞
刘超
王海鹏
付岩
孙瑞祥
贺思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201010508217.5A priority Critical patent/CN102445544B/zh
Publication of CN102445544A publication Critical patent/CN102445544A/zh
Application granted granted Critical
Publication of CN102445544B publication Critical patent/CN102445544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种提高单同位素峰判断准确率的方法和系统。所述方法,包括下列步骤:根据选定的串联质谱,确定候选同位素峰簇;根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;根据所述同位素峰簇的起止,确定单同位素峰的质量;判断是否还有串联质谱没有确定单同位素峰,若是,则返回选择新的串联质谱,确定候选同位素峰簇,否则,结束。

Description

一种提高单同位素峰判断准确率的方法和系统
技术领域
本发明涉及质谱数据预处理技术领域,特别是涉及一种提高单同位素峰判断准确率的方法和系统。
背景技术
质谱仪在蛋白质组学中有着广泛的应用。利用质谱仪可以鉴定和定量大规模的蛋白质。典型的蛋白质组学鉴定实验是:未知蛋白质样品被酶切成肽段的混合物,经液相色谱分离,进入质谱仪进行质量扫描产生一级质谱,再动态选择一些肽段的离子作为母离子,扫描母离子碎裂后碎片离子的质荷比和强度,产生串联质谱数据,提交给数据库搜索引擎(比如pFind、Mascot、SEQUEST等)鉴定出该串联质谱数据对应的肽段,再从肽段推断出对应的蛋白质。在数据库搜索中,依据母离子的单同位素峰质量过滤候选肽段。一个母离子对应一个肽段,每个肽段对应一个同位素峰簇,同位素峰簇中的第一个峰就是单同位素峰。如果把同位素峰的质量当作母离子单同位素峰的质量,在高质量精度下候选肽段中就没有正确肽段,即得不到正确的鉴定结果。所以判断母离子的单同位素峰对串联质谱的鉴定非常重要。
同位素峰的质量被当作母离子单同位素峰的质量是很常见的现象。这个问题与质谱仪中母离子的获取方式有关。目前常见的母离子获取方式是DDA(数据依赖的获取),即选择同位素峰簇中强度高的峰作为母离子碎裂窗口的中心。但单同位素峰并不一定是同位素峰簇中强度最高的。当母离子的质量大到一定值,比如1500Da时,第二个同位素峰可能比单同位素峰高。研究表明同位素峰的质量被当作母离子单同位素峰的质量的比例高达40%。同位素峰的质量被当作母离子单同位素峰质量的问题不仅严重,还充满挑战。一方面,低强度的母离子质量精度低,而且同位素峰强度分布的变化很大,和理论同位素峰强度分布不一致,两者的距离较大。另一方面,在复杂样品中容易出现多个母离子共洗脱的情况,这会导致对单同位素峰的错误解释。综上所述,在DDA的过程中或者之后,需要确定母离子的单同位素峰。
目前已有一些算法和软件来确定母离子的同位素峰簇及其单同位素峰,可以分为以下三类。第一类,基于平均氨基酸模型(averagine model)。averaginemodel的基本方法是:从蛋白序列的数据库中根据氨基酸的比例统计一个“平均氨基酸”(其分子式中的元素个数是小数),实验同位素峰簇的平均质量(实验强度分布中强度的加权平均质量)除以“平均氨基酸”的平均质量,然后用这个倍数乘以“平均氨基酸”的元素个数,并调整成整数,根据调整后的分子式计算理论同位素峰簇强度分布,计算理论同位素峰簇强度分布和实验同位素峰簇强度分布的距离;减少或增加实验同位素峰簇的平均质量(比如变化的间隔为1Da),再重复上面的过程计算距离;最后和实验同位素峰簇强度分布最近的分子式对应的单同位素峰质量就是所求的质量。
第二类,基于同位素峰的强度比值。Park等人利用同位素峰簇中两两相邻峰的比值和三个相邻峰的乘积比值来判断单同位素峰,先从数据库中统计出前面两种比值随肽段质量的分布,给出这两个分布的最大值、最小值和均值,并拟合出这三个统计值与肽段质量的关系,考虑单同位素峰簇缺失和位置不定的情况,再加上实验同位素峰簇,这三种情况下根据实验比值和拟合的比值的距离计算分数,距离近分数大,选择分数最大的情况对应的质量作为单同位素峰质量。
第三类,基于色谱流出曲线(elution profile),Cox和Mann利用同位素峰的三维信息(质荷比、强度、色谱保留时间)来判断同位素峰簇,同位素峰簇的质荷比有相近的间隔,强度随保留时间有相似的变化趋势,这两个信息可以确定候选同位素峰簇,再利用“平均氨基酸模型”判断单同位素峰。
上述三类确定母离子的同位素峰簇及其单同位素峰的方法,分别存在如下缺陷:
第一类averagine model的方法,前提假设是理论和实验同位素峰簇的强度分布相似,但是理论和实验同位素峰簇强度分布的计算都不够准确。比如理论同位素峰簇受蛋白序列数据库、化学标记或者翻译后修饰的影响,而实验同位素峰簇受仪器测量精度的影响。所以这种方法可能导致给出的单同位素峰质量和真实的质量相差几Da。对于大质量的蛋白质,这个精度可能够了,但对小质量的肽段这个精度远远不够,也就说这个方法测量肽段的单同位素峰质量会不准;
第二类同位素峰的强度比值的方法,和第一类方法比,理论同位素峰簇强度分布的计算要准确一些。因为强度比值和肽段质量的关系是肽段的固有特性,其根据天然同位素的分布可以理论计算出来,而“平均氨基酸模型”是一个假设的粗略模型,离真实的模型有一定距离。第一类和第二类方法面临的共同问题是实验同位素峰簇受仪器测量精度的影响。当所选母离子的强度低时,母离子的质量精度低,同位素峰簇的强度变化大,和理论的同位素峰簇强度分布相差较远,这两类方法都会给错单同位素峰质量。
第三类方法利用了elution profile,即谱峰的色谱流出曲线,一个谱峰不仅在当前一级质谱上出现,还可能在前后连续的一级质谱上出现,在当前一级质谱上的强度低,在其他一级质谱上的强度可能高,利用高强度谱峰的高质量精度和稳定的强度分布,可以弥补当前低强度谱峰的缺点。所以第三类方法能解决第一类和第二类方法中实验同位素峰簇不准的问题。不过Cox和Mann没有解决第一类方法中理论同位素峰簇不准的问题。
发明内容
本发明的目的在于提供一种提高单同位素峰判断准确率的方法和系统。其能够提高串联谱图的鉴定率和蛋白的覆盖率。
为实现本发明的目的而提供的一种提高单同位素峰判断准确率的方法,包括下列步骤:
步骤100.根据选定的串联质谱,确定候选同位素峰簇;
步骤200.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;
步骤300.根据所述同位素峰簇的起止,确定单同位素峰的质量;
步骤400.判断是否还有串联质谱没有确定单同位素峰,若是,则返回步骤100,否则,结束。
所述步骤100,包括下列步骤:
步骤110.根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号;
步骤120.根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;
步骤130.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170;否则,执行步骤140;
步骤140.在当前一级质谱前面的一级质谱上确定候选同位素峰簇;
步骤150.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170;否则,执行步骤160;
步骤160.在当前一级质谱后面的一级质谱上确定候选同位素峰簇;
步骤170.判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,返回步骤110;否则,执行步骤200。
所述步骤120,包括下列步骤:
步骤121.根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口;
步骤122.计算所述当前一级质谱的谱峰强度,确定噪音基线;
步骤123.扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音,把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;
步骤124.计算所述谱峰的质量间隔和强度比值来确定候选同位素峰簇。
所述步骤122,包括下列步骤:
计算所述当前一级质谱的谱峰强度的直方图,对谱峰强度进行10为底的对数运算;把直方图中频率最高的谱峰强度作为噪音基线。
对于一级质谱上的每个谱峰,它的信噪比定义为它的谱峰强度除以噪音基线。
所述噪音基线是母离子碎裂窗口内谱峰强度的中位数。
所述步骤124,包括下列步骤:
步骤1241.确定一级质谱上质荷比的范围[x-w,x+w],其中x为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;
步骤1242.依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则,第一间隔峰就是候选第二同位素峰;
步骤1243.根据同位素峰间隔继续查找其余的间隔峰,当间隔峰处小窗口内没有峰,或者间隔峰超出了母离子的质荷比窗口,查找过程结束,标记每个电荷下候选同位素峰簇中的每个峰;
步骤1244.扫描完母离子质荷比窗口内的每个峰和每种电荷得到所有的候选同位素峰簇,再检查候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。
所述步骤200,包括下列步骤:
步骤210.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇;
步骤220.判断过滤后的候选同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,执行步骤300。
所述步骤210,包括下列步骤:
步骤211.为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;
步骤212.修正所述色谱流出曲线;
步骤213.计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇。
所述步骤213,包括下列步骤:
重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值,对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,即第一个峰和第二个峰分别属于两个不同的同位素峰簇。
所述步骤300,包括下列步骤:
步骤310.对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质荷比;
步骤320.把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;
步骤330.把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;
步骤340.将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱。
所述步骤300,包括下列步骤:
把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。
为实现本发明的目的还提供一种提高单同位素峰判断准确率的系统,所述系统,包括:
候选同位素峰簇计算模块,用于根据选定的串联质谱,确定候选同位素峰簇;
同位素峰簇计算模块,用于根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;
单同位素峰的质量计算模块,用于根据所述同位素峰簇的起止,确定单同位素峰的质量;
判断模块,用于判断是否还有串联质谱没有确定单同位素峰,若是,则触发候选同位素峰簇计算模块,否则,结束计算。
所述候选同位素峰簇计算模块,包括:
扫描号获取模块,用于根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号;
当前一级质谱计算模块,用于根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;
判断子模块,用于判断所述候选同位素峰簇是否包含所选母离子,若是,则触发空簇判断模块;否则,在当前一级质谱前面或者后面的一级质谱上确定候选同位素峰簇;
空簇判断模块,用于判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,触发扫描号获取模块;否则,触发同位素峰簇计算模块。
所述当前一级质谱计算模块,包括:
碎裂窗口获取模块,用于根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口;
谱峰强度计算模块,用于计算所述当前一级质谱的谱峰强度,确定噪音基线;
噪音去除模块.用于扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;
比值计算模块,用于计算所述谱峰的质量间隔和强度比值来确定候选同位素峰簇。
所述谱峰强度计算模块计算所述当前一级质谱的谱峰强度的直方图,对谱峰强度进行10为底的对数运算;把直方图中频率最高的谱峰强度作为噪音基线。
所述比值计算模块,包括:
质荷比的范围获取模块,用于确定一级质谱上质荷比的范围[x-w,x+w],其中x为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;
间隔峰查找模块,用于依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则,第一间隔峰就是候选第二同位素峰;
同位素峰标记模块,用于根据同位素峰间隔继续查找其余的间隔峰,当间隔峰处小窗口内没有峰,或者间隔峰超出了母离子的质荷比窗口,查找过程结束,标记每个电荷下候选同位素峰簇中的每个峰;
同位素峰簇比较模块,用于检查候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。
所述同位素峰簇计算模块,包括:
候选同位素峰簇过滤模块,用于根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇;
空簇判断子模块,用于判断过滤后的候选同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,触发单同位素峰的质量计算模块。
所述候选同位素峰簇过滤模块,重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值,对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,第一个峰和第二个峰分别属于两个不同的同位素峰簇。
所述候选同位素峰簇过滤模块,包括:
色谱流出曲线重构模块,用于为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;
修正模块,修正所述色谱流出曲线;
强度比值计算模块,用于计算候选同位素峰簇内相邻峰的色谱流出曲线的强度比值;
相似度计算模块,用于计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度。
所述单同位素峰的质量计算模块,包括:
归整模块,用于对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质荷比;
归一化模块,用于把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;
单同位素峰质荷比计算模块,用于把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;
赋值模块,用于将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱。
所述单同位素峰的质量计算模块把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。
本发明的有益效果是:
1.本发明同时解决了现有技术中理论和实验同位素峰簇强度分布不准确的问题,计算噪音基线后去除噪音,减小同位素峰簇的误匹配,所以本发明准确率更高。
2.本发明除了能把串联质谱母离子赋为同位素峰的情况校正为单同位素峰,还能检测母离子碎裂窗口内的共洗脱离子,从而提高串联谱图的鉴定率和蛋白的覆盖率。
附图说明
图1是本发明的一种提高单同位素峰判断准确率的方法的步骤流程图;
图2是本发明中根据选定的串联质谱确定候选同位素峰簇的步骤流程图;
图3是本发明中根据扫描号在当前一级质谱上确定候选同位素峰簇的步骤流程图;
图4是谱峰强度的直方图;
图5是一级质谱上噪音基线以下的谱峰图。
图6是本发明中强度比值和母离子质量的约束关系图;
图7是本发明中确定候选同位素峰簇的步骤流程图;
图8是本发明中候选同位素峰簇的示意图;
图9是本发明中候选同位素峰簇的色谱流出曲线图;
图10是本发明中确定同位素峰簇的步骤流程图;
图11是本发明中根据候选同位素峰簇的色谱流出曲线的相似度和强度比值来确定同位素峰簇的步骤流程图;
图12是由两个肽段产生的色谱流出曲线图;
图13是本发明中根据同位素峰簇确定单同位素峰的质量的步骤流程图;
图14是本发明中母离子的单同位素峰质荷比和电荷图;
图15是本发明的一种提高单同位素峰判断准确率的系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种提高单同位素峰判断准确率的方法和系统进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的一种提高单同位素峰判断准确率的方法和系统,首先利用同位素峰簇内相邻峰的强度比值与肽段质量的内在关系,解决平均氨基酸模型中理论同位素峰簇强度分布不准确的问题;其次利用色谱流出曲线中高强度谱峰稳定的强度分布,弥补当前低强度谱峰强度分布不稳定的缺点;另外,通过计算强度的分布来确定噪音基线并去除噪音,减小同位素峰簇的误匹配;并根据在色谱分离中不同肽段的离子容易发生共洗脱的现象,检测母离子窗口内的共洗脱离子,从而提高串联谱图的鉴定率和蛋白的覆盖率。
下面结合上述目标详细介绍本发明的一种提高单同位素峰判断准确率的方法,图1是本发明的一种提高单同位素峰判断准确率的方法的步骤流程图,如图1所示,所述方法,包括下列步骤:
步骤100.根据选定的串联质谱,确定候选同位素峰簇;
图2是本发明中根据选定的串联质谱确定候选同位素峰簇的步骤流程图,如图2所示,所述步骤100,包括下列步骤:
步骤110.根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号;
步骤120.根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;
扫描号在所述串联质谱前的一级质谱称为当前一级质谱。
图3是本发明中根据扫描号在当前一级质谱上确定候选同位素峰簇的步骤流程图,如图3所示,所述步骤120,包括下列步骤:
步骤121.根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口;
步骤122.计算所述当前一级质谱的谱峰强度,确定噪音基线;
对于一张一级质谱,先获得谱峰强度的分布,即谱峰强度的直方图。因为最高和最低谱峰强度相差几个数量级,所以先对谱峰强度进行10为底的对数运算,图4是谱峰强度的直方图,图5是一级质谱上噪音基线以下的谱峰图,这时的谱峰强度的直方图如图4所示。把直方图中频率最高的谱峰强度作为噪音基线。在对应的一级质谱上,画出噪音基线以下的谱峰(用不同颜色表示)如图5所示。对于一级质谱上的每个谱峰,它的信噪比定义为它的谱峰强度除以噪音基线。
作为一种可实施方式,也可以把母离子碎裂窗口内谱峰强度的中位数作为噪音基线。
步骤123.扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,比如1(即噪音基线以下),以去除噪音;
把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰,比如5%,进一步排除噪音的影响。
步骤124.计算谱峰的质量间隔和强度比值来确定候选同位素峰簇;
去除噪音后,可以用两个标准来确定候选同位素峰簇。一个是候选同位素峰簇中相邻峰的质荷比相差一定间隔,即平均同位素峰间隔1.00307除以待检查的电荷数。另一个是相邻峰中后一个和前一个的强度比值满足一定约束,即强度比值和母离子质量的约束关系,图6是本发明中强度比值和母离子质量的约束关系图,如图6所示。
图7是本发明中确定候选同位素峰簇的步骤流程图,如图7所示,所述步骤124,包括下列步骤:
步骤1241.确定所述当前一级质谱上质荷比的范围[x-w,x+w],其中x为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;
步骤1242.判断质荷比的范围内的每种电荷是否全部扫描,若是,则执行步骤1249;否则,执行步骤1243;
步骤1243.扫描预设的电荷数范围内的电荷,以所述质荷比范围内的一个峰为起点,并将该起点作为候选第一同位素峰,查找和它相差一个同位素峰间隔的同位素峰;
步骤1244.判断间隔峰的周围小范围内是否没有同位素峰,若是,则检查下一个电荷,返回步骤1242;否则,选择与理论间隔值最近的同位素峰为第一间隔峰;
步骤1245.计算所述第一间隔峰和候选第一同位素峰的强度比值,判断所述强度比值是否在给定的范围内,若不在,则检查下一个电荷,返回步骤1242;否则,将所述第一间隔峰作为候选第二同位素峰;
步骤1246.将所述候选第二同位素峰作为候选第一同位素峰,查找和它相差一个所述同位素峰间隔的同位素峰;
步骤1247.判断当前电荷下,间隔峰的周围小范围内是否没有同位素峰,或者间隔峰超出了所述质荷比的范围,若是,执行步骤1248;否则,返回步骤1244;
步骤1248.结束当前电荷下的查找过程,标记当前电荷下候选同位素峰簇中的每个同位素峰。后面扫描到做了标记的峰,就跳过这个峰在这个电荷下的检查,返回步骤1242;
步骤1249.检查所述候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇。图8是本发明中候选同位素峰簇的示意图,候选同位素峰簇的确定结果如附图8所示。
步骤130.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170;否则,执行步骤140;
当碎裂窗口内谱峰的信噪比低时,可能检测不到候选同位素峰簇,或者候选同位素峰簇没有包含选定母离子。这时先到当前一级质谱前面的一级质谱上查找,如果候选同位素峰簇包含选定母离子,则结束候选同位素峰簇的检测;否则再到当前一级质谱后面的一级质谱上查找。
步骤140.在当前一级质谱前面的一级质谱上确定候选同位素峰簇;
所述步骤140中确定候选同位素峰簇的方法与步骤120的方法相同,在此不再一一赘述。
步骤150.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170;否则,执行步骤160;
步骤160.在当前一级质谱后面的一级质谱上确定候选同位素峰簇;
步骤170.所述候选同位素峰簇的查找完成之后,判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,返回步骤110;否则,执行步骤200。
步骤130和150中如果判断为是,则不为空,进入步骤170检查,必定不为空;步骤130、150和160中都会出现空的情况,如果步骤160中出现空的情况,进入步骤170检查,就为空;步骤170是进入步骤200的必查步骤。
步骤200,确定同位素峰簇;
确定候选同位素峰簇之后,单同位素峰的判断还是有困难的,因为它会受噪音的影响。一个选定的肽段(即母离子)对应一个同位素峰簇,一个同位素峰簇包括多个同位素峰,每一个同位素峰对应一条色谱流出曲线。但肽段的同位素峰簇有个特点,即同位素峰簇中每个峰都有色谱流出曲线。由于肽段同位素峰簇的每个峰几乎同时出现和消失,所以它们的色谱流出曲线的变化是相似的,几乎同时升高同时下降,图9是本发明中候选同位素峰簇的色谱流出曲线图,如图9所示。而噪音是仪器随机产生的信号,所以不会有色谱流出曲线,更不会有曲线的变化。利用色谱流出曲线的这个特性就可以区分同位素峰簇和噪音。下面介绍确定同位素峰簇的过程。
图10是本发明中确定同位素峰簇的步骤流程图,如图10所示,所述步骤200,包括下列步骤:
步骤210.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值来确定同位素峰簇;
图11是本发明中根据候选同位素峰簇的色谱流出曲线的相似度和强度比值来确定同位素峰簇的步骤流程图,如图11所示,所述步骤210,包括下列步骤:
步骤211.为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;
对于候选同位素峰簇中的一个峰,到当前一级质谱前、后的一级质谱上找是否有相应的峰,如果有相应的峰,继续向离当前一级质谱更远的一级质谱上查找。如果在某个方向上连续两个一级质谱上找不到相应的峰,就停止这个方向的查找,直到两个方向都停止,就完成了色谱流出曲线的重构,如图9所示。由于噪音没有完整的色谱流出曲线,因此后续会被过滤掉。
步骤212.修正所述色谱流出曲线;
在色谱流出曲线上可能会有多个主要的峰形。如果几个主要峰形来自不同肽段,而每个肽段的质量有差异,则对后面质量的计算是有影响的。图12是由两个肽段产生的色谱流出曲线图,如图12所示,色谱流出曲线上有两个主要的峰形,由两个肽段产生,它们在色谱流出曲线上有相近的质荷比。根据强度判断峰形有困难。原因是噪音引起的毛刺和主要的峰形之间没有明显的分界,根据强度不能正确区分主要峰形和噪音。而从质荷比上看这两个肽段还是有区别的,其中一个肽段的质荷比在一条相近的线上,另一个肽段的质荷比在另一条相近的线上。根据质荷比的均值把它们分开。其中包含当前一级质谱的主要峰形就是所要的色谱流出曲线。
213.计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度和强度比值来确定同位素峰簇;
重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值。对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值。如果余弦夹角小于一个阈值,比如0.8,或者强度比值不在如图6所示的范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,即第一个峰和第二个峰分别属于两个不同的同位素峰簇。按照上面的方法检查所有的候选同位素峰簇,就可以确定同位素峰簇。
步骤220.所述候选同位素峰簇有可能被过滤掉,判断所述过滤后的同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,执行步骤300。
确定同位素峰簇和确定同位素峰簇的起止是同一个过程。在确定同位素峰簇的过程中用了色谱流出曲线的相似度和强度比值来过滤,有可能把所有的候选同位素峰簇都过滤掉了,所以需要判断过滤后是否还有同位素峰簇。
步骤300,根据所述同位素峰簇,确定单同位素峰的质量;
图13是本发明中根据同位素峰簇确定单同位素峰的质量的步骤流程图,如图13所示,所述步骤300,包括下列步骤:
确定同位素峰簇之后,单同位素峰就确定了。这里要计算它的质量,采用同位素峰簇的强度加权平均的方法。
步骤310.对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质量,比如,把第二同位素峰的质荷比减去(2-1)*1.00307除以电荷数,把第三同位素峰的质荷比减去(3-1)*1.00307除以电荷数,等等;
步骤320.把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;
步骤330.把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;
步骤340.将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱,如附图14所示,图14是本发明中母离子的单同位素峰质荷比和电荷图。
作为一种可实施方式,也可以把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。
步骤400.判断是否还有串联质谱没有确定单同位素峰,若是,则返回步骤100,否则,结束。
相应于本发明的一种提高单同位素峰判断准确率的方法,还提供一种提高单同位素峰判断准确率的系统,图15是本发明的一种提高单同位素峰判断准确率的系统的结构图,如图15所示,所述系统,包括:
候选同位素峰簇计算模块1,用于根据选定的串联质谱,确定候选同位素峰簇;
同位素峰簇计算模块2,用于根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;
单同位素峰的质量计算模块3,用于根据所述同位素峰簇的起止,确定单同位素峰的质量;
判断模块4,用于判断是否还有串联质谱没有确定单同位素峰,若是,则触发候选同位素峰簇计算模块,否则,结束计算。
所述候选同位素峰簇计算模块1,包括:
扫描号获取模块11,用于根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号;
当前一级质谱计算模块12,用于根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;
判断子模块13,用于判断所述候选同位素峰簇是否包含所选母离子,若是,则触发空簇判断模块14;否则,在当前一级质谱前面或者后面的一级质谱上确定候选同位素峰簇;
空簇判断模块14,用于判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,触发扫描号获取模块11;否则,触发同位素峰簇计算模块2。
所述当前一级质谱计算模块12,包括:
碎裂窗口获取模块121,用于根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口;
谱峰强度计算模块122,用于计算所述当前一级质谱的谱峰强度,确定噪音基线;
噪音去除模块123.用于扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;
比值计算模块124,用于计算所述谱峰的质量间隔和强度比值来确定候选同位素峰簇。
作为一种可实施方式,谱峰强度计算模块122计算所述当前一级质谱的谱峰强度的直方图,对谱峰强度进行10为底的对数运算;把直方图中频率最高的谱峰强度作为噪音基线。
所述比值计算模块124,包括:
质荷比的范围获取模块1241,用于确定一级质谱上质荷比的范围[x-w,x+w],其中x为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;
间隔峰查找模块1242,用于依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则,第一间隔峰就是候选第二同位素峰;
同位素峰标记模块1243,用于根据同位素峰间隔继续查找其余的间隔峰,当间隔峰处小窗口内没有峰,或者间隔峰超出了母离子的质荷比窗口,查找过程结束,标记每个电荷下候选同位素峰簇中的每个峰;
同位素峰簇比较模块1244,用于检查候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。
所述同位素峰簇计算模块2,包括:
候选同位素峰簇过滤模块21,用于根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇;
较佳地,作为一种可实施方式,所述候选同位素峰簇过滤模块21,重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值,对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,即第一个峰和第二个峰分别属于两个不同的同位素峰簇。
空簇判断子模块22,用于判断过滤后的候选同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,触发单同位素峰的质量计算模块3。
所述候选同位素峰簇过滤模块21,包括:
色谱流出曲线重构模块211,用于为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;
修正模块212,修正所述色谱流出曲线;
强度比值计算模块213,用于计算候选同位素峰簇内相邻峰的色谱流出曲线的强度比值;
相似度计算模块214,用于计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度。
所述单同位素峰的质量计算模块3,包括:
归整模块31,用于对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质荷比;
归一化模块32,用于把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;
单同位素峰质荷比计算模块33,用于把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;
赋值模块34,用于将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱。
作为一种可实施方式,所述单同位素峰的质量计算模块3把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。
应用本发明的一种提高单同位素峰判断准确率的方法和系统,在Vanderbilt University Medical Center的David Tabb提供的大规模的酵母shotgun蛋白质组数据集上采用pFind和Mascot软件测试的结果表明,本确定单同位素峰方法的准确度高达99%,比现有软件MaxQuant的94%和BioWorks的89%都高。
另外,经过本确定单同位素峰方法的校准和串联质谱的鉴定,母离子原先是同位素峰的串联质谱占所有鉴定的串联质谱的31%,共洗脱母离子的串联质谱占所有鉴定的串联质谱的9%。相比于母离子原先就是单同位素峰的串联质谱,本确定单同位素峰方法的校准能多鉴定2/3,即提高了谱图鉴定率。共洗脱母离子的串联质谱比原来选择母离子的串联质谱多鉴定10%的肽段,因此,本确定单同位素峰的方法还能帮助提高蛋白覆盖率。
本发明的有益效果在于:
1.本发明同时解决了现有技术中理论和实验同位素峰簇强度分布不准确的问题,计算噪音基线后去除噪音,减小同位素峰簇的误匹配,所以本发明准确率更高。
2.本发明除了能把串联质谱母离子赋为同位素峰的情况校正为单同位素峰,还能检测母离子碎裂窗口内的共洗脱离子,从而提高串联谱图的鉴定率和蛋白的覆盖率。
通过结合附图对本发明具体实施例的描述,本发明的其它方面及特征对本领域的技术人员而言是显而易见的。
以上对本发明的具体实施例进行了描述和说明,这些实施例应被认为其只是示例性的,并不用于对本发明进行限制,本发明应根据所附的权利要求进行解释。

Claims (22)

1.一种提高单同位素峰判断准确率的方法,其特征在于,所述方法,包括下列步骤:
步骤100.根据选定的串联质谱,确定候选同位素峰簇;
步骤200.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;
步骤300.根据所述同位素峰簇的起止,确定单同位素峰的质量;
步骤400.判断是否还有串联质谱没有确定单同位素峰,若是,则返回步骤100,否则,结束。
2.根据权利要求1所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤100,包括下列步骤:
步骤110.根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号;
步骤120.根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;
步骤130.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170;否则,执行步骤140;
步骤140.在当前一级质谱前面的一级质谱上确定候选同位素峰簇;
步骤150.判断所述候选同位素峰簇是否包含所选母离子,若是,则执行步骤170;否则,执行步骤160;
步骤160.在当前一级质谱后面的一级质谱上确定候选同位素峰簇;
步骤170.判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,返回步骤110;否则,执行步骤200。
3.根据权利要求2所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤120,包括下列步骤:
步骤121.根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口;
步骤122.计算所述当前一级质谱的谱峰强度,确定噪音基线;
步骤123.扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;
步骤124.计算所述谱峰的质量间隔和强度比值来确定候选同位素峰簇。
4.根据权利要求3所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤122,包括下列步骤:
计算所述当前一级质谱的谱峰强度的直方图,对谱峰强度进行10为底的对数运算,把直方图中频率最高的谱峰强度作为噪音基线。
5.根据权利要求3所述的提高单同位素峰判断准确率的方法,其特征在于,对于一级质谱上的每个谱峰,它的信噪比定义为它的谱峰强度除以噪音基线。
6.根据权利要求3所述的提高单同位素峰判断准确率的方法,其特征在于,所述噪音基线是母离子碎裂窗口内谱峰强度的中位数。
7.根据权利要求3所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤124,包括下列步骤:
步骤1241.确定一级质谱上质荷比的范围[x-w,x+w],其中x为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;
步骤1242.依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则,第一间隔峰就是候选第二同位素峰;
步骤1243.根据同位素峰间隔继续查找其余的间隔峰,当间隔峰处小窗口内没有峰,或者间隔峰超出了母离子的质荷比窗口,查找过程结束,标记每个电荷下候选同位素峰簇中的每个峰;
步骤1244.扫描完母离子质荷比窗口内的每个峰和每种电荷得到所有的候选同位素峰簇,再检查候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。
8.根据权利要求1所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤200,包括下列步骤:
步骤210.根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇;
步骤220.判断过滤后的候选同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,执行步骤300。
9.根据权利要求8所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤210,包括下列步骤:
步骤211.为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;
步骤212.修正所述色谱流出曲线;
步骤213.计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇。
10.根据权利要求8所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤210,包括下列步骤:
重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值,对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,即第一个峰和第二个峰分别属于两个不同的同位素峰簇。
11.根据权利要求1所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤300,包括下列步骤:
步骤310.对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质荷比;
步骤320.把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;
步骤330.把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;
步骤340.将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱。
12.根据权利要求1所述的提高单同位素峰判断准确率的方法,其特征在于,所述步骤300,包括下列步骤:
把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。
13.一种提高单同位素峰判断准确率的系统,其特征在于,所述系统,包括:
候选同位素峰簇计算模块,用于根据选定的串联质谱,确定候选同位素峰簇;
同位素峰簇计算模块,用于根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值,确定同位素峰簇的起止;
单同位素峰的质量计算模块,用于根据所述同位素峰簇的起止,确定单同位素峰的质量;
判断模块,用于判断是否还有串联质谱没有确定单同位素峰,若是,则触发候选同位素峰簇计算模块,否则,结束计算。
14.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述候选同位素峰簇计算模块,包括:
扫描号获取模块,用于根据选定的串联质谱,确定所选母离子的质荷比和对应一级质谱的扫描号;
当前一级质谱计算模块,用于根据所述扫描号确定当前一级质谱,并在当前一级质谱上确定候选同位素峰簇;
判断子模块,用于判断所述候选同位素峰簇是否包含所选母离子,若是,则触发空簇判断模块;否则,在当前一级质谱前面或者后面的一级质谱上确定候选同位素峰簇;
空簇判断模块,用于判断所述候选同位素峰簇是否为空,若是,则检查下一张串联质谱,触发扫描号获取模块;否则,触发同位素峰簇计算模块。
15.根据权利要求14所述的提高单同位素峰判断准确率的系统,其特征在于,所述当前一级质谱计算模块,包括:
碎裂窗口获取模块,用于根据当前一级质谱,确定所选母离子在质谱仪中设置的碎裂窗口;
谱峰强度计算模块,用于计算所述当前一级质谱的谱峰强度,确定噪音基线;
噪音去除模块.用于扫描所述碎裂窗口内的谱峰,去掉信噪比小于一定阈值的谱峰,以去除噪音;把碎裂窗口内的最高谱峰作为参考谱峰,去掉碎裂窗口内小于参考谱峰一定比例的谱峰;
比值计算模块,用于计算所述谱峰的质量间隔和强度比值来确定候选同位素峰簇。
16.根据权利要求15所述的提高单同位素峰判断准确率的系统,其特征在于,所述谱峰强度计算模块计算所述当前一级质谱的谱峰强度的直方图,对谱峰强度进行10为底的对数运算;把直方图中频率最高的谱峰强度作为噪音基线。
17.根据权利要求15所述的提高单同位素峰判断准确率的系统,其特征在于,所述比值计算模块,包括:
质荷比的范围获取模块,用于确定一级质谱上质荷比的范围[x-w,x+w],其中x为串联质谱母离子的质荷比,w为碎裂窗口宽度的一半;
间隔峰查找模块,用于依次扫描预设的电荷数范围内的每个电荷,以质荷比窗口内的一个峰为起点作为第一同位素峰,查找和它相差一个同位素峰间隔的峰,如果间隔峰处小窗口内没有峰,检查下一个电荷;否则,选择与理论间隔值最近的峰为第一间隔峰;计算第一间隔峰和起点峰的强度比值,如果这个比值不在给定的范围内,检查下一个电荷;否则,第一间隔峰就是候选第二同位素峰;
同位素峰标记模块,用于根据同位素峰间隔继续查找其余的间隔峰,当间隔峰处小窗口内没有峰,或者间隔峰超出了母离子的质荷比窗口,查找过程结束,标记每个电荷下候选同位素峰簇中的每个峰;
同位素峰簇比较模块,用于检查候选同位素峰簇之间的包含关系,如果两个候选同位素峰簇的单同位素峰质荷比相近但电荷数存在倍数关系,低电荷的被高电荷的包含,去掉低电荷的候选同位素峰簇,得到最终的候选同位素峰簇。
18.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述同位素峰簇计算模块,包括:
候选同位素峰簇过滤模块,用于根据所述候选同位素峰簇的色谱流出曲线的相似度和强度比值过滤候选同位素峰簇;
空簇判断子模块,用于判断过滤后的候选同位素峰簇是否为空,若是,则保留含有选定母离子的候选同位素峰簇,将其作为最后的同位素峰簇;否则,触发单同位素峰的质量计算模块。
19.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述候选同位素峰簇过滤模块,重构完色谱流出曲线之后,计算相邻两个峰的相似度和强度比值,对候选同位素峰簇内的相邻峰,比较它们的色谱流出曲线,有相同保留时间点的数据留下来,它们的强度组成向量,计算这两个向量的余弦夹角作为相似度的度量值,计算后一个峰的向量之和与前一个峰的向量之和的比值作为强度比值,如果余弦夹角小于一个阈值,或者强度比值不在范围内,则同位素峰簇在当前相邻峰的第一个峰处停止,第一个峰和第二个峰分别属于两个不同的同位素峰簇。
20.根据权利要求18所述的提高单同位素峰判断准确率的系统,其特征在于,所述候选同位素峰簇过滤模块,包括:
色谱流出曲线重构模块,用于为所述候选同位素峰簇中的每一个峰重构完整的色谱流出曲线;
修正模块,修正所述色谱流出曲线;
强度比值计算模块,用于计算候选同位素峰簇内相邻峰的色谱流出曲线的强度比值;
相似度计算模块,用于计算候选同位素峰簇内相邻峰的色谱流出曲线的相似度。
21.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述单同位素峰的质量计算模块,包括:
归整模块,用于对于一张一级质谱的某个同位素峰簇,把同位素峰的质荷比减去理论同位素峰间隔的值后归整到单同位素峰的质荷比;
归一化模块,用于把所述同位素峰的强度作为权值,利用上述归整后的单同位素峰质荷比,求加权平均得到所述同位素峰簇归一化的单同位素峰质荷比,然后,对色谱流出曲线上的每张一级质谱都求归一化的单同位素峰质荷比;
单同位素峰质荷比计算模块,用于把所述色谱流出曲线的强度作为权值,利用上述色谱流出曲线上归一化的单同位素峰质荷比,求加权平均得到最终的单同位素峰质荷比;
赋值模块,用于将所述同位素峰簇的单同位素峰质荷比和电荷赋给对应的串联质谱。
22.根据权利要求13所述的提高单同位素峰判断准确率的系统,其特征在于,所述单同位素峰的质量计算模块把色谱流出曲线的强度作为权值,直接利用单同位素峰的色谱流出曲线的质荷比,求加权平均得到最终的单同位素峰质荷比。
CN201010508217.5A 2010-10-15 2010-10-15 一种提高单同位素峰判断准确率的方法和系统 Active CN102445544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010508217.5A CN102445544B (zh) 2010-10-15 2010-10-15 一种提高单同位素峰判断准确率的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010508217.5A CN102445544B (zh) 2010-10-15 2010-10-15 一种提高单同位素峰判断准确率的方法和系统

Publications (2)

Publication Number Publication Date
CN102445544A true CN102445544A (zh) 2012-05-09
CN102445544B CN102445544B (zh) 2013-10-30

Family

ID=46008246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010508217.5A Active CN102445544B (zh) 2010-10-15 2010-10-15 一种提高单同位素峰判断准确率的方法和系统

Country Status (1)

Country Link
CN (1) CN102445544B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955518A (zh) * 2014-05-06 2014-07-30 北京华泰诺安科技有限公司 一种检测物谱图与数据库谱图的匹配方法
CN104215729A (zh) * 2014-08-18 2014-12-17 中国科学院计算技术研究所 串联质谱数据母离子检测模型训练方法及母离子检测方法
CN106053834A (zh) * 2016-06-22 2016-10-26 复旦大学附属中山医院 一种基于16o/18o标记的完整糖肽相对定量方法
CN107646089A (zh) * 2015-03-06 2018-01-30 英国质谱公司 光谱分析
CN108140060A (zh) * 2015-05-29 2018-06-08 沃特世科技公司 用于处理质谱数据的技术
CN108508078A (zh) * 2017-02-23 2018-09-07 塞莫费雪科学(不来梅)有限公司 用于鉴定分子种类的元素组成的方法
CN109283238A (zh) * 2017-07-21 2019-01-29 日本株式会社日立高新技术科学 质量分析装置和质量分析方法
CN109738532A (zh) * 2018-12-31 2019-05-10 复旦大学 一种自动解析稳定同位素标记糖链定量质谱数据的方法
CN109964300A (zh) * 2016-10-07 2019-07-02 萨莫芬尼根有限责任公司 用于实时同位素识别的系统和方法
US10777397B2 (en) 2015-03-06 2020-09-15 Micromass Uk Limited Inlet instrumentation for ion analyser coupled to rapid evaporative ionisation mass spectrometry (“REIMS”) device
US10978284B2 (en) 2015-03-06 2021-04-13 Micromass Uk Limited Imaging guided ambient ionisation mass spectrometry
US11031223B2 (en) 2015-09-29 2021-06-08 Micromass Uk Limited Capacitively coupled REIMS technique and optically transparent counter electrode
US11031222B2 (en) 2015-03-06 2021-06-08 Micromass Uk Limited Chemically guided ambient ionisation mass spectrometry
US11037774B2 (en) 2015-03-06 2021-06-15 Micromass Uk Limited Physically guided rapid evaporative ionisation mass spectrometry (“REIMS”)
US11139156B2 (en) 2015-03-06 2021-10-05 Micromass Uk Limited In vivo endoscopic tissue identification tool
US11239066B2 (en) 2015-03-06 2022-02-01 Micromass Uk Limited Cell population analysis
US11264223B2 (en) 2015-03-06 2022-03-01 Micromass Uk Limited Rapid evaporative ionisation mass spectrometry (“REIMS”) and desorption electrospray ionisation mass spectrometry (“DESI-MS”) analysis of swabs and biopsy samples
US11270876B2 (en) 2015-03-06 2022-03-08 Micromass Uk Limited Ionisation of gaseous samples
US11282688B2 (en) 2015-03-06 2022-03-22 Micromass Uk Limited Spectrometric analysis of microbes
US11289320B2 (en) 2015-03-06 2022-03-29 Micromass Uk Limited Tissue analysis by mass spectrometry or ion mobility spectrometry
US11342170B2 (en) 2015-03-06 2022-05-24 Micromass Uk Limited Collision surface for improved ionisation
US11367605B2 (en) 2015-03-06 2022-06-21 Micromass Uk Limited Ambient ionization mass spectrometry imaging platform for direct mapping from bulk tissue
US11454611B2 (en) 2016-04-14 2022-09-27 Micromass Uk Limited Spectrometric analysis of plants

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6391649B1 (en) * 1999-05-04 2002-05-21 The Rockefeller University Method for the comparative quantitative analysis of proteins and other biological material by isotopic labeling and mass spectroscopy
US6537432B1 (en) * 1998-02-24 2003-03-25 Target Discovery, Inc. Protein separation via multidimensional electrophoresis
CN1773276A (zh) * 2004-11-12 2006-05-17 中国科学院计算技术研究所 用串联质谱中碎片离子的同位素峰预测离子分子式的方法
CN1836308A (zh) * 2003-06-05 2006-09-20 岛津研究所(欧洲)有限公司 利用离子阱质量分析器获得高准确度质谱的方法和利用离子阱质量分析器确定和 /或减小质量分析中化学位移的方法
US20060289735A1 (en) * 2005-05-27 2006-12-28 Atsushi Ohtake Mass spectrometric analysis method and system using the method
CN1898674A (zh) * 2003-10-20 2007-01-17 瑟诺生物科学有限责任公司 用于校准质谱仪(ms)与其它仪器系统和用于处理ms与其它数据的方法
CN101055558A (zh) * 2006-04-14 2007-10-17 中国科学院计算技术研究所 基于质谱数据同位素模式的质谱有效峰选取方法
CN101310177A (zh) * 2005-11-08 2008-11-19 国立大学法人东北大学 用质谱仪定量膜蛋白质的方法
US20080283740A1 (en) * 2007-05-16 2008-11-20 Hitachi, Ltd Mass spectrometry system and mass spectrometry method

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6537432B1 (en) * 1998-02-24 2003-03-25 Target Discovery, Inc. Protein separation via multidimensional electrophoresis
US6391649B1 (en) * 1999-05-04 2002-05-21 The Rockefeller University Method for the comparative quantitative analysis of proteins and other biological material by isotopic labeling and mass spectroscopy
CN1836308A (zh) * 2003-06-05 2006-09-20 岛津研究所(欧洲)有限公司 利用离子阱质量分析器获得高准确度质谱的方法和利用离子阱质量分析器确定和 /或减小质量分析中化学位移的方法
CN1898674A (zh) * 2003-10-20 2007-01-17 瑟诺生物科学有限责任公司 用于校准质谱仪(ms)与其它仪器系统和用于处理ms与其它数据的方法
CN1773276A (zh) * 2004-11-12 2006-05-17 中国科学院计算技术研究所 用串联质谱中碎片离子的同位素峰预测离子分子式的方法
US20060289735A1 (en) * 2005-05-27 2006-12-28 Atsushi Ohtake Mass spectrometric analysis method and system using the method
CN101310177A (zh) * 2005-11-08 2008-11-19 国立大学法人东北大学 用质谱仪定量膜蛋白质的方法
CN101055558A (zh) * 2006-04-14 2007-10-17 中国科学院计算技术研究所 基于质谱数据同位素模式的质谱有效峰选取方法
US20080283740A1 (en) * 2007-05-16 2008-11-20 Hitachi, Ltd Mass spectrometry system and mass spectrometry method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINGFEN ZHANG ET AL: "Predicting Molecular Formulas of Fragment Ions with Isotope Patterns in Tandem Mass Spectra", 《TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
孙瑞祥等: "基于质谱技术的计算蛋白质组学研究", 《中国科学(E辑:信息科学)》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955518B (zh) * 2014-05-06 2017-10-31 北京华泰诺安探测技术有限公司 一种检测物谱图与数据库谱图的匹配方法
CN103955518A (zh) * 2014-05-06 2014-07-30 北京华泰诺安科技有限公司 一种检测物谱图与数据库谱图的匹配方法
CN104215729A (zh) * 2014-08-18 2014-12-17 中国科学院计算技术研究所 串联质谱数据母离子检测模型训练方法及母离子检测方法
CN104215729B (zh) * 2014-08-18 2016-09-28 中国科学院计算技术研究所 串联质谱数据母离子检测模型训练方法及母离子检测方法
US11289320B2 (en) 2015-03-06 2022-03-29 Micromass Uk Limited Tissue analysis by mass spectrometry or ion mobility spectrometry
US11282688B2 (en) 2015-03-06 2022-03-22 Micromass Uk Limited Spectrometric analysis of microbes
US11239066B2 (en) 2015-03-06 2022-02-01 Micromass Uk Limited Cell population analysis
US11367605B2 (en) 2015-03-06 2022-06-21 Micromass Uk Limited Ambient ionization mass spectrometry imaging platform for direct mapping from bulk tissue
US11367606B2 (en) 2015-03-06 2022-06-21 Micromass Uk Limited Rapid evaporative ionisation mass spectrometry (“REIMS”) and desorption electrospray ionisation mass spectrometry (“DESI-MS”) analysis of swabs and biopsy samples
US11342170B2 (en) 2015-03-06 2022-05-24 Micromass Uk Limited Collision surface for improved ionisation
US11264223B2 (en) 2015-03-06 2022-03-01 Micromass Uk Limited Rapid evaporative ionisation mass spectrometry (“REIMS”) and desorption electrospray ionisation mass spectrometry (“DESI-MS”) analysis of swabs and biopsy samples
US10777397B2 (en) 2015-03-06 2020-09-15 Micromass Uk Limited Inlet instrumentation for ion analyser coupled to rapid evaporative ionisation mass spectrometry (“REIMS”) device
US10777398B2 (en) 2015-03-06 2020-09-15 Micromass Uk Limited Spectrometric analysis
CN107646089A (zh) * 2015-03-06 2018-01-30 英国质谱公司 光谱分析
US10978284B2 (en) 2015-03-06 2021-04-13 Micromass Uk Limited Imaging guided ambient ionisation mass spectrometry
US11139156B2 (en) 2015-03-06 2021-10-05 Micromass Uk Limited In vivo endoscopic tissue identification tool
US11270876B2 (en) 2015-03-06 2022-03-08 Micromass Uk Limited Ionisation of gaseous samples
US11031222B2 (en) 2015-03-06 2021-06-08 Micromass Uk Limited Chemically guided ambient ionisation mass spectrometry
US11037774B2 (en) 2015-03-06 2021-06-15 Micromass Uk Limited Physically guided rapid evaporative ionisation mass spectrometry (“REIMS”)
CN108140060B (zh) * 2015-05-29 2022-06-28 沃特世科技公司 用于处理质谱数据的技术
US11011359B2 (en) 2015-05-29 2021-05-18 Waters Technologies Corporation Techniques for processing of mass spectral data
CN108140060A (zh) * 2015-05-29 2018-06-08 沃特世科技公司 用于处理质谱数据的技术
US11031223B2 (en) 2015-09-29 2021-06-08 Micromass Uk Limited Capacitively coupled REIMS technique and optically transparent counter electrode
US11133164B2 (en) 2015-09-29 2021-09-28 Micromass Uk Limited Capacitively coupled REIMS technique and optically transparent counter electrode
US11454611B2 (en) 2016-04-14 2022-09-27 Micromass Uk Limited Spectrometric analysis of plants
CN106053834A (zh) * 2016-06-22 2016-10-26 复旦大学附属中山医院 一种基于16o/18o标记的完整糖肽相对定量方法
CN109964300A (zh) * 2016-10-07 2019-07-02 萨莫芬尼根有限责任公司 用于实时同位素识别的系统和方法
CN109964300B (zh) * 2016-10-07 2022-07-15 萨莫芬尼根有限责任公司 用于实时同位素识别的系统和方法
CN108508078B (zh) * 2017-02-23 2021-01-05 塞莫费雪科学(不来梅)有限公司 用于鉴定分子种类的元素组成的方法
CN108508078A (zh) * 2017-02-23 2018-09-07 塞莫费雪科学(不来梅)有限公司 用于鉴定分子种类的元素组成的方法
CN109283238A (zh) * 2017-07-21 2019-01-29 日本株式会社日立高新技术科学 质量分析装置和质量分析方法
CN109283238B (zh) * 2017-07-21 2023-02-28 日本株式会社日立高新技术科学 质量分析装置和质量分析方法
CN109738532A (zh) * 2018-12-31 2019-05-10 复旦大学 一种自动解析稳定同位素标记糖链定量质谱数据的方法
CN109738532B (zh) * 2018-12-31 2022-07-22 复旦大学 一种自动解析稳定同位素标记糖链定量质谱数据的方法

Also Published As

Publication number Publication date
CN102445544B (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
CN102445544B (zh) 一种提高单同位素峰判断准确率的方法和系统
US20220406584A1 (en) Techniques for mass spectrometry peak list computation using parallel processing
Güdel et al. Time profiles of solar radio spikes
CN101534933B (zh) 关于n维数据的离子检测和参数估计
US8017908B2 (en) Apparatus and method for identifying peaks in liquid chromatography/mass spectrometry data and for forming spectra and chromatograms
CN110838340B (zh) 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法
US20230268168A1 (en) Methods and apparatuses for deconvolution of mass spectrometry data
CN103245714B (zh) 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法
CN103959426B (zh) 用于通过质谱术识别微生物的方法
CN104136919B (zh) 多维色谱装置
US20130311109A1 (en) Peak detection method for mass spectrometry and system therefor
CN108956583A (zh) 用于激光诱导击穿光谱分析的特征谱线自动选择方法
EP2834659B1 (en) Method for substance identification from nmr spectrum
CN114487245A (zh) 一种色谱质谱分析用数据处理方法
Broersen et al. Automated, feature-based image alignment for high-resolution imaging mass spectrometry of large biological samples
CN102906851A (zh) 分析质谱的方法、计算机程序及系统
DE102019114771B4 (de) Vorläuferionen-auswahl für eine datenabhängige tandem-massenspektrometrie
CN109799379B (zh) 充电检测方法、充电检测装置和插座
GB2584934A (en) Evaluation of complex mass spectrometry data from biological samples
CN115267035A (zh) 一种色谱仪故障诊断分析方法及系统
CN111474124B (zh) 一种基于补偿的光谱波长选择方法
CN106248844A (zh) 一种肽段液相色谱保留时间预测方法及系统
CN117907511B (zh) 一种多组分重叠峰的自动化解析方法、装置及电子设备
JP7390270B2 (ja) 質量分析システム及び変換式補正方法
CN116106464B (zh) 质谱数据质量程度或概率的控制系统、评估系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant