CN111758029A

CN111758029A - 用于糖肽鉴定的方法、装置和计算机可读介质

Info

Publication number: CN111758029A
Application number: CN201980015408.7A
Authority: CN
Inventors: 朱森发; T·阮-孔; P·M·鲁德
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2018-02-27
Filing date: 2019-02-21
Publication date: 2020-10-09
Anticipated expiration: 2039-02-21
Also published as: WO2019168468A1; EP3759481A1; CN111758029B; SG11202005497XA; US20210164947A1; US11378558B2; EP3759481A4

Abstract

方法鉴定样品中的糖肽。该方法包括将样品的MS1前体的质谱转换为图中的多于一个节点，每个节点对应样品中待鉴定的糖肽的一个质量和一个保留时间；计算节点对的所有组合之间的质量和/或保留时间的差异；生成节点的图论网络；并基于节点的图论网络预测样品中糖肽的组成，以鉴定糖肽。

Description

用于糖肽鉴定的方法、装置和计算机可读介质

技术领域

本发明涉及糖肽鉴定领域。特别地，本发明涉及使用液相色谱质谱(LCMS)数据的图论分析(graph theoretic analysis)进行糖肽鉴定的方法、装置和计算机可读介质。

背景技术

当前的糖肽鉴定方法集中于基于蛋白质组学分析来解释糖肽LCMS数据。这些方法通常涉及数据库驱动的MS/MS碎片搜索，该搜索依赖于将由基因组生成的理论肽和理论聚糖的数据库结合起来，以产生具有糖肽的理论MS/MS碎片的理论糖肽数据库。为了限制原本在计算上不切实际的数据库的尺寸，研究单糖蛋白的常用方法是首先通过在糖组学实验中表征释放的N-糖组来限制聚糖列表。LCMS数据中的糖肽通过将检测到的前体(即MS1前体)和MS/MS碎片离子(即MS2碎片离子)与以上提及的理论数据库进行匹配，并且然后对置信度进行统计评分来鉴定。

基于理论数据库，一些数据库依赖性算法和软件是可用的，以鉴定N-糖肽，例如Byonic(ProteinMetrics)、Proteome Discoverer(Thermo)、GlycoPeptideSearch、GlycoPepEvaluator、MAGIC和pGlyco。当存在足够的关于糖蛋白及其糖基化的先验知识时，这些程序运行很好。然而，这些数据库依赖性方法的固有局限性在于，它们无法鉴定不在用户提供的数据库中的意料之外的糖肽，即使原始数据中该糖肽在专家研究人员看来是明显的。此外，数据库依赖性软件不会显示(1)哪些峰未被鉴定出、(2)未被鉴定出的很有可能是糖肽的谱图、(3)当谱图与数据库匹配良好但会与数据库外的序列匹配更好时、(4)当搜索参数次优时会警告研究者的注解完整性的评估和(5)使能够进行探索的密集LCMS数据的可视化表示。由于糖肽的总集合是未知的，上述当前方法产生了“不知道你所不知道的事物”的问题，并且还限制了蛋白质组学解决方案增加发现的肽的数目并降低错误检测率。

因此，需要解决以上提及的缺点并还提供其他相关优点的方法。

发明概述

示例性实施方案包括用于糖肽鉴定的方法和装置。

一种示例性实施方案是用于鉴定样品中糖肽的方法。该方法包括将样品的MS1前体的质谱转换为图中的多于一个节点，每个节点对应样品中待鉴定的糖肽的一个质量和一个保留时间；计算节点对的所有组合之间的质量和/或保留时间的差异；生成节点的图论网络；并基于节点的图论网络预测样品中糖肽的组成，以鉴定糖肽。

一种示例性实施方案是用于鉴定样品中糖肽的装置。该装置包括至少一个输入模块；至少一个输出模块；至少一个处理器；以及至少一个包含计算机程序代码的存储器。输入模块被配置为接收来自液相色谱-质谱(LC-MS)系统的数据，该数据包括质谱数据。输出模块被配置为输出所鉴定的糖肽的结果。至少一个存储器和计算机程序代码被配置为通过所述至少一个处理器使装置至少：将样品的MS1前体的质谱转换为图中的多于一个节点，每个节点对应样品中待鉴定的糖肽的一个质量和一个保留时间；计算节点对的所有组合之间的质量和/或保留时间的差异；生成节点的图论网络；并基于节点的图论网络预测样品中糖肽的组成，以鉴定糖肽。

附图简述

附图用于示出各种实施方案并解释各种原理和根据示例性实施方案的优点，在附图中，遍及单独视图的相似的附图标记指代相同或功能相似的元件，并且其与以下详细描述一起并入说明书中并构成说明书的一部分。

图1是根据一种示例性实施方案用于样品中的糖肽鉴定的方法。

图2a示出了根据一种示例性实施方案针对SLHVPGNLK糖型的方法的执行，其中去卷积特征从LCMS数据检测且增量(delta)质量和RT通过迭代通过作为中心节点的每个节点和作为臂节点的每个其他节点来计算，其中示出一个迭代。

图2b示出了根据一种示例性实施方案针对SLHVPGNLK糖型的方法的执行，其中边被过滤以具有对应聚糖质量并在增量RT窗口内的增量质量。

图2c示出了根据一种示例性实施方案针对SLHVPGNLK糖型的方法的执行，其中中心节点和两个臂节点的提取的离子色谱图示出RT中的重叠和紧密聚簇。

图2d示出了根据一种示例性实施方案针对SLHVPGNLK糖型的方法的执行，其具有在该质量和RT窗口中的互连节点的图网络。

图2e示出了根据一种示例性实施方案针对SLHVPGNLK糖型的方法的执行，其中由GlycopeptideGraphMS边预测的SLHVPGLNK糖肽组成与MS/MS一致(为了清楚起见仅注释了一些节点)。

图3a示出了根据一种示例性实施方案使用参考节点来预测糖肽组成的方法的执行，其中气泡图被示出为NGSQAFVHWQEPR未唾液酸化的糖型作为节点的子图。

图3b示出了根据一种示例性实施方案使用参考节点来预测糖肽组成的方法的执行，其中气泡图示出通过添加唾液酸而分开的四个簇。

图3c示出了根据一种示例性实施方案使用参考节点来预测糖肽组成的方法的执行，其中使用HCD和EThcD MS/MS手动确认GlycopeptideGraphMS检测到的肽糖型，除非被差的质量或缺乏MS/MS所阻止。

图3d示出了根据一种示例性实施方案使用参考节点来预测糖肽组成的方法的执行，其中维恩图(Venn diagram)示出GlycopeptideGraphMS超出用于检测的糖肽的数目的数据库和手动方法。

图4a示出了根据一种示例性实施方案校正错误数据库分配并允许容易地可视化糖肽的方法的执行，其中气泡子图的三个簇被GlycopeptideGraphMS分配具有零(S0)、一个(S1)和两个(S2)NeuAc，而Byonic将唾液酸化的N4H4F1S1肽分配到S0簇中(红色气泡)。

图4b示出了根据一种示例性实施方案校正错误数据库分配并允许容易地可视化糖肽的方法的执行，其中图4a的红色区域被放大，示出通往由Byonic的分配暗示的不可能的组成N3H2S1的边路径。

图4c示出了根据一种示例性实施方案校正错误数据库分配并允许容易地可视化糖肽的方法的执行，其中HCD MS/MS谱最初被分配ESPFVGNPGNITGAR+N4H4F1S1[m/z1138.4848,2045.6s]。

图4d示出了根据一种示例性实施方案校正错误数据库分配并允许容易地可视化糖肽的方法的执行，其中主要离子用HCD注释。

图4e示出了根据一种示例性实施方案校正错误数据库分配并允许容易地可视化糖肽的方法的执行，其中主要离子用EThcD注释。

图4f示出了根据示例性实施方案校正错误数据库分配并允许容易地可视化糖肽的方法的执行，其中使用GlycopeptideGraphMS可视化AXL糖肽。

图5a示出了根据一种示例性实施方案的图，其中方法的执行检测到比不同数据库方法更多的独特糖肽。

图5b示出了根据一种示例性实施方案的维恩图，其中方法的执行比不同数据库方法检测到更多的独特糖肽。

图6是根据一种示例性实施方案的计算机系统。

技术人员将理解，附图中的元件是为了简洁且清楚而示出的，并且不一定按比例绘制。

详细描述

以下详细描述本质上仅是示例性的，并且不预期限制示例性实施方案或其用途。此外，不预期受到在前述背景或以下详细描述中呈现的任何理论的约束。本实施方案的目的是呈现用于糖肽鉴定的独特方法和装置。

如指出的，鉴定糖肽的数据库依赖性方法具有固有局限性，因为它们通常(1)当MS/MS谱质量不提供信息或不存在时，无法鉴定糖肽；(2)不检测数据库之外的意料之外的糖肽，即使其以高丰度存在；并且(3)可能错误地分配糖肽序列，因为某些聚糖的组合具有与氨基酸相同的质量。

示例性实施方案解决了这些问题，并且包括使用液相色谱质谱数据的图论分析来执行自动糖肽鉴定的方法和装置。这些示例性实施方案包括糖肽鉴定方法和装置，其通过使用样品中的图论分析MS1特征来鉴定未知糖肽(以及已知糖肽)的组成。

为了解决糖蛋白质组学中的这些问题，示例性实施方案(GlycopeptideGraphMS)使用与数据库依赖性方法互补的图论生物信息学方法。在示例性实施方案中，LCMS特征基于聚糖质量和保留时间(RT)差异被分组到图网络中。这样做时，将一个特征鉴定为糖肽通过该特征与相邻糖肽特征的距离来验证。

一种示例性实施方案对癌症相关AXL受体酪氨酸激酶(AXL)糖蛋白的胰蛋白酶糖肽执行一种方法。选择AXL是因为它具有多个N-聚糖位点、是与三阴性乳腺癌的化学耐药性相关的可成药靶(druggable target)并且其N-糖基化尚未被表征。GlycopeptideGraphMS比数据库依赖性方法鉴定更多的糖肽，并且被示出通过以下克服数据库依赖性方法的一些局限性：将糖肽鉴定扩展至甚至缺少MS/MS碎片的峰、鉴定具有释放的N-糖组之外的聚糖组成的糖肽、以及通过其在图网络中不协调的位置检测由在Ala-Glu之间的意料之外的蛋白酶裂解引起的错误鉴定。在离散图网络中，仅需要单个正确分配的MS/MS，以通过利用糖肽前体中的顺序模式来以低误发现率(FDR)鉴定肽糖型的剩余部分。GlycopeptideGraphMS与数据库方法的结合减少了对高质量MS/MS的依赖，并且能够潜在地使该领域更接近于全面自动化糖蛋白质组学的最终目标。

样品(101)的分析使用诸如反相液相色谱串联质谱仪(102)的装置或方法进行。

液相色谱-质谱法(LC-MS)是一种将液相色谱法(LC)和质谱法(MS)相结合的技术。在该技术中，液相色谱法分离具有多种成分的混合物，而质谱法则提供这些个体成分的结构身份。该LC-MS串联技术可以被用于分析在具有环境和/或生物来源的样品中发现的各种生物化学、有机和无机化合物。此外，示例性实施方案可以被应用于广泛的应用中，诸如生物技术、环境监测、食品加工以及与药品和药物开发、农用化学品和化妆品有关的工业。

区块103获取糖肽和肽的实验MS1和MS2谱。MS1和MS2质谱通过呈电子介质形式的质谱法供应商的控制软件从质谱仪获取。通过特征发现和去卷积，将在MS1和MS2质谱中检测到的离子信号转换为质量、保留时间和强度的列表。

区块104提供了单糖/二糖质量的列表。该列表由条目的行组成，其中每个条目包含例如以下内容：单糖/二糖或寡糖的名称；其以道尔顿计的准确残余质量；以时间单位计的RT窗口；其组成的列表，例如每种单糖的数目和修饰的数目；以及任选的颜色指示以用于可视化目的。

区块105计算所有节点之间的质量和RT差异。将MS1特征转换为节点，并且每个节点都具有一个质量和一个保留时间(RT)。计算节点之间的质量和RT差异。

该方法鉴定具有对应于单糖差异的增加或减少或其组合的质量差异的节点簇。这些差异基于用户定义的具有各自的身份和可允许的保留时间的单糖/二糖质量的列表。每个簇代表共享相同肽骨架的糖肽家族。例如，该方法仅保留具有等于聚糖差异的差异且在如列表中提供的特定保留时间内的节点对。该方法将这些保留的节点分组(即“网络”)，因为聚糖质量增益/损失是可预测的。

区块106产生节点和边的图论网络，所述节点等于肽，且所述边等于聚糖损失或增益。该方法执行图论以将分组/产生网络的保留节点图示为不同的子图。每个子图表示由相同肽骨架构成的附接不同聚糖的糖肽。需注意的是，在子图中示出的具有增加的邻居的节点更有可能被正确鉴定。

产成节点的图论网络包括仅保留具有等于聚糖差异的差异并且在一定保留时间内的节点对。该信息以用户定义的具有各自的身份和可允许的保留时间的单糖/二糖质量的列表的形式提供。此外，示例性实施方案对保留的节点进行分组和/或产生网络，因为聚糖质量增益和/或损失基于该列表是可预测的。

区块107手动或以其他方式(例如，自动)鉴定参考节点中的糖肽。将一个糖肽/子图设置为该子图的参考节点，并且然后使用根据MS2谱中的肽碎片离子的手动序列分析或通过使用来自数据库依赖性搜索的输出的结果进行单独鉴定。

区块108从数据中提取MS2碎片列表。任选地，任何可得的MS2谱被用于通过峰拾取和/或质心法(centroiding)和/或去卷积产生MS2离子列表。该列表任选地被用于确定子图中的节点是否具有相似的碎片，作为一种提高子图分组方面的置信度的方式。

区块109预测所有未知糖肽的组成。该方法基于与未知糖肽(节点)相邻的已知糖肽(与参考糖肽相符的节点)的组成，预测每个亚组中未知糖肽(节点)的组成。

MS1数据中未知糖肽的经预测的组成随后可以与常规分析的MS2数据一起使用，以输出样品的糖肽鉴定。

区块110基于预测的组成与碎片和/或与相邻和/或参考节点的谱相似性来计算置信度评分。评分是数学函数的结果，该数学函数将图的多个方面(例如，增量RT分布、增量质量分布、MS2碎片的相似性、子图中节点的数目和质量以及边的数目和质量)转换为单个评分值，该评分值指示分配的置信度。数学函数可以由一个或更多个方程式、或者一组机器学习特征、加权或评分或统计计算组成。

区块111输出糖肽组成和/或评分。例如，将结果显示在计算机上、进行进一步处理、打印、传输到另一台计算机或电子设备和/或保存在存储器中。

以下实例示出一些示例性实施方案的执行和结果。参考图2–5，这些图提供以下内容：

图2a示出了根据一种示例性实施方案针对SLHVPGNLK糖型的方法的执行，其中去卷积特征从LCMS数据检测且增量质量和RT通过迭代通过作为中心节点的每个节点和作为臂节点的每个其他节点来计算，其中示出一个迭代。

图2d示出了根据一种示例性实施方案针对SLHVPGNLK糖型的方法的执行，其具有在该质量和RT窗口中的互连节点的图网络。浅绿色圆圈是一个子图，而深绿色圆圈是另一个子图。边根据预测的聚糖成分被着色，如图2e的图例中示出的。

图2e示出了根据一种示例性实施方案针对SLHVPGNLK糖型的方法的执行，其中由GlycopeptideGraphMS边预测的SLHVPGLNK糖肽组成与MS/MS一致(为了清楚起见仅注释了一些节点)。经着色的箭头描记出从较小糖型发出至较大糖型的路径。相对简单的高甘露糖路径在左侧显示，且具有分支的复杂类型的路径在右侧显示。

图3a示出了根据一种示例性实施方案使用参考节点来预测糖肽组成的方法的执行，其中气泡图被示出为NGSQAFVHWQEPR未唾液酸化的糖型作为节点的子图。通过将2650.13Da节点设置为参考节点(白色星形，带框注释)，预测其他验证节点(红色填充的圆圈)的相对组成(“rc”)。通过手动解释HCD MS/MS确认绝对组成(“ac”)。

图3b示出了根据一种示例性实施方案使用参考节点来预测糖肽组成的方法的执行，其中气泡图示出通过添加唾液酸而分开的四个簇。将每个簇中的最小节点任意设置为参考节点(白色或蓝色星形)。发现四个簇具有一致的唾液酸化水平(S0-S3)，如通过跟踪二天线N-糖型(N5H4F1，粉色填充的三角形)和三天线N-糖型(N5H6F1，蓝色填充的气泡)的唾液酸化水平所示出的。

图3c示出了根据一种示例性实施方案使用参考节点来预测糖肽组成的方法的执行，其中使用HCD和EThcD MS/MS手动确认GlycopeptideGraphMS检测到的肽糖型，除非被差的质量或缺乏MS/MS所阻止。所有节点都不具有与GlycopeptideGraphMS预测的组成相反的MS/MS。

图4c示出了根据一种示例性实施方案校正错误数据库分配并允许容易地可视化糖肽的方法的执行，其中HCD MS/MS谱最初被分配ESPFVGNPGNITGAR+N4H4F1S1[m/z1138.4848,2045.6s]。HCD MS/MS的初始注释缺乏预期的NeuAc氧鎓离子、b和Y离子。在引入非特异性裂解后，通过数据库搜索发现正确的序列，其然后用图4d中的HCD和图4e中的EThcD正确地注释主要离子。

图4f示出了根据示例性实施方案校正错误数据库分配并允许容易地可视化糖肽的方法的执行，其中使用GlycopeptideGraphMS可视化AXL糖肽。在该图中，颜色代表不同的肽序列，且“pep1915”是具有各种糖型的未知的1915Da肽骨架。

图5a示出了根据一种示例性实施方案的图，其中方法的执行检测到比不同数据库方法更多的独特糖肽。该图示出通过每种方法检测到的独特糖肽。GlycopeptideGraphMS糖肽选自图4f。对于使用Byonic的数据库方法，N-聚糖列表来自基于全甲基化MALDI的N-糖组或与通过GlycopeptideGraphMS预测的组成组合。碎片化通过HCD和产物离子触发的EThcD进行，并使用Orbitrap进行检测。“组合包含列表(combining inclusion list)”数据集是来自两个数据依赖性采集运行以及来自具有包含列表的第三次运行的所有MS/MS的合并。

图5b示出了根据一种示例性实施方案的维恩图，其中方法的执行比不同数据库方法检测到更多的独特糖肽。维恩图示出所有四个结果集之间独特的糖肽(即肽序列和聚糖组成)的重叠，其中GlycopeptideGraphMS比其他方法鉴定更多的糖肽。

用于LCMS的样品制备。遵循先前描述的过滤辅助样品制备方法，从在HEK293细胞中重组产生的50μg AXL(Uniprot P30530,具有聚组氨酸标签的Met1-Pro449)中制备冻干肽(>98％纯,SinoBiological Inc.)。使用序列分析级胰蛋白酶(1:50重量比，Promega,WI,USA)，并在添加胰蛋白酶4小时后添加谷氨酰胺酶-C(1:50重量比，GluC,Promega,WI,USA)。

液相色谱-质谱法。使用纳米LC系统(Ultimate 3000RSLCnano,Thermo FisherScientific)将肽(500ng)注入Orbitrap Fusion Tribid质谱仪中。将肽在C18捕获柱(trapcolumn)上脱盐并在C18 EASY-SprayPepMap RSLC分析柱上以40℃、300nL/min并用2％至50％的乙腈和0.1％的甲酸以104min的梯度进行分离。使用Orbitrap在正模式下以120,000的分辨率获取m/z300-2500的MS1谱扫描。使用归一化碰撞能量(NCE)30％的HCD的数据依赖性MS/MS扫描通过Orbitrap在30,000,m/z 130-2500获取。将m/z204.0867处的糖肽特异性N-乙酰己糖胺(HexNAc)离子用于触发EThcD以进行肽序列分析。对于外切糖苷酶消化的肽，使用离子阱在m/z 150-2000处获取使用HCD NCE25％±5％的数据依赖性MS/MS扫描。

数据预处理。使用MSConvert(包含在ProteoWizard v3.0.9393中)将从OrbitrapFusion获得的原始数据转换为开源.mzML格式。使用从OpenMS(v2.1.0.201707101954)模块构建的KNIME(v3.3.2)管道，从数据中提取LCMS特征、进行去卷积并输出为.csv文件，该文件列出每个特征及其中性质量、顶点RT和总计的强度。特征发现和去卷积参数通过以下优化：手动检查在m/z和强度范围内以及电荷态为2至5的代表性特征当与MS1原始数据相比时具有正确的单同位素峰和正确的顶点RT。最佳设置导致检测单同位素峰的准确性为91％(尽管x+1和x+2峰经常也在特征的较晚洗脱尾部中检测到)。

训练和测试数据集说明。最初的训练数据集是来自AXL的SLHVPGLNK肽的未唾液酸化的糖型，其通过MS/MS注释手动鉴定，并通过将RT窗口限制至20-26.67min进行提取(包括噪声或不相关的峰)。通过观察在m/z 204、366、406和528处的对应于HexNAc、与N-乙酰基己糖胺连接的己糖(HexHexNAc)、HexNAc2和Hex2HexNAc的聚糖氧鎓离子以及在m/z 964、1167和1370处的对应于肽、肽+HexNAc(Y1离子)和肽+HexNAc2(Y2离子)的特征离子来鉴定糖肽。为了对训练数据集进行基准测试，使用Byonic软件进行了数据库搜索，最初加载了聚糖数据库，该聚糖数据库包含从AXL释放且全甲基化的N-聚糖的MALDI-TOF-TOF分析中发现的所有成分。为了限制搜索，将Byonic中的肽数据库设置为序列QRSLHVPGLNKST，该序列用胰蛋白酶消化且错失的裂解为零。验证数据集是来自AXL的所有NGSQAFVHWQEPR肽糖型(多达四个唾液酸残基)。最终数据集是从AXL肽产生的整个LCMS数据集(包括两个较早的数据集)。

GlycopeptideGraphMS算法。GlycopeptideGraphMS将LCMS特征转换为图网络的节点。然后，该算法检测其间质量和RT差异与预定义的单糖/二糖残基的质量列表匹配的节点，所述单糖/二糖残基即Hex、HexNAc、岩藻糖(Fuc和HexHexNAc(图1a和b)。节点对在设置的RT窗口内(对于Hex和Fuc为30s，对于HexNAc为50s)，这取决于所用的LC梯度，且必须首先手动确定。质量和RT差异被表示为节点之间的连接，即图论边。以这种方式，将差异在于一个聚糖质量的RT聚簇的节点在数学图中相互连接。将这些经鉴定的节点连接起来产生了一系列子图-经连接的节点的簇不与其他簇连接。

为了减少巧合和错误匹配，仅选择具有多于3个节点的那些子图。将阈值减少到2个节点会导致更多的冗余和不正确的匹配(数据未显示)。为了组合相关但RT距离较远的子图，计算了在子图对之间差异在于N-乙酰神经氨酸(N-acetylneuraminic acid)的质量和RT位移(NeuAc,增量质量291.0954±0.02Da,增量RT 100s至500s)的节点的数目。将具有多于60％的节点匹配的那些子图组合为唾液形(sialoform)并绘图。为所有AXL实验设置60％的阈值，以确保至少一半子图可以通过NeuAc边连接到另一个子图，但是该阈值经受优化以用于不同种类的样品。用户可以容易地以逗号分隔值文件的形式来定制聚糖差异和NeuAc聚簇的参数，该文件可以在文本编辑器或Microsoft Excel中打开，并且可以容易地指定不同聚糖，诸如木糖、NeuGc或甚至O-乙酰化的NeuAc(参见补充表S2(GlycopeptideGraphMS软件的用户指南)中的实例)。两种常见的唾液酸NeuAc(291.0954Da)和NeuGc(307.0903Da)基于质量是可区分的。然而，由于AXL蛋白是在人细胞系HEK293中重组产生的，因此不存在NeuGc。

对AXL肽进行外切糖苷酶消化以评估FDR。作为补充未针对HCD MS/MS选择的峰的糖肽身份的正交测试，如下用不同外切糖苷酶消化4μg AXL糖肽。作为阴性对照，条件1是添加LCMS级水代替酶。条件2是15毫单位的α2-3,6,8,9唾液酸酶A 51(Prozyme GK80045)。条件3是15毫单位的β1-3,4半乳糖苷酶(Prozyme GKX-5013)和120毫单位的β1-2,3,4,6N-乙酰氨基葡糖苷酶(Prozyme GK80050,对GalNAc无活性)。条件1、2和3用5mM CaCl ₂ 50mM乙酸钠pH 5.5缓冲。条件4是在100mM乙酸钠,pH 5.0,2mM Zn²⁺中的450毫单位的α1-2,3,6甘露糖苷酶(Prozyme GKX-5010)和120毫单位的α1-6甘露糖苷酶(New England BiolabsP0727)。所有条件均具有0.1mg/ml BSA，且最终体积为12μl。在37℃消化过夜，并且酶通过离心通过10kDa分子量截止滤器(Pall)来去除，并将洗脱液冻干。将来自每种条件的肽注射三次(每种条件进行一次生物学重复)。

外切糖苷酶数据集之间的定量。对外切糖苷酶的敏感性或耐受性将指示峰是否为糖肽。选择来自阴性对照(无外切糖苷酶)的NGSQARVHWQEPR肽糖型的GlycopeptideGraphMS子图来计算FDR。使用KNIME/OpenMS计算去卷积强度。为了允许在四种条件之间进行定量比较，将每个重复除以两个酶耐受性节点的几何平均值而进行归一化(基于组成预期为既不是外切糖苷酶的底物也不是外切糖苷酶的产物)。使用几何平均值是因为它防止由于量级而引起的加权偏差。对于对照与唾液酸酶数据集，选择N3H3和N3H3F1节点。对于对照与半乳糖苷酶加N-乙酰氨基葡糖苷酶，选择的节点是N7H7F1S4和N7H6F1S4。对于对照与甘露糖苷酶，选择的节点为N7H6F1S3和N7H6F1S4。使用的符号如下：对于HexNAc为N，对于Hex为H，对于Fuc为F，且对于NeuAc为S。使用FDR方法计算统计显著性。通过GlycopeptideGraphMS预测的结节聚糖组成，当用预期消化该预测的组成的外切糖苷酶进行处理时统计显着性降低且对组成不是其底物的那些外切糖苷酶耐受时，被认为是正确的。

数据库搜索。为了对GlycopeptideGraphMS算法的性能进行基准测试，使用Byonic软件(ProteinMetrics,CA,USA)进行数据库搜索。输入Byonic软件的FASTA蛋白序列是AXL的氨基酸1-449(Uniprot中的P30530-1)，具有6个另外的C端组氨酸。聚糖数据库是由来自AXL的全甲基化N-聚糖的MALDI-TOF检测到的组成和/或由GlycopeptideGraphMS检测到的聚糖组成产生的。对于R、K、D和E的C端最多允许两个错失的裂解(即胰蛋白酶和GluC)。取决于实验，将氨基甲酰甲基化或羧甲基化设置为对半胱氨酸的固定修饰，并且甲硫氨酸的单氧化被允许作为可变修饰。当使用Orbitrap作为检测器时，将前体和碎片的公差设置为25ppm，且使用离子阱作为质量分析器时将公差设置为0.3Da。仅考虑Byonic评分多于30的肽。将DecoyPyRat用于扰乱AXL序列以产生诱饵肽。

使用数据库方法结合MS数据集以增加糖肽鉴定。为了查看是否可以通过将GlycopeptideGraphMS鉴定的聚糖组成添加到用于搜索的聚糖数据库来改善覆盖度，使用Byonic进行三次连续的数据库搜索，每次都使用通过GlycopeptideGraphMS检测到的聚糖组成来扩充所使用的初始聚糖数据库。首次搜索使用MALDI全甲基化N-糖组进行。其次，对同一数据集，用由GlycopeptideGraphMS检测到的另外的组成更新聚糖数据库，并计算覆盖度。第三，从GlycopeptideGraphMS推定击中减去已经鉴定的峰，创建MS/MS包含列表，再运行样品，并使用KNIME/OpenMS合并来自三个实验的MS/MS谱。维恩图使用在线工具产生。

GlycopeptideGraphMS检测肽糖型。为了对LCMS数据进行图论分析，首先使用OpenMS/KNIME通过特征发现和去卷积将AXL糖肽数据集从质谱还原为检测到的分析物的[质量，RT]对的列表，并绘制在2D空间中(图2a)。通过比较数据集中节点对的所有组合来计算质量和RT差异(图2a)。将具有等于Hex、HexNAc、Fuc或HexHexNAc的残余质量的增量质量以及增量

秒的那些差异转换为节点之间的图论边(即一条线)(图2b和c)。通过这种方式，GlycopeptideGraphMS将节点的子集加入到子图中，其中子图被定义为相互连接但不连接到图中任何其他节点的孤立的节点组(图2d和e)。

GlycopeptideGraphMS通过正确地鉴定来自AXL肽SLHVPGNLK的25种已知糖肽的训练集来验证。仅在Hex、HexNAc、Fuc或HexHexNAc之后才使用不同的RT窗口在第二阶段计算N-乙酰神经氨酸(NeuAc)边，其反映了由于NeuAc而对RT的大得多的影响。

未知糖肽可以被准确地预测。已经表明GlycopeptideGraphMS可以将肽糖型聚簇为子图，评估了在不使用MS/MS的情况下可以鉴定肽糖型的程度。由于GlycopeptideGraphMS方法使用相对组成，因此需要任意选择具有明确MS/MS的单参考节点，并首先使用数据库方法鉴定其绝对糖肽组成。然后，对子图的剩余部分进行GlycopeptideGraphMS预测，而无需参考MS/MS碎片。通过手动解释MS/MS并使用Byonic数据库软件检查这些预测。通过描记从参考节点到同一子图的所有其他节点的单糖/二糖增益或损失路径进行预测(图3a)。

对于NGSQAFVHWQEPR糖型验证集，当NeuAc边被初始排除时，GlycopeptideGraphMS检测到未唾液酸化的肽糖型的子图。首先，将参考节点任意选择为2650.13Da(最小质量)处的节点。然后，选择五个较远的节点，跨越子图的宽度(图3a)。通过描记从参考节点的单糖添加或减少的路径，确定这些节点的相对组成(rc)(图3a)。在计算了相对组成之后，对2650.13Da处的一个参考节点(真实组成N3H3)进行MS/MS序列分析足以预测未知节点的绝对组成(ac)，其为3364.40Da、3469.43Da、3770.56Da、4256.72Da和4402.78Da，分别对应预测的N5H4F1、N4H5F2、N7H4F1、N7H7F1和N7H7F2。通过基于氧鎓离子、肽碎片和聚糖中性损失的那些节点的MS/MS的手动和基于数据库的解释，确认了这些聚糖组成。从该未唾液酸化的子图延展，对另外三个子图重复该分析，这三个子图对应一个、两个和三个唾液酸的添加(图3b)。对于每个唾液酸化子图，使用参考节点(用黑色未填充的星形标出)，并且预测的组成在每个子图中具有一致的唾液酸化。例如，在四个子图的每一个中观察到三天线糖型N5H6F1、N5H6F1S1、N5H6F1S2和N5H6F1S3，并且二天线糖型N5H4F1、N5H4F1S1和N5H4F1S2在三个子图上分开(图3b)。

GlycopeptideGraphMS鉴定了100％(92/92)可以手动进行序列分析的糖肽，并且还鉴定了另外17种糖肽，其中11种是糖肽但缺乏肽信息，并且6种缺乏MS/MS且根本无法进行序列分析(图3c)。GlycopeptideGraphMS在手动验证的糖肽方面，胜过数据库搜索额外的95.7％(92对47)(图3d)。

通过外切糖苷酶和MS/MS正交确定假阳性率。碎片化MS/MS数据不适用于所有节点，尤其是那些低丰度的节点。因此，GlycopeptideGraphMS预测的NGSQAFVHWQEPR节点的实验FDR通过用外切糖苷酶的三种组合(分别地，不是顺序地)消化来评估，以查看每个节点是否可以根据预期的外切糖苷酶特异性而被消除。未经处理的阴性对照数据集中的NGSQAFVHWQEPR子图具有144种独特糖型。八个低丰度节点仅存在于一个重复中，并从分析中排除，提供136个节点的最终列表。该列表比图3中检测109个节点的初始运行要大，因为灵敏度更高，这是因为Orbitrap检测器专用于仅收集MS谱，而不是在收集MS和MS/MS谱之间拆分Orbitrap占空比(duty cycle)。碎片化MS/MS碎片转而使用离子阱检测器来检测。在使用FDR方法(预期Q＝10％)校正多个假设检验后，132个节点被认为是正确的，因为它们与预测的组成一致地被消化或是耐受性的。

由于一些低丰度节点的高标准偏差，4个节点由于大的标准偏差而具有冲突或不明确的结果，但是其中一个通过手动解释MS/MS确认了其组成。因此，将外切糖苷酶和MS/MS分析结合，导致总共计3个节点被视为假阳性。这继而产生2.21％(3/136)的实验FDR和97.79％(117/136)的真阳性率。低的实验FDR表明GlycopeptideGraphMS可以可靠地将肽糖型分组在一起。根据我们的观察，子图中的所有节点都具有相同的肽骨架，因此推论是对单个节点进行序列分析足以鉴定整个子图中的聚糖和肽组成。因此，单个明确的MS/MS可用于鉴定多于一百个糖肽，当这些糖肽中的许多糖肽的信息性MS/MS太低时，这将是有用的。此外，如果怀疑FDR高，则可以包括来自不同节点的两个或三个另外的MS/MS，以确保对子图进行可靠的分配。

鉴定非数据库且意料之外的糖肽。数据库依赖性糖肽鉴定方法(Byonic)最初基于强y离子确信地分配ESPFVGNPGNITGAR+N4H4F1S1[m/z1138.4848,2045.6s](图4a和c)。除了两个未分配的具有高m/z的离子的情况之外，根据手动解释的进一步验证与离子的分配相符(图4c)。通过GlycopeptideGraphMS检测到该不准确性，因为(1)该糖肽在未唾液酸化的糖肽簇中发现，并且(2)该分配将导致在子图底部的不可能的聚糖组成N3H2S1(图3a和b)。正确的序列通过HCD和EThcD手动确定为EESPFVGNPGNITGAR+N4H5F1，这是由丙氨酸(即GTQA/EESPF)之后的非特异性裂解引入额外的谷氨酸所致(图4c-e)。针对由计算机产生且无法解释额外的谷氨酸的数据库，通过添加NeuAc并从糖肽中去除Gal来对缺失的谷氨酸进行数学上的补偿，但这导致了错误的序列(图4c)。正确的分配导致具有合乎情理的聚糖组成N3H3而不是N3H2S1的最小节点，增加了分配的置信度。只有在允许非特异性裂解后，Byonic才能检测到正确的序列，这表明误分配不是Byonic软件的局限性，而是数据库方法的一般局限性(图4d和e)。以这种方式，相邻节点的RT聚簇和聚糖组成的使用超越了数据库方法的准确性，并允许对AXL糖肽进行全面注释和可视化(图4f)。

GlycopeptideGraphMS比数据库方法检测到更多的独特糖肽。GlycopeptideGraphMS从单次运行发现536种独特糖肽，比最佳情况的数据库搜索提高了70％，或比使用MALDI-TOF N-聚糖的搜索提高了227％(图5a)。装载有通过全甲基化聚糖的MALDI-TOF发现的组成列表的Byonic仅发现164种独特糖肽，因为搜索忽略了不在列表中的N-聚糖。使用由GlycopeptideGraphMS预测的组成扩展N-聚糖列表，使数据库结果提高58％。这些额外的聚糖在MALDI-TOF谱中处于噪声水平，并因此最初并未被鉴定。通过合并两个数据依赖性运行和一个具有包含列表的运行，创建了数据库方法的最佳方案。最佳情况下的搜索发现了315种独特糖肽，比MALDI-TOF N-糖组的搜索多92％，但仅是GlycopeptideGraphMS所实现的独特糖肽的59％。GlycopeptideGraphMS检测到使用数据库方法无法检测到的325种新的糖肽。解释该改进的原因在于，与GlycopeptideGraphMS的2.2％的FDR相比，数据库方法具有低得多的FDR，为0.27％。换句话说，数据库方法将检测到更少但更可靠的击中。这被预期到，因为数据库方法使用了具体得多的MS2碎片化方法来进行鉴定。GlycopeptideGraphMS的2.2％的FDR是可接受的，因为发现了更多的击中，实现更全面的鉴定(其在糖蛋白质组学中仍然缺乏)，并且只要同一图中存在可靠的MS2，新的击中就不需要MS2。

糖蛋白质组学问题的糖蛋白质组学解决方案。在蛋白质组学数据库驱动的且从头(de novo)方法中，MS/MS谱彼此孤立地被分析，因为用相似的RT洗脱的胰蛋白酶肽只能通过疏水性被关联，并且不一定共享序列相似性。与糖蛋白质组学范例一致，肽糖型确实发生在可预测的质量和狭窄的RT窗口中，且GlycopeptideGraphMS可以利用这种模式来检测具有相同肽骨架的那些糖基化肽并进行分组(图3)。针对不同的色谱条件的RT窗口的近似尺寸必须被确定，这可以使用标准的N-糖蛋白进行。重要的是，与装载有通过释放的聚糖实验发现的聚糖组成的典型数据库搜索相比，GlycopeptideGraphMS的检测到的独特糖肽的数目为其三倍(3.3x)并发现了325种另外独特糖肽(图5)。这可能是因为数据库方法受限于未充分利用糖肽关系以及获得高质量MS/MS的随机性，而这些则被GlycopeptideGraphMS克服。

GlycopeptideGraphMS至其他糖缀合物的可延展性。GlycopeptideGraphMS能够以接近零的假阳性率检测糖肽，而无需广泛的MS/MS，这意味着其灵敏度将超过任何目前的数据库或从头方法(它们都依赖于MS/MS)。我们提出将RT行为和聚簇性质纳入作为正交非碎片化方法，以系统地确认或驳斥由数据库依赖性方法进行的分配(图4)。对分配的驳斥可导致鉴定出意料之外但正确的糖肽，该糖肽原本被数据库方法错误地分配或忽略，如呈现的情况中所示出的(图4)。

尽管针对N-糖肽展示了GlycopeptideGraphMS，但原则上仅通过改变提供至软件的参数文本文件，其即可适用于O-糖肽、其他糖缀合物和修饰的聚糖(已经成功测试了NeuAc乙酰化和O-糖肽，数据未显示)。其他翻译后修饰(诸如磷酸化和氧化)不适用于此方法，因为这些修饰仅是单质量，而GlycopeptideGraphMS则需要每个肽3个或更多个质量的异质性(并因此需要3个或更多个糖型)以进行检测。

GlycopeptideGraphMS从LCMS数据集中获取了去卷积的质量及其强度的列表，并鉴定了数百个糖肽，而不需要广泛或完整的MS/MS，并且FDR为2.21％。只要通过单独的MS/MS分析和/或数据库搜索已知每个子图一个参考峰的肽和聚糖序列，这就是可能的。换句话说，可以使每个MS/MS产生多达甚至一百个鉴定，而不是一个MS/MS产生一个鉴定。GlycopeptideGraphMS取代了当前数据库依赖性糖肽分析方法，并使研究人员能够可视化他们的数据，实现位点特异性糖基化的更大覆盖度，并提高鉴定的置信度。改善关于蛋白质糖基化的分辨率和知识的深度可以使得能够提出关于临床相关糖蛋白的结构和功能的更深层次的问题。此外，越来越多的非规范糖基化证据表明，将需要诸如GlycopeptideGraphMS的序列不可知的(sequence-agnostic)方法。

图6是根据一种示例性实施方案的计算机系统600。计算机系统600包括被研究的一个或更多个样品(601)以及耦合到计算机605或与计算机605通信的液相色谱质谱仪(602)。计算机605包括执行示例性实施方案的一个或更多个处理器604、存储器605(包括存储示例性实施方案的代码或指令的存储器)、显示器606(或其他输出模块)和糖肽鉴定器607(包括用于执行根据示例性实施方案的方法的代码和指令)。

在一些示例性实施方案中，本文所示的方法以及与其相关的数据和指令被存储在相应的存储设备中，这些设备被实现为计算机可读和/或机器可读存储介质、物理或有形介质和/或非-临时存储介质。这些存储介质包括不同形式的存储器，包括半导体存储设备诸如DRAM或SRAM、可擦除和可编程只读存储器(EPROM)、电可擦除和可编程只读存储器(EEPROM)以及快闪存储器；磁盘诸如固定和可移动磁盘；其他磁性介质包括磁带；光学介质诸如光盘(CD)或数字多功能盘(DVD)等。注意，以上讨论的软件的指令可以在计算机可读或机器可读存储介质上提供，或者可选地，可以在分布在可能具有多个节点的大型系统中的多个计算机可读或机器可读存储介质上提供。这样的一种或更多种计算机可读或机器可读介质被认为是物品(或制品)的一部分。物品或制品可以指制造的单个组件或多于一个组件。

本文讨论的区块和/或方法可以由软件应用、电子设备、计算机、固件、硬件、过程、计算机系统和/或引擎(其是被编程和/或配置为执行一个或更多个示例性实施方案或示例性实施方案的一部分的硬件和/或软件)来执行和/或制造。此外，本文讨论的区块和/或方法可以在具有或没有用户指令的情况下被自动执行。

尽管在本申请实施方案的前述详细描述中已经呈现了示例性实施方案，但是应当理解，存在大量的变型。应当进一步理解的是，示例性实施方案仅是示例，并不旨在以任何方式限制本发明的范围、适用性、操作或配置。相反，前述详细描述将为本领域技术人员提供用于实施本发明示例性实施方案的便利路线图，应理解，可以对示例性实施方案中描述的操作的步骤和方法的功能和布置进行各种改变，而不脱离所附权利要求书所阐述的本发明的范围。

Claims

1.一种用于鉴定样品中糖肽的方法，所述方法包括：

将所述样品的MS1前体的质谱转换为图中的多于一个节点，每个节点对应所述样品中待被鉴定的糖肽的一个质量和一个保留时间；

计算节点对的所有组合之间的质量和/或保留时间的差异；

产生节点的图论网络；和

基于节点的图论网络预测所述样品中糖肽的组成，从而鉴定糖肽。

2.根据权利要求1所述的方法，所述方法还包括：

对于所述图的每个节点，将所述节点设置为中心节点并将所有其他节点设置为臂节点，并且将所述中心节点与所述臂节点连接以形成节点对。

3.根据权利要求1或2所述的方法，其中产生所述节点的图论网络的步骤包括：

保留多于一个节点对，其中被保留的多于一个节点对的每一个之间的质量差异等于已知聚糖附着列表中的聚糖附着质量，和/或被保留的多于一个节点对的每一个之间的保留时间差异小于保留时间阈值。

4.根据权利要求3所述的方法，其中所述已知聚糖附着列表包括以下的一个或更多个：N-乙酰基己糖胺、唾液酸、己糖和脱氧己糖。

5.根据权利要求4所述的方法，其中所述N-乙酰基己糖胺包括N-乙酰基葡糖胺和N-乙酰基半乳糖胺，所述唾液酸包括N-乙酰基神经氨酸和N-羟乙酰基神经氨酸，所述己糖包括甘露糖和半乳糖；并且所述脱氧己糖包括岩藻糖。

6.根据权利要求3至5中任一项所述的方法，其中所述保留时间阈值为50秒。

7.根据权利要求3至6中任一项所述的方法，其中所述保留时间阈值基于在获得所述样品的MS1前体之前使用的液相色谱装置的分离性能是可变的。

8.根据权利要求3至7中任一项所述的方法，所述方法还包括：

提取被保留的多于一个节点对作为一个或更多个节点子图，每个节点子图与其他节点子图分离；

其中每个节点子图代表一组糖肽，所述糖肽共享具有不同聚糖附接的相同肽骨架，和

其中所述节点的图论网络包括所述一个或更多个节点子图。

9.根据权利要求8所述的方法，其中预测糖肽组成的步骤包括：

鉴定每个节点子图中肽骨架的序列；

基于所鉴定的序列计算肽骨架的质量；和

通过基于子图中每个节点对之间质量和/或保留时间的差异鉴定糖肽的聚糖附着，来预测糖肽的组成。

10.根据权利要求8或9所述的方法，所述方法还包括：

对于每个节点子图，选择参考节点；

鉴定子图的参考节点的序列；和

基于子图中每个节点对之间质量和/或保留时间的差异和所述参考节点的序列预测子图中剩余节点的组成。

11.根据权利要求10所述的方法，其中预测子图中剩余节点的组成的步骤包括：

基于子图中每个节点对之间质量和/或保留时间的差异预测子图中剩余节点的相对组成；和

通过将所述剩余节点的相对组成与所述参考节点的序列合并，预测子图中所述剩余节点的绝对组成。

12.根据权利要求1至11中任一项所述的方法，所述方法还包括：

将所预测的糖肽的组成提供至数据库，所述数据库包括已知聚糖和肽的组成；和

基于所述数据库进行一次或更多次搜索以鉴定所述样品中的糖肽。

13.一种用于鉴定样品中糖肽的装置，所述装置包括：

至少一个输入模块；

至少一个输出模块；

至少一个处理器；和

至少一个存储器，所述存储器包括计算机程序代码；

其中所述输入模块被配置为接收来自液相色谱-质谱(LC-MS)系统的数据，所述数据包括质谱数据，

其中所述输出模块被配置为输出所鉴定的糖肽的结果；和

其中所述至少一个存储器和所述计算机程序代码被配置为通过所述至少一个处理器使所述装置至少：

计算节点对的所有组合之间的质量和/或保留时间的差异；

产生节点的图论网络；和

基于所述节点的图论网络预测所述样品中糖肽的组成，从而鉴定糖肽。

14.根据权利要求13所述的装置，其中还使所述装置：

对于图的每个节点，将所述节点设置为中心节点并将所有其他节点设置为臂节点，并且将所述中心节点与所述臂节点连接以形成节点对。

15.根据权利要求13或14所述的装置，其中在产生节点的图论网络的步骤，使所述装置：

16.根据权利要求15所述的装置，其中所述已知聚糖附着列表包括以下的一个或更多个：N-乙酰基己糖胺、唾液酸、己糖和脱氧己糖。

17.根据权利要求16所述的装置，其中所述N-乙酰基己糖胺包括N-乙酰基葡糖胺和N-乙酰基半乳糖胺，所述唾液酸包括N-乙酰基神经氨酸和N-羟乙酰基神经氨酸，所述己糖包括甘露糖和半乳糖；并且所述脱氧己糖包括岩藻糖。

18.根据权利要求15至17中任一项所述的装置，其中所述保留时间阈值为50秒。

19.根据权利要求15至18中任一项所述的装置，其中所述保留时间阈值基于在获得所述样品的MS1前体之前使用的液相色谱装置的分离性能是可变的。

20.根据权利要求15至19中任一项所述的装置，其中还使所述装置：

其中所述节点的图论网络包括所述一个或更多个节点子图。

21.根据权利要求20所述的装置，其中在预测糖肽组成的步骤，使所述装置：

鉴定每个节点子图中肽骨架的序列；

基于所鉴定的序列计算肽骨架的质量；和

22.根据权利要求20或21所述的装置，其中还使所述装置：

对于每个节点子图，选择参考节点；

鉴定子图的参考节点的序列；和

23.根据权利要求18所述的装置，其中在预测子图中剩余节点的组成的步骤，使所述装置：

24.根据权利要求13至23中任一项所述的装置，其中还使所述装置：

25.一种计算机可读介质，所述计算机可读介质包括指令，所述指令当由处理器执行时使所述处理器执行根据权利要求1至12中任一项所述的用于鉴定样品中糖肽的方法。