CN115267033A

CN115267033A - 基于质谱数据的宏蛋白质组学分析方法及电子设备

Info

Publication number: CN115267033A
Application number: CN202210937044.1A
Authority: CN
Inventors: 郭天南; 孙莹莹; 梁爽; 邢紫媛; 姜玟昊
Original assignee: Westlake University
Current assignee: Westlake University
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-01

Abstract

本申请实施例公开了一种基于质谱数据的宏蛋白质组学分析方法及电子设备，该方法包括：从微生物蛋白质数据库中分别选取蛋白质数据，每次选取的蛋白质数据形成与每个第一质谱数据一一对应的第一数据集；在错误发现率符合第一阈值的情况下，分别从每个第一数据集中提取蛋白质数据形成第二数据集；在错误发现率符合第二阈值的情况下，基于每个第一质谱数据从第二数据集中选取蛋白质数据，并构建第一谱图库；对第一谱图库进行优化处理形成第二谱图库；基于第二谱图库和第二质谱数据，对第二样本中包含的肽段和相关联的蛋白质进行定性和定量分析，以获取分析结果。能够实现高深度、高可重复性、高准确性和高通量的宏蛋白质组学分析。

Description

基于质谱数据的宏蛋白质组学分析方法及电子设备

技术领域

本申请实施例涉及宏蛋白质组学技术领域，尤其涉及一种基于质谱数据的宏蛋白质组学分析方法及电子设备。

背景技术

肠道菌群显著影响着宿主的健康，宏蛋白质组学通过对微生物群落的全部蛋白质信息进行采集、分析，可以对蛋白质的种类、含量进行全面评估，进而通过功能注释、通路分析等方法对微生物群落中蛋白质的功能进行系统性评价，在表征肠道微生物组的功能方面具有独特的优势。然而，由于肠道微生物种类众多且未知，因此，一方面宏蛋白质组学分析依赖于大规模的非特异性的数据库，这对于算法和计算机资源提出更高要求，另一方面宏蛋白质组学样本复杂性使得蛋白的准确定量成为一项挑战。

自下而上蛋白质组学(bottom-up proteomics)的两大质谱采集模式分别为数据依赖性串联质谱法(data-dependent acquisition,DDA)和数据非依赖性串联质谱法(data-independent acquisition,DIA)。

目前，在宏蛋白质组学分析领域主要采用DDA采集模式，一些针对于DDA质谱数据的分析软件，如MetaLab、Meta Proteome Analyzer和Proteo Storm等，可用于宏蛋白质组学肽段和蛋白的定性和定量分析。DDA采集模式通过液相色谱等方法对肽段进行分流，采用较窄的窗口进行目标离子筛选，减少了干扰离子的存在，因此可以提供较高质量的碎片信息。但是，DDA采样模式易产生缺失值和高丰度蛋白质鉴定偏好，导致数据可重复性和准确性较低。而且，数据采样时间通常较长，采样成本较高，采样效率较低，不适用于高通量、大队列的蛋白质组学研究。

DIA采集模式通过高速、循环地对每个窗口中的所有离子进行选择、碎裂和检测，可以大大提高数据利用率，减少缺失值，进而提高数据的可重复性和准确性，且样本无需分流上机，极大缩短了样本的检测周期，因此适用于大样本量、复杂样本的蛋白质组学检测。但是，DIA采样模式所形成的质谱数据的数据量较大，而原始的微生物蛋白质数据库的数据量也较大，如果直接基于原始的微生物蛋白质数据库对肽段和蛋白质进行定量和定性分析，数据处理量极大，不仅对系统的数据处理能力构成挑战，且错误发现率较高。

发明内容

有鉴于现有技术中存在的上述问题，本申请实施例提供了一种基于质谱数据的宏蛋白质组学分析方法及电子设备，具体如下内容。

一种基于质谱数据的宏蛋白质组学分析方法，包括：

通过与每个第一质谱数据匹配，从微生物蛋白质数据库中分别选取蛋白质数据，每次选取的蛋白质数据形成与每个所述第一质谱数据一一对应的第一数据集；其中，所述第一质谱数据为基于数据依赖性串联质谱法对第一样本进行质谱分析形成的质谱数据，所述第一样本来自目标对象群体的微生物肽段样本；所述蛋白质数据至少包括用于标识蛋白质的第一蛋白质序列；

在错误发现率符合第一阈值的情况下，分别从每个第一数据集中提取蛋白质数据，并将所有第一数据集中所提取的蛋白质数据形成第二数据集；

在错误发现率符合第二阈值的情况下，基于每个所述第一质谱数据从所述第二数据集中选取蛋白质数据，并基于所选取的蛋白质数据、第一肽序列、肽段的生化信息以及所述第一蛋白质序列和所述第一肽序列的关联关系构建第一谱图库；其中，所述第一肽序列和肽段的生化信息基于所述第一质谱数据获得，所述第一肽序列用于标识所述第一样本中的肽段；

对所述第一谱图库进行优化处理，以简化所述第一蛋白质序列和所述第一肽序列的关联关系，形成第二谱图库；

基于所述第二谱图库和第二质谱数据，对第二样本中包含的肽段和相关联的蛋白质进行定性和定量分析，以获取分析结果；其中，所述第二质谱数据为基于数据非依赖性串联质谱法对所述第二样本进行质谱分析形成的质谱数据，所述第二样本来自所述目标对象群体的微生物肽段样本。

在一些实施例中，所述分析结果至少包括第二肽序列和第二蛋白质序列，所述第二肽序列用于标识第二样本中的肽段，所述第二蛋白质序列用于标识与第二样本中肽段相关联的蛋白质；所述方法还包括：

对第二肽序列的生物分类进行注释，以生成第二肽序列的生物分类注释信息；和/或

对第二蛋白质序列的功能和/或通路进行注释，以生成第二蛋白质序列的功能注释信息和/或第二蛋白质序列的通路注释信息。

在一些实施例中，所述对第二肽序列的生物分类进行注释，以生成第二肽序列的生物分类注释信息，包括：

对第二肽序列进行模拟酶切形成子肽序列；

对子肽序列进行过滤，获取预设长度的子肽序列；

对预设长度的子肽序列的生物分类进行注释，生成子肽序列的生物分类注释信息；

基于子肽序列的生物分类注释信息，利用预设规则确定各第二肽序列的生物分类注释信息。

在一些实施例中，所述基于子肽序列的生物分类注释信息，利用预设规则确定各第二肽序列的生物分类注释信息，包括：

基于同一所述第二肽序列酶切形成的子肽序列形成肽序列组；

在肽序列组中不具有预设长度的子肽序列的情况下，删除相应的第二肽序列；

在肽序列组中具有一个预设长度的子肽序列的情况下，将该子肽序列的生物分类注释信息作为相对应的第二肽序列的生物分类注释信息；

在肽序列组中具有多个预设长度的子肽序列的情况下，如果多个子肽序列的生物分类注释信息相同，则将该生物分类注释信息作为相对应的第二肽序列的生物分类注释信息，如果多个子肽序列的生物分类注释不同，则确定多个子肽序列的生物学分类注释的分支和层级；

在多个子肽序列的生物分类注释信息的分支相同且层级不同的情况下，将最深层级的生物分类注释信息作为相对应的第二肽序列的生物分类注释信息；

在多个子肽序列的生物分类注释信息的分支不同且层级不同的情况下，将最浅的共同层级的生物分类注释信息作为相对应的第二肽序列的生物分类注释信息；

在多个子肽序列的生物分类注释信息的分支不同且层级相同的情况下，删除相应的第二肽序列。

在一些实施例中，所述对第二蛋白质序列的功能和/或通路进行注释，包括：

在多个第二蛋白质序列属于同一蛋白质组的情况下，如果多个第二蛋白质序列的功能注释信息和通路注释信息相同，则保留多个第二蛋白质序列的功能注释信息和通路注释信息，如果多个第二蛋白质序列的功能注释信息或通路注释信息不同，则删除该多个第二蛋白质序列；

其中，同一蛋白质组中的多个第二蛋白质序列具有相同的第二肽序列组合。

在一些实施例中，所述分析结果还包括第二肽序列的丰度信息和第二蛋白质序列的丰度信息；所述方法还包括：

基于第二肽序列的生物分类注释信息、第二蛋白质序列的功能注释信息、第二蛋白质序列的通路注释信息、第二肽序列的丰度信息和/或第二蛋白质序列的丰度信息，生成目标矩阵；

其中，所述目标矩阵包括如下矩阵中一个或多个：微生物肽序列丰度矩阵、人类肽序列丰度矩阵、微生物分类群肽序列丰度矩阵、微生物蛋白质丰度矩阵、人类蛋白质丰度矩阵、微生物蛋白质功能/通路丰度矩阵、第二样本肽和蛋白质丰度矩阵、组内生物学重复定量矩阵、组内技术重复定量矩阵、组内生物学重复定量矩阵、组内技术重复定量矩阵。

在一些实施例中，所述通过与每个第一质谱数据匹配，从微生物蛋白质数据库中分别选取蛋白质数据，每次选取的蛋白质数据形成与每个所述第一质谱数据一一对应的第一数据集，包括：

将所述微生物蛋白质数据库划分为N个子数据库；

分别通过M个所述第一质谱数据从N个子数据库中选取相匹配的蛋白质序列数据；

基于同一所述第一质谱数据从N个所述子数据库中所选取的蛋白质数据构建所述第一数据集。

在一些实施例中，所述将所有第一数据集中所提取的蛋白质数据形成第二数据集，包括：

基于目标对象蛋白质数据库、污染物蛋白质数据库及所有第一数据集中所提取的蛋白质数据，形成所述第二数据集。

在一些实施例中，所述对所述第一谱图库进行优化处理，以简化所述第一蛋白质序列和所述第一肽序列的关联关系，包括如下步骤中的一个或多个：

在第一蛋白质序列包含特有的第一肽序列的情况下，保留相应的蛋白质数据；

在多个第一蛋白质序列包含相同第一肽序列组合的情况下，将相对应的多个蛋白质数据合并为蛋白质组；

在一个第一蛋白质序列的第一肽序列组合包含于另一个第一蛋白质序列的第一肽序列组合，或者该一个第一蛋白质序列的第一肽序列组合被多个第一蛋白质序列的第一肽序列组合共同包含的情况下，将与该一个第一蛋白质序列相对应的蛋白质数据从所述第二谱图库中删除；

在多个第一蛋白质序列具有一部分相同的且特有的第一肽序列的情况下，则基于多个第一蛋白质序列的存在概率和/或谱图计数，保留多个第一蛋白质序列相对应的一个或多个蛋白质数据。

在一些实施例中，所述第一样本来自目标对象群体中多个目标对象的肠道微生物肽段混合样本；和/或，所述第二样本来自目标对象群体中单个目标对象的肠道微生物肽段样本。

一种电子设备，至少包括存储器和处理器，所述存储器上存储有程序，所述处理器在执行所述存储器上的程序时实现如上所述的方法。

本申请实施例的基于质谱数据的宏蛋白质组学分析方法，由于所述第一质谱数据为基于数据依赖性串联质谱法(DDA)对第一样本进行质谱分析形成的质谱数据，数据质量较高，不仅有益于缩小蛋白质数据的数据量，而且所形成的第一数据集中的蛋白质数据与目标对象群体具有较高的相关性。在控制错误发现率的情况下，对蛋白质数据进行迭代选取，使得最终形成的第一谱图库不仅所包含的蛋白质数据的整体数据量适中，且与目标对象群体具有较高的特异性。通过对第一谱图库进行优化处理，能够进一步精简蛋白质数据的数据量，简化第一蛋白质序列和第一肽序列的关联关系，所形成的第二谱图库符合最大简约原则。在此基础上，基于具有较高特异性的第二谱图库和数据内容较为完整的第二质谱数据，对第二样本的肽序列和蛋白质序列进行定性和定量分析，能够实现高深度、高可重复性、高准确性和高通量的宏蛋白质组学分析。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请实施例的基于质谱数据的宏蛋白质组学分析方法的流程图；

图2为本申请实施例的基于质谱数据的宏蛋白质组学分析方法的数据流转示意图；

图3为步骤S110的流程图；

图4为步骤S160的流程图；

图5为步骤S170的流程图；

图6为本申请实施例的电子设备的结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请实施例提供了一种基于质谱数据的宏蛋白质组学分析方法，参见图1和图2所示，本申请实施例的基于质谱数据的宏蛋白质组学分析方法具体可包括如下步骤。

S110，通过与每个第一质谱数据匹配，从微生物蛋白质数据库中分别选取蛋白质数据，每次选取的蛋白质数据形成与每个第一质谱数据一一对应的第一数据集。其中，所述蛋白质数据至少包含用于标识蛋白质的第一蛋白质序列，以及蛋白质的名称等信息。

其中，所述第一质谱数据为基于数据依赖性串联质谱法(DDA)对第一样本进行质谱分析形成的质谱数据，所述第一样本来自目标对象群体的微生物肽段样本。目标对象群体可包括多个目标对象，该目标对象为宏蛋白质组学分析方法的分析对象，包括但不限于人类、动物、植物及特定环境等等。

可选的，可采集若干个人类的粪便样本，经过肠道微生物富集、蛋白质提取、蛋白质胰酶化，得到对应的肽段样本。从若干个肽段样本中随机抽取一部分样本，形成一个混合样本，以代表整个目标对象群体。随后，进行PH反向分馏，得到M个分馏肽段样本。基于数据依赖性串联质谱法，采用60至240分钟液相色谱(LC)梯度，对M个分馏肽段样本进行质谱分析，获取到M个第一质谱数据。第一质谱数据可包括标准保留时间(RT)、一级质谱数据(MS1)和二级质谱数据(MS2)，一级质谱数据和二级质谱数据均可包括母离子质荷比、产物质荷比、子离子类型、子离子电荷等参数。

在获取到第一质谱数据的情况下，可基于第一质谱数据对第一样本中所包含的肽段进行分析，以获取用于标识第一样本中肽段的第一肽序列，以及肽段的生化信息。第一肽序列可由氨基酸的单字母符号排列而成。生化信息可包括第一质谱数据中的至少部分参数，例如，生化信息可包括标准保留时间、母离子质荷比、产物质荷比、子离子类型、子离子电荷等参数。

微生物蛋白质数据库为与目标对象相对应的微生物蛋白质数据库。以目标对象为人类为例，该微生物肽段样本可为例如人类肠道中的微生物肽段样本，该微生物蛋白质数据库可为例如整合的人类肠道微生物基因(integrated gene catalog,IGC)数据库。微生物蛋白质数据库中包括蛋白质数据，蛋白质数据可包括第一蛋白质序列和蛋白质的名称，第一蛋白质序列用于标识蛋白质的氨基酸排列顺序，可由例如氨基酸的单字母符号排列而成。

在获取到第一肽序列的情况下，将第一肽序列与蛋白质数据中的第一蛋白质序列进行匹配，以从微生物蛋白质数据库中搜索相匹配的蛋白质数据。例如，在第一蛋白质序列中包含第一肽序列的情况下，则确定包含该第一蛋白质序列的蛋白质数据与第一质谱数据相匹配。基于每个第一质谱数据从微生物蛋白质数据库中所选取的蛋白质数据形成第一数据集。在具有M个第一质谱数据的情况下，可形成M个与第一质谱数据一一对应的第一数据集。

可选的，配合图3所示，步骤S110，通过与每个第一质谱数据匹配，从微生物蛋白质数据库中分别选取蛋白质数据，每次选取的蛋白质数据形成与每个第一质谱数据一一对应的第一数据集，可包括如下步骤。

S111，将所述微生物蛋白质数据库划分为N个子数据库。

S112，分别通过M个所述第一质谱数据从N个子数据库中选取相匹配的蛋白质数据。

S113，基于同一所述第一质谱数据从N个所述子数据库中所选取的蛋白质数据构建所述第一数据集。

如此，可采用分组迭代、并行计算的方式来选取蛋白质数据，能够提高数据处理效率，减小数据处理时间。

S120，在错误发现率符合第一阈值的情况下，分别从每个第一数据集中提取蛋白质数据，并将所有第一数据集中所提取的蛋白质数据形成第二数据集。

可选的，可在错误发现率(FDR)符合第一阈值的情况下，基于每个第一质谱数据从相对应的第一数据集中提取蛋白质数据，并基于所有第一数据集中所提取的蛋白质数据形成第二数据集，以进一步缩小蛋白质数据的整体数据量，提高蛋白质数据与目标对象群体的相关性，并降低蛋白石数据的错误发现率。例如，在具有M个第一数据数据的情况下，则基于M个第一质谱数据分别从一一对应的M个第一数据集中提取相匹配的蛋白质数据，并将M个第一数据集中所提取的蛋白质数据合成第二数据集。可选的，第一阈值可设置为0.001至0.05。

具体的，基于第一质谱数据从相对应的第一数据集中提取蛋白质数据，与基于第一质谱数据从微生物蛋白质数据库提取蛋白质数据的过程类似。可基于第一质谱数据分析第一样本中包含的肽段，并获取用于标识第一样本中肽段的第一肽序列。在FDR符合第一阈值的情况下，将第一肽序列与与第一数据集中的蛋白质数据中的第一蛋白质序列进行匹配，以从第一数据集中搜索相匹配的蛋白质数据。

可选的，第二数据集中不仅限于包含微生物的蛋白质数据，还可包括目标对象的蛋白质数据和污染物蛋白质数据。也即，可基于目标对象蛋白质数据库、污染物蛋白质数据库及所有第一数据集中所提取的蛋白质数据合成第二数据集。如此，不仅能够对微生物的蛋白质进行分析，还能够分析微生物与宿主对象之间的关联关系。

S130，在错误发现率符合第二阈值的情况下，基于每个所述第一质谱数据从所述第二数据集中选取蛋白质数据，并基于所选取的蛋白质数据、第一肽序列、肽段的生化信息以及第一蛋白质序列和第一肽序列的关联关系构建第一谱图库。

其中，所述第一肽序列和肽段的生化信息基于所述第一质谱数据获得，所述第一肽序列用于标识所述第一样本中的肽段。

可选的，在错误发现率(FDR)符合第二阈值的情况下，可基于每个第一质谱数据从第二数据集中选取蛋白质数据。例如，在具有M个第一质谱数据的情况下，分别基于M个第一质谱数据从第二数据集中搜索相匹配的蛋白质数据，将搜索到的所有的蛋白质数据、第一肽序列、肽段的生化信息以及第一蛋白质序列和第一肽序列的关联关系构建第一谱图库。

可选的，基于第一质谱数据从第二数据集中选取蛋白质数据的过程，可与基于第一质谱数据从微生物蛋白质数据库中选取蛋白质数据的过程类似。也即，可基于第一质谱数据对第一样本中包含的肽段进行分析，以获取用于标识肽段的第一肽序列和第一样本中肽段的生化信息。将第一肽序列与第二数据集中蛋白质数据的第一蛋白质序列进行匹配，如果第一蛋白质序列中包含该第一肽序列，则确定该蛋白质数据与第一肽序列相匹配。

可选的，该第二阈值也可设置为0.001至0.05，例如，该第二阈值可为0.01。也即，在错误发现率小于0.01的情况下，分别基于每个第一质谱数据从第二数据集中选取蛋白质数据，以进一步缩小蛋白质数据的整体数据量，以及蛋白质数据与目标对象群体的相关性。

可选的，第一蛋白质序列和第一肽序列的关联关系可由序列匹配获得。例如，基于第一肽序列从第二数据集中搜索蛋白质数据过程中，如果蛋白质数据中第一蛋白质序列包含第一肽序列，则确定该第一蛋白质序列与该第一肽序列之间具有关联关系。

在基于第一质谱数据获取第一肽序列和肽段的生化信息，基于第一肽序列从第二数据集中选取蛋白质数据，并确定了第一蛋白质序列和第一肽序列之间的关联关系的情况下，可基于从第二数据集中所选取的蛋白质数据、第一肽序列、肽段的生化信息，以及第一蛋白质序列和第一肽序列的关联关系构建第一谱图库。

S140，对所述第一谱图库进行优化处理，以简化所述第一蛋白质序列和第一肽序列的关联关系，形成第二谱图库。

可选的，可基于第一蛋白质序列和第一肽序列的关联关系和最大简约原则，对所述第一谱图库进行优化处理，以滤除至少部分蛋白质数据，简化第一蛋白质序列和第一肽序列的关联关系，形成第二谱图库。在精简蛋白质数据的同时，能够使所形成的第二谱图库符合最大简约原则，通过最少的蛋白质解释最多的肽段，以提高分析效率。

可选的，步骤S140，对所述第一谱图库进行优化处理，以简化所述第一蛋白质序列和第一肽序列的关联关系，可包括如下步骤中的一个或多个：

以下结合几个具体示例对优化处理的步骤及原理进行详细说明。

第一种情况下蛋白质和肽段的关联关系如表1所示。

表1

注：——表明蛋白质包含相对应的肽段。

如表1所示，蛋白质A中肽段1和肽段2为特有肽段，蛋白质B中肽段3和肽段4为特有肽段，用于标识该蛋白质A的第一蛋白质序列具有特有的第一肽序列，用于标识蛋白质B的第一蛋白质序列也具有特有的第一肽序列，保留蛋白质A的蛋白质数据和蛋白质B的蛋白质数据。

第二种情况下蛋白质和肽段的关联关系如表2所示。

表2

表2所示意示例与表1所示意的示例类似，虽然蛋白质A和蛋白质B具有共有的肽段2和肽段3，但二者分别具有特有肽段1和特有肽段4，所以，保留蛋白质A的蛋白质数据和蛋白质B的蛋白质数据。

第三种情况下蛋白质和肽段的关联关系如表3所示。

表3

如表3所示，蛋白质A和蛋白质B具有相同的肽段组合，用于标识蛋白质A和蛋白质B的第一蛋白质序列包含相同的第一肽序列组合，将蛋白质A的蛋白质数据和蛋白质B的蛋白质数据合并为蛋白质组。

第四种情况下蛋白质和肽段的关联关系如表4所示。

表4

如表4所示，蛋白质B的肽段组合包含于蛋白质A的肽段组合中，可删除蛋白质B的蛋白质数据。

第五种情况下蛋白质和肽段的关联关系如表5所示。

表5

如表5所示，蛋白质B的肽段组合包含于蛋白质A的肽段组合中，蛋白质C的肽段组合也包含于蛋白质A的肽段组合中，可将蛋白质B的蛋白质数据和蛋白质C的蛋白质数据从第二谱图库中删除。

第六种情况下蛋白质和肽段的关联关系如表6所示。

表6

如表6所示，蛋白质B的肽段组合可以被蛋白质A和蛋白质C的肽段组合共同包含，蛋白质C的肽段组合可以被蛋白质B和蛋白质D的肽段组合共同包含，如果删除蛋白质B的蛋白质数据和蛋白质C的蛋白质数据，只保留蛋白质A和蛋白质D，则会造成蛋白质B和蛋白质C中的肽段3丢失。为了保持第二谱图库中第一肽序列的多样性，可计算各第一蛋白质序列的存在概率和谱图计数。例如，计算用于标识蛋白质B的第一蛋白质序列的存在概率和谱图计数，以及用于标识蛋白质C的第一蛋白质序列的存在概率和谱图计数。第一蛋白质序列的存在概率实际即为蛋白质的存在概率，可为第一蛋白质序列中各个第一肽序列的存在概率之和，第一肽序列的存在概率实际即为肽段的存在概率，肽段的存在概率计算为现有技术，此处不再赘述。第一蛋白质序列的谱图计数可为第一蛋白质序列中各个第一肽序列的谱图计数之和。谱图计数为检出相应肽段的第一质谱数据的个数，也即，当基于第一质谱数据确定第一样本中包含相应肽段，则视为基于该第一质谱数据检出了相应肽段。在具有18个第一质谱数据检测出肽段2，则肽段2的谱图计数即为18。

在一种情况下，蛋白质B的存在概率和蛋白质C的存在概率可如表7所示。

表7

如表7所示，蛋白质B的存在概率大于蛋白质C的存在概率，删除蛋白质C的蛋白质数据，保留蛋白质B的蛋白质数据。

在另一种情况下，蛋白质B的存在概率和蛋白质C的存在概率和谱图计数可如表8所示。

表8

如表8所示，蛋白质B和蛋白质C的存在概率相同，但蛋白质B的谱图计数小于蛋白质C的谱图计数，保留蛋白质C的蛋白质数据。

在又一种情况下，如果蛋白质B和蛋白质C的存在概率相同，且蛋白质B和蛋白质C的谱图计数相同，则同时保留蛋白质B的蛋白质数据和蛋白质C的蛋白质数据。

需要说明的是，上述优化处理方法仅为示例性的，在具体实施时，还可包括其他优化处理方法，例如，在蛋白质只含有一条肽段的情况下，可将该蛋白质的蛋白质数据从第二谱图库中删除。

S150，基于所述第二谱图库和第二质谱数据，对第二样本中包含的肽段和相关联的蛋白质进行定性和定量分析，以获取分析结果。

其中，所述第二质谱数据为基于数据非依赖性串联质谱法(DIA)对所述第二样本进行质谱分析形成的质谱数据，所述第二样本来自所述目标对象群体的微生物肽段样本。也即，第二样本与第一样本同为目标对象群体的微生物肽段样本。可选的，第二样本可来自目标对象群体中单个目标对象的微生物肽段样本，以实现对单个目标对象的微生物菌群状况进行分析。

可选的，第二质谱数据所包含的数据内容与第一质谱数据类似，也可包括标准保留时间(RT)、一级质谱数据(MS1)和二级质谱数据(MS2)，一级质谱数据和二级质谱数据也可包括母离子质荷比、产物质荷比、子离子类型、子离子电荷等参数。但与第一质谱数据所不同的是，第二质谱数据采用DIA采样模式，DIA采样模式通过高速、循环地对每个窗口中的所有例子进行选取、碎裂和检测，第二质谱数据的数据量较大，且所包含的数据内容相对较为完整。

可选的，以目标对象为人类为例，可将目标对象群体按照年龄和性别随机分配为Z组，每组目标对象采集第二样本，还可额外采集组间生物学重复样本、组间技术重复样本、组内生物学重复样本和组内技术重复样本。获取到第二样本后，可基于DIA采样模式对第二样本进行分析，以获取第二质谱数据。

可选的，该分析结果可包括第二肽序列、肽段的丰度信息、第二蛋白质序列和蛋白质的丰度信息。第二肽序列可用于标识第二样本中肽段，第二蛋白质序列可用于标识相关联的蛋白质，该相关联的蛋白质即为与第二样本中肽段相关联的蛋白质。在获取到第二谱图库和第二质谱数据的情况下，可将第二质谱数据中的参数与第二谱图库中肽段的生化信息进行匹配，以分析第二样本中所包含的肽段，获取第二肽序列信息。继而，基于第二谱图库中第一肽序列和第一蛋白质序列的关联关系，能够确定与第二样板中包含的肽段相关联的蛋白质，以获取用于标识相关联的蛋白质的第二蛋白质序列。

根据实验结果显示，在对包含数千人的目标对象群体的粪便样本进行分析时，可鉴定到数十万条的微生物肽段、数万条的微生物蛋白质，以及数千条的人类肽段和人类蛋白质。平均每个第二样本中能够鉴定出数万条微生物肽段、数千条微生物蛋白质、数千条的人类肽段以及数百条的人类蛋白质。显著优于现有技术中单纯基于DDA采样模式或DIA采样模式的分析方法。

在一些实施例中，所述方法还包括：

S160，对第二肽序列的生物分类进行注释，以生成第二肽序列的生物分类注释信息；和/或对第二蛋白质序列的功能和/或通路进行注释，以生成第二蛋白质序列的功能注释信息和/或第二蛋白质序列的通路注释信息。

其中，对第二肽序列的生物分类进行注释，也即，对第二肽序列的分类群进行注释。生物分类通常包括七个主要级别：界、门、纲、目、科、属、种，此外，还可包括亚门、亚纲、亚目和亚科。例如，在确定第二肽序列所标识的肽段属于大肠杆菌的情况下，则该第二肽序列的生物分类注释信息可包括细菌界、变形菌门、γ-变形菌纲、肠杆菌目、肠杆菌科、埃希氏菌属、大肠杆菌种。还例如，在确定第二肽序列所标识的肽段属于人类的情况下，则该第二肽序列的生物分类注释信息可包括真核域、动物界、脊索动物门、脊椎动物亚门、哺乳纲、兽亚纲、灵长目、简鼻亚目、人科、人亚科、人属、智人种。

可选的，可基于蛋白质直系同源簇(COGs)数据库，对第二蛋白质序列的功能进行注释，以生成第二蛋白质序列的功能注释信息。可选的，可基于京都基因与基因组百科全书(KEGG)，对第二蛋白质序列的通路进行注释，以生成第二蛋白质序列的通路注释信息。生物分类的注释可以鉴定第二样本中微生物的种类，对于了解第二样本中的微生物优势种属尤为重要。宏蛋白质组学鉴定到的蛋白质往往缺乏准确的注释信息，而数据的功能注释，对蛋白质的功能解读至关重要。

可选的，所述对第二蛋白质序列的功能和/或通路进行注释，可包括：

在多个第二蛋白质序列属于同一蛋白质组的情况下，如果多个第二蛋白质序列的功能注释信息和通路注释信息相同，则保留多个第二蛋白质序列的功能注释信息和通路注释信息，如果多个第二蛋白质序列的功能注释信息或通路注释信息不同，则删除该多个第二蛋白质序列；其中，同一蛋白质组中的多个第二蛋白质序列具有相同的第二肽序列组合。

由于同一蛋白质组中的多个第二蛋白质序列具有相同的第二肽序列组合，所以，理论上该多个第二蛋白质序列的功能和通路应该相同，如果功能或通路不同，则表明注释结果或分析结果可能存在错误。在此基础上，如果多个第二蛋白质序列属于同一蛋白质组，则可确定多个第二蛋白质序列的功能注释信息和通路注释信息是否相同。如果多个第二蛋白质序列的功能注释信息和通路注释信息相同，则保留多个第二蛋白质序列的功能注释信息和通路注释信息。如果多个第二蛋白质序列的功能注释信息或通路注释信息不同，则可删除该多个第二蛋白质序列。

在一些实施例中，步骤S160，对第二肽序列的生物分类进行注释，以生成第二肽序列的生物分类注释信息，可包括：

S161，对第二肽序列进行模拟酶切形成子肽序列；

S162，对子肽序列进行过滤，获取预设长度的子肽序列；

S163，对预设长度的子肽序列的生物分类进行注释，生成子肽序列的生物分类注释信息；

S164，基于子肽序列的生物分类注释信息，利用预设规则确定各第二肽序列的生物分类注释信息。

可选的，可在第二肽序列中氨基酸为K或者R，且其后不是P的情况下，对第二肽序列进行切割，形成多个子肽序列。之后，对子肽序列进行过滤，获取预设长度的子肽序列。可选的，该预设长度可为大于等于3个氨基酸且小于等于150个氨基酸。之后，可基于例如COGs数据库对子肽序列的生物分类进行注释，形成子肽序列的生物分类注释信息。继而，基于子肽序列的生物分类注释信息，利用预设规则确定各第二肽序列的生物分类注释信息。对预设长度的子肽序列进行标注，有益于提高生物分类标注信息的准确性。

需要说明的是，由于部分第二肽序列可能不具有酶切点，这部分第二肽序列未被切割，但也会执行过滤操作和注释操作，所以，子肽序列应广泛的理解为包含这部分未被切割的第二肽序列。

配合图4所示，在一些实施例中，所述基于子肽序列的生物分类注释信息，利用预设规则确定各第二肽序列的生物分类注释信息，可包括：

基于同一第二肽序列酶切形成的子肽序列形成肽序列组；

在肽序列组中具有多个预设长度的子肽序列的情况下，如果多个子肽序列的生物分类注释信息相同，则将该生物分类注释信息作为相对应的第二肽序列的生物分类注释信息，如果多个子肽序列的生物分类注释不同，则确定多个子肽序列的生物分类注释信息的分支和层级；

也即，在对肽序列进行模拟模切之后，基于同一第二肽序列酶切形成的子肽序列构建肽序列组。之后，对子肽序列进行过滤，以获取预设长度的子肽序列，对子肽序列的生物分类进行注释，生成子肽序列的生物分类注释信息。

判断肽序列组中是否具有预设长度的子肽序列，如果肽序列组中不具有预设长度的子肽序列，则删除相应的第二肽序列；如果肽序列组中具有一个预设长度的子肽序列的情况下，则将该子肽序列的生物分类注释信息作为相对应的第二肽序列的生物分类注释信息。

在肽序列组中具有多个预设长度的子肽序列的情况下，判断多个子肽序列的生物分类注释信息是否相同，如果相同则将该生物分类注释信息作为相对应的第二肽序列的生物分类注释信息，如果不同则确定多个子肽序列的生物分类注释信息的分支和层级。

如果多个子肽序列的生物分类注释信息的分支相同且层级不同，将最深层级的生物分类注释信息作为相对应的第二肽序列的生物分类注释信息。例如，一个子肽序列的生物分类注释信息包括：细菌界、变形菌门、γ-变形菌纲、肠杆菌目、肠杆菌科、埃希氏菌属、大肠杆菌种，另一个子肽序列的生物分类注释信息包括：细菌界、变形菌门、γ-变形菌纲、肠杆菌目、肠杆菌科，则第二肽序列的生物分类注释信息包括：细菌界、变形菌门、γ-变形菌纲、肠杆菌目、肠杆菌科、埃希氏菌属、大肠杆菌种。

如果多个子肽序列的生物分类注释信息的分支不同且层级不同给的情况下，将最浅的共同层级的生物分类注释信息作为相对应的第二肽序列的生物分类注释信息。例如，一个子肽序列的生物分类注释信息包括：细菌界、变形菌门、γ-变形菌纲、肠杆菌目、肠杆菌科、埃希氏菌属、大肠杆菌种，另一个子肽序列的生物分类注释信息包括：包括细菌界、变形菌门、γ-变形菌纲、肠杆菌目、肠杆菌科、沙门氏菌属，则确定两个生物分类注释信息的分支不同且层级不同，则第二肽序列的生物分类注释信息为细菌界、变形菌门、γ-变形菌纲、肠杆菌目、肠杆菌科。

如果多个子肽序列的生物分类注释信息的分支不同且层级相同，则表明相对应的第二肽序列的注释结果存在异议，可删除太第二肽序列及其分类注释信息。例如，一个子肽序列的生物分类注释信息包括：真核域、动物界、脊索动物门、脊椎动物亚门、哺乳纲、兽亚纲、灵长目，另一个子肽序列的生物分类注释信息包括：细菌界、变形菌门、γ-变形菌纲、肠杆菌目，则可删除相对应的第二肽序列，以及两个子肽序列的生物分类注释信息。

在一些实施例中，所述方法还包括：

S170，基于第二肽序列的生物分类注释信息、第二蛋白质序列的功能注释信息、第二蛋白质序列的通路注释信息、第二肽序列的丰度信息和/或第二蛋白质序列的丰度信息，生成目标矩阵；

配合图5所示，以对人类肠道微生物菌群进行宏蛋白质组学分析为例，可基于第二肽序列的生物分类注释信息，将第二肽序列和第二蛋白质序列划分为微生物的肽序列、人类的肽序列、微生物的蛋白质序列和人类的蛋白质序列。

基于第二肽序列的生物分类注释信息和第二肽序列的丰度信息，生成微生物肽序列丰度矩阵和人类肽序列丰度矩阵，微生物肽序列丰度矩阵可记载有微生物的肽序列、第二肽序列的丰度信息，人类肽序列丰度矩阵可记载有人类的肽序列、第二肽序列的丰度信息。基于微生物肽序列丰度矩阵中的第二肽序列的生物分类注释信息，可确定特定生物分类群的丰度信息。例如，确定特定的界、门、纲、目、科、属、种的丰度信息，继而，基于分类群的丰度信息，生成微生物分类群肽序列丰度矩阵。

基于第二蛋白质序列的功能注释信息、第二蛋白质序列的通路注释信息和第二蛋白质序列的丰度信息，可生成微生物蛋白质丰度矩阵和人类蛋白质丰度矩阵，微生物蛋白质丰度矩阵和人类蛋白质丰度矩阵可包含第二蛋白质序列、第二蛋白质序列的丰度信息。此外，还可基于COGs数据库或KEGG数据的分类，生成微生物COGs分类/KEGG分类蛋白质丰度矩阵。

在此基础上，还可按照样本的类型生成第二样本肽和蛋白质丰度矩阵、组内生物学重复定量矩阵、组内技术重复定量矩阵、组内生物学重复定量矩阵、组内技术重复定量矩阵等等，以满足不同目的的分析需求。

参见图6所示，本申请实施例还提供了一种电子设备，至少包括存储器201和处理器202，所述存储器201上存储有程序，所述处理器202在执行所述存储器201上的程序时实现如上任一实施例所述的方法。

本领域技术人员应明白，本申请的实施例可提供为方法、电子设备、计算机可读存储介质或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。当通过软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

上述处理器可以是通用处理器、数字信号处理器、专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logicdevice，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,简称GAL)或其任意组合。通用处理器可以是微处理器或者任何常规的处理器等。

上述存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

上述可读存储介质可为磁碟、光盘、DVD、USB、只读存储记忆体(ROM)或随机存储记忆体(RAM)等，本申请对具体的存储介质形式不作限定。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于质谱数据的宏蛋白质组学分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分析结果至少包括第二肽序列和第二蛋白质序列，所述第二肽序列用于标识第二样本中的肽段，所述第二蛋白质序列用于标识与第二样本中肽段相关联的蛋白质；所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对第二肽序列的生物分类进行注释，以生成第二肽序列的生物分类注释信息，包括：

对第二肽序列进行模拟酶切形成子肽序列；

对子肽序列进行过滤，获取预设长度的子肽序列；

4.根据权利要求3所述的方法，其特征在于，所述基于子肽序列的生物分类注释信息，利用预设规则确定各第二肽序列的生物分类注释信息，包括：

5.根据权利要求2所述的方法，其特征在于，所述对第二蛋白质序列的功能和/或通路进行注释，包括：

6.根据权利要求2所述的方法，其特征在于，所述分析结果还包括第二肽序列的丰度信息和第二蛋白质序列的丰度信息；所述方法还包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述通过与每个第一质谱数据匹配，从微生物蛋白质数据库中分别选取蛋白质数据，每次选取的蛋白质数据形成与每个所述第一质谱数据一一对应的第一数据集，包括：

将所述微生物蛋白质数据库划分为N个子数据库；

8.根据权利要求1至6任一项所述的方法，其特征在于，所述将所有第一数据集中所提取的蛋白质数据形成第二数据集，包括：

9.根据权利要求1至6任一项所述的方法，其特征在于，所述对所述第一谱图库进行优化处理，以简化所述第一蛋白质序列和所述第一肽序列的关联关系，包括如下步骤中的一个或多个：

10.根据权利要求1至6任一项所述的方法，其特征在于，所述第一样本来自目标对象群体中多个目标对象的肠道微生物肽段混合样本；和/或，所述第二样本来自目标对象群体中单个目标对象的肠道微生物肽段样本。

11.一种电子设备，其特征在于，至少包括存储器和处理器，所述存储器上存储有程序，所述处理器在执行所述存储器上的程序时实现如权利要求1至10任一项所述的方法。