CN113777178A

CN113777178A - 基于混合谱图库的蛋白质组学背景库、其构建方法及应用

Info

Publication number: CN113777178A
Application number: CN202010524284.XA
Authority: CN
Inventors: 丁琛; 朱玲利; 殷亚楠; 吕嘉诚; 冯晋文; 王云之
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2021-12-10

Abstract

本发明公开了一种基于混合谱图库的蛋白质组学背景库、其构建方法及应用。本发明提供了一种蛋白质组学背景库的构建方法，其包括如下步骤，步骤(1)对多来源样本中分离得到的肽段进行质谱检测，并采集得到蛋白质谱数据；步骤(2)将所述的蛋白质谱数据进行搜库和分析后处理形成蛋白质谱数据库文件，并将其集合得到所述的蛋白质组学背景库；其中，所述的多来源样本是指来自于不同物种或同一物种不同组织、器官、体液的样本。通过多来源样本建立的混合背景库的构建，并将其用于不同样品的高通量、定量准确的DIA技术的蛋白质组学检测方法。

Description

基于混合谱图库的蛋白质组学背景库、其构建方法及应用

技术领域

本发明属于蛋白质组检测技术领域。涉及一种基于混合谱图库的蛋白质组学背景库、其构建方法及应用。

背景技术

蛋白质组学研究从蛋白质层面阐释特定生物现象的发展原因，揭示发展规律，对生命科学研究及医学诊疗的发展具有重大意义。目前蛋白质组学的研究对象多以体液、组织等为主。体液具有微创、较易获取、可容纳并累计更多生理病理变化等特征，但其缺点在于所含蛋白量低、蛋白质丰度跨度广等；组织因其可直达病灶，相较体液拥有更丰富的病理信息，但存在某些疾病组织难获取、样本量少、长期存储致蛋白降解等缺陷。利用蛋白质组学技术对不同样本进行研究可以从新的角度为疾病提供早期诊断及预后指标。

质谱法具有较高的特异性和灵敏度，将其与不同的分离方法如气相色谱、液相色谱联用，可非常高效地对复杂混合物的组分进行鉴定，因而其在生物医药、环境监测等诸多领域有着广泛的应用。在生物医药领域，基于质谱的蛋白组学研究方法为极大地推动了疾病诊断、生物标志物发现的进展。液质联用法是一种高灵敏度、高特异性的化学分析方法，现已成为一种分离和鉴定复杂混合物组成的可靠手段。

数据依赖型采集(Data Denpendent Acquisition,DDA)技术是目前蛋白质组学领域采用最为广泛的采集方式，这种方式采集具有二级谱图简单，信息指向明确的优点，结果较为可靠；但是，由于DDA依照信号强度先强后弱采集离子碎裂二级的方式会造成部分低丰度组分信息丢失，这会直接造成蛋白重现性较低且定量结果准确性差的问题。

随着质谱软硬件的发展，数据非依赖型采集(Data Independent Acquisition，DIA)成为后起之秀，其将所有离子碎裂并与通过DDA方法采集产生的背景库进行匹配，相较于DDA技术，该方法具有如下技术优势：第一，DIA检测技术是将全扫描范围划分为若干个扫描窗口，快速高效地对各窗口中所有母离子进行二级碎裂，不仅可以高通量且无遗漏地捕获样本中所有组分的谱图信息，还可利用二级谱图进行准确定量。对低丰度蛋白含量高的样本(如血液等)优势明显，林琳等人在80min色谱梯度内高重现性地定量>2000个血清多肽(CN 109725078A)。第二，DIA技术主要依赖于与背景库的谱图匹配，每个DIA数据需建立适用于其自身的谱图库，使得DIA分析时对数据的搜索更为全面、数据搜索时间窗口小而结果更为精确，林琳等人在80min色谱梯度内高重现性地定量上千个尿液蛋白质(CN108387666A)。第三，DIA检测技术适用于作为数据库储存，混合样本谱图库不断迭代累积，可对未来发现的新物质、提出的新问题进行回顾性研究。第四，DIA检测技术在生物、医药、农林、食品、法医等多个领域内重要的检测方法。总之，DIA技术具有更高的灵敏度、动态范围以及更好的重现性。现行的方法之一是将部分或全部待分析样品混合，利用DDA采集方式对上述样品检测而建立背景谱图库，然后将单个样品DIA结果与背景库匹配进而鉴定蛋白，即所鉴定的DIA结果全部源自于DDA方式所建立的背景库，没有一个完善的数据库(Library)就没有对DIA数据的完整解析，DIA分析就失去了其优势。那么背景库中的谱图信息是否完整、全面，将直接关系到样本DIA蛋白检出水平的高低，因此，构建覆盖度广、精度高的大型背景库是十分重要的。

由于样本难获得、来源受限；单一体液样本研究成本相对低，现有技术多为单一体液样本库。在此基础上，现有技术中通常采用体系中添加标准品的方法扩充背景库。但是上述策略，对于数量庞大的蛋白质和肽段而言，显然是无法满足实际需求。

发明内容

本发明所要解决的技术问题是为了克服现有的蛋白检测分析方法仅针对单个体液样品，存在低覆盖、低通量等的缺陷，而提供了一种基于混合谱图库的蛋白质组学背景库、其构建方法及应用；通过多来源样本建立的混合背景库的构建，并将其用于不同样品的高通量、定量准确的DIA技术的蛋白质组学检测方法。

本专利旨在通过研究多来源样本构建大型混合谱图库，不仅提高蛋白定性结果及定量结果的准确性，还省去部分样本谱图库的建立。

本发明是通过下述技术方案来解决上述技术问题的。

本发明提供了一种基于混合谱图库的蛋白质组学背景库的构建方法，其包括如下步骤，

步骤(1)对多来源样本中分离得到的肽段进行质谱检测，并采集得到蛋白质谱数据；

步骤(2)将所述的蛋白质谱数据进行搜库和分析后处理形成蛋白质谱数据库文件，并将其集合得到所述的蛋白质组学背景库；

其中，所述的多来源样本是指来自于不同物种(如动物、植物、微生物等)或同一物种不同组织、器官、体液的样本。

所述的多来源样本可为本领域该类检测中常规的不属于同一来源的样本；在本发明的某一方案中，所述的人类体液包括但不限于：胸水、腹水、胆汁、脑脊液、尿液、下颌关节液、血清和血浆中的2种或2种以上来源的样本。

在本发明的某一方案中，所述的多来源样本中同来源的样本可采用单一样本或者混合样本的方式进行分离蛋白并进行质谱检测；例如，采用混合样本的方式。

在本发明的某一方案中，所述的多来源样本中的蛋白样本可采用本领域常规的方法制备得到，例如凝胶色谱法或电泳法；又例如SDS-PAGE方法、sRP方法(当所述的多来源样本为血清、血浆样本时)。

在本发明的某一方案中，所述的质谱检测的方法可为本领域常规的质谱检测方法，例如使用液相色谱质谱法(简称液质联用技术，LC-MS)或气相质谱法(简称气质联用技术，GC-MS)；较佳地为液相色谱质谱法(又例如高通量、高分辨质谱检测方法)。

在本发明的某一方案中，所述的质谱数据的采集方法可为本领域常规的采集方法，例如，数据依赖型质谱方法(DDA)进行质谱数据采集。所述的数据依赖型质谱方法(DDA)可为本领域中常规的数据依赖型质谱方法。

本发明中，所述的蛋白质谱数据所述的质谱数据包括一级质谱数据(一级母离子)和二级质谱数据(二级碎片信息)。

搜库可采用本领域常规的质谱数据库和检索方法进行搜库，例如使用fragpipe-12.1软件进行人类蛋白数据搜库，从而进行分析和处理。进一步地，所述搜库的参数包括：母离子质量精度：20ppm；子离子质量精度：20ppm。所述搜库的参数还包括：酶切方式为胰蛋白酶完全酶切，漏切位点≤2，可变修饰：甲硫氨酸氧化(M+15.9949Da)等；固定修饰：半胱氨酸甲基化修饰(C+57.0215Da)。

所述分析的方法可为：鉴定结果进行假阳性率(FDR)小于1％卡值。

在本发明的某一方案中，所述的构建方法，其包括如下步骤，

步骤(1)对多来源样本中同来源的样本采用混合样本的方式进行分离蛋白，并数据依赖型质谱方法采集得到包括一级质谱数据和二级质谱数据的蛋白质谱数据；

步骤(2)将所述的蛋白质谱数据使用fragpipe-12.1软件进行人类蛋白数据搜库和分析后处理形成蛋白质谱数据库文件，并将其集合得到所述的蛋白质组学背景库。

本发明提供了一种蛋白质组学背景库，其采用如上所述的蛋白质组学背景库的构建方法构建得到。所述的蛋白质组学背景库适用于多来源样本的定性和定量分析(例如胸水、腹水、胆汁、脑脊液、尿液、下颌关节液、血清和血浆等)。

本发明中，所述的蛋白质组学背景库包括一级质谱数据库(一级母离子)和样本二级质谱数据库(二级碎片信息)；用于与待测样本数据进行匹配。

本发明还提供了一种如上所述的蛋白质组学背景库在蛋白质组学检测分析中的应用。例如可在精准医疗中对患者个体化临床样本蛋白质分析的应用。

在本发明的某一方案中，所述的应用包括如下步骤，将待测样品中分离得到的肽段进行质谱检测后采集得到的蛋白质谱数据与如上所述的蛋白质组学背景库进行搜库和定性和/或定量分析。

在本发明的某一方案中，所述的待测样品与所述的蛋白质组学背景库构建中所述的多来源样本中的一种为同一多来源物质。

在本发明的某一方案中，所述蛋白质谱数据采集的方法可为本领域中常规的采用方法，例如数据依赖型质谱方法或非数据依赖型质谱方法；较佳地为非数据依赖型质谱方法。所述的非数据依赖型质谱方法可为本领域中常规的非数据依赖型质谱方法；例如利用可变窗口的数据非依赖性质谱采集方法，其中每个循环扫描模式包含一个一级全扫描和多个可变窗口的数据非依赖型二级扫描；所述的可变窗口宽度较佳地为根据各个可变窗口中母离子数目均一化原则确定。例如可变窗口数可为30个。在本发明的某一方案中，所述30个可变窗口如下：300-346m/z,346-414m/z,414-453.5m/z,453.5-484.5m/z,484.5-512.5m/z,512.5-541.5m/z,541.5-570.5m/z,570.5-597m/z,597-621m/z,621-645m/z,645-668m/z,668-691m/z,691-714.5m/z,714.5-738m/z,738-762.5m/z,762.5-787m/z,787-809.5m/z,809.5-832m/z,832-856.5m/z,856.5-881.5m/z,881.5-908m/z,908-936m/z,936-963.5m/z,963.5-993.5m/z,993.5-1027.5m/z,1027.5-1062.5m/z,1062.5-1104m/z,1104-1157m/z,1157-1224.5m/z,1224.5-1331.5m/z。

在本发明的某一方案中，所述可变窗口的数据非依赖性质谱采集方法中质谱条件：一级全扫描，扫描范围：m/z 300-1400；一级检测：轨道阱质量分析器，分辨率60K，选择模式：四级杆；隔离窗口：30个可变窗口的数据非依赖性二级扫描；碎裂模式：高能碰撞解离，碎裂能量为30％；二级检测：轨道阱质量分析器，分辨率15K；二级扫描范围：m/z 300-1400；最大离子注入时间：22ms。

所述的蛋白质谱数据搜库可采用本领域常规的质谱数据库和检索方法进行搜库，例如使用DIA-NN软件进行蛋白数据搜库；从而进行定性和/或定量分析。进一步地，所述搜库的参数包括：母离子质量精度：20ppm；子离子质量精度：10ppm。所述搜库的参数还包括：酶切方式为胰蛋白酶完全酶切，漏切位点≤2，修饰为半胱氨酸残基(C)+57.0215Da、肽段的蛋氨酸残基(M)的氧化+15.9949Da。

所述定性和/或定量分析的方法可为：鉴定结果进行假阳性率(FDR)小于1％卡值。

在不违背本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明所用试剂和原料均市售可得。

本发明的积极进步效果在于：本发明通过建立多来源样本的混合背景库，并结合质谱可变窗口的数据非依赖性采集模式，最大化兼顾选择性和灵敏度，可将其用于高通量、定量准确的DIA技术的蛋白质组学检测方法。通过构建大型混合样本谱图库，该方法能够在75min色谱梯度内定量>1000个血浆蛋白质(数据结果仅依托于8种体液库撞库结果)，其定量的蛋白质数目是相同分析时间下单一血浆库搜库方法的1.6倍。

附图说明

图1为本发明混合样本特异性谱图库构建的过程示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法，按照常规方法和条件，或按照商品说明书选择。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：蛋白质组学：是指利用高分辨率的蛋白质分离技术和高效的蛋白质鉴定技术在蛋白质水平上整体性、动态和定量地研究生命现象及规律的科学。

蛋白质组学的定性原理：随着高效液相色谱技术和静电场轨道阱质谱技术的发展，液相色谱串联质谱(LC-MS/MS)成为研究蛋白质组学的主要技术，其鉴定蛋白的基本步骤(bottom-up)包括：收集样本后进行总蛋白提取---消化切割蛋白为多肽片段---HPLC分离---分级进入MS电场进一步离子化---MS获得各离子质荷比和峰型信息---软件计算氨基酸组成---数据库检索比对获得蛋白质的定性和序列信息。

质谱数据一般有以下特征参数：PSM、Peptide、Uniquepeptides、Strictpeptides、Protein，PSM是拿数据库中的多肽与质谱图进行比对，并输出最高分数值的多肽作为一个PSM，PSM值越高，则表明可信度相对越高。蛋白质(protein)由肽段(peptide)组装而来，因此一种蛋白质可以对应很多肽段，而检测到的肽段数目越多，则说明该种蛋白确实被鉴定到的几率越大。由于质谱检测到的有些肽段只在某一种蛋白中出现，因此当鉴定到这种肽段时，我们就可以确信对应的该种蛋白的出现，这些肽段我们称之为唯一性肽段(unique peptide)。此外，如果肽段在搜库软件Mascot中的ion score打分值很高(大于20分)，则称该肽段为高质量肽段(strict peptide)，这一衡量标准也能够比较好的表征该蛋白的存在。

上述从数据库中进行蛋白匹配鉴定的过程中，匹配鉴定的具体条件可以根据实际质谱数据情况进行合理调整。在本申请一些优选的实施例中，满足的保留条件包括质量条件和/或频次条件，质量条件包括如下至少之一：具有两条满足质量要求的肽段且其中至少一条为满足质量要求的唯一性肽段(unique peptide，也翻译成特异性肽段，指仅在一种蛋白质中可能出现的肽段)、及至少具有三条满足质量要求的肽段；频次条件为至少在80％的样本中都出现的蛋白。

此处的质量要求根据所用的数据库中的蛋白质谱肽段的谱图质量合理设定，为了提高所匹配鉴定的蛋白的准确性，本申请中所需要满足的质量要求为高质量的肽段，所谓“高质量”是指Mascot对肽段的打分(ion score)大于20分。具有高质量的唯一性肽段就是指仅在一种蛋白质中可能出现的肽段且该肽段的打分(ion score)大于20分，具有两条满足高质量要求的肽段是指该蛋白至少包含两条肽段打分大于20分的肽段。至少具有三条满足质量要求的肽段是指该蛋白至少包含三条肽段打分大于20分的肽段。而频次要求在数据库中80％以上的样本中都出现的蛋白，这样保证该蛋白是具有普遍性的蛋白。

在数据分析之前，通常需要先将数据进行标准化(normalization)，利用标准化处理之后再进行数据分析。数据标准化处理包括数据同趋化处理和无量纲化处理两个方面。其中，数据无量纲化处理主要解决数据的可比性，方法有多种，经标准化处理，原始数据均转化为无量纲化指标测评值，即各指标处理同一个数量级别上，可以进行综合测评分析。

本申请主要是引入了整合多来源样本建库、撞库的思想并加以实施，得到了更大容量的蛋白质组学数据。具体的，现有公开研究多为针对同一类样品进行DDA建库并用作DIA分析的背景库，本申请涉及多来源样本的混合DDA建库，从而得到更大的背景库以及更大的数据量，我们以8种体液为例，构建了覆盖深度较广的体液库，并以此作为背景库，提高了单一血浆样本DIA的鉴定量。

仪器与试剂

Orbitrap Fusion Lumos三合一质谱仪、EASY-nLC纳流高效液相色谱(ThermoFisher Scientific)。高丰度蛋白去除专用试剂盒购自Thermo Fisher Scientific，氨水、碳酸氢铵购自国药集团化学试剂有限公司，乙腈、质谱水购自J.T.Baker公司，甲酸来自Sigma公司。

实施例1

一、人类体液库构建：

混合样本特异性谱图库是通过对多种生物样本进行深度分析所构建的，如图1为谱图库构建示意图，其过程如下：

对多来源样本中分离得到的肽段采用数据依赖型质谱方法(DDA)进行质谱检测；将采集得到的质谱数据搜库后用于构建谱图库，所述谱图库涵盖一级母离子和二级碎片信息。

1、体液样本收集

本实施例共选择八种体液进行背景库构建。下颌关节液由上海交通大学医学院第九人民医院提供，胸水、腹水、胆汁、脑脊液、尿液、血清、血浆由南京市鼓楼医院提供。

2、蛋白样本制备

将多来源样本(本实例以下颌关、胸水、腹水、胆汁、脑脊液、尿液、血浆、血清等8种体液为例)，室温融化并常温平衡High-Select^TM Top14 Abundance Protein DeleptionMini Spin Columns(Thermo Fisher A36370)(下称Column)，分别加入至Column中，上下颠倒至完全混合，室温旋转30min，去Column底部并置于新EP管内，1,000g离心得蛋白溶液。下述两种样本制备方法：

SDS-PAGE方法(十二烷基硫酸钠聚丙烯酰胺凝胶电泳)：

将所得蛋白溶液全部转入10KD FASP管，12,800g离心至干，加入50mM碳酸氢铵溶液于FASP管，12,800g离心至干，重复操作两次，将蛋白溶液转移至新的EP管，进行SDS-PAGE蛋白分离实验，蛋白分离后对胶块染色脱色，按照蛋白不同分子量切下目标条带，分别置于新的EP管中，加入脱色液(50mM碳酸氢铵甲醇水溶液，甲醇：水＝2：3(v：v))振荡至脱色完全，去上清，加入75％乙腈水溶液浸没胶块，振荡30min，去上清，加入HPLC级水浸没胶块并振荡1h，重复上述操作1～2次，加入50mM碳酸氢铵溶液浸没胶块，振荡5min后去上清，加入50mM碳酸氢铵溶液浸没胶块，再加入胰蛋白酶后将凝胶挤碎，37℃酶解6小时以上，加入乙腈溶液，震荡5min后吸取上清至EP管中，凝胶中再加入0.1％甲酸水溶液震荡5min，再加入乙腈震荡5min，吸取上清合并，60℃真空抽干，即得用于DDA质谱检测所需的干粉状肽段。向EP管中加入12μL 0.1％甲酸水溶液复溶，吸取6μL进行质谱检测。

sRP方法(高pH反相色谱微柱；仅血清、血浆样本)：

向体系中加入10mM碳酸氢铵溶液，适量氨水调整pH为7.8-8.5，95℃孵育3min，冷却至室温后加入胰蛋白酶(Trypsin)，于37℃300rpm条件下振荡12h，向体系中加入10μL氨水后抽干，配制浓度为6％、9％、12％、15％、18％、21％、25％、30％、35％的10mM NH₄HCO₃洗脱液(pH＝10)，制备sRP柱(2层C18膜+适量C18粉)，活化平衡柱子。复溶抽干后，上载样品至sRP柱，用不同浓度的洗脱液进行洗脱，收集，60℃真空抽干，得到用于DDA质谱检测所需的干粉状肽段，用12μL 0.1％甲酸水溶液复溶，取6μL进行质谱检测。

3、质谱采集

检测系统：纳流液相色谱-四极杆-静电场轨道阱-线性离子阱三合一高分辨质谱系统(Orbitrap Fusion Lumos三合一质谱、EASY-nLC 1200纳流超高效液相色谱(ThermoScientific))；

液相条件：

色谱柱：自制纳流C18色谱柱(150μm i.d.×15cm，

填料)；上样量：5μL；流速为600nL/min；柱温箱温度60℃；以0.1％甲酸水溶液为A流动相，以0.1％甲酸-80％乙腈水溶液为B流动相，液相梯度为：

0-10min，4％-15％B流动相；

10-60min，15％-30％B流动相；

60-69min，30％-50％B流动相；

69-70min，50％-100％B流动相；

70-75min，100％B流动相。

每个时间段内B流动相浓度随时间均匀改变；

质谱条件：

离子源：纳喷雾离子源；扫描模式：正离子；喷雾电压：2.0KV；离子传输管温度为320℃。

一级全扫描，扫描范围：m/z 300-1400；

一级检测：轨道阱质量分析器，分辨率60K，选择模式：四级杆；AGC：4.0E5；强度阈值(Intensity Threshold)：5.0e3；动态排除时间：18s；最大离子注入时间：50ms；

二级碎裂模式：高能碰撞解离，碎裂能量为30％；

二级检测：轨道阱质量分析器，分辨率15K；选择模式：四级杆；AGC：5.0e4；最大离子注入时间：22ms。

基于以上液相及质谱参数，样品采用数据依赖型质谱方法进行采集；将采集得到的质谱数据搜库后用于构建谱图库，所述谱图库涵盖一级母离子和二级碎片信息。

4、数据处理：

DDA数据使用fragpipe-12.1软件进行人类蛋白数据搜库鉴定和比较，胰蛋白酶完全酶切，最多允许2个漏切位点；

母离子质量精度：20ppm；

子离子质量精度：20ppm；

可变修饰：甲硫氨酸氧化(M+15.995Da)；

固定修饰：半胱氨酸脲甲基化(C+57.021Da)。

鉴定结果进行假阳性率(FDR)小于1％卡值。

8种体液建库共鉴定到5727个蛋白。

二、DIA数据分析：

1.蛋白样本制备：

本实例以血浆样本为例进行DIA技术分析，血浆样本可采用本领域常规的方法制备得到肽段，例如SDS-PAGE方法、sRP方法等。

将待测体液样本室温融化并平衡Column，向Column中加入2μL体液，振荡试剂盒，使体液内高丰度蛋白与树脂结合，常温1,000g条件下离心体系2min，转移上清至新EP管中，向体系中加入一定浓度为10mM的碳酸氢铵，加适量氨水调整体系的pH为7.8-8.5，95℃孵育3min使蛋白热变性，冷却至室温后，向体系中加入1μg胰蛋白酶(Trypsin)，于37℃300rpm条件下振荡12h，向体系中加入10μL氨水后抽干。向酶解后样品进行脱盐处理，抽干即得用于DIA质谱检测所需的干粉状肽段，用12μL 0.1％甲酸水溶液复溶，取6μL进行质谱检测。

DIA参数设置：

液相条件：

采用纳流液相色谱，色谱柱为自制纳流C18色谱柱(150μm，i.d.×15cm，

填料，上样量为5μL；流速为600nL/min，柱温箱温度60℃。

纳流液相色谱以0.1％的甲酸水溶液为A流动相，以0.1％甲酸-80％乙腈水溶液为B流动相。

液相参数设置如下：

液相梯度：

0～10min：4～15％B流动相；

10～60min：15～30％B流动相；

60～69min：30～50％B流动相；

69～70min：50％～100％B流动相；

70～75min：100％B流动相；

每个时间段内B流动相浓度均匀改变。

质谱参数设置如下：

离子源：纳喷雾离子源；扫描模式：正离子；喷雾电压：2.0KV；离子传输管温度为320℃；扫描时间75min。

一级扫描模式：全扫描；一级扫描范围：m/z 300-1400；

一级检测：轨道阱质量分析器(分辨率60K)；选择模式：四级杆；隔离窗口：可变；一级质谱分辨率60000@m/z200，最大注入时间为50ms,AGC Target为4.0e5，扫描范围为300-1400m/z；

二级碎裂模式：高能碰撞解离；二级扫描分辨率15000@m/z200，碰撞能量30％。

二级检测：轨道阱质量分析器(分辨率15K)；二级扫描范围：m/z 300-1400；最大离子注入时间：22ms。

每个循环扫描模式包含一个一级全扫描和30个可变窗口的数据非依赖型二级扫描，可变隔离窗口具体为：300-346m/z,346-414m/z,414-453.5m/z,453.5-484.5m/z,484.5-512.5m/z,512.5-541.5m/z,541.5-570.5m/z,570.5-597m/z,597-621m/z,621-645m/z,645-668m/z,668-691m/z,691-714.5m/z,714.5-738m/z,738-762.5m/z,762.5-787m/z,787-809.5m/z,809.5-832m/z,832-856.5m/z,856.5-881.5m/z,881.5-908m/z,908-936m/z,936-963.5m/z,963.5-993.5m/z,993.5-1027.5m/z,1027.5-1062.5m/z,1062.5-1104m/z,1104-1157m/z,1157-1224.5m/z,1224.5-1331.5m/z。

表1可变窗口列表

蛋白质定性定量分析：采用DIA-NN软件对原始DIA质谱数据进行蛋白的定性与定量分析，检索参数设置为：

胰蛋白酶完全酶切，最多允许2个漏切位点；

母离子质量精度：20ppm；子离子质量精度：10ppm；修饰为肽段的半胱氨酸残基(C)+57.0215Da，蛋氨酸残基(M)的氧化+15.9949Da，鉴定结果进行假阳性率(FDR)小于1％卡值。通过将MS₂碎片离子的峰面积相加来计算多肽强度，在通过多肽强度的相加来计算蛋白质强度(用于定量)。

依照上述实验流程，以库中八种体液——血清、血浆、胆汁、尿液、脑脊液、腹水、胸水、下颌关节液做背景库以及单一血浆库，对9例血浆样本进行检测，检测结果如下表2所示：

表2两种背景库的检测结果比较

注：1：Roland Bruderer,Jan Muntel,Sebastian Müller et al.Analysis of1508 Plasma Samples by Capillary-Flow Data-Independent Acquisition ProfilesProteomics of Weight Loss and Maintenance.Mol Cell Proteomics.2019,18(6):1242–1254.

Roland等人构建单一血浆样本库，共鉴定到661个蛋白，8641肽段，并对1508个血浆样本进行DIA质谱检测分析，平均鉴定到408个蛋白；本专利构建单一血浆样本库，共鉴定到2028蛋白，25943肽段，DIA质谱检测分析可平均鉴定到638个血浆蛋白；目前暂时构建的8种体液库，共鉴定到5727个蛋白，56556肽段，DIA质谱检测分析可平均鉴定到1012个血浆蛋白。由此可见，混合建库可有效提高样本质谱检测数据。

由上可见，采用本发明的方法获得的样品背景库，可用于高通量、定量准确的DIA技术的蛋白质组学检测，肽段鉴定数目、蛋白鉴定数目以及蛋白定量数目得到大大提高。在上述实施例中，利用蛋白质组学质谱技术对不同样本进行混合库构建，并结合可变窗口DIA采集模式，该方法能在75min色谱梯度内定量>1000个血浆蛋白质(数据仅依托于8种体液库检测结果)，其定量的蛋白质数目是相同分析时间下单一血浆库搜库方法的1.6倍。与传统的使用同一样本作背景库的方法相比，也获得了显著的提高。对于多来源样本不应局限于体液，不同的组织、器官、物种等也应属于合并建库思想的范围之内。并且通过不断迭代新的样品库以获得更加全面的样品背景库。

Claims

1.一种蛋白质组学背景库的构建方法，其特征在于，其包括如下步骤，步骤(1)对多来源样本中分离得到的蛋白进行质谱检测，并采集得到蛋白质谱数据；

其中，所述的多来源样本是指来自于不同物种或同一物种不同组织、器官、体液的样本。

2.如权利要求1所述的构建方法，其特征在于，

当所述的多来源样本为人类体液时，所述的人类体液选自：胸水、腹水、胆汁、脑脊液、尿液、下颌关节液、血清和血浆中的2种或2种以上来源的样本；

和/或，所述的多来源样本中同来源的样本采用单一样本或者混合样本的方式进行分离蛋白并进行质谱检测；

和/或，所述的多来源样本中的蛋白样本采用凝胶色谱法或电泳法制备得到；

和/或，所述的质谱检测的方法为液相色谱质谱联用技术或气相质谱联用技术；

和/或，所述的质谱数据采集的方法为数据依赖型质谱方法；

和/或，所述的质谱数据包括一级质谱数据和二级质谱数据；

和/或，所述的蛋白质谱数据使用fragpipe-12.1软件进行人类蛋白数据搜库；

和/或，所述的蛋白质谱数据搜库的参数包括：母离子质量精度：20ppm；子离子质量精度：20ppm；

和/或，所述分析的方法可为：鉴定结果进行假阳性率小于1％卡值。

3.如权利要求2所述的构建方法，其特征在于，

所述的多来源样本中同来源的样本采用混合样本的方式进行分离蛋白并进行质谱检测；

和/或，所述的多来源样本中的蛋白样本采用SDS-PAGE方法、或者当所述的多来源样本为血清、血浆样本时，采用sRP方法制备得到；

和/或，所述的质谱检测的方法为液相色谱质谱联用技术；

和/或，所述的蛋白质谱数据搜库的参数还包括：酶切方式为胰蛋白酶完全酶切，漏切位点≤2，可变修饰：甲硫氨酸氧化(M+15.995Da)；固定修饰：半胱氨酸脲甲基化(C+57.021Da)。

4.如权利要求1-3中任一项所述的构建方法，其特征在于，所述的构建方法，其包括如下步骤，

5.一种蛋白质组学背景库，其采用如权利要求1-4中任一项所述的蛋白质组学背景库的构建方法构建得到。

6.一种如权利要求5所述的蛋白质组学背景库在蛋白质组学检测分析中的应用。

7.如权利要求6所述的应用，其特征在于，其包括如下步骤，将待测样品中分离得到的蛋白进行质谱检测后采集得到的蛋白质谱数据与如上所述的蛋白质组学背景库进行搜库和定性和/或定量分析。

8.如权利要求7所述的应用，其特征在于，

所述的蛋白质谱数据采用可变窗口的非数据依赖型质谱方法进行采集；

和/或，所述的搜库采用DIA-NN件进行蛋白数据搜库；

和/或，所述的待测样品与所述的蛋白质组学背景库构建中所述的多来源样本中的一种为同一多来源物质。

9.如权利要求8所述的应用，其特征在于，所述的可变窗口的非数据依赖型质谱方法中，每个循环扫描模式包含一个一级全扫描和多个可变窗口的数据非依赖型二级扫描；

和/或，所述的非数据依赖型质谱方法中，所述的可变窗口宽度为根据各个可变窗口中母离子数目均一化原则确定；

和/或，所述的可变窗口为30个；

和/或，所述的搜库的参数包括：母离子质量精度：20ppm；子离子质量精度：10ppm；

和/或，所述定性和/或定量分析的方法可为：鉴定结果进行假阳性率小于1％卡值。

10.如权利要求9所述的应用，其特征在于，所述30个可变窗口如下：300-346m/z,346-414m/z,414-453.5m/z,453.5-484.5m/z,484.5-512.5m/z,512.5-541.5m/z,541.5-570.5m/z,570.5-597m/z,597-621m/z,621-645m/z,645-668m/z,668-691m/z,691-714.5m/z,714.5-738m/z,738-762.5m/z,762.5-787m/z,787-809.5m/z,809.5-832m/z,832-856.5m/z,856.5-881.5m/z,881.5-908m/z,908-936m/z,936-963.5m/z,963.5-993.5m/z,993.5-1027.5m/z,1027.5-1062.5m/z,1062.5-1104m/z,1104-1157m/z,1157-1224.5m/z,1224.5-1331.5m/z；

和/或，所述可变窗口的数据非依赖性质谱采集方法中质谱条件：一级全扫描，扫描范围：m/z 300-1400；一级检测：轨道阱质量分析器，分辨率60K，选择模式：四级杆；隔离窗口：30个可变窗口的数据非依赖性二级扫描；碎裂模式：高能碰撞解离，碎裂能量为30％；二级检测：轨道阱质量分析器，分辨率15K；二级扫描范围：m/z 300-1400；最大离子注入时间：22ms；

和/或，所述搜库的参数还包括：酶切方式为胰蛋白酶完全酶切，漏切位点≤2，修饰为肽段的半胱氨酸残基+57.0215Da，蛋氨酸残基的氧化+15.9949Da。