CN111796095A

CN111796095A - 一种蛋白质组质谱数据处理方法及装置

Info

Publication number: CN111796095A
Application number: CN201910279816.5A
Authority: CN
Inventors: 桑运霞; 孙天拥; 刘强; 左冰云; 王凤
Original assignee: Suzhou Scallop Biotechnology Co ltd
Current assignee: Suzhou Scallop Biotechnology Co ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2020-10-20

Abstract

本发明提供一种蛋白质组质谱数据处理方法，所述方法至少包括以下步骤：获取蛋白质组质谱的下机数据及参数文件；对蛋白质组质谱的下机数据进行缺失值处理；对步骤S2得到的数据进行归一化处理，然后进行标准化转换；根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正，得到蛋白质组质谱数据。本发明的蛋白质组质谱数据处理方法及装置，能更准确地反映不同实验条件下蛋白表达的变化，进而通过基于超几何分布的富集分析，得到不同实验处理下不同实验组出现差异的生物学功能和生物学通路，对与其他组学数据的联合分析具有重要意义。

Description

一种蛋白质组质谱数据处理方法及装置

技术领域

本发明涉及生物信息学领域，特别是涉及一种蛋白质组质谱数据处理方法及装置。

背景技术

蛋白质组是一种生物或一个细胞里单套所有蛋白质品种的总和。蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征，包括蛋白质的表达水平、翻译后的修饰，蛋白与蛋白相互作用等，由此获得蛋白质水平上的关于疾病发生，细胞代谢等过程的整体而全面的认识。是系统地研究生物学规律和机制的成熟并且有效的工具。根据研究目的不同，蛋白质组学可以分为表达蛋白质组学、结构蛋白质组学和功能蛋白质组学。

定量蛋白质组是指对特定已知蛋白质进行质谱检测，而不会像发现蛋白质组那样对所有未知蛋白进行全检测。质谱，是蛋白组学研究中较熟悉的一种技术，这种方法能用于特异性分析靶标兴趣蛋白。质谱技术是一种鉴定技术，在有机分子的鉴定方面发挥非常重要的作用。它能快速而极为准确地测定生物大分子的分子量，使蛋白质组研究从蛋白质鉴定深入到高级结构研究以及各种蛋白质之间的相互作用研究。

把一个基因组表达的全部蛋白质或一个复杂的混合体系中所有的蛋白质进行精确的定量和鉴定，研究细胞或组织中蛋白质表达的质和量的变化，以及不同时间基因表达谱的改变就是表达蛋白质组学的研究内容。通过质谱技术，具有相同离子化能力的蛋白质或多肽可以通过比较质谱峰的强度或峰面积得到待比较蛋白质的相对量，进而对不同实验处理/分组下表达的蛋白进行差异分析，进而通过富集分析得到不同实验处理/分组下差异的生物学功能和通路。

然而，目前的蛋白质组质谱数据处理方式多种多样，归一化、去除批次效应、差异计算选择方法等没有一致的标准，这就导致同一套数据在不同处理条件下，得到的结果也有所差异，这样由于计算误差导致的结果的不可靠无疑是一种遗憾。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种蛋白质组质谱数据处理方法及装置。

为实现上述目的及其他相关目的，本发明第一方面提供一种蛋白质组质谱数据处理方法，所述方法至少包括以下步骤：

S1：获取蛋白质组质谱的下机数据及参数文件；

S2：对蛋白质组质谱的下机数据进行缺失值处理；

S3：对步骤S2得到的数据进行归一化处理，然后进行标准化转换；

S4：根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正，得到蛋白质组质谱数据。

本发明第二方面提供一种蛋白质组质谱数据的分析方法，包括以下步骤：

对采用前述蛋白质组质谱数据处理方法得到的蛋白质组质谱数据进行差异分析。

本发明第三方面提供一种蛋白质组质谱数据处理装置，所述装置至少包括：

获取模块，用于获取蛋白质组质谱的下机数据及参数文件；

缺失值处理模块，用于对蛋白质组质谱的下机数据进行缺失值处理；

归一化处理模块，用于对缺失值处理模块得到的数据进行归一化处理，然后进行标准化转换；

批次效应校正模块，用于根据参数文件中的批次信息对归一化处理模块得到的数据进行批次效应校正，得到蛋白质组质谱数据。

本发明第四方面提供一种蛋白质组质谱数据的分析装置，至少包括：

差异分析模块，用于对采用前述蛋白质组质谱数据处理装置得到的蛋白质组质谱数据进行差异分析。

本发明第五方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述蛋白质组质谱数据处理方法或前述蛋白质组质谱数据的分析方法。

本发明第六方面提供一种计算机处理设备，包括处理器及前述的计算机可读存储介质，所述处理器执行所述计算机可读存储介质上的计算机程序，实现前述蛋白质组质谱数据处理方法的步骤或前述蛋白质组质谱数据的分析方法的步骤。

本发明第七方面提供一种电子终端，包括：处理器、存储器、及通信器；所述存储器用于存储计算机程序，所述通信器用于与外部设备进行通信连接，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行前述蛋白质组质谱数据处理方法或前述蛋白质组质谱数据的分析方法。

如上所述，本发明的蛋白质组质谱数据处理方法及装置，具有以下有益效果：

本发明的蛋白质组质谱数据处理方法及装置不仅考虑到具体数据的各种预处理，而且对不同物种的处理也考虑在内，只要蛋白以官方通用的标准gene symbol命名，即可对多达20多个物种进行标准的GO功能富集和KEGG通路富集研究，常用的模式物种比如人类、小鼠、大鼠、果蝇、大肠杆菌、酵母等都包括其中。

本发明的蛋白质组质谱数据处理方法及装置，从质谱下机数据开始，考虑到不同时间、不同处理的实验数据的批次效应，统一移除批次效应并进行归一化，使计算结果更符合客观现实，获得的各分组之间的差异蛋白在移除批次效应和统一标准化/标准化后，能更准确地反映不同实验条件下蛋白表达的变化，进而通过基于超几何分布的富集分析，得到不同实验处理下不同实验组出现差异的生物学功能和生物学通路，对与其他组学(转录组、代谢组等)数据的联合分析具有重要意义。

附图说明

图1显示为本发明一实施例中蛋白质组质谱数据处理方法流程图。

图1.1显示为批次效应消除的必要性分析图。

图2显示为本发明一实施例中蛋白质组质谱数据处理装置示意图。

图3显示为本发明一实施例中电子终端示意图。

图4显示为本发明实例中数据预处理前与预处理后密度曲线图。

图5显示为本发明实例中数据预处理前与预处理后数据质量箱线图。

图6显示为本发明实例中移除批次效应前与移除批次效应后的聚类热图结果。

图7显示为本发明实例中预处理后的数据进行PCA分析的结果。

图8显示为差异分析火山图，其中红色为上调的显著差异蛋白，蓝色为下调的显著差异蛋白。

图9显示为差异蛋白聚类热图。

图10显示为差异蛋白富集分析结果条形图。

图11显示为差异蛋白富集分析结果气泡图。

图12显示为蛋白质组质谱数据自动化分析HTML格式整合报告(部分)。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1至图12。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，虽图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，为本发明提供的一种蛋白质组质谱数据处理方法，所述方法至少包括以下步骤：

S1：获取蛋白质组质谱的下机数据及参数文件；

S2：对蛋白质组质谱的下机数据进行缺失值处理；

在一种实施方式中，在下机数据进行缺失值处理之前和进行批次效应校正之后，对蛋白质组质谱的整体质量分析，观察处理前后数据的整体分布差异。确认数据处理后进行后续分析的可靠性。

在一种实施方式中，采用boxplot进行体质量分析。

在一种实施方式中，每一步步骤的结果都单独存放在各文件夹中，使用Markdown从各文件夹中获取相应结果，并编辑结果呈现形式和报告格式，将所有计算参数、计算过程和结果以HTML报告的形式输出。

在一种实施方式中，步骤S2中，缺失值处理的方法包括采用R语言mice包和Hmisc包进行。

在一种实施方式中，缺失值处理的方法包括采用R语言mice包的md.pattern()函数和Hmisc包的impute()函数进行

在一种实施方式中，所述缺失值处理方法包括如下步骤：

1)使用R语言mice包中的md.pattern()函数生成一个以矩阵/数据框形式展示蛋白质组质谱的下机数据的缺失值模式的表格，其中0表示变量的列中没有缺失，1则表示有缺失值；

2)对于有缺失值的行，采用R语言的Hmisc包的impute()函数采用定值(0)插补的方式进行处理。

进一步的，步骤1)中，还包括以下步骤：使用aggr()和matrixplot()函数将所述下机数据情况可视化。

在一种实施方式中，所述缺失值处理方法还包括如下步骤：

3)对去除缺失值后的下机数据按蛋白表达丰度进行过滤。

通常认为低丰度表达的蛋白，在进行后续进行功能验证时也会非常困难，故对表达文件中出现一定比例0值的蛋白进行删除处理。在一种实施方式中，所述过滤可以包括以下步骤：某一行(一行代表一个蛋白)若>30％的样本出现0值，则删除此行。(参数可在参数文件指定，默认30％，也可设置为其他值)。

在一种实施方式中，步骤S3中，归一化处理的方法选自LOESS方法，和/或，标准化转换的方法选自log标准化方法。

LOESS(本地散点平滑估计，Locally Estimated Scatterplot Smoothing，又称局部加权回归)进行归一化。LOESS是一种快速、直接且知名度较高的一种数据归一化方法，事先不用确定参数数量，每次预测的时候，用指定的样本点周围的样本点进行临时训练，确定参数。

对归一化后的蛋白表达数据再进行log标准化转换，消除量纲差异对数据整体质量的影响，避免极值对后续差异分析产生的异常作用。

在2010年的Nature有一篇综述，对批次效应(batch effect)进行了专门讲解：不同平台的数据，同一平台的不同时期的数据，同一个样品不同试剂的数据，以及同一个样品不同时间的数据等等都会产生一种batch effect，这种影响如果广泛存在应该被足够重视，否则会导致整个实验和最终的结论失败。

一般在进行差异分析是，需要设置实验组和对照组，显然，实验组和对照组需要进行不同的处理(而往往研究进行过程中，并不是同一时间送测序)，然后通过分析，得到很多差异表达的基因。而差异表达的结果是和研究的因素有关，还是时间有关，这时时间就会成为干扰实验结果的因素，这个效应就是batch effect。

通常在差异分析进行前，会对数据进行标准化处理，如log2，而标准化只能减弱batch effect，并不能从根本上消除。如附图1.1，b是a进行过标准化的结果，从样本上看都一直，没有什么问题，但是落实到基因层面，c图中还是有明显的batch effect，d图中通过时间进行聚类，很明显可以看出差异表达主要是由于时间引起的。

而当实验处理(分组)增加，数据量增加时，批次效应对原始数据的影响程度也会更大，所以，针对蛋白质组质谱数据进行批次效应移除，在进行后续数据处理前，是一个不可或缺的步骤。本发明选择6中主流批次移除算法中效果最好的R语言sva包的Combat()方法进行，可以从根本上消除批次效应对分析结果造成的误差。

因为实验做了几个批次导致的实验误差，或实验的几个重复因为时间有间隔出现的批次效应，若不进行批次效应移除，就会使样本聚类混乱，比如在正常组中出现肿瘤样本。而对批次效应进行移除，则可以使不同分组、不同特征的样本正常聚类，让实验和分析的结果更加可靠。

在一种实施方式中，步骤S4中，批次效应校正的方法包括采用R语言sva包进行。

在一种实施方式中，批次效应校正的方法包括采用R语言sva包的ComBat()函数进行。

本发明还提供一种蛋白质组质谱数据的分析方法，包括以下步骤：

对采用前述的蛋白质组质谱数据处理方法得到的蛋白质组质谱数据进行差异分析。

进一步的，所述差异分析包括以下步骤：

1)按输入的分组与批次文件，对不同分组(实验处理)的蛋白进行差异分析，以Benjaminiand Hochberg(BH)方法进行FDR校正，以FDR<0.05的结果作为显著差异蛋白纳入后续富集分析中；

2)对步骤1)得到的差异蛋白进行功能和通路富集分析。

蛋白是基因行驶功能的直接表达形式，对以标准gene symbol格式命名的蛋白，使用Clusterprofiler自动转换ID，并进行GO功能富集分析和KEGG通路富集分析，并取TOP10或TOP5将结果可视化。

clusterProfiler不仅同时支持GO和KEGG的富集分析，而且可视化功能非常的优秀，可以将富集分析结果以多种形式进行直观展示，得到的可视化图片经过简单处理即可用于文献发表。

通过一个集成平台处理得到的富集分析结果，比直接使用差异计算结果在不了解各平台原理和参数、阈值的情况下在不同平台进行单独富集分析得到的结果更加可靠。

富集分析分为GO功能富集(包括生物学过程BP、细胞成分CC、分子功能MF)和KEGG通路富集分别进行，GO富集分析只需提供GO注释信息从何处获取即可，比如human对应org.Hs.eg.db，KEGG富集分析只需提供KEGG数据库中对应的物种三字母缩写即可，比如human对应hsa，其他常用参数已经默认写在流程之中。

在一种实施方式中，每一步骤的结果都单独存放在各文件夹中，使用Markdown从各文件夹中获取相应结果，并编辑结果呈现形式和报告格式，将所有计算参数、计算过程和结果以HTML报告的形式输出。

在一种实施方式中，使用Markdown对所有参数、结果等进行整理，所述处理方式如下：

Markdown是一种可以使用普通文本编辑器编写的标记语言，通过简单的标记语法，它可以使普通文本内容具有一定的格式。R Markdown可以轻松地重现数据分析工作，从原始数据的读入、清洗到最后的分析挖掘过程，每一步的R code都被清晰地记录在案，阅读R Markdown结果可以完整地审查分析思路和过程。

本发明使用Rstudio编辑完整的R Markdown报告标记语言，在所有流程运行结束后，自动整合分析过程、参数和可视化结果，输出为HTML格式的完整报告。报告内容详尽，可读性高，中间过程生成的图片也以PDF格式另存在相应文件夹中，有助于对结果和图片的进一步处理和分析。

本发明使用Markdown报告标记语言，在所有流程运行结束后，自动整合分析过程、参数和可视化结果，输出为HTML格式的完整报告。报告内容详尽，可读性高，中间过程生成的图片也以PDF格式另存在相应文件夹中，有助于对结果和图片的进一步处理和分析。

本发明在所有流程运行结束后，自动整合分析过程、参数和可视化结果，使用RMarkdown输出为HTML格式的完整报告。报告内容详尽，可读性高，中间过程生成的图片也以PDF格式另存在相应文件夹中，有助于对结果和图片的进一步处理和分析。

不同于其他分析报告对中间过程及参数阈值的简单化描述，R Markdown的输出详细且阅读性高，对于没有接触过生信分析的研究人员，阅读本流程处理得到的结果犹如阅读一篇科研文献般详细清晰，甚至通过阅读下来，可以基本掌握蛋白质组质谱数据的生信分析流程。

在一种实施方式中，所述差异分析包括以下步骤：

1)按照输入的样本批次、分组信息，对样本按分组信息进行编组，两两进行差异分析，进行差异分析的数量为

其中n为分组数目，即对于有n组样本的实验来说，要进行

次差异分析；

2)差异分析采用R语言limma包进行，对于统计分析和评估差异表达，limma使用经验贝叶斯方法以减轻估计的对数倍变化的标准误差，这导致更稳定的推导和改进的效力，这也是使用limma包进行差异蛋白分析的原因；其次，预处理的蛋白质组质谱数据已经经过log2转换，而limma的输入数据恰好需要进行log2预处理；

3)显著差异蛋白筛选。差异蛋白的筛选需要选择合理阈值，阈值需要在参数输入时指明；因为limma差异分析过程中以Benjaminiand Hochberg(BH)方法进行FDR校正，故默认筛选阈值为FDR<0.05；

4)对阈值内的差异蛋白进行火山图和聚类热图可视化。

在一种实施方式中，对差异蛋白进行功能和通路富集分析，包括以下步骤：

i)GO功能富集分析

本自动化分析流程，对差异蛋白进行的功能富集分析(GO)和通路富集分析(Pathway)分析采用R语言的clusterProfiler包进行，采用过表达分析，即费舍尔精确检验；clusterProfiler是一个功能强大的R包，同时支持GO和KEGG的富集分析，而且可视化功能非常的优秀。本发明只需传递GO注释信息从何处获取即可，比如human对应org.Hs.eg.db。

对于特定物种的蛋白，需要选择特定的物种进行GO分析，如下：

packages	organism
		org.Ag.eg.db	Anopheles
org.At.tair.db	Arabidopsis
		org.Bt.eg.db	Bovine
org.Ce.eg.db	Worm
		org.Cf.eg.db	Canine
org.Dm.eg.db	Fly
		org.Dr.eg.db	Zebrafish
org.EcK12.eg.db	E coli strain K12
		org.EcSakai.eg.db	E coli strain Sakai
org.Gg.eg.db	Chicken
		org.Hs.eg.db	Human
org.Mm.eg.db	Mouse
		org.Mmu.eg.db	Rhesus
org.Pf.plasmo.db	Malaria
		org.Pt.eg.db	Chimp
org.Rn.eg.db	Rat
		org.Sc.sgd.db	Yeast
org.Ss.eg.db	Pig
		org.Xl.eg.db	Xenopus

ii)KEGG通路富集分析

对于不同物种，若想进行KEGG通路富集分析，首先必须保证该物种已经被收录在KEGG数据库中，若物种在KEGG数据库中已经存在，则可以直接调用clusterProfiler包的bitr_kegg()函数调用KEGG API,来实现ID转换。本发明只需传递KEGG数据库中对应的三字母缩写即可，比如human对应hsa。

iii)富集结果可视化

本发明基于clusterProfiler包进行GO功能富集和KEGG通路富集分析，富集过程采用BH方法对p值进行校正获得q值，选择q.value<0.05作为阈值，满足阈值的作为显著的功能富集和通路富集结果。

可视化以条形图和气泡图分别进行展示，为防止富集结果过多导致的可视化效果不佳，在显著的富集结果过多(>15)的情况下，只对TOP10(GO BP)/TOP5(GO CC、GO MF、KEGGPathway)的结果进行可视化。

进一步的，在进行差异分析之前，对所述蛋白质组质谱数据进行PCA分析。

在一种实施方式中，所述PCA分析采用R语言ggbiplot包进行。

PCA结果为一种非监督降维的方法，可以将特征明显的数据以降维的方式聚集为一类，查看不同分组数据集之间的特异性，进而判断后续差异蛋白分析结果的可靠性。

如图2所示，为本发明提供的一种蛋白质组质谱数据处理装置，所述装置至少包括：

获取模块，用于获取蛋白质组质谱的下机数据及参数文件；

在一种实施方式中，采用boxplot进行体质量分析。

在一种实施方式中，缺失值处理模块中，缺失值处理的方法包括使用R语言mice包和Hmisc包进行。

在一种实施方式中，所述缺失值处理方法包括如下步骤：

在一种实施方式中，所述缺失值处理方法还包括如下步骤：

3)对去除缺失值后的下机数据按蛋白表达丰度进行过滤。

在一种实施方式中，归一化处理模块中，归一化处理的方法选自LOESS方法，和/或，标准化转换的方法选自log标准化方法。

在一种实施方式中，批次效应校正模块中，批次效应校正的方法包括采用R语言sva包进行。

本发明还提供一种蛋白质组质谱数据的分析装置，至少包括：

在一种实施方式中，在进行差异分析之前，对所述蛋白质组质谱数据进行PCA分析。

由于本实施例中的装置与前述方法实施例的原理基本相同，在上述方法和装置实施例中，对相同特征的定义、计算方法、实施方式的列举及优选实施方式的列举阐述可以互用，不再重复赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，获取模块可以为单独设立的处理元件，也可以集成在某一个芯片中实现，此外，也可以以程序代码的形式存储于存储器中，由某一个处理元件调用并执行以上获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

在本发明的一些实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述蛋白质组质谱数据处理方法或前述蛋白质组质谱数据的分析方法。

在本发明的一些实施例中，还提供了一种计算机处理设备，包括处理器及前述的计算机可读存储介质，所述处理器执行所述计算机可读存储介质上的计算机程序，实现前述蛋白质组质谱数据处理方法的步骤或前述蛋白质组质谱数据的分析方法的步骤。

在本发明的一些实施例中，还提供了一种电子终端，包括：处理器、存储器、及通信器；所述存储器用于存储计算机程序，所述通信器用于与外部设备进行通信连接，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行实现前述蛋白质组质谱数据处理方法或前述蛋白质组质谱数据的分析方法。

如图3所示，展示本发明提供的一种电子终端的示意图。所述电子终端包括处理器31、存储器32、通信器33、通信接口34和系统总线35；存储器32和通信接口34通过系统总线35与处理器31和通信器33连接并完成相互间的通信，存储器32用于存储计算机程序，通信器34、通信接口34用于和其他设备进行通信，处理器31和通信器33用于运行计算机程序，使电子终端执行如上图像分析方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory，简称RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；所述计算机可读存储介质可包括，但不限于，软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

在具体实现上，所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。

实例：

一、数据准备

本发明接受的输入文件为蛋白质组质谱下机数据(蛋白名称需为官方通用的标准gene symbol格式)及参数文件。

1.1蛋白质组质谱数据如下所示(示例为大肠杆菌在不同培养基下的蛋白质组数据)：

1.2运行参数输入(所有字符均为英文字符)：

project_name＝“Proteome_test”；

project_dir＝“/home/test/Proteome”；

KEGG_enrichment＝“eco”；

GO_enrichment＝“org.EcSakai.eg.db”；

norm_method＝“loess”；

runDifferential＝TRUE；

enrichment_qval＝0.05；

DEG_logFC＝1；

DEG_qval＝0.05；

…

二、数据预处理

处理缺失值，对原始数据进行第一次整体质量分析，后将蛋白组数据进行LOESS归一化处理，并将数据进行log标准化转换；

按照输入参数(除运行过程的筛选阈值等参数，其中还包含蛋白质组数据的实验批次信息)中包含的数据批次信息，对来自不同批次的数据进行批次校正，移除不同生物学重复、技术重复、仪器操作等对数据带来的批次效应。

对预处理后数据进行PCA分析，查看数据非监督降维聚类结果，判断不同分组数据之间的特异性，以判断差异蛋白分析结果的可靠性。

在最终结果中，以可视化图片的形式展示数据预处理前和预处理后的变化，如：

图4：数据预处理前与预处理后密度曲线图；

图5：数据预处理前与预处理后数据质量箱线图，由图可以看出，通过预处理，消除了量纲对蛋白质组质谱数据整体数据质量的影响；

图6：移除批次效应前与移除批次效应后的聚类热图结果，由图可以看出，在未移除批次效应前，热图聚类混乱，不同实验组的数据相互掺杂，在移除批次效应后，热图聚类准确，不同实验组的数据被准确聚类在同一分支中；

图7：对预处理后的数据进行PCA分析，由图可以看出，预处理后，数据PCA结果显示不同分组数据显示较强的特异性，此数据若进行差异蛋白分析，不同分组间得到的差异蛋白结果可靠。

三、差异分析

本发明的差异分析见步骤S104，为输入参数自动运行，根据输入的参数/阈值筛选差异蛋白，并对差异蛋白结果进行火山图可视化；为进一步查看差异蛋白在不同分组间的分布结果，将符合阈值的显著差异蛋白进行聚类热图分析。如：

图8：差异分析火山图，其中红色为上调的显著差异蛋白，蓝色为下调的显著差异蛋白；

图9：差异蛋白聚类热图，由图可以看出，差异蛋白横纵都被明显聚集为两分支，纵向按表达上下调分为两个分支，横向按不同分组分为两个分支。

差异分析文本结果以txt格式保存在差异分析结果文件夹中。

四、富集分析

本发明的富集分析见步骤S105，为输入参数自动运行，根据输入的GO注释信息来源和KEGG物种信息，对差异蛋白进行GO功能富集分析和KEGG通路富集分析，并将结果以条形图和气泡图分别进行可视化。如：

图10：差异蛋白富集分析结果条形图；

图11：差异蛋白富集分析结果气泡图。

富集分析文本结果以txt格式保存在富集分析结果文件夹中。

五、HTML报告整合

本发明的蛋白质组质谱数据处理在输入文件及参数无误的情况下为自动运行，结果文件、文件夹和报告也为流程运行结束后自动生成。步骤S107为HTML报告整合，RMarkdown编写的报告标记语言，会自动整合分析过程、参数、部分运行代码和可视化结果，输出为HTML格式的完整报告。

报告内容详尽，可读性高，如：

图12：蛋白质组质谱数据自动化分析HTML格式整合报告(部分)。

所有中间过程生成的图片以及文本计算结果也分别以PDF格式和txt格式另存在相应文件夹中。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种蛋白质组质谱数据处理方法，所述方法至少包括以下步骤：

S1：获取蛋白质组质谱的下机数据及参数文件；

S2：对蛋白质组质谱的下机数据进行缺失值处理；

2.如权利要求1所述的蛋白质组质谱数据处理方法，其特征在于，还包括以下特征中的一项或多项：

a.步骤S2中，缺失值处理的方法包括采用R语言mice包和Hmisc包进行；

b.步骤S3中，归一化处理的方法选自LOESS方法，和/或，标准化转换的方法选自log标准化方法；

c.步骤S4中，批次效应校正的方法包括采用R语言sva包进行；

d.在下机数据进行缺失值处理之前和进行批次效应校正之后，对蛋白质组质谱的整体质量分析，观察处理前后数据的整体分布差异。确认数据处理后进行后续分析的可靠性；

e.每一步步骤的结果都单独存放在各文件夹中，使用Markdown从各文件夹中获取相应结果，并编辑结果呈现形式和报告格式，将所有计算参数、计算过程和结果以HTML报告的形式输出。

3.如权利要求2所述的蛋白质组质谱数据处理方法，其特征在于，还包括以下特征中的一项或多项：

f.特征a中，缺失值处理的方法包括采用R语言mice包的md.pattern()函数和Hmisc包的impute()函数进行；

g.特征c中，批次效应校正的方法包括采用R语言sva包的ComBat()函数进行。

4.如权利要求3所述的蛋白质组质谱数据处理方法，其特征在于，特征f中，所述缺失值处理方法包括如下步骤：

5.如权利要求4所述的蛋白质组质谱数据处理方法，其特征在于，还包括以下特征中的一项或多项：

h.步骤1)中，还包括以下步骤：使用aggr()和matrixplot()函数将所述下机数据情况可视化；

i.所述缺失值处理方法还包括如下步骤：

3)对去除缺失值后的下机数据按蛋白表达丰度进行过滤。

6.一种蛋白质组质谱数据的分析方法，其特征在于，包括以下步骤：

对采用权利要求1-5任一所述的蛋白质组质谱数据处理方法得到的蛋白质组质谱数据进行差异分析。

7.如权利要求6所述的蛋白质组质谱数据的分析方法，其特征在于，在进行差异分析之前，对所述蛋白质组质谱数据进行PCA分析。

8.一种蛋白质组质谱数据处理装置，所述装置至少包括：

获取模块，用于获取蛋白质组质谱的下机数据及参数文件；

9.如权利要求8所述的蛋白质组质谱数据处理装置，其特征在于，还包括以下特征中的一项或多项：

a.缺失值处理模块中，缺失值处理的方法包括使用R语言mice包和Hmisc包进行；

b.归一化处理模块中，归一化处理的方法选自LOESS方法，和/或，标准化转换的方法选自log标准化方法；

c.批次效应校正模块中，批次效应校正的方法包括采用R语言sva包进行；

10.如权利要求9所述的蛋白质组质谱数据处理装置，其特征在于，还包括以下特征中的一项或多项：

f.特征a中，缺失值处理的方法包括使用R语言mice包的md.pattern()函数和Hmisc包的impute()函数进行；

11.如权利要求10所述的蛋白质组质谱数据处理装置，其特征在于，特征f中，所述缺失值处理方法包括如下步骤：

12.如权利要求11所述的蛋白质组质谱数据处理装置，其特征在于，还包括以下特征中的一项或多项：

h.步骤1)中，还包括以下步骤：使用aggr()、matrixplot()函数将所述下机数据情况可视化；

i.所述缺失值处理方法还包括如下步骤：

3)对去除缺失值后的下机数据按蛋白表达丰度进行过滤。

13.一种蛋白质组质谱数据的分析装置，其特征在于，至少包括：

差异分析模块，用于对采用权利要求8-12任一所述的蛋白质组质谱数据处理装置得到的蛋白质组质谱数据进行差异分析。

14.如权利要求13所述的蛋白质组质谱数据的分析装置，其特征在于，在进行差异分析之前，对所述蛋白质组质谱数据进行PCA分析。

15.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-5任一所述的蛋白质组质谱数据处理方法或权利要求6-7任一所述的蛋白质组质谱数据的分析方法。

16.一种计算机处理设备，包括处理器及前述的计算机可读存储介质，所述处理器执行所述计算机可读存储介质上的计算机程序，实现权利要求1-5任一所述的蛋白质组质谱数据处理方法的步骤或权利要求6-7任一所述的蛋白质组质谱数据的分析方法的步骤。

17.一种电子终端，包括：处理器、存储器、及通信器；所述存储器用于存储计算机程序，所述通信器用于与外部设备进行通信连接，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1-5任一所述的蛋白质组质谱数据处理方法或权利要求6-7任一所述的蛋白质组质谱数据的分析方法。