CN103678950B

CN103678950B - 一种开放式蛋白质鉴定的分布式加速方法及其系统

Info

Publication number: CN103678950B
Application number: CN201210316345.9A
Authority: CN
Inventors: 张文力; 迟浩; 路远征; 王乐珩; 赵晓芳; 贺思敏
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2012-08-30
Filing date: 2012-08-30
Publication date: 2016-05-18
Anticipated expiration: 2032-08-30
Also published as: CN103678950A

Abstract

本发明公开了一种开放式蛋白质鉴定的分布式加速方法及其系统，其中开放式蛋白质鉴定的分布式加速系统包括：蛋白库索引建立模块、谱图数据准备模块、查询打分模块、结果汇总输出模块。本发明提供的一种开放式蛋白质鉴定的分布式加速方法和系统，能有效利用集群资源，允许用户在蛋白质大库下不指定酶切和修饰的类型，或指定其中的任意类型进行蛋白质鉴定，有效的提高了蛋白质谱鉴定速度和解析率。

Description

一种开放式蛋白质鉴定的分布式加速方法及其系统

技术领域

本发明涉及生物信息领域蛋白质谱鉴定，特别是涉及一种开放式蛋白质鉴定引擎的分布式索引创建和检索。

背景技术

2001年2月15日，《自然（Nature）》在发布人类基因组框架图时，同期登载了人类蛋白质组研究组织(HumanProteomeOrganization,HUPO)成立的消息。科学家们意识到，要真正揭示生命的遗传奥秘，认识蛋白质——基因的产物——至关重要。蛋白质组学在大规模水平上研究蛋白质的特征，包括蛋白质的表达水平、翻译后修饰研究以及蛋白质之间的互相作用等等。近年来，质谱技术的革新对蛋白质组学研究起到了关键的推动作用。

利用质谱数据进行蛋白质的定性、定量分析，成为蛋白质组学研究的核心内容之一。其中，搜索蛋白质序列数据库是目前蛋白质组学中质谱数据解析最成功和最常用的方法。基于串联质谱和数据库搜索鉴定蛋白质的基本步骤是：

第一步，谱图文件解析输入和预处理。读入从质谱仪得到的质谱数据，并去除其中的噪音，校准仪器误差，消除错误等；

第二步，模拟酶切并进行肽谱匹配。读取已知蛋白库中蛋白质序列，按照酶切规则生成肽段，并遍历用户指定修饰的所有排列组合，计算修饰肽段的质量，然后判断其是否落在某个谱图母离子质量误差窗口内，最后将符合条件的候选肽送入后续的打分模块；

第三步，候选肽打分。计算出谱图与候选肽的相似性打分；

第四步，对打分靠前的候选肽进行评价。过滤出可信的结果；

第五步，肽到蛋白质归并和输出。通过已知的可信肽段推断出质谱样品中存在哪些对应的蛋白质，并最终输出。

鉴定速度不高直接影响到对质谱数据的全面细致分析。为了保证在特定的机器资源（尤指单机处理器主频和内存储器大小）支持下，在可接受的时间内完成鉴定，人们不得不使用限定式搜索。所谓限定式搜索，即考虑时间和空间的限制，在使用数据库软件做蛋白质鉴定时，通常具体指定有限的特异性酶切或半特异性酶切类型，以及有限的几种常见的修饰类型。这使得目前蛋白质组实验中，质谱仪产生的大部分谱图不能有效解析，谱图解析率只有10%到30%。一个重要原因就是肽序列的各种酶切方式均有可能存在，同时蛋白质中存在未知或未预料到的修饰，因而搜索引擎无法找到正确的候选肽，影响了后续的鉴定过程。

开放式蛋白质鉴定，即支持任意类型酶切和修饰的蛋白质鉴定策略，可将谱图解析率提高一倍之多。实际上，蛋白质组数据的形成过程比较复杂，酶切和修饰对谱图解析影响很大。

为了让蛋白质序列质量被质谱仪检测到，需要通过酶切的方式，将比较长的蛋白质水解为较短的序列（肽）。被仪器检测到的肽片段是肽的母离子，我们将其质量称为母离子质量。根据酶的不同，酶切分为特异性酶切、半特异酶切和非特异酶切。特异性酶切是说蛋白质序列在特定的氨基酸水解，形成肽段。半特异性酶切要求氨基酸序列一端在特定氨基酸后水解，而另一端可以在任意氨基酸后断开。非特异性酶切是指蛋白质序列可能在任意氨基酸处断开形成肽段，就是说水解产生的肽段可以是蛋白质序列的任意子串。在鉴定过程中，模拟酶切是将数据库中表示蛋白质序列的长字符串，通过模拟相应的酶切规则得到表示肽序列的较短字符串。对于非特异性酶切方式，由于其巨大的时间和空间开销，当前的实际蛋白质鉴定中都会选择尽量避开这种鉴定。

此外，大多数蛋白质在翻译形成后，会在蛋白质中的某些氨基酸上增加某种功能团（如在蛋白质的N末端加入乙酰），或增加了其他的蛋白质或肽，这一过程被称为发生了化学修饰。修饰可以改变氨基酸的化学性质，引起蛋白质结构的改变，扩充蛋白质的功能。很多蛋白质的重要生物活性都是在发生修饰之后才具有的。修饰在生物体内的存在非常普遍，绝大多数的蛋白质都会含有一个或多个翻译后修饰。蛋白质翻译后修饰是本领域中的一种常见现象，研究翻译后修饰对于阐明蛋白质的功能，解释重大疾病的发生机理等具有十分重要的意义。目前的修饰数据库中约有1000多种修饰，在数据库搜索时考虑过多的修饰类型是不现实的。所以，现有技术中的较为成熟的搜索引擎，如SEQUEST和Mascot，容许指定的可变修饰类型一般不超过10种，这显然不能满足实际需要。在一般情况下，实验人员对蛋白质样品中存在的修饰类型知之甚少，主要依靠经验猜测。

目前的蛋白质鉴定软件运行速度大多较慢。在数据规模日趋增大的形势下，这一缺点体现得尤为明显。近年来，随着商业集群的廉价和普及，常用的蛋白质鉴定软件，Mascot、SEQUEST和X!Tandem等，都利用PVM（ParallelVirtualMachine）和MPI（MessagePassingInterface）等常用并行化技术实现了集群版本进行加速。而并行版通常采用最简单的分谱策略，即每个节点鉴定一部分谱图，鉴定速度仍然受限于单机。

很显然，随着大规模蛋白质数据库的迅猛增长，如果考虑到翻译后修饰、酶切特异性等因素影响，会导致搜索空间组合爆炸，单机的高配置内存储器也无法有效应对开放式鉴定的巨大空间需求，大大降低数据库搜索的速度，同时导致假阳性搜索结果增多。

总之，当前的蛋白质鉴定系统，由于受到存储空间和计算能力的限制，很难有效地完成开放式鉴定，即支持大蛋白库、非特异性酶切和任意修饰。此外，多数实用中的引擎仍为单机版模式，无法有效利用集群等资源优势，因此设计开发有效的并行系统非常必要。

发明内容

本发明的目的是：允许用户在蛋白质大库下不指定酶切和修饰的类型，或指定其中的任意类型进行蛋白质鉴定，有效的提高了蛋白质谱鉴定速度和解析率。

为实现上述目的，本发明提出了一种开放式蛋白质鉴定的分布式加速方法，其特征在于，包括：

步骤1，根据蛋白质序列数据库分批创建肽段索引，并将所述肽段索引分块存入磁盘持久化；

步骤2，输入欲鉴定的蛋白质谱图数据，将所述的蛋白质谱图数据多线程生成查询集合，并预存所述肽段索引到内存储器里；

步骤3，对所述查询集合在所述肽段索引上进行分块检索，初选潜在匹配的肽序列，并将检索结果暂存于内存储器里，对所述检索结果考虑修饰类型生成候选肽段并打分，对应每张谱图得到肽序列集合，每检索完一块肽段索引，更新一次肽序列集合，直到所有分块检索处理完成；

步骤4，汇总所述肽序列集合，得出每张谱图对应的候选肽序列，并进行肽段到蛋白质的推断，生成鉴定结果存入磁盘。

进一步的，所述步骤1包括：

步骤11，在保证每条蛋白质完整性的情况下，将所述蛋白质序列数据库在集群节点间按氨基酸数目进行一次分库，平均划分为多个蛋白质序列子数据库；

步骤12，对于每个所述的蛋白质序列子数据库，根据内存储器空间大小进行二次分库，并启动一个肽段索引生成进程，依据非特异性酶切的方式，依次创建局部肽段索引，所述局部肽段索引生成进程之间互相独立并行执行；

步骤13，将所创建的所有局部肽段索引分块存入磁盘实现持久化。

进一步的，所述步骤2包括：

步骤21，将持久化的所述肽段索引按需分块预取到内存储器里，在当前块检索过程中，启动一个索引预取线程，预取下一块到内存储器里，直到所有分块预取完成；

步骤22，将所述蛋白质谱图数据按照母离子质量排序，参照集群节点上处理器核数平均划分为多个谱图子数据；

步骤23，对于每个所述谱图子数据，启动一个查询生成线程，根据质量误差范围，生成查询集合，所述查询生成线程之间相互独立并行执行。

进一步的，所述步骤4包括：

步骤41，汇总所述肽序列集合，对每张谱图的所述肽序列集合按打分结果排序；

步骤42，对于每张谱图，取前多个肽序列作为候选肽序列，对所述候选肽序列进行评价并存储排序最高的肽序列；

步骤43，依据所述存储排序最高的肽序列，推断对应的蛋白质信息，并生成鉴定结果存入本地磁盘。

本发明还提供了一种开放式蛋白质鉴定的分布式加速系统，其特征在于，包括：

蛋白库索引建立模块，用于根据蛋白质序列数据库，分批创建肽段索引，并将所述肽段索引分块存入磁盘持久化；

谱图数据准备模块，用于输入欲鉴定的蛋白质谱图数据，将所述的蛋白质谱图数据多线程生成查询集合，并预存所述肽段索引到内存储器里；

查询打分模块，用于对所述查询集合在所述肽段索引上进行分块检索，初选潜在匹配的肽序列，并将检索结果暂存于内存储器里，对所述检索结果考虑修饰类型生成候选肽段并打分，对应每张谱图得到肽序列集合，每检索完一块肽段索引，更新一次肽序列集合，直到所有分块检索处理完成；

结果汇总输出模块，用于汇总所述肽序列集合，得出每张谱图对应的候选肽序列，并进行肽段到蛋白质的推断，生成鉴定结果存入磁盘。

进一步的，所述蛋白库索引建立模块包括：

蛋白序列划分模块，用于在保证每条蛋白质完整性的情况下，将所述蛋白质序列数据库在集群节点间按氨基酸数目进行一次分库，平均划分为多个蛋白质序列子数据库；

肽段索引生成模块，用于对每个所述的蛋白质序列子数据库，根据内存储器空间大小进行二次分库，并启动一个肽段索引生成进程，依据非特异性酶切的方式，依次创建局部肽段索引，所述局部肽段索引生成进程之间互相独立并行执行；

索引持久化模块，用于将所创建的所有局部肽段索引分块存入磁盘实现持久化。

进一步的，所述谱图数据准备模块包括：

索引预取模块，用于将持久化的所述肽段索引按需分块预取到内存储器里，在当前块检索过程中，启动一个索引预取线程，预取下一块到内存储器里，直到所有分块预取完成；

谱图划分模块，用于将所述蛋白质谱图数据按照母离子质量排序，参照集群节点上处理器核数平均划分为多个谱图子数据；

查询生成模块，用于对每个所述谱图子数据，启动一个查询生成线程，根据质量误差范围，生成查询集合，所述查询生成线程之间相互独立并行执行。

进一步的，所述结果汇总输出模块，包括：

汇总模块，用于汇总所述肽序列集合，对每张谱图的所述肽序列集合按打分结果排序；

评价模块，用于对每张谱图，取前多个肽序列作为候选肽序列，对所述候选肽序列进行分析评价并存储排序最高的肽序列；

推断输出模块，用于依据所述存储排序最高的肽序列，推断对应的蛋白质信息，并生成鉴定结果存入本地磁盘。

本发明的有益效果在于：

1.本发明通过分布式方法支持蛋白质大库上非特异性模拟酶切和全体已知修饰的鉴定策略，实现质谱鉴定真正的开放式搜索，有效提高谱图解析率。

2.本发明通过分库、二次分库方式，实现有效利用集群资源，多节点协作完成局部蛋白质索引的创建和开放式检索，克服非特异性酶切和大规模蛋白质数据库带来的巨大时间和空间挑战。在集群资源合理配置范围内，将线性提高鉴定速度。

3.本发明参照氨基酸长度切分数据库，较好地实现负载均衡。

4.本发明通过索引持久化，实现对任意谱图，待检索数据库需且仅需一次索引创建开销。对大库的效果尤其明显。

5.本发明通过索引预取，有效隐藏索引装入开销，进一步提高鉴定速度。

6.本发明通过初步检索基础上再考虑修饰类型的肽段鉴定策略，有效减少计算和空间开销，使支持全体修饰的鉴定成为可能。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明的开放式蛋白质鉴定分布式加速方法的流程图。

图2为本发明的开放式蛋白质鉴定分布式加速系统的结构图。

具体实施方式

如附图1所示，是本发明的一种开放式蛋白质鉴定的分布式加速方法的流程图，包括下列步骤：

步骤100，根据蛋白质序列数据库分批创建肽段索引，并将所述肽段索引分块存盘持久化，在此之前设定必要的搜索参数、输入蛋白质序列数据库，将索引数据存入磁盘持久化，使得针对各蛋白质数据序列库需且仅需一次索引建立开销；

步骤200，输入欲鉴定的蛋白质谱图数据，将所述的蛋白质谱图数据多线程生成查询集合，并预存所述肽段索引到内存储器里，其中蛋白序列数据库中是相关的全部已知蛋白序列，谱图数据是待鉴定的，谱图鉴定过程是匹配出谱图数据与已知序列库中对应的部分；

步骤300，对所述查询集合在所述肽段索引上进行分块检索，初选潜在匹配的肽序列，并将检索结果暂存于内存储器里，对所述检索结果考虑修饰类型生成候选肽段并打分，对应每张谱图得到肽序列集合，每检索一块肽段索引，更新一次肽序列集合，直到所有分块检索处理完成；

步骤400，汇总所述肽序列集合，得出每张谱图对应的候选肽序列，并进行肽段到蛋白质的推断，生成鉴定结果反馈用户，反馈方式可以是存磁盘文件。

所述步骤100，包括下列步骤：

步骤110，读取一遍要检索蛋白质序列数据库文件，计算其中氨基酸的数目。本发明通过蛋白质序列数据库中氨基酸数目而非蛋白质数目进行蛋白质序列数据库的切分；

步骤120，读取集群配置文件，获取当前可用节点的数目。本发明在集群中实现，要求所有节点均为linux节点且节点间可以无密码ssh访问，本发明要求提前知道当前集群中可用节点数目；

步骤130，在保证每条蛋白质完整性的情况下，进行一次分库，蛋白质序列子数据库大小按照蛋白质数据库文件中氨基酸数目与可用节点数目的比值进行均匀切分，这里与将所述蛋白质序列数据库在集群节点间按氨基酸数目进行一次分库是一致的，因为蛋白序列由氨基酸组成，为负载均衡考虑，把任务尽可能均匀地在集群节点间分配，则将蛋白序列按氨基酸数目在节点间平均划分，但为保证模拟酶切的正确性，需要保证分到一个节点上每条蛋白序列的完整性；

步骤140，对于每个所述的蛋白质序列子数据库，根据内存储器空间大小进行二次分库，并启动一个肽段索引生成进程，依据非特异性酶切的方式，依次创建局部肽段索引，所述局部肽段索引生成进程之间互相独立并行执行；并将索引数据分文件存盘实现持久化。

本发明要求分库读取文件大小合适，充分考虑内存规模及预取需求，不宜使创建索引规模大于节点内存的一半。

所述步骤200，包括下列步骤：

步骤210，首次建索引时，索引仍在内存储器可直接使用。否则，须依据用户配置，读取预先持久化的索引数据到内存储器中。在当前块检索过程中，启动一个索引预取线程，预取下一块到内存储器里，直到所有分块预取完成；利用缓冲区，每次预取合适大小；

步骤220，将蛋白质谱图数据按照母离子质量排序，参照集群节点上处理器核数均分为多个谱图子数据；

步骤230，对于每个所述谱图子数据，启动一个查询生成线程，根据质量误差范围，生成查询集合，所述查询生成线程之间相互独立并行执行。

所述步骤400，包括下列步骤：

步骤410，汇总各节点肽序列，对每张谱图的肽序列集合，按打分结果排序；

步骤420，对于每张谱图，取前若干候选肽序列，进行评价并存储排序最高的前若干结果；

步骤430，依据鉴定到的肽序列，推断对应的蛋白质信息，并生成鉴定结果输出至文件。

作为一种可实施方式，针对非特异性酶切方式和上千种修饰的检索访问，本发明包括如下步骤：

步骤1，对蛋白质数据库做分库处理。分库的大小参照进行。其中，len(P_K)指第k条蛋白质的氨基酸长度，nHosts指系统中可用节点数；

步骤2，设置创建局部索引时一次读取蛋白质数据库中数据大小，如1MB；

步骤3，在每个节点启动针对非特异性酶切的局部索引创建、持久化/预取及检索进程；

步骤4，针对上千种修饰，在每个节点完成初次鉴定的局部检索结果上，启动修饰步骤，在一个更有针对性的小集合上考虑修饰类型，生成候选肽并进一步打分；

步骤5，汇总处理，完成最终鉴定结果生成输出。

如图2所示，为本发明的开放式蛋白质鉴定分布式加速系统的结构图。该系统包括：

蛋白库索引建立模块21，用于根据蛋白质序列数据库，分批创建肽段索引，并将所述肽段索引分块存盘持久化；

谱图数据准备模块22，用于输入欲鉴定的蛋白质谱图数据，将所述的蛋白质谱图数据多线程生成查询集合，并预存所述肽段索引到内存储器里；

查询打分模块23，连接所述蛋白库索引建立模块21、所述谱图数据准备模块22，用于对所述查询集合在所述肽段索引上进行分块检索，初选潜在匹配的肽序列，并将检索结果暂存于内存储器里，对所述检索结果考虑修饰类型生成候选肽段并打分，对应每张谱图得到可信的肽序列集合，每检索完一块肽段索引，更新一次肽序列集合，直到所有分块检索处理完成；

结果汇总输出模块24，连接所述查询打分模块23，用于汇总所述可信的肽序列集合结果，得出每张谱图对应的候选肽序列，并进行肽段到蛋白质的推断，生成鉴定结果存入本地磁盘。

进一步地，所述蛋白库索引建立模块21，又包括：

蛋白序列划分模块211，用于在保证每条蛋白质完整性的情况下，将所述蛋白质序列数据库在集群节点间按氨基酸数目进行一次分库，平均划分为多个蛋白质序列子数据库；

肽段索引生成模块212，连接蛋白序列划分模块211，用于对每个所述蛋白质序列子数据库，根据内存储器空间大小二次分库，启动一个肽段索引生成进程，依据非特异性酶切的方式，依次创建局部肽段索引，所述局部肽段索引进程之间相互独立并行执行；

索引持久化模块213，连接肽段索引生成模块212，用于将所创建的内存索引数据分文件存盘实现持久化。

进一步地，所述谱图数据准备模块22，又包括：

索引预取模块221，用于按用户配置，将持久化的索引按需分块预取到内存储器中。在当前块检索过程中，启动一个索引预取线程，预取下一块到内存储器中，直到所有分块处理完成；

谱图划分模块222，连接索引预取模块221，用于将所述蛋白质谱图数据按照母离子质量排序，参照集群节点上处理器核数平均划分为多个谱图子数据；

查询生成模块223，连接谱图划分模块222，用于对每个所述谱图子数据，启动一个查询生成线程，根据质量误差范围，生成查询集合。所述查询生成线程之间相互独立并行执行。

进一步地，所述结果汇总输出模块24，又包括：

汇总模块241，用于汇总所述肽序列集合结果，对每张谱图的所述肽序列集合按打分结果排序；

评价模块242，连接汇总模块241，用于对每张谱图，取前多个肽序列作为候选肽序列，对所述候选肽序列进行分析评价并存储排序最高的肽序列；

推断输出模块243，连接评价模块242，用于依据所述存储排序最高的肽序列，推断对应的蛋白质信息，并生成鉴定结果存入本地磁盘。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明权利要求的保护范围。

Claims

1.一种开放式蛋白质鉴定的分布式加速方法，其特征在于，包括：

步骤3，对所述查询集合在所述肽段索引上进行分块检索，初选潜在匹配的肽序列，并将检索结果暂存于内存储器里，对所述检索结果考虑修饰类型生成候选肽段并打分，对应每张谱图得到肽序列集合，每检索一块肽段索引，更新一次肽序列集合，直到所有分块检索处理完成；

步骤4，汇总所述肽序列集合，得出每张谱图对应的候选肽序列，并进行肽段到蛋白质的推断，生成鉴定结果存入所述磁盘。

2.如权利要求1所述的分布式加速方法，其特征在于，所述步骤1包括：

3.如权利要求1所述的分布式加速方法，其特征在于，所述步骤2包括：

4.如权利要求1所述的分布式加速方法，其特征在于，所述步骤4包括：

5.一种开放式蛋白质鉴定的分布式加速系统，其特征在于，包括：

查询打分模块，用于对所述查询集合在所述肽段索引上进行分块检索，初选潜在匹配的肽序列，并将检索结果暂存于内存储器里，对所述检索结果考虑修饰类型生成候选肽段并打分，对应每张谱图得到可信的肽序列集合，每检索完一块肽段索引，更新一次肽序列集合，直到所有分块检索处理完成；

结果汇总输出模块，用于汇总所述可信的肽序列集合结果，得出每张谱图对应的候选肽序列，并进行肽段到蛋白质的推断，生成鉴定结果存入所述磁盘。

6.如权利要求5所述的分布式加速系统，其特征在于，所述蛋白库索引建立模块包括：

7.如权利要求5所述的分布式加速系统，其特征在于，所述谱图数据准备模块包括：

8.如权利要求5所述的分布式加速系统，其特征在于，所述结果汇总输出模块，包括：

汇总模块，用于汇总所述肽序列集合结果，对每张谱图的所述肽序列集合按打分结果排序；