CN110277136A

CN110277136A - 蛋白质序列数据库并行搜索鉴定方法与装置

Info

Publication number: CN110277136A
Application number: CN201910604573.8A
Authority: CN
Inventors: 李肯立; 李闯; 唐卓; 陈建国; 刘勇刚; 李克勤; 廖湘科
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-09-24

Abstract

本申请涉及一种蛋白质序列数据库并行搜索鉴定方法、装置、计算机设备和存储介质，其中，方法包括：预处理待鉴定的实验质谱数据集和蛋白质序列数据库，对蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集；分别提取实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据搜索查询集合在蛋白质序列库中搜索理论质谱数据集，获取候选肽段序列集合；根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分；整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果，采用并行处理的方式显著提高蛋白质序列数据库搜索鉴定效率。

Description

蛋白质序列数据库并行搜索鉴定方法与装置

技术领域

本申请涉及生物信息技术领域，特别是涉及一种蛋白质序列数据库并行搜索鉴定方法、装置、计算机设备和存储介质。

背景技术

随着人类基因组计划的基本完成，生命科学研究开始步入后基因组时代，其中，蛋白质组学研究逐渐成为生命科学研究的核心内容。在蛋白质组学中，基于串联质谱的蛋白质序列鉴定技术已经成为主流的规模化蛋白质鉴定方法之一。基于串联质谱技术的蛋白质鉴定的计算方法主要有三种：数据库搜索方法、从头测序方法、肽序列标签方法。其中，数据库搜索方法是最常用的，其基本思路是把实验得到的串联质谱图谱和数据库中蛋白质序列的理论裂解图谱按照一定的打分规则进行匹配，并将得分最高的图谱作为实验质谱的目标肽段序列。

在基于序列数据库搜索的蛋白质鉴定中，序列数据库的搜索时间与数据量并非呈简单的线性关系，而是呈现出更高阶的时间复杂度。近几年来,随着质谱科学技术的迅速发展与普及，生物信息学数据特别是质谱数据的数量呈现出爆炸式增长，同时蛋白质数据库的规模也呈现着指数级的增长趋势，不断扩个的质谱数据量给数据库搜索方法带来了更严峻的挑战。

因此，如何提供一种高效的蛋白质序列数据库搜索鉴定方法是目前急需解决的技术难题。

发明内容

基于此，有必要针对上述技术问题，提供一种高效的蛋白质序列数据库并行搜索鉴定方法、装置、计算机设备和存储介质。

一种蛋白质序列数据库并行搜索鉴定方法，所述方法包括：

预处理待鉴定的实验质谱数据集和蛋白质序列数据库；

对所述蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集；

分别提取所述实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据所述搜索查询集合在所述蛋白质序列库中搜索所述理论质谱数据集，获取候选肽段序列集合；

根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分；

整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果。

在其中一个实施例中，所述预处理待鉴定的实验质谱数据集和蛋白质序列数据库包括：

将待鉴定的实验质谱数据集和蛋白质序列数据库存储至HDFS(HadoopDistributed Filesystem，集群的分布式存储系统)中；

对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰；

对蛋白质序列数据库进行预处理，获取蛋白质序列及名称。

在其中一个实施例中，所述对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰包括：

根据实验质谱数据集的规模，对实验质谱数据集进行分割，得到多个实验质谱图；

对每个实验质谱图分别进行去除无效质谱峰处理，无效质谱峰包括噪音离子峰和杂质离子峰；

去除每个实验质谱图中丰度低于预设阈值的质谱峰；

通过预设个数氨基酸质量的测算，去掉每个实验质谱图中在不可能出现离子峰位置所出现的质谱峰；

将每个实验质谱图中在同一位置出现的多个质谱峰进行删选与合并。

在其中一个实施例中，所述分别提取所述实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据所述搜索查询集合在所述蛋白质序列库中搜索所述理论质谱数据集，获取候选肽段序列集合包括：

根据每个实验质谱图的质谱峰，生成查询集合，并作为初始计算任务；

执行所述计算任务，根据肽段的相对分子质量值及对应的N端或C端，检索蛋白质数据库中的序列片段；

使用搜索设置所限定的阈值，检索蛋白质数据库，获得母离子相对分子质量在阈值之内的所有蛋白质序列；

对获得的蛋白质数据库中的序列片段，包括N端片段和C端片段根据经验打分函数进行初始打分，并分别存储分数较高的序列片段作为初步搜索的候选肽段序列集合。

在其中一个实施例中，所述根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分包括：

对候选肽段序列集合中序列片段进行判断，若该序列片段为N端片段，则对该序列片段的C端确认边界；否则对该序列片段的N端确认边界；

计算所确认边界的肽段与质谱图的母离子的质量差，并将该质量差当作修饰质量查询修饰数据库；若存在合适的修饰，则生成修饰肽段；

对将实验质谱图与该修饰肽段进行相似性匹配打分。

在其中一个实施例中，所述整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果包括：

根据相似性匹配打分结果，以分值进行排序处理，根据匹配分值最高的候选肽段序列作为搜索的序列结果；

对搜索的序列结果中每个肽段查找其对应的蛋白质信息，生成并输出蛋白质鉴定结果。

一种蛋白质序列数据库并行搜索鉴定装置，所述装置包括：

预处理模块，用于预处理待鉴定的实验质谱数据集和蛋白质序列数据库；

理论质谱数据集获取模块，用于对所述蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集；

候选肽段序列集合获取模块，用于分别提取所述实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据所述搜索查询集合在所述蛋白质序列库中搜索所述理论质谱数据集，获取候选肽段序列集合；

肽段评分模块，用于根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分；

鉴定模块，用于整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果。

在其中一个实施例中，所述预处理模块还用于将待鉴定的实验质谱数据集和蛋白质序列数据库存储至HDFS中；对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰；对蛋白质序列数据库进行预处理，获取蛋白质序列及名称。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的方法的步骤。

上述蛋白质序列数据库并行搜索鉴定方法、装置、计算机设备和存储介质，预处理待鉴定的实验质谱数据集和蛋白质序列数据库，对蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集；分别提取实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据搜索查询集合在蛋白质序列库中搜索理论质谱数据集，获取候选肽段序列集合；根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分；整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果。整个过程中，以实验质谱数据集中每个实验质谱图作为研究对象，获取每个实验质谱图及其对应的候选肽段序列集合，进而打分进行肽段到蛋白质的推断，得蛋白质鉴定结果，采用并行处理的方式显著提高蛋白质序列数据库搜索鉴定效率。

附图说明

图1为一个实施例中蛋白质序列数据库并行搜索鉴定方法的流程示意图；

图2为另一个实施例中蛋白质序列数据库并行搜索鉴定方法的流程示意图；

图3为图1中步骤S300的子流程示意图；

图4为图1中步骤S400的子流程示意图；

图5为一个实施例中蛋白质序列数据库并行搜索鉴定装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种蛋白质序列数据库并行搜索鉴定方法，包括以下步骤：

S100：预处理待鉴定的实验质谱数据集和蛋白质序列数据库。

将待鉴定的实验质谱数据和蛋白质序列数据库上传至并行搜索鉴定服务器，并行搜索鉴定服务器启动并行处理进程，对待鉴定的实验质谱数据集和蛋白质序列数据库进行预处理。具体来说，待鉴定的实验质谱数据集中包括有多个实验质谱图，分别对每个实验质谱图进行预处理，提取每个实验质谱图对应的质谱峰，对蛋白质序列数据库进行预处理提取每个蛋白质序列以及对应的名称。

S200：对蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集。

模拟酶切过程包括以下过程：按照质量值限制，对每一个质量设置一个计数器并初始化为0，按照指定的酶切类型(非特异性酶切的方式)，将每条蛋白质序列切分成子序列，该计数器统计每个可能的质量值对应的子序列数目，同时对每条子序列质量对应的计数器值增加1，遍历完毕后，得到每一个质量值对应的子序列数目。开辟一个数组A，使之能够容纳所有子序列，然后再次将蛋白质序列按照指定的酶切类型生成子序列，并按照计数器的值，将子序列存储到A的相应位置。这样，所有子序列被按照质量由小到大排序。然后，生成索引文件，存储每个质量值m对应的A中第一个质量值大于或等于m的元素下标，每条子序列满足指定质量值和长度的上下界限限制，每个子序列都会有一个质量值，比如100，128，356等等。“每个可能的质量值”是指满足限制，比如从200到10000之间所有的值。若蛋白质数据库中文件大于限定的单批次处理规模上限，则将此文件按照处理规模上限划分成若干子块，每一个子块完成上述处理过程，然后处理下一个子块，直到所有子块处理完毕。

S300：分别提取实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据搜索查询集合在蛋白质序列库中搜索理论质谱数据集，获取候选肽段序列集合。

针对每个实验质谱图分别进行处理，分别提取对应的质谱峰，生成搜索查询集合，根据该搜索查询集合在蛋白质序列数据中搜索理论质谱数据集，获得候选肽段序列集合。

S400：根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分。

将步骤S300得到的每一个实验质谱图对应的候选肽段序列集合归集为一个大的数据集，再对这个大的数据集中候选肽段进行相似性匹配打分。

S500：整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果。

根据打分结果选择分值最高对应的候选肽段作为目标肽段，将进行肽段到蛋白质的推断，得到最终蛋白质鉴定结果。

上述蛋白质序列数据库并行搜索鉴定方法，预处理待鉴定的实验质谱数据集和蛋白质序列数据库，对蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集；分别提取实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据搜索查询集合在蛋白质序列库中搜索理论质谱数据集，获取候选肽段序列集合；根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分；整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果。整个过程中，以实验质谱数据集中每个实验质谱图作为研究对象，获取每个实验质谱图及其对应的候选肽段序列集合，进而打分进行肽段到蛋白质的推断，得蛋白质鉴定结果，采用并行处理的方式显著提高蛋白质序列数据库搜索鉴定效率。

如图2所示，在其中一个实施例中，步骤S100包括：

S120：将待鉴定的实验质谱数据集和蛋白质序列数据库存储至HDFS中。

S140：对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰。

S160：对蛋白质序列数据库进行预处理，获取蛋白质序列及名称。

将待鉴定的实验质谱数据集和蛋白质数据库上传至集群的分布式存储系统HDFS中，读取实验质谱数据集中携带的实验质谱数据文件，获取实验质谱图，对每一个实验质谱图进行预处理；挑选每个实验质谱图对应的质谱峰；读取蛋白质数据库文件，获取蛋白质序列及名称。进一步来说，对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰包括：根据实验质谱数据集的规模，对实验质谱数据集进行分割，得到多个实验质谱图；对每个实验质谱图分别进行去除无效质谱峰处理，无效质谱峰包括噪音离子峰和杂质离子峰；去除每个实验质谱图中丰度低于预设阈值的质谱峰；通过预设个数氨基酸质量的测算，去掉每个实验质谱图中在不可能出现离子峰位置所出现的质谱峰；将每个实验质谱图中在同一位置出现的多个质谱峰进行删选与合并。具体来说，对实验质谱数据集进行分割具体包括：通过脚本程序，获得待测质谱数据集中的质谱个数N，以及相应质谱的母离子质量M＝(m1，m2，m3，…，mN)，并根据母离子质量进行排序；根据Hadoop集群中计算节点数的数量K、质谱个数和母离子质量对实验质谱数据集进行分块D＝(d1,d2,….d)其中数据文件分割的大小为[N/K]的整数倍，其中数据子集包含的质谱为Di自中间值向两边添加。

如图3所示，在其中一个实施例中，步骤S300包括：

S320：根据每个实验质谱图的质谱峰，生成查询集合，并作为初始计算任务。

S340：执行计算任务，根据肽段的相对分子质量值及对应的N端或C端，检索蛋白质数据库中的序列片段。

S360：使用搜索设置所限定的阈值，检索蛋白质数据库，获得母离子相对分子质量在阈值之内的所有蛋白质序列。

S380：对获得的蛋白质数据库中的序列片段，包括N端片段和C端片段根据经验打分函数进行初始打分，并分别存储分数较高的序列片段作为初步搜索的候选肽段序列集合。

对每一个实验质谱图，建立<key,value>键值对，其信息包括<肽段，分值>，基于挑选出的质谱峰，生成查询集合，作为一个Map任务分发至计算节点中；每一个Map任务根据肽段的相对分子质量值及对应的N端或C端，检索蛋白质数据库中的序列片段；使用搜索设置所限定的阈值，检索蛋白质数据库，获得母离子相对分子质量在阈值之内的所有蛋白质序列。对获得的蛋白质数据库中的序列片段，包括N端片段和C端片段根据经验打分函数进行第一次打分，并分别存储分数较高的序列片段作为初步搜索的候选肽段序列集合。

更具体来说，挑选质谱峰具体包括以下过程：质谱峰对应为肽段N端部分时的质量值；质谱峰对应为肽段C端部分时的质量值；互补质谱峰对应为肽段N端部分时的质量值；互补质谱峰对应为肽段C端部分时的质量值；最后，对于这个质谱图，将所有质谱峰生成的所有查询组成一个统一的查询集合。

进一步的，步骤S380包括：建立两个数组SN和SC，分别存放N端子序列片段起始位置计数，以及C端子序列片段终止位置计数。两个数组的大小均为蛋白质序列的总长度；对于生成的查询集合中的每个查询q，其质量值为m，按照指定的参数，计算其质量的下界m1和上界m2，按照步骤2中生成的索引文件，查询到质量值在m1与m2中的所有子序列集合；如果该查询q对应了肽段的N端部分，则将其放入数组SN中，对应到其所有子序列的起始位置，计数加1；否则，则将其放入数组SC中，对应到其所有子序列的起始位置，计数加1；分别遍历两个数组，并从中取出k个计数较高的值及其对应的位置，作为查询到的候选肽段序列集合。

如图4所示，在其中一个实施例中，步骤S400包括：

S420：对候选肽段序列集合中序列片段进行判断，若该序列片段为N端片段，则对该序列片段的C端确认边界；否则对该序列片段的N端确认边界。

S440：计算所确认边界的肽段与质谱图的母离子的质量差，并将该质量差当作修饰质量查询修饰数据库；若存在合适的修饰，则生成修饰肽段。

S460：对将实验质谱图与该修饰肽段进行相似性匹配打分。

对候选肽段序列集合中序列片段进行判断，若该序列片段为N端片段，则对该序列片段的C端确认边界；否则对该序列片段的N端确认边界；计算所确认边界的肽段与质谱图的母离子的质量差，并将该质量差当作修饰质量查询修饰数据库；若存在合适的修饰，则生成修饰肽段；对将实验质谱图与所获的该修饰肽段建立第二个Map任务，并发送到计算节点进行相似性匹配打分。

具体来说，上述打分过程具体为：计算每一个候选肽段序列与实验质谱图的母离子的相对分子质量的差，并将该质量差当作修饰质量查询修饰数据库。如果存在合适的修饰，则生成修饰肽段。对质谱图与该修饰肽段进行打分，并保存排名前n的肽段信息。具体可以使用向量t＝[t1，t2，……，tN]代表候选肽段序列，c＝[c1，C2，……，cN]代表实验质谱，其中ti(ci)＝1表示存在位置i(m＝z)(或简称质谱峰i)的存在有效的峰，否则ti(ci)＝0。实验质谱图与候选肽段的匹配打分算法如公式如下：

如图2所示，在其中一个实施例中，步骤S500包括：

S520：根据相似性匹配打分结果，以分值进行排序处理，根据匹配分值最高的候选肽段序列作为搜索的序列结果。

S540：对搜索的序列结果中每个肽段查找其对应的蛋白质信息，生成并输出蛋白质鉴定结果。

收集所有实验质谱图对应的候选肽序列，进行候选肽的相似性匹配打分值计算，并存储结果；根据计算的分值，建立reduce任务<key,value>为<肽段，分值>；在Reduc任务中，以value分值进行排序处理，匹配分值最高的候选肽段序列作为搜索的序列结果输出；对搜索的序列结果，查找其对应的蛋白质信息，生成并输出蛋白质鉴定结果。

本申请蛋白质序列数据库并行搜索鉴定方法上述实施例中，通过为蛋白质序列数据库建立一种基于母离子相对分子质量的索引，实现对关键词并行查询的匹配序列,以分布式集群来提高蛋白质数据库搜索效率；采用的索引结构使得处理一个关键实验质谱的搜索对应一个Map任务，这对于搜索密集型的质谱数据搜索鉴定来说大大降低了对磁盘和内存大小的依赖；通过将索引分布到多个主机和采用基于的并行索引构建方法,可对超大规模的蛋白质序列数据库建立索引和进行搜索优化；应用Hadoop的分布式计算存框架HDFS和分布式计算编程框架MapReduce实现蛋白质数据库序列搜索时间比普通电脑时间成倍的减少。

应该理解的是，虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

另外，如图5所示，本申请还提供一种蛋白质序列数据库并行搜索鉴定装置，装置包括：

预处理模块100，用于预处理待鉴定的实验质谱数据集和蛋白质序列数据库；

理论质谱数据集获取模块200，用于对蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集；

候选肽段序列集合获取模块300，用于分别提取实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据搜索查询集合在蛋白质序列库中搜索理论质谱数据集，获取候选肽段序列集合；

肽段评分模块400，用于根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分；

鉴定模块500，用于整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果。

上述蛋白质序列数据库并行搜索鉴定装置，预处理模块100预处理待鉴定的实验质谱数据集和蛋白质序列数据库，理论质谱数据集获取模块200对蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集；候选肽段序列集合获取模块300分别提取实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据搜索查询集合在蛋白质序列库中搜索理论质谱数据集，获取候选肽段序列集合；肽段评分模块400根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分；鉴定模块500整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果。整个过程中，以实验质谱数据集中每个实验质谱图作为研究对象，获取每个实验质谱图及其对应的候选肽段序列集合，进而打分进行肽段到蛋白质的推断，得蛋白质鉴定结果，采用并行处理的方式显著提高蛋白质序列数据库搜索鉴定效率。

在其中一个实施例中，预处理模块100还用于将待鉴定的实验质谱数据集和蛋白质序列数据库存储至HDFS中；对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰；对蛋白质序列数据库进行预处理，获取蛋白质序列及名称。

在其中一个实施例中，预处理模块100还用于根据实验质谱数据集的规模，对实验质谱数据集进行分割，得到多个实验质谱图；对每个实验质谱图分别进行去除无效质谱峰处理，无效质谱峰包括噪音离子峰和杂质离子峰；去除每个实验质谱图中丰度低于预设阈值的质谱峰；通过预设个数氨基酸质量的测算，去掉每个实验质谱图中在不可能出现离子峰位置所出现的质谱峰；将每个实验质谱图中在同一位置出现的多个质谱峰进行删选与合并。

在其中一个实施例中，候选肽段序列集合获取模块300还用于根据每个实验质谱图的质谱峰，生成查询集合，并作为初始计算任务；执行计算任务，根据肽段的相对分子质量值及对应的N端或C端，检索蛋白质数据库中的序列片段；使用搜索设置所限定的阈值，检索蛋白质数据库，获得母离子相对分子质量在阈值之内的所有蛋白质序列；对获得的蛋白质数据库中的序列片段，包括N端片段和C端片段根据经验打分函数进行初始打分，并分别存储分数较高的序列片段作为初步搜索的候选肽段序列集合。

在其中一个实施例中，肽段评分模块400还用于对候选肽段序列集合中序列片段进行判断，若该序列片段为N端片段，则对该序列片段的C端确认边界；否则对该序列片段的N端确认边界；计算所确认边界的肽段与质谱图的母离子的质量差，并将该质量差当作修饰质量查询修饰数据库；若存在合适的修饰，则生成修饰肽段；对将实验质谱图与该修饰肽段进行相似性匹配打分。

在其中一个实施例中，鉴定模块500还用于根据相似性匹配打分结果，以分值进行排序处理，根据匹配分值最高的候选肽段序列作为搜索的序列结果；对搜索的序列结果中每个肽段查找其对应的蛋白质信息，生成并输出蛋白质鉴定结果。

关于蛋白质序列数据库并行搜索鉴定装置的具体限定可以参见上文中对于蛋白质序列数据库并行搜索鉴定方法的限定，在此不再赘述。上述蛋白质序列数据库并行搜索鉴定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设蛋白质序列数据库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种蛋白质序列数据库并行搜索鉴定方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

预处理待鉴定的实验质谱数据集和蛋白质序列数据库；

对蛋白序列数据库中每条蛋白序列进行模拟酶切，获取理论质谱数据集；

分别提取实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据搜索查询集合在蛋白质序列库中搜索理论质谱数据集，获取候选肽段序列集合；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

将待鉴定的实验质谱数据集和蛋白质序列数据库存储至中；对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰；对蛋白质序列数据库进行预处理，获取蛋白质序列及名称。

根据实验质谱数据集的规模，对实验质谱数据集进行分割，得到多个实验质谱图；对每个实验质谱图分别进行去除无效质谱峰处理，无效质谱峰包括噪音离子峰和杂质离子峰；去除每个实验质谱图中丰度低于预设阈值的质谱峰；通过预设个数氨基酸质量的测算，去掉每个实验质谱图中在不可能出现离子峰位置所出现的质谱峰；将每个实验质谱图中在同一位置出现的多个质谱峰进行删选与合并。

根据每个实验质谱图的质谱峰，生成查询集合，并作为初始计算任务；执行计算任务，根据肽段的相对分子质量值及对应的N端或C端，检索蛋白质数据库中的序列片段；使用搜索设置所限定的阈值，检索蛋白质数据库，获得母离子相对分子质量在阈值之内的所有蛋白质序列；对获得的蛋白质数据库中的序列片段，包括N端片段和C端片段根据经验打分函数进行初始打分，并分别存储分数较高的序列片段作为初步搜索的候选肽段序列集合。

对候选肽段序列集合中序列片段进行判断，若该序列片段为N端片段，则对该序列片段的C端确认边界；否则对该序列片段的N端确认边界；计算所确认边界的肽段与质谱图的母离子的质量差，并将该质量差当作修饰质量查询修饰数据库；若存在合适的修饰，则生成修饰肽段；对将实验质谱图与该修饰肽段进行相似性匹配打分。

根据相似性匹配打分结果，以分值进行排序处理，根据匹配分值最高的候选肽段序列作为搜索的序列结果；对搜索的序列结果中每个肽段查找其对应的蛋白质信息，生成并输出蛋白质鉴定结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

预处理待鉴定的实验质谱数据集和蛋白质序列数据库；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种蛋白质序列数据库并行搜索鉴定方法，所述方法包括：

预处理待鉴定的实验质谱数据集和蛋白质序列数据库；

2.根据权利要求1所述的方法，其特征在于，所述预处理待鉴定的实验质谱数据集和蛋白质序列数据库包括：

将待鉴定的实验质谱数据集和蛋白质序列数据库存储至HDFS中；

对蛋白质序列数据库进行预处理，获取蛋白质序列及名称。

3.根据权利要求2所述的方法，其特征在于，所述对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰包括：

去除每个实验质谱图中丰度低于预设阈值的质谱峰；

4.根据权利要求1所述的方法，其特征在于，所述分别提取所述实验质谱数据集对应的每个实验质谱图的质谱峰，生成搜索查询集合，并根据所述搜索查询集合在所述蛋白质序列库中搜索所述理论质谱数据集，获取候选肽段序列集合包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每个实验质谱图及其对应的候选肽段序列集合，生成候选肽段并打分包括：

对将实验质谱图与该修饰肽段进行相似性匹配打分。

6.根据权利要求5所述的方法，其特征在于，所述整合打分结果，并进行肽段到蛋白质的推断，得蛋白质鉴定结果包括：

7.一种蛋白质序列数据库并行搜索鉴定装置，其特征在于，所述装置包括：

8.根据权利要求1所述的装置，其特征在于，所述预处理模块还用于将待鉴定的实验质谱数据集和蛋白质序列数据库存储至HDFS中；对实验质谱数据集对应的每个实验质谱图进行预处理，挑选每个实验质谱图对应的质谱峰；对蛋白质序列数据库进行预处理，获取蛋白质序列及名称。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。