CN105117620B

CN105117620B - 蛋白质组数据库及其应用

Info

Publication number: CN105117620B
Application number: CN201510448466.2A
Authority: CN
Inventors: 谢振华
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2015-07-27
Filing date: 2015-07-27
Publication date: 2018-03-02
Anticipated expiration: 2035-07-27
Also published as: CN105117620A

Abstract

本发明公开了一种构建蛋白质组数据库的方法，该方法包括步骤：接收多个蛋白序列；消除每个蛋白序列的起始氨基酸，获得相应的截断序列；建立数据表，以获得蛋白质组数据库，数据表包含多个记录，一个所述记录与一个所述截断序列对应，数据表包含多个字段，字段包括以下序列参数中的至少两种：氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点。本发明还公开一种蛋白质组数据库、蛋白质组数据库在蛋白质分组、检索和/或定位中的用途、一种定位蛋白的方法和系统。本发明的方法和/或蛋白质组数据库建立了蛋白的坐标系统，利于简单高效利用蛋白质大数据。

Description

蛋白质组数据库及其应用

技术领域

本发明涉及生物信息领域，具体的，本发明涉及构建蛋白质组数据库的方法、蛋白质组数据库、蛋白质组数据库在蛋白质分类和/或检索定位中的用途、定位蛋白的方法、定位蛋白的系统、蛋白的分类方法及系统。

背景技术

蛋白质是生命功能的执行者和生命活动的直接体现者。随着四千多个物种全基因组序列测定的完成,基因组研究的战略重点从结构基因组学转向功能基因组学，蛋白质组学正是功能基因组研究的重要支柱，是后基因组时代生命科学研究的核心内容之一。蛋白质组学对蛋白质的功能分析、鉴定及其翻译后修饰的研究，将会对阐明基因的功能起到极大的推动作用，并能更加客观准确地揭示生命现象。

质谱(MS)为基础来分析蛋白质组的鸟枪法是非常强大的方法,但是鸟枪法这样的策略在很大程度上依赖于完整的蛋白质组数据库，通常使用数据库检索算法进行蛋白质的鉴定。目前，全蛋白质组数据库中的大部分蛋白质序列是来源于预测全基因组和转录组序列中的蛋白质编码基因得到的注释结果，只有部分蛋白质具有实验证据的支持。随着实验数据的积累和预测注释的改进，蛋白质数据库不断更新且日趋完善其完整性和准确性，但是依然不能反映全蛋白质组的全部信息。

发明内容

本发明的目的之一在于构建一种蛋白质组数据库。发明人基于以下发现和认识而作出本发明：

蛋白质分子的疏水性(Hydrophobicity)，等电点(PI)，序列长度和分子量等理化特性只依赖于蛋白质氨基酸组成，与蛋白质序列信息无关，这些理化特性被认为是蛋白质氨基酸组成相关的理化特性。这些特性值可以从一个线性氨基酸序列推算出。蛋白质氨基酸组成和氨基酸组成衍生的理化特性，已被广泛用于预测蛋白质结构和功能分类，蛋白–蛋白相互作用和蛋白质亚细胞定位。

蛋白质组学获得和鉴定低丰度蛋白是一个巨大的挑战。例如，双向电泳方法有一定的局限性：它很难分析出非常酸性的，碱性的，小的，大的和疏水性的蛋白质。完全测序的四千多个蛋白序列构成的全蛋白质组可提供丰富的生物信息来指导未来的生物研究，但是本领域普通技术人员无法应对含有几千至几万条蛋白序列的全蛋白质组的大数据挑战，所以目前全蛋白质组的数据应用并不广泛。

因而，构建蛋白质组数据库，建立全蛋白质组的坐标系统，实现对含有几千、几万甚至更多条蛋白序列的全蛋白质组的大数据进行有序化管理，实现对蛋白质组的蛋白质序列的理化特性有序化组织，成为促进蛋白质组学的发展的一种强烈需要。

依据本发明的第一方面，本发明提供一种构建蛋白质组数据库的方法，该方法包括以下步骤：接收多个蛋白序列；消除每个所述蛋白序列的起始氨基酸，获得相应的截断序列；建立数据表，以获得所述蛋白质组数据库，所述数据表包含多个记录，一个所述记录与一个所述截断序列对应，所述数据表包含多个字段，所述字段包括以下序列参数中的至少两种：氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点，所述氨基酸丰度包括以下至少之一：Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。利用该方法构建蛋白质组数据库时，不限制接收的蛋白序列的数目，即不限制所构建的蛋白质组数据库包含的序列数目，较佳的，接收的蛋白序列为几十条、几百条、几千条或者几万条，或者更多。消除接收的每个蛋白序列的起始氨基酸，例如消除每个真核生物蛋白序列一般都有的起始甲硫氨酸，获得相应的甲硫氨酸截断序列(M-truncated sequence，MTS)，真核生物或者原核生物的蛋白一般都具有相同的起始氨基酸。这样，消除原始数据的共性，基于接收数据的差异进行数据库构建，利于蛋白质组数据库构建，也利于构建得的数据库用于蛋白定位和/或分类。

依据本发明的第二方面，本发明提供一种蛋白质组数据库，其根据上述本发明一方面的构建蛋白质组数据库的方法构建获得。该蛋白质组数据库，其数据表的字段为蛋白序列本身固有的理化性质指标。将数据表作为坐标系统，其各个记录即每条蛋白序列都以其理化性质参数数值作为坐标，方便对所包含的蛋白序列的组织、批量操作处理。该蛋白质组数据库，能够承载几十、几百、几千、几万甚至更多的蛋白序列信息，使得能够在多维空间中对一个全蛋白质组含有几千至几万条甚至更多的蛋白序列实现定位和/或分类。

依据本发明的第三方面，本发明提供上述本发明一方面的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。

依据本发明的第四方面，本发明提供一种定位蛋白的方法，其根据所述蛋白的序列参数在上述本发明一方面的蛋白质组数据库中的位置，以实现所述定位，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。

依据本发明的第五方面，本发明提供一种定位蛋白的系统，该系统能够实现上述本发明一方面的定位蛋白的方法的全部或部分步骤，该系统包括：输入装置，用以输入所述蛋白的序列参数；输出装置，用以输出所述蛋白的定位信息；以及本发明一方面提供的蛋白质组数据库，与所述输入装置和所述输出装置相连，用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置，实现所述定位，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。

依据本发明的第六方面，本发明提供一种对蛋白进行分类的方法，其根据每个所述蛋白的序列参数在本发明一方面提供的蛋白质组数据库中的位置，以实现所述分类，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。

依据本发明的第七方面，本发明提供一种对蛋白进行分类的系统，其能够用于实施上述本发明一方面的蛋白分类方法的全部或部分步骤，该系统包括：输入装置，用以输入各个蛋白的序列参数；输出装置，用以输出所述蛋白的分类信息；以及上述本发明一方面提供的蛋白质组数据库，与所述输入装置和所述输出装置相连，用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置，实现所述分类，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。

上述涉及的蛋白质组数据库，是基于发明人提出的利用蛋白序列本身固有的理化性质指标作为坐标系统，使每个蛋白序列的理化性质参数成为其的坐标参数，从而构建获得的。构建的蛋白质组数据库能够方便的对其中的蛋白序列进行批量操作处理，例如，依据数据表中的任一字段和/或序列信息，实现对蛋白的检索定位和/或分类分组。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明的一个实施例中的构建蛋白质组数据库的方法的流程图。

图2是本发明的一个实施例中的蛋白质组数据库的部分结构和组成的示意图。

图3是本发明的一个实施例中的在蛋白质组数据库中利用蛋白名字进行排序聚类，α-2,8-唾液酸转移酶8家族的蛋白成员的分布情况示意图。

图4是本发明的一个实施例中的在蛋白质组数据库中利用MTS序列进行排序聚类，α-2,8-唾液酸转移酶8家族的蛋白成员的分布情况示意图。

具体实施方式

根据本发明的一个实施例，提供一种构建蛋白质组数据库方法，如图1所示，该方法包括以下步骤：

S10接收多个蛋白序列。

进行S10时，不限制接收的蛋白序列的数目，即不限制所构建的蛋白质组数据库包含的序列数目，较佳的，接收的蛋白序列为几十条、几百条、几千条或者几万条，或者更多。根据本发明的一个实施例，原始数据来自包含蛋白序列的数据库，例如下载来自UniProt(Universal Protein)数据库的全部蛋白序列，UniProt是资源最广的蛋白质数据库，它整合了Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据。

S20消除每个蛋白序列的起始氨基酸，获得对应的截断序列。

消除S10接收的每个蛋白序列的起始氨基酸，例如消除每个真核生物蛋白序列一般都有的起始甲硫氨酸，获得相应的甲硫氨酸截断序列(M-truncated sequence，MTS)。真核生物或者原核生物的蛋白一般都具有相同的起始氨基酸。这样，消除原始数据的共性，基于接收数据的差异进行数据库构建，利于蛋白质组数据库构建，也利于构建得的数据库用于蛋白定位和/或分类。

S30建立数据表，以获得蛋白质组数据库。

数据表的建立可以利用现有软件程序，例如利用EXCEL、FoxTable等。使所建的数据表包含多个记录，一个所述记录与一个所述截断序列对应，所述数据表包含多个字段，所述字段包括以下序列参数中的至少两种：氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点，所述氨基酸丰度包括以下至少之一：Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。

根据本发明的一些实施例，所建数据库的数据表的字段包括所列序列参数中的三种、四种或者全部五种；较佳的，数据表的字段还包括蛋白名称、氨基酸序列和/或蛋白登录号。如此，包含多种序列参数或者序列信息，即使得每条序列具有多个特有属性，方便对每条序列进行定位，也方便对一组具有相似属性的序列进行分类分组或者筛出。

根据本发明的一个实施例，数据表的字段包括所述序列长度，所述序列长度分为五个分量：[0,200)，[200,500)，[500,1000)，[1000,2000)和大于等于2000aa。根据本发明的一个实施例，数据表的字段包括所述序列分子量，所述序列分子量分为五个分量：[0,23000)，[23000,57500)，[57500,115000)，[115000,230000)和大于等于230000Da。根据本发明的一个实施例，数据表的字段包括所述序列等电点，所述序列等电点分为五个分量：[0,4.0)，[4.0,6.0)，[6.0,8.0)，[8.0,10.0)和大于等于10.0。根据本发明的一个实施例，数据表的字段包括所述序列疏水性，所述序列疏水性分为五个分量：小于-1.0，[-1.0,-0.5)，[-0.5,0.0)，[0.0,0.5)和大于等于0.5。根据本发明的一个实施例，数据表的字段包括所述氨基酸丰度，包括所列20中氨基酸的丰度，所述氨基酸丰度分为五个分量：[0.0,0.05)，[0.05,0.1)，[0.1,0.15)，[0.15,0.20)和[0.20,1]。如此，数据库包含多种序列参数或者序列信息，即使得每条序列具有多个特有属性，而且每个属性具有多个分量，方便对每条序列进行准确定位，也方便对一组具有一个或多个相似属性/分量的序列进行分类分组或者一次性筛出。

根据本发明的一个实施例，提供一种蛋白质组数据库，其根据上述本发明一方面的构建蛋白质组数据库的方法构建获得。该蛋白质组数据库，其数据表的字段为蛋白序列本身固有的理化性质指标。将数据表作为坐标系统，其各个记录即每条蛋白序列都以其理化性质参数数值作为坐标，方便对所包含的蛋白序列的组织、批量操作处理。该蛋白质组数据库，能够承载几十、几百、几千、几万甚至更多的蛋白序列信息，使得能够在多维空间中对一个全蛋白质组含有几千至几万条甚至更多的蛋白序列实现定位和/或分类。

根据本发明的一些实施例，蛋白质组数据库中的数据表的字段包括氨基酸丰度，所述数据表的记录按照所述氨基酸丰度的大小排布，例如，每个截断序列按照其Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度中的一个或几个进行排序聚类。如此，使该蛋白质组数据库能够依据序列的任一种或者任几种氨基酸丰度对蛋白进行定位和/或对一组蛋白进行分组分类。

根据本发明的一些实施例，蛋白质组数据库中的数据表的字段包括序列等电点，数据库的记录按照所述序列等电点的大小排布。根据本发明的一些实施例，蛋白质组数据库中的数据表的字段包括序列疏水性，数据库的记录按照所述序列疏水性的大小排布。根据本发明的一些实施例，蛋白质组数据库中的数据表的字段包括序列分子量，数据库的记录按照所述序列分子量的大小排布。根据本发明的一些实施例，蛋白质组数据库中的数据表的字段包括蛋白质名称，数据库的记录按照所述蛋白质名称的字母顺序排布。如此，数据库的记录以某个序列参数值聚类分布，利于具有相同或相近的序列参数属性的蛋白聚类、分组和定位。

根据本发明的一些实施例，提供上述本发明任一实施例中的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。上述对蛋白质组数据库的优点和技术特征的描述，同样适用该用途，在此不再赘述。

根据本发明的一个实施例，提供一种定位蛋白的方法，其根据所述蛋白的序列参数在上述本发明任一实施例中的蛋白质组数据库中的位置，以实现所述定位，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待定位蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位找到该蛋白记录。本领域技术人员可以理解，上述对蛋白质组数据库的用途的优点和技术特征的描述，同样适用该方法，在此不再赘述。

根据本发明的一个实施例，提供一种定位蛋白的系统，该系统能够实现上述本发明任一实施例中的定位蛋白的方法的全部或部分步骤，该系统包括：输入装置，用以输入所述蛋白的序列参数；输出装置，用以输出所述蛋白的定位信息；以及上述本发明任一实施例中的蛋白质组数据库，与所述输入装置和所述输出装置相连，用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置，实现所述定位，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待定位蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位找到该蛋白记录。上述对蛋白质组数据库的用途的优点和技术特征的描述，同样适用该方法，在此不再赘述。

根据本发明的一个实施例，提供一种对蛋白进行分类的方法，其根据每个所述蛋白的序列参数在上述本发明任一实施例中的蛋白质组数据库中的位置，实现所述分类，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待分类蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位该蛋白记录所属类别。上述对蛋白质组数据库的用途的优点和技术特征的描述，同样适用该方法，在此不再赘述。

根据本发明的一个实施例，提供一种对蛋白进行分类的系统，其能够用于实施上述本发明任一实施例中的蛋白分类方法的全部或部分步骤，该系统包括：输入装置，用以输入各个蛋白的序列参数；输出装置，用以输出所述蛋白的分类信息；以及上述本发明任一实施例中的蛋白质组数据库，与所述输入装置和所述输出装置相连，用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置，实现所述分类，所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待分类蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位该蛋白记录所属类别。上述对蛋白质组数据库的用途的优点和技术特征的描述，同样适用该方法，在此不再赘述。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。在本文中，除非另有明确的规定和限定，术语“相连”、“连接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。

以下结合具体实施例对本发明的构建蛋白质组数据库的方法、蛋白质数据库及其用途等进行详细的描述。

实施例1

一个物种FASTA格式的全蛋白质组可以从通用蛋白质资源(uniprot数据库)下载(http://www.uniprot.org/proteomes/)。该示例中，从uniprot数据库下载人的全蛋白质组。全蛋白质组FASTA格式蛋白序列被转换为纯文本格式，然后通过消除起始甲硫氨酸转换成M-truncated的蛋白质序列(MTSs)。在MTSs中20个氨基酸的丰度作为蛋白质氨基酸组成值。MTSs上氨基酸的丰度，序列长度(sequence length，SL)，分子量(molecular weight，MW)的值和蛋白质的注释由R统计编程语言从全蛋白质组中提取。各MTSs的疏水性(Hydrophobicity)和等电点(PI)值可以使用propas软件(Wu,S.and Zhu,Y.(2012)ProPAS:standalone software to analyze protein properties.Bioinformation,8,167-169.)和/或在线服务器Compute pI/Mw tool(http://web.expasy.org/compute_pi/)计算获得。

一个蛋白质MTS序列中20个氨基酸的丰度、序列长度(SL)，分子量的值(MW)、等电点值(PI)、疏水性(Hydrophobicity，HP)、蛋白质名字(name)、蛋白质登录号码等信息和MTS序列被插入在电子表格(Spreadsheet)相应的行(列)的不同单元格内。全蛋白质组所有蛋白质MTSs的20个氨基酸的丰度、序列长度、分子量的值、等电点值、疏水、蛋白质名字、蛋白质登录号码等信息和MTS序列数据分别按相同性质的数据插入在电子表格中同一列(行)的不同单元格内，不同性质的数据被分别插入在电子表格中不同的列(行)内。这样，一个物种全蛋白质组所有蛋白质MTSs的20个氨基酸的丰度、序列长度、分子量的值、等电点值、疏水性、蛋白质名字、蛋白质登录号码等信息和MTS序列等数据在电子表格内组成一个数据矩阵，发明人称其为HICL表，即建立了数据表，获得所称的蛋白质组数据库。图2是所建数据库的截图，示意数据库的部分组成和结构。表1显示数据库包含的各个字段，即各序列参数，包括氨基酸丰度(AAC)、序列长度(SL)、分子量(MW)、等电点(PI)以及疏水性(HP)各自的五个分量(groupⅠ-Ⅴ)的范围。表2显示人全蛋白质组中的蛋白在各个分量中的数目分布情况。

表1

列(字段)	groupⅠ	groupⅡ	groupⅢ	groupⅣ	groupⅤ
						AAC	0.0-<0.05	0.05-<0.1	0.1-<0.15	0.15％-<0.20	≥0.20
SL	0-<200	200-<500	500-<1000	1000-<2000	≥2000
						MW	0-<23kd	23kd-<57.5kd	57.5kd-<115kd	115kd-<230kd	≥230kd
pI	0-<4.0	4.0-<6.0	6.0-<8.0	8.0-<10.0	≥10.0
						HP	-<-1.0	-1.0-<-0.5	-0.5-<0.0	0.0-<0.5	≥0.5

表2

列分量	groupⅠ	groupⅡ	groupⅢ	groupⅣ	groupⅤ
						Ala丰度	15993	40795	9427	1344	352
Cys丰度	61961	5218	543	74	115
						Asp丰度	40171	26228	1292	170	50
Glu丰度	19625	38162	8435	1345	344
						Phe丰度	52084	15021	726	60	20
Gly丰度	19763	39264	7437	1004	443
						His丰度	62991	4740	158	17	5
Ile丰度	44232	22479	1115	72	13
						Lys丰度	30640	31115	5209	730	217
Leu丰度	4359	29812	27788	5054	898
						Met丰度	66230	1601	69	9	2
Asn丰度	55168	12312	385	39	7
						Pro丰度	27881	31382	6819	1364	465
Gln丰度	41510	24404	1716	205	76
						Arg丰度	26816	35489	4681	722	203
Ser丰度	9285	42439	13399	2172	616
						Thr丰度	32736	33031	1809	237	98
Val丰度	22815	41142	3660	245	49
						Trp丰度	66602	1250	51	5	3
Tyr丰度	62174	5513	175	28	21
						SL	35926	19119	9045	3106	715
MW	36762	18872	8734	2887	656
						pI	584	22680	15630	23892	5125
HP	4678	21003	31205	8388	2637

实施例2

建立实施例1的包含人的全蛋白质组所有蛋白质的数据库。以蛋白质的MTS的20个氨基酸丰度和序列长度作为基本坐标，以分子量的值、等电点值和疏水性作为衍生坐标，这样，在多维空间中对一个全蛋白质组含有几千至几万条蛋白序列实现定位，每个蛋白序列的理化性质参数(坐标参数)与蛋白登录号码(坐标地址)，蛋白序列(客体)和蛋白名称(客体描述)因为在电子表格内同一行(列)而进行绑定。

然后，可以利用电子表格本身具有的数据管理功能实现对全蛋白质组数据矩阵的进行操作，例如使用电子表格排序功能，对全蛋白质组数据矩阵分别以20个氨基酸丰度、序列长度、分子量的值、等电点值和/或疏水性进行排序，可以快速显示出全蛋白质组在20个氨基酸丰度、序列长度、分子量的值、等电点值和疏水性各方面的全面而详细的分布，使得很容易找到所需的含某种高丰度氨基酸的蛋白质，或者全面地分析出非常酸性的、碱性的、小的、大的和疏水性的蛋白质。

例如，使用电子表格排序功能，对全蛋白质组数据矩阵以蛋白质名字进行排序，一些蛋白质因为名字都以相同的字母开头的组合在一起；然后，将所有的蛋白质名称开头是相同而第二个字母也相同的组合在一起；如此下去，同一蛋白家族成员或蛋白变体通常可以组合在一起构成一簇，因为它们的名字，最初的字母是相同的。这样重新排列的数据矩阵根据蛋白质的名字的字母顺序进行排序，从而使得本领域普通技术人员能够快速地发现一些蛋白家族成员或蛋白变体的理化性质分布的细节。图3显示在该数据库中利用蛋白名字对α-2,8-唾液酸转移酶8(alpha-2,8-sialyltransferase 8)家族的蛋白成员进行排序聚类的结果。

例如，使用电子表格排序功能，对全蛋白质组数据矩阵以MTS序列进行排序，能使N端序列相同的蛋白家族成员或蛋白变体构成一簇，N端序列不相同的蛋白家族成员或蛋白变体则分散分布。图4显示在该数据库中利用MTS序列对α-2,8-唾液酸转移酶8家族进行排序聚类，该家族蛋白成员的分布情况。

也可以使用电子表格检索功能，实现对全蛋白质组数据矩阵的进行蛋白质名字和序列的检索定位，确定蛋白质名字和序列在全蛋白质组数据矩阵中分布。

综上，通过对电子表格中全蛋白质组数据矩阵的操作实现对全蛋白质组所有蛋白序列有序化操作处理，进而实现对全蛋白质组所有蛋白序列进行分组和/或检索定位。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种构建蛋白质组数据库的方法，其特征在于，包括以下步骤：

接收多个蛋白序列；

消除每个所述蛋白序列的起始氨基酸，获得相应的截断序列；

建立数据表，以获得所述蛋白质组数据库，

所述数据表包含多个记录，一个所述记录与一个所述截断序列对应，

所述数据表包含多个字段，所述字段包括以下序列参数中的至少两种：氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点，

所述氨基酸丰度包括以下至少之一：Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。

2.根据权利要求1所述的方法，其特征在于，所述字段包括所述序列参数中的至少三种。

3.根据权利要求1所述的方法，其特征在于，所述字段包括所述序列参数中的至少四种。

4.根据权利要求1所述的方法，其特征在于，所述字段包括全部所述序列参数。

5.根据权利要求1所述的方法，其特征在于，所述字段还包括蛋白名称、氨基酸序列和/或蛋白登录号。

6.根据权利要求1-5任一所述的方法，其特征在于，所述字段包括所述序列长度，所述序列长度分为五个分量：[0,200)，[200,500)，[500,1000)，[1000,2000)和大于等于2000氨基酸(aa)。

7.根据权利要求1-5任一所述的方法，其特征在于，所述字段包括所述序列分子量，所述序列分子量分为五个分量：[0,23000)，[23000,57500)，[57500,115000)，[115000,230000)和大于等于230000道尔顿(Da)。

8.根据权利要求1-5任一所述的方法，其特征在于，所述字段包括所述序列等电点，所述序列等电点分为五个分量：[0,4.0)，[4.0,6.0)，[6.0,8.0)，[8.0,10.0)和大于等于10.0。

9.根据权利要求1-5任一所述的方法，其特征在于，所述字段包括所述序列疏水性，所述序列疏水性分为五个分量：小于-1.0，[-1.0,-0.5)，[-0.5,0.0)，[0.0,0.5)和大于等于0.5。

10.根据权利要求1-5任一所述的方法，其特征在于，所述字段包括所述氨基酸丰度，所述氨基酸丰度分为五个分量：[0.0,0.05)，[0.05,0.1)，[0.1,0.15)，[0.15,0.20)和[0.20,1]。

11.一种蛋白质组数据库，其根据权利要求1-10任一所述的方法构建获得。

12.根据权利要求11所述的蛋白质组数据库，其特征在于，其中的数据表的字段包括氨基酸丰度，所述数据表的记录按照所述氨基酸丰度的大小排布。

13.根据权利要求11所述的蛋白质组数据库，其特征在于，其中的数据表的字段包括序列等电点，所述数据库的记录按照所述序列等电点的大小排布。

14.根据权利要求11所述的蛋白质组数据库，其特征在于，其中的数据表的字段包括序列疏水性，所述数据库的记录按照所述序列疏水性的大小排布。

15.根据权利要求11所述的蛋白质组数据库，其特征在于，其中的数据表的字段包括序列分子量，所述数据库的记录按照所述序列分子量的大小排布。

16.根据权利要求11所述的蛋白质组数据库，其特征在于，其中的数据表的字段包括蛋白质名称，所述数据库的记录按照所述蛋白质名称的字母顺序排布。

17.权利要求11-16任一所述的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。

18.一种定位蛋白的方法，其特征在于，根据所述蛋白的序列参数在权利要求11-16任一所述的蛋白质组数据库中的位置，以实现所述定位，

所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。

19.一种定位蛋白的系统，其特征在于，包括：

输入装置，用以输入所述蛋白的序列参数；

输出装置，用以输出所述蛋白的定位信息；以及

权利要求11-16任一所述的蛋白质组数据库，与所述输入装置和所述输出装置相连，用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置，实现所述定位，

20.一种对蛋白进行分类的方法，其特征在于，根据每个所述蛋白的序列参数在权利要求11-16任一所述的蛋白质组数据库中的位置，以实现所述分类，

21.一种对蛋白进行分类的系统，其特征在于，包括：

输入装置，用以输入各个蛋白的序列参数；

输出装置，用以输出所述蛋白的分类信息；以及

权利要求11-16任一所述的蛋白质组数据库，与所述输入装置和所述输出装置相连，用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置，实现所述分类，