CN105117620B - 蛋白质组数据库及其应用 - Google Patents

蛋白质组数据库及其应用 Download PDF

Info

Publication number
CN105117620B
CN105117620B CN201510448466.2A CN201510448466A CN105117620B CN 105117620 B CN105117620 B CN 105117620B CN 201510448466 A CN201510448466 A CN 201510448466A CN 105117620 B CN105117620 B CN 105117620B
Authority
CN
China
Prior art keywords
abundance
sequence
protein
proteome databases
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510448466.2A
Other languages
English (en)
Other versions
CN105117620A (zh
Inventor
谢振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201510448466.2A priority Critical patent/CN105117620B/zh
Publication of CN105117620A publication Critical patent/CN105117620A/zh
Application granted granted Critical
Publication of CN105117620B publication Critical patent/CN105117620B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开了一种构建蛋白质组数据库的方法,该方法包括步骤:接收多个蛋白序列;消除每个蛋白序列的起始氨基酸,获得相应的截断序列;建立数据表,以获得蛋白质组数据库,数据表包含多个记录,一个所述记录与一个所述截断序列对应,数据表包含多个字段,字段包括以下序列参数中的至少两种:氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点。本发明还公开一种蛋白质组数据库、蛋白质组数据库在蛋白质分组、检索和/或定位中的用途、一种定位蛋白的方法和系统。本发明的方法和/或蛋白质组数据库建立了蛋白的坐标系统,利于简单高效利用蛋白质大数据。

Description

蛋白质组数据库及其应用
技术领域
本发明涉及生物信息领域,具体的,本发明涉及构建蛋白质组数据库的方法、蛋白质组数据库、蛋白质组数据库在蛋白质分类和/或检索定位中的用途、定位蛋白的方法、定位蛋白的系统、蛋白的分类方法及系统。
背景技术
蛋白质是生命功能的执行者和生命活动的直接体现者。随着四千多个物种全基因组序列测定的完成,基因组研究的战略重点从结构基因组学转向功能基因组学,蛋白质组学正是功能基因组研究的重要支柱,是后基因组时代生命科学研究的核心内容之一。蛋白质组学对蛋白质的功能分析、鉴定及其翻译后修饰的研究,将会对阐明基因的功能起到极大的推动作用,并能更加客观准确地揭示生命现象。
质谱(MS)为基础来分析蛋白质组的鸟枪法是非常强大的方法,但是鸟枪法这样的策略在很大程度上依赖于完整的蛋白质组数据库,通常使用数据库检索算法进行蛋白质的鉴定。目前,全蛋白质组数据库中的大部分蛋白质序列是来源于预测全基因组和转录组序列中的蛋白质编码基因得到的注释结果,只有部分蛋白质具有实验证据的支持。随着实验数据的积累和预测注释的改进,蛋白质数据库不断更新且日趋完善其完整性和准确性,但是依然不能反映全蛋白质组的全部信息。
发明内容
本发明的目的之一在于构建一种蛋白质组数据库。发明人基于以下发现和认识而作出本发明:
蛋白质分子的疏水性(Hydrophobicity),等电点(PI),序列长度和分子量等理化特性只依赖于蛋白质氨基酸组成,与蛋白质序列信息无关,这些理化特性被认为是蛋白质氨基酸组成相关的理化特性。这些特性值可以从一个线性氨基酸序列推算出。蛋白质氨基酸组成和氨基酸组成衍生的理化特性,已被广泛用于预测蛋白质结构和功能分类,蛋白–蛋白相互作用和蛋白质亚细胞定位。
蛋白质组学获得和鉴定低丰度蛋白是一个巨大的挑战。例如,双向电泳方法有一定的局限性:它很难分析出非常酸性的,碱性的,小的,大的和疏水性的蛋白质。完全测序的四千多个蛋白序列构成的全蛋白质组可提供丰富的生物信息来指导未来的生物研究,但是本领域普通技术人员无法应对含有几千至几万条蛋白序列的全蛋白质组的大数据挑战,所以目前全蛋白质组的数据应用并不广泛。
因而,构建蛋白质组数据库,建立全蛋白质组的坐标系统,实现对含有几千、几万甚至更多条蛋白序列的全蛋白质组的大数据进行有序化管理,实现对蛋白质组的蛋白质序列的理化特性有序化组织,成为促进蛋白质组学的发展的一种强烈需要。
依据本发明的第一方面,本发明提供一种构建蛋白质组数据库的方法,该方法包括以下步骤:接收多个蛋白序列;消除每个所述蛋白序列的起始氨基酸,获得相应的截断序列;建立数据表,以获得所述蛋白质组数据库,所述数据表包含多个记录,一个所述记录与一个所述截断序列对应,所述数据表包含多个字段,所述字段包括以下序列参数中的至少两种:氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点,所述氨基酸丰度包括以下至少之一:Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。利用该方法构建蛋白质组数据库时,不限制接收的蛋白序列的数目,即不限制所构建的蛋白质组数据库包含的序列数目,较佳的,接收的蛋白序列为几十条、几百条、几千条或者几万条,或者更多。消除接收的每个蛋白序列的起始氨基酸,例如消除每个真核生物蛋白序列一般都有的起始甲硫氨酸,获得相应的甲硫氨酸截断序列(M-truncated sequence,MTS),真核生物或者原核生物的蛋白一般都具有相同的起始氨基酸。这样,消除原始数据的共性,基于接收数据的差异进行数据库构建,利于蛋白质组数据库构建,也利于构建得的数据库用于蛋白定位和/或分类。
依据本发明的第二方面,本发明提供一种蛋白质组数据库,其根据上述本发明一方面的构建蛋白质组数据库的方法构建获得。该蛋白质组数据库,其数据表的字段为蛋白序列本身固有的理化性质指标。将数据表作为坐标系统,其各个记录即每条蛋白序列都以其理化性质参数数值作为坐标,方便对所包含的蛋白序列的组织、批量操作处理。该蛋白质组数据库,能够承载几十、几百、几千、几万甚至更多的蛋白序列信息,使得能够在多维空间中对一个全蛋白质组含有几千至几万条甚至更多的蛋白序列实现定位和/或分类。
依据本发明的第三方面,本发明提供上述本发明一方面的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。
依据本发明的第四方面,本发明提供一种定位蛋白的方法,其根据所述蛋白的序列参数在上述本发明一方面的蛋白质组数据库中的位置,以实现所述定位,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
依据本发明的第五方面,本发明提供一种定位蛋白的系统,该系统能够实现上述本发明一方面的定位蛋白的方法的全部或部分步骤,该系统包括:输入装置,用以输入所述蛋白的序列参数;输出装置,用以输出所述蛋白的定位信息;以及本发明一方面提供的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述定位,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
依据本发明的第六方面,本发明提供一种对蛋白进行分类的方法,其根据每个所述蛋白的序列参数在本发明一方面提供的蛋白质组数据库中的位置,以实现所述分类,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
依据本发明的第七方面,本发明提供一种对蛋白进行分类的系统,其能够用于实施上述本发明一方面的蛋白分类方法的全部或部分步骤,该系统包括:输入装置,用以输入各个蛋白的序列参数;输出装置,用以输出所述蛋白的分类信息;以及上述本发明一方面提供的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述分类,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
上述涉及的蛋白质组数据库,是基于发明人提出的利用蛋白序列本身固有的理化性质指标作为坐标系统,使每个蛋白序列的理化性质参数成为其的坐标参数,从而构建获得的。构建的蛋白质组数据库能够方便的对其中的蛋白序列进行批量操作处理,例如,依据数据表中的任一字段和/或序列信息,实现对蛋白的检索定位和/或分类分组。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明的一个实施例中的构建蛋白质组数据库的方法的流程图。
图2是本发明的一个实施例中的蛋白质组数据库的部分结构和组成的示意图。
图3是本发明的一个实施例中的在蛋白质组数据库中利用蛋白名字进行排序聚类,α-2,8-唾液酸转移酶8家族的蛋白成员的分布情况示意图。
图4是本发明的一个实施例中的在蛋白质组数据库中利用MTS序列进行排序聚类,α-2,8-唾液酸转移酶8家族的蛋白成员的分布情况示意图。
具体实施方式
根据本发明的一个实施例,提供一种构建蛋白质组数据库方法,如图1所示,该方法包括以下步骤:
S10接收多个蛋白序列。
进行S10时,不限制接收的蛋白序列的数目,即不限制所构建的蛋白质组数据库包含的序列数目,较佳的,接收的蛋白序列为几十条、几百条、几千条或者几万条,或者更多。根据本发明的一个实施例,原始数据来自包含蛋白序列的数据库,例如下载来自UniProt(Universal Protein)数据库的全部蛋白序列,UniProt是资源最广的蛋白质数据库,它整合了Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据。
S20消除每个蛋白序列的起始氨基酸,获得对应的截断序列。
消除S10接收的每个蛋白序列的起始氨基酸,例如消除每个真核生物蛋白序列一般都有的起始甲硫氨酸,获得相应的甲硫氨酸截断序列(M-truncated sequence,MTS)。真核生物或者原核生物的蛋白一般都具有相同的起始氨基酸。这样,消除原始数据的共性,基于接收数据的差异进行数据库构建,利于蛋白质组数据库构建,也利于构建得的数据库用于蛋白定位和/或分类。
S30建立数据表,以获得蛋白质组数据库。
数据表的建立可以利用现有软件程序,例如利用EXCEL、FoxTable等。使所建的数据表包含多个记录,一个所述记录与一个所述截断序列对应,所述数据表包含多个字段,所述字段包括以下序列参数中的至少两种:氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点,所述氨基酸丰度包括以下至少之一:Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。
根据本发明的一些实施例,所建数据库的数据表的字段包括所列序列参数中的三种、四种或者全部五种;较佳的,数据表的字段还包括蛋白名称、氨基酸序列和/或蛋白登录号。如此,包含多种序列参数或者序列信息,即使得每条序列具有多个特有属性,方便对每条序列进行定位,也方便对一组具有相似属性的序列进行分类分组或者筛出。
根据本发明的一个实施例,数据表的字段包括所述序列长度,所述序列长度分为五个分量:[0,200),[200,500),[500,1000),[1000,2000)和大于等于2000aa。根据本发明的一个实施例,数据表的字段包括所述序列分子量,所述序列分子量分为五个分量:[0,23000),[23000,57500),[57500,115000),[115000,230000)和大于等于230000Da。根据本发明的一个实施例,数据表的字段包括所述序列等电点,所述序列等电点分为五个分量:[0,4.0),[4.0,6.0),[6.0,8.0),[8.0,10.0)和大于等于10.0。根据本发明的一个实施例,数据表的字段包括所述序列疏水性,所述序列疏水性分为五个分量:小于-1.0,[-1.0,-0.5),[-0.5,0.0),[0.0,0.5)和大于等于0.5。根据本发明的一个实施例,数据表的字段包括所述氨基酸丰度,包括所列20中氨基酸的丰度,所述氨基酸丰度分为五个分量:[0.0,0.05),[0.05,0.1),[0.1,0.15),[0.15,0.20)和[0.20,1]。如此,数据库包含多种序列参数或者序列信息,即使得每条序列具有多个特有属性,而且每个属性具有多个分量,方便对每条序列进行准确定位,也方便对一组具有一个或多个相似属性/分量的序列进行分类分组或者一次性筛出。
根据本发明的一个实施例,提供一种蛋白质组数据库,其根据上述本发明一方面的构建蛋白质组数据库的方法构建获得。该蛋白质组数据库,其数据表的字段为蛋白序列本身固有的理化性质指标。将数据表作为坐标系统,其各个记录即每条蛋白序列都以其理化性质参数数值作为坐标,方便对所包含的蛋白序列的组织、批量操作处理。该蛋白质组数据库,能够承载几十、几百、几千、几万甚至更多的蛋白序列信息,使得能够在多维空间中对一个全蛋白质组含有几千至几万条甚至更多的蛋白序列实现定位和/或分类。
根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括氨基酸丰度,所述数据表的记录按照所述氨基酸丰度的大小排布,例如,每个截断序列按照其Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度中的一个或几个进行排序聚类。如此,使该蛋白质组数据库能够依据序列的任一种或者任几种氨基酸丰度对蛋白进行定位和/或对一组蛋白进行分组分类。
根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括序列等电点,数据库的记录按照所述序列等电点的大小排布。根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括序列疏水性,数据库的记录按照所述序列疏水性的大小排布。根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括序列分子量,数据库的记录按照所述序列分子量的大小排布。根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括蛋白质名称,数据库的记录按照所述蛋白质名称的字母顺序排布。如此,数据库的记录以某个序列参数值聚类分布,利于具有相同或相近的序列参数属性的蛋白聚类、分组和定位。
上述涉及的蛋白质组数据库,是基于发明人提出的利用蛋白序列本身固有的理化性质指标作为坐标系统,使每个蛋白序列的理化性质参数成为其的坐标参数,从而构建获得的。构建的蛋白质组数据库能够方便的对其中的蛋白序列进行批量操作处理,例如,依据数据表中的任一字段和/或序列信息,实现对蛋白的检索定位和/或分类分组。
根据本发明的一些实施例,提供上述本发明任一实施例中的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。上述对蛋白质组数据库的优点和技术特征的描述,同样适用该用途,在此不再赘述。
根据本发明的一个实施例,提供一种定位蛋白的方法,其根据所述蛋白的序列参数在上述本发明任一实施例中的蛋白质组数据库中的位置,以实现所述定位,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待定位蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位找到该蛋白记录。本领域技术人员可以理解,上述对蛋白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
根据本发明的一个实施例,提供一种定位蛋白的系统,该系统能够实现上述本发明任一实施例中的定位蛋白的方法的全部或部分步骤,该系统包括:输入装置,用以输入所述蛋白的序列参数;输出装置,用以输出所述蛋白的定位信息;以及上述本发明任一实施例中的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述定位,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待定位蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位找到该蛋白记录。上述对蛋白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
根据本发明的一个实施例,提供一种对蛋白进行分类的方法,其根据每个所述蛋白的序列参数在上述本发明任一实施例中的蛋白质组数据库中的位置,实现所述分类,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待分类蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位该蛋白记录所属类别。上述对蛋白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
根据本发明的一个实施例,提供一种对蛋白进行分类的系统,其能够用于实施上述本发明任一实施例中的蛋白分类方法的全部或部分步骤,该系统包括:输入装置,用以输入各个蛋白的序列参数;输出装置,用以输出所述蛋白的分类信息;以及上述本发明任一实施例中的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述分类,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待分类蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位该蛋白记录所属类别。上述对蛋白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本文中,除非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。
以下结合具体实施例对本发明的构建蛋白质组数据库的方法、蛋白质数据库及其用途等进行详细的描述。
实施例1
一个物种FASTA格式的全蛋白质组可以从通用蛋白质资源(uniprot数据库)下载(http://www.uniprot.org/proteomes/)。该示例中,从uniprot数据库下载人的全蛋白质组。全蛋白质组FASTA格式蛋白序列被转换为纯文本格式,然后通过消除起始甲硫氨酸转换成M-truncated的蛋白质序列(MTSs)。在MTSs中20个氨基酸的丰度作为蛋白质氨基酸组成值。MTSs上氨基酸的丰度,序列长度(sequence length,SL),分子量(molecular weight,MW)的值和蛋白质的注释由R统计编程语言从全蛋白质组中提取。各MTSs的疏水性(Hydrophobicity)和等电点(PI)值可以使用propas软件(Wu,S.and Zhu,Y.(2012)ProPAS:standalone software to analyze protein properties.Bioinformation,8,167-169.)和/或在线服务器Compute pI/Mw tool(http://web.expasy.org/compute_pi/)计算获得。
一个蛋白质MTS序列中20个氨基酸的丰度、序列长度(SL),分子量的值(MW)、等电点值(PI)、疏水性(Hydrophobicity,HP)、蛋白质名字(name)、蛋白质登录号码等信息和MTS序列被插入在电子表格(Spreadsheet)相应的行(列)的不同单元格内。全蛋白质组所有蛋白质MTSs的20个氨基酸的丰度、序列长度、分子量的值、等电点值、疏水、蛋白质名字、蛋白质登录号码等信息和MTS序列数据分别按相同性质的数据插入在电子表格中同一列(行)的不同单元格内,不同性质的数据被分别插入在电子表格中不同的列(行)内。这样,一个物种全蛋白质组所有蛋白质MTSs的20个氨基酸的丰度、序列长度、分子量的值、等电点值、疏水性、蛋白质名字、蛋白质登录号码等信息和MTS序列等数据在电子表格内组成一个数据矩阵,发明人称其为HICL表,即建立了数据表,获得所称的蛋白质组数据库。图2是所建数据库的截图,示意数据库的部分组成和结构。表1显示数据库包含的各个字段,即各序列参数,包括氨基酸丰度(AAC)、序列长度(SL)、分子量(MW)、等电点(PI)以及疏水性(HP)各自的五个分量(groupⅠ-Ⅴ)的范围。表2显示人全蛋白质组中的蛋白在各个分量中的数目分布情况。
表1
列(字段) groupⅠ groupⅡ groupⅢ groupⅣ groupⅤ
AAC 0.0-<0.05 0.05-<0.1 0.1-<0.15 0.15%-<0.20 ≥0.20
SL 0-<200 200-<500 500-<1000 1000-<2000 ≥2000
MW 0-<23kd 23kd-<57.5kd 57.5kd-<115kd 115kd-<230kd ≥230kd
pI 0-<4.0 4.0-<6.0 6.0-<8.0 8.0-<10.0 ≥10.0
HP -<-1.0 -1.0-<-0.5 -0.5-<0.0 0.0-<0.5 ≥0.5
表2
列分量 groupⅠ groupⅡ groupⅢ groupⅣ groupⅤ
Ala丰度 15993 40795 9427 1344 352
Cys丰度 61961 5218 543 74 115
Asp丰度 40171 26228 1292 170 50
Glu丰度 19625 38162 8435 1345 344
Phe丰度 52084 15021 726 60 20
Gly丰度 19763 39264 7437 1004 443
His丰度 62991 4740 158 17 5
Ile丰度 44232 22479 1115 72 13
Lys丰度 30640 31115 5209 730 217
Leu丰度 4359 29812 27788 5054 898
Met丰度 66230 1601 69 9 2
Asn丰度 55168 12312 385 39 7
Pro丰度 27881 31382 6819 1364 465
Gln丰度 41510 24404 1716 205 76
Arg丰度 26816 35489 4681 722 203
Ser丰度 9285 42439 13399 2172 616
Thr丰度 32736 33031 1809 237 98
Val丰度 22815 41142 3660 245 49
Trp丰度 66602 1250 51 5 3
Tyr丰度 62174 5513 175 28 21
SL 35926 19119 9045 3106 715
MW 36762 18872 8734 2887 656
pI 584 22680 15630 23892 5125
HP 4678 21003 31205 8388 2637
实施例2
建立实施例1的包含人的全蛋白质组所有蛋白质的数据库。以蛋白质的MTS的20个氨基酸丰度和序列长度作为基本坐标,以分子量的值、等电点值和疏水性作为衍生坐标,这样,在多维空间中对一个全蛋白质组含有几千至几万条蛋白序列实现定位,每个蛋白序列的理化性质参数(坐标参数)与蛋白登录号码(坐标地址),蛋白序列(客体)和蛋白名称(客体描述)因为在电子表格内同一行(列)而进行绑定。
然后,可以利用电子表格本身具有的数据管理功能实现对全蛋白质组数据矩阵的进行操作,例如使用电子表格排序功能,对全蛋白质组数据矩阵分别以20个氨基酸丰度、序列长度、分子量的值、等电点值和/或疏水性进行排序,可以快速显示出全蛋白质组在20个氨基酸丰度、序列长度、分子量的值、等电点值和疏水性各方面的全面而详细的分布,使得很容易找到所需的含某种高丰度氨基酸的蛋白质,或者全面地分析出非常酸性的、碱性的、小的、大的和疏水性的蛋白质。
例如,使用电子表格排序功能,对全蛋白质组数据矩阵以蛋白质名字进行排序,一些蛋白质因为名字都以相同的字母开头的组合在一起;然后,将所有的蛋白质名称开头是相同而第二个字母也相同的组合在一起;如此下去,同一蛋白家族成员或蛋白变体通常可以组合在一起构成一簇,因为它们的名字,最初的字母是相同的。这样重新排列的数据矩阵根据蛋白质的名字的字母顺序进行排序,从而使得本领域普通技术人员能够快速地发现一些蛋白家族成员或蛋白变体的理化性质分布的细节。图3显示在该数据库中利用蛋白名字对α-2,8-唾液酸转移酶8(alpha-2,8-sialyltransferase 8)家族的蛋白成员进行排序聚类的结果。
例如,使用电子表格排序功能,对全蛋白质组数据矩阵以MTS序列进行排序,能使N端序列相同的蛋白家族成员或蛋白变体构成一簇,N端序列不相同的蛋白家族成员或蛋白变体则分散分布。图4显示在该数据库中利用MTS序列对α-2,8-唾液酸转移酶8家族进行排序聚类,该家族蛋白成员的分布情况。
也可以使用电子表格检索功能,实现对全蛋白质组数据矩阵的进行蛋白质名字和序列的检索定位,确定蛋白质名字和序列在全蛋白质组数据矩阵中分布。
综上,通过对电子表格中全蛋白质组数据矩阵的操作实现对全蛋白质组所有蛋白序列有序化操作处理,进而实现对全蛋白质组所有蛋白序列进行分组和/或检索定位。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (21)

1.一种构建蛋白质组数据库的方法,其特征在于,包括以下步骤:
接收多个蛋白序列;
消除每个所述蛋白序列的起始氨基酸,获得相应的截断序列;
建立数据表,以获得所述蛋白质组数据库,
所述数据表包含多个记录,一个所述记录与一个所述截断序列对应,
所述数据表包含多个字段,所述字段包括以下序列参数中的至少两种:氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点,
所述氨基酸丰度包括以下至少之一:Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。
2.根据权利要求1所述的方法,其特征在于,所述字段包括所述序列参数中的至少三种。
3.根据权利要求1所述的方法,其特征在于,所述字段包括所述序列参数中的至少四种。
4.根据权利要求1所述的方法,其特征在于,所述字段包括全部所述序列参数。
5.根据权利要求1所述的方法,其特征在于,所述字段还包括蛋白名称、氨基酸序列和/或蛋白登录号。
6.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述序列长度,所述序列长度分为五个分量:[0,200),[200,500),[500,1000),[1000,2000)和大于等于2000氨基酸(aa)。
7.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述序列分子量,所述序列分子量分为五个分量:[0,23000),[23000,57500),[57500,115000),[115000,230000)和大于等于230000道尔顿(Da)。
8.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述序列等电点,所述序列等电点分为五个分量:[0,4.0),[4.0,6.0),[6.0,8.0),[8.0,10.0)和大于等于10.0。
9.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述序列疏水性,所述序列疏水性分为五个分量:小于-1.0,[-1.0,-0.5),[-0.5,0.0),[0.0,0.5)和大于等于0.5。
10.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述氨基酸丰度,所述氨基酸丰度分为五个分量:[0.0,0.05),[0.05,0.1),[0.1,0.15),[0.15,0.20)和[0.20,1]。
11.一种蛋白质组数据库,其根据权利要求1-10任一所述的方法构建获得。
12.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括氨基酸丰度,所述数据表的记录按照所述氨基酸丰度的大小排布。
13.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括序列等电点,所述数据库的记录按照所述序列等电点的大小排布。
14.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括序列疏水性,所述数据库的记录按照所述序列疏水性的大小排布。
15.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括序列分子量,所述数据库的记录按照所述序列分子量的大小排布。
16.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括蛋白质名称,所述数据库的记录按照所述蛋白质名称的字母顺序排布。
17.权利要求11-16任一所述的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。
18.一种定位蛋白的方法,其特征在于,根据所述蛋白的序列参数在权利要求11-16任一所述的蛋白质组数据库中的位置,以实现所述定位,
所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
19.一种定位蛋白的系统,其特征在于,包括:
输入装置,用以输入所述蛋白的序列参数;
输出装置,用以输出所述蛋白的定位信息;以及
权利要求11-16任一所述的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述定位,
所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
20.一种对蛋白进行分类的方法,其特征在于,根据每个所述蛋白的序列参数在权利要求11-16任一所述的蛋白质组数据库中的位置,以实现所述分类,
所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
21.一种对蛋白进行分类的系统,其特征在于,包括:
输入装置,用以输入各个蛋白的序列参数;
输出装置,用以输出所述蛋白的分类信息;以及
权利要求11-16任一所述的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述分类,
所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
CN201510448466.2A 2015-07-27 2015-07-27 蛋白质组数据库及其应用 Expired - Fee Related CN105117620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510448466.2A CN105117620B (zh) 2015-07-27 2015-07-27 蛋白质组数据库及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510448466.2A CN105117620B (zh) 2015-07-27 2015-07-27 蛋白质组数据库及其应用

Publications (2)

Publication Number Publication Date
CN105117620A CN105117620A (zh) 2015-12-02
CN105117620B true CN105117620B (zh) 2018-03-02

Family

ID=54665608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510448466.2A Expired - Fee Related CN105117620B (zh) 2015-07-27 2015-07-27 蛋白质组数据库及其应用

Country Status (1)

Country Link
CN (1) CN105117620B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124581A (zh) * 2005-03-03 2008-02-13 伊利诺斯大学理事会 使用新的数据库检索模式鉴别和鉴定蛋白质
CN103810200A (zh) * 2012-11-12 2014-05-21 中国科学院计算技术研究所 开放式蛋白质鉴定的数据库搜索方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124581A (zh) * 2005-03-03 2008-02-13 伊利诺斯大学理事会 使用新的数据库检索模式鉴别和鉴定蛋白质
CN103810200A (zh) * 2012-11-12 2014-05-21 中国科学院计算技术研究所 开放式蛋白质鉴定的数据库搜索方法及其系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Improving protein complex classification accuracy using amino acid composition profile;Chien-Hung Huang et al.;《Computers in Biology and Medicine》;20131231;第43卷(第9期);1196-1204 *
In silico proteome-wide amino acid and elemental composition(PACE)analysis of expression proteomics data provides a fingerprint of dominant metabolic process;David M.Good et al.;《Genomics Protenmics Bioinformatics》;20130831;第11卷(第4期);219-229 *
Nearest-neighbor classifier as a tool for classification of protein families;Chaurasiya M et al.;《Bioingormation》;20101231;第4卷(第9期);396-398 *
WRF-TMH:predicting transmembrane helix by fusing composition index and physicochemical properties of amino acids;Maqsood Hayat et al.;《Amino acids》;20130331;第44卷(第5期);1317-1328 *
蛋白质数据库与结构基因组;李宏等;《重庆教育学院学报》;20050531;第18卷(第3期);14-16 *
蛋白质数据库对蛋白质组鉴定的影响;邵晨等;《中国生物医学工程学报》;20130430;第32卷(第2期);129-134 *

Also Published As

Publication number Publication date
CN105117620A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
EP2250595B1 (en) Method of selecting an optimized diverse population of variants
Sayyari et al. Fragmentary gene sequences negatively impact gene tree and species tree reconstruction
Marcus et al. SplitMEM: a graphical algorithm for pan-genome analysis with suffix skips
Chindelevitch et al. Optimizing a global alignment of protein interaction networks
Zuo CVTree: a parallel alignment-free phylogeny and taxonomy tool based on composition vectors of genomes
Shafee et al. A quantitative map of protein sequence space for the cis-defensin superfamily
Wang et al. RTFBSDB: an integrated framework for transcription factor binding site analysis
CN105426700B (zh) 一种批量计算基因组直系同源基因进化速率的方法
Joshi et al. 1001 Proteomes: a functional proteomics portal for the analysis of Arabidopsis thaliana accessions
Yu et al. SANPolyA: a deep learning method for identifying Poly (A) signals
CN105117620B (zh) 蛋白质组数据库及其应用
Torkamaneh et al. DepthFinder: a tool to determine the optimal read depth for reduced-representation sequencing
Pallavi et al. Toxicity prediction in peptides and proteins using random forest, decision tree and logistic regression
Hackmann Accurate estimation of microbial sequence diversity with Distanced
CN111161798A (zh) 宏基因组的重组装方法、重组装装置及终端设备
Shrinivas et al. Multiphase coexistence capacity in complex fluids
Mitra et al. Spatial Analysis of Tumor Heterogeneity Using Machine Learning Techniques
Kermani et al. A state of art on biological systems modeling
Jing et al. ScSmOP: a universal computational pipeline for single-cell single-molecule multiomics data analysis
CN113851192B (zh) 氨基酸一维属性预测模型训练方法、装置及属性预测方法
Fu et al. LCTD: A lossless compression tool of FASTQ file based on transformation of original file distribution
Yadav et al. Genetic algorithm with improved mutation operator for multiple sequence alignment
CN116665780A (zh) 一种gRNA、质粒与引物设计系统
Cannataro et al. myMCL: A web portal for protein complexes prediction
Helmus 32 prune. sample

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180302