CN105117620B - 蛋白质组数据库及其应用 - Google Patents
蛋白质组数据库及其应用 Download PDFInfo
- Publication number
- CN105117620B CN105117620B CN201510448466.2A CN201510448466A CN105117620B CN 105117620 B CN105117620 B CN 105117620B CN 201510448466 A CN201510448466 A CN 201510448466A CN 105117620 B CN105117620 B CN 105117620B
- Authority
- CN
- China
- Prior art keywords
- abundance
- sequence
- protein
- proteome databases
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 108010026552 Proteome Proteins 0.000 title claims abstract description 86
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 122
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 43
- 150000001413 amino acids Chemical class 0.000 claims abstract description 40
- 239000002253 acid Substances 0.000 claims abstract description 16
- 230000000903 blocking effect Effects 0.000 claims abstract description 3
- 230000002209 hydrophobic effect Effects 0.000 claims description 6
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 claims 4
- 229910021529 ammonia Inorganic materials 0.000 claims 2
- QCVGEOXPDFCNHA-UHFFFAOYSA-N 5,5-dimethyl-2,4-dioxo-1,3-oxazolidine-3-carboxamide Chemical compound CC1(C)OC(=O)N(C(N)=O)C1=O QCVGEOXPDFCNHA-UHFFFAOYSA-N 0.000 claims 1
- 102000002322 Egg Proteins Human genes 0.000 claims 1
- 108010000912 Egg Proteins Proteins 0.000 claims 1
- 125000003275 alpha amino acid group Chemical group 0.000 claims 1
- 235000014103 egg white Nutrition 0.000 claims 1
- 210000000969 egg white Anatomy 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 239000011159 matrix material Substances 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 5
- 229930182817 methionine Natural products 0.000 description 5
- 108010064886 beta-D-galactoside alpha 2-6-sialyltransferase Proteins 0.000 description 4
- 235000013601 eggs Nutrition 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 210000004885 white matter Anatomy 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 108010001515 Galectin 4 Proteins 0.000 description 2
- 102100039556 Galectin-4 Human genes 0.000 description 2
- 238000001819 mass spectrum Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 108090000141 Sialyltransferases Proteins 0.000 description 1
- 102000003838 Sialyltransferases Human genes 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了一种构建蛋白质组数据库的方法,该方法包括步骤:接收多个蛋白序列;消除每个蛋白序列的起始氨基酸,获得相应的截断序列;建立数据表,以获得蛋白质组数据库,数据表包含多个记录,一个所述记录与一个所述截断序列对应,数据表包含多个字段,字段包括以下序列参数中的至少两种:氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点。本发明还公开一种蛋白质组数据库、蛋白质组数据库在蛋白质分组、检索和/或定位中的用途、一种定位蛋白的方法和系统。本发明的方法和/或蛋白质组数据库建立了蛋白的坐标系统,利于简单高效利用蛋白质大数据。
Description
技术领域
本发明涉及生物信息领域,具体的,本发明涉及构建蛋白质组数据库的方法、蛋白质组数据库、蛋白质组数据库在蛋白质分类和/或检索定位中的用途、定位蛋白的方法、定位蛋白的系统、蛋白的分类方法及系统。
背景技术
蛋白质是生命功能的执行者和生命活动的直接体现者。随着四千多个物种全基因组序列测定的完成,基因组研究的战略重点从结构基因组学转向功能基因组学,蛋白质组学正是功能基因组研究的重要支柱,是后基因组时代生命科学研究的核心内容之一。蛋白质组学对蛋白质的功能分析、鉴定及其翻译后修饰的研究,将会对阐明基因的功能起到极大的推动作用,并能更加客观准确地揭示生命现象。
质谱(MS)为基础来分析蛋白质组的鸟枪法是非常强大的方法,但是鸟枪法这样的策略在很大程度上依赖于完整的蛋白质组数据库,通常使用数据库检索算法进行蛋白质的鉴定。目前,全蛋白质组数据库中的大部分蛋白质序列是来源于预测全基因组和转录组序列中的蛋白质编码基因得到的注释结果,只有部分蛋白质具有实验证据的支持。随着实验数据的积累和预测注释的改进,蛋白质数据库不断更新且日趋完善其完整性和准确性,但是依然不能反映全蛋白质组的全部信息。
发明内容
本发明的目的之一在于构建一种蛋白质组数据库。发明人基于以下发现和认识而作出本发明:
蛋白质分子的疏水性(Hydrophobicity),等电点(PI),序列长度和分子量等理化特性只依赖于蛋白质氨基酸组成,与蛋白质序列信息无关,这些理化特性被认为是蛋白质氨基酸组成相关的理化特性。这些特性值可以从一个线性氨基酸序列推算出。蛋白质氨基酸组成和氨基酸组成衍生的理化特性,已被广泛用于预测蛋白质结构和功能分类,蛋白–蛋白相互作用和蛋白质亚细胞定位。
蛋白质组学获得和鉴定低丰度蛋白是一个巨大的挑战。例如,双向电泳方法有一定的局限性:它很难分析出非常酸性的,碱性的,小的,大的和疏水性的蛋白质。完全测序的四千多个蛋白序列构成的全蛋白质组可提供丰富的生物信息来指导未来的生物研究,但是本领域普通技术人员无法应对含有几千至几万条蛋白序列的全蛋白质组的大数据挑战,所以目前全蛋白质组的数据应用并不广泛。
因而,构建蛋白质组数据库,建立全蛋白质组的坐标系统,实现对含有几千、几万甚至更多条蛋白序列的全蛋白质组的大数据进行有序化管理,实现对蛋白质组的蛋白质序列的理化特性有序化组织,成为促进蛋白质组学的发展的一种强烈需要。
依据本发明的第一方面,本发明提供一种构建蛋白质组数据库的方法,该方法包括以下步骤:接收多个蛋白序列;消除每个所述蛋白序列的起始氨基酸,获得相应的截断序列;建立数据表,以获得所述蛋白质组数据库,所述数据表包含多个记录,一个所述记录与一个所述截断序列对应,所述数据表包含多个字段,所述字段包括以下序列参数中的至少两种:氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点,所述氨基酸丰度包括以下至少之一:Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。利用该方法构建蛋白质组数据库时,不限制接收的蛋白序列的数目,即不限制所构建的蛋白质组数据库包含的序列数目,较佳的,接收的蛋白序列为几十条、几百条、几千条或者几万条,或者更多。消除接收的每个蛋白序列的起始氨基酸,例如消除每个真核生物蛋白序列一般都有的起始甲硫氨酸,获得相应的甲硫氨酸截断序列(M-truncated sequence,MTS),真核生物或者原核生物的蛋白一般都具有相同的起始氨基酸。这样,消除原始数据的共性,基于接收数据的差异进行数据库构建,利于蛋白质组数据库构建,也利于构建得的数据库用于蛋白定位和/或分类。
依据本发明的第二方面,本发明提供一种蛋白质组数据库,其根据上述本发明一方面的构建蛋白质组数据库的方法构建获得。该蛋白质组数据库,其数据表的字段为蛋白序列本身固有的理化性质指标。将数据表作为坐标系统,其各个记录即每条蛋白序列都以其理化性质参数数值作为坐标,方便对所包含的蛋白序列的组织、批量操作处理。该蛋白质组数据库,能够承载几十、几百、几千、几万甚至更多的蛋白序列信息,使得能够在多维空间中对一个全蛋白质组含有几千至几万条甚至更多的蛋白序列实现定位和/或分类。
依据本发明的第三方面,本发明提供上述本发明一方面的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。
依据本发明的第四方面,本发明提供一种定位蛋白的方法,其根据所述蛋白的序列参数在上述本发明一方面的蛋白质组数据库中的位置,以实现所述定位,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
依据本发明的第五方面,本发明提供一种定位蛋白的系统,该系统能够实现上述本发明一方面的定位蛋白的方法的全部或部分步骤,该系统包括:输入装置,用以输入所述蛋白的序列参数;输出装置,用以输出所述蛋白的定位信息;以及本发明一方面提供的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述定位,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
依据本发明的第六方面,本发明提供一种对蛋白进行分类的方法,其根据每个所述蛋白的序列参数在本发明一方面提供的蛋白质组数据库中的位置,以实现所述分类,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
依据本发明的第七方面,本发明提供一种对蛋白进行分类的系统,其能够用于实施上述本发明一方面的蛋白分类方法的全部或部分步骤,该系统包括:输入装置,用以输入各个蛋白的序列参数;输出装置,用以输出所述蛋白的分类信息;以及上述本发明一方面提供的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述分类,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
上述涉及的蛋白质组数据库,是基于发明人提出的利用蛋白序列本身固有的理化性质指标作为坐标系统,使每个蛋白序列的理化性质参数成为其的坐标参数,从而构建获得的。构建的蛋白质组数据库能够方便的对其中的蛋白序列进行批量操作处理,例如,依据数据表中的任一字段和/或序列信息,实现对蛋白的检索定位和/或分类分组。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明的一个实施例中的构建蛋白质组数据库的方法的流程图。
图2是本发明的一个实施例中的蛋白质组数据库的部分结构和组成的示意图。
图3是本发明的一个实施例中的在蛋白质组数据库中利用蛋白名字进行排序聚类,α-2,8-唾液酸转移酶8家族的蛋白成员的分布情况示意图。
图4是本发明的一个实施例中的在蛋白质组数据库中利用MTS序列进行排序聚类,α-2,8-唾液酸转移酶8家族的蛋白成员的分布情况示意图。
具体实施方式
根据本发明的一个实施例,提供一种构建蛋白质组数据库方法,如图1所示,该方法包括以下步骤:
S10接收多个蛋白序列。
进行S10时,不限制接收的蛋白序列的数目,即不限制所构建的蛋白质组数据库包含的序列数目,较佳的,接收的蛋白序列为几十条、几百条、几千条或者几万条,或者更多。根据本发明的一个实施例,原始数据来自包含蛋白序列的数据库,例如下载来自UniProt(Universal Protein)数据库的全部蛋白序列,UniProt是资源最广的蛋白质数据库,它整合了Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据。
S20消除每个蛋白序列的起始氨基酸,获得对应的截断序列。
消除S10接收的每个蛋白序列的起始氨基酸,例如消除每个真核生物蛋白序列一般都有的起始甲硫氨酸,获得相应的甲硫氨酸截断序列(M-truncated sequence,MTS)。真核生物或者原核生物的蛋白一般都具有相同的起始氨基酸。这样,消除原始数据的共性,基于接收数据的差异进行数据库构建,利于蛋白质组数据库构建,也利于构建得的数据库用于蛋白定位和/或分类。
S30建立数据表,以获得蛋白质组数据库。
数据表的建立可以利用现有软件程序,例如利用EXCEL、FoxTable等。使所建的数据表包含多个记录,一个所述记录与一个所述截断序列对应,所述数据表包含多个字段,所述字段包括以下序列参数中的至少两种:氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点,所述氨基酸丰度包括以下至少之一:Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。
根据本发明的一些实施例,所建数据库的数据表的字段包括所列序列参数中的三种、四种或者全部五种;较佳的,数据表的字段还包括蛋白名称、氨基酸序列和/或蛋白登录号。如此,包含多种序列参数或者序列信息,即使得每条序列具有多个特有属性,方便对每条序列进行定位,也方便对一组具有相似属性的序列进行分类分组或者筛出。
根据本发明的一个实施例,数据表的字段包括所述序列长度,所述序列长度分为五个分量:[0,200),[200,500),[500,1000),[1000,2000)和大于等于2000aa。根据本发明的一个实施例,数据表的字段包括所述序列分子量,所述序列分子量分为五个分量:[0,23000),[23000,57500),[57500,115000),[115000,230000)和大于等于230000Da。根据本发明的一个实施例,数据表的字段包括所述序列等电点,所述序列等电点分为五个分量:[0,4.0),[4.0,6.0),[6.0,8.0),[8.0,10.0)和大于等于10.0。根据本发明的一个实施例,数据表的字段包括所述序列疏水性,所述序列疏水性分为五个分量:小于-1.0,[-1.0,-0.5),[-0.5,0.0),[0.0,0.5)和大于等于0.5。根据本发明的一个实施例,数据表的字段包括所述氨基酸丰度,包括所列20中氨基酸的丰度,所述氨基酸丰度分为五个分量:[0.0,0.05),[0.05,0.1),[0.1,0.15),[0.15,0.20)和[0.20,1]。如此,数据库包含多种序列参数或者序列信息,即使得每条序列具有多个特有属性,而且每个属性具有多个分量,方便对每条序列进行准确定位,也方便对一组具有一个或多个相似属性/分量的序列进行分类分组或者一次性筛出。
根据本发明的一个实施例,提供一种蛋白质组数据库,其根据上述本发明一方面的构建蛋白质组数据库的方法构建获得。该蛋白质组数据库,其数据表的字段为蛋白序列本身固有的理化性质指标。将数据表作为坐标系统,其各个记录即每条蛋白序列都以其理化性质参数数值作为坐标,方便对所包含的蛋白序列的组织、批量操作处理。该蛋白质组数据库,能够承载几十、几百、几千、几万甚至更多的蛋白序列信息,使得能够在多维空间中对一个全蛋白质组含有几千至几万条甚至更多的蛋白序列实现定位和/或分类。
根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括氨基酸丰度,所述数据表的记录按照所述氨基酸丰度的大小排布,例如,每个截断序列按照其Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度中的一个或几个进行排序聚类。如此,使该蛋白质组数据库能够依据序列的任一种或者任几种氨基酸丰度对蛋白进行定位和/或对一组蛋白进行分组分类。
根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括序列等电点,数据库的记录按照所述序列等电点的大小排布。根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括序列疏水性,数据库的记录按照所述序列疏水性的大小排布。根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括序列分子量,数据库的记录按照所述序列分子量的大小排布。根据本发明的一些实施例,蛋白质组数据库中的数据表的字段包括蛋白质名称,数据库的记录按照所述蛋白质名称的字母顺序排布。如此,数据库的记录以某个序列参数值聚类分布,利于具有相同或相近的序列参数属性的蛋白聚类、分组和定位。
上述涉及的蛋白质组数据库,是基于发明人提出的利用蛋白序列本身固有的理化性质指标作为坐标系统,使每个蛋白序列的理化性质参数成为其的坐标参数,从而构建获得的。构建的蛋白质组数据库能够方便的对其中的蛋白序列进行批量操作处理,例如,依据数据表中的任一字段和/或序列信息,实现对蛋白的检索定位和/或分类分组。
根据本发明的一些实施例,提供上述本发明任一实施例中的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。上述对蛋白质组数据库的优点和技术特征的描述,同样适用该用途,在此不再赘述。
根据本发明的一个实施例,提供一种定位蛋白的方法,其根据所述蛋白的序列参数在上述本发明任一实施例中的蛋白质组数据库中的位置,以实现所述定位,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待定位蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位找到该蛋白记录。本领域技术人员可以理解,上述对蛋白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
根据本发明的一个实施例,提供一种定位蛋白的系统,该系统能够实现上述本发明任一实施例中的定位蛋白的方法的全部或部分步骤,该系统包括:输入装置,用以输入所述蛋白的序列参数;输出装置,用以输出所述蛋白的定位信息;以及上述本发明任一实施例中的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述定位,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待定位蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位找到该蛋白记录。上述对蛋白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
根据本发明的一个实施例,提供一种对蛋白进行分类的方法,其根据每个所述蛋白的序列参数在上述本发明任一实施例中的蛋白质组数据库中的位置,实现所述分类,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待分类蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位该蛋白记录所属类别。上述对蛋白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
根据本发明的一个实施例,提供一种对蛋白进行分类的系统,其能够用于实施上述本发明任一实施例中的蛋白分类方法的全部或部分步骤,该系统包括:输入装置,用以输入各个蛋白的序列参数;输出装置,用以输出所述蛋白的分类信息;以及上述本发明任一实施例中的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述分类,所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。通过待分类蛋白的一个或多个序列参数值在蛋白质数据库中的位置定位该蛋白记录所属类别。上述对蛋白质组数据库的用途的优点和技术特征的描述,同样适用该方法,在此不再赘述。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。在本文中,除非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。
以下结合具体实施例对本发明的构建蛋白质组数据库的方法、蛋白质数据库及其用途等进行详细的描述。
实施例1
一个物种FASTA格式的全蛋白质组可以从通用蛋白质资源(uniprot数据库)下载(http://www.uniprot.org/proteomes/)。该示例中,从uniprot数据库下载人的全蛋白质组。全蛋白质组FASTA格式蛋白序列被转换为纯文本格式,然后通过消除起始甲硫氨酸转换成M-truncated的蛋白质序列(MTSs)。在MTSs中20个氨基酸的丰度作为蛋白质氨基酸组成值。MTSs上氨基酸的丰度,序列长度(sequence length,SL),分子量(molecular weight,MW)的值和蛋白质的注释由R统计编程语言从全蛋白质组中提取。各MTSs的疏水性(Hydrophobicity)和等电点(PI)值可以使用propas软件(Wu,S.and Zhu,Y.(2012)ProPAS:standalone software to analyze protein properties.Bioinformation,8,167-169.)和/或在线服务器Compute pI/Mw tool(http://web.expasy.org/compute_pi/)计算获得。
一个蛋白质MTS序列中20个氨基酸的丰度、序列长度(SL),分子量的值(MW)、等电点值(PI)、疏水性(Hydrophobicity,HP)、蛋白质名字(name)、蛋白质登录号码等信息和MTS序列被插入在电子表格(Spreadsheet)相应的行(列)的不同单元格内。全蛋白质组所有蛋白质MTSs的20个氨基酸的丰度、序列长度、分子量的值、等电点值、疏水、蛋白质名字、蛋白质登录号码等信息和MTS序列数据分别按相同性质的数据插入在电子表格中同一列(行)的不同单元格内,不同性质的数据被分别插入在电子表格中不同的列(行)内。这样,一个物种全蛋白质组所有蛋白质MTSs的20个氨基酸的丰度、序列长度、分子量的值、等电点值、疏水性、蛋白质名字、蛋白质登录号码等信息和MTS序列等数据在电子表格内组成一个数据矩阵,发明人称其为HICL表,即建立了数据表,获得所称的蛋白质组数据库。图2是所建数据库的截图,示意数据库的部分组成和结构。表1显示数据库包含的各个字段,即各序列参数,包括氨基酸丰度(AAC)、序列长度(SL)、分子量(MW)、等电点(PI)以及疏水性(HP)各自的五个分量(groupⅠ-Ⅴ)的范围。表2显示人全蛋白质组中的蛋白在各个分量中的数目分布情况。
表1
列(字段) | groupⅠ | groupⅡ | groupⅢ | groupⅣ | groupⅤ |
AAC | 0.0-<0.05 | 0.05-<0.1 | 0.1-<0.15 | 0.15%-<0.20 | ≥0.20 |
SL | 0-<200 | 200-<500 | 500-<1000 | 1000-<2000 | ≥2000 |
MW | 0-<23kd | 23kd-<57.5kd | 57.5kd-<115kd | 115kd-<230kd | ≥230kd |
pI | 0-<4.0 | 4.0-<6.0 | 6.0-<8.0 | 8.0-<10.0 | ≥10.0 |
HP | -<-1.0 | -1.0-<-0.5 | -0.5-<0.0 | 0.0-<0.5 | ≥0.5 |
表2
列分量 | groupⅠ | groupⅡ | groupⅢ | groupⅣ | groupⅤ |
Ala丰度 | 15993 | 40795 | 9427 | 1344 | 352 |
Cys丰度 | 61961 | 5218 | 543 | 74 | 115 |
Asp丰度 | 40171 | 26228 | 1292 | 170 | 50 |
Glu丰度 | 19625 | 38162 | 8435 | 1345 | 344 |
Phe丰度 | 52084 | 15021 | 726 | 60 | 20 |
Gly丰度 | 19763 | 39264 | 7437 | 1004 | 443 |
His丰度 | 62991 | 4740 | 158 | 17 | 5 |
Ile丰度 | 44232 | 22479 | 1115 | 72 | 13 |
Lys丰度 | 30640 | 31115 | 5209 | 730 | 217 |
Leu丰度 | 4359 | 29812 | 27788 | 5054 | 898 |
Met丰度 | 66230 | 1601 | 69 | 9 | 2 |
Asn丰度 | 55168 | 12312 | 385 | 39 | 7 |
Pro丰度 | 27881 | 31382 | 6819 | 1364 | 465 |
Gln丰度 | 41510 | 24404 | 1716 | 205 | 76 |
Arg丰度 | 26816 | 35489 | 4681 | 722 | 203 |
Ser丰度 | 9285 | 42439 | 13399 | 2172 | 616 |
Thr丰度 | 32736 | 33031 | 1809 | 237 | 98 |
Val丰度 | 22815 | 41142 | 3660 | 245 | 49 |
Trp丰度 | 66602 | 1250 | 51 | 5 | 3 |
Tyr丰度 | 62174 | 5513 | 175 | 28 | 21 |
SL | 35926 | 19119 | 9045 | 3106 | 715 |
MW | 36762 | 18872 | 8734 | 2887 | 656 |
pI | 584 | 22680 | 15630 | 23892 | 5125 |
HP | 4678 | 21003 | 31205 | 8388 | 2637 |
实施例2
建立实施例1的包含人的全蛋白质组所有蛋白质的数据库。以蛋白质的MTS的20个氨基酸丰度和序列长度作为基本坐标,以分子量的值、等电点值和疏水性作为衍生坐标,这样,在多维空间中对一个全蛋白质组含有几千至几万条蛋白序列实现定位,每个蛋白序列的理化性质参数(坐标参数)与蛋白登录号码(坐标地址),蛋白序列(客体)和蛋白名称(客体描述)因为在电子表格内同一行(列)而进行绑定。
然后,可以利用电子表格本身具有的数据管理功能实现对全蛋白质组数据矩阵的进行操作,例如使用电子表格排序功能,对全蛋白质组数据矩阵分别以20个氨基酸丰度、序列长度、分子量的值、等电点值和/或疏水性进行排序,可以快速显示出全蛋白质组在20个氨基酸丰度、序列长度、分子量的值、等电点值和疏水性各方面的全面而详细的分布,使得很容易找到所需的含某种高丰度氨基酸的蛋白质,或者全面地分析出非常酸性的、碱性的、小的、大的和疏水性的蛋白质。
例如,使用电子表格排序功能,对全蛋白质组数据矩阵以蛋白质名字进行排序,一些蛋白质因为名字都以相同的字母开头的组合在一起;然后,将所有的蛋白质名称开头是相同而第二个字母也相同的组合在一起;如此下去,同一蛋白家族成员或蛋白变体通常可以组合在一起构成一簇,因为它们的名字,最初的字母是相同的。这样重新排列的数据矩阵根据蛋白质的名字的字母顺序进行排序,从而使得本领域普通技术人员能够快速地发现一些蛋白家族成员或蛋白变体的理化性质分布的细节。图3显示在该数据库中利用蛋白名字对α-2,8-唾液酸转移酶8(alpha-2,8-sialyltransferase 8)家族的蛋白成员进行排序聚类的结果。
例如,使用电子表格排序功能,对全蛋白质组数据矩阵以MTS序列进行排序,能使N端序列相同的蛋白家族成员或蛋白变体构成一簇,N端序列不相同的蛋白家族成员或蛋白变体则分散分布。图4显示在该数据库中利用MTS序列对α-2,8-唾液酸转移酶8家族进行排序聚类,该家族蛋白成员的分布情况。
也可以使用电子表格检索功能,实现对全蛋白质组数据矩阵的进行蛋白质名字和序列的检索定位,确定蛋白质名字和序列在全蛋白质组数据矩阵中分布。
综上,通过对电子表格中全蛋白质组数据矩阵的操作实现对全蛋白质组所有蛋白序列有序化操作处理,进而实现对全蛋白质组所有蛋白序列进行分组和/或检索定位。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (21)
1.一种构建蛋白质组数据库的方法,其特征在于,包括以下步骤:
接收多个蛋白序列;
消除每个所述蛋白序列的起始氨基酸,获得相应的截断序列;
建立数据表,以获得所述蛋白质组数据库,
所述数据表包含多个记录,一个所述记录与一个所述截断序列对应,
所述数据表包含多个字段,所述字段包括以下序列参数中的至少两种:氨基酸丰度、序列长度、序列分子量、序列疏水性和序列等电点,
所述氨基酸丰度包括以下至少之一:Ala丰度、Cys丰度、Asp丰度、Glu丰度、Phe丰度、Gly丰度、His丰度、Ile丰度、Lys丰度、Leu丰度、Met丰度、Asn丰度、Pro丰度、Gln丰度、Arg丰度、Ser丰度、Thr丰度、Val丰度、Trp丰度和Tyr丰度。
2.根据权利要求1所述的方法,其特征在于,所述字段包括所述序列参数中的至少三种。
3.根据权利要求1所述的方法,其特征在于,所述字段包括所述序列参数中的至少四种。
4.根据权利要求1所述的方法,其特征在于,所述字段包括全部所述序列参数。
5.根据权利要求1所述的方法,其特征在于,所述字段还包括蛋白名称、氨基酸序列和/或蛋白登录号。
6.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述序列长度,所述序列长度分为五个分量:[0,200),[200,500),[500,1000),[1000,2000)和大于等于2000氨基酸(aa)。
7.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述序列分子量,所述序列分子量分为五个分量:[0,23000),[23000,57500),[57500,115000),[115000,230000)和大于等于230000道尔顿(Da)。
8.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述序列等电点,所述序列等电点分为五个分量:[0,4.0),[4.0,6.0),[6.0,8.0),[8.0,10.0)和大于等于10.0。
9.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述序列疏水性,所述序列疏水性分为五个分量:小于-1.0,[-1.0,-0.5),[-0.5,0.0),[0.0,0.5)和大于等于0.5。
10.根据权利要求1-5任一所述的方法,其特征在于,所述字段包括所述氨基酸丰度,所述氨基酸丰度分为五个分量:[0.0,0.05),[0.05,0.1),[0.1,0.15),[0.15,0.20)和[0.20,1]。
11.一种蛋白质组数据库,其根据权利要求1-10任一所述的方法构建获得。
12.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括氨基酸丰度,所述数据表的记录按照所述氨基酸丰度的大小排布。
13.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括序列等电点,所述数据库的记录按照所述序列等电点的大小排布。
14.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括序列疏水性,所述数据库的记录按照所述序列疏水性的大小排布。
15.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括序列分子量,所述数据库的记录按照所述序列分子量的大小排布。
16.根据权利要求11所述的蛋白质组数据库,其特征在于,其中的数据表的字段包括蛋白质名称,所述数据库的记录按照所述蛋白质名称的字母顺序排布。
17.权利要求11-16任一所述的蛋白质组数据库在蛋白质分类和/或检索定位中的用途。
18.一种定位蛋白的方法,其特征在于,根据所述蛋白的序列参数在权利要求11-16任一所述的蛋白质组数据库中的位置,以实现所述定位,
所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
19.一种定位蛋白的系统,其特征在于,包括:
输入装置,用以输入所述蛋白的序列参数;
输出装置,用以输出所述蛋白的定位信息;以及
权利要求11-16任一所述的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述定位,
所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
20.一种对蛋白进行分类的方法,其特征在于,根据每个所述蛋白的序列参数在权利要求11-16任一所述的蛋白质组数据库中的位置,以实现所述分类,
所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
21.一种对蛋白进行分类的系统,其特征在于,包括:
输入装置,用以输入各个蛋白的序列参数;
输出装置,用以输出所述蛋白的分类信息;以及
权利要求11-16任一所述的蛋白质组数据库,与所述输入装置和所述输出装置相连,用以依据每个所述蛋白的序列参数在所述蛋白质组数据库中的位置,实现所述分类,
所述序列参数与所述蛋白质组数据库中的数据表的字段相对应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510448466.2A CN105117620B (zh) | 2015-07-27 | 2015-07-27 | 蛋白质组数据库及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510448466.2A CN105117620B (zh) | 2015-07-27 | 2015-07-27 | 蛋白质组数据库及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105117620A CN105117620A (zh) | 2015-12-02 |
CN105117620B true CN105117620B (zh) | 2018-03-02 |
Family
ID=54665608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510448466.2A Expired - Fee Related CN105117620B (zh) | 2015-07-27 | 2015-07-27 | 蛋白质组数据库及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105117620B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101124581A (zh) * | 2005-03-03 | 2008-02-13 | 伊利诺斯大学理事会 | 使用新的数据库检索模式鉴别和鉴定蛋白质 |
CN103810200A (zh) * | 2012-11-12 | 2014-05-21 | 中国科学院计算技术研究所 | 开放式蛋白质鉴定的数据库搜索方法及其系统 |
-
2015
- 2015-07-27 CN CN201510448466.2A patent/CN105117620B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101124581A (zh) * | 2005-03-03 | 2008-02-13 | 伊利诺斯大学理事会 | 使用新的数据库检索模式鉴别和鉴定蛋白质 |
CN103810200A (zh) * | 2012-11-12 | 2014-05-21 | 中国科学院计算技术研究所 | 开放式蛋白质鉴定的数据库搜索方法及其系统 |
Non-Patent Citations (6)
Title |
---|
Improving protein complex classification accuracy using amino acid composition profile;Chien-Hung Huang et al.;《Computers in Biology and Medicine》;20131231;第43卷(第9期);1196-1204 * |
In silico proteome-wide amino acid and elemental composition(PACE)analysis of expression proteomics data provides a fingerprint of dominant metabolic process;David M.Good et al.;《Genomics Protenmics Bioinformatics》;20130831;第11卷(第4期);219-229 * |
Nearest-neighbor classifier as a tool for classification of protein families;Chaurasiya M et al.;《Bioingormation》;20101231;第4卷(第9期);396-398 * |
WRF-TMH:predicting transmembrane helix by fusing composition index and physicochemical properties of amino acids;Maqsood Hayat et al.;《Amino acids》;20130331;第44卷(第5期);1317-1328 * |
蛋白质数据库与结构基因组;李宏等;《重庆教育学院学报》;20050531;第18卷(第3期);14-16 * |
蛋白质数据库对蛋白质组鉴定的影响;邵晨等;《中国生物医学工程学报》;20130430;第32卷(第2期);129-134 * |
Also Published As
Publication number | Publication date |
---|---|
CN105117620A (zh) | 2015-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2250595B1 (en) | Method of selecting an optimized diverse population of variants | |
Sayyari et al. | Fragmentary gene sequences negatively impact gene tree and species tree reconstruction | |
Marcus et al. | SplitMEM: a graphical algorithm for pan-genome analysis with suffix skips | |
Chindelevitch et al. | Optimizing a global alignment of protein interaction networks | |
Zuo | CVTree: a parallel alignment-free phylogeny and taxonomy tool based on composition vectors of genomes | |
Shafee et al. | A quantitative map of protein sequence space for the cis-defensin superfamily | |
Wang et al. | RTFBSDB: an integrated framework for transcription factor binding site analysis | |
CN105426700B (zh) | 一种批量计算基因组直系同源基因进化速率的方法 | |
Joshi et al. | 1001 Proteomes: a functional proteomics portal for the analysis of Arabidopsis thaliana accessions | |
Yu et al. | SANPolyA: a deep learning method for identifying Poly (A) signals | |
CN105117620B (zh) | 蛋白质组数据库及其应用 | |
Torkamaneh et al. | DepthFinder: a tool to determine the optimal read depth for reduced-representation sequencing | |
Pallavi et al. | Toxicity prediction in peptides and proteins using random forest, decision tree and logistic regression | |
Hackmann | Accurate estimation of microbial sequence diversity with Distanced | |
CN111161798A (zh) | 宏基因组的重组装方法、重组装装置及终端设备 | |
Shrinivas et al. | Multiphase coexistence capacity in complex fluids | |
Mitra et al. | Spatial Analysis of Tumor Heterogeneity Using Machine Learning Techniques | |
Kermani et al. | A state of art on biological systems modeling | |
Jing et al. | ScSmOP: a universal computational pipeline for single-cell single-molecule multiomics data analysis | |
CN113851192B (zh) | 氨基酸一维属性预测模型训练方法、装置及属性预测方法 | |
Fu et al. | LCTD: A lossless compression tool of FASTQ file based on transformation of original file distribution | |
Yadav et al. | Genetic algorithm with improved mutation operator for multiple sequence alignment | |
CN116665780A (zh) | 一种gRNA、质粒与引物设计系统 | |
Cannataro et al. | myMCL: A web portal for protein complexes prediction | |
Helmus | 32 prune. sample |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180302 |