CN101647022B - 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置 - Google Patents

描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置 Download PDF

Info

Publication number
CN101647022B
CN101647022B CN2008800031642A CN200880003164A CN101647022B CN 101647022 B CN101647022 B CN 101647022B CN 2008800031642 A CN2008800031642 A CN 2008800031642A CN 200880003164 A CN200880003164 A CN 200880003164A CN 101647022 B CN101647022 B CN 101647022B
Authority
CN
China
Prior art keywords
protein
vector
alpha
pfsc
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008800031642A
Other languages
English (en)
Other versions
CN101647022A (zh
Inventor
杨家安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mccullough Biotechnology Shanghai Co ltd
Original Assignee
MAIKERO MEDICINE TECHNOLOGY (WUHAN)CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MAIKERO MEDICINE TECHNOLOGY (WUHAN)CO Ltd filed Critical MAIKERO MEDICINE TECHNOLOGY (WUHAN)CO Ltd
Publication of CN101647022A publication Critical patent/CN101647022A/zh
Application granted granted Critical
Publication of CN101647022B publication Critical patent/CN101647022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置。本发明的系统方法可以具体表达在计算机和任何一种可以运作该方法步骤的仪器中。系统方法涵盖单个或者多个蛋白质片段,单个或者多个完整的蛋白质,一对或者多对蛋白质的比较,以及理论预测或者实验测试的蛋白质。因此,本发明的方法可以应用于任何计算机和计算机芯片来执行有关蛋白质及其片段的构象的分析,以及在制备用于与蛋白质折叠或错误折叠有关的疾病的检测或治疗药物中的应用。

Description

描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置
预先声明
该项专利在向世界专利合作条约(PCT)申请之前,二零零七年一月三十一日申请美国专利的临时申请60/898,529,二零零七年十一月二十三日申请美国专利临时申请61/004,094,以及二零零八年一月二十九日申请美国专利临时申请61/062,775。
技术领域
本发明涉及生物技术,具体涉及描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置。
背景技术
虽然蛋白质的三维结构在原子水平上能够通过晶体结构X-射线衍射、核磁共振光谱或者计算机模拟方法得到原子坐标,然而描述蛋白质的折叠形状仍然是一个具有挑战性的课题。在蛋白质折叠结构中,部分片段的构形是由氢键形成的a螺旋和β折叠片。然而,蛋白质其它片段的构形通常是那些很难确认和描述的无规则的盘绕、卷曲以及其它构形。
迄今为止,关于蛋白质结构比较的各种方法都是采用二级结构对齐方法。例如,Dali(参阅Holm L,Sander C.,J.Mol.Biol.,1993a;233:123-138),STRUCTAL(参阅Gerstein M,Levitt,M.In Proc.Fourth Int.Conf.on Intell.Sys.for Mol.Biol.MenloPark,CA:AAAI Press.1996.p 59-67.),VAST(参阅Gibrat JF,Madel T,Bryant SH.Curr.Opin.Struct.Biol.1996;6:377-385.),LOCK(参阅Singh AP,Brutlag DL.InProc.Fifth Int.Conf.on Intell.Sys.for Mol.Biol.Menlo Park,CA:AAAI Press.1997.p284-293.),3DSearch(参阅Singh A,Brutlag D.3dSearchhttp://gene.stanford.edu/3dSearch.),CE(参阅Shindyalov IN,Bourne PE.Protein Eng.1998;11(9):739-47.),SSM(参阅Krissinel E,Henrick K,Acta Crystallogr D BiolCrystallogr.2004;60(Pt 12Pt 1):2256-2268.),PALI(参阅Balaji S,Sujatha S,KumarSSC,Srinivasan,N.PALI,NucleicAcids Res.2001;29:61-65.)。上述方法均列于参考文献中。另外,蛋白质的结构分类和存储已由SCOP和CATH数据库实现(参阅ParkJH,Ryu SY,Kim CL,Park IKJ.,Genome Informatics 2001;12:350-351;and Hadley C,Jones DT.Structure 1999;7(9):1099-112)。
蛋白质折叠研究中颇具有挑战性的是要求描述和比较所有可能的折叠片段。目前估计有四千种可能的蛋白质折叠类型,其中大约二千种已经知道存在于天然蛋白质(参阅Govindarajan S,Recabarren R,Goldstein RA.,Proteins.1999;35(4):408-414)。由于大量的非天然蛋白质和较少出现的折叠类型存在,想要得到一个能够包容全部蛋白质折叠类型的数据库是困难的。对蛋白质折叠与构象的缺乏了解激发了许多技术方法的研发。
例如,Skolnick等人的美国专利US Pat.No.5,265,030,是应用氨基酸序列来确定蛋白质三级结构的一种方法。该项专利的专门考虑用非制约片段的支链,并且追踪其从非折叠状态到完全折叠的状态。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。
Rose等人的美国专利No.5,680,319,是应用计算机方法从氨基酸序列来预测蛋白质片段的三维结构。该方法从一个确定的多肽链出发推演到整个构形,采用理想化的几何构形和极为简单的能量公式来折叠蛋白质,达到预测二级和超二级结构的目的。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。
Edgecombe等人的美国专利No.6,345,235和6,516,277,是直接从一个体积中确定实际的多维拓扑表述。该方法专门利用范德华(van der Waals)表面、静电势能和电子密度来得到分子形状和蛋白质的结构信息。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。
Eisenberg等人的美国专利No.6,512,981,是利用计算机的方法探索氨基酸序列和已知三维结构关系。该方法特别之处是利用氨基酸序列,氨基酸序列衍生的二级结构和溶剂亲合力性能计算出结构对齐的分数。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。
Hansen等人的美国专利No.6,792,355,是一种利用分解多肽片段的方法,通过氨基酸规则序列比较来构建一个距离排列,依此决定两个氨基酸序列的规则。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。
Floudas等人的美国专利No.6,832,162,是采用力场模型以从头算方法预测蛋白质的二级和三级结构。该方法计算每五个肽的低能构象,然后调整体系自由能。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。
McRee等人的美国专利No.7,158,888,是利用晶体结构X-射线衍射数据来确定象蛋白质这样的生物分子结构。该方法特别之处在于通过多个分子替换和X-射线数据比对来确定目标分子的结构。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。
Harbury等人的美国专利No.7,288,382,是一个描述配位体结合点以及蛋白质和蛋白质相互作用的分析方法。该项专利特别采用掺入半胱氨酸来修饰蛋白质作为判断。该项专利并没有采用相邻五个氨基酸的二面角和伸展距离来描述蛋白质的折叠构形。
综上所诉,这些传统的方法还无法令人满意的描述蛋白质折叠和构象。所以,确实需要一种方法能够描述蛋白质所有可能的折叠类型。同时也需要一个新的数学模型来比较不同蛋白质的折叠或同一蛋白质的不同构象。
发明内容
本发明提供了关于蛋白质及其片段的构象的分析、预测和描述的一个完整系统方法,数学模型和应用。本发明的系统方法可以具体表达在计算机和任何一种可以运作该方法步骤的仪器中。系统方法涵盖单个或者多个蛋白质片段,单个或者多个完整的蛋白质,一对或者多对蛋白质的比较,以及理论预测或者实验测试的蛋白质。因此,本发明的数学模型的可以应用于任何计算机和计算机芯片来执行有关蛋白质及其片段的构象的分析、预测和描述。
通常对于蛋白质序列的公认表述是从N-端到C-端。然而,本发明的数学模型也可以实际从C-端到N-端描述蛋白质序列。
具体来说,本发明的方法中有五个重要步骤。这五个步骤具体表述如下。步骤A,取蛋白质中每五个连续的氨基酸作为一个基本单元。这里只考虑每个氨基酸的α-碳原子。步骤B,计算每一个基本单元中的第一个二面角,该二面角是第一,第二和第三个氨基酸决定的第一个平面以及第二,第三和第四个氨基酸决定的第二个平面之间的平面夹角。该二面角的角度大小一定属于a1,a2或者a3所确定的角度范围之一。步骤C,计算每一个基本单元中的第二个二面角,该二面角是第二,第三和第四个氨基酸决定的第一个平面以及第三,第四和第五个氨基酸决定的第二个平面之间的平面夹角。该二面角的角度大小一定属于b1,b2或者b3所确定的的角度范围之一。步骤D,计算由第一和第五个氨基酸之间决定的的伸张距离。该伸张距离的大小数值一定属于c1,c2或者c3所确定的的距离范围之一。步骤E是依据步骤B,步骤C和步骤D所得到的数值确定需要描述的五个连续的氨基酸的基本单元的向量。
本发明的方法实质就是连续执行蛋白质折叠码的数学模型推演出来的有关各步骤。本发明的一个显著的特点是每两个连续的五个连续的氨基酸的基本单元有四个氨基酸是相互重叠的。因此,本发明的运算规则是依次地计算每五个连续的氨基酸的基本单元,得到蛋白质的构象。值得注意的要点是,每两个相邻的五个连续的氨基酸的基本单元共有一个平面。第一基本单元的第二个平面和第二基本单元的第一个平面共面。
在本发明的数学模型和应用中,考虑到五个连续的氨基酸中的第三氨基酸的碳原子位于每一个基本单元的中心,因此,每一个基本单元的功能性质被指派给这个中心碳原子。在本发明的数学模型和应用中,因为中间氨基酸代表每五个连续的氨基酸的基本单元,因此第一个α-碳原子标记为(n-2),第二个α-碳原子标记为(n-1),第三个α-碳原子标记为(n),第四个α-碳原子标记为(n+1),第五个α-碳原子标记为(n+2)。
依据本发明的数学模型的特点,本发明的方法依次序评估分析和描述蛋白质中每五个连续的氨基酸的基本单元。具体地说,依次定义每五个连续的氨基酸的基本单元是该方法中的步骤F。定义第二个基本单元就是重复前面第一步骤。在第二个基本单元中的第一个氨基酸实质是在第一个基本单元中的第二个氨基酸,在第二个基本单元中的第二个氨基酸实质是在第一个基本单元中的第三个氨基酸,在第二个基本单元中的第三个氨基酸实质是在第一个基本单元中的第四个氨基酸,在第二个基本单元中的第四个氨基酸实质是在第一个基本单元中的第五个氨基酸,在第二个基本单元中的第五个氨基酸实质是向前移动一位的氨基酸。采取类似其它以前步骤,计算每一个氨基酸的α-碳原子。
接着是本发明的步骤G。其实质是重复步骤B来计算第二个五个连续的氨基酸的基本单元的第一个二面角。该二面角是第二个基本单元的第一,第二和第三个氨基酸决定的第一个平面以及第二,第三和第四个氨基酸决定的第二个平面之间的平面夹角。该二面角的角度大小一定属于a1,a2或者a3所确定的角度范围之一。然后是步骤H,其实质是重复步骤C来计算第二个五个连续的氨基酸的基本单元的第二个二面角。该二面角是第二个基本单元的第二、第三和第四个氨基酸决定的第一个平面以及第三、第四和第五个氨基酸决定的第二个平面之间的平面夹角。该二面角的角度大小一定属于b1,b2或者b3所确定的的角度范围之一。然后是步骤I,其实质是重复步骤D来计算第二个的基本单元的中由第一和第五个氨基酸之间决定的的伸展距离。该伸展距离的大小数值一定属于c1,c2或者c3所确定的的距离范围之一。然后是步骤J,其实质是重复步骤E,依据步骤G,步骤H和步骤I所得到的数值确定需要描述的第二个五个连续的氨基酸的基本单元的向量。
本发明的方法和过程可以运用于整个蛋白质。因此,连续重复步骤A,B,C,D和E,可以使每一个相邻的基本单元相互重叠,进而将得到一组向量来描述蛋白质构形。重复运用步骤A,B,C,D和E结果使蛋白质构形得到完全描绘。
本发明的方法数学模型,以一组向量描述蛋白质的所有可能的构象。无论蛋白质结构是实际存在的还是理论计算得到的都可以用本方法来描述。在本发明中所指的蛋白质构象是指蛋白质的三维结构。
本发明的方法就是采用连续的基本单元来描述蛋白质,因此得到一组向量来表述蛋白质构形。
本发明中一个明显的考虑是如何定义两个二面角的范围的重叠性和排他性。例如,第一个二面角的范围的第一区域是从0°到130°,第二区域从+130°到-130°,第三区域从-130°到0°。在另外考虑中,第一区域是从0°到130°,第二区域从+130°到-130°,第三区域从-130°到0°。第二个二面角的范围的第一区域是从0°到130°,第二区域从+130°到-130°,第三区域从-130°到0°。在另外考虑中,第一区域是从0°到130°,第二区域从+130°到-130°,第三区域从-130°到0°。
本发明中对于定义伸展距离的范围三个区域也有所考虑。例如,第一区域是从零到
Figure G2008800031642D00051
第二区域是从
Figure G2008800031642D00053
第三区域大于
Figure G2008800031642D00054
在另外考虑中,第一区域是从零到
Figure G2008800031642D00055
第二区域是从
Figure G2008800031642D00056
Figure G2008800031642D00057
第三区域大于
Figure G2008800031642D00058
本发明的方法和数学模型根据已知数据库的计算来划分两个二面角和伸展距离的区域范围。
根据本发明的方法和数学模型,蛋白质中的基本重叠构形可以用本发明的的二十七个蛋白质折叠形状码的其中一个来描述。在图6的模型显示,向量D的三个分量是a1,b1和c1;向量A的三个分量是a1,b1和c2;向量H的三个分量是a1,b1和c3;向量W的三个分量是a1,b2和c1;向量V的三个分量是a1,b2和c2;向量U的三个分量是a1,b2和c3;向量Z的三个分量是a1,b3和c1;向量Y的三个分量是a1,b3和c2;向量X的三个分量是a1,b3和c3;向量K的三个分量是a2,b1和c1;向量J的三个分量是a2,b1和c2;向量I的三个分量是a2,b1和c3;向量G的三个分量是a2,b2和c1;向量B的三个分量是a2,b2和c2;向量E的三个分量是a2,b2和c3向量T的三个分量是a2,b3和c1;向量S的三个分量是a2,b3和c2;向量R的三个分量是a2,b3和c3;向量Q的三个分量是a3,b1和c1;向量P的三个分量是a3,b1和c2;向量O的三个分量是a3,b1和c3;向量N的三个分量是a3,b2和c1;向量M的三个分量是a3,b2,和c2;向量L的三个分量是a3,b2和c3;向量$的三个分量是a3,b3和c1;向量C的三个分量是a3,b3和c2;向量F的三个分量是a3,b3和c3
本发明的方法和数学模型各步骤可以采用计算机系统来描述蛋白质构形。例如步骤A,B,C,D和E可以用来处理各种数据库。本发明可以连接任何能提供满足本数学模型所需参数的数据库。这些数据库包括各种全球公开的共享蛋白质数据库和专有蛋白质数据库。
本发明的方法和数学模型有关的各A,B,C,D和E步骤可以提供固定格式,采用数字化运作过程或者存储存于媒介中。例如,本发明的方法和数学模型各步骤可以整体地或者分别用计算机处理和存储其有关数据。具体来说,本发明的方法和数学模型的应用可以通过计算机模型来表示。进一步,本发明的方法和数学模型各步骤可以通过计算机网络或网页来执行。
本发明的方法和数学模型以及计算过程中的另外一个特点是提供了一个按照蛋白质氨基酸序列描述的折叠形状。显著的特点是,在步骤A中,描述的蛋白质被分割为基本单元,每一个基本单元由五个连续的氨基酸构成,每一个氨基酸由一个α-碳原子组成。在步骤B中,计算第一个二面角,第一个二面角是由五个连续的氨基酸的基本单元初始的四个α-碳原子决定的两个平面确定的。该二面角的角度大小一定属于a1,a2或者a3所确定的角度范围之一。在步骤C中,计算第二个二面角,第二个二面角是由五个连续的氨基酸的基本单元末了的四个α-碳原子决定的两个平面确定的。该二面角的角度大小一定属于b1,b2或者b3所确定的角度范围之一。在步骤D中,计算第一α-碳原子和第五α-碳原子之间的伸展距离。该伸展距离大小一定属于c1,c2或者c3所确定的距离范围之一。在步骤E中,依据步骤B,C和D计算出的数值定义该五个连续的氨基酸的向量。
重复运用本发明的方法可以也得到第二个,第三个以及接下来的各个基本单元,进而得到描述整个蛋白质的一组向量。任何蛋白质或者蛋白质片段都可以运用这些向量来描述。本发明的数学模型用一组向量来决定所要描述蛋白质的结构构形。
本发明中一个明显的考虑是如何定义两个二面角的范围的重叠性和排他性。例如,第一个二面角的范围的第一区域是从0°到130°,第二区域从+130°到-130°,第三区域从-130°到0°。在另外考虑中,第一区域是从0°到130°,第二区域从+130°到-130°,第三区域从-130°到0°。第二个二面角的范围的第一区域是从0°到130°,第二区域从+130°到-130°,第三区域从-130°到0°。在另外考虑中,第一区域是从0°到130°,第二区域从+130°到-130°,第三区域从-130°到0°。
本发明中对于定义伸展距离的范围三个区域也有所考虑。例如,第一区域是从零到
Figure G2008800031642D00071
第二区域是从
Figure G2008800031642D00072
Figure G2008800031642D00073
第三区域大于在另外考虑中,第一区域是从零到
Figure G2008800031642D00075
第二区域是从
Figure G2008800031642D00076
Figure G2008800031642D00077
第三区域大于
Figure G2008800031642D00078
本发明的方法和数学模型根据已知数据库的计算来划分两个二面角和伸展距离的区域范围。
本发明的方法和数学模型和体系包括运用计算机方法来描述蛋白质的折叠构形。计算机方法由下列步骤组成。(1)选择要描述的蛋白质或者其片段,(2)将蛋白质或者其片段的三维结构参数从数据库中输入计算机,(3)将蛋白质或者其片段分割为每五个氨基酸组成的基本单元,(4)按照氨基酸顺序确定每一个基本单元中的五个α-碳原子,即第一α-碳原子,第二α-碳原子,第三α-碳原子,第四α-碳原子和第五α-碳原子,(5)计算机按照运算规则计算两个相关的二面角和伸展距离。这里第一二面角是第一个平面和第二个平面决定的平面角。第一个平面是由第一,第二和第三α-碳原子决定。第二个平面是由第二,第三和第四α-碳原子决定。这里第二二面角是第二个平面和第三个平面决定的平面角。第二个平面是由第二,第三和第四α-碳原子决定。第三个平面是由第三,第四和第五α-碳原子决定。这里的伸展距离是由第一和第五α-碳原子距离决定。(6)在计算机中依据运算规则确定两个相关的的二面角和伸展距离所属地范围。第一二面角一定是属于a1,a2,和a3的三个区域之一。第二二面角一定是属于b1,b2和b3的三个区域之一。伸展距离一定是属于c1,c2和c3的三个区域之一。(7)计算机依据运算分配规则将按照基本单元的实际分量a,b和c,决定其所属的向量。
本发明的方法和数学模型和体系提供一个新方法比较两个或者多个蛋白质或者其片段。该蛋白质结构比较方法可以揭示蛋白质的结构特征。
本发明方法包括蛋白质结构比对方法,可以比较两个蛋白质可能的构象,以及比较蛋白质的实际结构和理论预测结构。
附图说明
有关图形图解是申报资料的部分说明,可以按照图解编号结合相关部分内容阅读。
图1显示一个典型的由五个α-碳原子组成的从N-端到C-端的基本单元;
图2显示本发明在基本单元中定义的两个二面角;
图3显示本发明在基本单元中定义的伸展距离;
图4显示本发明对基本单元所定义的两个二面角以及伸展距离区域的分割;α-helix:α-螺旋、γ-helix:γ-螺旋、∏-helix:∏-螺旋、δ-helix:δ-螺旋、310-helix:310-螺旋、2.27-helix:2.27-螺旋、β-strand:β-折叠
在一次具体实现中,第一二面角和第二二面角被划分到三个区间中,如0°到130°、>130°到180°和-180°到-130°,以及-130°到0°;伸展距离划分到三个区间中,如
Figure G2008800031642D00082
Figure G2008800031642D00083
Figure G2008800031642D00084
以及
Figure G2008800031642D00085
两个二面角和伸展距离的分区导致了对应不同蛋白质折叠形状码(PFSC)向量的不同折叠基元的确认。例如,折叠基元α-螺旋、β-折叠、γ-螺旋和∏-螺旋、δ-螺旋,以及310螺旋和2.27螺旋对应到五个不同的区域中。
图5显示本发明定义的二十七个蛋白质折叠形状码;
二十七个蛋白质折叠形状码(PFSC)向量包含三个块,每个块有九个向量。这三个块表示三个伸展距离值的区间,每个块中的九个向量表示九个折叠形状模式。每个向量可同时表现为一个字符、一个折叠形状模式和一个箭头,以象征N-端和C-端的折叠特征。使用箭头标志,“α”表示末端的一个α-螺旋的折叠特征,“β”表示末端的一个β-折叠的折叠特征,“*”表示末端的一个随机盘绕的折叠特征。
图6显示本发明定义的二十七个蛋白质折叠形状码之间的相互关系。三个水平层表示代表三个伸展距离值的区间,每个水平层的九个向量表示每个第一、第二二面角划分到三个区间。因此,每个垂直层的九个向量属于同一个二面角区间。这里ai指示第一二面角,bj指示第二二面角,ck指示一个单元中第一和第五α-碳原子之间的伸展距离。
图7对本发明的蛋白质折叠形状码和蛋白质数据库对二级结构认定进行比较,这是对用PFSC和PDB数据作者(PDB方法)进行二级结构认定的两种方法的比较。(A)为对用于蛋白质1ECA四个片段α-螺旋认定结果的比较;(B)为对用于蛋白质1AAJ四个片段β-折叠认定结果的比较。每个片段标以氨基酸编号。PFSC结果显示为大写字母,而PDB方法的结果显示为小写字母。有下划线的PFSC向量表示二级结构中的断裂,这在PDB方法中并未见到。
图8显示20个大肠杆菌(E.coli)谷氧还蛋白(1EGO)氧化形式的蛋白质同构体的三维结构重叠。这些结构通过对齐多肽骨架上的氮原子、α-碳原子和羧碳原子而进行叠加。
图9展示二十七个蛋白质折叠形状码在SALIGN基准数据库测试中出现的频率;
横轴表示二十七个PFSC向量,每个纵轴条状图上的数值表示对应的SALIGN基准数据库的268个蛋白质链PFSC向量出现的频率。
图10展示对于蛋白质1DOI,利用本发明的提供的可及蛋白质折叠表面码;APSC通过使用一个半径为的球体而得来,纵坐标为APSC:7、8、9表示朝向球面外的突出部,4、5、6表示球体表面,2和3表示球面以内,0和1表示不可及区域。
图11展示蛋白质1DOI的突出表面的氨基酸;
箭头表示半径为
Figure G2008800031642D00092
的球体表面的突出部的位置。
图12展示引起老年痴呆症的淀粉样蛋白肽(1-42)多肽的三维结构重叠;
(A)和(B)是PDB码为1z0q的蛋白质的条带视图和碳骨架视图。(C)和(D)是1iyt的蛋白质的条带视图和碳骨架视图。三维结构由核磁共振光谱确定。1z0q的结构是六氟异丙醇(HFIP)/水30∶70(体积比)混合水溶液中30个构象异构体的结果,而1iyt的结构则是HFIP/水80∶20(体积比)混合水溶液中10个构象异构体的结果。
图13展示30个1Z0Q蛋白质同构体的蛋白质折叠形状通用统计映象;
PFSC:蛋白质折叠形状码、Sequences:蛋白质序列、Fragment:片段UPFSM显示了蛋白质1z0q在六氟异丙醇(HFIP)/水30∶70(体积比)混合水溶液中30个构象异构体的PFSC向量的分布。
图14展示10个1IYT蛋白质同构体的蛋白质折叠形状通用统计映象。
PFSC:蛋白质折叠形状码、Sequences:蛋白质序列、Fragment:片段UPFSM显示了蛋白质1iyt在六氟异丙醇(HFIP)/水80∶20(体积比)混合水溶液中30个构象异构体的PFSC向量的分布。
本发明的详细说明
关于测定和预测蛋白质结构的各种方法,主要集中在理解蛋白质和其片段的折叠组合构形。尽管这些方法相互关联,它们仍可分为五个方面。(1)热力学表述,涉及能量计算、动力学模拟计算及其他类似方法;(2)结构的几何构形表述,通过晶体结构X-射线衍射,核磁共振及其他类似方法测定的;(3)结构的几何构形预测,通过氨基酸序列的同系物特征来预测类似已知或未知的蛋白质结构;(4)采用几何表述方法分析和比较蛋白质结构;(5)利用数据库和相关算法来分析研究蛋白质结构与生化功能的关系。
本发明的蛋白质折叠形状码的方法和数学模型一般来说涉及到上述各种方法。更主要的是该项新方法和数学模型注重根据蛋白质或其片段的氨基酸序列的几何分析和描述方面。
蛋白质折叠形状码的方法和数学模型的另外一个优势是其可以应用到蛋白质以外体系。这里提出的方法和数学模型可以用来描述预测其他生物分子,例如核酸,碳水化合物和糖蛋白分子的三维折叠结构。本项发明的的优点就是它的方法可以作为一个描述很多有机分子的工具。
本发明主要应用于和各种药物设计和药物开发有关的生物分子和其它有机分子。这些分子作为配位体和蛋白质的相应立体空间相结合。
本发明的方法、过程和数学模型直接应用于分析和描述蛋白质的折叠构形,包括蛋白质的二级和三级折叠构形。本项发明的方法过程提供了27个向量来描述蛋白质的形状。这27个向量即是蛋白质折叠形状码。本项发明的方法称为蛋白质折叠形状码方法,本项发明的过程称为蛋白质折叠形状码过程,据其运算规则设计的计算机软件程序和算法称为蛋白质折叠形状码运算程序和蛋白质折叠形状码算法。
根据本发明的方法,二十七个蛋白质折叠形状向量可以对每五个连续的a-碳原子的可能折叠形状提供了一个完整的描述。对于任何蛋白质,只要提供已知a-碳原子的坐标,蛋白质折叠形状码运算程序就可以产生对应的蛋白质折叠形状码来描述该蛋白质的折叠构形。
和迄今为止的各种方法相比,本发明的方法、过程和数学模型对于蛋白质折叠构形的描述有很大改进。本项发明具有几个独特的特性。首先,二十七个蛋白质折叠形状向量是通过对一个封闭空间的严格数学推导得到的结果,因此二十七个蛋白质折叠形状向量具有所有可能的折叠模式,而且对蛋白质的折叠构形可以提供无间隙的描述。本发明的方法、过程和数学模型提供了一个无间隙地描述蛋白质主链α-碳原子折叠构形的方法。
第二点,二十七个蛋白质折叠形状码向量代表五个连续的α-碳原子的可能折叠图形模式。每一个蛋白质折叠形状码不仅仅是折叠形状图形,而且是一个在N-端和C-端分别具有独特的折叠特征的数学向量。本发明的二十七个蛋白质折叠形状码能够对蛋白质结构的认定提供一个有意义描述。
第三点,本发明的方法、过程和数学模型的二十七个蛋白质折叠形状码不是一组彼此孤立的折叠图形,而是一组互相关联的折叠图形。这些折叠形状码在空间中重叠并且共享某些向量特征。因此,本发明的方法、过程和数学模型能够运用相邻向量关系来分析和描述蛋白质三维折叠结构的逐渐变化和突变。这就为蛋白质或者其片段的三维结构变化提供了一个有意义的解释。
第四点,本发明的方法,过程和数学模型可以应用于蛋白质和其片段结构构形的分析。本发明适用于描述不同蛋白质的相似或者非相似,以及描述同一个蛋白质的相似或者非相似。与传统方法的采用三维结构迭代和根均方差(rmsd)进行蛋白质的测量相比较,本发明的方法和数学模型提供了一个非常有用的补充工具来分析蛋白质的构形,包括对局部折叠结构的详细分析。
第五点,本发明的方法,过程和数学模型将蛋白质复杂的三维结构简化为一维的蛋白质折叠形状码表述。蛋白质折叠形状码方法对按照蛋白质主链的折叠形状给出一个数学向量描述,这就可以充分地采用计算机和数据库技术来详细描述蛋白质的折叠结构。
第六点,本发明的方法对蛋白质主链的折叠形状提供一个完整和可靠的描述。由于对局部和整体蛋白质的描述具有精确和灵敏的特征,蛋白质折叠形状码实际上提供了一个可以用来鉴定蛋白质三维折叠结构的指纹。
第七点,本发明的蛋白质折叠形状码方法数学模型可以应用于分析能够引起各种疾病的蛋白质错误折叠。从蛋白质折叠形状码进一步产生的蛋白质折叠形状通用统计映象(UPFSM)能够解释从蛋白质晶体X-射线衍射和核磁共振光谱数据有关的蛋白质折叠和错误折叠。通用统计映象首先能够简单地将来源于不同实验的蛋白质复杂三维结构数据用一维的字母串来进行对齐,然后用二维的统计映象进行比较。采用通用统计映象可以揭示与实验条件相关的错误折叠片段的位置和类型。
第八点,本发明的方法、过程和数学模型能够确定和揭示蛋白质中由于折叠而引发的具有活性的氨基酸。将蛋白质折叠形状码向量和可及表面码序列进行对齐,可以按照蛋白质主链α-碳原子预测具有潜在活性的氨基酸。
第九点,依据本发明,所有蛋白质的已知三维结构都可以转换为一维的蛋白质折叠形状码,并且形成一个新的蛋白质折叠形状码数据库。进一步,依据本发明的方法、过程和数学模型可以构建另外一个数据库用来分析和表征任意五个氨基酸的序列和其折叠结构之间的关系。
表征五个连续氨基酸的α-碳原子的二十七个蛋白质折叠形状码
传统上五个连续氨基酸的α-碳原子的三维结构分别是用笛卡尔坐标(x,y,z)表述的。因此,表述一组五个连续氨基酸的α-碳原子需要15个变量。为了表征折叠构形,本发明的方法、过程和数学模型的采用坐标变换的过程来突出表征那些对描述五个连续氨基酸的α-碳原子的三维结构的折叠形状具有关键作用的向量分量,然后通过将整个空间分割得到二十七个蛋白质折叠形状码。蛋白质折叠形状码提供了一个全新、简易而有效的计算方法来表述蛋白质三维折叠结构。
两个关键因素决定了为什么选择五个连续氨基酸的α-碳原子来代表蛋白质折叠形状码的基本单元。首先,蛋白质典型的二级结构是由确定数目的氨基酸形成的重复构形单元。每一个二级结构重复构形的单元含有一定数目的氨基酸。这些二级结构单元的氨基酸数目是已知的。例如,β-折叠片含有两个α-碳原子,右旋或者左旋α-螺旋含有3.6个α-碳原子,2.27螺旋含有两个α-碳原子,310螺旋三个α-碳原子,δ-螺旋含有4.3个α-碳原子,π-螺旋含有4.4个α-碳原子,γ-螺旋含有5.1个α-碳原子。蛋白质折叠形状码的基本单元向量的长度应该至少跨越二级结构的重复构形单元。其次,五个连续α-碳原子氨基酸片段含有两个相互重叠的二面角。这两个二面角可以充分表征重复或者断续的折叠模式。而且,五个连续α-碳原子氨基酸片段具有简单特点和利用较少数目的变量就可以描述连续的形状。因此,本发明的方法,过程和数学模型采用五个连续氨基酸的α-碳原子作为基本单元来评估可能的折叠形状构形。对于蛋白质的折叠形状以及构形特征,五个连续氨基酸的α-碳原子作为基本单元将能够提供具有适当精确的描述和预测。
蛋白质折叠形状码的形状特征
为了描述像蛋白质和其片段的结构构形,本发明的蛋白质折叠形状码的方法,过程和数学模型考虑到运用几何学,形态学和拓扑学来表述各种可能的形状。蛋白质折叠形状码的方法实际地运用图形描述的关键方面,强调广度、唯一性、稳定性、敏感度、有效性、放大尺度和局部解读等等。因此,蛋白质折叠形状码的方法、过程和数学模型非常有益于分析蛋白质的二级和三级结构,包括有规则片段和无规则的弯曲部分。另外,本发明的蛋白质折叠形状码的方法、过程和数学模型能够提供丰富和有价值的信息来综合地描述可能的蛋白质折叠结构。
在本发明的方法和体系中,二十七个蛋白质折叠形状码是通过严格数学推演从一个封闭的空间得到的。二十七个蛋白质折叠形状码中的任何一个向量代表五个连续氨基酸的α-碳原子可能的折叠形状模式。二十七个蛋白质折叠形状码通过二十六个大写字母和“$”来表示。每一个向量实际表示一个从N-端开始到C-端结束的向量。蛋白质结构和其形状
通过一个完全封闭的三维空间中的折叠结构和形状来描述蛋白质或者其片段具有许多优势。一个物体的客观形状具体地代表了其几何信息,而其在空间的位置、测量尺度和旋转都不会影响这个客观的形状,在形状描述中无需考虑这些因素(Kendall,DG,Advances in Applied Probability,1977,9:428-430)。一个几何物体的客观形状的信息对于欧几里得空间转换是不变的(Iyer N,Jayanti S,Lou KY,Kalyanaraman Y,Ramani K.,Proceedings of the TMCE 2004,April 12-16,2004,Lausanne,Switzerland,Edited by Horváth and Xirouchakis,2004 Millpress,Rotterdam)。
一个物体的客观形状可以用变量,Si,来表示,这个变量是表示形状属性的集合:
S i = { a 1 i , a 2 i , . . . , a n i }
这里(an i)是形状属性i的分量。
两个物体的客观形状Si和Sj的相似性可以表示为
S i ~ S j = Σ m = 1 n | a m i ( d i ) ~ a m j ( d j ) |
这里di和dj代表蛋白质的坐标,“~”符号代表进行两个形状比较的运算。这里相似性应该是通过比较每一个分量的属性的结果后得到的集合。进一步,一个形状能够通过不同的表象来表示。这里不同的表象可以包括几何表象、形态表象和拓扑表象。
从蛋白质数据库中得到的三维坐标已经含有蛋白质在一个空间的完整和精确的几何信息。这些几何信息是一组点的集合。
Figure G2008800031642D00143
这里几何信息
Figure G2008800031642D00144
是一组原子集合点的形状,j是原子集合的脚标。然而,原子的坐标不能够直接地描述蛋白质的折叠结构。
为了进一步表征蛋白质折叠结构和形状特征,这里可以运用形态学方法来考虑蛋白质的类似的弯曲片段。在形态学中,蛋白质形状SM可以运用一组点的集合{Zk}表示,其分量Zk是一组点的集合Pi,因此它可以表示为
S M = ∪ k = 1 n Z k , Z k = ∪ P j ∈ Z k P j
这里k是家族集合的脚标,j是原子集合的脚标。
很多方法基于二级结构片段来研究蛋白质结构的相似,这些方法实际上是运用形态学方法来描述蛋白质折叠结构(Holm L,Sander C,J.Mol.Biol.,1993a;233:123-138;Gerstein M,Levitt,M,In Proc.Fourth Int.Conf.on Intell.Sys.for Mol.Biol.Menlo Park,CA:AAAI Press.1996.p 59-67;Gibrat JF,Madel T,BRyant SH,Curr.Opin.Struct.Biol.1996;6:377-385;Singh AP,Brutlag DL,In Proc.Fifth Int.Conf.on Intell.Sys.for Mol.Biol.Menlo Park,CA:AAAI Press.1997.p 284-293;Singh A,Brutlag D,http://gene.stanford.edu/3dSearch;Shindyalov IN,Bourne PE.Protein Eng.1998;11(9):739-47;Krissinel E,Henrick K,Acta Crystallogr D Biol Crystallogr.2004;60(Pt 12 Pt 1):2256-2268;Balaji S,Sujatha S,Kumar SSC,Srinivasan,N,NucleicAcids Res.2001;29:61-65;Park JH,Ryu SY,Kim CL,Park IKJ,Genome Informatics2001;12:350-351;Hadley C,Jones DT,Structure.1999;7(9):1099-112;Kabsch W,Sander C,Biopolymers.1983,22:2577-2637;Ridchards FM,Kundrot CE.Proteins.1988,3:71-84;Frishman D,Argos P,Proteins.1995,23:566-579;Sklenar H,EtchebestC,Lavery R,Proteins.1989,6:46-60;Labesse G,Colloc′h N,Pothier J,Mornon JP,Comput.Appl.Biosci.1997;13(3):291-5;and Martin J,Letellier G,Marin A,Taly JF,deBrevern AG,Gibrat JF,BMC Struct.Biol.2005;5:17。上述文章已收入参考文献列表)。
另外,鉴于蛋白质主链是一个拓扑客体对象,蛋白质形状可以运用拓扑学来表述。因此,蛋白质主链可以表示。由于每一个α-碳原子和其它α-碳原子具有特定的邻里关系,它是一个Hausdorff空间(Iyer N等人)。蛋白质的拓扑形状ST是同拓扑的集合ti∈ST,表述如下,
S T = ∪ i = 1 ∞ ( t i )
这里U(ti)≥0,并且它是某一个点ti邻里关系的数量值。实际上很多方法采用拓扑学方法来描述蛋白质结构(Kabsch,W,Acta Crystallo gr.A 1978;34:827-828;Holm L,Sander C,J Mol Biol.1993;5;233(1):123-38;Flower DR,Protein Eng.1998;11(9):723-7;Murzin,A.,Conte,L.L.,Andreeva,A.,Howorth,D.,Ailey,B.,Brenner,S.,Hubbard,T.,and Chothia,C,http://scop.mrc-lmb.cam.ac.uk/scop/intro.html;Pedro A.De-Alarco′n,Albeno Pascual-Montano,Amarnath Gupta,andJose M.Carazo,Biophysical Journal 83(2),2002,619-632;Lindorff-Larsen K,Vendruscolo M,Paci E,Dobson CM,NatureStructural&Molecular Biology,2004:11,443-449;Sunyaev SR,Bogopolsky GA,Oleynikova NV,Vlasov PK,Finkelstein AV,Roytberg MA,Proteins,2004:54,569-582;Carugo O,Pongor S,J.Mol.Biol.2002;315,887-898;Jung J,Lee J,Moon HT,Proteins.2005;58:389-95。以上文章已收入参考文献列表)。
总体上,最通常的方式是根据蛋白质的精确的几何信息,即其三维坐标,将蛋白质的三维结构图像展现出来。某些传统的方法运用形态学方法,通过研究二级结构和相似片段在蛋白质的重复来表征蛋白质的三维结构。其它传统的方法采用α-碳原子相连接关系,按照蛋白质的主链每一个α-碳原子所围绕的邻里环境来表征蛋白质的结构。同上述各类方法相比较,本发明的方法,过程和数学模型蛋白质折叠形状码优化地整合上述方法的各种优点,提供一个全新而简单的方法,按照蛋白质α-碳原子主链来描述蛋白质三维构形的所有可能的折叠形状。
有关表征形状的数学标准
对于研究和比较复杂的形状,一个高品质的形状描述必须满足许多研究推荐的标准。一个好的形状描述必须同时考虑如下因素:尺度,唯一性,稳定性,敏感性,有效性,尺度伸缩性和局部认定。本项发明的方法、过程和数学模型蛋白质折叠形状码方法创立了一个新的运算规则并且在数学上满足这些判断标准。
范畴:一个形状的表象必须能够描述所有可能的各种蛋白质折叠形状。蛋白质折叠形状码运用数学规则的方法提供了一个涵盖蛋白质α-碳原子主链上实际所有可能出现的折叠构形,因此蛋白质折叠形状码对于蛋白质全部折叠形状提供了一个完善描述。
唯一性:一个形状的表象应该给出唯一蛋白质形状描述,这样任何两个蛋白质具有不同氨基酸序列将不会有相同表象。本发明的方法、过程和数学模型蛋白质折叠形状码方法的目的就是要给出每一个蛋白质结构一个唯一蛋白质折叠形状码作为其结构指纹。
稳定性:对于每一个蛋白质,形状表象对于形状微小的变化必须是稳定的,这样轻微的变化在形状描述中也是仅仅反映微小的变化。本发明的方法,过程和数学模型蛋白质折叠形状码方法对于蛋白质构形的变化允许一定程度的偏差,因此蛋白质结构的相似性可以被识别。
敏感性:形状表象必须具有适当的敏感性来捕获蛋白质形状的适当变化。本发明的方法,过程和数学模型蛋白质折叠形状码方法具有仔细地检测即使非常相似的氨基酸序列的蛋白质的有关非相似性的能力。
有效性:形状的表象应该能够有效地被计算和分析。本发明的方法,过程和数学模型蛋白质折叠形状码方法采用一个简化的数学模型来有效地计算全部可能的蛋白质折叠形状构形。并且,本发明的方法、过程和数学模型蛋白质折叠形状码方法运用一个简单的方法来标记和比较蛋白质折叠形状。
各异范畴:形状的表象应该能够描述形状各异的范畴。首先,本发明的方法、过程和数学模型蛋白质折叠形状码方法定义的二级结构和通过晶体结构X-射线衍射和核磁共振测试的结果一致。其次,本发明的方法、过程和数学模型蛋白质折叠形状码方法提供了对所有无规则的三级结构旋转和弯曲形状的实际描述。最后,无论对蛋白质和其片段进行计算,对于同一蛋白质片段的描述结果应该一致。
局部认定:形状的表象必须能够描述蛋白质的局部结构。首先,本发明的方法,过程和数学模型蛋白质折叠形状码方法能够不依赖整个蛋白质来计算其任何片段。其次,本发明的方法,过程和数学模型蛋白质折叠形状码方法提供了具体分析蛋白质相邻片段相互影响和制约的手段。
向量的空间转换
按照本发明的模型,对于蛋白质主链的折叠形状,每五个连续氨基酸的α-碳原子形成一个基本单元。这个基本单元显示于图1。
众所周知,氨基酸是蛋白质的基本结构单元。每一个氨基酸含有一个α-碳原子,该原子和一个氨基、一个羧基、一个氢原子和一个支链连接。在两个氨基酸的双肽中,第一氨基酸的羧基和第二个氨基酸的氨基结合形成肽键。因此,在双肽中,第一氨基酸具有氨基的N-端,第二氨基酸具有羧基的C-端。在多肽中,第一氨基酸具有氨基的N-端,第二氨基酸具有羧基的C-端。本项发明的方法、过程和数学模型中的蛋白质的α-碳原子主链是从N-端到C-端。
本发明的基本单元是由蛋白质主链的从N-端到C-端的一组五个连续氨基酸的α-碳原子组成。每一个基本单元标记为:“n-2”是第一个α-碳原子,“n-1”是第二个α-碳原子,“n”是第三个α-碳原子,“n+1”是第四个α-碳原子,“n+2”是第五个α-碳原子。
基本单元的中心是第三个α-碳原子。当需要从“n-2”α-碳原子到“n+2”α-碳原子的向量来排列比对时,采用中间第n个α-碳原子为基准来排列对齐。
依据本发明的体系,相邻的的向量基本单元有四个氨基酸是重叠的。以十个氨基酸的蛋白质片段为例,十个氨基酸标记为1-10。第一个向量单元由1-5氨基酸组成,第二向量单元由2-6氨基酸组成,第三向量单元由3-7氨基酸组成,第四向量单元由4-8氨基酸组成,第五向量单元由5-9氨基酸组成,第六向量单元由6-10氨基酸组成。
每五个连续氨基酸的α-碳原子的向量的形状是由每个α-碳原子的三维坐标产生的十五维分量决定的。
v=(x1,y1,z1,…x5,y5,z5)
虽然向量在不同坐标体系转换中向量本身不变,但是在不同的坐标体系中,向量分量的大小发生变化。在新的坐标体系中,五个连续氨基酸的α-碳原子的向量本身不变并且保持相同数目的分量。选择新的坐标体系是为了揭示五个连续氨基酸的α-碳原子的折叠形状特征。在新的坐标体系中,五个连续氨基酸的α-碳原子的向量由十五维的独立分量组成。三个分量是该向量的在空间的绝对位置,两个分量是该向量在空间的取向,四个分量是该向量中相邻的两个α-碳原子之间的距离,三个分量是该向量中相邻的三个α-碳原子之间的角度,两个分量是该向量中的二面角,四个分量是该向量中伸展距离。该向量在新坐标中表示为,V=(τ1,τ2,τ3,…τ13,τ14,τ15)
新的向量是从正坐标的转换得到的,
t 11 t 12 . . . t 15 t 21 t 22 . . . . . . . . . . . . t ij . . . t 151 . . . . . . t 1515 x 1 y 1 . . . z 5 = τ 1 τ 2 . . . τ 15
这里tij是坐标变换矩阵的一个元素。坐标变换使描述形状的每一个向量组份的分量的权重重新分配。反映一个形状特征,向量的在空间的绝对位子和在空间的取向对于蛋白质的折叠形状没有直接贡献。向量中相邻的两个α-碳原子之间的距离和相邻的三个α-碳原子之间的角度是相对稳定的,它们对蛋白质的折叠形状没有太大的贡献。然而,在十五维的向量中,剩下的三个向量组份的分量对于蛋白质的折叠形状具有实质的贡献。这三个向量组份的分量分别是相邻的四个α-碳原子形成的两个二面角和由两个终端α-碳原子决定的一个伸展距离。
图1显示五个连续氨基酸的α-碳原子从(n-2),(n-1),n,(n+1)到(n+2的安排。相邻四个α-碳原子决定的两个二面角是τ(n-2,n-1,n,n+1)和τ(n-1,n,n+1,n+2)。两个二面角的结合描述五个连续氨基酸的α-碳原子的折叠。
本发明中的二面角是由四个连续氨基酸的α-碳原子决定的。每一个二面角是由起始的三个α-碳原子的第一平面以及后面三个α-碳原子的第二平面决定的。因此,五个连续氨基酸的α-碳原子的基本单元有两个二面角。第一二面角是由第一,第二,第三和第四α-碳原子决定,第二二面角是由第二,第三,第四和第五α-碳原子决定。
如图2(A)显示,第一二面角是由第一,第二,第三和第四α-碳原子决定。如图2(B)显示,第二二面角是由第二、第三、第四和第五α碳原子决定。
如图3显示,伸展距离是由第一和第五α-碳原子决定的。伸展距离是第一和第五α-碳原子决定的距离,单位是埃
Figure G2008800031642D00191
在每一个基本单元中,两个二面角描述了该基本单元的形状或构象。当两个二面角给具有连续的模式,这种贡献应该和α-螺旋或者β-折叠片有关。当两个二面角的模式是非连续的,这种贡献可能和无规则的转角和卷曲形状有关。另外,两个终端α-碳原子决定的一个伸展距离τ(n-2,n+2)也表述五个连续氨基酸的α-碳原子单元的形状或构象。本发明的特点是仅仅利用三个参数来表征五个连续氨基酸的α-碳原子单元的构象。这三个参数是一个三维向量,该向量代表了五个连续氨基酸的α-碳原子的空间折叠形状。
由于该三维向量,对蛋白质折叠形状的描述就变得非常简单。这个三维向量表述如下,
V(a,b,c)=V(aA,bB,cC)=aA+bB+cC
这里A,B和C代表每一个组份分量,a,b和c代表每一个组份分量权重的大小。依据向量的性质,每一个组份分量是不相关的。
A×B≠0,B×C≠0,A×C≠0
按照蛋白质折叠形状码方法,每五个连续氨基酸的a-碳原子单元中的两个二面角和伸展距离是独立的组份分量。根据的a-碳原子的坐标,能够计算出每一个组份分量权重。每五个连续氨基酸的a-碳原子单元中的两个二面角和伸展距离可以表示如下:
a = τ ( r n - 2 , r n - 1 , r n , r n + 1 ) = ∪ i = n - 2 n + 1 F ( x i , y i , z i )
b = τ ( r n - 1 , r n , r n + 1 , r n + 2 ) = ∪ i = n - 1 n + 2 F ( x i , y i , z i )
c = τ ( r n - 2 , r n + 2 ) = ∪ i = n - 2 , n + 2 F ( x i , y i , z i )
这里a和b是五个连续氨基酸的a-碳原子的二面角,c是原子之间的伸展距离。F代表依据a-碳原子的坐标计算二面角和伸展距离的多项式。从蛋白质数据库可以得到有关a-碳原子的坐标。rn代表第n个原子的坐标。十分明显的是,原本五个a-碳原子具有十五维坐标,现在仅仅采用三维空间向量就可以表述其折叠形状。向量空间的分割
一个完美的蛋白质折叠形状描述应该能够帮助认定蛋白质结构的相似性,同时也能区分蛋白质结构的不同。在分子原子水平上,一个向量可以在空间描述无穷小的连续变化,它也是一种蛋白质结构的可靠表象。蛋白质结构的任何区别都可以通过这个表象反映出来。然而想要描述蛋白质的相似性,必须在数量上允许一定偏差。由于这个因素,向量空间就要被分割为从连续变化空间到不连续的变化空间,变化的大小从无穷小到限定大小。
依据本发明的方法、过程和数学模型蛋白质折叠形状码方法,将每五个连续氨基酸的α-碳原子基本单元中的两个二面角和一个伸展距离分别分割为三个区域。这些分割区域的相互组合对应于相应的向量。因此,蛋白质主链上的每五个连续氨基酸的α-碳原子基本单元将对应于27个向量之一。这27个向量由下列公式衍生得到: V ( a , b , c ) ⊇ Σ i = 1 3 Σ j = 1 3 Σ k = 1 3 ( a i A + b j B + c k C )
蛋白质二级结构的四个连续α-碳原子的伸展距离已经知道(参阅Ghelis C,YonJ.Molecular Biology:Protein Folding.New York,London:Academic Press;1982;Labesse G,Colloc′h N,Pothier J,Mornon JP,Comput.Appl.Biosci.1997,13(3):291-5;and Martin J,Letellier G,Marin A,Taly JF,de Brevern AG,Gibrat JF.,BMC Struct Biol.2005,5:17。以上文章已收入参考文献列表。),因此本发明中五个连续氨基酸的α-碳原子从Cα(n-2)原子到Cα(n+2)原子的伸展距离的范围就很容易定义。
依据本发明方法,两个二面角和一个伸展距离都有自己的不同分割区域。利用这些不同区域的数值的组合可以帮助描述蛋白质或者其片段的形状和构形。具体来说,第一二面角将要选择a1,a2和a3这三个区域之一,这里a1是0°到130°,a2是+130°到-130°,a3是-130°到0。类似地,第一二面角将要选择b1,b2和b3这三个区域之一,这里b1是0°到130°,b2是+130°到-130°,b3是-130°到0。伸展距离要选择c1,c2和c3这三个区域之一,这里c1是0到
Figure G2008800031642D00211
c2
Figure G2008800031642D00212
c3是大于
Figure G2008800031642D00214
本发明方法的两个二面角和一个伸展距离分割展示在图4。具体的区域分割要避免将已知的蛋白质折叠片段分割到不同区域。这样,二面角区域分割a1和b1是0°到130°;a2和b2是>130°到180°和-180°到-130°;a3和b3是>-130°到0°。伸展距离区域分割为
Figure G2008800031642D00215
Figure G2008800031642D00216
Figure G2008800031642D00217
在这个分割方法中,α-螺旋,β-折叠片,γ-螺旋,π-螺旋,δ-螺旋,310螺旋和2.27螺旋被划分到五个不同区域。综上所述,以蛋白质三维结构为出发点,通过数学推导所得到的本发明的二十七个蛋白质折叠形状码可以很好地表征蛋白质的构形。
蛋白质折叠形状码
在蛋白质折叠形状码方法中,这27个向量由26个大写英文字母和“$”符号表示。一个字母为一个向量,代表骨架上五个连续α-碳原子集合的中心原子。这27个向量表示了可能的折叠形状,每一个向量反映了作为向量起点、终点的N-端和C-端的特定折叠特征。
图5显示了蛋白质折形状叠码方法中这27个向量的折叠形状模式和相关的特征。三个区块表示三个伸展距离的区域,每个区块中的九个向量表示九个折叠形状模式,它们是两个二面角变换为不同区域的结果。一个向量能够同时表示为三种格式:一个字母、一个折叠形状模式和一个箭头。
在蛋白质折叠形状码方法中,与每一个向量所关联的折叠特征列于表一中。一个向量可以有多个特征,而一个特征可以关联多个向量。例如,在表一中,向量“J”在N-端有α-螺旋特征,而在C-端则有β-折叠特征,对α-螺旋和β-折叠都属于“类似”向量,覆盖α-螺旋的C-端或β-折叠的N-端,位于伸展距离区域c2内。另一方面,C-端的α-螺旋特征与九个向量相关,它们是“A”,“D”,“H”,“U”,“V”,“W”,“X”,“Y”和“Z”。
表一,蛋白质折叠形状码(PFSC)方法的27个向量特征矩阵
  PFSC向量  A  B  C  D  E  F  G  H  I  J  K  L  M  N  O  P  Q  R  S  T  U  V  W  X  Y   Z  $
  α-螺旋  X
  β-折叠  X
  类α-螺旋  X  X  X  X  X  X
  类β-折叠  X  X  X  X  X  X
  伸展距离c1  X  X  X  X  X  X  X   X  X
  伸展距离c2  X  X  X  X  X  X  X  X  X
  伸展距离c3  X  X  X  X  X  X  X  X  X
  C-端α-螺旋  X  X  X  X  X  X  X  X   X
  N-端α-螺旋  X  X  X  X  X  X  X  X  X
  C-端β-折叠  X  X  X  X  X  X  X  X  X
  N-端β-折叠  X  X  X  X  X  X  X  X  X
  C-端不规则结构  X  X  X  X  X  X  X  X  X
  N-端不规则结构  X  X  X  X  X  X  X   X  X
  N-端Cap α-螺旋  X  X  X   X
  C-端Cap α-螺旋  X  X  X  X  X
  N-端Cap β-折叠  X  X  X  X
  C-端Cap β-折叠  X  X  X  X
1.第一行列出了PFSC方法的27个向量。
2.最左列是这些向量的角色。
3.“X”表示与各个向量相关的特征。
4.有关伸展距离cj的定义参见图6。
蛋白质折叠形状码方法中的27个向量的关系如图6所示。以三维的方式显示了它们的整体的关系。a,b,c三个坐标轴表示三个分量,即两个二面角和一个伸展距离。每个分量被划分为三个区间,而这些区间就产生了这27个向量。每个向量在水平和垂直方向上与其他向量相关。并且,一个向量也与它周围的向量共享某些折叠特征。另外,水平层或垂直层根据相同的特征将这些向量分组。因此,这27个向量就不再是彼此孤立的折叠模式,而是在空间上以图6中相关图所示的方式紧密关联在一起。
在本发明的方法中,用于描述一个蛋白质基本单元(包含五个氨基酸)的一个向量是由对应于这个单元中五个α-碳原子的三个输入量决定的。这三个输入量与第一和第五个α-碳原子之间的第一、第二二面角和伸展距离值有关。
在本发明的方法中,任意给定的五氨基酸基本单元的三维构象都可以进行近似的描述,即,组合这三个输入量以得出这27个向量(它们都可能会出现)中的一个。每一个向量都可以根据这三个输入量的区间加以确定。这样,没有两个向量含有相同的三个分量,而这两个向量却可能有一个或两个具有相同区间的分量。从一方面来看,在同一个区间中有一或二个分量反映了这两个向量的相似程度。这种相似性可通过图6三维矩阵的方式直观的显示出来。
在图6中,每一个水平层上的九个向量有一个相同的区间,即在三维空间上具有相同的的伸展距离。例如,在中间水平层上的向量“Y”,“V”,“A”,“S”,“B”,“J”,“C”,“M”和“P”全部具有相同的伸展距离c2区间块。另外,图6矩阵还显示了这些向量的其他共同点,例如在任意垂直层上的九个向量具有同一个分量,它们属于一个或两个二面角的相同区间,如图所示,向量“X”,“U”,“H”,“Y”,“V”,“A”,“Z”,“W”和“D”在同一个垂直层上,都有第一二面角区间a1
更高的相似性标示为“类似”。在三个输入量中,如果第一个向量有两个与第二个向量相同的分布区间,则这两个向量就是“类似”的。例如,图6矩阵中,向量“A”由三个输入量分量a1,b1和c2确定,从而它有六个类似向量:“J”、“P”、“V”、“Y”、“H”和“D”。向量“V”和“Y”与“A”类似,因为“V”或“Y”都部分的由两个输入量c2和a1确定;同样的,向量“J”和“P”也与“A”类似,因为它们都有输入量c2和b1;“H”和“D”与“A”类似,它们都有两个输入量a1和b1。同样的道理,向量“B”有六个类似向量:“V”、“M”、“S”、“J”、“E”和“G”,“V”和“M”都有c2和b2,“S”和“J”都有c2和a2,“E”和“G”都有a2和b2,因此它们分别都与向量“B”是“类似”的。从相关联的方面来看,中间层上的每一个向量都有六个“类似”向量;而在顶层和底层上的每个向量则有五个“类似”向量。
蛋白质折叠形状码方法中通过一个箭头两端的向量起点和终点的折叠特征分别表示N-端和C-端的特征。在每个向量端点的三种类型的折叠特征(它们与α-螺旋、β-折叠和不规则盘绕相似)分别被标志为“α”、“β”和“*”,各自表示沿着向量方向的折叠角分布。例如,向量“A”在N-端和C-端都有α-螺旋特征,向量“B”在N-端和C-端都有β-折叠特征,向量“J”在N-端有α-螺旋特征而在C-端有β-折叠特征,向量“V”在C-端有α-螺旋特征而在N-端有β-折叠特征,向量“H”在N-端和C-端都有α-螺旋特征。因此,PFSC折叠模式不仅由27个字母和符号进行区别,也由向量特征加以区别。
蛋白质折叠形状码(PFSC)方法的27向量通过共享某些特征而相互关联。例如,表示α-螺旋的“A”是伸展距离区间值的区域-2(即区间c2)、第一二面角区间值的区域-1(即区间a1)和第二二面角区间值的区域-1(即区间b1)中的一个向量;表示β-折叠的“B”是伸展距离区间值的区域-2(即区间c2)、第一二面角区间值的区域-2(即区间a2)和第二二面角区间值的区域-2(即区间b2)中的一个向量。向量“J”与“A”和“B”都相邻,因为“J”在N-端有α-螺旋特征而在C-端有β-折叠特征。向量“V”也同时与“A”和“B”相邻,因为它在N-端有β-折叠特征而在C-端有α-螺旋特征。向量“H”与“A”相邻,因为,与“A”一样,它在N-、C-端都有α-螺旋特征。但是,“H”有一个更大的伸展距离。这样,每一个PFSC向量都易于描述折叠和构象的特征,因为N-、C-两端的特征都能够被鉴定出来。
蛋白质折叠形状码提供了一个可以对蛋白质结构的所有弯曲进行连续描述的方法,它能够覆盖到100%的沿蛋白质α-碳原子骨架的折叠形状,包括规则的二级结构片段、不规则或者很少观察到的结构片段,甚至那些从蛋白结构稳定性来说并不有利的片段。蛋白质结构中有许多不规则的弯曲(bend)、盘绕(coil)、转角(turn)或卷曲(loop),很难对它们进行清楚的描述和区分。特别是对于很少出现的卷曲现象,发现并得到一个统计调查结果是非常困难的事情。另外,描述α-螺旋与β-折叠中不规则的片段与规则的二级结构片段如何互联也是非常复杂的。而根据本发明,蛋白质折叠形状码算法同等的对待所有可能的折叠,并对蛋白质α-碳原子骨架上各个折叠之间的关系进行描述,因此,蛋白质折叠形状码方法能够描述并归类蛋白质折叠形状的不规则片段。
计算机实现蛋白质折叠形状码算法的代码采用Java程序(J2SE v.1.5.007)进行编写,版权为MicrotechNano,LLC所拥有。如果需要计算认定蛋白质的折叠形状码,请发送电子邮件到infoproteinshape.com,或者访问网站http://www.proteinshape.com
蛋白质折叠形状码方法能够根据蛋白质的三维结构或坐标来描述它的折叠基元。因为PFSC只考虑α-碳原子,所以它甚至可以处理从晶体X-射线衍射和核磁共振光谱得到的低分辨率的数据。多数的蛋白质三维结构存储到蛋白质数据库(Protein Data Bank,PDB)并公布给大众使用。世界蛋白质数据库(The WorldwideProtein Data Bank,wwPDB,http://www.wwpdb.org/)提供了到美国RCSB PDB(http://www.rcsb.org/pdb/home/home.do),欧洲MSD-EBI(http://www.ebi.ac.uk/msd/),日本PDBj(http://www.pdbi.org/),和美国生物磁共振数据库(Biological MagneticResonance Data Bank,BMRB,http://www.bmrb.wisc.edu/)的入口。另外,美国国家生物技术信息分子建模数据库中心(the National Center for BiotechnologyInformation Molecular Modeling Database,NCBI MMDB)也提供蛋白质的计算结构(http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml)。
根据本发明,对于一个蛋白质或其一部分的三维数据,运行PFSC算法即可生成此蛋白质或其一部分的向量或PFSC编码。PFSC算法包含以下步骤:A.将此蛋白质分割成一系列有重叠的基本单元,从第一个单元起,每一个单元含有五个氨基酸;B.确定第一二面角的区间值;C.确定第二二面角的区间值;D.确定伸展距离的区间值;E.组合步骤B、C、D中得到的区间以获得第一个单元的向量。
对于第二个单元,蛋白质折叠形状码算法继续进行以下的步骤:F.对第二个单元重复步骤A;G.对第二个单元重复步骤B;H.对第二个单元重复步骤C;I.对第二个单元重复步骤D;J.组合步骤G、H、I中得到的区间以获得第二个单元的向量。
然后继续以下步骤:K.对此蛋白质的最少一个部分重复步骤F、G、H、I和J;L.对整个蛋白质重复步骤F、G、H、I和J。
然后继续以下步骤:M.对前述得到的向量集应用一个或多个算法,以确定蛋白质的一个或多个方向的构象。
蛋白质折叠形状码方法提供了一个描述蛋白质从二级结构到三级结构的折叠的新工具,提供了一个系统描述蛋白质骨架上的折叠形状的方法。另外,PFSC方法还从形状过渡的细节上给出揭示蛋白质折叠结构的信息,并用于验证蛋白质二级结构的长度、边界以及变形。
现已开发出一个计算机程序,输入一个蛋白质的三维结构,生成并输出描述其折叠形状的蛋白质折叠形状码(PFSC)。本节将举出一个使用蛋白质折叠形状码的实例,并与其他已成熟的方法进行比较。首先,对从蛋白质数据库(PDB)中随机选出的一系列蛋白质结构计算出折叠形状码,包括不同种类的蛋白质结构和属于同一个蛋白质但有多个构象的结构。然后将分配到蛋白质结构的折叠形状码根据已建立的SALIGN基准数据库(Marti-Renom MA,Madhusudhan M,Sali A.Alignment ofprotein sequences by their profiles.Protein Sci 2004;1071-1087)进行评估。最后,将蛋白质折叠形状码结果与PDB中已有数据,以及其他方法所得到的二级结构认定进行比较。
具体实施方式
下面的例子仅仅用于说明本发明的某些实施,并比较根据本发明所产生的组分或方法与现有技术或未根据本发明的实施。如附后的权利要求中的陈述,下面的例子并不意味着对本发明的范围有所限制。
蛋白质折叠形状码(PFSC)与PDB的比较
以下蛋白质结构,PDB编号为1ECA,1AAJ,2RN2和8DFR,分别随机的从四种结构类型α,β,α+β和α/β中选出作为例子。对结构认定的PFSC结果和PDB中的数据的比较显示于表二中,并列出了在PDB中根据数据作者、DSSP和STRIDE所做的结构认定和PFSC所得到的描述。为了清楚的描述二级结构的认定,此处的蛋白质折叠形状码认定(PFSCA)只是表二中蛋白质折叠形状码的简单表述。结果显示了PFSC方法的三个特点,第一,PFSC和PDB(作者、DSSP和STRIDE)对于二级结构认定的结果大体上是一致的;第二,PFSC方法能够完全的描述蛋白质骨架上的折叠形状,包括规则的片段、不规则的卷曲和盘绕;第三,PFSC能够发现蛋白质结构折叠特征并加以有实际意义的解释。
表二,对蛋白质1ECA,1AAJ,2RN2和8DFR结构分配的PFSC结果与PDB数据的比较
Figure G2008800031642D00261
Figure G2008800031642D00271
1、左侧一列为蛋白质a-碳骨架结构、名称和分类。
2、Seq:氨基酸序列。
3、Athr:PDB数据作者所做的结构认定,“a”表示a-螺旋,“b”表示β-折叠,“c”表示转角,“-”表示未定义的卷曲。
4、DSSP:在PDB库中使用DSSP所做的结构认定,“H”为a-螺旋,“E”为β-折叠,“T”为转角,“S”为弯曲,“G”为310螺旋,“B”为独立β-桥,“-”表示未定义的卷曲。
5、STRIDE:在PDB库中使用STRIDE所做的结构认定,“H”为a-螺旋,“E”为β-折叠,“T”为转角,“C”为盘绕,“G”为310螺旋,“I”为π-螺旋,“B”为独立β-桥,“-”表示未定义的卷曲。
6、PFSC:使用蛋白质折叠形状码方法所做的结构认定,“A”为a-螺旋,“B”为β-折叠,其他字母的定义参见图5和图6。
7、PFSCA:由蛋白质折叠形状码得到的二级结构认定,“*”为a-螺旋,“=”为β-折叠,“<”和“>”为二级结构N-端或C-端的“类似”向量,其他字母代表不规则的三级结构,定义参见图5和图6。
(注:在本发明的实际结果中,可用颜色进行对照:红色表示a-螺旋,蓝色表示β-折叠,紫色表示二级结构的PFSC“类似”向量。)
二级结构与蛋白质折叠形状码向量的关系
蛋白质折叠形状码(PFSC)向量经数学推导得出,在封闭空间中用27个向量表示27个折叠模式,以此描述蛋白质折叠形状。所观察到的大多数二级结构可以关联到特定的PFSC向量。图4显示了PFSC空间被划分为九个区域,它们关联三个二面角区域和三个伸展距离区域。在不同的PFSC空间区域中可以发现不同的二级结构:β-折叠、α-螺旋、γ-螺旋、π-螺旋、δ-螺旋、310-螺旋以及2.27-螺旋。图4也显示了二级结构和PFSC向量之间的关系,对应的向量符号见图5和图6。例如,向量“A”所表示的α-螺旋位于二面角区间为0°到130°、伸展距离区间为
Figure G2008800031642D00281
Figure G2008800031642D00282
的区域;向量“B”所表示的β-折叠位于二面角区间为130°到180°和-130°到-180°、伸展距离区间为
Figure G2008800031642D00283
Figure G2008800031642D00284
的区域;向量“D”所表示的δ-螺旋位于二面角区间为0°到130°、伸展距离区间为小于
Figure G2008800031642D00285
的区域;向量“H”所表示的310-螺旋和2.27-螺旋位于二面角区间为0°到130°、伸展距离区间为大于
Figure G2008800031642D00286
的区域;向量“$”所表示的γ-螺旋和π-螺旋位于二面角区间为0°到-130°、伸展距离区间为小于
Figure G2008800031642D00287
的区域。
二级结构片段的边界
表二中蛋白质折叠形状码方法的结果显示了二级结构片段是如何连接或扩展的。与PDB数据作者、DSSP方法、STRIDE方法和PFSC方法所得到的结构分配结果稍有不同,这些不同主要体现在二级结构的长度、相关位置方面。但是,在使用PFSC方法的结果中,a-螺旋、β-折叠二级结构的大多数边界被“类似”向量所终结,表现出了折叠形状的过渡。例如,对于蛋白质1ECA,“类似”向量“V”,“J”,“Y”和“H”出现在a-螺旋的末端,包括氨基酸及片段[3]、[19-20]、[31-32]、[38]、[45-46]、[72]和[76]。对于蛋白质1AAJ,“类似”向量“V”,“J”和“S”出现在β-折叠的末端,包括氨基酸及片段[3]、[6-8]、[12-13]、[26]、[33-34]、[48]、[66]、[71]、[75]、[83]、[97]和[91]。这些“类似”向量显示出a-螺旋和β-折叠片段末端平滑的形状过渡。另一方面,如果在二级结构片段末端没有出现“类似”向量,可能预示着边界上发生了急剧的变化,例如,蛋白质2RN2,急剧变化发生在片段[28]和[114-115];而蛋白质8DFR的急剧变化则发生在片段[48]和[117-118]。
转角和卷曲
各个蛋白质二级结构片段之间由转角、盘绕或卷曲连接着。PDB数据库中未提供二级结构片段之间的各片段基元时,PFSC却可以描述它们。例如,在表二中,蛋白质1ECA的[36-46]片段由PDB数据作者完成的结果是“aaa------aa”,DSSP的结果是“TT-TTTTTT--”,STRIDES的结果是“HHTTTTTTT-H”。但PFSC的结果则是“AAJVAAAAHJV”。蛋白质1AAJ的[47-60]片段由数据作者完成的结果是“bb----bbbbbccc”,DSSP的结果是“E-----E--EE-TT”,STRIDES的结果是“E-----B-EETTT”。但PFSC的结果则是“BVAHHBBUIBBWYA”。表二显示出,PDB库中蛋白质1ECA、1AAJ、2RN2和8DFR的二级结构片段之间的所有缺口都被PFSC向量填补上。这样,PFSC对从二级到三级结构的折叠形状提供了连续完整的描述,这种结构认定的完整性应该可以更准确、更有效的比较和分析蛋白质结构。
二级结构片段的变形
蛋白质折叠形状码(PFSC)方法能够揭示方式在规则二级结构片段内部的变形。图7显示了用PFSC码指示蛋白质1EAC和1AAJ中变形的片段。例如,在1EAC中,序列19-38的折叠结构在PDB数据作者的认定仅仅是一个典型的α-螺旋片段;然而,在片段[31-32],PFSC方法却认定为“类似”向量“JV”,而不是“AA”,从而引起典型的α-螺旋片段的断裂。使用DSSP和STRIDE方法也可看到在氨基酸[31]处同样的断裂。图7(A)的左上图显示了α-碳原子骨架的α-螺旋片段的断裂。作为比较,1ECA的三个典型的α-螺旋也显示在图7(A)中。另外一个例子是如图7(B)左上图所示的蛋白质结构1AAJ的β-折叠序列[2-13]处的变形。这里的一段PFSC描述“VJVAJWSV”表明了β-折叠序列[6-13]的断裂部分。PDB数据作者所做的结构认定结果只是一个β-折叠,但PFSC表明它并非一个典型的平展的β-折叠。由DSSP和STRIDE的结果也看到发生在1AAJ片段[2-13]同样的断裂:[2-13]的a-碳原子骨架图中显示了在后半段中的断裂部分。在图7(B)中可看到这个断裂部分与1AAJ的三个典型的β-折叠片段的比较。这些例子表明,对于结构描述来说,PFSC方法具有与DSSP和STRIDE方法非常相像的灵敏度。PFSC能够完全的暴露存在于蛋白质二级结构片段内部的断裂。
蛋白质折叠形状码方法与其他方法的比较
至今已经发展出不同的方法用字母认定二级甚至三级结构以描述三维蛋白质折叠结构。第一,DSSP、STRIDE、DEFINE、PCURVE、PSEA,包括PDB数据作者做的结构认定,这些方法主要是提供蛋白质二级结构的描述。凭借以理想的二级结构的知识作为标准,这些方法中的大多数都是从三维坐标数据中提取信息以找到氢键作用模式、围绕α-碳原子的二面角或α-碳原子的距离,诸如此类。例如,使用氢键作用模式,DSSP方法试图识别八种类型的二级结构,如α-螺旋、310螺旋、π螺旋、β-折叠、β-桥、随机盘绕,等等。PFSC方法采用不同的构思,力图得出对空间中的任意可能的折叠形状的连续完整的描述和向量分配。但是,PFSC向量仍然能够相关于各种不同的二级结构类别。图4显示了不同类型的二级结构如何通过特定的角度和伸展距离与PFSC空间区域进行关联。特别是,那些试图重建氢键作用模式的方法总是需要通过高分辨率结构测试取得氢原子的位置。而PFSC方法只需要确定好a-碳原子即可,因此PFSC也可以描述由低分辨率数据得来的蛋白质结构。
第二,SBB和PB方法能够用字母认定蛋白质二级和三级结构。SBB方法根据97个蛋白质链和19438个七氨基酸片段定义了六个最优化的结构砌块作为折叠模式;PB方法从342个蛋白质和86628个五氨基酸片段中选取了16个蛋白质块。使用SBB或PB的折叠模式是统计分析的结果。而且,所有的折叠模式也不需要有所联系。而二十七个PFSC折叠模式则是天然的相互联系,因为每一个折叠模式很明确的表示一个封闭空间中的一个区域。因此,有含义的PFSC向量就能够连续完整的描述蛋白质骨架上的折叠形状。
还有两个蛋白质的结果可作为例子比较使用PFSC和其他方法进行结构认定。来源于嗜热脂肪芽孢杆菌(Bacillus Stearothermophilus)的核糖体蛋白S15(PDB码为1A32)的数据已由PB研究者发表,用于比较六种不同的方法(40)。来源于地衣芽孢杆菌(BacillusLicheniformis)的β-内酰胺酶蛋白链A(PDB码为4BLM)的数据由SBB研究者发表,以与DSSP的结果进行比较。在已公布的蛋白质1A32和4BLM的这些数据的基础上,使用PFSC和其他各个方法所得到的结果列于表三和表四中。
表三,使用蛋白质折叠形状码方法和其他各个方法对嗜热脂肪芽孢杆菌(BacillusStearothermophilus)核糖体蛋白S 15(PDB码为1A32)进行结构认定
Figure G2008800031642D00311
1、1A32:嗜热脂肪芽孢杆菌核糖体蛋白S15。
2、SEQ:S15蛋白质结构1A32的氨基酸序列。
3、PDB:PDB数据作者得出的二级结构认定。“a”为α-螺旋,“-”为未定义的卷曲。
4、DSSP、STRIDE、PSEA、DEFINE和PCURVE:这些方法分别得出的结构认定结果。“H”为α-螺旋,“E”为β-折叠,“C”为盘绕。
5、PB:蛋白质区块法(Protein Block)的结果。“m”为α-螺旋,“d”为β-折叠,“k”、“l”、“n”、“o”和“p”为类卷曲的α-螺旋,“a”、“b”、“c”、“e”和“f”为类卷曲的β-折叠,“h”、“I”和“j”为盘绕,ZZ为未认定的末端。
6、PSFC:蛋白质折叠形状码方法得到的结果。“A”为α-螺旋,“B”为β-折叠,其他向量的定义见图5和图6。
(注:在本发明的实际结果中,可用颜色进行对照:红色字符表示α-螺旋,蓝色字符表示β-折叠,紫色字符表示二级结构的PFSC“类似”向量。)
表四,使用蛋白质折叠形状码方法和其他各个方法对地衣芽孢杆菌(BacillusLicheniformis)β-内酰胺酶蛋白(PDB码4BLM,链A)进行结构认定
Figure G2008800031642D00321
1、SEQ:地衣芽孢杆菌β-内酰胺酶蛋白(PDB码4BLM,链A)的氨基酸序列。
2、PDB:PDB数据作者得出的二级结构认定。“a”为α-螺旋,“b”为β-折叠,“-”为未定义的卷曲。
3、DSSP:蛋白质二级结构库方法得到的结果,“H”为α-螺旋,“E”为β-折叠,“T”为转角,“S”为弯曲,“G”为310-螺旋,“B”为独立β-桥,“-”为未定义的卷曲。
4、STRIDE:使用STRIDE方法处理的PDB数据的结果。“H”为α-螺旋,“E”为β-折叠,“T”为转角,“C”为盘绕,“G”为310-螺旋,“I”为π-螺旋,“B”为独立β-桥,“-”为未定义的卷曲。
5、SBB:结构砌块法(Structural Building Blocks)的结果。“a”为α-螺旋,“b”为β-折叠,“z”和“h”为α-螺旋的N-端和C-端,“t”和“i”为β-折叠的N-端和C-端。6、PSFC:蛋白质折叠形状码方法的结果。“A”为α-螺旋,“B”为β-折叠,其他向量的定义见图5和图6。
(注:在本发明的实际结果中,可用颜色进行对照:红色字符表示α-螺旋,蓝色字符表示β-折叠,紫色字符表示二级结构的PFSC“类似”向量。)
为了更容易的比较表三和表四中的各个方法,本发明在实际结果中用颜色加以对照:红色字符代表α-螺旋,蓝色字符代表β-折叠,紫色字符代表α-螺旋或β-折叠的PFSC“类似”向量。这两个表的结果表明PFSC和其他各方法得到的二级结构认定总体上是一致的。而且,很明显不同的方法并未得到完全相同的二级结构片段的长度与边界。实际上,二级结构片段的末端形状多数情况下并不会突然的终止,而是会以某种方式发生变形或扩展以准备向临近基元进行形状过渡。不同的方法采用不同的算法、参数和公差标准,容易造成二级结构片段长度和位置的模糊性。而二十七个PFSC向量覆盖了折叠模式的一个封闭空间,因此能够描述不同的折叠形状和形状改变。使用PFSC描述结构认定的优点体现在如下三个方面:
(1)用于描述折叠变换时平滑过渡的“类似”向量
每个蛋白质折叠形状码向量周围有一个“类似”向量集合。例如,图6中,向量“A”有六个“类似”向量:“V”、“J”、“Y”、“P”、“H”和“D”;向量“B”有六个“类似”向量:“V”、“J”、“S”、“M”、“E”和“G”。这些“类似”向量可以在结构分配中认定给形状过渡。把局部结构分配连接起来就可得到PFSC结构描述结果,换句话说,沿着蛋白质主链的一个接一个α-碳原子的移动向量就可得到PFSC结构描述结果。当二级结构片段的末端开始扭转时,α-螺旋或β-折叠的折叠形状过渡就可以用PFSC“类似”向量来表达。
得益于“类似”向量,蛋白质折叠形状码方法有能力反映在二级结构片段末端的渐变。表三中,“类似”向量出现在蛋白质1A32A的多数α-螺旋片段的末端,比如“JVPYH”出现在α-螺旋[3-13]的C-端,“VJV”出现在N-端,“JV”出现在α-螺旋[23-43]的C-端,“V”出现在α-螺旋[48-70]和α-螺旋[74-83]的N-端。同样的情况也发生在表四中。“类似”向量出现在蛋白质4BML的α-螺旋和β-折叠的末端,比如,“JHH”出现在α-螺旋[33-39]的C-端,“Y”出现在α-螺旋[71-86]的N-端,“JVHH”出现在N-端,“DD”出现在α-螺旋[119-126]的C-端,“S”出现在N-端,“V”出现在β-折叠[243-251]的C-端,“J”出现在β-折叠[259-267]的N-端。使用PFSC,并不需要定义明显的长度和边界,因为二级结构片段末端的渐变能够被描述。更重要的是,使用更好的结构认定来描述蛋白质结构可以反映二级结构的本质。PFSC“类似”向量的概念提供了很好的描述二级结构边界的灵活性。
(2)终端二级结构的趋向
蛋白质折叠形状码(PFSC)的结果也显示了终端二级结构的趋向。使用“类似”向量,终端二级结构片段体现了PFSC方法进行结构认定的特点,参见表三、表四以及表二。这里的“终端”是指二级结构片段的N-端和C-端的一个额外的PFSC向量。为了展示如何将PFSC向量分配到α-螺旋和β-折叠的N-端和C-端,我们把蛋白质1A32和4BLM的所有二级结构片段都列在表五中。表中的结果显示了终端二级结构片段分配的趋向。这个趋向很好的符合了图6中27个向量的图示方向。α-螺旋的N-端被区域1中ai二面角的向量“V”、“Y”或“Z”终结,C-端被区域1中bi二面角的向量“J”、“P”、“D”或“Q”终结。β-折叠的N-端被区域2中ai二面角的向量“J”、“S”或“I”终结,C-端被区域2中bi二面角的向量“V”、“W”或“U”终结。并且,向量“H”在α-螺旋和β-折叠的N-端和C-端都可以出现,向量“B”可以直接与α-螺旋的N-端和C-端相连,而向量“A”则可以直接与β-折叠的N-端和C-端相连。很显然,这些结果告诉我们,α-螺旋和β-折叠的N-端和C-端分别存在着明确的特征,也就是说,终端二级结构片段很好的体现了结构认定的趋向。
这种趋向可以由图5中向量的特征进行解释。连接在每个向量的N-端和C-端的折叠形状箭头具有二面角折叠的特征。如果两个向量连接在一起,则一个向量的C-端必定连着下一个向量的N-端。为了进行平滑的折叠过渡,从N-端和C-端开始的折叠应该是相配的,即“α”连“α”,“β”连“β”,“*”连“*”。因此,向量“V”、“Y”或“Z”倾向于从α-螺旋的C-端连向α-螺旋的N-端,向量“J”、“P”、“D”或“Q”倾向于从α-螺旋的N-端连向α-螺旋的C-端,向量“J”、“S”或“I”倾向于从β-折叠的C-端连向β-折叠的N-端,向量“V”、“W”或“U”倾向于从β-折叠的N-端连向β-折叠的C-端。这些结果显示了向量耦合时的选择性,从而决定了终端二级结构的趋向。
类似的终端二级结构趋向现象也可以在SSB和BP方法得到的结果中看到。在表六中我们可以很容易的看到蛋白质折叠形状码(PFSC)方法与SSB和BP方法在终端二级结构认定上的对比。PFSC方法能够用向量特征来解释终端二级结构的认定。
表五,蛋白质1A32和4BLM-链A的蛋白质折叠形状码终端二级结构片段
Figure G2008800031642D00341
Figure G2008800031642D00351
Figure G2008800031642D00361
1、第一列为二级结构的类型。
2、第二列为蛋白质PDB码:1A32和4BLM-链A。
3、第三列为片段的氨基酸编号。
4、第四列为二级结构片段的氨基酸序列。
5、第五列为使用蛋白质折叠形状码方法在N-和C-端的一个终端向量所做的二级结构认定的结果。
(注:在本发明的实际结果中,可用颜色进行对照:红色字符表示α-螺旋,蓝色表示β-折叠,紫色表示二级结构的PFSC“类似”向量。)
表六,PFSC、SBB和PB方法终结二级结构认定的对比
1、N-Cap是α-螺旋或β-折叠N-端的终端结构;
2、C-Cap是α-螺旋或β-折叠N-端的终端结构;
3、第2、3、4列是二级结构认定的字符,第6、7、8列是使用SBB、PB和蛋白质折叠形状码等方法得到的终端结构认定的字符。
(3)转角和卷曲的结构认定
利用27个向量,蛋白质折叠形状码(PFSC)方法能够从细节上描述规则的二级结构片段之间的转角或卷曲,相比其他方法,具有较大的优势。大多数方法,比如PDB数据作者做的结果、DSSP、STRIDE、PESA、DEFINE、PCURVE和KAKSI等,主要关注二级结构的认定;PB和SBB方法可以认定蛋白质二级和三级结构。而PFSC的27个向量则可以连续完整的描述蛋白质的α-碳骨架,因为它们对结构认定提供了有实际意义的解释。
表七列出了蛋白质折叠形状码(PFSC)方法与其他方法(PDB数据作者所做结果、DSSP、STRIDE、DB和SSB)对转角或卷曲的结构认定的比较结果。结果显示,除了片段之间的缺口以外,它们有某种程度的一致,然而也有明显的不同。第一,PDB数据作者、DSSP和STRIDE、PFSC方法对卷曲的不规则片段的表示是不一样的。对于转角和卷曲,PDB数据作者做的结果中几乎没有结构认定,DSSP和STRIDE则给出了多一些的基元,但留下了未确定的缺口。而且它们对同一个氨基酸的描述做出了不同的描述,例如,DSSP和STRIDE方法得到的4BLM的氨基酸片段[91-110]、[153-169]、[169-181]、[193-203]、[212-222]和[266-278]的认定是不一致的。而蛋白质折叠形状码方法则不但提供完全的结构认定,而且提供有关转角和卷曲的结构折叠信息的详情。
第二,与PB和SSB方法一样,蛋白质折叠形状码(PFSC)方法可以完整的描述转角和卷曲结构。大体而言,从结构特征的对齐性来看,PFSC方法得到的结构认定与SSB的结果更一致些,比如,4BLM的氨基酸片段[49-57]、[91-110]、[153-169]、[212-222]和[266-278]的β-折叠特征在PFSC方法和SSB方法是一致的。而PB方法和PFSC方法得到的结构特征有些相像,如1A32的片段[12-24]和[43-51],但结构特征的相对位置却有些漂移。
第三,蛋白质折叠形状码(PFSC)方法还能提供对蛋白质折叠结构的向量描述。使用向量分配的PFSC(PFSCV)方法天然的能够表现折叠形状的特征和变化。PFSCV是对PFSC字符描述的补充,以显示结构分配的详情。例如,对于表七中的蛋白质1A32的[12-24]片段,PDB数据作者所做结果、DSSP和STRIDE方法都没有给出详细的描述,PB方法给出了较为详细的结果“mmgcehiopafkl”,而PFSC方法不但给出这个片段的PFSC字符描述“AJVPYHBBVJVA”,而且给出了PFSCV向量描述:“α-αα-αα-ββ-αα-**-αα-αβ-ββ-ββ-αα-ββ-αα-α”。PFSC结果表明在这个片段内部存在着短的、非典型的β-折叠,这与表三中PSEA、DEFINE和PB等方法的结果是一致的。对于蛋白质4BLM-链A的[91-110]片段,PFSC结果不仅填补了所有缺口,而且给出了PFSC字符描述“AAHBBBBWYAAJWYJBVDAA”和向量描述“α-αα-αα-αβ-ββ-ββ-ββ-α*-αα-α-αα-ββ-α*-αα-ββ-ββ-αα-αα-αα-α”。同DSSP、STRIDE和SSB等方法一样,PFSC方法的结果表明这个片段包含一段短的β-折叠和一段短的α-螺旋,然而,PFSCV结果更进一步从细节上揭示了这段短的β-折叠、α-螺旋和卷曲是如何在这个不规则的片段内相连的。这些例子显示出PFSC方法完全有能力描述一个复杂的蛋白质片段,并向我们揭示其中转角或卷曲的结构特征。
表七,PFSC与其他方法对转角和卷曲的结构认定的比较
  Protein   Residues   Methods Structural Assignment
1A32 12-24   SequencePDBDSSPSTRIDEPBPFSCPFSCV QFKVHENDTG SPEaa----------aHCCCCCCCCCCHHHHCCCCCCCCCHHmmgcehiopafklAAJVPYHBBVJVAα-αα-αα-ββ-αα-**-αα-αβ-ββ-ββ-αα-ββ-αα-α
1A32 43-51   SequencePDBDSSPSTRIDEPBPFSCPFSCV VHKKDHHSRaa-----aaHCCCCCHHHHCCCCCHHHmmmbmklmmAJVABVAAAα-αα-ββ-αα-αβ-ββ-αα-αα-αα-α
4BLM 49-57   SequencePDBDSSPSTRIDESSBPFSCPFSCV LDTGTNRTVbbb--bbbbEETTT--EEETTTT--EEbizzhtbbbBBVAABBBBβ-ββ-ββ-αα-αα-αβ-ββ-ββ-ββ-β
4BLM 91-110   SequencePDBDSSPSTRIDESSBPFSCPFSCV LNQRITYTRDDLVNYNPITEaa-------------aaaaaGG-EE---GGG--S-TTGGGG-EE---GGG-TTTTTTGGahtbbbbizzhtizhizzaaAAHBBBBWYAAJWYJBVDAAα-αα-αα-αβ-ββ-ββ-ββ-ββ-α*-αα-αα-αα-ββ-α*-αα-ββ-ββ-αα-αα-αα-
4BLM 153-169   SequencePDBDSSP RKIGDEVTNPERFEPELa-----bbbbb-aaa a aHHTT-SS-------TTG
  STRIDESSBPFSCPFSCV HHH-TTTT B---TTTGGaahhizhtbbbbizzaaAADJBVAJBBVAPYAAAα-αα-αα-αα-ββ-ββ-αα-αα-ββ-ββ-ββ-αα-αα-**-αα-αα-αα-α
4BLM 169-181   SequencePDBDSSPSTRIDESSBPFSCPFSCV LNEVNPGETQDT Saaaa-----bbbbGG---TT--TTEEGG--TTTTTTTEEahttizhtizhtbAAJBWYABBAABUα-αα-αα-ββ-ββ-α*-αα-αβ-ββ-ββα-αα-αβ-ββ-α
4BLM 193-203   SequencePDBDSSPSTRIDESSBPFSCPFSCV FALEDKLPSEKaaaa----aaaHHHSSSS-HHHHHH-TTTTHHHaahhzhhizzaDDAPYAAHAAAα-αα-αα-αα-**-αα-αα-αα-αα-αα-αα-α
4BLM 212-222   SequencePDBDSSPSTRIDESSBPFSCPFSCV KRNTTGDALIRa-----aaaaaHT-SS-TTTGGHHTTTTTTTGGahtzzaaaazaAJBVAAAAQZAα-αα-ββ-ββ-αα-αα-αα-αα-αα-**-αα-α
4BLM 266-278   SEQUENCEPDBDSSPSTRIDESSBPFSCPFSCV SRDKKDAKYDDKLbbb-------aaaE-SSTT----THHE--TTTT---HHHbibizhtbbizzaBBHJVJBBBBVAAβ-ββ-βα-αα-ββ-αα-ββ-ββ-ββ-ββ-ββ-αα-αα-α
1、Sequence:蛋白质1A32和4BLM-链A的氨基酸序列。
2、PDB:PDB数据作者所做二级结构认定,“a”为α-螺旋,“b”为β-折叠,“-”为未定义的卷曲。
3、DSSP:蛋白质二级结构库方法,“H”为α-螺旋,“E”为β-折叠,“T”为转角,“S”为弯曲,“G”为310螺旋,“B”为独立β-桥,“-”为未定义的卷曲。
4、STRIDE:STRIDE方法处理的PDB数据,“H”为α-螺旋,“E”为β-折叠,“T”为转角,“C”为盘绕,“G”为310螺旋,“I”为π-螺旋,“B”为独立β-桥,“-”为未定义的卷曲。
5、PB:蛋白质区块法(Protein Block)得到的结构认定,“m”为α-螺旋,“d”为β-折叠,“k”、“l”、“n”、“o”和“p”为类卷曲α-螺旋,“a”、“b”、“c”、“e”和“f”为类卷曲β-折叠,“h”、“I”和“j”为盘绕,“ZZ”为未认定的端点。
6、SBB:结构砌块(Structural Building Blocks)法得到的结构认定,“a”为α-螺旋,“b”为β-折叠,“z”和“h”为α-螺旋的N-和C-端,“t”和“i”为β-折叠的N-和C-端。
7、PSFC:蛋白质折叠形状码方法得到的结构认定,“A”为α-螺旋,“B”为β-折叠,其他向量定义见图5和图6。
8、PFSCV:使用向量认定的PFSC得到的结果,27个向量描述参见图5中定义的箭头。
(注:在本发明的实际结果中,可用颜色进行对照:红色字符表示α-螺旋,蓝色表示β-折叠,紫色字符表示二级结构的PFSC“类似”向量。)
使用蛋白质折叠形状码进行蛋白质确认分析
蛋白质构象异构体是蛋白质折叠和折叠发生变化的结果。蛋白质构象分析非常重要,这是因为它用于研究各种条件下可能的蛋白质折叠结构,并用于鉴定那些可能与疾病治疗和预防有关的蛋白质错误折叠现象。蛋白质折叠形状码(PFSC)方法是一个强有力的蛋白质构象分析的工具,因为它能够详细的展示局部结构折叠的特征。通常,将蛋白质构象异构体进行比较的做法是叠加全部的三维结构,然后得到根均方差(rmsd),以此作为一个数值测量的结果。然而,使用PFSC方法,则可以将向量分配到蛋白质骨架的折叠形状上,然后就可以把获得的折叠码对齐,从而实现构象分析。
对一个包含大肠杆菌(Escherichia coli)谷氧还蛋白(PDB码为1EGO,参见文献:Xia TH,Bushweller JH,Sodano P,Billeter M,Bjornbger O,Holmgren A,Wuthrich K.NMR structure of oxidized Escherichia coli glutaredoxin:Comparison withreduced E.coli glutaredoxin and functionally related proteins.Prot.Sci.1992;1:310-321)的20个构象异构体的数据集使用PFSC方法进行了分析。1EGO的这20个构象异构体为在水溶液中进行核磁共振光谱得到的PDB数据。蛋白质结构1EGO由一个四折叠的β-片层和三个α-螺旋构成。在多肽骨架上,根据不同的重原子(氮原子、α-碳原子和羧碳原子)从这20个异构体各自的构象转变到它们的平均坐标的根均方差(rmsd)值约
Figure G2008800031642D00411
1EGO的这20个构象异构体的α-碳原子骨架的叠加视图显示在图8中。
1EGO的这20个构象异构体很相像,它们之间的区别仅仅是局部折叠形状的细微差别。为了成功的比较蛋白质的各个构象异构体,结构分配必须准确的表达局部结构片段,同时很灵敏的区分细小的差别。1EGO的20个构象异构体的折叠结构的对齐结果列在表八中。使用蛋白质折叠形状码方法,蛋白质折叠形状的对齐结果就能够显示这些异构体的相似和非相似。为了得到一个简单明了的分析结果,本发明在实际中将对齐的结构片段着为相同的颜色。
构象的相似性
在表八中,结果显示1EGO的这20个构象异构体的八个结构基元具有完全相同的蛋白质折叠形状码(PFSC)向量编码。这八个片段中有相似结构折叠的序列[3-5]、[13-25]、[32-40]、[43]、[46-50]、[61-64]、[73-79]和[81]在实际中被标记为红色。尽管它们具有相似的折叠结构,20个异构体其他剩余部分的PFSC向量编码却不相同。不过,有几个异构体的剩余部分中仍然存在着一定程度的相似性。我们可以通过对PFSC描述的分析来了解更详细的情况。
构象的非相似
那些不具有对20个构象异构体都相同的PFSC向量编码认定的部分包含了1EGO的20个异构体非相似性的信息。首先,可以通过把这20个异构体分组来解析部分的非相似性。例如,[26-31]段没有对20个异构体都相同的PFSC向量认定,但存在着在一些异构体中相同的结构认定,有五个组对应于[26-31]片段。构象异构体1、2、8、14、18和20构成的组都有PFSC向量“AAJVAJ”;类似的,异构体3和6的组有“ADJVHJ”,4、7和9的组有“AAAAB”,10和15的组有“AAJVAB”,11和17的组有“AAAAJB”。我们也注意到,异构体5、12、13、16和19并不属于任何的组,因此它们在这个序列段的折叠形状与其他异构体不同。对于序列[26-31]段,同组的构象异构体保持着相似性,但非相似性也根据分组而加以区分。实际操作时,表八中同组的构象异构体标示为相同的颜色。
其次,可以通过把一个氨基酸段分割成更短的片来进一步解析某些非相似性。例如,[6-12]段更加变化多端,对20个构象异构体都无法直接分组。而将其分割成短片后,在部分异构体中就可以看到一些相似的短片(实际操作中在表八里标示为相同的颜色)。对于在[6-8]段的短片,异构体2和5有相同的短片“BBW”,10和16有“BHH”,11、13和17有“BBH”;对于[9-12]段的短片,异构体10和20有“SBA”,5、12、13、17和18有“AJV”。尽管对[6-12]段在20个构象异构体中并没有一对是完全相同的,蛋白质折叠形状码(PFSC)方法仍然能够在细节上揭示氨基酸段内的相似性和非相似性。这些结果显示了PFSC方法能够对齐蛋白质折叠认定并从细节上对蛋白质构象进行比较。
构象分析的工具
使用结构叠加的方法,将1EGO的20个构象异构体的三维结构进行叠加后得到了便于比较的视觉图像,均方根差(rmsd)作为一个整体的衡量值。蛋白质折叠形状码(PFSC)方法可以作为蛋白质构象分析的补充工具。通过PFSC描述,所有的构象异构体都可以通过一维字符串的对齐加以比较。从而能够发现一个蛋白质内局部折叠结构之间的不同。PFSC在辅助进行蛋白质构象分析,其使用不论是实验数据还是动态模拟的计算结果的过程中扮演非常重要的角色。
表八,使用蛋白质折叠形状码(PFSC)方法对大肠杆菌(E.coli)谷氧还蛋白(PDB码为1EGO)的氧化形式的20个构象异构体进行构象分析
Figure G2008800031642D00421
1、左列为20个构象异构体的标号,最上一行为其氨基酸序列(SEQ)。
2、在实际分析时,以红色字符表示使用PFSC确认的在20个构象异构体中都完全相同的折叠结构认定。
3、在实际分析时,不同片段标记为不同的颜色,在各列中具有结构相似性的构象异构体标记为相同的颜色。
讨论
二十七个蛋白质折叠形状码(PFSC)向量通过数学方法获得,它们能够系统的覆盖一个封闭空间。首先,PFSC拥有对形状对象的通常的理解,这些向量很容易应用于蛋白质折叠的描述。特定的PFSC空间区域和PFSC字符与各种类型的蛋白质二级结构相关,已经显示了与其他方法的结构认定的结果在大体上是一致的。其次,对给定的蛋白质三维坐标,二十七个PFSC向量能够完整的描述发生在蛋白质骨架上的折叠形状和折叠变化。这个特点使得二十七个PFSC字符提供很有用的数字描述,从而促进蛋白质结构的比较。第三,通过使用向量特征,二十七个PFSC向量在空间上的组合显示出在蛋白质折叠形状描述上的优势,即提供有实际意义的蛋白质结构认定。
蛋白质折叠形状码(PFSC)向量的特征
PFSC向量的联合图示:二十七个PFSC向量集合不是随机顺序的蛋白质折叠模式的组合,而是根据三个分量(两个二面角和一个伸展距离)的分布所做系统排列的结果。图6中二十七个PFSC向量的排布实际上是一个联合图示,从中可以观察到不同方向的关系。从图上可以看到这些向量根据水平层、竖直层或围绕邻接关系而彼此联合。这些向量的联合能够很好的解释蛋白质结构的认定。
PFSC的向量特征:对二十七个PFSC向量的特征的定义参见图5,并概括在表一中,图6则显示了它们的整体的关系。除了27个PFSC字符以外,从PFSC得到的向量特征也可以由PFSC向量(PFSCV)的一个额外的格式表示。这二十七个PFSC向量能够显示它们如何耦合以进行结构认定,从而提供详细的结构信息来分析和比较蛋白质结构。
PFSC向量的连结:蛋白质结构认定可由PFSC向量的连结加以阐明。在结构认定时,相连的两个向量共享四个α-碳原子,每个向量只在每一端留下一个不同的α-碳原子。中间共享的四个α-碳原子起着向量连结的作用。结构认定的过程使得向量依次相连,但是,一个向量的C-端必须与下一个向量的N-端连结。而且,两个向量的相连可采取适当的折叠形状以便于连结。这27个PFSC折叠形状模式可由作为向量的箭头来表示,箭头的两端代表N-或C-端。比如,向量“A”代表“α-α”,“B”代表“β-β”,“J”代表“α-β”,“V”代表“β-α”,“P”代表“α-*”,“C”代表“*-*”,这样可以得到如图5所示的全部27个PFSC向量。折叠形状特征连在箭头的两端。规则的α-螺旋或β-折叠二级结构要求相同的折叠模式扩展到蛋白质骨架的下一个α-碳原子上,因此在向量的两端需有相同的折叠特征。向量“H”、“A”和“D”在N-和C-端都有一个α-螺旋,因而它们可以作为表示α-螺旋的候选者;向量“E”、“B”和“G”在N-和C-端都有一个β-折叠,因而它们可以作为表示β-折叠的候选者。采用适当的伸展距离,向量“A”代表典型的α-螺旋,向量“B”代表典型的β-折叠。为了实现平滑的结构过渡,两个向量的连结倾向于具有相同的折叠形状特征,即,在两个相连的向量之间形成“-αα-”、“-ββ-”或“-**-”的形式。因此,向量“V”倾向于在C-端用α-螺旋与向量“A”相连,但向量“J”倾向于在N-端用α-螺旋与向量“A”相连。如果出现一个不规整的连结,比如“-α*-”、“-β*-”或“-αβ-”,结构过渡就会变得急剧。另外,向量连结也可解释终端二级结构的认定。很显然,向量连结可以对理解结构认定提供一个补充解释。根据向量连结所提供的信息,就有可能确定蛋白质的活性位点,辅助蛋白质和肽的结构设计。
PFSC向量用于不规则的卷曲和转角:尽管对蛋白质结构能够做到完整的描述,仍然很难以解释不规则的卷曲、盘绕和转角是怎样形成的。使用二十七个PFSC向量可以看到,不规则的卷曲和转角由两个因素产生的。第一,不规则的片段是由二十七个PFSC向量中一些具有不规则折叠特征的向量形成,即图5中箭头末端有“*”标志的向量。15个向量有不规则折叠特征标志“*”,它们是“X,R,F,L,O,Y,S,C,M,P,Z,T,$,N,Q”。特别是当这些向量相连并出现在结构认定的时候,它们就会生成不规则的卷曲和盘绕。第二,不规则片段也会形成于任一对PFSC向量的不规整连接,即使它们有α-螺旋和β-折叠的折叠特征。如果两个向量不以相似的折叠形状特征连结,相连时就会产生急剧的过渡,例如向量“A”以“α-αβ-β”方式直接连接向量“B”;向量“V”在N-端以“α-αβ-α”方式与“A”相连,或者向量“J”在C-端以“α-βα-α”方式与“A”相连。因此,利用二十七个PFSC向量就可以分析和探测不规则的卷曲和转角。
总之,PFSC方法的27个向量不但是蛋白质局部结构折叠模式的原型,而且是以明确的空间走向进行蛋白质折叠描述的向量,同时这27个FPSC向量的联合在揭示蛋白质折叠认定方面发挥着非常重要的作用。
向量的数目
本发明中的蛋白质折叠形状码(PFSC)向量实际上是由一个连续封闭空间推导得出。这个空间原本包含无数个向量,经过划分,得到了二十七个PFSC向量,每个向量代表一个特定的折叠形状模式。一般而言,增加折叠形状模式的数目可以提高折叠的描述能力,但会使分析过程愈加复杂。将更多的α-碳原子包含进来或设置更多的分区分量来改进PFSC向量可以增加折叠形状模式的数目。例如,在相同的空间划分方式下,包含连续的α-碳原子的数目是6、7或8时,就分别有81、243或729个折叠空间模式。一个更简单些的获取更多折叠模式的方法是组合两个连续的PFSC向量。有六个连续α-碳原子的两个相连的PFSC向量就可以产生729个折叠基元模式或向量。在这种方式下,可能的折叠形状模式的总数目将是27(n-4),其中n是α-碳原子的总数目。增加折叠形状模式的数目是可能的,但除非是复杂性得到了显著的改善,否则没有太大的必要性。本发明的研究中,二十七个PFSC向量已经显示了描述蛋白质折叠结构的非常重要的结果。
向量的使用
蛋白质折叠形状码(PFSC)方法已经过SALIGN基准数据库提供的蛋白质结构检验。SALIGN基准数据库是一个有200个成对蛋白质的测试集合,这些蛋白质平均每对有20%的序列同一性和65%的叠加均方根差(rmsd)不超过
Figure G2008800031642D00451
的α-碳原子等价结构。根据SALIGN基准数据库的268个蛋白质链的PFSC向量出现的频率总结在图9中。首先,这个结果符合如下事实:二十七个PFSC向量设计用于全面描述所有可能的折叠形状,包括常见或罕见类型的折叠。其次,二十七个PFSC向量的产生是等比重的,但使用却是不均匀的。结果显示二十七个向量中的大多数在268个蛋白质链中用到了,但数据也显示,用于α-螺旋和β-折叠的向量“A”和“B”出现的次数最多,分别是38274和20361。总体而言,α-螺旋和β-折叠占到了大约67%的局部结构认定;二级结构的三个“类似”向量“V”、“J”和“H”据观察出现的次数较高,分别是7176、6697和3888,并且占到大约21%的局部结构认定;四个向量“W”、“S”、“Y”和“P”出现的次数也相对较高,超过1000,占到约9%的局部结构认定;八个向量“D”、“Z”、“C”、“Q”、“I”、“$”、“U”和“R”,出现次数超过100;向量“M”出现的次数为0,即从未被用过。其他的九个向量出现的频率非常低。总之,二十七个向量中的九个,“A”、“B”、“V”、“J”、“H”、“W”、“S”、“Y”和“P”,占到了总共97%的局部结构认定。并不奇怪单个向量并不经常被采用,这是源于蛋白质结构本质的限制;但所有的向量都被保留着占用封闭空间,以备提供完整连续的描述。PFSC向量的优势在于,PDB数据库中超过46000个蛋白质的五个连续α-碳原子的任何局部结构都会有一个根据PFSC方法得到的结构认定。
图9中显示的二十七个向量出现的频率能够明确的映射到图6。表示α-螺旋和β-折叠的向量“A”和“B”以及环绕的“类似”向量“V”、“J”和“H”,在结构认定中有较高的出现频率,图6中它们五个集中在右上角。而且很明显,在中间一层的多数向量和围绕“H”、“A”和“D”的多数向量都有较高的出现频率。映射在图6中的这种分布反映了蛋白质结构的本质,也就是说,局部结构认定中的大多数是由于蛋白质骨架的优先选择形成的,即氢键作用模式和三维空间限制条件等等。
PFSC的应用
蛋白质折叠形状码(PFSC)方法作为一个简化的工具用于描述蛋白质折叠形状。PFSC使用一维字母表字符串解释折叠形状的三维本质,有如下的优点:第一,很容易跟踪和探测蛋白质中的不规则结构;第二,通过把蛋白质的线性氨基酸序列对齐而就有可能理解蛋白质中以每五个连续α-碳原子进行递增的折叠形状。
蛋白质折叠形状码(PFSC)方法提供了对蛋白质α-碳原子骨架上从二级结构到三级结构的折叠形状的完整而连续的描述,当然,任何有三维结构数据的蛋白质也能够由PFSC进行描述。
蛋白质折叠形状码(PFSC)方法能够比较蛋白质三维结构,揭示局部和整体的相似性和非相似性。使用折叠结构对齐,PFSC给出了对比蛋白质分组的相似性的评分,因而PFSC的结果会提高用于蛋白质结构预测的选取参考蛋白质或片段的质量。
蛋白质折叠形状码(PFSC)方法能够把所有三维蛋白质结构认定到一维字符串并保存到数据库中;而且,五个连续的氨基酸序列和折叠结构特征之间的相互关系能够生成一个通用数据库用于氨基酸序列和折叠结构关系的基因组学研究。
蛋白质折叠形状码向量认定(PFSCV)是一种详细描述蛋白质折叠形状特征和变化的的结构认定方法。在蛋白质α-碳原子骨架的折叠形状的基础上,发展了可及蛋白质表面编码(APSC)方法以评价蛋白质表面和空腔。把PFSCV和APSC以及沿蛋白质骨架的氨基酸的不同性质进行排列对齐,就能够预测蛋白质活性位点,活性位点在药物设计和蛋白质与多肽突变的研究中非常有意义;也能够预测蛋白质相互作用。我们来看蛋白质1DOI的分析结果,图10显示了蛋白质1DOI的APSC结果,图11为1DOI的蛋白质结构的截图,箭头表示蛋白质表面上的残基。表九为蛋白质1DOI氨基酸[50-75]片段的氨基酸序列、PFSC、PFSCV、APSC和氨基酸亲水性的对齐排列。结果表明,[59-60]片段处有不平滑的向量连结β-α*-β,且围绕残基59有一个口袋空间。另外,氨基酸的性质也与序列做了对齐。所有这些信息都会帮助分析和预测蛋白质的活性位点。
表九,蛋白质1DOI片段[50-75]的氨基酸序列、PFSC、PFSCV、APSC和氨基酸亲水性质的对齐排列
·PFSC:蛋白质折叠形状码;
·PFSCV:蛋白质折叠形状码向量认定;
·APSC:可及蛋白质表面编码。其数字越大,则蛋白质相对某个尺寸的探测球体的可及表面越多。根据APSC,它们近似的分割为不同的区域:数字9、8和7为突出部;6、5和4为扁平区域;4、3和2为口袋部;1和0为不可及区域。
·这里的APSC结果根据半径为的球体得到。
蛋白质折叠形状码(PFSC)方法可用于理解一些蛋白质结构折叠起关键作用的生物现象(参阅Pietzsch,Protein Folding and Disease,Horizon Symposia,NaturePublishing Group,October 3-5,2002,也在参考文献列表中)。有蛋白质结构折叠发生错误的疾病主要分为两类:(a)与错误折叠蛋白质数量过多有关的疾病,如老年痴呆症(Alzheimer症);(b)与基因错误所致蛋白质不完全折叠有关的疾病,如癌症中的p53蛋白质。PFSC方法可用于解释晶体X-射线衍射或核磁共振光谱得到的实验数据,从而能够:(1)提供与这些疾病有关的不同实验数据的综合视角;(2)侦查与这些疾病有关的蛋白质错误折叠的发生;(3)辅助设计对这些疾病的治疗方法。因此,PFSC方法在理解涉及蛋白质折叠现象的疾病方面非常有作用,如神经变性疾病、新陈代谢疾病、遗传疾病,以及和癌症和衰老有关的疾病,等等,都属于这类疾病。
根据本发明,蛋白质折叠形状码(PFSC)方法可用于研究与蛋白质折叠或错误折叠有关的疾病,做法是创建蛋白质折叠形状通用统计映象(UPFSM),以作为一个对个别蛋白质或一组蛋白质都能显示其折叠形状信息的平台。UPFSM能够简化的描述复杂的蛋白质折叠形状,并从细节上揭示折叠属性。它提供了可以查看不同数据的独特而恒定的方法,在研究有关老年痴呆症以及其他疾病的所有蛋白质折叠数据方面非常有帮助。
蛋白质折叠形状通用统计映象(UPFSM)括两个要素:对齐部分和分布部分。对齐部分将蛋白质序列的蛋白质折叠形状码(PFSC)显示为一串编码。UPFSM将复杂的三维结构解释为一维字符串,从而简化了多个构象异构体的比较。对于分析相似蛋白质结构,包括同一蛋白质的多个构象异构体,传统的方法是,比较不同的结构或构象异构体时,把它们的全部三维结构进行叠加,然后测量均根方差(rmsd)的值。这样很难从视觉上形象的表现出如何把一个结构与另一个结构区分开。相比之下,以UPFSM的对齐部分来分析多个结构和构象异构体则是另辟蹊径。UPFSM的对齐部分把蛋白质序列的所有PFSC进行了对齐,就可以避免人为选择片段的长度和位置做重点关注。另外,因为避免了叠加数据的混淆,UPFSM能够以简单而全面的方式判定结构或构象异构体之间的相似性或非相似性。所以,UPFSM的对齐部分是一个进行蛋白质比较和构象分析的强有力的工具。
蛋白质折叠形状通用统计映象(UPFSM)的另一要素:分布部分,则是用于分析蛋白质构象的新方法。分布部分显示蛋白质序列到一个水平线,显示二十七个蛋白质折叠形状码(PFSC)向量到垂直列。对于一个特定的蛋白质结构,分布部分将认定蛋白质序列的PFSC,因此分布映射就会把复杂的三维折叠形状转化为相对简单的PFSC二维分布映射。分布部分能够显示单个的构象,或者一个构象异构体集合,或者蛋白质或构象异构体的多个集合。
蛋白质折叠形状通用统计映象(UPFSM)方法提供了一个新的途径用以分析阿尔茨海默病淀粉样蛋白β-肽(1-42)多肽的错误折叠。淀粉样蛋白是不溶的纤维蛋白聚合体,在引起老年痴呆症(阿尔茨海默病)以及其他一些疾病的过程中发挥着作用。为了更好的理解在淀粉样蛋白中β-折叠是怎样形成的,在淀粉样蛋白肽的周围建立了多种有影响的溶剂或环境,并且用核磁共振光谱精确的测定了有关的折叠结构。不但描述淀粉样蛋白肽的单个构象是困难的,在相同或不同的条件下比较这些结构也是困难的。蛋白质1z0q的结构是在六氟异丙醇(HFIP)/水30∶70(v/v)混合水溶液中的30个构象异构体的结果,而蛋白质结构1iyt则是HFIP/水80∶20(v/v)混合水溶液中的10个构象异构体的结果。这些三维结构都由核磁共振光谱确定。此处显示了UPFSM作为比较和分析折叠结构的有力工具,从图12、图13和图14可以看到详细的解释。通过UPFSM,可以看到错误折叠的结构特征,如图13和图14所示。而且,在不同实验中折叠结构的不同也在图13和图14中做了清楚的揭示。

Claims (3)

1.描述蛋白质的构象和根据折叠、整体形状与结构序列进行蛋白质确认分析的方法,其特征在于,该方法通过计算机完成以下步骤:
A、取蛋白质中每五个连续的氨基酸作为一个基本单元,以及每个氨基酸的α-碳原子;
B、计算每一个基本单元中的第一个二面角,该二面角是第一,第二和第三个氨基酸决定的第一个平面以及第二,第三和第四个氨基酸决定的第二个平面之间的平面夹角;所述二面角的角度大小一定属于a1,a2或者a3所确定的角度范围之一;
C、计算每一个基本单元中的第二个二面角,所述二面角是第二,第三和第四个氨基酸决定的第一个平面以及第三,第四和第五个氨基酸决定的第二个平面之间的平面夹角;所述二面角的角度大小一定属于b1,b2或者b3所确定的的角度范围之一;
D、计算由第一和第五个氨基酸之间决定的的伸张距离;所述伸张距离的大小数值一定属于c1,c2或者c3所确定的的距离范围之一;
E、依据步骤B,C和D所得到的数值确定需要描述的五个连续的氨基酸的基本单元的向量,描述蛋白质构形;F、依据步骤E描述蛋白质构形进行蛋白质确认分析;
所述a1从0°到130°,a2从+130°到-130°,a3从-130°到0°;b1从0°到130°,b2从+130°到-130°,b3从-130°到0°;c1从0到
Figure FSB00000759202500011
c2
Figure FSB00000759202500012
Figure FSB00000759202500013
c3大于
Figure FSB00000759202500014
2.根据权利要求1的方法,其特征在于,所述a1、a2、a3、b1、b2、b3、c1、c2、c3参数可替换为:a1从0°到130°,a2从大于130°到180°和-180°到-130°,a3从-130°到0°;b1从0°到130°,b2从+130°到-130°,b3从-130°到0°;c1从0到
Figure FSB00000759202500015
c2
Figure FSB00000759202500016
c3大于
Figure FSB00000759202500018
3.如权利要求1或2所述描述蛋白质的构象和根据折叠、整体形状与结构序列进行蛋白质确认分析的方法在制备药物中的应用。
CN2008800031642A 2007-01-31 2008-01-30 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置 Active CN101647022B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US89852907P 2007-01-31 2007-01-31
US60/898,529 2007-01-31
US409407P 2007-11-23 2007-11-23
US61/004,094 2007-11-23
US6277508P 2008-01-29 2008-01-29
US61/062,775 2008-01-29
PCT/US2008/001159 WO2008094547A2 (en) 2007-01-31 2008-01-30 Methods, systems, algorithyms and means for describing the possible conformations of actual and theoretical proteins and for evaluating actual and theoretical proteins with respect to folding, overall shape and structural motifs

Publications (2)

Publication Number Publication Date
CN101647022A CN101647022A (zh) 2010-02-10
CN101647022B true CN101647022B (zh) 2012-07-18

Family

ID=39674699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800031642A Active CN101647022B (zh) 2007-01-31 2008-01-30 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置

Country Status (5)

Country Link
US (1) US8818737B2 (zh)
EP (1) EP2118795A4 (zh)
JP (1) JP2010517195A (zh)
CN (1) CN101647022B (zh)
WO (1) WO2008094547A2 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014144963A1 (en) * 2013-03-15 2014-09-18 Alexandre Zanghellini Automated method of computational enzyme identification and design
WO2015161243A2 (en) * 2014-04-17 2015-10-22 Synthetic Biologics, Inc. Beta-lactamases with improved properties for therapy
CN105260626B (zh) * 2015-09-25 2017-11-14 麦科罗医药科技(武汉)有限公司 蛋白质结构空间构象的全信息预测方法
CN105205351B (zh) * 2015-09-25 2017-11-14 麦科罗医药科技(武汉)有限公司 一种药物靶标的高通量检索方法
CN107463793A (zh) * 2017-06-21 2017-12-12 南京迈格罗医药科技有限公司 抗体互补决定区构象指纹数据库
EP3638801A4 (en) 2017-07-26 2021-03-24 Yacyshyn, Vincent DISPOSAL OF POLYPHENOLS CONTAMINANTS FROM STARTING CHARGE POLYPHENOLS
JP7257663B2 (ja) * 2017-12-06 2023-04-14 学校法人近畿大学 生体高分子立体構造表示装置、プログラムおよび表示方法
CN109390035B (zh) * 2018-08-29 2021-04-06 浙江工业大学 一种基于局部结构比对的蛋白质构象空间优化方法
CN112585685B (zh) * 2018-09-21 2024-10-01 渊慧科技有限公司 使用估计相似性的几何神经网络来预测蛋白结构
US11173187B2 (en) 2018-11-13 2021-11-16 Immortazyme Company Ltd. Concentrated oil-based polyphenol composition and a method of producing the oil-based polyphenol composition
CN111180021B (zh) * 2019-12-26 2022-11-08 清华大学 一种蛋白质结构势能函数的预测方法
JP7116442B2 (ja) 2020-03-06 2022-08-10 シェンヂェン ジンタイ テクノロジー カンパニー リミテッド 分子の立体配座空間解析のためのポテンシャルエネルギー曲面スキャン方法およびシステム
CN116153435B (zh) * 2023-04-21 2023-08-11 山东大学齐鲁医院 基于上色与三维结构的多肽预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328601A (zh) * 1998-08-25 2001-12-26 斯克利普斯研究院 预测蛋白质功能的方法和系统
CN1602487A (zh) * 2001-12-10 2005-03-30 富士通株式会社 蛋白质立体结构的预测装置及其预测方法
CN1632817A (zh) * 2004-12-28 2005-06-29 南京大学 一种蛋白质二级结构预测方法
CN1672160A (zh) * 2002-05-20 2005-09-21 埃博马可西斯公司 在计算机上产生和筛选蛋白质文库
CN1849611A (zh) * 2003-09-08 2006-10-18 Acgt前基因组公司 建立和分析氨基酸序列构象的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3483374B2 (ja) * 1995-12-01 2004-01-06 富士通株式会社 タンパク質立体構造の行列表現方法および部分構造抽出方法並びにタンパク質の立体構造解析システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328601A (zh) * 1998-08-25 2001-12-26 斯克利普斯研究院 预测蛋白质功能的方法和系统
CN1602487A (zh) * 2001-12-10 2005-03-30 富士通株式会社 蛋白质立体结构的预测装置及其预测方法
CN1672160A (zh) * 2002-05-20 2005-09-21 埃博马可西斯公司 在计算机上产生和筛选蛋白质文库
CN1849611A (zh) * 2003-09-08 2006-10-18 Acgt前基因组公司 建立和分析氨基酸序列构象的方法
CN1632817A (zh) * 2004-12-28 2005-06-29 南京大学 一种蛋白质二级结构预测方法

Also Published As

Publication number Publication date
EP2118795A4 (en) 2010-07-07
US8818737B2 (en) 2014-08-26
EP2118795A2 (en) 2009-11-18
JP2010517195A (ja) 2010-05-20
US20090319193A1 (en) 2009-12-24
CN101647022A (zh) 2010-02-10
WO2008094547A3 (en) 2008-12-18
WO2008094547A2 (en) 2008-08-07

Similar Documents

Publication Publication Date Title
CN101647022B (zh) 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置
Güntert Automated structure determination from NMR spectra
Boniecki et al. SimRNA: a coarse-grained method for RNA folding simulations and 3D structure prediction
Wood et al. CCBuilder: an interactive web-based tool for building, designing and assessing coiled-coil protein assemblies
Kolodny et al. Protein structure comparison: implications for the nature of ‘fold space’, and structure and function prediction
Shatsky et al. A method for simultaneous alignment of multiple protein structures
Shen et al. Protein backbone and sidechain torsion angles predicted from NMR chemical shifts using artificial neural networks
Ritchie et al. Fast protein structure alignment using Gaussian overlap scoring of backbone peptide fragment similarity
Cassioli et al. An algorithm to enumerate all possible protein conformations verifying a set of distance constraints
Kumar et al. HELANAL-Plus: a web server for analysis of helix geometry in protein structures
Dror et al. Multiple structural alignment by secondary structures: algorithm and applications
Randić et al. Milestones in graphical bioinformatics
CN109300501B (zh) 蛋白质三维结构预测方法及用其构建的预测云平台
Cosgrove et al. A novel method of aligning molecules by local surface shape similarity
Huang et al. Similarity studies of DNA sequences based on a new 2D graphical representation
Pei et al. Random forest refinement of the KECSA2 knowledge-based scoring function for protein decoy detection
WO2013054192A2 (en) Systems and methods for generation of context-specific, molecular field-based amino acid substitution matrices
Planas-Iglesias et al. AggreProt: a web server for predicting and engineering aggregation prone regions in proteins
US20130090247A1 (en) Methods and systems for identification of binding pharmacophores
Poluri et al. Prediction, analysis, visualization, and storage of protein–protein interactions using computational approaches
Khalife et al. Secondary structure assignment of proteins in the absence of sequence information
Wu et al. OPUS-Dom: applying the folding-based method VECFOLD to determine protein domain boundaries
Pei et al. Pair Potentials as Machine Learning Features
JP2007505372A (ja) アミノ酸配列の立体構造を確定し、分析する方法
US20070244651A1 (en) Structure-Based Analysis For Identification Of Protein Signatures: CUSCORE

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICRO PHARMACEUTICAL TECHNOLOGY (WUHAN) CO., LTD.

Free format text: FORMER OWNER: SANGDIYA PHARMACEUTICAL TECHNOLOGY (SHANGHAI) CLC

Effective date: 20120529

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 201203 PUDONG NEW AREA, SHANGHAI TO: 430075 WUHAN, HUBEI PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20120529

Address after: 430075, B5, 666 hi tech Avenue, East Lake Development Zone, Wuhan, Hubei, Wuhan

Applicant after: Mccollow Pharmaceutical Technology (Wuhan) Co.,Ltd.

Address before: 201203 building, building 388, 8 Galileo Road, Zhangjiang hi tech park, Shanghai, Pudong, China

Applicant before: Sandia Pharmaceutical Technology (Shanghai) Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231115

Address after: Room E and F, 26th Floor, No. 828-838 Zhangyang Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, 201208

Patentee after: McCullough Biotechnology (Shanghai) Co.,Ltd.

Address before: 430075 B5, No. 666 Gaoxin Avenue, Wuhan Donghu Development Zone, Wuhan City, Hubei Province

Patentee before: Mccollow Pharmaceutical Technology (Wuhan) Co.,Ltd.