JP2004258814A - タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体 - Google Patents
タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体 Download PDFInfo
- Publication number
- JP2004258814A JP2004258814A JP2003046597A JP2003046597A JP2004258814A JP 2004258814 A JP2004258814 A JP 2004258814A JP 2003046597 A JP2003046597 A JP 2003046597A JP 2003046597 A JP2003046597 A JP 2003046597A JP 2004258814 A JP2004258814 A JP 2004258814A
- Authority
- JP
- Japan
- Prior art keywords
- protein
- ligand
- dimensional structure
- amino acid
- acid sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 885
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 880
- 238000000034 method Methods 0.000 title claims abstract description 297
- 239000003446 ligand Substances 0.000 claims abstract description 534
- 238000004364 calculation method Methods 0.000 claims abstract description 86
- 230000003993 interaction Effects 0.000 claims abstract description 85
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 180
- 238000000455 protein structure prediction Methods 0.000 claims description 89
- 238000004458 analytical method Methods 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 26
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 25
- 238000005381 potential energy Methods 0.000 claims description 23
- 238000012935 Averaging Methods 0.000 claims description 19
- 238000000329 molecular dynamics simulation Methods 0.000 claims description 18
- 238000000324 molecular mechanic Methods 0.000 claims description 14
- 230000033001 locomotion Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 45
- 238000013461 design Methods 0.000 abstract description 8
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 235000018102 proteins Nutrition 0.000 description 607
- 230000006870 function Effects 0.000 description 202
- 125000004429 atom Chemical group 0.000 description 160
- 238000007796 conventional method Methods 0.000 description 42
- 235000001014 amino acid Nutrition 0.000 description 41
- 238000012545 processing Methods 0.000 description 40
- 150000001413 amino acids Chemical group 0.000 description 38
- 238000010586 diagram Methods 0.000 description 37
- 108020004414 DNA Proteins 0.000 description 33
- 238000010276 construction Methods 0.000 description 33
- 239000003814 drug Substances 0.000 description 23
- 239000000126 substance Substances 0.000 description 23
- 125000000539 amino acid group Chemical group 0.000 description 18
- 238000004891 communication Methods 0.000 description 18
- 239000012634 fragment Substances 0.000 description 18
- 238000002922 simulated annealing Methods 0.000 description 17
- 102000006467 TATA-Box Binding Protein Human genes 0.000 description 16
- 108010044281 TATA-Box Binding Protein Proteins 0.000 description 16
- 235000000346 sugar Nutrition 0.000 description 16
- 229940079593 drug Drugs 0.000 description 15
- 229910052751 metal Inorganic materials 0.000 description 15
- 239000002184 metal Substances 0.000 description 15
- 102000005962 receptors Human genes 0.000 description 14
- 108020003175 receptors Proteins 0.000 description 14
- 238000002864 sequence alignment Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 12
- 102100027998 Macrophage metalloelastase Human genes 0.000 description 12
- 101710187853 Macrophage metalloelastase Proteins 0.000 description 12
- XFILPEOLDIKJHX-QYZOEREBSA-N batimastat Chemical compound C([C@@H](C(=O)NC)NC(=O)[C@H](CC(C)C)[C@H](CSC=1SC=CC=1)C(=O)NO)C1=CC=CC=C1 XFILPEOLDIKJHX-QYZOEREBSA-N 0.000 description 12
- 229950001858 batimastat Drugs 0.000 description 12
- 150000001875 compounds Chemical class 0.000 description 12
- 238000000547 structure data Methods 0.000 description 12
- 238000006073 displacement reaction Methods 0.000 description 11
- 239000005556 hormone Substances 0.000 description 11
- 229940088597 hormone Drugs 0.000 description 11
- 150000002739 metals Chemical class 0.000 description 11
- 238000003860 storage Methods 0.000 description 10
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 9
- 101710154606 Hemagglutinin Proteins 0.000 description 9
- 125000000729 N-terminal amino-acid group Chemical group 0.000 description 9
- 101710093908 Outer capsid protein VP4 Proteins 0.000 description 9
- 101710135467 Outer capsid protein sigma-1 Proteins 0.000 description 9
- 101710176177 Protein A56 Proteins 0.000 description 9
- 150000001720 carbohydrates Chemical class 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 239000013078 crystal Substances 0.000 description 9
- 235000013922 glutamic acid Nutrition 0.000 description 9
- 239000004220 glutamic acid Substances 0.000 description 9
- 239000000185 hemagglutinin Substances 0.000 description 9
- 102000039446 nucleic acids Human genes 0.000 description 9
- 108020004707 nucleic acids Proteins 0.000 description 9
- 150000007523 nucleic acids Chemical class 0.000 description 9
- 125000001433 C-terminal amino-acid group Chemical group 0.000 description 8
- 150000002500 ions Chemical class 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 241000712461 unidentified influenza virus Species 0.000 description 8
- 229910052739 hydrogen Inorganic materials 0.000 description 7
- 239000001257 hydrogen Substances 0.000 description 7
- 241000408529 Libra Species 0.000 description 6
- 125000004432 carbon atom Chemical group C* 0.000 description 6
- 230000036961 partial effect Effects 0.000 description 6
- 102000018899 Glutamate Receptors Human genes 0.000 description 5
- 108010027915 Glutamate Receptors Proteins 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 5
- 102000016193 Metabotropic glutamate receptors Human genes 0.000 description 5
- 108010010914 Metabotropic glutamate receptors Proteins 0.000 description 5
- 239000003905 agrochemical Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 5
- 239000000539 dimer Substances 0.000 description 5
- 238000009510 drug design Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 108090000765 processed proteins & peptides Proteins 0.000 description 5
- 102000004196 processed proteins & peptides Human genes 0.000 description 5
- 238000000137 annealing Methods 0.000 description 4
- SQVRNKJHWKZAKO-UHFFFAOYSA-N beta-N-Acetyl-D-neuraminic acid Natural products CC(=O)NC1C(O)CC(O)(C(O)=O)OC1C(O)C(O)CO SQVRNKJHWKZAKO-UHFFFAOYSA-N 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010230 functional analysis Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 239000000575 pesticide Substances 0.000 description 4
- SQVRNKJHWKZAKO-OQPLDHBCSA-N sialic acid Chemical compound CC(=O)N[C@@H]1[C@@H](O)C[C@@](O)(C(O)=O)OC1[C@H](O)[C@H](O)CO SQVRNKJHWKZAKO-OQPLDHBCSA-N 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000012916 structural analysis Methods 0.000 description 4
- 102000003886 Glycoproteins Human genes 0.000 description 3
- 108090000288 Glycoproteins Proteins 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- 210000000170 cell membrane Anatomy 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 229930195712 glutamate Natural products 0.000 description 3
- 239000000710 homodimer Substances 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 3
- 241000271566 Aves Species 0.000 description 2
- KYXHKHDZJSDWEF-LHLOQNFPSA-N CCCCCCC1=C(CCCCCC)C(\C=C\CCCCCCCC(O)=O)C(CCCCCCCC(O)=O)CC1 Chemical compound CCCCCCC1=C(CCCCCC)C(\C=C\CCCCCCCC(O)=O)C(CCCCCCCC(O)=O)CC1 KYXHKHDZJSDWEF-LHLOQNFPSA-N 0.000 description 2
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 2
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 2
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 2
- 102000040945 Transcription factor Human genes 0.000 description 2
- 108091023040 Transcription factor Proteins 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 229920001222 biopolymer Polymers 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 150000002270 gangliosides Chemical class 0.000 description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 150000008163 sugars Chemical class 0.000 description 2
- 238000002424 x-ray crystallography Methods 0.000 description 2
- 238000012982 x-ray structure analysis Methods 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- 241000219194 Arabidopsis Species 0.000 description 1
- XDTMQSROBMDMFD-UHFFFAOYSA-N C1CCCCC1 Chemical compound C1CCCCC1 XDTMQSROBMDMFD-UHFFFAOYSA-N 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 1
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 description 1
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 description 1
- 101000891654 Homo sapiens TATA-box-binding protein Proteins 0.000 description 1
- 241001599018 Melanogaster Species 0.000 description 1
- 102100036834 Metabotropic glutamate receptor 1 Human genes 0.000 description 1
- 101710086716 Metabotropic glutamate receptor 1 Proteins 0.000 description 1
- 102000005741 Metalloproteases Human genes 0.000 description 1
- 108010006035 Metalloproteases Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 102000007079 Peptide Fragments Human genes 0.000 description 1
- 108010033276 Peptide Fragments Proteins 0.000 description 1
- 102000015731 Peptide Hormones Human genes 0.000 description 1
- 108010038988 Peptide Hormones Proteins 0.000 description 1
- 101710093543 Probable non-specific lipid-transfer protein Proteins 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 102000004408 Transcription factor TFIIB Human genes 0.000 description 1
- 108090000941 Transcription factor TFIIB Proteins 0.000 description 1
- 238000005076 Van der Waals potential Methods 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 125000000637 arginyl group Chemical group N[C@@H](CCCNC(N)=N)C(=O)* 0.000 description 1
- 125000002915 carbonyl group Chemical group [*:2]C([*:1])=O 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 102000045334 human TBP Human genes 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 125000004433 nitrogen atom Chemical group N* 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 125000004430 oxygen atom Chemical group O* 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 108020001775 protein parts Proteins 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920005989 resin Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
【解決手段】本発明は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体に関し、特に、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を構築するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体に関する。
【0002】
【従来の技術】
多くの生物種において、全ゲノム配列解析が進められて、その配列情報がデータベース化されている(例えば、非特許文献1参照)。ゲノム配列より、遺伝子の機能を特定、予測することがある程度可能であるが、配列情報のみでは機能を予測できない遺伝子が非常に多く存在する。また、遺伝子は、そのDNA配列からアミノ酸配列に翻訳されたタンパク質が実際に機能を担っている。
【0003】
多くのタンパク質は、種々のホルモンやペプチド、タンパク質、農薬、医薬品などの化合物等といったリガンドと相互作用することにより、生体内で機能を発揮する。多くのタンパク質とリガンドとの相互作用の共通の性質は、タンパク質とリガンドとの相補性のある立体構造であり、各タンパク質の特異的な立体構造の特徴がリガンドとの相互作用の強さ、相互作用するリガンドの機能を決定していると考えられる。
【0004】
リガンドが結合したタンパク質の立体構造を解明する試みは構造生物学において構造決定の主力とされるX線結晶構造解析、NMRを適用して行われ、多くの複合体の構造が解析されてきている。しかし、ゲノム解析から推定されるタンパク質の数は多く、加えてリガンドの種類も多いと予想されるため、すべてのタンパク質とリガンドの組み合わせについての複合体をX線結晶構造解析などの実験的手法により解明することは極めて困難である。そこで、目的とするタンパク質とアミノ酸配列の相同性の高い立体構造既知のタンパク質を探し出し、目的タンパク質の機能を予測することが行われている。
【0005】
アミノ酸配列から立体構造を作成する方法として、ホモロジーモデリング法が広く知られている。これは、任意のアミノ酸配列(目的アミノ酸配列)が与えられたとき、目的アミノ酸配列と類似の配列を有するタンパク質(参照タンパク質)をプロテイン・データ・バンクPDBのような立体構造データベースから検索し、目的アミノ酸配列と類似配列の間のアライメント(配列を並置したもの)を与えた後、アライメント情報を基に、参照タンパク質の3次元座標から目的アミノ酸配列上のアミノ酸ごとの3次元座標を作成する手法である。
【0006】
従来のホモロジーモデリング法としては、例えばFAMS等が挙げられる(例えば、非特許文献2参照)。
【0007】
ここで、このホモロジー法は次の4つのステップよりなる計算科学的手法である。
【0008】
(ステップ1)任意のアミノ酸配列(目的アミノ酸配列)が与えられたとき、目的アミノ酸配列と類似の配列を有するタンパク質(参照タンパク質)をプロテイン・データ・バンクPDBのような立体構造データベースから検索(ホモロジー検索)し、目的アミノ酸配列と類似配列の間のアライメント(配列を並置したもの)を与える。このデータベース検索とアライメントを行うためには、FASTA、PSI−BLAST、LIBRA等のコンピュータソフトがある。
【0009】
FASTAは20種類の天然アミノ酸を意味する20種のアルファベット文字配列のマッチングを行うプログラムであり、高ホモロジー(アミノ酸の一致度約30%以上、FASTAのe値では約0.01以下に相当)の参照タンパク質に対して立体構造構築をすると、信頼性の高いモデルが構築出来るとされている。
【0010】
一方、PSI−BLASTでは、同じように文字配列のマッチングを行うが、文字が一致しているか否かの情報ではなく、プロファイルと呼ばれる文字の一致の度合いを類縁タンパク質の文字配列上部位ごとの置換行列として算出し、更に繰り返し計算を行うことによりアライメントを最適化する性質を持っている。
【0011】
また、LIBRAは3D−1D法(threading法ともいう)に基づくプログラムであり、既知立体構造をプローブにして類似配列を検索するため、FASTAやPSI−BLASTとは検索アルゴリズムが明らかに異なる。そのため、FASTAやPSI−BLASTとは異なる種類の配列間類似性を指摘できる場合がある。
【0012】
(ステップ2)上述したFASTA、PSI−BLAST、LIBRAなどにより算出したアライメントを用いれば、目的アミノ酸配列と類似配列間のアミノ酸ごとの対応関係が決まるので、この関係に基づき、参照タンパク質の3次元座標から目的アミノ酸配列上のアミノ酸ごとの3次元座標を作成する。
【0013】
(ステップ3)目的アミノ酸配列側に対応するアミノ酸が存在しない場合には、参照タンパク質側のその位置のアミノ酸座標は用いず、逆に、参照タンパク質側に対応するアミノ酸が存在しない場合には、その位置の目的アミノ酸配列上のアミノ酸座標は、予め用意しておいたタンパク質断片座標データベースから適切なものを検索して作成する。
【0014】
(ステップ4)上述した(ステップ2)および(ステップ3)によるタンパク質座標の構築では、アミノ酸残基間に構造的に不適切な隙間や衝突や歪みが生じることがあるので、エネルギー極小化計算により、これらの構造的な歪みを解消する。
【0015】
従来のモデリングソフトによっては、(ステップ4)の構造的な歪みの解消をスムーズに行うため、(ステップ2)〜(ステップ4)の計算及び検索処理をタンパク質全原子に対して同時に行うのではなく、例えばシュミレーティッドアニーリング法(SA法)、分子力学計算、モンテカルロ法などを用いて段階的に行うものもある。
【0016】
「SA法」とは、或る系の状態xに対して摂動を与え、新しい状態x’を得たとき、新しい状態でのエネルギー値E(x’)が旧状態のエネルギー値E(x)より小さければ高い確率で、大きければ低い確率で新状態x’への遷移を行うことにより、局所最小点に捉えることなくエネルギーEの大或的最小点を発見しようというものである。即ち、先ずタンパク質の骨格を形成するα炭素原子について、次いでα炭素原子を含む主鎖原子について、SA法によるエネルギー極小化を行い、最後に側鎖を含むタンパク質全体についてSA法によるエネルギー極小化を行うものである。
【0017】
「分子力学計算」とは、系のポテンシャルエネルギーEを座標の関数として表し、主に最大傾斜法または共役勾配法等のエネルギー極小化計算によって、ポテンシャルエネルギーEの下がるべき座標変化を計算する方法である。
【0018】
「モンテカルロ法」とは、統計力学に基づいた確立論的エネルギー最適化計算法である。
【0019】
以上により、目的アミノ酸配列に対するアライメントが得られれば、その立体構造を予測構築することができる。ホモロジーモデリング法により立体構造が未知のタンパク質の立体構造を精度良く予測することができる。
【0020】
【非特許文献1】
Gerardo Jimenez−Sanchez, Nature 409, 853 − 855 (2001)
【非特許文献2】
K.Ogata and H.Umeyama, Journal of Molecular Graphics and Modeling 18, 258−272
【0021】
【発明が解決しようとする課題】
しかしながら、従来法では、タンパク質とリガンドとの相互作用を考慮せずに、立体構造を構築していくため、作成された立体構造において、リガンドとの結合する部分が塞がれていることが多いという問題点を有していた。特に、医薬品などタンパク質の立体構造を利用して分子設計を行うには上記の欠点は重大である。その原因としては、従来のホモロジーモデリング法のアルゴリズムの中ではタンパク質とリガンドとの相互作用を計算していないためである。
【0022】
従来この欠点を取り除く方法としては、コンピュータ上でタンパク質とリガンドとのドッキングシミュレーションを行う方法が数多く知られている。その多くは、既存タンパク質の立体構造を用いて、あるいはホモロジーモデリング等によりタンパク質の立体構造を作成後、リガンドが結合するタンパク質部分を探索し、その部分にリガンドをあてはめ、分子力学法および分子動力学法等を用いてリガンドとタンパク質との相互作用エネルギーを最適化していく方法である。
【0023】
しかしながら、この方法では、リガンドが結合するタンパク質部分の推定が困難である状況に加えて、グローバルミニマムを探索するためには膨大な計算時間と資源が必要なため、ゲノムワイドな産業利用には適さないなどの問題点を有していた。
【0024】
また、こうした方法の多くは取り扱うリガンドの各原子に電価など物理化学的なパラメータを与えなければならず、リガンドの種類に制限があるという問題点も有していた。
【0025】
また、分子力学法および分子動力学法等を用いてコンピュータ上でタンパク質とリガンドとのドッキングシミュレーションを行う方法によって、グローバルミニマムを探索し、リガンドが結合した状態でのタンパク質の立体構造の構築がなされたとしても、精度の高い予測構造を得ることができない場合も多い。その原因としては、タンパク質の立体構造は柔軟であり、リガンドと結合するとそれとよく結合するようタンパク質の立体構造が変化する物理化学的性質をシミュレーション中に充分に反映していないためである。ここで、タンパク質の立体構造が柔軟であり、立体構造が変化する動的な性質のことをタンパク質の「動的挙動」という。
【0026】
これらの原因により、リガンドが結合した状態での単数鎖を含む複数鎖の予測精度の低いタンパク質立体構造を構築した場合、この構造データを利用した農薬、医薬品等の分子設計に悪影響を与えることになる。
【0027】
本発明は上記問題点に鑑みてなされたもので、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することのできるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することを目的としている。
【0028】
【課題を解決するための手段】
このような目的を達成するため、請求項1に記載のタンパク質構造予測装置は、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得手段と、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段と、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段とを備えたことを特徴とする。
【0029】
この装置によれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法(例えばFAMSなど)を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【0030】
すなわち、本装置は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【0031】
また、本装置におけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0032】
また、請求項2に記載のタンパク質構造予測装置は、請求項1に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段を備えたことを特徴とする。
【0033】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、拡張型ホモロジーモデリングの手法において、立体構造の構築に際し、単鎖及び複数鎖タンパク質の構築の際に用いた全体のエネルギーの指標となる目的関数として、リガンドの原子種類に依存しない単純で取り扱い易い平均化された「平均化パラメータ」を使用して計算された相互作用関数を加え、さらに、タンパク質の動的な性質を反映した「動的性質パラメータ」を使用して、ホモロジーモデリング時に参照するタンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する。
【0034】
これにより、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができる。
【0035】
また、これにより、従来法では取り扱うことが極めて困難であった例えばDNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になる。
【0036】
また、これにより、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となる。
【0037】
また、これにより、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現する。
【0038】
なお、このリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。また、リガンドとして全ての物質を取り扱うことができ、原理的にはその数に制限はない。
【0039】
また、請求項3に記載のタンパク質構造予測装置は、請求項1に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索手段をさらに備えたことを特徴とする。
【0040】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばCαからなる部分構造や主鎖やCβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができる。
【0041】
なお、タンパク質の立体構造データベースとして例えばプロテイン・データ・バンク(PDB)などの既存のデータベースを用いてもよい。ここで、PDB中には、タンパク質の立体構造以外にDNAや金属、薬物といった、構成原子がアミノ酸以外のリガンド分子が当該タンパク質と複合体を形成している状態で、またはタンパク質が複数含まれていて複合体を形成している状態で、立体構造が登録されている。こうしたデータベースは例えばタンパク質がDNAや金属、薬物との複合体形成の有無、タンパク質が複合体であるか否かで区別したデータベースを作成し、目的タンパク質中のリガンド有無によりデータベースを使い分けて使用している。
【0042】
このように、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができる。
【0043】
また、請求項4に記載のタンパク質構造予測装置は、請求項3に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段をさらに備えたことを特徴とする。
【0044】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになる。
【0045】
ここで、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができる。こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができる。
【0046】
また、請求項5に記載のタンパク質構造予測装置は、請求項2から4のいずれか一つに記載のタンパク質構造予測装置において、上記動的性質パラメータは、上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および/または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであることを特徴とする。
【0047】
これは動的性質パラメータの一例を一層具体的に示すものである。この装置によれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用する。
【0048】
ここで、パラメータとして取り入れるタンパク質の動的な性質は、例えば、基準振動計算法から得られる分子が時間的にピコオーダーの振動を主とする長周期の熱ゆらぎの大きさをタンパク質を構成している各原子ごとに数値化して割り当てることで、取得することができる。
【0049】
基準振動計算法を用いてのゆらぎの大きさを算出する方法は限定しないが、一例として、Wilson,E.B.,Decius,J.C.,and Cross,P. C. 1955. Molecular Vibration. McGraw−Hill.などに記載された方法を用いてもよい。
【0050】
また、本装置においては基準振動計算方法の代用として、参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータを用いている。例えばαへリックスを構成している部分はゆらぎの大きさが大きく、その部分は大きい数値のパラメータとして、ループを構成している部分はゆらぎの大きさが小さく、その部分は小さい数値のパラメータとして各原子に割り当てることで取得することができる。
【0051】
ここで、参照タンパク質の二次構造判定を行うソフトウェアとしては、例えばDSSP、STRIDE等が挙げられるが、他の方法においても適応可能である。DSSPの詳細は、Kabsch,W. & Sander,C. (1983) Dictionary of protein secondary structure:pattern recognition of hydrogen−bonded and geometrical features. Biopolimers, 22:2577−2637などに記載されている。また、STRIDEの詳細は、Frishman, D & Argos,P.(1995) Knowledge−based secondary structure assignment. Proteins: structure, function and genetics, 23, 566−579などに記載されている。
【0052】
また、請求項6に記載のタンパク質構造予測装置は、請求項1から5のいずれか一つに記載のタンパク質構造予測装置において、上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加する配列修正手段をさらに備えたことを特徴とする。
【0053】
この装置によれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正する。
例えば、一つのタンパク質の配列の終了を意味する「U」の後に、アラビア数字又はアラビア数字の数だけのZを、以下に示すように付加する。
(あるタンパク質鎖のアミノ酸配列)Uアラビア数字(又はアラビア数字の数のZ)(別のタンパク質鎖のアミノ酸配列)
【0054】
ここで、「U」がタンパク質鎖の配列の終了を意味する終止記号であり、アラビア数字またはアラビア数字の数の「Z」はリガンド存在記号である。このように複数の特別文字をリガンドの結合したタンパク質の終止記号「U」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるようになる。
【0055】
このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができる。
【0056】
また、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができる。
【0057】
また、一つのタンパク質の配列の終了を意味するUや加えるリガンドの存在の数を示す文字(一つのタンパク質の配列の終了を意味するUの後のアラビア数字又はアラビア数字の数のZ)はアミノ酸を表す1文字コード以外は別の文字を利用することできる。
【0058】
また、請求項7に記載のタンパク質構造予測装置は、請求項2から6のいずれか一つに記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算手段、
【数3】
Uligandはリガンドとタンパク質の相互作用関数
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化パラメータ
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離
をさらに備えたことを特徴とする。
【0059】
これは平均化パラメータを使用した相互作用関数の一例を一層具体的に示すものである。この装置によれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Uligandの当該計算が行われるようになる。
【0060】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Kligand =10 、ε*=0.15、 r*=2.08
(Cα座標の最適化を行う際は、ε*=0.046、 r*=1.9X ri,j +1.9 )
【0061】
これにより、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。例えば、従来のFAMSにおいては上記関数は存在せず、この方法では、Cα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のFAMSに使用されている各目的関数に、上記の新しい相互作用関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。
【0062】
この相互作用関数は物理化学でよく知られている関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0063】
また、請求項8に記載のタンパク質構造予測装置は、請求項2から7のいずれか一つに記載のタンパク質構造予測装置において、上記目的関数調整部は、上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化手段、をさらに備えたことを特徴とする。
【0064】
これはタンパク質立体構造の最適化の一例を一層具体的に示すものである。この装置によれば、参照するタンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、モデルタンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、以下の計算式からなるタンパク質の原子位置に関する関数の比例定数(Kpos)、および参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、(4)のタンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いる。
【0065】
タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)は以下の式により求める。
【数4】
Uposはタンパク質の原子位置に関するエネルギーを指標とする関数。
Kposはタンパク質の原子位置に関する関数の比例定数。(0 < Kpos < 1)
Xiは目的タンパク質のi残基目の座標。
Xi *は参照タンパク質のi残基目の座標。
【0066】
また、タンパク質の原子位置に関する関数の比例定数(Kpos)は以下の式により求める。
【数5】
Siはi番目残基のゆらぎの値を反映したパラメータ。SiはTiの値が大きいと小さくなる揺らぎに対応した定数。
MはKposを0〜1までの値にする調整因子。
【0067】
ここで、各原子iにおいて正の値を持つSiは、タンパク質のポテンシャルエネルギーが極小であるときの各原子の周辺のポテンシャルエネルギーの勾配に対応する数字であり、勾配が緩やかな時には小さい値となる。即ちゆらぎが大きいとKposは小さい値となる。
【0068】
上式に示した値は規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
【0069】
モンテカルロ法における摂動の大きさは、以下の式により求める。
【数6】
ΔYiはモンテカルロ法において目的タンパク質のi残基目の座標に加える摂動(Å)。
Xi preは摂動を加える前の目的タンパク質のi残基目の座標。
Xi pos tは摂動を加えた後の目的タンパク質のi残基目の座標。
【0070】
ΔYiは加える摂動に関する関数で以下の式に従う。
【数7】
Tiはi番目残基のゆらぎの大きさ。
PはΔYiのノルム(ベクトルの大きさ)を0より大きく5より小さい値にするよう調整しながら発生する乱数。
【0071】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔYi のノルムは大きくてもよく、従って、Kposは小さい値となる。
【0072】
上式に記した規定値、又式は変更可能な値、関数であり、本請求項の範囲を制限するものではない。
【0073】
これにより、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。この手法では、Cα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のFAMSに使用されている各目的関数に、上記の定数や関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。こうした訂正は例えば、SA法においては、タンパク質の立体構造のポテンシャルの勾配をゆらぎを反映して状態にして極小点を探索することに相当し、グローバルミニマムを探索する関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0074】
また、請求項9に記載のタンパク質構造予測装置は、請求項1から8のいずれか一つに記載のタンパク質構造予測装置において、上記リガンド座標取得手段は、上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得することを特徴とする。
【0075】
これはリガンド座標取得手段の一例を一層具体的に示すものである。この装置によれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、DNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができる。
【0076】
また、請求項10に記載のタンパク質構造予測装置は、請求項1から9のいずれか一つに記載のタンパク質構造予測装置において、上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第1機能推定手段をさらに備えたことを特徴とする。
【0077】
この装置によれば、拡張型ホモロジーモデリングの手法において、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のPDBの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができる。
【0078】
また、請求項11に記載のタンパク質構造予測装置は、請求項1から10のいずれか一つに記載のタンパク質構造予測装置において、上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第2機能推定手段をさらに備えたことを特徴とする。
【0079】
この装置によれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができる。
【0080】
また、請求項12に記載のタンパク質構造予測装置は、請求項1から11のいずれか一つに記載のタンパク質構造予測装置において、新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第3機能推定手段をさらに備えたことを特徴とする。
【0081】
この装置によれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができる。
【0082】
また、請求項13に記載のタンパク質構造予測装置は、請求項1から12のいずれか一つに記載のタンパク質構造予測装置において、上記リガンドが上記目的タンパク質以外のタンパク質であることを特徴とする。
【0083】
これはリガンドの一例を一層具体的に示すものである。この装置によれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるようになる。
【0084】
また、本発明はプログラムに関するものであり、請求項14に記載のタンパク質構造予測方法をコンピュータに実行させることを特徴とするプログラムは、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップとを含むことを特徴とする。
【0085】
このプログラムによれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法(例えばFAMSなど)を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【0086】
また、本プログラムにおけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0087】
また、請求項15に記載のプログラムは、請求項14に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整ステップを含むことを特徴とする。
【0088】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、拡張型ホモロジーモデリングの手法において、立体構造の構築に際し、単鎖及び複数鎖タンパク質の構築の際に用いた全体のエネルギーの指標となる目的関数として、リガンドの原子種類に依存しない単純で取り扱い易い平均化された「平均化パラメータ」を使用して計算された相互作用関数を加え、さらに、タンパク質の動的な性質を反映した「動的性質パラメータ」を使用して、ホモロジーモデリング時に参照するタンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する。
【0089】
これにより、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができる。
【0090】
また、これにより、従来法では取り扱うことが極めて困難であった例えばDNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になる。
【0091】
また、これにより、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となる。
【0092】
また、これにより、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現する。
【0093】
なお、このリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。また、リガンドとして全ての物質を取り扱うことができ、原理的にはその数に制限はない。
【0094】
また、請求項16に記載のプログラムは、請求項14に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索ステップをさらに含むことを特徴とする。
【0095】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばCαからなる部分構造や主鎖やCβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができる。
【0096】
なお、タンパク質の立体構造データベースとして例えばプロテイン・データ・バンク(PDB)などの既存のデータベースを用いてもよい。ここで、PDB中には、タンパク質の立体構造以外にDNAや金属、薬物といった、構成原子がアミノ酸以外のリガンド分子が当該タンパク質と複合体を形成している状態で、またはタンパク質が複数含まれていて複合体を形成している状態で、立体構造が登録されている。こうしたデータベースは例えばタンパク質がDNAや金属、薬物との複合体形成の有無、タンパク質が複合体であるか否かで区別したデータベースを作成し、目的タンパク質中のリガンド有無によりデータベースを使い分けて使用している。
【0097】
このように、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができる。
【0098】
また、請求項17に記載のプログラムは、請求項16に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更ステップをさらに含むことを特徴とする。
【0099】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになる。
【0100】
ここで、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができる。こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができる。
【0101】
また、請求項18に記載のプログラムは、請求項15から17のいずれか一つに記載のプログラムにおいて、上記動的性質パラメータは、上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および/または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであることを特徴とする。
【0102】
これは動的性質パラメータの一例を一層具体的に示すものである。このプログラムによれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用する。
【0103】
ここで、パラメータとして取り入れるタンパク質の動的な性質は、例えば、基準振動計算法から得られる分子が時間的にピコオーダーの振動を主とする長周期の熱ゆらぎの大きさをタンパク質を構成している各原子ごとに数値化して割り当てることで、取得することができる。
【0104】
基準振動計算法を用いてのゆらぎの大きさを算出する方法は限定しないが、一例として、Wilson,E.B.,Decius,J.C.,and Cross,P. C. 1955. Molecular Vibration. McGraw−Hill.などに記載された方法を用いてもよい。
【0105】
また、本プログラムにおいては基準振動計算方法の代用として、参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータを用いている。例えばαへリックスを構成している部分はゆらぎの大きさが大きく、その部分は大きい数値のパラメータとして、ループを構成している部分はゆらぎの大きさが小さく、その部分は小さい数値のパラメータとして各原子に割り当てることで取得することができる。
【0106】
ここで、参照タンパク質の二次構造判定を行うソフトウェアとしては、例えばDSSP、STRIDE等が挙げられるが、他の方法においても適応可能である。DSSPの詳細は、Kabsch,W. & Sander,C. (1983) Dictionary of protein secondary structure:pattern recognition of hydrogen−bonded and geometrical features. Biopolimers, 22:2577−2637などに記載されている。また、STRIDEの詳細は、Frishman, D & Argos,P.(1995) Knowledge−based secondary structure assignment. Proteins: structure, function and genetics, 23, 566−579などに記載されている。
【0107】
また、請求項19に記載のプログラムは、請求項14から18のいずれか一つに記載のプログラムにおいて、上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加する配列修正ステップをさらに含むことを特徴とする。
【0108】
このプログラムによれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正する。
例えば、一つのタンパク質の配列の終了を意味する「U」の後に、アラビア数字又はアラビア数字の数だけのZを、以下に示すように付加する。
(あるタンパク質鎖のアミノ酸配列)Uアラビア数字(又はアラビア数字の数のZ)(別のタンパク質鎖のアミノ酸配列)
【0109】
ここで、「U」がタンパク質鎖の配列の終了を意味する終止記号であり、アラビア数字またはアラビア数字の数の「Z」はリガンド存在記号である。このように複数の特別文字をリガンドの結合したタンパク質の終止記号「U」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるようになる。
【0110】
このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができる。
【0111】
また、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができる。
【0112】
また、一つのタンパク質の配列の終了を意味するUや加えるリガンドの存在の数を示す文字(一つのタンパク質の配列の終了を意味するUの後のアラビア数字又はアラビア数字の数のZ)はアミノ酸を表す1文字コード以外は別の文字を利用することできる。
【0113】
また、請求項20に記載のプログラムは、請求項15から19のいずれか一つに記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算ステップ、
【数8】
Uligandはリガンドとタンパク質の相互作用関数
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化パラメータ
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離
をさらに含むことを特徴とする。
【0114】
これは平均化パラメータを使用した相互作用関数の一例を一層具体的に示すものである。このプログラムによれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Uligandの当該計算が行われるようになる。
【0115】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Kligand =10 、ε*=0.15、 r*=2.08
(Cα座標の最適化を行う際は、ε*=0.046、 r*=1.9X ri,j +1.9 )
【0116】
これにより、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。例えば、従来のFAMSにおいては上記関数は存在せず、この方法では、Cα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のFAMSに使用されている各目的関数に、上記の新しい相互作用関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。
【0117】
この相互作用関数は物理化学でよく知られている関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0118】
また、請求項21に記載のプログラムは、請求項15から20のいずれか一つに記載のプログラムにおいて、上記目的関数調整部は、上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化ステップ、をさらに含むことを特徴とする。
【0119】
これはタンパク質立体構造の最適化の一例を一層具体的に示すものである。このプログラムによれば、参照するタンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、モデルタンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、以下の計算式からなるタンパク質の原子位置に関する関数の比例定数(Kpos)、および参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、(4)のタンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いる。
【0120】
タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)は以下の式により求める。
【数9】
Uposはタンパク質の原子位置に関するエネルギーを指標とする関数。
Kposはタンパク質の原子位置に関する関数の比例定数。(0 < Kpos < 1)
Xiは目的タンパク質のi残基目の座標。
Xi *は参照タンパク質のi残基目の座標。
【0121】
また、タンパク質の原子位置に関する関数の比例定数(Kpos)は以下の式により求める。
【数10】
Siはi番目残基のゆらぎの値を反映したパラメータ。SiはTiの値が大きいと小さくなる揺らぎに対応した定数。
MはKposを0〜1までの値にする調整因子。
【0122】
ここで、各原子iにおいて正の値を持つSiは、タンパク質のポテンシャルエネルギーが極小であるときの各原子の周辺のポテンシャルエネルギーの勾配に対応する数字であり、勾配が緩やかな時には小さい値となる。即ちゆらぎが大きいとKposは小さい値となる。
【0123】
上式に示した値は規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
【0124】
モンテカルロ法における摂動の大きさは、以下の式により求める。
【数11】
ΔYiはモンテカルロ法において目的タンパク質のi残基目の座標に加える摂動(Å)。
Xi preは摂動を加える前の目的タンパク質のi残基目の座標。
Xi pos tは摂動を加えた後の目的タンパク質のi残基目の座標。
【0125】
ΔYiは加える摂動に関する関数で以下の式に従う。
【数12】
Tiはi番目残基のゆらぎの大きさ。
PはΔYiのノルム(ベクトルの大きさ)を0より大きく5より小さい値にするよう調整しながら発生する乱数。
【0126】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔYi のノルムは大きくてもよく、従って、Kposは小さい値となる。
【0127】
上式に記した規定値、又式は変更可能な値、関数であり、本請求項の範囲を制限するものではない。
【0128】
これにより、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。この手法では、Cα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のFAMSに使用されている各目的関数に、上記の定数や関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。こうした訂正は例えば、SA法においては、タンパク質の立体構造のポテンシャルの勾配をゆらぎを反映して状態にして極小点を探索することに相当し、グローバルミニマムを探索する関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0129】
また、請求項22に記載のプログラムは、請求項14から21のいずれか一つに記載のプログラムにおいて、上記リガンド座標取得ステップは、上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得することを特徴とする。
【0130】
これはリガンド座標取得ステップの一例を一層具体的に示すものである。このプログラムによれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、DNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができる。
【0131】
また、請求項23に記載のプログラムは、請求項14から22のいずれか一つに記載のプログラムにおいて、上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第1機能推定ステップをさらに含むことを特徴とする。
【0132】
このプログラムによれば、拡張型ホモロジーモデリングの手法において、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のPDBの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができる。
【0133】
また、請求項24に記載のプログラムは、請求項14から23のいずれか一つに記載のプログラムにおいて、上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第2機能推定ステップをさらに含むことを特徴とする。
【0134】
このプログラムによれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができる。
【0135】
また、請求項25に記載のプログラムは、請求項14から24のいずれか一つに記載のプログラムにおいて、新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第3機能推定ステップをさらに含むことを特徴とする。
【0136】
このプログラムによれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができる。
【0137】
また、請求項26に記載のプログラムは、請求項14から25のいずれか一つに記載のプログラムにおいて、上記リガンドが上記目的タンパク質以外のタンパク質であることを特徴とする。
【0138】
これはリガンドの一例を一層具体的に示すものである。このプログラムによれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるようになる。
【0139】
また、本発明は記録媒体に関するものであり、請求項27に記載の記録媒体は、上記請求項14から26のいずれか一つに記載されたプログラムを記録したことを特徴とする。
【0140】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項14から26のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
【0141】
また、本発明はタンパク質構造予測方法に関するものであり、請求項28に記載のタンパク質構造予測方法は、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップとを含むことを特徴とする。
【0142】
この方法によれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法(例えばFAMSなど)を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【0143】
すなわち、本本法は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【0144】
また、本方法におけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【0145】
また、本発明はアミノ酸配列データベースシステムに関するものであり、請求項29に記載のアミノ酸配列データベースシステムは、アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加した修正配列を格納し、上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行うことを特徴とする
【0146】
このアミノ酸配列データベースシステムによれば、任意のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、入力ファイルにリガンドの立体構造座標を単鎖を含む複数鎖タンパク質の立体構造の構築の際に使われるタンパク質のアミノ酸の入力ファイルにさらに終端記号とリガンドを表す文字記号を加え、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算を用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンドが、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することができる。
【0147】
すなわち、本発明のアミノ酸配列データベースシステムの入力形式は、従来法の入力ファイル形式に工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に加えるリガンドの存在とその数を文字(リガンド存在記号)で表記し、プログラム起動時にリガンド座標のファイル名の指定する。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【0148】
【発明の実施の形態】
以下に、本発明にかかるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0149】
[本発明の概要]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。
【0150】
まず以下に本発明の概要について説明する。ここで、好適かつ代表的な例としてホモロジーモデリング法(特に本発明者らにより開発されたFAMS等)を中心に説明するが、代表的な例として説明するものであり、本発明はこれに限定されるものではない。
【0151】
本発明は、北里大学薬学部生物分子設計学教室(梅山秀明教授)で開発した蛋白質自動モデリングシステム(FAMS: K.Ogata and H.Umeyama, Journal of Molecular Graphics and Modeling 18, 258−272, 2000)の適用範囲を拡張するものである。以下、本発明の概要をさらに詳細に説明する。
【0152】
本発明は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【0153】
本発明においては、リガンドとして取り扱うことのできる分子は、その種類や数を限定しないため、蛋白質、ペプチド、DNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なすことができる。これにより、例えば、複数鎖もしくは単数鎖タンパク質とDNAとの複合体、薬物と複数鎖もしくは単数鎖タンパク質複合体といった立体構造構築を構築することができ、従来法より適応範囲を大幅に拡大することができる。また、リガンドを別途、分子力学法または分子動力学法といった計算手法を用いて設計し、この方法に適応することで、具体的に農薬、医薬品等の分子設計を行うことができる。
【0154】
本発明のリガンドの立体構造座標の入力形式は、従来法の入力ファイル形式に工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に加えるリガンドの存在とその数を文字で表記し、プログラム起動時にリガンド座標のファイル名の指定する。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【0155】
本発明の該当タンパク質の動的挙動を反映したパラメータと関数を用いてのタンパク質立体構造の最適化方法は、タンパク質とリガンドとの相互作用計算以外にも適応でき、リガンドを含まないタンパク質の立体構造作成においても適応可能であり、この方法よって最適化された立体構造は従来法と比べて、タンパク質の動的挙動といった物理化学的性質を取り入れている点において、より精度の高い立体構造を作成することもできる。
【0156】
さらには、本発明の最適化方法を、例えば抗体−抗体といった立体構造が既存のタンパク質に適応した場合、抗原−抗体反応におけるタンパク質表面に局在する抗原部位の機能情報として、構造変化と相互作用との関係を得ることができ、機能の理解を迅速かつ正確に行うための手助けとなる。このことは、例えばこうした構造変化座標から得られる情報を利用した医薬設計等に応用するうえで、大変重要な情報となる。
【0157】
尚、本発明のタンパク質の立体構造構築方法において、その基本骨格は、タンパク質の経験的なモデリング法、特にホモロジーモデリング法或いはスレッディング法を利用するものであり、その際X線結晶構造解析等により、タンパク質の立体構造として3次元座標が決定されたものを参照すべき鋳型に用いる。但し、モデリングの対象となる目的タンパク質と参照タンパク質との間で、アミノ酸配列のホモロジーは必ずしも高いことを必要とせず、例えばE−Valueといった規定の条件を満たす全てのタンパク質を参照タンパク質として用いることができる。また、例えば、リガンドとタンパク質との相互作用界面に関してモデリングするので良ければ、必ずしも、立体構造全体について参照し得る実験構造が存在することを必要としない。
【0158】
本明細書において幾つかの用語を使用するが、特に明記しない限り、次の意味を有する。
【0159】
「目的タンパク質」とは、X線結晶解析やNMR解析等により完全な立体構造が決定されておらず、本発明において立体構造構築の対象とするタンパク質を意味する。このタンパク質のアミノ酸配列を「目的アミノ酸配列」と称することがある。この目的タンパク質には、部分構造は解析されているが完全な立体構造が得られていないもの、また、既に機能が特定されているもの、機能が推定されているもの、アミノ酸配列は決定されているが機能は全く不明のものも含まれる。
【0160】
「参照タンパク質」とはその立体構造の詳細がX線結晶解析やNMR解析により既に決定されており、アライメントや原子座標の最適化のために参照するタンパク質を意味する。
【0161】
「アライメント」とは、2種類以上のタンパク質のアミノ酸配列があった場合、相互の対応関係をつけることを意味し、その方法は以下の各ステップの説明において詳述する。
【0162】
「原子座標」とは、三次元空間上で立体構造を記述するものである。それは空間上のある点を原点とする互いに垂直な三方向の相対的な距離であり、タンパク質中に存在する水素原子を除く原子一つあたりに3個の数字からなるベクトル量である。
【0163】
図1は、本発明による複数鎖から成るタンパク質の立体構造構築法の一例を示すフローチャートである。
【0164】
図1に示す通り、この方法においては、先ず、ステップ10において、立体構造未知のタンパク質のアミノ酸配列(以下、「目的アミノ酸配列」と呼ぶ場合がある)を用意する。
【0165】
ステップ20において、FASTAまたはPSI−BLASTまたはLIBRAを用いて立体構造データベースの中から参照するタンパク質構造を選定し、選定された構造のアミノ酸配列とのアライメント(並置)を行う。
【0166】
ステップ30において、検索結果から同一起源の複数の参照タンパク質のアミノ酸配列を選択する。
【0167】
ステップ40において、目的タンパク質に結合するリガンドの座標をリガンド立体構造データベースより選択し、取得する。
【0168】
ステップ50において、単数鎖の場合は、参照タンパク質のアミノ酸配列にリガンドの存在を示し、その種類と数を表す「Z」という文字を配列をアミノ酸配列末尾に加え、同じく目的タンパク質のアミノ配列末尾に「Z」を加える。タンパク質が複数鎖の場合は各アミノ酸配列末尾に「U」という文字を区切りに入れ、リガンドの存在を示し、種類と数を表す「Z」文字を「U」の後に加える。同じく目的アミノ酸配列の対応する位置に「U」を区切り文字として、「Z」をリガンドの存在を示す記号として入れることで配列アライメントを修正する。
【0169】
ステップ60において、ステップ30で定められた参照タンパク質の動的挙動を表すパラメータを基準振動計算結果のデータベースもしくは二次構造判定計算をおこない取得する。
【0170】
ステップ70において、アライメントの情報に基づいて、アミノ酸中の構成原子の一つであるCα原子についてステップ30において定められた参照構造から座標をリガンドの有無によって振り分けられたデータベース、参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースから取得し、ステップ60において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数(ECα)に定数としてセッティングを行い、シミュレーティッドアニーリング法によって目的関数(ECα)を最小化するようにCαの原子座標を最適化する。
【0171】
ステップ80において、ステップ70で得られたCα座標に主鎖原子座標をリガンドの有無によって振り分けられたデータベースさらには参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースより付加し、ステップ60において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数(Emain)に定数としてセッティングを行い、シミュレーティッドアニーリング法によって目的関数(Emain)を最小化するように主鎖原子座標を最適化する。
【0172】
ステップ90において、ステップ80で得られた主鎖原子座標に側鎖座標をリガンドの有無によって振り分けられたデータベースさらには参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースより付加し、ステップ60において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数(Eside)に定数としてセッティングを行い、ステップ70と同様のシミュレーティッドアニーリング法によって立体構造の構築を行う。ステップ100において、出来上がったモデルの立体構造上の妥当性を検査し、最終構造に至る。
【0173】
本発明では、従来は単数鎖もしくは複数鎖の参照構造を用いた構造最適化しかできなかったステップ70、80及び90を修正し、かつステップ60を加えることで、リガンドが結合した状態での単数鎖を含む複数鎖の立体構造にも対応できるようにしたことが従来のFAMSと異なる点である。
【0174】
[システム構成]
まず、本システムの構成について説明する。図2は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、タンパク質構造予測装置100と、アミノ酸配列情報や構造情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。
【0175】
図2においてネットワーク300は、タンパク質構造予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
【0176】
図2において外部システム200は、ネットワーク300を介して、タンパク質構造予測装置100と相互に接続され、利用者に対してアミノ酸配列情報や構造情報等に関する外部データベースやホモロジー検索やモチーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。
【0177】
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【0178】
図2において100は、概略的に、タンパク質構造予測装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、このタンパク質構造予測装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
【0179】
記憶部106に格納される各種のデータベースやテーブル(アミノ酸配列データファイル106a〜リガンド座標データファイル106c)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0180】
これら記憶部106の各構成要素のうち、アミノ酸配列データファイル106aは、アミノ酸配列を格納したデータベースである。アミノ酸配列データファイル106aは、インターネットを経由してアクセスする外部のアミノ酸配列データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの配列情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0181】
このアミノ酸配列データファイル106aに格納される情報は、タンパク質を一意に識別するための識別情報、タンパク質の各種の属性に関する属性情報、アミノ酸配列データ(なお、後述する配列修正部102dの処理により、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加され、および/または、リガンドの存在を示すリガンド存在記号を付加された修正配列であってもよい)等を相互に関連付けて構成されている。
【0182】
また、タンパク質構造データファイル106bは、タンパク質の立体構造に関する立体構造情報等を格納するタンパク質構造データ格納手段である。タンパク質構造データファイル106bは、インターネットを経由してアクセスする外部のタンパク質構造データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの構造情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0183】
このタンパク質構造データファイル106bに格納される情報は、タンパク質や複合体を一意に識別するための識別情報、タンパク質や複合体の各種の属性に関する属性情報、タンパク質や複合体の立体構造データ等を相互に関連付けて構成されている。
【0184】
また、リガンド座標データファイル106cは、リガンドの座標に関するリガンド座標情報等を格納するリガンド座標データ格納手段である。リガンド座標データファイル106cは、インターネットを経由してアクセスする外部のリガンド座標データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの座標情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【0185】
このリガンド座標データファイル106cに格納される情報は、リガンドを一意に識別するための識別情報、リガンドの各種の属性に関する属性情報、リガンド座標データ等を相互に関連付けて構成されている。
【0186】
また、図2において、通信制御インターフェース部104は、タンパク質構造予測装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
【0187】
また、図2において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【0188】
また、図2において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、目的アミノ酸配列取得部102a、リガンド座標取得部102b、拡張型ホモロジーモデリング部102c、配列修正部102d、第1機能推定部102e、第2機能推定部102f、および、第3機能推定部102gを備えて構成されている。
【0189】
このうち、目的アミノ酸配列取得部102aは、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得手段である。
【0190】
また、リガンド座標取得部102bは、目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段である。
【0191】
ここで、リガンド座標取得部102bは、参照タンパク質のプロテイン・データ・バンク(PDB)(外部システム200の提供する外部データベースの一種)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベース(外部システム200の提供する外部データベースの一種)から検索したリガンド座標から当該リガンドの立体構造座標を取得してもよい。
【0192】
また、拡張型ホモロジーモデリング部102cは、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、目的タンパク質とリガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段である。
【0193】
ここで、図3は、拡張型ホモロジーモデリング部102cの構成の一例を示すブロック図である。拡張型ホモロジーモデリング部102cは、図3に示すように、目的関数調整部102h、参照タンパク質検索部102i、参照タンパク質構造変更部102j、相互作用関数計算部102kを含んで構成される。
【0194】
図3において、目的関数調整部102hは、目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段である。
【0195】
ここで、図4は、目的関数調整部102hの構成の一例を示すブロック図である。目的関数調整部102hは、図4に示すように、最適化部102mを含んで構成される。
【0196】
図4において、最適化部102mは、参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化手段である。
【0197】
再び図3に戻り、参照タンパク質検索部102iは、リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベース(例えば、PDBなどの外部システム200の提供する外部データベースや、内部のアミノ酸配列データファイル106aまたはタンパク質構造データファイル106b)から参照タンパク質を検索する参照タンパク質検索手段である。
【0198】
また、参照タンパク質構造変更部102jは、参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段である。また、参照タンパク質構造変更部102jは、この変化させた座標をタンパク質構造データファイル106bに格納する手段である。
【0199】
また、相互作用関数計算部102kは、平均化パラメータを使用した目的タンパク質とリガンドとの相互作用関数を以下の計算式により計算する相互作用関数計算手段である。
【数13】
Uligandはリガンドとタンパク質の相互作用関数
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化パラメータ
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離
【0200】
再び図2に戻り、配列修正部102dは、目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加する配列修正手段である。また、配列修正部102dは、修正された修正配列をアミノ酸配列データファイル106aに格納する修正配列格納手段である。
【0201】
また、第1機能推定部102eは、参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第1機能推定手段である。
【0202】
また、第2機能推定部102fは、リガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第2機能推定手段である。
【0203】
また、第3機能推定部102gは、新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第3機能推定手段である。
【0204】
なお、これら各部によって行なわれる処理の詳細については、後述する。
【0205】
[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に再び図1〜図4を参照して詳細に説明する。
【0206】
以下、図1に示すフローチャートの各ステップについて、図2〜図4を参照して更に詳細に説明する。
【0207】
(ステップ10:構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得)
先ず、タンパク質構造予測装置100は、目的アミノ酸配列取得部102aの処理により、アミノ酸配列データファイル106aまたは外部システム200の外部データベースを参照して、構造未知の目的タンパク質(単数を含む複数鎖から成る、リガンドが結合した状態での立体構造予測対象タンパク質)のアミノ酸配列を取得する(ステップSA−1)。ここで、目的タンパク質のアミノ酸配列を「目的アミノ酸配列」という。
【0208】
ここで用いられる目的タンパク質のアミノ酸配列としては、データベースに登録されているもの、配列が始めて解析されたもの等如何なる由来の配列であってもよい。また部分構造のみが解析されているタンパク質の配列も完全な立体構造の情報を得るために、本発明における立体構造の構築対象とすることができる。
【0209】
また、目的タンパク質のアミノ酸配列を用意するために用いられるデータベースとしては、例えば、”An Internet review: the complete neuroscientist scours the World Wide Web.” Bloom FE, Science 1996; 274(5290):1104−9に詳細が記載されているGCRDb(The G−protein−coupled Receptor Database) : HYPERLINK ”http://www.gcrdb.uthscsa.edu/” http://www.gcrdb.uthscsa.edu/、GPCRDB: HYPERLINK ”http://www.gpcr.org/7tm/” http://www.gpcr.org/7tm/、ExPASy: HYPERLINK ”http://www.expasy.ch/cgi−bin/sm−gpcr.pl” http://www.expasy.ch/cgi−bin/sm−gpcr.pl、ORDB: HYPERLINK ”http://ycmi.med.yale.edu/senselab/ordb/” http://ycmi.med.yale.edu/senselab/ordb/、GeneBank: HYPERLINK ”ftp://ncbi.nlm.nih.gov/genbank/genomes/” ftp://ncbi.nlm.nih.gov/genbank/genomes/、PIR: http://www−nbrf.georgetown.edu/pir/(National Biomedical Research Foundation(NBRF))、Swiss Plot: http://www.expasy.ch/sprot/sprot−top.html(Swiss Institute of Bioinformatics(SIB), European Bioinfomatics Institute(EBI))、TrEMBL(URL及び管理者ともにSwiss Plotと同じ)、TrEMBLNEW(URL及び管理者ともにSwiss Plotと同じ)、DAD: ftp://ftp.ddbj.nig.ac.jp(日本DNAデータバンク)等のデータベースに登録されているヒト(H. sapiens)、ショウジョウバエ(D. melanogaster)、線虫(C. elagans)、酵母(S. cerevisiae)、シロイヌナズナ(A. thaliana)等を挙げることができる。これらのデータベースは単なる例示であり、タンパク質のアミノ酸配列が登録されているものであれば如何なるデータベースを用いることもできる。
【0210】
(ステップ20:FASTA, PSI−BLAST, LIBRA等のアライメントソフトによる参照アミノ酸配列のデータベース検索及び配列アライメント)
ついで、タンパク質構造予測装置100は、参照タンパク質検索部102iの処理により、ステップ10において取得された目的アミノ酸配列に対して、参照タンパク質のアミノ酸配列とアライメントを行う。ここで、参照タンパク質のアミノ酸配列を「参照アミノ酸配列」という。
【0211】
アライメントを行うソフトウエアとしては、例えばFASTAもしくはPSI−BLAST(Position−Specific Iterated BLAST)もしくはLIBRAを使うのが好ましい。
【0212】
FASTAは目的アミノ酸配列と一致度の高い配列を立体構造データベースから探索し、最終的な目的アミノ酸配列と参照タンパク質との一致度をe値として算出するプログラムである。FASTAの詳細は”Effective protein sequence comparison.” Pearson WR, (1996) Methods Enzymol;266:227−58に記載されている。
【0213】
PSI−BLASTはプロファイルアライメントを行うようにプログラムされている。PSI−BLASTの詳細は、”Matching a protein sequence against a collection of PSI−BLAST−constructed position−specific score matrices.” Schaffer AA, Wolf YI, Ponting CP, Koonin EV, Aravind L and Altschul SF, Bioinformatics 1999, 12, 1000−11に記載されている。
【0214】
プロファイルアライメントを実行するPSI−BLASTは配列の類似度を検出することについて、現時点で最高の性能を備えたツールである。このプログラムは、プロファイルのデータベース中の有意なアライメント関係のみから情報を引き出し、アミノ酸配列の部位特異的スコア行列を作成する。次にプログラム内部では目的タンパク質の配列の替わりに作成された部位特異的スコア行列と一致度の高い配列をデータベースから探索し、その部位特異的スコア行列はより有意なアライメントが検出されなくなるまで回数を重ねる毎に逐次更新されてゆく。そして最終的な部位特異的スコア行列と参照タンパク質との一致度をE valueとして算出する。E valueとは配列間の適合の間に存在するランダムなバックグラウンドノイズを定量的に記述したものである。それは二つの配列がどれだけマッチしているかを示すものでもありスコアに対し指数関数的に減少する性質を持ち、結果の有意な閾値を設定する方法として有用である。
【0215】
本発明においては、そのアライメントが、通常98%以上、好ましくは99%以上の信頼性を持つとき、目的タンパク質の立体構造を作成するように判断するのが適当である。PSI−BLASTにおいては、E valueが、統計的に通常0.1以下、好ましくは0.01以下の値を持つときがそれに相当する。
【0216】
これらにより立体構造データベースPDBから参照タンパク質をホモロジー検索し、検索された参照アミノ酸配列と目的アミノ酸配列との配列アライメントを行う。
【0217】
ここで参照タンパク質は、例えば、立体構造データベースから取得される配列と座標のデータベースであるプロテインデータバンク(PDB)等の公共データベースから得られるものである。
【0218】
なお、PDBのデータベースには2002年2月現在で26243個の立体構造が登録されているが、95%以上の配列の一致度があるものは同じカテゴリーと判断し、カテゴリー中からもっとも長い配列のものを、更に同じ長さの場合はX線の分解能の最も高い構造をそのカテゴリーの代表とした。本発明で用いた立体構造データベースはこの代表を集めたデータベースである。本発明時点においては、3922個の代表構造をPDBデータベースとして用いている。
【0219】
(ステップ30:検索結果から、目的タンパク質と同一起源の参照タンパク質のアミノ酸配列を選択)
ついで、タンパク質構造予測装置100は、参照タンパク質検索部102iの処理により、ホモロジー検索の結果から、目的アミノ酸配列に対して複数の同一起源である参照タンパク質のアミノ酸配列とのアライメント結果を選択する。
【0220】
(ステップ40:リガンド座標の選択と取得)
ついで、タンパク質構造予測装置100は、リガンド座標取得部102bの処理により、目的タンパク質と結合するリガンドを選択し、当該リガンドの立体構造座標を取得する。
【0221】
当該リガンドおよびその座標は、ステップ30により選択した参照タンパク質と結合した場合のデータから選択することが好ましいが、別途、分子力学法または分子動力学法を用いてリガンド座標を作成し用いてもよく、さらに既存のリガンドデータベースから取得したリガンド座標を用いてもよい。
【0222】
また、選択するリガンドの種類、数は限定しない。
【0223】
(ステップ50:配列アライメントの修正:単数鎖を含む複数鎖の各アミノ酸配列末尾に終止記号(例えば「U」)と、リガンドの存在を示すリガンド存在記号(例えば「Z」)を付加)
ついで、タンパク質構造予測装置100は、配列修正部102dの処理により、単数鎖を含む複数鎖の各アミノ酸配列末尾に終止記号(例えば「U」)と、リガンドの存在を示すリガンド存在記号(例えば「Z」)を付加する。
【0224】
すなわち、ステップ30により、目的アミノ酸配列が同一起源の単数または複数のタンパク質鎖とアライメントされた場合、従来はリガンドの存在を考慮せずモデリングを行っていたが、本発明では、単数鎖の場合は、参照タンパク質のアミノ酸配列にリガンドの存在を示し、その種類と数を表す「Z」という文字を配列をアミノ酸配列末尾に加え、同じく目的タンパク質のアミノ配列末尾に「Z」を加える。
【0225】
タンパク質が複数鎖の場合は各アミノ酸配列末尾に、一方単数鎖の場合はアミノ酸配列の末尾に「U」という文字を区切りに入れ、リガンドの存在を示し、種類と数を表す「Z」文字を「U」の後に加える。同じく目的アミノ酸配列の対応する位置に「U」を区切り文字として、「Z」をリガンドの存在を示す記号として入れることで配列アライメントを修正する。
【0226】
以下に、配列アライメントの修正の一例を以下に示す。
【0227】
(第1の例)
複数鎖(2つ)の参照タンパク質の第1タンパク鎖について、一つのリガンドが結合している場合には、「UZ」又は「U1(ここで「1」はリガンド存在記号「Z」の数を示す)」として記述する。なお、以下の例において、『A・・・A』の部分は第1タンパク鎖のアミノ酸配列を、また、『R・・・・R』の部分は第2タンパク鎖のアミノ酸配列を示している。
>目的タンパク質
AAAAAAAAAAAAAAAUZRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
>参照タンパク質
AAAAAAAAAAVVAAAUZRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
【0228】
ここで、(U)は最後のタンパク質鎖の後のUは省略も可能を意味する。
【0229】
(第2の例)
複数鎖(2つ)の参照タンパク質の第1タンパク鎖について、二つのリガンドが結合している場合には、「UZZ」又は「U2(ここで「2」はリガンド存在記号「Z」の数を示す)」として記述する。
>目的タンパク質
AAAAAAAAAAAAAAAUZZRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
>参照タンパク質
AAAAAAAAAAVVAAAUZZRRRRRRRRRRRRRRRRRRRRRRRRRR(U)
【0230】
ここで、(U)は最後のタンパク質鎖の後のUは省略も可能を意味する。
【0231】
(第3の例)
複数鎖(2つ)の参照タンパク質の第2タンパク鎖について、リガンドが2つ結合している場合には、「UZZ」又は「U2(ここで「2」はリガンド存在記号「Z」の数を示す)」として記述する。
>目的タンパク質
AAAAAAAAAAAAAAAURRRRRRRRRRRRRRRRRRRRRRRRRRUZZ
>参照タンパク質
AAAAAAAAAAVVAAAURRRRRRRRRRRRRRRRRRRRRRRRRRUZZ
【0232】
(第4の例):なお、リガンドの無いときの複数鎖タンパク質モデリングの場合は、以下のように記述する。
>目的タンパク質
AAAAAAAAAAAAAAAURRRRRRRRRRRRRRRRRRRRRRRRRR(U)
>参照タンパク質
AAAAAAAAAAVVAAAURRRRRRRRRRRRRRRRRRRRRRRRRR(U)
【0233】
ここで、(U)は最後のタンパク質鎖の後のUは省略も可能を意味する。
【0234】
このようにリガンドが結合した状態での単数鎖を含む複数鎖の全てのタンパク質を同時にモデリングするためのアライメントを準備する。
【0235】
(ステップ60:目的タンパク質の動的挙動を表すパラメータの取得)
まず、タンパク質構造予測装置100は、目的関数調整部102hの処理により、ステップ30で定められた参照タンパク質の動的挙動を表すパラメータを基準振動解析法による計算結果のデータベースもしくは二次構造判定計算をおこない取得する。
【0236】
まず、目的関数調整部102hによる、基準振動解析法によるタンパク質の動的挙動を表すパラメータ取得方法について下記に示す。
【0237】
「基準振動解析法」とは、ポテンシャルエネルギーを変位の二次関数として近似し、運動方程式を厳密に解き、最適化構造の周りの微小な振動を解析する方法を意味する。解くべき運動方程式は下記式(1)または(2)である。
【数14】
である。
【0238】
また、ωkは固有値、Uikは固有ベクトルであり、δijはクロネッカーのデルタである。TijとVijはそれぞれ運動エネルギーEkとポテンシャルエネルギーVに関係し、下記式(3)および(4)の通りである。
【数15】
【0239】
ここで、qiは振動の自由度に対応した座標、qi 0は最適化座標、はqiの時間による微分である。Ajkは集団運動Qkと個々の原子運動qjを結ぶ係数であり、下記式(5)の通りである。
【数16】
である。
ここで、αkとδkは初期条件で定められる。
【0240】
上記した基準振動解析法の詳細はWilson,E.B.,Decius,J.C.,and Cross,P. C. 1955. Molecular Vibration. McGraw−Hill.に記載されている。
参照タンパク質に対して、上記で得られた固有値、固有ベクトルを用いて、ある温度・ある固有値での各Cα原子の位置ゆらぎを計算し、このゆらぎの値をCαが含まれるアミノ酸のゆらぎの値とする。目的タンパク質の各アミノ酸のゆらぎの値は、ステップ50におけるアライメントを利用して、目的アミノ酸配列と参照配列の比較から対応するアミノ酸残基ペアにおいて、目的タンパク質のゆらぎの値として参照タンパク質と同一のものを当てはめておく。ゆらぎの値を求められなかったものについては、予め設定しておいた値をあてはめる。こうして得た目的タンパク質の各アミノ酸のゆらぎの値を目的タンパク質の動的な挙動を表すパラメータとする。
【0241】
次に、目的関数調整部102hによる、二次構造判定計算によるタンパク質の動的挙動を表すパラメータ取得方法について下記にしめす。
【0242】
二次構造判定はタンパク質の立体構造座標から計算される。ソフトウェアとしては、例えば、「DSSP(Dictionary of protein secondary structure of protein)」、「STRIDE(Protein secondary structure assignment from atomic coordinate)」等が好ましいが、基本的にはタンパク質の主鎖のねじれ角と水素結合パターンから判別される方法を用いる。
【0243】
ここで、「DSSP」とは、PDB書式のファイルを入力ファイルとして、主鎖の水素結合パターンと、内部回転角等を解析しαへリックスとβシートとを判定するソフトウェアである。DSSPの詳細は、Kabsch,W. & Sander,C. (1983) Dictionary of protein secondary structure:pattern recognition of hydrogen−bonded and geometrical features. Biopolimers, 22:2577−2637に記載されている。
【0244】
また、「STRIDE」とは、PDB書式のファイルを入力ファイルとして、主鎖の水素結合パターンと、内部回転角等を解析しαへリックスとβシートとを判定するソフトウェアである。STRIDEの詳細は、Frishman, D & Argos,P.(1995) Knowledge−based secondary structure assignment. Proteins: structure, function and genetics, 23, 566−579に記載されている。
【0245】
参照タンパク質に対して、上記ソフトウェア等を用いて、二次構造計算を行い、各アミノ酸がとるαへリックス構造、βシート構造、ループ構造を判定する。目的タンパク質の各アミノ酸の二次構造は、ステップ50におけるアライメントを利用して、目的アミノ酸配列と参照配列の比較から対応するアミノ酸残基ペアにおいて、目的タンパク質の二次構造判定として参照タンパク質と同一のものを当てはめておく。二次構造判定を求められなかったものについては、予め設定しておいた結果をあてはめる。こうして得た目的タンパク質の各アミノ酸の二次構造判定結果を目的タンパク質の動的な挙動を表すパラメータとする。
【0246】
また、上記の目的タンパク質の動的挙動を表すパラメータとしては、参照タンパク質の基準振動解析法より取得した結果を用いることが好ましく、当該計算結果は別途データベースとして保存されているものを使用する。二次構造判定計算結果は、好ましくは、基準振動解析が行われていない参照タンパク質を用いる際に基準振動解析計算の代用として使用する。
【0247】
(ステップ70:目的タンパク質のCα原子の初期座標の構築及び最適化)
ついで、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、ステップ40による配列アライメントの結果を受けて、目的アミノ酸配列について、参照アミノ酸配列と比較して挿入および欠損のあるアミノ酸残基についての情報を得る。
【0248】
そして、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、配列アライメントにおいて連続して三残基以上のアミノ酸が対応しているギャップの無い領域を選び出し、その領域においては、これらの残基ペアにおいて、目的タンパク質のCα原子は参照タンパク質と同一のものを用いる。もしくは、タンパク質構造予測装置100は、参照タンパク質構造変更部102jの処理により、ステップ60で行った参照タンパク質の基準振動解析計算結果から得られる固有ベクトルを参照タンパク質の原子座標に加え、この変位させた原子座標からなる立体構造(構造変位立体構造)をもとめ、目的タンパク質のCα座標として当てはめておく。
【0249】
このようにしてCα原子が求められなかった場合には、PDBから予め作成した、リガンドの有無により分けた、Cα原子からなるペプチド断片のデータベース(K.Ogata and H.Umeyama, Journal of Molecular Graphics and Modeling 18,
258−272,2000参照)から座標を当てはめる。
【0250】
配列アライメントにおいてリガンドの存在を示す「Z」が記述してある場合は、リガンドを有するPDBの登録複合体構造データから作成した断片データベースを用い、「Z」が記述してない場合はリガンドを有さないPDBの構造データから作成した断片データベースを用いる。
【0251】
本明細書において「Cα原子」は、各アミノ酸の骨格の中心となる炭素原子を意味する。
【0252】
また、「Cβ原子」は、Cα原子の側鎖側に結合する炭素原子を意味する。
【0253】
また、「C原子」とは、Cα原子に結合するカルボニル基の炭素原子を意味する。
【0254】
次に、参照タンパク質構造変更部102jによる、参照タンパク質の基準振動解析計算結果から得られる参照タンパク質の構造変位立体構造座標を生成する方法を示す。その詳細は、先に出願されたPCT出願WO02/057954号の明細書に詳細に記載されている。
【0255】
上記式(1)〜(5)で得られた固有値、固有ベクトルを用いて、ある温度・ある固有値でのCα原子の「位置ゆらぎ」を計算する。ここで、固有値の数と等しい位置ゆらぎが得られる。参照タンパク質のCα原子の温度因子を位置ゆらぎに換算し、各Cα原子について基準振動解析法の位置ゆらぎとの比を計算し、平均の比を求める。この平均の比は、使用した固有値の数だけあり、この比を掛けたこの固有値に属する固有ベクトルを参照タンパク質の原子座標に加え、この変位させた原子座標からなる立体構造を変位立体構造の1つとする。さらに平均の比を2倍して同様に参照タンパク質の変位立体構造を作成する。固有ベクトルには順・逆の方向があり、固有ベクトルに−1を掛けた逆方向にも同様に変化させる。すなわち、変位構造には使用した固有値の数の4倍だけある。算出する式は下記式(6)〜(10)のとおりである。
【0256】
温度因子と位置ゆらぎの関係は下記式(6)のとおりである。
【数17】
ここで、BiはPDBファイルから得られる原子の温度因子であり、πは円周率、Diは位置ゆらぎに相当する。
【0257】
基準振動法から得られる位置ゆらぎとPDBファイルの温度因子を換算した位置ゆらぎの比は下記式(7)のとおりである。
【数18】
ここでFivは基準振動解析法から得られるv番目の固有値に対するi番目の原子の位置ゆらぎである。
【0258】
比の平均は下記式(8)のとおりである。
【数19】
ここでNは原子数であり、和は原子に対して行う。Mvはv番目の固有値に対する平均の比である。
【0259】
参照タンパク質立体構造の変位構造原子座標は下記式(9)および(10)のとおりである。
【数20】
ここで、Cik 0は参照タンパク質の原子座標、Vik vはv番目の固有値に属する固有ベクトル成分をあらわす。
【0260】
参照タンパク質変位座標はPDBに登録されている座標に対して行い、データベースを作成して使用する。
【0261】
目的タンパク質のCα原子構築には、上記で作成したデータベースを全て用いるが、ステップ40で選択したリガンドと目的タンパク質との立体的な衝突が少ない座標を用いることが好ましい。
【0262】
(ステップ70(1):Cα原子のシミュレーティッドアニーリング法による最適化)
ついで、タンパク質構造予測装置100は、目的関数調整部102hの処理により、上記ステップ70で作成されたCα原子について、シミュレーティッドアニーリングのプロセスを用いて参照タンパク質の座標から構成される関数を用いて最適化する。
【0263】
この目的関数は下記式(11)のとおりである。従来法と本発明の重要な違いの1つは、(11)式中のステップ40で取得したリガンドと、目的タンパク質との相互作用ポテンシャルであるUligandを新たに加え、Cα原子の位置に関するポテンシャルであるUposとUligandを、ステップ50で所得した参照タンパク質の動的な性質を表すパラメータによって下記のように修正した点である。
【数21】
【0264】
Elenは、配列上隣り合う残基のCα原子間の距離に関するもので下記式(12)のように設定される。
【数22】
【0265】
ここでDi,i+1は残基i と残基i+1のCα間距離である。Kl は定数であり2と設定される。但し、1番目のタンパク質鎖のC末端残基k1と2番目のタンパク質鎖のN末端残基k1 +1の間には化学結合が存在しないので、i = k1の場合はElenの計算に含めない。同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、i = kNの場合はElenの計算に含めない(以下、このような操作を相互作用の切断と呼ぶ。)。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ50で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0266】
次に、EangはCα原子の結合角の関数であり下記式(13)のとおりである。
【数23】
【0267】
ここで、 θi (rad)は i, i+1, i+2番目の残基Cα原子の角度である。θ0はPDBのX線構造から(100/180)π(rad)と設定される。Kaは定数であり
1とする。但し、結合角のポテンシャルEangについてもElenと同様の切断操作を行う。即ち、i = kN −1及びi = kNの場合は、Eangの計算に含めない。この切断操作の範囲とk1からkM−1までの残基番号の指定はElenの場合と同様に行う。
【0268】
次にEvdwはCα原子間のファンデルワールスポテンシャルで、下記式(14)のとおりである。
【数24】
【0269】
但し、1番目のタンパク質鎖のC末端残基k1と2番目のタンパク質鎖のN末端残基k1 +1の間には化学結合が存在しないので、i =U1−1ならj > i+1, i = U1ならj > iという条件でEvdwの計算を行わなければならない。同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、i = UN−1ならj > i+1, i = UUNならj > iという条件で同様にEvdwの計算を行わなければならない。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ50で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0270】
次に、Essは対となってS−S結合を構成するCys残基のCα原子間の距離に関するもので下記式(15)のように設定される。
【数25】
【0271】
ここでDi SSは、タンパク質鎖内およびタンパク質鎖間でジスルフィド結合を形成するCys残基のペア同士のCα間距離である。本発明では、残基番号iには全タンパク質鎖にわたる通し番号を用いるため、タンパク質鎖間のEssを従来法のポテンシャル関数で扱うことができる。KSS は定数であり5と設定される。
【0272】
次に、Upos,はCα原子の位置に関する関数であり、下記式(16)のとおりである。
【数26】
【0273】
ここで、Uposはタンパク質の原子位置に関するエネルギーを指標とする関数であり、Kposはタンパク質の原子位置に関する関数の比例定数である(0 < Kpos < 1)。
【0274】
また、Xiは目的タンパク質のi残基目の座標であり、Xi *は参照タンパク質のi残基目の座標である。
【0275】
タンパク質の原子位置に関する関数の比例定数(Kpos)は、下記式(17)のように設定される。
【数27】
Siはi番目残基のゆらぎの値を反映したパラメータであり、SiはTiの値が大きいと小さくなる揺らぎに対応した定数である。
MはKposを0〜1までの値にする調整因子である。
【0276】
また、モンテカルロ法における摂動の大きさは、下記式(18)のように設定される。
【数28】
ここで、ΔYiはモンテカルロ法において目的タンパク質のi残基目の座標に加える摂動(Å)である。
Xi preは摂動を加える前の目的タンパク質のi残基目の座標である。
Xi pos tは摂動を加えた後の目的タンパク質のi残基目の座標である。
【0277】
ΔYiは加える摂動に関する関数で、以下の式(19)に従う。
【数29】
Tiはi番目残基のゆらぎの大きさである。
PはΔYiのノルム(ベクトルの大きさ)を0より大きく5より小さい値にするよう調整しながら発生する乱数である。
【0278】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔYi のノルムは大きくてもよく、従って、Kposは小さい値となる。
【0279】
上記式(17)、(19)において、ステップ60で取得した参照タンパク質の動的な性質を表すパラメータをSi、Tiにセットする。
【0280】
具体例を挙げると、基準振動解析法によって動的な性質を表すゆらぎの値のパラメータを用いた場合は、まず、目的タンパク質の各アミノ酸のゆらぎの値の大きさに従い、ゆらぎの値が大きいアミノ酸残基にはKposが0に近づくように、ΔYYが5に近づくようにする。一方、ゆらぎの値が小さいアミノ酸残基にはKposが1に近づくように、ΔY が0に近づくようにSiとM、PとTに値をセットする。
【0281】
また、二次構造判定を用いた場合は、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造であると判定されたアミノ酸残基にはKposが0に近づくように、ΔYが5に近づくようにする。一方、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造以外と判定されたアミノ酸残基にはKposが1に近づくように、ΔY が0に近づくようにSiとMとPとTiに値をセットする。
【0282】
また、Uligandは、リガンドと目的タンパク質との相互作用ポテンシャルに関する関数であり、下記式(20)のとおりである。
【数30】
Uligandはリガンドとタンパク質の相互作用関数を表す。
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化されたパラメータである。
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離である。
【0283】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
ε*=0.046、 r*=1.9X ri,j +1.9
Cα原子は式(11)に従って、シミュレーティッドアニーリング法を用いて最適化される。この最適化の段階でCα原子の摂動は1.0 Å以内になるように設定する。またこのアニーリングの段階は全てのCα原子について例えば100回づつ計算される。そして、温度に相当するパラメータは、例えば25から0.5回ごとに0.01減らすようし、そのパラメータは以後一定とする。
【0284】
この大きな2つの段階、構造情報の取得とCα原子の構築は例えば10回繰り返され、最小の目的関数値をもつCα原子の座標が最適解として算出される。
【0285】
(ステップ80:主鎖原子座標の構築及び最適化)
ついで、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、ステップ70(1)のCαの原子座標に主鎖の他の原子を付加し、シミュレーティッドアニーリング法によって目的関数を最小化するようにする。
【0286】
まず、Cα原子の立体的な重ねあわせを行い、Cαの原子間距離が2.5Å以下の残基が取り上げられる。Cαを除く主鎖の原子座標はCα原子間距離が最小になるように参照タンパク質の座標から取得しモデル構造とする。
【0287】
参照タンパク質の中に相当する残基が無い場合、主鎖の原子座標はリガンドの有無によりわけたデータベースを用いて、例えば目的タンパク質中のリガンドを含まれている場合は、リガンドがある場合のデータベース中の相当する4残基のタンパク質断片から作成される。
【0288】
目的タンパク質中にリガンドがない場合は、リガンドがない4残基のタンパク質断片のデータベースを使用する。この過程の中で、残基iの主鎖原子はi−1番目からi+2番目までのCα原子間の最小のrmsd値を持つ残基から選ばれる。その際N末端の残基では、Cα原子座標の重ね合わせ範囲がi番目からi+3番目までとなり、C末端の残基およびそのひとつ前の残基では同様にi−3番目からi番目までおよびi−2番目からi+1番目までとなる。
【0289】
主鎖原子の目的関数を基にシミュレーティッドアニーリング法によって主鎖原子座標が最適化される。目的関数は下記式(21)のとおりである。従来法と本発明の重要な違いの1つは、(21)式中のステップ40で取得したリガンドと目的タンパク質との相互作用ポテンシャルであるUligandを新たに加え、Cα原子の位置に関するポテンシャルであるUposとUligandをステップ50で所得した参照タンパク質の動的な性質を表すパラメータによって下記のように修正した点である。
【数31】
【0290】
Ebondは下記式(22)のとおりである。
【数32】
i = UN(N=1,,M−1) かつbi = DCi,Ni+1ならbi − bi 0= 0 (22)
【0291】
ここでbi 0は、標準の結合長であり、それぞれの化学結合の種類によって異なる。Kbは定数であり225とする。Ebondの計算に関しても、CαにおけるElenの計算と同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、Ebondの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0292】
Eangは結合角の関数で、下記式(23)のとおりである。
【数33】
【0293】
ここでθi 0は、標準の結合角であり、それぞれの結合角の種類によって異なる。Kaは定数で45と設定される。Eangの計算に関しても、Ebondの計算と同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、Eangの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0294】
Etorは主鎖のねじれ角のものであり、下記式(24)のとおりである。
【数34】
i = UN(N=1,,M−1) なら ψI − ψi 0 = ωi − ωi 0 = φi+1 − φi+1 0= 0 (24)
【0295】
ここでφi 0とψi 0はRamachandranマップ上での最も近いねじれ角のφi およびψi とする。またωi 0は0としてcis−Pro残基の場合のみπ(rad)とする。KtおよびKωは定数であり、それぞれ10および50とする。Etorの計算に関しても、Eangの計算と同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、Etorの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0296】
Enon−bondは非結合の相互作用の関数で、下記式(25)のとおりである。
【数35】
【0297】
ここでεij と rij* は定数で原子の種類によって異なる。Knonは定数で0.25とし、カットオフ値は8Åとする。Enon−bondの計算に関しても、CαにおけるEvdWの計算と同様に、N番目のタンパク質鎖のC末端残基kNとN+1番目のタンパク質鎖のN末端残基kN +1の間には化学結合が存在しないので、 i = UN(N=1,,M−1) のときは [rNi,Ni+1; rCαi,Ni+1; rCαi,Cαi+1; rCi,Ni+1; rCi,Cαi+1; rCi,Cβi+1; rCi,Ci+1; rOi,Ni+1 ; rOi,Cαi+1] に属するrij が8Å以下であれば、新たにEnon−bondの計算に含めなければならない。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、k1からkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字U1からUM−1までのUの位置によって指定することができる。
【0298】
ESSはCys残基が生成するジスルフィド結合の関数で、下記式(26)のとおりである。
【数36】
ここでDi C αおよびDi C βは、タンパク質鎖内およびタンパク質鎖間でジスルフィド結合を形成するCys残基のペア同士のCα間およびCβ間距離である。本発明では、残基番号iには全タンパク質鎖にわたる通し番号を用いるため、タンパク質鎖間のEssを従来法のポテンシャル関数で扱うことができる。 KSS CαおよびKSS C βは定数であり、7.5である。
【0299】
EchiはCαのキラリティーに関するものであり、下記式(27)のとおりである。
【数37】
ここでτiはN−Cα−Cβ−Cで定められるねじれ角でありKchi は50とする。
【0300】
Ehydrはホモロガスなタンパク質中で保存された主鎖の水素結合に関するもので、下記式(28)のとおり定められる。
【数38】
【0301】
水素結合は、N原子とO原子の距離が2.9± 0.5 Åにあるときに設定される。複数の参照タンパク質中で水素結合があるか否かを判定するときは、75%以上の参照蛋白が存在すると認めた場合に水素結合ありと判定する。Khydrは定数であり0.6である。
【0302】
Uposは原子の位置に関する関数で、下記式(29)のとおりである。
【数39】
Uposはタンパク質の原子位置に関するエネルギーを指標とする関数である。
Kposはタンパク質の原子位置に関する関数の比例定数である(0 < Kpos < 1)。
Xiは目的タンパク質のi残基目の座標である。
Xi *は参照タンパク質のi残基目の座標である。
【0303】
また、タンパク質の原子位置に関する関数の比例定数(Kpos)は、下記式(30)により設定される。
【数40】
Siはi番目残基のゆらぎの値を反映したパラメータである。
SiはTiの値が大きいと小さくなる揺らぎに対応した定数である。
MはKposを0〜1までの値にする調整因子である。
【0304】
また、モンテカルロ法における摂動の大きさは、下記式(31)により設定される。
【数41】
ΔYiはモンテカルロ法において目的タンパク質のi残基目の座標に加える摂動(Å)である。
Xi preは摂動を加える前の目的タンパク質のi残基目の座標である。
Xi pos tは摂動を加えた後の目的タンパク質のi残基目の座標である。
【0305】
ΔYiは加える摂動に関する関数であり、以下式(32)に従う。
【数42】
Tiはi番目残基のゆらぎの大きさである。
PはΔYiのノルム(ベクトルの大きさ)を0より大きく5より小さい値にするよう調整しながら発生する乱数である。
【0306】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔYi のノルムは大きくてもよく、従って、Kposは小さい値となる。
【0307】
上記式(30)、(32)において、ステップ60で取得した参照タンパク質の動的な性質を表すパラメータをSi、Tiにセットする。
【0308】
具体例を挙げると、基準振動解析法によって動的な性質を表すゆらぎの値のパラメータを用いた場合は、まず、目的タンパク質の各アミノ酸のゆらぎの値の大きさに従い、ゆらぎの値が大きいアミノ酸残基にはKposが0に近づくように、ΔYが5に近づくように、ゆらぎの値が小さいアミノ酸残基にはKposが1に近づくように、ΔY が0に近づくようにSiとM、PとTに値をセットする。二次構造判定を用いた場合は、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造であると判定されたアミノ酸残基にはKposが0に近づくように、ΔYが5に近づくように、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造以外と判定されたアミノ酸残基にはKposが1に近づくように、ΔY が0に近づくようにSiとM、PとTiに値をセットする。
【0309】
Uligandは、リガンドと目的タンパク質との相互作用ポテンシャルに関する関数であり、下記式(33)のとおりである。
【数43】
Uligandはリガンドとタンパク質の相互作用関数を表す。
Kligand 、ε*、r*はリガンドの原子種類に依存しない平均化されたパラメータである。
ri,jはi番目のリガンド原子とj番目のタンパク質原子間の距離である。
【0310】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Kligand =10 、ε*=0.15、 r*=2.08
【0311】
次にCβを含む主鎖原子の最適化がシミュレーテッドアニーリングによって行われる。このアニーリングの過程で主鎖とCβの原子の摂動が初期の位置に対して1.0Å以内になるようにする。このアニーリングの段階は主鎖とCβの原子に対して例えば200回行われる。温度に相当するパラメータは例えば50もしくは25から始まり一回毎に0.5倍にしてゆき0.01になるまで続け、その後一定値とする。
【0312】
主鎖の立体配置を幅広くサンプリングするために、本発明の方法では、好ましくは上記の方法を例えば6回行い、最小の目的関数値を持つ主鎖の原子座標を最適解とする。そして、温度に相当するパラメータは、例えば、はじめの2回は50からスタートして3回目から25からスタートすることとする。
【0313】
(ステップ90:側鎖原子座標の構築及び最適化)
ついで、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、側鎖原子座標の構築及び最適化を実行する。ここで、側鎖の構築は、大きく2段階に分かれており、「構造保存部位の側鎖構築」(スッテプ90(1)と「全体の側鎖構築」(スッテプ90(2))に分けられる。従来法との違いは、側鎖のデータベースとして、リガンドの有無により分けたデータベースを、目的タンパク質中でのリガンドの有無により使い分ける点である。
【0314】
(ステップ90(1):構造保存部位の側鎖構築)
算出された主鎖原子に対して、以前の研究における方法を用いてホモロガスなタンパク質から側鎖のねじれ角を得る。この方法の詳細は、”The role of played by environmental residues in side−chain torsional angles within homologous families of proteins: A new method of side chain modeling.” Ogata K and Umeyama H, Prot. Struct. Funct. Genet. 1998, 31, 255−369に記載されている。
【0315】
この方法の中でホモロガスなタンパク質の中で保存されている側鎖の割合を算出し、この情報を基にして側鎖のモデリングを行う。側鎖の保存された部位の側鎖の原子座標は固定した主鎖原子に対して置かれる。
【0316】
例えば、ホモロガスなタンパク質中でアルギニン残基のχ1角が保存されていれば、Cγ原子の座標を置くことができ、Phe残基でχ1とχ2角が保存されていれば、全ての側鎖原子を置くことができる。
【0317】
式(21)を用いたシミュレーティッドアニーリングの最適化の過程は、主鎖とCβの原子のみ行われて、原子の摂動は例えば1.0Å以内となるようにした。この主鎖とCβの原子のアニーリングの段階は例えば200回行われる。そして、温度に相当するパラメータは例えば25からスタートして一回毎に0.5倍にしてゆき0.01になるまで小さくなるようにする。式(21)の中のEnon−bondは主鎖原子と部分的に作成された側鎖原子について行われる。そのとき側鎖原子の座標は最適化の過程を通じて保存されるようにする。
【0318】
構造の情報である Miと水素結合のN−Oのペアは最適化の過程で用いられる。主鎖原子の配置を得るために、上記プロセスを3回繰り返し、目的関数の最小の主鎖原子の座標を算出構造とする。
【0319】
(ステップ90(2):全体の側鎖の構築)
側鎖の構築は固定した主鎖およびCβ原子のもとで行う。これは上記したOgata K and Umeyama H, Prot. Struct. Funct. Genet. 1998, 31, 255−369に開示されている研究成果をもって行われ、それを用いることにより短時間で正確なモデルを与えることができる。
【0320】
次に主鎖構造は低温におけるモンテカルロ法によって最適化され、温度は例えば0.001に設定され式(21)の目的関数Enon−bondを用い、全ての主鎖と側鎖の原子で計算される。
【0321】
そして、N、Cα、C、Cβ原子の最適化の過程で側鎖のねじれ角を最適化された状態を保つように側鎖の座標を再配置する。原子の摂動は例えば0.5Å以内とする。次に側鎖は削除され、上記の側鎖構築が繰り返される。このプロセスは例えば2.4Åの原子同士のぶつかり合いがなくなり、且つN−Cα−Cβ−Cのねじれ角が例えば−120±15°の範囲に収まるまで繰り返される。
【0322】
(ステップ100:最終構造の構築:立体構造予測)
ついで、タンパク質構造予測装置100は、拡張型ホモロジーモデリング部102cの処理により、出来上がったモデルにおいて、リガンドと目的タンパク質との間に例えば2.1Åの原子同士のぶつかり合いがあった場合、ステップ50〜90を前回とは異なる条件のもと行う。
【0323】
上記の通りステップ50において得られたアライメントを基に、ステップ60−90において新たに開発したligand FAMS等のモデリングソフトを用いて立体構造を構築し、モデルが完成する。
【0324】
上記ステップ60−90で示す方法を「ligandFAMS」と称する。一方、本発明の基本となす従来型のホモロジーモデリングソフトを「FAMS」と称し、その詳細はKoji Ogata and Hideaki Umeyama, ”An automatic homology modeling method consisting of database searches and simulated annealing” Journal of Molecular Graphics and Modeling 18, 258−272, 2000に記載されている。
【0325】
本発明によれば、リガンドが結合した状態での単鎖を含む複数鎖から成る立体構造未知のタンパク質(これをコードする遺伝子を含む)の立体構造予測に関して、従来では天然アミノ酸以外には対応できなかったホモロジーモデリング法に対して、リガンド原子をも扱えるような関数、データベースを導入して、さらにリガンドの存在を入力ファイルに加えるといった工夫をし、全立体構造を高速に構築できるシステムを作成した。
【0326】
その結果、従来法では取り扱うことが困難であった例えばDNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築するというように立体構造構築の適応範囲を大幅に拡大するとともに、信頼性の高い立体構造情報を得ることができる。
【0327】
さらに、入力ファイルにリガンド情報を付け加えることで、アミノ酸配列を利用したホモロジー(参照タンパク質と目的タンパク質とのホモロジーを含む)とこれに結合するリガンドとの関係が解析しやすくなるため、ゲノム配列解析、DNAチップを用いた発現プロファイリング解析、プロテオーム解析などで興味深い遺伝子・タンパク質が見つかった場合に、そのタンパク質の立体構造を基準とした機能予測を行うことも従来法よりも効率的になる。
【0328】
また、タンパク質の機能部位を従来法に比べて精度よく予測するので、より効率的・効果的に新規医薬品を設計するための情報を取得できる。
【0329】
[実施例]
以下に、本発明のタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を用いた具体的なタンパク質の構造予測の例について、詳細に説明する。
【0330】
[Batimastatが結合した状態のマトリックスメタロプロアーゼ−12のモデリング例]
まず、Batimastatが結合した状態のマトリックスメタロプロアーゼ−12のモデリング例の処理の詳細について図5〜図10を参照して説明する。マトリックスメタロプロテアーゼ(以下MMPと略す)には、多くのファミリーが存在し、立体構造も多く解析されている。そのうち、MMP−12はBatimastatと呼ばれる薬剤と結合し、その立体構造が知られている。ここで、Batimastatが結合した状態でのMMP−12の立体構造が未知であると仮定し、発明実施の形態で詳述した方法に従って立体構造構築した。作成された立体構造は、既存立体構造さらには従来法(FAMS)で作成した構造と比較した。
【0331】
MMP−12のアミノ酸1次配列は、Swiss−Protより取得した(エントリ名 MM12_HUMAN, アクセッション番号P39900)。
【0332】
ここで、図5は、HUMAN由来のMMP−12の全アミノ酸配列を示す図である(配列表の配列番号1参照。)。図5に示すとおり470残基で下線部分106〜263番目の158残基がBatimastatが結合した状態でのMMP−12の立体構造が解析されている(PDB ID:1JK3、Lang, R., Kocourek, A., Braun, M., Tschesche, H., Huber, R., Bode, W., Maskos, K.: Substrate Specificity Determinants of Human Macrophage Elastase (Mmp−12) Based on the 1.1 A Crystal Structure J.Mol.Biol. 312 pp. 731 (2001))。
【0333】
そこで、この158残基をクエリーとして、2001年11月時点のPIRをモチーフプロファイルとし、PDBのタンパク質アミノ酸配列データベース(2002年4月時点)の39012配列に対してPSI−BLAST検索を行った。E−value が0.001以下の条件で実施した結果、102個の相同配列とのアライメントを取得した。この中でMMPファミリーでリガンドにBrimastatが含まれている1MMB(PDB ID)を参照タンパク質として選択しているアライメントを選択し、1MMBの座標中のBatimastatをリガンド座標として採用した。ホモロジーは53%であった。
【0334】
ここで、図6は、クエリー配列と参照タンパク質(1MMB)とのアライメントの表示例を示す図である(配列表の配列番号2および配列番号3参照。)。このアライメントを入力ファイル形式でリガンドの存在を示すZを加え、図7のような入力ファイル形式にする。
【0335】
ここで、図7は、入力ファイル形式の一例を示す図である(配列表の配列番号4および配列番号5参照。)。
【0336】
また、図7の「Z」が示すところのリガンド座標(Brimastat)は以下のとおりである。
【0337】
そして、モデリングを行った結果作成したモデルをグラフィックで表示する。
ここで、図8は、Batimastat(Ball and Stick)が結合した状態でのMMP−12の立体構造モデルの一例を示す図である。
【0338】
そして、作成したモデルをX線結晶構造(PDB ID: 1JK3) と重ねあわせ、Batimastatが結合している部分付近をグラフィックで表示する。ここで、図9は、Batimastat(Ball and Stick)が結合した状態でのMMP−12の立体構造を比較の一例を示す図である。図9においてgreyで示した部分が目的タンパク質であり、darkgreyで示した部分が1JK3である。
【0339】
次に、図7のアライメントを用いて、従来法(FAMS)でモデリングを行い、図9と同様にX線結晶構造(PDB ID: 1JK3) と重ねあわせた。ここで、従来法および本発明法でのモデルとX線結晶構造(1JK3)とのBatimastatが結合している部分の根平均二乗変位(RSMD)を計算し、比較を行った。RSMD値は小さいほど、1JK3との誤差が少ないことを示している。
【0340】
ここで、図10は、MMP−12のBtimastat結合部分におけるX線構造解析立体構造(1JK3)と、従来法および拡張型法での立体構造モデルとのRSMDの比較結果(単位;Å)の一覧を示す図である。
【0341】
図10に示すように、本発明によると、従来法に比べて、リガンドを加えることにより、モデル中でリガンド結合部分が明確にわかり、かつ結合部分に関しては立体構造を精度よくモデリングすることができたことがわかる。
【0342】
[DNAが結合した状態でのTATA−Box−Binding Proteinのモデリング例]
次に、DNAが結合した状態でのTATA−Box−Binding Proteinのモデリング例の処理の詳細について図11〜図16を参照して説明する。DNAの転写にはRNAポリメラーゼの他に一群の普遍的転写因子が必要である。 これらの因子のいくつかは転写開始の前段階においてプロモーター部位のDNA上で複合体を形成し、RNAポリメラーゼを引き寄せる。この複合体はTFIIBとTATA−box結合タンパク質(TATA−box binding protein; TBP)および TATA−DNAから構成 されている。
【0343】
DNAが結合した状態でのTBPとの複合体はいくつか構造解析されているが、このうちNikolovらの報告したTBPとDNA断片との複合体(Nikolov, D. B., Chen, H., Halay, E. D., Hoffman, A., Roeder, R. G., Burley, S. K.: Crystal structure of a human TATA box−binding protein/TATA element complex. Proc Natl Acad Sci U S A 93 pp. 4862 (1996))に関して立体構造が未知であると仮定し、発明実施の形態で詳述した方法に従って立体構造を構築した。
【0344】
TBPのアミノ酸1次配列は、Swiss−Protより取得した(エントリ名TF2D_HUMAN,アクセッション番号P20226)。ここで、図11は、HUMAN由来のTBPの全アミノ酸配列を示す図である(配列表の配列番号6参照。)。図11に示すとおり339残基で下線部分155〜333番目の178残基がDNA断片が結合した状態でのTBPの立体構造が解析されている(PDB ID:1CDW)。
【0345】
そこで、この178残基をクエリーとして、2001年11月時点のPIRをモチーフプロファイルとし、PDBのタンパク質アミノ酸配列データベース(2002年4月時点)のうち転写因子関連を集めた544配列に対してPSI−BLAST検索を行った。E−value が0.001以下の条件で実施した結果、14個の相同配列とのアライメントを取得した。この中で参照タンパク質座標中にDNA断片がが含まれている1D3U(PDB ID)のアライメントを選択した。さらに1 D3Uの座標中のDNA断片をリガンド座標として採用した。ホモロジーは38%であった。
【0346】
ここで、図12は、クエリー配列と参照タンパク質(1D3U)とのアライメントの一例を示す図である(配列表の配列番号7および配列番号8参照。)。
【0347】
そして、上記アライメントを入力ファイル形式でリガンドの存在を示すZを加え、図13の様にする。ここで、図13は、入力ファイル形式の一例を示す図である(配列表の配列番号9および配列番号10参照。)。
【0348】
図13において、「Z」が示すところのリガンド座標(DNA断片)は以下のとおりである。
【0349】
そして、モデリングを行った結果作成したモデルを以下にグラフィックで表示する。ここで、図14は、DNA断片(grey arrow)が結合した状態でのTBP(dark gray)の立体構造モデルの一例を示す図である。
【0350】
そして、作成したモデルをX線結晶構造(PDB ID: 1CDW) と重ねあわせ、DNAが結合している部分付近をグラフィックで表示する。ここで、図15は、DNA断片(brack arrow )が結合した状態でのTBP の立体構造の比較の一例を示す図である。図15において、grey部分が目的タンパク質を示し、darkgrey部分が1CDWを示している。
【0351】
そして、図13のアライメントを用いて、従来法(FAMS)でモデリングを行い、図15と同様にX線結晶構造(PDB ID: 1CDW) と重ねあわせた。ここで、従来法および本発明法でのモデルとX線結晶構造(1CDW)とのDNA断片が結合している部分の根平均二乗変位(RSMD)を計算し、比較を行った。RSMD値は小さいほど、1CDWとの誤差が少ないことを示している。
【0352】
ここで、図16は、TBPのDNA断片結合部分におけるX線構造解析立体構造(1CDW)と従来法および拡張型法での立体構造モデルとのRSMDの比較結果(単位;Å)の一覧を示す図である。
【0353】
このように、本発明は、従来手法と比較して、DNAといった物質もリガンドとして加えることで複合体の立体構造を構築することができ、モデル中ではリガンド結合部分が明確にわかり、かつ結合部分に関しては立体構造を精度よくモデリングすることができることがわかる。
【0354】
[インフルエンザウィルス(ヘマグルチニン)の立体構造構築]
次に、インフルエンザウィルス(ヘマグルチニン)の立体構造構築処理の詳細について図17〜図23を参照して説明する。インフルエンザは、インフルエンザウイルスにより引き起こされる病気である。インフルエンザウイルスは極めて変異しやすいために、その連続進化過程において動物や、時としてヒトに世界的大流行を引き起こす。インフルエンザウイルスにはA、BおよびC型があり、これらはいずれもシアル酸およびその誘導体を含む糖鎖をレセプターとして認識している。
【0355】
インフルエンザウイルス膜には2種のスパイク(ウイルスの細胞膜外表面に突き出ている)糖タンパク質が存在する。うち一つはヘマグルチニン(hemagglutinin:HA)であり、ウイルスが宿主細胞膜上のガングリオシドやシアル酸含有糖タンパク質受容体へ結合する上で必須であり、ウイルス感染を進める役目をしている。現在までに報告されているインフルエンザウイルスのヘマグルチニンには15種類あり、ヒトではH1,H2,H3,H5の4種類が確認されている。また、ウマではH3,H7、アザラシでは、H4,H7、トリでは15種類すべてのヘマグルチニンが確認されている。
【0356】
ヘマグルチニンに立体構造はいくつか知られているが、このうちの一つで、D.C. Wileyらの報告したトリのH5およびブタのH9のヘマグルチニンとシアル酸およびその誘導体を含む糖鎖レセプターの類似化合物との複合体の立体構造はヘマグルチニンと糖鎖レセプターとの結合様式解明に示唆を与えた(Proc.Nat.Acad.Sci.USA 98 pp. 11181 (2001))。PDBには4種類の蛋白質立体構造(1JSH、1JSI、1JSN、1JSO)として登録されている。
【0357】
本実施例では、1JSHを用いて、タンパク質アミノ酸配列データベースから構造、機能にほぼ同一と考えられるタンパク質を選択し、糖鎖レセプターの類似化合物との複合体の立体構造を構築した。
【0358】
1JSHには、HA1、HA2の2つのポリペプチド鎖と、5つの糖類、さらに糖鎖レセプターの類似化合物が含まれている。
【0359】
1JSHのHA1のアミノ酸配列は317残基であり、図17の通りである。ここで、図17は、1JSHのHA1のアミノ酸配列を示す図である(配列表の配列番号11参照。)。
【0360】
この317残基の配列をクエリーとして、2002年5月時点のPIRをモチーフプロファイルとし、Swiss Prot, TREMBL,等のタンパク質アミノ酸配列データベース(いずれも2002年7月時点)の382361配列に対してPSI−BLAST検索を行った。E−value が0.01以下の条件で実施した結果、500個の相同配列とのアライメントを取得した。PSI−BLASTにおいては、E−Valueが統計的に通常0.1以下、好ましくは0.01以下の値をもつときは、目的タンパク質は参照タンパク質のようなある機能をもったタンパク質ファミリーであるとして立体構造を作成するように判断するのが適当である。
【0361】
1JSHのHA2のアミノ酸配列は160残基であり、図18の通りである。ここで、図18は、1JSHのHA2のアミノ酸配列を示す図である(配列表の配列番号12参照。)。
【0362】
この160残基の配列をクエリーとして、2002年5月時点のPIRをモチーフプロファイルとし、Swiss Prot, TREMBL,等のタンパク質アミノ酸配列データベース(いずれも2002年7月時点)の382361配列に対してPSI−BLAST検索を行った。E−value が0.01以下の条件で実施した結果、13個の相同配列とのアライメントを取得した。
【0363】
こうして選択した相同配列とアライメントに対して、一例としてHA1をクエリーとしたアライメントからはTREMBLデータベース中のID「Q9Q0I0」を選択し、HA2をクエリーとしたアライメントからはGenPePt Proteinデータベース中のID「CAA24291x1」を選択し、さらに1JSH中の5つの糖と糖鎖レセプターの類似化合物をリガンドとしてモデリングを行った。アライメントは図19および図20に示す通りである。ここで、図19は、クエリー配列(HA1)と目的タンパク質とのアライメントの一例を示す図であり(配列表の配列番号13および配列番号14参照。)、また、図20は、クエリー配列(HA2)と目的タンパク質とのアライメントの一例を示す図である(配列表の配列番号15および配列番号16参照。)。
【0364】
上記アライメントを入力ファイル形式でタンパク鎖の終端を示す「U」とリガンドの存在を示す「Z」を加え、図21のような入力ファイル形式にする。ここで、図21は、入力ファイル形式の一例を示す図である。図21の「q9p0」のアミノ酸配列が目的タンパク質名を表す。
【0365】
また、図21において、「Z」が示すところのリガンド座標(5つの糖および糖鎖レセプターの類似化合物)は以下のとおりである。
【0366】
そして、モデリングを行った結果作成したモデルをグラフィック表示する。ここで、図22は、「Q9Q0I0」(grey)/「CAA24291x1」(dark grey)/糖、糖レセプター類似化合物(ball and stick)複合体のモデルの一例を示す図である。
【0367】
さらに、機能解析に重要な「Q9Q0I0」と糖鎖レセプター類似化合物との結合部分の拡大図を図23に示す。ここで、図23は、「Q9Q0I0」(grey)と糖鎖レセプター類似化合物(black ) との結合部分の拡大図の一例を示す図である。
【0368】
このように、目的タンパク質が複合体を形成している場合においても、タンパク質鎖の分かれ目を表す「U」とリガンド「Z」を用いることで、ファンデルワールス衝突を考慮した立体構造を作成することができる。さらに、本実施例で用いたヘマグルチニンと糖鎖レセプターの類似化合物との複合体の立体構造モデルを用いることにより、結合部分の相互作用様式がより明解となり、インフルエンザウイルスが宿主細胞膜上のガングリオシドやシアル酸含有糖タンパク質受容体へ結合する機構の解明や医薬品設計に重要な情報を得ることができる。
【0369】
[代謝型グルタミン酸レセプターファミリーのモデリング例]
次に、代謝型グルタミン酸レセプターファミリーのモデリングの処理の詳細について図24〜図27を参照して説明する。
【0370】
従来法による複数鎖を有するタンパク質の立体構造構築方法においては、任意のアミノ酸配列を有する複数鎖の目的タンパク質を「FAMS」のようなホモロジーモデリング法による単数鎖のタンパク質の立体構造構築方法に修正を加えて、複数鎖を有するタンパク質を単数鎖のタンパク質のように扱いながら立体構造を構築していく方法が挙げられる。
【0371】
しかしながら、この手法による複数鎖のタンパク質の立体構造構築では、アルゴリズムの制限により、例えば1残基のみのアミノ酸を取り扱う場合では立体構造構築の精度が下がり難しいということが経験的に分っている。そこで、本実施例では、グルタミン酸レセプターにおいて、機能的に意味のある一残基のグルタミン酸をリガンドとして扱い、グルタミン酸レセプターのダイマーにグルタミン酸(アミノ酸一残基)が結合した複合体モデルを構築し、本発明方法により従来法よりも精度が高い立体構造モデルを構築でき、本発明法が進歩性、新規性を有するということを示す。
【0372】
ラット由来の代謝型グルタミン酸受容体タイプI蛋白質(Metabotropic glutamate receptor 1)のアミノ酸1次配列は、Swiss−Protより取得した(エントリ名 MGR1_RAT, アクセッション番号P23385)。図24は、ラット由来の代謝型グルタミン酸受容体タイプIの全アミノ酸配列を示す図である(配列表の配列番号17参照。)。
【0373】
これは図24に示すとおり、全体が1199残基で、前半の下線で示した477残基中、448〜456番目の残基同士が接触部位となり2量体(ホモダイマー)となり、グルタミン酸受容体部分を形成していることが、森川らによるX線構造解析の結果、明らかとなっている。グルタミン酸受容体部分を形成していることが、森川らによるX線構造解析の結果、明らかとなっている(Kunishima, N., Shimada, Y., Tsuji, Y., Sato, T., Yamamoto, M., Kumasaka, T., Nakanishi, S., Jingami, H., Morikawa, K.: Structural Basis of Glutamate Recognition by a Dimeric Metabotropic Glutamate Receptor Nature 407 pp. 971 (2000)) 。PDBには3種類の蛋白質立体構造(1EWK, 1EWT, 1EWV)として登録されている。
【0374】
うち、1EWKはリガンドとして機能的に意味のあるグルタミン酸(アミノ酸一残基)が含まれているが、477残基中125〜153残基部分欠損部分があり、複合体の立体構造としては不完全である。
【0375】
そこで、この1199残基をクエリーとして、2001年11月時点のPIRをモチーフプロファイルとし、PIR, Swiss Prot, TREMBL, TREMBL_NEW, GenPept等のタンパク質アミノ酸配列データベース(いずれも2001年11月時点)の774804配列に対してPSI−BLAST検索を行った。E−value が0.001以下の条件で実施した結果、14509個の相同配列とのアライメントを取得した。そのうちE−value が0となるものが70ある(ホモロジーは23〜100%)。これらは、機能的にほぼ同一と見てよい。この中で同じRAT由来のレセプターでSwiss Prot中のエントリー名「MGR5_RAT」アクセッション番号「P31424」のモデリングを行った。ホモロジーは62.2%であった。
【0376】
ここで、図25は、アライメントの一例を示す図である(配列表の配列番号18および配列番号19参照。)。図25のアライメント中でPDBの1EWKの座標が存在する部分に関して「P31424」のホモダイマーとアミノ酸一残基のグルタミン酸との複合体のモデリングを行った。アライメントを修正し、入力ファイル形式は、鎖の分かれ(終端)を示す「U」と機能的に意味のあるアミノ酸一残基のグルタミン酸をリガンドとして、その存在を表す「Z」を加えて、図26に示す入力ファイルを作成した。図26は、入力ファイル形式の一例を示す図である。
【0377】
図26において、「Z」が示すところのリガンド座標(グルタミン酸)は以下のとおりである。
【0378】
そして、モデリングを行った結果、作成したモデルを図27に示すようにグラフィックで表示した。ここで、図27は、「MGR5_RAT」(A鎖:grey、B鎖:dark grey)のダイマー/グルタミン酸(ball and stick)複合体のモデルの一例を示す図である。
【0379】
このように、本発明方法により、機能的に意味のあるアミノ酸一残基のグルタミン酸とグルタミン酸レセプターのダイマーとの複合体モデルを構築することができる。
【0380】
一方、アミノ酸一残基のグルタミン酸をタンパク質鎖として扱い、上記入力ファイル中で「Z」の代わりに「EU」と置き換えモデリングを行うことを試みたが、アルゴリズム上の制限により、立体構造の構築が出来なかった。さらに、上記入力ファイル中で「Z」を除いて、立体構造を構築した場合は、機能的に重要なアミノ酸一残基のグルタミン酸を含まない、「MGR5_RAT」のホモダイマーのみの立体構造を構築することが出来た。
【0381】
以上のことから、従来法では取り扱うことが難しいと考えられる、例えば1残基からなるのアミノ酸分子をリガンドとして取り扱うことで、本発明法は、従来法よりも精度の向上した、進歩性、新規性を有する複合体モデルを構築することができることが分った。
【0382】
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【0383】
例えば、タンパク質構造予測装置100を、アミノ酸配列データベースシステムとして構成してもよい。すなわち、このアミノ酸配列データベースシステムは、アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加した修正配列を格納し(上述した実施形態のアミノ酸配列データファイル106aが該当する。)、上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行う(上述した実施形態の拡張型ホモロジーモデリング部102cの処理が該当する。)。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【0384】
また、タンパク質構造予測装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、タンパク質構造予測装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【0385】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
【0386】
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0387】
また、タンパク質構造予測装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
【0388】
例えば、タンパク質構造予測装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じてタンパク質構造予測装置100に機械的に読み取られる。
【0389】
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、タンパク質構造予測装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0390】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0391】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0392】
記憶部106に格納される各種のファイル、データベース等(アミノ酸配列データファイル106a〜リガンド座標データファイル106c)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0393】
また、タンパク質構造予測装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0394】
さらに、タンパク質構造予測装置100等の分散・統合の具体的形態は明細書および図面に示すものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる(例えば、グリッド・コンピューティングなど)。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0395】
また、ネットワーク300は、タンパク質構造予測装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC―P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【0396】
【発明の効果】
以上詳細に説明したように、本発明によれば、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法(例えばFAMSなど)を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0397】
また、本発明によれば、リガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能であるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0398】
また、本発明によれば、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0399】
また、本発明によれば、従来法では取り扱うことが極めて困難であった例えばDNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0400】
また、本発明によれば、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0401】
また、本発明によれば、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0402】
また、本発明によれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばCαからなる部分構造や主鎖やCβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0403】
また、本発明によれば、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0404】
また、本発明によれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0405】
また、本発明によれば、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0406】
また、本発明によれば、こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0407】
また、本発明によれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0408】
また、本発明によれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0409】
また、本発明によれば、複数の特別文字をリガンドの結合したタンパク質の終止記号「U」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0410】
また、本発明によれば、このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0411】
さらに、本発明によれば、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0412】
さらに、本発明によれば、一つのタンパク質の配列の終了を意味するUや加えるリガンドの存在の数を示す文字(一つのタンパク質の配列の終了を意味するUの後のアラビア数字又はアラビア数字の数のZ)はアミノ酸を表す1文字コード以外は別の文字を利用することできるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0413】
さらに、本発明によれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Uligandの当該計算が行われるようになるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0414】
さらに、本発明によれば、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0415】
さらに、本発明によれば、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0416】
さらに、本発明によれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、DNA、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0417】
さらに、本発明によれば、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のPDBの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0418】
さらに、本発明によれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0419】
さらに、本発明によれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0420】
さらに、本発明によれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【0421】
さらに、本発明によれば、任意のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、入力ファイルにリガンドの立体構造座標を単鎖を含む複数鎖タンパク質の立体構造の構築の際に使われるタンパク質のアミノ酸の入力ファイルにさらに終端記号とリガンドを表す文字記号を加え、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算を用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンドが、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することができるアミノ酸配列データベースシステムを提供することができる。
【0422】
【配列表】
【図面の簡単な説明】
【図1】本発明による複数鎖から成るタンパク質の立体構造構築法の一例を示すフローチャートである。
【図2】本発明が適用される本システムの構成の一例を示すブロック図である。
【図3】拡張型ホモロジーモデリング部102cの構成の一例を示すブロック図である。
【図4】目的関数調整部102hの構成の一例を示すブロック図である。
【図5】HUMAN由来のMMP−12の全アミノ酸配列を示す図である。
【図6】クエリー配列と参照タンパク質(1MMB)とのアライメントの表示例を示す図である。
【図7】入力ファイル形式の一例を示す図である。
【図8】Batimastat(Ball and Stick)が結合した状態でのMMP−12の立体構造モデルの一例を示す図である。
【図9】Batimastat(Ball and Stick)が結合した状態でのMMP−12の立体構造を比較の一例を示す図である。
【図10】MMP−12のBtimastat結合部分におけるX線構造解析立体構造(1JK3)と、従来法および拡張型法での立体構造モデルとのRSMDの比較結果(単位;Å)の一覧を示す図である。
【図11】HUMAN由来のTBPの全アミノ酸配列を示す図である。
【図12】クエリー配列と参照タンパク質(1D3U)とのアライメントの一例を示す図である。
【図13】入力ファイル形式の一例を示す図である。
【図14】DNA断片(grey arrow)が結合した状態でのTBP(dark gray)の立体構造モデルの一例を示す図である。
【図15】DNA断片(brack arrow )が結合した状態でのTBP の立体構造の比較の一例を示す図である。
【図16】TBPのDNA断片結合部分におけるX線構造解析立体構造(1CDW)と従来法および拡張型法での立体構造モデルとのRSMDの比較結果(単位;Å)の一覧を示す図である。
【図17】1JSHのHA1のアミノ酸配列を示す図である。
【図18】1JSHのHA2のアミノ酸配列を示す図である。
【図19】クエリー配列(HA1)と目的タンパク質とのアライメントの一例を示す図である。
【図20】クエリー配列(HA2)と目的タンパク質とのアライメントの一例を示す図である。
【図21】入力ファイル形式の一例を示す図である。
【図22】「Q9Q0I0」(grey)/「CAA24291x1」(dark grey)/糖、糖レセプター類似化合物(ball and stick)複合体のモデルの一例を示す図である。
【図23】「Q9Q0I0」(grey)と糖鎖レセプター類似化合物(black ) との結合部分の拡大図の一例を示す図である。
【図24】ラット由来の代謝型グルタミン酸受容体タイプIの全アミノ酸配列を示す図である。
【図25】アライメントの一例を示す図である。
【図26】入力ファイル形式の一例を示す図である。
【図27】「MGR5_RAT」(A鎖:grey、B鎖:dark grey)のダイマー/グルタミン酸(ball and stick)複合体のモデルの一例を示す図である。
【符号の説明】
100 タンパク質構造予測装置
102 制御部
102a 目的アミノ酸配列取得部
102b リガンド座標取得部
102c 拡張型ホモロジーモデリング部
102d 配列修正部
102e 第1機能推定部
102f 第2機能推定部
102g 第3機能推定部
102h 目的関数調整部
102i 参照タンパク質検索部
102j 参照タンパク質構造変更部
102k 相互作用関数計算部
102m 最適化部
104 通信制御インターフェース部
106 記憶部
106a アミノ酸配列データファイル
106b タンパク質構造データファイル
106c リガンド座標データファイル
108 入出力制御インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク
Claims (29)
- 構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得手段と、
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段と、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段と、
を備えたことを特徴とするタンパク質構造予測装置。 - 上記拡張型ホモロジーモデリング手段は、
上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段、
を備えたことを特徴とする請求項1に記載のタンパク質構造予測装置。 - 上記拡張型ホモロジーモデリング手段は、
上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索手段、
をさらに備えたことを特徴とする請求項1に記載のタンパク質構造予測装置。 - 上記拡張型ホモロジーモデリング手段は、
上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段、
をさらに備えたことを特徴とする請求項3に記載のタンパク質構造予測装置。 - 上記動的性質パラメータは、
上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および/または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであること、
を特徴とする請求項2から4のいずれか一つに記載のタンパク質構造予測装置。 - 上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加する配列修正手段、
をさらに備えたことを特徴とする請求項1から5のいずれか一つに記載のタンパク質構造予測装置。 - 上記目的関数調整部は、
上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化手段、
をさらに備えたことを特徴とする請求項2から7のいずれか一つに記載のタンパク質構造予測装置。 - 上記リガンド座標取得手段は、
上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得すること、
を特徴とする請求項1から8のいずれか一つに記載のタンパク質構造予測装置。 - 上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第1機能推定手段、
をさらに備えたことを特徴とする請求項1から9のいずれか一つに記載のタンパク質構造予測装置。 - 上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第2機能推定手段、
をさらに備えたことを特徴とする請求項1から10のいずれか一つに記載のタンパク質構造予測装置。 - 新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第3機能推定手段、
をさらに備えたことを特徴とする請求項1から11のいずれか一つに記載のタンパク質構造予測装置。 - 上記リガンドが上記目的タンパク質以外のタンパク質であること、
を特徴とする請求項1から12のいずれか一つに記載のタンパク質構造予測装置。 - 構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップと、
を含むタンパク質構造予測方法をコンピュータに実行させることを特徴とするプログラム。 - 上記拡張型ホモロジーモデリングステップは、
上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および/または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整ステップ、
を含むことを特徴とする請求項14に記載のプログラム。 - 上記拡張型ホモロジーモデリングステップは、
上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索ステップ、
をさらに含むことを特徴とする請求項14に記載のプログラム。 - 上記拡張型ホモロジーモデリングステップは、
上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更ステップ、
をさらに含むことを特徴とする請求項16に記載のプログラム。 - 上記動的性質パラメータは、
上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および/または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであること、
を特徴とする請求項15から17のいずれか一つに記載のプログラム。 - 上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加する配列修正ステップ、
をさらに含むことを特徴とする請求項14から18のいずれか一つに記載のプログラム。 - 上記目的関数調整部は、
上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数(Upos)に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数(Kpos)、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ(ΔYi)に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数(Ti)を用いて行う最適化ステップ、
をさらに含むことを特徴とする請求項15から20のいずれか一つに記載のプログラム。 - 上記リガンド座標取得ステップは、
上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および/または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得すること、
を特徴とする請求項14から21のいずれか一つに記載のプログラム。 - 上記参照タンパク質のプロテイン・データ・バンク(PDB)の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第1機能推定ステップ、
をさらに含むことを特徴とする請求項14から22のいずれか一つに記載のプログラム。 - 上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第2機能推定ステップ、
をさらに含むことを特徴とする請求項14から23のいずれか一つに記載のプログラム。 - 新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第3機能推定ステップ、
をさらに含むことを特徴とする請求項14から24のいずれか一つに記載のプログラム。 - 上記リガンドが上記目的タンパク質以外のタンパク質であること、
を特徴とする請求項14から25のいずれか一つに記載のプログラム。 - 上記請求項14から26のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
- 構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップと、
を含むことを特徴とするタンパク質構造予測方法。 - アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および/または、リガンドの存在を示すリガンド存在記号を付加した修正配列を格納し、
上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行うこと、
を特徴とするアミノ酸配列データベースシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003046597A JP4368594B2 (ja) | 2003-02-24 | 2003-02-24 | タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003046597A JP4368594B2 (ja) | 2003-02-24 | 2003-02-24 | タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004258814A true JP2004258814A (ja) | 2004-09-16 |
JP4368594B2 JP4368594B2 (ja) | 2009-11-18 |
Family
ID=33113060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003046597A Expired - Fee Related JP4368594B2 (ja) | 2003-02-24 | 2003-02-24 | タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4368594B2 (ja) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219760A (ja) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | ドッキングシミュレーションプログラム、該プログラムを記録した記録媒体、ドッキングシミュレーション装置、およびドッキングシミュレーション方法 |
JP2009151406A (ja) * | 2007-12-19 | 2009-07-09 | National Institute Of Advanced Industrial & Technology | タンパク質機能識別装置 |
US7682619B2 (en) | 2006-04-06 | 2010-03-23 | Cornell Research Foundation, Inc. | Canine influenza virus |
EP2536425A2 (en) * | 2010-02-18 | 2012-12-26 | Mount Sinai School of Medicine | Vaccines for use in the prophylaxis and treatment of influenza virus disease |
JP2017037377A (ja) * | 2015-08-07 | 2017-02-16 | 富士通株式会社 | 情報処理装置、シミュレーション方法、およびシミュレーションプログラム |
US9708373B2 (en) | 2010-03-30 | 2017-07-18 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccine and uses thereof |
US9849172B2 (en) | 2009-03-30 | 2017-12-26 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
US9908930B2 (en) | 2013-03-14 | 2018-03-06 | Icahn School Of Medicine At Mount Sinai | Antibodies against influenza virus hemagglutinin and uses thereof |
US9968670B2 (en) | 2012-12-18 | 2018-05-15 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
US10131695B2 (en) | 2011-09-20 | 2018-11-20 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
JP2020030796A (ja) * | 2018-08-23 | 2020-02-27 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | 原子及び原子合金材料の構造及び特性を予測するシステム及び方法 |
US10736956B2 (en) | 2015-01-23 | 2020-08-11 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccination regimens |
CN112585684A (zh) * | 2018-09-21 | 2021-03-30 | 渊慧科技有限公司 | 确定蛋白结构的机器学习 |
WO2021117510A1 (ja) * | 2019-12-13 | 2021-06-17 | 国立大学法人お茶の水女子大学 | 構造予測方法及び構造予測装置 |
US11254733B2 (en) | 2017-04-07 | 2022-02-22 | Icahn School Of Medicine At Mount Sinai | Anti-influenza B virus neuraminidase antibodies and uses thereof |
US11266734B2 (en) | 2016-06-15 | 2022-03-08 | Icahn School Of Medicine At Mount Sinai | Influenza virus hemagglutinin proteins and uses thereof |
-
2003
- 2003-02-24 JP JP2003046597A patent/JP4368594B2/ja not_active Expired - Fee Related
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219760A (ja) * | 2006-02-15 | 2007-08-30 | Fujitsu Ltd | ドッキングシミュレーションプログラム、該プログラムを記録した記録媒体、ドッキングシミュレーション装置、およびドッキングシミュレーション方法 |
US7682619B2 (en) | 2006-04-06 | 2010-03-23 | Cornell Research Foundation, Inc. | Canine influenza virus |
JP2009151406A (ja) * | 2007-12-19 | 2009-07-09 | National Institute Of Advanced Industrial & Technology | タンパク質機能識別装置 |
US9849172B2 (en) | 2009-03-30 | 2017-12-26 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
EP2536425A2 (en) * | 2010-02-18 | 2012-12-26 | Mount Sinai School of Medicine | Vaccines for use in the prophylaxis and treatment of influenza virus disease |
EP2536425A4 (en) * | 2010-02-18 | 2014-11-05 | Sinai School Medicine | VACCINES FOR USE IN PROPHYLAXIS AND TREATMENT OF INFLUENZA AVIRUS DISEASE |
AU2011217903B2 (en) * | 2010-02-18 | 2017-03-02 | Mount Sinai School Of Medicine | Vaccines for use in the prophylaxis and treatment of influenza virus disease |
US9701723B2 (en) | 2010-02-18 | 2017-07-11 | Icahn School Of Medicine At Mount Sinai | Vaccines for use in the prophylaxis and treatment of influenza virus disease |
US10179806B2 (en) | 2010-03-30 | 2019-01-15 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
US9708373B2 (en) | 2010-03-30 | 2017-07-18 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccine and uses thereof |
US10131695B2 (en) | 2011-09-20 | 2018-11-20 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
US10583188B2 (en) | 2012-12-18 | 2020-03-10 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
US9968670B2 (en) | 2012-12-18 | 2018-05-15 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
US10137189B2 (en) | 2012-12-18 | 2018-11-27 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccines and uses thereof |
US10544207B2 (en) | 2013-03-14 | 2020-01-28 | Icahn School Of Medicine At Mount Sinai | Antibodies against influenza virus hemagglutinin and uses thereof |
US9908930B2 (en) | 2013-03-14 | 2018-03-06 | Icahn School Of Medicine At Mount Sinai | Antibodies against influenza virus hemagglutinin and uses thereof |
US10736956B2 (en) | 2015-01-23 | 2020-08-11 | Icahn School Of Medicine At Mount Sinai | Influenza virus vaccination regimens |
JP2017037377A (ja) * | 2015-08-07 | 2017-02-16 | 富士通株式会社 | 情報処理装置、シミュレーション方法、およびシミュレーションプログラム |
US11865173B2 (en) | 2016-06-15 | 2024-01-09 | Icahn School Of Medicine At Mount Sinai | Influenza virus hemagglutinin proteins and uses thereof |
US11266734B2 (en) | 2016-06-15 | 2022-03-08 | Icahn School Of Medicine At Mount Sinai | Influenza virus hemagglutinin proteins and uses thereof |
US12030928B2 (en) | 2017-04-07 | 2024-07-09 | Icahn School Of Medicine At Mount Sinai | Anti-influenza B virus neuraminidase antibodies and uses thereof |
US11254733B2 (en) | 2017-04-07 | 2022-02-22 | Icahn School Of Medicine At Mount Sinai | Anti-influenza B virus neuraminidase antibodies and uses thereof |
CN110858505A (zh) * | 2018-08-23 | 2020-03-03 | 塔塔咨询服务有限公司 | 用于预测原子元素及其合金材料的结构和性质的系统和方法 |
CN110858505B (zh) * | 2018-08-23 | 2023-06-20 | 塔塔咨询服务有限公司 | 用于预测原子元素及其合金材料的结构和性质的系统和方法 |
JP2020030796A (ja) * | 2018-08-23 | 2020-02-27 | タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited | 原子及び原子合金材料の構造及び特性を予測するシステム及び方法 |
CN112585684A (zh) * | 2018-09-21 | 2021-03-30 | 渊慧科技有限公司 | 确定蛋白结构的机器学习 |
WO2021117510A1 (ja) * | 2019-12-13 | 2021-06-17 | 国立大学法人お茶の水女子大学 | 構造予測方法及び構造予測装置 |
JP7470437B2 (ja) | 2019-12-13 | 2024-04-18 | 国立大学法人お茶の水女子大学 | 構造予測方法及び構造予測装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4368594B2 (ja) | 2009-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4368594B2 (ja) | タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体 | |
Paul et al. | HLA class I alleles are associated with peptide-binding repertoires of different size, affinity, and immunogenicity | |
Kong et al. | A structural-informatics approach for mining β-sheets: locating sheets in intermediate-resolution density maps | |
Zhang et al. | Tertiary structure predictions on a comprehensive benchmark of medium to large size proteins | |
Li et al. | Protein docking prediction using predicted protein-protein interface | |
Xu et al. | Computational tools for protein modeling | |
Wriggers et al. | Domain motions of EF-G bound to the 70S ribosome: insights from a hand-shaking between multi-resolution structures | |
Akalın | Introduction to bioinformatics | |
Keegan et al. | Recent developments in MrBUMP: better search-model preparation, graphical interaction with search models, and solution improvement and assessment | |
Chen et al. | M-TASSER: an algorithm for protein quaternary structure prediction | |
Leelananda et al. | Iterative molecular dynamics–Rosetta membrane protein structure refinement guided by Cryo-EM densities | |
Zaborowski et al. | A maximum-likelihood approach to force-field calibration | |
Luo et al. | A fast protein-ligand docking algorithm based on hydrogen bond matching and surface shape complementarity | |
Goodswen et al. | A guide to in silico vaccine discovery for eukaryotic pathogens | |
Leelananda et al. | Using NMR chemical shifts and Cryo-EM density restraints in iterative Rosetta-MD protein structure refinement | |
Kim et al. | Accurately predicting disordered regions of proteins using Rosetta residuedisorder application | |
Fu et al. | An overview of bioinformatics tools and resources in allergy | |
Jin et al. | Protein structure prediction in casp13 using awsem-suite | |
Xu et al. | OPUS-Rota3: improving protein side-chain modeling by deep neural networks and ensemble methods | |
Liu et al. | Structure‐based prediction of transcription factor binding sites using a protein‐DNA docking approach | |
Fung et al. | Computational de novo peptide and protein design: rigid templates versus flexible templates | |
Karczyńska et al. | Improved consensus-fragment selection in template-assisted prediction of protein structures with the UNRES force field in CASP13 | |
Ramachandran et al. | Homology modeling: generating structural models to understand protein function and mechanism | |
Jarmolinska et al. | DCA-MOL: a PyMOL plugin to analyze direct evolutionary couplings | |
Mukherjee et al. | Genome-wide protein structure prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090818 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090826 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120904 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130904 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |