JP2005108183A - タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム - Google Patents
タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2005108183A JP2005108183A JP2004151159A JP2004151159A JP2005108183A JP 2005108183 A JP2005108183 A JP 2005108183A JP 2004151159 A JP2004151159 A JP 2004151159A JP 2004151159 A JP2004151159 A JP 2004151159A JP 2005108183 A JP2005108183 A JP 2005108183A
- Authority
- JP
- Japan
- Prior art keywords
- model
- sequence
- data
- protein
- amino acid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 51
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims description 35
- 238000004590 computer program Methods 0.000 title claims description 6
- 239000012528 membrane Substances 0.000 title abstract 4
- 230000000149 penetrating effect Effects 0.000 title abstract 4
- 125000000539 amino acid group Chemical group 0.000 claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000002169 hydrotherapy Methods 0.000 claims abstract description 25
- 230000013016 learning Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000013500 data storage Methods 0.000 claims description 10
- 238000009408 flooring Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 2
- 150000001413 amino acids Chemical class 0.000 abstract description 21
- 210000000170 cell membrane Anatomy 0.000 abstract description 2
- 235000018102 proteins Nutrition 0.000 description 34
- 235000001014 amino acid Nutrition 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000013075 data extraction Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 108010052285 Membrane Proteins Proteins 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 102000018697 Membrane Proteins Human genes 0.000 description 5
- 125000003275 alpha amino acid group Chemical group 0.000 description 5
- 238000000455 protein structure prediction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 235000014304 histidine Nutrition 0.000 description 3
- 102000035160 transmembrane proteins Human genes 0.000 description 3
- 108091005703 transmembrane proteins Proteins 0.000 description 3
- 238000013398 bayesian method Methods 0.000 description 2
- 230000001086 cytosolic effect Effects 0.000 description 2
- 238000005183 dynamical system Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 2
- 125000000487 histidyl group Chemical class [H]N([H])C(C(=O)O*)C([H])([H])C1=C([H])N([H])C([H])=N1 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 230000005653 Brownian motion process Effects 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000013476 bayesian approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005537 brownian motion Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】 与えられたアミノ酸残基データから、そのアミノ酸が細胞膜を貫通する膜貫通領域の数または位置を予測する。
【解決手段】 受け付けたタンパク質の残基配列に対応するハイドロパシーデータ列と電荷データ列とを得るデータ抽出手段104と、求められたハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段102と、隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段106と、膜貫通領域の数またはその位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力する算出手段108とを備える予測装置1。
【選択図】 図1
【解決手段】 受け付けたタンパク質の残基配列に対応するハイドロパシーデータ列と電荷データ列とを得るデータ抽出手段104と、求められたハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段102と、隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段106と、膜貫通領域の数またはその位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力する算出手段108とを備える予測装置1。
【選択図】 図1
Description
本発明は、タンパク質の膜貫通領域の数または位置あるいはその両方の予測に関する。具体的には、タンパク質の膜貫通領域の数および/または位置を予測するための装置、方法及びコンピュータプログラムに関する。
直線状のアミノ酸配列からなるタンパク質は、それ自体の性質とそれを取り巻く液体などの周囲の環境に応じてバラエティーに富んだ立体構造を示す。そして、そのような立体構造がタンパク質の機能に大きな影響を与える。細胞膜を貫通するいわゆる膜タンパク質の構造予測の問題の重要性は、例えば、非特許文献1、2、4〜6に詳細に記載されている。
一般に、タンパク質の立体的構造の予測をするための方法は二通りある。一つは、各アミノ酸の物理化学的性質に基づいてタンパク質の立体構造を構築しようとするものである。この際、トレーニングの概念は通常含まれない。もう一つは、既知構造についてのデータセットを集めて、特徴を抽出し、機械学習のアルゴリズムを用いることにより予測するものである。一般のタンパク質構造の予測にまつわる問題の多くにおいて、とりわけタンパク質の膜貫通の場合においては、予測精度の改善が必要である。
なお、非特許文献3には、隠れマルコフモデルを用いた膜貫通領域数の予測が開示されているが、モデルの状態がオープンループ構造ではないために、各モデルにおいて膜貫通領域数は固定されていない。また、用いられるデータ列も各アミノ酸残基のハイドロパシーと電荷に関するもので有り得ることは開示されていない。
T. Hirokawa, S. Boon-Chieng, and S. Mitaku, "SOSUI: classification and secondary structure prediction system for membrane proteins," Bioinformatics, vol. 14, pp. 378-379, 1998. Y. Inoue, Y. Sugiyama, M. Ikeda, and T. Shimizu, "Classification of Eukaryotic 7-tms Transmembrane Proteins by Binary Topology Patterns," Genome Informatics, vol. 12, pp. 336-337, 2001. A. Krogh, B. Larsson, G. von Heijne, and E. Sonnhammer, "Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes," J. Mol. Biol., vol. 305, pp. 567-580, 2001. S. Moller, E. Kriventseva, and Apweiler, "A collection of well characterized integral membrane proteins," Bioinformatics, vol. 16, pp. 1159-1160, 2000. J. Kyte, and R. F. Doolittle, "A simple method for displaying the hydropathic character of a protein," J. Mol. Biol., vol. 157, pp. 105-132, 1972. B. Rost, R. Casadio, P. Fariselli, and C. Sander, "Transmembrane helices predicted at 95% accuracy", Protein Science, col.4, pp.521-533, 1995.
T. Hirokawa, S. Boon-Chieng, and S. Mitaku, "SOSUI: classification and secondary structure prediction system for membrane proteins," Bioinformatics, vol. 14, pp. 378-379, 1998. Y. Inoue, Y. Sugiyama, M. Ikeda, and T. Shimizu, "Classification of Eukaryotic 7-tms Transmembrane Proteins by Binary Topology Patterns," Genome Informatics, vol. 12, pp. 336-337, 2001. A. Krogh, B. Larsson, G. von Heijne, and E. Sonnhammer, "Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes," J. Mol. Biol., vol. 305, pp. 567-580, 2001. S. Moller, E. Kriventseva, and Apweiler, "A collection of well characterized integral membrane proteins," Bioinformatics, vol. 16, pp. 1159-1160, 2000. J. Kyte, and R. F. Doolittle, "A simple method for displaying the hydropathic character of a protein," J. Mol. Biol., vol. 157, pp. 105-132, 1972. B. Rost, R. Casadio, P. Fariselli, and C. Sander, "Transmembrane helices predicted at 95% accuracy", Protein Science, col.4, pp.521-533, 1995.
本発明は、タンパク質構造予測における一般的な問題ではなく、限定された問題を解決しようとするものである。本発明においては、アミノ酸配列が水溶性タンパクや膜タンパクである場合の予測も行なうが、与えられたアミノ酸配列は膜タンパクであるものとする。本発明の目的は、与えられたアミノ酸残基の配列に対して、膜貫通領域の数および膜貫通領域の位置を予測することにある。
例えば、与えられた残基配列が七つの膜貫通領域を有するタンパク質に由来するものであるかを予測することには大いに興味がある(非特許文献2参照)。本願発明者の知る限り、これらの問題は簡単ではない。というのは、膜貫通タンパク質においてX線結晶解析法は用いにくく、構造が知られた膜貫通タンパク質が非常に少ないことが一つの理由であってより正確な予測法が求められている。
本発明は、膜貫通領域の数または位置あるいはそれらの両方を予測するための新しいアルゴリズムを提供する。このアルゴリズムは、アミノ酸残基の位置の関数として表現される確率動的システムに関連したハイドロパシーインデックスおよび電荷からなる二次元のトラジェクトリー(軌跡)を利用するものである。
本発明の一つの態様は、コンピュータソフトウエアを用いて実現される専用装置としてのタンパク質の膜貫通領域の数および/または予測手段である。本発明では、受け付けたタンパク質のアミノ酸残基配列に対応するハイドロパシーデータ列と電荷データ列とを得るデータ抽出手段と、求められたハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段と、該ハイドロパシーデータ列と電荷データ列とに基づいて前記タンパク質の膜貫通領域の数または位置を予測するための、アミノ酸残基配列の膜貫通領域とループ領域とを表現する隠れマルコフモデルについて、該隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段と、テスト配列であるアミノ酸残基配列に対するハイドロパシーデータ列と電荷データ列とをデータ記憶手段から受け付けて、前記モデルパラメータに基づいて、膜貫通領域の数および/または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力することにより、前記タンパク質の膜貫通領域の数または位置を算出する算出手段とを備えてなる、タンパク質の膜貫通領域の数または位置の予測装置が提供される。
ここで、ハイドロパシーデータとは、ハイドロパシーインデックスのデータである。ハイドロパシーインデックスとは、各アミノ酸に対して決まる疎水性の程度をあらわす指数である。本発明では、タンパク質に含まれるアミノ酸残基のそれぞれに対応するアミノ酸のハイドロパシーインデックスを用いる。
電荷データとは、各アミノ酸残基に対応するアミノ酸の荷電状態を表わすデータである。データ記憶手段やモデル記憶手段は、コンピュータ等において論理的に識別可能な電子ファイル等の記憶手段である。記憶手段の具体的な態様は、揮発性記憶手段(RAMなど)や不揮発性記憶手段(ハードディスク、不揮発性メモリーチップなど)、内部記憶装置や外部記憶装置等の様々な態様を用いることができ、特にハードウエア仕様を問うものではない。モデル記憶手段は、該隠れマルコフモデルを定めるためのトレーニングされたモデルパラメータを保持する。
本発明によれば、該ハイドロパシーデータ列と電荷データ列とに基づいて前記タンパク質の膜貫通領域の数を算出するために隠れマルコフモデルを用いる。この隠れマルコフモデルはアミノ酸残基配列の膜貫通領域とループ領域とをそれぞれ表現する部分を有している。
データ抽出手段や算出手段とは、ソフトウエアによる情報処理を、コンピュータハードウエアを用いて実現する機能手段である。このうち、データ抽出手段とは、受け付けたタンパク質の残基配列に対応するハイドロパシーデータ列と電荷データ列とを抽出する機能を有する。このとき、例えば、各アミノ酸についてそれぞれハイドロパシーインデックスや電荷を与える変換テーブル手段を参照することができる。この場合、変換テーブル手段は、20種あるアミノ酸のそれぞれについて上記のハイドロパシーインデックスと電荷とを与える変換規則を保持するルックアップテーブルである。
算出手段とは、膜貫通領域の数および/または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力する機能を有している。これにより、与えられたアミノ酸残基に対して膜貫通領域の最も適切な数または位置を算出することができる。
また、本発明では、前記モデルパラメータにより表現される前記隠れマルコフモデルを内部に実現した隠れマルコフモデル学習手段であって、トレーニング配列として膜貫通領域の数および/または位置が既知であるアミノ酸残基配列におけるハイドロパシーデータおよび電荷データと、該アミノ酸残基を有するタンパク質の該膜貫通領域の数および/または位置とに基づいて学習を実行し、該学習の結果として得られたモデルパラメータを前記モデル記憶手段に格納する隠れマルコフモデル学習手段をさらに備えていることも好適である。
本発明における学習手段は、トレーニングのための配列(トレーニング配列)によって隠れマルコフモデルの具体的なモデルパラメータを最適化する。
前記隠れマルコフモデルは、前記タンパク質の膜貫通領域を表現する少なくとも一つの第1種のサブモデルと、前記タンパク質のループ領域を表現する少なくとも一つの第2種のサブモデルとを含むとともに、前記第1種のサブモデルと前記第2種のサブモデルとが交互にオープンループ結合した隠れマルコフモデルとすることも好適である。
本発明における隠れマルコフモデルは、少なくとも2種の構造が異なるサブモデル(第1種および第2種のサブモデル)を有しているものとしてもよい。なお、同じ種類のサブモデルであっても、トポロジカルな構造が同じではあるが、具体的なモデルパラメータは異なる(出力確率と、遷移確率の違いなど)ものも含む。オープンループ結合は、サブモデル間の遷移が一方向に限定されてサブモデル間をループする遷移をもたない構造であり、膜貫通領域の数が変動しない利点を有する。
前記モデルパラメータは、前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれについて、フロアリングおよびスムージングを施して設定されるハイドロパシーインデックス出力確率を定める第1群のパラメータと、前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれについてフロアリングを施して設定される、電荷出力確率を定める第2群のパラメータと、前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率とを含むものとすることも好適である。
本発明においては、フロアリングやスムージングという手法が用いられる。フロアリングは、計算され確率値がゼロになることを防ぐ為に導入される手法であり、パラメータ(状態遷移確率、出力確率)の最小値をある量だけ増加させてこの不都合を回避する手法である。また、スムージングは、ある規則に基づいて計算中の値を滑らかにして、非本質的なデータの振れが計算結果に影響することを防止する手法である。
前記第1種のサブモデルは、それぞれが自己ループを有し、互いにleft-to-right型に結合された複数の状態を有し、前記第2種のサブモデルは、自己ループを有する単一の状態を有するものとすることも好適である。
本発明では、テスト配列についての膜貫通領域の数または位置を予測する方法であって、テスト配列であるタンパク質のアミノ酸残基配列を受け付けるステップと、受け付けたタンパク質のアミノ酸残基配列に対するハイドロパシーデータ列と電荷データ列とを得る抽出ステップと、該テスト配列についての前記ハイドロパシーデータ列と前記電荷データ列とを受け付けて、既知のタンパク質のデータに基づき既にトレーニングして得られている隠れマルコフモデルのモデルパラメータに基づいて、膜貫通領域の数および/または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出するステップと、前記膜貫通領域数算出手段が、該確率を最大とする前記膜貫通領域の数および/または位置を出力する算出ステップとを含む方法が提供される。
本発明では、トレーニング配列として既知のタンパク質のアミノ酸残基配列を受け付けるステップと、受け付けられたトレーニング配列に関するハイドロパシーデータおよび電荷データと、該両データ列を与えるタンパク質の該膜貫通領域の数および/または位置とに基づいて学習を実行する学習ステップと、該学習ステップによって得たモデルパラメータを前記モデル記憶手段に格納する格納ステップとを前記算出ステップに先立って実行する方法が提供される。
また、本発明では、コンピュータを、上記いずれかに記載の装置として動作させるための、コンピュータプログラムや、コンピュータに、上記いずれかに記載の方法を実行させるための、コンピュータプログラムが提供される。
本発明では、予備的な実験結果についても示される。膜貫通領域の数についての予測精度は94%であり、膜貫通領域の位置についての予測精度は96.09%である。この結果は詳細なチューニングをしていない段階のものであり、十分に期待してよいものである。
[1.アルゴリズム]
本発明では、タンパク質の基礎的な構造は与えられたものとして、以下の二次元のベクトルシーケンスを検討する。ここに、tはアミノ酸残基に付す番号であり、位置を表わす。Tはアミノ酸残基の総数である。
本発明では、タンパク質の基礎的な構造は与えられたものとして、以下の二次元のベクトルシーケンスを検討する。ここに、tはアミノ酸残基に付す番号であり、位置を表わす。Tはアミノ酸残基の総数である。
タンパク質を構成するアミノ酸は20種有り、通常20文字のシンボルにより表現されるが、このシーケンスは、20文字のシンボルの代わりとして、アミノ酸に関連した数値の並びを表わすものである。そして、本願発明においては各アミノ酸についてのハイドロパシーインデックス(ハイドロパシーを表わす数値)のデータと電荷のデータとの二次元の広がりを有する空間が、アミノ酸残基の列(すなわちタンパク質の一次構造)の周りに広がることになる。この問題に見られる配列(アミノ酸の配列)の性質を考慮する一つの方法は、現実のアミノ酸残基の配列に対応する概念として補助配列(auxiliary sequence){Qt}を考慮することである。この補助配列{Qt}は、一次元のパラメータtによって示される内部確率動的システム(inner stochastic dynamical system)の「トラジェクトリー」であり、この補助配列をブラウン運動世のような自己相関のないアミノ酸残基の配列であると考えることによりOtはこの補助配列の不確定性を伴った出力とみなせる。(つまりあるアミノ酸残基iの隣にもう一つのアミノ酸残基jがある確率を考える事ができる)。このとき、同時確率分布は、
により与えられる。ここに、Hは基礎となっているモデル構造を示している。数2の式の第1および第2の方程式は、一般形であり、最後の方程式が本発明で用いられる隠れマルコフモデルである。aijは状態iから状態jへの遷移確率、bik1 1は状態iがハイドロパシーインデックスνk1 1を与える出力確率、bik2 2は状態iが電荷νk2 2を与える出力確率、πiは状態iの初期の確率である。ハイドロパシーインデックスは実数であるが、有限数のインデックスの値、例えば、Kyte-Doolittleインデックスについては17の値を取ることに注意を要する(非特許文献5)。同様に、電荷も有限数の値(+1、0、−1)だけを取り得る。
図4は、ある膜貫通タンパク質のK−Dインデックスと電荷との典型的なトラジェクトリーを表わしている。図4は、アミノ酸残基位置を横軸に選び、各残基について、K−Dインデックスの値と電荷の値をプロットし、さらに、膜貫通領域を示したものである。用いたタンパク質は、ACP02912であり、膜貫通領域の数(m)は5である。このデータは、ftpサイト(ftp://ftp.ebi.ac.uk/databases/testsets/transmembrane)からダウンロードしたものである。20シンボルの代わりにこれらの物理化学的インデックスを考慮したことにより、主な結果として、異なるアミノ酸の間の「近さ」(nearness)が考慮可能となる。即ち、ハイドロパシーインデックスの値が似ている二つのアミノ酸は、この特別な距離(metric)に関して互いに近いものと考える事ができる。このことにより、オーバーフィッティングの問題(ローカルミニマムに入ってしまいグローバルミニマムを見出すことができない問題)を回避するための「スムージング/フロアリング」を実行することが可能となる。
数2の式によって記述される方式は、内部動的システムが無限数の状態を有する非線形の時系列予測問題について、あるいは手書き文字の認識問題、内部動的システムが有限数の状態を有するオンラインサイン認証問題について、うまく行くことがある。これらの3つの分野では、インデックスパラメータtに相当するのは時間であるが、タンパク質の基本配列においては、tはアミノ酸残基の連続番号という空間位置を示している。数2においては、内部確率動的システムが一次であり、観測機構が(内在する確率について)内部動的システムに対して独立であることが仮定されているが、このような制限を外した一般化は可能である。
[1.1 モデル構造]
モデルの構造Hは数2の式を良好に適用するのに重要である。数2の式は、HMM(隠れマルコフモデル)と呼ばれる非常に一般的なパラダイムを示しているものであり、この広いパラダイムの中で採用されるモデル構造と得られるデータセットは、ある予測問題に固有の目的を考慮して、慎重に定める必要がある。膜タンパクの可能なかぎり多数の性質を考慮することによってできるだけ詳細にモデル構造をデザインしたいと考えても、構造の知られた膜タンパクの数は非常に限られており、詳細なモデルの多くのパラメータの微妙なチューニングを行なうことは不可能である。これは、データフィッティング対単純さのジレンマ(オッカムの剃刀:Ockham’s razor)の現れである。
モデルの構造Hは数2の式を良好に適用するのに重要である。数2の式は、HMM(隠れマルコフモデル)と呼ばれる非常に一般的なパラダイムを示しているものであり、この広いパラダイムの中で採用されるモデル構造と得られるデータセットは、ある予測問題に固有の目的を考慮して、慎重に定める必要がある。膜タンパクの可能なかぎり多数の性質を考慮することによってできるだけ詳細にモデル構造をデザインしたいと考えても、構造の知られた膜タンパクの数は非常に限られており、詳細なモデルの多くのパラメータの微妙なチューニングを行なうことは不可能である。これは、データフィッティング対単純さのジレンマ(オッカムの剃刀:Ockham’s razor)の現れである。
本発明で提案されるモデルは、以下のように構成される。ここで、mは膜貫通領域の数を表わす。
(i)mの各値に対してHm(n)が構成され、n=1、・・・、nmとする。nmは後に定義される。
(ii)各モデルHm(n)は、ループ領域のサブモデルHmλu(n)(u=1、・・・、m+1)と、膜貫通領域のサブモデルHmμν(n)(ν=1、・・・、m)との交互の結合からなるオープンループ構造を有している(図5(a))。
(iii)膜貫通領域のサブモデルHmμν(n)は、単純なleft-to-rightのトポロジーを有し、自己ループを持つτ個の状態が存在して、図5(b)に示されるように組み込まれている。τは、全トレーニングデータセットが与えられたとき、膜貫通領域の残基長の平均値として定義される。
(iv)ループ領域のサブモデルHmλu(n)は自己ループをもつ単一状態のみを有する(図5(c))。
(v)出力Otの第1の成分は、Kyte-Doolittleインデックス(ハイドロパシーインデックスの一種)であり、第2の成分は、各アミノ酸残基に関して定められている電荷である。
(i)mの各値に対してHm(n)が構成され、n=1、・・・、nmとする。nmは後に定義される。
(ii)各モデルHm(n)は、ループ領域のサブモデルHmλu(n)(u=1、・・・、m+1)と、膜貫通領域のサブモデルHmμν(n)(ν=1、・・・、m)との交互の結合からなるオープンループ構造を有している(図5(a))。
(iii)膜貫通領域のサブモデルHmμν(n)は、単純なleft-to-rightのトポロジーを有し、自己ループを持つτ個の状態が存在して、図5(b)に示されるように組み込まれている。τは、全トレーニングデータセットが与えられたとき、膜貫通領域の残基長の平均値として定義される。
(iv)ループ領域のサブモデルHmλu(n)は自己ループをもつ単一状態のみを有する(図5(c))。
(v)出力Otの第1の成分は、Kyte-Doolittleインデックス(ハイドロパシーインデックスの一種)であり、第2の成分は、各アミノ酸残基に関して定められている電荷である。
[1.2 学習]
mの各値について提供されるモデルHm(n)は、2m+1個のサブモデルとm(τ+1)+1個の状態とを有している。
を特定のmについてのトレーニングデータセットとする。ここで、|Om|はm個の膜貫通領域について得られるデータセットの数である。この提案されたアルゴリズムは一つのデータセットから一つのモデルを構築しようと試みるものであるため、(i)におけるnmは|Om|と等しくなる。
mの各値について提供されるモデルHm(n)は、2m+1個のサブモデルとm(τ+1)+1個の状態とを有している。
[ステップ1:K−Dインデックス出力確率]
[bik1 1の学習]
ステップ1.1(フロアリング)
Hmμν(n)の各状態qiについて、il(l=1、・・・τ)に関して一様に
と設定する。
Hmλu(n)の状態qiについて、
とする。
ここで、
n({KDt}、k1;μν):=膜貫通領域Hmμν(n)内にある、K−Dインデックスがk1である残基の数、
n({KDt}、k1;λν):=ループ領域Hmλu(n)内にある、K−Dインデックスがk1である残基の数、
βμとβλはハイパーパラメータである。
[bik1 1の学習]
ステップ1.1(フロアリング)
Hmμν(n)の各状態qiについて、il(l=1、・・・τ)に関して一様に
Hmλu(n)の状態qiについて、
ここで、
n({KDt}、k1;μν):=膜貫通領域Hmμν(n)内にある、K−Dインデックスがk1である残基の数、
n({KDt}、k1;λν):=ループ領域Hmλu(n)内にある、K−Dインデックスがk1である残基の数、
βμとβλはハイパーパラメータである。
本アルゴリズムにおいては、出力確率は個々のサブモデル内において同じである。たとえベイズ推論(T. Matsumoto, Y. Nakajima, M. Saito, J. Sugi, and H. Hamagishi, “Reconstructions and predictions of nonlinear dynamical systems: A Hierarchical Bayesian Approach,” IEEE Trans. Signal Processing, vol. 49, pp. 2138-2155, 2001)が可能ではあっても、本発明のおいては、ハイパーパラメータを経験的に選択することによって、オーバーフィッティングの問題を回避することができる。もし、2つのアミノ酸の間の近さを定義していなかったなら、ステップ1.2が不可能であっただろうということに注目すべきである。さらに、20種のうち4つのアミノ酸(ASP,ASN,GLU,GLN)が同じK−Dインデックス(−3.5)を有する点にも注目すべきである。
[ステップ2:電荷出力確率]
[bik 2の学習]
Hmμν(n)の各状態qiについて、il(l=1、・・・τ)に関して一様に
と設定する。
Hmλu(n)の状態qiについて、
とする。
ここで、
n({Charget}、k2;μν):=膜貫通領域Hmμν(n)内にある、電荷がk2である残基の数、
n({Charget}、k2;λν):=ループ領域Hmλu(n)内にある、電荷がk2である残基の数、
γμとγλはハイパーパラメータである。
[bik 2の学習]
Hmμν(n)の各状態qiについて、il(l=1、・・・τ)に関して一様に
Hmλu(n)の状態qiについて、
ここで、
n({Charget}、k2;μν):=膜貫通領域Hmμν(n)内にある、電荷がk2である残基の数、
n({Charget}、k2;λν):=ループ領域Hmλu(n)内にある、電荷がk2である残基の数、
γμとγλはハイパーパラメータである。
ヒスチジンでは、自身のpHに依存する二つの電荷値をとることができる。以下の実施例においては、このヒスチジンの電荷は+1であると仮定する。将来の検討課題として、二つの異なる値の存在を正しく考慮する可能性が検討されなくてはならない。ヒスチジンの数が実験で用いたデータセット中には少ないので、この暫定的な仮定は、予測性能には大きな影響は有しないようである。
[ステップ3:状態遷移確率]
与えられた残基配列について、以下の分解を考える。
[aijの学習]
Hmλu(n)の状態qiについて、
とする。
Hmμν(n)の各状態qiについて、
とする。
ここで、αμνi(mk)はチューンされるべきパラメータである。
与えられた残基配列について、以下の分解を考える。
Hmλu(n)の状態qiについて、
Hmμν(n)の各状態qiについて、
ここで、αμνi(mk)はチューンされるべきパラメータである。
この実施の形態において以下の知見が得られている。
(i)mのある値を考えると、各サブモデルHmμν(n)は同じ状態の数と同じトポロジーを有している。このため、aijは全てのnについて同じ値となるが、本発明の学習ルールにおいては、各データセットが異なる数のK−Dインデックスと電荷を有するために、「出力確率」は異なるだろう。したがって、nm=mkとなり、つまり、各データセットが一つのモデルを生成する。
(ii)上記定式化において、二つの出力確率
が、簡単のために、独立であると仮定されている(現実にはそうではない)。
(iii)いくつかの理由により、Baum-Welch法を使わない選択をした。第1に、その方法はローカルミニマムに影響されやすいためである。第2には、本発明の最初の試行パラメータの値の合理性をテストして、ここに提案する構造が正しいか確認するためである。勿論、学習過程はいろいろなやり方で改善されなくてはならない。
(iv)Kyte-Doolittleインデックスより優れたハイドロパシーインデックスが存在するかもしれない。実際、80もの異なるハイドロパシーインデックスが提案されており、本発明は原理的にはいずれのインデックスも使用できるものである。
(v)本発明の方式における各モデルは、膜貫通領域の数mの固定した値を有していること、および、個々のサブモデル内の各状態に関連している自己ループを除き、各モデルが完全にオープンループである点に注目するべきである。これに対し、非特許文献3では、サブモデルの間の遷移が許容されており、このためにmが固定されていない。
(i)mのある値を考えると、各サブモデルHmμν(n)は同じ状態の数と同じトポロジーを有している。このため、aijは全てのnについて同じ値となるが、本発明の学習ルールにおいては、各データセットが異なる数のK−Dインデックスと電荷を有するために、「出力確率」は異なるだろう。したがって、nm=mkとなり、つまり、各データセットが一つのモデルを生成する。
(ii)上記定式化において、二つの出力確率
(iii)いくつかの理由により、Baum-Welch法を使わない選択をした。第1に、その方法はローカルミニマムに影響されやすいためである。第2には、本発明の最初の試行パラメータの値の合理性をテストして、ここに提案する構造が正しいか確認するためである。勿論、学習過程はいろいろなやり方で改善されなくてはならない。
(iv)Kyte-Doolittleインデックスより優れたハイドロパシーインデックスが存在するかもしれない。実際、80もの異なるハイドロパシーインデックスが提案されており、本発明は原理的にはいずれのインデックスも使用できるものである。
(v)本発明の方式における各モデルは、膜貫通領域の数mの固定した値を有していること、および、個々のサブモデル内の各状態に関連している自己ループを除き、各モデルが完全にオープンループである点に注目するべきである。これに対し、非特許文献3では、サブモデルの間の遷移が許容されており、このためにmが固定されていない。
[1.3 予測計算]
Dtest:={Ot}t=1 Ttestをテスト配列とする。予測段階では、mと、関連した状態配列{Qt}とは共に不明である。モデルHm(n)が与えられると、各状態qiは特有のサブモデルHmμν(n)あるいはHmλu(n)に関連していることに注目しなくてはならない。
Dtest:={Ot}t=1 Ttestをテスト配列とする。予測段階では、mと、関連した状態配列{Qt}とは共に不明である。モデルHm(n)が与えられると、各状態qiは特有のサブモデルHmμν(n)あるいはHmλu(n)に関連していることに注目しなくてはならない。
[膜貫通領域の予測]
となるとき、Ot testに関連したアミノ酸がν番目の膜貫通領域Hmμνにあると予測される。ここで、t=1については、Q1 *:=q1であり、t>1については、
である(このとき、Qt−1 *=qj)。
また、
となるとき、Ot testに関連したアミノ酸がu番目の膜貫通領域Hmλuにあると予測される。
また、
ここで、以下の点を注記する。
(i)
が、パラメータwとモデルHが固定されているときに状態Qtがqiにある尤度であることに注目する必要がある。このことは、一様な事前確率P(Hm(n))において方程式を
と表記するために用いることができる。
(ii)つまり、数21の式の左辺は、テストの第1の配列がt+1、t+2、...、Tについて与えられたときの状態Qtがqiとなる確率となる。
(iii)数18の式が、膜貫通領域の予測の唯一の方法というわけではない。
(i)
(ii)つまり、数21の式の左辺は、テストの第1の配列がt+1、t+2、...、Tについて与えられたときの状態Qtがqiとなる確率となる。
(iii)数18の式が、膜貫通領域の予測の唯一の方法というわけではない。
[2 実験]
[2.1 データセット]
一般のタンパク質構造の予測問題における非常に困難な課題の一つ、そして、特に、膜タンパク質構造予測における大きな課題は、適切な実験のためのデータセットを得るのが難しい点にある。以下に示す本発明の実験のアミノ酸配列は、非特許文献4に記載されたftpサイト(ftp://ftp.ebi.ac.uk/databases/testsets/transmembrane)からダウンロードされたものである。このダウンロードしたアミノ酸配列のうちから、以下の明確な同定結果のあるものを本発明の実験に用いた:DOMAIN CYTOPLASMIC, DOMAIN MATRIX, DOMAIN EXTRACELLULAR, DOMAIN INTERMEMBRANE, DOMAIN PERIPLASMIC, TRANSMEM 。ここで、CYTOPLASMIC, MATRIX, EXTRACELLULAR, INTERMEMBRANE 、PERIPLASMICをループセグメントとして解釈し、TRANSMEMを膜貫通セグメントとして解釈した。
[2.1 データセット]
一般のタンパク質構造の予測問題における非常に困難な課題の一つ、そして、特に、膜タンパク質構造予測における大きな課題は、適切な実験のためのデータセットを得るのが難しい点にある。以下に示す本発明の実験のアミノ酸配列は、非特許文献4に記載されたftpサイト(ftp://ftp.ebi.ac.uk/databases/testsets/transmembrane)からダウンロードされたものである。このダウンロードしたアミノ酸配列のうちから、以下の明確な同定結果のあるものを本発明の実験に用いた:DOMAIN CYTOPLASMIC, DOMAIN MATRIX, DOMAIN EXTRACELLULAR, DOMAIN INTERMEMBRANE, DOMAIN PERIPLASMIC, TRANSMEM 。ここで、CYTOPLASMIC, MATRIX, EXTRACELLULAR, INTERMEMBRANE 、PERIPLASMICをループセグメントとして解釈し、TRANSMEMを膜貫通セグメントとして解釈した。
注意を要する重要な問題がある。予測実験を行なうと、当然、最良の既存のアルゴリズムやツールと予測性能を比較したくなる。これを行なうためには、既存のツールのトレーニングにいずれのデータセットが用いられ、あるいは、用いられていないかを知らなくてはならない。本発明者等の現在の状況では、そのようなデータセットを特定することは、不可能ではないかもしれないが非常に困難である。
上記ftpサイトには、4つの異なるデータセットの分類A、B、C、Dがある。この分類は、タンパク質構造の信頼性の程度に応じたものである。A,B,Cに分類されたデータセットの構造は、信頼性の程度は違うが、ほぼ十分に良好に解析されたものである。このため、A,B,Cにあるデータセットについて、全てとは言わないが、その多くが既に既存のツールのトレーニングに用いられたものではないかと考えられる。このことは、A,B,Cのデータセットをトレーニングデータセットとして用いることは適当ではあるが、異なるアルゴリズムの性能の比較のためのテストデータセットとして使用することは適当ではないことを暗に意味している。他の研究者によって開発された既存の予測ツールについて、新しいトレーニングを新しいトレーニングデータセットを用いて実行することは、不可能ではないが、非常に困難である。これを改善するために、上記サイトにあるファイルA,B,Cにあるデータセットをトレーニングのために用い、ファイルDにあるデータセットをテストに使用した。ファイルDにあるデータセットのうち、既存のツールのトレーニングに用いられたものは少ないであろうから、異なるツール(本発明のものも含む)は、ほぼ対等の立場といえるだろう。こうすることで、当然、Dのテストデータセットは信頼性が乏しくなるというデメリットがある。このジレンマは、異なるタンパク質構造予測アルゴリズムを比較する際の重要な課題となり続けるだろう。
[2.2 実験結果1:膜貫通領域の数]
表1は、データセットの詳細、つまり、A,B,C,Dに含まれるデータセットの数、膜貫通領域の数を示している。表2の第1列は本発明の方法による結果を示している。50個のテストデータセットのうち、本発明のアルゴリズムは47個を正確に予測した(94%)。分類ミスをした3つのタンパク質はP02725(m=1)、P32897(m=4)、P02912(m=5)である。
表1は、データセットの詳細、つまり、A,B,C,Dに含まれるデータセットの数、膜貫通領域の数を示している。表2の第1列は本発明の方法による結果を示している。50個のテストデータセットのうち、本発明のアルゴリズムは47個を正確に予測した(94%)。分類ミスをした3つのタンパク質はP02725(m=1)、P32897(m=4)、P02912(m=5)である。
表2の2nd以降の列は、本発明のアルゴリズムが予測に失敗した様子を示している。もし、数15によって与えられる本発明の予測
が正確な値と異なっており、それに対応する尤度が2番目に大きなものであるときには、この表の2ndに記載される。テストデータには、3番目以下になるものは一つも見られない。このことは、本発明の予測方法はほぼ正しく、かつ、より詳細なチューニングによって改善され得ることを示唆していると言える。
比較のため、膜貫通構造予測の分野において最もよく参照される2つの論文であるTMHMM(非特許文献3)、およびSOSUI(非特許文献1)に対して、分類Dの配列をテストした。前者は47個(94%)を正確に予測し、後者は38個(76%)を正確に予測した。これらのアルゴリズムは必要であれば、他の変数も予測する能力がある。
[2.3 実験結果2:膜貫通領域の位置]
次に、膜貫通領域の位置を予測する場合について説明する。他と比較して重要なパラメータは、各幕貫通領域にある状態の数τである。幾つかの予備実験により、τ=21を選択した。
次に、膜貫通領域の位置を予測する場合について説明する。他と比較して重要なパラメータは、各幕貫通領域にある状態の数τである。幾つかの予備実験により、τ=21を選択した。
表1にあるように膜貫通領域の数は合計230である。性能評価の判定基準は、非特許文献4に従った。性能の判定基準を定めるには、以下を考える。
(i)真のポジティブの予測(TP; True Positive Predictions):TPは二つの条件を満たさなければならない。まず、少なくとも9つの残基を、基準となる同定結果(annotation)における膜貫通領域の残基と共有しなくてはならない。さらに、予測された膜貫通領域が、基準の同定結果に対して対応付けできなくてはならない。図6aは、この概念を表わす概念図であり、「T」は膜貫通領域にあるアミノ酸を示し、「−」は、ループ領域にあるアミノ酸を示す。
(ii)偽のネガティブの予測(FN; False Negative Predictions):FNは、予測できなかった膜貫通領域であり、図6bにより示されるものである。
(iii)偽のポジティブの予測(FP; False Positive Predictions):FPは、基準となるタンパク質のテスト集合には、膜貫通領域として存在しないところに予測された膜貫通領域を示す。これは、図6cにより示される。
(i)真のポジティブの予測(TP; True Positive Predictions):TPは二つの条件を満たさなければならない。まず、少なくとも9つの残基を、基準となる同定結果(annotation)における膜貫通領域の残基と共有しなくてはならない。さらに、予測された膜貫通領域が、基準の同定結果に対して対応付けできなくてはならない。図6aは、この概念を表わす概念図であり、「T」は膜貫通領域にあるアミノ酸を示し、「−」は、ループ領域にあるアミノ酸を示す。
(ii)偽のネガティブの予測(FN; False Negative Predictions):FNは、予測できなかった膜貫通領域であり、図6bにより示されるものである。
(iii)偽のポジティブの予測(FP; False Positive Predictions):FPは、基準となるタンパク質のテスト集合には、膜貫通領域として存在しないところに予測された膜貫通領域を示す。これは、図6cにより示される。
性能の基準は、
により定義される。これは、非特許文献4において用いられていると本願発明者が予測しているものであるが、そこには式は明示されていない。
われわれのアルゴリズムの性能は
TP=224,FN=6,FP=3,正確さ(%)=96.09(%)
である。
われわれのアルゴリズムの性能は
TP=224,FN=6,FP=3,正確さ(%)=96.09(%)
である。
図7は、予測結果の例を示す。図7の(a)〜(c)は、上記定義に従って、全ての膜貫通領域が正しく、「真のポジティブ」と予測された例であるが、図7の(d)は、偽のネガティブという予測を一つ含み、他は全て正しいと予測されたものである。他の予測アルゴリズムとの正確な対比は、用いられたデータセットが異なるために難しい。2000年までの様々な予測アルゴリズムの性能の比較が非特許文献4に記載されている。
[3. 予測装置]
上記の隠れマルコフモデルによる予測アルゴリズムを組み込んだタンパク質の膜貫通領域の数または位置を予測する専用装置について説明する。
図1は、本発明の予測装置1の各構成要素を表わすブロックダイヤグラムである。データ記憶手段102は、20種あるアミノ酸の種類に応じて、ハイドロパシーデータと電荷データを保持する変換テーブル102aを記憶していても良い。この変換テーブルの内容を表3に記載する。
表3ではハイドロパシーインデックスの代表として、K−Dインデックスを記載している。アミノ酸残基の配列を受け取ると、データ抽出手段104は、受け取ったアミノ酸残基のそれぞれのアミノ酸に対応するハイドロパシーインデックスのデータ列と、電荷のデータ列を出力し、必要に応じてデータ記憶手段102に格納する。あるいは、アミノ酸残基のデータをそのままデータ記憶手段102に格納し、変換テーブル102aと併せてハイドロパシーインデックスのデータ列と電荷のデータ列が得られるように構成されていても良い。
上記の隠れマルコフモデルによる予測アルゴリズムを組み込んだタンパク質の膜貫通領域の数または位置を予測する専用装置について説明する。
図1は、本発明の予測装置1の各構成要素を表わすブロックダイヤグラムである。データ記憶手段102は、20種あるアミノ酸の種類に応じて、ハイドロパシーデータと電荷データを保持する変換テーブル102aを記憶していても良い。この変換テーブルの内容を表3に記載する。
モデル記憶手段106は、数16の式で示されるモデルパラメータデータを格納している。そして、算出手段108は、データ抽出手段104からハイドロパシーインデックスのデータ列と電荷のデータ列とに応じて、モデルパラメータを用いて数15の計算を実行することにより、膜貫通領域数
を算出したり、各アミノ酸残基について数17〜19の判定を行なって膜貫通領域にあるかどうかを判定し、膜貫通領域の位置を定めたりする。図示しないが、算出手段108には、数15、数17〜19の計算を実行するための手段(加算される各項の確率を計算する確率計算手段、その確率計算手段の出力を記憶する記憶手段、その記憶手段の内容を加算する加算手段等の必要な手段)が実装されている。
算出手段108の出力は、適当な出力手段(図示しない)により、膜貫通領域予測装置1の外部へ出力されたり、あるいは、表示装置(図示しない)に表示されたり、記憶手段(図示しない)に記憶されたりすることができる。
本発明の本発明の予測装置1には、さらに、隠れマルコフモデル学習手段110が備えられていても良い。この学習手段110は、内部にはHMM(隠れマルコフモデル)を保持している。本態様のHMMは、上記の[1.1 モデル構造]によって説明したモデルである。また、学習手段110には、学習するためのデータとして、トレーニング配列のデータ(トレーニング配列のアミノ酸残基からデータ抽出手段によって出力されたハイドロパシーデータ列と電荷データ列、トレーニング配列について予め実験的に得られている膜貫通領域の数m、各アミノ酸残基が膜貫通領域にあるか、ループ領域にあるかの同定結果)が与えられる。
この学習方法は、上記アルゴリズムの説明ではBaum-Welch法を行なわないと説明しているが、これは検討段階における事情である。したがって、本発明においては、Baum-Welch法による学習を利用しても良い。これ以外には、Viterbi法による学習など、HMMの学習法として知られる任意の学習法を用いることができる。例えば、Dirichlet事前確率を組み込んだベイズ手法を取り入れることにより、大幅にモデルの精度を改善することができる。
学習手段110は、図示しないが、これらの学習を実行するための手段を有している。具体的には、トレーニング配列の実際の膜貫通領域の数mや同定結果を保持する記憶手段、モデルパラメータを保持する記憶手段、モデルパラメータを更新して学習中のモデルからハイドロパシーデータ列と電荷データ列を抽出する手段、そして、そのデータ列をトレーニング配列の実際のハイドロパシーデータ列と電荷データ列と比較する比較手段などが含まれている。
図2により、本発明の実施の形態におけるモデルパラメータの算出方法について説明する。トレーニング配列として、アミノ酸残基や膜貫通領域の数あるいは位置(同定結果)が実験により明らかとなっている多数のタンパク質のアミノ酸残基配列を用いる。データ抽出手段104により、このトレーニング配列のアミノ酸残基配列のそれぞれからハイドロパシーデータ列と電荷データ列を抽出する(S202)。
次に、トレーニング配列についてのハイドロパシーデータ列と電荷データ列と、膜貫通領域の数および/または位置とから、モデルの学習を実行する。例えば、モデルパラメータを調整して、膜貫通領域の数を有する隠れマルコフモデルが、トレーニング配列のハイドロパシーデータ列と電荷データ列をできるだけ高い確率(尤度)で出力するようにすることにより、トレーニングを実行する(S204)。この学習は、学習手段110が行なう。 さらに、学習手段110は、そのようにして得られたモデルパラメータをモデル記憶手段106に格納する(S206)。
図3により、本発明の実施の形態における膜貫通領域の数または位置の算出方法について、膜貫通領域の数を求める場合について説明する。まず、データ抽出手段104がテスト配列(膜貫通領域が未知の配列)のアミノ酸残基配列を受け付けると、データ記憶手段102からハイドロパシーデータ列と電荷データ列を得る(S302)。算出手段108は、膜貫通領域の数を変えながら(S304、S308)、そのときの膜貫通領域の数におけるモデルパラメータを用いて、受け付けたハイドロパシーデータ列と電荷データ列が得られる確率を算出する(S306)。これにより、様々な膜貫通領域の数における確率が算出されるので、その確率が最も高い値を示す膜貫通領域の数を出力する(S310)。これにより、学習済みのモデルを用いて、ハイドロパシーインデックスと電荷とによって膜貫通領域の数を算出することが可能となる。膜貫通領域の数を求める代わりに膜貫通領域の位置を求める場合には、算出手段108の代わりに膜貫通領域の位置を算出する手段を用い、S304、S308では膜貫通領域の位置を変更する。
なお、膜貫通領域の数の学習を実行した後、その結果を生かして膜貫通領域の位置を予測することもできる。このためには、例えば、膜貫通領域の数を予測して得られたモデルパラメータを初期のモデルパラメータとして学習を行なうことができる。
[4. 考察]
提案されたアルゴリズムは、第1歩に過ぎず、詳細なチューニングをしていない段階のものであるため、先に記載した実験結果からは、本発明の方法は十分に期待してよいものであるといえる。ただし、このアルゴリズムには幾つかの改良が可能である。
(i)aij,bikの予測を、例えば、Dirichlet事前確率を組み込んだベイズ手法を取り入れることにより、大幅に改善することができる。
(ii)関連するハイパーパラメータは、固定されるのではなく、調整されてもよい。この場合には、モンテカルロ法が用いられてもよい。
(iii)電荷トラジェクトリーがこの問題についてより重要である可能性がある場合、サイドネス(内部または外部)が予測可能である。
(iv)例えば、膜貫通領域とループ領域との境界領域を取り入れることなどによって、より詳細な構造が考慮されてもよい。
(v)改良のために、他の物理化学的な量も考慮できるであろう。
(vi)3次元構造の予測も、成功すれば有用である。
提案されたアルゴリズムは、第1歩に過ぎず、詳細なチューニングをしていない段階のものであるため、先に記載した実験結果からは、本発明の方法は十分に期待してよいものであるといえる。ただし、このアルゴリズムには幾つかの改良が可能である。
(i)aij,bikの予測を、例えば、Dirichlet事前確率を組み込んだベイズ手法を取り入れることにより、大幅に改善することができる。
(ii)関連するハイパーパラメータは、固定されるのではなく、調整されてもよい。この場合には、モンテカルロ法が用いられてもよい。
(iii)電荷トラジェクトリーがこの問題についてより重要である可能性がある場合、サイドネス(内部または外部)が予測可能である。
(iv)例えば、膜貫通領域とループ領域との境界領域を取り入れることなどによって、より詳細な構造が考慮されてもよい。
(v)改良のために、他の物理化学的な量も考慮できるであろう。
(vi)3次元構造の予測も、成功すれば有用である。
1 予測装置
102 データ記憶手段
104 データ抽出手段
106 モデル記憶手段
108 算出手段
110 学習手段
102 データ記憶手段
104 データ抽出手段
106 モデル記憶手段
108 算出手段
110 学習手段
Claims (12)
- 受け付けたタンパク質のアミノ酸残基配列に対応するハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段と、
アミノ酸残基配列の膜貫通領域とループ領域とを表現する隠れマルコフモデルについて、該隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段と、
テスト配列であるアミノ酸残基配列に対するハイドロパシーデータ列と電荷データ列とをデータ記憶手段から受け付けて、前記モデル記憶手段から得た前記モデルパラメータに基づいて、膜貫通領域の数および/または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力することにより、前記タンパク質の膜貫通領域の数または位置を算出する算出手段と
を備えてなる、タンパク質の膜貫通領域の数および/または位置の予測装置。 - 前記モデルパラメータにより表現される前記隠れマルコフモデルを内部に実現した隠れマルコフモデル学習手段であって、トレーニング配列としての膜貫通領域の数および/または位置が既知であるアミノ酸残基配列におけるハイドロパシーデータおよび電荷データと、該アミノ酸残基を有するタンパク質の該膜貫通領域の数および/または位置とに基づいて学習を実行し、該学習の結果として得られたモデルパラメータを前記モデル記憶手段に格納する隠れマルコフモデル学習手段をさらに備えている、請求項1に記載の予測装置。
- 前記隠れマルコフモデルは、
前記タンパク質の膜貫通領域を表現する少なくとも一つの第1種のサブモデルと、
前記タンパク質のループ領域を表現する少なくとも一つの第2種のサブモデルと
を含むとともに、前記第1種のサブモデルと前記第2種のサブモデルとが交互にオープンループ結合した隠れマルコフモデルである、請求項1または2に記載の予測装置。 - 前記モデルパラメータは、
前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれについて、フロアリングおよびスムージングを施して設定されるハイドロパシーインデックス出力確率を定める第1群のパラメータと、
前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれについてフロアリングを施して設定される、電荷出力確率を定める第2群のパラメータと、
前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率と
を含むものである、請求項3に記載の予測装置。 - 前記第1種のサブモデルは、それぞれが自己ループを有し、互いにleft-to-right型に結合された複数の状態を有し、
前記第2種のサブモデルは、自己ループを有する単一の状態を有する、請求項3に記載の予測装置。 - テスト配列についての膜貫通領域の数および/または位置を予測する方法であって、
テスト配列であるタンパク質のアミノ酸残基配列を受け付けるステップと、
受け付けたテスト配列に対応するハイドロパシーデータ列と電荷データ列とを得る抽出ステップと、
該テスト配列についての前記ハイドロパシーデータ列と前記電荷データ列とを受け付けて、既知のタンパク質のデータに基づき既にトレーニングして得られている隠れマルコフモデルのモデルパラメータに基づいて、膜貫通領域の数および/または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出するステップと、
前記膜貫通領域数算出手段が、該確率を最大とする前記膜貫通領域の数および/または位置を出力する算出ステップと
を含む方法。 - トレーニング配列としてその特性が既知のタンパク質のアミノ酸残基配列を受け付けるステップと、
受け付けられたトレーニング配列に関するハイドロパシーデータおよび電荷データと、該両データ列を与えるタンパク質の該膜貫通領域の数および/または位置とに基づいて学習を実行する学習ステップと、
該学習ステップによって得たモデルパラメータを前記モデル記憶手段に格納する格納ステップと
を前記算出ステップに先立って実行する請求項6に記載の方法。 - 前記隠れマルコフモデルは、
前記タンパク質の膜貫通領域を表現する少なくとも一つの第1種のサブモデルと、
前記タンパク質のループ領域を表現する少なくとも一つの第2種のサブモデルと
を含むとともに、前記第1種のサブモデルと前記第2種のサブモデルとが交互にオープンループ結合した隠れマルコフモデルである、請求項6または7に記載の方法。 - 前記モデルパラメータは、
前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれについて、フロアリングおよびスムージングを施して設定されるハイドロパシーインデックス出力確率を定める第1群のパラメータと、
前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれについてフロアリングを施して設定される、電荷出力確率を定める第2群のパラメータと、
前記第1種のサブモデルおよび前記第2種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率と
を含むものである、請求項8に記載の方法。 - 前記第1種のサブモデルは、それぞれが自己ループを有し、互いにleft-to-right型に結合された複数の状態を有し、
前記第2種のサブモデルは、自己ループを有する単一の状態を有する、請求項9に記載の方法。 - コンピュータを、請求項1〜5のいずれかに記載の装置として動作させるための、コンピュータプログラム。
- コンピュータに、請求項6〜10のいずれかに記載の方法を実行させるための、コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004151159A JP2005108183A (ja) | 2003-09-12 | 2004-05-21 | タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム |
PCT/JP2004/012967 WO2005027013A1 (ja) | 2003-09-12 | 2004-09-07 | タンパク質の膜貫通領域の数または位置の予測装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321076 | 2003-09-12 | ||
JP2004151159A JP2005108183A (ja) | 2003-09-12 | 2004-05-21 | タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005108183A true JP2005108183A (ja) | 2005-04-21 |
Family
ID=34315666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004151159A Pending JP2005108183A (ja) | 2003-09-12 | 2004-05-21 | タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2005108183A (ja) |
WO (1) | WO2005027013A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275247A (zh) * | 2020-01-14 | 2020-06-12 | 西安理工大学 | 一种基于多种影响因素的极限学习机月度电量预测方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751416B2 (en) * | 2006-08-28 | 2014-06-10 | Koninklijke Philips N.V. | Method and apparatus for deriving probabilistic models from deterministic ones |
CN112069045A (zh) * | 2020-08-14 | 2020-12-11 | 西安理工大学 | 基于隐马尔可夫的云平台软件性能预测方法 |
CN117153240B (zh) * | 2023-08-18 | 2024-09-10 | 国家超级计算天津中心 | 基于氧自由基的关系确定方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3722420B2 (ja) * | 2001-01-18 | 2005-11-30 | 独立行政法人科学技術振興機構 | 蛋白質の判別方法 |
-
2004
- 2004-05-21 JP JP2004151159A patent/JP2005108183A/ja active Pending
- 2004-09-07 WO PCT/JP2004/012967 patent/WO2005027013A1/ja active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275247A (zh) * | 2020-01-14 | 2020-06-12 | 西安理工大学 | 一种基于多种影响因素的极限学习机月度电量预测方法 |
CN111275247B (zh) * | 2020-01-14 | 2024-02-23 | 西安理工大学 | 一种基于多种影响因素的极限学习机月度电量预测方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2005027013A1 (ja) | 2005-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7187681B2 (ja) | 細胞画像の分析のためのコンピュータ実装方法、コンピュータプログラム製品およびシステム | |
Lanchantin et al. | Deep motif dashboard: visualizing and understanding genomic sequences using deep neural networks | |
EP3821434B1 (en) | Machine learning for determining protein structures | |
US12001949B2 (en) | Computer-implemented method, computer program product and system for data analysis | |
Cano et al. | Automatic selection of molecular descriptors using random forest: Application to drug discovery | |
KR101908680B1 (ko) | 약한 지도 학습 기반의 기계 학습 방법 및 그 장치 | |
JP6620422B2 (ja) | 設定方法、設定プログラム、及び設定装置 | |
US8595155B2 (en) | Kernel regression system, method, and program | |
Castillo et al. | A Bayesian framework for the estimation of the single crystal elastic parameters from spherical indentation stress-strain measurements | |
US20170228523A1 (en) | Method and apparatus for analyzing relation between drug and protein | |
JP5139701B2 (ja) | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 | |
Papamarkou et al. | A random persistence diagram generator | |
Lu et al. | Predicting progressions of cognitive outcomes via high-order multi-modal multi-task feature learning | |
Tao et al. | LAST: LAtent space-constrained transformers for automatic surgical phase recognition and tool presence detection | |
Shrivastava et al. | Predicting peak stresses in microstructured materials using convolutional encoder–decoder learning | |
JP2005108183A (ja) | タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム | |
Sivakumar et al. | Breast cancer prediction system: A novel approach to predict the accuracy using majority-voting based hybrid classifier (MBHC) | |
Islamadina et al. | Learning Rate Analysis for Pain Recognition Through Viola-Jones and Deep Learning Methods | |
Görmez et al. | ROSE: A novel approach for protein secondary structure prediction | |
Serafimova et al. | Using machine learning in accuracy assessment of knowledge-based energy and frequency base likelihood in protein structures | |
Zannat et al. | Disease Prediction Through Syndromes by Clustering Algorithm | |
Shamima et al. | Prediction of membrane protein structures using a projection based meta-cognitive radial basis function network | |
Nguyen | Structured learning in biological domain | |
KR101373254B1 (ko) | 도메인 예측 장치, 방법 및 이를 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체 | |
EP4451146A1 (en) | Computer-implemented method for fast matching of entities from different datasets |