JP2005108183A

JP2005108183A - タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム

Info

Publication number: JP2005108183A
Application number: JP2004151159A
Authority: JP
Inventors: Daigo Muramatsu; 大吾村松; Shinichiro Hashimoto; 紳一郎橋本; Takahide Tsunashima; 孝英綱島; Takashi Kaburagi; 崇史鏑木; Masahiro Sasaki; 昌浩佐々木; Takashi Matsumoto; 隆松本
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-09-12
Filing date: 2004-05-21
Publication date: 2005-04-21
Also published as: WO2005027013A1

Abstract

【課題】与えられたアミノ酸残基データから、そのアミノ酸が細胞膜を貫通する膜貫通領域の数または位置を予測する。
【解決手段】受け付けたタンパク質の残基配列に対応するハイドロパシーデータ列と電荷データ列とを得るデータ抽出手段１０４と、求められたハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段１０２と、隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段１０６と、膜貫通領域の数またはその位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力する算出手段１０８とを備える予測装置１。
【選択図】図１

Description

本発明は、タンパク質の膜貫通領域の数または位置あるいはその両方の予測に関する。具体的には、タンパク質の膜貫通領域の数および／または位置を予測するための装置、方法及びコンピュータプログラムに関する。

直線状のアミノ酸配列からなるタンパク質は、それ自体の性質とそれを取り巻く液体などの周囲の環境に応じてバラエティーに富んだ立体構造を示す。そして、そのような立体構造がタンパク質の機能に大きな影響を与える。細胞膜を貫通するいわゆる膜タンパク質の構造予測の問題の重要性は、例えば、非特許文献１、２、４〜６に詳細に記載されている。

一般に、タンパク質の立体的構造の予測をするための方法は二通りある。一つは、各アミノ酸の物理化学的性質に基づいてタンパク質の立体構造を構築しようとするものである。この際、トレーニングの概念は通常含まれない。もう一つは、既知構造についてのデータセットを集めて、特徴を抽出し、機械学習のアルゴリズムを用いることにより予測するものである。一般のタンパク質構造の予測にまつわる問題の多くにおいて、とりわけタンパク質の膜貫通の場合においては、予測精度の改善が必要である。

なお、非特許文献３には、隠れマルコフモデルを用いた膜貫通領域数の予測が開示されているが、モデルの状態がオープンループ構造ではないために、各モデルにおいて膜貫通領域数は固定されていない。また、用いられるデータ列も各アミノ酸残基のハイドロパシーと電荷に関するもので有り得ることは開示されていない。
T. Hirokawa, S. Boon-Chieng, and S. Mitaku, "SOSUI: classification and secondary structure prediction system for membrane proteins," Bioinformatics, vol. 14, pp. 378-379, 1998. Y. Inoue, Y. Sugiyama, M. Ikeda, and T. Shimizu, "Classification of Eukaryotic 7-tms Transmembrane Proteins by Binary Topology Patterns," Genome Informatics, vol. 12, pp. 336-337, 2001. A. Krogh, B. Larsson, G. von Heijne, and E. Sonnhammer, "Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes," J. Mol. Biol., vol. 305, pp. 567-580, 2001. S. Moller, E. Kriventseva, and Apweiler, "A collection of well characterized integral membrane proteins," Bioinformatics, vol. 16, pp. 1159-1160, 2000. J. Kyte, and R. F. Doolittle, "A simple method for displaying the hydropathic character of a protein," J. Mol. Biol., vol. 157, pp. 105-132, 1972. B. Rost, R. Casadio, P. Fariselli, and C. Sander, "Transmembrane helices predicted at 95% accuracy", Protein Science, col.4, pp.521-533, 1995.

本発明は、タンパク質構造予測における一般的な問題ではなく、限定された問題を解決しようとするものである。本発明においては、アミノ酸配列が水溶性タンパクや膜タンパクである場合の予測も行なうが、与えられたアミノ酸配列は膜タンパクであるものとする。本発明の目的は、与えられたアミノ酸残基の配列に対して、膜貫通領域の数および膜貫通領域の位置を予測することにある。

例えば、与えられた残基配列が七つの膜貫通領域を有するタンパク質に由来するものであるかを予測することには大いに興味がある（非特許文献２参照）。本願発明者の知る限り、これらの問題は簡単ではない。というのは、膜貫通タンパク質においてＸ線結晶解析法は用いにくく、構造が知られた膜貫通タンパク質が非常に少ないことが一つの理由であってより正確な予測法が求められている。

本発明は、膜貫通領域の数または位置あるいはそれらの両方を予測するための新しいアルゴリズムを提供する。このアルゴリズムは、アミノ酸残基の位置の関数として表現される確率動的システムに関連したハイドロパシーインデックスおよび電荷からなる二次元のトラジェクトリー（軌跡）を利用するものである。

本発明の一つの態様は、コンピュータソフトウエアを用いて実現される専用装置としてのタンパク質の膜貫通領域の数および／または予測手段である。本発明では、受け付けたタンパク質のアミノ酸残基配列に対応するハイドロパシーデータ列と電荷データ列とを得るデータ抽出手段と、求められたハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段と、該ハイドロパシーデータ列と電荷データ列とに基づいて前記タンパク質の膜貫通領域の数または位置を予測するための、アミノ酸残基配列の膜貫通領域とループ領域とを表現する隠れマルコフモデルについて、該隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段と、テスト配列であるアミノ酸残基配列に対するハイドロパシーデータ列と電荷データ列とをデータ記憶手段から受け付けて、前記モデルパラメータに基づいて、膜貫通領域の数および／または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力することにより、前記タンパク質の膜貫通領域の数または位置を算出する算出手段とを備えてなる、タンパク質の膜貫通領域の数または位置の予測装置が提供される。

ここで、ハイドロパシーデータとは、ハイドロパシーインデックスのデータである。ハイドロパシーインデックスとは、各アミノ酸に対して決まる疎水性の程度をあらわす指数である。本発明では、タンパク質に含まれるアミノ酸残基のそれぞれに対応するアミノ酸のハイドロパシーインデックスを用いる。

電荷データとは、各アミノ酸残基に対応するアミノ酸の荷電状態を表わすデータである。データ記憶手段やモデル記憶手段は、コンピュータ等において論理的に識別可能な電子ファイル等の記憶手段である。記憶手段の具体的な態様は、揮発性記憶手段（ＲＡＭなど）や不揮発性記憶手段（ハードディスク、不揮発性メモリーチップなど）、内部記憶装置や外部記憶装置等の様々な態様を用いることができ、特にハードウエア仕様を問うものではない。モデル記憶手段は、該隠れマルコフモデルを定めるためのトレーニングされたモデルパラメータを保持する。

本発明によれば、該ハイドロパシーデータ列と電荷データ列とに基づいて前記タンパク質の膜貫通領域の数を算出するために隠れマルコフモデルを用いる。この隠れマルコフモデルはアミノ酸残基配列の膜貫通領域とループ領域とをそれぞれ表現する部分を有している。

データ抽出手段や算出手段とは、ソフトウエアによる情報処理を、コンピュータハードウエアを用いて実現する機能手段である。このうち、データ抽出手段とは、受け付けたタンパク質の残基配列に対応するハイドロパシーデータ列と電荷データ列とを抽出する機能を有する。このとき、例えば、各アミノ酸についてそれぞれハイドロパシーインデックスや電荷を与える変換テーブル手段を参照することができる。この場合、変換テーブル手段は、２０種あるアミノ酸のそれぞれについて上記のハイドロパシーインデックスと電荷とを与える変換規則を保持するルックアップテーブルである。

算出手段とは、膜貫通領域の数および／または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力する機能を有している。これにより、与えられたアミノ酸残基に対して膜貫通領域の最も適切な数または位置を算出することができる。

また、本発明では、前記モデルパラメータにより表現される前記隠れマルコフモデルを内部に実現した隠れマルコフモデル学習手段であって、トレーニング配列として膜貫通領域の数および／または位置が既知であるアミノ酸残基配列におけるハイドロパシーデータおよび電荷データと、該アミノ酸残基を有するタンパク質の該膜貫通領域の数および／または位置とに基づいて学習を実行し、該学習の結果として得られたモデルパラメータを前記モデル記憶手段に格納する隠れマルコフモデル学習手段をさらに備えていることも好適である。

本発明における学習手段は、トレーニングのための配列（トレーニング配列）によって隠れマルコフモデルの具体的なモデルパラメータを最適化する。

前記隠れマルコフモデルは、前記タンパク質の膜貫通領域を表現する少なくとも一つの第１種のサブモデルと、前記タンパク質のループ領域を表現する少なくとも一つの第２種のサブモデルとを含むとともに、前記第１種のサブモデルと前記第２種のサブモデルとが交互にオープンループ結合した隠れマルコフモデルとすることも好適である。

本発明における隠れマルコフモデルは、少なくとも２種の構造が異なるサブモデル（第１種および第２種のサブモデル）を有しているものとしてもよい。なお、同じ種類のサブモデルであっても、トポロジカルな構造が同じではあるが、具体的なモデルパラメータは異なる（出力確率と、遷移確率の違いなど）ものも含む。オープンループ結合は、サブモデル間の遷移が一方向に限定されてサブモデル間をループする遷移をもたない構造であり、膜貫通領域の数が変動しない利点を有する。

前記モデルパラメータは、前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれについて、フロアリングおよびスムージングを施して設定されるハイドロパシーインデックス出力確率を定める第１群のパラメータと、前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれについてフロアリングを施して設定される、電荷出力確率を定める第２群のパラメータと、前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率とを含むものとすることも好適である。

本発明においては、フロアリングやスムージングという手法が用いられる。フロアリングは、計算され確率値がゼロになることを防ぐ為に導入される手法であり、パラメータ（状態遷移確率、出力確率）の最小値をある量だけ増加させてこの不都合を回避する手法である。また、スムージングは、ある規則に基づいて計算中の値を滑らかにして、非本質的なデータの振れが計算結果に影響することを防止する手法である。

前記第１種のサブモデルは、それぞれが自己ループを有し、互いにleft-to-right型に結合された複数の状態を有し、前記第２種のサブモデルは、自己ループを有する単一の状態を有するものとすることも好適である。

本発明では、テスト配列についての膜貫通領域の数または位置を予測する方法であって、テスト配列であるタンパク質のアミノ酸残基配列を受け付けるステップと、受け付けたタンパク質のアミノ酸残基配列に対するハイドロパシーデータ列と電荷データ列とを得る抽出ステップと、該テスト配列についての前記ハイドロパシーデータ列と前記電荷データ列とを受け付けて、既知のタンパク質のデータに基づき既にトレーニングして得られている隠れマルコフモデルのモデルパラメータに基づいて、膜貫通領域の数および／または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出するステップと、前記膜貫通領域数算出手段が、該確率を最大とする前記膜貫通領域の数および／または位置を出力する算出ステップとを含む方法が提供される。

本発明では、トレーニング配列として既知のタンパク質のアミノ酸残基配列を受け付けるステップと、受け付けられたトレーニング配列に関するハイドロパシーデータおよび電荷データと、該両データ列を与えるタンパク質の該膜貫通領域の数および／または位置とに基づいて学習を実行する学習ステップと、該学習ステップによって得たモデルパラメータを前記モデル記憶手段に格納する格納ステップとを前記算出ステップに先立って実行する方法が提供される。

また、本発明では、コンピュータを、上記いずれかに記載の装置として動作させるための、コンピュータプログラムや、コンピュータに、上記いずれかに記載の方法を実行させるための、コンピュータプログラムが提供される。

本発明では、予備的な実験結果についても示される。膜貫通領域の数についての予測精度は９４％であり、膜貫通領域の位置についての予測精度は９６．０９％である。この結果は詳細なチューニングをしていない段階のものであり、十分に期待してよいものである。

［１．アルゴリズム］
本発明では、タンパク質の基礎的な構造は与えられたものとして、以下の二次元のベクトルシーケンスを検討する。ここに、ｔはアミノ酸残基に付す番号であり、位置を表わす。Ｔはアミノ酸残基の総数である。

タンパク質を構成するアミノ酸は２０種有り、通常２０文字のシンボルにより表現されるが、このシーケンスは、２０文字のシンボルの代わりとして、アミノ酸に関連した数値の並びを表わすものである。そして、本願発明においては各アミノ酸についてのハイドロパシーインデックス（ハイドロパシーを表わす数値）のデータと電荷のデータとの二次元の広がりを有する空間が、アミノ酸残基の列（すなわちタンパク質の一次構造）の周りに広がることになる。この問題に見られる配列（アミノ酸の配列）の性質を考慮する一つの方法は、現実のアミノ酸残基の配列に対応する概念として補助配列（auxiliary sequence）｛Ｑ_ｔ｝を考慮することである。この補助配列｛Ｑ_ｔ｝は、一次元のパラメータｔによって示される内部確率動的システム(inner stochastic dynamical system)の「トラジェクトリー」であり、この補助配列をブラウン運動世のような自己相関のないアミノ酸残基の配列であると考えることによりＯ_ｔはこの補助配列の不確定性を伴った出力とみなせる。（つまりあるアミノ酸残基ｉの隣にもう一つのアミノ酸残基ｊがある確率を考える事ができる）。このとき、同時確率分布は、

により与えられる。ここに、Ｈは基礎となっているモデル構造を示している。数２の式の第１および第２の方程式は、一般形であり、最後の方程式が本発明で用いられる隠れマルコフモデルである。ａ_ｉｊは状態ｉから状態ｊへの遷移確率、ｂ_ｉｋ１ ^１は状態ｉがハイドロパシーインデックスν_ｋ１ ^１を与える出力確率、ｂ_ｉｋ２ ^２は状態ｉが電荷ν_ｋ２ ^２を与える出力確率、π_ｉは状態ｉの初期の確率である。ハイドロパシーインデックスは実数であるが、有限数のインデックスの値、例えば、Kyte-Doolittleインデックスについては１７の値を取ることに注意を要する（非特許文献５）。同様に、電荷も有限数の値（＋１、０、−１）だけを取り得る。

図４は、ある膜貫通タンパク質のＫ−Ｄインデックスと電荷との典型的なトラジェクトリーを表わしている。図４は、アミノ酸残基位置を横軸に選び、各残基について、Ｋ−Ｄインデックスの値と電荷の値をプロットし、さらに、膜貫通領域を示したものである。用いたタンパク質は、ＡＣＰ０２９１２であり、膜貫通領域の数（ｍ）は５である。このデータは、ｆｔｐサイト（ftp://ftp.ebi.ac.uk/databases/testsets/transmembrane）からダウンロードしたものである。２０シンボルの代わりにこれらの物理化学的インデックスを考慮したことにより、主な結果として、異なるアミノ酸の間の「近さ」（nearness）が考慮可能となる。即ち、ハイドロパシーインデックスの値が似ている二つのアミノ酸は、この特別な距離（metric）に関して互いに近いものと考える事ができる。このことにより、オーバーフィッティングの問題（ローカルミニマムに入ってしまいグローバルミニマムを見出すことができない問題）を回避するための「スムージング／フロアリング」を実行することが可能となる。

数２の式によって記述される方式は、内部動的システムが無限数の状態を有する非線形の時系列予測問題について、あるいは手書き文字の認識問題、内部動的システムが有限数の状態を有するオンラインサイン認証問題について、うまく行くことがある。これらの３つの分野では、インデックスパラメータｔに相当するのは時間であるが、タンパク質の基本配列においては、ｔはアミノ酸残基の連続番号という空間位置を示している。数２においては、内部確率動的システムが一次であり、観測機構が（内在する確率について）内部動的システムに対して独立であることが仮定されているが、このような制限を外した一般化は可能である。

［１．１モデル構造］
モデルの構造Ｈは数２の式を良好に適用するのに重要である。数２の式は、ＨＭＭ（隠れマルコフモデル）と呼ばれる非常に一般的なパラダイムを示しているものであり、この広いパラダイムの中で採用されるモデル構造と得られるデータセットは、ある予測問題に固有の目的を考慮して、慎重に定める必要がある。膜タンパクの可能なかぎり多数の性質を考慮することによってできるだけ詳細にモデル構造をデザインしたいと考えても、構造の知られた膜タンパクの数は非常に限られており、詳細なモデルの多くのパラメータの微妙なチューニングを行なうことは不可能である。これは、データフィッティング対単純さのジレンマ（オッカムの剃刀:Ockham’s razor）の現れである。

本発明で提案されるモデルは、以下のように構成される。ここで、ｍは膜貫通領域の数を表わす。
（ｉ）ｍの各値に対してＨ_ｍ（ｎ）が構成され、ｎ＝１、・・・、ｎ_ｍとする。ｎ_ｍは後に定義される。
（ｉｉ）各モデルＨ_ｍ（ｎ）は、ループ領域のサブモデルＨ_ｍλｕ（ｎ）（ｕ＝１、・・・、ｍ＋１）と、膜貫通領域のサブモデルＨ_ｍμν（ｎ）（ν＝１、・・・、ｍ）との交互の結合からなるオープンループ構造を有している（図５（ａ））。
（ｉｉｉ）膜貫通領域のサブモデルＨ_ｍμν（ｎ）は、単純なleft-to-rightのトポロジーを有し、自己ループを持つτ個の状態が存在して、図５（ｂ）に示されるように組み込まれている。τは、全トレーニングデータセットが与えられたとき、膜貫通領域の残基長の平均値として定義される。
（ｉｖ）ループ領域のサブモデルＨ_ｍλｕ（ｎ）は自己ループをもつ単一状態のみを有する（図５（ｃ））。
（ｖ）出力Ｏ_ｔの第１の成分は、Kyte-Doolittleインデックス（ハイドロパシーインデックスの一種）であり、第２の成分は、各アミノ酸残基に関して定められている電荷である。

［１．２学習］
ｍの各値について提供されるモデルＨ_ｍ（ｎ）は、２ｍ＋１個のサブモデルとｍ（τ+１）+1個の状態とを有している。

を特定のｍについてのトレーニングデータセットとする。ここで、｜Ｏ^ｍ｜はｍ個の膜貫通領域について得られるデータセットの数である。この提案されたアルゴリズムは一つのデータセットから一つのモデルを構築しようと試みるものであるため、（ｉ）におけるｎ_ｍは｜Ｏ^ｍ｜と等しくなる。

［ステップ１：Ｋ−Ｄインデックス出力確率］
［ｂ_ik1 ^１の学習］
ステップ１．１（フロアリング）
Ｈ_ｍμν（ｎ）の各状態ｑ_ｉについて、ｉ_ｌ（ｌ＝１、・・・τ）に関して一様に

と設定する。
Ｈ_ｍλｕ（ｎ）の状態ｑ_ｉについて、

とする。
ここで、
ｎ（｛ＫＤ_ｔ｝、ｋ_１；μ_ν）：＝膜貫通領域Ｈ_ｍμν（ｎ）内にある、Ｋ−Ｄインデックスがｋ_１である残基の数、
ｎ（｛ＫＤ_ｔ｝、ｋ_１；λ_ν）：＝ループ領域Ｈ_ｍλｕ（ｎ）内にある、Ｋ−Ｄインデックスがｋ_１である残基の数、
β_μとβ_λはハイパーパラメータである。

ステップ１．２（スムージング）

ここで、σはハイパーパラメータである。
類似のスムージングが

についても実行される。

本アルゴリズムにおいては、出力確率は個々のサブモデル内において同じである。たとえベイズ推論（T. Matsumoto, Y. Nakajima, M. Saito, J. Sugi, and H. Hamagishi, “Reconstructions and predictions of nonlinear dynamical systems: A Hierarchical Bayesian Approach,” IEEE Trans. Signal Processing, vol. 49, pp. 2138-2155, 2001）が可能ではあっても、本発明のおいては、ハイパーパラメータを経験的に選択することによって、オーバーフィッティングの問題を回避することができる。もし、2つのアミノ酸の間の近さを定義していなかったなら、ステップ１．２が不可能であっただろうということに注目すべきである。さらに、２０種のうち４つのアミノ酸（ＡＳＰ，ＡＳＮ，ＧＬＵ，ＧＬＮ）が同じＫ−Ｄインデックス（−３．５）を有する点にも注目すべきである。

［ステップ２：電荷出力確率］
［ｂ_ik ^２の学習］
Ｈ_ｍμν（ｎ）の各状態ｑ_ｉについて、ｉ_ｌ（ｌ＝１、・・・τ）に関して一様に

と設定する。
Ｈ_ｍλｕ（ｎ）の状態ｑ_ｉについて、

とする。
ここで、
ｎ（｛Ｃｈａｒｇｅ_ｔ｝、ｋ_２；μ_ν）：＝膜貫通領域Ｈ_ｍμν（ｎ）内にある、電荷がｋ_２である残基の数、
ｎ（｛Ｃｈａｒｇｅ_ｔ｝、ｋ_２；λ_ν）：＝ループ領域Ｈ_ｍλｕ（ｎ）内にある、電荷がｋ_２である残基の数、
γ_μとγ_λはハイパーパラメータである。

ヒスチジンでは、自身のｐＨに依存する二つの電荷値をとることができる。以下の実施例においては、このヒスチジンの電荷は＋１であると仮定する。将来の検討課題として、二つの異なる値の存在を正しく考慮する可能性が検討されなくてはならない。ヒスチジンの数が実験で用いたデータセット中には少ないので、この暫定的な仮定は、予測性能には大きな影響は有しないようである。

［ステップ３：状態遷移確率］
与えられた残基配列について、以下の分解を考える。

［ａ_ｉｊの学習］
Ｈ_ｍλｕ（ｎ）の状態ｑ_ｉについて、

とする。
Ｈ_ｍμν（ｎ）の各状態ｑ_ｉについて、

とする。
ここで、α_μνｉ（ｍ_ｋ）はチューンされるべきパラメータである。

この実施の形態において以下の知見が得られている。
（ｉ）ｍのある値を考えると、各サブモデルＨ_ｍμν（ｎ）は同じ状態の数と同じトポロジーを有している。このため、ａ_ｉｊは全てのｎについて同じ値となるが、本発明の学習ルールにおいては、各データセットが異なる数のＫ−Ｄインデックスと電荷を有するために、「出力確率」は異なるだろう。したがって、ｎ_ｍ＝ｍ_ｋとなり、つまり、各データセットが一つのモデルを生成する。
（ｉｉ）上記定式化において、二つの出力確率

が、簡単のために、独立であると仮定されている（現実にはそうではない）。
（ｉｉｉ）いくつかの理由により、Baum-Welch法を使わない選択をした。第１に、その方法はローカルミニマムに影響されやすいためである。第２には、本発明の最初の試行パラメータの値の合理性をテストして、ここに提案する構造が正しいか確認するためである。勿論、学習過程はいろいろなやり方で改善されなくてはならない。
（ｉｖ）Kyte-Doolittleインデックスより優れたハイドロパシーインデックスが存在するかもしれない。実際、８０もの異なるハイドロパシーインデックスが提案されており、本発明は原理的にはいずれのインデックスも使用できるものである。
（ｖ）本発明の方式における各モデルは、膜貫通領域の数ｍの固定した値を有していること、および、個々のサブモデル内の各状態に関連している自己ループを除き、各モデルが完全にオープンループである点に注目するべきである。これに対し、非特許文献３では、サブモデルの間の遷移が許容されており、このためにｍが固定されていない。

［１．３予測計算］
Ｄ_ｔｅｓｔ：＝｛Ｏ_ｔ｝_ｔ＝１ ^{Ｔｔｅｓｔ}をテスト配列とする。予測段階では、ｍと、関連した状態配列｛Ｑ_ｔ｝とは共に不明である。モデルＨ_ｍ（ｎ）が与えられると、各状態ｑ_ｉは特有のサブモデルＨ_ｍμν（ｎ）あるいはＨ_ｍλｕ（ｎ）に関連していることに注目しなくてはならない。

［ｍの予測］
膜貫通領域の数ｍは、以下により予測される。

ここに、

である。

［膜貫通領域の予測］

となるとき、Ｏ_ｔ ^ｔｅｓｔに関連したアミノ酸がν番目の膜貫通領域Ｈ_ｍμνにあると予測される。ここで、ｔ＝１については、Ｑ_１ ^＊：＝ｑ_１であり、ｔ＞１については、

である（このとき、Ｑ_ｔ−１ ^＊＝ｑ_ｊ）。
また、

となるとき、Ｏ_ｔ ^ｔｅｓｔに関連したアミノ酸がｕ番目の膜貫通領域Ｈ_ｍλｕにあると予測される。

ここで、以下の点を注記する。
（ｉ）

が、パラメータｗとモデルＨが固定されているときに状態Ｑ_ｔがｑｉにある尤度であることに注目する必要がある。このことは、一様な事前確率Ｐ（Ｈ_ｍ（ｎ））において方程式を

と表記するために用いることができる。
（ｉｉ）つまり、数２１の式の左辺は、テストの第１の配列がｔ＋１、ｔ＋２、．．．、Ｔについて与えられたときの状態Ｑ_ｔがｑ_ｉとなる確率となる。
（ｉｉｉ）数１８の式が、膜貫通領域の予測の唯一の方法というわけではない。

［２実験］
［２．１データセット］
一般のタンパク質構造の予測問題における非常に困難な課題の一つ、そして、特に、膜タンパク質構造予測における大きな課題は、適切な実験のためのデータセットを得るのが難しい点にある。以下に示す本発明の実験のアミノ酸配列は、非特許文献４に記載されたｆｔｐサイト（ftp://ftp.ebi.ac.uk/databases/testsets/transmembrane）からダウンロードされたものである。このダウンロードしたアミノ酸配列のうちから、以下の明確な同定結果のあるものを本発明の実験に用いた：DOMAIN CYTOPLASMIC, DOMAIN MATRIX, DOMAIN EXTRACELLULAR, DOMAIN INTERMEMBRANE, DOMAIN PERIPLASMIC, TRANSMEM 。ここで、CYTOPLASMIC, MATRIX, EXTRACELLULAR, INTERMEMBRANE 、PERIPLASMICをループセグメントとして解釈し、TRANSMEMを膜貫通セグメントとして解釈した。

注意を要する重要な問題がある。予測実験を行なうと、当然、最良の既存のアルゴリズムやツールと予測性能を比較したくなる。これを行なうためには、既存のツールのトレーニングにいずれのデータセットが用いられ、あるいは、用いられていないかを知らなくてはならない。本発明者等の現在の状況では、そのようなデータセットを特定することは、不可能ではないかもしれないが非常に困難である。

上記ｆｔｐサイトには、４つの異なるデータセットの分類Ａ、Ｂ、Ｃ、Ｄがある。この分類は、タンパク質構造の信頼性の程度に応じたものである。Ａ，Ｂ，Ｃに分類されたデータセットの構造は、信頼性の程度は違うが、ほぼ十分に良好に解析されたものである。このため、Ａ，Ｂ，Ｃにあるデータセットについて、全てとは言わないが、その多くが既に既存のツールのトレーニングに用いられたものではないかと考えられる。このことは、Ａ，Ｂ，Ｃのデータセットをトレーニングデータセットとして用いることは適当ではあるが、異なるアルゴリズムの性能の比較のためのテストデータセットとして使用することは適当ではないことを暗に意味している。他の研究者によって開発された既存の予測ツールについて、新しいトレーニングを新しいトレーニングデータセットを用いて実行することは、不可能ではないが、非常に困難である。これを改善するために、上記サイトにあるファイルＡ，Ｂ，Ｃにあるデータセットをトレーニングのために用い、ファイルＤにあるデータセットをテストに使用した。ファイルＤにあるデータセットのうち、既存のツールのトレーニングに用いられたものは少ないであろうから、異なるツール（本発明のものも含む）は、ほぼ対等の立場といえるだろう。こうすることで、当然、Ｄのテストデータセットは信頼性が乏しくなるというデメリットがある。このジレンマは、異なるタンパク質構造予測アルゴリズムを比較する際の重要な課題となり続けるだろう。

［２．２実験結果１：膜貫通領域の数］
表１は、データセットの詳細、つまり、Ａ，Ｂ，Ｃ，Ｄに含まれるデータセットの数、膜貫通領域の数を示している。表２の第１列は本発明の方法による結果を示している。５０個のテストデータセットのうち、本発明のアルゴリズムは４７個を正確に予測した（９４％）。分類ミスをした３つのタンパク質はＰ０２７２５（ｍ＝１）、Ｐ３２８９７（ｍ＝４）、Ｐ０２９１２（ｍ＝５）である。

表２の２ｎｄ以降の列は、本発明のアルゴリズムが予測に失敗した様子を示している。もし、数１５によって与えられる本発明の予測

が正確な値と異なっており、それに対応する尤度が２番目に大きなものであるときには、この表の２ｎｄに記載される。テストデータには、３番目以下になるものは一つも見られない。このことは、本発明の予測方法はほぼ正しく、かつ、より詳細なチューニングによって改善され得ることを示唆していると言える。

比較のため、膜貫通構造予測の分野において最もよく参照される２つの論文であるＴＭＨＭＭ（非特許文献３）、およびＳＯＳＵＩ（非特許文献１）に対して、分類Ｄの配列をテストした。前者は４７個（９４％）を正確に予測し、後者は３８個（７６％）を正確に予測した。これらのアルゴリズムは必要であれば、他の変数も予測する能力がある。

［２．３実験結果２：膜貫通領域の位置］
次に、膜貫通領域の位置を予測する場合について説明する。他と比較して重要なパラメータは、各幕貫通領域にある状態の数τである。幾つかの予備実験により、τ＝２１を選択した。

表１にあるように膜貫通領域の数は合計２３０である。性能評価の判定基準は、非特許文献４に従った。性能の判定基準を定めるには、以下を考える。
（ｉ）真のポジティブの予測（TP; True Positive Predictions）：TPは二つの条件を満たさなければならない。まず、少なくとも９つの残基を、基準となる同定結果（annotation）における膜貫通領域の残基と共有しなくてはならない。さらに、予測された膜貫通領域が、基準の同定結果に対して対応付けできなくてはならない。図６ａは、この概念を表わす概念図であり、「Ｔ」は膜貫通領域にあるアミノ酸を示し、「−」は、ループ領域にあるアミノ酸を示す。
（ｉｉ）偽のネガティブの予測（FN; False Negative Predictions）：ＦＮは、予測できなかった膜貫通領域であり、図６ｂにより示されるものである。
（ｉｉｉ）偽のポジティブの予測（FP; False Positive Predictions）：ＦＰは、基準となるタンパク質のテスト集合には、膜貫通領域として存在しないところに予測された膜貫通領域を示す。これは、図６ｃにより示される。

性能の基準は、

により定義される。これは、非特許文献４において用いられていると本願発明者が予測しているものであるが、そこには式は明示されていない。
われわれのアルゴリズムの性能は
TP=224,FN=6,FP=3,正確さ（％）＝96.09（％）
である。

図７は、予測結果の例を示す。図７の（ａ）〜（ｃ）は、上記定義に従って、全ての膜貫通領域が正しく、「真のポジティブ」と予測された例であるが、図７の（ｄ）は、偽のネガティブという予測を一つ含み、他は全て正しいと予測されたものである。他の予測アルゴリズムとの正確な対比は、用いられたデータセットが異なるために難しい。２０００年までの様々な予測アルゴリズムの性能の比較が非特許文献４に記載されている。

［３．予測装置］
上記の隠れマルコフモデルによる予測アルゴリズムを組み込んだタンパク質の膜貫通領域の数または位置を予測する専用装置について説明する。
図１は、本発明の予測装置１の各構成要素を表わすブロックダイヤグラムである。データ記憶手段１０２は、２０種あるアミノ酸の種類に応じて、ハイドロパシーデータと電荷データを保持する変換テーブル１０２ａを記憶していても良い。この変換テーブルの内容を表３に記載する。

表３ではハイドロパシーインデックスの代表として、Ｋ−Ｄインデックスを記載している。アミノ酸残基の配列を受け取ると、データ抽出手段１０４は、受け取ったアミノ酸残基のそれぞれのアミノ酸に対応するハイドロパシーインデックスのデータ列と、電荷のデータ列を出力し、必要に応じてデータ記憶手段１０２に格納する。あるいは、アミノ酸残基のデータをそのままデータ記憶手段１０２に格納し、変換テーブル１０２ａと併せてハイドロパシーインデックスのデータ列と電荷のデータ列が得られるように構成されていても良い。

モデル記憶手段１０６は、数１６の式で示されるモデルパラメータデータを格納している。そして、算出手段１０８は、データ抽出手段１０４からハイドロパシーインデックスのデータ列と電荷のデータ列とに応じて、モデルパラメータを用いて数１５の計算を実行することにより、膜貫通領域数

を算出したり、各アミノ酸残基について数１７〜１９の判定を行なって膜貫通領域にあるかどうかを判定し、膜貫通領域の位置を定めたりする。図示しないが、算出手段１０８には、数１５、数１７〜１９の計算を実行するための手段（加算される各項の確率を計算する確率計算手段、その確率計算手段の出力を記憶する記憶手段、その記憶手段の内容を加算する加算手段等の必要な手段）が実装されている。

算出手段１０８の出力は、適当な出力手段（図示しない）により、膜貫通領域予測装置１の外部へ出力されたり、あるいは、表示装置（図示しない）に表示されたり、記憶手段（図示しない）に記憶されたりすることができる。

本発明の本発明の予測装置１には、さらに、隠れマルコフモデル学習手段１１０が備えられていても良い。この学習手段１１０は、内部にはＨＭＭ（隠れマルコフモデル）を保持している。本態様のＨＭＭは、上記の［１．１モデル構造］によって説明したモデルである。また、学習手段１１０には、学習するためのデータとして、トレーニング配列のデータ（トレーニング配列のアミノ酸残基からデータ抽出手段によって出力されたハイドロパシーデータ列と電荷データ列、トレーニング配列について予め実験的に得られている膜貫通領域の数ｍ、各アミノ酸残基が膜貫通領域にあるか、ループ領域にあるかの同定結果）が与えられる。

この学習方法は、上記アルゴリズムの説明ではBaum-Welch法を行なわないと説明しているが、これは検討段階における事情である。したがって、本発明においては、Baum-Welch法による学習を利用しても良い。これ以外には、Viterbi法による学習など、ＨＭＭの学習法として知られる任意の学習法を用いることができる。例えば、Dirichlet事前確率を組み込んだベイズ手法を取り入れることにより、大幅にモデルの精度を改善することができる。

学習手段１１０は、図示しないが、これらの学習を実行するための手段を有している。具体的には、トレーニング配列の実際の膜貫通領域の数ｍや同定結果を保持する記憶手段、モデルパラメータを保持する記憶手段、モデルパラメータを更新して学習中のモデルからハイドロパシーデータ列と電荷データ列を抽出する手段、そして、そのデータ列をトレーニング配列の実際のハイドロパシーデータ列と電荷データ列と比較する比較手段などが含まれている。

図２により、本発明の実施の形態におけるモデルパラメータの算出方法について説明する。トレーニング配列として、アミノ酸残基や膜貫通領域の数あるいは位置（同定結果）が実験により明らかとなっている多数のタンパク質のアミノ酸残基配列を用いる。データ抽出手段１０４により、このトレーニング配列のアミノ酸残基配列のそれぞれからハイドロパシーデータ列と電荷データ列を抽出する（Ｓ２０２）。

次に、トレーニング配列についてのハイドロパシーデータ列と電荷データ列と、膜貫通領域の数および／または位置とから、モデルの学習を実行する。例えば、モデルパラメータを調整して、膜貫通領域の数を有する隠れマルコフモデルが、トレーニング配列のハイドロパシーデータ列と電荷データ列をできるだけ高い確率（尤度）で出力するようにすることにより、トレーニングを実行する（Ｓ２０４）。この学習は、学習手段１１０が行なう。さらに、学習手段１１０は、そのようにして得られたモデルパラメータをモデル記憶手段１０６に格納する（Ｓ２０６）。

図３により、本発明の実施の形態における膜貫通領域の数または位置の算出方法について、膜貫通領域の数を求める場合について説明する。まず、データ抽出手段１０４がテスト配列（膜貫通領域が未知の配列）のアミノ酸残基配列を受け付けると、データ記憶手段１０２からハイドロパシーデータ列と電荷データ列を得る（Ｓ３０２）。算出手段１０８は、膜貫通領域の数を変えながら（Ｓ３０４、Ｓ３０８）、そのときの膜貫通領域の数におけるモデルパラメータを用いて、受け付けたハイドロパシーデータ列と電荷データ列が得られる確率を算出する（Ｓ３０６）。これにより、様々な膜貫通領域の数における確率が算出されるので、その確率が最も高い値を示す膜貫通領域の数を出力する（Ｓ３１０）。これにより、学習済みのモデルを用いて、ハイドロパシーインデックスと電荷とによって膜貫通領域の数を算出することが可能となる。膜貫通領域の数を求める代わりに膜貫通領域の位置を求める場合には、算出手段１０８の代わりに膜貫通領域の位置を算出する手段を用い、Ｓ３０４、Ｓ３０８では膜貫通領域の位置を変更する。

なお、膜貫通領域の数の学習を実行した後、その結果を生かして膜貫通領域の位置を予測することもできる。このためには、例えば、膜貫通領域の数を予測して得られたモデルパラメータを初期のモデルパラメータとして学習を行なうことができる。

［４．考察］
提案されたアルゴリズムは、第１歩に過ぎず、詳細なチューニングをしていない段階のものであるため、先に記載した実験結果からは、本発明の方法は十分に期待してよいものであるといえる。ただし、このアルゴリズムには幾つかの改良が可能である。
（ｉ）ａ_ｉｊ，ｂ_ｉｋの予測を、例えば、Dirichlet事前確率を組み込んだベイズ手法を取り入れることにより、大幅に改善することができる。
（ｉｉ）関連するハイパーパラメータは、固定されるのではなく、調整されてもよい。この場合には、モンテカルロ法が用いられてもよい。
（ｉｉｉ）電荷トラジェクトリーがこの問題についてより重要である可能性がある場合、サイドネス（内部または外部）が予測可能である。
（ｉｖ）例えば、膜貫通領域とループ領域との境界領域を取り入れることなどによって、より詳細な構造が考慮されてもよい。
（ｖ）改良のために、他の物理化学的な量も考慮できるであろう。
（ｖｉ）３次元構造の予測も、成功すれば有用である。

本発明の実施の形態に係る膜貫通領域数予測装置の構成を示すブロックダイヤグラムである。本発明の実施の形態に係るモデルパラメータを算出する方法を示すフローチャートである。本発明の実施の形態に係る膜貫通領域数予測方法を示すフローチャートである。本発明の実施の形態において、トレーニング配列の一例における、アミノ酸残基からも止められるＫ−Ｄインデックス（ハイドロパシーインデックスの一例）と電荷のトラジェクトリーである。（ａ）は、本発明で用いられる隠れマルコフモデルの全体モデル構造を示す説明図である。（ｂ）は、膜貫通領域のサブモデルを示す説明図である。（ｃ）は、ループ領域のサブモデルを示す図である。膜貫通領域の位置についての予測性能の評価の基準を説明する説明図である。（ａ）は膜貫通領域の同定結果を予測できた場合（ＴＰ）、（ｂ）は膜貫通領域の同定結果を予測できない場合（ＦＮ）、（ｃ）は、膜貫通領域でない位置を膜貫通領域と予測した場合（ＦＰ）である。４種のタンパク質における膜貫通領域の位置を予測した結果を、同定結果と対比させて示す説明図である。

符号の説明

１予測装置
１０２データ記憶手段
１０４データ抽出手段
１０６モデル記憶手段
１０８算出手段
１１０学習手段

Claims

受け付けたタンパク質のアミノ酸残基配列に対応するハイドロパシーデータ列と電荷データ列を記憶するデータ記憶手段と、
アミノ酸残基配列の膜貫通領域とループ領域とを表現する隠れマルコフモデルについて、該隠れマルコフモデルを定めるための学習されたモデルパラメータを保持するモデル記憶手段と、
テスト配列であるアミノ酸残基配列に対するハイドロパシーデータ列と電荷データ列とをデータ記憶手段から受け付けて、前記モデル記憶手段から得た前記モデルパラメータに基づいて、膜貫通領域の数および／または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出し、該確率を最大とする前記膜貫通数を出力することにより、前記タンパク質の膜貫通領域の数または位置を算出する算出手段と
を備えてなる、タンパク質の膜貫通領域の数および／または位置の予測装置。
前記モデルパラメータにより表現される前記隠れマルコフモデルを内部に実現した隠れマルコフモデル学習手段であって、トレーニング配列としての膜貫通領域の数および／または位置が既知であるアミノ酸残基配列におけるハイドロパシーデータおよび電荷データと、該アミノ酸残基を有するタンパク質の該膜貫通領域の数および／または位置とに基づいて学習を実行し、該学習の結果として得られたモデルパラメータを前記モデル記憶手段に格納する隠れマルコフモデル学習手段をさらに備えている、請求項１に記載の予測装置。
前記隠れマルコフモデルは、
前記タンパク質の膜貫通領域を表現する少なくとも一つの第１種のサブモデルと、
前記タンパク質のループ領域を表現する少なくとも一つの第２種のサブモデルと
を含むとともに、前記第１種のサブモデルと前記第２種のサブモデルとが交互にオープンループ結合した隠れマルコフモデルである、請求項１または２に記載の予測装置。
前記モデルパラメータは、
前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれについて、フロアリングおよびスムージングを施して設定されるハイドロパシーインデックス出力確率を定める第１群のパラメータと、
前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれについてフロアリングを施して設定される、電荷出力確率を定める第２群のパラメータと、
前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率と
を含むものである、請求項３に記載の予測装置。
前記第１種のサブモデルは、それぞれが自己ループを有し、互いにleft-to-right型に結合された複数の状態を有し、
前記第２種のサブモデルは、自己ループを有する単一の状態を有する、請求項３に記載の予測装置。
テスト配列についての膜貫通領域の数および／または位置を予測する方法であって、
テスト配列であるタンパク質のアミノ酸残基配列を受け付けるステップと、
受け付けたテスト配列に対応するハイドロパシーデータ列と電荷データ列とを得る抽出ステップと、
該テスト配列についての前記ハイドロパシーデータ列と前記電荷データ列とを受け付けて、既知のタンパク質のデータに基づき既にトレーニングして得られている隠れマルコフモデルのモデルパラメータに基づいて、膜貫通領域の数および／または位置を変更しながら前記テスト配列に対応するハイドロパシーデータ列および電荷データ列を与える確率を算出するステップと、
前記膜貫通領域数算出手段が、該確率を最大とする前記膜貫通領域の数および／または位置を出力する算出ステップと
を含む方法。
トレーニング配列としてその特性が既知のタンパク質のアミノ酸残基配列を受け付けるステップと、
受け付けられたトレーニング配列に関するハイドロパシーデータおよび電荷データと、該両データ列を与えるタンパク質の該膜貫通領域の数および／または位置とに基づいて学習を実行する学習ステップと、
該学習ステップによって得たモデルパラメータを前記モデル記憶手段に格納する格納ステップと
を前記算出ステップに先立って実行する請求項６に記載の方法。
前記隠れマルコフモデルは、
前記タンパク質の膜貫通領域を表現する少なくとも一つの第１種のサブモデルと、
前記タンパク質のループ領域を表現する少なくとも一つの第２種のサブモデルと
を含むとともに、前記第１種のサブモデルと前記第２種のサブモデルとが交互にオープンループ結合した隠れマルコフモデルである、請求項６または７に記載の方法。
前記モデルパラメータは、
前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれについて、フロアリングおよびスムージングを施して設定されるハイドロパシーインデックス出力確率を定める第１群のパラメータと、
前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれについてフロアリングを施して設定される、電荷出力確率を定める第２群のパラメータと、
前記第１種のサブモデルおよび前記第２種のサブモデルのそれぞれに含まれる各状態間の状態遷移確率と
を含むものである、請求項８に記載の方法。
前記第１種のサブモデルは、それぞれが自己ループを有し、互いにleft-to-right型に結合された複数の状態を有し、
前記第２種のサブモデルは、自己ループを有する単一の状態を有する、請求項９に記載の方法。
コンピュータを、請求項１〜５のいずれかに記載の装置として動作させるための、コンピュータプログラム。
コンピュータに、請求項６〜１０のいずれかに記載の方法を実行させるための、コンピュータプログラム。