JPH0793286A

JPH0793286A - タンパク質立体構造予測方法

Info

Publication number: JPH0793286A
Application number: JP23382293A
Authority: JP
Inventors: Hiroshi Mamizuka; 拓馬見塚; Naoki Abe; 直樹安倍
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-09-20
Filing date: 1993-09-20
Publication date: 1995-04-07
Anticipated expiration: 2012-09-30
Also published as: JP2658823B2

Abstract

(57)【要約】【目的】構造未知のタンパク質のアミノ酸配列情報か
ら、その立体構造内に含まれる長距離相互作用に基づく
立体構造を高精度で予測する。【構成】ステップ１１で、構造既知及び未知のタンパ
ク質アミノ酸配列から長距離相互作用を有する立体構造
の訓練データを抽出し、ステップ１２で、木構造の生成
確率における内側確率を算出し、ステップ１３で、木構
造の生成確率における外側確率を算出し、ステップ１４
でこれら内側確率及び外側確率から書き換え規則の出現
頻度、及び各アミノ酸の出現頻度を算出し、ステップ１
５で、書き換え規則の適用確率及び規則の末端ノードの
各アミノ酸の出現確率を算出し、ステップ１６で、訓練
データの反復学習の停止条件の充足判定を行い、ステッ
プ１７で、学習により得られた書き換え規則を使用し
て、構文解析により立体構造未知のデータに対して、長
距離相互作用を有する立体構造部位の予測を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、立体構造未知のタンパ
ク質アミノ酸配列から、タンパク質の立体構造を予測す
る方法に関する。

【０００２】

【従来の技術】タンパク質の立体構造を予測する方法と
しては、タンパク質全体の立体構造ではなく、その部分
的な立体構造である二次構造を予測する方法が一般的で
ある。従来、タンパク質二次構造予測問題は、タンパク
質の一次構造の各残基（以下、予測対象となる残基を中
心残基と呼ぶ）が、αヘリックス、βシート、それ以外
という３種類の二次構造のいずれに対応するかを予測す
る問題として扱われてきた。従来技術によるタンパク質
の二次構造を予測する方法として、例えば、１９７４年
発行の米国の雑誌「バイオケミストリー」（Ｂｉｏｃｈ
ｅｍｉｓｔｒｙ）の第２３巻２２２−２４５頁記載のチ
ョウ（Ｃｈｏｕ）とファスマン（Ｆａｓｍａｎ）による
論文「プレディクションオブプロテインコンホメ
ーション」（Ｐｒｅｄｉｃｔｉｏｎｏｆｐｒｏｔｅ
ｉｎｃｏｎｆｏｒｍａｔｉｏｎ）（以下、ＣＦ法と略
す）、１９７８年発行の米国の雑誌「ジャーナルオブ
モレキュラバイオロジー」（Ｊｏｕｒｎａｌｏｆ
ＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ）の第１２０巻
９７−１２０頁掲載のガルニエ（Ｇａｒｎｉｅｒ）らに
よる論文「アナリシスオブザアキュレシーアン
ドインプリケーションズオブシンプルメソード
フォープレディクティングザセコンダリース
トラクチャーオブグロブラープロテインズ」（Ａ
ｎａｌｙｓｉｓｏｆｔｈｅａｃｃｕｒａｃｙａｎ
ｄｉｍｐｌｉｃａｔｉｏｎｓｏｆｓｉｍｐｌｅｍ
ｅｔｈｏｄｆｏｒｐｒｅｄｉｃｔｉｎｇｔｈｅ
ｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅｏｆｇｌ
ｏｂｕｌａｒｐｒｏｔｅｉｎｓ）（以下、ＧＯＲ法と
略す）、１９８７年発行の米国の雑誌「ジャーナルオブ
モレキュラバイオロジー」（Ｊｏｕｒｎａｌｏｆ
ＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ）の第１９８巻
４２５−４４３頁掲載のギブラト（Ｇｉｂｒａｔ）らに
よる論文「ファザーデベロプメンツオブプロテイ
ンセコンダリーストラクチャプレディクション
ユージングインホメーションセオリー：ニューパ
ラメータズアンドコンシダレーションオブレジ
デューペアズ」（Ｆｕｒｔｈｅｒｄｅｖｅｌｏｐｍｅ
ｎｔｓｏｆｐｒｏｔｅｉｎｓｅｃｏｎｄａｒｙｓ
ｔｒｕｃｔｕｒｅｐｒｅｄｉｃｔｉｏｎｕｓｉｎｇ
ｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｙ：Ｎｅｗｐ
ａｒａｍｅｎｔｅｒｓａｎｄｃｏｎｓｉｄｅｒａｔｉ
ｏｎｏｆｒｅｓｉｄｕｅｐａｉｒｓ）（以下、Ｇ
ＧＲ法と略す）、１９８８年発行の米国の雑誌「ジャー
ナルオブモレキュラバイオロジー」（Ｊｏｕｒｎａ
ｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ）の第
２０２巻８６５−８８４頁記載のキャン（Ｑｉａｎ）ら
による論文「プレデイクティングザセコンダリー
ストラクチャーオブグロブラープロテインズユ
ージングニューラルネットワークモデルズ」（Ｐ
ｒｅｄｉｃｔｉｎｇｔｈｅｓｅｃｏｎｄａｒｙｓ
ｔｒｕｃｔｕｒｅｏｆｇｌｏｂｕｌａｒｐｒｏｔ
ｅｉｎｓｕｓｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋ
ｍｏｄｅｌｓ）（以下、ＱＳ法と略す）などがある。

【０００３】ＣＦ法は、タンパク質構造のデータベース
から各二次構造におけるアミノ酸の統計的な出源頻度を
求め、この頻度表を使用し、経験的な規則に基づく予測
を行っている。また、ＧＯＲ法は、中心残基の二次構造
に対して、その残基から数残基離れた残基により独立に
もたらされる情報量の和を計算し、その相対値から予測
を行い、ＧＧＲ法は、中心残基の二次構造に対して、そ
の残基及びその残基から数残基から数残基離れた残基に
よりもたらされる情報量の和から予測を行っている。さ
らにＱＳ法は、３層のフィードフォワード型のネットワ
ークを使用し、中心残基の前後８残基を含む配列を入力
とし、二次構造に対する中心残基及び周辺残基からの寄
与をニューラルネットワークを用いて抽出することによ
り予測を行っている。

【０００４】

【発明が解決しよとする課題】タンパク質の立体構造の
中には、その部分構造においても、数残基から数十残基
以上も離れたアミノ酸残基同士の相互作用（以下、遠距
離相互作用と呼ぶ）により構成されているものが数多く
ある。例えば、主要な二次構造の一つであるβシート
も、その一つである。しかし、従来、タンパク質立体構
造予測、例えば、βシートの予測を含む二次構造予測手
法などにおいて、そのような遠距離相互作用を保持して
いる残基同士の間に存在するアミノ酸残基を無視し、遠
距離相互作用を自動的に抽出する方法や、さらに、その
遠距離相互作用を規則として未知データに対する予測を
行う方法は皆無であり、そういった手法は確立されてい
なかった。

【０００５】

【課題を解決するための手段】本発明のタンパク質立体
構造予測方法は、タンパク質のアミノ酸配列からタンパ
ク質の構造予測を行うための訓練データを抽出するステ
ップと、訓練データからタンパク質の部分的な立体構造
に相当する書き換え規則を学習するステップと、学習さ
れた書き換え規則を用いて、テストアミノ酸配列データ
に対し、立体構造部分の予測を行うステップとからなる
ことを特徴とする。

【０００６】又、前記訓練データを抽出するステップ
は、立体構造既知のタンパク質に対し、同じファミリー
に属するタンパク質、もしくは一次構造上、一定値以上
の相同性を有するタンパク質のアミノ酸配列を、アミノ
酸配列データベースから抽出することを特徴とする。

【０００７】又、前記書き換え規則を学習するステップ
における書き換え規則が確率的な規則であり、該ステッ
プは、確率的文脈自由文法の学習に使用されるインサイ
ド・アウトサイドアルゴリズムと呼ばれる学習方法の木
文法への拡張であることを特徴とする。

【０００８】又、前記書き換え規則を学習するステップ
における書き換え規則が確率的な規則であり、末端ノー
ドに２０種類のアミノ酸もしくは、それらのカテゴリー
が割り当てられ、それらの出現確率付き確率的規則であ
り、該ステップは、確率的文脈自由文法の学習に使用さ
れるインサイド・アウトサイドアルゴリズムと呼ばれる
学習方法の木文法への拡張であることを特徴とする。

【０００９】又、前記立体構造部分の予測を行うステッ
プは、文脈自由文法の構文解析に使用されるＣＫＹアル
ゴリズムと呼ばれる構文解析方法の拡張であることを特
徴とする。

【００１０】又、前記立体構造部分の予測を行うステッ
プにおける書き換え規則が確率的な規則であり、該ステ
ップは、確率的文脈自由文法の構文解析に使用されるＣ
ＫＹアルゴリズムと呼ばれる構文解析方法の木文法への
拡張であることを特徴とする。

【００１１】又、前記立体構造部分の予測を行うステッ
プにおける書き換え規則が確率的な規則であり、末端ノ
ードに２０種類のアミノ酸もしくは、そのカテゴリーが
割り当てられ、出現確率付き確率的規則であり、該ステ
ップは、確率的文脈自由文法の構文解析に使用されるＣ
ＫＹアルゴリズムと呼ばれる構文解析方法の木文法への
拡張であることを特徴とする。

【００１２】

【実施例】次に、本発明について図面を参照して詳細に
説明する。本実施例では、対象とする遠距離相互作用か
らなるタンパク質立体構造としてβシート領域を扱うも
のとする。

【００１３】図１は、本発明において遠距離相互作用を
保持した立体構造の規則に相当する書き換え規則の例で
ある。一般に、書き換え規則は、非終端記号及び終端記
号がラベル付けされたノードを有する木であり、固有の
適用確率を持つ。書き換え規則の書き換え動作は、あら
かじめ設定した初期木に対して、書き換え規則を有限回
適用し、終端記号のみからなる木構造を構成することで
達成される。

【００１４】ここで、木構造とは、単一ノード、もしく
は複数の木構造を左右に順序づけられた子供として持つ
ノードからなる構造として再帰的に定義される。また、
木構造のルートノードとは、そのノードを子供とするノ
ードが存在しない木構造の中の唯一のノードを指す。さ
らに、ノードのランクとは、ノードの下の子供の数を指
す。例えば、図１はランク１の書き換え規則である。

【００１５】具体的に、生成確率Ｐ_Aを持つ木構造Ａに
含まれるランクｒの非終端記号によりラベル付けされた
ノードＴを、適用確率Ｐ_Bを有する同ランクの木構造Ｂ
によって書き換えるということは、Ａ中のＴをＢによっ
て置き換え、Ｔのｒ個の子供を各々Ｂ中のｒ個の空白ノ
ードの位置に、左から順番に連結し、新たに導出された
木構造とし、さらに、Ｐ_AとＰ_Bとの積をとることによ
り、新しい生成確率を計算することを指す。

【００１６】ここで、終端記号は、２０種類のアミノ
酸、もしくは、アミノ酸をその化学的性質に基づいて分
類したいくつかのグループに対応し、導出された木構造
の末端に現れるそれらアミノ酸もしくはグループの集合
はアミノ酸配列に相当する。与えらえたアミノ酸配列に
対し、適当な書き換え規則を使用し、そのアミノ酸配列
が木構造の末端に出現するように書き換え動作を行うこ
とにより、その配列上のどの部分が各書き換え規則によ
り生成されたかを調べることを「構文解析（ｐａｒｓｉ
ｎｇ）」という。

【００１７】また、タンパク質アミノ酸配列の各残基位
置においては、１つのアミノ酸種類に固定されず、他の
アミノ酸に置き換えられても、その立体構造及び機能を
保持していることが多い。そのため、一般的な書き換え
規則をそのまま使用した場合、全体では類似していなが
ら、末端文字のみが異なる木構造が数多く出現する。そ
こで、あらかじめ、書き換え規則を、その末端にラベル
付けされている一つの終端記号を２０種類のアミノ酸と
各々に付随した２０の出現確率とにそれぞれ置き換え、
出現確率を加味した書き換え規則（以下、出現確率付き
書き換え規則）にしておいた方が、書き換え規則の数が
減り、計算上都合が良く、また、規則も見やすくなる。
この場合、生産確率Ｐ_Aを持つ木構造Ａに含まれるラン
クｒの非終端記号によりラベル付けされたノードＴを、
適用確率Ｐ_Bを有する同ランクの出現確率付き確率規則
Ｂによって書き換えた場合、Ｐ_AとＰ_BとＢの各末端ノ
ードの対応するアミノ酸に付随した出現確率の積をとる
ことにより、新しい生成確率を計算する。出現確率付き
書き換え規則の例を図２に示す。

【００１８】以下、ランク１の出現確率付き書き換え規
則において、１種類の非終端記号をルートノードに使用
する場合について、βシート領域の規則の学習方法、及
び規則の適用による予測方法について具体的に説明す
る。

【００１９】図３は、本発明のタンパク質立体構造予測
方法の実施例を説明するフローチャートである。

【００２０】ステップ１１では、まず、βシート領域既
知のタンパク質をタンパク質立体構造データベースから
抽出する。さらに、該タンパク質に対し、同じタンパク
質あるいは同じファミリーに属するタンパク質、もしく
は、一次構造上、一定の割合で相同性を保持しているタ
ンパク質のアミノ酸配列をタンパク質アミノ酸配列デー
タベースから抽出し、学習に使用するデータとする。配
列データベースから抽出したタンパク質においては、β
シート領域が未知でも構わないとする。

【００２１】例えば、イミノグロブリンというタンパク
質において、ヒトのそのタンパク質のアミノ酸配列上の
どこにβシート領域が存在するかは物理化学的な実験か
ら明らかになっている。このヒト・イミノグロブリンに
対して、ヒト以外の種類、例えば、チンパンジー、イヌ
等のイミノグロブリンのアミノ酸配列、あるいは、アラ
イメントにより一定の割合以上の相同性を有するアミノ
酸配列を学習データとする。

【００２２】ステップ１２、１３、１４、及びステップ
１５は、ステップ１１で得られた学習データを使用し、
あらかじめ設定した構造を有する書き換え規則の適用確
率及び書き換え規則の末端ノードにおける各アミノ酸の
出現確率を学習するステップである。

【００２３】ステップ１２は内側確率の算出を行うステ
ップ、ステップ１３は外側確率の算出を行うステップ、
ステップ１４は内側確率、外側確率から、書き換え規則
の適用確率及びその末端ノードにおける各アミノ酸の出
現確率の計算に必要な、書き換え規則の出現頻度及び末
端ノードの各アミノ酸の出現頻度を計算するステップで
ある。ステップ１５は、算出された出現頻度を使用し、
書き換え規則の適用確率及びその末端ノードの各アミノ
酸の出現確率を計算する。

【００２４】ステップ１２の内側確率の算出過程を、図
４に示したフローチャートを用いて説明する。内側確率
の算出には、４次元のテーブルＩｎ［ｉ，ｊ，ｋ，ｌ］
を用意する。テーブルＩｎの次元は書き換え規則のラン
クに依存し、書き換え規則のランクｒに対し、２（ｒ＋
１）次元のテーブルが必要である。テーブルＩｎ［ｉ，
ｊ，ｋ，ｌ］においては、有限回の書き換え規則の適用
により生成された木構造の末端に出現するアミノ酸配列
が、与えられた訓練データのｉ番目からｊ番目までの残
基位置、ｋ番目からｌ番目までの残基位置に相当してお
り、それらすべての木構造が生成された生成確率の和を
示す。訓練データの各配列が与えられる前に、それぞれ
Ｉｎ［ｉ，ｊ，ｋ，ｌ］＝０．０に設定しておく。

【００２５】訓練データの配列が与えられた場合に、ス
テップ２１において、テーブルＩｎ［ｉ，ｊ，ｋ，ｌ］
を初期化する。初期化は、訓練データに対し、書き換え
規則を１回だけ適用し、得られた木構造の末端ノードと
訓練データの部分配列とを対応させることを指す。この
動作により、生成された木構造の末端に出現するアミノ
酸配列が、与えられたアミノ酸配列の部分配列に相当
し、対応するテーブルＩｎ［ｉ，ｊ，ｋ，ｌ］に生成確
率を格納する。もし、他の書き換え規則の適用により生
成された部分配列に相当する。アミノ酸配列の位置が、
同様にｉ，ｊ，ｋ，ｌであれば、この書き換え規則の生
成確率を、テーブルＩｎ［ｉ，ｊ，ｋ，ｌ］に加算す
る。

【００２６】例えば、長さが４以上のアミノ酸配列に、
図２に示す書き換え規則を適用した場合に生成された部
分配列に相当するアミノ酸配列の位置としては、例え
ば、ｉ＝１，ｊ＝２ｋ＝３，ｌ＝４が考えられる。この
時、書き換え規則の各末端ノードに出現するアミノ酸の
出現確率及び書き換え規則の適用確率のすべての積をと
ったものがテーブルＩｎ［１，２，３，４］の値とな
る。

【００２７】以上のように、与えられた訓練データにお
いて、書き換え規則の適用により生成された部分配列に
相応する、取り得るすべてのアミノ酸配列の位置のテー
ブルの初期化を行う。

【００２８】次に、与えられた訓練データに対して取り
得るすべてのテーブルＩｎに格納する値の計算を行う。

【００２９】まず、ステップ２２において、訓練データ
のアミノ酸配列の長さがＮであれば、ｉ＝Ｎ，ｊ＝ｉ，
ｋ＝Ｎ，ｌ＝ｋと設定する。さらに、ステップ２３にお
いて、ｉ，ｊ，ｋ，ｌの値を動かしながら、各ｉ，ｊ，
ｋ，ｌの値において、ステップ２４の動作を行う。

【００３０】ステップ２３におけるｉ，ｊ，ｋ，ｌの動
作を説明する。ｉを１になる（ｉ＝１）まで１ずつ減ら
し（ｉ＝ｉ−１）、各ｉにおいてｊをＮになる（ｊ＝
Ｎ）まで１ずつ増やし（ｊ＝ｊ＋１）、各ｊにおいてｋ
をｊになる（ｋ＝ｊ）まで１ずつ減らし（ｋ＝ｋ−
１）、各ｋにおいてｌがＮになる（ｌ＝Ｎ）まで、ｌの
値を１ずつ増や（ｌ＝ｌ＋１）していく。

【００３１】ステップ２４においては、各ｉ，ｊ，ｋ，
ｌで、すべての書き換え規則の末端ノード数を調べ、テ
ーブルＩｎ［ｉ，ｊ，ｋ，ｌ］への書き換え規則の適用
により得られた木構造に相当するテーブルＩｎの値が
０．０ではない場合にのみ、生成確率の計算を行ないテ
ーブルＩｎ［ｉ，ｊ，ｋ，ｌ］に格納する。もし、複数
の書き換え規則により、テーブルＩｎ［ｉ，ｊ，ｋ，
ｌ］の生成確率が算出されれば、それらの和をテーブル
Ｉｎ［ｉ，ｊ，ｋ，ｌ］に格納する。

【００３２】例えば、ｉ＝３，ｊ＝７，ｋ＝８，ｌ＝１
０であり、ある書き換え規則の末端ノード数がそれぞれ
１，２，０，１であれば、テーブルＩｎ［４，５，８，
９］に０．０でない値が格納されている時、訓練データ
のアミノ酸配列のそれぞれ３，６，７，１０番目のアミ
ノ酸に対応する末端ノードでの各アミノ酸の出現確率と
書き換え規則の適用確率とテーブルＩｎ［４，５，８，
９］の積を計算し、その値を生成確率としてテーブルＩ
ｎ［３，７，８，１０］に加算する。

【００３３】ステップ２５では、ステップ２４の動作の
終了の判断を行う。ステップ２３によりｉ，ｊ，ｋ，ｌ
の値がｉ＝１，ｊ＝Ｎ，ｋ＝Ｎ，ｌ＝Ｎとなった場合、
ステップ２４の動作後、内側確率の計算を終了する。

【００３４】以上の動作により、取り得るすべてのＩｎ
［ｉ，ｊ，ｋ，ｌ］が計算でき、ステップ１２の内側確
率の算出を終了する。

【００３５】次に、ステップ１３での外側確率の算出過
程を図５に示したフローチャートを用いて説明する。

【００３６】内側確率の算出と同様に、外側確率の算出
においても、４次元のテーブルＯｕｔ［ｉ，ｊ，ｋ，
ｌ］を使用する。テーブルＯｕｔの次元は、Ｉｎと同様
に書き換え規則のランクに依存する。テーブルＯｕｔ
［ｉ，ｊ，ｋ，ｌ］は、有限回の書き換え規則の適用に
より生成された木構造の末端ノードに出現するアミノ酸
配列が、与えらえたＮ残基からなる訓練データの１番目
からｉ番目までの残基位置、ｊ番目からｋ番目までの残
基位置、ｌ番目からＮ番目までの残基位置に相当してお
り、生成された木構造の生成確率の和を示す。各テーブ
ルＯｕｔ［ｉ，ｊ，ｋ，ｌ］は、訓練データの各配列が
与えられる前に、０．０に設定しておく。

【００３７】訓練データの配列が与えられた場合に、ス
テップ３１において、テーブルＯｕｔ［ｉ，ｊ，ｋ，
ｌ］を初期化する。初期化は、初期木に対して書き換え
規則を１回のみ適用することを指す。この動作により、
生成された木構造の末端に出現するアミノ散配列が、与
えられたアミノ酸配列の部分配列に相当し、対応するテ
ーブルＯｕｔ［ｉ，ｊ，ｋ，ｌ］に生成確率を格納す
る。もし、他の書き換え規則の適用により生成された部
分配列の訓練データ上の位置が、同様にｉ，ｊ，ｋ，ｌ
であれば、この書き換え規則各末端ノードに出現するア
ミノ酸の出現確率及び書き換え規則の適用確率のすべて
の積を、テーブルＯｕｔ［ｉ，ｊ，ｋ，ｌ］に加算す
る。

【００３８】例えば、長さが１０の訓練データに、図２
に示す書き換え規則の適用により生成された部分配列に
相当するアミノ酸配列の位置は、ｉ＝１，ｌ＝１０でな
ければならず、さらにｊ，ｋに関しては、ｋ＝ｊ＋１を
満たす７通りが考えられる。例えば、ｉ＝１，ｊ＝５，
ｋ＝６，ｌ＝１０であれば、各位置のアミノ酸が書き換
え規則の各末端ノードに出現する出現確率及び書き換え
規則の適用確率のすべての積を算出したものをテーブル
Ｏｕｔ［１，５，６，１０］に加算する。

【００３９】以上のように、与えられた訓練データにお
いて、書き換え規則の適用により生成された部分配列に
相当する、取り得るすべてのアミノ酸配列の位置に対応
するテーブルＯｕｔの初期化を行う。

【００４０】次に、与えられた訓練データに対して取り
得るすべてのテーブルＯｕｔに格納する値の計算を行
う。

【００４１】まず、ステップ３２において、訓練データ
のアミノ酸配列の長さがＮであれば、ｉ＝ｌ，ｊ＝Ｎ，
ｋ＝ｊ，ｌ＝Ｎと設定する。さらに、ステップ３３にお
いて、ｉ，ｊ，ｋ，ｌの値を動かしながら、各ｉ，ｊ，
ｋ，ｌにおいて、ステップ３４の動作を行う。

【００４２】ステップ３３におけるｉ，ｊ，ｋ，ｌの動
作を説明する。ｉをＮになる（ｉ＝Ｎ）まで１ずつ増や
し（ｉ＝Ｎ）、各ｉにおいてｊをｉになる（ｊ＝ｉ）ま
で１ずつ減らし（ｊ＝ｊ−１）、各ｊにおいてｋをＮに
なる（ｋ＝Ｎ）まで１ずつ増やし（ｋ＝ｋ＋１）、各ｋ
においてｌがｋになる（ｌ＝ｋ）まで、ｌの値を１ずつ
減ら（ｌ＝ｌ−１）していく。

【００４３】ステップ３４においては、各書き換え規則
の末端ノード数を調べ、その書き換え規則を適用した場
合に、生成された木構造がテーブルＯｕｔ［ｉ，ｊ，
ｋ，ｌ］に対応するような木構造が存在する場合にの
み、生成確率の計算を行ないテーブルＯｕｔ［ｉ，ｊ，
ｋ，ｌ］に格納する。もし複数の書き換え規則により、
テーブルＯｕｔ［ｉ，ｊ，ｋ，ｌ］の生成確率が算出さ
れれば、それらの和をテーブルＯｕｔ［ｉ，ｊ，ｋ，
ｌ］に格納する。

【００４４】例えば、ｉ＝３，ｊ＝４，ｋ＝７，ｌ＝９
であり、書き換え規則の末端ノード数がそれぞれ１，
２，０，１であれば、テーブルＯｕｔ［２，６，７，１
０］に値が格納されている時、訓練データのアミノ酸配
列のそれぞれ３，４，５，９番目のアミノ酸に対応する
末端ノードの各アミノ酸の出現確率と書き換え規則の適
用確率とＯｕｔ［２，６，７，１０］の積を計算し、そ
の値を生成確率としてテーブルＯｕｔ［３，４，７，
９］に加算する。

【００４５】ステップ３５では、ステップ３４の動作の
終了の判断を行う。ステップ３３により、ｉ，ｊ，ｋ，
ｌの値がｉ＝Ｎ，ｊ＝ｉ，ｋ＝Ｎ，ｌ＝ｋとなった場
合、ステップ３４の動作後、外側確率の計算を終了す
る。

【００４６】以上の動作により、取り得るすべてのＯｕ
ｔ［ｉ，ｊ，ｋ，ｌ］が計算でき、ステップ１３の外側
確率の算出を終了する。

【００４７】次に、ステップ１４において、内側確率、
外側確率から、書き換え規則の出現頻度、及びその末端
ノードの各アミノ酸の出現頻度を計算する。

【００４８】ステップ１４の出現頻度の算出過程を図６
に示したフローチャートを用いて説明する。まず、出現
頻度を格納する４次元のテーブルＰｄ［ｍ，ｎ，ｐ，
ｑ］を用意する。テーブルＰｄの次元は、Ｉｎ及びＯｕ
ｔとは異なり、書き換え規則のランクに依存しない。２
０種類のアミノ酸を１から２０までのアミノ酸番号に置
き換えた場合に、テーブルＰｄ［ｍ，ｎ，ｐ，ｑ］の添
え字ｍ，ｎ，ｐ，ｑは、ｍ番目の書き換え規則におい
て、非終端記号のｎ番目のノード位置のｐ番目の末端ノ
ードに出現するｑ番目のアミノ酸を示す。各テーブルＰ
ｄ［ｍ，ｎ，ｐ，ｑ］の値は、訓練データの最初の配列
が与えられた時にのみあらかじめ０．０に設定してお
く。

【００４９】ステップ４１においては、ｉ＝１，ｊ＝
Ｎ，ｋ＝ｊ，ｌ＝Ｎと設定する。さらに、ステップ４２
においてｉ，ｊ，ｋ，ｌの値を動かしながら各ｉ，ｊ，
ｋ，ｌにおいて、ステップ４３の動作を行う。

【００５０】ステップ４２でのｉ，ｊ，ｋ，ｌの動作を
説明する。ｉをＮになる（ｉ＝Ｎ）まで１ずつ増やし
（ｉ＝Ｎ）、各ｉにおいてｊをｉになる（ｊ＝ｉ）まで
１ずつ減らし（ｊ＝ｊ−１）、各ｊにおいてｋをＮにな
る（ｋ＝Ｎ）まで１ずつ増やし（ｋ＝ｋ＋１）、各ｋに
おいてｌがｋになる（ｌ＝ｋ）まで、ｌの値を１ずつ減
ら（ｌ＝ｌ−１）していく。

【００５１】ステップ４３においては、各書き換え規則
それぞれに対し、テーブルＯｕｔ［ｉ，ｊ，ｋ，ｌ］に
対応する木構造に書き換え規則を適用した場合に、対応
する添え字を要素とするテーブルＩｎが０．０ではない
値を有して存在するかどうかをチェックする。存在して
いれば、そのテーブルＩｎとＯｕｔ［ｉ，ｊ，ｋ，ｌ］
との間を埋める部分配列に対応する書き換え規則の各末
端ノードの各アミノ酸の出現確率、書き換え規則の適応
確率、テーブルＯｕｔ［ｉ，ｊ，ｋ，ｌ］、Ｉｎの積を
計算し、テーブルＰｄに加算する。

【００５２】具体的に、ｉ＝２，ｊ＝６，ｋ＝７，ｌ＝
１２の時、図２の構造をした適用確率Ｐを有する書き換
え規則を１番として適用する場合を考える。図２の書き
換え規則においては、４個のノード位置に一つずつノー
ドが存在するので、各々訓練データの３，５，８，１１
番目の残基位置のアミノ酸に対応する。また、この位置
のアミノ酸はそれぞれ、アミノ酸番号により、２，１
５，１８，７番であり、書き換え規則の対応する各ノー
ドのアミノ酸の出現確率は、それぞれｐ１，ｐ２，ｐ
３，ｐ４であるとする。この時、Ｐｄ［１，１，１，
２］，Ｐｄ［１，２，１，１５］，Ｐｄ［１，３，１，
１８］，Ｐｄ［１，４，１，７］それぞれに、Ｐ×ｐ１
×ｐ２×ｐ３×ｐ４×Ｏｕｔ［２，６，７，１２］×Ｉ
ｎ［４，４，９，１０］が加算される。

【００５３】ここで、テーブルＩｎの添え字は、テーブ
ルＯｕｔの添え字と書き換え規則のノードの単純な差で
はないことに注意する。

【００５４】ステップ４４では、ステップ４３の動作の
終了の判断を行う。ステップ４２により、ｉ，ｊ，ｋ，
ｌの値がｉ＝Ｎ，ｊ＝ｉ，ｋ＝Ｎ，ｌ＝ｋとなった場
合、ステップ４３の動作後、テーブルＰｄの算出を終了
する。

【００５５】訓練データの各配列に対して、ステップ１
２、１３、１４を繰り返し、書き換え規則及び規則の各
末端ノード位置での各アミノ酸の出現頻度を算出する。

【００５６】ステップ１５では、算出を行ったテーブル
Ｐｄから、書き換え規則の適用確率、及び各末端ノード
の各アミノ酸の出現確率を計算する。

【００５７】Ｍ番目の書き換え規則の適用確率は、

【００５８】

【数１】

【００５９】により計算される。また、Ｍ番目の書き換
え規則のＮ番目のノード位置のＰ番目のノードにＱ番の
アミノ酸が出現する出現確率は、

【００６０】

【数２】

【００６１】により計算される。

【００６２】以上により、訓練データセットに対して、
あらかじめ設定した書き換え規則の適用確率及び各書き
換え規則の末端ノード位置にアミノ酸が出現する出現確
率が算出される。

【００６３】ステップ１２、１３、１４、１５までをあ
らかじめ設定した回数、もしくは、あらかじめ設定した
停止条件を満たすまで繰り返す。ステップ１６は、停止
条件が満たされているかどうかをチェックする。例え
ば、停止条件としては、「いずれの書き換え規則の適用
確率やアミノ酸の出現確率の値も変化が０．０１未満で
ある」などが採用できる。

【００６４】ステップ１７では、与えられたテストアミ
ノ酸配列に対し、書き換え規則の適用確率及び規則の各
末端ノードのアミノ酸の出現確率から、構文解析によ
り、どの書き換え規則の末端ノードがテスト配列の部分
領域に対応するかを調べる。すなわち、構文解析によ
り、遠距離相互作用を保持した書き換え規則がテストア
ミノ酸配列のどの部分に現れたかを検出し、テストアミ
ノ酸配列内の遠距離相互作用を保持している部分を予測
する。

【００６５】ステップ１７の構文解析方式を、図７に示
したフローチャートを用いて説明する。まず、４次元の
テーブルＰａｒ［ｉ，ｊ，ｋ，ｌ］を用意する。テーブ
ルＰａｒの次元は書き換え規則のランクに依存し、書き
換え規則のランクｒに対し、２（ｒ＋１）次元のテーブ
ルを用意する。テーブルＰａｒ［ｉ，ｊ，ｋ，ｌ］は、
書き換え規則の適用により生成された木構造の末端ノー
ドに出現するアミノ酸配列が、与えられたＮ残基からな
るテストデータの１番目からｉ番目までの残基位置、ｊ
番目からｋ番目までの残基位置、ｌ番目からＮ番目まで
の残基位置に相当しており、生成された木構造の生成確
率の最大値を示す。テストデータが与えられる前に、各
テーブルＰａｒ［ｉ，ｊ，ｋ，ｌ］＝０．０と設定して
おく。

【００６６】テストアミノ酸配列が与えられた場合に、
ステップ５１において、テーブルＰａｒ［ｉ，ｊ，ｋ，
ｌ］を初期化する。初期化は、初期木に対して書き換え
規則を１回のみ適用することを指す。この動作により、
生成された木構造の末端ノードのアミノ酸列が、与えら
れたアミノ酸配列の部分配列に相当し、対応するテーブ
ルＰａｒ［ｉ，ｊ，ｋ，ｌ］に生成確率を格納する。も
し、他の書き換え規則の適用により生成された部分配列
のテストデータ上の位置が、同様にｉ，ｊ，ｋ，ｌであ
れば、この書き換え規則の各末端ノードに出現するアミ
ノ酸の出現確率及び書き換え規則の適用確率の積を、Ｐ
ａｒ［ｉ，ｊ，ｋ，ｌ］と比較し、大きい方をＰａｒ
［ｉ，ｊ，ｋ，ｌ］の値とする。

【００６７】次に、テストデータに対して、取り得るす
べてのテーブルＯｕｔ［ｉ，ｊ，ｋ，ｌ］に格納する値
の計算を行う。

【００６８】まず、ステップ５２において、訓練データ
のアミノ酸配列の長さがＮであれば、ｉ＝１，ｊ＝Ｎ，
ｋ＝ｊ，ｌ＝Ｎと設定する。さらに、ステップ５３にお
いて、ｉ，ｊ，ｋ，ｌの値を動かしながら、各ｉ，ｊ，
ｋ，ｌにおいて、ステップ５４の動作を行う。

【００６９】ステップ５３におけるｉ，ｊ，ｋ，ｌの動
作を説明する。ｉをＮになる（ｉ＝Ｎ）まで１ずつ増や
し（ｉ＝Ｎ）、各ｉにおいてｊをｉになる（ｊ＝ｉ）ま
で１ずつ減らし（ｊ＝ｊ−１）、各ｊにおいてｋをＮに
なる（ｋ＝Ｎ）まで１ずつ増やし（ｋ＝ｋ＋１）、各ｋ
においてｌがｋになる（ｌ＝ｋ）まで、ｌの値を１ずつ
減ら（ｌ＝ｌ−１）していく。

【００７０】ステップ５４においては、各書き換え規則
の末端ノード数を調べ、その書き換え規則を適用した場
合に、生成された木構造がテーブルＰａｒ［ｉ，ｊ，
ｋ，ｌ］に対応するような木構造が存在する場合にの
み、生成確率の計算を行ないテーブルＰａｒ［ｉ，ｊ，
ｋ，ｌ］に格納する。もし、複数の書き換え規則によ
り、テーブルＰａｒ［ｉ，ｊ，ｋ，ｌ］の値が算出され
れば、それらの中で最大の値をテーブルＰａｒ［ｉ，
ｊ，ｋ，ｌ］に格納する。

【００７１】ステップ５５では、ステップ５４の動作の
終了の判断を行う。ステップ３３により、ｉ，ｊ，ｋ，
ｌの値がｉ＝Ｎ，ｊ＝ｉ，ｋ＝Ｎ，ｌ＝ｋとなった場
合、ステップ５４の動作後、Ｐａｒの計算を終了する。

【００７２】ステップ５６では、得られた木構造の末端
ノードからなるアミノ酸配列が、与えられたテストデー
タに対応しているテーブルＰａｒの中で、最大のＰａｒ
を選出する。

【００７３】ステップ５７では、最大のＰａｒにおい
て、それを算出するために、どの書き換え規則が使われ
てきたかをチェックする。このチェックは、ステップ５
４におけるＰａｒの算出において、軌跡を記憶しておく
ことによっても達成される。チェックの結果、例えば、
テスト配列に対し、βシート領域に相当する書き換え規
則が適用されていれば、適応により生成された部分配列
は、βシート領域とアミノ酸配列レベルで非常に近い性
質を保持しており、βシート領域である可能性が高いと
予測する。

【００７４】

【発明の効果】立体構造の既知のタンパク質のアミノ酸
配列情報から、立体構造未知のタンパク質の遠距離相互
作用に由来する立体構造を従来技術に対して高い精度で
予測可能である。すなわち、本手法により、遠距離に位
置するアミノ酸残基同士の相互作用を、中間領域を介せ
ず抽出可能であり、既存手法による局所領域からの予測
では誤って予測されていたような領域を相互作用の有無
という観点からより実際的に予測することが可能になっ
た。また、本手法はβシートなどの部分的な立体構造と
して著名な部分のみならず、一次構造上離れた残基同士
の相互作用により構成されている活性部位などの機能部
位の特徴配列を抽出し、規則として予測に使用すること
が可能である。

【図面の簡単な説明】

【図１】本発明で使用する書き換え規則の一例を示す摸
式図

【図２】本発明で使用する書き換え規則の一例を示す摸
式図

【図３】本発明のタンパク質立体構造予測の一実施例を
示すフローチャート

【図４】本発明の学習方式の一部である内側確率の算出
方法の一実施例を示すフローチャート

【図５】本発明の学習方式の一部である外側確率の算出
方法の一実施例を示すフローチャート

【図６】本発明の学習方式の一部である書き換え規則の
出現頻度、及び規則の末端ノードの各アミノ酸の出現頻
度の算出方法の一実施例を示すフローチャート

【図７】本発明の構文解析方式の一実施例を示すフロー
チャート

【符号の説明】１１訓練データ抽出１２内側確率の算出１３外側確率の算出１４出現頻度算出１５適用確率及び出現確率算出１６停止条件充足判定１７構文解析２１内側確率の初期化２２初期添え字の設定２３添え字の更新２４内側確率の算出２５停止条件充足判定３１外側確率の初期化３２初期添え字の設定３３添え字の更新３４外側確率の算出３５停止条件充足判定４１初期添え字の設定４２添え字の更新４３出現頻度の算出４４停止条件充足判定５１最大生成確率の初期化５２初期添え字の設定５３添え字の更新５４最大生成確率の算出５５停止条件充足判定５６最大生成確率の算出５７最大生成確率時の軌跡の検出

Claims

【特許請求の範囲】

【請求項１】タンパク質のアミノ酸配列からタンパク
質の構造予測を行うための訓練データを抽出するステッ
プと、訓練データからタンパク質の部分的な立体構造に
相当する書き換え規則を学習するステップと、学習され
た書き換え規則を用いて、テストアミノ配列データに対
し、立体構造部分の予測を行うステップとからなること
を特徴とするタンパク質立体構造予測方法。
【請求項２】前記訓練データを抽出するステップは、
立体構造既知のタンパク質に対し、同じファミリーに属
するタンパク質、もしくは一次構造上、一定値以上の相
同性を有するタンパク質のアミノ酸配列を、アミノ酸配
列データベースから抽出することを特徴とする請求項１
記載のタンパク質立体構造予測方法。
【請求項３】前記書き換え規則を学習するステップに
おける書き換え規則が確率的な規則であり、該ステップ
は、確率的脈自由文法の学習に使用されるインサイド・
アウトサイドアルゴリズムと呼ばれる学習方法の木文法
への拡張であることを特徴とする請求項１記載のタンパ
ク質立体構造予測方法。
【請求項４】前記書き換え規則を学習するステップに
おける書き換え規則が確率的な規則であり、末端ノード
に２０種類のアミノ酸もしくは、それらのカテゴリーが
割り当てられ、それらの出現確率付き確率的規則であ
り、該ステップは、確率的文脈自由文法の学習に使用さ
れるインサイド・アウトサイドアルゴリズムと呼ばれる
学習方法の木文法への拡張であることを特徴とする請求
項１記載のタンパク質立体構造予測方法。
【請求項５】前記立体構造部分の予測を行うステップ
は、文脈自由文法の構文解析に使用されるＣＫＹアルゴ
リズムと呼ばれる構文解析方法の拡張であることを特徴
とする請求項１記載のタンパク質立体構造予測方法。
【請求項６】前記立体構造部分の予測を行うステップ
における書き換え規則が確率的な規則であり、該ステッ
プは、確率的文脈自由文法の構文解析に使用されるＣＫ
Ｙアルゴリズムと呼ばれる構文解析方法の木文法への拡
張であることを特徴とする請求項１記載のタンパク質立
体構造予測方法。
【請求項７】前記立体構造部分の予測を行うステップに
おける書き換え規則が確率的な規則であり、末端ノード
に２０種類のアミノ酸もしくは、そのカテゴリーが割り
当てられ、出現確率付き確率的規則であり、該ステップ
は、確率的文脈自由文法の構文解析に使用されるＣＫＹ
アルゴリズムと呼ばれる構文解析方法の木文法への拡張
であることを特徴とする請求項１記載のタンパク質立体
構造予測方法。