JPH0793286A - タンパク質立体構造予測方法 - Google Patents
タンパク質立体構造予測方法Info
- Publication number
- JPH0793286A JPH0793286A JP23382293A JP23382293A JPH0793286A JP H0793286 A JPH0793286 A JP H0793286A JP 23382293 A JP23382293 A JP 23382293A JP 23382293 A JP23382293 A JP 23382293A JP H0793286 A JPH0793286 A JP H0793286A
- Authority
- JP
- Japan
- Prior art keywords
- protein
- rule
- probability
- amino acid
- predicting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 56
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims description 52
- 150000001413 amino acids Chemical class 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 32
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 46
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 abstract description 9
- 235000018102 proteins Nutrition 0.000 description 38
- 238000004364 calculation method Methods 0.000 description 18
- 230000003993 interaction Effects 0.000 description 13
- 125000000539 amino acid group Chemical group 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 102000003839 Human Proteins Human genes 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 241000282577 Pan troglodytes Species 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229940070376 protein Drugs 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
(57)【要約】
【目的】 構造未知のタンパク質のアミノ酸配列情報か
ら、その立体構造内に含まれる長距離相互作用に基づく
立体構造を高精度で予測する。 【構成】 ステップ11で、構造既知及び未知のタンパ
ク質アミノ酸配列から長距離相互作用を有する立体構造
の訓練データを抽出し、ステップ12で、木構造の生成
確率における内側確率を算出し、ステップ13で、木構
造の生成確率における外側確率を算出し、ステップ14
でこれら内側確率及び外側確率から書き換え規則の出現
頻度、及び各アミノ酸の出現頻度を算出し、ステップ1
5で、書き換え規則の適用確率及び規則の末端ノードの
各アミノ酸の出現確率を算出し、ステップ16で、訓練
データの反復学習の停止条件の充足判定を行い、ステッ
プ17で、学習により得られた書き換え規則を使用し
て、構文解析により立体構造未知のデータに対して、長
距離相互作用を有する立体構造部位の予測を行う。
ら、その立体構造内に含まれる長距離相互作用に基づく
立体構造を高精度で予測する。 【構成】 ステップ11で、構造既知及び未知のタンパ
ク質アミノ酸配列から長距離相互作用を有する立体構造
の訓練データを抽出し、ステップ12で、木構造の生成
確率における内側確率を算出し、ステップ13で、木構
造の生成確率における外側確率を算出し、ステップ14
でこれら内側確率及び外側確率から書き換え規則の出現
頻度、及び各アミノ酸の出現頻度を算出し、ステップ1
5で、書き換え規則の適用確率及び規則の末端ノードの
各アミノ酸の出現確率を算出し、ステップ16で、訓練
データの反復学習の停止条件の充足判定を行い、ステッ
プ17で、学習により得られた書き換え規則を使用し
て、構文解析により立体構造未知のデータに対して、長
距離相互作用を有する立体構造部位の予測を行う。
Description
【0001】
【産業上の利用分野】本発明は、立体構造未知のタンパ
ク質アミノ酸配列から、タンパク質の立体構造を予測す
る方法に関する。
ク質アミノ酸配列から、タンパク質の立体構造を予測す
る方法に関する。
【0002】
【従来の技術】タンパク質の立体構造を予測する方法と
しては、タンパク質全体の立体構造ではなく、その部分
的な立体構造である二次構造を予測する方法が一般的で
ある。従来、タンパク質二次構造予測問題は、タンパク
質の一次構造の各残基(以下、予測対象となる残基を中
心残基と呼ぶ)が、αヘリックス、βシート、それ以外
という3種類の二次構造のいずれに対応するかを予測す
る問題として扱われてきた。従来技術によるタンパク質
の二次構造を予測する方法として、例えば、1974年
発行の米国の雑誌「バイオケミストリー」(Bioch
emistry)の第23巻222−245頁記載のチ
ョウ(Chou)とファスマン(Fasman)による
論文「プレディクション オブ プロテイン コンホメ
ーション」(Prediction of prote
in conformation)(以下、CF法と略
す)、1978年発行の米国の雑誌「ジャーナル オブ
モレキュラ バイオロジー」(Journal of
Molecular Biology)の第120巻
97−120頁掲載のガルニエ(Garnier)らに
よる論文「アナリシス オブ ザ アキュレシー アン
ド インプリケーションズ オブ シンプル メソード
フォー プレディクティング ザ セコンダリー ス
トラクチャー オブ グロブラー プロテインズ」(A
nalysisof the accuracy an
d implications ofsimple m
ethod for predicting the
secondary structure of gl
obular proteins)(以下、GOR法と
略す)、1987年発行の米国の雑誌「ジャーナルオブ
モレキュラ バイオロジー」(Journal of
Molecular Biology)の第198巻
425−443頁掲載のギブラト(Gibrat)らに
よる論文「ファザー デベロプメンツ オブ プロテイ
ン セコンダリー ストラクチャ プレディクション
ユージング インホメーション セオリー:ニュー パ
ラメータズ アンド コンシダレーション オブ レジ
デューペアズ」(Further developme
nts of proteinsecondary s
tructure prediction using
information theory:New p
aramentersand considerati
on of residue pairs)(以下、G
GR法と略す)、1988年発行の米国の雑誌「ジャー
ナル オブモレキュラ バイオロジー」(Journa
l of Molecular Biology)の第
202巻865−884頁記載のキャン(Qian)ら
による論文「プレデイクティング ザ セコンダリー
ストラクチャー オブ グロブラー プロテインズ ユ
ージング ニューラル ネットワーク モデルズ」(P
redicting the secondary s
tructure of globular prot
eins using neural network
models)(以下、QS法と略す)などがある。
しては、タンパク質全体の立体構造ではなく、その部分
的な立体構造である二次構造を予測する方法が一般的で
ある。従来、タンパク質二次構造予測問題は、タンパク
質の一次構造の各残基(以下、予測対象となる残基を中
心残基と呼ぶ)が、αヘリックス、βシート、それ以外
という3種類の二次構造のいずれに対応するかを予測す
る問題として扱われてきた。従来技術によるタンパク質
の二次構造を予測する方法として、例えば、1974年
発行の米国の雑誌「バイオケミストリー」(Bioch
emistry)の第23巻222−245頁記載のチ
ョウ(Chou)とファスマン(Fasman)による
論文「プレディクション オブ プロテイン コンホメ
ーション」(Prediction of prote
in conformation)(以下、CF法と略
す)、1978年発行の米国の雑誌「ジャーナル オブ
モレキュラ バイオロジー」(Journal of
Molecular Biology)の第120巻
97−120頁掲載のガルニエ(Garnier)らに
よる論文「アナリシス オブ ザ アキュレシー アン
ド インプリケーションズ オブ シンプル メソード
フォー プレディクティング ザ セコンダリー ス
トラクチャー オブ グロブラー プロテインズ」(A
nalysisof the accuracy an
d implications ofsimple m
ethod for predicting the
secondary structure of gl
obular proteins)(以下、GOR法と
略す)、1987年発行の米国の雑誌「ジャーナルオブ
モレキュラ バイオロジー」(Journal of
Molecular Biology)の第198巻
425−443頁掲載のギブラト(Gibrat)らに
よる論文「ファザー デベロプメンツ オブ プロテイ
ン セコンダリー ストラクチャ プレディクション
ユージング インホメーション セオリー:ニュー パ
ラメータズ アンド コンシダレーション オブ レジ
デューペアズ」(Further developme
nts of proteinsecondary s
tructure prediction using
information theory:New p
aramentersand considerati
on of residue pairs)(以下、G
GR法と略す)、1988年発行の米国の雑誌「ジャー
ナル オブモレキュラ バイオロジー」(Journa
l of Molecular Biology)の第
202巻865−884頁記載のキャン(Qian)ら
による論文「プレデイクティング ザ セコンダリー
ストラクチャー オブ グロブラー プロテインズ ユ
ージング ニューラル ネットワーク モデルズ」(P
redicting the secondary s
tructure of globular prot
eins using neural network
models)(以下、QS法と略す)などがある。
【0003】CF法は、タンパク質構造のデータベース
から各二次構造におけるアミノ酸の統計的な出源頻度を
求め、この頻度表を使用し、経験的な規則に基づく予測
を行っている。また、GOR法は、中心残基の二次構造
に対して、その残基から数残基離れた残基により独立に
もたらされる情報量の和を計算し、その相対値から予測
を行い、GGR法は、中心残基の二次構造に対して、そ
の残基及びその残基から数残基から数残基離れた残基に
よりもたらされる情報量の和から予測を行っている。さ
らにQS法は、3層のフィードフォワード型のネットワ
ークを使用し、中心残基の前後8残基を含む配列を入力
とし、二次構造に対する中心残基及び周辺残基からの寄
与をニューラルネットワークを用いて抽出することによ
り予測を行っている。
から各二次構造におけるアミノ酸の統計的な出源頻度を
求め、この頻度表を使用し、経験的な規則に基づく予測
を行っている。また、GOR法は、中心残基の二次構造
に対して、その残基から数残基離れた残基により独立に
もたらされる情報量の和を計算し、その相対値から予測
を行い、GGR法は、中心残基の二次構造に対して、そ
の残基及びその残基から数残基から数残基離れた残基に
よりもたらされる情報量の和から予測を行っている。さ
らにQS法は、3層のフィードフォワード型のネットワ
ークを使用し、中心残基の前後8残基を含む配列を入力
とし、二次構造に対する中心残基及び周辺残基からの寄
与をニューラルネットワークを用いて抽出することによ
り予測を行っている。
【0004】
【発明が解決しよとする課題】タンパク質の立体構造の
中には、その部分構造においても、数残基から数十残基
以上も離れたアミノ酸残基同士の相互作用(以下、遠距
離相互作用と呼ぶ)により構成されているものが数多く
ある。例えば、主要な二次構造の一つであるβシート
も、その一つである。しかし、従来、タンパク質立体構
造予測、例えば、βシートの予測を含む二次構造予測手
法などにおいて、そのような遠距離相互作用を保持して
いる残基同士の間に存在するアミノ酸残基を無視し、遠
距離相互作用を自動的に抽出する方法や、さらに、その
遠距離相互作用を規則として未知データに対する予測を
行う方法は皆無であり、そういった手法は確立されてい
なかった。
中には、その部分構造においても、数残基から数十残基
以上も離れたアミノ酸残基同士の相互作用(以下、遠距
離相互作用と呼ぶ)により構成されているものが数多く
ある。例えば、主要な二次構造の一つであるβシート
も、その一つである。しかし、従来、タンパク質立体構
造予測、例えば、βシートの予測を含む二次構造予測手
法などにおいて、そのような遠距離相互作用を保持して
いる残基同士の間に存在するアミノ酸残基を無視し、遠
距離相互作用を自動的に抽出する方法や、さらに、その
遠距離相互作用を規則として未知データに対する予測を
行う方法は皆無であり、そういった手法は確立されてい
なかった。
【0005】
【課題を解決するための手段】本発明のタンパク質立体
構造予測方法は、タンパク質のアミノ酸配列からタンパ
ク質の構造予測を行うための訓練データを抽出するステ
ップと、訓練データからタンパク質の部分的な立体構造
に相当する書き換え規則を学習するステップと、学習さ
れた書き換え規則を用いて、テストアミノ酸配列データ
に対し、立体構造部分の予測を行うステップとからなる
ことを特徴とする。
構造予測方法は、タンパク質のアミノ酸配列からタンパ
ク質の構造予測を行うための訓練データを抽出するステ
ップと、訓練データからタンパク質の部分的な立体構造
に相当する書き換え規則を学習するステップと、学習さ
れた書き換え規則を用いて、テストアミノ酸配列データ
に対し、立体構造部分の予測を行うステップとからなる
ことを特徴とする。
【0006】又、前記訓練データを抽出するステップ
は、立体構造既知のタンパク質に対し、同じファミリー
に属するタンパク質、もしくは一次構造上、一定値以上
の相同性を有するタンパク質のアミノ酸配列を、アミノ
酸配列データベースから抽出することを特徴とする。
は、立体構造既知のタンパク質に対し、同じファミリー
に属するタンパク質、もしくは一次構造上、一定値以上
の相同性を有するタンパク質のアミノ酸配列を、アミノ
酸配列データベースから抽出することを特徴とする。
【0007】又、前記書き換え規則を学習するステップ
における書き換え規則が確率的な規則であり、該ステッ
プは、確率的文脈自由文法の学習に使用されるインサイ
ド・アウトサイドアルゴリズムと呼ばれる学習方法の木
文法への拡張であることを特徴とする。
における書き換え規則が確率的な規則であり、該ステッ
プは、確率的文脈自由文法の学習に使用されるインサイ
ド・アウトサイドアルゴリズムと呼ばれる学習方法の木
文法への拡張であることを特徴とする。
【0008】又、前記書き換え規則を学習するステップ
における書き換え規則が確率的な規則であり、末端ノー
ドに20種類のアミノ酸もしくは、それらのカテゴリー
が割り当てられ、それらの出現確率付き確率的規則であ
り、該ステップは、確率的文脈自由文法の学習に使用さ
れるインサイド・アウトサイドアルゴリズムと呼ばれる
学習方法の木文法への拡張であることを特徴とする。
における書き換え規則が確率的な規則であり、末端ノー
ドに20種類のアミノ酸もしくは、それらのカテゴリー
が割り当てられ、それらの出現確率付き確率的規則であ
り、該ステップは、確率的文脈自由文法の学習に使用さ
れるインサイド・アウトサイドアルゴリズムと呼ばれる
学習方法の木文法への拡張であることを特徴とする。
【0009】又、前記立体構造部分の予測を行うステッ
プは、文脈自由文法の構文解析に使用されるCKYアル
ゴリズムと呼ばれる構文解析方法の拡張であることを特
徴とする。
プは、文脈自由文法の構文解析に使用されるCKYアル
ゴリズムと呼ばれる構文解析方法の拡張であることを特
徴とする。
【0010】又、前記立体構造部分の予測を行うステッ
プにおける書き換え規則が確率的な規則であり、該ステ
ップは、確率的文脈自由文法の構文解析に使用されるC
KYアルゴリズムと呼ばれる構文解析方法の木文法への
拡張であることを特徴とする。
プにおける書き換え規則が確率的な規則であり、該ステ
ップは、確率的文脈自由文法の構文解析に使用されるC
KYアルゴリズムと呼ばれる構文解析方法の木文法への
拡張であることを特徴とする。
【0011】又、前記立体構造部分の予測を行うステッ
プにおける書き換え規則が確率的な規則であり、末端ノ
ードに20種類のアミノ酸もしくは、そのカテゴリーが
割り当てられ、出現確率付き確率的規則であり、該ステ
ップは、確率的文脈自由文法の構文解析に使用されるC
KYアルゴリズムと呼ばれる構文解析方法の木文法への
拡張であることを特徴とする。
プにおける書き換え規則が確率的な規則であり、末端ノ
ードに20種類のアミノ酸もしくは、そのカテゴリーが
割り当てられ、出現確率付き確率的規則であり、該ステ
ップは、確率的文脈自由文法の構文解析に使用されるC
KYアルゴリズムと呼ばれる構文解析方法の木文法への
拡張であることを特徴とする。
【0012】
【実施例】次に、本発明について図面を参照して詳細に
説明する。本実施例では、対象とする遠距離相互作用か
らなるタンパク質立体構造としてβシート領域を扱うも
のとする。
説明する。本実施例では、対象とする遠距離相互作用か
らなるタンパク質立体構造としてβシート領域を扱うも
のとする。
【0013】図1は、本発明において遠距離相互作用を
保持した立体構造の規則に相当する書き換え規則の例で
ある。一般に、書き換え規則は、非終端記号及び終端記
号がラベル付けされたノードを有する木であり、固有の
適用確率を持つ。書き換え規則の書き換え動作は、あら
かじめ設定した初期木に対して、書き換え規則を有限回
適用し、終端記号のみからなる木構造を構成することで
達成される。
保持した立体構造の規則に相当する書き換え規則の例で
ある。一般に、書き換え規則は、非終端記号及び終端記
号がラベル付けされたノードを有する木であり、固有の
適用確率を持つ。書き換え規則の書き換え動作は、あら
かじめ設定した初期木に対して、書き換え規則を有限回
適用し、終端記号のみからなる木構造を構成することで
達成される。
【0014】ここで、木構造とは、単一ノード、もしく
は複数の木構造を左右に順序づけられた子供として持つ
ノードからなる構造として再帰的に定義される。また、
木構造のルートノードとは、そのノードを子供とするノ
ードが存在しない木構造の中の唯一のノードを指す。さ
らに、ノードのランクとは、ノードの下の子供の数を指
す。例えば、図1はランク1の書き換え規則である。
は複数の木構造を左右に順序づけられた子供として持つ
ノードからなる構造として再帰的に定義される。また、
木構造のルートノードとは、そのノードを子供とするノ
ードが存在しない木構造の中の唯一のノードを指す。さ
らに、ノードのランクとは、ノードの下の子供の数を指
す。例えば、図1はランク1の書き換え規則である。
【0015】具体的に、生成確率PA を持つ木構造Aに
含まれるランクrの非終端記号によりラベル付けされた
ノードTを、適用確率PB を有する同ランクの木構造B
によって書き換えるということは、A中のTをBによっ
て置き換え、Tのr個の子供を各々B中のr個の空白ノ
ードの位置に、左から順番に連結し、新たに導出された
木構造とし、さらに、PA とPB との積をとることによ
り、新しい生成確率を計算することを指す。
含まれるランクrの非終端記号によりラベル付けされた
ノードTを、適用確率PB を有する同ランクの木構造B
によって書き換えるということは、A中のTをBによっ
て置き換え、Tのr個の子供を各々B中のr個の空白ノ
ードの位置に、左から順番に連結し、新たに導出された
木構造とし、さらに、PA とPB との積をとることによ
り、新しい生成確率を計算することを指す。
【0016】ここで、終端記号は、20種類のアミノ
酸、もしくは、アミノ酸をその化学的性質に基づいて分
類したいくつかのグループに対応し、導出された木構造
の末端に現れるそれらアミノ酸もしくはグループの集合
はアミノ酸配列に相当する。与えらえたアミノ酸配列に
対し、適当な書き換え規則を使用し、そのアミノ酸配列
が木構造の末端に出現するように書き換え動作を行うこ
とにより、その配列上のどの部分が各書き換え規則によ
り生成されたかを調べることを「構文解析(parsi
ng)」という。
酸、もしくは、アミノ酸をその化学的性質に基づいて分
類したいくつかのグループに対応し、導出された木構造
の末端に現れるそれらアミノ酸もしくはグループの集合
はアミノ酸配列に相当する。与えらえたアミノ酸配列に
対し、適当な書き換え規則を使用し、そのアミノ酸配列
が木構造の末端に出現するように書き換え動作を行うこ
とにより、その配列上のどの部分が各書き換え規則によ
り生成されたかを調べることを「構文解析(parsi
ng)」という。
【0017】また、タンパク質アミノ酸配列の各残基位
置においては、1つのアミノ酸種類に固定されず、他の
アミノ酸に置き換えられても、その立体構造及び機能を
保持していることが多い。そのため、一般的な書き換え
規則をそのまま使用した場合、全体では類似していなが
ら、末端文字のみが異なる木構造が数多く出現する。そ
こで、あらかじめ、書き換え規則を、その末端にラベル
付けされている一つの終端記号を20種類のアミノ酸と
各々に付随した20の出現確率とにそれぞれ置き換え、
出現確率を加味した書き換え規則(以下、出現確率付き
書き換え規則)にしておいた方が、書き換え規則の数が
減り、計算上都合が良く、また、規則も見やすくなる。
この場合、生産確率PA を持つ木構造Aに含まれるラン
クrの非終端記号によりラベル付けされたノードTを、
適用確率PB を有する同ランクの出現確率付き確率規則
Bによって書き換えた場合、PA とPB とBの各末端ノ
ードの対応するアミノ酸に付随した出現確率の積をとる
ことにより、新しい生成確率を計算する。出現確率付き
書き換え規則の例を図2に示す。
置においては、1つのアミノ酸種類に固定されず、他の
アミノ酸に置き換えられても、その立体構造及び機能を
保持していることが多い。そのため、一般的な書き換え
規則をそのまま使用した場合、全体では類似していなが
ら、末端文字のみが異なる木構造が数多く出現する。そ
こで、あらかじめ、書き換え規則を、その末端にラベル
付けされている一つの終端記号を20種類のアミノ酸と
各々に付随した20の出現確率とにそれぞれ置き換え、
出現確率を加味した書き換え規則(以下、出現確率付き
書き換え規則)にしておいた方が、書き換え規則の数が
減り、計算上都合が良く、また、規則も見やすくなる。
この場合、生産確率PA を持つ木構造Aに含まれるラン
クrの非終端記号によりラベル付けされたノードTを、
適用確率PB を有する同ランクの出現確率付き確率規則
Bによって書き換えた場合、PA とPB とBの各末端ノ
ードの対応するアミノ酸に付随した出現確率の積をとる
ことにより、新しい生成確率を計算する。出現確率付き
書き換え規則の例を図2に示す。
【0018】以下、ランク1の出現確率付き書き換え規
則において、1種類の非終端記号をルートノードに使用
する場合について、βシート領域の規則の学習方法、及
び規則の適用による予測方法について具体的に説明す
る。
則において、1種類の非終端記号をルートノードに使用
する場合について、βシート領域の規則の学習方法、及
び規則の適用による予測方法について具体的に説明す
る。
【0019】図3は、本発明のタンパク質立体構造予測
方法の実施例を説明するフローチャートである。
方法の実施例を説明するフローチャートである。
【0020】ステップ11では、まず、βシート領域既
知のタンパク質をタンパク質立体構造データベースから
抽出する。さらに、該タンパク質に対し、同じタンパク
質あるいは同じファミリーに属するタンパク質、もしく
は、一次構造上、一定の割合で相同性を保持しているタ
ンパク質のアミノ酸配列をタンパク質アミノ酸配列デー
タベースから抽出し、学習に使用するデータとする。配
列データベースから抽出したタンパク質においては、β
シート領域が未知でも構わないとする。
知のタンパク質をタンパク質立体構造データベースから
抽出する。さらに、該タンパク質に対し、同じタンパク
質あるいは同じファミリーに属するタンパク質、もしく
は、一次構造上、一定の割合で相同性を保持しているタ
ンパク質のアミノ酸配列をタンパク質アミノ酸配列デー
タベースから抽出し、学習に使用するデータとする。配
列データベースから抽出したタンパク質においては、β
シート領域が未知でも構わないとする。
【0021】例えば、イミノグロブリンというタンパク
質において、ヒトのそのタンパク質のアミノ酸配列上の
どこにβシート領域が存在するかは物理化学的な実験か
ら明らかになっている。このヒト・イミノグロブリンに
対して、ヒト以外の種類、例えば、チンパンジー、イヌ
等のイミノグロブリンのアミノ酸配列、あるいは、アラ
イメントにより一定の割合以上の相同性を有するアミノ
酸配列を学習データとする。
質において、ヒトのそのタンパク質のアミノ酸配列上の
どこにβシート領域が存在するかは物理化学的な実験か
ら明らかになっている。このヒト・イミノグロブリンに
対して、ヒト以外の種類、例えば、チンパンジー、イヌ
等のイミノグロブリンのアミノ酸配列、あるいは、アラ
イメントにより一定の割合以上の相同性を有するアミノ
酸配列を学習データとする。
【0022】ステップ12、13、14、及びステップ
15は、ステップ11で得られた学習データを使用し、
あらかじめ設定した構造を有する書き換え規則の適用確
率及び書き換え規則の末端ノードにおける各アミノ酸の
出現確率を学習するステップである。
15は、ステップ11で得られた学習データを使用し、
あらかじめ設定した構造を有する書き換え規則の適用確
率及び書き換え規則の末端ノードにおける各アミノ酸の
出現確率を学習するステップである。
【0023】ステップ12は内側確率の算出を行うステ
ップ、ステップ13は外側確率の算出を行うステップ、
ステップ14は内側確率、外側確率から、書き換え規則
の適用確率及びその末端ノードにおける各アミノ酸の出
現確率の計算に必要な、書き換え規則の出現頻度及び末
端ノードの各アミノ酸の出現頻度を計算するステップで
ある。ステップ15は、算出された出現頻度を使用し、
書き換え規則の適用確率及びその末端ノードの各アミノ
酸の出現確率を計算する。
ップ、ステップ13は外側確率の算出を行うステップ、
ステップ14は内側確率、外側確率から、書き換え規則
の適用確率及びその末端ノードにおける各アミノ酸の出
現確率の計算に必要な、書き換え規則の出現頻度及び末
端ノードの各アミノ酸の出現頻度を計算するステップで
ある。ステップ15は、算出された出現頻度を使用し、
書き換え規則の適用確率及びその末端ノードの各アミノ
酸の出現確率を計算する。
【0024】ステップ12の内側確率の算出過程を、図
4に示したフローチャートを用いて説明する。内側確率
の算出には、4次元のテーブルIn[i,j,k,l]
を用意する。テーブルInの次元は書き換え規則のラン
クに依存し、書き換え規則のランクrに対し、2(r+
1)次元のテーブルが必要である。テーブルIn[i,
j,k,l]においては、有限回の書き換え規則の適用
により生成された木構造の末端に出現するアミノ酸配列
が、与えられた訓練データのi番目からj番目までの残
基位置、k番目からl番目までの残基位置に相当してお
り、それらすべての木構造が生成された生成確率の和を
示す。訓練データの各配列が与えられる前に、それぞれ
In[i,j,k,l]=0.0に設定しておく。
4に示したフローチャートを用いて説明する。内側確率
の算出には、4次元のテーブルIn[i,j,k,l]
を用意する。テーブルInの次元は書き換え規則のラン
クに依存し、書き換え規則のランクrに対し、2(r+
1)次元のテーブルが必要である。テーブルIn[i,
j,k,l]においては、有限回の書き換え規則の適用
により生成された木構造の末端に出現するアミノ酸配列
が、与えられた訓練データのi番目からj番目までの残
基位置、k番目からl番目までの残基位置に相当してお
り、それらすべての木構造が生成された生成確率の和を
示す。訓練データの各配列が与えられる前に、それぞれ
In[i,j,k,l]=0.0に設定しておく。
【0025】訓練データの配列が与えられた場合に、ス
テップ21において、テーブルIn[i,j,k,l]
を初期化する。初期化は、訓練データに対し、書き換え
規則を1回だけ適用し、得られた木構造の末端ノードと
訓練データの部分配列とを対応させることを指す。この
動作により、生成された木構造の末端に出現するアミノ
酸配列が、与えられたアミノ酸配列の部分配列に相当
し、対応するテーブルIn[i,j,k,l]に生成確
率を格納する。もし、他の書き換え規則の適用により生
成された部分配列に相当する。アミノ酸配列の位置が、
同様にi,j,k,lであれば、この書き換え規則の生
成確率を、テーブルIn[i,j,k,l]に加算す
る。
テップ21において、テーブルIn[i,j,k,l]
を初期化する。初期化は、訓練データに対し、書き換え
規則を1回だけ適用し、得られた木構造の末端ノードと
訓練データの部分配列とを対応させることを指す。この
動作により、生成された木構造の末端に出現するアミノ
酸配列が、与えられたアミノ酸配列の部分配列に相当
し、対応するテーブルIn[i,j,k,l]に生成確
率を格納する。もし、他の書き換え規則の適用により生
成された部分配列に相当する。アミノ酸配列の位置が、
同様にi,j,k,lであれば、この書き換え規則の生
成確率を、テーブルIn[i,j,k,l]に加算す
る。
【0026】例えば、長さが4以上のアミノ酸配列に、
図2に示す書き換え規則を適用した場合に生成された部
分配列に相当するアミノ酸配列の位置としては、例え
ば、i=1,j=2k=3,l=4が考えられる。この
時、書き換え規則の各末端ノードに出現するアミノ酸の
出現確率及び書き換え規則の適用確率のすべての積をと
ったものがテーブルIn[1,2,3,4]の値とな
る。
図2に示す書き換え規則を適用した場合に生成された部
分配列に相当するアミノ酸配列の位置としては、例え
ば、i=1,j=2k=3,l=4が考えられる。この
時、書き換え規則の各末端ノードに出現するアミノ酸の
出現確率及び書き換え規則の適用確率のすべての積をと
ったものがテーブルIn[1,2,3,4]の値とな
る。
【0027】以上のように、与えられた訓練データにお
いて、書き換え規則の適用により生成された部分配列に
相応する、取り得るすべてのアミノ酸配列の位置のテー
ブルの初期化を行う。
いて、書き換え規則の適用により生成された部分配列に
相応する、取り得るすべてのアミノ酸配列の位置のテー
ブルの初期化を行う。
【0028】次に、与えられた訓練データに対して取り
得るすべてのテーブルInに格納する値の計算を行う。
得るすべてのテーブルInに格納する値の計算を行う。
【0029】まず、ステップ22において、訓練データ
のアミノ酸配列の長さがNであれば、i=N,j=i,
k=N,l=kと設定する。さらに、ステップ23にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lの値において、ステップ24の動作を行う。
のアミノ酸配列の長さがNであれば、i=N,j=i,
k=N,l=kと設定する。さらに、ステップ23にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lの値において、ステップ24の動作を行う。
【0030】ステップ23におけるi,j,k,lの動
作を説明する。iを1になる(i=1)まで1ずつ減ら
し(i=i−1)、各iにおいてjをNになる(j=
N)まで1ずつ増やし(j=j+1)、各jにおいてk
をjになる(k=j)まで1ずつ減らし(k=k−
1)、各kにおいてlがNになる(l=N)まで、lの
値を1ずつ増や(l=l+1)していく。
作を説明する。iを1になる(i=1)まで1ずつ減ら
し(i=i−1)、各iにおいてjをNになる(j=
N)まで1ずつ増やし(j=j+1)、各jにおいてk
をjになる(k=j)まで1ずつ減らし(k=k−
1)、各kにおいてlがNになる(l=N)まで、lの
値を1ずつ増や(l=l+1)していく。
【0031】ステップ24においては、各i,j,k,
lで、すべての書き換え規則の末端ノード数を調べ、テ
ーブルIn[i,j,k,l]への書き換え規則の適用
により得られた木構造に相当するテーブルInの値が
0.0ではない場合にのみ、生成確率の計算を行ないテ
ーブルIn[i,j,k,l]に格納する。もし、複数
の書き換え規則により、テーブルIn[i,j,k,
l]の生成確率が算出されれば、それらの和をテーブル
In[i,j,k,l]に格納する。
lで、すべての書き換え規則の末端ノード数を調べ、テ
ーブルIn[i,j,k,l]への書き換え規則の適用
により得られた木構造に相当するテーブルInの値が
0.0ではない場合にのみ、生成確率の計算を行ないテ
ーブルIn[i,j,k,l]に格納する。もし、複数
の書き換え規則により、テーブルIn[i,j,k,
l]の生成確率が算出されれば、それらの和をテーブル
In[i,j,k,l]に格納する。
【0032】例えば、i=3,j=7,k=8,l=1
0であり、ある書き換え規則の末端ノード数がそれぞれ
1,2,0,1であれば、テーブルIn[4,5,8,
9]に0.0でない値が格納されている時、訓練データ
のアミノ酸配列のそれぞれ3,6,7,10番目のアミ
ノ酸に対応する末端ノードでの各アミノ酸の出現確率と
書き換え規則の適用確率とテーブルIn[4,5,8,
9]の積を計算し、その値を生成確率としてテーブルI
n[3,7,8,10]に加算する。
0であり、ある書き換え規則の末端ノード数がそれぞれ
1,2,0,1であれば、テーブルIn[4,5,8,
9]に0.0でない値が格納されている時、訓練データ
のアミノ酸配列のそれぞれ3,6,7,10番目のアミ
ノ酸に対応する末端ノードでの各アミノ酸の出現確率と
書き換え規則の適用確率とテーブルIn[4,5,8,
9]の積を計算し、その値を生成確率としてテーブルI
n[3,7,8,10]に加算する。
【0033】ステップ25では、ステップ24の動作の
終了の判断を行う。ステップ23によりi,j,k,l
の値がi=1,j=N,k=N,l=Nとなった場合、
ステップ24の動作後、内側確率の計算を終了する。
終了の判断を行う。ステップ23によりi,j,k,l
の値がi=1,j=N,k=N,l=Nとなった場合、
ステップ24の動作後、内側確率の計算を終了する。
【0034】以上の動作により、取り得るすべてのIn
[i,j,k,l]が計算でき、ステップ12の内側確
率の算出を終了する。
[i,j,k,l]が計算でき、ステップ12の内側確
率の算出を終了する。
【0035】次に、ステップ13での外側確率の算出過
程を図5に示したフローチャートを用いて説明する。
程を図5に示したフローチャートを用いて説明する。
【0036】内側確率の算出と同様に、外側確率の算出
においても、4次元のテーブルOut[i,j,k,
l]を使用する。テーブルOutの次元は、Inと同様
に書き換え規則のランクに依存する。テーブルOut
[i,j,k,l]は、有限回の書き換え規則の適用に
より生成された木構造の末端ノードに出現するアミノ酸
配列が、与えらえたN残基からなる訓練データの1番目
からi番目までの残基位置、j番目からk番目までの残
基位置、l番目からN番目までの残基位置に相当してお
り、生成された木構造の生成確率の和を示す。各テーブ
ルOut[i,j,k,l]は、訓練データの各配列が
与えられる前に、0.0に設定しておく。
においても、4次元のテーブルOut[i,j,k,
l]を使用する。テーブルOutの次元は、Inと同様
に書き換え規則のランクに依存する。テーブルOut
[i,j,k,l]は、有限回の書き換え規則の適用に
より生成された木構造の末端ノードに出現するアミノ酸
配列が、与えらえたN残基からなる訓練データの1番目
からi番目までの残基位置、j番目からk番目までの残
基位置、l番目からN番目までの残基位置に相当してお
り、生成された木構造の生成確率の和を示す。各テーブ
ルOut[i,j,k,l]は、訓練データの各配列が
与えられる前に、0.0に設定しておく。
【0037】訓練データの配列が与えられた場合に、ス
テップ31において、テーブルOut[i,j,k,
l]を初期化する。初期化は、初期木に対して書き換え
規則を1回のみ適用することを指す。この動作により、
生成された木構造の末端に出現するアミノ散配列が、与
えられたアミノ酸配列の部分配列に相当し、対応するテ
ーブルOut[i,j,k,l]に生成確率を格納す
る。もし、他の書き換え規則の適用により生成された部
分配列の訓練データ上の位置が、同様にi,j,k,l
であれば、この書き換え規則各末端ノードに出現するア
ミノ酸の出現確率及び書き換え規則の適用確率のすべて
の積を、テーブルOut[i,j,k,l]に加算す
る。
テップ31において、テーブルOut[i,j,k,
l]を初期化する。初期化は、初期木に対して書き換え
規則を1回のみ適用することを指す。この動作により、
生成された木構造の末端に出現するアミノ散配列が、与
えられたアミノ酸配列の部分配列に相当し、対応するテ
ーブルOut[i,j,k,l]に生成確率を格納す
る。もし、他の書き換え規則の適用により生成された部
分配列の訓練データ上の位置が、同様にi,j,k,l
であれば、この書き換え規則各末端ノードに出現するア
ミノ酸の出現確率及び書き換え規則の適用確率のすべて
の積を、テーブルOut[i,j,k,l]に加算す
る。
【0038】例えば、長さが10の訓練データに、図2
に示す書き換え規則の適用により生成された部分配列に
相当するアミノ酸配列の位置は、i=1,l=10でな
ければならず、さらにj,kに関しては、k=j+1を
満たす7通りが考えられる。例えば、i=1,j=5,
k=6,l=10であれば、各位置のアミノ酸が書き換
え規則の各末端ノードに出現する出現確率及び書き換え
規則の適用確率のすべての積を算出したものをテーブル
Out[1,5,6,10]に加算する。
に示す書き換え規則の適用により生成された部分配列に
相当するアミノ酸配列の位置は、i=1,l=10でな
ければならず、さらにj,kに関しては、k=j+1を
満たす7通りが考えられる。例えば、i=1,j=5,
k=6,l=10であれば、各位置のアミノ酸が書き換
え規則の各末端ノードに出現する出現確率及び書き換え
規則の適用確率のすべての積を算出したものをテーブル
Out[1,5,6,10]に加算する。
【0039】以上のように、与えられた訓練データにお
いて、書き換え規則の適用により生成された部分配列に
相当する、取り得るすべてのアミノ酸配列の位置に対応
するテーブルOutの初期化を行う。
いて、書き換え規則の適用により生成された部分配列に
相当する、取り得るすべてのアミノ酸配列の位置に対応
するテーブルOutの初期化を行う。
【0040】次に、与えられた訓練データに対して取り
得るすべてのテーブルOutに格納する値の計算を行
う。
得るすべてのテーブルOutに格納する値の計算を行
う。
【0041】まず、ステップ32において、訓練データ
のアミノ酸配列の長さがNであれば、i=l,j=N,
k=j,l=Nと設定する。さらに、ステップ33にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lにおいて、ステップ34の動作を行う。
のアミノ酸配列の長さがNであれば、i=l,j=N,
k=j,l=Nと設定する。さらに、ステップ33にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lにおいて、ステップ34の動作を行う。
【0042】ステップ33におけるi,j,k,lの動
作を説明する。iをNになる(i=N)まで1ずつ増や
し(i=N)、各iにおいてjをiになる(j=i)ま
で1ずつ減らし(j=j−1)、各jにおいてkをNに
なる(k=N)まで1ずつ増やし(k=k+1)、各k
においてlがkになる(l=k)まで、lの値を1ずつ
減ら(l=l−1)していく。
作を説明する。iをNになる(i=N)まで1ずつ増や
し(i=N)、各iにおいてjをiになる(j=i)ま
で1ずつ減らし(j=j−1)、各jにおいてkをNに
なる(k=N)まで1ずつ増やし(k=k+1)、各k
においてlがkになる(l=k)まで、lの値を1ずつ
減ら(l=l−1)していく。
【0043】ステップ34においては、各書き換え規則
の末端ノード数を調べ、その書き換え規則を適用した場
合に、生成された木構造がテーブルOut[i,j,
k,l]に対応するような木構造が存在する場合にの
み、生成確率の計算を行ないテーブルOut[i,j,
k,l]に格納する。もし複数の書き換え規則により、
テーブルOut[i,j,k,l]の生成確率が算出さ
れれば、それらの和をテーブルOut[i,j,k,
l]に格納する。
の末端ノード数を調べ、その書き換え規則を適用した場
合に、生成された木構造がテーブルOut[i,j,
k,l]に対応するような木構造が存在する場合にの
み、生成確率の計算を行ないテーブルOut[i,j,
k,l]に格納する。もし複数の書き換え規則により、
テーブルOut[i,j,k,l]の生成確率が算出さ
れれば、それらの和をテーブルOut[i,j,k,
l]に格納する。
【0044】例えば、i=3,j=4,k=7,l=9
であり、書き換え規則の末端ノード数がそれぞれ1,
2,0,1であれば、テーブルOut[2,6,7,1
0]に値が格納されている時、訓練データのアミノ酸配
列のそれぞれ3,4,5,9番目のアミノ酸に対応する
末端ノードの各アミノ酸の出現確率と書き換え規則の適
用確率とOut[2,6,7,10]の積を計算し、そ
の値を生成確率としてテーブルOut[3,4,7,
9]に加算する。
であり、書き換え規則の末端ノード数がそれぞれ1,
2,0,1であれば、テーブルOut[2,6,7,1
0]に値が格納されている時、訓練データのアミノ酸配
列のそれぞれ3,4,5,9番目のアミノ酸に対応する
末端ノードの各アミノ酸の出現確率と書き換え規則の適
用確率とOut[2,6,7,10]の積を計算し、そ
の値を生成確率としてテーブルOut[3,4,7,
9]に加算する。
【0045】ステップ35では、ステップ34の動作の
終了の判断を行う。ステップ33により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ34の動作後、外側確率の計算を終了す
る。
終了の判断を行う。ステップ33により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ34の動作後、外側確率の計算を終了す
る。
【0046】以上の動作により、取り得るすべてのOu
t[i,j,k,l]が計算でき、ステップ13の外側
確率の算出を終了する。
t[i,j,k,l]が計算でき、ステップ13の外側
確率の算出を終了する。
【0047】次に、ステップ14において、内側確率、
外側確率から、書き換え規則の出現頻度、及びその末端
ノードの各アミノ酸の出現頻度を計算する。
外側確率から、書き換え規則の出現頻度、及びその末端
ノードの各アミノ酸の出現頻度を計算する。
【0048】ステップ14の出現頻度の算出過程を図6
に示したフローチャートを用いて説明する。まず、出現
頻度を格納する4次元のテーブルPd[m,n,p,
q]を用意する。テーブルPdの次元は、In及びOu
tとは異なり、書き換え規則のランクに依存しない。2
0種類のアミノ酸を1から20までのアミノ酸番号に置
き換えた場合に、テーブルPd[m,n,p,q]の添
え字m,n,p,qは、m番目の書き換え規則におい
て、非終端記号のn番目のノード位置のp番目の末端ノ
ードに出現するq番目のアミノ酸を示す。各テーブルP
d[m,n,p,q]の値は、訓練データの最初の配列
が与えられた時にのみあらかじめ0.0に設定してお
く。
に示したフローチャートを用いて説明する。まず、出現
頻度を格納する4次元のテーブルPd[m,n,p,
q]を用意する。テーブルPdの次元は、In及びOu
tとは異なり、書き換え規則のランクに依存しない。2
0種類のアミノ酸を1から20までのアミノ酸番号に置
き換えた場合に、テーブルPd[m,n,p,q]の添
え字m,n,p,qは、m番目の書き換え規則におい
て、非終端記号のn番目のノード位置のp番目の末端ノ
ードに出現するq番目のアミノ酸を示す。各テーブルP
d[m,n,p,q]の値は、訓練データの最初の配列
が与えられた時にのみあらかじめ0.0に設定してお
く。
【0049】ステップ41においては、i=1,j=
N,k=j,l=Nと設定する。さらに、ステップ42
においてi,j,k,lの値を動かしながら各i,j,
k,lにおいて、ステップ43の動作を行う。
N,k=j,l=Nと設定する。さらに、ステップ42
においてi,j,k,lの値を動かしながら各i,j,
k,lにおいて、ステップ43の動作を行う。
【0050】ステップ42でのi,j,k,lの動作を
説明する。iをNになる(i=N)まで1ずつ増やし
(i=N)、各iにおいてjをiになる(j=i)まで
1ずつ減らし(j=j−1)、各jにおいてkをNにな
る(k=N)まで1ずつ増やし(k=k+1)、各kに
おいてlがkになる(l=k)まで、lの値を1ずつ減
ら(l=l−1)していく。
説明する。iをNになる(i=N)まで1ずつ増やし
(i=N)、各iにおいてjをiになる(j=i)まで
1ずつ減らし(j=j−1)、各jにおいてkをNにな
る(k=N)まで1ずつ増やし(k=k+1)、各kに
おいてlがkになる(l=k)まで、lの値を1ずつ減
ら(l=l−1)していく。
【0051】ステップ43においては、各書き換え規則
それぞれに対し、テーブルOut[i,j,k,l]に
対応する木構造に書き換え規則を適用した場合に、対応
する添え字を要素とするテーブルInが0.0ではない
値を有して存在するかどうかをチェックする。存在して
いれば、そのテーブルInとOut[i,j,k,l]
との間を埋める部分配列に対応する書き換え規則の各末
端ノードの各アミノ酸の出現確率、書き換え規則の適応
確率、テーブルOut[i,j,k,l]、Inの積を
計算し、テーブルPdに加算する。
それぞれに対し、テーブルOut[i,j,k,l]に
対応する木構造に書き換え規則を適用した場合に、対応
する添え字を要素とするテーブルInが0.0ではない
値を有して存在するかどうかをチェックする。存在して
いれば、そのテーブルInとOut[i,j,k,l]
との間を埋める部分配列に対応する書き換え規則の各末
端ノードの各アミノ酸の出現確率、書き換え規則の適応
確率、テーブルOut[i,j,k,l]、Inの積を
計算し、テーブルPdに加算する。
【0052】具体的に、i=2,j=6,k=7,l=
12の時、図2の構造をした適用確率Pを有する書き換
え規則を1番として適用する場合を考える。図2の書き
換え規則においては、4個のノード位置に一つずつノー
ドが存在するので、各々訓練データの3,5,8,11
番目の残基位置のアミノ酸に対応する。また、この位置
のアミノ酸はそれぞれ、アミノ酸番号により、2,1
5,18,7番であり、書き換え規則の対応する各ノー
ドのアミノ酸の出現確率は、それぞれp1,p2,p
3,p4であるとする。この時、Pd[1,1,1,
2],Pd[1,2,1,15],Pd[1,3,1,
18],Pd[1,4,1,7]それぞれに、P×p1
×p2×p3×p4×Out[2,6,7,12]×I
n[4,4,9,10]が加算される。
12の時、図2の構造をした適用確率Pを有する書き換
え規則を1番として適用する場合を考える。図2の書き
換え規則においては、4個のノード位置に一つずつノー
ドが存在するので、各々訓練データの3,5,8,11
番目の残基位置のアミノ酸に対応する。また、この位置
のアミノ酸はそれぞれ、アミノ酸番号により、2,1
5,18,7番であり、書き換え規則の対応する各ノー
ドのアミノ酸の出現確率は、それぞれp1,p2,p
3,p4であるとする。この時、Pd[1,1,1,
2],Pd[1,2,1,15],Pd[1,3,1,
18],Pd[1,4,1,7]それぞれに、P×p1
×p2×p3×p4×Out[2,6,7,12]×I
n[4,4,9,10]が加算される。
【0053】ここで、テーブルInの添え字は、テーブ
ルOutの添え字と書き換え規則のノードの単純な差で
はないことに注意する。
ルOutの添え字と書き換え規則のノードの単純な差で
はないことに注意する。
【0054】ステップ44では、ステップ43の動作の
終了の判断を行う。ステップ42により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ43の動作後、テーブルPdの算出を終了
する。
終了の判断を行う。ステップ42により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ43の動作後、テーブルPdの算出を終了
する。
【0055】訓練データの各配列に対して、ステップ1
2、13、14を繰り返し、書き換え規則及び規則の各
末端ノード位置での各アミノ酸の出現頻度を算出する。
2、13、14を繰り返し、書き換え規則及び規則の各
末端ノード位置での各アミノ酸の出現頻度を算出する。
【0056】ステップ15では、算出を行ったテーブル
Pdから、書き換え規則の適用確率、及び各末端ノード
の各アミノ酸の出現確率を計算する。
Pdから、書き換え規則の適用確率、及び各末端ノード
の各アミノ酸の出現確率を計算する。
【0057】M番目の書き換え規則の適用確率は、
【0058】
【数1】
【0059】により計算される。また、M番目の書き換
え規則のN番目のノード位置のP番目のノードにQ番の
アミノ酸が出現する出現確率は、
え規則のN番目のノード位置のP番目のノードにQ番の
アミノ酸が出現する出現確率は、
【0060】
【数2】
【0061】により計算される。
【0062】以上により、訓練データセットに対して、
あらかじめ設定した書き換え規則の適用確率及び各書き
換え規則の末端ノード位置にアミノ酸が出現する出現確
率が算出される。
あらかじめ設定した書き換え規則の適用確率及び各書き
換え規則の末端ノード位置にアミノ酸が出現する出現確
率が算出される。
【0063】ステップ12、13、14、15までをあ
らかじめ設定した回数、もしくは、あらかじめ設定した
停止条件を満たすまで繰り返す。ステップ16は、停止
条件が満たされているかどうかをチェックする。例え
ば、停止条件としては、「いずれの書き換え規則の適用
確率やアミノ酸の出現確率の値も変化が0.01未満で
ある」などが採用できる。
らかじめ設定した回数、もしくは、あらかじめ設定した
停止条件を満たすまで繰り返す。ステップ16は、停止
条件が満たされているかどうかをチェックする。例え
ば、停止条件としては、「いずれの書き換え規則の適用
確率やアミノ酸の出現確率の値も変化が0.01未満で
ある」などが採用できる。
【0064】ステップ17では、与えられたテストアミ
ノ酸配列に対し、書き換え規則の適用確率及び規則の各
末端ノードのアミノ酸の出現確率から、構文解析によ
り、どの書き換え規則の末端ノードがテスト配列の部分
領域に対応するかを調べる。すなわち、構文解析によ
り、遠距離相互作用を保持した書き換え規則がテストア
ミノ酸配列のどの部分に現れたかを検出し、テストアミ
ノ酸配列内の遠距離相互作用を保持している部分を予測
する。
ノ酸配列に対し、書き換え規則の適用確率及び規則の各
末端ノードのアミノ酸の出現確率から、構文解析によ
り、どの書き換え規則の末端ノードがテスト配列の部分
領域に対応するかを調べる。すなわち、構文解析によ
り、遠距離相互作用を保持した書き換え規則がテストア
ミノ酸配列のどの部分に現れたかを検出し、テストアミ
ノ酸配列内の遠距離相互作用を保持している部分を予測
する。
【0065】ステップ17の構文解析方式を、図7に示
したフローチャートを用いて説明する。まず、4次元の
テーブルPar[i,j,k,l]を用意する。テーブ
ルParの次元は書き換え規則のランクに依存し、書き
換え規則のランクrに対し、2(r+1)次元のテーブ
ルを用意する。テーブルPar[i,j,k,l]は、
書き換え規則の適用により生成された木構造の末端ノー
ドに出現するアミノ酸配列が、与えられたN残基からな
るテストデータの1番目からi番目までの残基位置、j
番目からk番目までの残基位置、l番目からN番目まで
の残基位置に相当しており、生成された木構造の生成確
率の最大値を示す。テストデータが与えられる前に、各
テーブルPar[i,j,k,l]=0.0と設定して
おく。
したフローチャートを用いて説明する。まず、4次元の
テーブルPar[i,j,k,l]を用意する。テーブ
ルParの次元は書き換え規則のランクに依存し、書き
換え規則のランクrに対し、2(r+1)次元のテーブ
ルを用意する。テーブルPar[i,j,k,l]は、
書き換え規則の適用により生成された木構造の末端ノー
ドに出現するアミノ酸配列が、与えられたN残基からな
るテストデータの1番目からi番目までの残基位置、j
番目からk番目までの残基位置、l番目からN番目まで
の残基位置に相当しており、生成された木構造の生成確
率の最大値を示す。テストデータが与えられる前に、各
テーブルPar[i,j,k,l]=0.0と設定して
おく。
【0066】テストアミノ酸配列が与えられた場合に、
ステップ51において、テーブルPar[i,j,k,
l]を初期化する。初期化は、初期木に対して書き換え
規則を1回のみ適用することを指す。この動作により、
生成された木構造の末端ノードのアミノ酸列が、与えら
れたアミノ酸配列の部分配列に相当し、対応するテーブ
ルPar[i,j,k,l]に生成確率を格納する。も
し、他の書き換え規則の適用により生成された部分配列
のテストデータ上の位置が、同様にi,j,k,lであ
れば、この書き換え規則の各末端ノードに出現するアミ
ノ酸の出現確率及び書き換え規則の適用確率の積を、P
ar[i,j,k,l]と比較し、大きい方をPar
[i,j,k,l]の値とする。
ステップ51において、テーブルPar[i,j,k,
l]を初期化する。初期化は、初期木に対して書き換え
規則を1回のみ適用することを指す。この動作により、
生成された木構造の末端ノードのアミノ酸列が、与えら
れたアミノ酸配列の部分配列に相当し、対応するテーブ
ルPar[i,j,k,l]に生成確率を格納する。も
し、他の書き換え規則の適用により生成された部分配列
のテストデータ上の位置が、同様にi,j,k,lであ
れば、この書き換え規則の各末端ノードに出現するアミ
ノ酸の出現確率及び書き換え規則の適用確率の積を、P
ar[i,j,k,l]と比較し、大きい方をPar
[i,j,k,l]の値とする。
【0067】次に、テストデータに対して、取り得るす
べてのテーブルOut[i,j,k,l]に格納する値
の計算を行う。
べてのテーブルOut[i,j,k,l]に格納する値
の計算を行う。
【0068】まず、ステップ52において、訓練データ
のアミノ酸配列の長さがNであれば、i=1,j=N,
k=j,l=Nと設定する。さらに、ステップ53にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lにおいて、ステップ54の動作を行う。
のアミノ酸配列の長さがNであれば、i=1,j=N,
k=j,l=Nと設定する。さらに、ステップ53にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lにおいて、ステップ54の動作を行う。
【0069】ステップ53におけるi,j,k,lの動
作を説明する。iをNになる(i=N)まで1ずつ増や
し(i=N)、各iにおいてjをiになる(j=i)ま
で1ずつ減らし(j=j−1)、各jにおいてkをNに
なる(k=N)まで1ずつ増やし(k=k+1)、各k
においてlがkになる(l=k)まで、lの値を1ずつ
減ら(l=l−1)していく。
作を説明する。iをNになる(i=N)まで1ずつ増や
し(i=N)、各iにおいてjをiになる(j=i)ま
で1ずつ減らし(j=j−1)、各jにおいてkをNに
なる(k=N)まで1ずつ増やし(k=k+1)、各k
においてlがkになる(l=k)まで、lの値を1ずつ
減ら(l=l−1)していく。
【0070】ステップ54においては、各書き換え規則
の末端ノード数を調べ、その書き換え規則を適用した場
合に、生成された木構造がテーブルPar[i,j,
k,l]に対応するような木構造が存在する場合にの
み、生成確率の計算を行ないテーブルPar[i,j,
k,l]に格納する。もし、複数の書き換え規則によ
り、テーブルPar[i,j,k,l]の値が算出され
れば、それらの中で最大の値をテーブルPar[i,
j,k,l]に格納する。
の末端ノード数を調べ、その書き換え規則を適用した場
合に、生成された木構造がテーブルPar[i,j,
k,l]に対応するような木構造が存在する場合にの
み、生成確率の計算を行ないテーブルPar[i,j,
k,l]に格納する。もし、複数の書き換え規則によ
り、テーブルPar[i,j,k,l]の値が算出され
れば、それらの中で最大の値をテーブルPar[i,
j,k,l]に格納する。
【0071】ステップ55では、ステップ54の動作の
終了の判断を行う。ステップ33により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ54の動作後、Parの計算を終了する。
終了の判断を行う。ステップ33により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ54の動作後、Parの計算を終了する。
【0072】ステップ56では、得られた木構造の末端
ノードからなるアミノ酸配列が、与えられたテストデー
タに対応しているテーブルParの中で、最大のPar
を選出する。
ノードからなるアミノ酸配列が、与えられたテストデー
タに対応しているテーブルParの中で、最大のPar
を選出する。
【0073】ステップ57では、最大のParにおい
て、それを算出するために、どの書き換え規則が使われ
てきたかをチェックする。このチェックは、ステップ5
4におけるParの算出において、軌跡を記憶しておく
ことによっても達成される。チェックの結果、例えば、
テスト配列に対し、βシート領域に相当する書き換え規
則が適用されていれば、適応により生成された部分配列
は、βシート領域とアミノ酸配列レベルで非常に近い性
質を保持しており、βシート領域である可能性が高いと
予測する。
て、それを算出するために、どの書き換え規則が使われ
てきたかをチェックする。このチェックは、ステップ5
4におけるParの算出において、軌跡を記憶しておく
ことによっても達成される。チェックの結果、例えば、
テスト配列に対し、βシート領域に相当する書き換え規
則が適用されていれば、適応により生成された部分配列
は、βシート領域とアミノ酸配列レベルで非常に近い性
質を保持しており、βシート領域である可能性が高いと
予測する。
【0074】
【発明の効果】立体構造の既知のタンパク質のアミノ酸
配列情報から、立体構造未知のタンパク質の遠距離相互
作用に由来する立体構造を従来技術に対して高い精度で
予測可能である。すなわち、本手法により、遠距離に位
置するアミノ酸残基同士の相互作用を、中間領域を介せ
ず抽出可能であり、既存手法による局所領域からの予測
では誤って予測されていたような領域を相互作用の有無
という観点からより実際的に予測することが可能になっ
た。また、本手法はβシートなどの部分的な立体構造と
して著名な部分のみならず、一次構造上離れた残基同士
の相互作用により構成されている活性部位などの機能部
位の特徴配列を抽出し、規則として予測に使用すること
が可能である。
配列情報から、立体構造未知のタンパク質の遠距離相互
作用に由来する立体構造を従来技術に対して高い精度で
予測可能である。すなわち、本手法により、遠距離に位
置するアミノ酸残基同士の相互作用を、中間領域を介せ
ず抽出可能であり、既存手法による局所領域からの予測
では誤って予測されていたような領域を相互作用の有無
という観点からより実際的に予測することが可能になっ
た。また、本手法はβシートなどの部分的な立体構造と
して著名な部分のみならず、一次構造上離れた残基同士
の相互作用により構成されている活性部位などの機能部
位の特徴配列を抽出し、規則として予測に使用すること
が可能である。
【図1】本発明で使用する書き換え規則の一例を示す摸
式図
式図
【図2】本発明で使用する書き換え規則の一例を示す摸
式図
式図
【図3】本発明のタンパク質立体構造予測の一実施例を
示すフローチャート
示すフローチャート
【図4】本発明の学習方式の一部である内側確率の算出
方法の一実施例を示すフローチャート
方法の一実施例を示すフローチャート
【図5】本発明の学習方式の一部である外側確率の算出
方法の一実施例を示すフローチャート
方法の一実施例を示すフローチャート
【図6】本発明の学習方式の一部である書き換え規則の
出現頻度、及び規則の末端ノードの各アミノ酸の出現頻
度の算出方法の一実施例を示すフローチャート
出現頻度、及び規則の末端ノードの各アミノ酸の出現頻
度の算出方法の一実施例を示すフローチャート
【図7】本発明の構文解析方式の一実施例を示すフロー
チャート
チャート
【符号の説明】 11 訓練データ抽出 12 内側確率の算出 13 外側確率の算出 14 出現頻度算出 15 適用確率及び出現確率算出 16 停止条件充足判定 17 構文解析 21 内側確率の初期化 22 初期添え字の設定 23 添え字の更新 24 内側確率の算出 25 停止条件充足判定 31 外側確率の初期化 32 初期添え字の設定 33 添え字の更新 34 外側確率の算出 35 停止条件充足判定 41 初期添え字の設定 42 添え字の更新 43 出現頻度の算出 44 停止条件充足判定 51 最大生成確率の初期化 52 初期添え字の設定 53 添え字の更新 54 最大生成確率の算出 55 停止条件充足判定 56 最大生成確率の算出 57 最大生成確率時の軌跡の検出
Claims (7)
- 【請求項1】 タンパク質のアミノ酸配列からタンパク
質の構造予測を行うための訓練データを抽出するステッ
プと、訓練データからタンパク質の部分的な立体構造に
相当する書き換え規則を学習するステップと、学習され
た書き換え規則を用いて、テストアミノ配列データに対
し、立体構造部分の予測を行うステップとからなること
を特徴とするタンパク質立体構造予測方法。 - 【請求項2】 前記訓練データを抽出するステップは、
立体構造既知のタンパク質に対し、同じファミリーに属
するタンパク質、もしくは一次構造上、一定値以上の相
同性を有するタンパク質のアミノ酸配列を、アミノ酸配
列データベースから抽出することを特徴とする請求項1
記載のタンパク質立体構造予測方法。 - 【請求項3】 前記書き換え規則を学習するステップに
おける書き換え規則が確率的な規則であり、該ステップ
は、確率的脈自由文法の学習に使用されるインサイド・
アウトサイドアルゴリズムと呼ばれる学習方法の木文法
への拡張であることを特徴とする請求項1記載のタンパ
ク質立体構造予測方法。 - 【請求項4】 前記書き換え規則を学習するステップに
おける書き換え規則が確率的な規則であり、末端ノード
に20種類のアミノ酸もしくは、それらのカテゴリーが
割り当てられ、それらの出現確率付き確率的規則であ
り、該ステップは、確率的文脈自由文法の学習に使用さ
れるインサイド・アウトサイドアルゴリズムと呼ばれる
学習方法の木文法への拡張であることを特徴とする請求
項1記載のタンパク質立体構造予測方法。 - 【請求項5】 前記立体構造部分の予測を行うステップ
は、文脈自由文法の構文解析に使用されるCKYアルゴ
リズムと呼ばれる構文解析方法の拡張であることを特徴
とする請求項1記載のタンパク質立体構造予測方法。 - 【請求項6】 前記立体構造部分の予測を行うステップ
における書き換え規則が確率的な規則であり、該ステッ
プは、確率的文脈自由文法の構文解析に使用されるCK
Yアルゴリズムと呼ばれる構文解析方法の木文法への拡
張であることを特徴とする請求項1記載のタンパク質立
体構造予測方法。 - 【請求項7】前記立体構造部分の予測を行うステップに
おける書き換え規則が確率的な規則であり、末端ノード
に20種類のアミノ酸もしくは、そのカテゴリーが割り
当てられ、出現確率付き確率的規則であり、該ステップ
は、確率的文脈自由文法の構文解析に使用されるCKY
アルゴリズムと呼ばれる構文解析方法の木文法への拡張
であることを特徴とする請求項1記載のタンパク質立体
構造予測方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23382293A JP2658823B2 (ja) | 1993-09-20 | 1993-09-20 | タンパク質立体構造予測方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23382293A JP2658823B2 (ja) | 1993-09-20 | 1993-09-20 | タンパク質立体構造予測方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0793286A true JPH0793286A (ja) | 1995-04-07 |
JP2658823B2 JP2658823B2 (ja) | 1997-09-30 |
Family
ID=16961110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23382293A Expired - Fee Related JP2658823B2 (ja) | 1993-09-20 | 1993-09-20 | タンパク質立体構造予測方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2658823B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09159666A (ja) * | 1995-12-08 | 1997-06-20 | Fujitsu Ltd | 蛋白質の二次構造予測方法及び装置 |
WO1999018440A1 (en) * | 1997-10-02 | 1999-04-15 | Akiko Itai | Method of inferring three-dimensional structure of protein |
CN106650305A (zh) * | 2016-10-10 | 2017-05-10 | 浙江工业大学 | 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法 |
-
1993
- 1993-09-20 JP JP23382293A patent/JP2658823B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09159666A (ja) * | 1995-12-08 | 1997-06-20 | Fujitsu Ltd | 蛋白質の二次構造予測方法及び装置 |
WO1999018440A1 (en) * | 1997-10-02 | 1999-04-15 | Akiko Itai | Method of inferring three-dimensional structure of protein |
US7212924B1 (en) | 1997-10-02 | 2007-05-01 | Akiko Itai | Method of inferring three-dimensional structure of protein |
CN106650305A (zh) * | 2016-10-10 | 2017-05-10 | 浙江工业大学 | 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法 |
CN106650305B (zh) * | 2016-10-10 | 2019-01-22 | 浙江工业大学 | 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2658823B2 (ja) | 1997-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817276B (zh) | 一种基于深度神经网络的蛋白质二级结构预测方法 | |
US7613572B2 (en) | Stochastic modeling of spatial distributed sequences | |
DE69623364T2 (de) | Einrichtung zur Erkennung kontinuierlich gesprochener Sprache | |
JPH0728949A (ja) | 筆跡認識装置及び方法 | |
CN112530515A (zh) | 一种预测化合物蛋白质亲和力的新型深度学习模型、计算机设备、存储介质 | |
CN113377964B (zh) | 知识图谱链接预测方法、装置、设备及存储介质 | |
Gero et al. | A genetic engineering approach to genetic algorithms | |
Janz et al. | Learning a generative model for validity in complex discrete structures | |
CN112542211A (zh) | 基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质 | |
CN112562781A (zh) | 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质 | |
CN112530514A (zh) | 基于深度学习方法预测化合物蛋白质相互作用的新型深度模型、计算机设备、存储介质 | |
JPH0793286A (ja) | タンパク質立体構造予測方法 | |
CN114913938A (zh) | 一种基于药效团模型的小分子生成方法、设备及介质 | |
CN112270950B (zh) | 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 | |
CN113449076A (zh) | 基于全局信息和局部信息的代码搜索嵌入方法及装置 | |
Kalweit et al. | Composite q-learning: Multi-scale q-function decomposition and separable optimization | |
CN114023464B (zh) | 基于有监督的协同图对比学习的药物-靶标相互作用预测方法 | |
Tonnelier et al. | Machine learning of generic reactions: 3. an efficient algorithm for maximal common substructure determination | |
Mamitsuka et al. | Predicting location and structure of beta-sheet regions using stochastic tree grammars. | |
JP2551297B2 (ja) | タンパク質立体構造予測方法 | |
Bockhorst et al. | Refining the structure of a stochastic context-free grammar | |
CN110046347A (zh) | 一种基于统计与条件随机场的复杂中文地名识别方法 | |
JPH07105179A (ja) | タンパク質立体構造予測方法 | |
Gaweda et al. | Reinforcement learning approach to individualization of chronic pharmacotherapy | |
CN108427867A (zh) | 一种基于灰色bp神经网络蛋白互作关系预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19970506 |
|
LAPS | Cancellation because of no payment of annual fees |