JP2658823B2 - タンパク質立体構造予測方法 - Google Patents

タンパク質立体構造予測方法

Info

Publication number
JP2658823B2
JP2658823B2 JP23382293A JP23382293A JP2658823B2 JP 2658823 B2 JP2658823 B2 JP 2658823B2 JP 23382293 A JP23382293 A JP 23382293A JP 23382293 A JP23382293 A JP 23382293A JP 2658823 B2 JP2658823 B2 JP 2658823B2
Authority
JP
Japan
Prior art keywords
amino acid
probability
rule
protein
rewriting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23382293A
Other languages
English (en)
Other versions
JPH0793286A (ja
Inventor
拓 馬見塚
直樹 安倍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP23382293A priority Critical patent/JP2658823B2/ja
Publication of JPH0793286A publication Critical patent/JPH0793286A/ja
Application granted granted Critical
Publication of JP2658823B2 publication Critical patent/JP2658823B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、立体構造未知のタンパ
ク質アミノ酸配列から、タンパク質の立体構造を予測す
る方法に関する。
【0002】
【従来の技術】タンパク質の立体構造を予測する方法と
しては、タンパク質全体の立体構造ではなく、その部分
的な立体構造である二次構造を予測する方法が一般的で
ある。従来、タンパク質二次構造予測問題は、タンパク
質の一次構造の各残基(以下、予測対象となる残基を中
心残基と呼ぶ)が、αヘリックス、βシート、それ以外
という3種類の二次構造のいずれに対応するかを予測す
る問題として扱われてきた。従来技術によるタンパク質
の二次構造を予測する方法として、例えば、1974年
発行の米国の雑誌「バイオケミストリー」(Bioch
emistry)の第23巻222−245頁記載のチ
ョウ(Chou)とファスマン(Fasman)による
論文「プレディクション オブ プロテイン コンホメ
ーション」(Prediction of prote
in conformation)(以下、CF法と略
す)、1978年発行の米国の雑誌「ジャーナル オブ
モレキュラ バイオロジー」(Journal of
Molecular Biology)の第120巻
97−120頁掲載のガルニエ(Garnier)らに
よる論文「アナリシス オブ ザ アキュレシー アン
ド インプリケーションズ オブ シンプル メソード
フォー プレディクティング ザ セコンダリー ス
トラクチャー オブ グロブラー プロテインズ」(A
nalysisof the accuracy an
d implications ofsimple m
ethod for predicting the
secondary structure of gl
obular proteins)(以下、GOR法と
略す)、1987年発行の米国の雑誌「ジャーナルオブ
モレキュラ バイオロジー」(Journal of
Molecular Biology)の第198巻
425−443頁掲載のギブラト(Gibrat)らに
よる論文「ファザー デベロプメンツ オブ プロテイ
ン セコンダリー ストラクチャ プレディクション
ユージング インホメーション セオリー:ニュー パ
ラメータズ アンド コンシダレーション オブ レジ
デューペアズ」(Further developme
nts of proteinsecondary s
tructure prediction using
information theory:New p
aramentersand considerati
on of residue pairs)(以下、G
GR法と略す)、1988年発行の米国の雑誌「ジャー
ナル オブモレキュラ バイオロジー」(Journa
l of Molecular Biology)の第
202巻865−884頁記載のキャン(Qian)ら
による論文「プレデイクティング ザ セコンダリー
ストラクチャー オブ グロブラー プロテインズ ユ
ージング ニューラル ネットワーク モデルズ」(P
redicting the secondary s
tructure of globular prot
eins using neural network
models)(以下、QS法と略す)などがある。
【0003】CF法は、タンパク質構造のデータベース
から各二次構造におけるアミノ酸の統計的な出源頻度を
求め、この頻度表を使用し、経験的な規則に基づく予測
を行っている。また、GOR法は、中心残基の二次構造
に対して、その残基から数残基離れた残基により独立に
もたらされる情報量の和を計算し、その相対値から予測
を行い、GGR法は、中心残基の二次構造に対して、そ
の残基及びその残基から数残基から数残基離れた残基に
よりもたらされる情報量の和から予測を行っている。さ
らにQS法は、3層のフィードフォワード型のネットワ
ークを使用し、中心残基の前後8残基を含む配列を入力
とし、二次構造に対する中心残基及び周辺残基からの寄
与をニューラルネットワークを用いて抽出することによ
り予測を行っている。
【0004】
【発明が解決しようとする課題】タンパク質の立体構造
の中には、その部分構造においても、アミノ酸の一次配
列上、数残基から数十残基以上も離れたアミノ酸残基同
士の相互作用(以下、遠距離相互作用と呼ぶ)により構
成されているものが数多くある。主要な二次構造の一つ
であるβシートは遠距離相互作用からなる部分構造とし
て代表的なものである。しかし、従来、タンパク質の部
分的な立体構造予測方法、特に、βシートを含む二次構
造予測手法などにおいて、そのような遠距離相互作用を
保持するアミノ酸残基間のアミノ酸配列を無視して遠距
離相互作用を自動的に抽出し、それらを規則として未知
データに対して適用する方法がより高い予測精度を上げ
るために必要とされている。このための方法としては、
確率的文脈自由文法(例えば、1993年「ビット」
(Bit)の3月号65−74頁記載の浅井による記事
「タンパク質の立体構造予測」参照)による方法しか考
えられていなかった。しかし、確率的文脈自由文法は、
高々2箇所の遠距離に位置するアミノ酸位置しか一つの
書き換え規則で扱えないという制約がある。この制約を
越え、遠距離相互作用を保持する多数のアミノ酸残基間
の遠距離相互作用を抽出する方法の発明が望まれてい
た。
【0005】
【課題を解決するための手段】本発明のタンパク質立体
構造予測方法は、タンパク質のアミノ酸配列から立体構
造を予測するための訓練データを抽出するステップと、
【0006】訓練データからタンパク質の部分的な立体
構造に相当する確率的木文法の書き換え規則を学習する
ステップと、
【0007】学習された書き換え規則を用いて、立体構
造未知のアミノ酸配列データに対し部分的な立体構造の
予測を行うステップからなり、
【0008】前記書き換え規則を学習するステップにお
いて、
【0009】書き換え規則の学習方法は、確率的文脈自
由文法の学習に使用されるインサイドアウトサイドアル
ゴリズムの木文法への拡張であり、
【0010】前記部分的な立体構造の予測を行うステッ
プにおいて、
【0011】予測方法は、文脈自由文法の構文解析に使
用されるCKYアルゴリズムと呼ばれる構文解析方法の
木文法への拡張であることを特徴とする。
【0012】
【実施例】次に、本発明について図面を参照して詳細に
説明する。本実施例では、対象とする遠距離相互作用か
らなるタンパク質立体構造としてβシート領域を扱うも
のとする。
【0013】図1は、本発明において遠距離相互作用を
保持した立体構造の規則に相当する書き換え規則の例で
ある。一般に、書き換え規則は、非終端記号及び終端記
号がラベル付けされたノードを有する木であり、固有の
適用確率を持つ。書き換え規則の書き換え動作は、あら
かじめ設定した初期木に対して、書き換え規則を有限回
適用し、終端記号のみからなる木構造を構成することで
達成される。
【0014】ここで、木構造とは、単一ノード、もしく
は複数の木構造を左右に順序づけられた子供として持つ
ノードからなる構造として再帰的に定義される。また、
木構造のルートノードとは、そのノードを子供とするノ
ードが存在しない木構造の中の唯一のノードを指す。さ
らに、ノードのランクとは、ノードの下の子供の数を指
す。例えば、図1はランク1の書き換え規則である。
【0015】具体的に、生成確率PA を持つ木構造Aに
含まれるランクrの非終端記号によりラベル付けされた
ノードTを、適用確率PB を有する同ランクの木構造B
によって書き換えるということは、A中のTをBによっ
て置き換え、Tのr個の子供を各々B中のr個の空白ノ
ードの位置に、左から順番に連結し、新たに導出された
木構造とし、さらに、PA とPB との積をとることによ
り、新しい生成確率を計算することを指す。
【0016】ここで、終端記号は、20種類のアミノ
酸、もしくは、アミノ酸をその化学的性質に基づいて分
類したいくつかのグループに対応し、導出された木構造
の末端に現れるそれらアミノ酸もしくはグループの集合
はアミノ酸配列に相当する。与えらえたアミノ酸配列に
対し、適当な書き換え規則を使用し、そのアミノ酸配列
が木構造の末端に出現するように書き換え動作を行うこ
とにより、その配列上のどの部分が各書き換え規則によ
り生成されたかを調べることを「構文解析(parsi
ng)」という。
【0017】また、タンパク質アミノ酸配列の各残基位
置においては、1つのアミノ酸種類に固定されず、他の
アミノ酸に置き換えられても、その立体構造及び機能を
保持していることが多い。そのため、一般的な書き換え
規則をそのまま使用した場合、全体では類似していなが
ら、末端文字のみが異なる木構造が数多く出現する。そ
こで、あらかじめ、書き換え規則を、その末端にラベル
付けされている一つの終端記号を20種類のアミノ酸と
各々に付随した20の出現確率とにそれぞれ置き換え、
出現確率を加味した書き換え規則(以下、出現確率付き
書き換え規則)にしておいた方が、書き換え規則の数が
減り、計算上都合が良く、また、規則も見やすくなる。
この場合、生産確率PA を持つ木構造Aに含まれるラン
クrの非終端記号によりラベル付けされたノードTを、
適用確率PB を有する同ランクの出現確率付き確率規則
Bによって書き換えた場合、PA とPB とBの各末端ノ
ードの対応するアミノ酸に付随した出現確率の積をとる
ことにより、新しい生成確率を計算する。出現確率付き
書き換え規則の例を図2に示す。
【0018】以下、ランク1の出現確率付き書き換え規
則において、1種類の非終端記号をルートノードに使用
する場合について、βシート領域の規則の学習方法、及
び規則の適用による予測方法について具体的に説明す
る。
【0019】図3は、本発明のタンパク質立体構造予測
方法の実施例を説明するフローチャートである。
【0020】ステップ11では、まず、βシート領域既
知のタンパク質をタンパク質立体構造データベースから
抽出する。さらに、該タンパク質に対し、同じタンパク
質あるいは同じファミリーに属するタンパク質、もしく
は、一次構造上、一定の割合で相同性を保持しているタ
ンパク質のアミノ酸配列をタンパク質アミノ酸配列デー
タベースから抽出し、学習に使用するデータとする。配
列データベースから抽出したタンパク質においては、β
シート領域が未知でも構わないとする。
【0021】例えば、イミノグロブリンというタンパク
質において、ヒトのそのタンパク質のアミノ酸配列上の
どこにβシート領域が存在するかは物理化学的な実験か
ら明らかになっている。このヒト・イミノグロブリンに
対して、ヒト以外の種類、例えば、チンパンジー、イヌ
等のイミノグロブリンのアミノ酸配列、あるいは、アラ
イメントにより一定の割合以上の相同性を有するアミノ
酸配列を学習データとする。
【0022】ステップ12、13、14、及びステップ
15は、ステップ11で得られた学習データを使用し、
あらかじめ設定した構造を有する書き換え規則の適用確
率及び書き換え規則の末端ノードにおける各アミノ酸の
出現確率を学習するステップである。
【0023】ステップ12は内側確率の算出を行うステ
ップ、ステップ13は外側確率の算出を行うステップ、
ステップ14は内側確率、外側確率から、書き換え規則
の適用確率及びその末端ノードにおける各アミノ酸の出
現確率の計算に必要な、書き換え規則の出現頻度及び末
端ノードの各アミノ酸の出現頻度を計算するステップで
ある。ステップ15は、算出された出現頻度を使用し、
書き換え規則の適用確率及びその末端ノードの各アミノ
酸の出現確率を計算する。
【0024】ステップ12の内側確率の算出過程を、図
4に示したフローチャートを用いて説明する。内側確率
の算出には、4次元のテーブルIn[i,j,k,l]
を用意する。テーブルInの次元は書き換え規則のラン
クに依存し、書き換え規則のランクrに対し、2(r+
1)次元のテーブルが必要である。テーブルIn[i,
j,k,l]においては、有限回の書き換え規則の適用
により生成された木構造の末端に出現するアミノ酸配列
が、与えられた訓練データのi番目からj番目までの残
基位置、k番目からl番目までの残基位置に相当してお
り、それらすべての木構造が生成された生成確率の和を
示す。訓練データの各配列が与えられる前に、それぞれ
In[i,j,k,l]=0.0に設定しておく。
【0025】訓練データの配列が与えられた場合に、ス
テップ21において、テーブルIn[i,j,k,l]
を初期化する。初期化は、訓練データに対し、書き換え
規則を1回だけ適用し、得られた木構造の末端ノードと
訓練データの部分配列とを対応させることを指す。この
動作により、生成された木構造の末端に出現するアミノ
酸配列が、与えられたアミノ酸配列の部分配列に相当
し、対応するテーブルIn[i,j,k,l]に生成確
率を格納する。もし、他の書き換え規則の適用により生
成された部分配列に相当する。アミノ酸配列の位置が、
同様にi,j,k,lであれば、この書き換え規則の生
成確率を、テーブルIn[i,j,k,l]に加算す
る。
【0026】例えば、長さが4以上のアミノ酸配列に、
図2に示す書き換え規則を適用した場合に生成された部
分配列に相当するアミノ酸配列の位置としては、例え
ば、i=1,j=2k=3,l=4が考えられる。この
時、書き換え規則の各末端ノードに出現するアミノ酸の
出現確率及び書き換え規則の適用確率のすべての積をと
ったものがテーブルIn[1,2,3,4]の値とな
る。
【0027】以上のように、与えられた訓練データにお
いて、書き換え規則の適用により生成された部分配列に
相応する、取り得るすべてのアミノ酸配列の位置のテー
ブルの初期化を行う。
【0028】次に、与えられた訓練データに対して取り
得るすべてのテーブルInに格納する値の計算を行う。
【0029】まず、ステップ22において、訓練データ
のアミノ酸配列の長さがNであれば、i=N,j=i,
k=N,l=kと設定する。さらに、ステップ23にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lの値において、ステップ24の動作を行う。
【0030】ステップ23におけるi,j,k,lの動
作を説明する。iを1になる(i=1)まで1ずつ減ら
し(i=i−1)、各iにおいてjをNになる(j=
N)まで1ずつ増やし(j=j+1)、各jにおいてk
をjになる(k=j)まで1ずつ減らし(k=k−
1)、各kにおいてlがNになる(l=N)まで、lの
値を1ずつ増や(l=l+1)していく。
【0031】ステップ24においては、各i,j,k,
lで、すべての書き換え規則の末端ノード数を調べ、テ
ーブルIn[i,j,k,l]への書き換え規則の適用
により得られた木構造に相当するテーブルInの値が
0.0ではない場合にのみ、生成確率の計算を行ないテ
ーブルIn[i,j,k,l]に格納する。もし、複数
の書き換え規則により、テーブルIn[i,j,k,
l]の生成確率が算出されれば、それらの和をテーブル
In[i,j,k,l]に格納する。
【0032】例えば、i=3,j=7,k=8,l=1
0であり、ある書き換え規則の末端ノード数がそれぞれ
1,2,0,1であれば、テーブルIn[4,5,8,
9]に0.0でない値が格納されている時、訓練データ
のアミノ酸配列のそれぞれ3,6,7,10番目のアミ
ノ酸に対応する末端ノードでの各アミノ酸の出現確率と
書き換え規則の適用確率とテーブルIn[4,5,8,
9]の積を計算し、その値を生成確率としてテーブルI
n[3,7,8,10]に加算する。
【0033】ステップ25では、ステップ24の動作の
終了の判断を行う。ステップ23によりi,j,k,l
の値がi=1,j=N,k=N,l=Nとなった場合、
ステップ24の動作後、内側確率の計算を終了する。
【0034】以上の動作により、取り得るすべてのIn
[i,j,k,l]が計算でき、ステップ12の内側確
率の算出を終了する。
【0035】次に、ステップ13での外側確率の算出過
程を図5に示したフローチャートを用いて説明する。
【0036】内側確率の算出と同様に、外側確率の算出
においても、4次元のテーブルOut[i,j,k,
l]を使用する。テーブルOutの次元は、Inと同様
に書き換え規則のランクに依存する。テーブルOut
[i,j,k,l]は、有限回の書き換え規則の適用に
より生成された木構造の末端ノードに出現するアミノ酸
配列が、与えらえたN残基からなる訓練データの1番目
からi番目までの残基位置、j番目からk番目までの残
基位置、l番目からN番目までの残基位置に相当してお
り、生成された木構造の生成確率の和を示す。各テーブ
ルOut[i,j,k,l]は、訓練データの各配列が
与えられる前に、0.0に設定しておく。
【0037】訓練データの配列が与えられた場合に、ス
テップ31において、テーブルOut[i,j,k,
l]を初期化する。初期化は、初期木に対して書き換え
規則を1回のみ適用することを指す。この動作により、
生成された木構造の末端に出現するアミノ散配列が、与
えられたアミノ酸配列の部分配列に相当し、対応するテ
ーブルOut[i,j,k,l]に生成確率を格納す
る。もし、他の書き換え規則の適用により生成された部
分配列の訓練データ上の位置が、同様にi,j,k,l
であれば、この書き換え規則各末端ノードに出現するア
ミノ酸の出現確率及び書き換え規則の適用確率のすべて
の積を、テーブルOut[i,j,k,l]に加算す
る。
【0038】例えば、長さが10の訓練データに、図2
に示す書き換え規則の適用により生成された部分配列に
相当するアミノ酸配列の位置は、i=1,l=10でな
ければならず、さらにj,kに関しては、k=j+1を
満たす7通りが考えられる。例えば、i=1,j=5,
k=6,l=10であれば、各位置のアミノ酸が書き換
え規則の各末端ノードに出現する出現確率及び書き換え
規則の適用確率のすべての積を算出したものをテーブル
Out[1,5,6,10]に加算する。
【0039】以上のように、与えられた訓練データにお
いて、書き換え規則の適用により生成された部分配列に
相当する、取り得るすべてのアミノ酸配列の位置に対応
するテーブルOutの初期化を行う。
【0040】次に、与えられた訓練データに対して取り
得るすべてのテーブルOutに格納する値の計算を行
う。
【0041】まず、ステップ32において、訓練データ
のアミノ酸配列の長さがNであれば、i=l,j=N,
k=j,l=Nと設定する。さらに、ステップ33にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lにおいて、ステップ34の動作を行う。
【0042】ステップ33におけるi,j,k,lの動
作を説明する。iをNになる(i=N)まで1ずつ増や
し(i=N)、各iにおいてjをiになる(j=i)ま
で1ずつ減らし(j=j−1)、各jにおいてkをNに
なる(k=N)まで1ずつ増やし(k=k+1)、各k
においてlがkになる(l=k)まで、lの値を1ずつ
減ら(l=l−1)していく。
【0043】ステップ34においては、各書き換え規則
の末端ノード数を調べ、その書き換え規則を適用した場
合に、生成された木構造がテーブルOut[i,j,
k,l]に対応するような木構造が存在する場合にの
み、生成確率の計算を行ないテーブルOut[i,j,
k,l]に格納する。もし複数の書き換え規則により、
テーブルOut[i,j,k,l]の生成確率が算出さ
れれば、それらの和をテーブルOut[i,j,k,
l]に格納する。
【0044】例えば、i=3,j=4,k=7,l=9
であり、書き換え規則の末端ノード数がそれぞれ1,
2,0,1であれば、テーブルOut[2,6,7,1
0]に値が格納されている時、訓練データのアミノ酸配
列のそれぞれ3,4,5,9番目のアミノ酸に対応する
末端ノードの各アミノ酸の出現確率と書き換え規則の適
用確率とOut[2,6,7,10]の積を計算し、そ
の値を生成確率としてテーブルOut[3,4,7,
9]に加算する。
【0045】ステップ35では、ステップ34の動作の
終了の判断を行う。ステップ33により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ34の動作後、外側確率の計算を終了す
る。
【0046】以上の動作により、取り得るすべてのOu
t[i,j,k,l]が計算でき、ステップ13の外側
確率の算出を終了する。
【0047】次に、ステップ14において、内側確率、
外側確率から、書き換え規則の出現頻度、及びその末端
ノードの各アミノ酸の出現頻度を計算する。
【0048】ステップ14の出現頻度の算出過程を図6
に示したフローチャートを用いて説明する。まず、出現
頻度を格納する4次元のテーブルPd[m,n,p,
q]を用意する。テーブルPdの次元は、In及びOu
tとは異なり、書き換え規則のランクに依存しない。2
0種類のアミノ酸を1から20までのアミノ酸番号に置
き換えた場合に、テーブルPd[m,n,p,q]の添
え字m,n,p,qは、m番目の書き換え規則におい
て、非終端記号のn番目のノード位置のp番目の末端ノ
ードに出現するq番目のアミノ酸を示す。各テーブルP
d[m,n,p,q]の値は、訓練データの最初の配列
が与えられた時にのみあらかじめ0.0に設定してお
く。
【0049】ステップ41においては、i=1,j=
N,k=j,l=Nと設定する。さらに、ステップ42
においてi,j,k,lの値を動かしながら各i,j,
k,lにおいて、ステップ43の動作を行う。
【0050】ステップ42でのi,j,k,lの動作を
説明する。iをNになる(i=N)まで1ずつ増やし
(i=N)、各iにおいてjをiになる(j=i)まで
1ずつ減らし(j=j−1)、各jにおいてkをNにな
る(k=N)まで1ずつ増やし(k=k+1)、各kに
おいてlがkになる(l=k)まで、lの値を1ずつ減
ら(l=l−1)していく。
【0051】ステップ43においては、各書き換え規則
それぞれに対し、テーブルOut[i,j,k,l]に
対応する木構造に書き換え規則を適用した場合に、対応
する添え字を要素とするテーブルInが0.0ではない
値を有して存在するかどうかをチェックする。存在して
いれば、そのテーブルInとOut[i,j,k,l]
との間を埋める部分配列に対応する書き換え規則の各末
端ノードの各アミノ酸の出現確率、書き換え規則の適応
確率、テーブルOut[i,j,k,l]、Inの積を
計算し、テーブルPdに加算する。
【0052】具体的に、i=2,j=6,k=7,l=
12の時、図2の構造をした適用確率Pを有する書き換
え規則を1番として適用する場合を考える。図2の書き
換え規則においては、4個のノード位置に一つずつノー
ドが存在するので、各々訓練データの3,5,8,11
番目の残基位置のアミノ酸に対応する。また、この位置
のアミノ酸はそれぞれ、アミノ酸番号により、2,1
5,18,7番であり、書き換え規則の対応する各ノー
ドのアミノ酸の出現確率は、それぞれp1,p2,p
3,p4であるとする。この時、Pd[1,1,1,
2],Pd[1,2,1,15],Pd[1,3,1,
18],Pd[1,4,1,7]それぞれに、P×p1
×p2×p3×p4×Out[2,6,7,12]×I
n[4,4,9,10]が加算される。
【0053】ここで、テーブルInの添え字は、テーブ
ルOutの添え字と書き換え規則のノードの単純な差で
はないことに注意する。
【0054】ステップ44では、ステップ43の動作の
終了の判断を行う。ステップ42により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ43の動作後、テーブルPdの算出を終了
する。
【0055】訓練データの各配列に対して、ステップ1
2、13、14を繰り返し、書き換え規則及び規則の各
末端ノード位置での各アミノ酸の出現頻度を算出する。
【0056】ステップ15では、算出を行ったテーブル
Pdから、書き換え規則の適用確率、及び各末端ノード
の各アミノ酸の出現確率を計算する。
【0057】M番目の書き換え規則の適用確率は、
【0058】
【数1】
【0059】により計算される。また、M番目の書き換
え規則のN番目のノード位置のP番目のノードにQ番の
アミノ酸が出現する出現確率は、
【0060】
【数2】
【0061】により計算される。
【0062】以上により、訓練データセットに対して、
あらかじめ設定した書き換え規則の適用確率及び各書き
換え規則の末端ノード位置にアミノ酸が出現する出現確
率が算出される。
【0063】ステップ12、13、14、15までをあ
らかじめ設定した回数、もしくは、あらかじめ設定した
停止条件を満たすまで繰り返す。ステップ16は、停止
条件が満たされているかどうかをチェックする。例え
ば、停止条件としては、「いずれの書き換え規則の適用
確率やアミノ酸の出現確率の値も変化が0.01未満で
ある」などが採用できる。
【0064】ステップ17では、与えられたテストアミ
ノ酸配列に対し、書き換え規則の適用確率及び規則の各
末端ノードのアミノ酸の出現確率から、構文解析によ
り、どの書き換え規則の末端ノードがテスト配列の部分
領域に対応するかを調べる。すなわち、構文解析によ
り、遠距離相互作用を保持した書き換え規則がテストア
ミノ酸配列のどの部分に現れたかを検出し、テストアミ
ノ酸配列内の遠距離相互作用を保持している部分を予測
する。
【0065】ステップ17の構文解析方式を、図7に示
したフローチャートを用いて説明する。まず、4次元の
テーブルPar[i,j,k,l]を用意する。テーブ
ルParの次元は書き換え規則のランクに依存し、書き
換え規則のランクrに対し、2(r+1)次元のテーブ
ルを用意する。テーブルPar[i,j,k,l]は、
書き換え規則の適用により生成された木構造の末端ノー
ドに出現するアミノ酸配列が、与えられたN残基からな
るテストデータの1番目からi番目までの残基位置、j
番目からk番目までの残基位置、l番目からN番目まで
の残基位置に相当しており、生成された木構造の生成確
率の最大値を示す。テストデータが与えられる前に、各
テーブルPar[i,j,k,l]=0.0と設定して
おく。
【0066】テストアミノ酸配列が与えられた場合に、
ステップ51において、テーブルPar[i,j,k,
l]を初期化する。初期化は、初期木に対して書き換え
規則を1回のみ適用することを指す。この動作により、
生成された木構造の末端ノードのアミノ酸列が、与えら
れたアミノ酸配列の部分配列に相当し、対応するテーブ
ルPar[i,j,k,l]に生成確率を格納する。も
し、他の書き換え規則の適用により生成された部分配列
のテストデータ上の位置が、同様にi,j,k,lであ
れば、この書き換え規則の各末端ノードに出現するアミ
ノ酸の出現確率及び書き換え規則の適用確率の積を、P
ar[i,j,k,l]と比較し、大きい方をPar
[i,j,k,l]の値とする。
【0067】次に、テストデータに対して、取り得るす
べてのテーブルOut[i,j,k,l]に格納する値
の計算を行う。
【0068】まず、ステップ52において、訓練データ
のアミノ酸配列の長さがNであれば、i=1,j=N,
k=j,l=Nと設定する。さらに、ステップ53にお
いて、i,j,k,lの値を動かしながら、各i,j,
k,lにおいて、ステップ54の動作を行う。
【0069】ステップ53におけるi,j,k,lの動
作を説明する。iをNになる(i=N)まで1ずつ増や
し(i=N)、各iにおいてjをiになる(j=i)ま
で1ずつ減らし(j=j−1)、各jにおいてkをNに
なる(k=N)まで1ずつ増やし(k=k+1)、各k
においてlがkになる(l=k)まで、lの値を1ずつ
減ら(l=l−1)していく。
【0070】ステップ54においては、各書き換え規則
の末端ノード数を調べ、その書き換え規則を適用した場
合に、生成された木構造がテーブルPar[i,j,
k,l]に対応するような木構造が存在する場合にの
み、生成確率の計算を行ないテーブルPar[i,j,
k,l]に格納する。もし、複数の書き換え規則によ
り、テーブルPar[i,j,k,l]の値が算出され
れば、それらの中で最大の値をテーブルPar[i,
j,k,l]に格納する。
【0071】ステップ55では、ステップ54の動作の
終了の判断を行う。ステップ33により、i,j,k,
lの値がi=N,j=i,k=N,l=kとなった場
合、ステップ54の動作後、Parの計算を終了する。
【0072】ステップ56では、得られた木構造の末端
ノードからなるアミノ酸配列が、与えられたテストデー
タに対応しているテーブルParの中で、最大のPar
を選出する。
【0073】ステップ57では、最大のParにおい
て、それを算出するために、どの書き換え規則が使われ
てきたかをチェックする。このチェックは、ステップ5
4におけるParの算出において、軌跡を記憶しておく
ことによっても達成される。チェックの結果、例えば、
テスト配列に対し、βシート領域に相当する書き換え規
則が適用されていれば、適応により生成された部分配列
は、βシート領域とアミノ酸配列レベルで非常に近い性
質を保持しており、βシート領域である可能性が高いと
予測する。
【0074】
【発明の効果】立体構造の既知のタンパク質のアミノ酸
配列情報から、立体構造未知のタンパク質の遠距離相互
作用に由来する立体構造を従来技術に対して高い精度で
予測可能である。すなわち、本手法により、遠距離に位
置するアミノ酸残基同士の相互作用を、中間領域を介せ
ず抽出可能であり、既存手法による局所領域からの予測
では誤って予測されていたような領域を相互作用の有無
という観点からより実際的に予測することが可能になっ
た。また、本手法はβシートなどの部分的な立体構造と
して著名な部分のみならず、一次構造上離れた残基同士
の相互作用により構成されている活性部位などの機能部
位の特徴配列を抽出し、規則として予測に使用すること
が可能である。
【図面の簡単な説明】
【図1】本発明で使用する書き換え規則の一例を示す摸
式図
【図2】本発明で使用する書き換え規則の一例を示す摸
式図
【図3】本発明のタンパク質立体構造予測の一実施例を
示すフローチャート
【図4】本発明の学習方式の一部である内側確率の算出
方法の一実施例を示すフローチャート
【図5】本発明の学習方式の一部である外側確率の算出
方法の一実施例を示すフローチャート
【図6】本発明の学習方式の一部である書き換え規則の
出現頻度、及び規則の末端ノードの各アミノ酸の出現頻
度の算出方法の一実施例を示すフローチャート
【図7】本発明の構文解析方式の一実施例を示すフロー
チャート
【符号の説明】
11 訓練データ抽出 12 内側確率の算出 13 外側確率の算出 14 出現頻度算出 15 適用確率及び出現確率算出 16 停止条件充足判定 17 構文解析 21 内側確率の初期化 22 初期添え字の設定 23 添え字の更新 24 内側確率の算出 25 停止条件充足判定 31 外側確率の初期化 32 初期添え字の設定 33 添え字の更新 34 外側確率の算出 35 停止条件充足判定 41 初期添え字の設定 42 添え字の更新 43 出現頻度の算出 44 停止条件充足判定 51 最大生成確率の初期化 52 初期添え字の設定 53 添え字の更新 54 最大生成確率の算出 55 停止条件充足判定 56 最大生成確率の算出 57 最大生成確率時の軌跡の検出

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】タンパク質のアミノ酸配列から立体構造を
    予測するための訓練データを抽出するステップと、訓練
    データからタンパク質の部分的な立体構造に相当する確
    率的木文法の書き換え規則を学習するステップと、学習
    された書き換え規則を用いて、立体構造未知のアミノ酸
    配列データに対し部分的な立体構造の予測を行うステッ
    プからなり、 前記書き換え規則を学習するステップにおいて、書き換
    え規則の学習方法は、確率的文脈自由文法の学習に使用
    されるインサイドアウトサイドアルゴリズムの木文法へ
    の拡張であり、 前記部分的な立体構造の予測を行うステップにおいて、
    予測方法は、文脈自由文法の構文解析に使用されるCK
    Yアルゴリズムと呼ばれる構文解析方法の木文法への拡
    張であることを特徴とするタンパク質立体構造予測方
    法。
JP23382293A 1993-09-20 1993-09-20 タンパク質立体構造予測方法 Expired - Fee Related JP2658823B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23382293A JP2658823B2 (ja) 1993-09-20 1993-09-20 タンパク質立体構造予測方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23382293A JP2658823B2 (ja) 1993-09-20 1993-09-20 タンパク質立体構造予測方法

Publications (2)

Publication Number Publication Date
JPH0793286A JPH0793286A (ja) 1995-04-07
JP2658823B2 true JP2658823B2 (ja) 1997-09-30

Family

ID=16961110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23382293A Expired - Fee Related JP2658823B2 (ja) 1993-09-20 1993-09-20 タンパク質立体構造予測方法

Country Status (1)

Country Link
JP (1) JP2658823B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3585613B2 (ja) * 1995-12-08 2004-11-04 富士通株式会社 蛋白質の二次構造予測方法及び装置
JP4243423B2 (ja) * 1997-10-02 2009-03-25 昭子 板井 蛋白質の立体構造の推定方法
CN106650305B (zh) * 2016-10-10 2019-01-22 浙江工业大学 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
浅井潔「タンパク質の立体構造予測」,bit,VOL.25,NO.3,共立出版(平5−3−1),PP65−74

Also Published As

Publication number Publication date
JPH0793286A (ja) 1995-04-07

Similar Documents

Publication Publication Date Title
CN109829299B (zh) 一种基于深度自编码器的未知攻击识别方法
KR102458463B1 (ko) 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법
Mikolov et al. Strategies for training large scale neural network language models
CN109817276B (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
CN109785824A (zh) 一种语音翻译模型的训练方法及装置
CN110516245A (zh) 细粒度情感分析方法、装置、计算机设备及存储介质
CN107330379B (zh) 一种蒙古语手写识别方法和装置
CN109062907A (zh) 融入依存关系的神经机器翻译方法
CN106844327B (zh) 文本编码方法及系统
WO2021227935A1 (zh) 训练词向量嵌入模型
CN113051399B (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN114692602A (zh) 一种句法信息注意力引导的图卷积网络关系抽取方法
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN113178232A (zh) 一种circRNA和疾病关联关系的高效预测方法
CN113449076B (zh) 基于全局信息和局部信息的代码搜索嵌入方法及装置
JP2658823B2 (ja) タンパク質立体構造予測方法
CN114817307A (zh) 一种基于半监督学习和元学习的少样本nl2sql方法
Conte et al. Interactive online learning for graph matching using active strategies
CN111461229B (zh) 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法
CN116312856A (zh) 基于子结构的药物相互作用预测方法及系统
CN115879460A (zh) 面向文本内容的新标签实体识别方法、装置、设备及介质
CN112131363B (zh) 自动问答方法、装置、设备及存储介质
CN112651590B (zh) 一种指令处理流程推荐的方法
Fan et al. Sub-word based mongolian offline handwriting recognition

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19970506

LAPS Cancellation because of no payment of annual fees