JP4213034B2 - タンパク質のドメインリンカー領域の予測方法 - Google Patents
タンパク質のドメインリンカー領域の予測方法 Download PDFInfo
- Publication number
- JP4213034B2 JP4213034B2 JP2003538962A JP2003538962A JP4213034B2 JP 4213034 B2 JP4213034 B2 JP 4213034B2 JP 2003538962 A JP2003538962 A JP 2003538962A JP 2003538962 A JP2003538962 A JP 2003538962A JP 4213034 B2 JP4213034 B2 JP 4213034B2
- Authority
- JP
- Japan
- Prior art keywords
- amino acid
- sequence
- protein
- domain linker
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Description
技術分野
本発明は、ニューラルネットワークによるタンパク質ドメインリンカーの学習・予測・検出方法に関し、より詳細には、マルチドメインタンパク質中のドメインリンカー領域をニューラルネットワークに学習させる方法、タンパク質のアミノ酸配列情報からドメインリンカー領域を予測・検出する方法、その予測・検出のためのシステム、プログラム及び記録媒体、タンパク質の構造ドメインを製造・解析する方法、ドメインリンカーデータベースの構築方法および構造ドメインデータベースの構築方法、並びにドメインリンカー領域に特徴的な配列パターンを有するペプチドに関する。
背景技術
近年、様々な個体のゲノムが解読され、これら大量のゲノム配列情報を利用してタンパク質の体系的な立体構造解析と、その構造に基づいた構造機能相関の確立を図る、「構造ゲノム科学」が重要な研究として注目を集めている。
この構造ゲノム研究では、ゲノムにコードされるタンパク質の代表的且つ構造解析に適したターゲットを選択することにより解析の対象となる配列を効率良く絞り込むことが要求される。タンパク質の構造決定への適性は、その分子量に大きく左右され、現在の構造決定技術、特にNMRを用いた場合では、構造決定の自動化が可能なものは、分子量が2万〜2万5千以下の小さなタンパク質に限られる。また、仮にNMRやX線結晶構造解析上の技術的な制限がないとしても、大きなタンパク質の発現・精製はかなり困難であり、巻き戻しが必要とされる場合では特に難しくなる。このため、大きなタンパク質を扱う際には、ドメインごとに断片化し、各ドメインについて解析を行うことが望まれる。
即ち、分子量の大きいタンパク質の多くは、複数のドメインがモジュールのように組み合わさって構成されており、その組み合わせによって機能の多様性が実現されていると考えられている。従って、このような複数のドメインからなるタンパク質においては、その構成単位であるドメインに切り分け、これらドメインの構造を別々に決定することにより、迅速な構造解析が可能となると考えられる。また、ドメインの境界の正確な決定は、例えば高解像度の構造解析や3次元の構造モデル化等にも重要となる。
これに対して、ドメイン領域を決定する際に、一般的にはその構造情報は未知であり、かかる状況下でタンパク質を正しくドメインごとに切り分けるのは非常に困難であるのが実情である。
従来、タンパク質を断片化させる方法としては、例えばプロテアーゼによるタンパク質限定分解法が実験的に用いられている。しかし、この方法では多大な時間と労力を必要とし、体系的、網羅的且つハイスル‐プットな構造解析を行うためには、有効な方法であるとは言い難い。
従って、如何にタンパク質中のドメイン領域を正確に予測できるかが、上述のような構造解析をすすめる上で重要な問題となる。
一方、タンパク質のアミノ酸配列から構造に関する情報を引き出そうとする数多くの試みが行われ、得られた構造情報に対応したタンパク質の構造予測法が開発されている。タンパク質の二次構造はおそらく最も良く研究されてきた構造上の特性であり、この二次構造を予測する方法が提案されている。これらの方法は、物理化学的な特性(Lim,1974;Ptitsyn & Finkelstein,1983)、統計的解析(Chou & Fasman,1974;Garnier et al.,1978)、パターンマッチング(Cohen et al.,1983;King & Sternberg,1990,1996)、ニューラルネットワーク(Qian & Sejnowski,1998;Rost & Sander,1993)、進化的に保存された構造(Zvelebil et al.,1987)に基づくものである。幾つかのケースにおいては、二次構造予測の正確さは70%を超えている(Sternberg et al.,1999)。この他の構造上の特質、例えばβ構造(Wilmot & Thornton,1988;Shepherd et al.,1999)、タンパク質表面のアミノ酸(Holbook et al.,1990)、安定化の中心(Dosztanyi et al.,1997)、構造の種類(Chandonia & Karpus,1995;Chou et al.,1998)といったものもまた、研究されており、その予測が検討された。
これに対して、アミノ酸配列からドメイン領域を予測する方法についてはほとんど研究されていない(Busetta & Barrans,1984;Kikuchi et al.,1988)。最近の2,3の報告(Wheelan et al.,2000;Romero et al.,2001)を除けば、これまでは、配列の類似性がドメインの位置を推測する主要な方法であった(Sonnhammer & Kahn,1994;Heinkoff et al.,1997;Corpet et al.,1998;Kuroda et al.,2001)。配列の類似性に基づく方法はふつう、様々なタンパク質に保存されている(共通して存在する)配列は機能的或いは構造的な独立体に相当し、これがドメインを形成している、と仮定する。
これらの方法は、類似した配列を有するタンパク質の仮想的なドメインについての有用な情報をもたらすけれども、構造ドメインやその境界の特徴となるような配列の特性を検出するように意図されたものではない。
しかしながら、このように構造ドメインの配列の特性を検出する場合、ドメイン自体が比較的大きな構造単位であるため、その特性抽出は複雑となり、取り扱いの難しさが指摘される。
かかる問題を解決する方法として、本発明者らにより構造情報として、ドメインに着目するのではなく、2つのドメインを結ぶドメインリンカーを対象とし、ニューラルネットワークを用いる予測方法が提案された(例えば、第38回生物物理学会年会講演予稿集S67−1 I 1115参照。)。この方法によれば、ドメインリンカー配列がドメイン配列よりもはるかに短いため、その配列パターンの認識を容易に行うことが可能となる。
また、短いレンジのアミノ酸の出現頻度を用いた簡単な統計的な方法により、ドメインの境界を予測する方法も報告されている。
しかしながら、これまでの技術においては、いずれもドメインリンカーに着目した新規な手法の模索段階にとどまっており、いずれの方法においてもドメインリンカー領域の特徴抽出が十分に行われているとは言い難く、結果的に、予測の効率はあまり高くなく、ドメインの境界周辺のより大きなセグメントをより詳細に特徴付けることが、予測の正確さを向上させるためには必要であると考えられる。
そこで、本発明は、構造情報として構造ドメインに着目するのではなく、2つの構造ドメインを結ぶドメインリンカーに着目して、ドメインリンカー領域を同定するに際し、ドメインリンカーの配列パターンの特徴抽出を行うためのデータセットを十分検討し、ドメインリンカー配列に関するより的確な情報を用意するとともに、予測のためのパラメータの最適化を行うことにより、より信頼性に優れたドメインリンカーの予測及び/又は検出する方法、システムおよびプログラムを提供することを目的とする。
発明の開示
本発明者らは、二つのタンパク質ドメインを結びつける配列(ドメインリンカー配列)を識別するために、一手法として、ニューラルネットワークを用いて配列パターンを学習させる方法、もう一つは、統計処理によるリンカー領域のアミノ酸残基の出現頻度をスコア化する方法を採用し、両者を組み合わせて用いることにより、相互補完的に構造未知タンパク質中のドメインリンカー領域の予測を行い、予測効率の向上を図った。即ち、第一の方法において、SCOPに定義されたドメインライブラリーを用いて、リンカー配列とノンリンカー配列に分け、ニューラルネットワークにそれぞれの配列情報を区別して学習させたところ、リンカーとドメイン内ループ領域を含むノンリンカー領域の間にはそれらのアミノ酸配列の特徴に大きな違いがあることが見出された。また、ドメインリンカー配列には位置に依存したアミノ酸の好み(ある特定のアミノ酸残基の出現頻度がある位置において高くなる。あるアミノ酸がその場所に好んで配置される)があることを示し、これらがランダムではないことを明らかにした。これらの知見に基づき、実際にドメインリンカーの予測を行ったところ、ジャックナイフテストの結果、予測された領域の58%が実際のリンカー領域に合致し(特異性)、またSCOP由来ドメインリンカーの36%が予測された(感度)。この予測効率は、二次構造予測から導かれる単純な方法、すなわち長いループ領域を仮想的なドメインリンカーと仮定する方法よりも優れている。概してこれらの結果は、ドメインリンカーはループ領域とは異なる局所的な特徴を有することを示している。
また、第二の方法において、リンカー領域の持つ配列的特徴を統計的手法で明らかにし、その結果を二次構造予測法と組み合わせることで、構造未知なアミノ酸配列に対するドメインリンカー予測手法を構築した。即ち、構造が既知であるマルチドメインタンパク質のnon−redundantな配列集合を用意し、その中からループ構造をとっている部分配列を抽出して、ドメインリンカー配列と非リンカー配列に分類した。それぞれの配列集合において各アミノ酸残基の出現頻度を調べたところ、数種類の残基において、両者の間で明らかに出現頻度が異なる事を見出した。さらに2残基からなる配列パターンにおいても、出現頻度が異なる例を見出した。これらの解析から得られた特徴を定式化し、任意のアミノ酸配列を入力すると「リンカーらしさ」をスコアとして出力する判別関数を得た。構造未知のタンパク質に対して二次構造予測を行ない、得られたループ候補にこの判別関数を適用する事で、ドメインリンカーの位置を実験上有効なレベルで予測することが出来た。本発明は、これらの知見に基づいて、完成されたものである。
本発明の要旨は以下の通りである。
(1) 2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域をニューラルネットワークに識別学習させる方法であって、以下の工程:
データセットの2以上の構造ドメインから構成されるタンパク質のアミノ酸配列をドメインリンカー領域とノンリンカー領域に分ける分割工程、
前記データセットの2以上の構造ドメインから構成されるタンパク質のアミノ酸配列内に5〜35残基の範囲のウィンドウをとるウィンドウ設定工程、
前記ウィンドウの中央に位置するアミノ酸残基が前記ドメインリンカー領域の一部をなす場合に、そのウィンドウ内のアミノ酸配列をポジティブ配列と分類する数値を付与し、該ウィンドウの中央に位置するアミノ酸残基が前記ノンリンカー領域の一部をなす場合には、そのウィンドウ内のアミノ酸配列をネガティブ配列と分類する数値を付与する配列分類工程、
階層型ニューラルネットワークの重みパラメータをバックプロパゲーション法で最適化するための学習を繰り返し行う学習工程
を含むことを特徴とし、
前記バックプロパゲーション法とは、前記ウィンドウ内のアミノ酸配列を数値で表現した値を前記階層型ニューラルネットワークに入力して、出力値を求め、前記ウィンドウ内のアミノ酸配列をポジティブ配列またはネガティブ配列と分類する数値と前記出力値との誤差を計算し、前記誤差が最小になるような階層型ニューラルネットワークの重みパラメータを決定する方法である前記方法。
(2) 立体構造未知のタンパク質のドメインリンカー領域を予測する方法であって、以下の工程:
立体構造未知のタンパク質のアミノ酸配列内に5〜35残基の範囲のウィンドウをとるウィンドウ設定工程、
前記ウィンドウ内のアミノ酸配列を数値で表現した値を請求項1記載の方法で学習させた階層型ニューラルネットワークに入力して、出力値を求める入出力工程、
前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与工程、
前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させて、前記入出力工程および予測値付与工程を繰り返す工程、
前記予測値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測工程
を含むことを特徴とする前記方法。
(3) 前記入出力工程および予測値付与工程を繰り返す工程に続き、
前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとり、このウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出工程
前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させて、前記平均値算出工程を繰り返す工程、
を含み、
かつ、前記ドメインリンカー領域予測工程において、前記予測値の平均値に対して前記閾値によるドメインリンカー領域の予測を行うことを特徴とする(2)記載の方法。
(4) 前記ドメインリンカー領域予測工程において、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域におけるアミノ酸残基の予測値の中で最も大きなものが予め設定したカットオフ値よりも大きい場合に、その領域をドメインリンカー領域と予測する(3)記載の方法。
(5) 立体構造未知のタンパク質のドメインリンカー領域を予測するシステムであって、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記システム。
(6) コンピュータを、立体構造未知のタンパク質のドメインリンカー領域を予測するシステムとして機能させるためのプログラムであって、前記システムが、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記プログラム。
(7) コンピュータを、立体構造未知のタンパク質のドメインリンカー領域を予測するシステムとして機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体であって、前記システムが、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記記録媒体。
(8) 下記の(i)、(ii)または(iii)のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、予測されたドメインリンカー領域よりN末端側にある1つ以上の構造ドメインに相当するタンパク質断片を製造する方法。
(i)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
(ii)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて50番目のアミノ酸残基との間にあるいずれかの部位、
(iii)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて15番目のアミノ酸残基との間にあるいずれかの部位。
(9) 下記の(i)、(iv)または(v)のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、予測されたドメインリンカー領域よりC末端側にある1つ以上の構造ドメインに相当するタンパク質断片を製造する方法。
(i)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
(iv)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて50番目のアミノ酸残基との間にあるいずれかの部位、
(v)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて15番目のアミノ酸残基との間にあるいずれかの部位。
(10)下記の(i)、(ii)または(iii)のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、予測されたドメインリンカー領域よりN末端側にある1つ以上の構造ドメインに相当するタンパク質断片を解析する方法。
(i)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
(ii)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて50番目のアミノ酸残基との間にあるいずれかの部位、
(iii)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて15番目のアミノ酸残基との間にあるいずれかの部位。
(11) 下記の(i)、(iv)または(v)のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、予測されたドメインリンカー領域よりC末端側にある1つ以上の構造ドメインに相当するタンパク質断片を解析する方法。
(i)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
(iv)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて50番目のアミノ酸残基との間にあるいずれかの部位、
(v)(2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて15番目のアミノ酸残基との間にあるいずれかの部位。
(12) (2)〜(4)のいずれかに記載の方法で予測したドメインリンカー領域のアミノ酸配列データを記録媒体に記録する工程を含む、ドメインリンカーデータベースの構築方法。
(13) (2)〜(4)のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位でタンパク質を切断することにより得られる構造ドメインのアミノ酸配列データを記録媒体に記録する工程を含む、構造ドメインデータベースの構築方法。
(14) 下記の(i)および(ii)の条件を満たす配列パターンを有するペプチドであって、マルチドメインタンパク質のドメインリンカーとして機能しうるペプチド。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x1,x2,・・・・・,x399)は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、wij(i=0,・・・・・,399;j=1,2)とvj(j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x1,x2,・・・・・,x399)の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。
(15) 下記の(i)および(ii)の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する方法。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x1,x2,・・・・・,x399)は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、wij(i=0,・・・・・,399;j=1,2)とvj(j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x1,x2,・・・・・,x399)の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。
(16) 下記の(i)および(ii)の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することを特徴とするタンパク質を構造ドメインに分割する方法。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x1,x2,・・・・・,x399)は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、Wij(i=0,・・・・・,399;j=1,2)とvj(j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x1,x2,・・・・・,x399)の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。
(17) 下記の(i)および(ii)の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、タンパク質断片を製造する方法。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x1,x2,・・・・・,x399)は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、wij(i=0,・・・・・,399;j=1,2)とvj(j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x1,x2,・・・・・,x399)の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。
(18) 下記の(i)および(ii)の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、タンパク質断片を解析する方法。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x1,x2,・・・・・,x399)は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、wij(i=0,・・・・・,399;j=1,2)とvj(j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x1,x2,・・・・・,x399)の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。
(19) 下記(i)及び(ii)の条件を満たす配列パターンを有するペプチドを用いて、新規なドメインリンカーを設計し、少なくとも2つタンパク質断片をつなげる事によって新たなマルチドメインタンパク質を製造する方法。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x1,x2,・・・・・,x399)は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、wij(i=0,・・・・・,399;j=1,2)とvj(j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x1,x2,・・・・・,x399)の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。
(20) i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する工程、および
ii)各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N(ここで、PXaa L,PXaa Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Xaaの出現確率である)及び、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する確率PXaaYaa(m) L,PXaaYaa(m) N(ここで、PXaaYaa(m) L,PXaaYaa(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中でアミノ酸残基をm個あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率である)を求める工程
を含み、上記ドメインリンカー領域のアミノ酸配列上の特徴から構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び/又は検出する方法。
(21) i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ii)各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N(ここで、PXaa L,PXaa Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Xaaの出現確率である)及び、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する確率PXaaYaa(m) L,PXaaYaa(m) N(ここで、PXaaYaa(m) L,PXaaYaa(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中でアミノ酸残基をm個あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率である)を求める手段
を含み、上記ドメインリンカー領域のアミノ酸配列上の特徴から構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び/又は検出するシステム。
(22) コンピュータを、構造未知のマルチドメインタンパク質中のドメインリンカー領域をそのアミノ酸配列上の特徴から予測及び/又は検出するシステムをして機能させるためのプログラムであって、前記システムが、
i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ii)各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N(ここで、PXaa L,PXaa Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Xaaの出現確率である)及び、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する確率PXaaYaa(m) L,PXaaYaa(m) N(ここで、PXaaYaa(m) L,PXaaYaa(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中でアミノ酸残基をm個あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率である)を求める手段
を含む、前記プログラム。
(23) (20)記載の方法で予測した、構造未知のマルチドメインタンパク質中のドメインリンカー領域のいずれかの部位で、前記マルチドメインタンパク質を切断することにより生成するタンパク質断片を構造ドメインと予測する工程を含む、構造ドメインの予測方法。
(24) (23)記載の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を製造する工程を含む、タンパク質の製造方法。
(25) (23)記載の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を解析する工程を含む、タンパク質の解析方法。
(26) i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ii)各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N(ここで、PXaa L,PXaa Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Xa aの出現確率である)を求める手段
iii)下記の計算式によりアミノ酸残基Xaaの出現傾向パラメータSXaaを求める手段
SXaa=log(PXaa L/PXaa N)
(但し、PXaa LとPXaa Nの間に統計的有意差がない場合は、SXaa=0とする。)
を含む、アミノ酸残基の出現傾向パラメータ算出システム。
(27) コンピュータを、任意のアミノ酸残基の出現傾向を表すパラメータを算出するシステムとして機能させるためのプログラムであって、前記システムが、
i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ii)各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N(ここで、PXaa L,PXaa Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Xaaの出現確率である)を求める手段
iii)下記の計算式によりアミノ酸残基Xaaの出現傾向パラメータSXaaを求める手段
SXaa=log(PXaa L/PXaa N)
(但し、PXaa LとPXaa Nの間に統計的有意差がない場合は、SXaa=0とする。)
を含む、前記プログラム。
(28) i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ii)各領域のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率PXaaYaa(m) L,PXaaYaa(m) N(ここで、PXaaYaa(m) L,PXaaYaa(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中でアミノ酸残基をm個あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率である)を、mが0,1,2の場合ついてそれぞれ求める手段、
iii)下記の計算式によりアミノ酸残基対Xaa,Yaaの出現傾向パラメータSXaaYaa(m)を求める手段
(但し、PXaaYaa(m) LとPXaaYaa(m) Nの間に統計的有意差がない場合は、SXaa=0とする。)
を含む、アミノ酸残基対の出現傾向パラメータ算出システム。
(29) コンピュータを、任意のアミノ酸残基対の出現傾向をパラメータ算出システムとして機能させるためのプログラムであって、前記システムが、
i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ii)各領域のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率PXaaYaa(m) L,PXaaYaa(m) N(ここで、PXaaYaa(m) L,PXaaYaa(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中でアミノ酸残基をm個あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率である)を、mが0,1,2の場合ついてそれぞれ求める手段、
iii)下記の計算式によりアミノ酸残基対Xaa,Yaaの出現傾向パラメータSXaaYaa(m)を求める手段
(但し、PXaaYaa(m) LとPXaaYaa(m) Nの間に統計的有意差がない場合は、SXaa=0とする。)
を含む、前記プログラム。
(30) アミノ酸残基数がL1個(L1は1以上21以下の整数)のアミノ酸配列についてリンカー度判別スコアF1を求めるシステムであって、
i)下記の計算式によりあるアミノ酸残基Akのリンカー傾向スコアF1sを求める手段、
(式中、SAk=log(PAk L/PAk N)
但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする。ここで、PAk L,PAk Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Akの出現確率である。)
ii)下記の計算式により任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基対AkとAk+(m+1)のリンカー傾向スコアF1pを求める手段、および
(式中、SAkAk+(m+1)(m)=log(PAkAk+(m+1)(m) L/PAkAk+(m+1)(m) N)、及び
但し、PAkAk+(m+1)(m) LとPAkAk+(m+1)(m) N、又はPAkAk−(m+1)(m) LとPAkAk−(m+1)(m) N間に統計的有意差がない場合は、SAkAk+(m+1)(m)=0、又はSAkAk−(m+1)(m)=0とする。
ここで、PAkAk+(m+1)(m) L,PAkAk+(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基AkとAk+(m+1)が出現する(AkとAk+(m+1)の順序は問わない)確率であり、PAkAk−(m+1)(m) L,PAkAk−(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基AkとAk−(m+1)が出現する(AkとAk−(m+1)の順序は問わない)確率である。)
iii)下記の計算式によりリンカー度判別スコアF1を求める手段
F1=F1s+α1F1p
(式中、0<α1 <1)
を含む、前記システム。
(31) コンピュータを、アミノ酸残基数がL1個(L1は1以上21以下の整数)のアミノ酸配列についてリンカー度判別スコアF1を求めるシステムとして機能させるためのプログラムであって、前記システムが、
i)下記の計算式によりあるアミノ酸残基Akのリンカー傾向スコアF1sを求める手段、
(式中、SAk=log(PAk L/PAk N)
但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする。ここで、PAk L,PAk Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Akの出現確率である。)
ii)下記の計算式により任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基対AkとAk+(m+1)のリンカー傾向スコアF1pを求める手段、および
(式中、SAkAk+(m+1)(m)=log(PAkAk+(m+1)(m) L/PAkAk+(m+1)(m) N)、及び
但し、PAkAk+(m+1)(m) LとPAkAk+(m+1)(m) N、又はPAkAk−(m+1)(m) LとPAkAk−(m+1)(m) N間に統計的有意差がない場合は、SAkAk+(m+1)(m)=0、又はSAkAk−(m+1)(m)=0とする。
ここで、PAkAk+(m+1)(m) L,PAkAk+(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基AkとAk+(m+1)が出現する(AkとAk+(m+1)の順序は問わない)確率であり、PAkAk−(m+1)(m) L,PAkAk−(m +1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基AkとAk−(m+1)が出現する(AkとAk−(m+1)の順序は問わない)確率である。)
iii)下記の計算式によりリンカー度判別スコアF1を求める手段
F1=F1s+α1F1p
(式中、0<α1 <1)
を含む、前記プログラム。
(32) アミノ酸残基数がL2(L2は22以上の整数)のアミノ酸配列において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求める方法であって、
i)下記の計算式によりあるアミノ酸残基Akのリンカー傾向スコアF11s(i)を求める工程、
(式中、Wはウィンドウ幅であって、W=2w+1、
SAk=log(PAk L/PAk N)
但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする。ここで、PAk L,PAk Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Akの出現確率である。)
ii)下記の計算式により任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基対AiとAi+(m+1)のリンカー傾向スコアF11p(i)を求める工程、および
(式中、SAiAi+(m+1)(m)=log(PAiAi+(m+1)(m) L/PAiAi+(m+1)(m) N)、及び
但し、PAiAi+(m+1)(m) LとPAiAi+(m+1)(m) Nの、又はPAiAi−(m+1)(m) LとPAiAi−(m+1)(m) Nの間に統計的有意差がない場合は、SAiAi+(m+1)(m)=0、又はSAiAi−(m+1)(m)=0とする。
ここで、PAiAi+(m+1)(m) L,PAiAi+(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi+(m+1)が出現する(AiとAi+(m+1)の順序は問わない)確率であり、PAiAi−(m+1)(m) L,PAiAi−(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi−(m+1)が出現する(AiとAi−(m+1)の順序は問わない)確率である。)
iii)下記の計算式により位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求める工程
F11(i)=F11s(i)+α11F11p(i)
(式中、0<α11 <1)
を含む、前記方法。
(33) アミノ酸残基数がL2(L2は22以上の整数)のアミノ酸配列において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求めるシステムであって、
i)下記の計算式によりあるアミノ酸残基Akのリンカー傾向スコアF11s(i)を求める手段、
(式中、Wはウィンドウ幅であって、W=2w+1、
SAk=log(PAk L/PAk N)
但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする。ここで、PAk L,PAk Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Akの出現確率である。)
ii)下記の計算式により任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基対AiとAi+(m+1)のリンカー傾向スコアF11p(i)を求める手段、および
(式中、SAiAi+(m+1)(m)=log(PAiAi+(m+1)(m) L/PAiAi+(m+1)(m) N)、及び
但し、PAiAi+(m+1)(m) LとPAiAi+(m+1)(m) Nの、又はPAiAi−(m+1)(m) LとPAiAi−(m+1)(m) Nの間に統計的有意差がない場合は、SAiAi+(m+1)(m)=0、又はSAiAi−(m+1)(m)=0とする。
ここで、PAiAi+(m+1)(m) L,PAiAi+(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi+(m+1)が出現する(AiとAi+(m+1)の順序は問わない)確率であり、PAiAi−(m+1)(m) L,PAiAi−(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi−(m+1)が出現する(AiとAi−(m+1)の順序は問わない)確率である。)
iii)下記の計算式により位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求める手段
F11(i)=F11s(i)+α11F11p(i)
(式中、0<α11 <1)
を含む、前記システム。
(34) コンピュータを、アミノ酸残基数がL2(L2は22以上の整数)のアミノ酸配列において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求めるシステムとして機能させるためのプログラムであって、前記システムが、
i)下記の計算式によりあるアミノ酸残基Akのリンカー傾向スコアF11s(i)を求める手段、
(式中、Wはウィンドウ幅であって、W=2w+1、
SAk=log(PAk L/PAk N)
但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする。ここで、PAk L,PAk Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Akの出現確率である。)
ii)下記の計算式により任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基対AiとAi+(m+1)のリンカー傾向スコアF11p(i)を求める手段、および
(式中、SAiAi+(m+1)(m)=log(PAiAi+(m+1)(m) L/PAiAi+(m+1)(m) N)、及び
但し、PAiAi+(m+1)(m) LとPAiAi+(m+1)(m) Nの、又はPAiAi−(m+1)(m) LとPAiAi−(m+1)(m) Nの間に統計的有意差がない場合は、SAiAi+(m+1)(m)=0、又はSAiAi−(m+1)(m)=0とする。
ここで、PAiAi+(m+1)(m) L,PAiAi+(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi+(m+1)が出現する(AiとAi+(m+1)の順序は問わない)確率であり、PAiAi−(m+1)(m) L,PAiAi−(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi−(m+1)が出現する(AiとAi−(m+1)の順序は問わない)確率である。)
iii)下記の計算式により位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求める手段
F11(i)=F11s(i)+α11F11p(i)
(式中、0<α11 <1)
を含む、前記プログラム。
(35) n(nは1以上の整数)本の相同配列seq.1〜seq.nが存在することが知られているアミノ酸残基数がL2個(L2は22以上の整数)のアミノ酸配列seq.0において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求める方法であって、
i)seq.0とseq.1〜seq.nをアライメントし、seq.0中の位置iにあるアミノ酸残基Ai0に対応するseq.k(kは1以上n以下の整数)中のアミノ酸残基Ai kを同定する工程、
ii)位置iのアミノ酸残基Aiについて、下記の計算式でパラメータS’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)を求める工程、
(式中、ngap1はAi k中に出現するギャップの数、
SAik=log(PAikL/PAikN)
但し、PAikLとPAikNの間に統計的有意差がない場合は、SAik=0とする。
ここで、PAikL,PAikNは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Ai kの出現確率である。
また、式中、ngap2はAi kまたはAi+(m+1) k中に出現するギャップの数、
但し、PAikAi+(m+1)k(m) LとPAikAi+(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi+(m+1)k(m)=0とする。
ここで、PAikAi+(m+1)k(m) L,PAikAi+(m+1)k(
m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi+(m+1) kが出現する(Ai kとAi+(m+1) kの順序は問わない)確率である。
更に、式中、ngap3はAi kまたはAi−(m+1) k中に出現するギャップの数、
(m) N)
但し、PAikAi−(m+1)k(m) LとPAikAi−(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi−(m+1)k(m)=0とする。
ここで、PAikAi−(m+1)k(m) L,PAikAi−(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi−(m+1) kが出現する(Ai kとAi−(m+1) kの順序は問わない)確率である。)
iii)下記の計算式によりあるアミノ酸残基のリンカー傾向スコアF12s(i)を求める工程、
iv)下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアF12p(i)を求める工程、および
F12p(i)
v)下記の計算式で、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求める工程
F12(i)=F12s(i)+α12F12p(i)
(式中、0<α12 <1)
を含む、前記方法。
(36) n(nは1以上の整数)本の相同配列seq.1〜seq.nが存在することが知られているアミノ酸残基数がL2個(L2は22以上の整数)のアミノ酸配列seq.0において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求めるシステムであって、i)seq.0とseq.1〜seq.nをアライメントし、seq.0中の位置iにあるアミノ酸残基Ai0に対応するseq.k(kは1以上n以下の整数)中のアミノ酸残基Ai kを同定する手段、
ii)位置iのアミノ酸残基Aiについて、下記の計算式でパラメータS’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)を求める手段、
(式中、ngap1はAi k中に出現するギャップの数、
SAik=log(PAikL/PAikN)
但し、PAikLとPAikNの間に統計的有意差がない場合は、SAik=0とする。
ここで、PAikL,PAikNは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Ai kの出現確率である。
また、式中、ngap2はAi kまたはAi+(m+1) k中に出現するギャップの数、
但し、PAikAi+(m+1)k(m) LとPAikAi+(m+1)k(m
) Nの間に統計的有意差がない場合は、SAikAi+(m+1)k(m)=0とする。
ここで、PAikAi+(m+1)k(m) L,PAikAi+(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi+(m+1) kが出現する(Ai kとAi+(m+1) kの順序は問わない)確率である。
更に、式中、ngap3はAi kまたはAi−(m+1) k中に出現するギャップの数、
但し、PAikAi−(m+1)k(m) LとPAikAi−(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi−(m+1)k(m)=0とする。
ここで、PAikAi−(m+1)k(m) L,PAikAi−(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi−(m+1) kが出現する(Ai kとAi−(m+1) kの順序は問わない)確率である。)
iii)下記の計算式によりあるアミノ酸残基のリンカー傾向スコアF12s(i)を求める手段、
iv)下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアF12p(i)を求める手段、および
F12p(i)
v)下記の計算式で、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求める手段
F12(i)=F12s(i)+α12F12p(i)
(式中、0<α12 <1)
を含む、前記システム。
(37) コンピュータを、n(nは1以上の整数)本の相同配列seq.1〜seq.nが存在することが知られているアミノ酸残基数がL2個(L2は22以上の整数)のアミノ酸配列seq.0において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求めるシステムとして機能させるためのプログラムであって、前記システムが、
i)seq.0とseq.1〜seq.nをアライメントし、seq.0中の位置iにあるアミノ酸残基Ai0に対応するseq.k(kは1以上n以下の整数)中のアミノ酸残基Ai kを同定する手段、
ii)位置iのアミノ酸残基Aiについて、下記の計算式でパラメータS’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)を求める手段、
(式中、ngap1はAi k中に出現するギャップの数、
SAik=log(PAikL/PAikN)
但し、PAikLとPAikNの間に統計的有意差がない場合は、SAik=0とする。
ここで、PAikL,PAikNは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Ai kの出現確率である。
また、式中、ngap2はAi kまたはAi+(m+1) k中に出現するギャップの数、
但し、PAikAi+(m+1)k(m) LとPAikAi+(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi+(m+1)k(m)=0とする。
ここで、PAikAi+(m+1)k(m) L,PAikAi+(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi+(m+1) kが出現する(Ai kとAi+(m+1) kの順序は問わない)確率である。
更に、式中、ngap3はAi kまたはAi−(m+1) k中に出現するギャップの数、
但し、PAikAi−(m+1)k(m) LとPAikAi−(m+1)k(m ) Nの間に統計的有意差がない場合は、SAikAi−(m+1)k(m)=0とする。
ここで、PAikAi−(m+1)k(m) L,PAikAi−(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi−(m+1) kが出現する(Ai kとAi−(m+1) kの順序は問わない)確率である。)
iii)下記の計算式によりあるアミノ酸残基のリンカー傾向スコアF12s(i)を求める手段、
iv)下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアF12p(i)を求める手段、および
F12p(i)
v)下記の計算式で、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求める手段
F12(i)=F12s(i)+α12F12p(i)
(式中、0<α12 <1)
を含む、前記プログラム。
(38) ドメインリンカー部位を予測する方法であって、
i)(32)または(35)に記載の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)工程、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める工程、および
iv)iii)の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する工程
を含む、ドメインリンカー部位の予測方法。
(39) ドメインリンカー部位を予測するシステムであって、
i)(32)または(35)に記載の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)手段、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める手段、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める手段、および
iv)iii)の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する手段
を含む、前記システム。
(40) コンピュータを、ドメインリンカー部位の予測システムとして機能させるためのプログラムであって、前記システムが、
i)(32)または(35)に記載の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)手段、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める手段、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める手段、および
iv)iii)の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する手段
を含む、前記プログラム。
(41) アミノ酸配列データベースを構築する方法であって、
i)(32)または(35)に記載の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)工程、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める工程、
iv)iii)で求めた領域の中で、リンカー度判別スコアの極大値が下限値より大きいものを選択する工程、および
v)iv)で選択した領域のアミノ酸配列を記録媒体に記録する工程
を含む、前記方法。
(42) i)(32)または(35)に記載の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)工程、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める工程、および
iv)iii)で求めた領域の中で、リンカー度判別スコアの極大値が下限値より大きいものを選択する工程
を含む方法により得られた、リンカー度判別スコアの極大値が下限値より大きい領域のアミノ酸配列と同じアミノ酸配列からなるドメインリンカーペプチド。
(43) アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、(38)記載の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する工程を含む、構造ドメインの予測方法。
(44) ドメインリンカー部位をn個予測した場合に、そのうちのt個(tは1以上n以下の整数)を選択し、その位置でアミノ酸配列を切断するパターンを全て考慮し、得られる全ての配列断片を構造ドメインと予測する、(43)記載の方法。
(45) 構造ドメインを予測するシステムであって、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、(38)記載の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する手段を含む、前記システム。
(46) コンピュータを、構造ドメインを予測するシステムとして機能させるためのプログラムであって、前記システムが、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、(38)記載の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する手段を含む、前記プログラム。
(47) アミノ酸配列データベースを構築する方法であって、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、(38)記載の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片のアミノ酸配列を記録媒体に記録する工程を含む、前記方法。
(48) (43)記載の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を製造する工程を含む、タンパク質の製造方法。
(49) (43)記載の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を解析する工程を含む、タンパク質の解析方法。
(50) (42)記載のドメインリンカーペプチドで、少なくとも2つタンパク質断片をつなげることにより生じる、新たなマルチドメインタンパク質を設計し、このマルチドメインタンパク質を製造することを含む、タンパク質の製造方法。
本明細書において、「構造ドメイン領域」とは、タンパク質のアミノ酸配列中の局所的な領域であって、ポリペプチド鎖が折りたたまれてコンパクトかつ安定な立体構造を形成する配列領域をいう。このポリペプチドの折りたたみ構造は、全長の(英語ではintact)タンパク質中では勿論形成されているが、タンパク質から構造ドメインを切断した時にも単独または低分子(リガンド、重原子、ペプチド、核酸など)と会合して立体構造が形成されうる。
「構造ドメイン」とは、構造ドメイン領域のポリペプチド鎖が折りたたまれて立体構造を形成した蛋白質断片のことである。構造ドメインは蛋白質の他の部分とは独立に構造を形成できるため、機能的にも独立した単位であることが多い。
「マルチドメインタンパク質」とは、2つ以上の構造ドメインから構成されるタンパク質をいうものとする。
「ドメインリンカー」とは、マルチドメインタンパク質の構造中で、隣接する2つの構造ドメイン領域を結ぶループ構造をとる配列領域をいうものとする。通常、ドメインリンカーは構造ドメインよりも短いペプチド鎖である。
「非ドメインリンカーループ」とは、構造ドメイン中にあってループ構造をとる配列領域をいうものとする。
構造生物学や分子生物学の分野では、「機能ドメイン領域」及び「機能ドメイン」という用語が使われることがある。「機能ドメイン領域」とは、タンパク質のアミノ酸配列中の局所的な領域であって、ポリペプチド鎖が折りたたまれて特定の機能を発揮する配列領域をいう。このポリペプチドの折りたたみ構造は、全長の(英語ではintact)タンパク質中では勿論形成されているが、タンパク質から機能ドメインを切断した時にも単独または低分子(リガンド、重原子、ペプチド、核酸など)と会合して機能を発揮しうる。「機能ドメイン」とは、機能ドメイン領域のポリペプチド鎖が折りたたまれて特定の機能を発揮しうる蛋白質断片のことである。
構造ドメインが単独で機能ドメインを構成することもあるが、複数の構造ドメインが機能ドメインを構成することもある。逆に言えば、機能ドメインは一つ以上の構造ドメインで構成されているといえる。従って、構造ドメインは蛋白質の立体構造における基本的な構造単位であるため、蛋白質の分子機能の解析に欠かせない単位でもあると言える。本発明では、機能ドメインではなく構造ドメインとアミノ酸配列との関係を見る。
「ウィンドウ」とは、蛋白質全長のアミノ酸配列中ある長さ(例えば10残基)のアミノ酸配列のことを言う。ウィンドウは、その領域内の残基の特徴を基に、ウィンドウの中心の残基の特徴を求めるために有効である。本発明の一態様において、ウィンドウはニューラルネットワークの出力値を計算する際と、その出力値の平均化をする際に用いた。また、本発明の別の態様において、ウィンドウは、タンパク質の全長にわたって連続的に求められるある数値を、局所的に平滑化するために用いた。
なお、本明細書において、「〜」はその前後に記載される数値をそれぞれ最小値および最大値として含む範囲を示す。
本明細書は、本願の優先権の基礎である特願2001−309434号、特願2002−172101号及び特願2002−172136号の明細書および/または図面に記載される内容を包含する。
発明を実施するための最良の形態
以下、添付図面を参照しながら、本発明の好適な実施の形態について説明する。なお、図12、13、20、23、24、26、28、30、32、34、36、38及び40において、Sは各ステップを示す。
本願の第1発明は、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域をニューラルネットワークに識別学習させる方法であって、以下の工程:
データセットの2以上の構造ドメインから構成されるタンパク質のアミノ酸配列をドメインリンカー領域とノンリンカー領域に分ける分割工程、
前記データセットの2以上の構造ドメインから構成されるタンパク質のアミノ酸配列内に5〜35残基の範囲のウィンドウをとるウィンドウ設定工程、
前記ウィンドウの中央に位置するアミノ酸残基が前記ドメインリンカー領域の一部をなす場合に、そのウィンドウ内のアミノ酸配列をポジティブ配列と分類する数値を付与し、該ウィンドウの中央に位置するアミノ酸残基が前記ノンリンカー領域の一部をなす場合には、そのウィンドウ内のアミノ酸配列をネガティブ配列と分類する数値を付与する配列分類工程、
階層型ニューラルネットワークの重みパラメータをバックプロパゲーション法で最適化するための学習を繰り返し行う学習工程
を含むことを特徴とし、
前記バックプロパゲーション法とは、前記ウィンドウ内のアミノ酸配列を数値で表現した値を前記階層型ニューラルネットワークに入力して、出力値を求め、前記ウィンドウ内のアミノ酸配列をポジティブ配列またはネガティブ配列と分類する数値と前記出力値との誤差を計算し、前記誤差が最小になるような階層型ニューラルネットワークの重みパラメータを決定する方法を提供する。
上記の方法において、データセットのタンパク質のアミノ酸配列をドメインリンカー領域とノンリンカー領域に分ける分割工程の前に、2以上の構造ドメインから構成される立体構造既知のタンパク質のアミノ酸配列のデータセットを作成しておくとよい。
上記の方法において、アミノ酸配列を数値で表現した値として、アミノ酸配列をバイナリーコード化した数値を例示することができる。また、アミノ酸配列をポジティブ配列と分類する数値としては1を、ネガティブ配列と分類する数値としては0を例示することができ、又は、これらの数値を入れ替える(逆にする)こともできる。
ニューラルネットワークの隠れ層のユニット数(hidden units)は、0〜2であるとよい。一般に、この数が大きいほどより高い次元の入出力関係を学習できるが、データセットのデータ数が少ない場合には、その制約のためにアミノ酸配列と構造情報の高次の対応関係を十分に学習することができず、該隠れ層のユニット数を大きく設定する効果を得ることができない。従って、本発明では、無駄な変数をなるべく減らす目的から、0〜2の範囲とすることが望ましいが、今後データベースが拡大することによって2以上の範囲とすることが望ましくなることもありうる。
ウィンドウのサイズは、5〜35アミノ酸残基であるが、より好ましくは10〜35残基であり、更に好ましくは19残基である。ウィンドウサイズが5残基より小さいと、十分な配列パターンの特徴抽出を行うことができず、十分な学習効果を期待することができない。逆に、35残基より大きくなると、学習で決定しなければならない変数の数が増えるために、決定すべき変数の数に対して学習データの数が少ない場合に「暗記化」(学習データの細かな特徴までもが抽出される現象)が起こりやすくなり、かえって学習効率が低下する傾向にある。
ウィンドウの位置をデータセットのタンパク質のアミノ酸配列の所望の範囲内(例えば、N末端およびC末端からそれぞれ60残基までを除く範囲)で移動させて、上記の配列分類工程および学習工程を繰り返すとよい。
また、作成したデータセットのすべてのタンパク質のアミノ酸配列について、上記の分割工程、ウィンドウ設定工程、配列分類工程および学習工程を行えばよい。
ウィンドウの中央に位置するアミノ酸残基は、ウィンドウの中央付近に位置するアミノ酸残基であればよい。例えば、ウィンドウ内のアミノ酸残基の総数が2n+1個の場合は、ウィンドウの中央に位置するアミノ酸残基としてウィンドウ内の1番目のアミノ酸から数えてn+1番目のアミノ酸を挙げることができ、また、ウィンドウ内のアミノ酸残基の総数が2n個の場合は、ウィンドウの中央に位置するアミノ酸残基としてウィンドウ内の1番目のアミノ酸から数えてn番目またはn+1番目のアミノ酸を挙げることができる。
バックプロパゲーション法は、Rumelhalt,1986に詳細に記載されている。
図12は、本発明のニューラルネットワークの学習方法の1実施形態を説明するためのフローチャートである。ここでは、3層のフィードフォワード型ニューラルネットワークを用いる。
まず、2以上の構造ドメインから構成される立体構造既知のタンパク質のアミノ酸配列のデータセットを用意する。データセット作成にあたり、例えば、PDBに登録されているタンパク質立体構造の中から適当なものを選択するとよい。
データセットの各タンパク質について、ドメインリンカー領域とノンドメインリンカー領域とに分割する。
次いで、データセットのタンパク質について、そのアミノ酸配列内にウィンドウをとり、ウィンドウの中央の残基がドメインリンカー領域の一部をなす場合には、そのウィンドウ内のアミノ酸配列をポジティブ配列と分類し、ウィンドウの中央の残基がノンドメインリンカー領域の一部をなす場合には、そのウィンドウ内のアミノ酸配列をネガティブ配列と分類する。以下、この分類過程をニューラルネットワークに学習させていくことになるが、その前に、入力データおよび教師データをバイナリーコード化しておくとよい。学習には、バックプロパゲーション法を用いるとよい。
学習効率の評価を行うために、データセットをトレーニング用とテスト用に2分割する。トレーニング用データセットとテスト用データセットの割合は、9:1とするとよい。ニューラルネットワークによる予測方法において、その予測効率を評価する方法としては、ジャックナイフ法(Chou et al.,1998)を用いる方法が挙げられる。このジャックナイフ法は、データセットを10のグループに分割し、そのうち9つのグループで学習を行い、残りでテストを行った後、これを全ての組み合わせについて行う手法である。この方法によれば、全てのデータをテストデータとして統計処理することが可能となり、データセットの数が少ない場合でも、データセットの数による制約を克服することができる。なお、データセットの数が十分である場合には、必ずしもこの手法を用いる必要はなく、予測効率を評価する際のトレーニングデータとテストデータの割合は適宜選定すればよい。トレーニングデータとテストデータは、固定して使ってもよいし、種々の組み合わせで使ってもよい。例えば、学習条件の検討を行う場合には、トレーニングデータとテストデータを固定して使うとよい。また、一旦、学習条件を決定した後は、トレーニングデータとテストデータを種々の組み合わせで学習を行ってから、予測を行うとよい。
入力データと教師データを設定する(S1)。入力データには、データセットのタンパク質のアミノ酸配列内にとったウィンドウ内のアミノ酸配列が対応する。教師データとは、入力データに対する正しい出力(すなわち、入力したアミノ酸配列の中央残基がドメインリンカーの一部をなすか否か)である。
入力データを入力したニューラルネットワークから出力信号を得、教師データとの誤差を決定する(S2)。
S2で決定した誤差を保存する(S3)。
S1〜S3のステップをすべてのトレーニングデータについて行った否かを判定(S4)し、判定結果が否の場合は、未処理のトレーニングデータについてS1〜S3のステップを行う。
すべてのトレーニングデータについて、出力信号と教師データとの誤差の和を計算する(S5)。
バックプロパゲーション法により、1層および2層の重みパラメータ(Vjk、Wij)を更新する(S6)。
(但し、上記(1)、(2)式中、δ2k(x)及びδ1j(x)は、それぞれ、下記(3)、(4)式で表される。)
次いで、テストデータに対する学習効率を計算する(S7)。学習効率の計算は、テストデータをニューラルネットワークに入力して、出力値を得、ニューラルネットワークの出力値(予測値)が0.5より大きい場合をリンカー配列に分類、それ以下をノンリンカー配列に分類したものとみなし、その正解率を計算することにより行った。
S7で計算した学習効率の計算値を保存する(S8)。
S6で更新した重みパラメータを保存する(S9)。
学習ステップ数が既定値を超えているか否かを判定し(S10)、超えていない場合には、S1〜S9のステップを行う。学習ステップ数が既定値を超えている場合には、S11に進む。
学習効率の計算値が最大となる最適ステップ数を決定する(S11)。
最適ステップ数における重みパラメータを予測用パラメータに決定する(S12)。トレーニングデータとテストデータを種々の組み合わせで使用する場合には、その組み合わせ毎に最適ステップ数が決定されるので、組み合わせの数だけ予測用パラメータが得られる。タンパク質のドメインリンカー領域を予測する際には、それぞれのパラメータ毎に予測のための一連の処理を行い、得られた各々の予測結果を最後に平均化するとよい(ニューラルネットワークの予測結果は数値で出力されるので、この値を平均化する)。
予測用パラメータを出力装置に出力させるとよい。
本願の第2発明は、立体構造未知のタンパク質のドメインリンカー領域を予測する方法であって、以下の工程:
立体構造未知のタンパク質のアミノ酸配列内に5〜35残基の範囲のウィンドウをとるウィンドウ設定工程、
前記ウィンドウ内のアミノ酸配列を数値で表現した値を上記の方法で学習させた階層型ニューラルネットワークに入力して、出力値を求める入出力工程、
前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与工程、
前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させて、前記入出力工程および予測値付与工程を繰り返す工程、
前記予測値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測工程
を含むことを特徴とする前記方法を提供する。
前記入出力工程および予測値付与工程を繰り返す工程に続き、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとり、このウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出工程、
前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させて、前記平均値算出工程を繰り返す工程
を含んでもよい。この場合、前記ドメインリンカー領域予測工程において、前記予測値の平均値に対して前記閾値によるドメインリンカー領域の予測を行うとよい。
上記の予測方法において、立体構造未知のタンパク質とは、全長のタンパク質であってもよいし、タンパク質断片であってもよい。タンパク質のアミノ酸配列とは、そのタンパク質を構成するアミノ酸の種類とその並び方(アミノ酸配列)である。
立体構造未知のタンパク質のアミノ酸配列としては、種々のデータベース(例えば、GeneBank,Protein Data Bank(PDB),SWISSPROT等に登録されているタンパク質のアミノ酸配列、新たに解析されたタンパク質のアミノ酸配列などを例示することができる。
「立体構造未知のタンパク質」には、タンパク質の全範囲の立体構造が未知のものも、タンパク質の立体構造の一部が既知で、残りが未知なものも含まれるものとする。
ウィンドウの位置を移動させる立体構造未知のタンパク質のアミノ酸配列の所望の範囲内としては、そのタンパク質のN末端およびC末端からそれぞれ60残基までを除く範囲を例示することができるが、それらに限定されることはない。
ウィンドウのサイズは、5〜35アミノ酸残基であるが、より好ましくは10〜35残基であり、更に好ましくは19残基である。
上記のドメインリンカー領域予測方法において、ウィンドウ設定工程の前に、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力しておいてもよい。
上記の方法において、予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測してもよいし、予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域におけるアミノ酸残基の予測値の中で最も大きなものが予め設定したカットオフ値よりも大きい場合に、その領域をドメインリンカー領域と予測してもよい。
閾値は、ドメインリンカーとして予測される領域のサイズにどれだけの余裕をもたせるかを決定するものである。閾値を低くすると、予測領域のサイズが大きくなる。予測領域のサイズが大きくなれば、予測は粗くなるが、予測の正解率が上がる。
カットオフ値は、specificity(ニューラルネットワークが予測してきたドメインリンカーのうちで正解の割合)とsensitivity(実際のドメインリンカーのうちニューラルネットワークが予測できたものの割合)を調節する。カットオフ値を大きくとれば、sensitivityは低くなる(すなわち、当てることができるドメインリンカーは限られてしまう)が、一方で、specificityは高くなる(予測されてきた領域については、正解である可能性が高くなる)。
本発明の予測方法では、与えられたタンパク質のアミノ酸配列内にウィンドウをとり、そのウィンドウ内のアミノ酸配列に対するニューラルネットワークの出力値を計算し、得られた出力値(0.0〜1.0の範囲の実数値)が前記ウィンドウ中央の残基のドメインリンカー傾向の予測値として付与される。
ここで、上記出力値は比較的変動しやすくなっているので、より信頼性に優れた予測結果を得るためには、求められた出力値の平均化を行うことが望ましい。即ち、上記タンパク質のアミノ酸配列内に平均化のためのウィンドウ(スムージングウィンドウと称する。)をとり、このスムージングウィンドウ内のアミノ酸残基間で各々のアミノ酸残基に対して与えられた予測値の平均化を行い、得られた平均値が上記スムージングウィンドウ中央の残基のドメインリンカー傾向の予測値とし直す。
このスムージングウィンドウの大きさとしては、所定残基数以上であればよく、例えば、10アミノ酸残基以上であるとよく、より好ましくは19残基とされる。10残基よりも小さい範囲では、予測効率が低下し、信頼性に優れたリンカー予測を行うことが困難となる。
本発明では、このようにして得られた平均化された予測値に基づき、この予測値を与えたアミノ酸残基を含む配列がドメインリンカーか否かを識別するに際し、該予測値に対する閾値及びカットオフ値を設定し、これら閾値及びカットオフ値の設定値以上の範囲をドメインリンカーと定義する。これら閾値及びカットオフ値としては、0.5〜1.0であることが望ましい。0.5よりも低い範囲では、リンカー配列である部分を検出する感度(sensitivity)は十分に確保できるものの、リンカー配列である正確さ(specificity)が低くなってしまう。
図13は、本発明のタンパク質のドメインリンカー領域を予測する方法の1実施形態を説明するためのフローチャートである。
まず、立体構造未知のタンパク質のアミノ酸配列(アミノ酸配列)データを入力する(S14)。入力するデータは、例えば、立体構造未知のタンパク質のアミノ酸配列を数値で表現したものであるとよい。
ニューラルネットワークの出力値を計算する(S15)。S15のステップをもう少し詳細に説明すると、立体構造未知のタンパク質のアミノ酸配列内にウィンドウを設定し、そのウィンドウ内のアミノ酸配列データを上記の学習済み階層型ニューラルネットワークに入力して、出力値を計算するという工程をすべてのウィンドウ位置について行う。ニューラルネットワークの出力値は、そのウィンドウ内のアミノ酸配列の中央の残基がドメインリンカー領域の一部をなすか否かの予測値として、その中央残基に付与される。
次いで、スムージングウィンドウ(平均化ウィンドウ)内のアミノ酸残基間で予測値の平均化を行う(S16)。スムージングウィンドウは、予測値の平均化を行うために、立体構造未知のタンパク質のアミノ酸配列内に設定する新たなウィンドウである。このスムージングウィンドウの位置は立体構造未知のタンパク質のアミノ酸配列内の所望の範囲内で移動させて、予測値の平均化を行う。
平均値が閾値より大きいアミノ酸残基からなる領域を決定する(S17)。
S17で決定した領域内のアミノ酸残基の予測値の平均値の中で最大のものがカットオフ値以上の領域をドメインリンカー領域とする(S18)。あるいは、S17で決定した領域をドメインリンカー領域としてもよい。
ドメインリンカー領域を出力装置に出力させるとよい。
本願の第3発明は、立体構造未知のタンパク質のドメインリンカー領域を予測するシステム(以下、「ドメインリンカー領域予測システム」という。)であって、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記システムを提供する。
ウィンドウのサイズは、5〜35アミノ酸残基であるが、より好ましくは10〜35残基であり、更に好ましくは19残基である。
新たなウィンドウのサイズは、所定残基数以上であればよいが、例えば、10アミノ酸残基以上であるとよく、より好ましくは19残基である。
2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークとしては、本願の第1発明の方法で学習させたニューラルネットワークが好ましい。
ウィンドウおよび平均化ウィンドウの位置を移動させる立体構造未知のタンパク質のアミノ酸配列の所望の範囲内としては、そのタンパク質のN末端およびC末端からそれぞれ60残基までを除く範囲を例示することができるが、それらに限定されることはない。
本願の第4発明は、コンピュータを、立体構造未知のタンパク質のドメインリンカー領域を予測するシステムとして機能させるためのプログラムであって、前記システムが、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記プログラムを提供する。
本願の第5発明は、コンピュータを、立体構造未知のタンパク質のドメインリンカー領域を予測するシステムとして機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体であって、前記システムが、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記記録媒体を提供する。
このプログラムを記録した記録媒体は、ドメインリンカー領域予測システムのROMそのものであってもよいし、また、外部記憶装置としてCD−ROMドライブ等のプログラム読取装置が設けられ、そこに記録媒体を挿入することで読取可能なCD−ROM等であってもよい。また、上記記録媒体は、磁気テープ、カセットテープ、フレキシブルディスク、ハードディスク、MO/MD/DVD等、又は半導体メモリであってもよい。
図14は、本発明のドメインリンカー領域予測システムの構成を示すブロック図である。本システムはコンピュータ1から成るものであり、CPU2、ROM3、RAM4、入力部5、送信/受信部6、表示部7、ハードディスクドライブ8及びCD−ROMドライブ9を備える。CD−ROM10の代わりに記録媒体として書き換え可能なCD−R、CD−RWを用いこともできる。その場合には、CD−ROMドライブ9の代わりにCD−R又はCD−RW用ドライブを設ける。なお、他にもCD−ROM10の代わりに情報を保持する媒体として、DVD、ZiP、MO、PDとそれらの媒体を用い、それに対応するドライブを備える構成としても良い。
CPU2は、ROM3、RAM4又はハードディスクドライブ(HDD)8に記憶されているプログラムに従って、ドメインリンカー領域予測システム全体を制御し、後述するドメインリンカー領域予測処理を実行する。ROM3はドメインリンカー領域予測システムの動作に必要な処理を命令するプログラム等を格納する。RAM4はドメインリンカー領域予測処理を実行する上で必要なデータを一時的に格納する。入力部5は、キーボードやマウス等であり、ドメインリンカー領域予測システムを実行する上で必要な条件を入力するとき等に操作される。送信/受信部6は、CPU2の命令に基づいて、通信回線を介してデータの送受信処理を実行する。表示部7は、入力情報や出力情報等を、CPU2からの命令に基づいて表示する処理を実行する。ハードディスクドライブ(HDD)8は、ドメインリンカー領域予測プログラム、データセット等を格納し、CPU2の命令に基づいて格納しているプログラム、データ等を読み出し、例えばRAM43に格納する。CD−ROMドライブ9は、CPU2の指示に基づいてCD−ROM10に格納されているドメインリンカー領域予測プログラム、データセット等からプログラム、データ等を読み出し、例えばハードディスクドライブ(HDD)8に格納する。
図15は、本発明のドメインリンカー領域予測システムの機能を説明するブロック図である。アミノ酸配列入力部11では、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値が入力される。ウィンドウ設定部12では、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウが設定される。ウィンドウ内アミノ酸配列入力部13では、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値が入力される。出力値計算部14では、前記階層型ニューラルネットワークにより出力値が計算される。予測値付与部15では、前記出力値が前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与される。ウィンドウ位置移動部16では、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させる。平均化ウィンドウ設定部17では、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウが設定される。平均値算出部18では、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化が行われて、平均値が求められる。平均化ウィンドウ移動部19では、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる。ドメインリンカー領域予測部20では、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域がドメインリンカー領域と予測される。
本願の第6発明は、下記の(i)、(ii)または(iii)のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、予測されたドメインリンカー領域よりN末端側にある1つ以上の構造ドメインに相当するタンパク質断片を製造する方法を提供する。
(i)上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
(ii)上記の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて50番目のアミノ酸残基との間にあるいずれかの部位、
(iii)上記の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて15番目のアミノ酸残基との間にあるいずれかの部位。
この方法により、予測されたドメインリンカー領域のN末端側に存在する構造ドメインの構造を壊さずにタンパク質を切断してタンパク質断片を得ることができる。
上記の(ii)の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて50番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて30番目のアミノ酸残基との間にある。
また、上記の(iii)の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて15番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて10番目のアミノ酸残基との間にある。
本願の第7発明は、下記の(i)、(iv)または(v)のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、予測されたドメインリンカー領域よりC末端側にある1つ以上の構造ドメインに相当するタンパク質断片を製造する方法を提供する。
(i)上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
(iv)上記の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて50番目のアミノ酸残基との間にあるいずれかの部位、
(v)上記の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて15番目のアミノ酸残基との間にあるいずれかの部位。
この方法により、予測されたドメインリンカー領域のC末端側に存在する構造ドメインの構造を壊さずにタンパク質を切断してタンパク質断片を得ることができる。
上記の(iv)の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて50番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて30番目のアミノ酸残基との間にある。
また、上記の(v)の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて15番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて10番目のアミノ酸残基との間にある。
タンパク質断片を製造するには、公知の方法、すなわち、化学的合成法、遺伝子工学的方法などのいずれの方法を用いてもよい。
本願の第8発明は、下記の(i)、(ii)または(iii)のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、予測されたドメインリンカー領域よりN末端側にある1つ以上の構造ドメインに相当するタンパク質断片を解析する方法を提供する。
(i)上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
(ii)上記の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて50番目のアミノ酸残基との間にあるいずれかの部位、
(iii)上記の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて15番目のアミノ酸残基との間にあるいずれかの部位。
この方法により、予測されたドメインリンカー領域のN末端側に存在する構造ドメインの構造を壊さずにタンパク質を切断してタンパク質断片の構造を解析することができる。
上記の(ii)の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて50番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて30番目のアミノ酸残基との間にある。
また、上記の(iii)の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて15番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて10番目のアミノ酸残基との間にある。
本願の第9発明は、下記の(i)、(iv)または(v)のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、予測されたドメインリンカー領域よりC末端側にある1つ以上の構造ドメインに相当するタンパク質断片を解析する方法を提供する。
(i)上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
(iv)上記の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて50番目のアミノ酸残基との間にあるいずれかの部位、
(v)上記の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて15番目のアミノ酸残基との間にあるいずれかの部位。
この方法により、予測されたドメインリンカー領域のC末端側に存在する構造ドメインの構造を壊さずにタンパク質を切断してタンパク質断片の構造を解析することができる。
上記の(iv)の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて50番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のN末端とそこからタンパク質のN末端側に向かって数えて30番目のアミノ酸残基との間にある。
また、上記の(v)の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて15番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のC末端とそこからタンパク質のC末端側に向かって数えて10番目のアミノ酸残基との間にある。
タンパク質断片の解析としては、X線結晶構造解析、NMRなどによるタンパク質立体構造解析の他、種々の生理活性の測定を例示することができる。
上記のタンパク質断片の製造・解析方法において、タンパク質断片とは、構造ドメインを含む概念である。
タンパク質を切断するには、公知の方法、すなわち、プロテアーゼを用いる酵素的方法、薬品を用いてペプチド鎖を切断する化学的分解法などのいずれを用いてもよい。
本願の第10発明は、上記の方法で予測したドメインリンカー領域のアミノ酸配列データを記録媒体に記録する工程を含む、ドメインリンカーデータベースの構築方法を提供する。
本願の第11発明は、上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位でタンパク質を切断することにより得られる構造ドメインのアミノ酸配列データを記録媒体に記録する工程を含む、構造ドメインデータベースの構築方法を提供する。
記録媒体としては、磁気テープ、カセットテープ、フレキシブルディスク、ハードディスク、CD−ROM、MO/MD/DVD等、又は半導体メモリを例示することができる。
本願の第12発明は、下記の(i)および(ii)の条件を満たす配列パターンを有するペプチドであって、マルチドメインタンパク質のドメインリンカーとして機能しうるペプチドを提供する。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x1,x2,・・・・・,x399)は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、wij(i=0,・・・・・,399;j=1,2)とvj(j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x1,x2,・・・・・,x399)の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。
上記のペプチドは、マルチドメインタンパク質のドメインリンカーとして機能しうる限り、上記の(i)および(ii)の条件を満たす配列パターンのみから構成されてもよいし、他のアミノ酸配列を含んでもよい。
g(x)の数値範囲は、0.5〜1.0が好ましい。0.5よりも低い値では予測の精度が低下し、信頼性の点で問題が生じる。
本願の第13発明は、上記の(i)および(ii)の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する方法を提供する。例えば、種々のデータベース(例えば、GeneBank,PDB,SWISSPROT)等に登録されているタンパク質のアミノ酸配列、新たに解析されたタンパク質のアミノ酸配列などから、上記の(i)および(ii)の条件を満たす配列パターンを検出することにより、その配列パターンを有する領域をドメインリンカー領域と予測することができる。
本願の第14発明は、上記の(i)および(ii)の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することを特徴とするタンパク質を構造ドメインに分割する方法を提供する。
タンパク質を切断するには、公知の方法、すなわち、プロテアーゼを用いる酵素的方法、薬品を用いてペプチド鎖を切断する化学的分解法などのいずれを用いてもよい。
本願の第15発明は、上記の(i)および(ii)の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、タンパク質断片を製造する方法を提供する。
タンパク質断片を製造するには、公知の方法、すなわち、化学的合成法、遺伝子工学的方法などのいずれの方法を用いてもよい。
本願の第16発明は、上記の(i)および(ii)の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、タンパク質断片を解析する方法を提供する。
タンパク質断片の解析としては、X線結晶構造解析、NMRなどによるタンパク質立体構造解析の他、種々の生理活性の測定を例示することができる。
上記のタンパク質断片の製造・解析方法において、タンパク質断片とは、構造ドメインを含む概念である。
タンパク質を切断するには、公知の方法、すなわち、プロテアーゼを用いる酵素的方法、薬品を用いてペプチド鎖を切断する化学的分解法などのいずれを用いてもよい。
本願の第17発明は、上記の(i)及び(ii)の条件を満たす配列パターンを有するペプチドを用いて、新規なドメインリンカーを設計し、少なくとも2つタンパク質断片をつなげる事によって新たなマルチドメインタンパク質を製造する方法を提供する。
タンパク質断片を製造するには、公知の方法、すなわち、化学的合成法、遺伝子工学的方法などのいずれの方法を用いてもよい。
本願の第18発明は、i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域(linker sequence)及び非ドメインリンカーループ領域(non−linker loop sequence)を抽出する工程、および
ii)各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N(ここで、PXaa L,PXaa Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Xaaの出現確率である)及び、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する確率PXaaYaa(m) L,PXaaYaa(m) N(ここで、PXaaYaa(m) L,PXaaYaa(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中でアミノ酸残基をm個あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率である)を求める工程
を含み、上記ドメインリンカー領域のアミノ酸配列上の特徴から構造未知のマルチドメインタンパク質配列のドメインリンカー領域を予測及び/又は検出する方法を提供する。
本願の第18発明において、上記構造既知のマルチドメインタンパク質データベースは、タンパク質のアミノ酸配列と構造座標の両方の情報が提供される,例えばSCOP、nr−PDB等の公開データベースより作成される。また、選択手法の一例としては、DSSP、Visual inspectionを挙げることができるが、これらに限定されることはない。
本願の第18発明においては、上記構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出し、各領域に対応するアミノ酸配列をデータセットとして用いる。
図17〜19に抽出されたドメインリンカー領域の一例を示す。図17の表に示したように、データセットとしては、PDB chain、長さ、ドメインリンカー領域の位置、タンパク質の名前等を用意しておくとよい。
一方、上記非ドメインリンカーループ領域は、上記構造既知のマルチドメインタンパク質データベース中のループ領域から上記ドメインリンカー領域とN/C両末端に位置する領域をそれぞれ除いたものである。
これらドメインリンカー領域及び非ドメインリンカーループ領域を抽出するには、以下の基準を用いるとよい。
まず、DSSP等によって示された長さが4残基以上のループ領域を抽出する。このループ領域中、あるいはループ領域端にSCOP等の公開データベースで定義されているドメイン境界を含むものをドメインリンカー領域とし、該ドメインリンカー領域以外で且つN/C両末端に位置していない領域を非ドメインリンカーループ領域として分類する。
また、上記ドメインリンカー領域及び上記非ドメインリンカーループ領域のアミノ酸配列の統計処理に基づいて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N、及び任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する確率PXaaYaa(m) L,PXaaYaa(m) Nを求めるには、以下のようにするとよい。
まず、対象となるドメインリンカー領域(又は非ドメインリンカーループ領域)のアミノ酸配列に含まれる全アミノ酸残基数をNtotalとし、該アミノ酸配列中のあるアミノ酸残基Xaaの出現頻度をNXaaとする時、
また、対象となるドメインリンカー領域(又は非ドメインリンカーループ領域)のアミノ酸配列に含まれる長さm+2(mは整数、m=0,1,2)の全部分配列パターン数をNtotal(m)とし、該アミノ酸配列中のアミノ酸残基Xaa及びYaaが任意のアミノ酸残基m個あいだに置いて出現する頻度(XaaとYaaの順序は問わない)をNXaaYaa(m)とする時、
これらPXaa LとPXaaYaa(m) L(又はPXaa NとPXaaYaa(m) N)は、構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び/又は検出するのに利用することができる。
また、本願の第18発明において、ドメインリンカー領域及び非ドメインリンカーループ領域を抽出する際に、抽出された各領域のアミノ酸配列の長さに応じて、長いものと短いものに分け、長い場合と短い場合とで、別々にアミノ酸の出現確率を求め、それぞれの場合における配列の特徴を定式化することにより、各々の場合における判別関数を適用したドメインリンカー領域の予測を行うことが望ましい。このように、アミノ酸配列の長さに応じた「リンカーらしさ」の傾向をドメインリンカー予測に反映させることにより、予測精度の向上を図ることができる。この場合、アミノ酸配列の長いもののアミノ酸残基数LLは8残基以上50残基以下の範囲であることが望ましく、より望ましくは10残基以上50残基以下の範囲である。短いもののアミノ酸残基数LSは4残基以上12残基以下の範囲であることが望ましく、より望ましくは4残基以上9残基以下の範囲である。ループ領域のアミノ酸配列の長さを上述の範囲で分けて、それぞれについて、特徴抽出を行うことにより、より的確な判別関数が得られ、高精度な予測を行うことが可能となる。
実際に、10<LL <50、4<LS <9として、ドメインリンカー予測を行ったところ、予測された領域の52%が実際のリンカー領域に合致し(特異性)、またSCOP由来のドメインリンカーの45%が予測された(感度)。
本願の第19発明は、i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域(linker sequence)及び非ドメインリンカーループ領域(non−linker loop sequence)を抽出する手段、および
ii)各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N(ここで、PXaa L,PXaa Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Xaaの出現確率である)及び、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する確率PXaaYaa(m) L,PXaaYaa(m) N(ここで、PXaaYaa(m) L,PXaaYaa(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中でアミノ酸残基をm個あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率である))を求める手段
を含み、上記ドメインリンカー領域のアミノ酸配列上の特徴から構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び/又は検出するシステム(以下、「ドメインリンカー領域予測・検出システム」という)を提供する。
図20は、本願の第18発明の一実施の形態によるドメインリンカー領域予測・検出方法ないしは本願の第19発明の一実施の形態によるドメインリンカー領域予測・検出システムの動作を説明するフローチャートである。
ステップS1001では、構造既知のマルチドメインタンパク質データベースから配列情報を入力する。ステップS1002では、ドメインリンカー配列部分(linker sequence)を抽出する。ステップS1003では、非ドメインリンカーループ配列部分(non−linker loop sequence)も抽出する。そして、ステップS1004で各配列部分のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa Nを求める。続いて、ステップS1005で各配列部分のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基m個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する確率PXaaYaa(m) L,PXaaYaa(m) N(XaaとYaaの順序は問わない)を求める。ステップS1006では、PXaa LとPXaaYaa(m) L(PXaa NとPXaaYaa(m) N)を利用して、構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び/又は検出する。ステップS1007では、結果を出力する。結果の出力は、例えば、予測の対象となったアミノ酸配列、予測されたドメインリンカー領域の位置,長さ及び優先順位などを表示する。
図21は、本発明の一実施の形態によるドメインリンカー領域予測・検出システムの構成を示すブロック図である。本システムはコンピュータ101から成るものであり、CPU102、ROM103、RAM104、入力部105、送信/受信部106、表示部107、ハードディスクドライブ108及びCD−ROMドライブ109を備える。CD−ROM110の代わりに記録媒体として書き換え可能なCD−R、CD−RWを用いこともできる。その場合には、CD−ROMドライブ109の代わりにCD−R又はCD−RW用ドライブを設ける。なお、他にもCD−ROM110の代わりに情報を保持する媒体として、DVD、ZiP、MO、PDとそれらの媒体を用い、それに対応するドライブを備える構成としても良い。
CPU102は、ROM103、RAM104又はハードディスクドライブ(HDD)108に記憶されているプログラムに従って、ドメインリンカー領域予測・検出システム全体を制御し、後述するドメインリンカー領域予測・検出処理を実行する。ROM103はドメインリンカー領域予測・検出システムの動作に必要な処理を命令するプログラム等を格納する。RAM104はドメインリンカー領域予測・検出処理を実行する上で必要なデータを一時的に格納する。入力部105は、キーボードやマウス等であり、ドメインリンカー領域予測・検出システムを実行する上で必要な条件を入力するとき等に操作される。送信/受信部106は、CPU102の命令に基づいて、通信回線を介してデータの送受信処理を実行する。表示部107は、入力情報や出力情報等を、CPU102からの命令に基づいて表示する処理を実行する。ハードディスクドライブ(HDD)8は、ドメインリンカー領域予測・検出プログラム、データセット(図17〜19参照)等を格納し、CPU102の命令に基づいて格納しているプログラム、データ等を読み出し、例えばRAM104に格納する。CD−ROMドライブ109は、CPU102の指示に基づいてCD−ROM110に格納されているドメインリンカー領域予測・検出プログラム、データセット等からプログラム、データ等を読み出し、例えばハードディスクドライブ(HDD)108に格納する。
図22は、本願の第19発明の一実施の形態によるドメインリンカー領域予測・検出システムの機能を説明するブロック図である。ドメインリンカー配列部分抽出部1021では、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分が抽出される。非ドメインリンカーループ配列部分抽出部1022では、構造既知のマルチドメインタンパク質データベースから非ドメインリンカーループ配列部分が抽出される。PXaa L(PXaa Nも同様。)算出部1023では、ドメインリンカー配列部分および非ドメインリンカーループ配列部分のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L(PXaa N)が求められる。PXaaYaa(m) L(PXaaYaa(m) Nも同様。)算出部1024では、ドメインリンカー配列部分および非ドメインリンカーループ配列部分のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基m個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaa(XaaとYaaの順序は問わない)が出現する確率PXaaYaa(m) L(PXaaYaa(m) N)が求められる。
本願の第20発明は、コンピュータを、本願の第19発明のシステムとして機能させるためのプログラムを提供する。
本願の第21発明は、本願の第18発明の方法で予測した、構造未知のマルチドメインタンパク質中のドメインリンカー領域のいずれかの部位で、前記マルチドメインタンパク質を切断することにより生成するタンパク質断片を構造ドメインと予測する工程を含む、構造ドメインの予測方法を提供する。
図23は、本願の第21発明の一実施の形態による構造ドメイン予測方法のフローチャートである。ステップS1011〜S1016は図20のステップS1001〜S1006と同じである。ステップS1017では、S1016で予測したドメインリンカー領域のいずれかの部位で、マルチドメインタンパク質を切断して得られたタンパク質断片を構造ドメインと予測する。ステップS1018では、結果を出力する。結果の出力は、例えば、予測の対象となったアミノ酸配列、予測された構造ドメインの位置および大きさなどを表示する。
本願の第22発明は、本願の第21発明の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を製造する工程を含む、タンパク質の製造方法を提供する。タンパク質を製造するには、公知の方法、すなわち、化学的合成法、遺伝子工学的方法などのいずれの方法を用いてもよい。
本願の第23発明は、本願の第21発明の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を解析する工程を含む、タンパク質の解析方法を提供する。タンパク質断片の解析としては、X線結晶構造解析、NMRなどによるタンパク質立体構造解析の他、種々の生理活性の測定を例示することができる。
本願の第24発明は、i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域(linker sequence)及び非ドメインリンカーループ領域(non−linker loop sequence)を抽出する手段、およびii)各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Xaaの出現する確率PXaa L,PXaa N(ここで、PXaa L,PXaa Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Xaaの出現確率である)を求める手段
iii)下記の計算式によりアミノ酸残基Xaaの出現傾向パラメータSXaaを求める手段
SXaa=log(PXaa L/PXaa N)
(但し、PXaa LとPXaa Nの間に統計的有意差がない場合は、SXaa=0とする。)
を含む、アミノ酸残基の出現傾向パラメータ算出システムを提供する。
図24は、本願の第24発明の一実施の形態による任意のアミノ酸残基の出現傾向パラメータ算出システムの動作を説明するフローチャートである。ステップS1021〜S1025は図20のステップS1001〜S1005と同じである。ステップS1026では、SXaa=log(PXaa L/PXaa N)(但し、PXaa LとPXaa Nの間に統計的有意差がない場合は、SXaa=0とする)の計算式でアミノ酸残基Xaaの出現傾向パラメータSXaaを求める。ステップS1027では、ステップS1026で得られたアミノ酸残基Xaaの出現傾向パラメータSXaaの計算値を出力する。結果の出力は、例えば、各アミノ酸残基毎のSXaaの値などを表示する。ステップS1027は省略されてもよい。結果を次の処理(例えば、判別スコアの計算処理など)に利用する場合などには、ステップS1027は省略される。
本願の第24発明の任意のアミノ酸残基の出現傾向パラメータ算出システムは、図21に示したものと同様のコンピュータによって実現され、例えば、図25に示すドメインリンカー配列部分抽出部1031、非ドメインリンカーループ配列部分抽出部1032、PXaa L(PXaa N)算出部1033、PXaaYaa(m) L(PXaaYaa(m) N)算出部1034、およびSXaa算出部1035を備える。ドメインリンカー配列部分抽出部1031、非ドメインリンカーループ配列部分抽出部1032、PXaa L(PXaa N)算出部1033、およびPXaaYaa(m) L(PXaaYaa(m) N)算出部1034は、それぞれ、図22のドメインリンカー配列部分抽出部1021、非ドメインリンカーループ配列部分抽出部1022、PXaa L(PXaa N)算出部1023、およびPXaaYaa(m) L(PXaaYaa(m) N)算出部1024と同様である。SXaa算出部1035では、SXaa=log(PXaa L/PXaa N)(但し、PXaa LとPXaa Nの間に統計的有意差がない場合は、SXaa=0とする)の計算式でアミノ酸残基Xaaの出現傾向パラメータSXaaが求められる。
本願の第25発明は、コンピュータを、本願の第24発明のシステムとして機能させるためのプログラムを提供する。
本願の第26発明は、i)構造既知のマルチドメインタンパク質データベースからドメインリンカー領域(linker sequence)及び非ドメインリンカーループ領域(non−linker loop sequence)を抽出する手段、および
ii)各領域のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率PXaaYaa(m) L,PXaaYaa(m) N(ここで、PXaaYaa(m) L,PXaaYaa(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中でアミノ酸残基をm個あいだに置いてアミノ酸残基XaaとYaaが出現する(XaaとYaaの順序は問わない)確率である)を、mが0,1,2の場合ついてそれぞれ求める手段、
iii)下記の計算式によりアミノ酸残基対Xaa,Yaaの出現傾向パラメータSXaaYaa(m)を求める手段
(但し、PXaaYaa(m) LとPXaaYaa(m) Nの間に統計的有意差がない場合は、SXaa=0とする。)
を含む、アミノ酸残基対の出現傾向パラメータ算出システムを提供する。
図26は、本願の第26発明の一実施の形態によるアミノ酸残基対の出現傾向パラメータ算出システムの動作を説明するフローチャートである。ステップS1031〜S1035は図20のステップS1001〜S1005と同じである。ステップS1036では、SXaaYaa(m)=log(PXaaYaa(m) L/PXaaYaa(m) N)(但し、PXaaYaa(m) LとPXaaYaa(m) Nの間に統計的有意差がない場合は、SXaa=0とする)の計算式でアミノ酸残基対XaaとYaaの出現傾向パラメータSXaaYaa(m)を求める。ステップS1037では、ステップS1036で得られたアミノ酸残基対Xaa,Yaaの出現傾向パラメータSXaaYaa(m)の計算値を出力する。結果の出力は、例えば、各アミノ酸残基ペア毎のSXaaYaa(m)の値などを表示する。ステップS1037は省略されてもよい。結果を次の処理(例えば、判別スコアの計算処理など)に利用する場合などには、ステップS1037は省略される。
本願の第26発明の任意のアミノ酸残基対の出現傾向パラメータ算出システムは、図21に示したものと同様のコンピュータによって実現され、例えば、図27に示すドメインリンカー配列部分抽出部1041、非ドメインリンカーループ配列部分抽出部1042、PXaa L(PXaa N)算出部1043、PXaaYaa(m) L(PXaaYaa(m) N)算出部1044、およびS XaaYaa(m) 算出部1045を備える。ドメインリンカー配列部分抽出部1041、非ドメインリンカーループ配列部分抽出部1042、PXaa L(PXaa N)算出部1043、およびPXaaYaa(m) L(PXaaYaa(m) N)算出部1044は、それぞれ、図22のドメインリンカー配列部分抽出部1021、非ドメインリンカーループ配列部分抽出部1022、PXaa L(PXaa N)算出部1023、およびPXaaYaa(m) L(PXaaYaa(m) N)算出部1024と同様である。S XaaYaa(m) 算出部1045では、SXaaYaa(m)=log(PXaaYaa(m) L/PXaaYaa(m) N)(但し、PXaaYaa(m) LとPXaaYaa(m) Nの間に統計的有意差がない場合は、SXaa=0とする)の計算式でアミノ酸残基対Xaa,Yaaのの出現傾向パラメータSXaaYaa(m)が求められる。
本願の第27発明は、コンピュータを、本願の第26発明のシステムとして機能させるためのプログラムを提供する。
本願の第28発明は、アミノ酸残基数がL1個(L1は1以上21以下の整数)のアミノ酸配列についてリンカー度判別スコアF1を求めるシステムであって、
i)下記の計算式によりあるアミノ酸残基Akのリンカー傾向スコアF1sを求める手段、
(式中、SAk=log(PAk L/PAk N)
但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする。ここで、PAk L,PAk Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Akの出現確率である。)
ii)下記の計算式により任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基対AkとAk+(m+1)のリンカー傾向スコアF1pを求める手段、および
(式中、SAkAk+(m+1)(m)=log(PAkAk+(m+1)(m) L/PAkAk+(m+1)(m) N)、及び
但し、PAkAk+(m+1)(m) LとPAkAk+(m+1)(m) N、又はPAkAk−(m+1)(m) LとPAkAk−(m+1)(m) N間に統計的有意差がない場合は、SAkAk+(m+1)(m)=0、又はSAkAk−(m+1)(m)=0とする。
ここで、PAkAk+(m+1)(m) L,PAkAk+(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基AkとAk+(m+1)が出現する(AkとAk+(m+1)の順序は問わない)確率であり、PAkAk−(m+1)(m) L,PAkAk−(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基AkとAk−(m+1)が出現する(AkとAk−(m+1)の順序は問わない)確率である。)
iii)下記の計算式によりリンカー度判別スコアF1を求める手段
F1=F1s+α1F1p
(式中、0<α1 <1)
を含む、前記システムを提供する。
ドメインリンカー配列集合は、少なくとも1本のドメインリンカー配列を含むアミノ酸配列の集合であり、例えば、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分を抽出して得られたものなどを挙げることができる。
非ドメインリンカーループ配列集合は、少なくとも1本の非ドメインリンカーループ配列を含むアミノ酸配列の集合であり、例えば、構造既知のマルチドメインタンパク質データベースから非ドメインリンカーループ配列部分を抽出して得られたものなどを挙げることができる。
図28は、本願の第28発明の一実施の形態によるアミノ酸残基ペア傾向スコア算出システムの動作を説明するフローチャートである。
ステップS1041では、配列情報を入力する。入力する配列情報は、いかなる配列情報であってもよく、例えば、構造既知のマルチドメインタンパク質データベースからのアミノ酸配列情報、構造未知のタンパク質データベースからのアミノ酸配列情報、データベースには登録されていない新たに見出された配列情報などを挙げることができる。
ステップS1042では、下記の計算式で任意のアミノ酸残基の出現傾向スコアF1sを求める。
(式中、SAk=log(PAk L/PAk N)
(式中、PAk Lはドメインリンカー配列集合におけるアミノ酸残基Akの出現確率であり、PAk Nは非ドメインリンカーループ配列集合におけるアミノ酸残基Akの出現確率であり、但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする)
ステップS1043では、下記の計算式でアミノ酸残基対の出現傾向スコアF1pを求める。
(式中、SAkAk+(m+1)(m)=log(PAkAk+(m+1)(m) L/PAkAk+(m+1)(m) N)
(式中、PAkAk+(m+1)(m) Lは、ドメインリンカー配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基AkとAk+(m+1)が出現する(AkとAk+(m+1)の順序は問わない)確率であり、PAkAk+(m+1)(m) Nは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基AkとAk+(m+1)が出現する(AkとAk+(m+1)の順序は問わない)確率であり、但し、PAkAk+(m+1)(m) LとPAkAk+(m+1)(m) N間に統計的有意差がない場合は、SAkAk+(m+1)(m)=0とする)
(式中、SAkAk−(m+1)(m)=log(PAkAk−(m+1)(m) L/PAkAk−(m+1)(m) N)
(式中、PAkAk−(m+1)(m) Lは、ドメインリンカー配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基AkとAk−(m+1)が出現する(AkとAk−(m+1)の順序は問わない)確率であり、PAkAk−(m+1)(m) Nは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基AkとAk−(m+1)が出現する(AkとAk−(m+1)の順序は問わない)確率であり、但し、PAkAk−(m+1)(m) LとPAkAk−(m+1)(m) Nの間に統計的有意差がない場合は、SAkAk−(m+1)(m)=0とする)
ステップS1044では、下記の計算式で、残基数がL1個のアミノ酸配列についてリンカー度判別スコアF1を求める。
F1=F1s+α1F1p
(式中、0<α1 <1)
ステップS1045では、ステップS1044で得られたリンカー度判別スコアF1を出力する。結果の出力は、例えば、アミノ酸配列、各アミノ酸配列毎のF1の値などを表示する。ステップS1045は省略されてもよい。結果を次の処理(例えば、ドメインリンカーのデータベースの構築処理など)に利用する場合などには、ステップS1045は省略される。
本願の第28発明のリンカー度判別スコアF1sを求めるシステムは、図21に示したものと同様のコンピュータによって実現され、例えば、図29に示すF1s算出部1051、F1p算出部1052、およびF1算出部1053を備える。F1s算出部1051では、上記の計算式でアミノ酸残基の出現傾向スコアF1sが求められる。F1p算出部1052では、上記の計算式でアミノ酸残基対の出現傾向スコアF1pが求められる。F1算出部1053では、上記の計算式でリンカー度判別スコアF1が求められる。
本願の第29発明は、コンピュータを、本願の第28発明のシステムとして機能させるためのプログラムを提供する。
本願の第30発明は、アミノ酸残基数がL2(L2は22以上の整数)のアミノ酸配列において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求める方法であって、
i)下記の計算式によりあるアミノ酸残基Akのリンカー傾向スコアF11s(i)を求める工程、
(式中、Wはウィンドウ幅であって、W=2w+1、
SAk=log(PAk L/PAk N)
但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする。ここで、PAk L,PAk Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Akの出現確率である。)
ii)下記の計算式により任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基対AiとAi+(m+1)のリンカー傾向スコアF11p(i)を求める工程、および
(式中、SAiAi+(m+1)(m)=log(PAiAi+(m+1)(m) L/PAiAi+(m+1)(m) N)、及び
但し、PAiAi+(m+1)(m) LとPAiAi+(m+1)(m) Nの、又はPAiAi−(m+1)(m) LとPAiAi−(m+1)(m) Nの間に統計的有意差がない場合は、SAiAi+(m+1)(m)=0、又はSAiAi−(m+1)(m)=0とする。
ここで、PAiAi+(m+1)(m) L,PAiAi+(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi+(m+1)が出現する(AiとAi+(m+1)の順序は問わない)確率であり、PAiAi−(m+1)(m) L,PAiAi−(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi−(m+1)が出現する(AiとAi−(m+1)の順序は問わない)確率である。)
iii)下記の計算式により位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求める工程
F11(i)=F11s(i)+α11F11p(i)
(式中、0<α11 <1)
を含む、前記方法を提供する。
図53にウィンドウのとり方を示す。
ウィンドウ幅Wは、5〜21であるとよく、好ましくは9〜13である。
本願の第31発明は、アミノ酸残基数がL2(L2は22以上の整数)のアミノ酸配列において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求めるシステムであって、
i)下記の計算式によりあるアミノ酸残基Akのリンカー傾向スコアF11s(i)を求める手段、
(式中、Wはウィンドウ幅であって、W=2w+1、
SAk=log(PAk L/PAk N)
但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする。ここで、PAk L,PAk Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Akの出現確率である。)
ii)下記の計算式により任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基対AiとAi+(m+1)のリンカー傾向スコアF11p(i)を求める手段、および
(式中、SAiAi+(m+1)(m)=log(PAiAi+(m+1)(m) L/PAiAi+(m+1)(m)(..)N)、及び
但し、PAiAi+(m+1)(m) LとPAiAi+(m+1)(m) Nの、又はPAiAi−(m+1)(m) LとPAiAi−(m+1)(m) Nの間に統計的有意差がない場合は、SAiAi+(m+1)(m)=0、又はSAiAi−(m+1)(m)=0とする。
ここで、PAiAi+(m+1)(m) L,PAiAi+(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi+(m+1)が出現する(AiとAi+(m+1)の順序は問わない)確率であり、PAiAi−(m+1)(m) L,PAiAi−(m+1)(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基対AiとAi−(m+1)が出現する(AiとAi−(m+1)の順序は問わない)確率である。)
iii)下記の計算式により位置iのアミノ酸残基Aiについてリンカー度判別スコアF11(i)を求める手段
F11(i)=F11s(i)+α11F11p(i)
(式中、0<α11 <1)
を含む、前記システムを提供する。
図30は、本願の第30発明の一実施の形態によるリンカー度判別スコアF11(i)を求める方法ないしは本願の第31発明のリンカー度判別スコアF11(i)を求めるシステムの動作を説明するフローチャートである。
ステップS1061では、配列情報を入力する。入力する配列情報は、いかなる配列情報であってもよく、例えば、構造既知のマルチドメインタンパク質データベースからの配列情報、構造未知のタンパク質データベースからの配列情報、データベースには登録されていない新たに見出された配列情報などを挙げることができる。
ステップS1062では、下記の計算式で任意のアミノ酸残基の出現傾向スコアF11s(i)を求める。
(式中、Wはウィンドウ幅であって、W=2w+1、
SAk=log(PAk L/PAk N)
(式中、PAk Lはドメインリンカー配列集合におけるアミノ酸残基Akの出現確率であり、PAk Nは非ドメインリンカーループ配列集合におけるアミノ酸残基Akの出現確率であり、但し、PAk LとPAk Nの間に統計的有意差がない場合は、SAk=0とする)
ステップS1063では、下記の計算式で任意のアミノ酸残基対の出現傾向スコアF11p(i)を求める。
(式中、SAiAi+(m+1)(m)=log(PAiAi+(m+1)(m) L/PAiAi+(m+1)(m) N)
(式中、PAiAi+(m+1)(m) Lは、ドメインリンカー配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基AiとAi+(m+1)が出現する(AiとAi+(m+1)の順序は問わない)確率であり、PAiAi+(m+1)(m) Nは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基AiとAi+(m+1)が出現する(AiとAi+(m+1)の順序は問わない)確率であり、但し、PAiAi+(m+1)(m) LとPAiAi+(m+1)(m) Nの間に統計的有意差がない場合は、SAiAi+(m+1)(m)=0とする)
(式中、PAiAi−(m+1)(m) Lは、ドメインリンカー配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基AiとAi−(m+1)が出現する(AiとAi−(m+1)の順序は問わない)確率であり、PAiAi−(m+1)(m) Nは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基AiとAi−(m+1)が出現する(AiとAi−(m+1)の順序は問わない)確率であり、但し、PAiAi−(m+1)(m) LとPAiAi−(m+1)(m) Nの間に統計的有意差がない場合は、SAiAi−(m+1)(m)=0とする)
ステップS1064では、下記の計算式で、位置iのアミノ酸残基についてリンカー度判別スコアF11(i)を求める。
F11(i)=F11s(i)+α11F11p(i)
(式中、0<α11 <1)
ステップS1062〜S1064は、1以上L2以下の範囲にあるすべての位置iのアミノ酸残基Aiについて行われる。
ステップS1065では、ステップS1064で得られたリンカー度判別スコアF11(i)を出力する。結果の出力は、例えば、アミノ酸配列、位置iとそれに対応したF11(i)の値などを表示する。ステップS1065は省略されてもよい。結果を次の処理(例えば、ドメインリンカーの予測処理など)に利用する場合などには、ステップS1065は省略される。
本願の第31発明のリンカー度判別スコアF11(i)を求めるシステムは、図21に示したものと同様のコンピュータによって実現され、例えば、図31に示すF11s(i)算出部1071、F11p(i)算出部1072、およびF11(i)算出部1073を備える。F11s(i)算出部1071、F11p(i)算出部1072、およびF11(i)算出部1073では、それぞれ、上記の計算式で、F11s(i)、F11p(i)、およびリンカー度判別スコアF11(i)が求められる。
本願の第32発明は、コンピュータを、本願の第31発明のシステムとして機能させるためのプログラムを提供する。
本願の第33発明は、n(nは1以上の整数)本の相同配列seq.1〜seq.nが存在することが知られているアミノ酸残基数がL2個(L2は22以上の整数)のアミノ酸配列seq.0において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求める方法であって、
i)seq.0とseq.1〜seq.nをアライメントし、seq.0中の位置iにあるアミノ酸残基Ai0に対応するseq.k(kは1以上n以下の整数)中のアミノ酸残基Ai kを同定する工程、
ii)位置iのアミノ酸残基Aiについて、下記の計算式でパラメータS’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)を求める工程、
(式中、ngap1はAi k中に出現するギャップの数、
SAik=log(PAikL/PAikN)
但し、PAikLとPAikNの間に統計的有意差がない場合は、SAik=0とする。
ここで、PAikL,PAikNは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Ai kの出現確率である。
また、式中、ngap2はAi kまたはAi+(m+1) k中に出現するギャップの数、
但し、PAikAi+(m+1)k(m) LとPAikAi+(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi+(m+1)k(m)=0とする。
ここで、PAikAi+(m+1)k(m) L,PAikAi+(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi+(m+1) kが出現する(Ai kとAi+(m+1) kの順序は問わない)確率である。
更に、式中、ngap3はAi kまたはAi−(m+1) k中に出現するギャップの数、
但し、PAikAi−(m+1)k(m) LとPAikAi−(m+1)k(m
) Nの間に統計的有意差がない場合は、SAikAi−(m+1)k(m)=0とする。
ここで、PAikAi−(m+1)k(m) L,PAikAi−(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi−(m+1) kが出現する(Ai kとAi−(m+1) kの順序は問わない)確率である。)
iii)下記の計算式によりあるアミノ酸残基のリンカー傾向スコアF12s(i)を求める工程、
iv)下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアF12p(i)を求める工程、および
F12p(i)
v)下記の計算式で、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求める工程
F12(i)=F12s(i)+α12F12p(i)
(式中、0<α12 <1)
を含む、前記方法を提供する。
図54に、アライメントしたseq.0とseq.1〜seq.nの配列及びウィンドウのとり方を示す。
本願の第34発明は、n(nは1以上の整数)本の相同配列seq.1〜seq.nが存在することが知られているアミノ酸残基数がL2個(L2は22以上の整数)のアミノ酸配列seq.0において、位置i(iは1以上L2以下の整数)のアミノ酸残基の前後にアミノ酸残基数w個のウィンドウをとって、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求めるシステムであって、
i)seq.0とseq.1〜seq.nをアライメントし、seq.0中の位置iにあるアミノ酸残基Ai0に対応するseq.k(kは1以上n以下の整数)中のアミノ酸残基Ai kを同定する手段、
ii)位置iのアミノ酸残基Aiについて、下記の計算式でパラメータS’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)を求める手段、
(式中、ngap1はAi k中に出現するギャップの数、
SAik=log(PAikL/PAikN)
但し、PaikLとPAikNの間に統計的有意差がない場合は、SAik=0とする。
ここで、PAikL,PAikNは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中のアミノ酸残基Ai kの出現確率である。
また、式中、ngap2はAi kまたはAi+(m+1) k中に出現するギャップの数、
但し、PAikAi+(m+1)k(m) LとPAikAi+(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi+(m+1)k(m)=0とする。
ここで、PAikAi+(m+1)k(m) L,PAikAi+(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi+(m+1) kが出現する(Ai kとAi+(m+1) kの順序は問わない)確率である。
更に、式中、ngap3はAi kまたはAi−(m+1) k中に出現するギャップの数、
但し、PAikAi−(m+1)k(m) LとPAikAi−(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi−(m+1)k(m)=0とする。
ここで、PAikAi−(m+1)k(m) L,PAikAi−(m+1)k(m) Nは、それぞれドメインリンカー配列,非ドメインリンカーループ配列中の任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いたアミノ酸残基Ai kとAi−(m+1) kが出現する(Ai kとAi−(m+1) kの順序は問わない)確率である。)
iii)下記の計算式によりあるアミノ酸残基のリンカー傾向スコアF12s(i)を求める手段、
iv)下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアF12p(i)を求める手段、および
F12p(i)
v)下記の計算式で、位置iのアミノ酸残基Aiについてリンカー度判別スコアF12(i)を求める手段
F12(i)=F12s(i)+α12F12p(i)
(式中、0<α12 <1)
を含む、前記システムを提供する。
図32は、本願の第33発明の一実施の形態によるリンカー度判別スコアF12(i)を求める方法ないしは本願の第34発明のリンカー度判別スコアF12(i)を求めるシステムの動作を説明するフローチャートである。
ステップS1071では、配列情報を入力する。入力する配列情報は、いかなる配列情報であってもよく、例えば、構造既知のマルチドメインタンパク質データベースからの配列情報、構造未知のタンパク質データベースからの配列情報、データベースには登録されていない新たに見出された配列情報などを挙げることができる。
ステップS1072では、seq.0とseq.1〜seq.nをアライメントし、seq.0中の位置iにあるアミノ酸残基Ai0に対応するseq.k(kは1以上n以下の整数)中のアミノ酸残基Ai kを同定する。
ステップS1073では、位置iのアミノ酸残基Aiについて、下記の計算式でパラメータS’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)を求める。
(式中、ngap1はAi k中に出現するギャップの数、
SAik=log(PAikL/PAikN)
(式中、PAikLはドメインリンカー配列集合におけるアミノ酸残基Ai kの出現確率であり、PAikNは非ドメインリンカーループ配列集合におけるアミノ酸残基Ai kの出現確率であり、但し、PAikLとPAikNの間に統計的有意差がない場合は、SAik=0とする)
(式中、ngap2はAi kまたはAi+(m+1) k中に出現するギャップの数、
(式中、PAikAi+(m+1)k(m) Lは、ドメインリンカー配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基Ai kとAi+(m+1) kが出現する(Ai kとAi+(m+1) kの順序は問わない)確率であり、PAikAi+(m+1)k(m) Nは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基Ai kとAi+(m+1) kが出現する(Ai kとAi+(m+1) kの順序は問わない)確率であり、但し、PAikAi+(m+1)k(m) LとPAikAi+(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi+(m+1)k(m)=0とする)、
(式中、ngap3はAi kまたはAi−(m+1) k中に出現するギャップの数、
(式中、PAikAi−(m+1)k(m) Lは、ドメインリンカー配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基Ai kとAi−(m+1) kが出現する(Ai kとAi−(m+1) kの順序は問わない)確率であり、PAikAi−(m+1)k(m) Nは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をm個(mは整数、m=0,1,2)あいだに置いてアミノ酸残基Ai kとAi−(m+1) kが出現する(Ai kとAi−(m+1) kの順序は問わない)確率であり、但し、PAikAi−(m+1)k(m) LとPAikAi−(m+1)k(m) Nの間に統計的有意差がない場合は、SAikAi−(m+1)k(m)=0とする)
ステップS1074では、下記の計算式で単一アミノ酸残基傾向スコアF12s(i)を求める。
ステップS1075では、下記の計算式でアミノ酸残基対の出現傾向スコアF12p(i)を求める。
ステップS1076では、下記の計算式で、位置iのアミノ酸残基についてリンカー度判別スコアF12(i)を求める。
F12(i)=F12s(i)+α12F12p(i)
(式中、0<α12 <1)
ステップS1072〜S1076は、1以上L2以下の範囲にあるすべての位置iのアミノ酸残基Aiについて行われる。
ステップS1077では、ステップS1076で得られたリンカー度判別スコアF12(i)を出力する。結果の出力は、例えば、アミノ酸配列、位置iとそれに対応したF12(i)などを表示する。ステップS1077は省略されてもよい。結果を次の処理(例えば、ドメインリンカーの予測処理など)に利用する場合などには、ステップS1077は省略される。
本願の第34発明のリンカー度判別スコアF12(i)を求めるシステムは、図21に示したものと同様のコンピュータによって実現され、例えば、図33に示すAi k同定部1081、S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部1082、F12s(i)算出部1083、F12p(i)算出部1084、およびF12(i)算出部1085を備える。Ai k同定部1081では、seq.0とseq.1〜seq.nがアライメントされ、seq.0中の位置iにあるアミノ酸残基Ai0に対応するseq.k(kは1以上n以下の整数)中のアミノ酸残基Ai kが同定される。S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部1082では、位置iのアミノ酸残基Aiについて、上記の計算式でパラメータS’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)が求められる。F12s(i)算出部1083、F12p(i)算出部1084、およびF12(i)算出部1085では、それぞれ、上記の計算式で、F12s(i)、F12p(i)、およびF12(i)が求められる。
本願の第35発明は、コンピュータを、本願の第34発明のシステムとして機能させるためのプログラムを提供する。
本願の第36発明は、ドメインリンカー部位を予測する方法であって、
i)本願の第30または33発明の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)工程、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める工程、および
iv)iii)の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する工程
を含む、ドメインリンカー部位の予測方法を提供する。
図54に、ドメインリンカー部位の予測方法の概略を示す。図中、query配列とはseq.0のアミノ酸配列であり、F(i)はリンカー度判別スコア(例えば、上記のF1,F2(i)、F11(i)、F12(i)など)である。
二次構造予測は、DSC(R.D.King,M.J.E.Sternberg(1996)による)などのプログラムを用いて行うことができる。
本願の第37発明は、ドメインリンカー部位を予測するシステムであって、
i)本願の第30または33発明の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)手段、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める手段、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める手段、および
iv)iii)の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する手段
を含む、前記システムを提供する。
図34は、本願の第36発明の一実施の形態によるドメインリンカー部位の予測方法ないしは本願の第37発明の一実施の形態によるドメインリンカー部位の予測システムの動作を説明するフローチャートである。
ステップS1081〜S1084は、それぞれ、図30のステップS1061〜S1064と同様である。ステップS1085では、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める。ステップS1086では、二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める。ステップS1087では、ステップS1086で求められた各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する。ステップS1077では、結果を出力する。結果の出力は、例えば、予測の対象となった配列、予測されたドメインリンカー領域の位置,長さ及び優先順位などを表示する。
図34に示す本願の第37発明のドメインリンカー部位の予測システムの一実施態様は、図21に示したものと同様のコンピュータによって実現され、例えば、図35に示すF11s(i)算出部1091、F11p(i)算出部1092、F11(i)算出部1093、二次構造予測部1094、領域探索部1095、およびドメインリンカー存在位置予測部1096を備える。F11s(i)算出部1091、F11p(i)算出部1092、およびF11(i)算出部1093は、それぞれ、図31のF11s(i)算出部1071、F11p(i)算出部1072、およびF11(i)算出部1073と同様である。二次構造予測部1094では、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、二次構造予測が行われ、ループ構造をとると予測される領域が求められる。領域探索部1095では、二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域が求められる。ドメインリンカー存在位置予測部1096では、領域探索部1095で求められた各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測される。
図36は、本願の第36発明の別の一実施の形態によるドメインリンカー部位の予測方法ないしは本願の第37発明の別の一実施の形態によるドメインリンカー部位の予測システムの動作を説明するフローチャートである。
ステップS1091〜S1096は、それぞれ、図32のステップS1071〜S1076と同様である。ステップS1097〜S1100は、それぞれ、図34のステップS1085〜S1088と同様である。
図36に示す本願の第37発明のドメインリンカー部位の予測システムの別の一実施態様は、図21に示したものと同様のコンピュータによって実現され、例えば、図37に示すAik同定部1101、S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部1102、F12s(i)算出部1103、F12p(i)算出部1104、F12(i)算出部1105、二次構造予測部1106、領域探索部1107、およびドメインリンカー存在位置予測部1108を備える。Aik同定部1101、S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部1102、F12s(i)算出部1103、F12p(i)算出部1104、およびF12(i)算出部1105は、それぞれ、図33のAi k同定部1081、S’Ai、S’AiAi+(m+1)、(m)およびS’AiAi−(m+1)(m)算出部1082、F12s(i)算出部1083、F12p(i)算出部1084、およびF12(i)算出部1085と同様である。二次構造予測部1106、領域探索部1107、およびドメインリンカー存在位置予測部1108は、それぞれ、図35の二次構造予測部1094、領域探索部1095、およびドメインリンカー存在位置予測部1096と同様である。
本願の第38発明は、コンピュータを、本願の第37発明のシステムとして機能させるためのプログラムを提供する。
本願の第39発明は、アミノ酸配列データベースを構築する方法であって、
i)本願の第30または33発明の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)工程、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める工程、
iv)iii)で求めた領域の中で、リンカー度判別スコアの極大値が下限値より大きいものを選択する工程、および
v)iv)で選択した領域のアミノ酸配列を記録媒体に記録する工程
を含む、前記方法を提供する。
iv)の工程における下限値は、0以上のいずれかの値であるとよく、好ましくは0.0〜1.0のいずれかの値である。
v)の工程において、iv)で選択した領域のアミノ酸配列を記録する記録媒体としては、磁気テープ、カセットテープ、フレキシブルディスク、ハードディスク、CD−ROM、MO/MD/DVD等、又は半導体メモリを例示することができる。
本願の第40発明は、i)本願の第30または33発明の方法に従い、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列における、位置iのアミノ酸残基Aiについてリンカー度判別スコアを求める(但し、前記アミノ酸配列のN及びC末端の0〜50残基についてはリンカー度判別スコアを求めなくてもよい)工程、
ii)前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
iii)二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが0より大きい領域を求める工程、および
iv)iii)で求めた領域の中で、リンカー度判別スコアの極大値が下限値より大きいものを選択する工程
を含む方法により得られた、リンカー度判別スコアの極大値が下限値より大きい領域のアミノ酸配列と同じアミノ酸配列からなるドメインリンカーペプチドを提供する。
本願の第41発明は、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、本願の第36発明の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する工程を含む、構造ドメインの予測方法を提供する。本願の第41発明の方法において、ドメインリンカー部位をn個予測した場合に、そのうちのt個(tは1以上n以下の整数)を選択し、その位置でアミノ酸配列を切断するパターンを全て考慮し、得られる全ての配列断片を構造ドメインと予測してもよい。
本願の第42発明は、構造ドメインを予測するシステム(以下、「構造ドメイン予測システム」という)であって、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、本願の第36発明の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前期アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する手段を含む、前記システムを提供する。
構造ドメインは、マルチドメインタンパク質中に存在するものであってもよい。
図38は、本願の第42発明の一実施の形態による構造ドメイン予測システムの動作を説明するフローチャートである。
ステップS1201〜S1207は、それぞれ、図34のステップS1081〜S1087と同様である。ステップS1208では、ステップS1207で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列を切断することにより生成した配列断片を構造ドメインと予測する。ステップS1209では、結果を出力する。結果の出力は、例えば、予測の対象となった配列、予測された構造ドメインの位置および大きさなどを表示する。
図38に示す本願の第42発明の構造ドメイン予測システムの一実施態様は、図21に示したものと同様のコンピュータによって実現され、例えば、図39に示すF11s(i)算出部1201、F11p(i)算出部1202、F11(i)算出部1203、二次構造予測部1204、領域探索部1205、ドメインリンカー存在位置予測部1206、および構造ドメイン予測部1207を備える。F11s(i)算出部1201、F11p(i)算出部1202、F11(i)算出部1203、二次構造予測部1204、領域探索部1205、およびドメインリンカー存在位置予測部1206は、それぞれ、図35のF11s(i)算出部1091、F11p(i)算出部1092、F11(i)算出部1093は、二次構造予測部1094、および領域探索部1095と同様である。構造ドメイン予測部1207では、ドメインリンカー存在位置予測部1206で予測されたドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列を切断することにより生成した配列断片が構造ドメインと予測される。
図40は、本願の第42発明の別の一実施の形態による構造ドメイン予測システムの動作を説明するフローチャートである。
ステップS1301〜S1309は、それぞれ、図36のステップS1091〜S1099と同様である。ステップS1310〜S1311は、それぞれ、図38のステップS1208〜S1209と同様である。
図40に示す本願の第42発明の構造ドメイン予測システムの別の一実施態様は、図21に示したものと同様のコンピュータによって実現され、例えば、図41に示すAi k同定部1301、S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部1302、F12s(i)算出部1303、F12p(i)算出部1304、F12(i)算出部1305、二次構造予測部1306、領域探索部1307、ドメインリンカー存在位置予測部1308、および構造ドメイン予測部1309を備える。Ai k同定部1301、S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部1302、F12s(i)算出部1303、F12p(i)算出部1304、F12(i)算出部1305、二次構造予測部1306、領域探索部1307、およびドメインリンカー存在位置予測部1308は、それぞれ、図37のAik同定部1101、S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部1102、F12s(i)算出部1103、F12p(i)算出部1104、F12(i)算出部1105、二次構造予測部1106、領域探索部1107、およびドメインリンカー存在位置予測部1108と同様である。構造ドメイン予測部1309は、図39の構造ドメイン予測部1207と同様である。
本願の第43発明は、コンピュータを、本願の第42発明のシステムとして機能させるためのプログラムを提供する。
本願の第44発明は、アミノ酸配列データベースを構築する方法であって、アミノ酸残基数がL2(L2は22以上の整数)個のアミノ酸配列について、本願の第36発明の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片のアミノ酸配列を記録媒体に記録する工程を含む、前記方法を提供する。
本願の第45発明は、本願の第41発明の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を製造する工程を含む、タンパク質の製造方法を提供する。
本願の第46発明は、本願の第41発明の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を解析する工程を含む、タンパク質の解析方法を提供する。
本願の第47発明は、本願の第40発明のドメインリンカーペプチドで、少なくとも2つタンパク質断片をつなげることにより生じる、新たなマルチドメインタンパク質を設計し、このマルチドメインタンパク質を製造することを含む、タンパク質の製造方法を提供する。
以上のように、本発明は、第1〜17発明のように、ニューラルネットワークを用いた第1の方法と第18〜47発明のように、アミノ酸の出現頻度による統計処理を用いた第2の方法から成るものであるが、これらの手法はリンカーの識別において相補的に使用されることが望ましい。即ち、ある予測候補領域に対して第1の方法では正しい予測結果が得られなかった場合でも、第2の方法を用いれば、正答を導き出すことが可能なケースがあり、同様にその逆のケースも存在する。また、両者の結果を照合することで、より信頼性の高いリンカー同定を行うこともできる。いずれにしても、種々の予測候補に対してこれらの方法を組み合わせることにより、約65%の確率で、タンパク質中のドメインリンカー領域を正しく同定することができる。
以下、本発明を実施例によって具体的に説明する。なお、これらの実施例は、本発明を説明するためのものであって、本発明の範囲を限定するものではない。
〔実施例1〕ニューラルネットワークによるドメインリンカー配列の特徴づけと予測
結果
(a)ドメインリンカーの配列解析
最初に、ドメインリンカー中に局所的な配列の特徴があるかどうか、また、これらをニューラルネットワークにより抽出できるかどうかを調べた。マルチドメインタンパク質に由来するセグメントを、その真中のアミノ酸残基がドメインリンカーに含まれるか否かによって“リンカー配列”と“ノンリンカー配列”に分類した(材料と方法の項参照)。このように分類された配列をニューラルネットワークの学習に用いた。
学習条件の最適化
ここでは、ニューラルネットワークが効率的にトレーニングされるような条件を検討し、最大の学習効果を得るためにウィンドウの大きさ(表2a)とhidden unitsの数(表2b)の最適化を行った。
ウィンドウの大きさの効果は、リンカーとノンリンカーの分類が正しく行われた回数と誤った回数の割合により評価した。表2aの結果は、ノンリンカー配列の正解率はウィンドウの大きさが大きくなるに従ってわずかながら低下する一方、リンカー配列の正解率はウィンドウサイズ19まで上昇した後、徐々に低下することを示している。このことは、ドメインリンカーの同定に必要な配列の特徴の大部分は、19アミノ酸残基の中に含まれていることを示す。一方、リンカー配列の正解率の低下は、ノンリンカー配列の正解率の低下同様に、19よりも大きなウィンドウサイズで見られた。この低下は配列の特徴の総計には関係しない。これは、ウィンドウサイズが一旦、配列の特徴すべてを含むのに十分な大きさになると、正解率は一定になるが、低下はしなくなるからである。我々は、この低下はより大きなウィンドウサイズに持ち込まれたパラメータの数が増えたことによるものであり、そのため限られたサイズのデータセットは、ニューラルネットワークがより大きなウィンドウサイズで最適な状態で作動することの妨げになる、と仮定した。ここでは、最適な条件として19アミノ酸残基のウィンドウサイズを採用した。
我々はさらに、hidden unitsの数の効果について調べた(表2b)。原理的には、いかなるhidden unitsもない場合のニューラルネットワークは各アミノ酸のドメインリンカーに対する独立した寄与しか検出できない(first order features)。hidden unitsが加わることにより、ニューラルネットワークは、例えばアミノ酸のペアとドメインリンカーとの関係のようなより高次の特徴を抽出する能力が高まる(Qian & Sejnowski,1988)。しかしながら我々の研究においては、hidden unitsの数の増加は学習効率を著しく向上させなかった(表2b)。ここで学習効率が向上しなかったことの簡単な説明は、リンカー配列中により高次の特徴が存在しないから、というものであろう。しかし、ウィンドウサイズについて観察したことと同じように、学習効率はデータサイズの減少およびパラメータ数が多すぎることに影響されるかもしれない。計算の時間や多くのパラメータを導入しても効果が無いということを考慮して、我々はhidden unitsの数を0または2としたニューラルネットワークを使用することにした(ゼロは2層のネットワークを意味する)。
学習におけるデータセットの大きさの効果
データセットの大きさが学習効率にどのような影響を与えるかを評価するため、我々はトレーニングデータセットの大きさに正解率が依存しているかどうかを調べた。リンカー配列の分類の正解率は、現行のデータセットが大きくなっても横ばいにならなかったので(表2c)、より多くのデータが利用可能になれば学習効率が向上するものと期待される。言い方を変えれば、ここで用いたデータセットは、ドメインリンカーの特徴を十分に抽出するには不足である。しかし、これらの制限にもかかわらず、検出可能なドメインリンカーの配列の特徴は以下に述べるように、ニューラルネットワークを用いて抽出することができた。
リンカー配列とノンリンカー配列の識別
リンカーとノンリンカーとを識別するニューラルネットワークの能力は、これらのニューラルネットワークの出力値の分布によって調べられる(図1)。我々はリンカー配列とノンリンカー配列の出力値を計算して、19残基のスムージングウィンドウにわたってこれらの値を平均した。リンカー配列についての出力値の分布は、いくらかのオーバーラップはあるものの、明らかにノンリンカー配列の出力値の分布と異なっていた(それぞれ図1の白、黒の棒グラフ)。さらに、同様の分布の違いがリンカー配列とドメイン内ループの間にさえも観察された(図1の白、灰色の棒グラフ)。リンカー配列の出力値はより高くなる傾向があり(出力値が0.4以上に分布するものがリンカー配列全体の60.3%になる)、一方、ノンリンカー配列やドメイン内ループの場合はより低い値となる(出力値が0.2以下のものがそれぞれ59.1%、53.3%になる)。
ドメインリンカー配列の特徴づけ
2層のニューラルネットワークにより抽出された配列上の特徴はヒントンダイアグラムにより視覚化することができる(Rumelhart et al.,1986)(図2)。2層のネットワークの場合、それぞれのウェイトパラメータ値は、相当するアミノ酸残基の、リンカー配列とノンリンカー配列との違いに対する寄与(アミノ酸の種類とウィンドウ中の位置)として説明される。我々はこれらのウェイトパラメータと、それぞれの位置におけるアミノ酸の出現頻度の間に高い相関関係があることを観察した(データは示さない)。ヒントンダイアグラムは、プロリンが強力な決定アミノ酸残基であることを明らかに示している。このことはアミノ酸組成解析の結果(プロリンの出現頻度はドメインリンカー中で13.9%、データ全体で5.3%)に一致している。しかしながら、ドメインリンカー中の含量とデータセット全体の含量がほぼ等しい他の残基についても、位置に依存した特徴が観察されている。例えば、ヒスチジン残基はC末端では明らかにネガティブな分布を示すが、この位置はドメインリンカーのC末端すなわちこれに続くドメインのN末端に相当する。メチオニン、イソロイシン、チロシン、トリプトファンもまたネガティブな分布を示す。一般的に疎水性アミノ酸はネガティブな寄与を示す傾向がある一方、親水性アミノ酸はポジティブに寄与する。これらの結果は、平均化されたアミノ酸組成値からはわからない配列の特徴を、ニューラルネットワークで効率的に抽出できることを強調するものである。
プロリンリッチセグメント
アミノ酸組成とヒントンダイアグラムの両者で観察されたように、ドメインリンカーにはプロリンが高頻度に出現するという特徴がある(ドメインリンカー中の平均的なプロリン残基数は1.65)。しかし、幾つかのドメイン内配列もまた、局所的にプロリンの含量の高い部分がある。そこで我々は、リンカー配列とノンリンカー配列との違いはその他のアミノ酸の含量にあると推測した。我々は9残基中に少なくとも3つのプロリンを含む短いセグメント(プロリンリッチセグメント)の特徴について調べた。プロリンリッチセグメントの大部分はドメイン内領域に属しており(ドメインリンカー中26に対してドメイン内領域中50)、これらの大部分がドメイン内ループ領域にオーバーラップしていた。図2b、図2cはそれぞれ、ドメインリンカーとドメイン内領域に相当するすべてのプロリンリッチセグメントを、これらの両端に隣接する9残基の配列と共に示している。興味深いことに、プロリンリッチセグメントとその隣接する配列でドメインリンカーであるものは、ヒスチジンをほとんど含まない(図2b)。一方、ドメイン内に位置する配列には、比較的高頻度にヒスチジンが出現する(図2c)。例えば、前者の配列にはヒスチジンが5残基しか見られないのに対して、後者では38観察されている。さらにドメイン内領域に属する配列のC末端には多くのヒスチジンが位置している(N末端側の半分には13であるのに対し、C末端側の半分には25)。これらの証拠はヒントンダイアグラムに見られた特徴を確証し、また、ヒスチジンがドメインリンカーとドメイン内ループ領域を識別する際に重要な手がかりになることを示している。
(b)蛋白質の配列中のドメインリンカーの予測
この章においては、蛋白質のアミノ酸配列中からドメインリンカーを予測するニューラルネットワークの能力について検討する。最初に、ウィンドウサイズ19、hidden units2で学習させたニューラルネットワークを用い、調べようとする蛋白質について出力値を計算した。ニューラルネットワークの出力を予測に転換するために、以下の3つのパラメータを導入した:(1)スムージングウィンドウのサイズ:あるウィンドウサイズの大きさを決め、このサイズを超えた出力値を除く(smooth)。(2)カットオフ値:smoothにされた出力値からピークを選択する。(3)threshold(閾値):ピーク周辺のリンカーの開始位置、終止位置を決定する。
予測の効率
予測の効率は2つの値を測定することによって評価した。ひとつはSCOP由来ドメインリンカーに正しくassginされた予測領域が、すべての予測領域のどれぐらいの割合をしめすかというパーセンテージである(specificity:特異性)(予測した領域のうち、もともとドメインリンカーとしてSCOPに定められていたものと一致したものがどれぐらいあったか)。もうひとつは、ニューラルネットワークが正しく予測したSCOP由来ドメインが、すべてのSCOP由来ドメインリンカーのどのぐらいの割合を占めるかである(sensitivity:感度)。われわれは二つの予測パラメータ、スムージングウィンドウのサイズとカットオフ値を変化させることにより、特異性と感度を調べた。スムージングウィンドウのサイズを19、カットオフ値を0.5に固定した場合に、最も良い予測ができた。これらの条件下で、予測の特異性は58.8%であり、予測の感度は35.6%であった(図3a,b)。
次に我々はカットオフ値と閾値のパラメータが予測効率にどのような影響を与えるかについて調べた(表3)。カットオフ値を増加させるにつれ、特異性は増加し、感度は減少した(図3a,b)。このようにカットオフ値パラメータは予測の特異性と感度のトレードオフをコントロールする。一方、閾値を減少させた場合、特異性、感度ともに増加する。このことは候補領域のアサインメントにおけるallowanceによって説明されるであろう。これは閾値のパラメータによってコントロールされる;閾値が低い場合、予測されたリンカーの長さは閾値が高い場合に比べて長くなるであろう。これらの結果は、カットオフ値と閾値は、特異性と感度のバランスが所望されるものになるように、また候補領域のアサインメントにおけるallowanceが所望のものになるように選択されるべきことを示している。以下の予測においては、カットオフ値と閾値ともに0.5という値を使用した。
リンカーのランク付け
材料と方法の項で述べるように、我々は予測した候補リンカーを、その最大のsmoothにした出力値にしたがってランク付けした。正しく予測された候補リンカーは優先的に第1ランクとされ(正しく予測された候補リンカーすべての63.8%が第1ランクに入った)、より低いランクに入れられることは、稀であった(図4の黒い棒グラフ)。さらに、より低いランクに入った候補領域は、多くの場合、予測が誤っていたものであった(図4の白い棒グラフ)。これらの結果は我々のランク付けと実際のドメインリンカーのentityとの相関を支持するもので、第1ランクに入った配列の選択が予測の特異性を上昇させうることを示している。
他の方法との比較
ニューラルネットワークのドメインリンカー予測能力を評価するために、他の予測方法との比較を行なった。ドメインリンカーの標準的な予測法は、いまだ確立していないため、二次構造予測を用いる簡単な方法と我々の方法を比較した。ここでは、我々の方法はドメインリンカーは長いループ領域である、という直感的な仮定に基づいたものとし、予測された長さに従ってそれらのドメインリンカーの性質をランク付けした。DSCまたはPHDに由来する予測の特異性と感度はいずれも、ニューラルネットワークにより得られたそれぞれの値よりも少なくとも10%は低かった。さらに、予測されたループの長さと、ドメインリンカーの性質の関係がほとんど無かった(図3c)。図1に示したデータと共に、これらの結果は、ドメインリンカーはドメイン内ループ領域と異なる性質を有すること、また、これらの性質はニューラルネットワークにより見分けられることを示している。
ドメインリンカー予測の例
図5a,bにニューラルネットワークにより正しく予測された例を示す。ニューラルネットワークはコラゲナーゼ(1fbl)中の一つのリンカーを予測した。これはSCOP由来ドメインリンカーに正しくアサインされていた。セリンtRNA合成酵素(1sesA)、エンド/エキソ−セルラーゼE4の触媒ドメインおよびセルロース結合ドメイン(1tf4B)については真のドメインリンカー(true positive)に加え、偽のドメインリンカー(false positive)が予測されたが、第1ランクに入ったリンカーのみを選択する場合はfalse positiveは排除した(図5b、c)。ピルビン酸脱炭酸酵素(1pvdA)は3つのドメインを有し、これらのドメインを区切っているリンカーは第1、第2ランクのリンカーから予測された。実際、アミノ酸残基の位置183から193(specified in PDB)まで伸びている領域(図5では174−202に相当)は、もともとドメインリンカーとされていなかった。なぜならば、SCOPに定義されたドメイン境界は3−10のヘリックス領域の中央に位置していたからである。それにもかかわらず、ニューラルネットワークはこのセグメントをリンカーであると同定した。
図3bに見られるように、観察されたドメインリンカーの幾つかはニューラルネットワークにより正しく予測されなかった。キチナーゼA(1ctm)は予測がうまくいかなかった一例である。この場合、SCOP由来ドメインリンカーに相当する真のシグナルに比べて偽のシグナルが優勢であった(図6)。幾つかの短いドメインリンカーについては、ニューラルネットワークの出力は弱いシグナルを出すか、あるいはまったくシグナルを出さない。
考察
実際のタンパク質においては、ドメインリンカーの大きさや構造は多種多様であるため、ドメインリンカーの定義は必ずしも一つとは限らない。例えば、我々の定義に加え、視覚的な図形に基づくもの、ドメインの動きに基づくものもありうる。それゆえに、ドメインリンカーを異なるタイプに分類することは、リンカー配列の包括的な性格付けを行なうのに有用であろう。しかし、我々の研究においてはデータセットのサイズが小さかったため、詳細なリンカーのタイプの解析を行なわなかった。その代わりに、限定されたドメインリンカーの定義(構造的に独立し、自動的にフォールドすると考えられるドメインに隣接したループ領域である)を採用した。ドメインリンカーについてのこの狭い定義はデータセット中の配列のパターンを限定することにより、ニューラルネットワークによるリンカーの特徴の認識には適していたようである。しかし、表2cから期待されるように、将来、マルチドメインタンパク質の構造的なデータが増えてゆくと、データセットのサイズが大きくなり、より多くの種類のドメインリンカー配列についてより詳細な解析ができるようになろう。
ドメインリンカー中の配列のパターンはヒントンダイアグラムに示唆される(図2a)。ニューラルネットワークの学習過程において、学習に用いたすべてのリンカー配列について配列の特徴は平均化される。その結果、個々のドメインリンカーに特異的な配列は必然的に不鮮明になり、ヒントンダイアグラムには現れなくなるだろう。それにもかかわらず、我々はプロリン、ヒスチジンその他幾つかのアミノ酸については特徴的な出現パターンを見出した。このことはドメインリンカーの配列は共通した局所的な特徴を有することを示している。アミノ酸組成がドメインリンカーと他の領域を見分けるような特徴を制限しているということを考慮すると、この結果は驚くべきものである。実際、我々のニューラルネットワークで検出された配列の局所的な特徴は、ウィンドウ中の各々のアミノ酸残基の位置における出現頻度と高度な相関関係を有していた。全体として、これらの発見はドメインリンカー配列はアミノ酸の含量のみならず、その配列中の出現のパターンによっても特徴付けられることを強く示唆している。
ヒントンダイアグラムは、ヒスチジン残基はプロリン残基同様、ドメインリンカーを他の領域と識別する上で必須であることを示している(図2a)。プロリンリッチセグメントの配列解析は、ドメインリンカーと他の領域、特にドメイン内ループとの間のヒスチジンの出現頻度における違いを説明している(図2b、c)。我々の予測が成功したのは、部分的にはニューラルネットワークによるヒスチジン残基の認識によるものと思われる。図2b、2cにおいて、プロリンリッチセグメントはプロリン含量が高いため、一般的にはより高いニューラルネットワークの出力値を示す。しかし、ヒスチジンを含むプロリンリッチセグメントはより低い出力値を示す傾向があり、ヒスチジン含量とニューラルネットワークの出力値の間には強い相関がある(2b、2c)。他の例を見れば、1fblの配列は二つのプロリンリッチセグメントを含む(164−198、PDBにおける残基の位置/図5aで用いた位置では65−99)と(253−284、154−185)である。前者の配列は高いヒスチジン含量によって特徴付けられ、後者はヒスチジンを含まない。ニューラルネットワークは前者には0.48より低いsmoothed出力値を与え、後者には0.62より高い値を与える。このように、ドメインリンカーの位置は正しく定められる。
局所的な配列に蓄えられた構造情報量の推定は、予測効率から導かれる。Blind予測、すなわちいかなる情報もない場合の予測はおおよそ、以下のように見積もられる。2つのドメインからなるアミノ酸残基300のタンパク質でドメインの平均サイズが150という場合を想定してみよう。我々のデータセットにおいては、ドメインリンカーの平均サイズは12.2残基である。また、最小のドメインサイズは60残基であり、タンパク質の配列の両端60残基は我々の計算には含めないと仮定すると、Blind予測は7%の正解率となる(12.2/(300−60x2))。一方、我々の研究においては、ニューラルネットワークの予測効率は感度については35.6%、特異性については58.8%であった(図3a、3b)。いずれにせよ、Blind予測からニューラルネットワークによる予測(およそ30から50%)への効率の改善は、局所的な配列に蓄えられた構造情報に帰するものである。このように、局所的な配列情報はドメインリンカーを検出する上で有用な手がかりとなることを、この推測は示している。しかし、同時にドメインリンカー情報のかなりの部分は局所的ではないことを示しており、予測をさらに改善するためには局所的ではない情報を取り入れることが必要であろう。それにもかかわらず、我々のニューラルネットワークはタンパク質の配列中から仮想的なドメインリンカーを検出するのに使用できる稀な手段の一つであり、大きなタンパク質の構造および機能解析に貢献する可能性を有するものである。
材料と方法
データの準備
2.5Å、あるいはそれ以上の解像度で構造が解析されておりSCOPデータベースにおいて分類されているマルチドメインタンパク質をPDB(Protein Data Base)から選択した。配列の重複はeの値を10・−70とするBLASTの基準に従って除去した(もっとも相同性の高い配列は49%(1hyxHと2fbjH)であった。
ドメインリンカーは以下のように定義した。まず、DSSPにより定められているようにドメインリンカーは少なくとも4残基からなるループ領域で、SCOPに定義されたドメイン境界を含むものとした。実際のドメインリンカーの大部分が一つのループ領域に相当していたが、2,3の例外においては、短い二次構造エレメントが散在する複数のループ領域を有していた。これらのケースにおいては、これに相当するすべてのループ領域がドメインリンカーとされたのではなく、唯一のループ領域がまず、ドメインリンカーとされた。このため、我々は次の視覚による点検の段階においては、ドメインリンカー全体を含むようにするため、決められた領域をマニュアルで拡張した。次に、上のように定義されたドメインリンカーにより範囲が決められたドメインの構造のすべてを、視覚的に調べた。SCOPのドメインの定義は進化的に保存されている構造ユニットに基づくものであるため、我々のドメイン構造に関する必要条件とは合致しない。実際、幾つかのマルチドメインタンパク質では、ドメインとドメインがぴったりとくっついているのが明らかに観察された(例:Dアミノ酸酸化酵素)。また、これらのSCOPに定義されたドメインは、これらを単離した場合、その本来の構造にフォールドできないように思える。さらに我々は、ドメインの定義またはこれに伴うドメインリンカーの定義におけるこのあいまいな点が、ニューラルネットワークの学習の進行を妨害することを見出した。そのため、我々は各々のタンパク質の構造を眼で見て調べ、個々に自律的にフォールドして本来の構造をとると考えられるドメインに隣接するドメインリンカーのみを選択した。その結果、我々は74種類のマルチドメインタンパク質に存在する99のドメインリンカー(SCOP由来)を得た。
ニューラルネットワーク
ニューラルネットワークはパターン認識の方法であり、層状のfeed forwardネットワークが入力と出力に関連している。ネットワークはback propagationアルゴリズムを用いて所望の入力−出力関係を得られるように最適化される。この過程を学習またはトレーニングと呼ぶ(詳細な説明はRumelhmltの文献参照)。我々の研究では配列のセグメントを分類するため、単一のhidden layerを有するニューラルネットワーク(図7)およびいかなるhidden layerも持たないニューラルネットワークを用いた。ニューラルネットワークの学習過程においては、二進数でコードされた配列セグメントを入力パターンとして与え、これらの配列セグメントのリンカー配列またはノンリンカー配列への分類を出力とし、それぞれ1または0とした。この学習過程においては、我々は0.9に設定したmomentum term(述語についてはRost & Saunderに従った)を用い、バイアスとウェイトのパラメータをランダムに[−0.3、0.3]の範囲に設定した。学習の強度(すなわちgradientの降下のステップ幅)を最初の100の学習段階については0.001とし、次の段階では0.005とした。すべての段階において配列の分類の正解率をチェックし、正解率がピーク値に達したときに学習を停止した。分類の正解率のチェックにあたり、ニューラルネットワークの出力値(予測値)が0.5より大きい場合をリンカー配列に分類、それ以下をノンリンカー配列に分類したものとみなし、その正解率を調べた。
なお、back propagationアルゴリズムはC言語で書き、理研、和光キャンパスの富士通VPP700Eスーパーコンピューターを使用した。
トレーニング
ドメインリンカー情報を抽出するため、我々はドメインリンカーとノンリンカー配列セグメントとを識別するよう、ニューラルネットワークをトレーニングした。与えられたウィンドウサイズに等しい長さの配列セグメントをタンパク質の配列のN末端からC末端へ動かすことにより、収集した。各々の配列セグメントは、その中央の残基がドメインリンカーの一部であるかどうかにより、リンカー配列またはノンリンカー配列に分類した(図8)。我々はリンカー配列とノンリンカー配列を1:3の割合で用いてトレーニングを行なった。この割合は、リンカーとノンリンカーを最も効率良く識別できるものである。配列は明瞭にコード化された。すなわち、配列セグメント中の各々のアミノ酸を21ビットの二進数に直した(図9)。各々のビットが20の標準アミノ酸残基に、残りの一つがアミノ酸を特定できないものあるいは標準アミノ酸でないものに相当する。例えば、アラニンのコードは100000000000000000000である。配列の分類ではリンカーは1、ノンリンカーは0とコードされた。
試験
ニューラルネットワークの学習効率の評価には二つの方法を用いた。一つは単一の試験方法であり、データセットを単に2グループに分け、一つをトレーニングに、他をテストに用いるというものである。トレーニング用データセットとテスト用データセットのサイズの割合を4:1とした。第2の方法は10−foldジャックナイフテストである。これはデータセットを10に分け、9グループからのデータをニューラルネットワークの学習に用い、残りのグループのデータで学習効率を調べるというものである。この過程は、各々のグループがすべてテストに使われるまで10回繰り返した。
ニューラルネットワークによるドメインリンカーの予測
リンカー予測の第1段階は調べたタンパク質の配列についてニューラルネットワークの出力値を計算することである。最適化された19残基のウィンドウを用いて、我々はタンパク質の配列中の各々の残基の出力値を計算し、この値をウィンドウの中心のアミノ酸の特性とした。この生の出力値はタンパク質の配列に沿って著しく変動するので、ドメインリンカー領域の信頼しうる予測を妨げた。それゆえ、ドメインリンカーは19残基について平均化した(前後9残基にわたる平均化)出力値を用いた(このウィンドウのsmoothingの最適化については結果の項参照)。
我々は次に記す3段階の予測を行なった。(1)第1に我々は、ドメインの最小のサイズを仮定し、タンパク質の両端の60残基を無視した。(2)我々はsmoothにした出力値でカットオフ値よりも大きいものからすべてのピークを選んだ。次に閾値より大きいsmoothにした出力値を持つピーク値に近い領域を仮想的なドメインリンカーと定義した(カットオフ値は閾値より大きいかあるいは等しいことに注意)。(3)最後に予想されたドメインリンカーをsmooth化した出力値のピーク値に従ってランク付けした(例えば図5,6)。この方法により行なった予測を評価するため、マルチドメインタンパク質のデータセットについてジャックナイフテストを行なった。ニューラルネットワークをトレーニングするのに様々な配列パターンが必要であったため、我々は10−70のe値で選んだデータセットをトレーニングに用いた。しかし、このデータセットはお互いに類似した配列を含んでおり、このことが予測の評価に影響を与えるかもしれない。そのため我々は10−20のe値よりも少ない完全長の同一性を有する配列を除去した(これは25%以上の配列が同一であることに相当する)(表1に示した)。結局、87のドメインリンカーを含む66のマルチドメインタンパク質のセットについて予測効率を計算した。
〔実施例2〕ニューラルネットワークの出力値(g(X))の閾値の設定
実施例1で用いたテストデータのタンパク質配列について、19残基のウィンドウをとってその19残基長の配列断片をニューラルネットワークに与えて出力値を計算した(0.0−1.0の値が得られ、これがウィンドウ中央の残基に対する出力値になる。)。ウィンドウはタンパク質配列のN末端からC端まで順にずらしていき、各々の位置で出力の計算を行った。分布の作成にあたっては、ウィンドウ中央の残基がドメインリンカーか否かで場合分けをして、それぞれについての分布を出した。ここで、使用したニューラルネットワークは3層で、Hidden Unitの数は2とした。また、jackknife testにより、分布をとった。結果を図16に示す。
〔実施例3〕ドメインリンカーデータベースの作成
SWISSPROTに登録されている構造が全く未知である86593のアミノ酸配列に対して、実施例1に記載の方法に従って予測を行った。使ったニューラルネットワークは3層で、Hidden Unitの数が2であった。
また、(Jackknife testのために用意した)10通りの学習データを使って最適化された(全部で10通りの)ニューラルネットワークで(それぞれ独立に)予測を行い、得られた10通りのsmoothing出力値を平均化した。この平均化に際し、スムージングウィンドウの長さ(smoothing window length)は、19残基とした。この(10個のニューラルネットワークの間での)平均値に対し、カットオフ値=0.95、閾値=0.5の条件で推定リンカー領域を決定した。なお、タンパク質の末端領域(60残基)もすべて予測に含めてた。また、リンカー領域の順位づけはここでは行わなかった(予測領域すべてをとっった)。
リンカー領域と予測されたもののアミノ酸配列をハードディスクに格納した。
アペンディクス
理論・方法論的な背景について論じることは、適切な問題設定(そして、問題解決)を行う上で本質的な意味をもっており、避けて通ることのできない事柄である。しかしながら、それ自体独立した議論の対象となり得るため、本文とは別にアペンディクスという形にまとめた。ここでは、ニューラルネットワークの理論的枠組み、及び、それに基づく方法論の具体的な設計について述べる。
A.ニューラルネットワーク
A.1.ニューラルネットワークの理論的枠組み
ニューラルネットワークは次のようなニューロンモデルを基本構成要素とする(図10)。
ここで、τは
で示されるシグモイド関数であり、[0,1]の値をとる。このニューロンモデルにおいて、xiは他のニューロンの軸索からやってくるi番目の入力信号、wi(i=1,・・・,n)はその入力信号がシナプスによって強められる度合い(ここでは結合強度と呼ぶ)、−w0はしきい値、yはニューロンの出力を表している。すなわち、入力信号は結合強度に従って重み付けされ、その総和u(ニューロンの内部電位に相当する)がしきい値よりも大きいか小さいかによってニューロンの活性化状態が決まる(yが1のとき活性化状態、0のとき不活性化状態に対応する)。結合強度は任意の実数値をとることができ、正の場合には興奮性、負の場合には抑制性のシナプスに対応する。また、0の場合にはシナプス結合がないものと解釈できる。
ニューラルネットワークではニューロンモデルをお互いに接続してネットワークを組む。ここでは、階層型フィードフォワードネットワークを用いる。すなわち、ニューロンを層状に並べ、前の層から次の層へと一方向にのみシグナルが伝わっていくようにネットワークを構築する。このタイプのネットワークは入力層のニューロンに与えた信号(入力信号)に対し、出力層のニューロンの出力(出力信号)が一意に決まる。この意味で一種の信号変換器として捉えることができる。結合強度・しきい値が変わるとネットワークが表現する関数も変わるが、適当な値を選ぶことのよって任意の非線形連続関数を実現できることが証明されている[Funahashi,1989]。学習においては正しい入出力関係を実現できるような結合強度・しきい値を求めていくことになるが、誤差逆伝搬学習法[Rumelhart,1986]に従うとそれらを自動的に決定できるようになる。
本研究で実際に用いることとなる3層のニューラルネットワーク(図11)を例にとり、誤差逆伝搬学習法について説明する。入力層・隠れ層・出力層にはそれぞれn、m、1個のニューロンを用意する。J≡[0,1]とし、ネットワークの入力x、出力z、そして隠れ層の出力yを次のように定義する。
このとき、ネットワークの入出力関係はJnからJlへの関数
h=gof
ととらえることができる。ここで、fは隠れ層によって実現されるJnからJmへの関数
である。また、gは出力層によって実現されるJmからJlへの関数
である。
学習を行うにあたり、誤差逆伝搬学習法においては誤差と呼ばれる指標
を用いる。ここで、d(x)=(d1(x),・・・,d1(x))は入力xに対する正しい出力である。また、Xは入力xの集合である。この誤差Eは、ニューラルネットワークの出力と理想的な出力がどれだけ離れているかを表しており、この値が小さいほど望ましいパターン識別に近づいていることを意味する。学習においてはこの値を減少させるような力学系を設定する
この力学系においては誤差Eは時間に対して非増加であることが確かめられることから、適当な重みを初期値として出発すると力学系の軌道は最終的に誤差Eの極小点に停留し、所望の重みが得られることになる。ここで、力学系の式の右辺を誤差Eの定義式から具体的に求めると
となる。ここで
である。これより、より具体的な形で力学系の式
を記述できる。さらに、左辺を差分で置き換えると次の漸化式
が導かれる。この漸化式に従って重みwij、vjkを時間発展させれば、最終的に誤差Eの極小値に到達できることになる。以上が、誤差逆伝搬学習法の動作原理である。
A.2.本研究で行った学習アルゴリズムの改善
上の漸化式に従えば、原理的にはネットワークのすべての重みwij、vjkを最適化できることになる。しかし、実際にこの学習を行うとなるといくつか間題が生じてくる。まず、時間幅Δtを小さくとることは収束解の精度を高める意味では必要不可欠であるが、その結果1回あたりの変更量が小さくなるため学習回数が膨大になってしまう。したがって、実用上Δtの値はある程度大きくとらなければならず、収束性が悪くなってしまう。また、誤差Eが最小でない極小値(ローカルミニマム)にいったん陥ってしまった場合には、今のアルゴリズムでは決して抜け出すことができない。このような問題は依然として大きく残ったままである。
これらの問題点を解決するため、本研究においては上の漸化式に慣性項を加えた。すなわち、重みをwとかくことにして
のような漸化式を設定する。ここに、0<α<1であり、αが1に近いほど慣性項の効果は大きい。通常の方法ではΔtを大きくとるとwがEの極小値のまわりを振動してしまい学習が収束しなくなる。一方、新しい漸化式では慣性項の働きにより振動を抑える向きに変更を行っているため、大きなΔtに対しても学習の収束性を維持することが可能となっている。また、振動を減らすことによって収束速度が大幅に改善される。慣性項の効果はこの他にも、(重みwの関数としてみたときの)E曲面の細かな凹凸を乗り越える際にも発揮される。従って、Δtとαの組み合わせを調整することにより、学習回数の増加とローカルミニマムへのトラップという問題点を幾分か回避できることになる。条件を試行錯誤した結果、本研究ではα=0.9で固定しΔtは与えられたネットワークに応じて設定することにした。
A.3.計算機環境
誤差逆伝搬学習法の実行にあたり、プログラム言語Cでアルゴリズムを記述し、理化学研究所のスーパーコンピュータVPP700Eを用いて計算を行った。
以下の条件:ウィンドウの大きさ(a)、hidden unitsの数(b)、およびトレーニングデータセットの大きさ(c)を変えて、3層型ニューラルネットワークを用いて学習を行った。単一テスト法(材料と方法を参照のこと)を用いて、リンカー配列とノンリンカー配列の分類の正解率を計算することにより、学習効率を評価した。ニューラルネットワークの出力値が0.5より大きい配列セグメントをリンカー配列と予測した。それ以外のものは、ノンリンカー配列とした。学習はランダムな初期パラメータから始め、独立に10回行った。リンカーおよびノンリンカーの予測の正解率は10回の独立した学習の間で平均化し、表に示す。標準偏差は括弧内に示す。
ahidden unitsの数は2とした。bウィンドウの大きさは19残基とした。c0は隠れ層がないことを意味する。dウィンドウの大きさとhidden unitsの数は、それぞれ、19と2とした。eトレーニングデータセットの最初の大きさに対する比。
19残基のスムージングウィンドウを用いて、タンパク質配列中のドメインリンカーを予測し、第一ランクの予測領域の予測効率を10−foldジャックナイフテストで評価した。評価に用いた2つの値(特異性(a)と感受性(b))は図3aおよび3bと同じである。
略語
[実施例4]
インターネットにて公開されている、立体構造既知の非冗長なタンパク質配列データセットであるnr−PDBを基本のデータセットとして用意する。この中にあるデータの内、構造分類データベースであるSCOPで定義されているドメインを、1つの配列中に2つ以上含むデータのみを収集する。更にそれらの配列の立体構造を調べて、4残基以上のループ構造をとっている領域を選び出し、隣接する2つのドメインの境界に存在するものをドメインリンカー、それ以外でかつN/C末端のいずれにもかからないものを、非ドメインリンカーループとして定義し、それぞれのデータセットを作成する。
上記定義のドメインリンカーを1つ以上含むマルチドメインタンパク質データセットにおける配列長の分布をまとめたものを図42に示す。また、その配列データセット中に存在するドメインリンカー配列と非ドメインリンカーループ配列についてまとめたものを図43に示す。
[実施例5]
ドメインリンカー及び非ドメインリンカーループの各データセットにおける,アミノ酸Xaaの出現確率PXaa LとPXaa Nを図44に示す。これらの数値を用いて,あるリンカー候補配列がドメインリンカーとして,あるいは非ドメインリンカーループとして存在しうる確率をそれぞれ計算し,どちらがどの程度大きいかをスコアS0として示したのが図45の式である。
[実施例6]
図46に示すとおり,ドメインリンカー配列にある種の2残基からなるパターンが存在する。これを任意のアミノ酸の場合と同様,ドメインリンカーと非ドメインリンカーループの間での出現頻度の差を元に解析を行なう。
実施例4で作成したドメインリンカー及び非ドメインリンカーループの各データセットにおいて,任意のアミノ酸残基m個(mは整数、m=0,1,2)をあいだに置いてアミノ酸残基XaaとYaa(XaaとYaaの順序は問わない)のペアが出現する確率PXaaYaa(m) LとPXaaYaa(m) Nを図47〜49に示す。これらの数値を用いて,あるリンカー候補配列がドメインリンカーとして,あるいは非ドメインリンカーループとして存在しうる確率をそれぞれ計算し,どちらがどの程度大きいかをスコアSk(k=1〜3)として示したのが図50の式である。本願の第28発明の一実施の形態によるリンカー度判別スコアの計算を,用意した242本のドメインリンカー配列および3381本の非ドメインリンカー配列に対して行ない,横軸にF1s,縦軸にF1pをとって各配列のスコアの分布状態を図51に示す。
[実施例7]
実施例4において定義されたマルチドメインタンパク質データセットに対して,六種類の異なる方法でドメインリンカー予測を行なった時の結果を図52に示す。実施例5及び6で説明したスコアを組み合わせて用いた時に最も予測効率の良い結果を得た。図52のグラフ内の凡例において、上から順に、スコアF12sを用い、閾値を変化させた時、スコアF12(=F12s+αF12p)を用い、閾値を変化させた時、スコアF12sを用い、上位1〜10までをとった時、スコアF12(=F12s+αF12p)を用い、上位1〜10までをとった時、二次構造予測ツールDSCで予測されたループを、長い順にリンカーとして予測した時、スコアF11(=F11s+αF11p)を用い、閾値を変化させた時である。また、図52のグラフにおいて、横軸:specificity=リンカー予測成功数/予測提示数、縦軸:sensitivity=リンカー予測成功数/実在するリンカー数。
[実施例8]
実施例4において定義されたマルチドメインタンパク質データセットに対して,本予測法のJack−knife testを行なった。すなわち,本データセットを5個の部分集合に分割し,うち4個に含まれる配列群を使用してパラメータを設定し,残り1個の配列群に対してドメインリンカー予測を行なった。これを5個の部分集合に対して繰り返した。この方法による正答率(specificity)の平均は35.6%であった。
本明細書で引用した全ての刊行物、特許および特許出願をそのまま参考として本明細書にとり入れるものとする。
産業上の利用可能性
本発明により、タンパク質のドメインリンカー領域を予測することができるようになった。
また、本発明により、ドメインリンカーの配列の特徴が明らかされた。この特徴を利用して、タンパク質のアミノ酸配列中からドメインリンカー領域を検出することができるようになり、その結果として、タンパク質の構造ドメイン領域を予測することができるようになった。
ドメインリンカー領域が予測できれば、タンパク質を構造ドメインに分割することができる。分子量が大きいタンパク質の構造を解析するのは困難であるが、タンパク質を分子量の小さい構造ドメインに分割することができれば、構造ドメイン毎に構造解析や機能解析を行うことができるようになり、タンパク質の機能解析が飛躍的な速度で進むことになる。
【図面の簡単な説明】
図1は、リンカー配列およびノンリンカー配列についてのニューラルネットワーク出力値の平均値の分布を示す。白と黒の棒グラフはそれぞれリンカー配列、ノンリンカー配列に相当する配列セグメントの分布をあらわす。灰色の棒グラフはドメイン内ループ配列についての分布を表わす。出力値は、ウィンドウサイズ19、hidden units2で学習を行なった3層のニューラルネットワークを用いて計算され、19残基のスムージングウィンドウを用いて平均化された(Materials & Methodsのスムージングウィンドウについての項参照)。出力値の平均化(そのスムージングウィンドウにおける残基の位置について)は、平均出力値1.0のリンカー配列の出現を減少させる。評価には10−foldジャックナイフテストを用いた。
図2(a)は、最適化されたウェイトパラメータのヒントンダイアグラムを示す。パラメータ値は正の値、負の値をそれぞれ赤と青の四角で示した。また、四角の大きさはそれらの絶対値に比例している。パラメータはhidden unitsのないニューラルネットワークを用いて計算し、ドメインリンカーとノンリンカーを識別するための残基の寄与として説明された。10−foldジャックナイフテストにより得られた10組の独立した最適化パラメータのセットは標準化かつ平均化された。我々は19残基のウィンドウサイズを用いた。(b、c)ドメインリンカーにおけるプロリンリッチセグメント(b)およびその他の領域におけるプロリンリッチセグメント(c)。74のマルチドメインタンパク質(表1)に存在する、9残基中に少なくとも3残基のプロリンを含むすべてのセグメントの配列(プロリンリッチセグメント)を示している。プロリンリッチセグメントの長さは3から9残基まで様々である。プロリンリッチセグメントは強調して示されており、両側に隣接する9残基も表に載せた。残基はヒントンダイアグラムにおける貢献に従って彩色した(図2a)。すなわちプロリンは赤、ヒスチジンは青、その他のアミノ酸は白とした。タンパク質鎖のidentifiersは、その始まりおよび終わりのアミノ酸残基と共に左側に示した。プロリンリッチセグメントについてのsmoothにしたニューラルネットワーク出力値はセグメントの範囲について平均化し、右側に示した。緑色の色調は0.0(黒)から1.0(明るい緑)まで、ニューラルネットワークの出力値に比例している。この値は図2cの下の列には示されていない。なぜならば、そのプロリンリッチセグメントはタンパク質の配列のC末端付近にあり、そのためsmoothにした出力値が得られなかったからである。出力値はウィンドウサイズ19、hidden units2で学習を行なったニューラルネットワークにより計算され、19残基のスムージングウィンドウを用いてsmoothにした。
図3(a,b)は、ニューラルネットワークによるドメインリンカー予測の効率を示す。タンパク質配列中のドメインリンカーは閾値0.5で予測された。また、第1ランクにある予測領域を予測した効率は10−foldジャックナイフテストを用いて評価した。評価のために二つの値を算出した:(a)SCOP由来ドメインリンカーに相当するドメインリンカーが予測された場合(特異性)。(b)ニューラルネットワークにより正しく予測されたSCOP由来ドメインリンカー配列がすべてのSCOP由来ドメインリンカー配列のどれぐらいの割合を占めたか(感度)。水平軸はスムージングウィンドウのサイズを示す。予測効率はカットオフ値0.5(黒丸と太い実線)、0.7(白い三角と細い実線)、0.9(白い丸と点線)を用いて得られた。(c)DSC、PHDによるドメインリンカーの予測効率。ドメインリンカーは二次構造予測プログラムを用いて、以下のように予測された。DSC、PHDにより予測されたループ領域はその長さに基づいてランク付けされ、より長いループ領域はドメインリンカーとなる傾向があると仮定して、最も長いループ領域をドメインリンカーと予測した。図3a同様に、予測に用いられたループ領域の長さを変化させることにより、二つの値(特異性、実線;感度、破線)を計算した、(水平軸)。DSC、PHDによる予測の10−foldジャックナイフテストの結果は、白い丸と黒い四角で示されている。
図4は、予測されたドメインリンカーのランク付けを示す。予測は19残基のスムージングウィンドウ、閾値、カットオフ値0.5で行なわれ、10−foldジャックナイフテストを用いて評価された。予測領域に入ったリンカーの出現頻度を示した(黒、正しい予測;白、誤った予測)。予測した領域の総数は139であり、47が正しい予測に相当し、92は誤っていた。
図5は、ドメインリンカー予測の成功例を示す。予測は19残基のスムージングウィンドウ、閾値、カットオフ値0.5で行なった。それぞれの例において、より低いプロットはニューラルネットワークの出力値(smoothにした出力値、青;生データ、明るい赤)対残基数を示す。上の図ではリボン表示(MolsciptとRaster3Dを用いて作成した)を示す。ここでは予測されたドメインリンカーはそのランクに従って標識されており(2つの領域以上が予測されたとき)、予測されたドメインリンカーに境界を定められた領域は彩色して違いがわかるようにした。
図6は、ドメインリンカー予測の失敗例を示す。予測は図5同様に行なった。
図7は、配列分類に用いるニューラルネットワークを示す。
図8は、配列分類を示す。ウィンドウ中央の残基がドメインリンカーのとき1、そうでないとき0とする。
図9は、配列エンコーディングを示す。各アミノ酸残基は21ビットのbinary numberで表現される。対応する残基位置のビットだけが1となり、残りは0となる。21番目のビットは非標準アミノ酸に対応する。
図10は、ニューロンモデルを示す。
図11は、3層ニューラルネットワークを示す。
図12は、本発明のニューラルネットワークの学習方法の1実施形態を説明するためのフローチャートである。
図13は、本発明のタンパク質のドメインリンカー領域を予測する方法の1実施形態を説明するためのフローチャートである。
図14は、本発明のドメインリンカー領域予測システムの構成を示すブロック図である。
図15は、本発明のドメインリンカー領域予測システムの機能を説明するブロック図である。
図16は、ドメインリンカー内およびドメインリンカー外の残基に対するニューラルネットワークの出力値の分布を示す。
図17は、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分を抽出して作成した表である。
図18は、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分を抽出して作成した表である。
図19は、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分を抽出して作成した表である。
図20は、本願の第18発明の一実施の形態によるドメインリンカー領域予測・検出方法ないしは本願の第19発明の一実施の形態によるドメインリンカー領域予測・検出システムの動作を説明するフローチャートである。
図21は、本発明の一実施の形態によるドメインリンカー領域予測・検出システムの構成を示すブロック図である。
図22は、本願の第19発明の一実施の形態によるドメインリンカー領域予測・検出システムの機能を説明するブロック図である。
図23は、本願の第21発明の一実施の形態による構造ドメイン予測方法のフローチャートである。
図24は、本願の第24発明の一実施の形態による単一アミノ酸残基傾向パラメータ算出システムの動作を説明するフローチャートである。
図25は、本願の第24発明の一実施の形態による単一アミノ酸残基傾向パラメータ算出システムの機能を説明するブロック図である。
図26は、本願の第26発明の一実施の形態によるアミノ酸残基ペア傾向パラメータ算出システムの動作を説明するフローチャートである。
図27は、本願の第26発明の一実施の形態によるアミノ酸残基ペア傾向パラメータ算出システムの機能を説明するブロック図である。
図28は、本願の第28発明の一実施の形態によるアミノ酸残基ペア傾向パラメータ算出システムの動作を説明するフローチャートである。
図29は、本願の第28発明の一実施の形態によるリンカー度判別スコアF1sを求めるシステムの機能を説明するブロック図である。
図30は、本願の第30発明の一実施の形態によるリンカー度判別スコアF2(i)を求めるシステムの動作を説明するフローチャートである。
図31は、本願の第30発明の一実施の形態によるリンカー度判別スコアF2(i)を求めるシステムの機能を説明するブロック図である。
図32は、本願の第33発明の一実施の形態によるリンカー度判別スコアF12(i)を求める方法ないしは本願の第34発明のリンカー度判別スコアF12(i)を求めるシステムの動作を説明するフローチャートである。
図33は、本願の第34発明の一実施の形態によるリンカー度判別スコアF12(i)を求めるシステムの機能を説明するブロック図である。
図34は、本願の第36発明の一実施の形態によるドメインリンカー部位の予測方法ないしは本願の第37発明の一実施の形態によるドメインリンカー部位の予測システムの動作を説明するフローチャートである。
図35は、本願の第37発明の一実施の形態によるドメインリンカー部位の予測システムの機能を説明するブロック図である。
図36は、本願の第36発明の別の一実施の形態によるドメインリンカー部位の予測方法ないしは本願の第37発明の別の一実施の形態によるドメインリンカー部位の予測システムの動作を説明するフローチャートである。
図37は、本願の第37発明の別の一実施態様によるドメインリンカー部位の予測システムの機能を説明するブロック図である。
図38は、本願の第42発明の一実施の形態による構造ドメイン予測システムの動作を説明するフローチャートである。
図39は、本願の第42発明の一実施の形態による構造ドメイン予測システムの機能を説明するブロック図である。
図40は、本願の第42発明の別の一実施の形態による構造ドメイン予測システムの動作を説明するフローチャートである。
図41は、本願の第42発明の別の一実施の形態による構造ドメイン予測システムの機能を説明するブロック図である。
図42は、配列長の分布を示す。
図43は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、配列の長さ(アミノ酸残基数)を示す。
図44は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、アミノ酸残基が出現する確率を示す。
図45は、単一アミノ酸残基傾向パラメータの求め方を示す。
図46は、ドメインリンカー配列のグループ分けとアライメントを示す。
図47は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、任意のアミノ酸残基0個をあいだに置いてアミノ酸残基のペアが出現する確率を示す。
図48は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、任意のアミノ酸残基1個をあいだに置いてアミノ酸残基のペアが出現する確率を示す。
図49は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、任意のアミノ酸残基2個をあいだに置いてアミノ酸残基のペアが出現する確率を示す。
図50は、アミノ酸残基ペア傾向パラメータの求め方を示す。
図51は、本願の第28発明の一実施の形態によるリンカー度判別スコアの計算を,用意した242本のドメインリンカー配列および3381本の非ドメインリンカー配列に対して行ない,横軸にF1s,縦軸にF1pをとって各配列のスコアの分布状態を示した分布図である。
図52は、ドメインリンカー予測結果を示す。
図53は、ウィンドウのとり方を示す。
図54は、アライメントしたseq.0とseq.1〜seq.nの配列及びウィンドウのとり方を示す。
図55は、ドメインリンカー部位の予測方法の概略を示す。
符号の簡単な説明
1:コンピュータ
2:CPU
3:ROM
4:RAM
5:入力部
6:送信/受信部
7:表示部
8:ハードディスクドライブ
9:CD−ROMドライブ
10:CD−ROM
11:アミノ酸配列入力部
12:ウィンドウ設定部
13:ウィンドウ内アミノ酸配列入力部
14:出力値計算部
15:予測値付与部
16:ウィンドウ位置移動部
17:平均化ウィンドウ設定部
18:平均値算出部
19:平均化ウィンドウ移動部
20:ドメインリンカー領域予測部
101:コンピュータ
102:CPU
103:ROM
104:RAM
105:入力部
106:送信/受信部
107:表示部
108:ハードディスクドライブ
109:CD−ROMドライブ
110:CD−ROM
1021:ドメインリンカー配列部分抽出部
1022:非ドメインリンカーループ配列部分抽出部
1023:PXaa L算出部
1024:PXaaYaa(m) L算出部
1031:ドメインリンカー配列部分抽出部
1032:非ドメインリンカーループ配列部分抽出部
1033:PXaa L算出部
1034:PXaaYaa(m) L算出部
1035:SXaa算出部
1041:ドメインリンカー配列部分抽出部
1042:非ドメインリンカーループ配列部分抽出部
1043:PXaa L算出部
1044:PXaaYaa(m) L算出部
1045:SXaaYaa(m)算出部
1051:F1s算出部
1052:F1p算出部
1053:F1算出部
1071:F11s(i)算出部
1072:F11p(i)算出部
1073:F11(i)算出部
1081:Ai k同定部
1082:S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部
1083:F12s(i)算出部
1084:F12p(i)算出部
1085:F12(i)算出部
1091:F11s(i)算出部
1092:F11p(i)算出部
1093:F11(i)算出部
1094:二次構造予測部
1095:領域探索部
1096:ドメインリンカー存在位置予測部
1101:Ai k同定部
1102:S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部
1103:F12s(i)算出部
1104:F12p(i)算出部
1105:F12(i)算出部
1106:二次構造予測部
1107:領域探索部
1108:ドメインリンカー存在位置予測部
1201:F11s(i)算出部
1202:F11p(i)算出部
1203:F11(i)算出部
1204:二次構造予測部
1205:領域探索部
1206:ドメインリンカー存在位置予測部
1207:構造ドメイン予測部
1301:Ai k同定部
1302:S’Ai、S’AiAi+(m+1)(m)およびS’AiAi−(m+1)(m)算出部
1303:F12s(i)算出部
1304:F12p(i)算出部
1305:F12(i)算出部
1306:二次構造予測部
1307:領域探索部
1308:ドメインリンカー存在位置予測部
1309:構造ドメイン予測部
Claims (6)
- 立体構造未知のタンパク質のドメインリンカー領域を予測するシステムであって、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記システム。
- コンピュータを、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段として機能させるためのプログラム。
- コンピュータを、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、2以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
- タンパク質のドメインリンカー領域を予測するシステムであって、
下記の(i)および(ii)の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する手段を含むことを特徴とする前記システム。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x1,x2,・・・・・,x399)は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、wij(i=0,・・・・・,399;j=1,2)とvj(j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x1,x2,・・・・・,x399)の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。 - コンピュータを、
下記の(i)および(ii)の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する手段として機能させるためのプログラム。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x 1 ,x 2 ,・・・・・,x 399 )は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、w ij (i=0,・・・・・,399;j=1,2)とv j (j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x 1 ,x 2 ,・・・・・,x 399 )の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。 - コンピュータを、
下記の(i)および(ii)の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する手段として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
(i)連続した19残基からなる配列断片を式x:
(ここで、x=(x 1 ,x 2 ,・・・・・,x 399 )は、配列断片の19残基の並びに従い、アミノ酸種類に対応した21ビットの二進数列を直列に並べ、その結果得られる399(=19×21)ビットの2進数列であり、ビットの並びは順に「アラニン(A)、システイン(C)、アスパラギン酸(D)、グルタミン酸(E)、フェニルアラニン(F)、グリシン(G)、ヒスチジン(H)、イソロイシン(I)、リジン(K)、ロイシン(L)、メチオニン(M)、アスパラギン(N)、プロリン(P)、グルタミン(Q)、アルギニン(R)、セリン(S)、スレオニン(T)、バリン(V)、トリプトファン(W)、チロシン(Y)、その他(X)」に対応し、21ビットの2進数列は、表現する残基のアミノ酸種類と一致するもののみが1となり、それ以外は0となる。)
により数値で表現したときに、下記のg(x)の値が0.5〜1.0の範囲にある。
(ここで、w ij (i=0,・・・・・,399;j=1,2)とv j (j=0,1,2)の組み合わせは、表AのGroup1の組み合わせ、表BのGroup2の組み合わせ、表CのGroup3の組み合わせ、表DのGroup4の組み合わせ、表EのGroup5の組み合わせ、表FのGroup6の組み合わせ、表GのGroup7の組み合わせ、表HのGroup8の組み合わせ、表IのGroup9の組み合わせ、および表JのGroup10の組み合わせからなる群より選択される。)
(ii)g(x)の値が0.5〜1.0の範囲にある配列断片x=(x 1 ,x 2 ,・・・・・,x 399 )の中央残基を含み、さらに、その中央残基の前後9残基以内のアミノ酸を含んでもよい。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001309434 | 2001-10-05 | ||
JP2001309434 | 2001-10-05 | ||
JP2002172101 | 2002-06-12 | ||
JP2002172136 | 2002-06-12 | ||
JP2002172101 | 2002-06-12 | ||
JP2002172136 | 2002-06-12 | ||
PCT/JP2002/010351 WO2003036546A1 (fr) | 2001-10-05 | 2002-10-04 | Procede permettant de supposer la region de liaison de domaine d'une proteine |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2003036546A1 JPWO2003036546A1 (ja) | 2005-02-17 |
JP4213034B2 true JP4213034B2 (ja) | 2009-01-21 |
Family
ID=27347661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003538962A Expired - Fee Related JP4213034B2 (ja) | 2001-10-05 | 2002-10-04 | タンパク質のドメインリンカー領域の予測方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080014646A1 (ja) |
EP (1) | EP1443446A4 (ja) |
JP (1) | JP4213034B2 (ja) |
CA (1) | CA2462591A1 (ja) |
WO (1) | WO2003036546A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8165973B2 (en) * | 2007-06-18 | 2012-04-24 | International Business Machines Corporation | Method of identifying robust clustering |
JP2009086719A (ja) * | 2007-09-27 | 2009-04-23 | Fujitsu Ltd | 特性予測プログラム、特性予測装置、および特性予測方法 |
EP2430133B1 (en) | 2009-05-13 | 2015-07-08 | The Lubrizol Corporation | Method of lubricating with a composition containing a malic acid derivative |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8489590B2 (en) * | 2010-12-13 | 2013-07-16 | Yahoo! Inc. | Cross-market model adaptation with pairwise preference data |
GB2497586A (en) * | 2011-12-16 | 2013-06-19 | London Metropolitan University | Transmembrane topology tool |
CN102663271A (zh) * | 2012-05-08 | 2012-09-12 | 重庆理工大学 | 一种抗菌蛋白质或多肽活性关系表征的方法 |
US10241979B2 (en) * | 2015-07-21 | 2019-03-26 | Oracle International Corporation | Accelerated detection of matching patterns |
CN109858482B (zh) * | 2019-01-16 | 2020-04-14 | 创新奇智(重庆)科技有限公司 | 一种图像关键区域检测方法及其系统、终端设备 |
JP7387760B2 (ja) * | 2019-05-02 | 2023-11-28 | ボード オブ リージェンツ,ザ ユニバーシティ オブ テキサス システム | 合成タンパク質の安定性を高めるためのシステムおよび方法 |
EP4000596A1 (en) * | 2020-11-17 | 2022-05-25 | The Boots Company plc | Tetrapeptide and compositions comprising tetrapeptides |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69922159T2 (de) * | 1998-01-23 | 2005-12-01 | Vlaams Interuniversitair Instituut Voor Biotechnologie | Mehrzweck-antikörperderivate |
-
2002
- 2002-10-04 US US10/491,941 patent/US20080014646A1/en not_active Abandoned
- 2002-10-04 CA CA002462591A patent/CA2462591A1/en not_active Abandoned
- 2002-10-04 EP EP02801997A patent/EP1443446A4/en not_active Withdrawn
- 2002-10-04 JP JP2003538962A patent/JP4213034B2/ja not_active Expired - Fee Related
- 2002-10-04 WO PCT/JP2002/010351 patent/WO2003036546A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP1443446A1 (en) | 2004-08-04 |
WO2003036546A1 (fr) | 2003-05-01 |
CA2462591A1 (en) | 2003-05-01 |
EP1443446A4 (en) | 2009-04-01 |
US20080014646A1 (en) | 2008-01-17 |
JPWO2003036546A1 (ja) | 2005-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354747B1 (en) | Deep learning analysis pipeline for next generation sequencing | |
Hua et al. | A novel method of protein secondary structure prediction with high segment overlap measure: support vector machine approach | |
Camproux et al. | A hidden markov model derived structural alphabet for proteins | |
Hassan et al. | Evaluation of computational techniques for predicting non-synonymous single nucleotide variants pathogenicity | |
KR101950395B1 (ko) | 개체군 유전체 염기서열 및 변이의 변환데이터에 대한 인공지능 딥러닝 모델을 이용한 바이오마커 검출 방법 | |
JP4213034B2 (ja) | タンパク質のドメインリンカー領域の予測方法 | |
KR101460520B1 (ko) | 차세대 시퀀싱 데이터의 질병변이마커 검출 방법 | |
CN107103205A (zh) | 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法 | |
CN110853756B (zh) | 基于som神经网络和svm的食管癌风险预测方法 | |
CN108009405A (zh) | 一种基于机器学习技术预测细菌外膜蛋白质的方法 | |
KR20150024231A (ko) | 대립유전자의 바이오마커 발굴방법 | |
KR102204509B1 (ko) | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 | |
US20220277811A1 (en) | Detecting False Positive Variant Calls In Next-Generation Sequencing | |
Chaudhari et al. | DeepRMethylSite: a deep learning based approach for prediction of arginine methylation sites in proteins | |
WO2019181022A1 (ja) | 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体 | |
KR20150024232A (ko) | 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법 | |
Roy Choudhury et al. | PredβTM: a novel β-transmembrane region prediction algorithm | |
Sen et al. | Predicting binding sites of hydrolase-inhibitor complexes by combining several methods | |
Chapman et al. | The evolution of logic circuits for the purpose of protein contact map prediction | |
Wang et al. | PLANNER: a multi-scale deep language model for the origins of replication site prediction | |
Zaki et al. | Mining residue contacts in proteins using local structure predictions | |
JP3936851B2 (ja) | クラスタリング結果評価方法及びクラスタリング結果表示方法 | |
KR102166070B1 (ko) | 유전자 가위 효과를 분석하는 방법 및 장치 | |
KR20230064172A (ko) | 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법 | |
Tavares et al. | A comparative study of machine learning methods for detecting promoters in bacterial DNA sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081022 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081029 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |