JP4213034B2

JP4213034B2 - タンパク質のドメインリンカー領域の予測方法

Info

Publication number: JP4213034B2
Application number: JP2003538962A
Authority: JP
Inventors: 裕黒田; 哲宮崎; 剛範田中; 茂之横山
Original assignee: RIKEN Institute of Physical and Chemical Research
Current assignee: RIKEN Institute of Physical and Chemical Research
Priority date: 2001-10-05
Filing date: 2002-10-04
Publication date: 2009-01-21
Anticipated expiration: 2022-10-04
Also published as: EP1443446A1; WO2003036546A1; CA2462591A1; EP1443446A4; US20080014646A1; JPWO2003036546A1

Description

ニューラルネットワークによるタンパク質のドメインリンカー領域の学習・予測・検出方法、その予測・検出のためのシステム、プログラム及び記録媒体、タンパク質断片の製造・解析方法、ドメインリンカーデータベースの構築方法、構造ドメインデータベースの構築方法、ドメインリンカーペプチド、並びにタンパク質を構造ドメインに分割する方法
技術分野
本発明は、ニューラルネットワークによるタンパク質ドメインリンカーの学習・予測・検出方法に関し、より詳細には、マルチドメインタンパク質中のドメインリンカー領域をニューラルネットワークに学習させる方法、タンパク質のアミノ酸配列情報からドメインリンカー領域を予測・検出する方法、その予測・検出のためのシステム、プログラム及び記録媒体、タンパク質の構造ドメインを製造・解析する方法、ドメインリンカーデータベースの構築方法および構造ドメインデータベースの構築方法、並びにドメインリンカー領域に特徴的な配列パターンを有するペプチドに関する。
背景技術
近年、様々な個体のゲノムが解読され、これら大量のゲノム配列情報を利用してタンパク質の体系的な立体構造解析と、その構造に基づいた構造機能相関の確立を図る、「構造ゲノム科学」が重要な研究として注目を集めている。
この構造ゲノム研究では、ゲノムにコードされるタンパク質の代表的且つ構造解析に適したターゲットを選択することにより解析の対象となる配列を効率良く絞り込むことが要求される。タンパク質の構造決定への適性は、その分子量に大きく左右され、現在の構造決定技術、特にＮＭＲを用いた場合では、構造決定の自動化が可能なものは、分子量が２万〜２万５千以下の小さなタンパク質に限られる。また、仮にＮＭＲやＸ線結晶構造解析上の技術的な制限がないとしても、大きなタンパク質の発現・精製はかなり困難であり、巻き戻しが必要とされる場合では特に難しくなる。このため、大きなタンパク質を扱う際には、ドメインごとに断片化し、各ドメインについて解析を行うことが望まれる。
即ち、分子量の大きいタンパク質の多くは、複数のドメインがモジュールのように組み合わさって構成されており、その組み合わせによって機能の多様性が実現されていると考えられている。従って、このような複数のドメインからなるタンパク質においては、その構成単位であるドメインに切り分け、これらドメインの構造を別々に決定することにより、迅速な構造解析が可能となると考えられる。また、ドメインの境界の正確な決定は、例えば高解像度の構造解析や３次元の構造モデル化等にも重要となる。
これに対して、ドメイン領域を決定する際に、一般的にはその構造情報は未知であり、かかる状況下でタンパク質を正しくドメインごとに切り分けるのは非常に困難であるのが実情である。
従来、タンパク質を断片化させる方法としては、例えばプロテアーゼによるタンパク質限定分解法が実験的に用いられている。しかし、この方法では多大な時間と労力を必要とし、体系的、網羅的且つハイスル‐プットな構造解析を行うためには、有効な方法であるとは言い難い。
従って、如何にタンパク質中のドメイン領域を正確に予測できるかが、上述のような構造解析をすすめる上で重要な問題となる。
一方、タンパク質のアミノ酸配列から構造に関する情報を引き出そうとする数多くの試みが行われ、得られた構造情報に対応したタンパク質の構造予測法が開発されている。タンパク質の二次構造はおそらく最も良く研究されてきた構造上の特性であり、この二次構造を予測する方法が提案されている。これらの方法は、物理化学的な特性（Ｌｉｍ，１９７４；Ｐｔｉｔｓｙｎ＆Ｆｉｎｋｅｌｓｔｅｉｎ，１９８３）、統計的解析（Ｃｈｏｕ＆Ｆａｓｍａｎ，１９７４；Ｇａｒｎｉｅｒｅｔａｌ．，１９７８）、パターンマッチング（Ｃｏｈｅｎｅｔａｌ．，１９８３；Ｋｉｎｇ＆Ｓｔｅｒｎｂｅｒｇ，１９９０，１９９６）、ニューラルネットワーク（Ｑｉａｎ＆Ｓｅｊｎｏｗｓｋｉ，１９９８；Ｒｏｓｔ＆Ｓａｎｄｅｒ，１９９３）、進化的に保存された構造（Ｚｖｅｌｅｂｉｌｅｔａｌ．，１９８７）に基づくものである。幾つかのケースにおいては、二次構造予測の正確さは７０％を超えている（Ｓｔｅｒｎｂｅｒｇｅｔａｌ．，１９９９）。この他の構造上の特質、例えばβ構造（Ｗｉｌｍｏｔ＆Ｔｈｏｒｎｔｏｎ，１９８８；Ｓｈｅｐｈｅｒｄｅｔａｌ．，１９９９）、タンパク質表面のアミノ酸（Ｈｏｌｂｏｏｋｅｔａｌ．，１９９０）、安定化の中心（Ｄｏｓｚｔａｎｙｉｅｔａｌ．，１９９７）、構造の種類（Ｃｈａｎｄｏｎｉａ＆Ｋａｒｐｕｓ，１９９５；Ｃｈｏｕｅｔａｌ．，１９９８）といったものもまた、研究されており、その予測が検討された。
これに対して、アミノ酸配列からドメイン領域を予測する方法についてはほとんど研究されていない（Ｂｕｓｅｔｔａ＆Ｂａｒｒａｎｓ，１９８４；Ｋｉｋｕｃｈｉｅｔａｌ．，１９８８）。最近の２，３の報告（Ｗｈｅｅｌａｎｅｔａｌ．，２０００；Ｒｏｍｅｒｏｅｔａｌ．，２００１）を除けば、これまでは、配列の類似性がドメインの位置を推測する主要な方法であった（Ｓｏｎｎｈａｍｍｅｒ＆Ｋａｈｎ，１９９４；Ｈｅｉｎｋｏｆｆｅｔａｌ．，１９９７；Ｃｏｒｐｅｔｅｔａｌ．，１９９８；Ｋｕｒｏｄａｅｔａｌ．，２００１）。配列の類似性に基づく方法はふつう、様々なタンパク質に保存されている（共通して存在する）配列は機能的或いは構造的な独立体に相当し、これがドメインを形成している、と仮定する。
これらの方法は、類似した配列を有するタンパク質の仮想的なドメインについての有用な情報をもたらすけれども、構造ドメインやその境界の特徴となるような配列の特性を検出するように意図されたものではない。
しかしながら、このように構造ドメインの配列の特性を検出する場合、ドメイン自体が比較的大きな構造単位であるため、その特性抽出は複雑となり、取り扱いの難しさが指摘される。
かかる問題を解決する方法として、本発明者らにより構造情報として、ドメインに着目するのではなく、２つのドメインを結ぶドメインリンカーを対象とし、ニューラルネットワークを用いる予測方法が提案された（例えば、第３８回生物物理学会年会講演予稿集Ｓ６７−１Ｉ１１１５参照。）。この方法によれば、ドメインリンカー配列がドメイン配列よりもはるかに短いため、その配列パターンの認識を容易に行うことが可能となる。
また、短いレンジのアミノ酸の出現頻度を用いた簡単な統計的な方法により、ドメインの境界を予測する方法も報告されている。
しかしながら、これまでの技術においては、いずれもドメインリンカーに着目した新規な手法の模索段階にとどまっており、いずれの方法においてもドメインリンカー領域の特徴抽出が十分に行われているとは言い難く、結果的に、予測の効率はあまり高くなく、ドメインの境界周辺のより大きなセグメントをより詳細に特徴付けることが、予測の正確さを向上させるためには必要であると考えられる。
そこで、本発明は、構造情報として構造ドメインに着目するのではなく、２つの構造ドメインを結ぶドメインリンカーに着目して、ドメインリンカー領域を同定するに際し、ドメインリンカーの配列パターンの特徴抽出を行うためのデータセットを十分検討し、ドメインリンカー配列に関するより的確な情報を用意するとともに、予測のためのパラメータの最適化を行うことにより、より信頼性に優れたドメインリンカーの予測及び／又は検出する方法、システムおよびプログラムを提供することを目的とする。
発明の開示
本発明者らは、二つのタンパク質ドメインを結びつける配列（ドメインリンカー配列）を識別するために、一手法として、ニューラルネットワークを用いて配列パターンを学習させる方法、もう一つは、統計処理によるリンカー領域のアミノ酸残基の出現頻度をスコア化する方法を採用し、両者を組み合わせて用いることにより、相互補完的に構造未知タンパク質中のドメインリンカー領域の予測を行い、予測効率の向上を図った。即ち、第一の方法において、ＳＣＯＰに定義されたドメインライブラリーを用いて、リンカー配列とノンリンカー配列に分け、ニューラルネットワークにそれぞれの配列情報を区別して学習させたところ、リンカーとドメイン内ループ領域を含むノンリンカー領域の間にはそれらのアミノ酸配列の特徴に大きな違いがあることが見出された。また、ドメインリンカー配列には位置に依存したアミノ酸の好み（ある特定のアミノ酸残基の出現頻度がある位置において高くなる。あるアミノ酸がその場所に好んで配置される）があることを示し、これらがランダムではないことを明らかにした。これらの知見に基づき、実際にドメインリンカーの予測を行ったところ、ジャックナイフテストの結果、予測された領域の５８％が実際のリンカー領域に合致し（特異性）、またＳＣＯＰ由来ドメインリンカーの３６％が予測された（感度）。この予測効率は、二次構造予測から導かれる単純な方法、すなわち長いループ領域を仮想的なドメインリンカーと仮定する方法よりも優れている。概してこれらの結果は、ドメインリンカーはループ領域とは異なる局所的な特徴を有することを示している。
また、第二の方法において、リンカー領域の持つ配列的特徴を統計的手法で明らかにし、その結果を二次構造予測法と組み合わせることで、構造未知なアミノ酸配列に対するドメインリンカー予測手法を構築した。即ち、構造が既知であるマルチドメインタンパク質のｎｏｎ−ｒｅｄｕｎｄａｎｔな配列集合を用意し、その中からループ構造をとっている部分配列を抽出して、ドメインリンカー配列と非リンカー配列に分類した。それぞれの配列集合において各アミノ酸残基の出現頻度を調べたところ、数種類の残基において、両者の間で明らかに出現頻度が異なる事を見出した。さらに２残基からなる配列パターンにおいても、出現頻度が異なる例を見出した。これらの解析から得られた特徴を定式化し、任意のアミノ酸配列を入力すると「リンカーらしさ」をスコアとして出力する判別関数を得た。構造未知のタンパク質に対して二次構造予測を行ない、得られたループ候補にこの判別関数を適用する事で、ドメインリンカーの位置を実験上有効なレベルで予測することが出来た。本発明は、これらの知見に基づいて、完成されたものである。
本発明の要旨は以下の通りである。
（１）２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域をニューラルネットワークに識別学習させる方法であって、以下の工程：
データセットの２以上の構造ドメインから構成されるタンパク質のアミノ酸配列をドメインリンカー領域とノンリンカー領域に分ける分割工程、
前記データセットの２以上の構造ドメインから構成されるタンパク質のアミノ酸配列内に５〜３５残基の範囲のウィンドウをとるウィンドウ設定工程、
前記ウィンドウの中央に位置するアミノ酸残基が前記ドメインリンカー領域の一部をなす場合に、そのウィンドウ内のアミノ酸配列をポジティブ配列と分類する数値を付与し、該ウィンドウの中央に位置するアミノ酸残基が前記ノンリンカー領域の一部をなす場合には、そのウィンドウ内のアミノ酸配列をネガティブ配列と分類する数値を付与する配列分類工程、
階層型ニューラルネットワークの重みパラメータをバックプロパゲーション法で最適化するための学習を繰り返し行う学習工程
を含むことを特徴とし、
前記バックプロパゲーション法とは、前記ウィンドウ内のアミノ酸配列を数値で表現した値を前記階層型ニューラルネットワークに入力して、出力値を求め、前記ウィンドウ内のアミノ酸配列をポジティブ配列またはネガティブ配列と分類する数値と前記出力値との誤差を計算し、前記誤差が最小になるような階層型ニューラルネットワークの重みパラメータを決定する方法である前記方法。
（２）立体構造未知のタンパク質のドメインリンカー領域を予測する方法であって、以下の工程：
立体構造未知のタンパク質のアミノ酸配列内に５〜３５残基の範囲のウィンドウをとるウィンドウ設定工程、
前記ウィンドウ内のアミノ酸配列を数値で表現した値を請求項１記載の方法で学習させた階層型ニューラルネットワークに入力して、出力値を求める入出力工程、
前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与工程、
前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させて、前記入出力工程および予測値付与工程を繰り返す工程、
前記予測値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測工程
を含むことを特徴とする前記方法。
（３）前記入出力工程および予測値付与工程を繰り返す工程に続き、
前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとり、このウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出工程
前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させて、前記平均値算出工程を繰り返す工程、
を含み、
かつ、前記ドメインリンカー領域予測工程において、前記予測値の平均値に対して前記閾値によるドメインリンカー領域の予測を行うことを特徴とする（２）記載の方法。
（４）前記ドメインリンカー領域予測工程において、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域におけるアミノ酸残基の予測値の中で最も大きなものが予め設定したカットオフ値よりも大きい場合に、その領域をドメインリンカー領域と予測する（３）記載の方法。
（５）立体構造未知のタンパク質のドメインリンカー領域を予測するシステムであって、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記システム。
（６）コンピュータを、立体構造未知のタンパク質のドメインリンカー領域を予測するシステムとして機能させるためのプログラムであって、前記システムが、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記プログラム。
（７）コンピュータを、立体構造未知のタンパク質のドメインリンカー領域を予測するシステムとして機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体であって、前記システムが、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記記録媒体。
（８）下記の（ｉ）、（ｉｉ）または（ｉｉｉ）のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、予測されたドメインリンカー領域よりＮ末端側にある１つ以上の構造ドメインに相当するタンパク質断片を製造する方法。
（ｉ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
（ｉｉ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて５０番目のアミノ酸残基との間にあるいずれかの部位、
（ｉｉｉ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて１５番目のアミノ酸残基との間にあるいずれかの部位。
（９）下記の（ｉ）、（ｉｖ）または（ｖ）のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、予測されたドメインリンカー領域よりＣ末端側にある１つ以上の構造ドメインに相当するタンパク質断片を製造する方法。
（ｉ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
（ｉｖ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて５０番目のアミノ酸残基との間にあるいずれかの部位、
（ｖ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて１５番目のアミノ酸残基との間にあるいずれかの部位。
（１０）下記の（ｉ）、（ｉｉ）または（ｉｉｉ）のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、予測されたドメインリンカー領域よりＮ末端側にある１つ以上の構造ドメインに相当するタンパク質断片を解析する方法。
（ｉ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
（ｉｉ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて５０番目のアミノ酸残基との間にあるいずれかの部位、
（ｉｉｉ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて１５番目のアミノ酸残基との間にあるいずれかの部位。
（１１）下記の（ｉ）、（ｉｖ）または（ｖ）のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、予測されたドメインリンカー領域よりＣ末端側にある１つ以上の構造ドメインに相当するタンパク質断片を解析する方法。
（ｉ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
（ｉｖ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて５０番目のアミノ酸残基との間にあるいずれかの部位、
（ｖ）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて１５番目のアミノ酸残基との間にあるいずれかの部位。
（１２）（２）〜（４）のいずれかに記載の方法で予測したドメインリンカー領域のアミノ酸配列データを記録媒体に記録する工程を含む、ドメインリンカーデータベースの構築方法。
（１３）（２）〜（４）のいずれかに記載の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位でタンパク質を切断することにより得られる構造ドメインのアミノ酸配列データを記録媒体に記録する工程を含む、構造ドメインデータベースの構築方法。
（１４）下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有するペプチドであって、マルチドメインタンパク質のドメインリンカーとして機能しうるペプチド。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ_ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ_ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
（１５）下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する方法。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ_ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ_ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
（１６）下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することを特徴とするタンパク質を構造ドメインに分割する方法。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、Ｗ_ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ_ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
（１７）下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、タンパク質断片を製造する方法。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ_ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ_ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
（１８）下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、タンパク質断片を解析する方法。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ_ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ_ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
（１９）下記（ｉ）及び（ｉｉ）の条件を満たす配列パターンを有するペプチドを用いて、新規なドメインリンカーを設計し、少なくとも２つタンパク質断片をつなげる事によって新たなマルチドメインタンパク質を製造する方法。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ_ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ_ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
（２０）ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する工程、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ（ここで、Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ｘ_ａａの出現確率である）及び、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ここで、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中でアミノ酸残基をｍ個あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率である）を求める工程
を含み、上記ドメインリンカー領域のアミノ酸配列上の特徴から構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び／又は検出する方法。
（２１）ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ（ここで、Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ｘ_ａａの出現確率である）及び、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ここで、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中でアミノ酸残基をｍ個あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率である）を求める手段
を含み、上記ドメインリンカー領域のアミノ酸配列上の特徴から構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び／又は検出するシステム。
（２２）コンピュータを、構造未知のマルチドメインタンパク質中のドメインリンカー領域をそのアミノ酸配列上の特徴から予測及び／又は検出するシステムをして機能させるためのプログラムであって、前記システムが、
ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ（ここで、Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ｘ_ａａの出現確率である）及び、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ここで、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中でアミノ酸残基をｍ個あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率である）を求める手段
を含む、前記プログラム。
（２３）（２０）記載の方法で予測した、構造未知のマルチドメインタンパク質中のドメインリンカー領域のいずれかの部位で、前記マルチドメインタンパク質を切断することにより生成するタンパク質断片を構造ドメインと予測する工程を含む、構造ドメインの予測方法。
（２４）（２３）記載の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を製造する工程を含む、タンパク質の製造方法。
（２５）（２３）記載の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を解析する工程を含む、タンパク質の解析方法。
（２６）ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ（ここで、Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ｘ_ａ _ａの出現確率である）を求める手段
ｉｉｉ）下記の計算式によりアミノ酸残基Ｘ_ａａの出現傾向パラメータＳ_Ｘａａを求める手段
Ｓ_Ｘａａ＝ｌｏｇ（Ｐ_Ｘａａ ^Ｌ／Ｐ_Ｘａａ ^Ｎ）
（但し、Ｐ_Ｘａａ ^ＬとＰ_Ｘａａ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする。）
を含む、アミノ酸残基の出現傾向パラメータ算出システム。
（２７）コンピュータを、任意のアミノ酸残基の出現傾向を表すパラメータを算出するシステムとして機能させるためのプログラムであって、前記システムが、
ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ（ここで、Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ｘ_ａａの出現確率である）を求める手段
ｉｉｉ）下記の計算式によりアミノ酸残基Ｘ_ａａの出現傾向パラメータＳ_Ｘａａを求める手段
Ｓ_Ｘａａ＝ｌｏｇ（Ｐ_Ｘａａ ^Ｌ／Ｐ_Ｘａａ ^Ｎ）
（但し、Ｐ_Ｘａａ ^ＬとＰ_Ｘａａ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする。）
を含む、前記プログラム。
（２８）ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ここで、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中でアミノ酸残基をｍ個あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率である）を、ｍが０，１，２の場合ついてそれぞれ求める手段、
ｉｉｉ）下記の計算式によりアミノ酸残基対Ｘ_ａａ，Ｙ_ａａの出現傾向パラメータＳ_{ＸａａＹａａ（ｍ）}を求める手段
（但し、Ｐ_{ＸａａＹａａ（ｍ）} ^ＬとＰ_{ＸａａＹａａ（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする。）
を含む、アミノ酸残基対の出現傾向パラメータ算出システム。
（２９）コンピュータを、任意のアミノ酸残基対の出現傾向をパラメータ算出システムとして機能させるためのプログラムであって、前記システムが、
ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出する手段、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ここで、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中でアミノ酸残基をｍ個あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率である）を、ｍが０，１，２の場合ついてそれぞれ求める手段、
ｉｉｉ）下記の計算式によりアミノ酸残基対Ｘ_ａａ，Ｙ_ａａの出現傾向パラメータＳ_{ＸａａＹａａ（ｍ）}を求める手段
（但し、Ｐ_{ＸａａＹａａ（ｍ）} ^ＬとＰ_{ＸａａＹａａ（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする。）
を含む、前記プログラム。
（３０）アミノ酸残基数がＬ_１個（Ｌ_１は１以上２１以下の整数）のアミノ酸配列についてリンカー度判別スコアＦ_１を求めるシステムであって、
ｉ）下記の計算式によりあるアミノ酸残基Ａ_ｋのリンカー傾向スコアＦ_１ｓを求める手段、
（式中、Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする。ここで、Ｐ_Ａｋ ^Ｌ，Ｐ_Ａｋ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｋの出現確率である。）
ｉｉ）下記の計算式により任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基対Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}のリンカー傾向スコアＦ_１ｐを求める手段、および
（式中、Ｓ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎ）、及び
但し、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎ、又はＰ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｎ間に統計的有意差がない場合は、Ｓ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）}＝０、又はＳ_{ＡｋＡｋ−（ｍ＋１）（ｍ）}＝０とする。
ここで、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基Ａ_ｋとＡ_{ｋ−（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ−（ｍ＋１）}の順序は問わない）確率である。）
ｉｉｉ）下記の計算式によりリンカー度判別スコアＦ_１を求める手段
Ｆ_１＝Ｆ_１ｓ＋α_１Ｆ_１ｐ
（式中、０＜α_１＜１）
を含む、前記システム。
（３１）コンピュータを、アミノ酸残基数がＬ_１個（Ｌ_１は１以上２１以下の整数）のアミノ酸配列についてリンカー度判別スコアＦ_１を求めるシステムとして機能させるためのプログラムであって、前記システムが、
ｉ）下記の計算式によりあるアミノ酸残基Ａ_ｋのリンカー傾向スコアＦ_１ｓを求める手段、
（式中、Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする。ここで、Ｐ_Ａｋ ^Ｌ，Ｐ_Ａｋ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｋの出現確率である。）
ｉｉ）下記の計算式により任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基対Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}のリンカー傾向スコアＦ_１ｐを求める手段、および
（式中、Ｓ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎ）、及び
但し、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎ、又はＰ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｎ間に統計的有意差がない場合は、Ｓ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）}＝０、又はＳ_{ＡｋＡｋ−（ｍ＋１）（ｍ）}＝０とする。
ここで、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｋＡｋ−（ｍ} _{＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基Ａ_ｋとＡ_{ｋ−（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ−（ｍ＋１）}の順序は問わない）確率である。）
ｉｉｉ）下記の計算式によりリンカー度判別スコアＦ_１を求める手段
Ｆ_１＝Ｆ_１ｓ＋α_１Ｆ_１ｐ
（式中、０＜α_１＜１）
を含む、前記プログラム。
（３２）アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）のアミノ酸配列において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求める方法であって、
ｉ）下記の計算式によりあるアミノ酸残基Ａ_ｋのリンカー傾向スコアＦ_１１ｓ（ｉ）を求める工程、
（式中、Ｗはウィンドウ幅であって、Ｗ＝２ｗ＋１、
Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする。ここで、Ｐ_Ａｋ ^Ｌ，Ｐ_Ａｋ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｋの出現確率である。）
ｉｉ）下記の計算式により任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}のリンカー傾向スコアＦ_１１ｐ（ｉ）を求める工程、および
（式中、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎ）、及び
但し、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎの、又はＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝０、又はＳ_{ＡｉＡｉ−（ｍ＋１）（ｍ）}＝０とする。
ここで、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ−（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ−（ｍ＋１）}の順序は問わない）確率である。）
ｉｉｉ）下記の計算式により位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求める工程
Ｆ_１１（ｉ）＝Ｆ_１１ｓ（ｉ）＋α_１１Ｆ_１１ｐ（ｉ）
（式中、０＜α_１１＜１）
を含む、前記方法。
（３３）アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）のアミノ酸配列において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求めるシステムであって、
ｉ）下記の計算式によりあるアミノ酸残基Ａ_ｋのリンカー傾向スコアＦ_１１ｓ（ｉ）を求める手段、
（式中、Ｗはウィンドウ幅であって、Ｗ＝２ｗ＋１、
Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする。ここで、Ｐ_Ａｋ ^Ｌ，Ｐ_Ａｋ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｋの出現確率である。）
ｉｉ）下記の計算式により任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}のリンカー傾向スコアＦ_１１ｐ（ｉ）を求める手段、および
（式中、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎ）、及び
但し、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎの、又はＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝０、又はＳ_{ＡｉＡｉ−（ｍ＋１）（ｍ）}＝０とする。
ここで、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ−（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ−（ｍ＋１）}の順序は問わない）確率である。）
ｉｉｉ）下記の計算式により位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求める手段
Ｆ_１１（ｉ）＝Ｆ_１１ｓ（ｉ）＋α_１１Ｆ_１１ｐ（ｉ）
（式中、０＜α_１１＜１）
を含む、前記システム。
（３４）コンピュータを、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）のアミノ酸配列において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求めるシステムとして機能させるためのプログラムであって、前記システムが、
ｉ）下記の計算式によりあるアミノ酸残基Ａ_ｋのリンカー傾向スコアＦ_１１ｓ（ｉ）を求める手段、
（式中、Ｗはウィンドウ幅であって、Ｗ＝２ｗ＋１、
Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする。ここで、Ｐ_Ａｋ ^Ｌ，Ｐ_Ａｋ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｋの出現確率である。）
ｉｉ）下記の計算式により任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}のリンカー傾向スコアＦ_１１ｐ（ｉ）を求める手段、および
（式中、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎ）、及び
但し、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎの、又はＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝０、又はＳ_{ＡｉＡｉ−（ｍ＋１）（ｍ）}＝０とする。
ここで、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ−（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ−（ｍ＋１）}の順序は問わない）確率である。）
ｉｉｉ）下記の計算式により位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求める手段
Ｆ_１１（ｉ）＝Ｆ_１１ｓ（ｉ）＋α_１１Ｆ_１１ｐ（ｉ）
（式中、０＜α_１１＜１）
を含む、前記プログラム。
（３５）ｎ（ｎは１以上の整数）本の相同配列ｓｅｑ．１〜ｓｅｑ．ｎが存在することが知られているアミノ酸残基数がＬ_２個（Ｌ_２は２２以上の整数）のアミノ酸配列ｓｅｑ．０において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求める方法であって、
ｉ）ｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎをアライメントし、ｓｅｑ．０中の位置ｉにあるアミノ酸残基Ａｉ^０に対応するｓｅｑ．ｋ（ｋは１以上ｎ以下の整数）中のアミノ酸残基Ａ_ｉ ^ｋを同定する工程、
ｉｉ）位置ｉのアミノ酸残基Ａｉについて、下記の計算式でパラメータＳ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）を求める工程、
（式中、ｎ_ｇａｐ１はＡ_ｉ ^ｋ中に出現するギャップの数、
Ｓ_Ａｉｋ＝ｌｏｇ（Ｐ_Ａｉｋ^Ｌ／Ｐ_Ａｉｋ^Ｎ）
但し、Ｐ_Ａｉｋ^ＬとＰ_Ａｉｋ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ＝０とする。
ここで、Ｐ_Ａｉｋ^Ｌ，Ｐ_Ａｉｋ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｉ ^ｋの出現確率である。
また、式中、ｎ_ｇａｐ２はＡ_ｉ ^ｋまたはＡ_{ｉ＋（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（
_ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋの順序は問わない）確率である。
更に、式中、ｎ_ｇａｐ３はＡ_ｉ ^ｋまたはＡ_{ｉ−（ｍ＋１）} ^ｋ中に出現するギャップの数、
_（ｍ） ^Ｎ）
但し、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋの順序は問わない）確率である。）
ｉｉｉ）下記の計算式によりあるアミノ酸残基のリンカー傾向スコアＦ_１２ｓ（ｉ）を求める工程、
ｉｖ）下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアＦ_１２ｐ（ｉ）を求める工程、および
Ｆ_１２ｐ（ｉ）
ｖ）下記の計算式で、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求める工程
Ｆ_１２（ｉ）＝Ｆ_１２ｓ（ｉ）＋α_１２Ｆ_１２ｐ（ｉ）
（式中、０＜α_１２＜１）
を含む、前記方法。
（３６）ｎ（ｎは１以上の整数）本の相同配列ｓｅｑ．１〜ｓｅｑ．ｎが存在することが知られているアミノ酸残基数がＬ_２個（Ｌ_２は２２以上の整数）のアミノ酸配列ｓｅｑ．０において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求めるシステムであって、ｉ）ｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎをアライメントし、ｓｅｑ．０中の位置ｉにあるアミノ酸残基Ａｉ^０に対応するｓｅｑ．ｋ（ｋは１以上ｎ以下の整数）中のアミノ酸残基Ａ_ｉ ^ｋを同定する手段、
ｉｉ）位置ｉのアミノ酸残基Ａｉについて、下記の計算式でパラメータＳ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）を求める手段、
（式中、ｎ_ｇａｐ１はＡ_ｉ ^ｋ中に出現するギャップの数、
Ｓ_Ａｉｋ＝ｌｏｇ（Ｐ_Ａｉｋ^Ｌ／Ｐ_Ａｉｋ^Ｎ）
但し、Ｐ_Ａｉｋ^ＬとＰ_Ａｉｋ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ＝０とする。
ここで、Ｐ_Ａｉｋ^Ｌ，Ｐ_Ａｉｋ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｉ ^ｋの出現確率である。
また、式中、ｎ_ｇａｐ２はＡ_ｉ ^ｋまたはＡ_{ｉ＋（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ
_） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋの順序は問わない）確率である。
更に、式中、ｎ_ｇａｐ３はＡ_ｉ ^ｋまたはＡ_{ｉ−（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋの順序は問わない）確率である。）
ｉｉｉ）下記の計算式によりあるアミノ酸残基のリンカー傾向スコアＦ_１２ｓ（ｉ）を求める手段、
ｉｖ）下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアＦ_１２ｐ（ｉ）を求める手段、および
Ｆ_１２ｐ（ｉ）
ｖ）下記の計算式で、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求める手段
Ｆ_１２（ｉ）＝Ｆ_１２ｓ（ｉ）＋α_１２Ｆ_１２ｐ（ｉ）
（式中、０＜α_１２＜１）
を含む、前記システム。
（３７）コンピュータを、ｎ（ｎは１以上の整数）本の相同配列ｓｅｑ．１〜ｓｅｑ．ｎが存在することが知られているアミノ酸残基数がＬ_２個（Ｌ_２は２２以上の整数）のアミノ酸配列ｓｅｑ．０において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求めるシステムとして機能させるためのプログラムであって、前記システムが、
ｉ）ｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎをアライメントし、ｓｅｑ．０中の位置ｉにあるアミノ酸残基Ａｉ^０に対応するｓｅｑ．ｋ（ｋは１以上ｎ以下の整数）中のアミノ酸残基Ａ_ｉ ^ｋを同定する手段、
ｉｉ）位置ｉのアミノ酸残基Ａｉについて、下記の計算式でパラメータＳ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）を求める手段、
（式中、ｎ_ｇａｐ１はＡ_ｉ ^ｋ中に出現するギャップの数、
Ｓ_Ａｉｋ＝ｌｏｇ（Ｐ_Ａｉｋ^Ｌ／Ｐ_Ａｉｋ^Ｎ）
但し、Ｐ_Ａｉｋ^ＬとＰ_Ａｉｋ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ＝０とする。
ここで、Ｐ_Ａｉｋ^Ｌ，Ｐ_Ａｉｋ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｉ ^ｋの出現確率である。
また、式中、ｎ_ｇａｐ２はＡ_ｉ ^ｋまたはＡ_{ｉ＋（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋの順序は問わない）確率である。
更に、式中、ｎ_ｇａｐ３はＡ_ｉ ^ｋまたはＡ_{ｉ−（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ _） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋの順序は問わない）確率である。）
ｉｉｉ）下記の計算式によりあるアミノ酸残基のリンカー傾向スコアＦ_１２ｓ（ｉ）を求める手段、
ｉｖ）下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアＦ_１２ｐ（ｉ）を求める手段、および
Ｆ_１２ｐ（ｉ）
ｖ）下記の計算式で、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求める手段
Ｆ_１２（ｉ）＝Ｆ_１２ｓ（ｉ）＋α_１２Ｆ_１２ｐ（ｉ）
（式中、０＜α_１２＜１）
を含む、前記プログラム。
（３８）ドメインリンカー部位を予測する方法であって、
ｉ）（３２）または（３５）に記載の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）工程、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める工程、および
ｉｖ）ｉｉｉ）の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する工程
を含む、ドメインリンカー部位の予測方法。
（３９）ドメインリンカー部位を予測するシステムであって、
ｉ）（３２）または（３５）に記載の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）手段、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める手段、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める手段、および
ｉｖ）ｉｉｉ）の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する手段
を含む、前記システム。
（４０）コンピュータを、ドメインリンカー部位の予測システムとして機能させるためのプログラムであって、前記システムが、
ｉ）（３２）または（３５）に記載の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）手段、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める手段、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める手段、および
ｉｖ）ｉｉｉ）の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する手段
を含む、前記プログラム。
（４１）アミノ酸配列データベースを構築する方法であって、
ｉ）（３２）または（３５）に記載の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）工程、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める工程、
ｉｖ）ｉｉｉ）で求めた領域の中で、リンカー度判別スコアの極大値が下限値より大きいものを選択する工程、および
ｖ）ｉｖ）で選択した領域のアミノ酸配列を記録媒体に記録する工程
を含む、前記方法。
（４２）ｉ）（３２）または（３５）に記載の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）工程、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める工程、および
ｉｖ）ｉｉｉ）で求めた領域の中で、リンカー度判別スコアの極大値が下限値より大きいものを選択する工程
を含む方法により得られた、リンカー度判別スコアの極大値が下限値より大きい領域のアミノ酸配列と同じアミノ酸配列からなるドメインリンカーペプチド。
（４３）アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、（３８）記載の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する工程を含む、構造ドメインの予測方法。
（４４）ドメインリンカー部位をｎ個予測した場合に、そのうちのｔ個（ｔは１以上ｎ以下の整数）を選択し、その位置でアミノ酸配列を切断するパターンを全て考慮し、得られる全ての配列断片を構造ドメインと予測する、（４３）記載の方法。
（４５）構造ドメインを予測するシステムであって、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、（３８）記載の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する手段を含む、前記システム。
（４６）コンピュータを、構造ドメインを予測するシステムとして機能させるためのプログラムであって、前記システムが、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、（３８）記載の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する手段を含む、前記プログラム。
（４７）アミノ酸配列データベースを構築する方法であって、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、（３８）記載の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片のアミノ酸配列を記録媒体に記録する工程を含む、前記方法。
（４８）（４３）記載の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を製造する工程を含む、タンパク質の製造方法。
（４９）（４３）記載の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を解析する工程を含む、タンパク質の解析方法。
（５０）（４２）記載のドメインリンカーペプチドで、少なくとも２つタンパク質断片をつなげることにより生じる、新たなマルチドメインタンパク質を設計し、このマルチドメインタンパク質を製造することを含む、タンパク質の製造方法。
本明細書において、「構造ドメイン領域」とは、タンパク質のアミノ酸配列中の局所的な領域であって、ポリペプチド鎖が折りたたまれてコンパクトかつ安定な立体構造を形成する配列領域をいう。このポリペプチドの折りたたみ構造は、全長の（英語ではｉｎｔａｃｔ）タンパク質中では勿論形成されているが、タンパク質から構造ドメインを切断した時にも単独または低分子（リガンド、重原子、ペプチド、核酸など）と会合して立体構造が形成されうる。
「構造ドメイン」とは、構造ドメイン領域のポリペプチド鎖が折りたたまれて立体構造を形成した蛋白質断片のことである。構造ドメインは蛋白質の他の部分とは独立に構造を形成できるため、機能的にも独立した単位であることが多い。
「マルチドメインタンパク質」とは、２つ以上の構造ドメインから構成されるタンパク質をいうものとする。
「ドメインリンカー」とは、マルチドメインタンパク質の構造中で、隣接する２つの構造ドメイン領域を結ぶループ構造をとる配列領域をいうものとする。通常、ドメインリンカーは構造ドメインよりも短いペプチド鎖である。
「非ドメインリンカーループ」とは、構造ドメイン中にあってループ構造をとる配列領域をいうものとする。
構造生物学や分子生物学の分野では、「機能ドメイン領域」及び「機能ドメイン」という用語が使われることがある。「機能ドメイン領域」とは、タンパク質のアミノ酸配列中の局所的な領域であって、ポリペプチド鎖が折りたたまれて特定の機能を発揮する配列領域をいう。このポリペプチドの折りたたみ構造は、全長の（英語ではｉｎｔａｃｔ）タンパク質中では勿論形成されているが、タンパク質から機能ドメインを切断した時にも単独または低分子（リガンド、重原子、ペプチド、核酸など）と会合して機能を発揮しうる。「機能ドメイン」とは、機能ドメイン領域のポリペプチド鎖が折りたたまれて特定の機能を発揮しうる蛋白質断片のことである。
構造ドメインが単独で機能ドメインを構成することもあるが、複数の構造ドメインが機能ドメインを構成することもある。逆に言えば、機能ドメインは一つ以上の構造ドメインで構成されているといえる。従って、構造ドメインは蛋白質の立体構造における基本的な構造単位であるため、蛋白質の分子機能の解析に欠かせない単位でもあると言える。本発明では、機能ドメインではなく構造ドメインとアミノ酸配列との関係を見る。
「ウィンドウ」とは、蛋白質全長のアミノ酸配列中ある長さ（例えば１０残基）のアミノ酸配列のことを言う。ウィンドウは、その領域内の残基の特徴を基に、ウィンドウの中心の残基の特徴を求めるために有効である。本発明の一態様において、ウィンドウはニューラルネットワークの出力値を計算する際と、その出力値の平均化をする際に用いた。また、本発明の別の態様において、ウィンドウは、タンパク質の全長にわたって連続的に求められるある数値を、局所的に平滑化するために用いた。
なお、本明細書において、「〜」はその前後に記載される数値をそれぞれ最小値および最大値として含む範囲を示す。
本明細書は、本願の優先権の基礎である特願２００１−３０９４３４号、特願２００２−１７２１０１号及び特願２００２−１７２１３６号の明細書および／または図面に記載される内容を包含する。
発明を実施するための最良の形態
以下、添付図面を参照しながら、本発明の好適な実施の形態について説明する。なお、図１２、１３、２０、２３、２４、２６、２８、３０、３２、３４、３６、３８及び４０において、Ｓは各ステップを示す。
本願の第１発明は、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域をニューラルネットワークに識別学習させる方法であって、以下の工程：
データセットの２以上の構造ドメインから構成されるタンパク質のアミノ酸配列をドメインリンカー領域とノンリンカー領域に分ける分割工程、
前記データセットの２以上の構造ドメインから構成されるタンパク質のアミノ酸配列内に５〜３５残基の範囲のウィンドウをとるウィンドウ設定工程、
前記ウィンドウの中央に位置するアミノ酸残基が前記ドメインリンカー領域の一部をなす場合に、そのウィンドウ内のアミノ酸配列をポジティブ配列と分類する数値を付与し、該ウィンドウの中央に位置するアミノ酸残基が前記ノンリンカー領域の一部をなす場合には、そのウィンドウ内のアミノ酸配列をネガティブ配列と分類する数値を付与する配列分類工程、
階層型ニューラルネットワークの重みパラメータをバックプロパゲーション法で最適化するための学習を繰り返し行う学習工程
を含むことを特徴とし、
前記バックプロパゲーション法とは、前記ウィンドウ内のアミノ酸配列を数値で表現した値を前記階層型ニューラルネットワークに入力して、出力値を求め、前記ウィンドウ内のアミノ酸配列をポジティブ配列またはネガティブ配列と分類する数値と前記出力値との誤差を計算し、前記誤差が最小になるような階層型ニューラルネットワークの重みパラメータを決定する方法を提供する。
上記の方法において、データセットのタンパク質のアミノ酸配列をドメインリンカー領域とノンリンカー領域に分ける分割工程の前に、２以上の構造ドメインから構成される立体構造既知のタンパク質のアミノ酸配列のデータセットを作成しておくとよい。
上記の方法において、アミノ酸配列を数値で表現した値として、アミノ酸配列をバイナリーコード化した数値を例示することができる。また、アミノ酸配列をポジティブ配列と分類する数値としては１を、ネガティブ配列と分類する数値としては０を例示することができ、又は、これらの数値を入れ替える（逆にする）こともできる。
ニューラルネットワークの隠れ層のユニット数（ｈｉｄｄｅｎｕｎｉｔｓ）は、０〜２であるとよい。一般に、この数が大きいほどより高い次元の入出力関係を学習できるが、データセットのデータ数が少ない場合には、その制約のためにアミノ酸配列と構造情報の高次の対応関係を十分に学習することができず、該隠れ層のユニット数を大きく設定する効果を得ることができない。従って、本発明では、無駄な変数をなるべく減らす目的から、０〜２の範囲とすることが望ましいが、今後データベースが拡大することによって２以上の範囲とすることが望ましくなることもありうる。
ウィンドウのサイズは、５〜３５アミノ酸残基であるが、より好ましくは１０〜３５残基であり、更に好ましくは１９残基である。ウィンドウサイズが５残基より小さいと、十分な配列パターンの特徴抽出を行うことができず、十分な学習効果を期待することができない。逆に、３５残基より大きくなると、学習で決定しなければならない変数の数が増えるために、決定すべき変数の数に対して学習データの数が少ない場合に「暗記化」（学習データの細かな特徴までもが抽出される現象）が起こりやすくなり、かえって学習効率が低下する傾向にある。
ウィンドウの位置をデータセットのタンパク質のアミノ酸配列の所望の範囲内（例えば、Ｎ末端およびＣ末端からそれぞれ６０残基までを除く範囲）で移動させて、上記の配列分類工程および学習工程を繰り返すとよい。
また、作成したデータセットのすべてのタンパク質のアミノ酸配列について、上記の分割工程、ウィンドウ設定工程、配列分類工程および学習工程を行えばよい。
ウィンドウの中央に位置するアミノ酸残基は、ウィンドウの中央付近に位置するアミノ酸残基であればよい。例えば、ウィンドウ内のアミノ酸残基の総数が２ｎ＋１個の場合は、ウィンドウの中央に位置するアミノ酸残基としてウィンドウ内の１番目のアミノ酸から数えてｎ＋１番目のアミノ酸を挙げることができ、また、ウィンドウ内のアミノ酸残基の総数が２ｎ個の場合は、ウィンドウの中央に位置するアミノ酸残基としてウィンドウ内の１番目のアミノ酸から数えてｎ番目またはｎ＋１番目のアミノ酸を挙げることができる。
バックプロパゲーション法は、Ｒｕｍｅｌｈａｌｔ，１９８６に詳細に記載されている。
図１２は、本発明のニューラルネットワークの学習方法の１実施形態を説明するためのフローチャートである。ここでは、３層のフィードフォワード型ニューラルネットワークを用いる。
まず、２以上の構造ドメインから構成される立体構造既知のタンパク質のアミノ酸配列のデータセットを用意する。データセット作成にあたり、例えば、ＰＤＢに登録されているタンパク質立体構造の中から適当なものを選択するとよい。
データセットの各タンパク質について、ドメインリンカー領域とノンドメインリンカー領域とに分割する。
次いで、データセットのタンパク質について、そのアミノ酸配列内にウィンドウをとり、ウィンドウの中央の残基がドメインリンカー領域の一部をなす場合には、そのウィンドウ内のアミノ酸配列をポジティブ配列と分類し、ウィンドウの中央の残基がノンドメインリンカー領域の一部をなす場合には、そのウィンドウ内のアミノ酸配列をネガティブ配列と分類する。以下、この分類過程をニューラルネットワークに学習させていくことになるが、その前に、入力データおよび教師データをバイナリーコード化しておくとよい。学習には、バックプロパゲーション法を用いるとよい。
学習効率の評価を行うために、データセットをトレーニング用とテスト用に２分割する。トレーニング用データセットとテスト用データセットの割合は、９：１とするとよい。ニューラルネットワークによる予測方法において、その予測効率を評価する方法としては、ジャックナイフ法（Ｃｈｏｕｅｔａｌ．，１９９８）を用いる方法が挙げられる。このジャックナイフ法は、データセットを１０のグループに分割し、そのうち９つのグループで学習を行い、残りでテストを行った後、これを全ての組み合わせについて行う手法である。この方法によれば、全てのデータをテストデータとして統計処理することが可能となり、データセットの数が少ない場合でも、データセットの数による制約を克服することができる。なお、データセットの数が十分である場合には、必ずしもこの手法を用いる必要はなく、予測効率を評価する際のトレーニングデータとテストデータの割合は適宜選定すればよい。トレーニングデータとテストデータは、固定して使ってもよいし、種々の組み合わせで使ってもよい。例えば、学習条件の検討を行う場合には、トレーニングデータとテストデータを固定して使うとよい。また、一旦、学習条件を決定した後は、トレーニングデータとテストデータを種々の組み合わせで学習を行ってから、予測を行うとよい。
入力データと教師データを設定する（Ｓ１）。入力データには、データセットのタンパク質のアミノ酸配列内にとったウィンドウ内のアミノ酸配列が対応する。教師データとは、入力データに対する正しい出力（すなわち、入力したアミノ酸配列の中央残基がドメインリンカーの一部をなすか否か）である。
入力データを入力したニューラルネットワークから出力信号を得、教師データとの誤差を決定する（Ｓ２）。
Ｓ２で決定した誤差を保存する（Ｓ３）。
Ｓ１〜Ｓ３のステップをすべてのトレーニングデータについて行った否かを判定（Ｓ４）し、判定結果が否の場合は、未処理のトレーニングデータについてＳ１〜Ｓ３のステップを行う。
すべてのトレーニングデータについて、出力信号と教師データとの誤差の和を計算する（Ｓ５）。
バックプロパゲーション法により、１層および２層の重みパラメータ（Ｖ_ｊｋ、Ｗ_ｉｊ）を更新する（Ｓ６）。
（但し、上記（１）、（２）式中、δ_２ｋ（ｘ）及びδ_１ｊ（ｘ）は、それぞれ、下記（３）、（４）式で表される。）
次いで、テストデータに対する学習効率を計算する（Ｓ７）。学習効率の計算は、テストデータをニューラルネットワークに入力して、出力値を得、ニューラルネットワークの出力値（予測値）が０．５より大きい場合をリンカー配列に分類、それ以下をノンリンカー配列に分類したものとみなし、その正解率を計算することにより行った。
Ｓ７で計算した学習効率の計算値を保存する（Ｓ８）。
Ｓ６で更新した重みパラメータを保存する（Ｓ９）。
学習ステップ数が既定値を超えているか否かを判定し（Ｓ１０）、超えていない場合には、Ｓ１〜Ｓ９のステップを行う。学習ステップ数が既定値を超えている場合には、Ｓ１１に進む。
学習効率の計算値が最大となる最適ステップ数を決定する（Ｓ１１）。
最適ステップ数における重みパラメータを予測用パラメータに決定する（Ｓ１２）。トレーニングデータとテストデータを種々の組み合わせで使用する場合には、その組み合わせ毎に最適ステップ数が決定されるので、組み合わせの数だけ予測用パラメータが得られる。タンパク質のドメインリンカー領域を予測する際には、それぞれのパラメータ毎に予測のための一連の処理を行い、得られた各々の予測結果を最後に平均化するとよい（ニューラルネットワークの予測結果は数値で出力されるので、この値を平均化する）。
予測用パラメータを出力装置に出力させるとよい。
本願の第２発明は、立体構造未知のタンパク質のドメインリンカー領域を予測する方法であって、以下の工程：
立体構造未知のタンパク質のアミノ酸配列内に５〜３５残基の範囲のウィンドウをとるウィンドウ設定工程、
前記ウィンドウ内のアミノ酸配列を数値で表現した値を上記の方法で学習させた階層型ニューラルネットワークに入力して、出力値を求める入出力工程、
前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与工程、
前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させて、前記入出力工程および予測値付与工程を繰り返す工程、
前記予測値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測工程
を含むことを特徴とする前記方法を提供する。
前記入出力工程および予測値付与工程を繰り返す工程に続き、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとり、このウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出工程、
前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させて、前記平均値算出工程を繰り返す工程
を含んでもよい。この場合、前記ドメインリンカー領域予測工程において、前記予測値の平均値に対して前記閾値によるドメインリンカー領域の予測を行うとよい。
上記の予測方法において、立体構造未知のタンパク質とは、全長のタンパク質であってもよいし、タンパク質断片であってもよい。タンパク質のアミノ酸配列とは、そのタンパク質を構成するアミノ酸の種類とその並び方（アミノ酸配列）である。
立体構造未知のタンパク質のアミノ酸配列としては、種々のデータベース（例えば、ＧｅｎｅＢａｎｋ，ＰｒｏｔｅｉｎＤａｔａＢａｎｋ（ＰＤＢ），ＳＷＩＳＳＰＲＯＴ等に登録されているタンパク質のアミノ酸配列、新たに解析されたタンパク質のアミノ酸配列などを例示することができる。
「立体構造未知のタンパク質」には、タンパク質の全範囲の立体構造が未知のものも、タンパク質の立体構造の一部が既知で、残りが未知なものも含まれるものとする。
ウィンドウの位置を移動させる立体構造未知のタンパク質のアミノ酸配列の所望の範囲内としては、そのタンパク質のＮ末端およびＣ末端からそれぞれ６０残基までを除く範囲を例示することができるが、それらに限定されることはない。
ウィンドウのサイズは、５〜３５アミノ酸残基であるが、より好ましくは１０〜３５残基であり、更に好ましくは１９残基である。
上記のドメインリンカー領域予測方法において、ウィンドウ設定工程の前に、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力しておいてもよい。
上記の方法において、予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測してもよいし、予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域におけるアミノ酸残基の予測値の中で最も大きなものが予め設定したカットオフ値よりも大きい場合に、その領域をドメインリンカー領域と予測してもよい。
閾値は、ドメインリンカーとして予測される領域のサイズにどれだけの余裕をもたせるかを決定するものである。閾値を低くすると、予測領域のサイズが大きくなる。予測領域のサイズが大きくなれば、予測は粗くなるが、予測の正解率が上がる。
カットオフ値は、ｓｐｅｃｉｆｉｃｉｔｙ（ニューラルネットワークが予測してきたドメインリンカーのうちで正解の割合）とｓｅｎｓｉｔｉｖｉｔｙ（実際のドメインリンカーのうちニューラルネットワークが予測できたものの割合）を調節する。カットオフ値を大きくとれば、ｓｅｎｓｉｔｉｖｉｔｙは低くなる（すなわち、当てることができるドメインリンカーは限られてしまう）が、一方で、ｓｐｅｃｉｆｉｃｉｔｙは高くなる（予測されてきた領域については、正解である可能性が高くなる）。
本発明の予測方法では、与えられたタンパク質のアミノ酸配列内にウィンドウをとり、そのウィンドウ内のアミノ酸配列に対するニューラルネットワークの出力値を計算し、得られた出力値（０．０〜１．０の範囲の実数値）が前記ウィンドウ中央の残基のドメインリンカー傾向の予測値として付与される。
ここで、上記出力値は比較的変動しやすくなっているので、より信頼性に優れた予測結果を得るためには、求められた出力値の平均化を行うことが望ましい。即ち、上記タンパク質のアミノ酸配列内に平均化のためのウィンドウ（スムージングウィンドウと称する。）をとり、このスムージングウィンドウ内のアミノ酸残基間で各々のアミノ酸残基に対して与えられた予測値の平均化を行い、得られた平均値が上記スムージングウィンドウ中央の残基のドメインリンカー傾向の予測値とし直す。
このスムージングウィンドウの大きさとしては、所定残基数以上であればよく、例えば、１０アミノ酸残基以上であるとよく、より好ましくは１９残基とされる。１０残基よりも小さい範囲では、予測効率が低下し、信頼性に優れたリンカー予測を行うことが困難となる。
本発明では、このようにして得られた平均化された予測値に基づき、この予測値を与えたアミノ酸残基を含む配列がドメインリンカーか否かを識別するに際し、該予測値に対する閾値及びカットオフ値を設定し、これら閾値及びカットオフ値の設定値以上の範囲をドメインリンカーと定義する。これら閾値及びカットオフ値としては、０．５〜１．０であることが望ましい。０．５よりも低い範囲では、リンカー配列である部分を検出する感度（ｓｅｎｓｉｔｉｖｉｔｙ）は十分に確保できるものの、リンカー配列である正確さ（ｓｐｅｃｉｆｉｃｉｔｙ）が低くなってしまう。
図１３は、本発明のタンパク質のドメインリンカー領域を予測する方法の１実施形態を説明するためのフローチャートである。
まず、立体構造未知のタンパク質のアミノ酸配列（アミノ酸配列）データを入力する（Ｓ１４）。入力するデータは、例えば、立体構造未知のタンパク質のアミノ酸配列を数値で表現したものであるとよい。
ニューラルネットワークの出力値を計算する（Ｓ１５）。Ｓ１５のステップをもう少し詳細に説明すると、立体構造未知のタンパク質のアミノ酸配列内にウィンドウを設定し、そのウィンドウ内のアミノ酸配列データを上記の学習済み階層型ニューラルネットワークに入力して、出力値を計算するという工程をすべてのウィンドウ位置について行う。ニューラルネットワークの出力値は、そのウィンドウ内のアミノ酸配列の中央の残基がドメインリンカー領域の一部をなすか否かの予測値として、その中央残基に付与される。
次いで、スムージングウィンドウ（平均化ウィンドウ）内のアミノ酸残基間で予測値の平均化を行う（Ｓ１６）。スムージングウィンドウは、予測値の平均化を行うために、立体構造未知のタンパク質のアミノ酸配列内に設定する新たなウィンドウである。このスムージングウィンドウの位置は立体構造未知のタンパク質のアミノ酸配列内の所望の範囲内で移動させて、予測値の平均化を行う。
平均値が閾値より大きいアミノ酸残基からなる領域を決定する（Ｓ１７）。
Ｓ１７で決定した領域内のアミノ酸残基の予測値の平均値の中で最大のものがカットオフ値以上の領域をドメインリンカー領域とする（Ｓ１８）。あるいは、Ｓ１７で決定した領域をドメインリンカー領域としてもよい。
ドメインリンカー領域を出力装置に出力させるとよい。
本願の第３発明は、立体構造未知のタンパク質のドメインリンカー領域を予測するシステム（以下、「ドメインリンカー領域予測システム」という。）であって、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記システムを提供する。
ウィンドウのサイズは、５〜３５アミノ酸残基であるが、より好ましくは１０〜３５残基であり、更に好ましくは１９残基である。
新たなウィンドウのサイズは、所定残基数以上であればよいが、例えば、１０アミノ酸残基以上であるとよく、より好ましくは１９残基である。
２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークとしては、本願の第１発明の方法で学習させたニューラルネットワークが好ましい。
ウィンドウおよび平均化ウィンドウの位置を移動させる立体構造未知のタンパク質のアミノ酸配列の所望の範囲内としては、そのタンパク質のＮ末端およびＣ末端からそれぞれ６０残基までを除く範囲を例示することができるが、それらに限定されることはない。
本願の第４発明は、コンピュータを、立体構造未知のタンパク質のドメインリンカー領域を予測するシステムとして機能させるためのプログラムであって、前記システムが、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記プログラムを提供する。
本願の第５発明は、コンピュータを、立体構造未知のタンパク質のドメインリンカー領域を予測するシステムとして機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体であって、前記システムが、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記記録媒体を提供する。
このプログラムを記録した記録媒体は、ドメインリンカー領域予測システムのＲＯＭそのものであってもよいし、また、外部記憶装置としてＣＤ−ＲＯＭドライブ等のプログラム読取装置が設けられ、そこに記録媒体を挿入することで読取可能なＣＤ−ＲＯＭ等であってもよい。また、上記記録媒体は、磁気テープ、カセットテープ、フレキシブルディスク、ハードディスク、ＭＯ／ＭＤ／ＤＶＤ等、又は半導体メモリであってもよい。
図１４は、本発明のドメインリンカー領域予測システムの構成を示すブロック図である。本システムはコンピュータ１から成るものであり、ＣＰＵ２、ＲＯＭ３、ＲＡＭ４、入力部５、送信／受信部６、表示部７、ハードディスクドライブ８及びＣＤ−ＲＯＭドライブ９を備える。ＣＤ−ＲＯＭ１０の代わりに記録媒体として書き換え可能なＣＤ−Ｒ、ＣＤ−ＲＷを用いこともできる。その場合には、ＣＤ−ＲＯＭドライブ９の代わりにＣＤ−Ｒ又はＣＤ−ＲＷ用ドライブを設ける。なお、他にもＣＤ−ＲＯＭ１０の代わりに情報を保持する媒体として、ＤＶＤ、ＺｉＰ、ＭＯ、ＰＤとそれらの媒体を用い、それに対応するドライブを備える構成としても良い。
ＣＰＵ２は、ＲＯＭ３、ＲＡＭ４又はハードディスクドライブ（ＨＤＤ）８に記憶されているプログラムに従って、ドメインリンカー領域予測システム全体を制御し、後述するドメインリンカー領域予測処理を実行する。ＲＯＭ３はドメインリンカー領域予測システムの動作に必要な処理を命令するプログラム等を格納する。ＲＡＭ４はドメインリンカー領域予測処理を実行する上で必要なデータを一時的に格納する。入力部５は、キーボードやマウス等であり、ドメインリンカー領域予測システムを実行する上で必要な条件を入力するとき等に操作される。送信／受信部６は、ＣＰＵ２の命令に基づいて、通信回線を介してデータの送受信処理を実行する。表示部７は、入力情報や出力情報等を、ＣＰＵ２からの命令に基づいて表示する処理を実行する。ハードディスクドライブ（ＨＤＤ）８は、ドメインリンカー領域予測プログラム、データセット等を格納し、ＣＰＵ２の命令に基づいて格納しているプログラム、データ等を読み出し、例えばＲＡＭ４３に格納する。ＣＤ−ＲＯＭドライブ９は、ＣＰＵ２の指示に基づいてＣＤ−ＲＯＭ１０に格納されているドメインリンカー領域予測プログラム、データセット等からプログラム、データ等を読み出し、例えばハードディスクドライブ（ＨＤＤ）８に格納する。
図１５は、本発明のドメインリンカー領域予測システムの機能を説明するブロック図である。アミノ酸配列入力部１１では、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値が入力される。ウィンドウ設定部１２では、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウが設定される。ウィンドウ内アミノ酸配列入力部１３では、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値が入力される。出力値計算部１４では、前記階層型ニューラルネットワークにより出力値が計算される。予測値付与部１５では、前記出力値が前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与される。ウィンドウ位置移動部１６では、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させる。平均化ウィンドウ設定部１７では、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウが設定される。平均値算出部１８では、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化が行われて、平均値が求められる。平均化ウィンドウ移動部１９では、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる。ドメインリンカー領域予測部２０では、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域がドメインリンカー領域と予測される。
本願の第６発明は、下記の（ｉ）、（ｉｉ）または（ｉｉｉ）のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、予測されたドメインリンカー領域よりＮ末端側にある１つ以上の構造ドメインに相当するタンパク質断片を製造する方法を提供する。
（ｉ）上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
（ｉｉ）上記の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて５０番目のアミノ酸残基との間にあるいずれかの部位、
（ｉｉｉ）上記の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて１５番目のアミノ酸残基との間にあるいずれかの部位。
この方法により、予測されたドメインリンカー領域のＮ末端側に存在する構造ドメインの構造を壊さずにタンパク質を切断してタンパク質断片を得ることができる。
上記の（ｉｉ）の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて５０番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて３０番目のアミノ酸残基との間にある。
また、上記の（ｉｉｉ）の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて１５番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて１０番目のアミノ酸残基との間にある。
本願の第７発明は、下記の（ｉ）、（ｉｖ）または（ｖ）のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、予測されたドメインリンカー領域よりＣ末端側にある１つ以上の構造ドメインに相当するタンパク質断片を製造する方法を提供する。
（ｉ）上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
（ｉｖ）上記の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて５０番目のアミノ酸残基との間にあるいずれかの部位、
（ｖ）上記の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて１５番目のアミノ酸残基との間にあるいずれかの部位。
この方法により、予測されたドメインリンカー領域のＣ末端側に存在する構造ドメインの構造を壊さずにタンパク質を切断してタンパク質断片を得ることができる。
上記の（ｉｖ）の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて５０番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて３０番目のアミノ酸残基との間にある。
また、上記の（ｖ）の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて１５番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて１０番目のアミノ酸残基との間にある。
タンパク質断片を製造するには、公知の方法、すなわち、化学的合成法、遺伝子工学的方法などのいずれの方法を用いてもよい。
本願の第８発明は、下記の（ｉ）、（ｉｉ）または（ｉｉｉ）のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、予測されたドメインリンカー領域よりＮ末端側にある１つ以上の構造ドメインに相当するタンパク質断片を解析する方法を提供する。
（ｉ）上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
（ｉｉ）上記の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて５０番目のアミノ酸残基との間にあるいずれかの部位、
（ｉｉｉ）上記の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて１５番目のアミノ酸残基との間にあるいずれかの部位。
この方法により、予測されたドメインリンカー領域のＮ末端側に存在する構造ドメインの構造を壊さずにタンパク質を切断してタンパク質断片の構造を解析することができる。
上記の（ｉｉ）の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて５０番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて３０番目のアミノ酸残基との間にある。
また、上記の（ｉｉｉ）の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて１５番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて１０番目のアミノ酸残基との間にある。
本願の第９発明は、下記の（ｉ）、（ｉｖ）または（ｖ）のいずれかの部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、予測されたドメインリンカー領域よりＣ末端側にある１つ以上の構造ドメインに相当するタンパク質断片を解析する方法を提供する。
（ｉ）上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位、
（ｉｖ）上記の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて５０番目のアミノ酸残基との間にあるいずれかの部位、
（ｖ）上記の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて１５番目のアミノ酸残基との間にあるいずれかの部位。
この方法により、予測されたドメインリンカー領域のＣ末端側に存在する構造ドメインの構造を壊さずにタンパク質を切断してタンパク質断片の構造を解析することができる。
上記の（ｉｖ）の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて５０番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のＮ末端とそこからタンパク質のＮ末端側に向かって数えて３０番目のアミノ酸残基との間にある。
また、上記の（ｖ）の部位は、上記の方法で予測した少なくとも一つのドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて１５番目のアミノ酸残基との間にあるが、好ましくは、ドメインリンカー領域のＣ末端とそこからタンパク質のＣ末端側に向かって数えて１０番目のアミノ酸残基との間にある。
タンパク質断片の解析としては、Ｘ線結晶構造解析、ＮＭＲなどによるタンパク質立体構造解析の他、種々の生理活性の測定を例示することができる。
上記のタンパク質断片の製造・解析方法において、タンパク質断片とは、構造ドメインを含む概念である。
タンパク質を切断するには、公知の方法、すなわち、プロテアーゼを用いる酵素的方法、薬品を用いてペプチド鎖を切断する化学的分解法などのいずれを用いてもよい。
本願の第１０発明は、上記の方法で予測したドメインリンカー領域のアミノ酸配列データを記録媒体に記録する工程を含む、ドメインリンカーデータベースの構築方法を提供する。
本願の第１１発明は、上記の方法で予測した少なくとも一つのドメインリンカー領域の任意の部位でタンパク質を切断することにより得られる構造ドメインのアミノ酸配列データを記録媒体に記録する工程を含む、構造ドメインデータベースの構築方法を提供する。
記録媒体としては、磁気テープ、カセットテープ、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ／ＭＤ／ＤＶＤ等、又は半導体メモリを例示することができる。
本願の第１２発明は、下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有するペプチドであって、マルチドメインタンパク質のドメインリンカーとして機能しうるペプチドを提供する。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ_ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ_ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
上記のペプチドは、マルチドメインタンパク質のドメインリンカーとして機能しうる限り、上記の（ｉ）および（ｉｉ）の条件を満たす配列パターンのみから構成されてもよいし、他のアミノ酸配列を含んでもよい。
ｇ（ｘ）の数値範囲は、０．５〜１．０が好ましい。０．５よりも低い値では予測の精度が低下し、信頼性の点で問題が生じる。
本願の第１３発明は、上記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する方法を提供する。例えば、種々のデータベース（例えば、ＧｅｎｅＢａｎｋ，ＰＤＢ，ＳＷＩＳＳＰＲＯＴ）等に登録されているタンパク質のアミノ酸配列、新たに解析されたタンパク質のアミノ酸配列などから、上記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを検出することにより、その配列パターンを有する領域をドメインリンカー領域と予測することができる。
本願の第１４発明は、上記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することを特徴とするタンパク質を構造ドメインに分割する方法を提供する。
タンパク質を切断するには、公知の方法、すなわち、プロテアーゼを用いる酵素的方法、薬品を用いてペプチド鎖を切断する化学的分解法などのいずれを用いてもよい。
本願の第１５発明は、上記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを製造する工程を含む、タンパク質断片を製造する方法を提供する。
タンパク質断片を製造するには、公知の方法、すなわち、化学的合成法、遺伝子工学的方法などのいずれの方法を用いてもよい。
本願の第１６発明は、上記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域の任意の部位でタンパク質を切断することにより得られるタンパク質断片の少なくとも一つを解析する工程を含む、タンパク質断片を解析する方法を提供する。
タンパク質断片の解析としては、Ｘ線結晶構造解析、ＮＭＲなどによるタンパク質立体構造解析の他、種々の生理活性の測定を例示することができる。
上記のタンパク質断片の製造・解析方法において、タンパク質断片とは、構造ドメインを含む概念である。
タンパク質を切断するには、公知の方法、すなわち、プロテアーゼを用いる酵素的方法、薬品を用いてペプチド鎖を切断する化学的分解法などのいずれを用いてもよい。
本願の第１７発明は、上記の（ｉ）及び（ｉｉ）の条件を満たす配列パターンを有するペプチドを用いて、新規なドメインリンカーを設計し、少なくとも２つタンパク質断片をつなげる事によって新たなマルチドメインタンパク質を製造する方法を提供する。
タンパク質断片を製造するには、公知の方法、すなわち、化学的合成法、遺伝子工学的方法などのいずれの方法を用いてもよい。
本願の第１８発明は、ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域（ｌｉｎｋｅｒｓｅｑｕｅｎｃｅ）及び非ドメインリンカーループ領域（ｎｏｎ−ｌｉｎｋｅｒｌｏｏｐｓｅｑｕｅｎｃｅ）を抽出する工程、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ（ここで、Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ｘ_ａａの出現確率である）及び、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ここで、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中でアミノ酸残基をｍ個あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率である）を求める工程
を含み、上記ドメインリンカー領域のアミノ酸配列上の特徴から構造未知のマルチドメインタンパク質配列のドメインリンカー領域を予測及び／又は検出する方法を提供する。
本願の第１８発明において、上記構造既知のマルチドメインタンパク質データベースは、タンパク質のアミノ酸配列と構造座標の両方の情報が提供される，例えばＳＣＯＰ、ｎｒ−ＰＤＢ等の公開データベースより作成される。また、選択手法の一例としては、ＤＳＳＰ、Ｖｉｓｕａｌｉｎｓｐｅｃｔｉｏｎを挙げることができるが、これらに限定されることはない。
本願の第１８発明においては、上記構造既知のマルチドメインタンパク質データベースからドメインリンカー領域及び非ドメインリンカーループ領域を抽出し、各領域に対応するアミノ酸配列をデータセットとして用いる。
図１７〜１９に抽出されたドメインリンカー領域の一例を示す。図１７の表に示したように、データセットとしては、ＰＤＢｃｈａｉｎ、長さ、ドメインリンカー領域の位置、タンパク質の名前等を用意しておくとよい。
一方、上記非ドメインリンカーループ領域は、上記構造既知のマルチドメインタンパク質データベース中のループ領域から上記ドメインリンカー領域とＮ／Ｃ両末端に位置する領域をそれぞれ除いたものである。
これらドメインリンカー領域及び非ドメインリンカーループ領域を抽出するには、以下の基準を用いるとよい。
まず、ＤＳＳＰ等によって示された長さが４残基以上のループ領域を抽出する。このループ領域中、あるいはループ領域端にＳＣＯＰ等の公開データベースで定義されているドメイン境界を含むものをドメインリンカー領域とし、該ドメインリンカー領域以外で且つＮ／Ｃ両末端に位置していない領域を非ドメインリンカーループ領域として分類する。
また、上記ドメインリンカー領域及び上記非ドメインリンカーループ領域のアミノ酸配列の統計処理に基づいて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ、及び任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎを求めるには、以下のようにするとよい。
まず、対象となるドメインリンカー領域（又は非ドメインリンカーループ領域）のアミノ酸配列に含まれる全アミノ酸残基数をＮ_{ｔｏｔａｌ}とし、該アミノ酸配列中のあるアミノ酸残基Ｘ_ａａの出現頻度をＮ_Ｘａａとする時、
また、対象となるドメインリンカー領域（又は非ドメインリンカーループ領域）のアミノ酸配列に含まれる長さｍ＋２（ｍは整数、ｍ＝０，１，２）の全部分配列パターン数をＮ_{ｔｏｔａｌ（ｍ）}とし、該アミノ酸配列中のアミノ酸残基Ｘ_ａａ及びＹ_ａａが任意のアミノ酸残基ｍ個あいだに置いて出現する頻度（Ｘ_ａａとＹ_ａａの順序は問わない）をＮ_{ＸａａＹａａ（ｍ）}とする時、
これらＰ_Ｘａａ ^ＬとＰ_{ＸａａＹａａ（ｍ）} ^Ｌ（又はＰ_Ｘａａ ^ＮとＰ_{ＸａａＹａａ（ｍ）} ^Ｎ）は、構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び／又は検出するのに利用することができる。
また、本願の第１８発明において、ドメインリンカー領域及び非ドメインリンカーループ領域を抽出する際に、抽出された各領域のアミノ酸配列の長さに応じて、長いものと短いものに分け、長い場合と短い場合とで、別々にアミノ酸の出現確率を求め、それぞれの場合における配列の特徴を定式化することにより、各々の場合における判別関数を適用したドメインリンカー領域の予測を行うことが望ましい。このように、アミノ酸配列の長さに応じた「リンカーらしさ」の傾向をドメインリンカー予測に反映させることにより、予測精度の向上を図ることができる。この場合、アミノ酸配列の長いもののアミノ酸残基数Ｌ_Ｌは８残基以上５０残基以下の範囲であることが望ましく、より望ましくは１０残基以上５０残基以下の範囲である。短いもののアミノ酸残基数Ｌ_Ｓは４残基以上１２残基以下の範囲であることが望ましく、より望ましくは４残基以上９残基以下の範囲である。ループ領域のアミノ酸配列の長さを上述の範囲で分けて、それぞれについて、特徴抽出を行うことにより、より的確な判別関数が得られ、高精度な予測を行うことが可能となる。
実際に、１０＜Ｌ_Ｌ＜５０、４＜Ｌ_Ｓ＜９として、ドメインリンカー予測を行ったところ、予測された領域の５２％が実際のリンカー領域に合致し（特異性）、またＳＣＯＰ由来のドメインリンカーの４５％が予測された（感度）。
本願の第１９発明は、ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域（ｌｉｎｋｅｒｓｅｑｕｅｎｃｅ）及び非ドメインリンカーループ領域（ｎｏｎ−ｌｉｎｋｅｒｌｏｏｐｓｅｑｕｅｎｃｅ）を抽出する手段、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ（ここで、Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ｘ_ａａの出現確率である）及び、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ここで、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中でアミノ酸残基をｍ個あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率である））を求める手段
を含み、上記ドメインリンカー領域のアミノ酸配列上の特徴から構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び／又は検出するシステム（以下、「ドメインリンカー領域予測・検出システム」という）を提供する。
図２０は、本願の第１８発明の一実施の形態によるドメインリンカー領域予測・検出方法ないしは本願の第１９発明の一実施の形態によるドメインリンカー領域予測・検出システムの動作を説明するフローチャートである。
ステップＳ１００１では、構造既知のマルチドメインタンパク質データベースから配列情報を入力する。ステップＳ１００２では、ドメインリンカー配列部分（ｌｉｎｋｅｒｓｅｑｕｅｎｃｅ）を抽出する。ステップＳ１００３では、非ドメインリンカーループ配列部分（ｎｏｎ−ｌｉｎｋｅｒｌｏｏｐｓｅｑｕｅｎｃｅ）も抽出する。そして、ステップＳ１００４で各配列部分のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎを求める。続いて、ステップＳ１００５で各配列部分のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基ｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基ＸａａとＹａａが出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ＸａａとＹａａの順序は問わない）を求める。ステップＳ１００６では、Ｐ_Ｘａａ ^ＬとＰ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_Ｘａａ ^ＮとＰ_{ＸａａＹａａ（ｍ）} ^Ｎ）を利用して、構造未知のマルチドメインタンパク質中のドメインリンカー領域を予測及び／又は検出する。ステップＳ１００７では、結果を出力する。結果の出力は、例えば、予測の対象となったアミノ酸配列、予測されたドメインリンカー領域の位置，長さ及び優先順位などを表示する。
図２１は、本発明の一実施の形態によるドメインリンカー領域予測・検出システムの構成を示すブロック図である。本システムはコンピュータ１０１から成るものであり、ＣＰＵ１０２、ＲＯＭ１０３、ＲＡＭ１０４、入力部１０５、送信／受信部１０６、表示部１０７、ハードディスクドライブ１０８及びＣＤ−ＲＯＭドライブ１０９を備える。ＣＤ−ＲＯＭ１１０の代わりに記録媒体として書き換え可能なＣＤ−Ｒ、ＣＤ−ＲＷを用いこともできる。その場合には、ＣＤ−ＲＯＭドライブ１０９の代わりにＣＤ−Ｒ又はＣＤ−ＲＷ用ドライブを設ける。なお、他にもＣＤ−ＲＯＭ１１０の代わりに情報を保持する媒体として、ＤＶＤ、ＺｉＰ、ＭＯ、ＰＤとそれらの媒体を用い、それに対応するドライブを備える構成としても良い。
ＣＰＵ１０２は、ＲＯＭ１０３、ＲＡＭ１０４又はハードディスクドライブ（ＨＤＤ）１０８に記憶されているプログラムに従って、ドメインリンカー領域予測・検出システム全体を制御し、後述するドメインリンカー領域予測・検出処理を実行する。ＲＯＭ１０３はドメインリンカー領域予測・検出システムの動作に必要な処理を命令するプログラム等を格納する。ＲＡＭ１０４はドメインリンカー領域予測・検出処理を実行する上で必要なデータを一時的に格納する。入力部１０５は、キーボードやマウス等であり、ドメインリンカー領域予測・検出システムを実行する上で必要な条件を入力するとき等に操作される。送信／受信部１０６は、ＣＰＵ１０２の命令に基づいて、通信回線を介してデータの送受信処理を実行する。表示部１０７は、入力情報や出力情報等を、ＣＰＵ１０２からの命令に基づいて表示する処理を実行する。ハードディスクドライブ（ＨＤＤ）８は、ドメインリンカー領域予測・検出プログラム、データセット（図１７〜１９参照）等を格納し、ＣＰＵ１０２の命令に基づいて格納しているプログラム、データ等を読み出し、例えばＲＡＭ１０４に格納する。ＣＤ−ＲＯＭドライブ１０９は、ＣＰＵ１０２の指示に基づいてＣＤ−ＲＯＭ１１０に格納されているドメインリンカー領域予測・検出プログラム、データセット等からプログラム、データ等を読み出し、例えばハードディスクドライブ（ＨＤＤ）１０８に格納する。
図２２は、本願の第１９発明の一実施の形態によるドメインリンカー領域予測・検出システムの機能を説明するブロック図である。ドメインリンカー配列部分抽出部１０２１では、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分が抽出される。非ドメインリンカーループ配列部分抽出部１０２２では、構造既知のマルチドメインタンパク質データベースから非ドメインリンカーループ配列部分が抽出される。Ｐ_Ｘａａ ^Ｌ（Ｐ_Ｘａａ ^Ｎも同様。）算出部１０２３では、ドメインリンカー配列部分および非ドメインリンカーループ配列部分のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘａａの出現する確率Ｐ_Ｘａａ ^Ｌ（Ｐ_Ｘａａ ^Ｎ）が求められる。Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎも同様。）算出部１０２４では、ドメインリンカー配列部分および非ドメインリンカーループ配列部分のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基ｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基ＸａａとＹａａ（ＸａａとＹａａの順序は問わない）が出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）が求められる。
本願の第２０発明は、コンピュータを、本願の第１９発明のシステムとして機能させるためのプログラムを提供する。
本願の第２１発明は、本願の第１８発明の方法で予測した、構造未知のマルチドメインタンパク質中のドメインリンカー領域のいずれかの部位で、前記マルチドメインタンパク質を切断することにより生成するタンパク質断片を構造ドメインと予測する工程を含む、構造ドメインの予測方法を提供する。
図２３は、本願の第２１発明の一実施の形態による構造ドメイン予測方法のフローチャートである。ステップＳ１０１１〜Ｓ１０１６は図２０のステップＳ１００１〜Ｓ１００６と同じである。ステップＳ１０１７では、Ｓ１０１６で予測したドメインリンカー領域のいずれかの部位で、マルチドメインタンパク質を切断して得られたタンパク質断片を構造ドメインと予測する。ステップＳ１０１８では、結果を出力する。結果の出力は、例えば、予測の対象となったアミノ酸配列、予測された構造ドメインの位置および大きさなどを表示する。
本願の第２２発明は、本願の第２１発明の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を製造する工程を含む、タンパク質の製造方法を提供する。タンパク質を製造するには、公知の方法、すなわち、化学的合成法、遺伝子工学的方法などのいずれの方法を用いてもよい。
本願の第２３発明は、本願の第２１発明の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を解析する工程を含む、タンパク質の解析方法を提供する。タンパク質断片の解析としては、Ｘ線結晶構造解析、ＮＭＲなどによるタンパク質立体構造解析の他、種々の生理活性の測定を例示することができる。
本願の第２４発明は、ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域（ｌｉｎｋｅｒｓｅｑｕｅｎｃｅ）及び非ドメインリンカーループ領域（ｎｏｎ−ｌｉｎｋｅｒｌｏｏｐｓｅｑｕｅｎｃｅ）を抽出する手段、およびｉｉ）各領域のアミノ酸配列の統計処理に基付いて、アミノ酸残基Ｘ_ａａの出現する確率Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎ（ここで、Ｐ_Ｘａａ ^Ｌ，Ｐ_Ｘａａ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ｘ_ａａの出現確率である）を求める手段
ｉｉｉ）下記の計算式によりアミノ酸残基Ｘ_ａａの出現傾向パラメータＳ_Ｘａａを求める手段
Ｓ_Ｘａａ＝ｌｏｇ（Ｐ_Ｘａａ ^Ｌ／Ｐ_Ｘａａ ^Ｎ）
（但し、Ｐ_Ｘａａ ^ＬとＰ_Ｘａａ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする。）
を含む、アミノ酸残基の出現傾向パラメータ算出システムを提供する。
図２４は、本願の第２４発明の一実施の形態による任意のアミノ酸残基の出現傾向パラメータ算出システムの動作を説明するフローチャートである。ステップＳ１０２１〜Ｓ１０２５は図２０のステップＳ１００１〜Ｓ１００５と同じである。ステップＳ１０２６では、Ｓ_Ｘａａ＝ｌｏｇ（Ｐ_Ｘａａ ^Ｌ／Ｐ_Ｘａａ ^Ｎ）（但し、Ｐ_Ｘａａ ^ＬとＰ_Ｘａａ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする）の計算式でアミノ酸残基Ｘ_ａａの出現傾向パラメータＳ_Ｘａａを求める。ステップＳ１０２７では、ステップＳ１０２６で得られたアミノ酸残基Ｘ_ａａの出現傾向パラメータＳ_Ｘａａの計算値を出力する。結果の出力は、例えば、各アミノ酸残基毎のＳ_Ｘａａの値などを表示する。ステップＳ１０２７は省略されてもよい。結果を次の処理（例えば、判別スコアの計算処理など）に利用する場合などには、ステップＳ１０２７は省略される。
本願の第２４発明の任意のアミノ酸残基の出現傾向パラメータ算出システムは、図２１に示したものと同様のコンピュータによって実現され、例えば、図２５に示すドメインリンカー配列部分抽出部１０３１、非ドメインリンカーループ配列部分抽出部１０３２、Ｐ_Ｘａａ ^Ｌ（Ｐ_Ｘａａ ^Ｎ）算出部１０３３、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）算出部１０３４、およびＳ_Ｘａａ算出部１０３５を備える。ドメインリンカー配列部分抽出部１０３１、非ドメインリンカーループ配列部分抽出部１０３２、Ｐ_Ｘａａ ^Ｌ（Ｐ_Ｘａａ ^Ｎ）算出部１０３３、およびＰ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）算出部１０３４は、それぞれ、図２２のドメインリンカー配列部分抽出部１０２１、非ドメインリンカーループ配列部分抽出部１０２２、Ｐ_Ｘａａ ^Ｌ（Ｐ_Ｘａａ ^Ｎ）算出部１０２３、およびＰ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）算出部１０２４と同様である。Ｓ_Ｘａａ算出部１０３５では、Ｓ_Ｘａａ＝ｌｏｇ（Ｐ_Ｘａａ ^Ｌ／Ｐ_Ｘａａ ^Ｎ）（但し、Ｐ_Ｘａａ ^ＬとＰ_Ｘａａ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする）の計算式でアミノ酸残基Ｘ_ａａの出現傾向パラメータＳ_Ｘａａが求められる。
本願の第２５発明は、コンピュータを、本願の第２４発明のシステムとして機能させるためのプログラムを提供する。
本願の第２６発明は、ｉ）構造既知のマルチドメインタンパク質データベースからドメインリンカー領域（ｌｉｎｋｅｒｓｅｑｕｅｎｃｅ）及び非ドメインリンカーループ領域（ｎｏｎ−ｌｉｎｋｅｒｌｏｏｐｓｅｑｕｅｎｃｅ）を抽出する手段、および
ｉｉ）各領域のアミノ酸配列の統計処理に基付いて、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ（ここで、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ，Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中でアミノ酸残基をｍ個あいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａが出現する（Ｘ_ａａとＹ_ａａの順序は問わない）確率である）を、ｍが０，１，２の場合ついてそれぞれ求める手段、
ｉｉｉ）下記の計算式によりアミノ酸残基対Ｘ_ａａ，Ｙ_ａａの出現傾向パラメータＳ_{ＸａａＹａａ（ｍ）}を求める手段
（但し、Ｐ_{ＸａａＹａａ（ｍ）} ^ＬとＰ_{ＸａａＹａａ（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする。）
を含む、アミノ酸残基対の出現傾向パラメータ算出システムを提供する。
図２６は、本願の第２６発明の一実施の形態によるアミノ酸残基対の出現傾向パラメータ算出システムの動作を説明するフローチャートである。ステップＳ１０３１〜Ｓ１０３５は図２０のステップＳ１００１〜Ｓ１００５と同じである。ステップＳ１０３６では、Ｓ_{ＸａａＹａａ（ｍ）}＝ｌｏｇ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ／Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）（但し、Ｐ_{ＸａａＹａａ（ｍ）} ^ＬとＰ_{ＸａａＹａａ（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする）の計算式でアミノ酸残基対Ｘ_ａａとＹ_ａａの出現傾向パラメータＳ_{ＸａａＹａａ（ｍ）}を求める。ステップＳ１０３７では、ステップＳ１０３６で得られたアミノ酸残基対Ｘ_ａａ，Ｙ_ａａの出現傾向パラメータＳ_{ＸａａＹａａ（ｍ）}の計算値を出力する。結果の出力は、例えば、各アミノ酸残基ペア毎のＳ_{ＸａａＹａａ（ｍ）}の値などを表示する。ステップＳ１０３７は省略されてもよい。結果を次の処理（例えば、判別スコアの計算処理など）に利用する場合などには、ステップＳ１０３７は省略される。
本願の第２６発明の任意のアミノ酸残基対の出現傾向パラメータ算出システムは、図２１に示したものと同様のコンピュータによって実現され、例えば、図２７に示すドメインリンカー配列部分抽出部１０４１、非ドメインリンカーループ配列部分抽出部１０４２、Ｐ_Ｘａａ ^Ｌ（Ｐ_Ｘａａ ^Ｎ）算出部１０４３、Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）算出部１０４４、およびＳ_{ＸａａＹａａ（ｍ）}算出部１０４５を備える。ドメインリンカー配列部分抽出部１０４１、非ドメインリンカーループ配列部分抽出部１０４２、Ｐ_Ｘａａ ^Ｌ（Ｐ_Ｘａａ ^Ｎ）算出部１０４３、およびＰ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）算出部１０４４は、それぞれ、図２２のドメインリンカー配列部分抽出部１０２１、非ドメインリンカーループ配列部分抽出部１０２２、Ｐ_Ｘａａ ^Ｌ（Ｐ_Ｘａａ ^Ｎ）算出部１０２３、およびＰ_{ＸａａＹａａ（ｍ）} ^Ｌ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）算出部１０２４と同様である。Ｓ_{ＸａａＹａａ（ｍ）}算出部１０４５では、Ｓ_{ＸａａＹａａ（ｍ）}＝ｌｏｇ（Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ／Ｐ_{ＸａａＹａａ（ｍ）} ^Ｎ）（但し、Ｐ_{ＸａａＹａａ（ｍ）} ^ＬとＰ_{ＸａａＹａａ（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_Ｘａａ＝０とする）の計算式でアミノ酸残基対Ｘ_ａａ，Ｙ_ａａのの出現傾向パラメータＳ_{ＸａａＹａａ（ｍ）}が求められる。
本願の第２７発明は、コンピュータを、本願の第２６発明のシステムとして機能させるためのプログラムを提供する。
本願の第２８発明は、アミノ酸残基数がＬ_１個（Ｌ_１は１以上２１以下の整数）のアミノ酸配列についてリンカー度判別スコアＦ_１を求めるシステムであって、
ｉ）下記の計算式によりあるアミノ酸残基Ａ_ｋのリンカー傾向スコアＦ_１ｓを求める手段、
（式中、Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする。ここで、Ｐ_Ａｋ ^Ｌ，Ｐ_Ａｋ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｋの出現確率である。）
ｉｉ）下記の計算式により任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基対Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}のリンカー傾向スコアＦ_１ｐを求める手段、および
（式中、Ｓ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎ）、及び
但し、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎ、又はＰ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｎ間に統計的有意差がない場合は、Ｓ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）}＝０、又はＳ_{ＡｋＡｋ−（ｍ＋１）（ｍ）}＝０とする。
ここで、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基Ａ_ｋとＡ_{ｋ−（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ−（ｍ＋１）}の順序は問わない）確率である。）
ｉｉｉ）下記の計算式によりリンカー度判別スコアＦ_１を求める手段
Ｆ_１＝Ｆ_１ｓ＋α_１Ｆ_１ｐ
（式中、０＜α_１＜１）
を含む、前記システムを提供する。
ドメインリンカー配列集合は、少なくとも１本のドメインリンカー配列を含むアミノ酸配列の集合であり、例えば、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分を抽出して得られたものなどを挙げることができる。
非ドメインリンカーループ配列集合は、少なくとも１本の非ドメインリンカーループ配列を含むアミノ酸配列の集合であり、例えば、構造既知のマルチドメインタンパク質データベースから非ドメインリンカーループ配列部分を抽出して得られたものなどを挙げることができる。
図２８は、本願の第２８発明の一実施の形態によるアミノ酸残基ペア傾向スコア算出システムの動作を説明するフローチャートである。
ステップＳ１０４１では、配列情報を入力する。入力する配列情報は、いかなる配列情報であってもよく、例えば、構造既知のマルチドメインタンパク質データベースからのアミノ酸配列情報、構造未知のタンパク質データベースからのアミノ酸配列情報、データベースには登録されていない新たに見出された配列情報などを挙げることができる。
ステップＳ１０４２では、下記の計算式で任意のアミノ酸残基の出現傾向スコアＦ_１ｓを求める。
（式中、Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
（式中、Ｐ_Ａｋ ^Ｌはドメインリンカー配列集合におけるアミノ酸残基Ａ_ｋの出現確率であり、Ｐ_Ａｋ ^Ｎは非ドメインリンカーループ配列集合におけるアミノ酸残基Ａ_ｋの出現確率であり、但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする）
ステップＳ１０４３では、下記の計算式でアミノ酸残基対の出現傾向スコアＦ_１ｐを求める。
（式中、Ｓ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎ）
（式中、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｌは、ドメインリンカー配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ＋（ｍ＋１）}の順序は問わない）確率であり、但し、Ｐ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）} ^Ｎ間に統計的有意差がない場合は、Ｓ_{ＡｋＡｋ＋（ｍ＋１）（ｍ）}＝０とする）
（式中、Ｓ_{ＡｋＡｋ−（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｎ）
（式中、Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｌは、ドメインリンカー配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｋとＡ_{ｋ−（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ−（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｎは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｋとＡ_{ｋ−（ｍ＋１）}が出現する（Ａ_ｋとＡ_{ｋ−（ｍ＋１）}の順序は問わない）確率であり、但し、Ｐ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｋＡｋ−（ｍ＋１）（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_{ＡｋＡｋ−（ｍ＋１）（ｍ）}＝０とする）
ステップＳ１０４４では、下記の計算式で、残基数がＬ_１個のアミノ酸配列についてリンカー度判別スコアＦ_１を求める。
Ｆ_１＝Ｆ_１ｓ＋α_１Ｆ_１ｐ
（式中、０＜α_１＜１）
ステップＳ１０４５では、ステップＳ１０４４で得られたリンカー度判別スコアＦ_１を出力する。結果の出力は、例えば、アミノ酸配列、各アミノ酸配列毎のＦ_１の値などを表示する。ステップＳ１０４５は省略されてもよい。結果を次の処理（例えば、ドメインリンカーのデータベースの構築処理など）に利用する場合などには、ステップＳ１０４５は省略される。
本願の第２８発明のリンカー度判別スコアＦ_１ｓを求めるシステムは、図２１に示したものと同様のコンピュータによって実現され、例えば、図２９に示すＦ_１ｓ算出部１０５１、Ｆ_１ｐ算出部１０５２、およびＦ_１算出部１０５３を備える。Ｆ_１ｓ算出部１０５１では、上記の計算式でアミノ酸残基の出現傾向スコアＦ_１ｓが求められる。Ｆ_１ｐ算出部１０５２では、上記の計算式でアミノ酸残基対の出現傾向スコアＦ_１ｐが求められる。Ｆ_１算出部１０５３では、上記の計算式でリンカー度判別スコアＦ_１が求められる。
本願の第２９発明は、コンピュータを、本願の第２８発明のシステムとして機能させるためのプログラムを提供する。
本願の第３０発明は、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）のアミノ酸配列において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求める方法であって、
ｉ）下記の計算式によりあるアミノ酸残基Ａ_ｋのリンカー傾向スコアＦ_１１ｓ（ｉ）を求める工程、
（式中、Ｗはウィンドウ幅であって、Ｗ＝２ｗ＋１、
Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする。ここで、Ｐ_Ａｋ ^Ｌ，Ｐ_Ａｋ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｋの出現確率である。）
ｉｉ）下記の計算式により任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}のリンカー傾向スコアＦ_１１ｐ（ｉ）を求める工程、および
（式中、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎ）、及び
但し、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎの、又はＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝０、又はＳ_{ＡｉＡｉ−（ｍ＋１）（ｍ）}＝０とする。
ここで、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ−（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ−（ｍ＋１）}の順序は問わない）確率である。）
ｉｉｉ）下記の計算式により位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求める工程
Ｆ_１１（ｉ）＝Ｆ_１１ｓ（ｉ）＋α_１１Ｆ_１１ｐ（ｉ）
（式中、０＜α_１１＜１）
を含む、前記方法を提供する。
図５３にウィンドウのとり方を示す。
ウィンドウ幅Ｗは、５〜２１であるとよく、好ましくは９〜１３である。
本願の第３１発明は、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）のアミノ酸配列において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求めるシステムであって、
ｉ）下記の計算式によりあるアミノ酸残基Ａ_ｋのリンカー傾向スコアＦ_１１ｓ（ｉ）を求める手段、
（式中、Ｗはウィンドウ幅であって、Ｗ＝２ｗ＋１、
Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする。ここで、Ｐ_Ａｋ ^Ｌ，Ｐ_Ａｋ ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｋの出現確率である。）
ｉｉ）下記の計算式により任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}のリンカー傾向スコアＦ_１１ｐ（ｉ）を求める手段、および
（式中、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}（．．）^Ｎ）、及び
但し、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎの、又はＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝０、又はＳ_{ＡｉＡｉ−（ｍ＋１）（ｍ）}＝０とする。
ここで、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｌ，Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基対Ａ_ｉとＡ_{ｉ−（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ−（ｍ＋１）}の順序は問わない）確率である。）
ｉｉｉ）下記の計算式により位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１１（ｉ）を求める手段
Ｆ_１１（ｉ）＝Ｆ_１１ｓ（ｉ）＋α_１１Ｆ_１１ｐ（ｉ）
（式中、０＜α_１１＜１）
を含む、前記システムを提供する。
図３０は、本願の第３０発明の一実施の形態によるリンカー度判別スコアＦ_１１（ｉ）を求める方法ないしは本願の第３１発明のリンカー度判別スコアＦ_１１（ｉ）を求めるシステムの動作を説明するフローチャートである。
ステップＳ１０６１では、配列情報を入力する。入力する配列情報は、いかなる配列情報であってもよく、例えば、構造既知のマルチドメインタンパク質データベースからの配列情報、構造未知のタンパク質データベースからの配列情報、データベースには登録されていない新たに見出された配列情報などを挙げることができる。
ステップＳ１０６２では、下記の計算式で任意のアミノ酸残基の出現傾向スコアＦ_１１ｓ（ｉ）を求める。
（式中、Ｗはウィンドウ幅であって、Ｗ＝２ｗ＋１、
Ｓ_Ａｋ＝ｌｏｇ（Ｐ_Ａｋ ^Ｌ／Ｐ_Ａｋ ^Ｎ）
（式中、Ｐ_Ａｋ ^Ｌはドメインリンカー配列集合におけるアミノ酸残基Ａｋの出現確率であり、Ｐ_Ａｋ ^Ｎは非ドメインリンカーループ配列集合におけるアミノ酸残基Ａｋの出現確率であり、但し、Ｐ_Ａｋ ^ＬとＰ_Ａｋ ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｋ＝０とする）
ステップＳ１０６３では、下記の計算式で任意のアミノ酸残基対の出現傾向スコアＦ_１１ｐ（ｉ）を求める。
（式中、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝ｌｏｇ（Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌ／Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎ）
（式中、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｌは、ドメインリンカー配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ＋（ｍ＋１）}の順序は問わない）確率であり、但し、Ｐ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_{ＡｉＡｉ＋（ｍ＋１）（ｍ）}＝０とする）
（式中、Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｌは、ドメインリンカー配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｉとＡ_{ｉ−（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ−（ｍ＋１）}の順序は問わない）確率であり、Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｉとＡ_{ｉ−（ｍ＋１）}が出現する（Ａ_ｉとＡ_{ｉ−（ｍ＋１）}の順序は問わない）確率であり、但し、Ｐ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^ＬとＰ_{ＡｉＡｉ−（ｍ＋１）（ｍ）} ^Ｎの間に統計的有意差がない場合は、Ｓ_{ＡｉＡｉ−（ｍ＋１）（ｍ）}＝０とする）
ステップＳ１０６４では、下記の計算式で、位置ｉのアミノ酸残基についてリンカー度判別スコアＦ_１１（ｉ）を求める。
Ｆ_１１（ｉ）＝Ｆ_１１ｓ（ｉ）＋α_１１Ｆ_１１ｐ（ｉ）
（式中、０＜α_１１＜１）
ステップＳ１０６２〜Ｓ１０６４は、１以上Ｌ_２以下の範囲にあるすべての位置ｉのアミノ酸残基Ａｉについて行われる。
ステップＳ１０６５では、ステップＳ１０６４で得られたリンカー度判別スコアＦ_１１（ｉ）を出力する。結果の出力は、例えば、アミノ酸配列、位置ｉとそれに対応したＦ_１１（ｉ）の値などを表示する。ステップＳ１０６５は省略されてもよい。結果を次の処理（例えば、ドメインリンカーの予測処理など）に利用する場合などには、ステップＳ１０６５は省略される。
本願の第３１発明のリンカー度判別スコアＦ_１１（ｉ）を求めるシステムは、図２１に示したものと同様のコンピュータによって実現され、例えば、図３１に示すＦ_１１ｓ（ｉ）算出部１０７１、Ｆ_１１ｐ（ｉ）算出部１０７２、およびＦ_１１（ｉ）算出部１０７３を備える。Ｆ_１１ｓ（ｉ）算出部１０７１、Ｆ_１１ｐ（ｉ）算出部１０７２、およびＦ_１１（ｉ）算出部１０７３では、それぞれ、上記の計算式で、Ｆ_１１ｓ（ｉ）、Ｆ_１１ｐ（ｉ）、およびリンカー度判別スコアＦ_１１（ｉ）が求められる。
本願の第３２発明は、コンピュータを、本願の第３１発明のシステムとして機能させるためのプログラムを提供する。
本願の第３３発明は、ｎ（ｎは１以上の整数）本の相同配列ｓｅｑ．１〜ｓｅｑ．ｎが存在することが知られているアミノ酸残基数がＬ_２個（Ｌ_２は２２以上の整数）のアミノ酸配列ｓｅｑ．０において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求める方法であって、
ｉ）ｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎをアライメントし、ｓｅｑ．０中の位置ｉにあるアミノ酸残基Ａｉ^０に対応するｓｅｑ．ｋ（ｋは１以上ｎ以下の整数）中のアミノ酸残基Ａ_ｉ ^ｋを同定する工程、
ｉｉ）位置ｉのアミノ酸残基Ａｉについて、下記の計算式でパラメータＳ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）を求める工程、
（式中、ｎ_ｇａｐ１はＡ_ｉ ^ｋ中に出現するギャップの数、
Ｓ_Ａｉｋ＝ｌｏｇ（Ｐ_Ａｉｋ^Ｌ／Ｐ_Ａｉｋ^Ｎ）
但し、Ｐ_Ａｉｋ^ＬとＰ_Ａｉｋ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ＝０とする。
ここで、Ｐ_Ａｉｋ^Ｌ，Ｐ_Ａｉｋ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｉ ^ｋの出現確率である。
また、式中、ｎ_ｇａｐ２はＡ_ｉ ^ｋまたはＡ_{ｉ＋（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋの順序は問わない）確率である。
更に、式中、ｎ_ｇａｐ３はＡ_ｉ ^ｋまたはＡ_{ｉ−（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ
_） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋの順序は問わない）確率である。）
ｉｉｉ）下記の計算式によりあるアミノ酸残基のリンカー傾向スコアＦ_１２ｓ（ｉ）を求める工程、
ｉｖ）下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアＦ_１２ｐ（ｉ）を求める工程、および
Ｆ_１２ｐ（ｉ）
ｖ）下記の計算式で、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求める工程
Ｆ_１２（ｉ）＝Ｆ_１２ｓ（ｉ）＋α_１２Ｆ_１２ｐ（ｉ）
（式中、０＜α_１２＜１）
を含む、前記方法を提供する。
図５４に、アライメントしたｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎの配列及びウィンドウのとり方を示す。
本願の第３４発明は、ｎ（ｎは１以上の整数）本の相同配列ｓｅｑ．１〜ｓｅｑ．ｎが存在することが知られているアミノ酸残基数がＬ_２個（Ｌ_２は２２以上の整数）のアミノ酸配列ｓｅｑ．０において、位置ｉ（ｉは１以上Ｌ_２以下の整数）のアミノ酸残基の前後にアミノ酸残基数ｗ個のウィンドウをとって、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求めるシステムであって、
ｉ）ｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎをアライメントし、ｓｅｑ．０中の位置ｉにあるアミノ酸残基Ａｉ^０に対応するｓｅｑ．ｋ（ｋは１以上ｎ以下の整数）中のアミノ酸残基Ａ_ｉ ^ｋを同定する手段、
ｉｉ）位置ｉのアミノ酸残基Ａｉについて、下記の計算式でパラメータＳ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）を求める手段、
（式中、ｎ_ｇａｐ１はＡ_ｉ ^ｋ中に出現するギャップの数、
Ｓ_Ａｉｋ＝ｌｏｇ（Ｐ_Ａｉｋ^Ｌ／Ｐ_Ａｉｋ^Ｎ）
但し、Ｐ_ａｉｋ^ＬとＰ_Ａｉｋ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ＝０とする。
ここで、Ｐ_Ａｉｋ^Ｌ，Ｐ_Ａｉｋ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中のアミノ酸残基Ａ_ｉ ^ｋの出現確率である。
また、式中、ｎ_ｇａｐ２はＡ_ｉ ^ｋまたはＡ_{ｉ＋（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋの順序は問わない）確率である。
更に、式中、ｎ_ｇａｐ３はＡ_ｉ ^ｋまたはＡ_{ｉ−（ｍ＋１）} ^ｋ中に出現するギャップの数、
但し、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ）＝０とする。
ここで、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｌ，Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎは、それぞれドメインリンカー配列，非ドメインリンカーループ配列中の任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いたアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋの順序は問わない）確率である。）
ｉｉｉ）下記の計算式によりあるアミノ酸残基のリンカー傾向スコアＦ_１２ｓ（ｉ）を求める手段、
ｉｖ）下記の計算式により任意のアミノ酸残基対のリンカー傾向スコアＦ_１２ｐ（ｉ）を求める手段、および
Ｆ_１２ｐ（ｉ）
ｖ）下記の計算式で、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアＦ_１２（ｉ）を求める手段
Ｆ_１２（ｉ）＝Ｆ_１２ｓ（ｉ）＋α_１２Ｆ_１２ｐ（ｉ）
（式中、０＜α_１２＜１）
を含む、前記システムを提供する。
図３２は、本願の第３３発明の一実施の形態によるリンカー度判別スコアＦ_１２（ｉ）を求める方法ないしは本願の第３４発明のリンカー度判別スコアＦ_１２（ｉ）を求めるシステムの動作を説明するフローチャートである。
ステップＳ１０７１では、配列情報を入力する。入力する配列情報は、いかなる配列情報であってもよく、例えば、構造既知のマルチドメインタンパク質データベースからの配列情報、構造未知のタンパク質データベースからの配列情報、データベースには登録されていない新たに見出された配列情報などを挙げることができる。
ステップＳ１０７２では、ｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎをアライメントし、ｓｅｑ．０中の位置ｉにあるアミノ酸残基Ａｉ^０に対応するｓｅｑ．ｋ（ｋは１以上ｎ以下の整数）中のアミノ酸残基Ａ_ｉ ^ｋを同定する。
ステップＳ１０７３では、位置ｉのアミノ酸残基Ａｉについて、下記の計算式でパラメータＳ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）を求める。
（式中、ｎ_ｇａｐ１はＡ_ｉ ^ｋ中に出現するギャップの数、
Ｓ_Ａｉｋ＝ｌｏｇ（Ｐ_Ａｉｋ^Ｌ／Ｐ_Ａｉｋ^Ｎ）
（式中、Ｐ_Ａｉｋ^Ｌはドメインリンカー配列集合におけるアミノ酸残基Ａ_ｉ ^ｋの出現確率であり、Ｐ_Ａｉｋ^Ｎは非ドメインリンカーループ配列集合におけるアミノ酸残基Ａ_ｉ ^ｋの出現確率であり、但し、Ｐ_Ａｉｋ^ＬとＰ_Ａｉｋ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ＝０とする）
（式中、ｎ_ｇａｐ２はＡ_ｉ ^ｋまたはＡ_{ｉ＋（ｍ＋１）} ^ｋ中に出現するギャップの数、
（式中、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｌは、ドメインリンカー配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋの順序は問わない）確率であり、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ＋（ｍ＋１）} ^ｋの順序は問わない）確率であり、但し、Ｐ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ＋（ｍ＋１）}ｋ_（ｍ）＝０とする）、
（式中、ｎ_ｇａｐ３はＡ_ｉ ^ｋまたはＡ_{ｉ−（ｍ＋１）} ^ｋ中に出現するギャップの数、
（式中、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｌは、ドメインリンカー配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋの順序は問わない）確率であり、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎは、非ドメインリンカーループ配列集合において、任意のアミノ酸残基をｍ個（ｍは整数、ｍ＝０，１，２）あいだに置いてアミノ酸残基Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋが出現する（Ａ_ｉ ^ｋとＡ_{ｉ−（ｍ＋１）} ^ｋの順序は問わない）確率であり、但し、Ｐ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^ＬとＰ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ） ^Ｎの間に統計的有意差がない場合は、Ｓ_Ａｉｋ_{Ａｉ−（ｍ＋１）}ｋ_（ｍ）＝０とする）
ステップＳ１０７４では、下記の計算式で単一アミノ酸残基傾向スコアＦ_１２ｓ（ｉ）を求める。
ステップＳ１０７５では、下記の計算式でアミノ酸残基対の出現傾向スコアＦ_１２ｐ（ｉ）を求める。
ステップＳ１０７６では、下記の計算式で、位置ｉのアミノ酸残基についてリンカー度判別スコアＦ_１２（ｉ）を求める。
Ｆ_１２（ｉ）＝Ｆ_１２ｓ（ｉ）＋α_１２Ｆ_１２ｐ（ｉ）
（式中、０＜α_１２＜１）
ステップＳ１０７２〜Ｓ１０７６は、１以上Ｌ_２以下の範囲にあるすべての位置ｉのアミノ酸残基Ａｉについて行われる。
ステップＳ１０７７では、ステップＳ１０７６で得られたリンカー度判別スコアＦ_１２（ｉ）を出力する。結果の出力は、例えば、アミノ酸配列、位置ｉとそれに対応したＦ_１２（ｉ）などを表示する。ステップＳ１０７７は省略されてもよい。結果を次の処理（例えば、ドメインリンカーの予測処理など）に利用する場合などには、ステップＳ１０７７は省略される。
本願の第３４発明のリンカー度判別スコアＦ_１２（ｉ）を求めるシステムは、図２１に示したものと同様のコンピュータによって実現され、例えば、図３３に示すＡ_ｉ ^ｋ同定部１０８１、Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部１０８２、Ｆ_１２ｓ（ｉ）算出部１０８３、Ｆ_１２ｐ（ｉ）算出部１０８４、およびＦ_１２（ｉ）算出部１０８５を備える。Ａ_ｉ ^ｋ同定部１０８１では、ｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎがアライメントされ、ｓｅｑ．０中の位置ｉにあるアミノ酸残基Ａｉ^０に対応するｓｅｑ．ｋ（ｋは１以上ｎ以下の整数）中のアミノ酸残基Ａ_ｉ ^ｋが同定される。Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部１０８２では、位置ｉのアミノ酸残基Ａｉについて、上記の計算式でパラメータＳ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）が求められる。Ｆ_１２ｓ（ｉ）算出部１０８３、Ｆ_１２ｐ（ｉ）算出部１０８４、およびＦ_１２（ｉ）算出部１０８５では、それぞれ、上記の計算式で、Ｆ_１２ｓ（ｉ）、Ｆ_１２ｐ（ｉ）、およびＦ_１２（ｉ）が求められる。
本願の第３５発明は、コンピュータを、本願の第３４発明のシステムとして機能させるためのプログラムを提供する。
本願の第３６発明は、ドメインリンカー部位を予測する方法であって、
ｉ）本願の第３０または３３発明の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）工程、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める工程、および
ｉｖ）ｉｉｉ）の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する工程
を含む、ドメインリンカー部位の予測方法を提供する。
図５４に、ドメインリンカー部位の予測方法の概略を示す。図中、ｑｕｅｒｙ配列とはｓｅｑ．０のアミノ酸配列であり、Ｆ（ｉ）はリンカー度判別スコア（例えば、上記のＦ_１，Ｆ_２（ｉ）、Ｆ_１１（ｉ）、Ｆ_１２（ｉ）など）である。
二次構造予測は、ＤＳＣ（Ｒ．Ｄ．Ｋｉｎｇ，Ｍ．Ｊ．Ｅ．Ｓｔｅｒｎｂｅｒｇ（１９９６）による）などのプログラムを用いて行うことができる。
本願の第３７発明は、ドメインリンカー部位を予測するシステムであって、
ｉ）本願の第３０または３３発明の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）手段、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める手段、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める手段、および
ｉｖ）ｉｉｉ）の各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する手段
を含む、前記システムを提供する。
図３４は、本願の第３６発明の一実施の形態によるドメインリンカー部位の予測方法ないしは本願の第３７発明の一実施の形態によるドメインリンカー部位の予測システムの動作を説明するフローチャートである。
ステップＳ１０８１〜Ｓ１０８４は、それぞれ、図３０のステップＳ１０６１〜Ｓ１０６４と同様である。ステップＳ１０８５では、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める。ステップＳ１０８６では、二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める。ステップＳ１０８７では、ステップＳ１０８６で求められた各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測する。ステップＳ１０７７では、結果を出力する。結果の出力は、例えば、予測の対象となった配列、予測されたドメインリンカー領域の位置，長さ及び優先順位などを表示する。
図３４に示す本願の第３７発明のドメインリンカー部位の予測システムの一実施態様は、図２１に示したものと同様のコンピュータによって実現され、例えば、図３５に示すＦ_１１ｓ（ｉ）算出部１０９１、Ｆ_１１ｐ（ｉ）算出部１０９２、Ｆ_１１（ｉ）算出部１０９３、二次構造予測部１０９４、領域探索部１０９５、およびドメインリンカー存在位置予測部１０９６を備える。Ｆ_１１ｓ（ｉ）算出部１０９１、Ｆ_１１ｐ（ｉ）算出部１０９２、およびＦ_１１（ｉ）算出部１０９３は、それぞれ、図３１のＦ_１１ｓ（ｉ）算出部１０７１、Ｆ_１１ｐ（ｉ）算出部１０７２、およびＦ_１１（ｉ）算出部１０７３と同様である。二次構造予測部１０９４では、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、二次構造予測が行われ、ループ構造をとると予測される領域が求められる。領域探索部１０９５では、二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域が求められる。ドメインリンカー存在位置予測部１０９６では、領域探索部１０９５で求められた各領域について、リンカー度判別スコアが極大値をとる位置がドメインリンカーの存在する位置であると予測される。
図３６は、本願の第３６発明の別の一実施の形態によるドメインリンカー部位の予測方法ないしは本願の第３７発明の別の一実施の形態によるドメインリンカー部位の予測システムの動作を説明するフローチャートである。
ステップＳ１０９１〜Ｓ１０９６は、それぞれ、図３２のステップＳ１０７１〜Ｓ１０７６と同様である。ステップＳ１０９７〜Ｓ１１００は、それぞれ、図３４のステップＳ１０８５〜Ｓ１０８８と同様である。
図３６に示す本願の第３７発明のドメインリンカー部位の予測システムの別の一実施態様は、図２１に示したものと同様のコンピュータによって実現され、例えば、図３７に示すＡｉｋ同定部１１０１、Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部１１０２、Ｆ_１２ｓ（ｉ）算出部１１０３、Ｆ_１２ｐ（ｉ）算出部１１０４、Ｆ_１２（ｉ）算出部１１０５、二次構造予測部１１０６、領域探索部１１０７、およびドメインリンカー存在位置予測部１１０８を備える。Ａｉｋ同定部１１０１、Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部１１０２、Ｆ_１２ｓ（ｉ）算出部１１０３、Ｆ_１２ｐ（ｉ）算出部１１０４、およびＦ_１２（ｉ）算出部１１０５は、それぞれ、図３３のＡ_ｉ ^ｋ同定部１０８１、Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}、（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部１０８２、Ｆ_１２ｓ（ｉ）算出部１０８３、Ｆ_１２ｐ（ｉ）算出部１０８４、およびＦ_１２（ｉ）算出部１０８５と同様である。二次構造予測部１１０６、領域探索部１１０７、およびドメインリンカー存在位置予測部１１０８は、それぞれ、図３５の二次構造予測部１０９４、領域探索部１０９５、およびドメインリンカー存在位置予測部１０９６と同様である。
本願の第３８発明は、コンピュータを、本願の第３７発明のシステムとして機能させるためのプログラムを提供する。
本願の第３９発明は、アミノ酸配列データベースを構築する方法であって、
ｉ）本願の第３０または３３発明の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）工程、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める工程、
ｉｖ）ｉｉｉ）で求めた領域の中で、リンカー度判別スコアの極大値が下限値より大きいものを選択する工程、および
ｖ）ｉｖ）で選択した領域のアミノ酸配列を記録媒体に記録する工程
を含む、前記方法を提供する。
ｉｖ）の工程における下限値は、０以上のいずれかの値であるとよく、好ましくは０．０〜１．０のいずれかの値である。
ｖ）の工程において、ｉｖ）で選択した領域のアミノ酸配列を記録する記録媒体としては、磁気テープ、カセットテープ、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ／ＭＤ／ＤＶＤ等、又は半導体メモリを例示することができる。
本願の第４０発明は、ｉ）本願の第３０または３３発明の方法に従い、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列における、位置ｉのアミノ酸残基Ａｉについてリンカー度判別スコアを求める（但し、前記アミノ酸配列のＮ及びＣ末端の０〜５０残基についてはリンカー度判別スコアを求めなくてもよい）工程、
ｉｉ）前記アミノ酸配列について、二次構造予測を行い、ループ構造をとると予測される領域を求める工程、
ｉｉｉ）二次構造予測でループ構造をとると予測され、かつリンカー度判別スコアが０より大きい領域を求める工程、および
ｉｖ）ｉｉｉ）で求めた領域の中で、リンカー度判別スコアの極大値が下限値より大きいものを選択する工程
を含む方法により得られた、リンカー度判別スコアの極大値が下限値より大きい領域のアミノ酸配列と同じアミノ酸配列からなるドメインリンカーペプチドを提供する。
本願の第４１発明は、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、本願の第３６発明の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する工程を含む、構造ドメインの予測方法を提供する。本願の第４１発明の方法において、ドメインリンカー部位をｎ個予測した場合に、そのうちのｔ個（ｔは１以上ｎ以下の整数）を選択し、その位置でアミノ酸配列を切断するパターンを全て考慮し、得られる全ての配列断片を構造ドメインと予測してもよい。
本願の第４２発明は、構造ドメインを予測するシステム（以下、「構造ドメイン予測システム」という）であって、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、本願の第３６発明の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前期アミノ酸配列を切断することにより生成する配列断片を構造ドメインと予測する手段を含む、前記システムを提供する。
構造ドメインは、マルチドメインタンパク質中に存在するものであってもよい。
図３８は、本願の第４２発明の一実施の形態による構造ドメイン予測システムの動作を説明するフローチャートである。
ステップＳ１２０１〜Ｓ１２０７は、それぞれ、図３４のステップＳ１０８１〜Ｓ１０８７と同様である。ステップＳ１２０８では、ステップＳ１２０７で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列を切断することにより生成した配列断片を構造ドメインと予測する。ステップＳ１２０９では、結果を出力する。結果の出力は、例えば、予測の対象となった配列、予測された構造ドメインの位置および大きさなどを表示する。
図３８に示す本願の第４２発明の構造ドメイン予測システムの一実施態様は、図２１に示したものと同様のコンピュータによって実現され、例えば、図３９に示すＦ_１１ｓ（ｉ）算出部１２０１、Ｆ_１１ｐ（ｉ）算出部１２０２、Ｆ_１１（ｉ）算出部１２０３、二次構造予測部１２０４、領域探索部１２０５、ドメインリンカー存在位置予測部１２０６、および構造ドメイン予測部１２０７を備える。Ｆ_１１ｓ（ｉ）算出部１２０１、Ｆ_１１ｐ（ｉ）算出部１２０２、Ｆ_１１（ｉ）算出部１２０３、二次構造予測部１２０４、領域探索部１２０５、およびドメインリンカー存在位置予測部１２０６は、それぞれ、図３５のＦ_１１ｓ（ｉ）算出部１０９１、Ｆ_１１ｐ（ｉ）算出部１０９２、Ｆ_１１（ｉ）算出部１０９３は、二次構造予測部１０９４、および領域探索部１０９５と同様である。構造ドメイン予測部１２０７では、ドメインリンカー存在位置予測部１２０６で予測されたドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列を切断することにより生成した配列断片が構造ドメインと予測される。
図４０は、本願の第４２発明の別の一実施の形態による構造ドメイン予測システムの動作を説明するフローチャートである。
ステップＳ１３０１〜Ｓ１３０９は、それぞれ、図３６のステップＳ１０９１〜Ｓ１０９９と同様である。ステップＳ１３１０〜Ｓ１３１１は、それぞれ、図３８のステップＳ１２０８〜Ｓ１２０９と同様である。
図４０に示す本願の第４２発明の構造ドメイン予測システムの別の一実施態様は、図２１に示したものと同様のコンピュータによって実現され、例えば、図４１に示すＡ_ｉ ^ｋ同定部１３０１、Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部１３０２、Ｆ_１２ｓ（ｉ）算出部１３０３、Ｆ_１２ｐ（ｉ）算出部１３０４、Ｆ_１２（ｉ）算出部１３０５、二次構造予測部１３０６、領域探索部１３０７、ドメインリンカー存在位置予測部１３０８、および構造ドメイン予測部１３０９を備える。Ａ_ｉ ^ｋ同定部１３０１、Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部１３０２、Ｆ_１２ｓ（ｉ）算出部１３０３、Ｆ_１２ｐ（ｉ）算出部１３０４、Ｆ_１２（ｉ）算出部１３０５、二次構造予測部１３０６、領域探索部１３０７、およびドメインリンカー存在位置予測部１３０８は、それぞれ、図３７のＡｉｋ同定部１１０１、Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部１１０２、Ｆ_１２ｓ（ｉ）算出部１１０３、Ｆ_１２ｐ（ｉ）算出部１１０４、Ｆ_１２（ｉ）算出部１１０５、二次構造予測部１１０６、領域探索部１１０７、およびドメインリンカー存在位置予測部１１０８と同様である。構造ドメイン予測部１３０９は、図３９の構造ドメイン予測部１２０７と同様である。
本願の第４３発明は、コンピュータを、本願の第４２発明のシステムとして機能させるためのプログラムを提供する。
本願の第４４発明は、アミノ酸配列データベースを構築する方法であって、アミノ酸残基数がＬ_２（Ｌ_２は２２以上の整数）個のアミノ酸配列について、本願の第３６発明の方法で予測したドメインリンカー部位またはドメインリンカーの存在位置を含む領域のいずれかの部位で、前記アミノ酸配列を切断することにより生成する配列断片のアミノ酸配列を記録媒体に記録する工程を含む、前記方法を提供する。
本願の第４５発明は、本願の第４１発明の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を製造する工程を含む、タンパク質の製造方法を提供する。
本願の第４６発明は、本願の第４１発明の方法で予測した構造ドメインと同一のアミノ酸配列を有するタンパク質を解析する工程を含む、タンパク質の解析方法を提供する。
本願の第４７発明は、本願の第４０発明のドメインリンカーペプチドで、少なくとも２つタンパク質断片をつなげることにより生じる、新たなマルチドメインタンパク質を設計し、このマルチドメインタンパク質を製造することを含む、タンパク質の製造方法を提供する。
以上のように、本発明は、第１〜１７発明のように、ニューラルネットワークを用いた第１の方法と第１８〜４７発明のように、アミノ酸の出現頻度による統計処理を用いた第２の方法から成るものであるが、これらの手法はリンカーの識別において相補的に使用されることが望ましい。即ち、ある予測候補領域に対して第１の方法では正しい予測結果が得られなかった場合でも、第２の方法を用いれば、正答を導き出すことが可能なケースがあり、同様にその逆のケースも存在する。また、両者の結果を照合することで、より信頼性の高いリンカー同定を行うこともできる。いずれにしても、種々の予測候補に対してこれらの方法を組み合わせることにより、約６５％の確率で、タンパク質中のドメインリンカー領域を正しく同定することができる。
以下、本発明を実施例によって具体的に説明する。なお、これらの実施例は、本発明を説明するためのものであって、本発明の範囲を限定するものではない。
〔実施例１〕ニューラルネットワークによるドメインリンカー配列の特徴づけと予測
結果
（ａ）ドメインリンカーの配列解析
最初に、ドメインリンカー中に局所的な配列の特徴があるかどうか、また、これらをニューラルネットワークにより抽出できるかどうかを調べた。マルチドメインタンパク質に由来するセグメントを、その真中のアミノ酸残基がドメインリンカーに含まれるか否かによって“リンカー配列”と“ノンリンカー配列”に分類した（材料と方法の項参照）。このように分類された配列をニューラルネットワークの学習に用いた。
学習条件の最適化
ここでは、ニューラルネットワークが効率的にトレーニングされるような条件を検討し、最大の学習効果を得るためにウィンドウの大きさ（表２ａ）とｈｉｄｄｅｎｕｎｉｔｓの数（表２ｂ）の最適化を行った。
ウィンドウの大きさの効果は、リンカーとノンリンカーの分類が正しく行われた回数と誤った回数の割合により評価した。表２ａの結果は、ノンリンカー配列の正解率はウィンドウの大きさが大きくなるに従ってわずかながら低下する一方、リンカー配列の正解率はウィンドウサイズ１９まで上昇した後、徐々に低下することを示している。このことは、ドメインリンカーの同定に必要な配列の特徴の大部分は、１９アミノ酸残基の中に含まれていることを示す。一方、リンカー配列の正解率の低下は、ノンリンカー配列の正解率の低下同様に、１９よりも大きなウィンドウサイズで見られた。この低下は配列の特徴の総計には関係しない。これは、ウィンドウサイズが一旦、配列の特徴すべてを含むのに十分な大きさになると、正解率は一定になるが、低下はしなくなるからである。我々は、この低下はより大きなウィンドウサイズに持ち込まれたパラメータの数が増えたことによるものであり、そのため限られたサイズのデータセットは、ニューラルネットワークがより大きなウィンドウサイズで最適な状態で作動することの妨げになる、と仮定した。ここでは、最適な条件として１９アミノ酸残基のウィンドウサイズを採用した。
我々はさらに、ｈｉｄｄｅｎｕｎｉｔｓの数の効果について調べた（表２ｂ）。原理的には、いかなるｈｉｄｄｅｎｕｎｉｔｓもない場合のニューラルネットワークは各アミノ酸のドメインリンカーに対する独立した寄与しか検出できない（ｆｉｒｓｔｏｒｄｅｒｆｅａｔｕｒｅｓ）。ｈｉｄｄｅｎｕｎｉｔｓが加わることにより、ニューラルネットワークは、例えばアミノ酸のペアとドメインリンカーとの関係のようなより高次の特徴を抽出する能力が高まる（Ｑｉａｎ＆Ｓｅｊｎｏｗｓｋｉ，１９８８）。しかしながら我々の研究においては、ｈｉｄｄｅｎｕｎｉｔｓの数の増加は学習効率を著しく向上させなかった（表２ｂ）。ここで学習効率が向上しなかったことの簡単な説明は、リンカー配列中により高次の特徴が存在しないから、というものであろう。しかし、ウィンドウサイズについて観察したことと同じように、学習効率はデータサイズの減少およびパラメータ数が多すぎることに影響されるかもしれない。計算の時間や多くのパラメータを導入しても効果が無いということを考慮して、我々はｈｉｄｄｅｎｕｎｉｔｓの数を０または２としたニューラルネットワークを使用することにした（ゼロは２層のネットワークを意味する）。
学習におけるデータセットの大きさの効果
データセットの大きさが学習効率にどのような影響を与えるかを評価するため、我々はトレーニングデータセットの大きさに正解率が依存しているかどうかを調べた。リンカー配列の分類の正解率は、現行のデータセットが大きくなっても横ばいにならなかったので（表２ｃ）、より多くのデータが利用可能になれば学習効率が向上するものと期待される。言い方を変えれば、ここで用いたデータセットは、ドメインリンカーの特徴を十分に抽出するには不足である。しかし、これらの制限にもかかわらず、検出可能なドメインリンカーの配列の特徴は以下に述べるように、ニューラルネットワークを用いて抽出することができた。
リンカー配列とノンリンカー配列の識別
リンカーとノンリンカーとを識別するニューラルネットワークの能力は、これらのニューラルネットワークの出力値の分布によって調べられる（図１）。我々はリンカー配列とノンリンカー配列の出力値を計算して、１９残基のスムージングウィンドウにわたってこれらの値を平均した。リンカー配列についての出力値の分布は、いくらかのオーバーラップはあるものの、明らかにノンリンカー配列の出力値の分布と異なっていた（それぞれ図１の白、黒の棒グラフ）。さらに、同様の分布の違いがリンカー配列とドメイン内ループの間にさえも観察された（図１の白、灰色の棒グラフ）。リンカー配列の出力値はより高くなる傾向があり（出力値が０．４以上に分布するものがリンカー配列全体の６０．３％になる）、一方、ノンリンカー配列やドメイン内ループの場合はより低い値となる（出力値が０．２以下のものがそれぞれ５９．１％、５３．３％になる）。
ドメインリンカー配列の特徴づけ
２層のニューラルネットワークにより抽出された配列上の特徴はヒントンダイアグラムにより視覚化することができる（Ｒｕｍｅｌｈａｒｔｅｔａｌ．，１９８６）（図２）。２層のネットワークの場合、それぞれのウェイトパラメータ値は、相当するアミノ酸残基の、リンカー配列とノンリンカー配列との違いに対する寄与（アミノ酸の種類とウィンドウ中の位置）として説明される。我々はこれらのウェイトパラメータと、それぞれの位置におけるアミノ酸の出現頻度の間に高い相関関係があることを観察した（データは示さない）。ヒントンダイアグラムは、プロリンが強力な決定アミノ酸残基であることを明らかに示している。このことはアミノ酸組成解析の結果（プロリンの出現頻度はドメインリンカー中で１３．９％、データ全体で５．３％）に一致している。しかしながら、ドメインリンカー中の含量とデータセット全体の含量がほぼ等しい他の残基についても、位置に依存した特徴が観察されている。例えば、ヒスチジン残基はＣ末端では明らかにネガティブな分布を示すが、この位置はドメインリンカーのＣ末端すなわちこれに続くドメインのＮ末端に相当する。メチオニン、イソロイシン、チロシン、トリプトファンもまたネガティブな分布を示す。一般的に疎水性アミノ酸はネガティブな寄与を示す傾向がある一方、親水性アミノ酸はポジティブに寄与する。これらの結果は、平均化されたアミノ酸組成値からはわからない配列の特徴を、ニューラルネットワークで効率的に抽出できることを強調するものである。
プロリンリッチセグメント
アミノ酸組成とヒントンダイアグラムの両者で観察されたように、ドメインリンカーにはプロリンが高頻度に出現するという特徴がある（ドメインリンカー中の平均的なプロリン残基数は１．６５）。しかし、幾つかのドメイン内配列もまた、局所的にプロリンの含量の高い部分がある。そこで我々は、リンカー配列とノンリンカー配列との違いはその他のアミノ酸の含量にあると推測した。我々は９残基中に少なくとも３つのプロリンを含む短いセグメント（プロリンリッチセグメント）の特徴について調べた。プロリンリッチセグメントの大部分はドメイン内領域に属しており（ドメインリンカー中２６に対してドメイン内領域中５０）、これらの大部分がドメイン内ループ領域にオーバーラップしていた。図２ｂ、図２ｃはそれぞれ、ドメインリンカーとドメイン内領域に相当するすべてのプロリンリッチセグメントを、これらの両端に隣接する９残基の配列と共に示している。興味深いことに、プロリンリッチセグメントとその隣接する配列でドメインリンカーであるものは、ヒスチジンをほとんど含まない（図２ｂ）。一方、ドメイン内に位置する配列には、比較的高頻度にヒスチジンが出現する（図２ｃ）。例えば、前者の配列にはヒスチジンが５残基しか見られないのに対して、後者では３８観察されている。さらにドメイン内領域に属する配列のＣ末端には多くのヒスチジンが位置している（Ｎ末端側の半分には１３であるのに対し、Ｃ末端側の半分には２５）。これらの証拠はヒントンダイアグラムに見られた特徴を確証し、また、ヒスチジンがドメインリンカーとドメイン内ループ領域を識別する際に重要な手がかりになることを示している。
（ｂ）蛋白質の配列中のドメインリンカーの予測
この章においては、蛋白質のアミノ酸配列中からドメインリンカーを予測するニューラルネットワークの能力について検討する。最初に、ウィンドウサイズ１９、ｈｉｄｄｅｎｕｎｉｔｓ２で学習させたニューラルネットワークを用い、調べようとする蛋白質について出力値を計算した。ニューラルネットワークの出力を予測に転換するために、以下の３つのパラメータを導入した：（１）スムージングウィンドウのサイズ：あるウィンドウサイズの大きさを決め、このサイズを超えた出力値を除く（ｓｍｏｏｔｈ）。（２）カットオフ値：ｓｍｏｏｔｈにされた出力値からピークを選択する。（３）ｔｈｒｅｓｈｏｌｄ（閾値）：ピーク周辺のリンカーの開始位置、終止位置を決定する。
予測の効率
予測の効率は２つの値を測定することによって評価した。ひとつはＳＣＯＰ由来ドメインリンカーに正しくａｓｓｇｉｎされた予測領域が、すべての予測領域のどれぐらいの割合をしめすかというパーセンテージである（ｓｐｅｃｉｆｉｃｉｔｙ：特異性）（予測した領域のうち、もともとドメインリンカーとしてＳＣＯＰに定められていたものと一致したものがどれぐらいあったか）。もうひとつは、ニューラルネットワークが正しく予測したＳＣＯＰ由来ドメインが、すべてのＳＣＯＰ由来ドメインリンカーのどのぐらいの割合を占めるかである（ｓｅｎｓｉｔｉｖｉｔｙ：感度）。われわれは二つの予測パラメータ、スムージングウィンドウのサイズとカットオフ値を変化させることにより、特異性と感度を調べた。スムージングウィンドウのサイズを１９、カットオフ値を０．５に固定した場合に、最も良い予測ができた。これらの条件下で、予測の特異性は５８．８％であり、予測の感度は３５．６％であった（図３ａ，ｂ）。
次に我々はカットオフ値と閾値のパラメータが予測効率にどのような影響を与えるかについて調べた（表３）。カットオフ値を増加させるにつれ、特異性は増加し、感度は減少した（図３ａ，ｂ）。このようにカットオフ値パラメータは予測の特異性と感度のトレードオフをコントロールする。一方、閾値を減少させた場合、特異性、感度ともに増加する。このことは候補領域のアサインメントにおけるａｌｌｏｗａｎｃｅによって説明されるであろう。これは閾値のパラメータによってコントロールされる；閾値が低い場合、予測されたリンカーの長さは閾値が高い場合に比べて長くなるであろう。これらの結果は、カットオフ値と閾値は、特異性と感度のバランスが所望されるものになるように、また候補領域のアサインメントにおけるａｌｌｏｗａｎｃｅが所望のものになるように選択されるべきことを示している。以下の予測においては、カットオフ値と閾値ともに０．５という値を使用した。
リンカーのランク付け
材料と方法の項で述べるように、我々は予測した候補リンカーを、その最大のｓｍｏｏｔｈにした出力値にしたがってランク付けした。正しく予測された候補リンカーは優先的に第１ランクとされ（正しく予測された候補リンカーすべての６３．８％が第１ランクに入った）、より低いランクに入れられることは、稀であった（図４の黒い棒グラフ）。さらに、より低いランクに入った候補領域は、多くの場合、予測が誤っていたものであった（図４の白い棒グラフ）。これらの結果は我々のランク付けと実際のドメインリンカーのｅｎｔｉｔｙとの相関を支持するもので、第１ランクに入った配列の選択が予測の特異性を上昇させうることを示している。
他の方法との比較
ニューラルネットワークのドメインリンカー予測能力を評価するために、他の予測方法との比較を行なった。ドメインリンカーの標準的な予測法は、いまだ確立していないため、二次構造予測を用いる簡単な方法と我々の方法を比較した。ここでは、我々の方法はドメインリンカーは長いループ領域である、という直感的な仮定に基づいたものとし、予測された長さに従ってそれらのドメインリンカーの性質をランク付けした。ＤＳＣまたはＰＨＤに由来する予測の特異性と感度はいずれも、ニューラルネットワークにより得られたそれぞれの値よりも少なくとも１０％は低かった。さらに、予測されたループの長さと、ドメインリンカーの性質の関係がほとんど無かった（図３ｃ）。図１に示したデータと共に、これらの結果は、ドメインリンカーはドメイン内ループ領域と異なる性質を有すること、また、これらの性質はニューラルネットワークにより見分けられることを示している。
ドメインリンカー予測の例
図５ａ，ｂにニューラルネットワークにより正しく予測された例を示す。ニューラルネットワークはコラゲナーゼ（１ｆｂｌ）中の一つのリンカーを予測した。これはＳＣＯＰ由来ドメインリンカーに正しくアサインされていた。セリンｔＲＮＡ合成酵素（１ｓｅｓＡ）、エンド／エキソ−セルラーゼＥ４の触媒ドメインおよびセルロース結合ドメイン（１ｔｆ４Ｂ）については真のドメインリンカー（ｔｒｕｅｐｏｓｉｔｉｖｅ）に加え、偽のドメインリンカー（ｆａｌｓｅｐｏｓｉｔｉｖｅ）が予測されたが、第１ランクに入ったリンカーのみを選択する場合はｆａｌｓｅｐｏｓｉｔｉｖｅは排除した（図５ｂ、ｃ）。ピルビン酸脱炭酸酵素（１ｐｖｄＡ）は３つのドメインを有し、これらのドメインを区切っているリンカーは第１、第２ランクのリンカーから予測された。実際、アミノ酸残基の位置１８３から１９３（ｓｐｅｃｉｆｉｅｄｉｎＰＤＢ）まで伸びている領域（図５では１７４−２０２に相当）は、もともとドメインリンカーとされていなかった。なぜならば、ＳＣＯＰに定義されたドメイン境界は３−１０のヘリックス領域の中央に位置していたからである。それにもかかわらず、ニューラルネットワークはこのセグメントをリンカーであると同定した。
図３ｂに見られるように、観察されたドメインリンカーの幾つかはニューラルネットワークにより正しく予測されなかった。キチナーゼＡ（１ｃｔｍ）は予測がうまくいかなかった一例である。この場合、ＳＣＯＰ由来ドメインリンカーに相当する真のシグナルに比べて偽のシグナルが優勢であった（図６）。幾つかの短いドメインリンカーについては、ニューラルネットワークの出力は弱いシグナルを出すか、あるいはまったくシグナルを出さない。
考察
実際のタンパク質においては、ドメインリンカーの大きさや構造は多種多様であるため、ドメインリンカーの定義は必ずしも一つとは限らない。例えば、我々の定義に加え、視覚的な図形に基づくもの、ドメインの動きに基づくものもありうる。それゆえに、ドメインリンカーを異なるタイプに分類することは、リンカー配列の包括的な性格付けを行なうのに有用であろう。しかし、我々の研究においてはデータセットのサイズが小さかったため、詳細なリンカーのタイプの解析を行なわなかった。その代わりに、限定されたドメインリンカーの定義（構造的に独立し、自動的にフォールドすると考えられるドメインに隣接したループ領域である）を採用した。ドメインリンカーについてのこの狭い定義はデータセット中の配列のパターンを限定することにより、ニューラルネットワークによるリンカーの特徴の認識には適していたようである。しかし、表２ｃから期待されるように、将来、マルチドメインタンパク質の構造的なデータが増えてゆくと、データセットのサイズが大きくなり、より多くの種類のドメインリンカー配列についてより詳細な解析ができるようになろう。
ドメインリンカー中の配列のパターンはヒントンダイアグラムに示唆される（図２ａ）。ニューラルネットワークの学習過程において、学習に用いたすべてのリンカー配列について配列の特徴は平均化される。その結果、個々のドメインリンカーに特異的な配列は必然的に不鮮明になり、ヒントンダイアグラムには現れなくなるだろう。それにもかかわらず、我々はプロリン、ヒスチジンその他幾つかのアミノ酸については特徴的な出現パターンを見出した。このことはドメインリンカーの配列は共通した局所的な特徴を有することを示している。アミノ酸組成がドメインリンカーと他の領域を見分けるような特徴を制限しているということを考慮すると、この結果は驚くべきものである。実際、我々のニューラルネットワークで検出された配列の局所的な特徴は、ウィンドウ中の各々のアミノ酸残基の位置における出現頻度と高度な相関関係を有していた。全体として、これらの発見はドメインリンカー配列はアミノ酸の含量のみならず、その配列中の出現のパターンによっても特徴付けられることを強く示唆している。
ヒントンダイアグラムは、ヒスチジン残基はプロリン残基同様、ドメインリンカーを他の領域と識別する上で必須であることを示している（図２ａ）。プロリンリッチセグメントの配列解析は、ドメインリンカーと他の領域、特にドメイン内ループとの間のヒスチジンの出現頻度における違いを説明している（図２ｂ、ｃ）。我々の予測が成功したのは、部分的にはニューラルネットワークによるヒスチジン残基の認識によるものと思われる。図２ｂ、２ｃにおいて、プロリンリッチセグメントはプロリン含量が高いため、一般的にはより高いニューラルネットワークの出力値を示す。しかし、ヒスチジンを含むプロリンリッチセグメントはより低い出力値を示す傾向があり、ヒスチジン含量とニューラルネットワークの出力値の間には強い相関がある（２ｂ、２ｃ）。他の例を見れば、１ｆｂｌの配列は二つのプロリンリッチセグメントを含む（１６４−１９８、ＰＤＢにおける残基の位置／図５ａで用いた位置では６５−９９）と（２５３−２８４、１５４−１８５）である。前者の配列は高いヒスチジン含量によって特徴付けられ、後者はヒスチジンを含まない。ニューラルネットワークは前者には０．４８より低いｓｍｏｏｔｈｅｄ出力値を与え、後者には０．６２より高い値を与える。このように、ドメインリンカーの位置は正しく定められる。
局所的な配列に蓄えられた構造情報量の推定は、予測効率から導かれる。Ｂｌｉｎｄ予測、すなわちいかなる情報もない場合の予測はおおよそ、以下のように見積もられる。２つのドメインからなるアミノ酸残基３００のタンパク質でドメインの平均サイズが１５０という場合を想定してみよう。我々のデータセットにおいては、ドメインリンカーの平均サイズは１２．２残基である。また、最小のドメインサイズは６０残基であり、タンパク質の配列の両端６０残基は我々の計算には含めないと仮定すると、Ｂｌｉｎｄ予測は７％の正解率となる（１２．２／（３００−６０ｘ２））。一方、我々の研究においては、ニューラルネットワークの予測効率は感度については３５．６％、特異性については５８．８％であった（図３ａ、３ｂ）。いずれにせよ、Ｂｌｉｎｄ予測からニューラルネットワークによる予測（およそ３０から５０％）への効率の改善は、局所的な配列に蓄えられた構造情報に帰するものである。このように、局所的な配列情報はドメインリンカーを検出する上で有用な手がかりとなることを、この推測は示している。しかし、同時にドメインリンカー情報のかなりの部分は局所的ではないことを示しており、予測をさらに改善するためには局所的ではない情報を取り入れることが必要であろう。それにもかかわらず、我々のニューラルネットワークはタンパク質の配列中から仮想的なドメインリンカーを検出するのに使用できる稀な手段の一つであり、大きなタンパク質の構造および機能解析に貢献する可能性を有するものである。
材料と方法
データの準備
２．５Å、あるいはそれ以上の解像度で構造が解析されておりＳＣＯＰデータベースにおいて分類されているマルチドメインタンパク質をＰＤＢ（ＰｒｏｔｅｉｎＤａｔａＢａｓｅ）から選択した。配列の重複はｅの値を１０・−７０とするＢＬＡＳＴの基準に従って除去した（もっとも相同性の高い配列は４９％（１ｈｙｘＨと２ｆｂｊＨ）であった。
ドメインリンカーは以下のように定義した。まず、ＤＳＳＰにより定められているようにドメインリンカーは少なくとも４残基からなるループ領域で、ＳＣＯＰに定義されたドメイン境界を含むものとした。実際のドメインリンカーの大部分が一つのループ領域に相当していたが、２，３の例外においては、短い二次構造エレメントが散在する複数のループ領域を有していた。これらのケースにおいては、これに相当するすべてのループ領域がドメインリンカーとされたのではなく、唯一のループ領域がまず、ドメインリンカーとされた。このため、我々は次の視覚による点検の段階においては、ドメインリンカー全体を含むようにするため、決められた領域をマニュアルで拡張した。次に、上のように定義されたドメインリンカーにより範囲が決められたドメインの構造のすべてを、視覚的に調べた。ＳＣＯＰのドメインの定義は進化的に保存されている構造ユニットに基づくものであるため、我々のドメイン構造に関する必要条件とは合致しない。実際、幾つかのマルチドメインタンパク質では、ドメインとドメインがぴったりとくっついているのが明らかに観察された（例：Ｄアミノ酸酸化酵素）。また、これらのＳＣＯＰに定義されたドメインは、これらを単離した場合、その本来の構造にフォールドできないように思える。さらに我々は、ドメインの定義またはこれに伴うドメインリンカーの定義におけるこのあいまいな点が、ニューラルネットワークの学習の進行を妨害することを見出した。そのため、我々は各々のタンパク質の構造を眼で見て調べ、個々に自律的にフォールドして本来の構造をとると考えられるドメインに隣接するドメインリンカーのみを選択した。その結果、我々は７４種類のマルチドメインタンパク質に存在する９９のドメインリンカー（ＳＣＯＰ由来）を得た。
ニューラルネットワーク
ニューラルネットワークはパターン認識の方法であり、層状のｆｅｅｄｆｏｒｗａｒｄネットワークが入力と出力に関連している。ネットワークはｂａｃｋｐｒｏｐａｇａｔｉｏｎアルゴリズムを用いて所望の入力−出力関係を得られるように最適化される。この過程を学習またはトレーニングと呼ぶ（詳細な説明はＲｕｍｅｌｈｍｌｔの文献参照）。我々の研究では配列のセグメントを分類するため、単一のｈｉｄｄｅｎｌａｙｅｒを有するニューラルネットワーク（図７）およびいかなるｈｉｄｄｅｎｌａｙｅｒも持たないニューラルネットワークを用いた。ニューラルネットワークの学習過程においては、二進数でコードされた配列セグメントを入力パターンとして与え、これらの配列セグメントのリンカー配列またはノンリンカー配列への分類を出力とし、それぞれ１または０とした。この学習過程においては、我々は０．９に設定したｍｏｍｅｎｔｕｍｔｅｒｍ（述語についてはＲｏｓｔ＆Ｓａｕｎｄｅｒに従った）を用い、バイアスとウェイトのパラメータをランダムに［−０．３、０．３］の範囲に設定した。学習の強度（すなわちｇｒａｄｉｅｎｔの降下のステップ幅）を最初の１００の学習段階については０．００１とし、次の段階では０．００５とした。すべての段階において配列の分類の正解率をチェックし、正解率がピーク値に達したときに学習を停止した。分類の正解率のチェックにあたり、ニューラルネットワークの出力値（予測値）が０．５より大きい場合をリンカー配列に分類、それ以下をノンリンカー配列に分類したものとみなし、その正解率を調べた。
なお、ｂａｃｋｐｒｏｐａｇａｔｉｏｎアルゴリズムはＣ言語で書き、理研、和光キャンパスの富士通ＶＰＰ７００Ｅスーパーコンピューターを使用した。
トレーニング
ドメインリンカー情報を抽出するため、我々はドメインリンカーとノンリンカー配列セグメントとを識別するよう、ニューラルネットワークをトレーニングした。与えられたウィンドウサイズに等しい長さの配列セグメントをタンパク質の配列のＮ末端からＣ末端へ動かすことにより、収集した。各々の配列セグメントは、その中央の残基がドメインリンカーの一部であるかどうかにより、リンカー配列またはノンリンカー配列に分類した（図８）。我々はリンカー配列とノンリンカー配列を１：３の割合で用いてトレーニングを行なった。この割合は、リンカーとノンリンカーを最も効率良く識別できるものである。配列は明瞭にコード化された。すなわち、配列セグメント中の各々のアミノ酸を２１ビットの二進数に直した（図９）。各々のビットが２０の標準アミノ酸残基に、残りの一つがアミノ酸を特定できないものあるいは標準アミノ酸でないものに相当する。例えば、アラニンのコードは１００００００００００００００００００００である。配列の分類ではリンカーは１、ノンリンカーは０とコードされた。
試験
ニューラルネットワークの学習効率の評価には二つの方法を用いた。一つは単一の試験方法であり、データセットを単に２グループに分け、一つをトレーニングに、他をテストに用いるというものである。トレーニング用データセットとテスト用データセットのサイズの割合を４：１とした。第２の方法は１０−ｆｏｌｄジャックナイフテストである。これはデータセットを１０に分け、９グループからのデータをニューラルネットワークの学習に用い、残りのグループのデータで学習効率を調べるというものである。この過程は、各々のグループがすべてテストに使われるまで１０回繰り返した。
ニューラルネットワークによるドメインリンカーの予測
リンカー予測の第１段階は調べたタンパク質の配列についてニューラルネットワークの出力値を計算することである。最適化された１９残基のウィンドウを用いて、我々はタンパク質の配列中の各々の残基の出力値を計算し、この値をウィンドウの中心のアミノ酸の特性とした。この生の出力値はタンパク質の配列に沿って著しく変動するので、ドメインリンカー領域の信頼しうる予測を妨げた。それゆえ、ドメインリンカーは１９残基について平均化した（前後９残基にわたる平均化）出力値を用いた（このウィンドウのｓｍｏｏｔｈｉｎｇの最適化については結果の項参照）。
我々は次に記す３段階の予測を行なった。（１）第１に我々は、ドメインの最小のサイズを仮定し、タンパク質の両端の６０残基を無視した。（２）我々はｓｍｏｏｔｈにした出力値でカットオフ値よりも大きいものからすべてのピークを選んだ。次に閾値より大きいｓｍｏｏｔｈにした出力値を持つピーク値に近い領域を仮想的なドメインリンカーと定義した（カットオフ値は閾値より大きいかあるいは等しいことに注意）。（３）最後に予想されたドメインリンカーをｓｍｏｏｔｈ化した出力値のピーク値に従ってランク付けした（例えば図５，６）。この方法により行なった予測を評価するため、マルチドメインタンパク質のデータセットについてジャックナイフテストを行なった。ニューラルネットワークをトレーニングするのに様々な配列パターンが必要であったため、我々は１０^−７０のｅ値で選んだデータセットをトレーニングに用いた。しかし、このデータセットはお互いに類似した配列を含んでおり、このことが予測の評価に影響を与えるかもしれない。そのため我々は１０^−２０のｅ値よりも少ない完全長の同一性を有する配列を除去した（これは２５％以上の配列が同一であることに相当する）（表１に示した）。結局、８７のドメインリンカーを含む６６のマルチドメインタンパク質のセットについて予測効率を計算した。
〔実施例２〕ニューラルネットワークの出力値（ｇ（Ｘ））の閾値の設定
実施例１で用いたテストデータのタンパク質配列について、１９残基のウィンドウをとってその１９残基長の配列断片をニューラルネットワークに与えて出力値を計算した（０．０−１．０の値が得られ、これがウィンドウ中央の残基に対する出力値になる。）。ウィンドウはタンパク質配列のＮ末端からＣ端まで順にずらしていき、各々の位置で出力の計算を行った。分布の作成にあたっては、ウィンドウ中央の残基がドメインリンカーか否かで場合分けをして、それぞれについての分布を出した。ここで、使用したニューラルネットワークは３層で、ＨｉｄｄｅｎＵｎｉｔの数は２とした。また、ｊａｃｋｋｎｉｆｅｔｅｓｔにより、分布をとった。結果を図１６に示す。
〔実施例３〕ドメインリンカーデータベースの作成
ＳＷＩＳＳＰＲＯＴに登録されている構造が全く未知である８６５９３のアミノ酸配列に対して、実施例１に記載の方法に従って予測を行った。使ったニューラルネットワークは３層で、ＨｉｄｄｅｎＵｎｉｔの数が２であった。
また、（Ｊａｃｋｋｎｉｆｅｔｅｓｔのために用意した）１０通りの学習データを使って最適化された（全部で１０通りの）ニューラルネットワークで（それぞれ独立に）予測を行い、得られた１０通りのｓｍｏｏｔｈｉｎｇ出力値を平均化した。この平均化に際し、スムージングウィンドウの長さ（ｓｍｏｏｔｈｉｎｇｗｉｎｄｏｗｌｅｎｇｔｈ）は、１９残基とした。この（１０個のニューラルネットワークの間での）平均値に対し、カットオフ値＝０．９５、閾値＝０．５の条件で推定リンカー領域を決定した。なお、タンパク質の末端領域（６０残基）もすべて予測に含めてた。また、リンカー領域の順位づけはここでは行わなかった（予測領域すべてをとっった）。
リンカー領域と予測されたもののアミノ酸配列をハードディスクに格納した。
アペンディクス
理論・方法論的な背景について論じることは、適切な問題設定（そして、問題解決）を行う上で本質的な意味をもっており、避けて通ることのできない事柄である。しかしながら、それ自体独立した議論の対象となり得るため、本文とは別にアペンディクスという形にまとめた。ここでは、ニューラルネットワークの理論的枠組み、及び、それに基づく方法論の具体的な設計について述べる。
Ａ．ニューラルネットワーク
Ａ．１．ニューラルネットワークの理論的枠組み
ニューラルネットワークは次のようなニューロンモデルを基本構成要素とする（図１０）。
ここで、τは
で示されるシグモイド関数であり、［０，１］の値をとる。このニューロンモデルにおいて、ｘ_ｉは他のニューロンの軸索からやってくるｉ番目の入力信号、ｗ_ｉ（ｉ＝１，・・・，ｎ）はその入力信号がシナプスによって強められる度合い（ここでは結合強度と呼ぶ）、−ｗ_０はしきい値、ｙはニューロンの出力を表している。すなわち、入力信号は結合強度に従って重み付けされ、その総和ｕ（ニューロンの内部電位に相当する）がしきい値よりも大きいか小さいかによってニューロンの活性化状態が決まる（ｙが１のとき活性化状態、０のとき不活性化状態に対応する）。結合強度は任意の実数値をとることができ、正の場合には興奮性、負の場合には抑制性のシナプスに対応する。また、０の場合にはシナプス結合がないものと解釈できる。
ニューラルネットワークではニューロンモデルをお互いに接続してネットワークを組む。ここでは、階層型フィードフォワードネットワークを用いる。すなわち、ニューロンを層状に並べ、前の層から次の層へと一方向にのみシグナルが伝わっていくようにネットワークを構築する。このタイプのネットワークは入力層のニューロンに与えた信号（入力信号）に対し、出力層のニューロンの出力（出力信号）が一意に決まる。この意味で一種の信号変換器として捉えることができる。結合強度・しきい値が変わるとネットワークが表現する関数も変わるが、適当な値を選ぶことのよって任意の非線形連続関数を実現できることが証明されている［Ｆｕｎａｈａｓｈｉ，１９８９］。学習においては正しい入出力関係を実現できるような結合強度・しきい値を求めていくことになるが、誤差逆伝搬学習法［Ｒｕｍｅｌｈａｒｔ，１９８６］に従うとそれらを自動的に決定できるようになる。
本研究で実際に用いることとなる３層のニューラルネットワーク（図１１）を例にとり、誤差逆伝搬学習法について説明する。入力層・隠れ層・出力層にはそれぞれｎ、ｍ、１個のニューロンを用意する。Ｊ≡［０，１］とし、ネットワークの入力ｘ、出力ｚ、そして隠れ層の出力ｙを次のように定義する。
このとき、ネットワークの入出力関係はＪ^ｎからＪ^ｌへの関数
ｈ＝ｇｏｆ
ととらえることができる。ここで、ｆは隠れ層によって実現されるＪ^ｎからＪ^ｍへの関数
である。また、ｇは出力層によって実現されるＪ^ｍからＪ^ｌへの関数
である。
学習を行うにあたり、誤差逆伝搬学習法においては誤差と呼ばれる指標
を用いる。ここで、ｄ（ｘ）＝（ｄ_１（ｘ），・・・，ｄ_１（ｘ））は入力ｘに対する正しい出力である。また、Ｘは入力ｘの集合である。この誤差Ｅは、ニューラルネットワークの出力と理想的な出力がどれだけ離れているかを表しており、この値が小さいほど望ましいパターン識別に近づいていることを意味する。学習においてはこの値を減少させるような力学系を設定する
この力学系においては誤差Ｅは時間に対して非増加であることが確かめられることから、適当な重みを初期値として出発すると力学系の軌道は最終的に誤差Ｅの極小点に停留し、所望の重みが得られることになる。ここで、力学系の式の右辺を誤差Ｅの定義式から具体的に求めると
となる。ここで
である。これより、より具体的な形で力学系の式
を記述できる。さらに、左辺を差分で置き換えると次の漸化式
が導かれる。この漸化式に従って重みｗ_ｉｊ、ｖ_ｊｋを時間発展させれば、最終的に誤差Ｅの極小値に到達できることになる。以上が、誤差逆伝搬学習法の動作原理である。
Ａ．２．本研究で行った学習アルゴリズムの改善
上の漸化式に従えば、原理的にはネットワークのすべての重みｗ_ｉｊ、ｖ_ｊｋを最適化できることになる。しかし、実際にこの学習を行うとなるといくつか間題が生じてくる。まず、時間幅Δｔを小さくとることは収束解の精度を高める意味では必要不可欠であるが、その結果１回あたりの変更量が小さくなるため学習回数が膨大になってしまう。したがって、実用上Δｔの値はある程度大きくとらなければならず、収束性が悪くなってしまう。また、誤差Ｅが最小でない極小値（ローカルミニマム）にいったん陥ってしまった場合には、今のアルゴリズムでは決して抜け出すことができない。このような問題は依然として大きく残ったままである。
これらの問題点を解決するため、本研究においては上の漸化式に慣性項を加えた。すなわち、重みをｗとかくことにして
のような漸化式を設定する。ここに、０＜α＜１であり、αが１に近いほど慣性項の効果は大きい。通常の方法ではΔｔを大きくとるとｗがＥの極小値のまわりを振動してしまい学習が収束しなくなる。一方、新しい漸化式では慣性項の働きにより振動を抑える向きに変更を行っているため、大きなΔｔに対しても学習の収束性を維持することが可能となっている。また、振動を減らすことによって収束速度が大幅に改善される。慣性項の効果はこの他にも、（重みｗの関数としてみたときの）Ｅ曲面の細かな凹凸を乗り越える際にも発揮される。従って、Δｔとαの組み合わせを調整することにより、学習回数の増加とローカルミニマムへのトラップという問題点を幾分か回避できることになる。条件を試行錯誤した結果、本研究ではα＝０．９で固定しΔｔは与えられたネットワークに応じて設定することにした。
Ａ．３．計算機環境
誤差逆伝搬学習法の実行にあたり、プログラム言語Ｃでアルゴリズムを記述し、理化学研究所のスーパーコンピュータＶＰＰ７００Ｅを用いて計算を行った。
以下の条件：ウィンドウの大きさ（ａ）、ｈｉｄｄｅｎｕｎｉｔｓの数（ｂ）、およびトレーニングデータセットの大きさ（ｃ）を変えて、３層型ニューラルネットワークを用いて学習を行った。単一テスト法（材料と方法を参照のこと）を用いて、リンカー配列とノンリンカー配列の分類の正解率を計算することにより、学習効率を評価した。ニューラルネットワークの出力値が０．５より大きい配列セグメントをリンカー配列と予測した。それ以外のものは、ノンリンカー配列とした。学習はランダムな初期パラメータから始め、独立に１０回行った。リンカーおよびノンリンカーの予測の正解率は１０回の独立した学習の間で平均化し、表に示す。標準偏差は括弧内に示す。
^ａｈｉｄｄｅｎｕｎｉｔｓの数は２とした。^ｂウィンドウの大きさは１９残基とした。^ｃ０は隠れ層がないことを意味する。^ｄウィンドウの大きさとｈｉｄｄｅｎｕｎｉｔｓの数は、それぞれ、１９と２とした。^ｅトレーニングデータセットの最初の大きさに対する比。
１９残基のスムージングウィンドウを用いて、タンパク質配列中のドメインリンカーを予測し、第一ランクの予測領域の予測効率を１０−ｆｏｌｄジャックナイフテストで評価した。評価に用いた２つの値（特異性（ａ）と感受性（ｂ））は図３ａおよび３ｂと同じである。
略語
［実施例４］
インターネットにて公開されている、立体構造既知の非冗長なタンパク質配列データセットであるｎｒ−ＰＤＢを基本のデータセットとして用意する。この中にあるデータの内、構造分類データベースであるＳＣＯＰで定義されているドメインを、１つの配列中に２つ以上含むデータのみを収集する。更にそれらの配列の立体構造を調べて、４残基以上のループ構造をとっている領域を選び出し、隣接する２つのドメインの境界に存在するものをドメインリンカー、それ以外でかつＮ／Ｃ末端のいずれにもかからないものを、非ドメインリンカーループとして定義し、それぞれのデータセットを作成する。
上記定義のドメインリンカーを１つ以上含むマルチドメインタンパク質データセットにおける配列長の分布をまとめたものを図４２に示す。また、その配列データセット中に存在するドメインリンカー配列と非ドメインリンカーループ配列についてまとめたものを図４３に示す。
［実施例５］
ドメインリンカー及び非ドメインリンカーループの各データセットにおける，アミノ酸Ｘ_ａａの出現確率Ｐ_Ｘａａ ^ＬとＰ_Ｘａａ ^Ｎを図４４に示す。これらの数値を用いて，あるリンカー候補配列がドメインリンカーとして，あるいは非ドメインリンカーループとして存在しうる確率をそれぞれ計算し，どちらがどの程度大きいかをスコアＳ_０として示したのが図４５の式である。
［実施例６］
図４６に示すとおり，ドメインリンカー配列にある種の２残基からなるパターンが存在する。これを任意のアミノ酸の場合と同様，ドメインリンカーと非ドメインリンカーループの間での出現頻度の差を元に解析を行なう。
実施例４で作成したドメインリンカー及び非ドメインリンカーループの各データセットにおいて，任意のアミノ酸残基ｍ個（ｍは整数、ｍ＝０，１，２）をあいだに置いてアミノ酸残基Ｘ_ａａとＹ_ａａ（Ｘ_ａａとＹ_ａａの順序は問わない）のペアが出現する確率Ｐ_{ＸａａＹａａ（ｍ）} ^ＬとＰ_{ＸａａＹａａ（ｍ）} ^Ｎを図４７〜４９に示す。これらの数値を用いて，あるリンカー候補配列がドメインリンカーとして，あるいは非ドメインリンカーループとして存在しうる確率をそれぞれ計算し，どちらがどの程度大きいかをスコアＳ_ｋ（ｋ＝１〜３）として示したのが図５０の式である。本願の第２８発明の一実施の形態によるリンカー度判別スコアの計算を，用意した２４２本のドメインリンカー配列および３３８１本の非ドメインリンカー配列に対して行ない，横軸にＦ_１ｓ，縦軸にＦ_１ｐをとって各配列のスコアの分布状態を図５１に示す。
［実施例７］
実施例４において定義されたマルチドメインタンパク質データセットに対して，六種類の異なる方法でドメインリンカー予測を行なった時の結果を図５２に示す。実施例５及び６で説明したスコアを組み合わせて用いた時に最も予測効率の良い結果を得た。図５２のグラフ内の凡例において、上から順に、スコアＦ_１２ｓを用い、閾値を変化させた時、スコアＦ_１２（＝Ｆ_１２ｓ＋αＦ_１２ｐ）を用い、閾値を変化させた時、スコアＦ_１２ｓを用い、上位１〜１０までをとった時、スコアＦ_１２（＝Ｆ_１２ｓ＋αＦ_１２ｐ）を用い、上位１〜１０までをとった時、二次構造予測ツールＤＳＣで予測されたループを、長い順にリンカーとして予測した時、スコアＦ_１１（＝Ｆ_１１ｓ＋αＦ_１１ｐ）を用い、閾値を変化させた時である。また、図５２のグラフにおいて、横軸：ｓｐｅｃｉｆｉｃｉｔｙ＝リンカー予測成功数／予測提示数、縦軸：ｓｅｎｓｉｔｉｖｉｔｙ＝リンカー予測成功数／実在するリンカー数。
［実施例８］
実施例４において定義されたマルチドメインタンパク質データセットに対して，本予測法のＪａｃｋ−ｋｎｉｆｅｔｅｓｔを行なった。すなわち，本データセットを５個の部分集合に分割し，うち４個に含まれる配列群を使用してパラメータを設定し，残り１個の配列群に対してドメインリンカー予測を行なった。これを５個の部分集合に対して繰り返した。この方法による正答率（ｓｐｅｃｉｆｉｃｉｔｙ）の平均は３５．６％であった。
本明細書で引用した全ての刊行物、特許および特許出願をそのまま参考として本明細書にとり入れるものとする。
産業上の利用可能性
本発明により、タンパク質のドメインリンカー領域を予測することができるようになった。
また、本発明により、ドメインリンカーの配列の特徴が明らかされた。この特徴を利用して、タンパク質のアミノ酸配列中からドメインリンカー領域を検出することができるようになり、その結果として、タンパク質の構造ドメイン領域を予測することができるようになった。
ドメインリンカー領域が予測できれば、タンパク質を構造ドメインに分割することができる。分子量が大きいタンパク質の構造を解析するのは困難であるが、タンパク質を分子量の小さい構造ドメインに分割することができれば、構造ドメイン毎に構造解析や機能解析を行うことができるようになり、タンパク質の機能解析が飛躍的な速度で進むことになる。
【図面の簡単な説明】
図１は、リンカー配列およびノンリンカー配列についてのニューラルネットワーク出力値の平均値の分布を示す。白と黒の棒グラフはそれぞれリンカー配列、ノンリンカー配列に相当する配列セグメントの分布をあらわす。灰色の棒グラフはドメイン内ループ配列についての分布を表わす。出力値は、ウィンドウサイズ１９、ｈｉｄｄｅｎｕｎｉｔｓ２で学習を行なった３層のニューラルネットワークを用いて計算され、１９残基のスムージングウィンドウを用いて平均化された（Ｍａｔｅｒｉａｌｓ＆Ｍｅｔｈｏｄｓのスムージングウィンドウについての項参照）。出力値の平均化（そのスムージングウィンドウにおける残基の位置について）は、平均出力値１．０のリンカー配列の出現を減少させる。評価には１０−ｆｏｌｄジャックナイフテストを用いた。
図２（ａ）は、最適化されたウェイトパラメータのヒントンダイアグラムを示す。パラメータ値は正の値、負の値をそれぞれ赤と青の四角で示した。また、四角の大きさはそれらの絶対値に比例している。パラメータはｈｉｄｄｅｎｕｎｉｔｓのないニューラルネットワークを用いて計算し、ドメインリンカーとノンリンカーを識別するための残基の寄与として説明された。１０−ｆｏｌｄジャックナイフテストにより得られた１０組の独立した最適化パラメータのセットは標準化かつ平均化された。我々は１９残基のウィンドウサイズを用いた。（ｂ、ｃ）ドメインリンカーにおけるプロリンリッチセグメント（ｂ）およびその他の領域におけるプロリンリッチセグメント（ｃ）。７４のマルチドメインタンパク質（表１）に存在する、９残基中に少なくとも３残基のプロリンを含むすべてのセグメントの配列（プロリンリッチセグメント）を示している。プロリンリッチセグメントの長さは３から９残基まで様々である。プロリンリッチセグメントは強調して示されており、両側に隣接する９残基も表に載せた。残基はヒントンダイアグラムにおける貢献に従って彩色した（図２ａ）。すなわちプロリンは赤、ヒスチジンは青、その他のアミノ酸は白とした。タンパク質鎖のｉｄｅｎｔｉｆｉｅｒｓは、その始まりおよび終わりのアミノ酸残基と共に左側に示した。プロリンリッチセグメントについてのｓｍｏｏｔｈにしたニューラルネットワーク出力値はセグメントの範囲について平均化し、右側に示した。緑色の色調は０．０（黒）から１．０（明るい緑）まで、ニューラルネットワークの出力値に比例している。この値は図２ｃの下の列には示されていない。なぜならば、そのプロリンリッチセグメントはタンパク質の配列のＣ末端付近にあり、そのためｓｍｏｏｔｈにした出力値が得られなかったからである。出力値はウィンドウサイズ１９、ｈｉｄｄｅｎｕｎｉｔｓ２で学習を行なったニューラルネットワークにより計算され、１９残基のスムージングウィンドウを用いてｓｍｏｏｔｈにした。
図３（ａ，ｂ）は、ニューラルネットワークによるドメインリンカー予測の効率を示す。タンパク質配列中のドメインリンカーは閾値０．５で予測された。また、第１ランクにある予測領域を予測した効率は１０−ｆｏｌｄジャックナイフテストを用いて評価した。評価のために二つの値を算出した：（ａ）ＳＣＯＰ由来ドメインリンカーに相当するドメインリンカーが予測された場合（特異性）。（ｂ）ニューラルネットワークにより正しく予測されたＳＣＯＰ由来ドメインリンカー配列がすべてのＳＣＯＰ由来ドメインリンカー配列のどれぐらいの割合を占めたか（感度）。水平軸はスムージングウィンドウのサイズを示す。予測効率はカットオフ値０．５（黒丸と太い実線）、０．７（白い三角と細い実線）、０．９（白い丸と点線）を用いて得られた。（ｃ）ＤＳＣ、ＰＨＤによるドメインリンカーの予測効率。ドメインリンカーは二次構造予測プログラムを用いて、以下のように予測された。ＤＳＣ、ＰＨＤにより予測されたループ領域はその長さに基づいてランク付けされ、より長いループ領域はドメインリンカーとなる傾向があると仮定して、最も長いループ領域をドメインリンカーと予測した。図３ａ同様に、予測に用いられたループ領域の長さを変化させることにより、二つの値（特異性、実線；感度、破線）を計算した、（水平軸）。ＤＳＣ、ＰＨＤによる予測の１０−ｆｏｌｄジャックナイフテストの結果は、白い丸と黒い四角で示されている。
図４は、予測されたドメインリンカーのランク付けを示す。予測は１９残基のスムージングウィンドウ、閾値、カットオフ値０．５で行なわれ、１０−ｆｏｌｄジャックナイフテストを用いて評価された。予測領域に入ったリンカーの出現頻度を示した（黒、正しい予測；白、誤った予測）。予測した領域の総数は１３９であり、４７が正しい予測に相当し、９２は誤っていた。
図５は、ドメインリンカー予測の成功例を示す。予測は１９残基のスムージングウィンドウ、閾値、カットオフ値０．５で行なった。それぞれの例において、より低いプロットはニューラルネットワークの出力値（ｓｍｏｏｔｈにした出力値、青；生データ、明るい赤）対残基数を示す。上の図ではリボン表示（ＭｏｌｓｃｉｐｔとＲａｓｔｅｒ３Ｄを用いて作成した）を示す。ここでは予測されたドメインリンカーはそのランクに従って標識されており（２つの領域以上が予測されたとき）、予測されたドメインリンカーに境界を定められた領域は彩色して違いがわかるようにした。
図６は、ドメインリンカー予測の失敗例を示す。予測は図５同様に行なった。
図７は、配列分類に用いるニューラルネットワークを示す。
図８は、配列分類を示す。ウィンドウ中央の残基がドメインリンカーのとき１、そうでないとき０とする。
図９は、配列エンコーディングを示す。各アミノ酸残基は２１ビットのｂｉｎａｒｙｎｕｍｂｅｒで表現される。対応する残基位置のビットだけが１となり、残りは０となる。２１番目のビットは非標準アミノ酸に対応する。
図１０は、ニューロンモデルを示す。
図１１は、３層ニューラルネットワークを示す。
図１２は、本発明のニューラルネットワークの学習方法の１実施形態を説明するためのフローチャートである。
図１３は、本発明のタンパク質のドメインリンカー領域を予測する方法の１実施形態を説明するためのフローチャートである。
図１４は、本発明のドメインリンカー領域予測システムの構成を示すブロック図である。
図１５は、本発明のドメインリンカー領域予測システムの機能を説明するブロック図である。
図１６は、ドメインリンカー内およびドメインリンカー外の残基に対するニューラルネットワークの出力値の分布を示す。
図１７は、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分を抽出して作成した表である。
図１８は、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分を抽出して作成した表である。
図１９は、構造既知のマルチドメインタンパク質データベースからドメインリンカー配列部分を抽出して作成した表である。
図２０は、本願の第１８発明の一実施の形態によるドメインリンカー領域予測・検出方法ないしは本願の第１９発明の一実施の形態によるドメインリンカー領域予測・検出システムの動作を説明するフローチャートである。
図２１は、本発明の一実施の形態によるドメインリンカー領域予測・検出システムの構成を示すブロック図である。
図２２は、本願の第１９発明の一実施の形態によるドメインリンカー領域予測・検出システムの機能を説明するブロック図である。
図２３は、本願の第２１発明の一実施の形態による構造ドメイン予測方法のフローチャートである。
図２４は、本願の第２４発明の一実施の形態による単一アミノ酸残基傾向パラメータ算出システムの動作を説明するフローチャートである。
図２５は、本願の第２４発明の一実施の形態による単一アミノ酸残基傾向パラメータ算出システムの機能を説明するブロック図である。
図２６は、本願の第２６発明の一実施の形態によるアミノ酸残基ペア傾向パラメータ算出システムの動作を説明するフローチャートである。
図２７は、本願の第２６発明の一実施の形態によるアミノ酸残基ペア傾向パラメータ算出システムの機能を説明するブロック図である。
図２８は、本願の第２８発明の一実施の形態によるアミノ酸残基ペア傾向パラメータ算出システムの動作を説明するフローチャートである。
図２９は、本願の第２８発明の一実施の形態によるリンカー度判別スコアＦ_１ｓを求めるシステムの機能を説明するブロック図である。
図３０は、本願の第３０発明の一実施の形態によるリンカー度判別スコアＦ_２（ｉ）を求めるシステムの動作を説明するフローチャートである。
図３１は、本願の第３０発明の一実施の形態によるリンカー度判別スコアＦ_２（ｉ）を求めるシステムの機能を説明するブロック図である。
図３２は、本願の第３３発明の一実施の形態によるリンカー度判別スコアＦ_１２（ｉ）を求める方法ないしは本願の第３４発明のリンカー度判別スコアＦ_１２（ｉ）を求めるシステムの動作を説明するフローチャートである。
図３３は、本願の第３４発明の一実施の形態によるリンカー度判別スコアＦ_１２（ｉ）を求めるシステムの機能を説明するブロック図である。
図３４は、本願の第３６発明の一実施の形態によるドメインリンカー部位の予測方法ないしは本願の第３７発明の一実施の形態によるドメインリンカー部位の予測システムの動作を説明するフローチャートである。
図３５は、本願の第３７発明の一実施の形態によるドメインリンカー部位の予測システムの機能を説明するブロック図である。
図３６は、本願の第３６発明の別の一実施の形態によるドメインリンカー部位の予測方法ないしは本願の第３７発明の別の一実施の形態によるドメインリンカー部位の予測システムの動作を説明するフローチャートである。
図３７は、本願の第３７発明の別の一実施態様によるドメインリンカー部位の予測システムの機能を説明するブロック図である。
図３８は、本願の第４２発明の一実施の形態による構造ドメイン予測システムの動作を説明するフローチャートである。
図３９は、本願の第４２発明の一実施の形態による構造ドメイン予測システムの機能を説明するブロック図である。
図４０は、本願の第４２発明の別の一実施の形態による構造ドメイン予測システムの動作を説明するフローチャートである。
図４１は、本願の第４２発明の別の一実施の形態による構造ドメイン予測システムの機能を説明するブロック図である。
図４２は、配列長の分布を示す。
図４３は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、配列の長さ（アミノ酸残基数）を示す。
図４４は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、アミノ酸残基が出現する確率を示す。
図４５は、単一アミノ酸残基傾向パラメータの求め方を示す。
図４６は、ドメインリンカー配列のグループ分けとアライメントを示す。
図４７は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、任意のアミノ酸残基０個をあいだに置いてアミノ酸残基のペアが出現する確率を示す。
図４８は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、任意のアミノ酸残基１個をあいだに置いてアミノ酸残基のペアが出現する確率を示す。
図４９は、ドメインリンカー配列および非ドメインリンカーループ配列のそれぞれについて、任意のアミノ酸残基２個をあいだに置いてアミノ酸残基のペアが出現する確率を示す。
図５０は、アミノ酸残基ペア傾向パラメータの求め方を示す。
図５１は、本願の第２８発明の一実施の形態によるリンカー度判別スコアの計算を，用意した２４２本のドメインリンカー配列および３３８１本の非ドメインリンカー配列に対して行ない，横軸にＦ_１ｓ，縦軸にＦ_１ｐをとって各配列のスコアの分布状態を示した分布図である。
図５２は、ドメインリンカー予測結果を示す。
図５３は、ウィンドウのとり方を示す。
図５４は、アライメントしたｓｅｑ．０とｓｅｑ．１〜ｓｅｑ．ｎの配列及びウィンドウのとり方を示す。
図５５は、ドメインリンカー部位の予測方法の概略を示す。
符号の簡単な説明
１：コンピュータ
２：ＣＰＵ
３：ＲＯＭ
４：ＲＡＭ
５：入力部
６：送信／受信部
７：表示部
８：ハードディスクドライブ
９：ＣＤ−ＲＯＭドライブ
１０：ＣＤ−ＲＯＭ
１１：アミノ酸配列入力部
１２：ウィンドウ設定部
１３：ウィンドウ内アミノ酸配列入力部
１４：出力値計算部
１５：予測値付与部
１６：ウィンドウ位置移動部
１７：平均化ウィンドウ設定部
１８：平均値算出部
１９：平均化ウィンドウ移動部
２０：ドメインリンカー領域予測部
１０１：コンピュータ
１０２：ＣＰＵ
１０３：ＲＯＭ
１０４：ＲＡＭ
１０５：入力部
１０６：送信／受信部
１０７：表示部
１０８：ハードディスクドライブ
１０９：ＣＤ−ＲＯＭドライブ
１１０：ＣＤ−ＲＯＭ
１０２１：ドメインリンカー配列部分抽出部
１０２２：非ドメインリンカーループ配列部分抽出部
１０２３：Ｐ_Ｘａａ ^Ｌ算出部
１０２４：Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ算出部
１０３１：ドメインリンカー配列部分抽出部
１０３２：非ドメインリンカーループ配列部分抽出部
１０３３：Ｐ_Ｘａａ ^Ｌ算出部
１０３４：Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ算出部
１０３５：Ｓ_Ｘａａ算出部
１０４１：ドメインリンカー配列部分抽出部
１０４２：非ドメインリンカーループ配列部分抽出部
１０４３：Ｐ_Ｘａａ ^Ｌ算出部
１０４４：Ｐ_{ＸａａＹａａ（ｍ）} ^Ｌ算出部
１０４５：Ｓ_{ＸａａＹａａ（ｍ）}算出部
１０５１：Ｆ_１ｓ算出部
１０５２：Ｆ_１ｐ算出部
１０５３：Ｆ_１算出部
１０７１：Ｆ_１１ｓ（ｉ）算出部
１０７２：Ｆ_１１ｐ（ｉ）算出部
１０７３：Ｆ_１１（ｉ）算出部
１０８１：Ａ_ｉ ^ｋ同定部
１０８２：Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部
１０８３：Ｆ_１２ｓ（ｉ）算出部
１０８４：Ｆ_１２ｐ（ｉ）算出部
１０８５：Ｆ_１２（ｉ）算出部
１０９１：Ｆ_１１ｓ（ｉ）算出部
１０９２：Ｆ_１１ｐ（ｉ）算出部
１０９３：Ｆ_１１（ｉ）算出部
１０９４：二次構造予測部
１０９５：領域探索部
１０９６：ドメインリンカー存在位置予測部
１１０１：Ａ_ｉ ^ｋ同定部
１１０２：Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部
１１０３：Ｆ_１２ｓ（ｉ）算出部
１１０４：Ｆ_１２ｐ（ｉ）算出部
１１０５：Ｆ_１２（ｉ）算出部
１１０６：二次構造予測部
１１０７：領域探索部
１１０８：ドメインリンカー存在位置予測部
１２０１：Ｆ_１１ｓ（ｉ）算出部
１２０２：Ｆ_１１ｐ（ｉ）算出部
１２０３：Ｆ_１１（ｉ）算出部
１２０４：二次構造予測部
１２０５：領域探索部
１２０６：ドメインリンカー存在位置予測部
１２０７：構造ドメイン予測部
１３０１：Ａ_ｉ ^ｋ同定部
１３０２：Ｓ’_Ａｉ、Ｓ’_{ＡｉＡｉ＋（ｍ＋１）}（ｍ）およびＳ’_{ＡｉＡｉ−（ｍ＋１）}（ｍ）算出部
１３０３：Ｆ_１２ｓ（ｉ）算出部
１３０４：Ｆ_１２ｐ（ｉ）算出部
１３０５：Ｆ_１２（ｉ）算出部
１３０６：二次構造予測部
１３０７：領域探索部
１３０８：ドメインリンカー存在位置予測部
１３０９：構造ドメイン予測部

Claims

立体構造未知のタンパク質のドメインリンカー領域を予測するシステムであって、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段を含むことを特徴とする前記システム。
コンピュータを、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段として機能させるためのプログラム。
コンピュータを、立体構造未知のタンパク質のアミノ酸配列を数値で表現した値を入力するアミノ酸配列入力手段、前記立体構造未知のタンパク質のアミノ酸配列内にウィンドウをとるウィンドウ設定手段、２以上の構造ドメインから構成されるタンパク質のドメインリンカー領域を識別学習させた階層型ニューラルネットワークに前記ウィンドウ内のアミノ酸配列を数値で表現した値を入力するウィンドウ内アミノ酸配列入力手段、前記階層型ニューラルネットワークに出力値を計算させる出力値計算手段、前記出力値を前記ウィンドウの中央に位置するアミノ酸残基に予測値として付与する予測値付与手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内でウィンドウの位置を移動させるウィンドウ位置移動手段、前記立体構造未知のタンパク質のアミノ酸配列内に新たな所定残基数以上の範囲のウィンドウをとる平均化ウィンドウ設定手段、前記の新たなウィンドウ内のアミノ酸残基間で予測値の平均化を行って、平均値を求める平均値算出手段、前記立体構造未知のタンパク質のアミノ酸配列の所望の範囲内で前記の新たなウィンドウの位置を移動させる平均化ウィンドウ移動手段、前記予測値の平均値が予め設定した閾値より大きいアミノ酸残基からなる領域をドメインリンカー領域と予測するドメインリンカー領域予測手段として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
タンパク質のドメインリンカー領域を予測するシステムであって、
下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する手段を含むことを特徴とする前記システム。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ_ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ_ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ_１，ｘ_２，・・・・・，ｘ_３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
コンピュータを、
下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する手段として機能させるためのプログラム。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ _１，ｘ _２，・・・・・，ｘ _３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ _ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ _ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ _１，ｘ _２，・・・・・，ｘ _３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。
コンピュータを、
下記の（ｉ）および（ｉｉ）の条件を満たす配列パターンを有する領域をタンパク質のドメインリンカー領域であると予測する手段として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
（ｉ）連続した１９残基からなる配列断片を式ｘ：
（ここで、ｘ＝（ｘ _１，ｘ _２，・・・・・，ｘ _３９９）は、配列断片の１９残基の並びに従い、アミノ酸種類に対応した２１ビットの二進数列を直列に並べ、その結果得られる３９９（＝１９×２１）ビットの２進数列であり、ビットの並びは順に「アラニン（Ａ）、システイン（Ｃ）、アスパラギン酸（Ｄ）、グルタミン酸（Ｅ）、フェニルアラニン（Ｆ）、グリシン（Ｇ）、ヒスチジン（Ｈ）、イソロイシン（Ｉ）、リジン（Ｋ）、ロイシン（Ｌ）、メチオニン（Ｍ）、アスパラギン（Ｎ）、プロリン（Ｐ）、グルタミン（Ｑ）、アルギニン（Ｒ）、セリン（Ｓ）、スレオニン（Ｔ）、バリン（Ｖ）、トリプトファン（Ｗ）、チロシン（Ｙ）、その他（Ｘ）」に対応し、２１ビットの２進数列は、表現する残基のアミノ酸種類と一致するもののみが１となり、それ以外は０となる。）
により数値で表現したときに、下記のｇ（ｘ）の値が０．５〜１．０の範囲にある。
（ここで、ｗ _ｉｊ（ｉ＝０，・・・・・，３９９；ｊ＝１，２）とｖ _ｊ（ｊ＝０，１，２）の組み合わせは、表ＡのＧｒｏｕｐ１の組み合わせ、表ＢのＧｒｏｕｐ２の組み合わせ、表ＣのＧｒｏｕｐ３の組み合わせ、表ＤのＧｒｏｕｐ４の組み合わせ、表ＥのＧｒｏｕｐ５の組み合わせ、表ＦのＧｒｏｕｐ６の組み合わせ、表ＧのＧｒｏｕｐ７の組み合わせ、表ＨのＧｒｏｕｐ８の組み合わせ、表ＩのＧｒｏｕｐ９の組み合わせ、および表ＪのＧｒｏｕｐ１０の組み合わせからなる群より選択される。）
（ｉｉ）ｇ（ｘ）の値が０．５〜１．０の範囲にある配列断片ｘ＝（ｘ _１，ｘ _２，・・・・・，ｘ _３９９）の中央残基を含み、さらに、その中央残基の前後９残基以内のアミノ酸を含んでもよい。