JP4243423B2

JP4243423B2 - 蛋白質の立体構造の推定方法

Info

Publication number: JP4243423B2
Application number: JP2000515182A
Authority: JP
Inventors: 昭子板井
Original assignee: IMMD INC.
Current assignee: IMMD INC.
Priority date: 1997-10-02
Filing date: 1998-10-02
Publication date: 2009-03-25
Anticipated expiration: 2018-10-02
Also published as: EP1028317A1; WO1999018440A1; US7212924B1; EP1028317A4

Description

技術分野
本発明は、蛋白質の立体構造の推定方法に関するものである。
背景技術
アミノ酸配列から蛋白質の立体構造を推定することは理論的に不可能とはいえない。しかしながら、現在のところ、配列情報から蛋白質の立体構造を確実に推定する手段は開発されておらず、蛋白質の立体構造を知るための手段は、Ｘ線結晶構造解析やｎｍｒ解析などの実験的方法に限られている。蛋白質の立体構造の情報は、その機能を原子レベルで理解し、またその蛋白質を標的とする医薬の創製やさらに優れた機能をもつ有用な蛋白質の創製に不可欠である。近年、遺伝子情報の解析手段が急速に進歩した結果、実際に蛋白質が単離されないまま配列情報だけが解明される例が急増している。従って、配列情報から蛋白質の立体構造や機能を推定する有効な手段の開発が切望されているのが現状である。
あるアミノ酸配列を有する蛋白質の存在がわかった場合、配列データベースから相同性のある蛋白質を検索するのが一般的である。アミノ酸配列の一致度がある程度よい蛋白質が見つかると、さらにその蛋白質との間で相同性やギャップも考慮したアラインメントを行い、さらに相同性の高いアラインメントの探索が行われる。目的の蛋白質と機能既知の蛋白質との相同性が高い場合には機能がその既知蛋白質に類似しており、一方、立体構造既知の蛋白質との相同性が高い場合には立体構造がその蛋白質に類似しているとの推定が成り立つ。また、相同性が高ければ高いほど機能や立体構造が類似している確率が高く、その推定の信頼性が高いと考えられる。
立体構造既知の蛋白質の配列とある程度（一般に３０％程度）以上の相同性が認められた場合には、その立体構造を鋳型として立体構造を構築するホモロジーモデリング法が行われる。鋳型の立体構造に基づいて対応付けられた残基が鋳型と異なる場合には、側鎖を置換することによって仮想的な立体構造を構築することができる。アラインメント上のギャップは、鋳型立体構造中に対応するアミノ酸がないか、あるいは鋳型の方が余計なアミノ酸をもつことになるので別途処理する必要があるが、ギャップの存在は鋳型に基づくモデリング作業を難しくし、かつ信頼性を損なうので、できるだけギャップの数を少なくするようにギャップにペナルティを与えるアラインメント法が推奨されている。
問題のアミノ酸配列とある程度以上相同性の高いアミノ酸配列を有する立体構造既知の蛋白質が見つからない場合には、ホモロジーモデリングは不可能である。一方で、蛋白質の結晶構造情報が蓄積されるにつれて、アミノ酸配列の相同性が殆どなく機能も全く異なる複数の蛋白質が、類似の立体構造を持つ例が多数わかってきた。このことは、蛋白質が安定な立体構造をとるための物理化学的要因を考慮すれば、アミノ酸配列の相同性が低い場合にも、立体構造既知の蛋白質群中から鋳型となる立体構造を見出せる可能性があることを示している。
近年、アミノ酸残基毎の疎水性など物理的な性質の一致を考慮したスコアを用いることにより、アミノ酸配列の相同性が低くても立体構造的に類似性が高いと推定される鋳型蛋白質を立体構造既知の蛋白質群から選ぶ方法が開発された。代表的な方法として、Ｅｉｓｅｎｂｅｒｇらによる３Ｄ−１Ｄ法（Ｒ．Ｌｕｔｈｙ，Ｊ．Ｕ．ＢｏｗｉｅａｎｄＤ．Ｅｉｓｅｎｂｅｒｇ，Ｎａｔｕｒｅ，３５６，８３，１９９２）がある。この方法は、アミノ酸配列の相同性に加え、立体構造既知の蛋白質について各アミノ酸残基の属する２次構造とその残基位置の環境を表すパラメータと、問題の配列の各アミノ酸残基に対して２次構造毎に与えたパラメータとを用いて、対応づけられたアミノ酸残基間で類似性のスコアを計算する工程を含んでいる。この方法では、蛋白質のペプチド鎖の折り畳み方についての膨大な自由度の問題を既知の結晶構造群を鋳型として用いることで回避しており、評価の要素として疎水性などの物理的パラメータを含めることによって配列の相同性が低い場合にもモデリングが可能である。
しかしながら、立体構造が類似している場合であっても、アミノ酸残基数、２次構造、及びループの長さが同じことは少ないので、アミノ酸配列間の対応づけに基づいた３Ｄ−１Ｄ法を実際に適用する場合には数多くの問題が生じる。例えば、アミノ酸配列間の単純なスライド（スレッディング）に加え、どちらかの配列に部分的な配列の欠損など（ギャップ）を考慮して対応付けする必要があるが、ホモロジ─モデリングと同様にギャップの導入はモデリングの信頼性を低下させるでしまう。配列の相同性が低いときに、必要にして最小限のギャップを考慮した対応付けをいかにして実現するかが問題である。また、疎水性親水性などのパラメータの他、２０種類のアミノ酸残基に対して２次構造毎のパラメータを用いるなど非常に多数のパラメータに依存しており、パラメータの改良による予測性の向上は期待しにくい。
アミノ酸配列から蛋白質の立体構造を予測する研究の歴史は、配列のどの部分がどのような２次構造をとるかを予測することから始まった。多数の蛋白質の結晶構造情報から統計的に求められたアミノ酸残基毎あるいは連続した数アミノ酸残基の組毎に、α−ヘリックス又はβ−シートになり易さを示すパラメータを用いて、問題のアミノ酸配列から顕著な傾向を示す連続した領域を検出し、それがどちらの構造をとるかを予測するものである。その代表的なものとして、ＣｈｏｕとＦａｓｍａｎらによる２次構造予測法（Ｐ．Ｙ．Ｃｈｏｕ，＆Ｇ．Ｄ．Ｆａｓｍａｎ，Ａｄｖ．ｅｎｚｙｍｏｌ．４７，４５，１９７８）がある。しかしながら、このような方法は、２次構造の３次元的集合に関してはなんら情報を与えるものではなく、また予測された２次構造と結晶解析で確認された２次構造の一致が６０％前後であることから、立体構造の推定方法としてはほとんど利用価値がない。
蛋白質の安定な折り畳み構造を、純粋に計算的手法によって先入観を入れずに予測する試みも行われるようになった（いわゆるａｂｉｎｉｔｉｏ予測法）。しかしながら、蛋白質は極めて自由度が大きい分子であり（１００残基程度の蛋白質でも考慮すべき自由度のパラメータは４００以上である）、すべての自由度を考慮して可能な構造を十分に探索することは、現在利用可能なコンピュータでは不可能である。また、可能な立体構造の安定性を正しく評価できるほど蛋白質の構造の安定化に関わるファクター（例えば、水の物理化学的性質、疎水相互作用、静電相互作用）についての研究は進んでいないなどの理由から、このような構造予測法の成功は今のところ期待できない。
一方、近年、多数の蛋白質の立体構造が解析されており、その成果はプロテインデータバンクから利用できるようになっている。現在約６，０００の蛋白質・核酸の構造が収録されており、機能の異なる独立の蛋白質は４００程度である。これらの蛋白質の立体構造から、配列の相同性もなく進化的にも機能的にも全く関係がないように見える蛋白質が同じ構造モチーフを有する例が多数明らかにされている。
発明の開示
本発明の第一の課題は、あるアミノ酸配列を有する蛋白質のアミノ酸配列情報から、その蛋白質がとる可能性の高いスキャッフォールドを推定することにより、立体構造をモデリングするための方法を提供することにある。正しいスキャッフォールドの推定は、立体構造を正しく必要な精度でモデリングするための出発点となり得る。すなわち、本発明の究極の課題は、アミノ酸配列の情報のみから蛋白質の立体構造を高い信頼性をもって推定する方法を提供することにあり、その手段としてスキャッフォールドを推定する方法を提供することが本発明の具体的課題である。また、本発明の別の課題は、上記の方法に有用なデータベースを提供することにある。
本発明者らは上記の課題を解決すべく鋭意努力した結果、立体構造が既知または推定可能な蛋白質について各アミノ酸残基の側鎖の環境情報を備えたデータベースを作成し、そのデータベースを利用することによって、立体構造未知の蛋白質のアミノ酸配列の情報から、その蛋白質がとる可能性の高いスキャッフォールドを信頼性高く効率的に推定することができる方法を見出した。
すなわち本発明は、立体構造が既知又は推定可能な参照蛋白質のアミノ酸配列に含まれる各アミノ酸残基の側鎖についての環境情報を含むデータベースを用い、参照蛋白質の各アミノ酸残基の環境情報と質問配列中の各アミノ酸残基の側鎖の疎水性又は親水性の性質とに基づいてマッチングを行い、参照蛋白質の中から質問配列の蛋白質と立体構造の類似性が高い鋳型蛋白質を選択して質問配列の蛋白質のスキャッフォールドを推定する方法を提供するものである。スキャッフォールドを推定した後に、鋳型蛋白質と質問配列の最適マッチングに基づいて質問配列に対応した立体構造（３次元座標）を得ることができる。
本発明の好ましい態様によれば、参照蛋白質のアミノ酸配列が該参照蛋白質の立体構造に基づいて連続した２以上のアミノ酸残基からなる２以上の部分配列に分割された上記方法；参照蛋白質のアミノ酸配列が疎水コアの形成に実質的に関与する１又は２以上のコア部分配列と疎水コアの形成に実質的に関与しない１又は２以上のサブ部分配列とに分割された上記方法；参照蛋白質における各アミノ酸残基の側鎖の蛋白質内部への埋没度及び／又は蛋白質表面への露出度の情報と、質問配列の各アミノ酸の疎水性及び／又は親水性の性質とに基づいてマッチングを行う上記方法；参照蛋白質の１又は２以上のコア部分配列を質問配列上でスライドさせ、該コア部分配列の片端又は両端以外においてはギャップを考慮せずにマッチングを行う上記方法；並びに、ギャップが１又は２以上のアミノ酸残基の削除又は付加である上記方法が提供される。
本発明のさらに好ましい態様によれば、マッチングが以下の工程：
（ａ）１又は２以上のコア部分配列を質問配列上でスライドさせながら、必要に応じて該コア部分配列の片端又は両端においてはギャップを考慮してマッチングを行う工程（ただし、２以上のコア部分配列を用いる場合には、該コア部分配列は参照蛋白質のアミノ酸配列での出現順に順番に配置する）；及び
（ｂ）工程（ａ）でコア部分配列にマッチングされなかった質問配列の部分につき、該参照配列における各コア部分配列とのつながりにしたがって、必要に応じてギャップを考慮しつつサブ部分配列を質問配列上でスライドさせる工程を含む上記方法；参照蛋白質のアミノ酸残基の側鎖に関する環境情報と質問配列上の対応アミノ酸残基の疎水度パラメータとから計算したスコアに基づいて最適マッチングを選択する上記方法；並びに、参照蛋白質についての自己マッチングスコアを用いて上記スコアを規格化する工程を含む上記方法が提供される。
別の観点からは、本発明により、立体構造が既知又は推定可能な１又は２以上の参照蛋白質のアミノ酸残基の側鎖についての環境情報を含むデータベースであって上記の各方法に用いられるためのデータベースが提供される。このデータベースは、通常の記憶媒体、例えば磁気ディスク、光ディスク、ＣＤ−ＲＯＭ、磁気テープなどに格納された形態で流通可能であり、該環境情報と質問配列のアミノ酸残基の性質との一致度をスコアとするマッチングによって、質問配列から構成される蛋白質の安定なスキャッフォールドを推定するために用いることができる。
発明を実施するための最良の形態
本発明の方法は、質問配列から理論的に可能な主鎖の折り畳み方を網羅・探索して評価するかわりに、参照蛋白質のデータベースから質問配列の蛋白質が立体構造的に類似する鋳型蛋白質を選び、鋳型蛋白質のスキャッフォールドから質問配列の蛋白質の立体構造を推定することを特徴としている。本発明の方法は、一般的には、ワークステーション、パーソナルコンピューターなどの汎用のコンピューターを用いて高速に行うことができる。
本明細書において用いられる用語は、以下に述べる概念を含めて、最も広義に解釈する必要がある。「立体構造」とは３次元座標で表される蛋白質の構造を意味しており、アミノ酸残基の側鎖など存在する全原子を含む場合もあるが、それらの一部を省略することもある。「モデリング」とは、立体構造が実験的に解明されているか否かに係わらず、ある蛋白質について存在可能性の高い立体構造を構築して原子の３次元座標で表現することをいう。
「２次構造」、「構造モチーフ」、及び「スキャンフォールド」などの用語はＢｒａｎｄｅｎ及びＴｏｏｚｅらの著書に記載されている（ＣａｒｌＢｒａｎｄｅｎａｎｄＪｏｈｎＴｏｏｚｅ，ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＰｒｏｔｅｉｎＳｔｒｕｃｔｕｒｅ，ＧａｒｌａｎｄｐｕｂｌｉｓｈｉｎｇＩｎｃ．ＮｅｗＹｏｒｋ，１９９１：和訳「タンパク質の構造入門」、教育社、１９９２）。「構造モチーフ」と「スキャッフォールド」は、ともにペプチド主鎖のみのトポロジーを表す点では共通しているが、「構造モチーフ」が２次構造群の組み合わせとペプチド鎖の流れを平面的かつ模式的に表現するのに対して、「スキャッフォールド」は２次構造群の集合状態を含む蛋白質の３次元構造の骨組を意味する。「立体構造」、「構造モチーフ」、及び「スキャッフォールド」の関係を図１に示す。
立体構造を推定したいアミノ酸配列を「質問配列」と呼び、その質問配列から構成される蛋白質を「質問配列の蛋白質」と呼ぶ。立体構造が既知または推定可能な蛋白質であって本発明のデータベースに含まれる蛋白質を「参照蛋白質」と呼び、参照蛋白質のうち、質問配列とのマッチングスコアがよく、質問配列の蛋白質と立体構造の類似性が高い蛋白質として選別された参照蛋白質を「鋳型蛋白質」という（「鋳型候補蛋白質」と呼ぶ場合もある）。鋳型蛋白質のスキャッフォールドは、質問配列の蛋白質の立体構造を構築する際の鋳型として用いられる。
一般に２以上の配列をアミノ酸残基の一致度や相同性が高くなるように対応づけて並置する操作又は結果は「アラインメント」と呼ばれるが（「一致度」とは配列間で対応する残基間の厳密な一致を意味しており、「相同性」とは同等または類似など曖昧さを含めた一致の割合を意味する）、本発明の方法において「マッチング」（又は「対応付け」）という場合には、アミノ酸残基の一致又は相同性によらず、環境情報と性質の一致で残基を対応づけて並置する操作又は結果を意味している。ある対応付けにおける参照蛋白質の各アミノ酸残基の環境と質問配列のアミノ酸残基の性質との一致度を「マッチングスコア」（又は単に「スコア」）とよぶ。「環境情報」は、主として、参照蛋白質の立体構造における各アミノ酸残基の側鎖の蛋白質表面への露出度や存在環境を示す。アミノ酸配列について用いられる「ギャップ」という用語は、２以上のアミノ酸配列間の対応付けにおいていずれか一方の配列に対応するアミノ酸残基がない部分を指し、一方の配列から見ると１又は２個以上のアミノ酸残基の挿入及び／又は欠失していることを意味する。
本発明の好ましい態様では、このデータベースに参照蛋白質毎に立体構造を反映して分割した２以上の部分配列の情報とアミノ酸残基毎の環境情報とを格納しておく。参照蛋白質の環境情報と質問配列中の対応アミノ酸残基の疎水度パラメータとから計算されるマッチングスコアに基づいて２つの配列をマッチングする。疎水度パラメータは２０種のアミノ酸残基に対して予め数値化しておくことが望ましい。
部分配列のうち、疎水コアの形成に関与するコア部分配列についてはギャップを入れずに質問配列上をスライドさせ、両端においてのみアミノ酸残基の増減（隣接するサブ部分配列の末端から１又は２個以上のアミノ酸残基をとって該コア部分配列に組み込むか、又はその逆の操作を意味する）を考慮してマッチングを行い、スコアのよい鋳型候補蛋白質を選別する。次に、疎水コアの安定化に関与しないサブ部分配列について必要に応じてギャップを考慮したマッチングを行い、鋳型候補の数を絞る。最終的な鋳型蛋白質の選択は、各蛋白質の最適マッチングのスコアを自己マッチングスコアで規格化して比べることにより行うことができる。
本発明の方法は、マッチングスコアが高いほど２つの配列間でスキャッフォールドや立体構造の類似性が高いとの仮定に基づいており、配列の相同性が殆どない配列間の残基のマッチングを蛋白質の折り畳み原理に従って行うことによって、参照蛋白質からの鋳型蛋白質の適切な選択を可能にしている点に特徴がある。ある。本発明の好ましい態様では、（１）データベースの作成；（２）部分配列を用いたマッチング；（３）マッチングスコアの計算；（４）参照蛋白質から鋳型候補蛋白質の選択；（５）鋳型蛋白質の選択を主要な要素としている。
一般的な水溶性の単一サブユニットの蛋白質を構成するペプチド鎖については、アミノ酸残基の疎水性側鎖ができるだけ分子内部に埋もれて露出せず、一方、親水性側鎖はできるだけ蛋白質分子表面に露出するのが自由エネルギー的に有利である。もっとも、細胞膜に相互作用する蛋白質や複数のサブユニットからなる蛋白質など存在環境が異なる蛋白質では、個々の蛋白質構造やサブユニット構造だけをみると、疎水性側鎖が蛋白質表面に露出していることもある。本発明の方法では、このような蛋白質の立体構造の多様性も考慮されており、個々のアミノ酸残基の存在環境を反映したスコア付けができるようになっている。アミノ酸残基毎の特定２次構造のとり易さの概念（例えばＰ．Ｙ．Ｃｈｏｕ，＆Ｇ．Ｄ．Ｆａｓｍａｎ，Ａｄｖ．ｅｎｚｙｍｏｌ．４７，４５，１９７８）は基本的には用いないが、必要に応じてそれらの概念を加味したスコアを用いることができる。
実施例
以下、本発明の方法の好ましい態様をスキームで示し、このスキームに従って本発明の方法をより具体的に説明するが、本発明の方法はこのスキームの細部又は以下の説明の細部に限定されることはない。

（Ａ）データベースの作成
立体構造が既知または推定可能な参照蛋白質について、立体構造に関わる情報として、各アミノ酸残基の環境情報及び部分配列の情報を含むデータベースを作成しておく。データベースに収納する蛋白質としては、立体構造の情報が既知または推定可能な蛋白質であれば、すべてエントリーとすることができる。同時に構造決定された蛋白質中に複数のサブユニットが含まれるときは、独立のエントリーとしておくことが好ましい。ペプチド鎖で繋がった複数ドメインからなる構造については、全体構造とともに各ドメインも独立エントリーとしておくことが好ましい。
参照蛋白質毎に含める情報は以下の通りである。
（１）一般的な情報
（ａ）蛋白質名（蛋白質コード）、サブタイプ、アミノ酸数、アミノ酸配列、ドメイン、サブユニットなどに関する情報。
（ｂ）立体構造に関する情報として、立体構造の決定（又は推定）方法（結晶解析法、ｎｍｒ法、又はモデリング法のいずれにより立体構造を決定したか）、ＰＤＢコード、モデリング法による場合には鋳型として利用した蛋白質分子名、結晶解析の場合には共結晶化された分子がある場合にはその化学名などの情報のうち適宜のものを含めておく。
（ｃ）生物学的意義に関する情報として、生物学的機能、生物種、存在する組織・臓器、エフェクター分子などの情報を含めておく。
（２）部分配列情報
蛋白質の立体構造における特徴に従って、配列を分割して２以上の部分配列とし、各部分配列について以下の情報をデータベースに含めるのが望ましい。
（ａ）Ｎ末端から何番目の部分配列か
（ｂ）コア部分配列かサブ部分配列かのフラグ
（ｃ）始点と終点（Ｎ末端からのアミノ酸配列番号で）、配列の長さ、その距離及びベクトル、サブ部分配列ならば最短の残基数
（ｄ）部分配列間の距離及びベクトル
（ｅ）β−シート形成の水素結合をする相手の部分配列番号、および逆平行または平行β−シートなどの区別、あるいは一定の距離内にある部分配列番号など
（ｆ）自己マッチングスコア（後述）
部分配列への分割の基準は特に限定されないが、α−ヘリックス構造やβ−ストランド構造などの２次構造を形成し実質的に疎水コアの形成に関わる部分をコア部分配列とし、それ以外の部分をサブ部分配列とすることができる。各部分配列は、例えば、７残基以上を含む連続した配列とすることが望ましい。β−ターン構造については、はじめからコアまたはサブ部分配列に加えても構わないし、別のフラグによって区別し、検索時にコアかサブかの判断を加えてもよい。分割の作業は、コンピュータグラフィックス画面上で対話的に個々の蛋白質について行ってもよいし、分割の基準を定めたプログラムを作成して自動的に行ってもよい。その判断基準として、例えば、隣り合う４つのＣアルファ原子のなす擬ねじれ角などの数値を基準に用いれば、自動的に部分配列に分割できる。
（３）アミノ酸残基毎の環境情報
（ａ）露出度パラメータ
参照蛋白質の全てについて、立体構造に基づいて残基毎の蛋白質表面への側鎖の露出度及び蛋白質内部への側鎖の埋没度を計算し、その計算値に基づいて露出度パラメータを割り振る。本明細書において用いられる「露出度パラメータ」という用語は、各残基の側鎖がどの程度分子表面に露出しているか、又は埋没しているかを示す数値を意味している。露出度パラメータを定義する方法は特に限定されず、いかなる方法を採用してもよいが、露出度が高いものはマイナスの値、露出度が低いものはプラスの値をとるように設定するのが望ましい。例えば、立体構造において各アミノ酸側鎖の溶媒への接触可能表面と蛋白質原子への接触表面積を計算して、その差から露出度パラメータを算出して利用することができる。また、例えば、全分子表面に対する溶媒接触表面の割合を基準として定めることもできる。
（ｂ）存在環境フラグの設定
細胞膜に相互作用する蛋白質では膜と相互作用する部分の表面に疎水性アミノ酸残基の側鎖が露出しており、また、サブユニットやドメイン構造が集合して安定化する接触面を有する蛋白質では、接触面に疎水性アミノ酸残基の側鎖が露出している場合があり、これらの蛋白質は単独で存在する水溶性蛋白質とは異なる性質を有している。このような蛋白質については、一般的には、先述の折り畳み原理はそのままでは適用できない。データベース作成時に、例えば、次のような存在環境フラグを露出度パラメータとは別に各アミノ酸残基に与えておくことができる。
例えば、蛋白質の由来や機能に関する実験結果および立体構造から、各アミノ酸の存在環境が以下のいずれに相当するかを推定して環境フラグを与えておき、マッチングやスコアの計算の際に考慮することが可能である。
０：不明（未定義または定義できず）
１：分子内部（蛋白質内、サブユニット内、ドメイン内の接触）
２：分子内孔（リガンド結合部位）
３：分子表面（水環境と接触）
４：分子表面（別蛋白質、別サブユニット、別ドメインと接触）
５：分子表面（膜と接触）
さらに、立体構造形成に特殊な影響を与えるアミノ酸残基については、特殊残基であることを示すフラグを与えておき、マッチングやスコアの計算の際に考慮することができる。例えば、Ｓ−Ｓ結合しているシステイン残基やプロリンのように主鎖に水素結合性官能基が不足しているアミノ酸残基、または側鎖原子間に強い親水性相互作用を形成する可能性のある残基などに適用することができる。（Ｂ）質問配列と参照蛋白質の配列間のマッチング
一方の配列を他方の配列上スライドさせて最適のマッチングを効率よく探すために、部分配列の概念を利用することができる。そのために、上記データベースは、各参照蛋白質について立体構造から得られる部分配列の情報とアミノ酸残基ごとの環境情報がアミノ酸配列順に収めてある。一方、質問配列が有している情報はアミノ酸配列の情報だけであり、アミノ酸残基毎の疎水度パラメータの表からとった値を当てはめてスコアの計算に用いる。データベースから参照蛋白質を１つずつ取り出し、アミノ酸配列中に出現する順に並べた部分配列群を質問配列上でスライドさせて、部分配列群と質問配列との間でマッチングスコアの最もよいマッチングを探す。
（１）部分配列を用いたマッチング
部分配列を用い、かつコア部分配列ではギャップを考慮しないでアミノ酸残基単位でマッチングを行うことにより、最適マッチングの配列間対応付けを高速に検索することができる。一般に、進化の過程では残基の置換とともに挿入や欠失が起きることが多く、その考慮は配列のマッチングに不可欠である（「従来の技術」の欄を参照）。しかしながら、一般的には、ギャップが入るのはサブ部分配列であることが多い。これは、疎水コアの安定化に関与するコア部分配列でその両端以外で挿入や欠失が起きると、その安定スキャッフォールド自体が損なわれ、蛋白質の立体構造が大きく変化してしまうからである。
そこで、本発明の方法の好ましい態様では、コア部分配列とサブ部分配列とに分けて２段階のマッチングを行う。第一段階のコナ部分配列を用いたマッチングにおいては、まずギャップを考慮せずにに１又は２以上のコア部分配列を質問配列上でスライドさせ、該コア部分配列の両端においてのみアミノ酸残基の増減を考慮したマッチングを行って最適マッチングを探索する。
各コア部分配列について質問配列の上をスライドさせながらマッチングスコアを計算して保存する。全部のコア部分配列について同様に計算した後、全体として最適なマッチングを決定する。２以上のコア部分配列を用いる場合には、質問配列上に２以上のコア部分配列を参照蛋白質のアミノ酸配列中での出現順序に従って重なり合わないように配置し、コア部分配列間には４個程度以上のアミノ酸残基の存在を仮定して（立体的に結合可能なアミノ酸残基数で隣のコア部分配列と順番に繋がるという条件、例えばβ−ターンなどに要するアミノ酸残基数）、それぞれのコア部分配列の順序を変えずに質問配列上をスライドさせ、最も総スコアのよいマッチングを選択する。この際、各コア部分配列のマッチングスコアが最大である必要はない。この第一段階で、高いスコアを与える鋳型蛋白質を数個から数十個選択し、スキャッフォールド候補として第二段階に進む。
（Ｃ）マッチングスコア
マッチングスコアは参照蛋白質の環境情報の露出度パラメータＥＰ（ｉ）と質問配列の残基の疎水度パラメータＨＢ（ｊ）を用いて計算する。ｉは参照蛋白質のアミノ酸配列中のアミノ酸残基番号であり、ｊはそれと対応づけられた質問配列の残基番号を指す。マッチングスコアの計算式は、参照蛋白質の分子内部に埋没した側鎖環境に質問配列の疎水性の強いアミノ酸残基が対応し、分子表面に露出した側鎖環境に質問配列の親水性の強いアミノ酸残基が対応すると高いスコアが得られるような計算式であれば、いかなるものを利用してもよい。マッチングスコアは例えば、最も単純には次式によって計算することができる。
残基毎のマッチングスコア＝ＥＰ（ｉ）×ＨＢ（ｊ）
部分配列のマッチングスコア＝配列に含まれる残基のマッチングスコアの和
全配列のマッチングスコア＝全部分配列のマッチングスコアの和
（１）疎水度パラメータ
２０種のアミノ酸残基のそれぞれに疎水性又は親水性の性質に関連した疎水度パラメータを与えておく。疎水度パラメータの決定方法は特に限定されず、いかなる基準による値を用いてもよい。例えば、文献に記載されたアミノ酸毎の疎水性値を用いてもよく、又は適宜の方法により独自の基準で算出したものを用いてもよい。また、あるアミノ酸について、結晶解析された蛋白質中の全出現回数に対して蛋白質分子内部に埋没された残基の比率を統計的に求めておき、その比率を該アミノ酸の疎水度パラメータとして利用してもよい。
また、例えば、個々のアミノ酸残基に別々の値を与えてもよいが、次のように段階化した疎水度パラメータを与えることもできる。
表１
２：強い疎水性（イソロイシン、パリン、ロイシン、フェニルアラニン）
１：弱い疎水性（アラニン、メチオニン、シスチン、チロシン）
０：ほぼ中性（グリシン、プロリン、リジン、アルギニン）
−１：弱い親木性（スレオニン、ヒスチジン）
−２：強い親木性（セリン、アスパラギン、アスパラギン酸、グルタミン、グルタミン酸）
（２）自己マッチングスコア
アミノ酸数及びアミノ酸組成の異なる蛋白質問で質問配列へのマッチングの良さを比較するためにはスコアの規格化をしておくことが望ましい。そのために、各参照蛋白質について、それ自体のアミノ酸配列の露出度パラメータＥＰ（ｉ）とデータベースに用意された環境情報の疎水度パラメータＨＢ（ｉ）とからマッチングスコアを予め計算してデータベースに保存しておく。例えば、次式のように計算するとよい。
自己マッチングスコア＝Σ（ＥＰ（ｉ）×ＨＢ（ｉ））
全部分配列の質問配列へのマッチングが終了して最適マッチングが得られた後、得られたマッチングスコアに自己マッチングスコアを乗じて規格化することができる。全参照蛋白質について規格化された最適マッチングスコア同士を比較して最適な鋳型候補蛋白質を選択することができる。自己マッチングスコア及びマッチングスコアは、アミノ酸残基数が多いほど大きな値を取りやすい。
（Ｄ）鋳型候補蛋白質の選択
鋳型候補蛋白質の選択の手順は概ね以下の通りである。
（ａ）データベースから参照蛋白質を１個づつ取り出し、質問配列に対しマッチングを行う；
（ｂ）コア部分配列につきギャップを考慮せずに質問配列上をスライドしマッチングスコアを算出する；
（ｃ）必要に応じて、各コア部分配列のＮ末端またはＣ末端の残基を増減しながらマッチングし、最適マッチングを得る；
（ｄ）参照蛋白質全部について工程（ａ）〜（ｃ）を行い、最適マッチングとマッチングスコアを得る；
（ｅ）規格化したスコアにより参照蛋白質からスコアのよいものを鋳型候補蛋白質とする（この段階で、それらの構造は質問配列のスキャンフォールドの候補とすることができる）；
（ｆ）コア部分配列間をつなぐサブ部分配列のマッチングを行う。質問配列の対応する配列部分との配列長の違いやギャップの存在を考慮し、最適のマッチングとマッチングスコアを得る；及び
（ｇ）規格化したスコアによって鋳型蛋白質を選択する。
（Ｅ）立体構造の構築
質問配列の蛋白質の立体構造は、鋳型蛋白質のスキャッフォールドの構造、及び該参照蛋白質と質問配列との最適マッチングの結果に基づいて、アミノ酸残基の側鎖の置換を行うことにより構築することができ、質問配列に対応した３次元座標を得ることができる。優劣をつけ難い２以上の鋳型蛋白質がある場合には、すべてについて立体構造を構築することが望ましい。サブ部分配列の長さが鋳型候補と異なる場合には、結晶構造に現れたループ構造を集めたデータベース等を用いて、該サブ部分配列の適切なトポロジーを決定することができる。鋳型のスキャンフォールドが修正される部分については、マッチングスコアと同様に残基の性質と露出度を考慮しつつトポロジーを決定することができる。重大な立体障害や立体構造を不安定化する分子内部の隙間などの有無を確認し、また構造最適化計算や分子動力学計算により構造の微調整を行ったのちに立体構造の安定性を比較する。
最後に、全ての鋳型に基づいて構築された立体構造をエネルギーとマッチングスコアにより順位付けするが、該質問配列の蛋白質の機能が既知の場合には、該鋳型蛋白質に知られた機能との対応、その機能の発現に関与するものと推定されるアミノ酸残基の立体構造上の位置の妥当性、さらにはアミノ酸変異による機能への影響などの情報などを鋳型蛋白質の選別に利用できる。
産業上の利用可能性
本発明の方法によれば、立体構造が既知または推定可能な蛋白質のアミノ酸配列データベースに基づいて、アミノ酸配列の情報のみからそのアミノ酸配列により構築される蛋白質の立体構造に関する情報を信頼性高く効率的に入手することができる。
【図面の簡単な説明】
第１図は、「立体構造」、「構造モチーフ」、及び「スキャッフォールド」の関係を示した図である。図中、（ａ）は立体構造を示し、（ｂ）は構造モチーフを示し、（ｃ）はスキャッフォールドを示す。

Claims

立体構造が既知又は推定可能な参照蛋白質ごとのアミノ酸配列において、疎水コアの形成に実質的に関与する１又は２以上のコア部分配列に含まれる各アミノ酸残基の側鎖についての環境情報を含むデータベースを用い、参照蛋白質のアミノ酸配列における１又は２以上のコア部分配列の各アミノ酸残基の環境情報と質問配列中の各アミノ酸残基の側鎖の疎水性又は親水性の性質とに基づくマッチングを参照蛋白質ごとに行い、参照蛋白質の中から質問配列の蛋白質と立体構造の類似性が高い鋳型蛋白質を選択して質問配列の蛋白質のスキャッフォールドを推定する方法。
前記データベースは、参照蛋白質ごとのアミノ酸配列において、疎水コアの形成に実質的に関与しない１又は２以上のサブ部分配列に含まれる各アミノ酸残基の側鎖についての環境情報をさらに含み、前記マッチングの結果、質問配列の蛋白質と立体構造の類似性が高いと判断された参照蛋白質ごとに、参照蛋白質のアミノ酸配列における１又は２以上のサブ部分配列の各アミノ酸残基の環境情報と質問配列中の各アミノ酸残基の側鎖の疎水性又は親水性の性質とに基づくマッチングをさらに行うことを特徴とする請求の範囲第１項に記載の方法。
参照蛋白質における各アミノ酸残基の側鎖の蛋白質内部への埋没度及び／又は蛋白質表面への露出度の情報と、質問配列の各アミノ酸の疎水性及び／又は親水性の性質とに基づいてマッチングを行う請求の範囲第１項又は第２項に記載の方法。
参照蛋白質の１又は２以上のコア部分配列を質問配列上でスライドさせ、該コア部分配列の片端又は両端以外においてはギャップを考慮せずにマッチングを行う請求の範囲第１項ないし第３項のいずれか１項に記載の方法。
ギャップが１又は２以上のアミノ酸残基の削除又は付加である請求の範囲第４項に記載の方法。
マッチングが以下の工程：（ａ）１又は２以上のコア部分配列を質問配列上でスライドさせながら、必要に応じて該コア部分配列の片端又は両端においてはギャップを考慮してマッチングを行う工程（ただし、２以上のコア部分配列を用いる場合には、該コア部分配列は参照蛋白質のアミノ酸配列での出現順に順番に配置する）；及び（ｂ）工程（ａ）に続いて、必要に応じてギャップを考慮しつつサブ部分配列を質問配列上でスライドさせる工程を含む請求の範囲第２項ないし第５項のいずれか１項に記載の方法。
参照蛋白質のアミノ酸残基の側鎖に関する環境情報と質問配列上の対応アミノ酸残基の疎水度パラメータとから計算したスコアに基づいて最適マッチングを選択する、請求の範囲第１項ないし第６項のいずれか１項に記載の方法。
参照蛋白質についての自己マッチングスコアを用いて上記スコアを規格化する工程を含む請求の範囲第７項に記載の方法。
さらに質問配列の蛋白質の立体構造を構築する工程を含む請求の範囲第１項ないし第８項のいずれか１項に記載の方法。