JP4309282B2 - 複数鎖を有するタンパク質の立体構造構築方法 - Google Patents

複数鎖を有するタンパク質の立体構造構築方法 Download PDF

Info

Publication number
JP4309282B2
JP4309282B2 JP2003560791A JP2003560791A JP4309282B2 JP 4309282 B2 JP4309282 B2 JP 4309282B2 JP 2003560791 A JP2003560791 A JP 2003560791A JP 2003560791 A JP2003560791 A JP 2003560791A JP 4309282 B2 JP4309282 B2 JP 4309282B2
Authority
JP
Japan
Prior art keywords
protein
chain
amino acid
chains
potential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003560791A
Other languages
English (en)
Other versions
JPWO2003060765A1 (ja
Inventor
秀明 梅山
満雄 岩舘
榮一郎 鈴木
Original Assignee
秀明 梅山
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 秀明 梅山 filed Critical 秀明 梅山
Publication of JPWO2003060765A1 publication Critical patent/JPWO2003060765A1/ja
Application granted granted Critical
Publication of JP4309282B2 publication Critical patent/JP4309282B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K1/00General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
    • C07K1/107General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length by chemical modification of precursor peptides
    • C07K1/113General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length by chemical modification of precursor peptides without change of the primary structure
    • C07K1/1136General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length by chemical modification of precursor peptides without change of the primary structure by reversible modification of the secondary, tertiary or quarternary structure, e.g. using denaturating or stabilising agents
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K1/00General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2299/00Coordinates from 3D structures of peptides, e.g. proteins or enzymes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Medicinal Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Peptides Or Proteins (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Description

技術分野
本発明は複数鎖を有するタンパク質の立体構造構築方法、詳しくは立体構造が未知で、複数鎖のタンパク質の立体構造を予測する方法に関する。この方法によれば、複数鎖より成るタンパク質を単純化のために擬似単数鎖のように扱い、当該タンパク質を構成する複数のペプチド鎖間の相互作用を考慮した構造予測を行うことができる。これにより、後述の実施例で述べるように、従来法に比較して、より信頼性の高いタンパク質立体構造予測を行うことができる。
更に、本発明は、この方法で得られるタンパク質の立体構造モデル、前記方法に使用可能なデータベース、データベース構造、及びコンピュータソフトプログラム、これを搭載したコンピュータやインターフェース等にも関する。
例えば、複数鎖から成るアミノ酸配列の各C末端残基に区切り文字である終止記号を付加し、主鎖と側鎖の3次元座標から成るタンパク質の立体構造を構築する際、この終止記号から各鎖C末端の残基番号を得ることで、タンパク質鎖間のアミノ酸残基間の相互作用を考慮したポテンシャル計算を行うことができる。この方法により、側鎖のパッキングが優れているモデルが構築できるので、従来法に比較して、信頼性の高い複数鎖より成るタンパク質立体構造予測を行うことができる。尚、区切り文字の付加は、複数の鎖を全て相互に結合して単数鎖として扱えるようにするものであり、単数鎖にしたときに結合する最後の鎖のC末端部(単数鎖にしたときの最末端部)には必要がない。
本発明において、ポリペプチド鎖、リガンド等、タンパク質を構成する、又は構成することのできる鎖、即ち当該タンパク質の鎖を、単に「タンパク質鎖」と称することがある。
タンパク質中にポリペプチド鎖以外の鎖(タンパク質鎖)が存在し、例えば複数鎖を構成する一つのタンパク質鎖であるコンポーネント(成分)がペプチド等の低分子リガンドである場合には、そのリガンドのアミノ酸配列を任意に改変することで多様な結合状態を作成することができる。
また、ポテンシャルパラメータとして、アミノ酸残基を構成する原子間のパラメータに、任意の原子間のポテンシャルパラメータを追加することで、任意のリガンド分子への改変を行うことができる。更に、リガンドのアミノ酸配列を固定し、周囲のタンパク質鎖のアミノ酸配列を多様に改変したデータセットを作成することで、特定のリガンドに結合し得る多様な受容体モデルを構築することができる。また、複数鎖を構成しているタンパク質間の相互作用を正確に表現できるので、機能と関係した認識部位を記述したモデルを構築することができ、相互作用部位のアミノ酸残基を改変することによって、機能の増減を調節できるようなモデルを構築することができる。更に、単数鎖の場合において、領域(ドメイン)や部品(モジュール)に切り分けることにより複数鎖と見なした後、これを擬似単数鎖として復元することで立体構造モデルの高精度化を図ることができる。
尚、本発明のタンパク質の立体構造構築方法において、その基本骨格は、タンパク質の経験的なモデリング法、特にホモロジーモデリング法或いはスレッディング法を利用するものであり、その際X線結晶構造解析等により、タンパク質の立体構造として3次元座標が決定されたものを参照すべき鋳型に用いる。このとき、実質的には、複数鎖として構造決定されたタンパク質を鋳型として用いなければ、各タンパク質鎖間、特に各ポリペプチド鎖間の正確な相対配置は決められないことが多い。換言すれば、本発明は、相対配置が既知である参照タンパク質複合体を用いる経験的なモデリング法である。但し、モデリングの対象となる目的タンパク質と参照タンパク質の間で、アミノ酸配列のホモロジーは、必ずしも高いことを必要とせず、後述する規定の条件(E−value)を満たす全てのタンパク質を参照タンパク質として用いることができる(スレッディング(threading)法)。また、例えば相互作用界面に関してのみモデリングするので良ければ、必ずしも複合体全体について参照し得る実験構造が存在することを要しない。
背景技術
世界中でゲノムの配列の決定が行われてきており、70種を超えるゲノムのコードするアミノ酸配列も同様に多数決定されてきている。特に、ヒトを頂点とし、多くの生物種において、全ゲノム配列解析が進められて、その配列情報がデータベース化されている(Gerardo Jimenez−Sanchez,Nature 409,853−855(2001)参照。)。ゲノム配列から遺伝子の機能を特定、予測することがある程度可能であるが、配列情報のみでは機能を予測できない遺伝子が非常に多く存在する。遺伝子は、そのDNA配列からアミノ酸配列に翻訳されたタンパク質が実際に機能を担っている。タンパク質の機能解明には、X線結晶構造解析、NMR等の実験的手法により、その立体構造を決定することが行われているが、一般に相当量の時間と労力を要する作業を必要とする。そこで、目的とするタンパク質とアミノ酸配列の相同性の高い立体構造既知のタンパク質を探し出し、目的タンパク質の機能を予測することが行われている。
立体構造未知のタンパク質アミノ酸配列から、単体としてのタンパク質立体構造を予測する方法としては、ホモロジーモデリング法が一般的である(T.Yoneda,H.Komooka and H.Umeyama,J.Protein Chem.,16,597−605,1997参照。この全内容は参考により本明細書中にその一部として組み込まれる。)。これは、主に次の4つのステップより成る計算科学的手法である。
▲1▼ 任意の立体構造が未知の目的タンパク質のアミノ酸配列(目的配列)が与えられたとき、目的配列と類似の配列を有する参照タンパク質(参照配列)をPDB(プロテインデータバンク)のような立体構造データベースから、配列が統計的に有意に似ているものを検索(ホモロジー検索)し、目的配列と参照配列の間で配列を並置したもの(アライメント)を与える。
このデータベース検索とアライメントを行うためには、FASTA(Pearson WR,Methods Enzymol,266,227−258,1996参照。)、PSI−BLAST(Schaffer AA,Wolf YI,Ponting CP,Koonin EV,Aravind L and Altschul SF,Bioinformatics,12,1000−1011,1999参照。)、LIBRA(Ota,M.and Nishikawa,K.,Protein Engineering,10,339−351,1997参照。)等のコンピュータソフトを使用することができる。FASTAは20種類の天然アミノ酸を意味する20種のアルファベット文字配列のマッチングを行うプログラムであり、高ホモロジー(アミノ酸残基の一致度約30%以上、FASTAのE−valueでは約0.01以下に相当。)の参照タンパク質に対して立体構造構築をすると、信頼性の高いモデルを構築できると報告されている。
一方、PSI−BLASTでは、同じように文字配列のマッチングを行うが、文字が一致しているか否かの情報ではなく、プロファイルと呼ばれる文字の一致の度合いを類縁タンパク質の文字配列部位ごとの置換行列として算出し、更に繰り返し計算を行うことによりアライメントを最適化する性質を持っている。また、LIBRAは3D−1D法(スレッディング法の別名)に基づくプログラムであり、既知立体構造を精査し、目的配列に対して類似配列を検索するため、FASTAやPSI−BLASTとは検索アルゴリズムが明らかに異なる。そのため、FASTAやPSI−BLASTとは異なって間違いも含むが幅広く配列間類似性を指摘できる場合がある。
▲2▼ FASTA、PSI−BLAST、LIBRA等により算出したアライメントを用いれば、目的配列と類似した参照配列間の文字配列部位ごとの対応関係が決まる。この関係に基づき、参照タンパク質の3次元座標から目的配列のアミノ酸残基の3次元座標を作成する。
▲3▼ 参照配列に対し目的配列側に対応するアミノ酸残基が存在しない場合(アミノ酸残基欠損)には、参照タンパク質側のその位置のアミノ酸残基座標は用いず、逆に、目的配列に対し参照配列側に対応するアミノ酸残基が存在しない場合(アミノ酸残基挿入)には、その位置の目的配列のアミノ酸残基座標は、予め用意しておいたタンパク質断片座標データベース(例えば、K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。この全内容は参考により本明細書中にその一部として組み込まれる。)から適切なものを検索して作成する。
▲4▼ 上記▲2▼及び▲3▼によるタンパク質座標の構築では、アミノ酸残基間に構造的に不適切な隙間や衝突や歪みが生じることがあるので、エネルギー極小化計算や分子動力学計算により、これらの構造的な歪みを解消する(M.Takeda−Shitaka,H.Umeyama,FEBS Letters,425,448−452,1998参照。この全内容は参考により本明細書中にその一部として組み込まれる。)。
モデリングソフトによっては、▲4▼の構造的な歪みの解消をスムーズに行うため、上記▲2▼〜▲4▼の計算及び検索処理をタンパク質全原子に対して同時に行うのではなく、例えばシミュレーティッドアニーリング(SA)法等を用いて、段階的に行うものもある。
「SA法」とは、或る系の状態xに対して摂動を加え、新しい状態x’を得たとき、新しい状態でのエネルギー値E(x’)が旧状態のエネルギー値E(x)より小さければ高い確率で、大きければ低い確率で新状態x’への遷移を行うことにより、局所最小点に捉えられることなくエネルギーEの大域的最小点を発見しようというものである。即ち、先ずタンパク質の骨格を形成するα炭素原子について、次いでα炭素原子を含む主鎖原子について、SA法によるエネルギー極小化を行い、最後に側鎖原子を含むタンパク質原子全体についてSA法によるエネルギー極小化を行うものである。「分子力学計算」とは、系のポテンシャルエネルギーEを座標の関数として表し、主に最大傾斜法又は共役勾配法等のエネルギー極小化計算によって、ポテンシャルエネルギーEの下がるべき座標変化を計算する方法である。「モンテカルロ法」とは、統計力学に基いた確率論的エネルギー最適化計算法である。
以上により、▲2▼の目的配列に対するアライメントが得られれば、3次元座標の作成を通じてその立体構造を予測構築することができる(前記K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)。
しかしながら、従来は、複数鎖を有するタンパク質に対する任意の配列が与えられたとき、PDBのような立体構造データベースから、各鎖に対して独立に、類似性の高いタンパク質を単数若しくは複数選び出し、アライメントを与え、それぞれ独立にモデリングするため、後述の実施例において説明するように、タンパク質−タンパク質間の相互作用様式を十分に反映した立体構造を得ることができなかった。特に、医薬品や酵素の基質等のリガンド結合部位が複数鎖から構成される場合には、上記の欠点は重大である。また、反対に医薬品や酵素の基質に対して、それ等リガンドを受容するタンパク質の機能効率等の性質を改変する場合に、同様の欠点が発生する。従来、この欠点を取り除く方法としては、分子動力学法等により、モデル構築後に、複数鎖間の相互作用様式を推定することで改良する方法があるが、グローバルミニマムを探索するためには膨大な計算時間と計算機資源が必要なため、また、本来多体に対応すべき分子力学パラメータが2体対応のため真の立体構造を与え難いために、ゲノムワイドな産業利用には適さない等の問題点がある。
発明の開示
1.発明が解決しようとする課題
本発明者等は、複数鎖を有するタンパク質に対する任意の配列が与えられたとき、当該複数鎖を単数鎖に変換してその立体構造を構築する方法について検討を行った。実験的には、天然又は概念上の複数鎖を単数鎖に変換するには適切な個数のグリシン(G)・オリゴマー鎖で連結する方法が自然と想起されるものとして知られており(特開2002−112782号公報参照。)、計算でもそれと同じように扱うことができるが、この方法を常に採用できるとは限らない。即ち、例えば最初の鎖のC末端及び/又は次の鎖のN末端が複合体界面に位置している場合はグリシン・オリゴマーを割り込ませることができない。また、NMRの距離情報に基づくディスタンス・ジオメトリー法と同様な方法で複合体を形成させることも可能であるが、この方法は、多くのインプット・データを要することになるので計算準備が煩雑である。そこで、簡便な構造構築方法が求められている。
本発明が解決しようとする課題は、上記の状況に鑑みて、医薬品等の開発に特に重要な鍵となる、複数鎖を有する任意のタンパク質の立体構造を精度良く、かつ従来法に比べてはるかに効率的に構築する方法を提供することにある。また、リガンド分子の多様な改変や受容体等のタンパク質の改変を迅速かつ効率的に行う方法を提供することにもある。更に、本発明は複数鎖から成るタンパク質モデルの構築により、タンパク質−タンパク質間の相互作用様式を解明し、それ等相互作用の認識機構を明確化することで、遺伝病の原因を特定したり、それ等に関連する薬物の開発を促進すること等を目的とする。
2.課題を解決するための手段
本発明者等は、複数鎖を有するタンパク質の任意のアミノ酸配列が与えられたとき適切な立体構造モデルを得るべく検討を重ねた結果、下記(1)−(10)の方法及びそのためのコンピュータプログラムを見出し、或いは開発した。
(1)任意のアミノ酸配列が与えられた場合において、従来の経験的なモデリング、例えばホモロジーモデリング法の適用範囲を単数鎖(単鎖)のタンパク質から複数鎖より成るタンパク質に拡張(拡張型モデリング法)すべく、コンピュータプログラムにおける当該複数鎖の入力ファイル形式を擬似単鎖(単数鎖)としての形態を有するよう修正し、一方ポテンシャル計算式では複数鎖であることを考慮に入れて、そのタンパク質主鎖及び側鎖の3次元座標から成る立体構造モデルを単数鎖と同様に全自動又は手動的に構築する方法及びそのためのコンピュータプログラム。
目的タンパク質を構成する鎖の数と参照タンパク質を構成する鎖の数は同一であることが望ましい。例えば、目的タンパク質を構成する鎖の数が2個の場合、この立体構造構築のため選択されるされる参照タンパク質(候補)には2個の鎖を有する参照タンパク質を採用することができる。また、同様に目的タンパク質を構成する鎖の数が3個の場合、この立体構造構築のために選択される参照タンパク質(候補)には3個の鎖を有する参照タンパク質を採用することができる。しかしながら必ずしも、両者(参照タンパク質と目的タンパク質)の鎖数が同一である必要はなく、目的タンパク質の立体構造を構築するタンパク質或いはその部分(複数鎖)を参照タンパク質に包含しておれば、それを参照タンパク質として採用することも可能である。
それぞれ複数鎖のタンパク質を1本鎖であるようにコンピュータの配列のファイル形式を修正する(擬似単数鎖)が、擬似単数鎖にする方法には特に制限は無い。例えば、複数鎖より成る目的タンパク質と参照タンパク質とのアミノ酸配列アライメントを、各タンパク質鎖(例えば、ポリペプチド鎖)の境界に識別記号を入れることで、擬似単数鎖としてのアライメントに修正する方法は、当該プログラムを実行する上で簡便かつ有益である。この他にも擬似1本鎖に変換し得る方法が存在する。例えば、当該各タンパク質鎖の境界を、順次、残基番号で登録したファイルを別途作成する等して、コンピュータソフトプログラムへ変数として渡す方法によっても実現可能であるが、両者は各タンパク質鎖の境界を指し示すために用いたファイル形式が異なるだけで、内容自身は全く同等である。同様に、配列アライメント操作自体をコンピュータソフトプログラム内部で行い、その結果から得られる各タンパク質鎖の境界位置又は境界を示す識別数字等を内部変数として利用する方法も好適である。これ等の方法を、本発明において当然用いることができる。従って、これ等の内容も上記開発内容(本発明の内容)に含まれる。
また、当該複数鎖の入力ファイル形式を擬似単数鎖としての形態を有するよう修正することにより、通常、鎖数の増加によって複雑化する入力ファイル形式とタンパク質鎖間の相互作用を、常に最も単純な入力形式と最も明解なポテンシャル計算式で記述することができる。
(2)上記方法において、配列アライメントの修正に際して、好ましくは各種既存のコンピュータソフトウエアであるFASTA、PSI−BLAST、LIBRA、FAMS、RBS−BLAST、IMPALA、ClustalW、HMMER、及びBIOCES等のアライメント出力結果を用いて、複数鎖から成る参照タンパク質のアミノ酸配列を選択し、配列アライメントの各アミノ酸配列末尾(C末端)の次にアミノ酸記号以外の区切り文字(例えば、「U」等)を付加することで、モデリング時に各鎖間の境界を考慮し、あたかも単数鎖として取り扱うことにより、鎖数の拡張性を有した配列アライメントに修正する方法。尚、前記したように、区切り文字の付加は、複数の鎖を全て相互に結合して単数鎖として扱えるようにするものであり、単数鎖にしたときに結合する最後の鎖のC末端部(単数鎖にしたときの最末端部)には必要がない。また、付加しても最末端部の区切り文字を無視することができる。
このようなフォーマットを持つ配列アライメントを準備することにより、タンパク質の鎖数の上限(現在はデフォルトで36個まで)を、原理的には(計算機上のメモリー制限内で)無限に拡張することができる。
(3)拡張型ホモロジーモデリング等、拡張型モデリング法において、ポテンシャル計算を行う際に、上記(2)の方法で修正した配列アライメントから各タンパク質鎖(例えば、ポリペプチド鎖)のC末端残基番号を判定し、その境界における化学結合ポテンシャル及び化学結合角ポテンシャルの切断、並びに当該境界における原子間相互作用ポテンシャルの付加を行うことにより、Cα原子座標の構築と最適化を全鎖について順次又は同時に行う、又は行うことができる、モデル構造を構築する方法及びそのためのコンピュータプログラム。
(4)拡張型ホモロジーモデリング等、拡張型モデリング法において、ポテンシャル計算を行う際に、上記(2)の方法で修正した配列アライメントから各タンパク質鎖(例えば、ポリペプチド鎖)のC末端残基番号を判定し、その各タンパク質主鎖の境界における化学結合ポテンシャル、化学結合角ポテンシャル、及び化学結合ねじれ角ポテンシャルの切断、並びに当該境界における原子間相互作用ポテンシャルの付加を行うことにより、N、Cα、C及びO(カルボニル酸素)の主鎖原子座標とアミノ酸残基側鎖座標の構築と最適化を全鎖について順次又は同時に行う、又は行うことができる、モデル構造を構築する方法及びそのためのコンピュータプログラム。
尚、図1に当該タンパク質の全アミノ酸配列と各タンパク質鎖(例えば、ポリペプチド鎖)におけるC末端残基の通し番号(以下、「k」と称する。Nはタンパク質鎖の番号)の関係を、図2〜8には上記(3)及び(4)の方法の具体的な説明を示した。即ち、Cα原子座標の構築と最適化の各プロセスにおいては、図2〜4に示したように、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間の化学結合ポテンシャル、化学結合角ポテンシャルの切断、及び原子間相互作用ポテンシャルの付加を、N=1から全鎖数−1(M−1)までの全タンパク質鎖について順次又は同時に行い、主鎖原子座標の構築と最適化の各プロセスにおいては、図5〜8に示したように、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間の化学結合ポテンシャル、化学結合角ポテンシャル、化学結合ねじれ角ポテンシャルの切断、及び原子間相互作用ポテンシャルの付加を、N=1から全鎖数−1(M−1)までの全タンパク質鎖について順次又は同時に行うことにより、モデル構造の妥当性を向上させることができ、その上計算過程の単純化、効率化を実現することができる。
(5)拡張型モデリング法、特に拡張型ホモロジーモデリング法或いはスレッディング法を用いる際に、タンパク質−タンパク質相互作用部位のアミノ酸残基の原子座標を正確に決定することにより、タンパク質−タンパク質相互作用モデルを構築する方法。
(6)拡張型ホモロジーモデリング等、拡張型モデリング法を用いる際に、複数鎖を構成する或るタンパク質コンポーネント(成分)がペプチド性のリガンド(アミノ酸誘導体、ペプチド誘導体等含む。)を含む場合に、このリガンドのアミノ酸配列を多様に改変したデータセットを作成することにより、目的タンパク質に結合し得る多様なペプチド性のリガンドモデルを構築する方法。
(7)拡張型モデリング法、特に拡張型ホモロジーモデリング法を用いる際に、複数鎖を構成するコンポーネント(成分)がペプチド性のリガンド(アミノ酸誘導体、ペプチド誘導体等含む。)を含む場合に、このリガンドのアミノ酸配列を固定し、周囲のタンパク質鎖のアミノ酸配列を多様に改変したデータセットを作成することで、特定のリガンドに結合し得る多様なリガンド受容体(タンパク質)モデルを構築する方法。
(8)拡張型モデリング法、特に拡張型ホモロジーモデリング法を用いる際に、複数鎖を構成するコンポーネント(成分)が通常のタンパク質(鎖)である場合に、タンパク質同士の認識部位のアミノ酸配列を多様に改変したデータセットを作成して、タンパク質の機能効率を上昇させたり、低下させたりすることにより、有用なタンパク質モデルを構築する方法。
(9)単数鎖の場合において、タンパク質を領域や部品に切り分けることにより複数鎖とみなした後、上記(1)〜(8)記載事項を適用して擬似単数鎖に復元することを可能にすることにより、立体構造モデルの高精度化を図る方法。
(10)上記(1)〜(9)によって構築されるタンパク質の立体構造モデル、リガンドモデル、及びリガンド受容体(タンパク質)モデルから成るデータベースに対して、下記内容を閲覧、検索できるコンピュータソフトプログラムとそのプログラムを載せたコンピュータ。
閲覧及び検索の対象は、
イ.複数鎖より成る目的タンパク質の遺伝子同定コード又はタンパク質同定コード、1行程度の機能説明、目的アミノ酸配列、及び上記(1)〜(9)により構築される3次元立体構造(の座標);
ロ.参照タンパク質の遺伝子同定コード又はタンパク質同定コード、1行程度の機能説明、参照アミノ酸配列、及び参照タンパク質の3次元立体構造(の座標);並びに
ハ.目的配列と参照配列間のアライメント結果、ホモロジー値、及びE−valueを記述してまとめたデータベース構造。
即ち、本発明は、一つの形態として、
与えられた任意のアミノ酸配列を有する単数鎖より成るタンパク質の立体構造を構築する経験的なモデリング法を拡張して(拡張型モデリング法)、与えられた任意のアミノ酸配列を有する複数鎖より成るタンパク質(目的タンパク質)の立体構造を構築する方法であって、コンピュータソフトプログラムにおける当該複数鎖の入力ファイル形式を擬似単数鎖としての形態を有するように修正し(配列アライメントの修正)、コンピュータソフトプログラムにおけるポテンシャル計算式の計算では複数鎖を有するものとして当該モデリング法によりその立体構造を構築することに特徴を有する複数鎖を有するタンパク質の立体構造構築方法に存する。尚、本発明方法における擬似単数鎖としての入力ファイル形式とポテンシャル計算式での複数鎖としての取り扱いはFAMS以外の経験的モデリング法や、更には非経験的モデリング法にも適用可能である。
当該経験的なモデリング法としては、ホモロジーモデリング法(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)及び/又はスレッディング法を挙げることができる。
上記方法においては、全自動的に、或いは手動的に目的とする立体構造を構築することができる。
上記方法において当該修正の内容として、構造が既知で目的配列と同一本数の複数のタンパク質鎖(ポリペプチド鎖、リガンド等)を含む配列を選択し、これを擬似単数鎖として扱うことを挙げることができる。例えば、目的タンパク質がポリペプチド鎖で構成される場合、これと同数のポリペプチド鎖から成る参照タンパク質のアミノ酸配列を選択し、これより、タンパク質を構成する複数のポリペプチド鎖(アミノ酸配列)を一の鎖のN末端部(頭部)と他の鎖のC末端部(尾部)で順に結合した形での単数鎖(擬似単数鎖)として扱うことを含む。このとき、目的配列を構成する複数のポリペプチド鎖についても、同様に順に結合した形での単数鎖として扱うことができる。例えば、複数鎖を構成する各アミノ酸配列のC末端部(末尾)に区切り文字、好ましくはアミノ酸記号以外の区切り文字(例えば、文字「U」)を付加することにより、例えばコンピュータ上で、単数鎖のタンパク質として取り扱うことができるようにすること(配列アライメントの修正)が好ましい。この場合、順次結合する複数の鎖のうち、最後の鎖、即ちタンパク質がN本のタンパク質鎖で構成されている場合N番目のタンパク質鎖については更に鎖を結合する必要が無いので、このN番目のタンパク質鎖(最後の鎖)のC末端部には前記区切り文字を付加する必要がない。また、これを鎖の最末端部に付加したとしてもコンピュータ上等でこれを無視することもできる。このように、モデリング時に各鎖間の境界を考慮し、あたかも単数鎖として取り扱うことにより、鎖数の拡張性を有した配列アライメントを利用することができる。
尚、目的タンパク質や参照タンパク質を構成するタンパク質鎖には、実質的にタンパク質を構成する鎖であると認められ、又はタンパク質を構成することができる鎖であれば特に制限は無い。その代表例としてポリペプチド鎖を挙げることができる。「ポリペプチド鎖」とは、アミノ酸及び/又はその誘導体(塩、エステル誘導体等)によるペプチド結合(アミド結合)のみで構成されるものに限らずポリペプチド残基を主として含む鎖であればよい。その他に、タンパク質鎖として、アミノ酸誘導体(例えば、天然若しくは非天然アミノ酸及びその誘導体)、ペプチド誘導体、薬剤成分、核酸類、糖類、有機金属化合物等有機化合物や、金属酸化物及びそのイオン、金属及びそのイオン等無機化合物から選択される物質を挙げることができる。これ等の場合、リガンドとして存在し、又は選択されることが多い。
本発明では、目的タンパク質又は参照タンパク質として使用するタンパク質は複数の鎖で構成され、このような複数のタンパク質鎖には、前記のようなポリペプチド鎖が一つ又は複数含まれ、タンパク質を形成する。例えば、前記複数のポリペプチド鎖のみで構成されるタンパク質、一つ又は複数のポリペプチド鎖と例えば前記リガンドとして存在するアミノ酸誘導体、ペプチド誘導体等の物質を鎖として含むタンパク質を例示することができる。
当該複数鎖の中に、ポリペプチド鎖を複数含むタンパク質の場合、これ等の複数のポリペプチド鎖は、ヘテロ鎖でもホモ鎖でもよい。即ち、当該複数のポリペプチド鎖のアミノ酸配列が全く同一である(ホモ鎖)ような複数のポリペプチド鎖を含んでいてもよいし、相互にそのアミノ酸配列を異にする(ヘテロ鎖)複数のポリペプチド鎖を含んでいてもよい。
上記方法において、参照タンパク質が立体構造データベースから検索され、参照タンパク質のアミノ酸配列と目的配列との配列アライメントを行う方法を含む。
参照タンパク質を検索しアライメントを出力するソフトウエアとして、FAMS、FASTA、PSI−BLAST、LIBRA、RBS−BLAST、IMPALA、ClustalW、HMMER、BIOCES(Protein Engineering,vol.2,No.5,pp347−351,1989参照。)等を好ましいものとして採用することができる。
上記方法において、修正された配列アライメントとして、各タンパク質鎖(例えば、ポリペプチド鎖)のアミノ酸配列のC末端部に区切り文字を有するように配置した書式を有し、区切り文字で区切られたアライメント区間ごとに参照タンパク質IDを指定するファイルを使用することで、同種又は異種の参照タンパク質のアミノ酸配列を記入したマルチプルアライメントに対処可能にして、それ等の重ね合わせにより平均構造を示せるようにするのが好ましい。
上記方法において、修正後の当該擬似単数鎖から各タンパク質鎖(例えば、ポリペプチド鎖)の末端残基番号を判定し、その境界における化学結合角ポテンシャルの切断、及び当該境界における原子間相互作用ポテンシャルの付加を行うことで、立体構造データベース、好ましくはPDB等、及び/又は当該立体構造データベースを類似構造の重複を回避するように加工し、又は整理したデータベースに基づきCα原子座標及び主鎖原子座標の構築を行い、シミュレーティッドアニーリング法、分子力学計算、及びモンテカルロ法の少なくとも1種により疑似エネルギー値を表す目的関数の最小化(最適化)を行うことが好ましい。この結果、Cα原子座標の構築と最適化を全鎖について順次又は同時に行い、目的とするモデル構造を構築することができる。
例えば、ポテンシャル計算を行う際に、上記の方法で修正した配列アライメントから各タンパク質鎖(例えば、ポリペプチド鎖)のC末端残基番号を判定し、その各タンパク質主鎖の境界における化学結合ポテンシャル、化学結合角ポテンシャル、及び化学結合ねじれ角ポテンシャルの切断、並びに当該境界における原子間相互作用ポテンシャルの付加を行うことにより、N、Cα、C及びO(カルボニル酸素)の主鎖原子座標とアミノ酸残基側鎖座標の構築と最適化を全鎖について順次又は同時に行うことができる。更に、上記モデリング法を用いる際に、タンパク質−タンパク質相互作用部位のアミノ酸残基の原子座標を正確に決定し、タンパク質−タンパク質相互作用モデルを構築することができる。
上記方法において、目的タンパク質を構成する複数鎖のうち少なくとも二つの鎖がポリペプチド鎖等のタンパク質鎖である場合、タンパク質−タンパク質相互の認識部位に位置するアミノ酸残基のそれぞれについて20種類のアミノ酸の可能な組合せに基いて、ポテンシャルエネルギー値を指標として、適合性等の優れた、又は劣った改変体のデータセットを作成して、当該少なくとも二つのタンパク質鎖の各々のタンパク質の機能を上昇させた、又は低下させた立体構造を構築できるようにすることが好ましい。
目的タンパク質を構成する複数鎖のうち少なくとも一つの鎖がアミノ酸誘導体、例えばβAsp及びγGlu等の非天然アミノ酸若しくはその誘導体、又はペプチド誘導体(ペプチド性リガンド)であり(複数鎖の少なくとも一つの鎖はポリペプチド鎖である。)、かつ参照タンパク質において該当するリガンド分子と類似した化学構造を持つものである場合に、目的タンパク質の当該誘導体を新たな残基名及び1文字コードで定義し、かつ参照タンパク質の当該リガンドを更に新たな残基名及び1文字コードで定義したアライメントを手動的又は自動的に作成して、当該リガンドの配列を構成するそれぞれの残基について20種類のアミノ酸及びその誘導体の可能な組み合わせに基づいて、ポテンシャルエネルギー値が低い順にランク付けした場合の上位幾つかを、受容体タンパク質の結合部位への適合性の優れた改変体として格納したアミノ酸誘導体又はペプチド誘導体リガンドモデルデータセットを構築できるようにすることが好ましい。このリガンドのアミノ酸配列を多様に改変したデータセットを作成することにより、目的タンパク質に結合し得る多様なペプチド性のリガンドモデルを構築することができる(後述実施例3参照。)。
同様に、目的タンパク質を構成する複数鎖の鎖成分の中にペプチド性リガンドが存在する場合(複数鎖のうち少なくとも一つはポリペプチド鎖である。)、当該リガンドのアミノ酸配列を固定し、当該リガンドを認識する部位に位置するアミノ酸残基のそれぞれについて20種類のアミノ酸の可能な組み合わせに基づき、ポテンシャルエネルギー値を指標として、上位複数の受容体タンパク質の結合部位への適合性の優れた改変体のデータセットを作成して、当該リガンドに結合し得る多様なリガンド受容体タンパク質の立体構造を構築できるようにすることが好ましい。このようにして、特定のリガンドに結合し得る多様な受容体モデルを構築することができる。
上記方法において、当該複数鎖としては、単数鎖ポリペプチドを領域や部品に切り分けたもので、擬似単数鎖に復元できるようにしたものでもよい。タンパク質を領域や部品に切り分けることにより複数鎖と見なした後、上記モデリング法を適用して擬似単数鎖に復元することにより立体構造モデルの高精度化を図ることができる。
上記方法においては、当該目的タンパク質(又は目的配列)中に、複数鎖成分として(複数鎖を構成する鎖として)通常のアミノ酸でもなく、また通常のアミノ酸が複数結合したペプチドでもない物質であって、好ましくは立体構造データベース(PDB等)に登録されている物質を含むことができる。その例として、非天然アミノ酸、薬剤成分、核酸類、糖類、有機金属化合物等有機化合物や、金属酸化物、そのイオン、金属及びそのイオン等無機化合物等のヘテロ成分を挙げることができる。当該タンパク質には、それを構成する複数鎖の少なくとも一つとしてこのような物質を(例えば、リガンド等で)含む場合でもポリペプチド鎖が一つ又は複数含まれて、当該タンパク質を形成している。
上記方法として、立体構造データベースの中から、目的配列に適した参照タンパク質を検索し、検索した複数の参照タンパク質のアミノ酸配列との配列アライメントを行うステップ;目的配列に対してE−valueの小さい参照タンパク質のアミノ酸配列を選択するステップ;及び参照タンパク質に含まれる鎖のアミノ酸配列のC末端部(末尾)に区切り文字を付加し、目的配列の対応する位置にも区切り文字を付加する(配列アライメントの修正)ステップを含むことができる。
尚、前記したように区切り文字の付加は、複数の鎖を全て相互に結合して単数鎖として扱えるようにするものであり、単数鎖にしたときに結合する最後の鎖のC末端部(単数鎖にしたときの最末端部)には、更に結合する鎖が存在しないので必要がない。付加の必要はないが同様に付加して、付加された最末端部の区切り文字を無視することもできる。
更に、アライメントの情報に基いて、前記の如く、目的配列のアミノ酸中の構成原子の一つであるCα原子について、前記参照タンパク質のアミノ酸配列を選択するステップで定められた参照構造から座標を取得し、上記発明方法(例:請求の範囲11参照。)において使用するCαの原子座標を最適化するステップ;得られたCα座標に主鎖原子座標を立体構造データベースより付加し、上記発明方法において使用する主鎖原子座標を最適化するステップ;及び得られた主鎖原子座標に側鎖原子座標を立体構造データベースより付加し、上記発明方法において使用する側鎖原子座標を最適化するステップを含むことができる。
上記ポテンシャル計算式としては、後記表1に示されているポテンシャル計算式を採用することができる。好ましくは、下記の通りである。
全鎖数=Mのときのポテンシャル計算式については、Nがポリペプチド鎖等のタンパク質鎖の番号を、kがN番目のタンパク質鎖(ポリペプチド鎖等)におけるC末端残基の通し番号をそれぞれ表し、i=1,...,M−1を簡略化して、i=1,M−1と表記するとき、
(A)Cα原子座標の構築と最適化プロセスにおける計算では、擬似化学結合ポテンシャルのi=kN(N=1,M−1)の場合を含めず、擬似化学結合角ポテンシャルのi=kN(N=1,M−1)、i=kN(N=1,M−1)+1の場合を含めない。また、原子間相互作用ポテンシャルの場合は、i=k−1ならj>i+1、i=kならj>iを各々追加する。
(B)主鎖原子座標の構築と最適化プロセスにおける計算では、化学結合ポテンシャルにはi=kN(N=1,M−1)のときのCiとNi+1間の結合を含めず、化学結合角ポテンシャルには、C、Oをそれぞれカルボニルの炭素原子と酸素原子、Cαをα炭素原子、Nを窒素原子とするとき、i=kN(N=1,M−1)の角度Cαi−Ci−Ni+1、Oi−Ci−Ni+1及びCi−Ni+1−Cαi+1を含めず、更に、化学結合ねじれ角ポテンシャルには、i=kN( N=1,M−1)のときの角度Ni−Cαi−Ci−Ni+1、Cαi−Ci−Ni+1−Cαi+1、及びCi−Ni+1−Cαi+1−Ci+1を含めない。また、原子間相互作用ポテンシャルには、原子間距離をrとするとき、i=kN(N=1,M−1)の、rij∈{rNi,Ni+1;rCαi,Ni+1;rCαi,Cαi+1;rCi,Ni+1;rCi,Cαi+1;rCi,Cβi+1;rCi,Ci+1;rOi,Ni+1;rOi,Cαi+1}についてrij≦規定値の場合を追加する。
即ち、拡張型モデリング法において、ポテンシャル計算を行う際に、前記方法で修正された配列アライメントから各タンパク質鎖(ポリペプチド鎖等)のC末端残基番号を判定し、その各タンパク質鎖の主鎖の境界における化学結合ポテンシャル、化学結合角ポテンシャル、及び化学結合ねじれ角ポテンシャルの切断、並びに当該境界における原子間相互作用ポテンシャルの付加を行うことで、N、Cα、C及びO(カルボニル酸素原子)の主鎖原子座標とアミノ酸残基側鎖座標の構築と最適化を全鎖について順次又は同時に行い、モデル構造を構築することができる。
尚、図1には当該タンパク質の全アミノ酸配列と各タンパク質鎖(ポリペプチド鎖等)におけるC末端残基の通し番号の関係を示したものである。全鎖数=M、各kは区切り文字Uより識別する。Nはタンパク質鎖(ポリペプチド鎖等)の番号を表す。
図2〜8には上記配列アライメントの修正方法の具体的な説明を示した。即ち、Cα原子座標の構築と最適化の各プロセスにおいては、図2〜4に示したように、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間の化学結合ポテンシャル、化学結合角ポテンシャルの切断、及び原子間相互作用ポテンシャルの付加を、N=1から全鎖数−1(M−1)までの全タンパク質鎖(ポリペプチド鎖等)について順次又は同時に行い、主鎖原子座標の構築と最適化の各プロセスにおいては、図5〜8に示したように、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間の化学結合ポテンシャル、化学結合角ポテンシャル、化学結合ねじれ角ポテンシャルの切断、及び原子間相互作用ポテンシャルの付加を、N=1から全鎖数−1(M−1)までの全タンパク質鎖について順次又は同時に行うことにより、モデル構造の妥当性を向上させることができることに加え、計算過程の単純化及び効率化を実現することができる。
入力ファイル形式としては特に制限は無いが、例えば、目的タンパク質を参照タンパク質からモデリングする場合の入力ファイル形式の一般式として、下記内容を採用することができる。
1行目は>の後に、目的タンパク質のIDを記載する。2行目は目的タンパク質のアミノ酸配列を各タンパク質鎖(ポリペプチド鎖等)の末端残基の次に区切り文字(列)を加えて、全てのタンパク質鎖について改行無しに記載する。3行目は>の後に、参照タンパク質のIDを記載する。4行目は参照タンパク質のアミノ酸配列を各タンパク質鎖(ポリペプチド鎖等)の末端残基の次に区切り文字(列)を加えて、全てのタンパク質鎖について改行無しに記載する。2行目と4行目のアミノ酸配列の並べ方については、前記の如く得られるアライメントを利用し、同一番目の区切り文字(列)の位置は2行目と4行目で常に一致させるのが好ましい。
これを例示すると、以下の通りである。
>(目的タンパク質のID);
(第一鎖の配列)(区切り文字)(第二鎖の配列)(区切り文字)…(区切り文字)(第M鎖の配列);
>(参照タンパク質のID);
(第一鎖の配列)(区切り文字)(第二鎖の配列)(区切り文字)…(区切り文字)(第M鎖の配列)。
尚、上記括弧は見易くするためのものであり、実際には記載せず、連続した文字列とするのが好ましい。
上記本発明の方法において、前述したように、複数鎖より成る目的タンパク質と参照タンパク質とのアミノ酸配列アライメントを、各タンパク質鎖(ポリペプチド鎖等)の境界に識別記号を入れることで、擬似単数鎖としてのアライメントに修正する方法は、当該プログラムを実行する上で簡便かつ有益であるが、他に変え得る方法が無い訳ではなく、例えば、各タンパク質鎖の境界を、順次、残基番号で登録したファイルを別途作成する等して、コンピュータソフトプログラムへ変数として渡す方法によっても実現可能であるが、両者は各タンパク質鎖の境界を指し示すために用いたファイル形式が異なるだけで、内容自身は全く同等のものである。同様に、配列アライメント操作自体をコンピュータソフトプログラム内部で行い、その結果から得られる各タンパク質鎖(ポリペプチド鎖等)の境界位置又は境界を示す識別数字等を内部変数として利用する方法も全く同等のものであり、これ等の方法を、本発明として当然用いることができる。
本発明は、与えられた任意のアミノ酸配列を有する単数鎖より成るタンパク質の立体構造を構築する経験的なモデリング法を拡張して(拡張型モデリング法)、与えられた任意のアミノ酸配列を有する複数鎖より成るタンパク質(目的タンパク質)の立体構造を構築する方法であって、当該目的タンパク質及び選択された参照タンパク質について、それぞれその中に含まれ、相互に対応する複数鎖の各アミノ酸配列を、N末端部とC末端部とで順次結合した状態の単数鎖とみなした後、このように得られた擬似単数鎖の参照配列と擬似単数鎖の目的配列との配列アライメントを行い対応関係の確認を行った後、目的配列中のアミノ酸残基中の構成原子の一つであるCα原子を配置し、その間をアミド結合でつなぎ、更に側鎖を付加してその他の構成原子についても座標を構築し、最適化を行い、当該モデリング法によりその立体構造を構築することに特徴を有する複数鎖を有するタンパク質の立体構造構築方法にも存する。
選択される参照タンパク質としては、目的タンパク質に対して、ポリペプチド鎖等のタンパク質鎖のアミノ酸配列が類似したもの、特に統計的に有意に類似したものを好ましく選択することができる。
また、前記本発明の立体構造構築方法において、目的タンパク質の立体構造構築を、得られたアライメントの情報に基いて、目的タンパク質主鎖アミノ酸中のCα原子について選択された参照タンパク質の立体構造から座標を取得し、目的関数を最小化するようにCαの原子座標を最適化し、最適化されたCαの原子座標に主鎖の他の原子座標(Cβの原子座標を含む。)を付加して目的関数を最小化するように主鎖の原子座標を最適化し、最適化された主鎖の原子座標に側鎖の他の原子座標を付加し目的関数を最小化するように側鎖の原子座標を最適化することにより行うことができる。
本発明は、別の形態として、上記本発明方法で構築されたことに特徴を有するタンパク質の立体構造モデルにも存する。更には、前記発明方法の何れかの方法を含むことに特徴を有するプログラム(newFAMS)、又は当該プログラムを載せたことに特徴を有するコンピュータにも存する。
本発明は、更に別の形態として、上記本発明方法で構築されたタンパク質の立体構造モデル、並びに上記本発明方法の中において使用されるリガンドモデル及び同様に使用されるリガンド受容体タンパク質の立体構造モデルから成るデータを固定化し、組み合わせたことに特徴を有する拡張型モデリング法に使用可能なデータベースにも存する。
本発明は、更なる別の形態として、上記本発明方法で構築されたタンパク質の立体構造モデル、並びに上記本発明方法の中において使用されるリガンドモデル及び同様に使用されるリガンド受容体タンパク質の立体構造モデルのデータを、コンピュータで閲覧又は検索できるようにデータベース化したことに特徴を有するデータベースにも存する。
本発明は、もう一つ別の形態として、下記内容をコンピュータで閲覧又は検索できるようにしたことに特徴を有するデータベース構造にも存する:
複数鎖より成る目的タンパク質の遺伝子同定コード又はタンパク質同定コード、1行程度の機能説明、目的アミノ酸配列、及び当該目的タンパク質の3次元立体構造(の座標);
参照タンパク質の遺伝子同定コード又はタンパク質同定コード、1行程度の機能説明、参照アミノ酸配列、及び当該参照タンパク質の3次元立体構造(の座標);並びに
目的配列と参照配列間のアライメント結果、ホモロジー値、及びE−value。
本発明は、更に別の形態として、上記何れかの、データベースの内容を閲覧又は検索でき、又はデータベース構造を利用できるようにしたことに特徴を有するコンピュータソフトプログラム又は当該プログラムを搭載したコンピュータにも存する。
本発明は、更に、前記本発明の何れかの方法で構築された立体構造データベースの中から、閲覧したいタンパク質を、生物種固有の任意の記号、タンパク質コード名、参照タンパク質名、1行程度の機能説明の文字列との部分一致等の、論理積検索によって、目的とするタンパク質にたどり着けるように、好ましくは簡便に事前の知識無く目的とするタンパク質にたどり着けるように設計されたことに特徴を有するインターフェースにも存する。
上記方法により、複数鎖を有するタンパク質の立体構造を規定する原子座標が提供される。ここで、本明細書においてCα原子とは、各アミノ酸残基の骨格の中心となる炭素原子を意味し、グリシンを除く各アミノ酸残基のCα原子は光学活性の性質をもつ。Cβ原子とは、Cα原子の側鎖側に結合する炭素原子を意味する。また、C原子とは、Cα原子に結合するカルボニル基の炭素原子を意味する。
表1で、Nはポリペプチド鎖等タンパク質鎖の番号、kはN番目のタンパク質鎖(ポリペプチド鎖等)におけるC末端残基の通し番号を表し、全鎖数=Mのとき、i=1,...,M−1を、i=1,M−1と表記する。図1には当該タンパク質の全アミノ酸配列とkの関係を示した。また、表1中の各ポテンシャル計算式について、各タンパク質鎖(ポリペプチド鎖等)の境界における扱いについては、図2〜8に具体的に説明を示し、また次節において詳細に説明する。
[表1]
各タンパク質鎖の境界におけるポテンシャル関数の計算条件
従来法(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000等参照。)による。この中で、従来型の単数鎖モデリングでは知られておらず、また示唆されてもいない内容で、本発明の複数鎖タンパク質のための拡張型モデリング法において新規に改訂された部分が、下記ポテンシャル式の「但し、...」(但し書き)によって示されている。即ち、下記但し書き以外の部分は従来法のモデリング法が用いられる。従って、上記但し書きの内容については、本発明で使用する擬似単数鎖モデリングにおいて新規に採用することができる修正内容に該当する。尚、特別の説明が無い限り、計算式中の文字の意味は、全て上記従来法の文献に従い、計算式中の定数は、合理的且つ妥当な範囲で変動し得るものであり、下記具体的値に限定されるものではない。ここで、当該従来法の文献の全内容は参考により本明細書中にその一部として組み込まれる。
(A)Cα原子座標の構築と最適化プロセス
Figure 0004309282
Figure 0004309282
(B)主鎖原子座標の構築と最適化プロセス
Figure 0004309282
Figure 0004309282
前記したように、本発明方法において、当該複数鎖の入力ファイル形式とポテンシャル計算式をそれぞれ擬似単数鎖としての形態を有するよう修正することにより、通常、鎖数の増加によって複雑化する入力ファイル形式とタンパク質鎖(ポリペプチド鎖等)間の相互作用を、常に最も単純な入力形式と最も明解なポテンシャル計算式で記述することができる。
発明の実施の形態
以下、本発明の実施の形態について説明する。好適かつ代表的な例としてホモロジーモデリング法を中心に、本発明を詳細に説明するが、代表的な例について説明するものであり、本発明はこれに限定されるものではない。
本発明は、北里大学薬学部生物分子設計学教室(梅山秀明教授)で開発した蛋白質自動モデリングシステム(FAMS:K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。この全内容は参考により本明細書中にその一部として組み込まれる。)の適用範囲を拡張し、改良するものでもある。
本明細書において幾つかの用語を使用するが、特に明記しない限り、次の意味を有する。
「目的タンパク質」とは、X線結晶解析やNMR解析等により完全な立体構造が決定されておらず、本発明において立体構造構築の対象とするタンパク質を意味する。このタンパク質のアミノ酸配列を「目的配列」又は「目的アミノ酸配列」と称することがある。この目的タンパク質には、部分構造は解析されているが完全な立体構造が得られていないもの、また、既に機能が特定されているもの、機能が推定されているもの、アミノ酸配列は決定されているが機能は全く不明のもの等も含まれる。「参照タンパク質」とは、その立体構造の詳細がX線結晶解析やNMR解析により既に決定されており、アライメントや原子座標の最適化のために参照するタンパク質を意味する。このタンパク質のアミノ酸配列を「参照配列」又は「参照アミノ酸配列」と称することがある。
「アライメント」とは、2種類以上のタンパク質のアミノ酸配列があった場合、相互の対応関係をつけることを意味し、その方法は以下の各ステップの説明において詳述する。
「原子座標」とは、3次元座標上で立体構造を記述するものである。それは空間上のある点を原点とする互いに垂直な三方向の相対的な距離であり、タンパク質中に存在する水素原子を除く原子一つ当たりに3個の数字から成るベクトル量である。
図9は、本発明による複数鎖から成るタンパク質の立体構造構築法の一例を示すフローチャートである。
図9に示す通り、この方法(一例)においては、先ず、ステップ10において、立体構造未知のタンパク質のアミノ酸配列(以下、「目的配列」と称する。)を用意する。ステップ20において、FASTA、PSI−BLAST又はLIBRAを用いて、立体構造データベースの中から参照タンパク質(参照アミノ酸配列)を選定する。また、アミノ酸残基を表す20種の文字を指標として、目的配列と選定された参照アミノ酸配列とのアライメント(並置)を行う。ステップ30において、検索結果から一つ又は複数の参照タンパク質のアミノ酸配列を選択する。ステップ40において、複数鎖の各アミノ酸配列のC末端部(末尾)に「U」という文字を区切りに加入し、同じく目的配列の対応する位置の各アミノ酸配列末尾に順次、「U」を区切り文字として加入することで配列アライメントを修正する。尚、このとき前記の如く最終鎖に該当する鎖の末端部(擬似単数鎖を構成する鎖の末端部;擬似単数鎖の最末端部)には上記区切り文字を付加する必要は無い。また、これを付加しても最末端部に付加された区切り文字を無視することができる。ステップ50において、アライメントの情報に基づいて、アミノ酸残基中の構成原子の一つであるCα原子についてステップ30において定められた参照構造から座標を取得し、シミュレーティッドアニーリング法によって、後述の種々のポテンシャル項の和からなる目的関数(ECα)を最小化するようにCαの原子座標を最適化する。ステップ60において、ステップ50で得られたCα座標に主鎖原子座標をデータベースより付加し、シミュレーティッドアニーリング法によって、後述の種々のポテンシャル項の和からなる目的関数(Emain)を最小化するように主鎖原子座標を最適化する。ステップ70において、ステップ60で得られた主鎖原子座標に側鎖座標をデータベースより付加し、ステップ60と同様のシミュレーティッドアニーリング法によって立体構造の構築を行う。ステップ80において、でき上がったモデルの立体構造上の妥当性を後述のように検査し、ステップ90で最終構造に至る。モデル構造の妥当性の検査は、ループの挿入や欠損部位を除いた領域で、モデルと参照タンパク質の主鎖原子座標の重ね合わせを行い、rmsdが、例えば1Å以下であれば、妥当なモデルとした。
本発明では、従来は単数鎖の参照構造を用いた構造最適化しかできなかったステップ50、60及び70を修正し、複数鎖にも対応できるようにしたことにより、従来のFAMSと異なって発展している。以下、好ましい形態としての各ステップについて更に詳細に説明する。
ステップ10:構造未知のタンパク質のアミノ酸配列
先ず、構造未知の目的タンパク質のアミノ酸配列(目的配列)を用意する。用いられる目的タンパク質のアミノ酸配列としては、データベースに登録されているもの、配列が初めて解析されたもの等如何なる由来の配列であってもよい。また、部分構造のみが解析されているタンパク質の配列も完全な立体構造の情報を得るために、本発明における立体構造の構築対象とすることができる。用いられるデータベースとしては、例えば、GeneBank:ftp://ncbi.nlm.nih.gov/genbank/genomes/、PIR:http://www−nbrf.georgetown.edu/pir/(National Biomedical Research Foundation(NBRF))、Swiss Plot:http://www.expasy.ch/sprot/sprot−top.html(Swiss Institute of Bioinformatics(SIB)、European Bioinfomatics Institute(EBI))、TrEMBL(URL及び管理者共にSwiss Plotと同じ)、TrEMBLNEW(URL及び管理者共にSwiss Plotと同じ)、DAD:ftp://ftp.ddbj.nig.ac.jp(日本DNAデータバンク)等のデータベースに登録されているヒト(H.sapiens)、ショウジョウバエ(D.melanogaster)、線虫(C.elagans)、酵母(S.cerevisiae)、シロイヌナズナ(A.thaliana)等を挙げることができる。
これらのデータベースは単なる例示であり、タンパク質のアミノ酸配列が登録されているものであれば如何なるデータベースを用いることもできる。
ステップ20:FASTA、PSI−BLAST、LIBRA等のアライメントソフトによるデータベース検索及び配列アライメント
ステップ10において用意されたアミノ酸配列に対して、アライメントを行うソフトウエアとしては、例えばFASTA、PSI−BLAST(Position−Specific Iterated BLAST)及びLIBRA等を使うのが好ましい。
FASTAは目的配列と一致度の高い配列を立体構造データベースから探索し、最終的な目的配列と参照タンパク質との一致度をE−valueとして算出するプログラムである。FASTAの詳細は″Effective protein sequence comparison″Pearson WR,(1996)Methods Enzymol;266:227−58に記載されている。
PSI−BLASTはプロファイルアライメントを行うようにプログラムされている。PSI−BLASTの詳細は、″Matching a protein sequence against a collection of PSI−BLAST−constructed position−specific score matrices″Schaffer AA,Wolf YI,Ponting CP,Koonin EV,Aravind L and Altschul SF,Bioinformatics 1999,12,1000−11に記載されている。
プロファイルアライメントを実行するPSI−BLASTは配列の類似度を検出することについて、現時点で最高の性能を備えたツールである。PSI−BLASTはBLASTと呼ばれる類似タンパク質を検索し、アライメントを出力する一連のプログラムの1つであるが、最近同等の性能を発揮するものとして、RBS−BLASTとIMPALA(A.A.Schaffe et al.,Bioinformatics,15(12),1000−1011,1999参照。)がある。このプログラムは、データベース中の統計的に有意なアライメント関係のみからプロファイル情報を引き出し、アミノ酸配列の部位特異的スコア行列(position specific score matrix;アミノ酸配列上で各残基ごとに、あるアミノ酸残基への置換確率を統計的に示した行列。)を作成する。次に、プログラム内部では目的タンパク質の配列の替わりに作成された部位特異的スコア行列と一致度の高い配列をデータベースから探索し、その部位特異的スコア行列はE−valueの小ささを限界値として見たときに、有意なアライメントが検出されなくなるまで回数を重ねるごとに逐次更新されてゆく。そして、最終的な部位特異的スコア行列と参照タンパク質との一致度をE−valueとして算出する。
「E−value」とは配列間の適合の間に存在するランダムなバックグラウンドノイズを定量的に記述したものである。それは二つの配列がどれだけマッチしているかを示すものでもあり、配列類似度を表現するスコアに対し指数関数的に減少する性質を持ち、結果を評価する際の閾値を設定する方法として有用である。PSI−BLASTにおいては、E−valueの大きさについて、通常0.1以下、好ましくは0.001以下の値を持つときがそれに相当する(A.A.Schaffe et al.,Bioinformatics,15(12),1000−1011,1999参照。)。
これ等により立体構造データベースPDBから参照タンパク質配列をホモロジー検索し、検索された参照配列と目的配列との配列アライメントを行う。
ここで、「参照タンパク質」とは立体構造データベースから取得される配列と3次元原子座標のデータであり、プロテインデータバンク(PDB)として登録された公共データベースから得ることができるものである。
PDBのデータベースには、2001年11月現在26243個の立体構造が登録されているが、一例として95%以上の配列の一致度があるものは同じカテゴリーと判断し、カテゴリー中からもっとも長い配列のものを、更に同じ長さの場合はX線の分解能の最も高い構造をそのカテゴリーの代表とした。本発明で用いた立体構造データベースはこの代表を集めたデータベースである。本発明がなされた現在においては、3922個の代表構造をPDBデータベースとして用いている。
ステップ30:検索結果から、一つ又は複数の参照タンパク質のアミノ酸配列を選択
ホモロジー検索の結果から、目的配列に対して統計的に有意に類似した一つ又は複数の参照タンパク質のアミノ酸配列を選択する。
ステップ40:複数鎖の各アミノ酸配列末尾に区切り文字Uを挿入し、配列アライメントを修正
ステップ30により、複数鎖より成るタンパク質の目的配列が、複数のタンパク質の参照配列とそれぞれアライメントされた場合、従来は目的配列の各鎖ごとにモデリングを行っていた。しかし、本発明では複数鎖の各アミノ酸配列のC末端部(末尾)に区切り文字(例えば、文字「U」)を挿入し、全ての目的タンパク質鎖(ポリペプチド鎖等)を擬似単数鎖として同時にモデリングするためのアライメントを準備する。計算できるタンパク質鎖の上限は、実際に好ましくはPDBに登録された複数鎖タンパク質を参考に36個としたが、原理的にはモデリングに必要な個数まで、又は用いる計算機能力の限界まで拡張可能である。
ステップ50:Cα原子の初期座標の構築
ステップ40からの区切り文字を含んだアライメントを利用して、目的配列と参照配列との比較から、挿入及び欠損のあるアミノ酸残基についての情報を得る。アライメントにおいて連続して三残基以上のアミノ酸残基が対応している領域を選び出し、その領域においては、これらのアミノ酸残基ペアにおいて、目的タンパク質のCα原子として参照タンパク質と同一のものを当てはめておく。Cα原子が求められなかった場合には、PDBから予め作成した、Cα原子から成るペプチド断片のデータベース(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)から座標を当てはめる(図10参照。)。
ステップ50(1):Cα原子のシミュレーティッドアニーリング法による最適化
上記ステップ50で作成されたCα原子は、前記背景技術の項において説明したシミュレーティッドアニーリングのプロセスを用いて参照タンパク質の座標を参照して得られた目的関数(ECα)を用いて最適化される。この目的関数は下記式(1)の通りである。従来法と本発明の重要な違いの一つは、式(1)中の化学結合ポテンシャルElenと化学結合角ポテンシャルEang及び原子間相互作用ポテンシャルであるEvdwを、ステップ40で作成されたアライメント中の区切り文字Uを参考にして定めたkの値(N番目のタンパク質鎖のC末端残基の通し番号に等しい。)によって下記のように修正した点である。
Figure 0004309282
lenは、配列上隣り合う残基のCα原子間の距離に関するもので下記式(2)のように設定される。
Figure 0004309282
ここで、Di,i+1は残基1と残基i+1のCα間距離である。Kは定数で例えば、2と設定される。但し、1番目のタンパク質鎖のC末端残基kと2番目のタンパク質鎖のN末端残基k+1の間には化学結合が存在しないので、i=kの場合はElenの計算に含めない。同様に、図2に示したように、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間には化学結合が存在しないので、i=kの場合はElenの計算に含めない。(以下、このような操作を「相互作用の切断」と称する。)タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、kからkM−1までの残基番号は、ステップ40で作成されたアライメント中の1番目の区切り文字UからM−1番目の区切り文字UM−1までのUの位置によって指定することができる。
次に、EangはCα原子の化学結合角の関数であり下記式(3)の通りである。
Figure 0004309282
但し、i≠kN(N=1,M−1),i≠kN(N=1,M−1)+1
ここで、θ(rad)はi.i+1、i+2番目の残基Cα原子の角度である。θはPDBのX線構造から(100/180)π(rad)と設定される。Kは定数で例えば1とする。但し、結合角のポテンシャルEangについても、図3に示したように、Elenと同様に相互作用の切断操作を行う。即ち、i=k及びi=k+1の場合は、Eangの計算に含めない。この相互作用の切断操作は、kからkM−1までのアミノ酸残基について行う。
次にEvdwはCα原子間のファンデルワールスポテンシャルで、通常は3残基以上離れているものについて考慮し、下記式(4)の通りである。
Figure 0004309282
但し、i=k−1ならj>i+1、i=kならj>1
ここで、Di,jは、対象となるi番目のCα原子から6Å以内にある原子対i,j間の距離であり、Kvdwの値は0.01(Di,j≦3.2Å)又は0.001(Di,j>3.2Å)と設定した。但し、図4に示したように、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間には化学結合が存在しないので、i=k−1ならj>i+1、i=kならj>iという条件でEvdwの計算を行わなければならない。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、kからkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字UからUM−1までのUの位置によって指定することができる。
次に、ESSは対となってS−S結合を構成するCys残基のCα原子間の距離に関するもので下記式(5)のように設定される。
Figure 0004309282
ここで、D SSは、タンパク質鎖内及びタンパク質鎖間でジスルフィド結合を形成するCys残基のペア同士のCα間距離である。本発明では、残基番号iには全タンパク質鎖にわたる通し番号を用いるため、タンパク質鎖間のESSを従来法のポテンシャル関数で扱うことができる。KSSは定数で例えば5と設定される。
次に、EposはCα原子の位置に関する関数であり、下記式(6)の通りである。このエネルギー項は、タンパク質のSCRs(Structural Conserved Regions:後述。)におけるCα原子の位置を比較的安定に保持させる目的で導入したものである。
Figure 0004309282
ここで、Xはi番目のCα原子の座標を表し、Mは構造を基にしたアライメント上で構造的に等価な、即ち3次元座標系で最も近接した位置にあるCα原子間の平均距離である。残基iについてMの値が求められないとき、即ち目的配列のあるアミノ酸残基が参照配列のCαに対応づけられないときは、Mの値は10と設定される。‖・‖の意味する所はノルム(座標ベクトル間の距離)であり、ここで〈w〉は、Cα原子の平均座標であり下記式(7)の通りである。
Figure 0004309282
但し、j≠i
ここで、X はj番目の参照タンパク質のi番目の残基に対応するCαの原子座標である。w は、j番目の参照タンパク質のi番目のCα原子の位置に対する重みを表し、Wはjに対するw の和である。このw は、目的タンパク質の大体の形を決定するため重要なパラメータであるが、これは図11に示すように、ローカルスペースホモロジー(LSH)と呼ばれる着目部位の12Å以内の空間的近傍の局所的な値によって決定されている(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)。LSHと構造がよく保存されている部位(SCRs:Structural Conserved Regions)に存在する残基のペアの比率との相関は図12に示されているように非常に高い。これは、高いLSH値を持つときは統計的にCα原子の位置が参照タンパク質構造と比べて1.0Å以内にあることを意味する。
Cα原子は式(1)に従って、シミュレーティッドアニーリング法を用いて、繰り返し最適化される。この最適化の段階でCα原子の摂動は、例えば1.0Å以内になるように設定する。また、このアニーリングの段階は全てのCα原子について例えば100回づつ計算される。そして、温度に相当するパラメータは、25からスタートし、1回毎に0.5倍にしてゆき、0.01になるまで減らすようにし、そのパラメータは以後一定とする。
立体構造の重ね合わせの結果、目的配列に対して最も挿入、欠損が少ない参照配列からの構造情報の取得とCα原子の構築は10回繰り返され、最小の目的関数値を持つCα原子の座標が最適解として算出されるようにする。
ステップ60:主鎖原子座標の構築及び最適化
ステップ50(1)のCαの原子座標に、他の主鎖原子(アミドN原子,カルボニルC原子,カルボニルO原子)及びCαに化学結合したCβ原子の座標を付加し、シミュレーティッドアニーリング法によって目的関数(後述の(8)式のEmain)を最小化するようにする。先ず、Cα原子の立体的な重ね合わせを行い、Cαの原子間距離が2.5Å以下の残基が取り上げられる。Cαを除く主鎖の原子座標は重なるべきCα原子間距離が最小になるように参照タンパク質の座標から取得しモデル構造とする。
参照タンパク質の中に相当する残基が無い場合、主鎖の原子座標は、予め作成したデータベース(例えば、K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)中の相当する4残基のタンパク質断片から作成される。この過程の中で、残基iの主鎖原子はi−1番目からi+2番目までのCα原子間の最小のrmsd値を持つ残基から選ばれる。その際、N末端の残基では、Cα原子座標の重ね合わせ範囲がi番目からi+3番目までとなり、C末端の残基及びその一つ前の残基では同様にi−3番目からi番目まで及びi−2番目からi+1番目までとなる。
主鎖原子の目的関数を基にシミュレーティッドアニーリング法によって主鎖原子座標(側鎖Cβ原子も含む。)が最適化される。目的関数は下記式(8)の通りである。従来法と本発明の重要な違いの一つは、当該式(8)中の化学結合ポテンシャルEbondと化学結合角ポテンシャルEangと化学結合ねじれ角ポテンシャルEtor及び原子間相互作用ポテンシャルであるEnon−bondを、ステップ40で作成されたアライメント中の区切り文字Uを参考にして定めたkの値(N番目のタンパク質鎖のC末端残基の通し番号に等しい。)によって下記のように修正した点である。
Figure 0004309282
bondは下記式(9)の通りである。
Figure 0004309282
但し、
i=kN(N=1,M−1)かつb=DCi,Ni+1の場合、加算しない。(i+1は添え字の添え字。)
ここで、b は、標準の結合長であり、N−Cα、Cα−C、及びC−Nの3種類の化学結合によって異なるが、ここでは簡略化して表記している。Kは定数であり、例えば225と設定される。Ebondの計算は図5に示したように、CαにおけるElenの計算と同様に、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間には化学結合が存在しないので、i=kN(N=1,M−1)かつb=DCi,Ni+1ならb−b =0という条件により、Ebondの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、kからkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字UからUM−1までのUの位置によって指定することができる。
angは化学結合角の関数で、下記式(10)の通りである。
Figure 0004309282
但し、i=kN(N=1,M−1)かつθ=θCαi,Ci,Ni+1の場合、加算しない。
i=kN(N=1,M−1)かつθ=θOi,Ci,Ni+1の場合、加算しない。
i=kN(N=1,M−1)かつθ=θCi,Ni+1,Cαi+1の場合、加算しない。
(角度を決めている三つの原子の説明)
ここで、θ は、標準の結合角であり、それぞれの結合角の種類によって異なるが、ここでは簡略化して表記している。Kは定数であり、例えば45と設定される。Eangの計算は図6に示したように、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間には化学結合が存在しないので、Eangの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、kからkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字UからUM−1までのUの位置によって指定することができる。
torは主鎖の化学結合ねじれ角ポテンシャルであり、下記式(11)の通りである。
Figure 0004309282
但し、i=kN(N=1,M−1)ならφ−φ =ω−ω =φi+1−φi+1 =0
ここで、φ とφ は主鎖のねじれ角がRamachandranプロットを満たすように設定する。即ち、(φ,φ)から最も座標が近く、かつRamachandranプロットを満たすような(φ ,φ )を選択する。また、ω は0としてcis−Pro残基の場合のみπ(rad)とする。K及びKωは定数であり、例えば、それぞれ10及び50と設定される。Etorの計算は、Eangの計算と同様に、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間には化学結合が存在しないので、Etorの計算に含めずに、相互作用の切断を行う。図7はωiを示すものであるが、φとφi+1の扱いも同様である。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、kからkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字UからUM−1までのUの位置によって指定することができる。
non−bondは原子間相互作用ポテンシャルで、下記式(12)の通りである。
Figure 0004309282
但し、i=kN(N=1,M−1)のときrij∈{rNi,Ni+1;rCαi,Ni+1;rCαi,Cαi+1;rCi,Ni+1;rCi,Cαi+1;rCi,Cβi+1;rCi,Ci+1;rOi,Ni+1;rOi,Cαi+1}に対してrij≦8.0ならばEnon−bondの計算に含める。
ここで、εij とrij は定数で原子の種類によって異なる定数である(緒方浩二、東京理科大学学位論文,1999参照。)。Knonは定数であり、例えば0.25と設定し、rijが、例えば8Å以下の原子対i,jについて通常、それが3ボンド以上離れたものである場合には、Enon−bondの計算に含めるものとする。Enon−bondの計算は図8に示したように、CαにおけるEvdWの計算と同様に、N番目のタンパク質鎖のC末端残基kとN+1番目のタンパク質鎖のN末端残基k+1の間には化学結合が存在しないので、i=kN(N=1,M−1)のときは{rNi,Ni+1;rCαi,Ni+1;rCαi,Cαi+1;rCi,Ni+1;rCi,Cαi+1;rCi,Cβi+1;rCi,Ci+1;rOi,Ni+1;rOi,Cαi+1}に属するrijが8Å以下であれば、新たにEnon−bondの計算に含めなければならない。タンパク質鎖の総数がMである場合には、この操作はN=1からM−1まで行い、kからkM−1までの残基番号は、ステップ40で作成されたアライメント中の区切り文字UからUM−1までのUの位置によって指定することができる。
SSはCys残基が生成するジスルフィド結合の関数で、下記式(13)の通りである。
Figure 0004309282
ここで、D Cα及びD Cβは、タンパク質鎖内及びタンパク質鎖間でジスルフィド結合を形成するCys残基のペア同士のCα間及びCβ間距離である。残基番号iには全タンパク質鎖にわたる通し番号を用いるため、本発明ではタンパク質鎖間のESSを従来法のポテンシャル関数で扱うことができる。KSS Cα及びKSS Cβは定数であり、例えば7.5である。
posは主鎖原子の位置に関する関数で、下記式(14)の通りである。式の説明は前記式(6)に準ずる。
Figure 0004309282
ここで〈w〉は下記式(15)のように与えられる。式の説明は前記式(7)に準ずる。
Figure 0004309282
前記式(12)の〈w〉は、目的タンパク質及び参照タンパク質の間の構造の重ね合わせから求める。Kposは定数であり、例えば0.3である。
chiはCαの光学活性(キラリティー)に関するものであり、下記式(16)の通りである。ここで、Cαのキラリティーとは、アミノ酸残基の光学異性体(L−体又はD−体)に関するものであり、通常はL−体のCα原子になるように、当該式(16)のポテンシャルが用いられる。
Figure 0004309282
ここで、τはi番目の残基のN−Cα−Cβ−Cで定められるねじれ角でありKchiは、例えば50と設定される。
hydrは配列が類似したタンパク質中で保存された主鎖の水素結合に関するもので、下記式(17)の通り定められる。
Figure 0004309282
水素結合は、N原子とO原子の距離が2.9±0.5Åにあるときに設定される。複数の参照タンパク質中で水素結合があるか否かを判定するときは、75%以上(四つ中三つ以上)の参照蛋白が存在すると認めた場合に水素結合ありと判定する。Khydrは定数であり、例えば0.6である。
次にCβを含む主鎖原子の最適化がシミュレーテッドアニーリングによって行われる。この過程で主鎖とCβの原子の摂動が初期の位置に対して1.0Å以内になるようにする。この段階は主鎖とCβの原子に対して通常200回行われる。温度に相当するパラメータは通常50又は25から始まり一回毎に0.5倍にしてゆき0.01になるまで続け、その後一定値とする。
主鎖の立体配置を幅広くサンプリングするために、好ましくは上記の方法を6回行い、最小の目的関数値(Emain)を持つ主鎖の原子座標を最適解とする。そして、温度に相当するパラメータは、通常最初の2回は50からスタートして3回目から25からスタートすることとする。
ステップ70:側鎖原子座標の構築及び最適化
側鎖の構築は、大きく2段階に分かれており、「構造保存部位の側鎖構築」(ステップ70(1)と「全体の側鎖構築」(ステップ70(2))に分けられる(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)。
ステップ70(1):構造保存部位の側鎖構築
算出された主鎖原子に対して、構造保存部位(SCR領域)の場合、以前の研究における方法を用いて配列が類似したタンパク質から側鎖のねじれ角を得る。この方法の詳細は、″The role of played by environmental residues in side−chain torsional angles within homologous families of proteins:A new method of side chain modeling.″Ogata K and Umeyama H,Prot.Struct.Funct.Genet.1998,31,255−369に記載されている。この全内容は参考により本明細書中にその一部として組み込まれる。
この方法の中で配列が類似したタンパク質の中で保存されている側鎖の割合を算出し、この情報を基にして側鎖のモデリングを行う。側鎖の保存された部位の側鎖の原子座標は固定した主鎖原子に対して置かれる。例えば、配列が類似したタンパク質中でアルギニン残基のχ1角が保存されていれば、Cγ原子の座標を置くことができ、Phe残基でχとχ角が保存されていれば、全ての側鎖原子を置くことができる。式(8)を用いたシミュレーティッドアニーリングの最適化の過程は、主鎖とCβの原子のみ行われて、原子の摂動は1.0Å以内となるようにした。この主鎖とCβの原子のアニーリングの段階は200回行われる。そして、温度に相当するパラメータは25からスタートして1回毎に0.5倍にしてゆき0.01になるまで小さくなるようにする。前記式(8)の中のEnon−bondは主鎖原子と部分的に作成された側鎖原子について行われる。そのとき側鎖原子の座標は最適化の過程を通じて保存されるようにする。
構造の情報である前記式(14)のMと前記式(17)の水素結合のN−Oのペアは最適化の過程で距離を計算し直し、特にN−Oペアについては、水素結合の有無判断を変化して用いられる。主鎖原子の配置を得るために、上記プロセスを3回繰り返し、目的関数の最小の主鎖原子の座標を算出構造とする。
ステップ70(2):全体の側鎖の構築
側鎖全体の構築は固定した主鎖及びCβ原子の基で行う。これは上記したOgata K and Umeyama H,Prot.Struct.Funct.Genet.1998,31,255−369に記載されている方法をもって行われ、それを用いることにより短時間で正確なモデルを与えることができる。先ず、前記式(8)の目的関数Emainを用いて、主鎖構造(Cβを含む)を低温におけるモンテカルロ法によって最適化する。このとき、温度は0.001に設定し、前記式(8)の中のEnon−bondに関しては主鎖原子と側鎖全原子の間で計算を行う。そして、N、Cα、C、Cβ原子の最適化の過程で側鎖のねじれ角を最適化された状態を保つように側鎖の座標を再配置する。原子の摂動は0.5Å以内とする。次に、側鎖は削除され、上記の側鎖構築が繰り返される。このプロセスは2.4Åの原子同士のぶつかり合いがなくなり、かつN−Cα−Cβ−Cのねじれ角が−120±15°の範囲に収まるまで繰り返される。
ステップ80:モデル構造の妥当性の検査
でき上がったモデルの立体構造上の妥当性の検査は、ループの挿入や欠損部位を除いた領域で、モデルと参照タンパク質の主鎖原子座標の重ね合わせを行い、rmsdが1Å以下であれば、妥当なモデルとした。
ステップ90:最終構造の構築:立体構造予測
上記の通りステップ40において得られたアライメントを基に、ステップ50−80において、今回、本発明者等が新に開発したnewFAMS等のモデリングソフトを用いて立体構造を構築し、モデルが完成する。併せて、上記ステップ40−80で示す方法を「newFAMS」と称する。一方、本発明の基本をなす従来型のモデリングソフト(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)を単に「FAMS」と称する。
尚、複数鎖モデリングの擬似単数鎖モデリング実現のために,単数鎖モデリングの式に対して前記式(2)、(3)、(4)、(9)、(10)及び(12)における本文中に示すような修正を加えたが、もう一つの方法として、それ等の式に対して該当する係数、前記式(2)のKl、式(3)のKa、式(4)のKvdw、式(9)のKb、式(10)のKa、式(11)のKtを残基番号に依存する値として扱い、それぞれ調整することでも擬似単数鎖を実現できる。この擬似単数鎖モデリングは本発明を、具体的に実施する段階で、前記式(2)、(3)、(4)、(9)、(10)及び(12)の右辺の構成から、容易に考えられる。また、この擬似単数鎖モデリングは、後述の実施例1〜4と全く同じ結果を与える。
本発明によれば、配列上分離若しくは大きく間が開いた領域(複数の鎖)同士が空間的に接した立体構造を参照タンパク質に選択することもできる(図44参照。)。配列上分離若しくは大きく間が開いた領域(複数の鎖)同士が空間的に接した状態の複合体の立体構造を、実験的に決定して(図44a参照。)、これを参照タンパク質として本発明によりモデリングを行うと、目的タンパク質の立体構造を正確に構築することができる(本発明方法;図44c参照。)。これに対して、従来法により同様にモデリングを行うと、図44bに示した通り両者の接触面が不正確なものが構築される。このような立体構造の構築においても、本発明方法によれば、従来法に比較してより正確に立体構造を構築することができることが理解される。
前記したように、本明細書中に引用される従来法についての文献の全内容は参考により本明細書中にその一部として組み込まれる。同様に、本願の基礎となる2002年1月9日出願の日本出願:特願2002−2859に含まれる明細書等出願書類の発明に関する全内容についても参考により本明細書中にその一部として組み込まれる。
好適な実施の形態
以下、実施例により本発明を詳細に説明する。これは、本発明を説明するためのものであり、故に本発明はこれ等実施例に限定されるものではない。
(実施例1) 代謝型グルタミン酸レセプター同族体のモデリング例
ラット由来の代謝型グルタミン酸受容体タイプI蛋白質(Metabotropic glutamate receptor 1;参照タンパク質)のアミノ酸1次配列は、Swiss−Protより取得した。(エントリ名 MGR1_RAT,アクセッション番号P23385)。これは図13に示す通り(配列表配列番号1参照。)、全体が1199残基で、前半の下線で示した478残基中、448〜456番目の9残基同士が接触部位となり、単量体(モノマー)が二つ集まった2量体(ホモダイマー)となり、グルタミン酸受容体部分を形成していることが、森川等によるX線構造解析の結果、明らかとなっている(Kunishima,N.,Shimada,Y.,Tsuji,Y.,Sato,T.,Yamamoto,M.,Kumasaka,T.,Nakanishi,S.,Jingami,H.,Morikawa,K.:Structural Basis of Glutamate Recognition by a Dimeric Metabotropic Glutamate Receptor,Nature 407,971,2000参照。)。PDBには3種類のタンパク質立体構造(1EWK,1EWT,1EWV)として登録されている。1EWKはリガンドとしてのグルタミン酸を含む構造であり、1EWTはリガンドとしてのグルタミン酸を含まない構造である。X線構造解析の結果からは、1EWKはモノマー同士が比較的接近したclosed形であり、一方、1EWTはモノマー同士が比較的離れたopen形であることが分かっている。両者は、このようにモノマー同士の相対配置が異なるために、ドメイン間の接合面の状態も大きく異なっている。
即ち、グルタミン酸受容体タイプI蛋白質では、リガンドが結合していない状態(1EWT)ではopen形であるが、リガンドが結合した状態(1EWK)ではclosed形が安定化することが推察されている。従って、このタンパク質では、モノマー同士の相対配置を含む接合面の状態を正確にモデリングすることが機能解明のために非常に重要である。そこで、実施例としては、類似配列を探索するのに1EWTを参照タンパク質として、リガンドを含まないタンパク質2量体の立体構造モデル(参照タンパク質)を構築した。また、従来法でダイマーを構成する個々のモノマーをモデリングし、両者を併せてダイマーモデルとした場合と本発明による方法でダイマー自体をモデリングした場合で、ダイマー間の接合面の状態に、立体構造上の優劣(エネルギー的な安定性の差)が生じるかを比較した。
先ず、MGR1_RATのアミノ酸配列1199残基をクエリーとして、2001年11月時点のPIRをモチーフプロファイルとし、PIR,Swiss Prot,TREMBL,TREMBL_NEW,GenPept等のタンパク質アミノ酸配列データベース(何れも2001年11月時点)の774804配列に対してPSI−BLAST検索を行った。E−valueが0.001以下の条件で実施した結果、14509個の類似配列とのアライメントを取得した。そのうち、E−valueが0となるものが70ある(ホモロジーは23〜100%で、E−valueが非常に小さいため計算機出力としてゼロと記述されている。)。これ等は、機能的にほぼ同一と見てよい。この中で同じRAT由来のレセプターでSwiss Prot中のエントリー名「MGR5_RAT」アクセッション番号「P31424」のタンパク質2量体(目的タンパク質)のモデリングを行った(Abe T.,Sugihara H.,Nawa H.,Shigemoto R.,Mizuno N.,Nakanishi S.,Molecular characterization of a novel metabotropic glutamate receptor mGluR5 coupled to inositol phosphate/Ca2+signal transduction,J.Biol.Chem.267,13361−13368,1992参照。)。MGR5_RATはイノシトールリン酸とカルシウムイオンが関係する情報伝達タンパク質で、ラット由来の代謝型グルタミン酸受容体サブタイプVタンパク質(metabotropic glutamate receptor subtype5)であり、アミノ酸残基数は1203個である。参照配列MGR1_RATと目的配列MGR5_RATの間のホモロジーは62.2%であり、図14に両者のアライメント結果を示す(配列表配列番号1及び2参照。)。
(MGR1_RATとMGR5_RATのアライメント結果)
Figure 0004309282
図14のアライメント中でPDBの1EWTの座標が存在する部分のみを表示すると、図15のようになる(配列表配列番号3及び4参照。)。このアライメントを用いてモデリングを行った。
(MGR1_RATとMGR5_RATのアライメント結果;1EWTで座標が存在する部分のみ)
Figure 0004309282
図15のアライメントはモノマーのものであり、従来型FAMS(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)の入力ファイル形式では、図16のようになる(配列表配列番号3及び4参照。)。このモデリングは従来型FAMSを使用することによって実行した。モデリング結果を図17に示した。
更に、ホモダイマーとして扱った場合は、図16のアライメントを「U」の文字でつなぐことになり、図18の通りである。この「U」を使う入力ファイル形式は、本発明者等によって開発されたものである。モデリング結果を図19に示した。
また、図19のnewFAMSによるホモダイマーモデルの接合面の拡大図を図20に示す。この図において、タンパク質−タンパク質相互作用の認識部位が主鎖や側鎖で2.4Å以内の衝突はなく精度よくモデリングされている。一方、1EWTのホモダイマーの各々のモノマーの3次元座標を使って、独立に従来型FAMSでMGR5_RATの各々の立体構造を構築すると、接合面では2.4Å以内の原子間接触が8ヶ所で生じた。この構造の場合、接合面は衝突が多いことによりエネルギー的には非常に不安定である。一方、newFAMSによるモデル構造では、接合面で衝突がないことによりエネルギー的に安定である。このことは本発明者等が開発した複数鎖モデリングを行うnewFAMSの優れていること(新規性)を示すものである。
(実施例2) トランスポーターのモデリング例
多剤耐性の原因の一つと考えられているABCトランスポーターの同族体の立体構造がX線結晶回折で4.5Åの分解能で解析されておりCαの座標のみではあるがPDB:1JSQで登録されている(参照タンパク質)。この立体構造によってABCトランスポーターは、細胞膜上でホモダイマーを形成し、モノマー間の相対位置のフリップフロップ運動からリン脂質を細胞から放出する働きを持つことが示唆されている(Geoffrey Vhang and Chistopher B.Roth,SCIENCE,Vol 293,pp.1793参照。)。
1JSQは8本鎖(A鎖、B鎖、C鎖、D鎖、E鎖、F鎖、G鎖、H鎖)あり、A−B鎖、C−D鎖、E−F鎖、G−H鎖のホモダイマー4組の形で登録されている。本実施例では、先ず8個の鎖をCαの座標のみからそれぞれ従来型FAMSの自動モデリングにより主鎖及び側鎖を構築した。8個の側鎖まで構築した座標を見て、B鎖の主鎖に関する化学結合ねじれ角φ及びφが最もラマチャンドランプロット上のエネルギー的に不安定な領域を侵していない構造であった。次に、キメラモデリング法(T.Yoneda,H.Komooka,H.Umeyama,J.Prot.Chem.,16,597−605,1997参照。)を用いてB鎖を基本構造として、部分的にその他の鎖で補いモノマーの構造をモデリングした。次に、B鎖のモノマーの座標を回転・移動しA鎖と重ね合わせ、移動後の座標を新たなA鎖とした。このようにして得たA−B鎖のペアを鋳型構造MSBAとして、下記のモデリングに用いている(モデル化した参照タンパク質)。1JSQのモノマーのアミノ酸配列は555残基であり(2ケ所の下線部は座標欠損で、これ等を除くと450残基となる)、図21の通りである(配列表配列番号5参照。)。
この555残基の配列を照会する目的配列(クエリー)として、2001年11月時点のPIRデータベースを使用してクエリーのモチーフプロファイルを作成し、PIR,Swiss Prot,TREMBL,TREMBL_NEW,GenPept等のタンパク質アミノ酸配列データベース(何れも2001年11月時点)の774804配列に対してIMPALA検索(PSI−BLASTと似ているが、Smith and Waterman法によるアライメントを用いる手法:A.A.Schaffe et al.,BIOINFORMATICS,15(12),1000−1011,1999参照。)を行った。E−valueが0.001以下の条件で実施した結果、13705個の類似配列とのアライメントを取得した。
一例として、SwissProtデータベース中のID「O93437」に対してモデリングを行った。O93437(目的タンパク質)はSwiss−Protのホームページにおいて、ニワトリABCトランスポータータンパク質と記述されている(Edelmann H.M.L.,Duchek P.,Rosenthal F.E.,Foeger N.,Glackin C.,Kane S.E.,Kuchler K.,”Cmdr1,a chicken P−glycoprotein,confers multidrug resistance and interacts with Estradiol”,Biol.Chem.380,231−241,1999参照。)。アミノ酸残基数は1288個で、多剤耐性を示し、卵胞ホルモンであるエストラジオールと相互作用するタンパク質である。O93437をモデリングするため、前述のMSBAとアライメントした結果を図22に示した(配列表配列番号6及び7参照。)。
(「O93437」とMSBAとのアライメント結果)
Figure 0004309282
但し、参照タンパク質であるMSBAには、途中に大きな座標欠損が2箇所あるため(図21の1JSQのアミノ酸配列中、下線で示した部分)、図22のアライメントのままではモデリングができない。そこで、座標欠損の位置に「U」の文字を挿入し、アライメントを図23の様に修正した。これは、一つのタンパク質をあたかも三つのタンパク質から成るように記述し、複数タンパク質のモデリングを実行するものである。
(「O93437」とMSBAの新しいアライメント結果)
Figure 0004309282
これをnewFAMSの入力である入力ファイル形式にすると、図24に示したようになる。
図24のアライメントはタンパク質を擬似単数鎖として扱って、タンパク質モデルを構築しているが、この入力ファイルはあくまでモノマーのものである。このアライメントを用いたモデリング結果を図25に示した。
次に、ホモダイマーとしてモデル構築をする場合は、上記のアライメントを更に「U」の文字でつなぐことになり以下の図26のようになる。
図26の入力ファイル形式を用いたnewFAMSによるモデリング結果を図27に示した。
上記ホモダイマーの接触部分のグラフィック表示は図28の通りである。
このように座標欠損がある場合も擬似的に複数鎖として扱い「U」の文字で置き換えてやることにより、ファンデアワールスの原子の衝突を考慮した構造を算出することが可能となり、相互作用の認識部位を正確に表したホモダイマーをモデル構築できる。作成したホモダイマーモデル「O93437」を観察すると、X線解析よりホモダイマーの膜貫通部位と考えられる部位で、トランスポートされる物質が結合の可能性があると述べられている場所は、図29の丸で囲まれた領域であることが推察された。この領域は非常に多くの疎水性アミノ酸残基が存在し、「O93437」の機能とされている卵胞ホルモンエストラジオールが容易に結合できることが推察される。因みに、相互作用するエストラジオールは図30に示されるように、分子全体が疎水性基から構成されている。一方、上述の1JSQに記述されたCα原子座標のみを基本にして主鎖と側鎖をモデル構築したホモダイマーの各々モノマーの3次元座標を参照タンパク質にして、独立に「O93437」ABCトランスポーターを各々モデル構築して、相互作用の認識部位を観察すると、ホモダイマー間の相互作用が考慮されていないため、接合面では2.4Å以内の原子間接触が54ヵ所で生じた。上記のようにリガンドのエストラジオールが結合する可能性のある近くに2量体接触領域があることから、このホモダイマーの接合部位のモデル構築は機能を正確に記述するために極めて大切である。このことはやはり本発明における複数鎖モデリングの方法の優れた点(新規性)や、有用性を示しているものと考えられる。
(実施例3) 炭疸菌の致死因子タンパク質に結合したペプチドの改変例
2001年11月号の英国雑誌NATURE(Pannifer et.al,NATURE,vol 414,pp.229−233)に近年世間を騒がせている炭疸菌の毒素である致死因子(LF、分子量9万)の立体構造がX線結晶回折法により3.90Åの分解能で報告されている。このタンパク質は、四つのドメインから成り炭疸の病原性に不可欠な酵素であり、ヒト細胞の一つ又は複数の情報伝達系を阻害する。具体的には、mitgen−activated protein kinase kinase(MAPKK)と呼ばれるタンパク質ファミリーのN末端部分と接触してその末端部分を切断すると報告されている。LFは極めて特異性の高いプロテアーゼである。PDBでは、LF単体が1J7Nとして、MAPKK−2と呼ばれるMAPKKファミリーのN末端部16残基とLFの複合体が1JKY(参照タンパク質)として登録されている。MAPKK−2のN末端16残基はLFのドメインII,III,IVの三つから作られる長く深い溝にはさまって切断される。この毒素をターゲットにした薬は有望であると考えられているので、MAPKK−2のN末端16残基の立体構造を参考にペプチドではない薬物を設計することが可能である。
本実施例では、このMAPKK−2の16残基のアミノ酸残基に仮想的に変異を起こさせた配列(目的タンパク質)のモデルを構築し、LFとの相互作用の様子がどのように変わるかの一例を示す。通常、薬物の設計には薬物の腸管吸収等を考慮する必要から疎水性の結合部位に焦点を定める。PDB:1JKYはA鎖(LF)とB鎖(MAPKK−2の16残基)があり、アミノ酸配列は図31の通りである(配列表配列番号8及び9参照。)。
このB鎖のMAPKK−2の16残基のうち、第二残基と第三残基「LA」の部分は、A鎖のLFとの間に空間的に隙間が空いている(図32参照)。そこで、この部分のアミノ酸残基をより嵩高い側鎖を持つアミノ酸残基に置き換え疎水性相互作用の接触をより強固にするような阻害剤を設計することにより、その阻害剤がMAPKK−2の16残基のN末端と競合的に結合することによって、LFのプロテアーゼとしての活性を阻害できる可能性がある。
「LA」の換わりに、例えばこの嵩高い側鎖をもつアミノ酸残基として「FF」を選んだ場合のモデル構築を行った。
このA鎖(LF)とB鎖(MAPKK−2)の複合体(1JKY)を鋳型として、図33の入力ファイル形式を用いて(配列表配列番号10参照。)、newFAMSによりモデル構築を行った。モデリング結果を図34に示した。
以上のように「LA」を「FF」に変えてモデル構築した一例を示したが、newFAMSを用いてそれ以外の変異体についても網羅的に解析することが可能であり、その中からより効果的な阻害剤のリード化合物を推定することが可能になる。
(実施例4) 実際にPDBに登録されている複数鎖から成るタンパク質立体構造と構築モデルの比較による本発明の検証例(ブラインド−テスト)
プロティナーゼの一種であるトリプシンとそのタンパク質阻害剤である膵臓トリプシンインヒビター(PTI)との複合タンパク質2PTCの立体構造はX線結晶解析法により、1.90Åの分解能で解かれて登録されている(Marquart,M.,Walter,J.,Deisenhofer,J.,Bode,W.,Huber,R.:The Geometry of the Reactive Site and of the Peptide Groups in Trypsin,Trypsinogen and its Complexes with Inhibitors,Acta Crystallogr.,Sect.B 39,480,1983参照。)。2PTCはE鎖のトリプシンとI鎖のPTIからなる複合体で登録されている。セリンプロテアーゼであるトリプシンは膵臓から不活性なトリプシノーゲンとして分泌され十二指腸液中の酵素Enterokinaseにより活性型トリプシンになる。トリプシンはEndpeptidase一種でArgやLysのような塩基性アミノ酸のカルボキシル基側のペプチド結合を切断するタンパク分解酵素である。
一方、セリンプロテアーゼの一種であるトロンビンE192Q酵素(グルタミン酸192がグルタミンに置換されている。)とPTIの複合タンパク質1BTHの立体構造はX線結晶解析法により、2.3Åの分解能で解かれて登録されている(van de Locht,A.,Bode,W.,Huber,R.,Le Bonniec,B.F.,Stone,S.R.,Esmon,C.T.,Stubbs,M.T.,“The thrombin E192Q−BPTI complex reveals gross structural rearrangements:implications for the interaction with antithrombin and thrombomodulin”EMBO J.16,2977,1997参照。)。このタンパク質はLとH鎖からなるトロンビンE192QとP鎖のみから成るPTI、同じように、J鎖とK鎖から成るトロンビンE192QとQ鎖のみから成るPTIのホモダイマー2組の形で登録されている。ここでは、前者の1組のタンパク質複合体に注目する。トロンビンは血液凝固因子の一つであるプロトロンビンの活性型蛋白であり、このトロンビンが形成されることによってフィブリノーゲンがフィブリンとなり血液凝固を起こす。
本実施例では、本発明ソフトであるnewFAMSで2PTCのE鎖とI鎖から1BTHのH鎖とP鎖のモデリングを行い、実際にPDB(Protein Data Bank)に登録されている1BTHのX線構造との比較を行った。但し、1BTHモデルの挿入ループの構築に使用するCα原子や主鎖原子のデータベースの中には、1BTH自身は含まれておらず、モデルの精度を検証するに当たって、正解構造を含むデータベースは使用していないことを確認してある。また、従来型のFAMSでの1BTH_H、1BTH_Eを個々にモデリングしたものとの比較もnewFAMSの精度を検証するために示す。ここで、注目すべきは、1BTHのH鎖はトロンビンの192番目のアミノ酸残基がグルタミン酸からグルタミンに残基置換されていることである。トロンビンは192番目のアミノ酸残基はグルタミン酸であり、通常、酵素のループ部分が立体的に阻害してPTIとは結合しない。しかし、192番目のアミノ酸残基をグルタミンに置換する(トロンビンE192Q)とPTIと結合するときに、上記の妨害ループ部分がPTIの影響を受けて適合誘導で動き、両者のタンパク質は結合する。それが1BTHの名で登録された複合タンパク質である。
目的タンパク質である1BTHのH鎖及びP鎖のアミノ酸配列は図35に示す通りである(配列表配列番号11及び12参照。)。1BTHのH鎖のアミノ酸残基数は254残基であり、P鎖のアミノ酸残基数は58残基である。
一方、参照タンパク質である2PTCのE鎖及びI鎖のアミノ酸配列は図36に示す通りである(配列表配列番号12及び13参照。)。2PTCのE鎖のアミノ酸残基数は223残基であり、I鎖のアミノ酸残基数は58残基である。
1BTHのH鎖と2PTCのE鎖におけるアライメントは図37に示す通りである。ホモロジーは43.5%であった。
(1BTHのH鎖と2PTCのE鎖におけるアライメント結果)
Figure 0004309282
1BTHのP鎖と2PTCのI鎖におけるアライメントは図38に示す通りである。ホモロジーは100%であった。
(1BTHのP鎖と2PTCのI鎖におけるアライメント結果)
Figure 0004309282
各アライメントの結果の従来型のFAMSの入力ファイル形式は図39の通りである。
今回のnewFAMSの入力ファイル形式では、上記のアライメントを「U」の文字でつなぐことにより、図40の通りである。
今回newFAMSによってモデル構築をH鎖とP鎖に限って行った結果、実際にPDBに登録されている1BTHと今回のnewFAMSによる1BTHモデルとのr.m.s.d値はH鎖、P鎖共に含め全体で2.11Åとなった。また、実際にPDBに登録されている1BTHと従来のFAMSによる1BTHモデルとの全体のr.m.s.d値は2.18Åであった。r.m.s.d値は若干ながら改善されていることが分かる。
次に、従来のFAMSによるモデルのアミノ酸の原子同士が衝突しているかどうか、H鎖とP鎖の接触面で2.4Å未満のアミノ酸残基接触があるかを検証した。その結果、H鎖とP鎖の分子間では7ヵ所で原子間接触が生じていた。
一方、今回の本発明で使用可能なソフトnewFAMSによるモデルのH鎖とP鎖間でアミノ酸の原子同士が衝突しているかどうかを観察すると、2.4Å以下は無かった。
以上で示したように、従来型のFAMSでは、原子同士で衝突を起こしてしまうが、今回のnewFAMSでは、原子同士では衝突は発見できなかった。セリンプロテアーゼである1BTHのH鎖はP鎖との接触領域において、活性部位である触媒部位と基質結合部位をもち、機能の正確な記述のためには、これ等H鎖とP鎖の接触領域を精度良くモデル構築せねばならない。この実施例はX線解析があり、それと比較しながら、複数鎖の擬似単数鎖モデル構築が精度の高いことを示した。このことは、重ねてnewFAMSの優れていること(新規性)を示したことになる。
(実施例5)
閲覧したいタンパク質を、生物種固有の任意の記号、タンパク質コード名、参照タンパク質名、1行程度の機能説明の文字列との部分一致等の、論理積検索によって、簡便に事前の知識無く目的とするタンパク質にたどり着けるよう設計されたインターフェースを開発することができた。図43に、一例として、GTOP(国立遺伝学研究所で公開しているゲノムのアミノ酸配列と立体構造データベースPDBのアミノ酸配列とのアライメントのホームページ)で閲覧できるアライメントに基いて構築した立体構造モデルデータベースへのインターフェース画面を示す。これは、3次元座標に基いた閲覧したいタンパク質立体構造が上記の単数鎖若しくは複数鎖のタンパク質立体構造データベース中に存在する場合、生物種固有の任意の記号、タンパク質コード名、参照タンパク質名、1行程度の機能説明の文字列との部分一致等の、論理積検索によって、簡便に事前の知識無く目的とするタンパク質にたどり着けるよう設計されたインターフェースとなっている。
この例の場合、41生物種のaero,aful,,,,,等の記号はGTOPで命名されたものに基く(2001年9月時点)。立体構造、即ち3次元座標に基いた閲覧したいタンパク質がある場合、その生物種の記号の横のチェックボックスにチェックを入れておく。更に、タンパク質コード名、参照タンパク質名、1行程度の機能説明等の論理積によって絞込み検索機能を持っている。
発明の効果
本発明によれば、ペプチドを含むタンパク質について、複数鎖から成る立体構造未知のタンパク質(これをコードする遺伝子を含む。)の立体構造予測又は複数鎖の各々の成分のアミノ酸残基が改変された複合タンパク質の立体構造予測に関して、従来法より効率的かつ単純に、信頼性が高い立体構造情報を得ることができる。その結果、ゲノム配列解析、DNAチップを用いた発現プロファイリング解析、プロテオーム解析等で興味深い遺伝子やタンパク質が見つかった場合に、そのタンパク質の立体構造を基準とした機能予測を行うことが可能となる。これに伴ってそのペプチドやタンパク質の効率的な改変が可能となる。また、タンパク質の機能部位を予測することにより、従来法に比べて、より効率的又は効果的にタンパク質や低分子化合物の新規医薬品を設計するための情報を取得することができる。
産業上の利用分野
以上、本発明の方法は、医農薬の分子設計等を中心に、生物情報の解析を行う分野(バイオインフォマティックス)において極めて有用であると考えられる。単数鎖のアミノ酸配列に適応できる蛋白質自動モデリングシステムの適用範囲を複数鎖から成るタンパク質に拡張すると同時に、リガンド分子、受容体分子或いは酵素等の多様な改変を可能にするものであり、当該発明の有用性の更なる増大が期待される。
本発明は、産業上多くの分野、特に医薬品、食品、化粧品、医療、構造解析等の分野で広く実施することができ、故に極めて有用である。
【配列表】
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282
Figure 0004309282

【図面の簡単な説明】
[図1] 図1は、本発明の説明のために使用するタンパク質の全アミノ酸配列と各鎖C末端残基の通し番号kの関係を示したものである。
全鎖数=M、各kは区切り文字Uより識別する。Nはタンパク質鎖の番号を表す。
[図2] 図2は、ポテンシャル計算式のElen項におけるC末端及びN末端の取り扱い方を図示したものである(Cαの場合のみ)。
[図3] 図3は、ポテンシャル計算式のEang項におけるC末端及びN末端の取り扱い方を図示したものである(Cαの場合のみ)。
[図4] 図4は、ポテンシャル計算式のEvdw項におけるC末端及びN末端の取り扱い方を図示したものである(Cαの場合のみ)。
[図5] 図5は、ポテンシャル計算式のEbond項におけるC末端及びN末端の取り扱い方を図示したものである。
[図6] 図6は、ポテンシャル計算式のEang項におけるC末端及びN末端の取り扱い方を図示したものである。
[図7] 図7は、ポテンシャル計算式のEtor項におけるC末端及びN末端の取り扱い方を図示したものである。
[図8] 図8は、ポテンシャル計算式のEnon−bond項におけるC末端及びN末端の取り扱い方を図示したものである。
[図9] 図9は、本発明による複数鎖から成るタンパク質の立体構造構築法の一例を示すフローチャートである。
[図10] 図10は、目的タンパク質のCα原子座標の構築方法の一例を図示したものである。
アライメントの一致部分は参照タンパク質から取得し、無い部分はN、C両端それぞれ重なった2残基の重ね合わせのrmsdが最小のものをデータベースから取得する(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)。
[図11] 図11は、ローカルスペースホモロジー(LSH)の概念を図示したものである。
例えば、図の円(球)の中心のT残基に関する計算では、灰色の残基で考慮される。アライメントにおける四角で囲った部分が考慮される残基ペアであり、*のマークがあるところとの比率がLSH(この例では56.2%)である(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)。
[図12] 図12は、ローカルスペースホモロジー(LSH)と構造保存部位(SCRs)にある比率との関係を図示したものである。
LSHは目的タンパク質と参照タンパク質とのCα原子の重ね合わせから計算され、SCRsにある比率は目的タンパク質の全残基数に対するSCRs中の残基数を表す(K.Ogata and H.Umeyama,Journal of Molecular Graphics and Modeling 18,258−272,2000参照。)。
[図13] 図13は、実施例1で使用するラット由来の代謝型グルタミン酸受容体タイプIの全アミノ酸配列を示したものである。
[図14] 図14は、図14−1と図14−2で構成され、実施例1において、MGR1_RATとMGR5_RATのアライメント結果を示したものである。
[図15] 図15は、実施例1において、MGR1_RATとMGR5_RATのアライメント結果を示したものである。
1EWTで座標が存在する部分のみ示されている。
[図16] 図16は、実施例1において、従来型FAMSの入力ファイル形式を示したものである。
[図17] 図17は、実施例1において、mGluレセプター Swiss Prot「MGR5_RAT」のモノマーモデルを示したものである。
[図18] 図18は、実施例1において、newFAMSに対する入力ファイル形式を示したものである。
[図19] 図19は、実施例1において、mGluレセプターSwiss Prot「MGR5_RAT」のダイマーモデルを示したものである。
[図20] 図20は、実施例1において、mGluレセプターSwiss Prot「MGR5_RAT」ダイマーモデルの接合面の拡大図である。
[図21] 図21は、実施例2において、1JSQのモノマーのアミノ酸配列を示したものである。
[図22] 図22は、実施例2において、「O93437」とMSBAとのアライメント結果を示したものである。
[図23] 図23は、実施例2において、「O93437」とMSBAの新しいアライメント結果を示したものである。
[図24] 図24は、実施例2において、「O93437」に対するnewFAMSの入力ファイル形式を示したものである。
[図25] 図25は、実施例2において、ABCトランスポーターSwissProt「O93437」のモノマーモデルを示したものである。
[図26] 図26は、実施例2において、ホモダイマーに対してnewFAMSで用いる入力ファイル形式を示したものである。
[図27] 図27は、実施例2において、ABCトランスポーターSwissProt「O93437」のダイマーモデルを示したものである。
[図28] 図28は、実施例2において、ABCトランスポーターSwissProt「O93437」のダイマーモデル接合面を図示したものである。
[図29] 図29は、実施例2において、ABCトランスポーターモデルにおける疎水性領域を図示したものである。
[図30] 図30は、実施例2において、エストラジオールの分子構造を示したものである。
[図31] 図31は、実施例3において、PDB:1JKYのアミノ酸配列を示したものである。
PDB:1JKYはA鎖(LF)とB鎖(MAPKK−の16残基)を有する。
[図32] 図32は、実施例3において、LF中のMAPKK−2を図示している。
尚、Leu−2とAla−3についてはボールアンドスティックモデルを示す。
[図33] 図33は、実施例3において、「LA」から「FF」へのペプチド改変におけるnewFAMSの入力ファイル形式を示したものである。
[図34] 図34は、実施例3において、LF中のMAPKK−2改変体を図示している。
尚、Phe−2とPhe−3についてはボールアンドスティックモデルを示す。
[図35] 図35は、実施例4において、1BTHのH鎖及びP鎖のアミノ酸配列を示したものである。
[図36] 図36は、実施例4において、2PTCのE鎖及びI鎖のアミノ酸配列を示したものである。
[図37] 図37は、実施例4において、1BTHのH鎖と2PTCのE鎖におけるアライメントを図示したものである。
[図38] 図38は、実施例4において、1BTHのP鎖と2PTCのI鎖におけるアライメントを図示したものである。
[図39] 図39は、実施例4において、従来型のFAMSの入力ファイル形式を示したものである。
[図40] 図40は、実施例4において、newFAMSの入力ファイル形式を示したものである。
[図41] 図41は、実施例4において、1BTHのH鎖とP鎖のモデル接合面を図示したものである。
[図42] 図42は、実施例4において、2PTCからモデリングされた1BTH(H鎖とP鎖)モデルと実際にPDBに登録されている1BTH(H鎖とP鎖)の立体構造の重ね合わせを示したものである。
濃い方が実際のX線結晶解析法によるものであり、薄い方が今回モデリングを行ったものである。
[図43] 図43は、実施例5において、立体構造データベースへのインターフェース画面の一例を図示したものである。
3次元座標閲覧可能なモデルの一覧が表示され、右のボタンをクリックすることによりアライメントが表示され、3次元座標を取得できるように構成されている。
[図44] 図44は、配列上分離若しくは大きく間が開いた領域(複数の鎖)同士が空間的に接した立体構造を参照タンパク質に選択して、本発明により立体構造をモデリングした場合と、従来法によりモデリングした場合とを概念的に図示して比較したものである。
図44a:配列上分離若しくは大きく間が開いた領域(複数の鎖)同士が空間的に接した状態の複合体の立体構造を、実験的に決定したもの;図44b:図44aに示した構造を参照タンパク質として従来法によりモデリングしたもの(好ましくないモデル);図44c:図44aに示した構造を参照タンパク質として本発明によりモデリングしたもの(好ましい良いモデル)。

Claims (7)

  1. 与えられた任意のアミノ酸配列を有する単数鎖より成るタンパク質の立体構造を構築するホモロジーモデリング法又はスレッディング法を拡張して(拡張型モデリング法)、与えられた任意のアミノ酸配列を有する複数鎖より成る目的タンパク質の立体構造を、コンピュータが以下のステップを実行することにより構築する方法であって、
    (a)複数鎖を有する目的タンパク質のアミノ酸配列を用意し、用意された各タンパク質鎖のアミノ酸配列に対して、コンピュータが参照タンパク質の立体構造データベースから参照タンパク質を検索し、目的タンパク質と検索した複数の参照タンパク質とのアミノ酸配列アライメントを行うアライメントステップ、
    (b)前記アライメントの結果に基づいて、コンピュータが目的タンパク質の各タンパク質鎖のアミノ酸配列と一致度の高い一つ又は複数の参照タンパク質のアミノ酸配列を選択するステップ、
    (c)目的タンパク質及び選択された参照タンパク質のそれぞれに含まれる各タンパク質鎖のアミノ酸配列のC末端部に区切り文字を付加して擬似単数鎖としての形態を有するように修正する配列アライメントの修正ステップ、及び
    (d)前記修正されたアライメントの情報に基づいて、目的タンパク質主鎖アミノ酸中のCα原子について選択された参照タンパク質の立体構造から座標を取得し、目的関数を最小化するようにCαの原子座標を最適化し、最適化されたCαの原子座標に主鎖の他の原子座標(Cβの原子座標を含む。)を付加して目的関数を最小化するように主鎖の原子座標を最適化し、最適化された主鎖の原子座標に側鎖の他の原子座標を付加し目的関数を最小化するように側鎖の原子座標を最適化するステップ
    を含み、
    前記工程(d)において目的タンパク質の立体構造を構築するための目的関数としてのポテンシャル計算式は、前記修正後の擬似単数鎖から各タンパク質鎖の末端残基番号を判定し、Cα原子座標の構築においてはその境界におけるCα原子間距離ポテンシャル(擬似化学結合ポテンシャル)及びCα原子結合角ポテンシャル(擬似化学結合角ポテンシャル)の切断、並びに当該境界におけるCα原子間ファンデルワールスポテンシャル(原子間相互作用ポテンシャル)の付加を行うことで、主鎖原子座標及び側鎖原子座標の構築においてはその境界における化学結合ポテンシャル、化学結合角ポテンシャル及び化学結合ねじれ角ポテンシャルの切断、並びに当該境界における原子間相互作用ポテンシャルの付加を行うことで、選択された参照タンパク質の立体構造データに基づきCα原子座標、主鎖原子座標及び側鎖原子座標の構築を行い、シミュレーティッドアニーリング法、分子力学計算、及びモンテカルロ法の少なくとも1種により擬似エネルギー値を表す目的関数の最小化(最適化)を行う
    ことを特徴とする複数鎖を有するタンパク質の立体構造構築方法。
  2. 前記工程(a)において、参照タンパク質を検索しアライメントを出力するソフトウエアがFAMS、FASTA、PSI−BLAST、LIBRA、RBS−BLAST、IMPALA、ClustalW、HMMER、及びBIOCESの少なくとも1種である請求項1記載の方法。
  3. 目的タンパク質を構成する複数鎖のうち少なくとも二つの鎖がポリペプチド鎖であり、タンパク質−タンパク質相互の認識部位に位置するアミノ酸残基のそれぞれについて20種類のアミノ酸の可能な組合せに基いて、ポテンシャルエネルギー値を指標として、適合性の優れた、又は劣った改変体のデータセットを作成して、当該少なくとも二つのポリペプチド鎖の各々のタンパク質の機能を上昇させた、又は低下させた立体構造を構築できるようにした請求項1記載の方法。
  4. 目的タンパク質を構成する複数鎖のうち少なくとも一つの鎖がアミノ酸誘導体又はペプチド誘導体(ペプチド性リガンド)であり、かつ参照タンパク質において該当するリガンド分子と類似した化学構造を持つものである場合に、目的タンパク質の当該誘導体を新たな残基名及び1文字コードで定義し、かつ参照タンパク質の当該リガンドを更に新たな残基名及び1文字コードで定義したアライメントを手動的又は自動的に作成して、当該リガンドの配列を構成するそれぞれの残基について20種類のアミノ酸及びその誘導体の可能な組み合わせに基づいて、ポテンシャルエネルギー値が低い順にランク付けした場合の上位複数を、受容体タンパク質の結合部位への適合性の優れた改変体として格納したアミノ酸誘導体又はペプチド誘導体リガンドモデルデータセットを構築できるようにした請求項1記載の方法。
  5. 目的タンパク質を構成する複数鎖の成分の少なくとも一つがペプチド性リガンドであり、当該リガンドのアミノ酸配列を固定し、当該リガンドを認識する部位に位置するアミノ酸残基のそれぞれについて20種類のアミノ酸の可能な組み合わせに基づき、ポテンシャルエネルギー値を指標として、上位複数の受容体タンパク質の結合部位への適合性の優れた改変体のデータセットを作成して、当該リガンドに結合し得る多様なリガンド受容体タンパク質の立体構造を構築できるようにした請求項1記載の方法。
  6. 前記工程(b)において、目的タンパク質の各タンパク質鎖のアミノ酸配列に対してE−valuの小さい参照タンパク質のアミノ酸配列を選択する請求項1記載の方法。
  7. 前記目的タンパク質の立体構造の構築におけるポテンシャル計算式が下記の内容を含む請求項1記載の方法:
    全鎖数=Mのときのポテンシャル計算式については、Nがタンパク質鎖の番号を、kがN番目のタンパク質鎖におけるC末端残基の通し番号をそれぞれ表し、i=1,...,M−1を簡略化して、i=1,M−1と表記するとき、
    (A)Cα原子座標の構築と最適化プロセスにおける計算では、擬似化学結合ポテンシャルのi=kN(N=1,M−1)の場合を含めず、擬似化学結合角ポテンシャルのi=kN(N=1,M−1)、i=kN(N=1,M−1)+1の場合を含めない。また、原子間相互作用ポテンシャルの場合は、i=k−1ならj>i+1、i=kならj>iを各々追加する。
    (B)主鎖原子座標の構築と最適化プロセスにおける計算では、化学結合ポテンシャルにはi=kN(N=1,M−1)のときのCiとNi+1間の結合を含めず、化学結合角ポテンシャルには、C、Oをそれぞれカルボニルの炭素原子と酸素原子、Cαをα炭素原子、Nを窒素原子とするとき、i=kN(N=1,M−1)の角度Cαi−Ci−Ni+1、Oi−Ci−Ni+1及びCi−Ni+1−Cαi+1を含めず、更に、化学結合ねじれ角ポテンシャルには、i=kN(N=1,M−1)のときの角度Ni−Cαi−Ci−Ni+1、Cαi−Ci−Ni+1−Cαi+1、及びCi−Ni+1−Cαi+1−Ci+1を含めない。また、原子間相互作用ポテンシャルには、原子間距離をrとするとき、i=kN(N=1,M−1)の、rij∈{rNi,Ni+1;rCαi,Ni+1;rCαi,Cαi+1;rCi,Ni+1;rCi,Cαi+1;rCi,Cβi+1;rCi,Ci+1;rOi,Ni+1;rOi,Cαi+1}についてrij≦規定値の場合を追加する。
JP2003560791A 2002-01-09 2003-01-08 複数鎖を有するタンパク質の立体構造構築方法 Expired - Fee Related JP4309282B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002002859 2002-01-09
JP2002002859 2002-01-09
PCT/JP2003/000057 WO2003060765A1 (fr) 2002-01-09 2003-01-08 Methode de construction de la stereostructure d'une proteine a plusieurs chaines

Publications (2)

Publication Number Publication Date
JPWO2003060765A1 JPWO2003060765A1 (ja) 2005-05-19
JP4309282B2 true JP4309282B2 (ja) 2009-08-05

Family

ID=19190797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003560791A Expired - Fee Related JP4309282B2 (ja) 2002-01-09 2003-01-08 複数鎖を有するタンパク質の立体構造構築方法

Country Status (5)

Country Link
EP (1) EP1471443B1 (ja)
JP (1) JP4309282B2 (ja)
AT (1) ATE534958T1 (ja)
AU (1) AU2003201908A1 (ja)
WO (1) WO2003060765A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006189984A (ja) * 2004-12-28 2006-07-20 Advance Soft Kk タンパク質の全電子波動関数計算におけるタンパク質立体構造データの前処理法
CN102799795B (zh) * 2011-05-25 2016-08-17 中国医学科学院药用植物研究所 物种移动鉴别系统、终端、服务器及方法
CN109686409B (zh) * 2019-02-01 2020-08-18 华南理工大学 包含可断裂化学键载药胶束的药物释放过程的模拟方法
WO2023139933A1 (ja) * 2022-01-21 2023-07-27 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
CN115497553B (zh) * 2022-09-29 2023-07-14 水木未来(杭州)科技有限公司 蛋白质三维结构建模方法及装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884230A (en) 1993-04-28 1999-03-16 Immunex Corporation Method and system for protein modeling
US7212924B1 (en) * 1997-10-02 2007-05-01 Akiko Itai Method of inferring three-dimensional structure of protein
WO2001035316A2 (en) * 1999-11-10 2001-05-17 Structural Bioinformatics, Inc. Computationally derived protein structures in pharmacogenomics

Also Published As

Publication number Publication date
JPWO2003060765A1 (ja) 2005-05-19
EP1471443A1 (en) 2004-10-27
ATE534958T1 (de) 2011-12-15
AU2003201908A1 (en) 2003-07-30
WO2003060765A1 (fr) 2003-07-24
EP1471443A8 (en) 2005-01-26
EP1471443B1 (en) 2011-11-23
EP1471443A4 (en) 2005-10-05

Similar Documents

Publication Publication Date Title
Wintjens et al. Automatic classification and analysis of αα-turn motifs in proteins
ŠAli et al. Derivation of rules for comparative protein modeling from a database of protein structure alignments
Schmitt et al. A new method to detect related function among proteins independent of sequence and fold homology
Kuhlman et al. Accurate computer-based design of a new backbone conformation in the second turn of protein L
Miller et al. Rearrangement of side-chains in a Zif268 mutant highlights the complexities of zinc finger-DNA recognition
US20130053541A1 (en) Methods for discovering molecules that bind to proteins
CA2347917C (en) Protein engineering
Zhu et al. Origin of a folded repeat protein from an intrinsically disordered ancestor
Edwards et al. Bioinformatics methods to predict protein structure and function: A practical approach
Sommer et al. Structure-guided isoform identification for the human transcriptome
US20190214107A1 (en) Engineering surface epitopes to improve protein crystallization
JP4309282B2 (ja) 複数鎖を有するタンパク質の立体構造構築方法
Jurkowski et al. Conformational subspace in simulation of early‐stage protein folding
JP2006209764A (ja) タンパク質のリガンド結合部位の特定方法およびタンパク質−リガンド複合体の立体構造構築方法
US20030078374A1 (en) Complementary peptide ligands generated from the human genome
US8452542B2 (en) Structure-sequence based analysis for identification of conserved regions in proteins
Tomii et al. Convergent evolution in structural elements of proteins investigated using cross profile analysis
US20050192757A1 (en) Method of constructing teritiary structure of protein composed of plural chains
Masuda et al. Subatomic structure of hyper-sweet thaumatin D21N mutant reveals the importance of flexible conformations for enhanced sweetness
Kretsinger et al. Prediction of protein structure
Pitman et al. Methods for protein homology modelling
Petock et al. Analysis of protein structures reveals regions of rare backbone conformation at functional sites
Rothfuss et al. High-Accuracy Prediction of Stabilizing Surface Mutations to the Three-Helix Bundle, UBA (1), with EmCAST
Durojaye et al. Potential therapeutic target identification in the novel 2019 coronavirus: insight from homology modeling and blind docking study
GB2356401A (en) Method for manipulating protein or DNA sequence data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090428

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090507

R150 Certificate of patent or registration of utility model

Ref document number: 4309282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees