JP2002523057A - タンパク質の機能を予測するための方法およびシステム - Google Patents

タンパク質の機能を予測するための方法およびシステム

Info

Publication number
JP2002523057A
JP2002523057A JP2000566458A JP2000566458A JP2002523057A JP 2002523057 A JP2002523057 A JP 2002523057A JP 2000566458 A JP2000566458 A JP 2000566458A JP 2000566458 A JP2000566458 A JP 2000566458A JP 2002523057 A JP2002523057 A JP 2002523057A
Authority
JP
Japan
Prior art keywords
protein
functional site
functional
descriptor
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000566458A
Other languages
English (en)
Inventor
スコルニック,ジェフリー
フェットロウ,ジャクリーン,エス.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Scripps Research Institute
Original Assignee
Scripps Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Scripps Research Institute filed Critical Scripps Research Institute
Publication of JP2002523057A publication Critical patent/JP2002523057A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2299/00Coordinates from 3D structures of peptides, e.g. proteins or enzymes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Urology & Nephrology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Hematology (AREA)
  • Genetics & Genomics (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Peptides Or Proteins (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

(57)【要約】 本発明は、タンパク質の生物学的機能を予測するための方法およびシステムに関する。本発明は、個別のタンパク質の生物学的機能についての機能部位ディスクリプタの開発をベースとするものである。機能部位ディスクリプタは、三次元空間におけるタンパク質機能部位の幾何学的表現であり、追加のパラメーター、例えばコンホメーション情報も含み得る。機能部位ディスクリプタを開発した後、1種以上の該ディスクリプタ(1種以上の異なる生物学的機能についてのディスクリプタ)を用いてタンパク質構造を調べて、かかる構造が対応する機能部位ディスクリプタによって記述された機能部位を含むかどうかを決定する。含む場合には、該機能部位を含むタンパク質は、対応する生物学的機能を有するものと予測される。好ましい実施形態では、アミノ酸配列から計算法により導き出された不正確なタンパク質構造を機能部位ディスクリプタのライブラリを用いて調べることにより、かかる配列および該配列をコードする遺伝子の生物学的機能を予測する。

Description

【発明の詳細な説明】
【0001】発明の背景 政府の権利 合衆国政府は、NIH許諾番号GM48335に従って資金援助を行ったので、本明細書
中に記載および特許請求されている内容に係る権利の一部を所有し得る。
【0002】1.発明の分野 本発明は、タンパク質の機能を予測するための方法およびシステムに関する。
特に、本発明は、タンパク質の機能を予測するための物質、ソフトウェア、自動
化システム、およびこれらを実装するための方法に関する。タンパク質の機能の
予測には、特定のタンパク質機能に対する機能部位ディスクリプタの使用が含ま
れる。
【0003】2.発明の背景 以下の記載内容には、本発明の理解に有用と思われる情報が含まれている。こ
こに提供されている情報がいずれも本特許の請求範囲に係る発明に対する従来技
術であると認めるものでもなければ、明示的または暗黙的に参照した出版物がい
ずれも該発明に対する従来技術であると認めるものでもない。
【0004】 現代生物学の中心的原理は、遺伝性の遺伝子情報が核酸ゲノム中に存在するこ
とおよびこのような核酸中に組み込まれている情報が細胞の機能を管理するとい
うことである。これは、生物のゲノム中の種々の遺伝子の発現およびこのような
遺伝子の発現の調節を介して行われる。生物中の遺伝子のどのサブセットが特定
の時期に特定の細胞中で発現されるかというパターンによって、表現型が規定さ
れ、そして最終的に細胞および組織のタイプが規定される。遺伝的に最も複雑さ
の少ない生物、すなわち、ウイルスは、10〜50個程度の遺伝子を有しており、増
殖するために他の生物の細胞によって供給される成分を必要とするが、遺伝的に
最も複雑さの少ない独立した生活を営む生物(すなわち、生物が生き残りかつ増
殖するのに必要なすべての情報をコードするゲノムを有している生物)は、400
個を超える遺伝子を有する(例えば、Mycoplasma genitalium)。より複雑な多
細胞生物(例えば、マウスまたはヒト)には、それぞれ1個以上の異なる発現産
物をコードする何万またはそれ以上の遺伝子で構成されていると考えられるゲノ
ムが含まれている。
【0005】 ほとんどの生体ゲノムは、二本鎖DNAで構成されている。ゲノムDNAの各ストラ
ンドは、4種のデオキシリボヌクレオチド塩基、すなわち、A(アデニン)、T(
チミン)、G(グアニン)、およびC(シトシン)の長いポリマーで構成されてい
る。二本鎖DNAは、2本のDNAストランド間の逆(anti)平行の非共有結合性会合に
よって形成される。この会合は、AとTおよびGとCの特異的かつ相補的な対形成に
よりヌクレオチド塩基間に水素結合が形成されることによって媒介される。ゲノ
ムDNAの各遺伝子は、転写によって発現され、その際、遺伝子の一本鎖RNAコピー
が二本鎖DNAから転写される。転写されたRNA鎖は、DNAのコード鎖に相補的であ
る。RNAは、リボヌクレオチド(デオキシリボヌクレオチドではない)で構成さ
れており、そのうちの3種は、DNA中に見いだされる塩基A、G、およびCと同様で
ある。4番目のRNAリボヌクレオチド塩基ウラシル(U)は、DNA中に見いだされる
Tの代わりであり、A塩基と相補的である。多くの遺伝子から転写されたRNAは、
転写に続いて、ポリペプチドに翻訳される。ヌクレオチド塩基の特定の配列によ
って、通常、どのタンパク質を、従ってどの機能を特定の遺伝子がコードするか
が決定される。
【0006】 いくつかの遺伝子は、転写されるが翻訳されない。従って、これらの遺伝子の
最終的な遺伝子産物は、リボソームRNA、小さな核RNA、転移RNA、リボザイム(
すなわち、エンドリボヌクレアーゼ触媒活性を有すRNA分子)などのRNA分子であ
る。しかしながら、ほとんどのRNAはメッセンジャー(mRNA)として機能し、そ
してこれらはポリペプチドに翻訳される。合成時にRNAに取り込まれるリボヌク
レオチドの特定の配列は、その転写のもとになるゲノムDNA中に見いだされる遺
伝子によって規定される。mRNAの翻訳において、特定のヌクレオチド配列によっ
て、それから翻訳されるポリペプチドの特定のアミノ酸配列が決定される。簡潔
に述べると、mRNAのコード領域中(およびその対応する遺伝子中)の各ヌクレオ
チドトリプレットすなわち「コドン」(43すなわち64通りの可能性がある)は、
1種のアミノ酸をコードする。但し、3種のコドンは、アミノ酸をコードしない(
いずれも「停止」翻訳コドンである)。従って、コドンの配列(対応する遺伝子
のヌクレオチド配列によって規定される)は、特定のタンパク質のアミノ酸配列
を指定し、そして最終的にタンパク質の三次元構造を決定するのはアミノ酸配列
である。重要な点として、三次元構造は、タンパク質を含めて、任意の生体分子
の特定の生物学的機能を規定する。
【0007】 上述の図式のエレガントな簡潔さは、生体系に見いだされるゲノムの複雑さお
よびサイズが原因で、不明瞭なものになっている。例えば、単相体ヒトゲノムに
は、23個の染色体全体にわたって約3×109(3兆)個のヌクレオチドが含まれて
いる。しかしながら、現在、このうちの5%未満が、ヒトゲノムによってコードさ
れていると考えられる約80,000〜100,000個の異なるタンパク質コード遺伝子を
コードしているものと推定される。そのサイズが著しく大きいため、今まで、ヒ
トゲノムのごく一部分だけについて配列決定が行われて、ゲノム配列データベー
スに寄託された。そして多くの遺伝子の位置およびそれらの正確なヌクレオチド
配列は不明のままである。更に、これまでのところ、配列決定された遺伝子の多
くは、それがコードする遺伝子産物の生物学的機能が不明のままである。多くの
他の生物のゲノムに関しても、同様な状況が存在する。
【0008】 このような複雑さにもかかわらず、種々の生物のゲノムDNA中に見いだされる
ヌクレオチドの正確な配列を決定すべくデザインされた多くのゲノム配列決定作
業が進行中であり、著しい進歩を遂げている。例えば、ヒトゲノムの完全な配列
を取得して各遺伝子の生化学的機能を決定するという特別な目標をもって、ヒト
・ゲノム・プロジェクトがスタートした。今まで、プロジェクトは、ヒトゲノム
のかなりの部分について配列を決定し(J. Roach, http://weber.u.washington.e
du/〜roach/human_genome_progress2.html) (Gibbs, 1995)、そして近い将来、
その予定された計画を完了する見通しである。少なくとも21種の他のゲノム、例
えば、M. genita1ium (Fraser et al., 1995)、M. jannaschii (Bult et al., 1
996)、H. influenzae (Fleischmann et al., 1995)、E. coil (Blattner et al.
, 1997)、酵母(S. cerevisiae) (Mewes et al., 1997)などについては、既に、
配列が決定されている。また、マウス、C. elegans、およびD. melanogasterの
ようなモデル生物のゲノムの配列決定においても、著しい進歩が見られた。ある
種の機能情報が付加されたゲノム情報を含んでいるいくつかのデータベースが様
々な組織によって管理されており、インターネットを介してアクセス可能である
。例えば、http:/www.tigr.org/tdb、http://www.genetics.wisc.edu、http://g
enome-www.stanford.edu/〜ball、http://hiv-web.lanl.gov、http://www.ncbi.
nlm.nih.gov、http://www.ebi.ac.uk、http://pasteur.fr/other/biology、およ
びhttp://www-genome.wi.mit.eduが利用できる。
【0009】 このような配列決定プロジェクトにより、膨大な量のヌクレオチド配列情報が
生成され、典型的には、ゲノム配列データベースに寄託されている。しかしなが
ら、これらの生データ(その多くは、cDNAレベルの知見にすぎない)は、遺伝子
ならびにタンパク質の構造または機能に関する対応情報が欠如しているため、本
質的にそれら自体では用途が極めて限られる(Koonin, et al. (1998), Curr. Op
in. Struct. Biol., vol. 8:355-363)。従って、このようなゲノム配列データベ
ース中の膨大な数の配列の実際的な利用は、遺伝子ならびに例えば、遺伝子によ
りコードされたタンパク質の機能を識別する能力に依存している。
【0010】 このようなヌクレオチド配列情報を最大限に利用するためには、それを解明し
なければならない。例えば、各配列がゲノム中のどこに位置しているか、配列が
生物学的機能を有する場合、どのような機能をコードしているか、すなわち、配
列の目的は何であるか、あるいは転写される場合(または転写および翻訳される
場合)、生成する産物は生体系中に存在するかを理解することが重要である。例
えば、配列が調節領域であるか、あるいはそれが転写される場合(または転写お
よび翻訳される場合)、遺伝子産物は、他の分子に結合するか、細胞のプロセス
を調節するか、または化学反応を触媒するかを理解することが重要である。
【0011】 これらの質問に答えるために、各ヌクレオチド配列中にコードされている生物
学的機能を理解または説明することに多大な努力が払われた。遺伝子によりコー
ドされる生体分子、特にタンパク質の機能の予測は、ほとんどの場合、既知の構
造との配列比較によって行われる。この手法の基礎となるのは、類似の配列は共
通の先祖を有するはずであり、従って、類似の構造および関連した機能を有する
であろうという一般に受け入れられている概念である。従って、特定のヌクレオ
チド配列が何をコードしているのか、例えば、調節領域、特にタンパク質配列に
対するオープンリーディングフレーム(ORF)、または翻訳されないRNAをコード
しているのかを解析するためのアルゴリズムの開発が行われてきた。例えば、OR
Fを識別するために使用される「Frames」(Genetics Computer Group, Madison,
WI; www.gcg.com)を参照されたい。ORFであることが予測または決定された配
列に対して、当技術分野で周知の単純な分析手段を用いて、それによってコード
されているタンパク質のアミノ酸配列を決定することが可能である。例えば、「
Translate」(Genetics Computer Group, Madison, WI; www.gcg.com)を参照さ
れたい。しかしながら、今までのところ、タンパク質の一次構造が決定されても
、本質的にそれ自体では、タンパク質またはその対応する遺伝子に関する機能情
報は、ほとんど得られず、たとえ得られたとしてもごく僅かである。
【0012】 推定アミノ酸配列についての機能情報を収集する試みがなされ、多くの方法が
開発された。最も一般的な計算法としては、配列アライメントおよび局所配列モ
チーフの解析が挙げられるが、これらの方法では、未知機能の配列と既知機能の
配列との配列類似性の程度による制約を受ける。このほか、配列正体が低下する
と、これらの方法は益々うまく機能しなくなる。他の最近開発された計算法とし
ては、全ゲノム比較(Himme1reich et al., 1997)および遺伝子クラスタリング
解析(Himmeireich et al., 1997; Tamames et al., 1997)が挙げられる。他の
者は、ゲノム全体に基づいてタンパク質の機能を解析する実験的な方法を開発し
た。これらの方法としては、例えば、「二ハイブリッドスクリーン」(Fromont-
Racine et al.,1997)および遺伝子発現パターンの全ゲノムスキャン(Ito & Sa
kaki, 1996)が挙げられる。
【0013】 配列アライメントは、アミノ酸配列からタンパク質の機能を識別する試みの中
で最も一般に使用される方法である。これら方法では、実験配列と機能が既知の
1種以上の配列とのアミノ酸配列正体の程度が計算される。BLAST(Altschul et
al., 1990)、BLITZ(MPsrch)(Sturrock & Collins, 1993)、およびFASTA(P
earson & Lipman, 1988)のようなアライメント法は、典型的には、この目的の
ために利用されている。機能の帰属は、有意な配列正体によって機能的類似性が
かなり予測されるという理論に基づいている(Fitch, 1970?)。
【0014】 しかしながら、タンパク質間の実質的な配列類似性が欠如することが頻繁に起
こるため、これらの方法ではうまくいかないことが多い(Delseny et al., 1997
; Dujon, 1996)。このほか、新たに発見されたアミノ酸またはヌクレオチド配
列は、既知の配列または利用可能な配列のいずれとも一致しないことも多い。実
際に、ゲノム・プロジェクトによって得られたヌクレオチド配列情報から推定さ
れた多くのタンパク質のアミノ酸配列(30〜60%またはそれ以上)は、未知の機
能を有する新規なタンパク質ファミリーであり、それと相同的な配列を確認する
ことができない(Delseny et al., 1997; Dujon, 1996)。更に、このような従
来の配列アライメント法では、特に配列正体が約25〜30%未満の場合、機能的お
よび構造的類似性を首尾一貫して検出することができない。Hobohm & Sander, 1
995。実際上、所定のゲノムの約半分は、これらの二つのカテゴリーのうちの一
つに分類される。すなわち、既知の配列との相同性がまったくないかまたは約25
〜30%未満である。Bork and Koonin (1998), Nature Genet., vol. 18:313-318;
E.V. Koonin (l997), Curr. Biol., vol. 7:R656-R659。40アミノ酸以下の配列
伸長体に対して50%以上の正体で一致することがしばしば偶然に起こり、他の情
報が欠如している場合、このようなタンパク質間の関係を調べるときには注意が
必要であることを理解することもまた重要である(Pearson, 1996)。
【0015】 タンパク質の機能の予測に役立てるべく配列アライメントの利用に伴う問題の
いくつかを克服しようとする試みの中で、いくつかのグループは、タンパク質の
所定の機能または活性の識別に役立つようにデザインされた短い局所配列パター
ン(または「モチーフ」)のデータベースを開発した。これらのデータベース、
特に、「PROSITE」(http://expasy.hcuge.ch/sprot/prosite.html) (Bairoch et
al. 1997, Nucl. Acid Res., vol. 25:31-36)、「Blocks」(http://www.blocks
.fhcrc.org) (Henikoff & Henikoff, 1994, Genomics, vol.19:97-107)、および
「PRINTS」(http://www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html
) (Attwood & Beck, 1994, Nucl. Acids Res., vol. 22:3590-3596)では、所定
の機能に特異的な配列パターンを識別するために、全アミノ酸配列ではなく局所
配列情報(すなわち、いくつかの隣接するアミノ酸残基の配列)が使用される。
【0016】 しかしながら、局所配列特性に基づく機能予測は、配列アライメントアルゴリ
ズムを用いるタンパク質の機能予測をも制限する欠陥による制約を受ける。より
詳細には、タンパク質ファミリー内で配列多様性が増加すると、局所配列特性の
従来のデータベースを用いても、もはや、実験タンパク質配列が機能ファミリー
に属するとして認識できなくなる可能性がある (Fetrow and Skolnick, 1998, J
. Mol. Biol., vol. 281:949-968)。進化に関して関連の薄いタンパク質では、
タンパク質の特定の生物学的機能に必要な残基だけが保存されるであろうと推測
される。この保存には、配列保存が含まれるだけではなく、三次元構造保存も含
まれるであろう(Holm and Sander, 1994, Proteins, vol. 19:165-173)。しかし
ながら、局所配列モチーフは、保存される三次元構造を認識することができない
。モチーフは、単に局所配列を認識することができるにすぎない。従って、局所
配列モチーフは、タンパク質の機能の正確な予測子にはならないと思われる。な
ぜなら、機能は、三次元構造に由来するものだからである。換言すれば、局所配
列モチーフ解析は、機能が非局所残基、すなわち、タンパク質の一次構造の異な
る領域中に配置されているアミノ酸に依存する場合、制約を受ける。
【0017】 タンパク質中の多くの機能部位は非局所残基を含むことが知られている。しか
しながら、タンパク質が三次元構造をとると、その結果として、これらの残基は
機能的会合を形成する。この場合、タンパク質の異なる領域(直鎖状アミノ酸配
列に関して)が集合する可能性がある。例えば、最近、ウレアーゼ(ヌクレオチ
ド代謝に関係しているタンパク質)の三次元構造が、同様にヌクレオチド代謝に
関係しているタンパク質であるアデノシンデアミナーゼおよびホスホトリエステ
ラーゼのものと比較された(Hcilm & Sander, 1997b)。以前の一次元配列比較
では、これらのタンパク質間の関係をまったく検出できなかったが、それらの三
次元構造の比較では、活性部位構造の保存が明らかにされた。これと同じ活性部
位幾何学構造が、後に、全配列および三次構造の更に大きい多様性を呈した他の
ヌクレオチド代謝酵素で観測された(Holm & Sander, 1997b)。もう一つの例で
は、リボヌクレオチドレダクターゼの触媒ドメインの重要なシステイン残基が生
物界の境界を横切って保存されることが明らかにされた(Tauer & Benner, 1997
)。しかしながら、配列アライメント解析では、保存される触媒システイン残基
の非局所的性質が原因で、この関連性は解明されなかった。
【0018】 これらの限界を克服すべく、様々な努力がなされ、例えば、構造的な情報を含
むように局所配列パターンを拡張することが行われた。このような付加的情報を
取り入れる目的は、関連性の薄いタンパク質を検出することおよび真正陽性と偽
陽性とを区別することの両方を目的として、局所配列パターンの能力を改良する
ことである。例えば、Kasuya, A. and Thornton, J.M., J. Mol. Bid., vol. 28
6: 1673-1691 (1999)を参照されたい。他の者は、局所タンパク質配列モチーフ
用として現在存在するデータベースのような3D-鋳型のデータベースを開発すれ
ば、決定される新しいタンパク質構造の機能の識別およびそれらの機能上重要な
領域の正確な位置決めを行うのに役立つ可能性があると考えた。例えば、Wallac
eら (Protein Science, vol. 5:1001-1013 (1996)) は、セリンプロテアーゼお
よびトリアシルグリセロールリパーゼ中の触媒トリアドSer-His-Aspに対する3D
座標鋳型の開発について報告した。最初、これらの著者は 、α-lyitcプロテイ
ナーゼ 1lprに由来する単一「種子」触媒トリアドを選択し(例えば、Bone, et a
l., Biochemistry, vol. 30:10388-10398 (1991)を参照されたい)、SerおよびAs
p側鎖原子すべての座標位置ならびに基準His残基中の原子の位置を決定した。次
に、その時点で原子解像度で構造が明らかにされたセリンプロテアーゼのセット
中のすべてのSerおよびAsp側鎖原子に対する二乗平均距離(RMSD)を決定した。
この解析の結果、各AspおよびSer側鎖中の単一酸素原子の配置が高度に保存され
ることが判明した。これらのデータを使用して、3種のアミノ酸、すなわち、Ser
、His、およびAspの正体、ならびにSerおよびAsp側鎖中の機能性酸素原子および
His側鎖の非水素原子の3D座標位置(RMSDカットオフ2Åまで)からセリンプロテ
アーゼ活性を調べるための3D鋳型が開発された。次に、3D鋳型は、PDB データベ
ースから抜き出した高解像度のタンパク質構造の試験セットに適用された。
【0019】 しかしながら、上述の3D-鋳型法(Barth, et al. (1993) Drug Design and Di
scovery, vol. 10:297-317; Gregory, et al. (1993), Protein Eng., vol. 6,
no.1:29-35; Artymiuk, et al. (1994), J. Mol. Biol., vol. 243:327-344; an
d Fischer, et al. (1994), Protein Sci., vol. 3:769-778をも参照されたい)
の欠点は、鋳型構造および試験タンパク質構造の両方について詳細な知識が必要
になる点である。原子解像度未満の構造および現在のタンパク質構造予測アルゴ
リズムによって生成される不正確なモデルは、これらの方法によって解析するこ
とができない。
【0020】 要約すると、 従来の配列ベースの機能予測方法では、ヌクレオチドまたはア
ミノ酸配列情報からタンパク質の機能を充分に予測することはできない。なぜな
ら、その技法は、配列情報だけに依拠しているからである。従って、タンパク質
の構造および機能を予測するためのより良い方法が依然として必要である。
【0021】 本明細書中で説明および特許請求されている本発明は、配列からタンパク質の
機能を予測するための新規な方法およびシステムを提供することによって、これ
らのニーズに応えるものである。本明細書中で説明および特許請求されている種
々の方法では、配列および構造の情報が使用され、この情報は、タンパク質構造
、特に、計算によりタンパク質または核酸の配列から誘導し得るタンパク質構造
の不正確なモデルに適用される。それらの方法を使用して、本発明者らは、機能
を予測する上で、対象となる特定のタンパク質の全三次元構造を正確に予測する
ことは必要ではないことを見いだした。その代わりに、本明細書中で説明および
特許請求されている方法を用いて生物学的機能を予測するには、調査対象のタン
パク質の特定の機能に関係する領域にある2個以上のアミノ酸残基の近似な三次
元配向だけが必要となる。このようにして、本発明は、配列または構造からタン
パク質の機能を識別する試みにおいて、これまで利用されてきた方法の問題およ
び限界を克服する。当業者には分かるであうが、このような方法は、タンパク質
の機能を予測するために、種々のタンパク質機能部位に対して慣用的に適用する
ことができる。本発明についての更に詳細な説明を以下に記載する。
【0022】3.定義 以下の用語は、本明細書および添付の特許請求の範囲の中で使用される場合、
次の意味を有する。本明細書中で特に定義されていない用語は、それらの技術分
野で受け入れられている意味を有する。
【0023】 本明細書中で使用する場合、「アミノ酸」(図1を参照されたい)とは、中央
の炭素原子(アルファ(α)炭素原子)が、水素原子、カルボン酸基(その炭素
原子は、本明細書中において「カルボキシル炭素原子」と記される)、アミノ基
(その窒素原子は、本明細書中において「アミノ窒素原子」と記される)、およ
び側鎖基Rに連結されている構造を有する分子を指す。ペプチド、ポリペプチド
、またはタンパク質に取り入れられるとき、アミノ酸は、互いにアミノ酸を連結
する脱水反応において、そのアミノ基およびカルボン酸基から1個以上の原子を
失う。その結果、タンパク質に取り入れられた場合、アミノ酸は「アミノ酸残基
」と記される。天然に存在するタンパク質の場合、アミノ酸残基のR基によって
、タンパク質の合成原料となる20種のアミノ酸が区別されるが、タンパク質中の
1個以上のアミノ酸残基は、生体系においてタンパク質中に取り込まれた後、誘
導体化または改変される可能性もある(例えば、グリコシル化によっておよび/
またはシスチン形成によって。シスチン形成は、2個の非隣接システインアミノ
酸残基のチオール側鎖の酸化を介して行われ、結果としてジスルフィド共有結合
が生成する。この結合は、タンパク質の折り畳みコンホメーションなどを安定化
させるのにしばしば重要な役割を果たす。)当業者には分かるであろうが、天然
に存在しないアミノ酸もまたタンパク質中に、特に、固相合成などの合成方法に
よっておよび他の自動化された合成方法によって生成されるタンパク質中に取り
入れられることができる。このようなアミノ酸としは、限定されるものではない
が、例えば、α-アミノイソ酪酸、4-アミノ酪酸、L-アミノ酪酸、6-アミノヘキ
サン酸、2-アミノイソ酪酸、3-アミノプロピオン酸、オルニチン、ノルレンシン
(norlensine)、ノルバリン、ヒドロキシプロリン(hydroxproline)、サルコシン
、シトラリン(citralline)、システイン酸、t-ブチルグリシン(t-butylglyine)
、t-ブチルアラニン、フェニルリシン(phenylylycine)、シクロヘキシルアラニ
ン、β-アラニン、フルオロ-アミノ酸、デザイナーアミノ酸(例えば、β-メチ
ルアミノ酸、α-メチルアミノ酸、Nα-メチルアミノ酸)、およびアミノ酸類似
体全般が挙げられる。このかほ、α−炭素原子が4個の異なる基を有する場合(
タンパク質を合成するために生体系によって使用される20個のアミノ酸の場合。
但し、α炭素原子に結合した2個の水素原子を有するグリシンを除く)、それぞ
れのアミノ酸の2種の異なるエナンチオマー形が存在し、DおよびLと記される。
哺乳動物では、L-アミノ酸だけが天然に存在するポリペプチドに取り入れられる
。もちろん、本発明は、D-またはL-アミノ酸残基だけで構成されているタンパク
質のほかに、1個以上のD- およびL-アミノ酸を含んでいるタンパク質も対象とし
ている。
【0024】 本明細書中において、以下のアミノ酸(およびその残基)に対して、次の略語
を使用することもある。アラニン(Ala、A);アルギニン(Arg、R);アスパラ
ギン(Asn、N);アスパラギン酸(Asp、D);システイン(Cys、C);グリシン
(Gly、G);グルタミン酸(Glu、E);グルタミン(Gln、Q);ヒスチジン(Hi
s、H);イソロイシン(Ile、I);ロイシン(Leu、L);リシン(Lys、K);メ
チオニン(Met、M);フェニルアラニン(Phe、F);プロリン(Pro、P);セリ
ン(Ser、S)トレオニン(Thr、T);トリプトファン(Trp、W);チロシン(Ty
r、Y);およびバリン(Val、V)。無極性(疎水性)アミノ酸としては、アラニ
ン、ロイシン、イソロイシン、バリン、プロリン、フェニルアラニン、トリプト
ファン、およびメチオニンが挙げられる。中性アミノ酸としては、グリシン、セ
リン、トレオニン、システイン、チロシン、アスパラギン(esparagine)、および
グルタミンが挙げられる。正に帯電した(塩基性)アミノ酸としては、アルギニ
ン、リシン、およびヒスチジンが挙げられる。負に帯電した(酸性)アミノ酸と
しては、アスパラギン酸及びグルタミン酸が挙げられる。
【0025】 本明細書中で使用される「β-炭素原子」とは、アミノ酸(又はアミノ酸残基
)のR基中の、そのアミノ酸(又は残基)のα-炭素原子に共有結合した炭素原子
(もし存在すれば)をいう。図1を参照されたい。本発明の目的に対して、グリ
シンは、哺乳動物タンパク質中で見いだされる天然に存在するアミノ酸のうち、
β-炭素原子を含有しない唯一のアミノ酸である。
【0026】 「生体分子」とは、細胞によって産生されて細胞内もしくは生物内に見いださ
れるかまたは細胞中もしくは生物中に導入可能である任意の分子あるいはこのよ
うな分子の任意の誘導体、ならびに生物学的機能を有し得る任意の他の分子を意
味する。生体分子の代表的な例としては、核酸およびタンパク質が挙げられる。
「合成」生体分子は、全体または一部分が1つ以上の合成化学反応を用いて調製
された分子である。
【0027】 「タンパク質」とは、2個以上の各アミノ酸(天然に存在するものであっても
なくてもよい)がペプチド結合を介して連結された任意のポリマーを意味し、ア
ミノ酸(またはアミノ酸残基)のα-炭素に結合されたカルボン酸基のカルボキ
シル炭素原子が、隣接するアミノ酸のα-炭素に結合されたアミノ基のアミノ窒
素原子に共有結合により結合された場合に生成する。図1を参照されたい。これ
らのペプチド結合による連結、およびそれらを構成する原子(すなわち、α-炭
素原子、カルボキシル炭素原子(そしてそれらの置換基酸素原子)ならびにアミ
ノ窒素原子(そしてそれらの置換基水素原子))は、タンパク質の「ポリペプチ
ド骨格」を形成する。最も単純な場合には、ポリペプチド骨格は、タンパク質の
アミノ窒素原子、α-炭素原子、およびカルボキシル炭素原子を指すことになる
と考えられるが、これらの原子の2個以上(それらの置換基原子を含めても含め
なくてもよい)はまた、擬似原子として表すことも可能である。実際上、本明細
書に記載の機能部位ディスクリプタ中で使用可能なポリペプチド骨格を表す任意
の表記は、用語「ポリペプチド骨格」の意味に包含されることは理解されるであ
ろう。
【0028】 用語「タンパク質」には、その意味範囲内に、用語「ポリペプチド」および「
ペプチド」(本明細書中では、適宜、互換的に使用可能である)が包含されるも
のとする。このほか、複数のポリペプチドサブユニット(例えば、 DNA ポリメ
ラーゼ III 、RNAポリメラーゼ II )または他の成分(例えば、テロメラーゼ中
で生じるRNA分子)を含むタンパク質もまた、本明細書中で使用する場合、「タ
ンパク質」の意味範囲内に包含されるものとする。同様に、タンパク質およびポ
リペプチドの断片もまた、本発明の範囲内にあり、本明細書中において「タンパ
ク質」と記されることもある。
【0029】 生体系(細胞が含まれない場合も含めて、in vivo系であってもin vitro系で
あってもよい)において、所定のタンパク質の特定のアミノ酸配列(すなわち、
アミノ末端からカルボキシ末端の方向に記したときのポリペプチドの「一次構造
」)は、mRNAのコード部分のヌクレオチド配列によって決定され、このコード部
分は、遺伝子情報、典型的には、ゲノム DNA(本発明の目的に対して、オルガネ
ラDNA、例えば、ミトコンドリアDNAおよび葉緑体DNAが包含されるものとする)
によって指定される。もちろん、特定の生物のゲノム(例えば、ほとんどの動物
および植物ではの二本鎖DNA、いくつかのウイルスなどでは一本鎖または二本鎖R
NA)を構成するいずれのタイプの核酸も、特定の生物の遺伝子産物をコードして
いるとみなされる。メッセンジャーRNAは、遊離のアミノ酸の重合を触媒するリ
ボソーム上で翻訳される。その特定の正体は、特定のコドン(mRNAの場合、mRNA
のコード領域中の3個の隣接したA、G、C、またはUリボヌクレオチド)によって
指定されており、このコドンが翻訳されて新生ポリペプチドが生じる。組換えDN
A法を用いることにより、生きている生物中で天然で産生されるときと同じ一次
配列を有するポリペプチド(例えば、ヒトインシュリン、ヒト増殖ホルモン、エ
リトロポイエチン、顆粒球コロニー刺激因子など)を大規模に合成することが可
能になった。更に、こうした技術のおかげで、これらのおよび他のタンパク質の
類似体を、天然のタンパク質と比較して1個以上の欠失、挿入、および/または
置換を含有しうる形で合成することが可能になった。また、組換えDNA技術を用
いると、完全に新規なタンパク質を合成することができる。
【0030】 非生体系(例えば、固相合成を利用する系)では、タンパク質の一次構造(ジ
スルフィド(シスチン)結合の位置も含まれる)をユーザーが決定することがで
きる。その結果、タンパク質の類似体を得ることができるので、生物学的に産生
されたタンパク質の一次構造を複製した一次構造を有するポリペプチドを得るこ
とができる。更に、天然に存在しないアミノ酸を含有するタンパク質を合成する
ことができるので、完全に新規なポリペプチドを合成することもできる。
【0031】 タンパク質では、隣接したアミノ酸残基間のペプチド結合は、2つの異なる電
子異性体構造の共鳴ハイブリッドであり、カルボニル炭素(タンパク質中に組み
込まれた後のアミノ酸のカルボン酸基の炭素原子)と次のアミノ酸のα-炭素の
アミノ基の窒素原子との間の結合により、カルボニル炭素は、次のアミノ酸の窒
素原子から約1.33Å離れた位置に配置される。この距離は、二重結合(約1.25Å
)と単結合(約1.45Å)に対して期待される距離のほぼ中間である。この部分的
二重結合特性に起因して、生理的条件下では、この結合を軸とするカルボニル炭
素およびアミノ窒素の自由回転は阻止される。結果として、カルボニル炭素およ
びアミノ窒素に結合した原子は同一平面上に位置して、構造的剛性を有する個別
領域を形成するため、タンパク質中におけるコンホメーションの予測が可能とな
る。
【0032】 ペプチド結合を越えた先では、各アミノ酸残基は、ポリペプチド鎖に2つの追
加の単共有結合を提供する。ペプチド結合は、隣接するアミノ酸のカルボニル炭
素とアミノ窒素の回転の自由度を制限するが、各残基の単結合(各アミノ酸のα
-炭素とカルボニル炭素との間(ファイ(φ)結合)およびα-炭素とアミノ窒素
との間(プサイ(ψ)結合))は、より大きな回転の自由度を有する。例えば、特
定の共通した規則的二次構造に対するφおよびψ結合に対する回転角を、以下の
表に列挙する。
【0033】 へリックスのピッチとは、へリックス軸に平行に引いた線を軸とする反復回転
間距離を意味する。他の二次構造に関連付けられる結合角は、当技術分野で周知
であるか、または標準的な方法を用いて実験的に測定可能である。
【0034】 同様に、α-炭素とそれに結合したR-基との単結合も、回転の自由度が制限さ
れる。このように構造に柔軟性があるため、全体を合わせたとき、ポリペプチド
中の所定の領域において、いくつかのコンホメーションをとることが可能になる
。以下でより詳細に説明するが、実際に生じる特定のコンホメーションは、熱力
学的な影響を受け、最低エネルギーのコンホメーションが優勢となる。
【0035】 一次構造のほかに、タンパク質は、二次構造、三次構造を有し、更に、マチル
サブユニットのタンパク質では、四次構造を有する。二次構造とは、共有結合に
より連結されたペプチド結合原子およびタンパク質のアミノ酸を線状に結びつけ
ているα-炭素連結に基づくポリペプチド鎖の局所的コンホメーションを意味す
る。側鎖の基は、典型的には、このような記述に含めない。二次構造の代表的な
例としては、αへリックス、平行および逆平行β構造、ならびに構造モチーフ、
例えば、へリックス・ターン・ヘリックス、β−α−β、ロイシンジッパー、ジ
ンクフィンガー、β-バレル、および免疫グロブリンフォールドが挙げられる。
このようなドメインの相互の相対的な運動は、しばしば、生物学的機能に関連し
、2つ以上の機能を有するタンパク質の場合、異なる結合部位またはエフェクタ
ー部位が異なるドメインに位置する可能性がある。三次構造は、タンパク質の三
次元構造全体に関連し、具体的には、アミノ酸側鎖の空間的関係およびタンパク
質の異なる領域の幾何学的関係が挙げられる。四次構造は、 マルチサブユニッ
トのタンパク質中の異なるポリペプチドサブユニットの構造および非共有結合性
会合に関連する。
【0036】 「機能部位」とは、機能を有するタンパク質中の任意の部位を意味する。代表的
な例としては、活性部位(すなわち、触媒タンパク質中で触媒作用が起こる部位
)、タンパク質-タンパク質相互作用部位、化学修飾のための部位(例えば、グ
リコシル化部位およびリン酸化部位)、ならびにリガンド結合部位が挙げられる
。リガンド結合部位としては、限定されるものではないが、金属結合部位、補因
子結合部位、抗原結合部位、基質チャネル及びトンネル(tunnels)並びに基質結
合部位が挙げられる。酵素では、基質結合部位であるリガンド結合部位は活性部
位であってもよい。
【0037】 「擬似原子」とは、タンパク質またはアミノ酸中の2個以上の原子の平均(ま
たは重量平均)位置を、三次元空間内の位置(典型的には、x、y、およびz座標
のセットによって表される)として表したものである。擬似原子の代表的な例と
しては、アミノ酸側鎖の質量中心、ならびにα-炭素原子およびそれに結合した
カルボキシル原子の質量中心(または、その代わりの平均位置)が挙げられる。
【0038】 「縮小モデル(reduced model)」とは、タンパク質中の重い原子(例えば、炭
素、酸素、窒素および硫黄の原子)の全数よりも少ない数で表されるタンパク質
の三次元構造モデルを意味する。例えば、縮小モデルは、タンパク質のα-炭素
原子だけからなる場合もある。この場合には、各アミノ酸は、仮想的な結合によ
って後続のアミノ酸に連結される。縮小タンパク質モデルの他の例としては、各
アミノ酸のα−炭素原子と側鎖質量中心だけで表されるモデル、またはポリペプ
チド骨格だけで表されるモデルが挙げられる。
【0039】 「幾何学的制約条件(geometric constraint)」とは、原子または原子群(例え
ば、アミノ酸、アミノ酸のR基、アミノ酸のR基の質量中心、擬似原子など)の空
間的表現を意味する。従って、このような制約条件は、三次元の座標によって表
すことができ、例えば、x、y、およびz座標(すなわち、座標のセット)に従っ
てある位置またはある範囲の位置を有するものとして表される。このほか、幾何
学的制約条件は、特定の原子(または原子群)と1個以上の他の原子(または原
子群)との距離または距離範囲として表すこともできる。また、幾何学的制約条
件は、種々のタイプの角度によって表すこともでき、アミノ酸残基中の原子間の
結合角(特に、共有結合、例えば、Φ結合およびΨ結合)、異なるアミノ酸残基
中の原子間の結合角、およびタンパク質のアミノ酸残基中の原子と他の分子、例
えば、リガンドとの結合角が挙げられ、それぞれの角度に対して範囲をもたせる
ことが好ましい。
【0040】 「コンホメーション制約条件(conformational constraint)」とは、特定のタ
ンパク質コンホメーションの存在を意味し、例えば、α-へリックス、平行およ
び逆平行β鎖、ロイシンジッパー、ジンクフィンガーなどの存在が挙げられる。
更に、 コンホメーション制約条件には、追加の構造的情報なしでアミノ酸配列
情報が含まれていもよい。一例を挙げると、「−C-X-X-C-」は、2個のシステイ
ン残基が2個の他のアミノ酸残基によって分離されなくてはならず、これらの他
のアミノ酸残基の各正体は、この特定の制約条件には関与しないことを示すコン
ホメーション制約条件である。
【0041】 「正体(identity)制約条件」とは、タンパク質中の特定の位置におけるアミノ
酸残基の正体を示す機能部位ディスクリプタの制約条件を意味する。(タンパク
質中のアミノ酸残基の数を、そのアミノ末端から対象の残基までその対象の残基
を含めて数えることによって決定される)。当業者には分かるであろうが、関連
するタンパク質間の比較を行うことによって、タンパク質中の所定のアミノ酸位
置における特定のアミノ酸残基の正体が完全に保存されないことが明らかになる
こともある。すなわち、異なるアミノ酸残基が、関連するタンパク質中の特定の
アミノ酸位置に存在することもある。このような場合、あるいは、その代わりに
当業者が制約条件を緩和することを望む場合、2個以上の代替アミノ酸残基正体
を、機能部位ディスクリプタの特定の正体制約条件に利用することができる。も
ちろん、このような場合、特定の生物学的機能に対して異なる機能部位ディスク
リプタを利用することも本発明の対象になる。これらのディスクリプタは、対応
する位置に対して異なるアミノ酸残基正体(または正体のセット)を利用すると
いう点が異なっている。例えば、関連するタンパク質が機能部位中の特定の位置
で2個のアミノ酸残基のうちの一方を有することが配列アライメントによって明
らかになった場合、それに対する単一の機能部位ディスクリプタによって、二つ
の選択肢のうちのいずれかであるかを特定することが可能である。このほか、そ
の位置における正体制約条件だけが異なる二つの異なる機能部位ディスクリプタ
を生成することも可能である。本発明に係る機能部位ディスクリプタで使用され
る他の制約条件に関しても、類似のストラテジーを利用することができる。
【0042】 制約条件を「緩和」するとは、その内部にユーザーによって定義された変数を
含めることを指す。緩和の程度は、特定の制約条件およびその適用により変化す
る。当業者には理解される通り、同一の生物学的機能についての機能部位ディス
クリプタを開発することができ、そこにおいては、1以上の制約条件についての
緩和の異なる程度が、1つのかかるディスクリプタを他から区別するものである
【0043】 本発明の実施に有用なタンパク質構造は、異なる品質のものであり得る。最高
品質の測定方法は、X線結晶構造解析およびNMR分光法に基づく実験的構造予測法
である。X線結晶構造解析において、「高解像度」構造とは、原子の位置が、約2
Åまたはそれ以下の解像度で測定され、かつタンパク質の各原子(または各非水
素原子)の3次元的位置決めの決定を可能にする構造である。「中解像度」構造
とは、原子の位置決めが、約2〜4Åレベルで測定されるものであり、一方「低解
像度」構造は、原子の位置決めが約4〜8Å範囲で測定されるものである。本明細
書中では、X線結晶構造解析またはNMRで測定されたタンパク質構造は、コンピュ
ータを使用した方法によって決定されたもの、すなわちタンパク質構造を予測す
るために、1次アミノ酸配列に、1以上のコンピューターアルゴリズムを適用す
ることにより導き出されたものに対して、「実験的構造」を指すものである。
【0044】 上述したように、タンパク質構造はまた、ホモロジーモデリング、スレッディ
ング、ab initio法を含むがこれらに限定されない、コンピューター計算法によ
って、完全に決定することができる。しばしばこのような、コンピューター計算
法によって得られたモデルは、「縮小型(reduced)」モデルであり、すなわち、
予測構造(または「モデル」)はタンパク質中の非水素原子全てを含むとは限ら
ない。実際、多くの縮小型モデルはタンパク質のポリペプチド骨格を示す構造を
予測するに過ぎず、このようなモデルは本発明の実施において好適である。もち
ろん、縮小型モデルに基づくタンパク質構造が一旦作成されれば、その全てまた
は一部をさらに改善して、最終的には全ての原子位置を含む追加的な予測詳細情
報を組み入れることができることは理解されよう。
【0045】 コンピューターによる方法は、通常、実験的方法よりも品質の低い構造を与え
るので、コンピューターを用いた方法により作成されたモデルは、よく「不正確
なモデル」と呼ばれる。本発明の方法を実施するためには必要ではないが、これ
らの予測モデルの精度は、構造がすでに知られている一連の基準タンパク質を用
いて決定することができる。各生体分子についての予測モデルを、続いて、対応
する実験的に決定された構造と比較すればよい。予測モデルと実験的に決定され
た構造との間の差異は、「根平均二乗偏差」(RMSD)と呼ばれる尺度で定量化され
る。対応する実験的に決定された構造と比べて約2.0オングストローム以下のRMS
Dを有するモデルを、「高い品質」とした。予測モデルは、1以上の実験的に決
定された構造と比べて約2.0〜約6.0オングストロームのRMSDを有することがよく
あり、これらは「不正確なモデル」と呼ばれる。また同一のタンパク質に対して
実験的に決定された構造が2つ以上作成されている場合、1以上の原子位置に対
してRMSDを決定することがあることは、当業者であれば理解されよう。
【0046】発明の概要 本発明は、タンパク質の1種以上の機能を、構造情報、例えば、推定アミノ酸
配列(例えばゲノム塩基配列決定プロジェクトで得られた新規遺伝子のヌクレオ
チド配列から導き出され得るアミノ酸配列)から作成される、計算により導出さ
れたタンパク質構造のモデル(不正確なモデルを含む)から予測することを可能
にすることである。
【0047】 本発明は、多数の目的、態様、および実施形態を含む。
【0048】 本発明の1つの態様は、特定の生物学的機能に対応するタンパク質機能部位に
ついての空間的配置を定義する機能部位ディスクリプタ(functional site descr
iptor, FSD)に関する。機能は、構造に由来するものであることが知られている
。本発明の機能部位ディスクリプタは、タンパク質機能部位の三次元表現をもた
らす。いくつかの実施形態においては、FSDにより表現される機能部位はリガン
ド結合ドメイン(例えば、リガンド、例えば基質、補因子または抗原に結合する
ドメイン)であるが、別の実施形態においては、機能部位はタンパク質−タンパ
ク質相互作用部位またはドメインである。特定の好ましい実施形態においては、
機能部位は酵素活性部位である。特に好ましい実施形態は、2価金属イオン結合
部位以外の機能部位に関する。
【0049】 機能部位ディスクリプタは、タンパク質の機能部位を構成する2個以上のアミ
ノ酸残基の各アミノ酸残基に含まれる1個以上の原子についての幾何学的制約条
件のセットを典型的に含んでいる。好ましくは、該2個以上のアミノ酸残基の少
なくとも1個はまた、特定のアミノ酸残基またはアミノ酸残基のセットとして同
定される。特に好ましい実施形態においては、該1個以上の原子は、ポリペプチ
ド骨格内のアミド窒素、α-炭素、カルボニル炭素、およびカルボニル酸素、ア
ミノ酸残基のβ-炭素、ならびに疑似原子からなる群より選択される。特に好ま
しい実施形態においては、該1個以上の原子の少なくとも1個は、ポリペプチド
骨格内のアミド窒素、α-炭素、β-炭素、またはカルボニル酸素である。
【0050】 特定の実施形態においては、機能部位ディスクリプタは、対応する機能部位を
構成する、3、4、5、6、7、8、9、10、11、12、13、14、または15個のア
ミノ酸残基(または残基のセット)を表現する。FSDは、任意のアミノ酸に関す
る1種以上の正体制約条件を含み得るが、かかる制約条件は、好ましくは、天然
アミノ酸、特に天然Lアミノ酸、例えばAla、Arg、Asn、Asp、Cys、Gln、Glu、Gl
y、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr、およびValから
なる群より選択されるアミノ酸に関するものである。
【0051】 FSDの幾何学的制約条件は、好ましくは、三次元座標のセットにより特定され
た原子位置、原子間の距離(または原子間距離の範囲(range))および原子間の
結合角(または原子間結合角の範囲(range))からなる群より選択される。幾何
学的制約条件が原子位置に関するものである場合、典型的には三次元座標のセッ
トに関するものである。そのような制約条件は、好ましくは、RMSDに関連してお
り、特に予め選択されたRMSD内、例えば約3Å以下、約2.5Å以下、約2.0Å以下
、約1.5Å以下、約1Å以下で原子位置の変動を可能にするものに関連している
【0052】 その他の幾何学的制約条件は、原子間距離、好ましくは原子間距離範囲、また
は原子間結合角、好ましくは原子間結合角範囲に関するものである。
【0053】 いくつかの実施形態においては、FSDは、特定の二次構造、例えばヘリックス
の存在または位置(例えば、タンパク質のアミノ末端またはカルボキシ末端付近
など)に関する1種以上のコンホメーションの制約条件も含み得る。
【0054】 好ましい実施形態においては、FSDは、対応する機能部位を構成する4、5、
6、7、8、9、10、11、12、13、14、または15個のアミノ酸残基の各アミノ酸
残基に由来する少なくとも1個の原子に関するものである。多くの実施形態にお
いては、幾何学的制約条件が付与される原子は全て、ポリペプチド骨格の一部を
構成しており、α-炭素、アミド窒素、カルボニル炭素およびカルボニル酸素か
らなる群より選択される。もちろん、かかる原子の1個以上が疑似原子であって
もよい。疑似原子の代表例は質量中心であり、例えば、タンパク質の1個のアミ
ノ酸残基に由来する2個以上の原子、またはタンパク質の少なくとも2個のアミ
ノ酸残基に由来する2個以上の原子のような、少なくとも2個の原子から誘導さ
れる得る。
【0055】 特に好ましいFSDは、多数の幾何学的制約条件を含むものである。そのようなF
SDの代表例は、3原子機能部位ディスクリプタ、4原子機能部位ディスクリプタ
、5原子機能部位ディスクリプタ、6原子機能部位ディスクリプタ、7原子機能
部位ディスクリプタ、8原子機能部位ディスクリプタ、9原子機能部位ディスク
リプタ、10原子機能部位ディスクリプタ、11原子機能部位ディスクリプタ、12原
子機能部位ディスクリプタ、13原子機能部位ディスクリプタ、14原子機能部位デ
ィスクリプタ、および15原子機能部位ディスクリプタである。
【0056】 本発明のFSDは、好ましくは、電子的な形態で実装される。
【0057】 本発明の特定の実施形態は、電子的またはその他の形態のFSDのライブラリに
関する。好ましくは、かかるライブラリは、該ライブラリにより表現される生物
学的機能の少なくとも1種に対して少なくとも2種の機能部位ディスクリプタを
含む。
【0058】 本発明の別の態様は、タンパク質を、特定の生物学的機能を有するものとして
同定する方法に関する。かかる方法は、機能スクリーニング法とも呼ばれ得る。
この方法は、典型的に、本発明の機能部位ディスクリプタを、タンパク質の構造
に適用し、該タンパク質が生物学的機能を有するかどうかを決定することを含ん
でいる。かかる決定は、機能部位ディスクリプタの適用によってタンパク質の構
造の一部が該機能部位ディスクリプタの制約条件に一致するか、該条件を満足す
ることが判明した場合になされる。
【0059】 かかる方法のいくつかの実施形態においては、1種以上のFSDが適用される構
造は、高解像度構造である。高解像度構造は、種々の方法、例えばX線結晶構造
解析法および核磁気共鳴法により得られ得る。
【0060】 好ましい実施形態は、1種以上のFSDを、予測タンパク質構造、特に不正確な
三次元構造タンパク質モデルに適用することを含む。そのようなモデルは、種々
の技術、例えばアブイニシオフォールディングプログラム、スレッディングプロ
グラムまたはホモロジーモデリングプログラムの適用によって作成され得る。
【0061】 FSDは、あらゆる生物(原核生物であっても真核生物であってもよい)に由来
するタンパク質構造に適用することができる。本発明にしたがってそのタンパク
質がスクリーニングされ得る原核生物としては、細菌が挙げられる。真核生物と
しては、植物および動物、特に医学または農業上重要なものが挙げられる。代表
的なクラスは、ウシ、イヌ、ウマ、ネコ、ヒツジ、ブタなど、霊長類、特にヒト
のような哺乳動物である。また本発明の方法をウイルスタンパク質の機能の研究
に適用することもできる。
【0062】 特定の実施形態においては、本発明の方法は、複数の機能部位ディスクリプタ
を、同一または異なるタンパク質の複数のタンパク質構造、好ましくは複数のタ
ンパク質についての複数の構造に用いることにより行われる。
【0063】 本発明の別の態様は、タンパク質の機能部位(2価金属イオン結合部位以外の
機能部位)についてのFSDを作成する方法に関する。その後、作成されたFSDを、
不正確な三次元構造タンパク質モデルに適用することができる。
【0064】 さらに別の態様は、タンパク質の生物学的機能の予測に使用する機能部位ディ
スクリプタを作成するためのコンピュータプログラムロジックが記録されたコン
ピュータ使用可能媒体を含むコンピュータプログラム製品に関する。このコンピ
ュータプログラムロジックは、好ましくは、タンパク質の生物学的機能に関連し
た機能部位についての幾何学的制約条件のセットを決定する作業;該幾何学的制
約条件のセット中の幾何学的条件を1種以上変更して、変更された幾何学的制約
条件のセットを作成する作業;該変更された幾何学的制約条件のセットを、該生
物学的機能と相関した機能部位のデータセットと比較して、該変更された幾何学
的制約条件のセットが該生物学的機能と相関した機能部位のデータセットよりも
優れているかどうかを決定する作業;ならびに、優れている場合には、該変更さ
れた幾何学的制約条件のセットを該生物学的機能と相関していない機能部位のデ
ータセットと比較して、該変更された幾何学的制約条件のセットが該生物学的機
能と相関していない機能部位のデータセットよりも優れているかどうかを決定す
る作業;ならびに、優れている場合には、該変更された幾何学的制約条件のセッ
トが、該生物学的機能と相関していないデータセットを包含することなく、該生
物学的機能と相関した機能部位の所定量のデータセットと比べて優位になる程度
に、上記変更および比較作業を繰り返して該幾何学的制約条件のセットの該幾何
学的制約条件を1種以上変更する作業などの一連の作業を実行するように構成さ
れたコンピュータプログラムコードロジックを含む。
【0065】 好ましい実施形態においては、タンパク質の生物学的機能と相関した機能部位
の幾何学的制約条件のセットを決定する作業は、所定の幾何学的制約条件のデー
タセット群の少なくとも1種またはユーザー入力から該幾何学的制約条件のセッ
トを受け取ることを含む。該幾何学的制約条件のセット中の幾何学的制約条件を
1種以上変更して変更された幾何学的制約条件のセットを作成する場合、所定の
分散を、幾何学的制約条件の1種以上に関連付けてそれを調整することができる
【0066】 好ましい実施形態においては、該幾何学的制約条件のセットの幾何学的制約条
件を1種以上変更して変更された幾何学的制約条件のセットを作成する作業が、 該生物学的機能と相関する機能部位を有する2つの異なるタンパク質に由来す
る該幾何学的制約条件についての値を決定することによって、幾何学的制約条件
のセット内の幾何学的制約条件についての平均値を計算、すなわち算出すること
;かかる幾何学的制約条件に関する標準偏差を計算すること;ならびに該計算さ
れた標準偏差に乗数をかけて該変更された幾何学的配置を作成すること、を含む
【0067】 本発明のさらなる特徴および利点は、以下の本発明の好ましい実施形態の説明
および特許請求の範囲から明らかであろう。
【0068】詳細な説明 本発明によれば、特定の生物学的機能を有する生物学的分子機能部位について
、1つ以上の機能部位ディスクリプタ、好ましくは緩和型機能部位ディスクリプ
タを開発することができる。このようなディスクリプタのライブラリー(好まし
くは電子回路の形態で実装されたもの)を使用して、1つ以上のタンパク質構造
における機能部位ディスクリプタに関連する活性または機能についてプロービン
グまたは評価できる。有利なことに、このようなタンパク質構造は、不正確な構
造モデルとして表されることがある。そのため、本発明は多くの用途を有してい
る。例えば、本発明を使用して、1つ以上のタンパク質における新規の機能につ
いて同定またはスクリーニングしたり、既に同定または推測されているタンパク
質の機能を確認したり、タンパク質における特定の機能部位についてさらなる情
報を得たりできる。このような追加の情報としては、特定の活性部位残基、基質
特異性、または調節プロセスについての情報が挙げられるがこれらに限定されな
い。
【0069】 「機能部位ディスクリプタ」と称するタンパク質機能部位のディスクリプタは、
原子または分子幾何学的配置、および残基同一性など(ただしこれらに限定され
ない) を含む様々な制約条件(または「パラメーター」)に基づいて定義される。こ
のようなパラメーターは、既知の高解像度の構造のタンパク質の機能部位に由来
することが好ましい。つまり、本発明のディスクリプタは、実験により決定した
構造からだけではなく、重要なことに、予測された構造(例えば、アブイニシオ(
ab initio)フォールディング(folding)アルゴリズム、スレッディング(threadin
g)アルゴリズム、ホモロジーモデリングアルゴリズム、またはその他のタンパク
質構造予測アルゴリズムにより予測される不正確なタンパク質モデルなど)から
も機能部位を同定することを可能にする。
【0070】 機能部位ディスクリプタ 機能部位ディスクリプタは、生物学的機能に対応するタンパク質機能部位につ
いての空間的配置を定義する。本発明の機能部位ディスクリプタは、少なくとも
2つの原子または原子団からなる空間的表現または配置を最小限含む。例えば、
機能部位ディスクリプタは、特定の酵素により行われる触媒に関与することが知
られているかまたは推定される2つのアミノ酸残基のα炭素原子の間の原子間距
離、または好ましくは、その原子間距離の範囲を使用して作成してもよい。ある
いはまた、このような配置を、x、yおよびz座標を使用して三次元で表現して
、特定の原子についての他の機能的に重要な残基を基準として場合の位置または
位置の範囲を同定できる。
【0071】 それぞれの機能的に重要なアミノ酸残基の正体、原子もしくは擬似原子の間の
距離(または距離の範囲)、座標セット、またはその他のパラメーターで、特定の
機能部位ディスクリプタに関する制約条件が表される。機能部位ディスクリプタ
は、2つ以上の幾何学的制約条件のセットに加えて、1つ以上の正体制約条件(
例えば、タンパク質の特定の位置に位置するまたは位置すると予測される特定の
アミノ酸残基(またはアミノ酸残基のセット)の正体)を含むことが好ましい。当
業者は理解するであろうが、特定の機能部位ディスクリプタについて他の情報(
例えば、結合角(または結合角の範囲)に関する情報、二次構造情報、アミノ酸配
列など)が含まれてもよい。上記または他の情報が、特定の機能部位ディスクリ
プタに含まれるか否か、またどの程度含まれるかは、特定の状況に応じて当業者
の裁量で決定できる。
【0072】 本明細書によれば、様々な機能部位ディスクリプタを開発することができ、そ
れらを様々な用途に使用できる(そのうち一部は本明細書に記載しており、その
他は本明細書を参照すれば当業者には明らかなものである)。特定の好適な実施
形態では、特定の機能部位ディスクリプタに対応する機能部位の少なくとも一部
を含むと同定された2つ以上のアミノ酸残基のそれぞれの1つ以上の原子または
擬似原子に対してRMSDを使用する。別の好適な実施形態では、異なるアミノ酸残
基の原子(または擬似原子)の間の原子間距離(特に距離範囲)を、幾何学的制約条
件として使用する。例えば、特定の機能部位の一部を含むと同定された2つ以上
のアミノ酸残基の1つ以上の原子(例えば、α炭素原子、α炭素原子とβ炭素原
子、およびα炭素原子と側鎖質量中心を表す擬似原子)の間の距離を、幾何学的
制約条件として使用できる。別の実施形態では、機能部位ディスクリプタは、幾
何学的制約条件を組み合わせたものを含む。その内一部はRMSDに基づき、残りは
原子間距離の範囲を指定する。実際、所与の機能部位ディスクリプタの制約条件
の特定の構成は当業者の裁量に任されている。さらに、異なる制約条件を含む複
数の(すなわち2つ以上の)機能部位ディスクリプタを、同じ機能について開発し
て、それらを組み合わせて使用するか、代替的に使用するか、あるいはそれらに
何らかの変更を加えて、本発明の一部の方法を実施できる。
【0073】 酵素タンパク質の活性部位に対する機能部位ディスクリプタに関して、機能部
位ディスクリプタは以下のように作成できる。例えば、少なくとも2つ、好まし
くは3つ以上(例えば、3、4、5、6、7、8、9、10、11、12、13、14、15
、16、17、18、19または20個)のアミノ酸残基位置において、ならびに酵素の触
媒活性または活性部位の維持に関与することが知られているかまたは推測される
位置にあるアミノ酸残基において同定することが好ましい。鍵となる位置および
残基を同定 (各アミノ酸残基について、それぞれの「残基正体制約条件」) した後
は、特定の触媒活性を有することが知られている少なくとも1つ、好ましくは2
、3、4、5以上のタンパク質の三次元構造におけるそれらの位置を決定する。
もちろん、その他の活性部位残基をこのプロセスにおいて使用してもよいが、触
媒または構造的に保存された残基を使用することが好ましい。なぜならそれらは
、進化的道のり(evolutionary distances)を通じて保存される傾向があるからで
ある。
【0074】 機能部位ディスクリプタにおいて、特定の鍵となるアミノ酸残基の位置付け(
つまり正体) (これらはそれぞれ正体制約条件であり、そのうちの少なくとも1
つが最後に機能部位ディスクリプタにおいて使用される) を決定した後は、ディ
スクリプタの他の位置の少なくとも1つ、好ましくは全てとそれぞれ関係付ける
幾何学的制約条件のセットを開発する。当業者は理解するであろうが、このよう
な残基の位置が、同じ触媒活性を有する2つ以上の異なるタンパク質で同定され
た場合、これらの残基の位置、特にこれらの残基の原子(または擬似原子)の位置
は、複雑な構造固有の原子および分子移動によりわずかに変化することが多い。
このような変化は、RMSDとして表される幾何学的制約条件として表すことができ
る。RMSDは、x、yおよびz座標の1つ以上の特定の範囲内にある特定の原子ま
たは擬似原子の三次元的な位置を規定する。本発明を実施する上で有用なRSMDは
、約10Å以下である場合が最も多く、好ましくは約5Å以下、より好ましくは約
3Å以下、さらに好ましくは約2.5Å〜約0.5Å以下である。約0.1Åと小さいRSM
Dを使用することができるが、あまり好ましくない。
【0075】 本発明の別の実施形態では、機能部位ディスクリプタの原子または擬似原子の
空間的表現を定義するために使用する幾何学的制約条件は、互いに関係する鍵と
なるアミノ酸残基の1つ以上の原子間の距離を利用する。例えば、2つのα炭素
原子間の距離制約条件は、典型的に、2つの原子間の平均距離およびそのような
距離の標準偏差を含む。好ましい実施形態では、特定の空間的または幾何学的制
約条件のための距離の範囲が最大化されるが、所望の機能部位の同定に対する特
異性が維持される程度までの最大化であることが好ましい。実際には、ほとんど
の場合に、特定の距離についての標準偏差またはその他の幾何学的制約条件は、
倍数により大きくできることが分かっている。好ましい実施形態では、増分が0.
1である0.5〜10からなる群より選択される、ユーザー定義の予備選択された倍数
を、機能部位ディスクリプタの1つ以上の幾何学的制約条件に適用することがで
きる。
【0076】 さらに、距離およびその他の空間的または幾何学的制約条件を、範囲 (すなわ
ち、RMSD、または2つの原子、分子、残基、側鎖もしくはその他の座標空間的位
置の間の最短許容距離および最長許容距離)で表すことが好ましい。
【0077】 例えば、酵素の活性部位についての機能部位ディスクリプタは、1つ、好まし
くは2つ、3つ以上の一次残基正体制約条件(例えば、酵素の触媒機能において
役割をもつ3つのアミノ酸の許容された正体)を含むかもしれない。このような
ディスクリプタは、少なくとも3つの距離制約条件、すなわち一次残基正体制約
条件を含む、3つのアミノ酸の間の距離範囲からなってもよい。
【0078】 さらなる機能部位選択性および特異性を得ることが必要または望ましい場合、
別の距離および/または残基同定制約条件を使用してもよい。例えば、2〜約50
以上の幾何学的制約条件を含む機能部位ディスクリプタを、特定の生物学的機能
について開発できる。多くの実施形態において、機能部位ディスクリプタにおけ
る幾何学的制約条件の数は、約4〜25、多くの場合5〜20である。たとえば、生
物学的機能と相関する酵素活性部位についてのいわゆる「9距離」制約条件セット
を、3つの一次残基正体制約条件と合わせて採用できる(例えば、図5に図示さ
れている)。この例の場合、機能部位ディスクリプタは、一次残基正体制約条件(
3つの距離制約条件)を構成する3つのアミノ酸のα炭素原子の間の距離範囲、
および6つの別の距離範囲を含む。3つの一次残基は、幾何学的制約条件のため
にA、BおよびCと名づける。追加の距離範囲は、図5に示すように、一次配列
に従って、一次残基正体制約条件の3つのアミノ酸のそれぞれの直前または直後
にあるアミノ酸のα炭素原子の位置を同定することによって決定できる。このよ
うな場合、追加の残基は、(タンパク質の一次配列におけるアミノ酸位置で決定
した場合に)残基A、BおよびCの直前および直後にある残基についてそれぞれ
、A-1およびA+1、B -1およびB+1、ならびにC-1およびC+1と名づけられる。この
例の場合、これらの位置、またはこれらの位置範囲を同定した後、これらの二次
α炭素と、一次α炭素および/または他の二次α炭素との間で決定される6つ以
上の異なる距離範囲を決定する。これらの距離を得るために2つ以上の構造を試
験する場合、これらの距離における標準偏差を計算して距離範囲を確立するのが
有用であることが多い。好ましい実施形態では、計算された標準偏差範囲の上限
および/または下限に乗数をかけることによって範囲を大きくする。この乗数は
任意の数であるが、約0.5〜10であることが好ましい。適切な乗数は2.0であるこ
とが多い。当業者は理解するであろうが、特定の機能部位ディスクリプタに含ま
れる制約条件の数は、特定のディスクリプタを、他の生物学的機能についてのデ
ィスクリプタ(もしくは構造)、または他の生物学的機能と相関するディスクリプ
タ(もしくは構造)から区別するために所望または必要となる数によって異なる。
本発明の機能部位ディスクリプタは、特定の機能部位ディスクリプタのために望
ましい選択性および特異性を得るために可能な限り少ない制約条件を含むことが
好ましい。もちろん、特定のディスクリプタを定義した後は、ディスクリプタの
さらなる詳細化すなわち1つ以上の追加制約条件を含めることを促すか必要とす
る追加の情報が明らかになるかもしれない。好ましくは、機能部位ディスクリプ
タは、該ディスクリプタに対応する特定の生物学的機能を有するタンパク質を、
該機能をもたないタンパク質を同定することなく(「特異性」)、試験するタン
パク質セットにおいて(「選択性」)同定することを可能にする。
【0079】 本発明による機能部位ディスクリプタは、例えば、図4に概要を示す、以下の
ステップにより生成できる。まず、機能的および構造的に重要な残基を同定する
(ステップ212)。これは、例えば、特定の生物学的分子に関する科学文献を検索
して、そのような生物学的分子の特定の生物学的機能にとってどの残基が重要ま
たは重要であるかもしれないかの生化学的証拠を得ることにより行うことができ
る。この情報は、科学的実験または他の分析によっても得ることができる。例え
ば、生物学的活性について重要なまたは必要な残基の同定は、例えば、部位特異
的突然変異誘発実験により実施できる。
【0080】 次に、特定の機能を所有し、実験により決定されたその三次元構造(好ましく
は、高解像度構造)が知られている1つ、好ましくはそれ以上のタンパク質を選
択する。推定上機能的に重要な残基を、既知の三次元構造において同定し、原子
または原子団(例えば、タンパク質の機能的に重要なアミノ酸のそれぞれのα炭
素)の間の相対的幾何学的配置(例えば、距離、角度)を記録する。場合によって
は、他の部分に関する空間的情報(例えば、タンパク質におけるこれらまたはそ
の他のアミノ酸の側鎖質量中心間の距離(または距離範囲))も記録することが望
ましいかもしれない。入手可能であれば、二次構造情報などのその他の構造的情
報も、そのような情報の重要性についての証拠があればディスクリプタに含めて
もよい。しかし、このような情報は、特定の機能部位ディスクリプタについて必
須な選択性および特異性を得るために必要でない限り含まないことが好ましい。
構造的重ね合わせ、および複数の配列アライメントは、考慮している特定の生物
学的機能において重要かもしれないその他の残基を同定するのを助けるかもしれ
ないが、これらの手順は、一般的に、実験的証拠が機能的有意性を示唆する場合
にのみ使用される。
【0081】 機能部位ディスクリプタ形成手順は繰り返される。保存残基(または残基セッ
ト)の同定の後、別の分析を行って、構造内における保存残基(または残基セット
)の相対的機能的重要性を決定できる。当業者は理解するであろうが、タンパク
質についての機能部位ディスクリプタにおいては、機能的に重要であることが知
られている、または目的の機能もしくは活性を示す1つ以上のタンパク質を通じ
て保存されている残基のみを使用することを目標とする。さらに、ディスクリプ
タが、生物学的分子中の対応する機能部位の同定を可能にするのに十分な感受性
を有し、同時に、これらの部位のみを検出し、他の生物学的分子における類似し
た構成を有するが所望の生物学的機能を欠く他の部位は検出しない特異性を有さ
なければならないことが理解された上で、ディスクリプタにおいて最小数の可能
性のあるパラメーターを使用することが望ましい。
【0082】 特定の機能について、正体、幾何学的配置、および/またはコンホメーション
制約条件のセット(所望であれば、特定のディスクリプタに他の種類の制約条件
も含まれうることを理解した上で)を決定した後、これらは、以下に記載するよ
うに電子回路の形態で実装されることが好ましい。次に、これらのディスクリプ
タを1つ以上使用して、特定の制約条件を満たすかまたは該条件に一致する残基
のセットについて、1つ以上の実験的に決定されたタンパク質構造を(好ましく
はコンピュータを介して)プロービングするのに使用できる。実験的に決定され
たタンパク質構造は、X線結晶構造解析またはNMR分光分析により決定されたも
の、例えば、Brookhaven PDB(Abolaら, 1987)などの寄託機関に保存されている
ものであり得る。制約条件は、段階的に実装されて、それぞれの基準により削除
される構造を、過程の途中の各段階で評価できることが好ましい。
【0083】 特定の生物学的機能についての機能部位ディスクリプタとして採用される制約
条件セットが、調査中の特定の生物学的機能を示すことが知られているか予測さ
れている実験的に決定された構造にある任意のタンパク質を同定するのをし損ね
たり、失敗した場合、その同定し損ねたタンパク質の構造、特に所望の生物学的
機能と相関する機能部位の構造を分析する。機能部位ディスクリプタを含む1つ
以上の制約条件を、変更または緩和させて、機能を示す生物学的分子が再テスト
において正確に同定されるようにする。機能部位ディスクリプタの制約条件また
はパラメーター(例えば、2つの機能的に重要なアミノ酸のα炭素間の距離)の「
緩和」は、特定のパラメーターに含まれる数の範囲を指す。理想的には、このよ
うな緩和は、高解像度構造に対して所望の生物学的機能を有するタンパク質を同
定する機能部位ディスクリプタの性能を低下させない。例えば、所望の生物学的
機能に関係すると選択された1つ以上の原子が機能部位ディスクリプタの1つ以
上の制約条件の許容を超える距離にあるために、特定の酵素活性についての最初
の機能部位ディスクリプタが、該機能を示すことが知られている選択された構造
データベースにおいて酵素の同定に失敗した場合、ディスクリプタのための制約
条件セットは、このような距離を含むように変更される。実際、制約条件セット
の1つ以上または全てのメンバーを調節して、空間的制約条件(例えば、距離制
約条件、結合角制御など)の場合、所望の機能を欠くが関連した構造を示すタン
パク質を同定することなく、関連する原子(または原子団などの)間に可能な限り
最大の許容範囲をもたらす場合が好ましい。
【0084】 さらに、特定の機能部位ディスクリプタが標的生物学的機能について必須な選
択性および特異性を有すると決定されたとしても、所望レベルの選択性および特
異性が維持される限り、ディスクリプタの1つ以上の制約条件をさらに緩和する
ことが望ましい。例えば、さらに実験的に決定されたまたはモデリングされた構
造に対して適用される場合、ディスクリプタにおける1つ以上の制約条件をさら
に緩和させて、中度解像度のモデル、低度解像度のモデルまたは不正確なモデル
固有の曖昧さを許容することが必要または望ましいかもしれない。つまり,パラ
メーター緩和の程度は、様々な構造(例えば、正確な構造(すなわち実験的に決定
された高解像度モデル)に対して、および不正確な予測されたタンパク質構造モ
デル)に対してテストすることにより確認できる。当業者は理解するであろうが
、機能部位ディスクリプタの1つ以上のパラメーターを可能な限り最大限に緩和
することが望ましい。換言すれば、所望の機能をもたないことが知られている(
あるいはもたない)生物学的分子を同定することなく、所望の機能を有する既知
の構造の生物学的分子を全て同定することが望ましい。既知の生物学的機能を有
する生物学的分子の構造がより多く同定されれば、既存の機能部位ディスクリプ
タで、そのような構造をプロービングして、必要または所望であれば、詳細化ま
たは緩和(あるいは、多分両方をパラメーターごとに行う)できる。
【0085】 機能部位ディスクリプタが、機能を提示することが知られていない1つ以上の
タンパク質を選択する場合、そのような任意の「偽陽性」例の構造を、既知の機能
部位と比較する。このような場合、可能性のある結果は2つある。第一の結果の
場合、機能的ディスクリプタは、タンパク質内でこれまで認識されなかった機能
部位を同定した。第二の結果では、機能的ディスクリプタは、機能部位を間違っ
て同定した。この第二の結果の場合、機能部位ディスクリプタの1つ以上の制約
条件を改変する(例えば、距離制約条件の場合、関連する原子または基または原
子団の原子間距離範囲を変更して偽陽性を無くして、1つ以上の距離制約条件を
調節する)。様々な配列、構造的および実験的分析を利用して、これらの2つの
結果を区別する。
【0086】 上記方法および本明細書に記載する他の方法を使用して、推定機能部位ディス
クリプタを生成する。一部はディスクリプタに対応する生物学的機能を所有し、
一部は所有しないテスト用のタンパク質セットを使用して、選択性および特異性
について、ディスクリプタを認証することが好ましい。このディスクリプタを、
実験的に決定またはモデリングされた構造に適用できる。
【0087】 タンパク質 生理学的条件下では、各タンパク質は、タンパク質の一次構造に指令されるユ
ニークな二次および三次コンホメーション(マルチサブユニットタンパク質の場
合には四次コンホメーション)である「天然コンホメーション」をとる。タンパク
質の折畳みは典型的に自発的で非共有結合力の制御下にあり、特定のpH、温度お
よびイオン強度条件下で速度論的に可能な最低自由エネルギー状態を生じる。折
畳みが生じた後には、典型的にジスルフィド結合が形成され、天然コンホメーシ
ョンを安定化させるように働く。しかし、無関係な生物学的機能または配列を有
するタンパク質が、異なるドメインの三次構造において、同様のパターンの二次
構造を有することが知られている。
【0088】 一般的なタンパク質折り畳みパラメーターは、タンパク質折り畳みを予測する
上で重要な役割を果たし、タンパク質の天然コンホメーションが非共有結合相互
作用により自発的にとられるものであるという観察に基づく。ただし、一部のタ
ンパク質の正しい折り畳みのためには、例えばシャペロニンなどの他のタンパク
質との相互作用が必要となるかもしれない。非共有結合相互作用は、結合強度が
約4〜約29 kcal/molである弱い結合力であり、37℃の分子の平均運動エネルギ
ー(約0.6 kcal/mol)を超える。対照的に、共有結合は、結合強度が少なくとも約
50 kcal/molである。個別では弱いが、数個以上のアミノ酸を有するポリペプチ
ドにおける非共有結合相互作用が多数合わさると、折り畳みを支持する大きな熱
力学的力になる。
【0089】 タンパク質折り畳みパラメーターとしては、とりわけ、相対的疎水性に関係す
るもの、すなわち、非極性溶剤の疎水性環境に対する優先性が挙げられる。Text
book of Biochemistry with Clinical Correlations, 3rd Ed., ed. Devlin, T.
M., Wiley-Liss, p.30(1992)を参照のこと。疎水性相互作用は、非極性基間の引
きつけられる力ではなく、このような基とこれらが溶解しているか溶解するであ
ろう水との相互作用により生じると考えられている。単一残基の周りの溶媒和シ
ェル(solvation shell)(高度に規則的な(highly ordered)、従って熱力学的には
好ましくない、非極性基の周りの水分子の配置)は、折り畳みの間に別の非極性
残基が近くに位置すると減少し、バルク溶剤に溶媒和シェル中の水を放出し、水
溶剤のエントロピーを増加させる。非折り畳みタンパク質の溶媒和シェル中の整
列した水分子の約三分の一が、二次構造の形成時にバルク溶剤中に消え、さらに
元の溶媒和水分子の約三分の一が、二次構造を有するタンパク質が三次構造に折
り畳む際に消える。
【0090】 疎水性環境を好むアミノ酸残基は、「埋め込まれる(buried)」(すなわち、折り
畳まれたタンパク質の内部に少なくとも約95%の時間の間存在する)傾向がある
が、アミノ酸のより極性の大きい成分を外面付近に位置させることで球状タンパ
ク質の外面に位置付けることができる。外面上の2つ以上の非極性側鎖のクラス
タリングは、通常生物学的機能(例えば、基質またはリガンド結合部位)と関連し
ている。極性アミノ酸は、典型的に、球状タンパク質の外面上で見とめられ、そ
こでは水が残基の極性を安定化させる。荷電された側鎖を有するアミノ酸が球状
タンパク質内部に位置付けられることは、典型的に、タンパク質の生物学的機能
に関して、該残基についての構造的または機能的役割と相関する。
【0091】 別の重要なタンパク質折り畳みパラメーターは、水素結合形成に関係する。水
素結合(約1〜約7 kcal/molの結合エネルギーを有する)は、一方に水素が共有
結合している(水素結合「ドナー」)2つの電気陰性原子間で水素原子を共有するこ
とにより形成される。水素結合強度は、水素結合ドナー原子とアクセプター原子
との距離に主に依存し、供与体原子および受容体原子が約2.7Å〜約3.1Å離れて
いる場合に高い結合エネルギーが生じる。水素結合強度には、結合幾何学的配置
も寄与している。高いエネルギーを有する結合は、典型的に、共直線的に配置さ
れたドナー、水素、およびアクセプターを有する。結合の周囲の媒体の誘電率も
、結合強度に影響を及ぼしうる。
【0092】 荷電されたアミノ酸残基間の静電的相互作用(陽性および陰性)も、タンパク質
折り畳みおよび基質結合に役割を果たす。これらの相互作用の強度は、各イオン
の電荷と正比例して、また溶剤の誘電率および電荷間の距離と逆比例して変動す
る。
【0093】 タンパク質折り畳みにおいて考慮するべき他の力には、原子間の距離に依存す
る引き付け力および反発力の両方が関与するファンデルワールス力が関係する。
引き付けは、電子軌道が近距離で接近した場合に、隣接原子の電子密度における
相補性双極子の誘導を通して生じると考えられている。立体障害とも呼ばれる反
発成分は、隣接する原子の電子軌道が重なり始めると、近距離において生じる。
これらの力に関して、最も望ましい相互作用は、2つの原子のファンデルワール
ス半径の和であるファンデールワールス距離において生じる。ファンデルワール
ス距離は、約2.8Å〜約4.1Åの範囲にわたる。個々のファンデルワールス相互作
用は、通常、1 kcal/mol未満のエネルギーを有するが、これらのエネルギーの
和は中度の大きさのタンパク質であっても有意なものであり、従って、これらの
相互作用はタンパク質の折り畳みおよび安定性、そして最終的に機能に有意に大
きな影響力をもつ。
【0094】 タンパク質の折り畳みおよび機能において役割を果たすさらに別の相互作用に
は、2つ以上の芳香環(aromatic rings)が、芳香環のπ電子軌道の面が重なるよ
うに互いに接近する場合に生じるものが関係する。このような相互作用は、約6 kcal/molほどの引き付け非共有結合力を有することができる。
【0095】 タンパク質の折り畳みを決定する際に考慮すべきその他の要因としては、金属
など(例えば、Zn2+、Ca2+など)の補因子の有無、ならびに当該分野で公知の他の
考慮事項が挙げられる。
【0096】 熱力学的および速度論的考慮事項は、タンパク質折り畳みプロセスを制御する
。特定の理論に固執するわけではないが、折り畳みは、いくつかの隣接する(こ
れは一次構造で決まる)アミノ酸側鎖基と、それらが共有結合しているポリペプ
チド鎖との間の短い範囲の非共有結合相互作用を介して開始すると考えられてい
る。特定のR基がポリペプチド骨格においてαらせん、β構造、および鋭角なタ
ーンまたはベンド(bend)を形成する傾向をもつため、これらの相互作用により二
次構造の小さい領域の折り畳みが開始する。タンパク質が折り畳まれて離れた領
域が近づくことにより、より離れたタンパク質領域間の中間および長い範囲の相
互作用が働く。
【0097】 本明細書に記載するように、本発明による機能部位ディスクリプタは、タンパ
ク質の任意の生物学的機能に対して開発できる。このような機能としては、触媒
、リガンド結合、およびタンパク質-タンパク質相互作用が挙げられるがこれら
に限定されない。典型的に、タンパク質生物学的機能は、1つ以上の特定のタン
パク質部位またはタンパク質領域により行われるか得られ、このような部位の機
能性は、タンパク質の三次元構造で決まる。
【0098】 本発明に関係して特に関心のある機能部位としては、酵素活性部位、リガンド
結合部位、およびタンパク質-タンパク質相互作用部位が挙げられる。好ましい
リガンド結合部位としては、基質結合部位、抗原結合部位、および補因子結合部
位が挙げられる。
【0099】 新規遺伝子およびその関連それらの相当する遺伝子の同定および分類は種々の
生物のゲノムを配列決定する現在進行中の努力に特別の関連があるので、この本
発明はかなりの科学的および商業的有用性を有する。現在のところ、 180を越え
る異なる酵素活性が分類されており、以下の表に酵素名で列挙される。下記の表
に列挙された酵素の個々の分類はEnzyme Nomenclature, NC-IUBMB, Academic Pr
ess, New York, New York (1992), およびwww.biochem.ucl.ac.uk/bsm/enzymes/
index.htmlに記載された酵素分類システムに従って定義される。
【0100】 当業者に理解されるであろうように、上に列記した酵素種類の酵素活性に関し
てのみならず、未知であろうと後ほど発見されようと、本発明は他のタンパク質
活性および機能に関して調製された機能部位ディスクリプタを具体化させるもの
である。
【0101】構造決定 タンパク質構造は種々の実験的または計算的方法によって決定でき、その幾つ
かを以下に記載する。
【0102】 A. 生物学的分子構造の実験的分析 タンパク質構造はいずれにせよ低解像度の構造が得られ得る任意の方法により
実験的に評価されうる。かかる方法には現在X線結晶構造解析法および核磁気共
鳴(NMR) 分光法が包含される。これらの方法により解明された構造は様々な性質
を有する。ここに記載される本発明による機能ディスクリプタの作成には、高解
像度または高品質構造が望ましい。かかる高品質構造はまた、本明細書に記載さ
れる機能ディスクリプタを用いて機能部位に関して容易にプローブされうる。し
かしながら、本発明者らは、機能部位ディスクリプタはまた純粋に計算による方
法により作成されたモデルに加え、低解像度X線結晶構造のような実験的に解明
された比較的低品質構造の機能を予測するのにも適用できることを発見した。
【0103】 (i) X線結晶構造解析 X線結晶構造解析はタンパク質構造の評価についての1方法であって、結晶内
の原子核を包囲する電子雲による特徴的な波長のX線照射の回折に基づく。X線
結晶構造解析では、特定の生物学的分子を作り上げている原子の近原子解像度を
決定するために精製生物学的分子(しかしこれらはしばしば溶媒成分、補因子、
基質、または他のリガンドを包含する)の結晶を使用する。結晶成長に関する技
術は当技術分野で知られており、代表的には生物学的分子毎に異なる。自動化さ
れた結晶成長技術も知られている。
【0104】 小さい分子、すなわち約2,000 ダルトン(D) より少ない分子量を有するものは
代表的には数種(しばしば2種)より少ない溶媒成分と一緒に結晶化し、小分子
の原子が結晶容量の大部分、90%以上、を占める。しかしながら、タンパク質は
典型的にははるかに大きく(代表的には分子量30,000-200,000D を有する)、そ
して結晶格子点内にパッケージされた場合、結晶内に他の分子を封入するための
うんと大きい間隙を残す。このように、タンパク質結晶は代表的には溶媒40-60%
を含有する。その結果として、タンパク質結晶は、X線回折研究に障害を起こし
得そして観察された電子密度が局所的以上のコンホーメーションで一致するのを
可能にする程の動的な柔軟性を有する。動的障害はX線ボンバード中の結晶の環
境温度を低下させることにより低下または排除できる。残る静的障害は1種また
はそれ以上の剛性静的分子コンホーメーションによるものである。
【0105】 回折した照射の検出により、回折した生物学的分子の3次元電子密度マップを
生成させるための数学的等式(例えばフーリエ合成)の使用が可能となる。かか
る決定をなすのに複数の回折が必要であり、反射の数が所望される解像度と正に
関連する。個々のタンパク質分子中におけるポリペプチド鎖の位置はしばしば電
子密度マップに適合するが、少数の反射は典型的には原子位置決定に必要な情報
を提供しない。これらの種類の結晶学データから得られる構造はしばしば低解像
度構造と呼ばれる。決定された電子密度パターンへのタンパク質アミノ酸配列(
例えば、そのタンパク質をコードする核酸(例えば、cDNA配列)によりコー
ドされるアミノ酸配列を演繹することにより解析されたタンパク質の一次構造)
の適合により、そのタンパク質構造の詳細化が可能となる。多数の反射および/
または詳細化精製増大により、より高解像度のタンパク質構造が得られる。
【0106】 X線回折のような技術はタンパク質構造に関する相当の情報を提供はするが、
一方で現在のところそれらは作用メカニズムに関してはほんの限られた情報しか
提供しないことに留意することが重要である。X線結晶構造解析に関しては、こ
の規定される構造が、原子および溶液中で迅速な動的ゆらぎを受ける原子の時間
−平均化された原子配位を示すという事実による。事実、平均でタンパク質中の
原子は1ピコ秒当たり0.7 Åにわたり振動すると考えられている。現在のところ
、およそ2,000 の非冗長性(non-redundant)タンパク質結晶構造が解析されてい
る。
【0107】 ii. 核磁気共鳴(NMR) 分光学 核磁気共鳴(NMR) は現在生物学的分子の(結晶構造よりむしろ)溶液コンホー
メーションの決定を可能にする。代表的には小分子のみ、例えば約100-150 アミ
ノ酸より少ないタンパク質がこれらの技術に適しうる。しかしながら、近年の進
歩によりアイソープ標識のような技術を用いる大きいタンパク質の溶液構造の実
験的解明ができるようになった。X線結晶学に比較したNMR 分光学の利点は、結
晶格子隣接物の相互作用がタンパク質構造を変更させうるものである結晶格子に
おけるよりむしろ溶液中において構造が決定されるということである。NMR 分光
学の欠点は、NMR 構造が結晶構造ほどには詳細でないかまたは正確でないことで
ある。一般的に、NMR 分光学により決定された生物学的分子構造は結晶学により
決定されたそれに比較して中程度の解像度である。
【0108】 NMR は特定のラジオ周波数でパルスされた均質な磁界における磁気原子核の環
境を検査するためにラジオ周波数照射を使用する。これらのパルスは非ゼロスピ
ンの核を有する原子の核磁気化を摂動させる。一過性の時間ドメインシグナルは
その系が平衡に戻ると検出される。周波数ドメインへの一過性シグナルのフーリ
エ変換により1次元NMR スペクトルが得られる。これらスペクトルにおけるピー
クが種々の活性核の化学シフトを表す。原子の化学シフトはその局所的電子環境
によって決定される。2次元NMR 実験により、構造物中および3次元空間中にお
ける種々の原子の付近における情報が提供されうる。
【0109】 タンパク質構造は、多数の2次元(そして時に3または4次元)NMR 実験を行
い、得られる情報を一連のタンパク質折り畳みシミュレーションでの制約条件と
して使用することにより決定されうる。NMR 分光に関連する多くの技術の論議に
関してはProtein NMR Spectroscopy, Principles and Practice, J. Cavanaghら
、Academic Press, San Diego, 1996,を参照されたい。
【0110】他の分光技術 生物学的分子構造の研究に有用な他の技術には円偏向2色性(CD)、蛍光、およ
び紫外線可視光線吸収分光学が包含される。これら技術の記載に関しては、Phys
ical Biochemistry: Applications to Biochemistry and Molecular Biology,第
2版、W.H. Freeman & Co., New York, NY, 1982, を参照されたい。かかる方法
は現在生物学的分子に関する原子レベルの詳細な構造は提供しない。
【0111】 本明細書に記載されるように、実験的に解明された生物学的分子構造、特に高
解像度で解明されたものは本発明方法により作成された機能部位ディスクリプタ
の生成および確認に使用される。多数の実験的に解明された構造が時間と共に増
大するので、新たな機能部位ディスクリプタが創成されうる。加えて、本発明に
より生産された機能部位ディスクリプタは、かかる構造物の解明に先立ちもし必
要ならば変更されうる。それゆえ、本発明のある種の実施形態は機能部位ディス
クリプタの1種またはそれ以上の周期的確認、ありうる変更、および新規創成に
関する。これらの改訂は明確化された生物学的機能(類)(これについては3次
元構造が好ましくは(予測と反対に)実験的に高解像度まで解明されている)を
有する新たに記載された生物学的分子との比較によって行われる。
【0112】 B. 生物学的分子構造の予測されたモデルの生産方法 機能部位ディスクリプタの生産は1種またはそれ以上の実験的に解決された構
造に対する仮定のディスクリプタの比較を好ましくは包含するが、本発明らはか
かるディスクリプタが、幾つかの実施形態においては、その予測された3次元モ
デルを使用してタンパク質例えば酵素タンパク質の機能(類)の同定に使用でき
ることを見いだした。事実、予測アルゴリズム(その代表的な例は以下にもっと
詳細に記載されるか、または後ほど展開される)により生産された不正確なモデ
ルは、本発明による機能部位ディスクリプタがプローブする相手構造として使用
できる。勿論、正確なモデルおよび実験的に解明された構造(特に高度および中
程度の解像度の構造)もかかる目的に使用できる。
【0113】 i. ホモロジーモデリング技術 タンパク質の構造を予測する方法の幾つかはホモロジーモデリングを包含する
。ホモロジーモデリングは進化論的に関連する配列、すなわち相同であってそれ
らの残基配列がある種の確信をもって整合されうるようなアミノ酸配列に適用さ
れる。この方法の一例においては、その構造が実験的に決定されていないタンパ
ク質の配列が、その構造が標準的な配列整合アルゴリズムの一つ(Altschul ら、
(1990), J. Mol. Biol., vol. 215:403-410; Needleman and Wunsch (1970), J.
Mol. Biol., vol. 48:443-453; Pearson and Lipman (1988), Proc. Natl. Aca
d. Sci. USA, vol. 85:2444-2448) を用いて知られているタンパク質の配列に対
して整合される。ホモロジーモデリングアルゴリズム、例えばHomology (Molecu
lar Simulations, Inc.)はその構造が知られていないタンパク質の配列を既知タ
ンパク質の構造上に形成する。結果は、その構造が実験的に決定されていない配
列に関する予測されたモデルである。かかる予測された構造は「ホモロジーモデ
ル」と呼ばれる。
【0114】 ii. スレッディングアルゴリズム タンパク質構造を予測するための逆折り畳み方法においては、異なるテンプレ
ート構造を介してプローブアミノ酸配列を「スレッディングし」そして所定の配
列にとっての最も適合しうる構造を見いだす試みをする。ある種の実施形態にお
いては、配列対構造整合はSmith-Watermanの動的プログラミングアルゴリズム(W
aterman, 1995)の「局部的−全体的」バージョンにより実施される。かかる実施
形態においては、整合は1種またはそれ以上、好ましくは3種の異なる得点方法
によりランク付けされる。3種の方法手段(Jaroszewskiら、1997) においては、
第1の得点方法は配列−配列型の得点をベースとすることができる。この配列を
ベースとする方法では、VogtおよびArgos (Vogt ら、1995) により記載されるよ
うに、間隙不利を最適化するためにGonnet突然変異マトリックスが使用されうる
。第2の方法はテンプレート構造の構造環境中に「据えられた」プローブ配列か
らの擬似エネルギーをベースとする配列−構造得点方法が使用できる。この擬似
エネルギーなる用語はテンプレート構造内の特定の2次構造中に見いだされるべ
き(プローブ配列からの)連続したアミノ酸対の統計的傾向を反映する。第3の
得点方法は構造−構造比較に関することができ、それにより既知テンプレート構
造(類)からの情報がプローブ配列の予測された2次構造と比較される。特に好
ましい2次構造予測スキームは最も近い隣接原子アルゴリズムを使用する。
【0115】 配列対構造整合の得点を計算後、好ましくは得点の分布を極値分布に合わせる
ことにより各得点の統計的な有意性を決定し、そして生得点を2種の非関連配列
を比較する場合に同じ得点を得る偶然性と比較する(Jaroszewskiら、1997) 。
【0116】 ひとたびプローブ配列対テンプレート構造の整合が決定されると、3次元モデ
ルが構築される。自動化されたモデリングツールの代表的な例にはModeller4 (T
ripos Associates, St. Louis)が包含される。かかるツールはスレッディングア
ルゴリズムにより提供された配列対構造整合から構築された3次元モデルに関す
る全ての非水素原子配位ファイルを生産するのが好ましい。
【0117】 最終的に予測される構造はスレッディングアルゴリズムにより生産された配列
整合と同じ場合にのみ良好であり、そして局所的な整合過誤はスレッディング予
測および配列整合において起こりうる。この問題は少なくとも幾つかの場合には
整合における小さな過誤を許容しそして最高得点を有するスレッディング予測(
すなわち、最適整合) そのものでなく、同じ配列に関する多数の最高ランクにあ
る代替スレッディングをベースとする構造予測を使用することにより克服できる
。保存プロフィル分析の使用は、配列整合における一致を探索することによりス
レッディングをベースとする構造予測の信頼性が増大し、それにより偶発的な一
致の偶然性が低減される。
【0118】 本発明を実施するに当たりスレッディングアルゴリズムが用いられた場合、代
表的にはその機能を評価中のタンパク質の配列が、例えばX線結晶学またはNMR
分光学により構造が実験的に解明されているタンパク質の大きいデータベースに
よって「スレッディング」される。多数の配列対構造整合物が各配列について調
製される。これら整合のそれぞれは機能ディスクリプタについて同定された既知
機能部位残基の出現および保存について走査される(図8参照)。機能部位残基
が保存されている場合は、3次元構造モデルが配列対構造整合からモデリングツ
ール、例えばModeller4 (Tripos Associates, St. Louis)を用いて生産される。
次に機能ディスクリプタを使用して各モデルをプローブし、機能部位の存在また
は非存在を決定する。
【0119】 iii.最初から(ab initio) の構造モデリング タンパク質構造解明へのもう一つの計算的手段には、ab initio 予測が包含さ
れる。かかる操作は一般的に2つの部分を有する、すなわち:1)複数の配列整合
から抽出された情報を用いるパラメーター導関数;および2)構造組み立て(また
は「折り畳み」)および精製である。当分野の者が評価するであろうように、任
意の慣用のまたは後で展開されるab initio 生物学的分子構造予測アルゴリズム
を本発明のこの観点に関連して使用できる。
【0120】 本発明のある種の好ましい実施形態においては、「MONSSTER] (Modeling Of N
ew Structures from Secondary and Tertiary Restraints) ab initio 折り畳み
アルゴリズムがタンパク質構造の不正確なモデルを生成させるのに使用される。
このMONSSTERアルゴリズムはタンパク質の折り畳みに高度配位格子をベースとす
るα炭素表示(Skolnickら、1997) を用いそして予測された3次構造の予想され
た正確さおよび精度を取り込むために修正される (Ortizら、1997) 。予測され
た2次および3次構造情報を含むab initio 折り畳みに関するパラメーターを複
数の配列整合分析から抽出する。
【0121】 本発明の実施においてMONSSTER ab initio構造予測アルゴリズムを用いる場合
、特に生物学的分子がタンパク質である場合に、完全に広がった当初のコンホー
メーションからの多数の独立した擬態のアニーリングシミュレーションが各生物
学的分子について実施(組み立て操作)されねばならない。これらの組み立て操
作により生成された構造を次にクラスターとなし、そして各クラスターからの低
エネルギー構造例を低温の恒温精製にかける。予測された折り畳み物は、幾つか
の実施形態においては最低エネルギーの次の構造も検査されはするが、好ましく
は最低平均エネルギーのそれである。
【0122】 本発明のある種の好ましい実施形態においては、 ab initio予測方法により生
成された不正確なタンパク質構造モデルは機能部位ディスクリプタを用いる機能
分析に利用出来る。好ましくは、機能部位ディスクリプタを種々のタンパク質に
関する組み立ておよび恒温操作期間中に生産された一連の正確におよび不正確に
折り畳まれた構造について試験し確認する。
【0123】本発明における予測されたモデルの他の用途 当技術分野の人が評価するであろうように、機能部位ディスクリプタはまた生
物学的分子機能を予測する以外の目的にも使用されうる。例えば、機能部位ディ
スクリプタは本明細書に記載された方法または他の構造予測方法を用いて予測さ
れた生物学的分子構造の精度を評価または確認するのに使用できる。例えば、生
物学的分子が特定の構造を有すると予測された場合は、その生物学的分子中の1
またはそれ以上の機能部位を同定するためにそれに1またはそれ以上の機能部位
ディスクリプタをうまく適用することは予測された折り畳みを確認することにな
る。かかる確認はその生物学的分子による特定の生物学的機能を実験的に証明す
ることによりさらに確認されうる。あるいはまた、かかる方法による正確な構造
予測をさらに確認することは、生物学的分子上の2種またはそれ以上の機能部位
(例えば、基質結合部位およびコファクター結合部位)の機能部位ディスクリプ
タ仲介による同定により誘導されうる。
【0124】本発明のコンピューターを道具とする実施形態 前記した本発明の種々の技術、方法、および観点はコンピューターをベースと
するシステムおよび方法を用いて部分的または全体的に実行できる。加えて、コ
ンピューターをベースとするシステムおよび方法は前記した機能性を増加または
増強させ、機能が遂行されうる速度を増大させ、そして本明細書の他の場所に記
載された本発明の特徴および観点の一部分としてまたはそれらに加えて本発明の
付加的な特徴および観点を提供するために使用されうる。前記した技術による種
々のコンピューターをベースとするシステム、方法および実施が今提供される。
【0125】 先に導入したとおり、本発明者らは分子機能の同定を助成するための機能部位
ディスクリプタの概念、ならびに既知分子のまたは既知分子機能の種々の機能部
位に関する機能部位ディスクリプタ創成のための技術を導入している。さらに本
発明者らは所定の分子モデル中の機能を予測するための1種またはそれ以上の既
知機能部位ディスクリプタの使用に関する技術を実施するために考えそして煮詰
まらせた。
【0126】 図2は所定の分子機能のための機能部位ディスクリプタの創成方法を一般的に
例示する操作上のフローダイヤグラムであり、所定の分子モデルが本発明の1つ
の実施形態による機能部位ディスクリプタに関連した機能特性を示すべきかどう
か判定するための機能部位ディスクリプタを使用するフローダイヤグラムである
。図2に言及すると、工程122 で、既知分子構造のライブラリーが作り上げられ
る。ある程度までは、タンパク質および他の生物学的分子に関する既知分子構造
がカタログ化されているライブラリーがすでに存在しそして多くの科学者に入手
できる。本発明の1つの観点によれば、かかる既知および存在するライブラリー
を利用できる。付加的な分子構造が同定および特性決定されるので、これらライ
ブラリーはさらに増加または補添されうる。図2の文脈において記載された実施
形態はタンパク質、特にその触媒活性(少なくとも本明細書に記載される代表的
な生物学的分子機能に関して)が既知活性部位により規定された酵素である生物
学的分子に関する。
【0127】 工程124 においては、タンパク質構造ライブラリーが既知機能部位のライブラ
リーを作るのに利用される。これら機能部位(本例においては活性部位と呼ぶ)
はその生物学的分子(ここではタンパク質)の所定の機能または活性を遂行する
かまたはそれと関連することが知られた分子構造(例えばタンパク質の場合折り
畳みタンパク質)中の2またはそれ以上の残基のグループを含んでなる。従って
、工程124 の結果として、既知活性部位(または他の機能部位)のライブラリー
またはデータベースおよびそれらの記載が創成されそして保持されうる。かかる
記載はこれら機能部位の2種またはそれ以上のエレメントの間の幾何学的、また
は3次元的関係に関するのが好ましい。特に好ましい実施形態においては、かか
る関係は原子間距離範囲として表され、そして隣接原子間の結合角度(または結
合角度範囲)に関する情報を包含してもしなくてもよい。加えて、かかる記載に
は特定の場所での原子または分子の同一性が包含される。例えば、特定の触媒機
能に関する機能部位ディスクリプタを記載するのに使用されるアミノ酸残基の代
表物には特定の位置での残基の同一性が包含されよう。この分野の者がある種の
実施形態において認めるであろうように、活性部位(または他の機能部位)の特
定の位置の残基の同一性は、その特定の酵素(または他の生物学的分子)クラス
の全メンバーにわたってあまねく保存されてはいまい。従って、かかる場合にお
いては、同一性パラメーターが弛緩され、そしてその位置に存在することが知ら
れた残基を包含することが好ましい。さらに、この分野の者が認めるであろうよ
うに、特定のアミノ酸残基の表示(生物学的分子がタンパク質の場合)は異なる
方法で達成されうる。例えば、活性部位ディスクリプタを包含するとして選択さ
れた残基のα炭素が使用されうる。あるいはまた、もしくは加えて、特定の残基
の側鎖の質量の平均中心が選択されうる。勿論、エレメントの他の表示または組
み合わせも使用でき、そして当該技術分野の者の裁量に委ねられる。
【0128】 工程126 においては、既知活性部位データベースまたはライブラリーからの1
種またはそれ以上の活性部位のグループが機能部位ディスクリプタを構築するの
に使用される。1実施形態における機能部位ディスクリプタは、特定の分子機能
と関連した活性部位または機能部位の幾分か一般化されたモデルまたは記載であ
る。好ましくは、1実施形態においては、機能部位ディスクリプタは、多数の異
なりかつ二者択一的な分子における所定の機能を有する機能部位を、異なる機能
を有する機能部位を同定するほど広くも一般的であることもなく、記載するかま
たは同定を補助するのに充分に一般的である。1またはそれ以上の実施形態によ
り機能部位ディスクリプタが創成されうる様式は以下に詳細に記載される。その
上、機能部位ディスクリプタが多数の分子機能について創成されうることが好ま
しい。
【0129】 工程128 においては、新たな分子(または未知の1またはそれ以上の機能を有
する既知分子)の分子構造を1またはそれ以上の機能部位ディスクリプタと対比
させてその分子の機能を予測する。1実施形態においては、機能部位ディスクリ
プタは種々の分子構造物について機能部位が有しうる全てのありうる顕現におけ
る機能を一般的に同定するのに充分に幅広い。他方、機能部位ディスクリプタが
二者択一的機能を包含するほどには幅広くないのが好ましい。これらの制約の下
、機能部位ディスクリプタと分子構造中の部位との間の正の対比は、研究中の分
子が機能部位ディスクリプタと関連した生物学的機能を示すことを提示している
。それ自体、機能部位ディスクリプタは分子構造中における所定の機能を同定す
るのに使用できる。生物学的分子特にその構造が分子モデリングにより知られて
いる生物学的分子中の生物学的機能を予測するための機能部位ディスクリプタの
使用技術も以下に詳細に記載される。
【0130】 図3は、本発明の様々な実施形態によって機能部位ディスクリプタを作製しか
つ機能部位ディスクリプタを使って分子機能を予測するための様々なプロセスお
よび技術に関連しうる機能を概説する機能ブロック図である。全般的に、図3は
、本明細書に記載の1つ以上の実施形態の機能を例示することのみを意図する機
能ブロック図である。図3は、本明細書に記載の機能を行うコンピュータをベー
スとするシステムを実行するための特定の物理的、論理的、または構造的アーキ
テクチャ(architectue)を意味することを意図しないし、また、そのように解
釈されるべきでない。実際、本明細書の詳細な記載を読めば、当業者には、コン
ピュータソフトウェアおよびハードウェアの別の組合わせと配置を含む、様々な
代替アーキテクチャを使って本発明の様々な特徴と様態を実行する方法が明らか
であろう。
【0131】 図3について説明すると、該プロセスは、ブロック142により示された既知分
子構造のコレクションまたはライブラリから始まる。説明したように、これらの
既知構造は、既知分子構造を収載した一般に利用可能な科学ライブラリおよび/
または科学文献から得ることができる。該ライブラリは少なくとも1つの既知の
構造を有するであろう。好ましくは該ライブラリは、特定の機能部位ディスクリ
プタにより記述または表現される特定の生物学的機能を持つかまたは根拠となる
2またはそれ以上(例えば、3、4、5、6、7、8、9)の種類の構造を含むであろう
。また、ある特定の生物学的機能について本発明による2種以上の機能部位ディ
スクリプタを開発できることも明らかであろう。
【0132】 既知構造のライブラリ142から、既知機能部位のサブセット144(ここでは説明
の目的のためのみで、活性部位)を決定することができる。酵素の触媒活性につ
いて説明したように、既知機能部位は特定の活性を定義する2個以上のアミノ酸
残基のコレクションである。勿論、他の原子および分子を使って他のタイプの機
能部位を記述することができる。さらに、所与の分子構造に対して2種以上の機
能部位が存在し得、既知データセット144中に2種以上の機能があるとみなされ
るのが好ましい。好ましくは、既知データセット144はコンピュータをベースと
するデータセットであり、情報は電子的に保存されコンピュータシステムにより
アクセス可能である。ある実施形態では、以下に詳細に説明されるように、機能
部位を記述するデータは、活性部位を構成する残基およびこれらの残基間の空間
的関係を示す三次元データ表現である。データの保存および編集の方法に関する
詳細は、当業者がこの記載を読めば容易に理解されるようにある程度二次的であ
る。
【0133】 プロセシングシステム146は機能部位のデータ表現を用いて1種以上の機能部位
ディスクリプタ148を作製する。好ましくは、1種の機能部位ディスクリプタを機
能部位の群に関連するそれぞれの機能に対して与える。プロセシングシステム14
6は、例えば、汎用プロセシングシステムとして実行することができる。この記
載、そしてこのプロセシングシステムにより実施される機能のさらなる記載を読
めば、当業者には、記載した機能を実施するためのプロセシングシステムを指定
し実行する方法が明らかであろう。ある実施形態では、プロセシングシステム14
6はPentium(登録商標)をベースとするプロセシングシステムとして適当なユー
ザーインターフェースと周辺装置を用いて実行される。
【0134】 所与の分子構造の機能を予測するために、プロセッサをベースとするシステム
146は、1種以上の機能部位ディスクリプタ148を対象の分子構造150と比較して一
致があるかどうかを確認する。もし一致があれば、対象の分子構造150は、一致
する機能部位ディスクリプタ148に関連すると同定される生物学的機能を有する
という指摘が与えられる。このような1種以上の機能部位ディスクリプタを自動
実行する好ましい実施形態では、コンピュータをベースとするシステムによって
、研究下の生体分子がどの生物学的機能を持つかが同定されるであろう。この結
果の特定の出力は、ユーザーの望むいずれの様式で実行することもできる。
【0135】 このように分子機能を予測するために1種以上の機能部位ディスクリプタを作
製かつ使用することについて概説してきたため、以下では、分子機能を予測する
ために機能部位ディスクリプタを作製かつ使用することに関して、本発明のある
実施形態によってさらに詳細に記載する。図4は、本発明のある実施形態に従う
所与の機能に対する機能部位ディスクリプタの構築方法を説明する演算フロー図
である。さて図4を参照すると、工程212で、好ましくは2つ以上の機能部位から
なる群を既知の機能部位のライブラリ144から選択する。好ましくは、選択され
る機能部位の全ては、目的とする特定の生物学的機能に関連することが知られて
いる機能部位である。
【0136】 工程214では、選択された機能部位の幾何学を決定する。すなわち、以下に詳
細に記載するように、一部の実施形態では、選択された機能部位に関連する原子
または分子(例えば、特に活性部位に関するタンパク質の場合にはアミノ酸残基
)および互いの相対的な残基の空間的配向を決定する。ある実施形態では、この
決定を先に行い、既知の機能部位データベース144のようなデータベースに保存
することができる。このように、工程212および214の結果、選択された機能部位
のデータ表現を、機能部位ディスクリプタを作製する際にプロセシングシステム
によって利用することができる。
【0137】 工程216では、選択された機能部位の1つ以上の幾何学パラメーターを改変する
かまたは「緩和(relaxed)」する。さらに特定的に、ある一定の好ましい実施
形態では、可能な幾何学(例えば、アミノ酸残基のα-炭素原子の間の距離)の
デルタまたは範囲を、1つ以上の選択された機能部位幾何学のパラメーターに適
用する。工程218では、該改変された機能部位幾何学を機能部位幾何学データセ
ットと比較し、この拡張した(即ち、緩和した)幾何学が所望の生物学的機能を有
する生体分子を特異的に同定する能力において、なおうまく既知の幾何学データ
セットと比較し得るかを決定する。
【0138】 もし比較がうまく行けば、1つ以上の幾何学パラメーターをさらに改変するか
または拡張し、特定の生物学的機能を持たないことが分かっている生体分子を、
該機能を有すると同定してしまうような、比較がもはやうまく行かなくなるまで
続ける。このプロセスを工程220およびフローライン222により説明する。適当な
拡大または緩和のレベルがいつであるかを決定するための意思決定プロセスの例
についてさらなる詳細を以下に記述する。
【0139】 図5は、本発明の1つの実施形態に従う機能部位ディスクリプタの作製方法を
説明する演算フロー図である。さて図5を参照すると、工程262では、好ましく
は2つ以上の機能部位幾何学からなる群を既知の機能部位ライブラリから選択す
る。
【0140】 好ましい実施形態では、機能部位幾何学をN個の残基により記述し、所望の機
能を有することが知られている構造の中から幾何学の群を選択する。酵素活性部
位に関する特定の実施形態においては、3個の残基を用いるのが好ましいが、こ
の記載を読めば、当業者には、システム実行の目的によって様々な数の残基を使
用し得ることが明らかになるであろう。
【0141】 図6A、6B、および6Cを含む図6は、本発明の好ましい実施形態に従う、仮想の
酵素活性部位ディスクリプタの残基、隣接残基、および残基間の幾何学を説明す
る図である。さて図6Aを参照すると、活性部位ディスクリプタを、例示の目的で
3、84、および142(該番号はこの図に記された仮想タンパク質のアミノ酸位置に
対応する)と同定された3つの残基を含むとして説明する。この例ではこれらの
位置のそれぞれにおけるアミノ酸残基の正体は与えていない。解説のため、残基
84を1次残基であるとする。
【0142】 さて図5に戻ると、工程264では、1次、2次、3次、...n次残基を定義し同
定する。すなわち、機能部位ディスクリプタを構成するN個の残基のそれぞれを
1次、2次、等々と同定する。どの残基を1次とするかの選択は、ある程度任意
に行うことができるが、重要な残基を1次残基として選択することが好ましい。
生化学分野では、生化学者は典型的には、例えば触媒作用時に共役結合変化を行
うであろう残基を予測することができる。もしそう予測されるのであれば、この
残基を1次残基と同定することが好ましい。触媒作用時に共役結合変化を行うこ
とが知られているか予測される複数の残基があれば、これらの残基のいずれかを
1次残基として選択することが好ましい。あるいは、それぞれ異なる1次残基を
指定する2つのディスクリプタ(他については、同じパラメーターを含む)を作
製することもできる。
【0143】 好ましい実施形態では、機能部位ディスクリプタを構成する1次、2次、3次
等の残基に隣接する追加の残基を、工程268に記載のように選択する。当業者で
あれば明らかなように、「隣接の」残基は、もしタンパク質であれば、1次アミ
ノ酸配列のx+1またはx-1のいずれかである残基を意味する(この場合、xは1次
、2次等の残基のアミノ酸位置である)。
【0144】 図6bには、活性部位ディスクリプタを構成する残基に直接隣接する残基を示す
。具体的には、図6Bに示した例では、残基84は隣接残基83および85を有する。残
基3は隣接残基2および4を有する。同様に、残基142は隣接残基141および143を有
する。
【0145】 再び図5を参照すると、工程270では、残基および隣接残基間の相対幾何学を
定義する。すなわち、残基間の空間的関係を決定および定義する。好ましくは、
1個以上の隣接残基と他の1次、2次、等および/または隣接残基との間の関係も
関連幾何学を決定するのに用いる。2個または3個の残基しか用いずかつ隣接塩基
を用いない場合、数学的見地から二次元空間的表現で十分である。しかし、以下
の詳細な記載を読めばさらに明らかになるように、このような二次元データセッ
トは所望の生物学的機能を定義するのには十分でない。したがって、関連幾何学
データセットを定義するために使用するデータセットは、機能部位ディスクリプ
タを含む様々な残基間の三次元関係を定義するのに十分な三次元データセットで
あり、好ましくは1個以上の隣接残基に関する少なくとも一部の空間的情報を含
むものである。
【0146】 本発明による活性部位ディスクリプタの特に好ましい実施形態では、様々な残
基と隣接残基間の9距離を記述する9距離データセットを用いる。図6Cでは、図6B
に示した例示残基に対するこれらの9距離の例を説明する。この記載を読めば、
当業者には、M距離(ここに、Mは2〜15またはそれ以上の範囲にあり、最終的に
は、例えば所望の機能を有する生体分子を該機能を持たないことが知られる生体
分子から識別するために含まれることが望まれる距離(好ましくは距離範囲)間
の機能部位ディスクリプタ中のパラメーター数によってのみ限定される)を使用
して本発明を実施する方法が明らかであろう。
【0147】 図6Cには、仮想の活性部位におけるアミノ酸残基のα-炭素原子間の距離幾何
学を決定するための残基対合を示す。記載の幾何学的制約条件のこの「9距離」
セットの残基対は、84-142、84-3、3-142、83-3、85-3、141-84、143-84、2-84
、および4-84である。明らかなように、特定の状況下では、より多数のまたはよ
り少数の幾何学的制約条件を用いることもできる。この技術を利用すれば、機能
部位の残基を定義するデータセットを相対的特異性を用いて定義することができ
る。現に、多くの例において、様々な生体分子の原子間距離がオングストローム
レベルの精度で知られている。この特異性のレベルに対して機能部位ディスクリ
プタの幾何学パラメーターを定義すれば、この幾何学は恐らくそれを目指して作
製された特定分子の活性部位とだけ一致するであろう。しかし、上記のように、
機能部位ディスクリプタを作製する1つの目標は、多くの異なる分子に対して同
じ機能を果たす活性部位と一致するかまたは当てはまることを許容する十分広い
ディスクリプタを作製することにある。すなわち、ある特定機能を果たす各分子
には該機能に対する機能部位幾何学がある。しかし、重複する生物学的機能にと
って、空間的、幾何学的、および他のパラメーターの厳密な重複は、必ずしも必
要でない。
【0148】 従って、図5の工程272では、決定した活性部位ディスクリプタの幾何学が拡
張される。ある実施形態では、機能部位ディスクリプタ(例えば、活性部位ディ
スクリプタ)の1つ以上の幾何学または他のパラメーターを、デルタ(該デルタ
は、検討中の仮想条件で、好ましくは機能部位ディスクリプタを含むように選択
された残基間の距離におけるプラスもしくはマイナス不確実性レベル、または範
囲である)を加えることにより拡張する。結果として、この新しい部位ディスク
リプタは部分的に、それぞれの距離が不確実性レベルと関連する複数の距離によ
って定義される。工程274では、この緩和した幾何学パラメーターを有する機能
部位ディスクリプタを既知の機能部位のデータセット中の1つ以上の機能部位と
比較し、緩和したディスクリプタが該ディスクリプタに関係づけられる特定の生
物学的機能を有することが知られるデータセットの全ての生体分子を正確に同定
するかどうかを決定する。
【0149】 好ましくは、該機能部位ディスクリプタを、該機能部位と関連する機能を示さ
ないことが知られる生体分子とも比較する。すなわち、該ディスクリプタを該機
能を有しないことが知られる構造または分子とも比較する。ある指定した機能を
有することが知られている機能部位ディスクリプタが、特定の機能を有すること
が知られている生体分子とだけうまく一致するかまたは該当し、かつ該機能を有
しないことが知られている生体分子と一致または該当しない場合には、該幾何学
パラメーター(または機能部位ディスクリプタを含む他のパラメーター)をさら
に拡張(または緩和)することができる。例えば、好ましい実施形態では、1つ
以上の原子間距離に関連するデルタ、そして好ましくは所与の機能部位ディスク
リプタのこのような距離の全てをある指定した量だけ、すなわち、ある「乗数(
multiplier)」だけ拡張することができる。該ディスクリプタのパラメーターを
このように拡張すれば、該機能部位ディスクリプタを再び該データセットに適用
して、この機能を有することが知られる既存の活性部位の十分な数と一致し、こ
の機能を有しないことが知られる構造を含むことがないかどうかを決定すること
ができる。これを図5の工程276および278ならびにフローライン280に示す。
【0150】 図5を参照して上述したように、工程272の機能部位ディスクリプタを作製す
る際に幾何学を調節して、上記機能を表す活性部位を含む程度に十分広いが所望
の機能を有しない活性部位を含むほど広くはない機能部位ディスクリプタを定義
する。
【0151】 図7は、本発明に従う機能部位ディスクリプタの1つ以上の幾何学距離パラメ
ーターを調節するためのプロセスを示す演算フロー図である。このように、工程
312では、機能部位ディスクリプタの残基間の距離の1つ以上、好ましくは全てを
、特定の機能部位ディスクリプタに関係づけられる特定の生物学的機能を有する
既知構造における同様な距離(または平均距離)と比較することにより平均化す
る。
【0152】 次いで、工程314では、それぞれの距離パラメーターに対する標準偏差を計算
する。工程316では、乗数を標準偏差にかけてパラメーター幾何学をさらに緩和
する。好ましくは、一部の実施形態では、それぞれの標準偏差に選択した乗数を
乗じ、残基対間の距離を、該群を横切る残基対間の平均距離に、該乗数を乗じた
標準偏差をプラスまたはマイナスしたものとして定義する。
【0153】 以上説明したように、このような緩和した機能部位ディスクリプタを次いでデ
ータセットに適用し、特定の機能部位ディスクリプタにより陽性と同定すること
ができる既知活性部位の数を決定することができる。また上記のように、この比
較は集積されるような方法で実施することができ、ディスクリプタのパラメータ
ーの1つ以上を次の反復で拡張して、所望の生物学的機能を有することが知られ
るデータセット中の追加の生体分子を取りこむことができる。好ましくは、図6
を参照して記載した実施形態では、標準偏差に乗じる乗数を増加することにより
拡張を達成することができる。勿論、様々な乗数を、当業者には明らかな様々な
距離パラメーターに適用することができる。
【0154】 ある実施様態では、選ばれる乗数はデータセット内のそれぞれの距離に対して
同じである。これは、単に1つの乗数を調節し、その乗数を全体に応用すること
により完全な反復を行うことができる点で、計算を単純化する。しかし、この記
載を読めば、当業者には、ディスクリプタ中のそれぞれの距離に対して異なる乗
数を選択し応用する代わりの実施様態を実施できることが明らかになるであろう
。ディスクリプタの1種以上の幾何学パラメーターを広げて反復を実施する際、
これらの乗数を量を変えることに変化させて該データセットに対する機能部位デ
ィスクリプタの適合を最適化することができる。実際、追加の生物分子が所望の
機能、特に、対応する構造が実験的に解明されている所望の機能を有すると同定
されるとき、このプロセスをさらに反復してさらに特定の機能部位ディスクリプ
タを精密にすることができる。
【0155】 図8は、本発明のプロセスにより開発された「9距離」機能部位ディスクリプ
タの幾何学的制約に対する例示のデータセットを説明する図である。このディス
クリプタはホスホリパーゼA2の活性部位を描写する。図8のデータセットは記述
を容易にするために表形式で説明する。図8の行は、距離パラメーター(機能部
位ディスクリプタ(ホスホリパーゼ活性を有する酵素の活性部位に対する)の平
均距離に乗数(ここでは2.0)を乗じた標準偏差をプラスまたはマイナスしたと
して書いた)に対応する。9距離が活性部位を構成する上記の実施様態に対して
は、好ましくは320Aから320Iまでの参照特性により説明される9距離がある。図
8の列はそれぞれの残基対距離に関わる適当なデータを与える。図8の実施例で
は、これらの列は残基対に対する平均距離、データセット内のこれらの距離の標
準偏差、および該幾何学を所望の広さに広げるために使う乗数326を含む。
【0156】 好ましくは、ある実施様態では、機能部位ディスクリプタは、データセットを
トレーニング(training)して結果を増強する工程を含むプロセスを用いて作成
する。図9は、本発明のある実施様態によってデータセットをトレーニングする
ための技術を含む、機能部位ディスクリプタを作成するプロセスを説明する演算
フロー図である。さて図9を参照すると、工程342において、既知の機能を有す
る機能部位幾何学を選択する。1次、2次、3次等の残基をその機能部位幾何学
内に同定する。これは工程344により説明される。工程346において、それぞれの
残基に対する正体を選ぶ。好ましくは、これらの選択は考察下の特定の生物学的
機能に関係する現構造または他の情報の分析に基づいて行われる。
【0157】 工程348に説明したように、特定の生物学的機能を持つ既知構造または分子を
、機能部位ディスクリプタを作成し精密にするための試験群として選択すること
ができる。工程350において、距離幾何学を計算する。好ましい実施様態では、
これは上記のように実施する、すなわち、選択した残基対間の距離を計算し、デ
ータセットについて平均し、そして、任意の乗数を乗じた標準偏差をベースとし
て調節する。乗数は典型的には距離幾何学に対して約0.1〜100の範囲にあり、1.
0、1.5および2.0の乗数が特に好ましい。
【0158】 工程352において、機能部位ディスクリプタを相対的に大きな試験セットに対
してスクリーニングする。試験セットは、目的の活性部位を含むことが知られる
構造の分子、ならびに活性部位を含まないことが知られている分子または構造を
含む。好ましくは、上記のように、該スクリーニングは、ディスクリプタのパラ
メーターの1つ以上の緩和を徐々に増加しながら(例えば、距離幾何学乗数を増
加することにより)反復する方式で実施する。データセットをトレーニングする
ために、工程354において、ある分子を試験セットから除いて各反復時にトレー
ニングセット中に挿入する。工程356において、機能部位ディスクリプタがデー
タセット内でよく適合するパラメーターを含むまで、該反復プロセスを続行する
。このトレーニングプロセスはコンピュータ業界ではジャックナイフトレーニン
グと呼ばれる。
【0159】 以上、本発明による機能部位ディスクリプタを作成する技術を記載したので、
ここで説明を、非限定のやり方で機能部位ディスクリプタまたは機能部位ディス
クリプタの群(すなわち、機能部位ディスクリプタのライブラリー)を利用して
、新規ヌクレオチド配列によりコードされた生物学的機能または今までこの機能
が同定されてなかった生物分子を同定することに転じる。
【0160】 図10は、機能部位ディスクリプタを利用してヌクレオチドおよび/またはアミ
ノ酸配列が特定の生物学的機能をコードするかどうかを決定するためのプロセス
を説明する演算フロー図である。工程422において、試験のための配列を同定す
る。この配列は同定したばかりの新しい配列かまたは現配列であり得る。もし配
列がヌクレオチド配列であれば、次工程に進む前にアミノ酸配列を標準アルゴリ
ズムを使って推論することができる。これによりコードされて生物分子(例えば
、タンパク質、酵素、リボザイム等)は天然、完全合成、または中間の任意のも
のであってよい。説明の目的で、図10は該配列が天然タンパク質、例えば酵素を
コードすると仮定する。工程424において、、その1次配列を有する酵素の三次
元モデルを、例えば、スレッディング、アブイニシオまたは他のタンパク質フォ
ールディングアルゴリズムの応用により作成する。当業者が認めるであろうよう
に、三次元構造モデルを作成するのに有用な任意のアルゴリズム、例えば、相同
性モデル、スレッディングまたはアブイニシオフォールディングアルゴリズムを
使うことができる。
【0161】 工程428において、対象の機能の機能部位幾何学(または機能部位ディスクリ
プタ)と関連する残基を含む残基組合わせを、三次元フォールドした配列から同
定する。例えば、もし考察下の機能部位に対する活性部位ディスクリプタが3個
の残基、Cys、CysおよびProを含めば、Cys、CysおよびPro残基の組合わせをフォ
ールドした配列内に同定する。最初の篩い分けを実施して、明白に活性部位ディ
スクリプタに関連する幾何学内にあてはまる適当な幾何学でない組合わせをスク
リーニングにより除去することができる。
【0162】 工程430において、同定した残基組合わせを機能部位ディスクリプタと比較し
て整合があるかどうかを決定する。もし整合があれば、対象のフォールドした配
列は工程432および434により説明される所望の機能を有すると予測することがで
きる。追加の残基組合わせを機能部位ディスクリプタと比較してこれらの追加の
組合わせが機能部位ディスクリプタと整合するかどうかを決定することができる
。工程436がこれを説明している。残基組合わせが機能部位ディスクリプタと同
定されれば、該プロセスを他の機能部位ディスクリプタおよび該タンパク質中の
他の機能部位を含みうる他の残基の組合わせに対して繰返すことができる。工程
438がこれを説明している。
【0163】 上記の本発明の様々な実施様態、様態、および特徴を、ハードウェア、ソフト
ウェア、またはそれらの組合わせを使って実行することができ、1つ以上のプロ
セッサを有するコンピュータシステムを使い実行することができる。実際、ある
実施様態では、これらのエレメントを、これについて記述した機能を実施する能
力のあるプロセッサをベースとするシステムを使って実施する。例示のプロセッ
サをベースとするシステム502を図11に示す。コンピュータシステム502は、1つ
以上のプロセッサ504のようなプロセッサを含む。プロセッサ504は通信バス506
に接続されている。様々なソフトウェア実施様態がこの例示のコンピュータシス
テムに記載されている。以上記載した本発明の実施様態、特徴および機能は特定
のコンピュータシステムまたはプロセッサアーキテクチャにまたは特定の演算シ
ステムに依存するものではない。実際、本発明の説明が与えられれば、関連分野
の当業者には他のコンピュータまたはプロセッサシステムおよび/またはアーキ
テクチャを使って本発明を実施する方法が明らかであろう。
【0164】 プロセッサをベースとするシステム502は、主メモリ508、好ましくはランダム
アクセスメモリ(RAM)を含むことができ、また2次メモリ510を含むこともでき
る。2次メモリ510は、例えば、ハードディスクドライブ512および/または取外
し可能保存ドライブ514(フロッピーディスクドライブ、磁気テープドライブ、
光ディスクドライブ等)を含むことができる。取外し可能保存ドライブ514は取
外し可能保存媒体518を読み取りおよび/または取外し可能保存媒体518に書き込
みする。取外し可能媒体518はフロッピーディスクドライブ、磁気テープドライ
ブ、光ディスクドライブ等を表し、取外し保存ドライブ514により読み取られか
つ書き込まれる。認識されるように、取外し可能媒体518は、その中にコンピュ
ータソフトウェアおよび/またはデータを保存しているコンピュータで使用可能
な保存媒体を含む。
【0165】 代わりの実施様態では、2次メモリ510は、コンピュータプログラムまたは他
の指示をコンピュータシステム502にロードすることを可能にする他の類似手段
を含むことができる。このような手段は、例えば、取外し可能保存ユニット522
およびインターフェース520である。このような例は、プログラムカートリッジ
およびカートリッジインターフェース(ビデオゲーム装置に見られるような)、
取外し可能メモリチップ(EPROM、またはPROMのような)および関連ソケット、
ならびに、ソフトウェアおよびデータを取外し可能保存ユニット518からコンピ
ュータシステム502へ伝達することを可能にする他の取外し可能保存ユニット522
およびインターフェース520を含むことができる。
【0166】 コンピュータシステム502はまた通信インターフェース524を含むことができる
。通信インターフェース524はソフトウェアおよびデータをコンピュータシステ
ム502と外部装置との間で伝達することを可能にする。通信インターフェース524
の例は、モデム、ネットワークインターフェース(例えば、イーサネットカード
のような)、通信ポート、PCMCIAスロットおよびカード等を含むことができる。
通信インターフェース524を経由して伝達されるソフトウェアおよびデータは、
電子、電磁、光、または他のシグナルであり得るシグナルの形態であり、通信イ
ンターフェース524により受信可能である。これらのシグナルは回路528を経由し
て与えられる。この回路528はシグナルを運び、無線媒体、ワイヤまたはケーブ
ル、光ファイバー、または他の通信媒体を使って実施することができる。回路の
いくつかの例は、電話線、セルラー電話リンク、RFリンク、ネットワークインタ
ーフェース、および他の通信回路を含むことができる。
【0167】 本明細書において、用語「コンピュータプログラム媒体」および「コンピュータ
使用可能媒体」は、一般的に、取外し可能保存デバイス518、ディスクドライブ5
18、ディスクドライブ512に搭載可能なディスク、および回路528上のシグナルの
ような媒体を意味して使われる。これらのコンピュータプログラム製品は、ソフ
トウェアまたはプログラム指示をコンピュータシステム502に提供するための手
段である。
【0168】 コンピュータプログラム(コンピュータ制御論理とも呼ぶ)は主メモリ508お
よび/または2次メモリ510に保存される。コンピュータプログラムはまた通信
インターフェース524を経由して受信することもできる。このようなコンピュー
タプログラムは、実行されると、コンピュータシステム502が本明細書に考察し
た本発明の特徴を実施することを可能にする。特に、コンピュータプログラムは
、実行されると、プロセッサ504が本発明の特徴を実施することを可能にする。
従って、このようなコンピュータプログラムはコンピュータシステム502を制御
する。
【0169】 該エレメントをソフトウェアを使って実施する実施様態では、ソフトウェアを
内蔵するか、またはコンピュータプログラム製品を経由して伝達して取外し可能
ドライブ514、ハードドライブ512または通信インターフェース524を使ってコン
ピュータシステム502中にロードすることができる。制御論理(ソフトウェア)
が、プロセッサ504により実行されると、プロセッサ504は本明細書に記載の本発
明の機能を実施する。
【0170】 他の実施様態では、該エレメントを、例えば、PALs、特定用途向け集積回路(
ASICs)または他のハードウェア成分のようなハードウェア成分を使って主にハ
ードウェア内で実施する。本明細書に記載した機能を達成するためのハードウェ
アステートマシーン(hardware state machine)の実施は、関連分野の当業者に
は明らかであろう。さらに他の実施様態では、エレメントをハードウェアとソフ
トウェアの両方の組合わせを使って実施する。
【0171】実施例 以下の実施例は、本発明の好ましい実施様態の実施を説明するために提供され
、本発明の範囲を限定するものではない。
【0172】実施例1 グルタレドキシン/チオレドキシンのオキシドレダクターゼ活性およびT1リボヌ
クレアーゼのRNA加水分解活性の配列-対-構造-対-機能予測 (a)序論 本実施例においては、大腸菌(E.coli)のグルタレドキシン/チオレドキシンフ
ァミリーのジスルフィドオキシドレダクターゼ活性およびT1リボヌクレアーゼフ
ァミリーのRNA加水分解活性を担う活性部位を機能部位ディスクリプタとして記
載する。その後、これらのディスクリプタが、X線結晶学またはNMR分光分析によ
り作製した高分解タンパク質(該タンパク質のほとんどは今までに他の活性を有
することは同定されているがオキドレダクターゼまたはリボヌクレアーゼ活性は
同定されてない)構造のライブラリー中の適当な活性部位(例えば、オキシドレ
ダクターゼ触媒活性を与える活性部位)を正確に同定することが示される。次に
、これらの機能部位ディスクリプタを使ってスクリーニングし、アブイニシオフ
ォールディングまたはスレッディングアルゴリズムにより予測される低から中分
解の構造の活性部位を首尾よくに同定する。また、その三次元構造がスレッディ
ングアルゴリズムを使い予測されていた酵母タンパク質の機能の予測も記載する
。以下にさらに詳細に記載するこれらの結果は、3次構造予測アルゴリズムによ
り作製した低から中分解構造を使って、ヌクレオチド配列から決定した推論1次
構造から誘導された予測三次元生物分子構造中の機能部位、例えば、活性部位を
同定することが可能であることを実証する。これらの方法の自動化は、機能部位
ディスクリプタのライブラリーと一緒に、最初に1つ以上の配列から1つ以上の三
次元構造を予測し、その後予測した構造中の機能部位、例えば活性部位を同定す
ることにより、ヌクレオチドまたはタンパク質配列データベースの大規模機能ス
クリーニングを可能にする。
【0173】 (b)タンパク質機能を同定するための局所配列モチーフの困難性 上に記載したように、機能に関係づけられる局所配列サインは、タンパク質フ
ァミリー内の配列数が増加すると特異性はますます低下する。Prositeデータベ
ース(13.0版、1995年11月)の1152パターンを検証すると、Prositeの開発者に
より同定された真および偽陽性および陰性のセットを使ってパターンの908(79
%)がそれらの配列に特異的であった。しかし、局所配列モチーフの観察例数が
増加すると偽陽性も増加した。例えば、パターンの10.5%について、選択した配
列の90-99%は真陽性であった。しかしパターンの残りの10.5%に対しては、選択
した配列の90%未満が真陽性であった。タンパク質機能の局所配列を媒介とする
同定の曖昧さはまた、他の局所配列モチーフデータベース、例えば、Blockおよ
びPrintsでも起こる。例えば、Prositeデータベースの1997年9月版は、チオレド
キシン配列サインPS00194に対して111の真陽性、5つの偽陽性、および1つの偽陰
性を掲げる。5つの偽陽性、YNC4 CAEELおよび4つのポックスウイルスからのPOL
Gタンパク質は、下の表1に示すように、BlocksまたはPrintsデータベースのチ
オレドキシン配列サインにより同定されない。
【0174】 データベース検索により、チオレドキシン・ファミリーに属すると推測される
他のタンパク質配列が、チオレドキシンに対するプロサイト(Prosite)、ブロ
ックス(Blocks)、およびプリンツ(Prints)のローカル配列モチーフによって
は見出されないことが明らかとなった。例えば、用語「チオレドキシン」を用い
たEMBL(http://www.embl-heidelberg.de/srs5)でのシーケンス・レトリーバル
・システム(Sequence Retrieval System:SRS)によるスイスプロット(SwissP
rot)のキーワード検索(BairochおよびApweiler, 1996)は、それらの配列の寄
託者(depositor)によってチオレドキシン類または推定(probable)チオレド
キシン類として同定された7つの追加の配列(上記表1を参照されたい)を明らか
にした。これらの配列は、プロサイト、プリンツ、およびブロックスによって様
々に分類された。スイスプロットの1つの配列、Y039_MYCTUは、これらのローカ
ル配列モチーフ・データベースのいずれによってもチオレドキシンとして同定さ
れなかった。
【0175】 実験的証拠により、他のタンパク質もチオレドキシン・ファミリーに属するが
、前記モチーフ・データベースによっては同定されないことが多いということが
明らかにされた(表1C)。例えば、YME3_THIFFEは、チオバシラス・フェロオ
キシダンス(Thiobacillus ferrooxidans)のMOBE 3'領域(ORF 8)中の予測9.0
kDのタンパク質である。この遺伝子を含むクローンは大腸菌チオレドキシン突
然変異体を補完し(RohrerおよびRawlings, 1992)、このことはこのタンパク質
がグルタレドキシン(glutaredoxin)/チオレドキシン・ファミリーに属すると
いう実験的証拠を与える。さらに、検索配列としてYME3_THIFEを用いる非重複配
列データベースのブラスト(BLAST)検索(Genbank CDS翻訳、PDB、スイスプロ
ット、およびPIR;http://www.ncbi.nlm.nih.gov/BLAST/blast-databases.html
)は、2つの有意な一致(match)(ディー・ブルガリス[D. vulgaris]由来のペリ
プラズム・ヒドロゲナーゼ(PHFL_DESVO)およびアナベナ属[Anabaena]由来のOR
F-R5に対して)ならびに2つの潜在的な一致(そのうちの1つは、メタノバクテ
リウム・サーモオートトロフィクム(Methanobacterium thermoautotrophicum)
由来のグルタレドキシン様タンパク質であるGLRX_METTHに対して)を同定した。
GLRX_METTHとYME3_THIFEとの間の配列アラインメントによって、活性部位のシス
テインの保存が示される。従って、YME3_THIFEは公知のチオレドキシンとの配列
類似性が低く、また実験的証拠はそのような帰属を支持しているけれども、該配
列は、グルタレドキシンまたはチオレドキシンのプロサイト・ローカル配列モチ
ーフのいずれかの部分のみを含んでいるため、プロサイト・データベースのロー
カル配列モチーフとの比較によってはそのように同定されない。また、YME3_THI
FE配列は、プリンツによってはチオレドキシンとして同定されないが、ブロック
ス・データベースによってグルタレドキシンとして分類される。
【0176】 (c) ジスルフィド・オキシドレダクターゼ機能部位ディスクリプタ グルタレドキシン/チオレドキシン・タンパク質ファミリーは、活性部位のシ
ステインの酸化還元活性ペアによるチオール−ジスルフィド交換反応を触媒する
小さなタンパク質からなっている(YangおよびWells, 1991a; YangおよびWells,
1991b)。グルタレドキシン類およびチオレドキシン類は類似の反応を触媒する
が、それらは、それらの示差的な反応性によって区別される。グルタレドキシン
類はグルタチオン結合部位を含み、(グルタチオン・レダクターゼによってそれ
自身還元される)グルタチオンによって還元され、リボヌクレオチド・レダクタ
ーゼによるデオキシリボヌクレオチド類のグルタチオン依存性合成に必須である
(HolmgrenおよびAslund, 1995)。対照的に、チオレドキシン類は、フラボタン
パク質であるチオレドキシン・レダクターゼによって直接還元され、より一般的
なジスルフィド・レダクターゼとして働く(HolmgrenおよびBjornstedt, 1995)
。しかしながら、結局のところ、両タンパク質に対する還元当量は、NADPHによ
ってもたらされる。タンパク質ジスルフィド・イソメラーゼ類(PDI)は、チオ
レドキシン様ドメインを含むことが見出され、従って、類似の活性を有する(Ke
mminkら, 1997; Kemminkら, 1995)。
【0177】 レドキシン・ファミリーの活性部位は、3つの不変の残基(2つのシステインお
よび1つのシス−プロリン[cis-proline])を含む。突然変異誘発実験により、
有意なタンパク質機能のためには、2つの残基によって隔てられた2つのシステイ
ンが必須であることを示した。これら2つの残基の側鎖が、反応の間に酸化され
還元される(Bushwellerら, 1992; YangおよびWells, 1991b)。これら2つのシ
ステインはα−ヘリックスのN末端に位置する。レドキシン・ファミリーのもう
1つの特有の特徴は、一次構造、すなわちアミノ酸配列の一次元表示ではなく、
折り畳まれた三次元構造において、2つのシステインの近隣に位置するシス−プ
ロリンの存在である。このプロリンは、全てのグルタレドキシンおよびチオレド
キシン構造中に構造的に保存されており(Kattiら, 1995)、公知のグルタレド
キシン類およびチオレドキシン類の一列に整列した配列中で不変であるが、その
機能的重要性については分かっていない。他の残基、特に帯電した残基は、シス
テインの特定のチオールイオン化特性に重要であるが、必須ではなく、タンパク
質ファミリー内で変化しうることが示された(Dysonら, 1997)。
【0178】 グルタレドキシン/チオレドキシン・ファミリーのジスルフィド・オキシドレ
ダクターゼ活性(すなわち、生物学的機能)に対する機能部位ディスクリプタは
、上記で検討した3つのアミノ酸を用いて以下のように組み立てられた:活性部
位の構造は、バクテリオファージT4グルタレドキシン、laaz(Eklundら, 1992)
、ヒト・チオレドキシン、4trx(Forman-kayら, 1990)、およびジスルフィド結
合形成タンパク質である1dsb(Martinら, 1993)の三次元構造比較から導き出さ
れた。これら3つのタンパク質の活性部位を、図12に示すように、その機能部
位ディスクリプタの2つのシステインアミノ酸とシス−プロリン・アミノ酸との
α−炭素距離と共にアラインすることができる。ジスルフィド・オキシドレダク
ターゼ機能部位ディスクリプタは、下記のように開発された:2つの残基および
α−炭素距離5.5 +/− 0.5Åで分離された2つのシステイン。これらのシステイ
ンは、プロリン残基に近接していなければならない。具体的には、Cys(i)からプ
ロリンまでのα−炭素距離は8.5 +/− 1.5Åであり、Cys(i+3)からプロリンま
でのそれは6.0 +/− 1.0Åである。これら3つの距離のセットは、グルタレドキ
シン/チオレドキシン・ファミリーに対する距離のみの(distance-only)機能
部位ディスクリプタを含む。スルフヒドリルイオン化に関するヘリックス・マク
ロ双極子(macrodipole)の効果のため、前記システインはヘリックスのN末端に
なければならないという幾つかの証拠が存在するが(KortemmeおよびCreighton,
1995; KortemmeおよびCreighton, 1996)、この証拠には異議が唱えられ(Dyso
nら, 1997)、この性質は必要な場合のみに適用される。下記の表は、ジスルフ
ィド・オキシドレダクターゼ機能部位ディスクリプタに対する「9種の距離(9 d
istance)」の幾何学的制約条件のセットを挙げたものである。
【0179】 表2.ジスルフィド・オキシドレダクターゼFSO (d) ジスルフィド・オキシドレダクターゼ機能部位ディスクリプタの妥当性確
認(validation) 上記セクション(b)で得た距離のみの機能部位ディスクリプタは、グルタレド
キシン/チオレドキシン・ファミリーに属するタンパク質を、その構造がブルッ
クハーベン(Brookhaven)データベースから導き出され、予め解明されている36
4個の非重複タンパク質のデータ・セットと独自に区別するにはほぼ十分である
。この364個のタンパク質のセットについては、13個が配列シグネチャー-C-X-X-
C-を有する。勿論、たった3つの、1thx(チオレドキシン)、1dsbA(タンパク質
ジスルフィド・イソメラーゼ、A鎖)、および1prcM(光合成反応中心、M鎖)が
、該ディスクリプタで指定された距離内にプロリンを有する。これら3つのタン
パク質のうち、1thxおよび1dsbのみがヘリックスのN末端またはその近くに位置
する2つのシステインを有する。これら2つのタンパク質は、試験データ・セット
中でたった2つの「真陽性(true positives)」であり(1prcMは所望の活性を示
さないので)、この距離のみの機能部位ディスクリプタが、グルタレドキシン/
チオレドキシンタンパク質ファミリーのジスルフィド・オキシドレダクターゼ活
性に非常に特異的であることが立証された。システインがヘリックスのN末端に
あるという要件が含まれるときは、1prc-M部位も除かれ、グルタレドキシン/チ
オレドキシン・ジスルフィド・オキシドレダクターゼ機能に絶対的に特異的な機
能部位ディスクリプタが作成される。
【0180】 この機能部位ディスクリプタの1以上の距離パラメーターが緩和(relaxed)で
あり得るか否かを調査するために、Cys-ProおよびCys-Cys α−炭素距離中の許
容された分散(allowed variance)を、+/− 0.1Åの増分で均一に増加させた
。許容距離を+/− 0.1Åまで増加し、この緩和型ディスクリプタをブルックハ
ーベン・データベース由来の364個のタンパク質の同じサブセットに適用したと
き、1fjm(Goldbergら, 1995)、セリン/スレオニン・ホスファターゼ、1lct(
Dayら, 1993)、ラクトフェリン、および1prc-C(Deisenhogerら, 1995)、光合
成反応中心のC鎖も、距離のみの機能部位ディスクリプタによって所望の機能を
有することが予測される。1fjm中のCys-Cys-Pro部位は、シス配置のプロリンを
含むグルタレドキシン/チオレドキシン・ファミリーに見出されるそれと興味深
いほど類似しているが、システインはヘリックスのN末端ではなくC末端に存在す
る。鉄輸送タンパク質である1lctは、金属結合性システインのクラスターの近く
にプロリンを含む。これらのシステインは、非常に不規則な構造中にあり、ヘリ
ックス中にはない。1pcr-Mでは、Cys-Cys-Pro構造モチーフは、ヘリックスのC末
端近傍の膜貫通ヘリックスの一方の面に沿って配置されている。1prc-Cでは、Cy
s-Cys-Proは、もう一つの非常に不規則な領域に位置している。従って、緩和型
距離のみのFFFによって見出される4つの全てのタンパク質は、ヘリックス要件が
含まれる場合は除外される。距離による制約条件がさらに緩和なとき(+/− 0.
3Åまで)は、ただ1つの他のタンパク質、フェレドキシン(金属結合性タンパ
ク質でもある)である2fd2(Somanら, 1991)は、ブルックハーベン・データベ
ース由来のこの同じ公知構造サブセットから選択された。また、システインは、
ヘリックスではなく、非通常(nonregular)構造領域中に見出される。従って、
機能部位ディスクリプタが、システインがヘリックスのN末端に位置するという
立体配置パラメーターを含むときは、機能部位ディスクリプタ距離制約条件が+
/− 0.3Åまで緩和されていても、偽陽性のもの全てを排除できる。
【0181】 (d) ジスルフィド・オキシドレダクターゼ機能部位ディスクリプタの不正確モ
デルへの適用 (i) モンススター(MONSSTER)アブイニシオ(ab initio)フォールディングアルゴ
リズムによる予測される構造 モンススター・アルゴリズムは、X線結晶構造解析法または核磁気共鳴法(Sko
lnickら, J. Mol. Biol. 265:217-241 (1997)))によって、その構造が予め決
定されている一組のタンパク質に対して標準化された(benchmarked)。大腸菌
グルタレドキシン1ego(Xiaら, 1992)の構造は、この妥当性確認工程の一部と
してのモンススターによって予測された。正しく予測された構造は、不正確モデ
ルであり、すなわち、このモデルを公知のタンパク質構造と比較した場合、RMSD
が3〜7Åまで変化する。例えば、1egoでは、モンススターによって作成される最
良の不正確モデルは、対応するα−炭素間のRMSDが5.7Åである。さらに、この
グルタレドキシンの配列は、ジスルフィド・オキシドレダクターゼ機能部位ディ
スクリプタを作り出すために用いられる3つの構造のいずれかと30%未満の配列
同一性を示す。ジスルフィド・オキシドレダクターゼ機能部位ディスクリプタを
、等温線が伝わる間に(during the isothermal runs)1ego配列についてモンス
スターによって作り出される25個の正確な構造、および56個の不正確な構造、ま
たは誤って折り畳まれた(misfolded)構造に適用した。距離のみの機能部位デ
ィスクリプタは、全25個の「正確な」構造を、レドキシン・ファミリーに属する
ものとして選択し、全56個の誤って折り畳まれた構造を拒絶した。次に、5つの
他のタンパク質についてモンススター・アルゴリズムによって作り出された267
個の正確に予想された構造および不正確に予測された構造のセットを作り出した
。距離のみのグルタレドキシン/チオレドキシン機能部位ディスクリプタは、正
確に折り畳まれた1ego構造に特異的であり、試験されたもののうちの任意の他の
正確にまたは不正確に折り畳まれた構造を認識しなかった。システインがヘリッ
クスのN末端に位置するという基準の包含は、これらの結果を変更しなかった。
【0182】 これらの不正確モデルに適用される機能部位ディスクリプタパラメーターの緩
和性をさらに調査するため、距離制約条件を再度+/−0.2Åまで緩和した。この
レベルの緩和性によっては、ディスクリプタは、依然として全ての正しく折り畳
まれた1ego構造に特異的であった。分散が±0.3Åまで緩和されると、距離のみ
のディスクリプタは、25個の正しく折り畳まれた構造に加えて、56個の誤って折
り畳まれた(misfolded)1ego構造のうちの2個も選択した。許容される分散がさら
に0.5Åまで緩和される場合は、不正確に折り畳まれた構造が、さらに選択され
ることはなかった。これらの結果は、タンパク質構造の低分解能予測モデルに対
するグルタレドキシン/チオレドキシンジスルフィド・オキシドレダクターゼ機
能部位ディスクリプタの特異性および独自性を証明している。
【0183】 (ii) 「スレッディング(Threading)」アルゴリズムによる予測される構造 モンススターなどのアブイニシオ構造予測アルゴリズムは、非常に計算的過ぎ
て、ゲノム規模のスクリーニング・プロジェクトに必要な大規模スクリーニング
には適用できないので、スレッディングまたは逆フォールディングアルゴリズム
によって作り出される三次元タンパク質モデルの使用が好ましい。ジスルフィド
・オキシドレダクターゼ機能部位ディスクリプタを用いて、酵母ゲノム由来の幾
つかのタンパク質を調査した。選択されたタンパク質配列を、逆フォールディン
グまたはスレッディング・アルゴリズム(GodzikおよびSkolnick, 1992)を用い
た301個の非相同的タンパク質構造からなるデータベース(Fischerら, 1996)に
よって整列させた。
【0184】 スミス−ウォーターマン(Smith-Waterman)・ダイナミック・プログラミング
・アルゴリズム(Waterman, 1995)の「ローカル−グローバル」バージョンによ
って配列対構造(sequence-to-structure)アラインメントを行った。3つの異なる
スコアリング方法(Jaroszewskiら, 1997)によって前記アラインメントを位置
付けた。第1のスコアリング方法は、VogtおよびArgosによって報告された、ゴ
ネット(Gonnet)突然変異マトリックスを用いてギャップ・ペナルティーを最適
化する配列−配列タイプスコアリング(Vogtら, 1995)に基づいていた。第2の
方法は、公知構造の構造環境中に「マウントされた(mounted)」プローブ配列
由来の疑似エネルギー(pseudo-energy)に基づく配列−構造スコアリング方法
であった。疑似エネルギーという用語は、鋳型構造内の特定の二次的構造中に見
出される(プローブ配列からの)連続的なアミノ酸ペアの統計的傾向を反映して
いた。第3の方法は、構造−構造スコアリング方法であり、それによって公知の
鋳型構造からの情報をプローブ配列の予測される二次構造と比較した。プローブ
配列に対する二次構造予測スキームは、最も近隣のアルゴリズム(nearest neig
hbor algorithm;RychlewskiおよびGodzik、出版準備中)を利用した。ここで用
いたバージョンは、平均3状態(three-state)予測精度74%を達成した。
【0185】 配列対構造アラインメントのためのスコアを一旦算出すると、各スコアの統計
的有意性が決定される。この有意性を決定するために、スコアの分布を極値分布
に適合させ、生スコアを、2つの関係ない配列を比較したときに同じスコアを得
る可能性と比較した(Jaroszewskiら, 1997)。
【0186】 プローブ配列対鋳型構造のアラインメントを一旦決定すると、三次元モデルが
構築される。モデラー4(Modeller4)(Tripos Associates社製、セントルイス
)によって提供される自動モデル化ツールを利用するスクリプトを開発し(L. J
aroszewski, K. Pawlowski, A. Godzik、未発表)、スレッディング・アルゴリ
ズムによって提供される配列対構造アラインメントから構築された三次元モデル
のための全原子座標ファイル(all-atom coordinate files)を自動的に作り出
した。機能部位ディスクリプタを、緩和性無しで、モデルの任意のさらなる増大
、エネルギー計算、または分子力学シミュレーション無しに、これらの構造に直
接適用した。
【0187】 S.セレビシエ(S. cerevisiae)ゲノム・データベースからの有意な相同性に
欠ける4つのタンパク質の配列を、ジスルフィド・オキシドレダクターゼ機能部
位ディスクリプタを用いて試験した:1つのタンパク質が、タンパク質ジスルフ
ィド・イソメラーゼ・ファミリー(S67109)に属すると予測され、1つの配列が
、仮想(hyupothetical)チオレドキシン(YCX3_YEAST)として、そして2つの仮
想タンパク質(一方はコメ由来のグルタレドキシン(S51382)に非常にわずかな
配列類似性を有し、他方はメタノコッカス・サーモアウトホルミクム(Methanoc
occus thermoautoformicum)由来のグルタレドキシン(S70116)に非常にわずか
な配列類似性(ブラスト・スコア[Blast score]によれば有意性なし)を有する
)が、データベースで同定された。S51382は、いずれの配列またはモチーフ・デ
ータベースでもグルタレドキシンまたはチオレドキシンとして同定されなかった
【0188】 スレッディング・アルゴリズム(GodzikおよびSkolnick, 1992)によって、4
つの全ての既知タンパク質の配列と、301個の非相同的タンパク質(Fischerら,
1996)からなるデータベースからの1ego(大腸菌グルタレドキシン(Xiaら, 199
2))または2trx(大腸菌チオレドキシン(Kattiら, 1990))のいずれかの構造
とをアラインさせた。配列は、スレッディング結果の有意性を評価するのに使用
した3つ全てのスコアリング方法によって1egoまたは2trx(A鎖)のいずれかに一
致したので、アラインメント適合性(alignment fit)は強かった。モデルは配
列対構造アラインメントに基づいて構築され、機能部位ディスクリプタによって
スクリーニングされた。12個全てのモデル(4配列×3スコアリング方法)は、距
離のみの機能部位ディスクリプタによって記述されたジスルフィド・オキシドレ
ダクターゼ活性部位を有することが見出された。
【0189】 総合すると、これらの結果は、スレッディング・アルゴリズムによって作り出
されたモデルは、機能部位ディスクリプタのタンパク質中の活性部位の同定への
適用に十分であること、ならびに本発明の配列対構造対機能パラダイム(paradi
gm)を用いるゲノム・データベースの大規模機能性分析のためのそれらの実用性
を証明している。
【0190】 (f) T1リボヌクレアーゼ機能部位ディスクリプタ 機能部位ディスクリプタは、T1、T2、U2、およびFIなどの多数のリボヌクレア
ーゼ、ならびに遠縁の真菌のリボトキシン類ファミリーを含むタンパク質の1つ
のファミリーである、T1リボヌクレアーゼの活性部位に対しても開発された。こ
れらのタンパク質は、プリン、特にグアニン塩基に一般的に特異的なエンドリボ
ヌクレアーゼ類である(Steyaert, 1997)。2つのヒスチジンとグルタミン酸が
、これらの酵素の触媒活性に必須であることが知られており、チロシン、フェニ
ルアラニン(またはもう1つの大きな疎水性残基)、およびアルギニンが反応の
遷移状態の安定化に関与している。これらの触媒性残基は、β−シートの一方の
面を横切る種々の鎖上に位置する。プロサイト、プリンツ、またはブロックスの
いずれのデータベースも、このファミリーを同定するローカル配列シグネチャー
を提供しない。
【0191】 その構造が解明されている3つのT1リボヌクレアーゼ(1rms(Nonakaら, 1993
)、1fus(Vassylyevら, 1993)、および1rtu(Noguchiら, 1995))の分析は、
三次元空間での活性部位残基の位置が非常によく保存されていることを示す。従
って、適当なα−炭素間の距離に基づく機能部位ディスクリプタが、これらの距
離、プラスマイナス小さな変動から開発された(developed)。距離パラメータ
ーの値は、図13に挿入された表に示す。
【0192】 三次元構造に適用した場合、T1リボヌクレアーゼ機能部位ディスクリプタは、
3つの段階で実行された:第1に、各構造を、求核置換に関係する三連(triad)残
基(His-His-Glu)について検索した;第2に、His-His-Glu三連残基を有するそ
れらの構造を、遷移状態安定化に関係する三連残基(Tyr-疎水性-Arg)について
検索した;そして第3に、両方の三連残基が見出されたなら、その2つの三連残
基の相対的位置をα−炭素間の距離のみに基づいて調査した。機能部位ディスク
リプタのPDBデータベース中の364個の非相同的タンパク質構造への適用は、正確
に並べられた両方の三連残基を含むたった1つの構造である、試験データセット
中で唯一真陽性の9rnt(Martinez-Oyanedelら, 1991)を与えた。各距離につい
て±0.5Åまで許容分散を増加させても、それ以上ヒットするものは得られず、
このことは、距離制約条件が緩和されているときでさえ、この機能部位ディスク
リプタの原子的分解能まで分解される(solved to)T1リボヌクレアーゼ・ファ
ミリーの構造に対する特異性を証明している。
【0193】 T1リボヌクレアーゼ機能部位ディスクリプタの低分解能予測モデルへの適用可
能性を試験するために、9つのリボヌクレアーゼ配列を、301個の非相同的予測物
によってスレッドした(threaded)。9つ全ての配列が、3つ全てのスコアリング
方法によって高いスコアで9rnt構造と一致した。モデルを全27個(9配列×3スコ
アリング方法)の配列対構造アラインメントについて構築し、全27モデルをT1リ
ボヌクレアーゼ機能部位ディスクリプタによってスクリーニングした。全27モデ
ルは、構造中の正しい位置に両方のT1リボヌクレアーゼ活性部位の三連残基を含
んでいることが見出された。
【0194】 より遠縁の配列に関する方法を試験するために、3つのリボトキシン配列のモ
デルを構築した。リボトキシンは、アスペルギルス・フンギ(Aspergillus fung
i)ファミリーに見出されるタンパク質の小さなファミリーである。それらはrRN
Aを開裂し、リボソームを活性化し、最終的には細胞を死滅させる(KaoおよびDa
vies, 1995)。RNA開裂は、T1リボソームで見られる機構(Campos-Olibasら, 19
96)と非常に類似した機構によって行われる。3つの選択されたリボトキシン、
α−サルシン(α-sarcin)(RNAS_ASPGI)、クラビン(clavin)(RNCL_ASPCL
)、およびレストリクトシン(restrictocin)(マイトギリン(mitogillin))
(RNMG_ASPRE)は、複数の配列アラインメント・アルゴリズムによってT1リボヌ
クレアーゼに対してアラインできるが、リボトキシンとT1リボヌクレアーゼとの
間の配列同一性は非常に低い(35%未満のペアワイズで配列同一)。さらに、検
索配列として9rntの配列を用いたスイスプロット(BairochおよびApweiler, 199
6)のブラスト検索(Altschulら, 1990)は、これらのリボトキシン配列のいず
れも与えなかった。α−サルシン(Campos-Olivasら, 1996)およびレストリク
トシン(YangおよびMoffat, 1996)の構造は解明されたが、公開データベースに
はいずれもまだ発表されていない。
【0195】 それらのシグナル配列を含むこれら3つのリボトキシン配列は、301個の非相同
的タンパク質構造によってスレッドされた(Fisherら, 1996)。アラインメント
・スコアは、T1リボヌクレアーゼ自身についてのものより非常に低いけれども、
T1リボヌクレアーゼによって、各リボトキシン配列は、3つ全てのスコアリング
方法によって最高スコア配列として9rntにアラインメントした。スレッディング
・プログラムによって生産された配列対構造アラインメントに基づいて、9個の
モデル(3配列×3スコアリング方法)が構築された。全9個のモデルが求核およ
び遷移状態安定化三連残基の両者を含んでおり、T1リボヌクレアーゼ機能部位デ
ィスクリプタによって認識された。この結果も、遠縁のタンパク質モデルがスレ
ッディング・アルゴリズムによって生産された配列対構造アラインメントに基づ
いて構築できることを証明している。これらの低〜中分解能モデル内の活性部位
は、機能部位ディスクリプタによって認識できる。
【0196】 この実施例は、活性部位の三次元構造に基づくタンパク質機能を予測する本発
明の能力を証明している。自動化し易い(amenable to automation)この方法は
、タンパク質の活性部位が機能部位ディスクリプタを用いた予測モデルで同定さ
れた後、該タンパク質の構造がそのアミノ酸配列から先ず予測される、配列対構
造対機能パラダイムを用いる。次いで、機能は、タンパク質の予測された構造と
整列する特定の機能部位ディスクリプタに基づいて割り当てられる。
【0197】 本発明は、下記の利点を有する(それぞれについては、下記パラグラフでさら
に詳細に検討する):1)2つのタンパク質間の配列同一性が有意でない場合でも
適用できる;2)異なるグローバルフォールド(global folds)を有するが、類
似の活性部位および関連機能を有するタンパク質でも使用できる;3)類似のフ
ォールド(位相類縁体[topological cousins])を有するタンパク質と所定の機
能性ファミリーに属するタンパク質とを識別する;および4)所定のタンパク質
を機能性ファミリーに割り当てるのに加え、本方法はタンパク質活性部位の三次
元マップまたはモデルを作り出す。
【0198】実施例2 ジスルフィド・オキシドレダクターゼ活性を有するタンパク質を同定するための
大腸菌ゲノムの機能性スクリーニング (a) 導入 この実施例は、グルタレドキシン/チオレドキシンタンパク質ファミリーのチ
オール−ジスルフィド・オキシドレダクターゼ活性を有するタンパク質を同定す
るための、本発明の配列対構造対機能パラダイムの完全な大腸菌(Escherichia
coli)ゲノム(すなわち、全ORF)への自動化適用について記載する。下記のよ
うに、ヌクレオチド配列情報から推定されたアミノ酸配列から、スレッディング
・アルゴリズムによってタンパク質構造を予測する。スレッディング・アルゴリ
ズムは、その一次配列を構造データベース中の最も一致する配列と整列させて、
配列分析をローカル配列同一性の限界をはるかに超えて広げることによって、各
タンパク質構造のモデルを生成する。次いで、モデル化された構造は、グルタレ
ドキシン/チオレドキシンタンパク質ファミリーのチオール−ジスルフィド・オ
キシドレダクターゼ活性の原因である活性部位について機能部位ディスクリプタ
、すなわち実施例1に記載したオキシドレダクターゼ活性に対する機能部位ディ
スクリプタによって調査する。大腸菌ゲノム中の各ORFについてこの分析を行っ
たところ、このオキシドレダクターゼ活性を有していることが予め知られている
かまたは提案されている10個の配列が同定され、この機能を有していると予め同
定されていなかった他の2つの配列についても同定された。
【0199】 (b) 実験 大腸菌は、非常に広く分布しており、動物の下方消化管中に生息する医学上重
要な生物である。それは、多様な感染および疾病の原因でもある。さらに、大腸
菌は、遺伝学、生化学、および分子生物学研究のために好ましい生物であり、非
常によく研究されている。その非常に多数の分野における重要性の故に、ゲノム
・シーケンシングのための最も初期の候補の1つであった(Neidhardtら, 1996
)。大腸菌K-12株MG1655のゲノムの完全な4,639,221塩基対配列が、最近公表さ
れ(Blattnerら, 1997)、それによってコードされるORFのほぼ40%は、これま
で特徴付けされていなかった。
【0200】 K12株(http://www.genetics.wisc.edu/html/k12.html)由来の4290個のオー
プン・リーディング・フレーム(ORF)のタンパク質配列が、301個の非相同的タ
ンパク質構造からなるデータベースによってスレッドされた(Fisherら, 1996)
。詳細な原子モデルの製造は、CPUに非常に負担をかける工程であり、まだ、完
全なゲノム分析のための実現可能なアプローチではないので、1ego(Xiaら, 199
2)、1dsb、A鎖(Martinら, 1993)、または2trx、A鎖(Kattiら, 1990)のいず
れかにアラインする、これらの大腸菌配列に対する配列対構造アラインメントを
用いる分析を採用し、実施例1に記載のオキシドレダクターゼ機能部位ディスク
リプタを用いて、これらの構造は同定できる。
【0201】 4290個のORFの3つの異なるスコアリング機能(Jaroszewskiら, 1998)によっ
て見出される、301個の公知構造に対する最初の3つのアラインメントが作成され
た。得られた38,610個の配列対構造アラインメントうち、162個のアラインメン
トは1ego(Xiaら, 1992)に、195個は1dsb、A鎖(Martinら, 1993)に、174個は
2trx、A鎖(Kattiら, 1990)に対するものであった。これらのアラインメントを
さらにスクリーニングし、アラインされた配列が鋳型構造の適当な位置にオキシ
ドレダクターゼ機能部位ディスクリプタの活性部位残基を有しているか否かを決
定した。3つの構造のうちの1つにアラインし、前記ディスクリプタの活性部位
残基を含む配列を、チオール−ジスルフィド・オキシドレダクターゼ活性を示す
ものとして割り当てた。
【0202】 この工程を用いて、12個の異なる配列に対する39個の異なるアラインメント(
幾つかの配列は3つ全てのスコアリング機能によって選択された)が、オキシド
レダクターゼ機能部位ディスクリプタに一致することが見出され、それによって
チオール−ジスルフィド・オキシドレダクターゼ活性部位を有することが予測さ
れた。これらのORFを下記表3に列挙する。
【0203】 データベース名:大腸菌ゲノム・データベースで与えられる標識であるB0853
(Blattnerら, 1997)以外の、スイスプロット・データベース(BairochおよびA
pweiler, 1996)由来の全配列。この配列は、ジェンバンク(Genbank)登録番号
第ECAE000187によっても入手できる。
【0204】 Thrd/FSD:スレッディング・アルゴリズム(Jaroszewskiら, 1998)を用いた
大腸菌ORFの1ego、1dsb(A鎖)、または2trx(A鎖)の配列に対するアライメン
ト、次いでグルタレドキシン/チオレドキシン・ファミリー(FetrowおよびSkol
nick, 1998)のチオール−ジスルフィド・オキシドレダクターゼ活性に対する機
能部位ディスクリプタによって同定された活性部位残基に対して得られた配列−
配列アライメントの分析。スレッディング結果は、Godzikとその同僚によって報
告(Jaroszewskiら, 1998)された、3つの異なるスコアリング方法の組み合わせ
であるsq、br、およびttに関係している。簡単にいえば、sqは、ゴネット(Gonn
et)突然変異マトリックス(Gonnetら, 1992)を用いてギャップ・ペナルティー
(Vogtら, 1995)を最適化する配列−配列型のスコアリング法である。brは、鋳
型構造中の構造環境で「マウントされた(mounted)」プローブ配列からの疑似
エネルギーに基づく配列−構造スコアリング方法である。疑似エネルギーという
語句は、鋳型構造内の特定の二次構造中に見出される(配列されたプローブから
)連続的な残基対の統計的傾向を反映している。ttは、それによって、公知の鋳
型構造からの情報がプローブ配列の予測される二次構造と比較される構造−構造
スコアリング方法である。二次構造は、最近隣(nearest neighbor)アルゴリズ
ム(RyschlewskiおよびGodzik, 1997)によって予測された。これらのスコアか
ら、極大値分布に基づいて統計的有意さを計算した(Jaroszewskiら, 1998)。
【0205】 Blst/FSD:ブラスト(BLAST)検索プロトコール(Altschulら, 1990)を用い
た大腸菌の各ORFの1ego(Xiaら, 1992)、1dsb、A鎖(Martinら, 1993)、およ
び2trx、A鎖(Kattiら, 1990)タンパク質の配列に対するアライメント、次いで
、グルタレドキシン/チオレドキシン・ファミリーのチオール−ジスルフィド・
オキシドレダクターゼ活性によって特定される活性部位残基について得られた配
列−配列アライメントの分析。ここで報告される結果は、ギャップ−ブラスト(
gapped-BLAST)・プロトコールとPSI−ブラスト(BLAST)アライメント・プロト
コールとの組み合わせ(Altschulら, 1997)に対するものである。(ギャップ−
ブラストでのみ見出される)YIEJ_ECOLI以外の印の付けられた全ての配列は、ギ
ャップ−およびPSI−ブラストの両者で見出される。
【0206】 機能モチーフ:ローカル・シグネチャー・データベースであるプロサイト(Pr
osite)(ps;http://expasy.hcuge.ch/sprot/scnosit1.html)、プロサイト・
スコアリング方法を用いるプリンツ(Prints)(pps;http://www.biochem.ucl.
ac.uk/cgi-bin/attwood/SearchPrintsForm2.pl)、ブロックス(Blocks)スコア
リング方法を用いるプリンツ(pb;http://www.blocks.fhcrc.org/blocks_searc
h.html)、またはブロックス(b;http://www.blocks.fhcrc.org/ blocks_searc
h.html)に対するブラスト(Blast)またはスレッディング・プロトコールのい
ずれかによって見出される各配列の検索。各配列を、適当な配列データベースか
らここに記載のウェッブ・ページ上の適当な様式(form)にコピーした。各モチ
ーフデータベースを、所定の配列で検索し、返ってきたスコアを分析してチオレ
ドキシンまたはグルタレドキシン・ファミリーが同定されるか否かを調べた。
【0207】 *プリンツは、グルタレドキシン/チオレドキシン活性について3つのパターン
を有している。この配列は、これらのパターンのうちの1つのみにヒットする。
【0208】 **プリンツは、グルタレドキシン/チオレドキシン活性について3つのパター
ンを有している。この配列は、これらのパターンのうちの2つのみにヒットする
【0209】 上記表3に示されるように、プロサイト・データベース(リリース13、1997年1
1月28日アップデート;Bairochら, 1995)は、グルタレドキシン(PS00195)ま
たはチオレドキシン(PS00194)活性部位を示す9つの大腸菌配列を同定する。こ
れらの9つ全てのタンパク質は、スレッディング/機能部位ディスクリプタ工程
によっても同定された。後者の方法も、不定型のグルタレドキシンであると以前
に報告され(Vlamis-Gardikasら, 1997)、ローカル配列モチーフ・データベー
ス(プロサイト、プリンツ、およびブロックス)によって一貫性なく(inconsis
tently)分類されているグルタレドキシン2であるGLR2_ECOLIを同定した。さら
に、このタンパク質は、ブラストによってはグルタレドキシンまたはチオレドキ
シンとして認識されない。
【0210】 スレッディング/機能部位ディスクリプタ工程も、チオール−ジスルフィド・
オキシドレダクターゼ部位(NRDH_ECOLI、NRDG_ECOLI、およびB0853)を含むも
のとしてプロサイトによって同定されない3つの配列を同定した。NRDH_ECOLIは
、リボヌクレオチド・レダクターゼの電子伝達に関係する大腸菌のnrdEFオペロ
ンに見出される小さなタンパク質である(Jordanら, 1996)。NRDH配列によるロ
ーカル・シグネチャー・データベースの検索は、プロサイト・スコアリング機能
を用いるプロサイトおよびプリンツ・データベースが、この配列をグルタレドキ
シンとして分類しないことを示した。ブロックスコアリング機能を用いるプリン
ツ・データベース検索は、3つのモチーフのうちの2つを同定し、ブロックスは、
グルタレドキシン・モチーフとしてCXXCモチーフを同定したが、有意さスコアは
高くなかった。この配列が最初に報告されたとき、著者は幾つかのグルタレドキ
シンに対するその類似性に注目した(Jordanら, 1996)。最近の実験結果は、こ
のタンパク質が機能性レドキシンであることを証明した(Jordanら, 1997)。従
って、本発明の方法は、ブラストまたはプロサイトのいずれによっても同定され
ず、プリンツおよびブロックスによって低い有意さで同定された活性部位を明瞭
に同定した。第2の配列であるNRDG_ECOLIは、嫌気性リボヌクレオシド三リン酸
レダクターゼ活性化タンパク質として分類されており、酸化還元反応に関与して
いることが知られている(Sunら, 1995)。B0853は、調節タンパク質として分類
されているORFである(http://www.genetics.wisc.edu/html/orftables/index.h
tmlを参照されたい)。B0853は、グルタレドキシンまたはチオレドキシン活性部
位を有するものとしてプロサイト、プリンツ、またはブロックスによって認識さ
れなかった。従って、本発明の方法は、ブロックスコアリング方法と同様に、10
個全てのタンパク質の活性を正確に同定した(HenikoffおよびHenikoff, 1991)
。NRDG_ECOLIおよびB0853は、チオール−ジスルフィド・オキシドレダクターゼ
活性を有するものとして本発明の方法によっても同定された。
【0211】 ギャップ−およびPSI−ブラスト(Altschulら, 1997)を用いて全ての大腸菌
のORFの1ego、1dsb(A鎖)、および2trx(A鎖)の配列へのアライメントを生成
した。次いで、オキシドレダクターゼ機能部位ディスクリプタを得られたアライ
メントに適用した。上記表 に示すように、この工程の結果は、構造的に関連す
るタンパク質の同定において、スレッディング・アルゴリズムほどの説得力はな
かった(powerful)。さらに、GLR2、DSBC、およびDSBEは、アライメントを生じ
る最新技術であるブラスト法を用いても見逃された。
【0212】 これらの結果は、有用な機能予測を引き出すために機能部位ディスクリプタの
スレッディング・アライメントへの適用が必要であることを示す。タンパク質の
ペアは、類似構造を有し得るが、機能は無関係であり得ることが示された(Oren
goら, 1994)。そのようなタンパク質ペアは、位相類縁体(topological cousin
)と呼ばれる。位相類縁体が存在し、ありふれたものであるので、タンパク質の
構造の知見のみでは、タンパク質の機能を同定するには不十分である。ここで研
究されたタンパク質のこの点を証明するために、配列対構造スレッディング・ア
ライメントのスコアを分析した。3つ全てのスコアリング方法で、有意なスコア
は、500を超える明らかな異常値のセットを含んで、ほぼ0から約200〜300の範囲
に渡る。1000より大きい有意なスコアを有する配列は、鋳型構造と同一またはほ
ぼ相同性を示すが、100を超える有意さスコアを有する配列は、鋳型構造と最も
関係が有る(Jaroszewskiら, 1998)。
【0213】 しかしながら、ある配列が、100より大きな有意さスコアをもって特定の構造
にアラインするとしても、2つのタンパク質の機能は必ずしも同じではなかった
。例えば、配列YBBN_ECOLIは、3つ全てのスコアリング方法によって、2trx、A鎖
に対して非常に高い有意さスコアを与えた。
【0214】 データベース名:大腸菌ゲノム・データベース(Blattnerら, 1997)由来の標
識中で標識されたB2475以外の全ての配列は、スイスプロット・データベース(B
airochおよびApweiler, 1996)からのものである。この配列は、ジーンバンク登
録番号第ECAE000334でも見出すことができる。
【0215】 マッチ:スレッディング法(Jaroszewskiら, 1998)によって配列がアライン
する構造。
【0216】 スレッド・スコア:これらのスコア(左から右にsq、br、およびtt)は、表1
の脚注に記載した有意さスコアである。配列SGBH_ECOLIは、brスコアリング方法
によってのみ1dsbAにアラインし、sqまたはtt方法によってはアラインしなかっ
た。
【0217】 モチーフ:表1の脚注に記載したように、各配列をローカル・モチーフ・デー
タベースであるプロサイト(PS)、プリンツ(P-PSまたはP-B)、およびブロッ
クス(B)に対してスクリーニングした。
【0218】 BLAST配列解析によれば、この配列も多くのチオレドキシンと高度な配列の同
一性を有していた;しかし、活性部位の最もN末端側のシステインがセリンに変
更されていたので、機能部位ディスクリプタでは認識し得なかった。このタンパ
ク質は位相類縁体であり、システインは1個のみを含むので、顕著なジスルフィ
ド酸化還元酵素活性を示すとは考えられない;しかし、これらのタンパク質のう
ちの2、3のものでは、第2のシステイン(第1のものではなく)がセリンと置換され
た場合には、その多くの場合で活性は顕著に低減してはいるものの(Bushweller
ら, 1992; Walkerら, 1996)、なおジスルフィド異性化反応を触媒することがで
きる(Wunderlichら, 1995)。システインが1個のみ存在しているこれらの変異体
タンパク質では、反応機作に関与している第2のシステインは基質自体からのも
のが用いられる。これらのタンパク質はジスルフィド交換反応を触媒する傾向は
あるが、完全な還元反応は触媒しない(Walkerら, 1996)。
【0219】 YBBN_ECOLIはそのような配列であって一般的なチオール−ジスルフィド酸化
還元酵素からジスルフィド交換反応のみを触媒できるレドキシン様タンパク質へ
と特化することになった可能性がある。しかし、第1のシステイン(最もN末端側)
の置換によって機能的な酸化還元酵素が生ずることは示されなかった。この結果
は、酵素の活性部位のディスクリプタをスレッディングスコアに加えて用いるこ
とに付加的な価値があることを示している。
【0220】 スレッディングアラインメントを機能部位ディスクリプタへ適用することによ
って類似の活性部位を有するタンパク質ペアを無関係のものまたは単なる位相類
縁体と区別することができる。確かに、実施例1の酸化還元酵素機能部位ディス
クリプタは、よく研究されている大腸菌(E.coli)ゲノム中のグルタレドキシン/
チオレドキシン酸化還元酵素活性を示すことが知られている、または示すとされ
ている10個の配列中の活性部位残基をうまく同定することができる。さらに、本
方法は以前には同定されたことのない別の2個の配列中にチオール-ジスルフィド
酸化還元酵素活性部位を予測している。
【0221】実施例3 α/βヒドロラーゼ活性を有するタンパク質についての大腸菌(E.coli)ゲノムの
機能解析 (a) 緒言 この実施例はα/βヒドロラーゼの活性部位についての機能部位ディスクリプ
タの開発および使用に関する。これらの酵素は医学的に非常に興味深いものであ
る。例えば、アセチルコリンエステラーゼのインヒビターはこのファミリーの一
員であるが、これはアルツハイマー病、重症筋無力症、および緑内障の治療に用
いられる。本実施例に記載の活性部位ディスクリプタは3次元α-炭素座標および
残基の正体にて定義される。これらの試みの目的は、α/βヒドロラーゼフォー
ルド構造を有しヒドロラーゼ活性を示す大腸菌(E.coli)ゲノム中にコードされて
いる全てのタンパク質を同定することであった。スレッディングアルゴリズムは
651個の大腸菌(E.coli)ORFに対するアライメントのために用い、α/βヒドロラ
ーゼ活性部位ディスクリプタの適用によってこれらのORFのうちの17個はヒドロ
ラーゼ活性をコードするものと予測された。またこれらのタンパク質の推定上の
活性部位残基を同定した。これらのORFの1つであるYHET_ECOLIは、UPF0017(特
徴付けされていないタンパク質ファミリー)の一メンバーに分類されているタン
パク質をコードするものと予測され、それはα/βヒドロラーゼファミリーの特
質の全てを備えている。
【0222】 (b) 実験 α/βヒドロラーゼは多数の生理学的プロセスに関与していることが知られて
おり、それらの構造と生化学的性質については多くのことが知られている。この
ファミリーには広範囲の酵素機能が包含される。下記の表5はこのファミリーの
既知のメンバーのいくつかを列挙したものである。
【0223】 PDBデータベース中に集積されたこのファミリーの結晶構造は100以上ある(Cou
sinら, X. (1998), Nucleic Acids Res. 26, 226-228)。これらのタンパク質の
全て(大多数は酵素である)は、βシートの両側のαヘリックスによって取り囲ま
れたオープンツイストβシートによって形成される共通したフォールド構造を有
している。このファミリーの酵素のメンバーは全て加水分解ステップを含む反応
を触媒し、従って、それらの酵素は全てヒドロラーゼとして分類される。各種の
酵素の機能の差はそれらの基質特異性および補因子の要求性にある。
【0224】 これらの酵素のPDBにおける構造では、活性部位は各構造で同じ場所に位置し
ている。この部位によって行われる触媒作用に関与している3つの残基を本発明
のディスクリプタを作製するために同定した;His(アミノ酸位置188)、Asp(アミ
ノ酸位置175)、およびSer(アミノ酸位置120)。これらの残基は文献中でもこれら
の酵素の触媒性三連構造を構成するものとして知られている(SchragとCygler(19
97), Methods Enzymol. 284,85-107)。結晶構造はこれらの残基が折り畳まれた
タンパク質中で近接して位置することを示すが、それらの残基はアミノ酸の1次
配列上では離れた位置にあるため、局所的な配列モチーフは形成しない。
【0225】 機能的には、Ser残基の側鎖は求核性中心であり、His側鎖は通常の塩基として
作用し、Asp側鎖のカルボン酸基と水素結合する。HisとAspは協同して電荷リレ
ーシステムを形成する。これらの残基を取り囲むアミノ酸は酵素の遷移状態中間
体の安定化のためのオキシアニオンホールを形成し、Serの位置に近接しているG
ly残基は触媒作用を行うために必要な構造的柔軟性を提供する(Ollisら, (1992)
, Protein Eng. 5. 197-211)。Hisを除いては、このファミリーを通じて完全に
保存されていることが知られている活性部位残基はない。従って、Hisがα/βヒ
ドロラーゼ活性部位ディスクリプタを構築する目的での主要残基として選択され
た。
【0226】 グリセロールリパーゼの構造(PDBコード:1gpl)(Withers-Martinezら, (1996),
Structure 4, 1363-1374)を、α/βヒドロラーゼの活性部位のコンセンサスフ
ォームを構築するために用いた。His、Asp、およびSerの三連構造残基、ならび
にこれらの残基のすぐ近接している残基であるi−1およびi+1残基(ここで「i」
とはHis、Asp、またはSer(またはそれらの置換物)である)のα-炭素原子の座標
を、「9つの距離の」ディスクリプタを構築するために用いた。このディスクリ
プタは3つの残基のうちの2つの正体に関して変動が可能であった。これらの距離
パラメーターの各々が距離の範囲を構成する。
【0227】 このディスクリプタに対して既知のタンパク質構造を検索すると、α-炭素原
子のトリプレットであって、そのα-炭素のうちの1つがHis残基からのものであ
る場合、それらのα-炭素原子の相互距離が12オングストローム以内の距離にあ
るもの全てがまず同定された。そのようなトリプレットは、隣接の残基(i±1の
位置)とともに「候補」となる9つの炭素スカフォードを形成し、これを、3次元
重ね合わせによって活性部位ディスクリプタと比較した。既知のタンパク質構造
から1.0オングストローム未満のRMSDを有するアミノ酸トリプレットは、α/βヒ
ドロラーゼ活性部位ディスクリプタの残基正体パラメーターに含まれるべきもの
であるとした。
【0228】 推定上のディスクリプタを確認するために、3次元空間での類似の9つのα-炭
素配置に対する検索を、FSSPデータベース(HolmとSander (1997), Nucleic Acid
s Res. 25, 231-234)から抽出した1038個の非相同性構造を含むデータベースで
行った。その検索においては、Cα-Cα間の距離がお互いに12オングストローム
未満の3残基(但しそのうちの1つがHis)を全て考慮した。3次元重ね合わせによ
って各候補スカフォードおよび1gpl活性部位スカフォード間の根平均二乗偏差(R
MSD)を計算することによって、1038個の構造の全てのRMSD分布が得られた。
【0229】 9-Cαスカフォードは特異的であった:α/βヒドロラーゼフォールドファミリ
ーのメンバーであるタンパク質の全ては、1gpl活性部位と比べてRMSDが1.0オン
グストローム未満の9-Cαスカフォードを有する。これらのタンパク質(下記の表
6に列挙している)がヒドロラーゼ活性を有することは前もって実験的に測定され
たものであることに注意されたい。
【0230】 表6 α/βヒドロラーゼファミリーに含まれるタンパク質の構造的に保存された
活性部位 鎖ラベルを示す5番目の文字を付したPDBコード名 活性部位内の構造的に保存されたCαの位置を5つのカラムに示している;部
位1はオキシアニオンホールの一部である;部位3は時には別の触媒性三連構造の
形成に関与している位置である;部位2、4、および5は触媒性三連構造の位置で
ある。
【0231】 1038個の構造にみられるその他のありうる9個の炭素スカフォールドは全て1gp
lのものから1.0オングストロームを超えるRMSDを有した。
【0232】 表6に列挙した13種の構造のうちのどの1つの9個の炭素スカフォールドで開始
してもこれと同じ結果を得ることができる;従って、1gpl構造の選択自体は本発
明の活性部位ディスクリプタの設計において決定的に重要ではない。表6に列挙
されているホモロジーから、活性部位ディスクリプタ用として好ましい正体残基
が、表6に示したとおり、部位2、4、および5であることは明らかである。
【0233】 機能部位ディスクリプタの前述の9個のα-炭素の幾何学的配置が進化の過程を
通じてよく保存されていることは明らかなので、α/βヒドロラーゼ間で構造的
によく保存されたその他の部位が触媒性三連構造の近傍に存在するか検討を行っ
た。この検討はこのファミリー中の既知の104個の構造の全てを、その活性部位
の9個の炭素スカフォールドに従って重ね合わせることによって行った。α/βヒ
ドロラーゼフォールドファミリーの全てのメンバーで、1.5オングストローム以
内に位置する構造的に保存されているCα部位が同定された。このファミリー用
の機能部位ディスクリプタの9個のα-炭素原子に加えて、触媒性三連構造の近傍
のさらに2つのCαの位置が構造的に保存されているものとして見出された(表6の
部位1および3を参照せよ)。しかし、表6のデータはこれらの部位の残基の配列同
一性が必ずしも保存されていないことを示している。
【0234】 この2個の新たな部位の機能的役割は、結晶構造研究で特徴をよく調べられて
いる(Ollisら, (1992), Protein Eng. 5, 197-211):部位1(表6中に列挙されて
いるとおり)はオキシアニオンホールの近傍にあり、基質との水素結合の形成に
関与しているものと考えられている;また部位3残基(表6に列挙した種々の代替
物を参照せよ)はHisとの水素結合によって触媒性三連構造において電荷リレーシ
ステムを形成することができる。
【0235】 表6に列挙した部位は、このファミリーの種々の触媒性三連構造のアミノ酸に
隣接している残基の機能的役割が文献で報告されているとおり、活性部位中の機
能的に重要な残基の全てを含んでいるわけではない。例えば、ヒドロキシニトリ
ルリアーゼ(lyasA)では、求核性のSerの位置に対してi+1の位置にあるCys残基
はオキシアニオンホール形成に関与する(Wagnerら, (1996), Structure 4, 811-
822)。ハロアルカンデハロゲナーゼの場合には、求核性中心部位に対してi+1お
よびi−1の双方の位置が機能的に重要であることが見出された(Frankenら, (199
1), EMBO J. 10, 1297-1302)。しかし、表6に列挙した部位1−5は、これらの位
置のいくつかには何らかの変異があるが、ファミリー全体を通じて構造的には保
存されている。さらに、表6に示した部位は触媒機能に決定的に重要である(Olli
sら, 上述の文献)。部位5のHisは置換できないが、部位2の残基はSer、Asp、ま
たはCysとすることができ、部位4はAspまたはGluとすることができる。これらの
置換によって、既知の変異はそれによってその活性部位がヒドロラーゼ触媒機能
を示しうるか否かを判断する規準として用いることができるようになった。
【0236】 ハイブリッドスレッディングアルゴリズム(Jaroszewskiら, (1998), Protein
Sci. 7, 1431-1440)を大腸菌(E.coli)ゲノム(Blattnerら, (1997), 上述の文献)
中の4289個のオープンリーディングフレーム(ORF)のセット全体に適用してそれ
らの構造を予測した。簡潔に述べれば、ダイナミックプログラミングを用いて各
問合わせ配列についてそのアルゴリズムで構造ライブラリーをスレッディングし
た。用いた構造ライブラリーはFSSPデータベースから集めたもので、それらの間
のペアワイズ配列同一性が30%未満の1038個の非重複性構造が含まれ、そのうち
の13個はα/βヒドロラーゼフォールドファミリーのメンバーであると既に同定
されたものであった(表6を参照せよ)。各々の比較のために3種類の異なるスコア
リング関数を用いた:第1の関数(sq)は配列情報のみを用い;第2の関数(br)は配
列の類似性および残基の埋没状態を用い;第3の関数(tt)は3次元の接触ならびに
2次構造、埋没状態、および配列情報を用いた。さらに、問合わせ配列の各々に
ついて構造ライブラリーからの各スコアリング関数毎にこのスレッディングアル
ゴリズムは5個の最も適合するタンパク質構造の名前、ならびに問合わせ配列と
それらの5個の最も適合する構造の配列との間のアラインメントを出力する。問
合わせ配列各々に3つのスコアリング関数を用いたので、15個の配列-構造アライ
ンメントが大腸菌(E.coli)タンパク質配列各々について得られた。ある与えられ
た問合わせ配列に対してアラインメントした15個の構造物で表6のα/βヒドロラ
ーゼフォールドファミリーのメンバーであるものはすべて「ヒット」と呼んだ。
スレッディングスコアの分布は有意性スコアの対数として計算した(Jaroszewski
ら, (1998), Protein Sci. 7, 1431-1440を参照せよ)。ヒットの総数は1003であ
りこれは651個の異なるORFに対応するが、これはすなわち、651個の異なるORFが
α/βヒドロラーゼフォールドファミリーのメンバーと少なくとも1つのヒットが
あるということである。
【0237】 これらの651個の大腸菌(E.coli)ゲノムのORFによってコードされるタンパク質
のうちのどれが実際にα/βヒドロラーゼフォールドファミリーに属するかを同
定するために、下記の方法を行った。第1に、推論上の大腸菌(E.coli)タンパク
質の活性部位残基と推定されるものを、スレッディングアルゴリズムによって作
成した配列-構造アラインメントから、触媒性三連構造の位置に特別な注意を払
って同定した。大腸菌(E.coli)タンパク質の触媒性三連構造と定められるべき各
残基についてこの決定を行うにあたって2種類のフィルターを用いたが、それは
すなわち、その三連構造が、この機能についての機能部位ディスクリプタによれ
ば、適切な残基正体を有していることであり(最大3残基による推定上のアライン
メントにはシフトが許容される)、またそれが大腸菌(E.coli)のタンパク質の近
縁な相同体間で保存されていることである。
【0238】 下記の表7は、機能的な触媒性三連構造がスレッディングアラインメントによ
りその中に同定され得るような、大腸菌(E.coli)ゲノム中にコードされているOR
Fの全てを列挙したものである。マルチプル配列アラインメントにおける触媒性
三連構造残基の保存の程度に従ってORFを3つのカテゴリーに分類した:(a)3つの
残基全てが保存されているもの;(b)2つの残基のみが保存されているもの;およ
び(c)1つの残基のみが保存されているか、または全く保存されていないもの。本
実施例では、マルチプル配列アラインメントにおいてある残基の位置の40%を超
える残基がもとの配列中に見出される残基と同一であったならばこの残基を保存
されているものと見なした。
【0239】 表7 大腸菌(E.coli)のORFに対してα/βヒドロラーゼフォールドファミリーの
メンバーであるか構造/機能予測したもの (a) ヒドロラーゼ活性を有するものと予測される、3残基が保存された三連構造
残基を有するORF (b) 2残基が保存された三連構造残基を有し、不確かな機能予測がなされるORF (c) 1残基が保存されているかもしくは全く保存されていない三連構造残基を有
するORF。これらのORFはヒドロラーゼ活性を持たないかあるいはα/βヒドロラ
ーゼフォールドを持たないかのいずれかが予測される。
【0240】 1. 「PID」はGenBankの配列ID番号である。
【0241】 2. 「名称」は大腸菌(E.coli)タンパク質配列の遺伝子名である。
【0242】 3. 「pdb」は予測フォールド構造のPDBコード名であり、それによって配列およ
び構造がアラインメントされる(5番目の文字は鎖ラベルを示す)。
【0243】 4. 「tp」はスレッディングスコアリング関数を示す。
【0244】 5. 「スコア」とはスレッディングスコアである。
【0245】 6. 「N」は大腸菌(E.coli)タンパク質配列の残基数である。
【0246】 7. 「m」は大腸菌(E.coli)タンパク質配列と配列類似性を示した非重複性配列の
数である。これらの配列は保存状態のプロファイルを計算するために用いた。
【0247】 8. 触媒性三連構造残基。上付文字はそのタンパク質の一次アミノ酸配列の残基
の位置番号を示している;文字は残基の正体を示し;文字の前の1けたの数字は
マルチプルアラインメントから得られた保存度合いを示している:「0」は0%〜1
0%保存されていることを意味し、「1」は10%〜20%、…「9」は90%〜100%保存さ
れていることを示す。
【0248】 9. 「同一性」は大腸菌(E.coli)配列とPDBコード名で示される予測構造との配列
同一性である。
【0249】 10. 「データベース注釈」はSWISS-PROT中に記載されている機能についてのデー
タベース注釈を意味し( の記号を付した)、またはもしそのような注釈がない場合にはPSI-BLAST検索で見
出された類似配列の機能注釈である。「*」はスレッディングスコアが10より大
きいがα/βヒドロラーゼではないとスレッディングによって予測された構造を
示す。δは現在の注釈ではヒドロラーゼ以外の機能のものであると示唆されるタ
ンパク質を示す。
【0250】 表7(a)はα/βヒドロラーゼフォールドファミリーと類似の3次元構造を有しヒ
ドロラーゼとして機能すると予測された16個のタンパク質を列挙したものである
。これらのタンパク質のうち、bioHはカルボキシルエステラーゼ、pldBはリゾホ
スホリパーゼL2であり、双方とも上記の機能の範囲内のものであることが実験的
に知られている;従って、これらは予測を確認するものである。表7(a)に列挙し
たその他のタンパク質は大腸菌(E.coli)ORFから推定したタンパク質である。そ
れらの大部分はPSI-BLASTによるα/βヒドロラーゼフォールドファミリーの検索
において指定した機能の1つを有する配列に関連づけることができる。しかし、
2、3の例外はある。特に、データベース注釈のカラムには、スペルミジンシンタ
ーゼ、窒素固定アクチベーター、およびオキシゲナーゼ、を列挙しているが、そ
れらのどれも表6に列挙したヒドロラーゼの機能を持つものと類似とは考えられ
ない。これらの予測は偽陽性である可能性がある一方、これらのタンパク質が多
機能性であるが故に同定された可能性もある。
【0251】 表7(b)に列挙したタンパク質の生物学的機能については確実性がより低い。PS
I-BLAST 検索ではこれらのタンパク質のいくつかがリパーゼおよびエステラーゼ
に関連していることが見出された。しかし、これらのタンパク質の触媒性三連構
造残基のいずれもが、関連タンパク質のマルチプル配列アラインメントで保存さ
れていることが観察されなかったので、これらのタンパク質はα/βヒドロラー
ゼファミリーの既知のメンバーとは異なる機能を有することもあり得る。
【0252】 表7(c)に列挙したタンパク質(α/βヒドロラーゼであることが既知のものはな
い)はおそらくヒドロラーゼ機能を示さないと予測されたが、それは、大腸菌(E.
coli)の配列中で触媒性三連構造が認められたとはいえ、推定上の活性部位残基
は関連タンパク質中で保存されてはいないからである。
【0253】 本発明の予測能は、推論上の大腸菌(E.coli)タンパク質YHETによって非常によ
く説明される。このORF(YHET_ECOLI)についてのSWISS-PROTデータベースの注釈
は、このタンパク質が、ヒトを含む広範囲の生物から得たYHET_ECOLIと相同な9
種の特性不明のタンパク質を含む、特性付けされていないタンパク質ファミリー
UPF0017に属することを示している。
【0254】 下記の表8は、YHETについてのスレッディング法から得られた結果を示してい
る。
【0255】 表8 YHET_ECOLIスレッディングスコア 予測されたフォールドはPDBコード名で示し、5番目の文字は鎖ラベルを示す。「
sq」、「br」、および「tt」はスコアリング関数のタイプを示す。*印を付した
構造はα/βヒドロラーゼフォールドファミリーのものである。スレッディング
スコアはスレッディングアラインメントの有意性スコアの対数で表している。
【0256】 そのスレッディングスコアはこのタンパク質が、別のフォールド、例えばlxsm
_などである可能性も除外することはできないとはいえ、α/βヒドロラーゼフ
ォールド(表8中で*印で示している)を有していることを予測している。このタ
ンパク質に機能部位ディスクリプタを用いて、最もふさわしいモデルがYHETとlb
roAの間のアラインメント中に認められた。lbroAはブロモペルオキシダーゼ(Hec
htら, (1994), Nat. Struct. Biol. 1, 532-537) であるが、YHETとlbroAは約20
%の配列同一性を有するのみである。「tt」スコアリング関数を用いたスレッデ
ィングアラインメント(これはlbroAの配列および構造の情報の双方とも用いたも
のである)によって、YHETのC末端部分(総計340残基のうちの296残基)がlbroAの
構造と類似であることが予測された。このアラインメントでは、YHET中のSer153
、Asp280、およびHis308が触媒性三連構造を形成し、このことによってYHETがα
/βヒドロラーゼであることが結論づけられる。
【0257】 この結論をさらに支持することがYHET相同体のマルチプルアラインメントで認
められた。それらの相同体の大多数はSWISS-PROT中で注釈されているUPF0017フ
ァミリーのメンバーである。マルチプル配列アラインメントはPSI-BLAST(Altsch
ulら, (1997), Nucleic Acids Res. 25,3389-3402)をNCBI(National Center for
Biotechnology Information)によって維持されている「非重複性データベース
」上で用いることによって得られ、残基保存プロファイルはそこから計算した。
ギャップ導入および伸長パラメーターは初期設定値を用いた。アラインメントス
コア計算に用いた変異マトリクスはBLOSUM62であった。E値の閾値は0.05を選ん
だ。
【0258】 保存プロファイルの計算手順は次のとおりである:(1) 大腸菌(E.coli)ORFの1
つを問合わせ配列として用いてPSI-BLAST検索を行い;(2) その問合わせ配列に
導入されたギャップをPSI-BLAST検索によって作成したマルチプル配列アライン
メントから削除し;(3) マルチプルアラインメントの各カラムについて、ギャッ
プを無視して、文字数の総計(L0)、およびそのカラム中で最も高頻度に観察され
た文字の出現数(L)を数え;ならびに(4) マルチプルアラインメントにおける各
カラムについて、K=10*L/L0を計算し、Kの値を四捨五入して整数とする。もしL
0が5未満の場合には、Kは0とする。マルチプルアラインメントにおける各カラム
のKの値が保存プロファイルを示す。
【0259】 これらの方法を用いて、推定上の触媒性残基がよく保存されていることが判明
した。Gly80の位置は、アラインメントによればオキシアニオンホール位置であ
ることが予測されていたが、これも厳格に保存されていた。事実、この結果はUP
F0017ファミリーのどのメンバーが問合わせ配列としてスレッディングアルゴリ
ズムおよびα/βヒドロラーゼ機能部位ディスクリプタで用いるために選ばれる
かに依存していない(下記の表9を参照せよ)。
【0260】 表9 UPF0017ファミリーの各メンバーの活性部位の同定 カラムの最上段については表7の最上段と同様である。全ての配列はSWISS-PROT
データベース中で注釈されているUPF0017ファミリーからのものである。
【0261】 BLOCKS検索(HenikoffとHenikoff (1991), Nucleic Acid Res. 19, 6565-6572)
もまた、YHETがα/βヒドロラーゼであるとの同定を支持したが、これはYHET活
性部位中の求核性Serに対してi+2およびi−2の位置のグリシンによって特徴づ
けられる局所性配列モチーフ(「求核性エルボー」;SchragとCygler (1997), Me
thods Enzymol. 284, 85-107; Petersonら, (1997), Methods Enzymol. 284, 61
-85)の同定によるものである。
【0262】 (c) 考察 この実施例で述べた生物学的機能予測法は大腸菌(E.coli)ゲノム中にコードさ
れているα/βヒドロラーゼフォールドファミリーに属するタンパク質を首尾よ
く同定することができた。この方法には3つの重要な要素がある:(1)α/βヒド
ロラーゼフォールドファミリー用の活性部位ディスクリプタ;(2)問合わせ配列
用の構造予測のためのスレッディングアルゴリズム;および(3)問合わせ配列に
対してのマルチプル配列アラインメントによって作成された保存プロファイル。
この方法は構造情報を用いているので(すなわち機能部位ディスクリプタをある
構造に重ね合わせるので)、BLOCKS、PRINTS、およびPROSITEなどの配列モチーフ
をベースとした方法よりもより特異的である。この方法はまた、活性部位の同定
に側鎖原子の正確な座標を必要とする方法とは異なっているので、予測されたタ
ンパク質構造と関連させて行うことができる。この結果、この方法はゲノム配列
決定プロジェクトと生体分子の生物学的機能の決定のための試みを連携させる上
で特に有用である。
【0263】実施例4 インフルエンザ菌(Haemophilus influenzae)およびMethanococcus Jannaschiiゲ
ノムの、チオール/ジスルフィド酸化還元酵素活性を有するタンパク質を見出す
ための機能分析 (a) 緒言 この実施例は、インフルエンザ菌(Haemophilus influenzae)およびMethanococ
cus Jannaschiiの完全なゲノムのグルタレドキシン/チオレドキシンファミリー
のチオール/ジスルフィド酸化還元酵素活性を示すタンパク質についてのスケー
ルアップ分析における、本発明者らの配列と構造双方向の(sequence-to-structu
re-to)機能パラダイムの適用について述べている。第1に、双方のゲノム中の推
論上のアミノ酸配列の全てを、スレッディングアルゴリズムを用いて構造タンパ
ク質のセットとアラインメントを行った。次いで構造モデルは自動的に作成され
、グルタレドキシン/チオレドキシン機能部位ディスクリプタを用いてスクリー
ニングした。あらかじめ特性が調べられた2つのデータベース中でグルタレドキ
シン、チオレドキシン、またはチオール/ジスルフィド交換タンパク質とされた8
個のタンパク質のうちの6個が同定された。インフルエンザ菌(H. influenze)ゲ
ノム中の配列で同定されなかったものの1つはおそらくはデータベース中で不正
確に注釈が付されていた可能性があるので、成功率は6/7であった。さらに16個
の配列、そのうち11個はインフルエンザ菌(H. influenzae)からのもので、5個は
M. jannaschiiからのものであり、それらの大多数は仮説上のタンパク質とされ
ているが、それらはジスルフィド酸化還元酵素活性部位を有するものと我々の方
法によって予測された。
【0264】 (b) 方法 機能部位ディスクリプタの開発 タンパク質機能の化学的特性は残基の特異的3次元配置に依存しており、これ
らの残基は総体的な配列類似性または総体的な3次元構造よりも高度に保存され
ているものと考えられる(30, 31)。幾何学的な情報(例えば、原子間距離および
結合角)およびコンホメーションの情報(例えば、ある残基がヘリックス中にある
はずであることなど)を、グルタレドキシン/チオレドキシンタンパク質ファミリ
ーのジスルフィド酸化還元酵素活性に対する機能部位ディスクリプタ(FSD)を開
発するために用いた。このFSDは3つの規準に基づくものとした:1) 1次配列中で
2個のシステインが2個のアミノ酸によって離されている;2) 3次元空間において
1個のプロリンが2個のシステインの近傍になければならない;および、3) その2
個のシステインはヘリックスのN末端になければならない。2個のシステインのα
-炭素間の許容しうる距離は5.5±0.5オングストロームとした。よりN末端側およ
びよりC末端側にあるシステインとプロリンとの間の許容しうる距離はそれぞれ8
.5±1.5オングストローム、および6.5±1.5オングストロームとした。距離の規
準の2のみで、グルタレドキシン、チオレドキシン、およびタンパク質ジスルフ
ィドイソメラーゼを高解像度構造のデータベースから独自に同定するためにはほ
ぼ十分であった;ヘリックスの規準である3を追加するとFSDは完全に特異的とな
った(Fetrow, J.S., Godzik, A. & Skolnick, J. (1998) J. Mol. Biol., 論文
提出済)。活性部位であるシステインとプロリンの重ね合わせによってこの部位
の構造が、その3つの残基が標準的な配列アラインメント法によってアラインメ
ントさせることが困難であるとしても、保存されていることを明らかにした。こ
のFSDは、既知の構造の重複していないデータベースからヒトチオレドキシン(4t
rx (Forman-Kay, J.D., Clore, G.M. & Gronenborn, AM, (1990) Biochemistry
29, 1566-1572))およびタンパク質ジスルフィドイソメラーゼ(1dsb (Martin, J.
L., Bardwell, J.C. & Kuriyan, J. (1993) Nature 365:464-468)(これらのタ
ンパク質はチオレドキシンドメインを有することは既知である;34、35)を特異
的に選択することが示された(Fetrow, J.S., Godzik, A. & Skolnick, J. (1998
) J. Mol. Biol., 論文提出済)。
【0265】スレッディングおよびモデル作成 インフルエンザ菌(Haemophilus influenzae)ゲノム(http://www.tigr.org/tdb
/mdb/hidb/hidb.html)(Fleischmann, R.D.ら, (1995) Science 269, 496-512)お
よびMethanococcus jannaschiiゲノム(http://www.tigr.org/tigr_home/tdb/md
b/mjdb/mjdb.html)(Bult, C. J.ら, (1996) Science 273, 1058-1073)からのORF
の全てをアセンブルさせた。各ORFを、スレッディングアルゴリズムを用いて、B
rookhavenデータベース(Abola, E.E., Bernstein, F.C., Bryant, S.H., Koetzl
e, T.F. & Weng, J. (1987) Protein Data Bank 結晶学的データベース-情報内
容、ソフトウエアシステム、科学的応用 crystallographic databases-Informat
ion content、software systems、scientific application(Data Commission of
the International Union of Crystallography, Bonn/Cambridge/Chester))か
らの301個の重複していない、高解像度のタンパク質の構造(Fischer, D., Rice,
D., Bowie, J.U. & Eisenberg, D. (1996) FASEB J. 10, 126-136)にわたって
スレッディングを行った。配列から構造への各アラインメントを、上述の実施例
1に記載のとおり、3種類の異なるスコアリング法でスコアを付けた。Sqは配列-
配列タイプのスコアリングで、構造についての知識はほとんどない;brは配列-
構造スコアリング法でそれは鋳型構造の構造的環境中に「マウント」されたプロ
ーブ配列からの偽エネルギーに基づくものである;ttは構造-構造スコアリング
法で、これによってプローブ配列の予測された2次構造を鋳型構造の既知の2次配
列と比較する。各アラインメントスコアを計算した後、各スコアの有意性はその
スコアを実験でのスコアと比較することによって決定し、各スコアの有意性はそ
のスコアを、極値分布に従う実験的スコアの分布と比較することによって決定し
た。各配列の301個の構造に対するアラインメントを有意性のスコアに従ってラ
ンク付けし、各スコアリング法で3個の最も有意であったアラインメントを分析
した。
【0266】 いずれかのスコアリング法で最上位3つのスコアリングマッチの1つとして、l
ego, 大腸菌(E.coli)グルタレドキシン(Xia, T.H.ら, (1992) Protein Sci. 1,3
10-321)、2trx, 大腸菌(E.coli)チオレドキシン(Katti, S.K., LeMaster, D.M.
& Eklund, H. (1990) J. Mol. Biol. 212,167-184)、またはldsb, 大腸菌(E.col
i)タンパク質ジスルフィドイソメラーゼ(Martin, J. L., Bardwell, J. C. & Ku
riyan, J. (1993) Nature 365, 464-468)のいずれかとマッチした配列の全てを
、さらにモデルを作成するために選択した。各配列の原子モデルはModeller4で
利用可能な自動モデリングツールを用いて鋳型構造に基づいて作成した(Sali, A
. & Blundell, T.L. (1993) J. Mol. Biol. 234, 779-815)。FFFをこれらの全原
子モデルに直接適用した。
【0267】 (c) 結果 ジスルフィド酸化還元酵素FSDを試験するために、インフルエンザ菌(Haemophi
lus influenzae)ゲノムからの1680個のORF(Fleischmann, R.D.ら, (1995) Scien
ce 269, 496-512)、およびMethanococcus Jannaschiiゲノムからの1735個のORF
をアセンブルした。次いでスレッディングを行い、lego、2trx、または1dsbのう
ちの1つとマッチした配列全てについて3次元モデルを作製した。次いで、これら
の予測された3次元モデルを、ジスルフィド酸化還元酵素FSDを用いてグルタレド
キシン/チオレドキシンタンパク質ファミリーのチオール-ジスルフィド酸化還元
酵素活性部位についてスクリーニングした。
【0268】インフルエンザ菌(H. influenzae)ゲノムの分析 インフルエンザ菌(H. influenzae)ゲノム中には、キーワードとしてグルタレ
ドキシン、チオレドキシン、またはジスルフィドイソメラーゼを用いてインフル
エンザ菌(H. influenzae)データベース(http://www.tigr.org/tdb/mdb/hidb/hid
b.html)のキーワード検索を行うことによって7個のタンパク質が見出された(下
記の表10を参照せよ)。
【0269】表10 キーワード検索によって同定されたインフルエンザ菌(H. influenzae)お
よびM. Jannaschiiゲノム中の既知のまたは推定上のグルタレドキシンおよびチ
オレドキシン、およびジスルフィド酸化還元酵素活性部位を有するとFFFによっ
て予測されたタンパク質 生物体はゲノムを検索した生物体の名称である。 キーワードはTIGRデータベースのキーワード検索中で用いたワードである(h
ttp://www.tigr.org/tdb/mdb/hidb/hidb.htmlまたはhttp://www.tigr.org/tigr
_home/tdb/mdb/mjdb/mjdb.htmlのいずれか)。「注釈されたもの」という副見出
しの下に記したタンパク質は、実験によってまたは配列アラインメント分析のい
ずれかによってこのファミリーに属することが既知の(または示唆されている)タ
ンパク質である。HI1159はその配列中にシステインを含まないのでおそらく不正
確に注釈されているのであろう。キーワードの副見出しが「予測されたもの」の
場合には、列挙されている配列はFSDをスレッディングアラインメントから作成
されたモデルに適用することによって見出されたものであり、それらの配列はゲ
ノムデータベースのキーワード検索では見出せなかったものである。
【0270】 配列IDはそれぞれのゲノムデータベース中で各配列を同定するために用いた
データベースでの番号である。
【0271】 名称はそれぞれのデータベースでのタンパク質の識別を示す。
【0272】 1. これらの配列の各々をBLAST配列アラインメントアルゴリズムでの検索配列
として用い(http://www.ncbi/nlm.nih.gov/BLAST)、その各々が有意なスコア(E
値, 10−2)でいくつかのチオレドキシン、グルタレドキシン、またはタンパク質
ジスルフィドイソメラーゼに対してアラインメントすることが示された。これら
の7つの配列のうちの4つは4種類の局所モチーフデータベース全てまたはその4種
類のうちの3種類、すなわちProsite(Bairoch, A., Bucher, P. & Hofmann, K. (
1995) Nucleic Acids Res. 24, 189-196)、Blocks(Henikoff, S. & Henikoff, J
.G. (1991) Nucleic Acids Res., 19, 6565-6572)、およびPrints(17-19)で認識
された。(下記の表11を参照せよ)。
【0273】 表11.BLAST配列アライメント、局所的配列シグネチャー、およびスレッディン
グ/FFFプロトコールによりグルタレドキシン/チオレドキシンファミリーのチオ
ール−ジスルフィド酸化還元酵素活性を含有すると予測される配列 1;生物/配列番号は、ゲノムデータベースにある生物と番号である。これらのタ
ンパク質とORFの完全な名前については表1を参照されたい。「注釈」配列は1
、TIGRデータベース中でグルタレドキシン、チオレドキシン、またはタンパク質
ジスルフィドイソメラーゼ(表1参照)として特定されている配列である。一方
、「予測」配列は、ゲノムデータベース中では特定されていないが、スレッディ
ングアライメントから作成される三次元モデルにFFFを適用することにより活性
部位を有することが予測される配列である。
【0274】 2;7つの列は、タンパク質機能を特定または予測するための方法を示す:Blast
、有意スコア10-2未満の、メタノコッカス属(Methanococcus)またはヘモフィ
ルス属(Haemophilus)のタンパク質のグルタレドキシン、チオレドキシン、ま
たはチオール/ジスルフィド交換タンパク質へのGapped-BLAST(11、12)を使用
した配列アライメント;PS、PrositeモチーフPS00194(チオレドキシン)または
PS00195(グルタレドキシン)のいずれかが配列中に見いだされた(http://expa
sy.hcuge.ch/sprot/scnpsitl.html);P、Prositeスコア化法(http://www.bioc
hem.ucl.ac.jk/cgi-bin/attwood/Seach.Prints.Form2.pl)を使用して、Prints
モチーフ(チオレドキシンまたはグルタレドキシンについて、それぞれPR00421A
-CまたはPR00160A-C)が配列中に見いだされた;P-B、Blocksスコア化法を使用
して、Pritsモチーフが配列中に見いだされた(http://www.blocks.fhcrc.org/b
locks■search.html);B、Blocksモチーフ(チオレドキシンまたはグルタレド
キシンについて、それぞれBL00194またはBl00195)が配列中に見いだされた(ht
tp://www.blocks.fhcrc.org/blocks■search.html);GQ、ゲノムのGeneQuiz(h
ttp:/columbia.ebi.ac.uk:8765/ext-genequiz)(43、44)解析;またはスレッ
ディングモデルに適用したFFFについてのThrd/FFF。「X」は、配列が、使用した
検索法により認識されたことを示す;X1とX2は、3つの局所的モチーフを機能を
特定するために使用したことを示すが、モチーフのそれぞれ1つまたは2つのみ
が配列中に見いだされた;「-」は、配列が、この方法により認識されなかった
ことを示す。
【0275】 3;最後の列は、スレッディングモデルでFFFにより特定された推定活性部位残基
を示す。
【0276】 * グルタレドキシンパターン(PR00160A)は、この配列について見つかった6番
目に高いスコア化パターンであり、百分率スコアは23であった。Pritsデータベ
ースでは、3つのグルタレドキシンパターン(PR00160A、B、およびC)がある;
この配列は、PR00160Aにのみ一致した。C4型ステロイド受容体は、Blocksスコア
化法を使用してPrintsデータベース中でこの配列について見つかった最も高いス
コアパターンであった。
【0277】 他の3つの配列の1つ(HI0846)は、PrositeとBlocksにより認識された;1
つの配列(HI1159)は、Printsデータベースによってのみ認識された(Blocksス
コア化法を使用して);他の1つ(HI0428)は、いずれのモチーフデータベース
も認識されなかった(表2)。これらの最後の3つの配列がジスルフィド酸化還
元酵素活性を含有するか否かは不明である。HI1159は、本来ならシアノバクテリ
ウム(cyanobacterium)由来のチオレドキシン様タンパク質に対してある程度の
配列類似性を示すが、この配列はシステイン(グルタレドキシン/チオレドキシ
ンファミリーの酸化還元酵素反応機序に必要な残基)を含まないため、HI1159は
おそらく、H. influenzaeゲノムデータベース中で間違って注解されている。
【0278】 スレッディングアルゴリズムを使用して完全なH. influenzaeゲノムを解析す
ると、163個の異なる配列が、lego、2dsd、chain A、または2trx、chain Aに一
致した。これらの163個の配列は、配列の一部が2つ以上のスコア機能が一致し
、各スコア化機能が作り出す上位の3つのアライメントを考慮したため、264個
の異なるタンパク質モデルを作り出した。これら264個のモデルを、チオール−
ジスルフィド酸化還元酵素FSDを使用してスクリーニングした。キーワード検索
により特定された7つの配列のうちの5つ(上記表11を参照)もまた、機能部位
ディスクリプタにより特定された。局所的配列シグネチャーにより容易に認識さ
れない2つの配列(HI1159とHI0428)は、スレッディング/FSDアプローチ法に
よっても認識されない。前記したように、HI1159は、その配列中にシステインを
含有しない;すなわち、このタンパク質がジスルフィド酸化還元酵素活性を示す
可能性は非常に低く、この配列は、H. influenzaeデータベース中でおそらく間
違って特定されている。
【0279】 FSDは、H. influenzaeゲノムから11個のさらなる配列を、ジスルフィド酸化還
元酵素活性部位を含有するとして特定した。これらの配列および提唱された活性
部位残基を、予測として表1と2に示す。これらの配列の、BLAST、モチーフデ
ータベース(Prosite、Prints、およびBlocks)、およびGeneQuiz(43、44)に
よる解析の比較を表2に示す。これらの11個の配列のほとんどは、最も低い有意
スコアを有するスレッディングアルゴリズムを介してlego、2dsb、および2trxに
アラインするものである。
【0280】 これらの11個の配列のジスルフィド酸化還元酵素活性のさらなる証拠を、非重
複配列データバンクをBLASTまたはgapped-BLAST(11、12)を使用して検索する
か、またはH. influenzaeゲノムをTIGR検索ツール(http://www.tigr.org/tdb/m
db/hidb/hidb.html)を使用して検索して評価した。配列の3つ[HI1095(推定
)、HI0935(helX、チトクロームC 生物発生)、およびHI1453(pilB、転写制
御リプレッサー)]は、HI0084またはHI1115(グルタレドキシンチオレドキシン
として注解されているタンパク質)への配列同一性は限定されている。さらにBL
ASTは、非重複配列データベース中で他のチオ/グルタレドキシンまたはチオー
ル/ジスルフィド交換タンパク質に対して、これらの配列の3つすべてをアライ
ンさせた。2つの配列(HI0885とHI1215)もまた、BLASTを介してチオール/ジ
スルフィド交換タンパク質にアラインした。これらのデータは、これらの5つの
タンパク質の活性が正しく特定されているというさらなる証拠を提供する。もう
1つの配列HI0572は、BLASTによりグルタレドキシンとチオレドキシンにアライ
ンしたが、有意性が低かった。この配列は、すべてのモチーフデータベースによ
り認識されたため、この配列もジスルフィド酸化還元酵素活性を示す可能性が高
い。2つの配列(HI0303とHI0882)は、推定タンパク質とのみアラインした。3
つの他の配列(HI0434、HI1068およびHI1189)は、以下のように推定タンパク質
および少数の他のタンパク質とアラインした。データベース中でcomFタンパク質
として記載されているHI0434は、いくつかのコンピタントなタンパク質および他
の生物からの推定タンパク質とアラインした。ギ酸依存性亜硝酸還元酵素(nrfB
)として記載されているHI1068は、nrfBとして特定されている多くの他のタンパ
ク質とアラインした。最後にHI1189は、推定タンパク質および補酵素pqqシンタ
ーゼタンパク質とアラインした。これらの3つのタンパク質の共通の特徴は、こ
れらが「システインが豊富」であること、すなわち平均的なタンパク質より多く
のシステインを有することである。特にHI1068は、その配列内に多くのCXXCシグ
ネチャーを有する。すなわちジスルフィド酸化還元酵素としてのこれらの3つの
配列の特定は、2つのシステインとプロリンを正しい位置で「システインが豊富
な」タンパク質中でアラインする可能性が高いため、過剰に予測される可能性が
ある。
【0281】 チオール/ジスルフィド酸化還元酵素活性を示すタンパク質についてのH. inf
luenzaeゲノムの解析を要約すると、スレッディングアルゴリズムから作成され
たモデルに適用されたFSDは、以前は他の研究者達によりゲノムデータベース中
のグルタレドキシン、チオレドキシン、またはジスルフィドイソメラーゼとして
特定されてきた7つのタンパク質のうち5つを特定した。見逃されたタンパク質
の1つは、配列配列中にシステインを含有せず、酸化還元酵素活性を示す可能性
は低い。11個のさらなる配列もまた、酸化還元酵素活性部位を有すると予測され
た。配列データは、11個のタンパク質のうち6つがこの活性を示すことの追加の
証拠を提供している。
【0282】M. Jannaschiiゲノムの解析 M. Jannaschiiゲノム中で1つのタンパク質MJ0307が、TIGRデータベースのキ
ーワード検索により推定ソレドキシンとして特定された。このタンパク質は、他
のチオレドキシンと有意な配列類似性を示し、Blocksスコア化法を使用して、局
所的配列モチーフデータベースであるBlocksとPrintsにより認識されるが、Pros
iteスコア化法を使用するとPrositeまたはPrintsにより認識されない。
【0283】 このゲノムの1735個のORFのうち、204個は、スレッディングアルゴリズムによ
り一致する上位の3つのうちの1つとして、lego、1dsb、または2trx構造とアラ
インした。これらの一致する204個は、270個のモデル構造を作り出した。これら
のモデル構造のSicは、FSDと一致しすなわちその種々の制約条件を満足する領域
を含有し、これらの6つの構造が、グルタレドキシン/チオレドキシンファミリ
ーのチオール/ジスルフィド酸化還元酵素活性を示すことの証拠を提供した。6
つのモデル構造のうち、1つ(MJ0307)は真陽性の配列であった。
【0284】 チオール−ジスルフィド酸化還元酵素FSDを、スレッディングアライメントか
ら作成された予測モデルに適用した時、5つの他のMethanococcus配列が選択さ
れた。MJ0757、MJ1342、およびMJ1552は、推定タンパク質である。MJ0757配列の
みが、他の推定タンパク質と有意な類似性を有する。MJ1342は、他のタンパク質
と有意な配列同一性がなく、一方MJ1552は、他の生物由来の推定タンパク質およ
び1つのアシルシンターゼとのみに有意な配列類似性を有する。これらのタンパ
ク質の領域がジスルフィド酸化還元酵素FSDと一致するという事実は、これらの
タンパク質が酸化還元酵素活性を示すことを提供する。
【0285】 MJ0156は、ゲノムデータベース中でアセチルCoAデカルボキシラーゼ/シンタ
ーゼとして特定される;非重複データベースのgapped-BLAST(Altschulら(1990)
J. Mol. Biol. 215: 403-410)検索は、これが、他の生物からの一酸化炭素デ
ヒドロゲナーゼならびにいくつかの推定タンパク質と有意な類似性を有すること
を証明した。即時FSDにより見いだされる推定タンパク質であるMJECS06は、他の
推定タンパク質と類似性を示し、ジンクフィンガータンパク質とはほとんど類似
性がなかった。Methanococcus中の関連タンパク質であるMJECL27は、いくつかの
システインとヒスチジンの保存を示しており、このタンパク質もジンクフィンガ
ータンパク質または関連する金属結合タンパク質である可能性を示している。こ
れらの予測されるタンパク質のうち(MJ1552を除いて)いずれも、局所的配列モ
チーフデータベースにより認識されなかった。MJ1552は、Blocksスコア化機能を
使用すると、Printsデータベース中の3つのグルタレドキシンパターンのうちの
1つ(PR00160A)に一致した。
【0286】 要約すると、すべてのM. jannaschiiのORFから作られる予測モデルに酸化還元
酵素FSDを適用すると、このゲノム中に単一の「真陽性」が見つかった(生物活
性に基づく)。即時FSDを適用することにより、さらに5個の配列もまた、対象
の活性部位を有するとして特定された。
【0287】 GeneQuiz(自動機能割り当てプログラム)との比較。M. jannaschiiおよびH.
influenzaeゲノムの両方が、GeneQuizにより解析されている(Casariら(1996)、
The First Annual Pacific Symposium on Biocomputing, pp. 708-709 (World S
cientific、ハワイ、米国));Scharfら(1994)、The Second Int'l Conference
in Intelligent Systems for Molecular Biology, pp. 348-353 (AAAI Press))
;GeneQuizは、配列アライメント、モチーフ割り当て、および文献検索を組合せ
て、各推定タンパク質に機能を割り当てる。この割り当ては、そのデータの信頼
レベルに応じて、「明白(clear)」、「暫定(tentative)」、「わずか(marg
inal)」、または「割り当て無し(no assignment)」とランクされる。上記のF
SDに基づいたアプローチは、三次元データを使用して活性部位残基を予測すると
いう点で、GeneQuizアプローチとは基本的に異なる。さらに記載のFSDアプロー
チは、タンパク質が複数の活性部位「機能」を有し得ることを考慮する。しかし
比較のために、FSDを使用して特定された24個の配列のGeneQuiz解析も上記表11
に示す。活性部位ディスクリプタの必要性は、HI1159により明白に証明される。
この配列は、おそらく他のチオレドキシン様タンパク質に配列が似ているため、
GeneQuizによりチオレドキシンとして特定された。しかし上記したように、この
配列にはシステインは存在しなかった;すなわち即時FSDは、ジスルフィド酸化
還元酵素としてこの配列を一致させるかまたはほぼ匹敵するとすることは無いで
あろう。
【0288】 同様に、GeneQuizは、おそらくグルタレドキシン様タンパク質との配列同一性
が限られているため、HI1165を可能なグルタレドキシンとして特定した。スレッ
ディングアルゴリズムによりlegoにアラインしたこの配列は、1つのシステイン
を有するが、C-X-X-C配列は欠如している;従ってこれは、ジスルフィド酸化還
元酵素FSDにより認識されない。しかし、第2のシステインが欠如したジスルフ
ィド酸化還元酵素タンパク質の突然変異体は、限られた活性でジスルフィド異性
体化を行うことができることが証明されているが、これらは酸化還元酵素活性を
生じることはできない。すなわち、GeneQuizによりグルタレドキシンとして特定
されても、このタンパク質が大多数のチオール/ジスルフィド酸化還元酵素に存
在する全範囲の反応を起こす可能性は低い。
【0289】 GeneQuizはまた、このファミリーのメンバーとしてMJ0530を特定した。このタ
ンパク質は、2つのC-X-X-C配列を含有するが、gapped-BLASTとスレッディング
プログラムのいずれも、これをグルタレドキシン/チオレドキシンファミリーの
メンバーにアラインしない。BLASTのみは、これを推定タンパク質およびジンク
フィンガータンパク質の可能性のあるタンパク質としてアラインした。
【0290】 これらのデータは、すでに異なる機能を有することが公知のタンパク質におけ
る追加的な生物学的活性を特定するためにFSDを使用できる方法を証明する。例
えばHI1453は、PilBタンパク質との関係から、GeneQuizにより「明瞭に」リプレ
ッサーとして分類された。しかしこれらのタンパク質のアライメント内で、C-X-
X-Cおよびプロリン残基の三次元構造(FSDに記載されているように)は保存され
ている。従って、これらのタンパク質は「リプレッサー」かも知れないが、即時
FSDのジスルフィド酸化還元酵素制約条件に一致させると、これらはまたチオー
ル/ジスルフィド活性を示すかも知れないことを示している。
【0291】(d)考察 以上を考慮すると、タンパク質機能部位(ここでは、ジスルフィド酸化還元酵
素活性部位)の幾何学的および立体構造的ディスクリプタであるFSDは、局所的
配列シグネチャーより本質的に正確であり、生物学的FSDの機能の明確なマッピ
ングを提供して、三次元構造を認識するための一次元配列情報の使用の問題を克
服する。これらはまた、あまり関連しないタンパク質の配列アライメントの欠点
と三次元構造の適当なアライメントの問題を回避する。FSD作成には、特定の生
物学的機能を有することが公知のタンパク質の構造が公知でなければならないが
、特定の機能について得られるFSDは、あまり解析されていない構造に適用する
ことができる。驚くべきことに、本発明のFSDは、タンパク質構造の不正確なモ
デル(現在の技術水準の三次元構造予測アルゴリズムにより作成されるものを含
む)に適用することができる。さらに本実施例に記載の結果は、完全なゲノムの
規模を拡大した解析におけるFSDの適用をさらに支援する。M. jannaschiiゲノム
では、この生物の既知のジスルフィド酸化還元酵素は、正しく特定されており、
5つの他のタンパク質は、少なくともその一部がジスルフィド酸化還元酵素FSD
の制約を満足する構造を有すると予測される。H. influenzaeゲノムでは、5個
のほぼ間違いなく真陽性である配列が特定され、6番目の可能性のある配列見逃
され、チオレドキシンとして分類された7番目の配列は、おそらくゲノムデータ
ベース中で間違って解析された。さらにこのゲノム中のさらなる11個のタンパク
質は、酸化還元酵素活性を示すと予測された。本明細書に示したデータは、本明
細書に記載のアプローチが、従来の配列アライメントアプローチより多くのかつ
より正確な情報を与えることを証明している。実際、配列アライメントアプロー
チ自身は誤認を招きやすい。例えば上記のように、HI159はBLASTによりチオレド
キシン様タンパク質とアラインするとして特定された。しかしこのタンパク質は
システインを含有しない;従ってこのタンパク質は、ジスルフィド酸化還元酵素
活性を示すと予測できない。かかる結果は、配列アライメントデータに機能スク
リーンを適用することの必要性を示している。本明細書に記載のデータはまた、
本発明者のFSDアプローチの適用が、局所的モチーフデータベース(例えば、Pro
site、Prints、およびBlocks)の適用より多くの情報を与えることを示している
【0292】 当業者は理解するであろうが、FSDは、原子までの分解構造であっても不正確
な予測モデルであっても、任意の三次元構造に適用できる。すなわちFSDのライ
ブラリは、例えばゲノム配列決定プロジェクトなどに関連して必要な大規模な構
造決定プロジェクトに有用であろう。こうして、ある適用においてFSDは、特定
の活性部位をコードするかも知れないORFの数を有意に絞り込むのに使用するこ
とができる。さらにこの方法は自動化することができる。
【0293】 ゲノム配列データベースで見つかったORFから作成されるタンパク質モデルへ
のFSDの適用において、1つ以上のタンパク質の生物学的活性を決定することが
できるばかりでなく、かかる活性と相関する機能部位を特定することもできる。
幾何学的に関連のあるタンパク質(同様の球状の折り畳みを有するが、配列と機
能が異なるタンパク質)は、同様の活性を示す関連タンパク質から区別すること
ができる。
【0294】実施例5 BASIC−新しい相同性モデリング法 (a)要約 M. genitaliumの全ゲノムの38%について、既知の構造を有するタンパク質と
の配列類似性を、本実施例に記載の配列アライメントアルゴリズムを使用して認
識することができる。M. genitaliumとE. coliのゲノムを比較すると、80%を超
えるM. genitaliumタンパク質がE. coliのタンパク質と有意な配列類似性を有し
ており、以前は認識されなかったものは40例を超える。
【0295】 有意なプロフィール類似性を有するタンパク質のすべてのケースについて、両
方のタンパク質の機能が公知であるなら、その機能において強い類似性がある。
その結果、以前は解析されなかった50を超えるタンパク質についての暫定的機能
割り当てが可能であり、これには、M. genitalium中の推定β−ラクタム抗生物
質耐性タンパク質のような興味深いケースを含む。
【0296】(b)緒言 すでに解析されているタンパク質に対するホモロジーによりタンパク質の機能
と構造を予測することは公知である。いくつかのプログラム(例えば、BLASTま
たはFASTA)が、配列類似性の解析によりタンパク質のホモロジーを認識するよ
うに適合されている。残念なことに、かかるすべてのプログラムは、既知のタン
パク質と類似の三次元構造を有する無関係のタンパク質を認識することができな
い。これらはまた、配列類似性が無関係のタンパク質間のランダムな類似性のレ
ベルまで低下すると、関係の薄いタンパク質を認識しない。これらの2つの一見
異なる問題に対処しようとして、異なるセットの手段が開発されている。配列/
構造適合性により配列/配列類似性に取って代わるおよび/またはこれを増強す
ることにより、類似の構造を有する無関係のタンパク質の検索が可能になった。
すでに特定された相同的タンパク質の複数のアライメントから得られるさらなる
情報を使用して、関係の薄いタンパク質を認識するための配列アライメントの方
法の適用が拡大された。
【0297】 最初のアプローチ、すなわち、スレッディングは、ホモロジーの有無に関わら
ず類似の三次元構造を有するタンパク質を標的として、アミノ酸配列を構造に一
致させる。二つ目のアプローチは、密接に関連したタンパク質の配列を使用して
、配列に沿った突然変異のパターンを推定し、位置特異的突然変異マトリックス
を作成する。本アプローチの目的は、従来の配列アライメント法と同じであり、
ファミリー間のホモロジーを特定することである。原理的には、スレッディング
は、プロフィールまたは他の配列のみのアプローチよりはるかに広い適用を有す
る。一方、配列を基にした方法は、構造予測以上に多くのことができる。タンパ
ク質を、すでに解析された相同的タンパク質のファミリーに置くことができるな
ら、機能、活性、作用機序、その活性に必要な補因子、および他の分子との相互
作用の一般的パターンのような他の特徴は、両者の間の進化的距離に依存して、
相同的タンパク質によりしばしば共有される。確かに、類似の構造を有する一見
無関係のタンパク質の多くの既知の例では、問題となるタンパク質は実際に相同
的である。
【0298】 ここで本発明者らは、タンパク質ファミリーの間のホモロジーを認識するよう
に設計を適合させて、2つの配列のみの手段を使用してこの問題を再検討する。
新たに改善された迅速データベース検索アルゴリズムBLASTであるPSI-BLASTは、
「最新技術」の配列類似性のための手段である。BASIC(Bilateral Amplified S
equence Information Comparison)は、プロフィール−プロフィールアライメン
ト法である。
【0299】 Mycoplasma genitaliumは、ヒトの肺感染症や尿路感染症に関連する小さな病
原性のグラム陽性菌である。これと密接な関係にあるMycoplasma pneumoniaeは
、原発性の異型の肺炎を引き起こす。M. genitaliumは、細胞壁が欠如した非常
に単純な生物であり、独立に複製できる公知の最も小さな細胞性生物である。そ
の全ゲノム(468個の予測オープンリーディングフレイムからなる)を、「ショ
ットガン」配列決定法により配列決定し、このゲノムのすべてのタンパク質の約
67%の機能を特定する注釈付きで、ウェブサイト(www.tigr.org)で使用できる
ようになった。
【0300】 PSI-BLASTとBASICの両方を、異なるタスクで使用した。まずMycoplasma genit
aliumの配列を、既知の構造を有するタンパク質の配列および配列プロフィール
と比較することにより、Mycoplasma genitaliumゲノムのタンパク質の構造予測
を行った。本出願では、両方のプログラムは、折り畳み予測手段としてのみ使用
された。次にこれらの構造予測結果を使用して、M. genitaliumタンパク質を相
同的スーパーファミリーに割り当てた。次に同じタンパク質を、E. coliゲノム
のタンパク質と比較して、ゲノム間でどの機能割り当てが振り替えられたかを決
定する。
【0301】(c)結果 構造予測 Mycoplasma genitaliumゲノムの468個のタンパク質配列のセットを、Institut
e for Genome Research のウェブサイトwww.tigr.org.からダウンロードした。
これらの各配列を、PSI-BLASTアルゴリズムを使用して大きなタンパク質配列デ
ータベースと比較した。次の工程で、同じ配列を、プロフィール−プロフィール
アライメントプログラムBASICを使用して、すべての現在公知のタンパク質折り
畳みを示すタンパク質のセットの配列プロフィールを含有するより小さなデータ
ベースと比較した。折り畳み割り当ての、アルゴリズム、データベースおよびプ
ロトコールの技術的詳細は、本明細書の最後の材料と方法欄で述べる。
【0302】 468個のM. genitaliumタンパク質配列について、PSI-BLASTアルゴリズムは、
既知の構造を有するタンパク質と有意な(E値は0.1未満)類似性を有する118個
を検出した。これは、全ゲノムの25%を占める。比較のために、同じゲノムにつ
いて、Fischer & Eisenbergは、古いバージョンのBLASTと既知の構造のデータベ
ースの小さいバージョンを使用して、75個において有意な類似性を報告した[15
]。
【0303】 BASICプログラムは、既知の構造を有するタンパク質との176個の有意な(Z値
は10を超える)類似性を検出した(38%)が、これはPSI-BLAST認識率をほぼ50
%上回る。すべての高有意性BLAST予測は、BASICアルゴリズムにより独立に認識
されたため、これはBLAST予測の上位集合である。すなわちBASICは58個の追加の
構造割り当てを提供した。これらのうち28個は、推定タンパク質についてであり
、16個は、その機能が既知のM. genitaliumのタンパク質についてである。他の
いくつかのM. genitaliumタンパク質(例えば、Arg、Phe、CysおよびTrp-tRNAシ
ンターゼ、ウリジンキナーゼ、およびウラシルホスホリボシルトランスフェラー
ゼ)は、BASICアルゴリズムにより特定されたタンパク質と明らかな機能的類似
性を有する。
【0304】いくつかの機能予測 BASICアルゴリズムは、M. genitaliumの代謝と他のプロセスについてのいくつ
かの新しい見方を提供する。例えば: ・ アミノ酸代謝に関与する第2の酵素は、グリシンメチルトランスフェラーゼ
とのホモロジーにより特定された。
【0305】 ・ 核酸成分の合成に関与する他の酵素は、2つの推定タンパク質とGMPシンタ
ーゼのホモロジーにより特定された。
【0306】 ・ 2つの推定タンパク質とβ−ラクタマーゼとの間に、興味深いホモロジーが
見られた。M. genitalium(これには、細胞壁がない)は、ペニシリンまたは他
のβ−ラクタム含有抗生物質に感受性であり、かつMycoplasma中にはペニシリン
結合タンパク質は見つからなかった[28]。多生物感染における抗生物質耐性の
問題は、あまり理解されていない。日和見感染原菌であるM. genitaliumは、他
の病原菌との共生的関係の一部において抗生物質を分解できるようである。
【0307】 どれだけ離れた関係が認識できるかを研究するために、大腸菌(Escherichia
coli)ゲノム由来のすべてのタンパク質について、タンパク質プロフィールのデ
ータベースを準備した。M. genitaliumゲノムからの468個のタンパク質のうち、
96個は、任意の既知のタンパク質とホモロジーがなかった。56個のタンパク質は
、機能が未知の他のタンパク質に似ており、従って推定タンパク質として記載さ
れた;317個のタンパク質は、すでに解析されたタンパク質ファミリーとのホモ
ロジーに基づいて機能を割り当てた。
【0308】 機能が未知のタンパク質の群のうち、25個はE. coli由来の他のタンパク質に
一致させることができた(11個はPSI-BLASTを使用し、25個はBASICアルゴリズム
を使用した)。前述のように、BASIC認識はBLAST認識を完全に包含し、BASICア
ルゴリズムは14個の新しいタンパク質を特定した。これらの25個のタンパク質の
うち、9個は推定タンパク質と一致し、機能的予測はされなかった。残りの16個
のタンパク質(6個は、両方のアルゴリズムで特定された群からであり、10個は
完全にBASICにより特定された群からである)について、すでに解析された相同
的なファミリーへの分類に基づき暫定的機能割り当てを行った。
【0309】 M. genitaliumゲノム由来の56個の推定タンパク質のうち、14個は機能が既知
のE. coliタンパク質に割り当て、12個はPSI-BLASTにより割り当てた。またM. g
enitalium中には、E. coli由来の推定タンパク質に相同的な機能が既知の3つの
タンパク質があった。後者の場合、E. coliでは、すべての対は、PSI-BLASTおよ
びBASICアルゴリズムの両方により認識される。
【0310】 進化的に遠い関係における特定は、構造と機能の予測手段が信頼性がある。位
置特異的反復性BLASTアルゴリズムは、かかる特定のための感度の高い従来から
のアルゴリズムである。例えば、このアルゴリズムは、M. genitaliumタンパク
質の25%まで折り畳みを割り当てることができることが本明細書により証明され
た。BASIC(Bilateral Amplified Sequence Information Comparison)アルゴリ
ズムは、Mycoplasma genitaliumのタンパク質と充分解析されたタンパク質ファ
ミリーとの56個の追加の相同体の特定を可能にし、折り畳み割り当ての総数を17
6(すなわち、全M. genitaliumゲノムの38%)にした。
【0311】 PSI-BLASTとBASICアルゴリズムの両方とも、タンパク質構造についての情報を
使用しないため、いずれも、機能が既知であるが構造が未知のタンパク質内の相
同体を検索するのに応用することができる。このタスクで両方のアルゴリズムを
比較するために、M. genitaliumゲノムのタンパク質を、E. coliゲノムのタンパ
ク質と比較した。TIGRのM. genitaliumウェブサイトから入手できる注釈と比較
すると、40個のさらなる相同体が特定され、そのうち16個はBASICアルゴリズム
にのみ認識された。既知の相同体が無い26個のタンパク質は、E. coliファミリ
ーに割り当て、このうち16個については機能割り当てを行った。さらに、他のゲ
ノム由来の未解析のORFに由来する既知の相同体のみが既知の14個の推定タンパ
ク質において、すでに解析されたタンパク質ファミリーとのホモロジーが見いだ
された。
【0312】(c)材料と方法 PSI-BLASTと配列データベース 位置特異的反復性BLASTアルゴリズム[16]は、データベースタンパク質類似
性検索アルゴリズムの最も新しいバージョンの事実上の標準的なものである。こ
のアルゴリズムは、以前のBLASTアルゴリズムの主要な欠点(アライメント中に
ギャップを導入することができない)を解決している。さらにPSI-BLASTアルゴ
リズムは、アルゴリズムの初回通過で特定されたホモロジータンパク質の配列の
複数のアライメントからの配列プロフィールの反復性構築を可能にする。PSI-BL
ASTプログラムを、NIHウェブサイトからダウンロードし、使用説明書の解説に従
って使用した。PSI-BLASTアルゴリズムで使用した配列データベースは、SWISSPR
OTとPIRデータベースから入手できる配列の非重複性編集物、ならびにEMBLとNCB
Iヌクレオチド配列データベースからの翻訳されたDNA配列、およびBrookhaven P
DBデータベースに寄託されたすべてのタンパク質の配列を含有する。この研究で
使用されたバージョンは、1997年11月に作られた。
【0313】プロフィール配列の準備 プロフィールは、PSI-BLASTアルゴリズムにより作成した相同的配列の複数の
アライメントを使用して自動的に作成された。標的タンパク質ならびに検索され
るデータベースに含有されるすべてのタンパク質について、同じ方法を使用した
【0314】配列プロフィールのデータベース 本明細書に記載した研究のために2つのデータベースを構築した。1151個の代
表的タンパク質構造についての第1のデータベースは、EBIのDALIサーバーから
入手できるFSSPデータベースに含まれるタンパク質構造の非重複性セットに基づ
き準備した。このデータベースは、折り畳み予測のために使用した。第2のデー
タベースは、E. coliゲノム由来のすべてのタンパク質の配列プロフィール、例
えば、U. Wisconsin Genome CenterのE. coliウェブサイトで入手できるものな
どからなる。
【0315】BASICプロフィール対プロフィールアライメントアルゴリズム Smith-Watermanダイナミックプログラミングアルゴリズム[30]のローカル−
ローカルバージョンを使用する2つの配列と同様に、2つの配列プロフィールを
比較した。すべてのパラメータは、後述のように折り畳み認識基準について最適
化した。
【0316】 BASICアルゴリズムは、折り畳み予測アルゴリズムについてカスタマイズした
基準において、最大数の構造が類似のタンパク質を認識するように最適化した。
BASICアルゴリズムの開発の間、UCLAのウェブサーバーから入手できる特定の基
準を使用した。この基準は、約300例のデータベース中でそれに対する正しい鋳
型(構造的に類似のタンパク質)を見出されるはずの68個の標的タンパク質から
なる。個々のプロフィール−プロフィール比較のスコアは、比較するタンパク質
のサイズについて補正[30、31]され、所定の予測標的についてスコア分布を計
算するのに使用した。分布の標準偏差を計算し、分布を再分類するのに使用した
。再分類したスコアは、偶然起きるスコアの確率に容易に再計算でき、すると、
これは、BLASTにより報告されたp値と等しくなるであろう。
【0317】 予測の信頼性の推定は、Z値統計に基づく。この研究では、平均スコアより10
標準偏差上の堅実なカットオフを使用した。上記のUCLA基準の擬陽性の最大のZ
値は、5.2に等しい。しかし、より大きなデータベースサイズは、ランダムタン
パク質対の高スコア化アライメントの確率を上昇させる。
【0318】 本発明の目的を実施し、記載の目的と利点ならびに本発明の固有な目的と利点
を達成するように本発明をうまく適合させることができることは、当業者には容
易に理解されるであろう。機能部位ディスクリプタ、および本明細書に記載のよ
うにこれを作成し使用する方法は、まさに代表的、好適な実施形態、および例示
のためであり、決して本発明の範囲を限定するものではない。機能部位ディスク
リプタおよびこれを作成し使用するための方法に対する変更と修正は、本明細書
を読んだ後は当業者には容易であろう。かかる変更や修正はすべて、本発明の範
囲に包含されると理解されたい。
【0319】 本明細書に記載のまたは引用した論文、特許、および特許出願、ならびに電子
的に入手できる情報の内容は、各刊行物が具体的かつ個別に参照により本明細書
に組み込まれるように、本明細書に組み込まれる。本出願人は、かかる論文、特
許、および特許出願または他の文書から得た材料および情報をすべて、本出願に
物理的に組み込む権利を有する。
【0320】 本明細書に例示した発明は、本明細書には具体的に開示されない要素または制
限無しに、適切に実施し得る。すなわち、例えば「含んでなる」、「含む」、「
含有する」などは、拡大してかつ限定されずに読むことができる。さらに本明細
書で使用される用語や表現は、本明細書を説明するものであって、限定するもの
ではなく、かかる用語や表現の使用は、これらに類似するものの一部を排除する
ものではなく、特許請求される本発明の範囲において種々の改変が可能であるこ
とを理解されたい。すなわち、本発明を好適な実施形態および任意の特徴により
具体的に開示したが、本明細書に開示の発明の種々の修飾や変更が可能であり、
かかる修飾や変更は、本発明の範囲内であることを理解されたい。
【0321】 本発明を広範かつ一般的に説明した。一般的な開示内容に属するそれぞれのよ
り狭い種や小さい属分類もまた、本発明の一部を構成する。これは、削除した材
料が、本明細書に具体的に記載されたかどうかに関係なく、属のいずれかの対象
を排除する暫定的または負の制限を有する、本発明の一般的説明を含有する。
【0322】 他の実施形態は以下の請求の範囲中に含まれる。さらに本発明の特徴または実
施態様はマーカッシュ群で記載されるが、本発明はまた、マーカッシュ群の個々
のメンバーまたはメンバーの亜群においても記載されうることを、当業者は理解
するであろう。
【図面の簡単な説明】
【図1】 図1は、ポリペプチド骨格の構造および幾何学的配置を説明するものである。
2個の隣接アミノ酸残基の2個のα-炭素原子間の原子全てが示されている。1
個のアミノ酸残基のカルボニル炭素と、その隣のアミノ酸のアミド窒素の間のペ
プチド結合には斜線が付されている。示した寸法および結合角は、アミノ酸およ
びペプチドにおいて結晶構造解析法により観察された平均値である。(Ramachand
ranら, (1974) Biochim. Biophys. Acta., 359:298-302)。ψおよびφ結合の位
置も示す。
【図2】 図2は、本発明の1つの実施形態にしたがって、所定の分子機能についての機
能部位ディスクリプタを作成し、この機能部位ディスクリプタを用いて所定の分
子モデルが機能部位ディスクリプタに関連した機能特性を示すかどうかを決定す
る方法を一般的に説明する操作流れ図である。
【図3】 図3は、本発明の1つの実施形態にしたがって、機能部位ディスクリプタを作
成し、機能部位ディスクリプタを用いて分子機能を予測するための種々の方法お
よび技術と関連し得る機能を一般的に説明する機能ブロック図である。
【図4】 図4は、本発明の1つの実施形態にしたがって、所定の機能についての機能部
位ディスクリプタを作成する方法を説明する操作流れ図である。
【図5】 図5は、本発明の1つの実施形態にしたがって、機能部位ディスクリプタを作
成する方法を説明する操作流れ図である。
【図6】 図6A、6Bおよび6Cからなる図6は、本発明の1つの実施形態にしたがっ
て、仮説活性部位ディスクリプタの残基(番号3、84、142で図示)、隣接残基
(3と示した残基については番号2および4で示し、84と示した残基については
83および85で示し、142と示した残基については141および143で示す)、ならび
に残基の中の幾何学的配置(ここでは距離範囲、点線およびハッチング線で示す
)を説明するものである。図6Aおよび6Bにおいて、残基84は1番目の残基で
あり、残基3は2番目の残基である。1番目および2番目の残基は、図6Cに示
したように、より一般的にはそれぞれ「A」および「B」と示される。
【図7】 図7は、本発明の1つの実施形態にしたがって、距離を調整するための方法の
例を説明する操作流れ図である。
【図8】 図8は、本発明の1つの実施形態にしたがって機能部位ディスクリプタについ
てのデータセットの例を説明する図である。図6Cでも説明したように、図8に
おいて、Aは1番目の残基であり、Bは2番目の残基であり、Cは3番目の残基
である。
【図9】 図9は、所定の機能部位ディスクリプタ、例えば活性部位ディスクリプタで用
いられる幾何学的配置(例えば距離範囲)の1以上に関してどれくらいの弛緩が
用いられ得るかを決定することにおいて使用される乗数の選択を説明する操作流
れ図である。
【図10】 図10は、1種以上の機能部位ディスクリプタを用いてヌクレオチドまたはア
ミノ酸配列がかかる機能をコードしているかどうかを決定する方法を説明する操
作流れ図である。
【図11】 図11は、本発明の1つの実施形態にしたがってプロセッサベースシステムの
例を説明するブロック図である。
【図12】 図12は、12個のアミノ酸配列とFSDについての制約セットのアラインメント
を示す図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // C07K 1/00 C07K 1/00 (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CU, CZ,DE,DK,EE,ES,FI,GB,GD,G E,GH,GM,HR,HU,ID,IL,IN,IS ,JP,KE,KG,KP,KR,KZ,LC,LK, LR,LS,LT,LU,LV,MD,MG,MK,M N,MW,MX,NO,NZ,PL,PT,RO,RU ,SD,SE,SG,SI,SK,SL,TJ,TM, TR,TT,UA,UG,US,UZ,VN,YU,Z A,ZW (72)発明者 フェットロウ,ジャクリーン,エス. アメリカ合衆国 92130 カリフォルニア 州,サンディエゴ,ルピタ コート 12670 Fターム(参考) 2G045 AA40 DA36 FA36 JA01 JA20 4B063 QA05 QA18 QQ21 QS39 4H045 AA20 AA30 AA50 BA10 CA01 CA11 CA30 CA40 DA89 5B075 ND20 UU18

Claims (52)

    【特許請求の範囲】
  1. 【請求項1】 タンパク質における2価金属イオン結合部位以外の生物学的
    機能に対応する機能部位の空間的配置を定義する機能部位ディスクリプタであっ
    て、 タンパク質の不正確な三次元構造モデルに適用することによって、該タンパク
    質が該機能部位ディスクリプタにより定義される機能部位に対応する生物学的機
    能を有するかどうかを決定するためのものであり、 タンパク質における2価金属イオン結合部位以外の機能部位を構成する2個以
    上のアミノ酸残基の各残基に含まれる1個以上の原子についての幾何学的制約条
    件のセットを含んでなり、ここで該2個以上のアミノ酸残基の少なくとも1個は
    特定のアミノ酸残基またはアミノ酸残基のセットとして同定され、該1個以上の
    原子は、ポリペプチド骨格内のアミド窒素、α-炭素、カルボニル炭素およびカ
    ルボニル酸素、アミノ酸残基のβ-炭素、ならびに擬似原子からなる群より選択
    され、該1個以上の原子の少なくとも1個は、ポリペプチド骨格内のアミド窒素
    、α-炭素、β-炭素、またはカルボニル酸素である、機能部位ディスクリプタ。
  2. 【請求項2】 機能部位を構成する3、4、5、6、7、8、9、10、11、
    12、13、14、または15個のアミノ酸残基が、特定のアミノ酸残基またはアミノ酸
    残基のセットとして同定される、請求項1に記載の機能部位ディスクリプタ。
  3. 【請求項3】 機能部位ディスクリプタにおいて特定されたアミノ酸残基の
    正体が、Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met
    、Phe、Pro、Ser、Thr、Trp、Tyr、およびValからなる群より選択される、請求
    項1に記載の機能部位ディスクリプタ。
  4. 【請求項4】 機能部位ディスクリプタにおいて特定されたアミノ酸残基の
    正体が2個以上のアミノ酸残基のセットを含み、該アミノ酸残基のそれぞれがAl
    a、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro
    、Ser、Thr、Trp、Tyr、およびValからなる群より選択される、請求項1に記載
    の機能部位ディスクリプタ。
  5. 【請求項5】 幾何学的制約条件のセット内の各幾何学的制約条件が、三次
    元座標のセットにより特定された原子位置、原子間の距離および原子間の結合角
    からなる群より選択される、請求項1に記載の機能部位ディスクリプタ。
  6. 【請求項6】 幾何学的制約条件のセットの少なくとも1つのメンバーが、
    三次元座標セットにより特定された原子位置であり、該原子位置は予め選択され
    たRMSD内で変動し得るものである、請求項5に記載の機能部位ディスクリプタ。
  7. 【請求項7】 原子位置が約3Å以下のRMSD内で変動する、請求項6に記載
    の機能部位ディスクリプタ。
  8. 【請求項8】 幾何学的制約条件のセットの少なくとも1つのメンバーが原
    子間距離範囲(range)である、請求項5に記載の機能部位ディスクリプタ。
  9. 【請求項9】 幾何学的制約条件のセットの少なくとも1つのメンバーが原
    子間結合角範囲(range)である、請求項5に記載の機能部位ディスクリプタ。
  10. 【請求項10】 コンホメーションの制約条件をさらに含む、請求項1に記
    載の機能部位ディスクリプタ。
  11. 【請求項11】 機能部位ディスクリプタに対応する機能部位を構成する4
    、5、6、7、8、9、10、11、12、13、14、または15個のアミノ酸残基の各残
    基に含まれる少なくとも1個の原子に関して幾何学的制約条件のセットを含む、
    請求項1に記載の機能部位ディスクリプタ。
  12. 【請求項12】 幾何学的制約条件が付与される原子の全てがポリペプチド
    骨格の一部を構成しており、α-炭素、アミド窒素、カルボニル炭素、およびカ
    ルボニル酸素からなる群より選択される、請求項1に記載の機能部位ディスクリ
    プタ。
  13. 【請求項13】 1個以上の原子の少なくとも1個が擬似原子である、請求
    項1に記載の機能部位ディスクリプタ。
  14. 【請求項14】 擬似原子が、タンパク質の1個のアミノ酸残基に由来する
    原子およびタンパク質の少なくとも2個のアミノ酸残基に由来する原子からなる
    群より選択される少なくとも2個の原子に関して質量中心である、請求項13に
    記載の機能部位ディスクリプタ。
  15. 【請求項15】 電子回路の形態で実装される、請求項1に記載の機能部位
    ディスクリプタ。
  16. 【請求項16】 ジスルフィド酸化還元酵素活性、α/βヒドロラーゼ活性
    、ホスホリパーゼ活性、およびT1リボヌクレアーゼ活性からなる群より選択され
    る生物学的機能についての請求項1に記載の機能部位ディスクリプタ。
  17. 【請求項17】 3原子機能部位ディスクリプタ、4原子機能部位ディスク
    リプタ、5原子機能部位ディスクリプタ、6原子機能部位ディスクリプタ、7原
    子機能部位ディスクリプタ、8原子機能部位ディスクリプタ、9原子機能部位デ
    ィスクリプタ、10原子機能部位ディスクリプタ、11原子機能部位ディスクリプタ
    、12原子機能部位ディスクリプタ、13原子機能部位ディスクリプタ、14原子機能
    部位ディスクリプタ、および15原子機能部位ディスクリプタからなる群より選択
    される、請求項1に記載の機能部位ディスクリプタ。
  18. 【請求項18】 機能部位が、酵素の活性部位、リガンド結合ドメイン、お
    よびタンパク質−タンパク質相互作用ドメインからなる群より選択される、請求
    項1に記載の機能部位ディスクリプタ。
  19. 【請求項19】 リガンド結合ドメインが、基質、補因子、および抗原から
    なる群より選択されるリガンドに結合するものである、請求項18に記載の機能
    部位ディスクリプタ。
  20. 【請求項20】 請求項1に記載の機能部位ディスクリプタを少なくとも1
    種含む、機能部位ディスクリプタのライブラリ。
  21. 【請求項21】 ライブラリ中の機能部位ディスクリプタそれぞれが請求項
    1に記載の機能部位ディスクリプタである、請求項20に記載の機能部位ディス
    クリプタのライブラリ。
  22. 【請求項22】 ライブラリが、該ライブラリにより表現される生物学的機
    能の少なくとも1種に対して少なくとも2種の機能部位ディスクリプタを含む、
    請求項20に記載の機能部位ディスクリプタのライブラリ。
  23. 【請求項23】 タンパク質を、特定の生物学的機能を有するものとして同
    定する方法であって、 (a) 特定の生物学的機能と相関する請求項1に記載の機能部位ディスクリプタ
    を、タンパク質の構造に適用すること、ならびに (b) 該機能部位ディスクリプタの適用によって該タンパク質の該構造の一部が
    該機能部位ディスクリプタの制約条件と一致することが判明した場合に、該タン
    パク質を該生物学的機能を有するものとして同定すること、 を含む、方法。
  24. 【請求項24】 タンパク質の構造が高解像度構造である、請求項23に記
    載の方法。
  25. 【請求項25】 タンパク質の構造が、X線結晶構造解析法または核磁気共
    鳴法により決定されたものである、請求項24に記載の方法。
  26. 【請求項26】 タンパク質の構造が予測構造である、請求項23に記載の
    方法。
  27. 【請求項27】 予測構造がタンパク質の構造の不正確なモデルである、請
    求項26に記載の方法。
  28. 【請求項28】 タンパク質の構造の不正確なモデルが、アブイニシオ(ab
    initio)フォールディングプログラム、スレッディングプログラムおよびホモロ
    ジーモデリングプログラムからなる群より選択されるコンピュータプログラムを
    コンピュータに実行させることにより作成される、請求項27に記載の方法。
  29. 【請求項29】 タンパク質が動物タンパク質である、請求項23に記載の
    方法。
  30. 【請求項30】 動物タンパク質が哺乳動物タンパク質である、請求項29
    に記載の方法。
  31. 【請求項31】 哺乳動物タンパク質が、ウシ、イヌ、ウマ、ネコ、ヒツジ
    、およびブタからなる群より選択される哺乳動物由来のタンパク質である、請求
    項30に記載の方法。
  32. 【請求項32】 タンパク質がヒトタンパク質である、請求項23に記載の
    方法。
  33. 【請求項33】 タンパク質が植物タンパク質である、請求項23に記載の
    方法。
  34. 【請求項34】 タンパク質が原核生物タンパク質である、請求項23に記
    載の方法。
  35. 【請求項35】 タンパク質がウイルスタンパク質である、請求項23に記
    載の方法。
  36. 【請求項36】 複数の機能部位ディスクリプタが該タンパク質の該構造に
    適用される、請求項23に記載の方法。
  37. 【請求項37】 該機能部位ディスクリプタが該タンパク質の複数の構造に
    適用される、請求項23に記載の方法。
  38. 【請求項38】 該機能部位ディスクリプタが複数のタンパク質の1つの構
    造に適用される、請求項23に記載の方法。
  39. 【請求項39】 機能部位ディスクリプタが複数のタンパク質についての複
    数の構造に適用される、請求項23に記載の方法。
  40. 【請求項40】 タンパク質を特定の生物学的機能を有するものとして同定
    する方法であって、 (a) 特定の生物学的機能と相関する機能部位ディスクリプタをタンパク質の予
    測構造に適用すること、ここで該機能部位ディスクリプタはタンパク質の機能部
    位を構成する2個以上のアミノ酸残基の各残基中の1個以上の原子についての幾
    何学的制約条件のセットを含んでなり、該2個以上のアミノ酸残基の少なくとも
    1個は特定のアミノ酸残基またはアミノ酸残基のセットとして同定されるもので
    あること;ならびに (b) 該機能部位ディスクリプタの適用によって該タンパク質の該構造の一部が
    該機能部位ディスクリプタの制約条件と一致することが判明した場合に、該タン
    パク質を該生物学的機能を有するものとして同定すること、 を含んでなる、方法。
  41. 【請求項41】 予測構造がタンパク質の構造の不正確なモデルである、請
    求項40に記載の方法。
  42. 【請求項42】 タンパク質の構造の不正確なモデルが、アブイニシオフォ
    ールディングプログラム、スレッディングプログラムおよびホモロジーモデリン
    グプログラムからなる群より選択されるコンピュータプログラムをコンピュータ
    に実行させることにより作成される、請求項41に記載の方法。
  43. 【請求項43】 タンパク質における2価金属イオン結合部位以外の生物学
    的機能に対応する機能部位の空間的配置を定義する機能部位ディスクリプタであ
    って、タンパク質の不正確な三次元構造モデルに適用することによって、該タン
    パク質が該機能部位ディスクリプタにより定義された該機能部位に対応する該生
    物学的機能を有するかどうかを決定するための機能部位ディスクリプタを作成す
    る方法であって、 タンパク質における2価金属イオン結合部位以外の機能部位を構成する2個以
    上のアミノ酸残基の各残基に含まれる1個以上の原子についての幾何学的制約条
    件セットを開発することを含んでなり、ここで2個以上のアミノ酸残基の少なく
    とも1個は特定のアミノ酸残基またはアミノ酸残基のセットとして同定され、該
    1個以上の原子は、ポリペプチド骨格内のアミド窒素、α-炭素、カルボニル炭
    素およびカルボニル酸素、アミノ酸残基のβ-炭素、ならびに擬似原子からなる
    群より選択され、該1個以上の原子の少なくとも1個は、ポリペプチド骨格内の
    アミド窒素、α-炭素、β-炭素、またはカルボニル酸素である、方法。
  44. 【請求項44】 機能部位が、酵素の活性部位、リガンド結合ドメイン、お
    よびタンパク質−タンパク質相互作用部位からなる群より選択される、請求項4
    3に記載の方法。
  45. 【請求項45】 タンパク質の生物学的機能の予測に使用する機能部位ディ
    スクリプタを作成するためのコンピュータプログラムロジックが記録されたコン
    ピュータ使用可能媒体を含むコンピュータプログラム製品であって、該コンピュ
    ータプログラムロジックが下記の作業を実行するように構成されたコンピュータ
    プログラムコードロジックを含む、コンピュータプログラム製品: タンパク質の生物学的機能に関連した機能部位についての幾何学的制約条件セ
    ットを決定すること; 該幾何学的制約条件のセット中の幾何学的条件を1種以上変更して、変更され
    た幾何学的制約条件のセットを作成すること; 該変更された幾何学的制約条件のセットを、該生物学的機能と相関した機能部
    位のデータセットと比較して、該変更された幾何学的制約条件のセットが該生物
    学的機能と相関した機能部位のデータセットよりも優れているかどうかを決定す
    ること;ならびに、優れている場合には、 該変更された幾何学的制約条件のセットを該生物学的機能と相関していない機
    能部位のデータセットと比較して、該変更された幾何学的制約条件のセットが該
    生物学的機能と相関していない機能部位のデータセットよりも優れているかどう
    かを決定すること;ならびに、優れている場合には、 該変更された幾何学的制約条件のセットが、該生物学的機能と相関していない
    所定量のデータセットを包含することなく、該生物学的機能と相関した機能部位
    のデータセットと比べて優位になる程度にまで、上記変更および比較作業を繰り
    返して該幾何学的制約条件のセットの該幾何学的制約条件を1種以上変更するこ
    と。
  46. 【請求項46】 タンパク質の生物学的機能と相関した機能部位の幾何学的
    制約条件のセットを決定する作業が、所定の幾何学的制約条件のデータセット群
    の少なくとも1種からまたはユーザー入力から該幾何学的制約条件のセットを受
    け取ることを含む、請求項45に記載のコンピュータプログラム製品。
  47. 【請求項47】 該幾何学的制約条件のセットが、タンパク質の機能部位を
    構成する2個以上のアミノ酸残基の各残基に含まれる1個以上の原子に関するも
    のであり、該2個以上のアミノ酸残基の少なくとも1個は特定のアミノ酸残基ま
    たはアミノ酸残基のセットとして同定され、該1個以上の原子は、ポリペプチド
    骨格内のアミド窒素、α-炭素、カルボニル炭素およびカルボニル酸素、アミノ
    酸残基のβ-炭素、ならびに擬似原子からなる群より選択され、該1個以上の原
    子の少なくとも1個は、ポリペプチド骨格内のアミド窒素、α-炭素、β-炭素、
    またはカルボニル酸素である、請求項45に記載のコンピュータプログラム製品
  48. 【請求項48】 該幾何学的制約条件のセットが、該2個以上のアミノ酸残
    基のうちの1個のアミノ酸残基に隣接する1個以上のアミノ酸残基に含まれる1
    個以上の原子または擬似原子に関して1種以上の幾何学的制約条件をさらに含む
    、請求項47に記載のコンピュータプログラム製品。
  49. 【請求項49】 該幾何学的制約条件のセットが、三次元座標のセットによ
    り特定された原子位置、原子間の距離および原子間の結合角からなる群より選択
    される幾何学的制約条件を含む、請求項47に記載のコンピュータプログラム製
    品。
  50. 【請求項50】 該幾何学的制約条件のセットにおける幾何学的制約条件の
    少なくとも1種が、機能部位ディスクリプタのアミノ酸残基の1個以上の原子お
    よび/または擬似原子間の原子間距離を含む、請求項47に記載のコンピュータ
    プログラム製品。
  51. 【請求項51】 該幾何学的制約条件のセットの幾何学的制約条件を1種以
    上変更して変更された幾何学的制約条件のセットを作成する作業が、所定の分散
    を幾何学的制約条件の1種以上と関連付けることを含む、請求項45に記載のコ
    ンピュータプログラム製品。
  52. 【請求項52】 該幾何学的制約条件のセットの幾何学的制約条件を1種以
    上変更して変更された幾何学的制約条件のセットを作成する作業が、 該生物学的機能と相関する機能部位を有する2つの異なるタンパク質に由来す
    る該幾何学的制約条件についての数値を決定することによって、幾何学的制約条
    件のセット内の幾何学的制約条件の平均値を計算すること、 かかる幾何学的制約条件に関して標準偏差を計算すること、ならびに 該計算された標準偏差に乗数をかけて該変更された幾何学的配置を作成するこ
    と、 を含む、請求項45に記載のコンピュータプログラム製品。
JP2000566458A 1998-08-25 1999-05-27 タンパク質の機能を予測するための方法およびシステム Pending JP2002523057A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US9930098P 1998-08-25 1998-08-25
US60/099,300 1998-08-25
US12031199P 1999-02-16 1999-02-16
US60/120,311 1999-02-16
PCT/US1999/011913 WO2000011206A1 (en) 1998-08-25 1999-05-27 Methods and systems for predicting protein function

Publications (1)

Publication Number Publication Date
JP2002523057A true JP2002523057A (ja) 2002-07-30

Family

ID=26795945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000566458A Pending JP2002523057A (ja) 1998-08-25 1999-05-27 タンパク質の機能を予測するための方法およびシステム

Country Status (9)

Country Link
US (1) US6631332B2 (ja)
EP (1) EP1108055A1 (ja)
JP (1) JP2002523057A (ja)
CN (1) CN1328601A (ja)
AU (1) AU4218799A (ja)
CA (1) CA2340284A1 (ja)
IL (1) IL141510A0 (ja)
NZ (1) NZ510230A (ja)
WO (1) WO2000011206A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005529158A (ja) * 2002-05-28 2005-09-29 ザ・トラスティーズ・オブ・ザ・ユニバーシティ・オブ・ペンシルベニア 両親媒性ポリマーのコンピュータ分析および設計のための方法、システムおよびコンピュータプログラム製品
JP2007025916A (ja) * 2005-07-13 2007-02-01 Fujitsu Ltd タンパク質表面形状検索装置、タンパク質表面形状検索方法、タンパク質表面形状検索プログラム、および記録媒体
JP2015515448A (ja) * 2012-02-27 2015-05-28 ブリティッシュ コロンビア キャンサー エイジェンシー ブランチBritish Columbia Cancer Agency Branch 癌におけるエピジェネティックな欠陥を修復するためのエフェクタータンパク質相互作用のリプログラミング
JP7482782B2 (ja) 2018-02-26 2024-05-14 ジャスト-エヴォテック バイオロジクス,インコーポレイテッド 配列に基づくタンパク質の構造と特性の決定

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040185061A1 (en) * 1994-07-29 2004-09-23 Innogenetics N.V. Redox reversible HCV proteins with native-like conformation
WO2002023189A1 (en) * 2000-09-12 2002-03-21 Johns Hopkins University Structural prediction of allosterism
DE60227361D1 (de) * 2001-01-19 2008-08-14 Centocor Inc Computer vermitteltes assembly von polynucleotiden kodierend für ein zielgerichtetes polypeptide
WO2002059561A2 (en) * 2001-01-26 2002-08-01 Bioinformatics Dna Codes, Llc Modular computational models for predicting the pharmaceutical properties of chemical compounds
US20030068831A1 (en) * 2001-03-12 2003-04-10 Aled Edwards Proteins and druggable regions of proteins
US20030101003A1 (en) * 2001-06-21 2003-05-29 Benight Albert S. Methods for representing sequence-dependent contextual information present in polymer sequences and uses thereof
US7133864B2 (en) 2001-08-23 2006-11-07 Syngenta Participations Ag System and method for accessing biological data
JP3802416B2 (ja) * 2001-12-27 2006-07-26 セレスター・レキシコ・サイエンシズ株式会社 相互作用部位予測装置、相互作用部位予測方法、プログラム、および、記録媒体
US7623969B2 (en) * 2002-01-31 2009-11-24 The Institute For Systems Biology Gene discovery for the system assignment of gene function
AU2003202324B2 (en) * 2002-02-08 2008-05-08 The University Of Queensland Common protein surface shapes and uses therefor
AUPS039702A0 (en) * 2002-02-08 2002-03-07 University Of Queensland, The Common protein surface shapes and uses therefor
US6671628B2 (en) 2002-03-04 2003-12-30 Chemnavigator, Inc. Methods for identifying a molecule that may bind to a target molecule
EP1510943A4 (en) * 2002-05-31 2007-05-09 Celestar Lexico Sciences Inc INTERACTION PREDICTION DEVICE
EP1369807A1 (en) * 2002-06-06 2003-12-10 Centre National De La Recherche Scientifique (Cnrs) Process for identifying similar 3d substructures onto 3d atomic structures
US20050182570A1 (en) * 2002-06-06 2005-08-18 Centre National de la Recherche Scientifique-CNRS an organization of France Process for identifying similar 3D substructures onto 3D atomic structures and its applications
US20040034481A1 (en) * 2002-08-16 2004-02-19 Hurst John R. Methods for identifying a prospective binding site on a target molecule and for characterizing a site on a target molecule
US8024127B2 (en) 2003-02-27 2011-09-20 Lawrence Livermore National Security, Llc Local-global alignment for finding 3D similarities in protein structures
JP4673836B2 (ja) * 2003-03-25 2011-04-20 インストラクション・ゲーエムベーハー 少なくとも二価結合による基質の収着剤への選択的結合方法
US6970791B1 (en) * 2003-05-23 2005-11-29 Verachem, Llc Tailored user interfaces for molecular modeling
EP1853304A4 (en) 2005-02-15 2009-11-25 Dana Farber Cancer Inst Inc MODULATION OF THE MUC1 ACTIVITY
US8017315B2 (en) 2005-08-22 2011-09-13 Dana Farber Cancer Institute, Inc. Mitochondrial localization of MUC1
US8467971B2 (en) 2006-08-07 2013-06-18 Lawrence Livermore National Security, Llc Structure based alignment and clustering of proteins (STRALCP)
EP2118795A4 (en) * 2007-01-31 2010-07-07 Sundia Meditech Company Ltd METHODS, SYSTEMS, ALGORITHMS AND MEANS FOR DESCRIBING THE POSSIBLE CONFORMATION OF REAL AND THERORETICAL PROTEINS AND THE ASSESSMENT OF REAL AND THERORETICAL PROTEINS WITH REGARD TO FOLDING, TOTAL FORM AND STRUCTURAL MOTIVES
WO2008097840A2 (en) 2007-02-02 2008-08-14 Dana-Farber Cancer Institute, Inc. Methods and compositions relating to the regulation of muc1 by hsf1 and stat3
WO2008097844A2 (en) 2007-02-02 2008-08-14 Dana -Farber Cancer Institute, Inc. Methods and compositions relating to the regulation of apoptosis by muc1 and bh3- containing proapoptotic proteins
WO2008101121A2 (en) 2007-02-14 2008-08-21 Dana-Farber Cancer Institute, Inc. Methods and compositions relating to promoter regulation by muc1 and klf proteins
US8452542B2 (en) 2007-08-07 2013-05-28 Lawrence Livermore National Security, Llc. Structure-sequence based analysis for identification of conserved regions in proteins
US20110098238A1 (en) * 2007-12-20 2011-04-28 Georgia Tech Research Corporation Elucidating ligand-binding information based on protein templates
KR101689408B1 (ko) 2008-10-17 2016-12-23 다나-파버 캔서 인스티튜트 인크. 암의 저해제로서 muc-1 세포질 도메인 펩티드
WO2011154121A1 (en) * 2010-06-07 2011-12-15 Priaxon Ag Method for identifying compounds
US20120059599A1 (en) * 2010-09-03 2012-03-08 University Of Louisville Hybrid fragment-ligand modeling for classifying chemical compounds
US20130304432A1 (en) * 2012-05-09 2013-11-14 Memorial Sloan-Kettering Cancer Center Methods and apparatus for predicting protein structure
EP3524617B1 (en) 2013-03-15 2023-04-12 GLAdiator Biosciences, Inc. Gla domains as therapeutic agents
CA2906233C (en) * 2013-03-15 2021-08-31 Zymeworks Inc. Systems and methods for identifying thermodynamic effects of atomic changes to polymers
KR101522087B1 (ko) * 2013-06-19 2015-05-28 삼성에스디에스 주식회사 미스매치를 고려한 염기 서열 정렬 시스템 및 방법
CN104715164B (zh) * 2013-12-12 2017-11-21 中国科学院大连化学物理研究所 与蛋白质相互作用的dna骨架位置预测方法
US10540606B2 (en) * 2014-06-30 2020-01-21 Amazon Technologies, Inc. Consistent filtering of machine learning data
CN106599611B (zh) * 2016-12-09 2019-04-30 中南大学 蛋白质功能标注方法及系统
CN108959852B (zh) * 2017-05-24 2021-12-24 北京工业大学 基于氨基酸-核苷酸成对偏好性信息的蛋白质上与rna结合模块的预测方法
CN109101784A (zh) * 2017-06-20 2018-12-28 河南师范大学 一种dna结合蛋白接口几何结构特征的分析方法
US20190050524A1 (en) * 2017-08-09 2019-02-14 Arizona Board Of Regents On Behalf Of Arizona State University Enhanced applications of molecular libraries based on structure/function analysis
SG11202001535RA (en) 2017-09-05 2020-03-30 Gladiator Biosciences Inc Method of targeting exosomes
EP3483619A1 (en) * 2017-11-13 2019-05-15 Technische Universität München Automated noninvasive determining the sex of an embryo of and the fertility of a bird's egg
CN109448784B (zh) * 2018-08-29 2021-05-18 浙江工业大学 一种基于二面角信息辅助能量函数选择的蛋白质结构预测方法
CN109817275B (zh) * 2018-12-26 2020-12-01 东软集团股份有限公司 蛋白质功能预测模型生成、蛋白质功能预测方法及装置
EP4004200A4 (en) * 2019-09-13 2023-08-02 The University of Chicago METHOD AND APPARATUS USING MACHINE LEARNING FOR EVOLUTIONARY DATA-DRIVEN DESIGN OF PROTEINS AND OTHER SEQUENCE-DEFINED BIOMOLECULES
US11887698B2 (en) 2020-01-08 2024-01-30 Samsung Electronics Co., Ltd. Method and electronic device for building comprehensive genome scale metabolic model
CN111445768B (zh) * 2020-03-16 2021-12-14 哈尔滨医科大学 一种模块化组装肽链空间结构模型
CA3236765A1 (en) * 2021-11-01 2023-05-04 James Liam MCWHIRTER Systems and methods for polymer sequence prediction
CN115035947B (zh) * 2022-06-10 2023-03-10 水木未来(北京)科技有限公司 蛋白质结构建模方法及装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005529158A (ja) * 2002-05-28 2005-09-29 ザ・トラスティーズ・オブ・ザ・ユニバーシティ・オブ・ペンシルベニア 両親媒性ポリマーのコンピュータ分析および設計のための方法、システムおよびコンピュータプログラム製品
JP2007025916A (ja) * 2005-07-13 2007-02-01 Fujitsu Ltd タンパク質表面形状検索装置、タンパク質表面形状検索方法、タンパク質表面形状検索プログラム、および記録媒体
JP2015515448A (ja) * 2012-02-27 2015-05-28 ブリティッシュ コロンビア キャンサー エイジェンシー ブランチBritish Columbia Cancer Agency Branch 癌におけるエピジェネティックな欠陥を修復するためのエフェクタータンパク質相互作用のリプログラミング
JP7482782B2 (ja) 2018-02-26 2024-05-14 ジャスト-エヴォテック バイオロジクス,インコーポレイテッド 配列に基づくタンパク質の構造と特性の決定

Also Published As

Publication number Publication date
WO2000011206A1 (en) 2000-03-02
NZ510230A (en) 2004-01-30
US6631332B2 (en) 2003-10-07
CN1328601A (zh) 2001-12-26
CA2340284A1 (en) 2000-03-02
EP1108055A1 (en) 2001-06-20
IL141510A0 (en) 2002-03-10
US20010034580A1 (en) 2001-10-25
AU4218799A (en) 2000-03-14

Similar Documents

Publication Publication Date Title
JP2002523057A (ja) タンパク質の機能を予測するための方法およびシステム
Schauperl et al. AI-based protein structure prediction in drug discovery: impacts and challenges
Chelliah et al. Distinguishing structural and functional restraints in evolution in order to identify interaction sites
US20030215877A1 (en) Directed protein docking algorithm
Fiser Protein structure modeling in the proteomics era
US20030130797A1 (en) Protein modeling tools
King et al. Structure‐based prediction of protein–peptide specificity in rosetta
Vakser et al. Predicting 3D structures of protein-protein complexes
Sánchez et al. Comparative protein structure modeling in genomics
EP1652123A2 (en) STRUCTURAL INTERACTION FINGERPRINT (SIFt)
Popov et al. Knowledge of native protein–protein interfaces is sufficient to construct predictive models for the selection of binding candidates
Patel et al. Implementing and assessing an alchemical method for calculating protein–protein binding free energy
Rifai et al. Combined linear interaction energy and alchemical solvation free-energy approach for protein-binding affinity computation
Mignon et al. Computational design of the Tiam1 PDZ domain and its ligand binding
AU780941B2 (en) System and method for searching a combinatorial space
WO1999061654A1 (en) Methods and systems for predicting protein function
Opuu Computational design of proteins and enzymes
Fernandez-Fuentes et al. Modeling loops in protein structures
Lin et al. An anchor-dependent molecular docking process for docking small flexible molecules into rigid protein receptors
Selwynea et al. Homology Modelling and Molecular Dynamics of Cyclin-Dependent Protein Kinases
Flower Receptor-binding sites: bioinformatic approaches
Skolnick et al. Protein structure prediction
Maples et al. Supercomputers in modeling of biological systems
Lee Conformational dynamics, unfolding and structure prediction: Three case studies in molecular modeling of proteins
Kaufmann Computational prediction of protein small molecule interfaces using ROSETTA