JP2006502706A

JP2006502706A - ハイブリッドタンパク質方法および組成物

Info

Publication number: JP2006502706A
Application number: JP2004524808A
Authority: JP
Inventors: ホーンピーターバンダー; ヤンウォン
Original assignee: エムジェイバイオワークスインコーポレーティッド
Priority date: 2002-07-25
Filing date: 2003-07-25
Publication date: 2006-01-26
Anticipated expiration: 2023-07-25
Also published as: AU2003256794B2; WO2004011605A3; AU2003256794A1; WO2004011605A2; DK1572959T3; ATE486931T1; DE60334839D1; EP1572959A2; EP2264155A1; EP1572959B1; CA2518588A1; JP4575160B2; EP1572959A4

Abstract

本発明はタンパク質の促進進化のための方法に関する。本発明は、ハイブリッドタンパク質を作製するための方法、および本方法を用いて得られた改良型タンパク質を提供する。

Description

関連出願の相互参照
本出願は、2002年7月25日に提出された米国仮特許出願第60／398,687号；2003年4月17日に提出された米国仮特許出願第60／463,781号；および2003年6月27日に提出された米国仮特許出願第60／483,287号の利益を主張し、これらの出願はそれぞれ参照として本明細書に組み入れられる。

発明の分野
本発明は、タンパク質の促進進化(facilitated evolution)のための方法、および本方法を用いて得られた新規ポリペプチドに関する。

発明の背景
本発明は、活性が増強されたタンパク質を同定する目的でハイブリッドタンパク質を作り出すための方法を提供する。タンパク質の機能を増強するためにハイブリッド配列を作製する方法は数多く知られている（例えば、米国特許第6,132,970号を参照されたい）。しかし、これらの方法は、配列をシャッフルして新たなタンパク質を作り出すという組換え手法に依拠している。機能が増強されたタンパク質の同定を容易にするための別の手法に対する需要が存在する。本発明はこの需要に対処し、さらに本方法を用いて得られるポリメラーゼなどのポリペプチドを提供する。

ポリメラーゼは生体高分子の形成を触媒する。ポリメラーゼは、核酸テンプレートおよび核酸プライマーの存在下におけるデオキシリボヌクレオシド三リン酸からのDNAの合成；リボヌクレオチドおよびDNAテンプレートまたはRNAテンプレートからのRNAの合成；DNAの複製および修復；ならびにインビトロでのDNAまたはRNAの増幅のために有用である。

3'→5'エキソヌクレアーゼ活性は「プルーフリーディング」活性とも一般に呼ばれ、いくつかのDNAポリメラーゼの重要な特徴であり、パイロコッカス・フリオサス（Pyrococcus furiosus）PolI（本明細書では「Pfu」と称し、米国特許第5,948,663号に記載されている；Stratagene, San Diego, CAから販売されている）およびパイロコッカスGB-D株PolI（本明細書では「Deep Vent（登録商標）」と称し、米国特許第5,834,285号に記載されている；New England Biolabs, Beverly MAから販売されている）などの、パイロコッカス属ファミリーBポリメラーゼに存在する。3'→5'エキソヌクレアーゼの本質的な機能は、塩基対を形成していない末端を認識して切断することである。しかし、高いエキソヌクレアーゼ活性を有する酵素はプロセッシビティ（processivity）が低いため、ポリメラーゼ活性に依拠する反応には一般に用いられない。例えば、PCRに用いる場合、これはしばしば、PCR反応の忠実度を向上させるために、プロセッシビティは相対的に高いが3'→5'エキソヌクレアーゼ活性はない酵素であるサーマス・アクアティカス（Thermus aquaticus）DNA PolI（Taq）とともに用いられる。高い3'→5'エキソヌクレアーゼ活性を有するポリメラーゼのプロセッシビティが向上すれば、ポリメラーゼの使用に依拠する反応の信頼性が大きく高まり、場合によってはTaqポリメラーゼの必要性がなくなると考えられる。したがって、3'→5'エキソヌクレアーゼ活性を有する改良型ポリメラーゼを作り出すことには需要が存在する。

本発明は、新規ポリメラーゼ組成物を提供することにより、これをはじめとする需要に対処する。

発明の簡単な概要
本発明は、機能が増強されたポリペプチドを作製する方法を提供する。本方法は、共通の生物活性を有するハイブリッドタンパク質を作り出すことを含み、これは以下の段階を含む：（a）複数のハイブリッドタンパク質メンバーをコードする32種またはそれ以上の核酸を有するライブラリーを作製する段階、この際、メンバーは対応するアミノ酸を有する少なくとも2つの出発タンパク質（starting protein）のセットとは異なり、ここでi）出発タンパク質は互いのアミノ酸ペアワイズ類似性が60％を上回り、かつ少なくとも1つの共通の生物活性を有する相同タンパク質である、ii）コードするライブラリーメンバーの大半は出発タンパク質のいずれかと60％を上回るアミノ酸類似性を有する、およびiii）コードされるライブラリーメンバーと出発タンパク質との間の差異の大半は出発タンパク質同士の間で異なる対応するアミノ酸に限局している；（b）少なくとも1つのハイブリッドタンパク質を作り出すために、少なくとも1つのライブラリーメンバーからタンパク質を発現させる段階；ならびに（c）出発タンパク質の共通の生物活性を有する少なくとも1つのタンパク質を選択する段階。

もう1つの局面において、本発明は、複数のハイブリッドタンパク質メンバーをコードする核酸のライブラリーを提供し、この際、メンバーは対応するアミノ酸を有する少なくとも2つの出発タンパク質のセットとは異なり、ここでi）出発タンパク質は互いのアミノ酸ペアワイズ類似性が60％を上回り、かつ少なくとも1つの共通の生物活性を有する相同タンパク質である、ii）コードするライブラリーメンバーの大半は出発タンパク質のいずれかと60％を上回るアミノ酸類似性を有する、およびiii）コードされるライブラリーメンバーと出発タンパク質との間の差異の大半は出発タンパク質間で異なる対応するアミノ酸に限局される。いくつかの態様において、親タンパク質（parent protein）は酵素、例えばポリメラーゼ、生合成酵素および分解酵素などである。親酵素がアイソザイムであってもよい。親タンパク質が、非酵素性タンパク質、例えば、ホルモン、受容体、抗体といった、別の分子と結合するタンパク質（アロステリック効果の有無は問わない）であってもよい。多くの場合、親タンパク質は互いに80％を上回るアミノ酸類似性を有し、ライブラリーメンバーの大半は出発タンパク質のいずれかと80％を上回るアミノ酸類似性を有する。

もう1つの局面において、本発明は、少なくとも2つの出発タンパク質のセットの各メンバーとのアミノ酸類似性が60％を上回る合成ハイブリッドタンパク質であって、セット中の各出発タンパク質がセットの各メンバーと60％を上回るアミノ酸類似性および少なくとも1つの共通の生物活性を有しており、（a）セットの全メンバーと少なくとも1つの生物活性を共有している；（b）セットのいずれかのメンバーと最低限5アミノ酸残基の差異を有する；および（c）セットのいずれのメンバーとも対応しないアミノ酸は24％を超えない、ハイブリッドタンパク質を提供する。

いくつかの態様において、出発親タンパク質は酵素、例えばポリメラーゼである。親タンパク質がアイソザイムであってもよい。

多くの場合、親タンパク質は互いに80％を上回る類似性を有し、ライブラリーメンバーの大半は、親タンパク質、ハイブリッドタンパク質のいずれかと80％を上回る類似性を有する。

いくつかの態様において、親タンパク質のセットは、パイロコッカス・フリオサス（Pyrococcus furiosus）ファミリーB DNAポリメラーゼ（Pfu）およびDeep Vent（登録商標）DNAポリメラーゼを含み、セットのいずれかのメンバーとの差異は、図2に示された群より選択されるミスマッチのうち少なくとも10個から構成される。

本発明は、親タンパク質の比較的保存性の低い領域に変化を含むハイブリッドポリペプチドを作製することに関し、驚くべきことに、親タンパク質と比較して所望の特性が改良されたハイブリッドタンパク質を提供する。本発明のタンパク質は、大まかに述べた場合、可変残基改変（variable residue altered）ハイブリッドタンパク質（VRAHP）と呼ぶことができる。より詳細には、VRAHPは親タンパク質の非保存的な位置、すなわち可変残基に変化を含み、この際、変化した残基は、親タンパク質のいずれか1つでその位置に存在するアミノ酸である。このような変化は一般に、タンパク質の1つの領域に集中するのではなく、例えば30アミノ酸残基または50アミノ酸残基毎に少なくとも1つあるというようにタンパク質の全体にわたって存在する。

一般的には、本発明によれば、少なくとも2つの親タンパク質のセットの各親タンパク質は、セットの各メンバーと60％を上回るアミノ酸類似性および少なくとも1つの共通の生物活性を有する。本発明による代表的なハイブリッドタンパク質は、少なくとも2つの親タンパク質のセットの各メンバーとのアミノ酸類似性が60％を上回ると考えられ、セットの全メンバーと少なくとも1つの生物活性を共有すると考えられる。

さらに、前述の親タンパク質のセットは、セットの全メンバー間で同一な不変アミノ酸のサブセットを必ず含む。本発明による代表的なハイブリッドタンパク質は、不変アミノ酸のサブセットが少なくとも95％を占める。

さらに、親タンパク質のセットは、セットの少なくともいくつかのメンバーの間で差異がある可変アミノ酸のサブセットを必ず含む。本発明による代表的なハイブリッドタンパク質は、セットのいずれかのメンバーと最低限5アミノ酸残基の差異を含むと考えられ、これは可変アミノ酸のサブセットのメンバーに相当する。また、本発明による代表的なハイブリッドタンパク質は、可変アミノ酸のサブセットからの少なくとも5アミノ酸残基のサブセットも含むと考えられ、この少なくとも5アミノ酸のそれぞれは親セット中のメンバーの少なくとも1つにおける対応するアミノ酸と同一であり、この少なくとも5アミノ酸のサブセットのそれぞれは、N末端からC末端の順に、少なくとも5つの可変アミノ酸残基のサブセットの以前のメンバーからの親タンパク質のセットの別のものに由来する、対応するアミノ酸と同一である。言い換えれば、代表的なハイブリッドタンパク質は、他方（alternating）の親タンパク質に対応する少なくとも5つの可変アミノ酸残基を含む。

もう1つの局面において、本発明は、複数の親ポリメラーゼに由来する残基を含む、ハイブリッド型ポリメラーゼポリペプチドを提供する。本発明はまた、このようなタンパク質をコードする核酸も提供する。したがって、1つの局面において、本発明は、ポリメラーゼ活性を有するハイブリッド型ポリメラーゼであって、配列番号:23を含んでおり、配列番号:24に示されたパイロコッカスフリオサス（Pfu）配列の700個の連続したアミノ酸にわたる同一性が少なくとも80％であるかまたは配列番号:25に示されたDeep Vent（登録商標）配列の700個の連続したアミノ酸にわたる同一性が少なくとも80％であるポリメラーゼを提供するが、ただしその前提として（a）ポリメラーゼが配列番号:24と少なくとも85％同一である場合、その配列は、天然のPfu残基から配列番号:25の対応する位置に存在する残基へと変異した少なくとも1つのハイブリッド位置を含み、このハイブリッド位置は配列番号:26で「X」と指定された残基の1つである；または（b）ポリメラーゼが配列番号:25と少なくとも85％同一である場合、その配列は、天然のDeep Vent（登録商標）残基から配列番号:24の対応する位置に存在する残基へと変異した少なくとも1つのハイブリッド位置を含み、このハイブリッド位置は配列番号:26に「X」と指定された残基の1つである。いくつかの態様において、ポリメラーゼは、配列番号:24に示されたPfu配列の700個の連続したアミノ酸にわたる同一性が少なくとも90％であるか、または配列番号:25に示されたDeep Vent（登録商標）配列の700個の連続したアミノ酸との同一性が少なくとも90％である。

いくつかの態様において、ハイブリッド型ポリメラーゼは、配列番号:24または配列番号:25の天然の残基から、それぞれ配列番号:25または配列番号:24の対応する残基へと変異した、少なくとも10個のハイブリッド位置、一般的には20個のハイブリッド位置、30個のハイブリッド位置、40個のハイブリッド位置、または50個もしくはそれを上回るハイブリッド位置を含む。

また別の態様において、ハイブリッド型ポリメラーゼは、配列番号:2、配列番号:12、配列番号:16もしくは配列番号:18のアミノ酸配列；または配列番号:4、配列番号:6、配列番号:8、配列番号:10、配列番号:14もしくは配列番号:20のポリメラーゼ領域を含む。

本発明はまた、ハイブリッド型ポリメラーゼがDNA結合ドメイン、多くの場合にはSso7d、Sac7dおよびSac7eをさらに含んでいる態様も含む。多くの場合、DNA結合ドメインはポリメラーゼと結合している。いくつかの態様において、ポリメラーゼDNA結合ドメイン結合体は、配列番号:4、配列番号:6、配列番号:8、配列番号:10、配列番号:14または配列番号:20のアミノ酸配列を含む。

本発明はまた、ハイブリッド型ポリメラーゼをコードする単離された核酸、およびハイブリッド型ポリメラーゼがDNA結合ドメインと結合したものを含む結合体；ならびにこの核酸を含む発現ベクターおよび宿主細胞も提供する。

もう1つの局面において、本発明は、配列番号:2との同一性が少なくとも94％であるアミノ酸配列を含むポリペプチドをコードする単離された核酸であって、そのポリペプチドがポリメラーゼ活性を示すような核酸を提供する。代表的な態様において、本ポリペプチドは配列番号:2を含む。いくつかの態様において、単離された核酸は配列番号:1を含む。

本発明はまた、核酸によってコードされるポリペプチドがさらにDNA結合ドメインを含み、それが多くの場合、Sso7d、Sac7dおよびSac7eからなる群より選択されるような態様も提供する。これらの核酸は配列番号:4を含むポリペプチドをコードしうる。1つの態様において、核酸は配列番号:3を含む。

また別の局面において、本発明は、これらの核酸を含む発現ベクターおよび宿主細胞を提供する。

もう1つの局面において、本発明は、配列番号:2との同一性が少なくとも94％であるアミノ酸配列を含む単離されたポリペプチドであって、ポリメラーゼ活性を有するポリペプチドを提供する。1つの態様において、ポリペプチドは配列番号:2を含む。

いくつかの態様において、本ポリペプチドは、DNA結合ドメイン、例えばSso7d、Sac7dまたはSac7eをさらに含む。DNA結合ドメインはポリペプチドのカルボキシ末端と融合させることができる。1つの態様において、ポリペプチドは配列番号:4を含む。

もう1つの局面において、本発明は、配列番号:12、配列番号:16もしくは配列番号:18との同一性が少なくとも94％であるアミノ酸配列；または配列番号:6、配列番号:8、配列番号:10、配列番号:14もしくは配列番号:20のポリメラーゼ領域、を含むポリペプチドをコードする単離された核酸であって、そのポリペプチドがポリメラーゼ活性を示すような核酸を提供する。代表的な態様において、本ポリペプチドは、配列番号:12、配列番号:16もしくは配列番号:18；または配列番号:6、配列番号:8、配列番号:10、配列番号:14もしくは配列番号:20のポリメラーゼ領域を含む。いくつかの態様において、単離された核酸は、配列番号:11、配列番号:15もしくは配列番号:17；または配列番号:5、配列番号:7、配列番号:9、配列番号:13もしくは配列番号:19のポリメラーゼ領域を含む。

本発明はまた、核酸によってコードされるポリペプチドがDNA結合ドメインをさらに含み、多くの場合、それがSso7d、Sac7dおよびSac7eからなる群より選択されるような態様も提供する。この核酸は、配列番号:6、配列番号:8、配列番号:10、配列番号:14または配列番号:20を含むポリペプチドをコードしうる。1つの態様において、核酸は配列番号:5、配列番号:7、配列番号:9、配列番号:13または配列番号:1を含む。

もう1つの局面において、本発明は、配列番号:12、配列番号:16もしくは配列番号:18との同一性が少なくとも94％であるアミノ酸配列；または配列番号:6、配列番号:8、配列番号:10、配列番号:14もしくは配列番号:20のポリメラーゼ領域を含む、単離されたポリペプチドであって、ポリメラーゼ活性を有するポリペプチドも提供する。1つの態様において、ポリペプチドは配列番号:12、配列番号:16もしくは配列番号:18；または配列番号:6、配列番号:8、配列番号:10、配列番号:14もしくは配列番号:20のポリメラーゼ領域を含む。

いくつかの態様において、これはさらにDNA結合ドメイン、例えばSso7d、Sac7dまたはSac7eを含む。このDNA結合ドメインはポリペプチドのカルボキシ末端と融合させることができる。1つの態様において、このポリペプチドは配列番号:6、配列番号:8、配列番号:10、配列番号:14または配列番号:20を含む。

発明の詳細な説明
A．概要
本発明は、所望の表現型を有するハイブリッドタンパク質（一部を除いて型は入れない）を作成する方法を提供する。一般に、既知の既存のタンパク質の機能と類似するがそれから改変された機能を有する新たなタンパク質を作り出すことはしばしば望ましく、例えば、安定性が向上したタンパク質、特定の基質に対する酵素活性が上昇もしくは低下したタンパク質、特定のリガンドに対する親和性が上昇もしくは低下したタンパク質等を作り出すことが望ましい場合がある。例えば、DNAポリメラーゼ酵素がポリメラーゼ活性およびエキソヌクレアーゼ活性の両方を有することがあるが、この2つの活性の比が異なる新たな酵素を作り出すことは有用と考えられる。本発明は、望ましい特性に関してスクリーニングしうる多数のタンパク質を作製する方法を提供する。

ヒト、マウスならびに多くの無脊椎動物および微生物のゲノムのシークエンシングが実質的に完了したことにより、多岐にわたる遺伝子配列およびそれから導き出されるタンパク質配列が得られるようになった。本発明はこれにより、タンパク質の違い（vatiation）に関する生の配列情報を、有用なバリアントタンパク質を作製するための供給源として用いる方法も提供する。

特に、本発明は、2種類またはそれ以上の親タンパク質のハイブリッドをコードする核酸ライブラリーを合成し、所望の表現型または活性を有するハイブリッドタンパク質を選択する方法を提供する。一般的には、このライブラリーは32種またはそれ以上のハイブリッドタンパク質を含むと考えられる。本発明はまた、少なくとも2つの親タンパク質のセットの各メンバーに対して60％を上回るアミノ酸類似性を有し、多くの場合には60％を上回る同一性を有する、複数のハイブリッドタンパク質および合成ハイブリッドタンパク質をコードする、ハイブリッド核酸のライブラリーも提供する。

本発明の実施には、組換えタンパク質の構築および宿主細胞におけるそれらの発現が必然的に伴う。これらの目的を達成するための分子クローニングの手法は当技術分野で知られている。発現ベクターなどの組換え核酸の構築に適した多岐にわたるクローニング方法およびインビトロ増幅方法が当業者に周知である。本明細書において有用な分子生物学の手法を記載した一般的なテキストには、Sambrook & Russell,「分子クローニング、実験マニュアル（Molecular Cloning, Laboratory Manual）」（第3版、2001）（「Sambrook」）；Kriegler,「遺伝子の移入および発現：実験マニュアル（Gene Transfer and Expression: Laboratory Manual）」（1990）；および「分子生物学における最新プロトコール（Current Protocols in Molecular Biology）」、Ausubelら編、1994-1999, John Wiley & Sons, Inc（「Ausubel」）が含まれる。

目的のタンパク質に関するハイブリッドタンパク質を作製するための親配列は、さまざまなアミノ酸配列比較方法を用いて同定しうる。これらの手法を用いて、当業者は、ハイブリッドタンパク質の作製に用いうる適切なオリゴヌクレオチドを調製するために、本発明のタンパク質をコードする核酸における保存された領域を同定することができる。

オリゴヌクレオチドは受注生産されたものでよく、当技術分野で知られたさまざまな販売元に発注することができる。市販されていないものは、さまざまな化学的手法、例えば、Beaucage & Caruthers, Tetrahedron Letts. 22: 1859-1862 (1981)に最初に記載された固相ホスホルアミダイトトリエステル法を用い、Van Devanterら、Nucleic Acids Res. 12: 6159-6168 (1984)に記載されたように自動合成装置を用いて化学合成することができる。オリゴヌクレオチドの精製は既知の方法、例えば、Pearson & Reanier, J Chrom. 255: 137-149 (1983)に記載されたように、未変性アクリルアミドゲル電気泳動または陰イオン交換HPLCによって行われる。

ハイブリッドタンパク質またはハイブリッドタンパク質のセグメントをコードする核酸は、核酸試料、例えばオリゴヌクレオチドのセグメントから、種々の増幅／伸長手法を用いて増幅することができる。例えば、発現させようとするハイブリッドタンパク質をコードする核酸配列を入手するため、試料における所望の核酸配列の存在を検出するためのプローブとして用いる核酸を作製するため、核酸シークエンシングのため、またはその他の目的のために、ポリメラーゼ連鎖反応（PCR）技術を用いることもできる。PCRの概要に関しては、「PCRプロトコール：方法および応用の手引き（PCR Protocols: A Guide to Methods and Applications）」（Innis, M, Gelfand, D., Sninsky, J.およびWhite, T.編）、Academic Press, San Diego (1990)を参照されたい。

本発明のハイブリッドタンパク質をコードする核酸配列を、個々のハイブリッドタンパク質をコードする配列のライブラリーを作製するために、発現ベクター中にクローニングすることができる。

以下の考察は、親出発タンパク質の選択およびアラインメントをいかにして行うか、親タンパク質由来のハイブリッド型ポリペプチドをコードする核酸のライブラリーをいかにして作製するか、ならびにライブラリーから得たタンパク質をいかにして評価するか、に関する詳細を述べたものである。

本発明はまた、本明細書に記載の方法を用いて作製されたハイブリッド型ポリメラーゼのポリペプチド配列および核酸配列も提供する。いくつかの態様において、ポリペプチドはさらに、DNA結合ドメイン、例えば古細菌低分子塩基性タンパク質（Sso7d、Sac7dまたはSac7e DNA結合ドメインなど）を、ポリペプチドと融合した状態で含む。DNA結合ドメインは一般に酵素の核酸に対する結合親和性を高める上、ポリメラーゼのプロセッシビティを向上させることができる。

本発明のポリメラーゼは、配列番号:2、配列番号:4、配列番号:6、配列番号:8、配列番号:10、配列番号:12、配列番号:14、配列番号:16、配列番号:18または配列番号:20に開示されたポリメラーゼ配列と同一または実質的に同一なポリメラーゼを含む。このようなポリメラーゼは多くの場合、野生型ポリメラーゼPfuまたはDeep Vent（登録商標）ポリメラーゼのものと比較して変化した活性を示す。

B．定義
「ハイブリッドタンパク質」という用語は、本明細書において、多数の親ポリペプチド配列に由来するアミノ酸残基を含むポリペプチドを説明するために用いられる。

「ハイブリッド位置」という用語は、親ポリペプチド配列または部分配列（subsequence）間で差異のある位置のことを指す。

「増幅」という用語は、それにより核酸断片のコピー数が増加する工程のことを指す。

「親配列」とは、本発明の操作を行う前の出発時または参照用のアミノ酸配列または核酸配列のことを指す。この用語は「出発配列」と互換的に用いられる。親配列は野生型タンパク質、ハイブリッドタンパク質、変異を含むタンパク質、またはその他の操作されたタンパク質のいずれでもよい。親配列は完全長タンパク質、タンパク質サブユニット、タンパク質ドメイン、アミノ酸モチーフ、タンパク質活性部位、または任意のポリペプチド配列もしくはポリペプチド配列のサブセットのいずれでもよく、これらは連続していても他のポリペプチド配列によって分断されていてもよい。

「野生型」という用語は、変異を含まないポリヌクレオチド配列またはポリペプチド配列のことを指す。「野生型」タンパク質は、自然下で認められる活性レベルで作用するタンパク質のことを指し、これは一般に自然下で認められるアミノ酸配列を含む。

「天然の(native)」ポリペプチド配列とは、親ポリペプチド配列、一般的には「野生型」配列のことを指す。

「変異」という用語は、野生型核酸配列の配列における変化、またはペプチドの配列における変化のことを指す。このような変異は、塩基転位もしくは塩基転換などの点変異、または欠失、挿入もしくは重複のいずれであってもよい。

本明細書で用いる「天然型の（naturally occurring）」という用語は、自然界に見いだしうる核酸またはポリペプチドのことを指す。例えば、自然界にある源から単離しうる生物体の内部に存在し、実験室で意図的に改変されていないポリペプチド配列またはポリヌクレオチド配列は天然型である。

「共通の生物」活性とは、2つまたはそれ以上のタンパク質に共通する活性のことを指し、この共通の生物活性は自然界で認められる活性である。タンパク質の生物活性は、タンパク質の機能を決定するための当技術分野で知られた標準的な手段を用いて評価しうる。

「DNA結合ドメイン」という用語は、DNAとかなり高い親和性で結合するタンパク質ドメインのことを指し、これに関して、ヌクレオチド組成は同じであるがヌクレオチド配列が異なる別の核酸よりも100倍を上回る親和性でこのタンパク質ドメインと結合する既知の核酸は存在しない。

「Sso7d」または「Sso7d DNA結合ドメイン」または「Sso7d様DNA結合ドメイン」または「Sso7d結合タンパク質」という用語は、以下のような核酸およびポリペプチドの多型バリアント、対立遺伝子、変異体および種間相同体のことを指す：（1）配列番号:22のSso7d配列に対して、好ましくは少なくとも約15、25、35、50アミノ酸またはそれを上回る領域にわたって、約60％、65％、70％、75％、80％、85％、90％、好ましくは91％、92％、93％、94％、95％、96％、97％、98％もしくは99％を上回るアミノ酸配列同一性、またはそれ以上のアミノ酸配列同一性を有するアミノ酸配列を有する；（2）抗体、例えば、配列番号:22のアミノ酸配列およびその保存的に改変されたバリアントを含む免疫原に対して産生されたポリクローナル抗体と結合する；（3）配列番号:21のSso7d核酸配列およびその保存的に改変されたバリアントと、ストリンジェントなハイブリダイゼーション条件下で特異的にハイブリダイズする、または（4）配列番号:21に対して、好ましくは少なくとも約50、100、150ヌクレオチドまたはそれを上回る領域にわたって、約90％を上回る、好ましくは約96％、97％、98％、99％を上回る、またはそれ以上のヌクレオチド配列同一性を有する核酸配列を有する。この用語には、完全長Sso7dポリペプチド、および配列特異的でない二本鎖結合活性を有するポリペプチド断片の両方が含まれる。Sso7d様タンパク質にはSac7dおよびSac7eが含まれる。

「ドメイン」とは、その単位が定義された機能を有するような、ポリペプチド部分配列、完全ポリペプチド配列または複数のポリペプチド配列を含む、タンパク質またはタンパク質複合体の単位のことを指す。この機能は広く定義されるものと理解されており、これはリガンド結合、触媒活性であってもよく、またはタンパク質の構造に対して安定化効果を及ぼしてもよい。

「Sso7dポリメラーゼ結合体」とは、少なくとも1つのSso7D DNA結合ドメインがポリメラーゼドメインまたはポリメラーゼドメインの触媒サブユニットと連結したものを含む、改変されたポリメラーゼのことを指す。

酵素の文脈における「増強する」とは、酵素の活性を向上させること、すなわち、単位酵素当たり・単位時間当たりの生成物の量を増加させることを指す。

「融合した」とは、共有結合による結合のことを指す。

「異種」とは、タンパク質の部分に言及して用いる場合、タンパク質が、自然下では互いに同じ関係では認められない2つまたはそれ以上のドメインを含むことを表している。このようなタンパク質、例えば融合タンパク質は、新たな機能性タンパク質を生じるように配置された、関連のないタンパク質に由来する2つまたはそれ以上のドメインを含む。

ポリヌクレオチド配列は、それが外来種に由来するならば、または同じ種に由来する場合にはその元の形態から改変されているならば、生物体または第2のポリヌクレオチド配列「に対して異種」である。例えば、異種コード配列と機能的に結合したプロモーターとは、プロモーターの由来となった種とは異なる種に由来するコード配列、または同じ種に由来する場合には天然に存在するいかなる対立遺伝子バリアントとも異なるコード配列について言及している。

「連結する（join）」とは、タンパク質ドメインを機能的に結合するための当技術分野で知られた任意の方法のことを指し、これには、介在ドメインを伴うかまたは伴わない組換え融合、インテインを介した融合、非共有性結合および共有結合、例えばジスルフィド結合；水素結合；静電結合；およびコンフォメーション結合、例えば、抗体-抗原会合およびビオチン-アビジン会合などが非制限的に含まれる。

「ポリメラーゼ」とは、ポリヌクレオチドのテンプレート特異的な合成を行う酵素のことを指す。この用語には、完全長ポリペプチド、およびポリメラーゼ活性を有するドメインの両方が含まれる。

本発明のポリメラーゼの文脈における「効率」とは、酵素が特定の反応条件下でその触媒機能を遂行する能力のことを指す。一般的には、本明細書で定義される「効率」は、所定の反応条件下で生じる産物の量によって示される。

「プロセッシビティ」とは、ポリメラーゼが、テンプレートまたは基質との結合を保ちながらポリヌクレオチド合成を行う能力のことを指す。プロセッシビティは、1回の結合イベント毎に起こる触媒イベントの数によって計測される。

本明細書で用いる「耐熱性ポリメラーゼ」とは、DNAまたはRNAをテンプレートとして用いるヌクレオチド鎖へのヌクレオチド単位の付加によってポリヌクレオチド合成を触媒し、45℃を上回る温度で至適活性が得られる任意の酵素のことを指す。

「ポリメラーゼ連鎖反応」または「PCR」とは、標的二本鎖DNAの特定のセグメントまたは部分配列が幾何級数的に増幅される方法のことを指す。PCRは当業者に周知である；例えば、米国特許第4,683, 195号および第4,683,202号；ならびに「PCRプロトコール：方法および応用の手引き（PCR Protocols: A Guide to Methods and Applications）」、Innisら編、1990を参照されたい。範例的なPCR反応条件は一般に、2段階または3段階のサイクルを含む。2段階サイクルでは変性段階の後にハイブリダイゼーション／伸長段階を行う。3段階サイクルでは変性段階の後にハイブリダイゼーション段階を行い、その後に別個に伸長段階を行う。

「増幅すること」とは、反応の成分のすべてが完全である場合にポリヌクレオチドの増幅が十分に行われる条件に溶液を供する段階のことを指す。増幅反応の成分には、例えば、プライマー、ポリヌクレオチドテンプレート、ポリメラーゼ、ヌクレオチドなどが含まれる。「増幅すること」という用語は一般に、標的核酸の「指数的」増加のことを指す。しかし、本明細書で用いる「増幅すること」は、サイクルシークエンス法を用いて得られるような、選択した核酸標的配列の数の直線的増加のことも指しうる。

「増幅反応混合物」という用語は、標的核酸を増幅するために用いられる種々の試薬を含む水溶液のことを指す。これらには、酵素、水性緩衝液、塩、増幅プライマー、標的核酸およびヌクレオシド三リン酸が含まれる。状況に応じて、混合物は完全な増幅反応混合物であっても不完全な増幅反応混合物であってもよい。

「ロングPCR（Long PCR）」とは、長さが5kbまたはそれを上回るDNA断片の増幅のことを指す。ロングPCRは通常、より短い産物を増幅するために従来用いられているポリメラーゼとは異なる、特別に適合化されたポリメラーゼまたはポリメラーゼ混合物を用いて行われる（例えば、米国特許第5,436,149号および第5,512,462号を参照されたい）。

PCR「感度」とは、少ないコピー数で存在する標的核酸を増幅する能力のことを指す。「少ないコピー数」とは、増幅しようとする核酸試料中の105個、しばしば104個、103個、102個、101個またはそれ未満の標的配列のコピーのことを指す。

本明細書で用いる「ポリメラーゼプライマー／テンプレート結合特異性」という用語は、ポリメラーゼが、正しくマッチしたプライマー／テンプレートと、ミスマッチしたプライマーテンプレートとを識別する能力のことを指す。この文脈における「ポリメラーゼプライマー／テンプレート結合特異性の増大」とは、本発明のポリメラーゼが、野生型ポリメラーゼタンパク質と比較して、マッチしたプライマー／テンプレートを識別する能力が高まったことを指す。

「核酸」および「ポリヌクレオチド」は、デオキシリボヌクレオチドまたはリボヌクレオチド、および、一本鎖または二本鎖の形態にあるその重合体を指すために本明細書において互換的に用いられる。この用語には、参照核酸と類似した結合特性を有し、参照ヌクレオチドと類似した様式で代謝される、合成性、天然型および非天然型の、既知のヌクレオチド類似体または改変された骨格残基もしくは結合を含む核酸が含まれる。このような類似体の例には、ホスホロチオエート、ホスホロアミデート、メチルホスホネート、キラルメチルホスホネート、2-O-メチルリボヌクレオチド、ペプチド核酸（PNA）が非制限的に含まれる。

「ポリペプチド」「ペプチド」および「タンパク質」は、アミノ酸残基の重合体を指すために本明細書において互換的に用いられる。この用語は、1つまたは複数のアミノ酸残基が天然のアミノ酸に対応する人工的な模倣化学物質であるアミノ酸重合体、さらには天然のアミノ酸重合体および非天然型のアミノ酸重合体に対して適用される。

「アミノ酸」という用語は、天然型および合成性のアミノ酸のほか、天然型のアミノ酸と類似した様式で機能するアミノ酸類似体およびアミノ酸模倣物のことも指す。天然型のアミノ酸とは、遺伝暗号によってコードされるもののほか、後に改変されたアミノ酸、例えば、ヒドロキシプロリン、γ-カルボキシグルタミン酸およびO-ホスホセリンなどのこともいう。アミノ酸類似体とは、天然型のアミノ酸と同じ基本的な化学構造を持つ、すなわち、水素、カルボキシル基、アミノ基およびR基、例えばホモセリン、ノルロイシン、メチオニンスルホキシド、メチオニンメチルスルホニウムなどと結合した炭素を有する化合物のことを指す。このような類似体は、改変されたR基（例えば、ノルロイシン）または改変されたペプチド骨格を有するが、天然型のアミノ酸と同じ基本的な化学構造を保っている。アミノ酸模倣物とは、アミノ酸の一般的な化学構造とは異なる構造を持つものの、天然型のアミノ酸と類似した様式で機能する化合物のことを指す。

本明細書ではアミノ酸は、一般的に知られた三文字記号、またはIUPAC-IUBの生化学物質命名委員会（Biochemical Nomenclature Commission）が推奨している一文字記号のいずれかによって言及される場合がある。ヌクレオチドも同じく、一般的に認められた一文字記号によって言及される場合がある。

「保存的に改変されたバリアント」は、アミノ酸配列および核酸配列の両方に適用される。個々の核酸配列に関して、保存的に改変されたバリアントとは、同一もしくは本質的に同一なアミノ酸配列をコードする核酸のことを指し、または、核酸がアミノ酸配列をコードしない場合には本質的に同一な配列のことを指す。遺伝暗号の縮重性のため、任意のタンパク質は多数の機能的に同一な核酸によってコードされうる。例えば、コドンGCA、GCC、GCGおよびGCUはすべてアラニンというアミノ酸をコードする。このため、コドンによってアラニンが指定されるあらゆる位置で、コードされるポリペプチドを変化させずに、そのコドンを対応する上記のコドンのいずれかに変化させることができる。このような核酸バリエーションは「サイレントバリエーション」であり、保存的に改変されたバリエーションの一種である。任意のポリペプチドをコードする本明細書のあらゆる核酸配列は、その核酸のあらゆる可能なサイレントバリエーションについても記載している。当業者は、核酸内の各コドン（通常はメチオニンに対する唯一のコドンであるAUG、および通常はトリプトファンに対する唯一のコドンであるTGGを除く）を改変して、機能的に同一な分子を作製しうることを認識していると考えられる。したがって、任意のポリペプチドをコードする核酸の各々のサイレントバリエーションは、記載される各配列に黙示的に含まれる。

アミノ酸配列に関して、当業者は、コードされる配列中の単一のアミノ酸または少数のアミノ酸が改変、付加または除去された、核酸、ペプチド、ポリペプチドまたはタンパク質の配列に対する個々の置換物、欠失物または付加物が、改変によってアミノ酸が化学的に類似したアミノ酸に置換されるような「保存的に改変されたバリアント」であることを認識していると考えられる。機能的に類似したアミノ酸が得られる保存的置換の表も当技術分野で周知である。このような保存的に改変されたバリアントは、本発明の多型バリアント、種間相同体および対立遺伝子に追加されるものであり、それらが除外されるわけではない。

例えば、脂肪族アミノ酸（G、A、I、LまたはV）がこの群の別のメンバーによって置換された置換物を作製することができる。同様に、C、S、T、M、NまたはQなどの脂肪族極性非荷電基をこの群の別のメンバーによって置換することもできる；さらに塩基性残基、例えばK、RまたはHを互いに置換することもできる。いくつかの態様において、酸性側鎖を有するアミノ酸であるEまたはDを、それぞれの非荷電性対応物であるQまたはNによって置換すること；またはその逆のことを行うこともできる。以下の8つの群のそれぞれは、互いに保存的置換物であるその他の例示的なアミノ酸を含む：
1）アラニン（A）、グリシン（G）；
2）アスパラギン酸（D）、グルタミン酸（E）；
3）アスパラギン（N）、グルタミン（Q）；
4）アルギニン（R）、リシン（K）；
5）イソロイシン（I）、ロイシン（L）、メチオニン（M）、バリン（V）；
6）フェニルアラニン（F）、チロシン（Y）、トリプトファン（W）；
7）セリン（S）、トレオニン（T）；および
8）システイン（C）、メチオニン（M）
（例えば、Creighton,「タンパク質（Proteins）」(1984)を参照されたい）。

「ポリメラーゼ核酸」または「ポリメラーゼポリヌクレオチド」は、ポリメラーゼドメインを含むタンパク質をコードするポリヌクレオチド配列または部分配列のことである。本発明のポリメラーゼの例示的な態様をコードする核酸は、本明細書に開示されたポリメラーゼをコードする核酸、例えば、配列番号:1、配列番号:3、配列番号:5、配列番号:7、配列番号:9、配列番号:11、配列番号:13、配列番号:15、配列番号:17または配列番号:19に示された配列と同一または実質的に同一である；これは配列番号:2、配列番号:4、配列番号:6、配列番号:8、配列番号:10、配列番号:12、配列番号:14、配列番号:16、配列番号:18または配列番号:20と同一または実質的に同一なポリメラーゼポリペプチドをコードする。

本発明の「ポリメラーゼポリペプチド」とは、ポリメラーゼドメインを含むタンパク質のことである。ポリメラーゼポリペプチドが、DNA結合ドメイン、例えばSso7Dを含む、追加的なドメインを含んでもよい。DNAポリメラーゼは当業者に周知であり、例えば、パイロコッカス・フリオサス、サーモコッカス・リトラリス（Thermococcus litoralis）およびサーモトガ・マリチマ（Thermotoga maritima）がある。これらは、DNA依存性ポリメラーゼ、および逆転写酵素などのRNA依存性ポリメラーゼの両方を含む。DNA依存性DNAポリメラーゼは少なくとも5つのファミリーが知られているが、ほとんどはファミリーA、BおよびCに分類される。異なるファミリー間には配列類似性はほとんどまたは全くない。ほとんどのファミリーAポリメラーゼは、ポリメラーゼ、3'→5'エキソヌクレアーゼ活性および5'→3'エキソヌクレアーゼ活性を含む複数の酵素機能を含みうる一本鎖タンパク質である。ファミリーBポリメラーゼは典型的には、ポリメラーゼ活性および3'→5'エキソヌクレアーゼ活性、ならびにアクセサリー因子を有する単一の触媒ドメインを有する。ファミリーCポリメラーゼは典型的には、重合活性および3'→5'エキソヌクレアーゼ活性を有する多サブユニットタンパク質である。大腸菌では、3種類のDNAポリメラーゼ、DNAポリメラーゼI（ファミリーA）、II（ファミリーB）およびIII（ファミリーC）が発見されている。真核生物細胞では、3種類のファミリーBポリメラーゼであるDNAポリメラーゼα、δおよびεが核複製に関係し、ファミリーAポリメラーゼの1つであるポリメラーゼγがミトコンドリアDNAの複製に用いられる。その他の種類のDNAポリメラーゼにはファージポリメラーゼが含まれる。同様に、RNAポリメラーゼには一般に、真核生物RNAポリメラーゼI、IIおよびIIIならびに細菌RNAポリメラーゼ、さらにはファージおよびウイルスのポリメラーゼが含まれる。RNAポリメラーゼはDNA依存性でもRNA依存性でもありうる。

本発明のポリメラーゼの例示的な態様には、配列番号:2、配列番号:4、配列番号:6、配列番号:8、配列番号:10、配列番号:12、配列番号:14、配列番号:16、配列番号:18または配列番号:20と同一または実質的に同一なポリメラーゼが含まれる。当業者は、ポリメラーゼ内部の特定のアミノ酸残基を、改良されたポリメラーゼの能力に大きな影響を及ぼすことなく改変しうること、例えば保存的に改変しうることを理解していると考えられる。平均で、100アミノ酸につき少なくとも6アミノ酸を改変しうる。これらには例えば、12位のグリシンをアラニンに、1位のメチオニンをバリンに、2位のイソロイシンをロイシンに、8位のイソロイシンをバリンに、または33位のトレオニンをセリンに置換することが含まれる（位置は配列番号:26を基準として指定している）。

本発明のポリメラーゼを、それらが、配列番号:2、配列番号:4、配列番号:6、配列番号:8、配列番号:10、配列番号:12、配列番号:14、配列番号:16、配列番号:18または配列番号:20のアミノ酸配列およびそれらの保存的に改変されたバリアントを含む免疫原に対して産生された抗体、例えばポリクローナル抗体と結合する能力によって同定することもできる。

本発明のポリペプチド性ポリメラーゼはポリメラーゼ活性を有する。本明細書に記載のアッセイを用いて、本発明のポリペプチドの活性を測定することができる。本発明のポリメラーゼポリペプチドのいくつかは、本明細書に記載のアッセイにおいて、野生型ポリメラーゼと比較して改良されたポリメラーゼ活性を示す。

2つの核酸配列またはポリペプチドは、下記のように最大の対応関係が得られるように比較およびアラインメントを行った場合に、2つの配列におけるそれぞれヌクレオチドまたはアミノ酸残基の配列が同じであれば、「同一である」と言われる。2つまたはそれ以上の核酸またはポリペプチド配列の文脈において、「同一である」または「一致」率という用語は、一定の比較域（comparison window）にわたって最大の対応関係が得られるように比較およびアラインメントを行った場合に、以下に述べる配列比較アルゴリズムの1つを用いるかもしくは手作業によるアラインメントおよび目視検査による評価で、同じである、または同じアミノ酸残基もしくはヌクレオチドが指定された比率である、2つまたはそれ以上の配列または部分配列のことを指す。

タンパク質またはペプチドに関して言及する場合およびポリペプチドのアラインメントを目的とする場合、同一でない残基位置の違いがしばしば、アミノ酸残基が類似した化学的特性（電荷または疎水性）を有する他のアミノ酸残基に置換された保存的アミノ酸置換によるものであって、分子の機能的特性が必ずしも変化しないことは認識されている。本特許を目的とする保存的置換のスコア化は、BLOSUM62行列に基づく（Henikoff& Henikoff Proc. Natl. Acad. Sci. USA 89: 109-5, 1989）。

「配列類似性」または「類似の（similar）」という用語をアミノ酸配列に関して用いることもできる。この用語は上記の保存的置換を含む。類似度（percent similarity）の決定を目的とする場合、BLOSUM62置換行列でゼロを上回る値が得られれば、2つのアミノ酸は類似していると判断される。配列類似度を決定するための最適なアラインメントは、以下にさらに説明するような種々のアルゴリズムを用いて行いうる。2つの配列の最適なアラインメントのために配列の一方または両方へのギャップの導入が必要な場合には、他方の配列中のギャップと整合する一方の配列中のアミノ酸残基は、一致度（percent identity）を決定する目的にはミスマッチとして算定される。ギャップは内側にあっても外側にあってもよい（すなわち、切断）。

「絶対的一致度（absolute percent identity）」という用語は、ミスマッチしたアミノ酸の類似性とは関係なく、同一のアミノ酸を1とし、何らかの置換をゼロとしてスコア化することによって決定される配列同一性のパーセンテージのことを指す。典型的な配列アラインメント、例えばBLASTアラインメントにおいて、2つの配列の「絶対的一致度」は、アミノ酸「同一性」のパーセンテージとして提示される。本明細書で用いる場合、ある配列が参照配列と「少なくともX％同一である」、例えば「配列番号:2と少なくとも90％同一であるポリペプチド」と定義される場合には、「X％同一である」は、別に指示する場合を除き、絶対的一致度のことを指す。2つの配列の最適なアラインメントのために配列の一方または両方へのギャップの導入が必要な場合には、他方の配列中のギャップと整合する一方の配列中のアミノ酸残基は、一致度（percent identity）を決定する目的にはミスマッチとして算定される。ギャップは内側にあっても外側にあってもよい（すなわち、切断）。

ポリヌクレオチド配列の「実質的な同一性」または「実質的な類似性」という用語は、ポリヌクレオチドがそれぞれ少なくとも60％の配列同一性または配列類似性を有する配列を含むことを意味する。または、一致度または類似度は、少なくとも60％から100％までの任意の整数でありうる（例えば、少なくとも60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、100％）。

いくつかの態様、例えば、本明細書に開示したポリメラーゼ配列において、実質的に同一なポリメラーゼ配列は、本明細書に記載のプログラムを用いて；好ましくはBLASTを下記のような標準的なパラメーターおよび手順で用いて、参照配列（例えば、配列番号:12、配列番号:16もしくは配列番号:18のポリメラーゼ；または配列番号:6、配列番号:8、配列番号:10、配列番号:14もしくは配列番号:20のポリメラーゼ領域）と比較して80％、85％、90％、94％、95％、96％、97％、98％または99％である。当業者は、以下にさらに説明するように、コドン縮重、アミノ酸類似性、リーディングフレームの配置などを考慮に入れることにより、2つのヌクレオチド配列によりコードされるタンパク質の対応する同一性または類似性を決定するためにこれらの値を適切に調整しうることを認識していると考えられる。

当業者は、2つのポリペプチドが免疫学的に類似していれば、2つのポリペプチドが「実質的に同一な」こともありうることを認識していると考えられる。すなわち、2つのポリペプチドの一次構造にかなりの違いがあっても全体的なタンパク質構造は類似していることがある。このため、2つのポリペプチドが実質的に同一であるか否かを評価するための方法は、モノクローナル抗体またはポリクローナル抗体と各ポリペプチドとの結合を測定することを必然的に伴う。第1のポリペプチドに対して特異的な抗体が、第1のポリペプチドに対する親和性の少なくとも3分の1の親和性で第2のポリペプチドと結合するならば、2つのポリペプチドは実質的に同一である。

2つの核酸配列が実質的に同一であることのもう1つの指標は、2つの分子またはそれらの相補物が、下記のようなストリンジェントな条件下で互いにハイブリダイズすることである。「選択的に（または特異的に）ハイブリダイズする」という語句は、ある分子の結合、二重鎖形成またはハイブリダイゼーションが、その配列が複雑な混合物（例えば、全細胞またはライブラリーのDNAまたはRNA）中に存在する場合に、ストリンジェントなハイブリダイゼーション条件下で特定のヌクレオチド配列のみに対して起こることを指す。

「ストリンジェントなハイブリダイゼーション条件」という語句は、一般的には核酸の複雑な混合物中で、プローブがその標的部分配列とはハイブリダイズするが、他の配列とはハイブリダイズしないと思われる条件のことを指す。ストリンジェントな条件は配列依存的であり、環境が異なれば異なると考えられる。配列が長いほど高い温度で特異的にハイブリダイズすると考えられる。核酸のハイブリダイゼーションに関する詳細な手引きは、Tijssen、「生化学および分子生物学の技法-核酸プローブとのハイブリダイゼーション（Techniques in Biochemistry and Molecular Biology-Hybridization with Nucleic Probes）」、「ハイブリダイゼーションの原理および核酸アッセイの戦略の概要（Overview of principles of hybridization and the strategy of nucleic acid assays）」（1993）に記載がある。一般に、ストリンジェントな条件は、規定のイオン強度および強度での特定の配列の融点（Tm）よりも約5〜10℃低くなるように選択する。Tmは、標的に対して相補的なプローブの50％が平衡状態で標的配列とハイブリダイズする温度（規定のイオン強度、pHおよび核酸濃度の下で）である（標的配列が過剰に存在するため、Tmでは平衡状態でプローブの50％が占有される）。ストリンジェントな条件は、塩濃度がナトリウムイオン濃度で約1.0M未満、一般的にはナトリウムイオン（または他の塩の）濃度で約0.01〜1.0M、pH7.0〜8.3であり、温度は短いプローブ（例えば、10〜50ヌクレオチド）に関しては少なくとも約30℃であって、（例えば、50ヌクレオチドを上回るもの）に関しては少なくとも約60℃であると考えられる。ストリンジェントな条件は、ホルムアミドなどの脱安定剤の添加によっても得られる。選択的または特異的なハイブリダイゼーションの場合、陽性シグナルはバックグラウンド値の少なくとも2倍、選択的にはバックグラウンドでのハイブリダイゼーションの10倍である。

本発明においては、本発明のポリペプチドをコードする核酸を、本明細書に開示した核酸配列を用いるストリンジェントな条件下での標準的なサザンブロット法で同定することができる。この開示を目的とする場合、このようなハイブリダイゼーションのために適したストリンジェントな条件は、40％ホルムアミド、1M NaCl、1％SDSを含む緩衝液中にて37℃でハイブリダイゼーションを行い、0.2×SSC中での少なくとも1回の洗浄を少なくとも約50℃、通常は約55℃〜約60℃または60℃の温度で20分間行うこと、または同等の条件を含むものである。陽性のハイブリダイゼーションはバックグラウンドの少なくとも2倍である。代替的なハイブリダイゼーションおよび洗浄の条件を用いても同程度のストリンジェンシーの条件が得られることを当業者は直ちに認識すると考えられる。

2つのポリヌクレオチドが実質的に同一であることのもう1つの指標は、一対のオリゴヌクレオチドプライマーによって増幅された参照配列を、次に、cDNAライブラリーもしくはゲノムライブラリーから被験配列を単離するため、または例えばノーザンブロット法もしくはサザンブロット法において被験配列を単離するための、ストリンジェントなハイブリダイゼーション条件下でのプローブとして用いうることである。

「ライブラリーメンバー」「ライブラリーのメンバー」などの用語は、本明細書に述べた意図した特性を有する核酸ライブラリー中の核酸；すなわち、ハイブリッドポリペプチドをコードする核酸のことを指す。小規模ライブラリーのメンバー（例えばポリペプチドドメインをコードする配列などを含む）を、他のライブラリーメンバーまたは親配列もしくは非親（non-parental）配列と連結させて完全長タンパク質をコードさせることは当然ながら可能である。ライブラリーがさらに他の核酸を意図的な追加物または意図しない混入物として含みうることは認識されている；これらの追加的な核酸は「メンバー」とはみなされない。

「最小コード配列」「最小コードオリゴヌクレオチド配列」および「最小コードヌクレオチド配列」という用語は、ハイブリッド配列のライブラリーをコードするヌクレオチド配列のことを指す。これは、2つまたはそれ以上の異なるアミノ酸配列を検討して、2つの異なるアミノ酸配列に由来するハイブリッドタンパク質を含むタンパク質のライブラリーをコードすると考えられる単一の縮重ヌクレオチド配列を導き出した結果である。最小コード配列は、単一のコドン、複数のコドンまたはタンパク質をコードするのに十分なコドンのいずれを指してもよい。最小コード配列は連続的である必要はない。最小コード配列は、親配列と類似した非親アミノ酸および類似していない非親アミノ酸の両方をコードしうる。多くの場合には、同じ親アミノ酸をコードしうる複数の最小コード配列を導き出すことが可能である。

C．親タンパク質の選択および配列のアラインメント
本発明の方法では、共通の生物活性を有するポリペプチド（例えば、デオキシウリジン三リン酸ヌクレオチドヒドロラーゼまたはDNAポリメラーゼ）をコードする少なくとも2つのポリヌクレオチド配列を組み換えて、ハイブリッドポリヌクレオチドのライブラリーを作製する。続いて、親ポリペプチドと比較して表現型の変化した機能性ハイブリッドタンパク質を同定するためにライブラリーをスクリーニングする。

親タンパク質は、互いにかなり高度の配列類似性または二次構造類似性を示しうるが、それらは少なくとも5つの位置が異なる必要があり、100、200またはそれ以上の位置が異なってもよい。親タンパク質間の類似度または一致度は、少なくとも60％から99％までの任意の数値でありうる。初期配列の比較においては2つを上回る親配列があってもよい。これらの多数の配列の違いは単一の位置でも複数の異なる位置でもよい。例えば、ハイブリッド分子を作製するための親配列となる3つの関連した配列が考えられる。このうち1つの配列は第2の配列と単一の位置で異なってよく、第2の配列は第3の配列と単一の位置で異なってよい。

ライブラリーメンバー間の差異の大半、例えば、差異の50％超、往々にして75％超または90％超は一般に、親タンパク質間で差異のあるアミノ酸に対応するものに限局している。対応するアミノ酸とは、親配列間の最大限のアラインメントを行った際に特定の位置に存在する親配列のアミノ酸残基のことを指す。このような位置の指定は親配列中のアミノ酸の数自体を示すのではなく、それらの残基が存在する親配列中のアミノ酸の数を示すことが理解される必要がある。アラインメントは手作業で行うこともでき、または以下にさらに説明するような配列比較アルゴリズムを用いて行うこともできる。例えば、図1は、本発明の方法に用いうる2つの野生型タンパク質である、PfuポリメラーゼおよびDeep Vent（登録商標）ポリメラーゼのアミノ酸配列を示している。図2は、この2つの親タンパク質間で異なるアミノ酸の位置を示している。一般に、本発明の方法によって作り出されるハイブリッドタンパク質は、それらの親の間に差異のある位置で互いに異なる。

親タンパク質間での配列の最初の差異は一般に（必ずではないが）、天然のバリエーションの結果である。例えば、親タンパク質は生物の異なる個体または系統から得られたバリアント形態であってよく、例えば、親タンパク質は同じ生物に由来する関連した配列（例えば、パラログ（paralog）または対立遺伝子バリエーション）であってもよく、または異なる生物に由来する相同体（種間相同体）であってもよい。

したがって、本発明の方法に用いられる親ポリペプチドは、共通の生物活性を有する2つまたはそれ以上の相同タンパク質の任意のセットである。生物活性は必ずしも直接的に示されるとは限らず、活性が示されている既知のタンパク質との配列の類似性または同一性から推測してもよい。ある特定のタンパク質が複数の酵素活性を有する可能性があっても、生物活性が単一の酵素活性を指すこともある。同じく、生物活性が、ホルモンまたは受容体の場合のようにアロステリック効果を有する別の分子との結合；またはある種の抗体の場合のようにアロステリック効果のない別の分子との結合；または中和効果もしくは捕捉（sequestration）効果を有する別の分子との結合といった非酵素的な活性を指すこともある。

タンパク質の生物活性は、タンパク質の機能を決定するための、当技術分野で知られた標準的な手段を用いて評価しうる。例えば、いくつかの態様において、親タンパク質は酵素であって共通の酵素活性を有すると考えられる。例となる酵素には、ポリメラーゼ、リガーゼ、リパーゼ、デヒドロゲナーゼ、RNアーゼ、DNアーゼ、プロテアーゼ、キナーゼ、カスパーゼ、メチラーゼ、転写因子および制限エンドヌクレアーゼが含まれる。また別の態様において、親タンパク質は他のタンパク質、例えば、受容体、ホルモン、免疫グロブリンまたは発色団であると考えられる。これらの種類のタンパク質の生物活性は既知のアッセイを用いて評価しうる。当業者は、タンパク質メンバーが互いに少なくとも60％のアミノ酸類似性、多くの場合には少なくとも60％の同一性を有する相同タンパク質であり、かつ共通の生物活性を有する任意のタンパク質セットを親ポリペプチドとして用いうることを理解すると考えられる。

親配列のアラインメントは標準的なアラインメント法によって行う。配列を比較し、下記の配列比較アルゴリズムのいずれかを用いた、または手作業によるアラインメントおよび目視検査による評価で、ある比較域または指定領域にわたって最大限の対応関係が得られるようにアラインメントを行う。親タンパク質の配列は、配列一致度および配列類似度を決定するのに適したアルゴリズムのいずれかを用いてアラインメントを行うことができる。本発明の目的のためには、アミノ酸一致度およびアミノ酸類似度を、BLASTPのデフォールトパラメーターにより、Blosum62類似性行列、期待値10、ワードサイズ3およびギャップ存在コスト11／ギャップ伸長コスト1の設定を用いて決定する（Altschulら、Nuc. Acids Res. 25: 3389-3402 (1977)）。

核酸またはタンパク質のいずれかの配列比較に関しては、1つの配列を、被験配列と比較するための参照配列として用いることが一般的である。配列比較アルゴリズムを用いる場合には、被験配列および参照配列をコンピュータに入力し、必要に応じて部分配列の座標を指定して、配列アルゴリズムプログラムのパラメーターを指定する。デフォールトのプログラムパラメーターを用いることもでき、別のパラメーターを指定することもできる。続いて、プログラムのパラメーターに基づいて、参照配列に対する被験配列の配列一致度または配列類似度を配列比較アルゴリズムで計算する。

比較域は、2つの配列の最適なアラインメントを行った後に、ある配列を同じ数の連続した位置を持つ参照配列と比較しうるような、10〜600個、通常は約50〜約200個、より一般的には約100〜約150個からなる群から選択される数の連続した位置のいずれか1つのセグメントに対する言及を含んでいる。比較のための配列のアラインメントの方法は当技術分野で周知である。比較のための配列の最適なアラインメントは、Smith & Waterman, Adv. Appl. Math. 2: 482 (1970)の局所的相同性アルゴリズムにより、Needleman & Wunsch, J. Mol. Biol. 48: 443 (1970)の相同性アラインメントアルゴリズムにより、Pearson & Lipman, Proc. Nat'l. Acad Sci.USA 85: 2444 (1988)の類似性検索法により、これらのアルゴリズムのコンピュータ・インプリメンテーション（Wisconsin Genetics Software Package（Genetics Computer Group, 575 Science Dr., Madison, WI）のGAP、BESTFIT、FASTAおよびTFASTA）により、または手作業によるアラインメントおよび目視検査によって行うことができる（例えば、「分子生物学における最新プロトコール（Current Protocols in Molecular Biology）」（Ausubelら編、1995年補遺）を参照されたい）。

配列一致度および配列類似度の決定のために適したアルゴリズムの一例はBLASTおよびBLAST 2.0アルゴリズムであり、これらはそれぞれAltschulら、Nuc. Acids Res. 25: 3389-3402 (1977)およびAltschulら、J. Mol. Biol. 215: 403-410 (1990)に記載されている。BLAST解析を行うためのソフトウエアは米国国立バイオテクノロジー情報センター（National Center for Biotechnology Information）（http://www.ncbi.n1m.nih.gov/）に公開されている。このアルゴリズムでは、データベース配列中の同じ長さのワードとアラインメントを行った場合に何らかの正値の閾値スコアTと一致する、またはそれを満たす、長さWの短いワードを検索配列中に同定することにより、高スコア配列ペア（HSP）をまず同定する。Tは近隣ワードスコア閾値と呼ばれる（Altschulら、前記）。これらの初期の近隣ワードでのヒットは、それらを含む長いHSPを見いだすための検索を開始する源となる。ワードの検索は、累積アラインメントスコアが増加する限り、各配列の両方向に対して延長される。累積スコアは、ヌクレオチド配列の場合にはパラメーターM（一致する残基対に関する報酬スコア；常に＞0）およびN（ミスマッチ残基に関するペナルティスコア；常に＜0）を用いて算出する。アミノ酸配列の場合には、累積スコアの算出にスコア行列を用いる。各方向へのワード検索の延長は以下の場合に停止する：累積アラインメントスコアが最大達成値に比べて量X以上低くなった場合：1つもしくは複数の負スコアの残基アラインメントの蓄積のために累積スコアがゼロまたはそれ未満になった場合；または配列のいずれかの端に達した場合。BLASTアルゴリズムのパラメーターであるW、TおよびXはアラインメントの感度および速度を決定する。BLASTNプログラムは（ヌクレオチド配列の場合）、デフォルトとしてワード長（W）11、期待値（E）10、M＝5、N=-4および両ストランドの比較を用いる。アミノ酸配列の場合、BLASTPプログラムはデフォルトとしてワード長3および期待値（E）10、ならびにBLOSUM62スコア行列（Henikoff & Henikoff, Proc. Natl. Acad. Sci. USA 89: 10915 (1989)を参照）のアラインメント（B）50、期待値（E）10、M＝5、N＝-4および両ストランドの比較を用いる。

BLASTアルゴリズムは、2つの配列の間の類似性に関する統計分析も行う（例えば、Karlin & Altschul、Proc. Natl. Acad. Sci. USA 90: 5873-5787 (1993)を参照）。BLASTアルゴリズムによって得られる類似性の指標の1つは最小合計確率（smallest sum probability）（P(N)）であり、これは2つのヌクレオチド配列またはアミノ酸配列の間での一致が偶然に起こる確率の指標となる。例えば、ある核酸は、被験核酸と参照核酸との比較による最小合計確率が約0.2未満、より好ましくは約0.01未満、最も好ましくは約0.001未満の場合に、参照配列と類似しているとみなされる。

タンパク質ハイブリッド体を作製するための親タンパク質として有用なタンパク質をコードは一般に、互いに60％を上回るアミノ酸類似性、多くの場合には60％を上回る同一性を有する。いくつかの態様においては、選択した親配列のアラインメントをギャップ無しで行うことができる。また別の態様において、アラインメントには、親タンパク質の一方のアミノ酸配列にギャップまたは欠失の存在を取り入れることが必要である。

ギャップまたは欠失を含むタンパク質のアラインメントの方法は当技術分野で知られている。いくつかの態様において、ギャップは、ループ結合性αヘリックス、またはβシートにおけるターンの結果のことがある。一般的には、ギャップまたは欠失は、2つの親タンパク質に共通する酵素活性には影響を及ぼさないと考えられる。本発明のいくつかの態様において、出発配列のアラインメントは、ギャップまたは欠失を含むような様式で行われると考えられる。ギャップがアラインメント中に存在するアミノ酸を除外するか含めるかを決定するための一助として、タンパク質の構造モデル化のための標準的なプログラム、例えばBLASTPを用いることができる。

例えば、あるタンパク質配列をBLASTPに入力した後に、タンパク質のリストを作成して一致度、類似度およびギャップを各々のペアワイズ比較の上部に示す。ギャップが指示される場合には、ギャップを有する代表をいくつか有し、ギャップを伴わないものもいくつか有するように、ライブラリーを作製することができる。

いくつかの態様において、ギャップは意味のあるサイズ、例えば2〜50アミノ酸である、または酵素的な役割を持つループを有する。ギャップまたはループの多様性を含むように2つの親タンパク質のアラインメントを行うことにより、より大きな多様性を得ることができる。

関連性のあるタンパク質同士はアミノ末端およびカルボキシル末端の長さに違いがあることが往々にしてある。このため、親タンパク質配列はアミノ末端およびカルボキシル末端に長さの違いがある場合がある。いずれかの末端にある余分なアミノ酸は、機能のために必須のモチーフを含んでも含まなくともよい。例えば、いくつかのB型ポリメラーゼのカルボキシル末端は増殖細胞核抗原（PCNA）結合モチーフを含む。いくつかの態様において、親タンパク質の1つまたは複数はそのC末端またはN末端のモチーフを保っていると考えられる。C末端またはN末端の尾部を有する代表をいくつか有し、C末端またはN末端に尾部を伴わないものもいくつか有するように、ライブラリーを作製することができる。

したがって、本発明は、ギャップ、欠失またはアミノ末端およびカルボキシ末端における差異を有するかまたは有しない親配列のアラインメントを行い、それらを組み合わせて本発明のハイブリッドタンパク質ライブラリーおよびハイブリッドタンパク質を構築する方法を提供する。

D．ポリヌクレオチド性ハイブリッド体の作製
親タンパク質を選択してアラインメントを行った後に、配列間のミスマッチを同定する。続いて、ミスマッチ部位に親残基の混合物を含むハイブリッドオリゴヌクレオチド配列を作製する。すなわち、任意の所定のハイブリッド配列に関して、ミスマッチ部位のいくつかにある残基のいくつかは一方の親に由来する；別のミスマッチ部位にある残基は他方の親に由来する。これにより、ハイブリッド配列を含むライブラリーを作製することができる。ハイブリッド分子ライブラリーの作製において考慮すべき事項を以下に示す。

コドンの選択
相同な親タンパク質のアミノ酸配列のアラインメントを行った後に、配列間に差異のあるアミノ酸残基を同定する。異なるアミノ酸残基の各セットに関して、これらの異なる残基をコードするコドンを比較し、最小コード配列を導き出す。続いて、これらの異なる残基をコードし、しかも1つのヌクレオチドのみに違いのあるコドンを、縮重箇所、すなわち、ヌクレオチドのバリエーションのために一方または他方の親配列のみをコードするコドンが生じる箇所として選択する。

一般に、最小コード配列の導出は個々の宿主のコドン使用頻度によっても左右される。例えば、ハイブリッドタンパク質をコードする核酸を大腸菌に発現させようとする場合には、大腸菌のコドン使用頻度を利用して、好ましい大腸菌コドンを含むポリヌクレオチド配列を導き出すことができる。大腸菌のコドン使用頻度の表をこのように用いて、異なる2つのアミノ酸をコードする種々のコドンを比較することができる。

最も単純で一般的には最も頻度の高い場合には、単一の核酸縮重が、親配列中の1つの特定の位置に差異のある両方のアミノ酸をコードすることができる。例えば、2つの相同タンパク質が1つの特定の位置で異なり、一方の親はその位置にバリンを有し、他方のものはイソロイシン残基を有する場合が考えられる。バリンをコードするコドンには複数の種類が考えられ、その1つがGTTである。イソロイシンをコードするコドンには複数の種類が考えられ、その1つがATTである。したがって、最小コード配列は（G／A）TT（または、標準的な一文字コードを用いるとRTT）。コドンの第1のヌクレオチドが縮重部位である。オリゴヌクレオチド合成装置に対して、1つの特定の位置の半数がGで半数がAである産物を生成するように指示することは容易に行える。このため、合成過程で生成された個々の核酸分子はその特定の位置にGまたはAを有すると考えられ、ハイブリッド配列のライブラリーは、このコドンに関してGを有する配列をいくつか有し、Aを有する配列もいくつか有すると考えられる。したがって、個々のライブラリーメンバーによってコードされるタンパク質はその部位にバリンまたはイソロイシンを有すると考えられる。この部位に生じる縮重は他の部位に生じる縮重とは無関係である。この結果として、多数のバリアントを有するものの、親ポリペプチドの配列に拘束されているライブラリーが得られる。

アラインメント後の配列中の1つの位置に2つの異なるアミノ酸配列があるという差異のいくつかを比較する際には、その2つの親残基をその位置でコードさせるために最小コード配列の2つのヌクレオチドを変化させることが必要な場合がある。これにより、2つの非親アミノ酸配列もその縮重コドンによってコードされるといる状況が生じる可能性がある。例えば、2つの親配列が1つの特定の位置で異なり、一方の残基がリシンであって他方の親残基がアラニンである場合を考える。リシンはAARによってコードされ、AlaはGCNによってコードされる。このため、リシンおよびアラニンの両方をコードさせるために最小コード配列（A／G）（A／C）Gを用いうる。しかし、このような縮重コドンは、LysおよびAlaに加えてトレオニン（ACN）およびグルタミン（GAR）もコードする。場合によっては、ハイブリッドタンパク質が、いずれの親にも存在しないアミノ酸残基を許容することがあり、これは特に非親アミノ酸が親アミノ酸の一方と類似している場合にそうである。また別の場合、例えば、その配列がタンパク質活性にとって重要なことが知られているドメインに存在する場合には、非親アミノ酸残基を導入することは望ましくないことがある。さらに、場合によっては、縮重コドンが終止コドンの導入を引き起こし、そのために、配列の一部分が利用されないライブラリーが生じる可能性もある。通常、親残基の一方がこの位置に関しては選択される。

どの親残基を選択するかに関する決断を下す際には、ハイブリッドライブラリーを作製する目的を考慮すべきである。例えば、耐熱性またはエキソヌクレアーゼ活性レベルといった所望の機能に関して一方の親の方が他方よりも上回る場合には、選択は所望の特性を有するその親を優先すべきである。2つを上回る親タンパク質配列がある、またはさらに別のアイソザイム、相同体または関連配列がある場合で、すべての事項が同一であれば、ある特定のアミノ酸を含めるか否かに関する決断を「採決（voting）」によって下すこともできる―例えば、ある閾値を下回る割合の親配列が、1つの位置で、大半の配列中に存在するアミノ酸とは異なるならば、その稀なアミノ酸配列を無視してもよい。

この状況に対して、2つの異なる核酸配列を作製することにより、例えば、一方が親残基の一方をコードし、他方が別の親残基をコードする2つの異なるオリゴヌクレオチドを合成することにより、対処することもできる。ライブラリーを作製する目的には、この2つのオリゴヌクレオチドを等量混合することにより、2つのアミノ酸を排他的にコードする縮重オリゴヌクレオチドが効率的に生成されると考えられる。続いて、この混合した核酸配列を、ハイブリッドタンパク質ライブラリーをコードする核酸のアセンブリに用いる。

場合によっては、最小コード配列が非親アミノ酸配列をコードする可能性が高く、これはそれらに共通のコドン配列が全くないことに理由がある（例えば、MetおよびAsp）。この場合にもやはり、非親アミノ酸をライブラリー中の変異として受け入れること、もしくは親コドン配列の一方をこの位置でのハイブリッドタンパク質ライブラリーに含めるように選択すること、もしくは2つのライブラリーを構築して上記のように組み合わせることができ、または、2つを上回る親配列を用いる場合もしくは相同体が知られている場合には「採決」によって決断を下すこともできる。

2つの相同配列を比較する際には、ギャップおよび欠失が生じる可能性もある。親タンパク質は共通の活性を有するため、ギャップは一般に、活性に大きな影響を及ぼさない。例えば、相同タンパク質はループ結合性αヘリックス、またはβシートにおけるターンを含むことがある。これらの結合およびターンの絶対的サイズは多くの場合には重要ではない。一般に、ギャップは、2つの種類の核酸配列を作製することによる、例えば、2つのオリゴヌクレオチドを合成し、2つの配列を混合してその混合物をライブラリーの構築に用いることによるハイブリッドライブラリーの作製の際に取り入れられる。または、ギャップがメンバーのすべてに存在するように、またはメンバーのすべてに存在しないようにハイブリッドライブラリーを構築することもできる。同様に、関連性のあるタンパク質同士はアミノ末端およびカルボキシル末端の長さに違いがあることが往々にしてある。この場合も、一方が長い末端を有し、もう一方が長い末端を有しない2つの配列を作製し、それらを組み合わせてもよい；または、余分な長さを含む、もしくは余分な長さを除外したライブラリーを作製することもできる；または、2つを上回る親配列を用いる場合には決断を「採決」によって下してもよい。

多くの場合、例えば、タンパク質をコードする配列のアセンブリまたはドメインの交換を容易にする目的で、ライブラリーの配列に制限エンドヌクレアーゼ部位を導入することが望ましい。当業者は、このような部位の頻度は一般的には低いこと、例えば6つの塩基対認識部位を有することを理解している。制限部位はしばしば、コドンによってコードされるアミノ酸を変化させずにコドンを改変することにより、核酸に導入される。制限部位は一般に、2つの親配列間で同一である領域に導入されるが、必ずしもそうでなくともよい。

ハイブリッド配列の調製およびライブラリーの作製
最小コード配列を選択した後に、当技術分野で周知の技法を用いてライブラリーを構築する。一般に、ライブラリーに組み入れられる核酸は、ハイブリッドポリペプチドをコードする配列をアセンブリによって形成するオリゴヌクレオチドとして合成される。これを行うための手順は当技術分野で周知である。約50〜100塩基のオリゴヌクレオチドを合成することが一般的である。オリゴヌクレオチドは、配列の違いにもかかわらず十分なアニーリングおよび特異性を得るために、部分的に、例えば10〜50塩基が重複するように設計される。当業者には認識されているように、3'末端は多くの場合、親配列間の差異がわずかしかないか全くない領域にある。

次に、完成した遺伝子のアセンブリを、例えばプライマー伸長によって行う（例えば、図3を参照）。この種のアセンブリ手順では、部分的に重複するオリゴヌクレオチドを互いにアニーリングさせ、忠実度の高い耐熱性ポリメラーゼを用いて伸長させる。セグメントのアセンブリには、大量のプライマーおよび最小限のサイクル（通常は0〜5の間）が用いられる。続いて産物を精製し、次の対合およびプライマー伸長のサイクルに用いる。

この結果得られる再構築されたポリヌクレオチドの長さはさまざまでありうる。再構築された配列は約50bp〜約10kbであることが好ましい。

当業者には認識されているように、ハイブリッドポリペプチドをコードする遺伝子のアセンブリを、適切な断片を連結することによって行うこともできる。さらに、完全長ハイブリッドポリペプチドを、より短い適切な断片をともに連結することによってアセンブリすることもできる。ハイブリッドポリペプチドがより大きなタンパク質の一部分である場合には、その大きなタンパク質への組み入れをこの段階で行うこともできる。多くの場合には、連結段階の効率を向上させるために、制限エンドヌクレアーゼ部位をプライマーに組み入れることが可能である。

場合によっては、例えば、親配列にギャップがある場合、または、親配列間で異なる2つのアミノ酸残基のコドンが3つのすべてのヌクレオチド位置で異なる場合には、2つのライブラリーを作製した後にそれらを組み合わせることが望ましい。

当業者には認識されているように、ハイブリッド分子はさらに、反復組換え（例えば、米国特許第6,180406号および関連特許を参照）などの種々の技法；およびさまざまな他の変異誘発手順、例えばエラープローン（error-prone）PCR、カセット変異誘発法などを用いることにより、さらなる多様性を生じさせるための基質として用いることができる。これらの技法はライブラリーメンバーのすべてに対して行ってもよく、または選択したサブポピュレーションもしくは個々のライブラリーメンバーに対して行ってもよい。

いくつかの組換え技法では、部分的に重複する一本鎖セグメントを連結した後に、その結果得られた連結セグメントをポリメラーゼと接触させることにより、ポリヌクレオチド断片の組換えを行う。例えば、米国特許第6,150,111号を参照されたい。

また別の技法では、組換えは天然の制限部位にもインビトロ連結にも依存しない（Maら、Gene 58: 201-216 (1989)；Oldenburgら、Nucleic Acids Research 25: 451-452 (1997)）。これらの方法のいくつかにおいて、プラスミド構築のためのインビボ方法では、DNA断片の正確菜連結を実現するために、酵母細胞などの細胞における二本鎖切断修復経路を利用する。この方法は、短いオリゴヌクレオチドからのリンカー（例えば60〜140塩基対）の合成を含み、必要とされるリンカーへの酵素的方法によるアセンブリを必要とする（Raymondら、BioTechniques 26(1): 134-141 (1999)）。

また別の技法では、短いランダムなまたはランダムでないオリゴヌクレオチド配列と、機能的ポリメラーゼをコードするポリヌクレオチド由来のポリヌクレオチドセグメントとの組換えを行う。

ポリヌクレオチドセグメント、またはハイブリッドタンパク質をコードするアセンブリ後のポリヌクレオチドに、他の既知の変異誘発法を用いて変異を導入することもできる。例えば、ポリヌクレオチドに対して1回または複数回のエラープローンPCRを行い（例えば、Leung, D. W.ら、Technique 1: 11-15 (1989)；Caldwell, R. C.およびJoyce, G. F. PCR Methods and Applications 2: 28-33 (1992)；Gramm, H.ら、Proc. Natl. Acad. Sci. USA 89: 3576-3580 (1992)を参照のこと）、それによってポリヌクレオチドにバリエーションを導入することができる。または、最適化しようとする特定の領域を、合成的に変異を誘発させたオリゴヌクレオチドで置き換える、カセット変異誘発法（例えば、Stemmer, W. P. C.ら、Bioteclmiques 14: 2562-5 (1992)；Arkin, A.およびYouyan, D. C. Proc. Natl. Acad. Sci. USA 89: 7811-7815 (1992)；Oliphant, A. R.ら、Gene 44: 177-183 (1986)；Hermes, J. D.ら、Proc. Natl. Acad. Sci. USA 87: 696-700 (1990)）を用いることもできる。変異頻度を高めるために宿主細胞の突然変異誘発株を用いることもできる（GreenerおよびCallahan、Strategies in Mol. Biol. 7: 32 (1995)）。

部位特異的変異誘発法は当技術分野で周知であり、配列にさらに多様性を導入するためにこれを用いてもよい。このような技法には、例えば以下に記載された部位特異的変異誘発法が含まれる：Lingら(1997) Anal Biochem. 254(2):157-178；Daleら(1996) Methods Mol. Biol. 57: 369-374；Smith (1985) Ann. Rev. Genet. 19: 423-462；Botstein & Shortle (1985) Science 229: 1193-1201；Carter (1986) Biochem. J. 237: 1-7；およびKunkel (1987)「オリゴヌクレオチド指定変異誘発法の効率（The efficiency of oligonucleotide directed mutagenesis）」、「核酸および分子生物学（Nucleic Acids & Molecular Biology）」中（Bckstein, F.およびLilley, D.M.J.編、Springer Verlag, Berlin））；ウラシルを含むテンプレートを用いる変異誘発法（Kunkel（1985 Proc. Natl. Acad. Sci. USA 82: 488-492；Kunkelら(1987) Methods in Enzymol. 154, 367-382；およびBassら(1988) Science 242: 240-245）；オリゴヌクレオチド指定変異誘発法（Methods in Enzymol. 100: 468-500 (1983)；Methods in Enzymol. 154: 329-350 (1987)；Zoller & Smith (1982) Nucleic Acids Res. 10: 6487-6500；Zoller & Smith (1983) Methods in Enzymol. 100: 468-500；およびZoller & Smith (1987) Methods in Enzymol. 154: 329-350）；ホスホロチオエート修飾DNA変異誘発法（Taylorら(1985) Nucl. Acids Res. 13: 8749-8764；Taylorら(1985) Nucl. Acids Res. 13: 8765-8787 (1985)；Nakamaye & Eckstein (1986) Nucl. Acids Res. 14: 9679-9698；Sayersら(1988) Nucl. Acids Res. 16: 791-802；およびSayersら(1988) Nucl. Acids Res. 16: 803-814）；ギャップ付き二本鎖DNAを用いる変異誘発法（Kramerら(1984) Nucl. Acids Res. 12: 9441-9456；Kramer & Fritz (1987) Methods in Enzymol. 154: 3503-7；Kramerら(1988) Nucl. Acids Res. 16: 72-7；およびFritzら(1988) Nucl. Acids Res. 16: 6987-6999）。

当技術分野でよく知られたそのほかの改変法には以下のものがある：ポイントミスマッチ修復（point mismatch repair）、例えば（Kramerら(1984) Cell 38: 879-887）、修復能欠損宿主株を用いる変異誘発法（Carterら(1985) Nucl. Acids Res. 13: 4431-4443；およびCarter (1987) Methods in Enzymol. 154: 382-403）、欠失変異誘発法（Eghtedarzadeh & Henikoff (1986) Nucl. Acids Res. 14: 51-5）、制限-選択法ならびに制限-選択および制限-精製法（Wellsら (1986) Phil. Trans. R. Soc. Lond. 317: 415-423）、遺伝子全合成による変異誘発法（Nambiarら(1984) Science 223: 1299-1301；SakamarおよびKhorana (1988) Nucl. Acids Res. 14: 6361-6372；Wellsら(1985) Gene 34: 315-323；およびGrundstromら(1985) Nucl. Acids Res. 13: 3305-3316）、二本鎖切断修復（Mandecki (1986)；Arnold (1993) Current Opinion in Biotechnology 4: 450-455；Proc. Natl. Acad. Sci. USA, 83: 7177-7181）。上記の多くの方法のさらなる詳細に関しては、Methods in Enzymology Volume 154に記載があり、これには、さまざまな変異誘発法に伴う問題に対処するための有用な制御手段も記載されている。

続いて、アセンブリがなされた遺伝子断片を、さまざまなベクターの任意のものにクローニングして、親配列由来の残基を含む個々のハイブリッド分子を含むライブラリーを作製することができる。

ハイブリッドタンパク質の発現およびタンパク質ライブラリー
ハイブリッドポリペプチドおよびポリペプチドライブラリーを産生させるための発現系は当業者に周知である（例えば、「遺伝子発現系（Gene Expression Systems）」、FernandezおよびHoeffler編、Academic Press, 1999；Sambrook & Russell、前記；およびAusubelら、前記を参照のこと）。典型的には、ハイブリッドポリペプチドをコードするポリヌクレオチドを、所望の宿主細胞で機能するプロモーターの制御下に配置する。非常に多岐にわたるプロモーターが入手可能であり、具体的な用途に応じて、本発明の発現ベクターに用いることができる。通常、選択されるプロモーターは、その内部でプロモーターが活性を有する細胞に依存する。選択的には、リボソーム結合部位、転写終結部位などのその他の発現制御配列も含められる。

よく用いられる原核生物制御配列（これらは本明細書において、選択的にはオペレーターを伴い、リボソーム結合部位配列を伴う、転写開始のためのプロモーターを含むと定義される）には、以下のようなよく用いられるプロモーターが含まれる：β-ラクタマーゼ（ペニシリナーゼ）プロモーター系およびラクトース（lac）プロモーター系（Changeら、Nature (1977) 198: 10-6）、トリプトファン（trp）プロモーター系（Goeddelら、Nucleic Acids Res. (1980) 8: 40-7）、tacプロモーター（DeBoerら、Proc. Natl. Acad. Sci. US.A. (1983) 80: 21-25）；ならびにλ由来のPLプロモーターおよびN遺伝子リボソーム結合部位（Shimatakeら、Nature (1981) 292: 1-8）。プロモーター系の詳細は本発明にとって特に重要ではなく、原核生物において機能する任意の入手可能なプロモーターを用いうる。例となる細菌発現ベクターには、pBR322を基盤とするプラスミドなどのプラスミド、例えばpBLUTESCRIPT（商標）、pSKF、pET23D、λファージ由来のベクター、およびGSTおよびLacZなどの融合発現系が含まれる。簡便な単離方法が得られるように、エピトープタグ、例えば、c-myc、HAタグ、6-Hisタグ、マルトース結合タンパク質、VSV-Gタグ、抗DYKDDDDKタグまたは任意のこのようなタグ（これらの数多くが当業者に周知である）を組換えタンパク質に付加することもできる。

大腸菌以外の原核細胞におけるハイブリッドポリペプチドの発現のためには、その特定の原核生物種において機能するプロモーターが必要である。このようなプロモーターを、その種からクローニングされた遺伝子から得ることもでき、または異種プロモーターを用いることもできる。例えば、ハイブリッドtrp-lacプロモーターは大腸菌のほかにバシラス属細菌でも機能する。これらおよびその他の適した細菌プロモーターが当技術分野では周知であり、これらは例えば、Sambrookら、およびAusubelら、に記載されている。本発明のタンパク質を発現させるための細菌発現系は、例えば、大腸菌、バシラス属細菌およびサルモネラで利用しうる（Palvaら、Gene 22: 229-235 (1983)；Mosbachら、Nature 302: 543-545 (1983)。このような発現系のためのキットも市販されている。

哺乳動物細胞、酵母および昆虫細胞のための真核生物発現系は当技術分野で周知であり、市販もされている。酵母におけるベクターには、酵母組込み性プラスミド（例えば、YIp5）および酵母複製性プラスミド（YRpシリーズのプラスミド）ならびにpGPD-2が含まれる。真核生物ウイルス由来の調節因子を含む発現ベクターは一般に、真核生物発現ベクター、例えば、SV40ベクター、パピローマウイルスベクター、およびエプスタイン-バーウイルス由来のベクターで用いられる。その他の例示的な真核生物ベクターには、pMSG、pAV009／A+、pMTO10／A+、pMAMneo-5、バキュロウイルスpDSVB、および、CMVプロモーター、SV40初期プロモーター、SV40後期プロモーター、メタロチオネインプロモーター、マウス乳腺腫瘍ウイルスプロモーター、ラウス肉腫ウイルスプロモーター、ポリヘドリンプロモーター、または真核細胞における発現に有効であることが示されているその他のプロモーターの指令下でタンパク質の発現を可能にする任意の他のベクターが含まれる。

本発明には構成性プロモーターまたは調節性プロモーターのいずれを用いることもできる。調節性プロモーターは、その宿主細胞を、融合ポリペプチドの発現を誘導する前に高い密度に増殖させることができるため、好都合である。さらに、異種タンパク質の高レベル発現は、状況によっては細胞増殖を遅らせることがある。誘導性プロモーターとは、遺伝子の発現を指令するプロモーターの一種であり、その発現レベルを、環境因子または発生的因子、例えば温度、pH、嫌気性条件または好気性条件、光、転写因子および化学物質などによって変化させることができる。

大腸菌および他の細菌宿主細胞に関しては、誘導性プロモーターは当業者に知られている。これらには例えば、lacプロモーター、バクテリオファージλPLプロモーター、ハイブリッドtrp-lacプロモーター（Amannら(1983) Gene 25: 1-7；de Boerら(1983) Proc. Nat'l. Acad. Sci. USA 80: 21）およびバクテリオファージT7プロモーター（Studierら(1986) J Mol. Biol.；Taborら(1985) Proc. Nat'l. Acad. Sci. USA 82: 1074-8）が含まれる。これらのプロモーターおよびその使用に関しては、Sambrookら、前記に考察されている。

その他の生物のための誘導性プロモーターも当業者に周知である。これらには、例えば、メタロチオネインプロモーター、熱ショックプロモーターのほか、その他の多くのものが含まれる。

発現を増強するために翻訳カップリングを用いることもできる。この手法では、その翻訳システムに固有の高発現遺伝子に由来する短い上流オープンリーディングフレーム（これはプロモーターの下流に配置される）、および、少数のアミノ酸コドンの後に終止コドンが続いているリボソーム結合部位を用いる。終止コドンの直前には第2のリボソーム結合部位があり、終止コドンに続いて翻訳開始のための開始コドンが存在する。このシステムはRNA中の二次構造を分解し、効率的な翻訳開始を可能にする。Squiresら(1988)、J. Biol. Chem. 263: 16297-16302を参照されたい。

ポリヌクレオチド構築物の構築は一般に、細菌内で複製可能なベクターの使用を必要とする。このようなベクターは当技術分野で一般的に用いられている。細菌からのプラスミドの精製のためには多数のキットが市販されている（例えば、Pharmacia Biotech社のEasyPrepJ、FlexiPrepJ；Stratagene社のStrataCleanJ；およびQIAexpress発現系、Qiagen）。単離して精製したプラスミドは、続いて他のプラスミドを作製するために操作して、細胞の形質転換のために用いることができる。

ハイブリッドポリペプチドは細胞内で発現させることができ、細胞から分泌させることもできる。細胞内発現は多くの場合、高い収率が得られる。必要に応じて、再フォールディング手順を行うことにより、可溶性の活性ポリペプチドの量を増加させることもできる（例えば、Sambrookら、前記；Marstonら、Bio/Technology (1984) 2: 800；Schonerら、Bio/Technology (1985) 3: 1-1を参照）。本発明の融合ポリペプチドは、大腸菌、他の細菌宿主、酵母、ならびにCOS、CHOおよびHeLa細胞株および骨髄腫細胞株などの種々の高等真核細胞を含む、種々の宿主細胞において発現されうる。宿主細胞は、哺乳動物細胞、昆虫細胞、または例えば酵母細胞、細菌細胞または真菌細胞などの微生物でありうる。

ひとたび発現されれば、ハイブリッドポリペプチドを、硫酸アンモニウム沈殿、アフィニティー、カラムクロマトグラフィー、ゲル電気泳動などを含む、当技術分野で標準的な手順に従って精製することができる（概論については、R. Scopes, 「タンパク質精製（Protein Purification）」、Springer-Verlag, N.Y. (1982)、Deutscher, Methods in Enzymology Vol. 182：「タンパク質精製の手引き（Guide to Protein Purification）」、Academic Press, Inc. N.Y. (1990)を参照されたい）。同質性が少なくとも約90〜95％である実質的に純粋な組成物が好ましく、同質性が98〜99％またはそれ以上であるものが最も好ましい。ひとたび、必要に応じて部分的にまたは同質性が得られるまで精製したところで、ポリペプチドを用いることができる（例えば、抗体産生のための免疫原として）。

本発明のハイブリッドポリペプチドの精製を容易にするために、融合ポリペプチドをコードする核酸に、親和性結合試薬を利用しうるエピトープまたは「タグ」のコード配列を含めることもできる。適したエピトープの例には、mycおよびV-5レポーター遺伝子が含まれる；これらのエピトープを有する融合ポリペプチドの組換え生産のために有用な発現ベクターは市販されている（例えば、Invitrogen（Carlsbad CA）社のベクターであるpcDNA3.1/Myc-HisおよびpcDNA3.1/V5-Hisは、哺乳動物細胞における発現に適している）。本発明の融合タンパク質にタグを結合させるのに適したそのほかの発現ベクターおよび対応する検出システムは当業者に知られており、いくつか市販されている（例えば、FLAG"（Kodak, Rochester NY）。適したタグのもう1つの例はポリヒスチジン配列であり、これは金属キレート親和性リガンドと結合しうる。6個の隣接ヒスチジンを用いることが一般的であるが、6個よりも多くを用いることもそれ未満を用いることもできる。ポリヒスチジンタグとの結合部分として用いうる適した金属キレート親和性リガンドには、ニトリロ三酢酸（NTA）が含まれる（Hochuli, B. (1990)「金属キレート吸着体を伴う組換えタンパク質の精製（Purification of recombinant proteins with metal chelating adsorbents）」、「遺伝子工学：原理および方法（Genetic Engineering: Principles and Methods）」中、J. K. Setlow編、Plenum Press, NY；Qiagen（Santa Clarita, CA）から市販されている）。

E．ハイブリッドタンパク質の特性決定
核酸ライブラリーを上記の方法を用いて作製した後に、ライブラリーを、機能性ハイブリッド体および／またはそれらの親よりも活性が改良されているハイブリッド体に関してスクリーニングする。ハイブリッドタンパク質とその野生型対応物の活性の比較には当技術分野で知られたアッセイが用いられる。

スクリーニングまたは選択の性質は、改良または獲得を想定している特性または特徴に依存する。ハイブリッド型ポリメラーゼの評価について説明している詳細な例は以下に示されている。当然ながら、ハイブリッドタンパク質、例えば受容体分子を、そのタンパク質に対して適切なアッセイを用いて、シグナル伝達またはリガンド結合といった改良または獲得がなされた活性に関して試験することができる。個々の組換え産物（組換えセグメント）が、新たなまたは出発基質に比して改良された特性または特徴を獲得した分子的基盤を理解することは通常は必要ではない。

所望の特性に対して用いられる具体的なスクリーニングプロトコールによっては、初回のスクリーニングを、トランスフェクション効率の高さおよび培養の容易さから、時には細菌細胞を用いて行うことができる。しかし、真核生物タンパク質に関しては、細菌での発現はしばしば実用的でなく、酵母、真菌またはその他の真核生物系がライブラリーの発現およびスクリーニングのために用いられる。同様に、細菌細胞または単純な真核生物ライブラリー細胞におけるスクリーニングを適用できない他の種類のスクリーニングは、意図した用途のものに近い環境での使用のために選択された細胞で行われる。最終段階のスクリーニングは、使用を意図しているものと厳密に同じ細胞種で行うことができる。

さらなる多様性が求められる場合には、初期スクリーニング／選択において同定されたハイブリッド配列のうち少なくとも1つ、通常はその集まりに対して、さらにもう1回のハイブリッド体作製、または多様性を生じさせるための別の手段を行うこともできる。例えば、初回ライブラリーの作製においては、親配列で異なるものとして同定された残基のすべてがハイブリッド作製の対象となるわけではなく、すなわち、親配列のサブセット中に存在する特定のアミノ酸が選択されると考えられる。このような補足的な残基を含むハイブリッド体を作製するために、さらに一連の手続きを指示することもできる。さらに、異なる親配列を用いて、すなわち、初回のアラインメントに含まれなかった親配列を用いて、ハイブリッド作製をもう1回行うこともできる。また、別の多様性を生じさせる手順、例えば反復組換えを用いてもよい。

2回目の多様性生成の後に、1回目に関して以上で論じた原理に従って、スクリーニング／選択をさらにもう1回行うことができる。各回の間にスクリーニング／選択のストリンジェンシーを高めてもよい。また、複数の特性の改良が望まれる場合、または複数の新たな特性を獲得することが望まれる場合には、スクリーニングの性質およびスクリーニングされる特性が各回の間で異なってもよい。続いて、組換えセグメントが、所望の新たなまたは改良された特性または機能を獲得する程度に十分に進化するまで、さらなる一連のハイブリッド／多様性の生成およびスクリーニングを行うことができる。

F．ハイブリッド型ポリメラーゼ
本発明のいくつかの態様において、親配列はポリメラーゼであり、ハイブリッドタンパク質は改良されたポリメラーゼ機能、例えばプロセッシビティまたは誤り訂正（error-correcting）活性に関して選択される。以下に例を述べる当技術分野で周知の方法を用いて（例えば、国際公開公報第0192501号を参照）、これらの特性を測定し、親ポリメラーゼの活性と比較することができる。

ポリメラーゼ活性を評価するためのアッセイ法
ポリメラーゼの活性は、ポリメラーゼのプロセッシビティまたは修飾活性を決定するための種々のアッセイ法を用いて測定することができる。活性の改良にはプロセッシビティの向上および効率改善の両方が含まれうる。

本発明のポリメラーゼ、例えば配列番号:2および配列番号:4は、ポリメラーゼ活性、例えばプロセッシビティ、プライマー／テンプレート結合特異性および3'→5'エキソヌクレアーゼ活性を示す。これらの活性は、当技術分野で標準的な技法を用いて測定することができる。

例えば、ポリメラーゼのプロセッシビティは、当業者に知られた種々の方法によって測定しうる。ポリメラーゼのプロセッシビティは一般に、プライミングがなされたテンプレート（primed template）に対する修飾酵素の1回の結合イベントで組み入れられるヌクレオチドの数として定義される。例えば、5' FAM標識プライマーを環状または線状のssM13mpl8 DNAとアニーリングさせ、プライミングがなされたテンプレートを形成させる。プロセッシビティの測定においては、プライミングがなされたテンプレートがポリメラーゼによって複数回伸長される確率が非常に低くなるように、プライミングがなされたテンプレートを通常はポリメラーゼよりも著しく過剰なモル濃度で存在させる。このため、プライミングがなされたテンプレートを、緩衝剤およびdNTPの存在下で、ポリメラーゼと約4000：1（プライミングがなされたDNA：DNAポリメラーゼ）などの比で混合する。DNA合成を開始させるにはMgCl_２を添加する。開始後のさまざまな時点で試料を急冷し、シークエンシングゲルで分析する。産物の長さの中央値が時間によってもポリメラーゼ濃度によっても変化しないポリメラーゼ濃度では、長さは酵素のプロセッシビティに対応する。続いて、本発明のタンパク質、例えば、配列番号:2または配列番号:4のプロセッシビティを野生型酵素のプロセッシビティと比較する。

効率は、酵素が産物を生成する能力を測定することによって示しうる。効率の向上は、酵素が産物を生成する能力が高まったことを測定することによって示しうる。このような分析では、反応で得られた産物の量を決定することにより、二本鎖核酸の安定性を間接的に測定する。例えば、短い、例えば12ヌクレオチド長のプライマーを用い、高い温度、例えば50℃でプライマーをアニーリングさせて得られたPCR産物の量を測定するために、PCRアッセイを用いることができる。この分析では、ポリメラーゼが、50℃でアニーリングさせた12ヌクレオチドのプライマーを用いたPCR反応でより多くの産物を生成する能力により、効率の向上が示される。

効率を、例えばリアルタイムPCRにおいて測定することもできる。そのCt値は、DNAの検出可能な量が生じるために必要なサイクル数に相当する（DNAの「検出可能な」量は、一般的にはバックグラウンドの2倍、通常は5倍、10倍、100倍またはそれ以上である）。効率の高いポリメラーゼは、DNAの検出可能な量をより少数のサイクルで生成し、PCRの理論的に最大限の増幅効率により近づくと考えられる。したがって、Ct値が低いほど酵素の増幅効率が高いことを反映する。

効率の向上を示すもう1つの方法として、ロングPCRを用いることもできる。例えば、効率が向上した酵素は一般に、長いアンプリコン（＞5kb）の増幅を、効率が相対的に低い酵素と比較して、より短い伸長時間で可能にする。

本発明のポリメラーゼの効率または当量効率の改善を示すために、塩感受性などのアッセイ法を用いることもできる。本発明のポリメラーゼは高い塩濃度に対する耐容性の増大を示すと思われる、すなわち、プロセッシビティが高まった前進性酵素は、より高い塩濃度でより多くの産物を生成する可能性がある。例えば、高い塩濃度、例えば80mMを用いる反応条件下で、本発明のポリメラーゼを用いた反応で得られる産物の量を、野生型ポリメラーゼと比較して決定するためのPCR分析を行うことができる。

本発明のポリメラーゼの効率を評価するその他の方法は、当業者により、所定の修飾酵素の酵素活性に関する標準的なアッセイを用いて決定されうる。

プライマー／テンプレート特異性は、マッチしたプライマー／テンプレートとミスマッチしたプライマーテンプレートとを識別する酵素の能力である。特異性は例えば、一方にはマッチしたプライマーを用い、もう一方にはミスマッチしたプライマーを用いる、2つの反応の相対的収率を比較することによって決定しうる。識別性が向上した酵素は、マッチしたプライマーを用いた場合の方が、ミスマッチしたプライマーの場合よりも相対的収率が高いと考えられ、すなわち、マッチしたプライマーを用いた反応における収率とミスマッチしたプライマーを用いた反応におけるものとの比は約1またはそれ以上であると考えられる。次に、この比を、野生型ポリメラーゼを用いた並行した一連の反応で得られた収率と比較する。

改良に関する他のアッセイ法において、「実施例」の項に説明するように、ポリメラーゼのエキソヌクレアーゼ活性を測定することもできる。場合によっては、所望の改良に関して、ポリメラーゼの複数の機能を考慮に入れることもある。例えば、エキソヌクレアーゼ活性と重合活性との比を適合化しようとしてもよい。

ポリメラーゼ-DNA結合ドメイン結合体
いくつかの態様において、新規ポリメラーゼはDNA結合ドメインと結合体を形成する。DNA結合ドメインは、核酸と配列非依存的な様式で結合する、例えば結合が特定の配列に対して高い選好性を示さない、タンパク質またはタンパク質の規定された領域である。DNA結合ドメインは一本鎖でも二本鎖でもよい。

DNA結合タンパク質は耐熱性であることが好ましい。このようなタンパク質の例には、以下のものが非制限的に含まれる：古細菌低分子塩基性DNA結合タンパク質Sso7DおよびSso7D様タンパク質（例えば、Choliら、Biochimica et Biophysica Acta 950: 193-203, 1988；Baumannら、Structural Biol. 1: 808-819, 1994；およびGaoら、Nature Struc. Biol. 5: 7827-6, 1998を参照）、古細菌HMf様タンパク質（例えば、Stanchら、J. Molec. Biol. 255: 187-203, 1996；Sandmanら、Gene 150: 207-208, 1994を参照）ならびにPCNA相同体（例えば、Cannら、J. Bacteriology 181: 6591-6599, 1999；ShamooおよびSteitz、Cell: 99, 155-166, 1999；De Feliceら、J. Molec. Biol. 291, 47-57, 1999；およびZhangら、Biochemistry 34: 10703-10712, 1995を参照）。

Sso7dおよびSso7d様タンパク質、Sac7dおよびSac7d様タンパク質、例えば、Sac7a、Sac7b、Sac7dおよびSac73は、それぞれ高度好熱性古細菌スルフォロバス・ソルファタリクス（Sulfolobus solfataricus）およびS.アシドカルダリウス（S. acidocaldarius）に由来する、低分子（約7,000kd MW）の塩基性染色体タンパク質である。これらのタンパク質はリシンを多く含み、耐熱性、酸安定性および化学的安定性が高い。これらはDNAと配列非依存的な様式で結合し、結合すると、ある種の条件下ではDNAのTMを最大40℃上昇させる（McAfeeら、Biochemistry 34: 10063-10077, 1995）。これらのタンパク質およびその相同体は一般に、高温でのゲノムDNAの安定化に関与すると考えられている。本発明に用いるのに適したSso7d様DNA結合ドメインは、Sso7dに対する配列相同性に基づいて改変することができる。一般的には、既知のDNA結合タンパク質と約25アミノ酸、選択的には約50〜100アミノ酸、またはタンパク質の全長の比較域にわたって同一または実質的に同一なDNA結合ドメインを本発明に用いることができる。記載した配列比較アルゴリズムの1つを用いるかもしくは手作業によるアラインメントおよび目視検査による評価で、一定の比較域または指定領域にわたって最大の対応関係が得られるように配列の比較およびアラインメントを行うことができる。本特許の目的に対しては、BLASTのデフォールトのパラメーターを用いてアミノ酸一致度を決定する。

HMf様タンパク質は、アミノ酸配列および構造の両方の点で真核生物H4ヒストンと相同性のある古細菌ヒストンであり、これらはDNAと直接相互作用すると考えられている。HMfファミリーのタンパク質は溶液中で安定な二量体を形成し、いくつかのHMf相同体が耐熱性のある種から同定されている（例えば、メタノテルムス・フェルビダス（Methanothermus fervidus）およびパイロコッカス菌株GB-3a）。HMfファミリーのタンパク質は、Taq DNAポリメラーゼまたは固有のプロセッシビティが低いいずれかのDNA修飾酵素と連結されると、酵素がDNA基質に沿って進む能力を増強させ、それによってプロセッシビティを高めることができる。例えば、二量体性HMf様タンパク質を、例えば化学的修飾によってTaq DNAポリメラーゼのN末端と共有結合させ、それによってポリメラーゼのプロセッシビティを改良することができる。

ある種のヘリックス-ヘアピン-ヘリックスモチーフは、DNAと非特異的に結合するとともに、それと融合させたDNAポリメラーゼのプロセッシビティを増強することが示されている（Pavlovら、Proc Natl Acad Sci USA. 99: 13510-5,2002）。

ファミリーB DNAポリメラーゼの多く（しかしすべてではない）は、アクセサリータンパク質と相互作用して、プロセッシビティの高いDNA合成を行う。特に重要な一群のアクセサリータンパク質はスライディングクランプ（sliding clamp）と呼ばれている。特徴が判明しているいくつかのスライディングクランプは溶液中で三量体として存在し、二本鎖DNAを収容しうる通路を中央に備えた環状構造を形成しうる。スライディングクランプは特定のDNAポリメラーゼのC末端に位置するアミノ酸と相互作用して、複製中にそのポリメラーゼをDNAテンプレートに係留させる。真核生物におけるスライディングクランプは増殖細胞核抗原（PCNA）と呼ばれており、他のドメインにおける類似のタンパク質はしばしばPCNA相同体と呼ばれる。これらの相同体は著しい構造類似性を有するが、配列類似性は限定的である。

最近、複数のPCNA相同体が好熱性古細菌（例えば、パイロコッカス・フリオサス）から同定されている。古細菌におけるいくつかのファミリーBポリメラーゼは、PCNAと相互作用するコンセンサスアミノ酸配列を含むC末端を有し、PCNA相同体をプロセッシビティ因子として用いうる（例えば、Cannら、J. Bacteriol. 181: 6591-6599, 1999およびDe Feliceら、J. Mol. Biol. 291: 47-57, 1999を参照のこと）。これらのPCNA相同体は本発明にとって有用なDNA結合ドメインである。例えば、PCNAと相互作用するコンセンサス配列を、本来はPCNA相同体と相互作用しないポリメラーゼと連結させ、それによってPCNA相同体をポリメラーゼのプロセッシビティ因子として利用することができる。例えば、パイロコッカス・フリオサスPolII（2つのファミリーB様ポリペプチドを含むヘテロ二量体DNAポリメラーゼ）由来のPCNA相互作用性配列を、パイロコッカス・フリオサスPolI（PCNA相同体とは本来相互作用しない単量体ファミリーBポリメラーゼ）と共有結合させることができる。続いて、この結果得られた融合タンパク質をパイロコッカス・フリオサスPCNA相同体と非共有的に会合させて、未改変パイロコッカス・フリオサスPolIに比してプロセッシビティが高い新規異種タンパク質を作製することができる。

本発明における使用に適したそのほかのDNA結合ドメインを既知のDNA結合タンパク質との相同性により、および／もしくは抗体交差反応性により同定することもでき、または生化学アッセイの手段によって見いだすこともできる。上記の技法を用いて、DNA結合ドメインの合成または単離を行うこともできる。

本発明の結合体または融合タンパク質のDNA結合ドメインおよびポリメラーゼドメインは、当業者に周知の方法によって連結させることができる。これらの方法には化学的手段および組換え手段の両方が含まれ、それらは国際公開公報第0192501号に記載されている。

実施例
これらの実施例では、ハイブリッドライブラリーの作製およびライブラリーからのハイブリッドタンパク質の単離について述べる。

実施例1．ハイブリッドDutタンパク質の作製
本実施例において、本発明は、さまざまな至適温度を有するハイブリッドタンパク質を単離するために用いられる。モデルタンパク質は、中温性および高温性のデオキシウリジン5'-三リン酸ヌクレオチドヒドロラーゼ（dUTPアーゼまたはDut）である。中温性大腸菌Dut（ECD）遺伝子および高温細菌アクイフェクス・アエロリクス（Aquifex aeolicus）Dut（AAD）遺伝子のアラインメントを、BlastPを用いて行った。Blastのデフォールトのパラメーターによって示された配列の同一性は40％であり、類似性は60％であった。配列およびBlastアラインメントは図4に示されている。

図5Aには、アラインメント後の親配列、および可能性のある全コドンが大腸菌による使用頻度の順に示されている。両方の配列を最小限の縮重数でコードすると考えられるコドンを同定することにより、最小コード配列を導き出した（図5B）。大腸菌による使用頻度の高いコドンを用いることが好ましい。この2つの配列の間には90種の違いがある。これらのうち49種は、DNA配列に単一の縮重を組み入れることによってコードされうる。残るものの大部分である38種は2つの縮重を必要とし、1つは3つの縮重を必要とする。ギャップは1つある。縮重のうち2つは、配列中に組み入れられた終止コドンに起因すると考えられる。実験の目的に合わせて、いずれの親アミノ酸配列とも類似性のない（BLOSUM 62の数値が＜0）終結部位またはアミノ酸配列が組み入れられたと思われる核酸の縮重は除外し（図5C）、より耐熱性の高いAADの配列によって置換した。これを行わなければ、ハイブリッドタンパク質に組み入れられたアミノ酸の最大24％が非親性であると考えられる；これらのいくつかはいずれの親とも類似性がない。類似性のない配列を除去することにより、非親性アミノ酸の最大数は14％に低下し、これらはすべて少なくとも一方の親と類似性があると考えられた。

縮重性を示す二本鎖核酸配列およびそれがコードするアミノ酸残基を図6に示している。プライミング部位および制限部位を両端に付加した（太字で示されている）。2つのケースでは、制限部位（下線部およびイタリック体の部分）を付加するためにコドン使用が変更された。この配列によってコードされるアミノ酸はコドンの下方に示されている。

図7は、ハイブリッドライブラリーの完全長核酸配列を示している。縮重位置は標準的な一文字コードを用いて表されている。オリゴヌクレオチド配列を合成のために選択した（太字で示されている）。選択は、プライマーがアセンブリ時に互いにアニーリングすると考えられる場合に最小限の縮重が存在するように行った。配列の一方の部分には、アニーリングしうる妥当なサイズ（約10〜50塩基）のオリゴヌクレオチド配列を選択しうる領域がなかった。この例では、以前の段階で挿入されたClaI部位（下線部）が、完全長タンパク質をコードするライブラリーを2つの制限断片から構築するために用いられている。

DUTなどの小型タンパク質をコードするハイブリッドライブラリーは、プライマーがアニーリングされるとギャップが存在しないようにオリゴヌクレオチドを合成することによって構築しうる。この場合には、アセンブリPCRではなく連結をハイブリッドライブラリーの構築のために用いてもよい。オリゴヌクレオチドを単純に逐次的にアニーリングさせ、連結し、精製した後に再びアニーリングさせる。

本実施例において選択した最終的なプライマーは以下に示されている。アセンブリは以下の通りに起こると考えられる：Fwd1プライマーをRevAプライマーとアニーリングさせる。。別のチューブで、Fwd2をRevBと、Fwd3をRevCと、Fwd4をRevDとアニーリングさせ、Fwd5をRev5とアニーリングさせる。この5つのアニーリング反応の産物に対して、プルーフリーディング活性を有するDNA依存性DNAポリメラーゼ、一般的には大腸菌DNAポリメラーゼIクレノウ断片または耐熱性Phusionポリメラーゼ（MJ Research, Inc.）を用いて、プライマー伸長を行う。Phusionポリメラーゼを用いる場合には、プライマー伸長反応の熱サイクリングを行うことが可能である。Fwd1／RevA反応の産物をFwd2／RevB反応の産物とアニーリングさせ、再び伸長させる。同様に、Fwd4／RevD反応の産物をFwd5／RevE反応のものとアニーリングさせて伸長させる。最後に、Fwd1／RevA／Fwd2／RevB産物をFwd3／RevC産物とアニーリングさせて伸長させる。

オリゴヌクレオチド：

この結果得られる2つの断片は、この時点で古典的な分子生物学の技法を用いて組み合わせることができるサブライブラリーである。例えば、Fwd1／RevA／Fwd2／RevB／Fwd3／RevC断片（アミノ側をコードする半分）をNdeIおよびClaIを用いてクローニングしうる。Fwd4／RevD／Fwd5／RevE断片（カルボキシル側の半分）はClaIおよびBamHIを用いてクローニングしうる。これらの断片を別々にクローニングした上で組み合わせて完全長ハイブリッドライブラリーを形成することができる。または、これらの断片を、3つの断片の強制的クローニング連結において単一段階で組み合わせることもできる。

クローニングに用いられるベクターがpET11cなどの発現ベクターであれば、タンパク質をT7プロモーターから発現させ（Studierら、Methods in Enzymology 185: 60-89, 1990）、タンパク質を単離して、所望の特性に関してアッセイすることができる。本実施例では、耐熱性親タンパク質を中温性相同体と「混合」した。当業者はこれらのタンパク質を精製し（Hoffrnannら、Eur. J Biochem. 164, 4551, 1987）、それらを至適温度に関してアッセイすることができる。至適温度の異なるタンパク質間の配列の違いは、高温でのタンパク質安定化に重要な因子に関するより良い理解につながると考えられる。

実施例2．ハイブリッド型ポリメラーゼタンパク質の作製
当業者は、本実施例が実施例1よりも本発明のはるかに複雑な適用例を表していることを認識すると考えられる。Pfuポリメラーゼは、パイロコッカス・フリオサスから単離された市販（Stratagene, La Jolla, CA）のファミリーB DNAポリメラーゼである。Deep Vent（登録商標）は、パイロコッカス属GB-Dから単離された市販（New England Biolabs, Beverly, MA）のファミリーB DNAポリメラーゼである。これらのタンパク質は775アミノ酸長であるため、一般的なタンパク質の2倍、Dutの5倍の大きさである。これらは、DNA結合活性、ヌクレオチド結合活性、ヌクレオチド付加活性、ピロホスホロリシス活性および3'→5'エキソヌクレアーゼ（プルーフリーディング）活性を含むさまざまな活性を共通して備えている。本発明を、タンパク質の1つのドメインに対して適用することにより、これらの大型タンパク質によってコードされる活性の任意の1つに対して適用することができる。本実施例では、本発明を、タンパク質全体に関するハイブリッドライブラリーを作製することにより、さまざまな酵素活性のそれぞれに対して適用した。このため、本実施例は、アッセイした2つの活性（ポリメラーゼ活性およびプルーフリーディングエキソヌクレアーゼ活性）に関する、本方法の少なくとも2つの独立した検討を表している。

PfuポリメラーゼおよびDeep Ventポリメラーゼのタンパク質配列のアラインメントを行った。BlastPアラインメントは図1に示されている。これらのアミノ酸配列は互いに115の位置で異なる。これらの配列の全配列にわたる同一性は85％である。ある18アミノ酸領域の同一性は56％に過ぎない。

前述の通り、このアラインメントにより、Pfuアミノ酸配列とDeep Ventアミノ酸配列との間に115種の違いが見いだされた。アラインメントおよびハイブリッドタンパク質のコンセンサス配列（ここでXは親の間に差異のある残基を示す）は図2に示されている。図8は、Pfu／Deep VentsハイブリッドDNAポリメラーゼをコードするオリゴヌクレオチドの作製に用いた最小コード配列を示している。続いて、大腸菌のコドン使用頻度表を用いて、アミノ酸をコードしうる種々のコドンを比較し、最小コード配列を導き出した。多くの場合には、単一の核酸縮重によって両方のアミノ酸をコードすることが可能であった。例えば、これらの親タンパク質は15位のアミノ酸に違いがあり、Pfuはバリン（Val）を有するがDeep Ventはイソロイシン（Ile）を有する。ValはGTTを、IleはATTを用いてコードさせることができる。このため、オリゴヌクレオチド合成装置を、タンパク質をコードするDNAの43位ヌクレオチドの半分がGであり、半分がAである産物を生成するようにプログラムした。すなわち、RTT（ここで、GまたはAのいずれかがコドンの第1のヌクレオチド位置に導入される）を有するコドンによって、そのうちのあるものはその位置にGTTを有し、残りのものはその位置にATTを有する、オリゴヌクレオチドのプールが得られると考えられる。

PfuおよびDeep Ventのアラインメントにおいて、115種の差異のうち98種は、異なるアミノ酸をコードするコドンの1つのヌクレオチド残基に単一の縮重を導入するこことにより、簡単にライブラリーに導入することができた。

残る17種の差異に関しては、2つの親配列をコードさせるために2つのヌクレオチドを変更する必要があった。これらの変更により、結果として得られるライブラリーに2つの非親性アミノ酸配列が存在することを余儀なくされた。この一例は残基72であり、ここにPfuはグルタミン酸（Glu）を有し、Deep Ventはアルギニン（Arg）を有する。GluはGARによってコードされ、ArgはCGNまたはAGRによってコードされる。ハイブリッドタンパク質をコードする領域の214位〜216位で親配列をコードすると考えられるものとして最小コード配列（A／G）（A／G）Gを選択した。この組み合わせはまた、グリシン（GGG）およびリシン（AAG）をコードするヌクレオチドも生じさせると考えられる。グリシンはいずれの親アミノ酸とも類似していないものの、このような状況はタンパク質のサイズに比して稀であることから、この状況は認容しうると判断した。

アミノ酸残基758（核酸残基2272および2273）での、終止コドンと考えられるものの組み入れも認容しうると考えた。この終止コドンにより、ライブラリーの1／4は有用でなくなった。アミノ酸残基566（ヌクレオチド1696から1698まで）は誤りによってリシンとなった（図8）；これはリシンまたはアスパラギン酸をコードするヌクレオチド縮重を含むべきであった。図8は、実施例2で説明したようにPfu／Deep Vent（登録商標）ハイブリッドDNAポリメラーゼをコードするオリゴヌクレオチドを作製するために用いた最小コード配列を示している。縮重ヌクレオチドは括弧内に示されている。親タンパク質間で違いのあるアミノ酸配列（「ミスマッチ」）が示されている。非親性アミノ酸は太字で示されている。本文中に言及した例には番号が付してある。

2つの親に由来する配列の混合物をコードするオリゴヌクレオチドの集まりを作り出した後に、完全長ポリメラーゼタンパク質のライブラリー中のオリゴヌクレオチドのアセンブリを行うことにより、ハイブリッドDeep Vent（登録商標）／Pfuタンパク質を作製した。最小コード配列の各ストランドに対して、長さが約100塩基であって40塩基のギャップによって隔てられた縮重オリゴヌクレオチドのセットを合成した。2つのストランド上のオリゴヌクレオチド配列を、第1のストランドが第2のストランドのギャップにまたがり、第2のストランドのオリゴヌクレオチドと30塩基が重複するように配置した（図3）。このオリゴヌクレオチドのセットを以下のようにアセンブリPCRに用いた。部分的に重複するオリゴヌクレオチドを対合させ、互いにアニーリングさせた上で耐熱性の高忠実度ポリメラーゼを用いて伸長させた。高濃度のオリゴヌクレオチドおよび最小限の数（5を超えない）の熱サイクルを用いた。第1のサイクルの産物は長さが約170塩基対の二本鎖断片であった。これらの断片をゲルからバンド精製し、対合およびプライマー伸長の次のサイクルに用いて、長さが約310塩基対の新たな二本鎖断片を作製した。長さ約500塩基の断片の集成物として全配列が得られるまで、このサイクルを繰り返した。この時点で特定の断片を選択し、手順の完全性を評価するためにシークエンシングを行った。購入したオリゴヌクレオチドの質が低く、そのために意図しない変異が過剰に生じていることが判明した。意図しない変異を含まない多数のセグメントを選択し、これらを用いて、各断片の両端に組み入れた制限部位および従来の分子生物学の技法を用いて完全長遺伝子をアセンブリした。4種の完全長クローンをアセンブリし、コードされるタンパク質をpET11（Novogene, Madison, Wi）において発現させた。この4種のクローンのすべてによる発現がSDS-PAGEによって確認された。これらのクローンをHyb1〜Hyb4と命名した。

ライブラリーの第2の集成物を、Blue Heron Biotechnology（Bothell, Washington）に受注することにより、「Genemaker」技術を用いて構築した。全コード配列を、完全長ハイブリッド遺伝子へとアセンブリしうる4つの断片ライブラリーとして得た。完全長にアセンブリされた2種のクローンを入手し、ライブラリーの妥当性を検証するためにシークエンシングを行った。これらのクローンをPhy1およびPhy2と命名した。このライブラリー由来のクローンは、上に考察した566位（リシン／アスパラギン酸）および758位（チロシン／トリプトファン）の縮重を含め、適切なハイブリッド配列のみを含んでいた。完全長配列を発現ベクター中にクローニングし、予想されるサイズのタンパク質を産生させた。

2つのライブラリーに由来する6種のクローンのそれぞれからハイブリッド型ポリメラーゼタンパク質を発現させて精製した。精製は以下の通りに行った。

ハイブリッド型ポリメラーゼの精製
このセクションでは、ハイブリッド型ポリメラーゼを単離するための方法を述べる。大腸菌における発現を導入した後に、細胞を遠心し、ペレットを-20℃〜-80℃で保存した。出発培養物100ml毎に1mlのバッファーA（バッファー：50mM Tris（8.0）；50mMデキストロース；1mM EDTA）を添加し、細胞を4mg／mlの粉末リゾチームにより72℃で溶解させた。MgCl_２およびCaCl_２を濃度2mMとなるように添加し、続いて1単位／mlのDNアーゼIを添加した。試料を室温で10分間ゆっくりと振盪した。出発培養物100ml毎に1mlのバッファーB（10mM Tris（8.0）；50mM KCl；1mM EDTA；0.5％Tween 20；0.5％NP40）を添加し、続いて試料を室温で15分間ゆっくりと振盪した。試料を遠心管に移して72℃で1時間インキュベートし、その後に4000×g、4℃で15分間の遠心処理を行った。上清を収集して0.476gm／mlの(NH4)2SO4を添加し、試料を4℃で1時間ゆっくり混合した後に15,000×g、4℃で15分間の遠心処理を行った。

ペレットを再懸濁し、HiTrap Q「A」バッファー（20mM Tris（7.9）；50mM NaCl；5mM β-メルカプトエタノール）に対して透析した。この懸濁液をAKTAprime HiTrap Qクロマトグラフィーカラム（Amersham Biosciences）にローディングし、その平衡化および泳動は製造元の指示に従って方法#2の方法を用い、HiTrap Qバッファー「A」および「B」（1M NaClを含む「A」バッファー）を用いて行った。ポリメラーゼを含む画分を一括し、P-11ローディングバッファー（20mM Tris（7.9）；50mM NaCl）に対して透析した。試料をP-11樹脂（Amersham Biosciences）の液体クロマトグラフィーカラムに結合させ、P-11バッファー「B」（20mM Tris（7.9）；150mM NaCl）で洗浄した後に、P-11溶出バッファー（20mM Tris（7.9）；400mM NaCl）を用いて溶出させた。溶出した画分をHiTrap SP 「A」バッファー（20mM Tris（6.8）；50mM NaCl；5mMβ-メルカプトエタノール）に対して透析し、その後にARTAprime HiTrap SPクロマトグラフィーカラム上に注ぎ、平衡化および泳動は製造元の指示に従って方法#2の方法を用い、HiTrap Qバッファー「A」および「B」（1M NaClを含む「A」バッファー）を用いて行った。PhS1を含む画分をYM-30 Centriconタンパク質濃縮装置（Millipore）を用いて濃縮した。続いて試料を、50mM Tris（pH 8.2）；0.1mM EDTA；1mM DTT；0.1％NP40；0.1％Tween 20を含むバッファーに対して透析した。続いて最終容積を測定し、14.7×85％グリセロールおよび0.015×10％NP-40および10％Tween 20を添加した。試料は-20℃で保存した。

2つのライブラリーから6種のハイブリッド型ポリメラーゼタンパク質が生成され、そのすべてがDNAポリメラーゼ活性を有していた。

Sso7d融合ポリメラーゼ（例えば、国際公開公報第0192501号）を、ハイブリッド型ポリメラーゼタンパク質のいくつかを用いて調製し、エキソヌクレアーゼアッセイおよび伸長アッセイにおいて、Sso7dを有する親Pfuポリメラーゼおよび有しないもの（それぞれ「Pfu」および「PfS」と命名した）と比較した。HybクローンのSso7d融合物はHySと命名する；PhyクローンのSso7d融合物はPhSと命名する。最も詳細に検討したハイブリッドタンパク質はPhS1であった。

エキソヌクレアーゼ活性を測定するために、以下の配列を有する45塩基長プライマーを合成した：

ここでT*は、失活剤DAB（dabcyl）を結合させたアミノリンクdTである。この配列は、失活剤で標識した塩基の箇所にT：T*ミスマッチを有する16塩基対のステムループ構造を形成する。塩基対を形成していない5'のポリT配列はFAM（6カルボキシフルオレセイン）を失活性色素の近傍に保つため、FAMが励起しても蛍光を発しないと考えられる。

オリゴヌクレオチドをバッファーおよび酵素と混合し、リアルタイム検出装置DNA Engine Opticon System（MJ Research, Inc.）中でインキュベートした。この装置はFAMを励起させ、蛍光が存在すればそれを検出する。3'→5'エキソヌクレアーゼ活性がなければ、FAMがDABによって失活するためにバックグラウンドの蛍光しか存在しない。しかし、酵素に3'→5'エキソヌクレアーゼ活性があれば、T：T*ミスマッチが認識されて3'-T*が除去される。そのためにDABが遊離し、FAM蛍光が失活しなくなる。Opticon Systemは時間の延長に伴う蛍光の増加を検出すると考えられる（読み取りは65℃で10秒毎に行った）。蛍光の増加速度は3'→5'エキソヌクレアーゼ活性の値を直接反映する。対照レベルを上回る蛍光の増加により、酵素が3'→5'エキソヌクレアーゼ活性を有することが示される。この分析の結果（図9）について以下に考察する。

図10は、伸長アッセイにおけるハイブリッド型ポリメラーゼと親ポリメラーゼとの比較を示している。酵素が過剰であっても（80U／ml）、Pfuは2kbを上回るアンプリコンを増幅することができなかった。PfuポリメラーゼとSso7dとの融合物（PfS）は1分間の伸長時間で10kb断片を増幅した。PhS1は、80mM KCl中にて1分間の伸長時間で15kb断片（矢印）を増幅した。さらに、PhS1は種々の塩条件下でロングPCRを行うことができた。

そのほかのハイブリッド型ポリメラーゼの特性決定
そのほかに5種のハイブリッドクローンが第2のライブラリーからSso7d融合物として直接単離され、これらをPhS3〜PhS7と命名した。これらのポリメラーゼをポリメラーゼ活性およびエキソヌクレアーゼ活性に関して試験した。表1は、本実施例で分析した種々のハイブリッドタンパク質の特性をまとめたものである。PhS2は標的部位以外の部位に2つの変異を有する。PhS3は早い終止コドンのため切断型である。PhS4は1つの欠失および1つの変異を有する。「Hyb」および「HyS」ポリメラーゼも標的部位以外の位置に変異を有し、これはおそらく誤ったオリゴヌクレオチド合成のためであると考えられる。

「PhS」と命名されたポリメラーゼはすべてSso7d融合物である。
「Hys1」はSso7dをC末端に有するHyb1である。
「Hys4」はC末端にSso7dを有する。

種々のハイブリッド型ポリメラーゼエキソヌクレアーゼ活性も上記のようにして評価した。いくつかの市販の酵素（親タンパク質を含む）およびハイブリッドライブラリーからの単離物に関して、ポリメラーゼと3'-エキソヌクレアーゼとの比を比較した。高精度ロングPCRに用いられる酵素であるDyNAzyme EXTは、3'→5'エキソヌクレアーゼ活性を有するファミリーBポリメラーゼとプルーフリーディング活性を持たないファミリーAポリメラーゼとの混合物である。過度に高いエキソヌクレアーゼ活性は、プライマーを伸長させる代わりに消化してしまうため、有害である。PfuおよびDeep Ventは、いずれも高いエキソヌクレアーゼ活性を有する親となるファミリーBポリメラーゼである。Pfs（Pfu-Sso7d融合酵素）はポリメラーゼ活性が向上している。HyS1、PhS1、PhS2、PhS5およびPhS7はハイブリッドライブラリーからの分離物である。驚いたことに、この結果（図9）は、これらのハイブリッドタンパク質は、ポリメラーゼ活性とエキソヌクレアーゼ活性との比に関して、親タンパク質との比較でも相互の比較でも非常に多様であることを示している。PhS1ではポリメラーゼ活性とエキソヌクレアーゼ活性との比が酵素混合物のものに近い。

親タンパク質およびハイブリッドタンパク質の配列の比較を図11に示している。見てとれるように、すべてのタンパク質に標識（signature）配列、すなわち不変配列エレメントが存在する。このエレメント（図12）はヌクレオチド結合モチーフを含み、本明細書に記載の方法を用いて作製されたPfu／Deep Ventポリメラーゼに特徴的である。親ポリメラーゼの間に差異のある部位は示されている。

これらの結果は、2つの異なるライブラリーから得られた多数のポリメラーゼハイブリッド体に活性があったことを示している。さらに、この実施例は、本方法により、異なるドメインに関するハイブリッド体、すなわち、ポリメラーゼ活性ドメインとエキソヌクレアーゼ活性ドメインとのハイブリッド体の作製も可能になることを示している。明らかに、本発明は、極めて多様な活性を有するタンパク質に対して適用しうると考えられる。

実質的に同一なポリメラーゼ遺伝子の合成
以下には、本発明のポリメラーゼ、例えば配列番号:2または配列番号:4と実質的に同一なポリメラーゼをコードするポリメラーゼ核酸を作製するための好ましい方法を述べる。保存的置換物のセットを選択する。ヌクレオチド中の縮重位置が、その代替的な形態において野生型アミノ酸および保存的置換に対応する少なくとも2つのアミノ酸をコードする、縮重配列を構築する。縮重配列の各ストランドに対して、長さが約100塩基長であって40塩基のギャップによって隔てられた縮重オリゴヌクレオチドのセットを合成する。2つのストランド上のオリゴヌクレオチド配列を、第1のストランドが第2のストランドのギャップにまたがり、第2のストランドのオリゴヌクレオチドと30塩基が重複するように配置する。このオリゴヌクレオチドのセットを以下のようにアセンブリPCRに用いる。部分的に重複するオリゴヌクレオチドを対合させ、互いにアニーリングさせた上で耐熱性の高忠実度ポリメラーゼを用いて伸長させる。可能であれば常に、高濃度のオリゴヌクレオチドおよび最小限の数（5を超えない）の熱サイクルを用いる。第1のサイクルの産物は長さが約170塩基対の二本鎖断片である。これらの断片をゲルからバンド精製し、対合およびプライマー伸長の次のサイクルに用いて、長さが約310塩基対の新たな二本鎖断片を作製する。このサイクルを、全配列が単一の断片として得られるまで繰り返す。いずれかの時点で産物の質が過度に低くなったならば、所望の特定の断片に対応する短い（15〜30塩基）プライマーを用いるPCRにより、その量を増加させる。遺伝子構築工程の効率を向上させるために用いうる他の技法には、部分的遺伝子配列のクローニング、および／または制限酵素を用いた切断、およびサブフラグメントの連結がある。遺伝子全体が合成された時点で、それをタンパク質発現のためにベクター中にクローニングする。配列は縮重性であるため、クローニングによって、関連性はあるが異なる複数のクローンのライブラリーが生じると考えられ、そのため機能性タンパク質を産生しないクローン、または標的ポリメラーゼと実質的に同一でないクローンを除外するためのスクリーニングを行う必要がある。

本明細書に記載された実施例および態様は例示のみを目的としたものであり、当業者にはそれらに鑑みて種々の修正または変更が連想されると考えられるが、それらも本出願の精神および範囲ならびに添付する特許請求の範囲の範囲に含まれるものとする。

本明細書中に引用したすべての刊行物、特許および特許出願は、すべての目的に関して参照として本発明に組み入れられる。

ポリメラーゼの配列表
配列番号:1 Phy1の核酸配列

配列番号:2 Phy1のポリペプチド配列

配列番号:3 Phy1およびSSo7dをリンカーとともに含む融合タンパク質であるPhS1をコードする核酸配列、ここでSso7dコード領域は小文字、リンカー領域は太字で示されている。

配列番号:4 リンカーを含むPhS1（PHY-SSo7d融合タンパク質）のアミノ酸配列、ここでSso7dコード領域は小文字、リンカー領域は太字で示されている。

配列番号:5 PhS2の核酸配列

配列番号:6 リンカーを含むPhS2のアミノ酸配列、ここでSso7dコード領域は小文字、リンカー領域は太字で示されている。

配列番号:7 PhS5の核酸配列

配列番号:8 リンカーを含むPhS5のアミノ酸配列、ここでSso7dコード領域は小文字で、リンカー領域は太字で示されている。

配列番号:9 PhS7の核酸配列

配列番号:10 リンカーを含むPhS7のアミノ酸配列、ここでSso7dコード領域は小文字で、リンカー領域は太字で示されている。

配列番号:11 Hyb1の核酸配列

配列番号:12 Hyb1のアミノ酸配列

配列番号:13 HyS1（C末端にSso7dを有するHyb1）の核酸配列

配列番号:14 リンカーを含むHyS1（C末端にSso7dを有するHyb1）のポリペプチド配列、ここでSso7dコード領域は小文字で、リンカー領域は太字で示されている。

リンカー配列番号:15 Hyb2（早期終止コドンが太字）の核酸配列

配列番号:16 Hyb2のポリペプチド配列

配列番号:17 Hyb3（早期終止コドンが太字）の核酸配列

配列番号:18 Hyb3のポリペプチド配列

配列番号:19 HyS4（C末端にSso7dを有する）の核酸配列

配列番号:20 リンカーを含むHyS4（C末端にSso7dを有する）のポリペプチド配列、ここでSso7dコード領域は小文字で、リンカー領域は太字で示されている。

配列番号:21：Sso7dコード領域

配列番号:22 Sso7d結合ドメイン：

配列番号:23 本発明のポリメラーゼに共通する標識（signature）アミノ酸配列

配列番号:24 親パイロコッカス・フリオサス（Pyrococcus furiosus）ポリメラーゼのポリペプチド配列

配列番号:25 親パイロコッカス属GD-B（Deep Vent（登録商標））ポリメラーゼのポリペプチド配列

配列番号:26 設計したハイブリッドタンパク質のアミノ酸配列．「X」残基は、縮重物によってコードされるハイブリッドタンパク質の位置を表している。この位置にある残基は通常、Pfu親またはDeep Vent（登録商標）親のいずれかのものである。

パイロコッカス属GB-Dポリメラーゼ（Deep Vent（登録商標））（サブジェクト1）に対するパイロコッカス・フリオサス（Pyrococcus furiosus）ポリメラーゼ（Pfu）（クエリー1）のBlastPアラインメントを示している。親PfuおよびDeep Vent（登録商標）ポリメラーゼ配列のアラインメントを示している。このハイブリッドタンパク質デザインのポリメラーゼ配列は2つの親配列間で差異のある位置を示しており、これはXによって指定されている。配列中の「対応する残基」とは、アラインメント中に示された状態で同じ位置に存在する残基のことである。アセンブリPCRの一例を示している。この例では、100塩基対の縮重（degenerate）オリゴヌクレオチドに対して、約500塩基対の断片が得られるまで複数回のアニーリングおよびプライマー伸長を行っている。これらの断片ライブラリーは、従来の分子クローニングの手法によって操作して完全長クローンまたは完全長クローンのライブラリーを構築することが容易に行える程度に十分な大きさである。親Dutタンパク質の配列および親配列のBLASTPアラインメントを示している。親Dutタンパク質において差異のある位置の縮重性を示している。5A：可能性のある全コドンを大腸菌による使用頻度の順に示したアラインメント後の親配列。5B：コンセンサス配列は、2つの配列を最小限の縮重数でコードすると考えられるコドンを見いだすことによって得られる。大腸菌による使用頻度の高いコドンを用いることが好ましい。5C：いずれの親アミノ酸配列とも類似性のない（BLOSUM 62の数値が＜0）アミノ酸配列が組み入れられた核酸の縮重は除外する；この例では、耐熱性タンパク質配列AADをコードする核酸を代わりに用いている。これらは太字で示されている。耐熱性酵素の配列は、終止コドンが配列に組み入れられる可能性がある場合に1つのギャップを残して2つのケースを除外することを決定するためにも用いられる。配列の両端に付加されたプライミング部位および制限部位（太字）を示している。2つのケースでは、制限部位（下線部およびイタリック体の部分）を付加するためにコドン使用法が変更された。この配列によってコードされるアミノ酸はコドンの下方に示されている。 Dutハイブリッドライブラリーを構築するために合成する必要のある最小コードオリゴヌクレオチド配列を示している。DNA配列を標準的な表記を用いて一文字ヌクレオチド暗号に変換し、オリゴヌクレオチド配列を選択した（下方の太字）。選択は、プライマーがアセンブリ時に互いにアニーリングすると考えられる場合に最小限の縮重が存在するように行った。一方の配列には、アニーリングしうる妥当なサイズのオリゴヌクレオチド配列を選択しうる領域がなかった。この例では、以前の段階で挿入されたClaI部位（下線部）が、完全長タンパク質をコードするライブラリーを2つの制限断片から構築するために用いられている。実施例2で説明したように、Pfu／Deep Vent（登録商標）ハイブリッドDNAポリメラーゼをコードするオリゴヌクレオチドを作製するために用いた最小コード配列を示している。縮重ヌクレオチドは括弧内に示されている。親タンパク質間で違いのあるアミノ酸配列（「ミスマッチ」）が示されている。親とは異なるアミノ酸は太字で示されている。本文中に言及した例には番号が付してある。いくつかの市販の酵素（親タンパク質を含む）およびハイブリッドライブラリーからの単離物に関して、ポリメラーゼと3'エキソヌクレアーゼとの比を比較したものを示している。ハイブリッドと親ポリメラーゼとの比較の結果を示している。これらの酵素を、一定範囲のサイズのバクテリオファージλDNAアンプリコンを増幅する能力に関して、30秒間または1分間の伸長時間を与えて試験した。アンプリコンのサイズはレーンの下側にキロベース単位で列挙されている。別に明記する場合を除き、1ml当たり20単位の酵素を用いた。親ポリメラーゼタンパク質およびハイブリッド型ポリメラーゼタンパク質の配列を比較したものを示している。親配列およびハイブリッド配列に共通する配列エレメントを示している。

【配列表】

Claims

以下の段階を含む、共通の生物活性を有するハイブリッドタンパク質を作成する方法：
（a）複数のハイブリッドタンパク質メンバーをコードする32種またはそれ以上の核酸を含むライブラリーを作製する段階であって、メンバーは、対応するアミノ酸を有する少なくとも2つの親タンパク質のセットとは異なり、かつ
i．親タンパク質は、互いのアミノ酸類似性が60％を上回り、かつ少なくとも1つの共通の生物活性を有する相同タンパク質であり、
ii．ライブラリーメンバーの大半は、親タンパク質のいずれかと60％を上回るアミノ酸類似性を有し、および
iii．ライブラリーメンバーと親タンパク質との間の差異の大半は、親タンパク質間で異なる対応するアミノ酸に限局している、段階；
（b）少なくとも1つのハイブリッドタンパク質を作成するために、少なくとも1つのライブラリーメンバーからタンパク質を発現させる段階；ならびに
（c）親タンパク質の共通の生物活性を有する少なくとも1つのタンパク質を選択する段階。
親タンパク質が酵素である、請求項1記載の方法。
親タンパク質がアイソザイムである、請求項1記載の方法。
親タンパク質がポリメラーゼである、請求項1記載の方法。
親タンパク質が互いに80％を上回るアミノ酸類似性を有し、ライブラリーメンバーの大半が野生型タンパク質のいずれかと80％を上回るアミノ酸類似性を有する、請求項1記載の方法。
複数のハイブリッドタンパク質メンバーをコードする核酸を含むライブラリーであって、メンバーが、対応するアミノ酸を有する少なくとも2つの親タンパク質のセットとは異なり、かつ
i．親タンパク質が、互いのアミノ酸類似性が60％を上回り、かつ少なくとも1つの共通の生物活性を有する相同タンパク質であり、
ii．ライブラリーメンバーの大半が、親タンパク質のいずれかと60％を上回るアミノ酸類似性を有し、および
iii．ライブラリーメンバーと親タンパク質との間の差異の大半が、親タンパク質間で異なる対応するアミノ酸に限局している、ライブラリー。
親タンパク質が酵素である、請求項6記載の方法。
親タンパク質がアイソザイムである、請求項6記載の方法。
親タンパク質がポリメラーゼである、請求項6記載の方法。
親タンパク質が互いに80％を上回るアミノ酸類似性を有し、ライブラリーメンバーの大半が親タンパク質のいずれかと80％を上回るアミノ酸類似性を有する、請求項6記載の方法。
少なくとも2つの親タンパク質のセットの各メンバーとのアミノ酸類似性が60％を上回る合成ハイブリッドタンパク質であって、該セット中の各親タンパク質が該セットの各メンバーと60％を上回るアミノ酸類似性および少なくとも1つの共通の生物活性を有し、該セットが、該セットの全メンバー間で同一な不変アミノ酸のサブセットを含んでいる、
（a）セットの全メンバーと少なくとも1つの生物活性を共有し；
（b）不変アミノ酸のサブセットの少なくとも95％を含み、
（c）セットのいずれかのメンバーと最低限5アミノ酸残基の差異を有し；かつ
（d）他方の親タンパク質に対応する少なくとも5つの可変アミノ酸残基を含む、ハイブリッドタンパク質。
親タンパク質が酵素である、請求項11記載の合成ハイブリッドタンパク質。
親タンパク質がアイソザイムである、請求項11記載の合成ハイブリッドタンパク質。
親タンパク質がポリメラーゼである、請求項11記載の合成ハイブリッドタンパク質。
合成タンパク質とセットの各メンバーとのアミノ酸類似性が80％を上回り、セット中の各野生型タンパク質がセットの各メンバーと80％を上回るアミノ酸類似性を有する、請求項11記載の合成ハイブリッドタンパク質。
親タンパク質のセットが、パイロコッカス・フリオサスファミリーB DNAポリメラーゼおよびパイロコッカス属GB-D DNAポリメラーゼを含み、セットの任意のメンバーとの差異が、図2に示された群より選択される変異のうち少なくとも10個から構成される、請求項11記載の合成ハイブリッドタンパク質。
ポリメラーゼ活性を有するハイブリッド型ポリメラーゼであって、配列番号:23を含んでおり、配列番号:24に示されたパイロコッカスフリオサス（Pfu）ポリメラーゼ配列の700個の連続したアミノ酸にわたる同一性が少なくとも80％であるかまたは配列番号:25に示されたパイロコッカス属GB-D DNAポリメラーゼ配列の700個の連続したアミノ酸にわたる同一性が少なくとも80％であるポリメラーゼ、ただしその前提として、
（a）ポリメラーゼと配列番号:24との同一性が少なくとも85％である場合、その配列は、天然のPfu残基から配列番号:25の対応する位置に存在する残基へと変異した少なくとも1つのハイブリッド位置を含み、このハイブリッド位置は配列番号:26で「X」と指定された残基の1つである；または
（b）ポリメラーゼと配列番号:25との同一性が少なくとも85％である場合、その配列は、天然のパイロコッカス属GB-D残基から配列番号:24の対応する位置に存在する残基へと変異した少なくとも1つのハイブリッド位置を含み、このハイブリッド位置は配列番号:26に「X」と指定された残基の1つである。
配列番号:24に示されたPfu配列の700個の連続したアミノ酸にわたる同一性が少なくとも90％である、または配列番号:25に示されたパイロコッカス属GB-D配列の700個の連続したアミノ酸にわたる同一性が少なくとも90％である、請求項17記載のハイブリッド型ポリメラーゼ。
配列番号:24または配列番号:25の天然の残基から配列番号:25または配列番号:24の対応する残基へと変異した少なくとも10個のハイブリッド位置を含む、請求項17記載のハイブリッド型ポリメラーゼ。
配列番号:24または配列番号:25の天然の残基から配列番号:25または配列番号:24の対応する残基へと変異した少なくとも20個のハイブリッド位置を含む、請求項17記載のハイブリッド型ポリメラーゼ。
配列番号:24または配列番号:25の天然の残基から配列番号:25または配列番号:24の対応する残基へと変異した少なくとも40個のハイブリッド位置を含む、請求項17記載のハイブリッド型ポリメラーゼ。
配列番号:24または配列番号:25の天然の残基から配列番号:25または配列番号:24の対応する残基へと変異した少なくとも50個のハイブリッド位置を含む、請求項17記載のハイブリッド型ポリメラーゼ。
配列番号:2、配列番号:12、配列番号:16もしくは配列番号:18のアミノ酸配列；または配列番号:4、配列番号:6、配列番号:8、配列番号:10、配列番号:14もしくは配列番号:20のポリメラーゼ領域を含む、請求項17記載のハイブリッド型ポリメラーゼ。
DNA結合ドメインをさらに含む、請求項17記載のハイブリッド型ポリメラーゼ。
DNA結合ドメインがSso7d、Sac7dおよびSac7eからなる群より選択される、請求項24記載のハイブリッド型ポリメラーゼ。
DNA結合ドメインがSso7dである、請求項25記載のハイブリッド型ポリメラーゼ。
配列番号:4、配列番号:6、配列番号:8、配列番号:10、配列番号:14または配列番号:20のアミノ酸配列を含む、請求項26記載のハイブリッド型ポリメラーゼ。
請求項17または請求項24記載のハイブリッド型ポリメラーゼを包含している、単離核酸。
請求項28記載の核酸を含む発現ベクター。
請求項29記載のベクターでトランスフェクトされた宿主細胞。
配列番号:2との同一性が少なくとも94％であるアミノ酸配列を含むポリペプチドをコードする単離核酸であって、該ポリペプチドがポリメラーゼ活性を示す核酸。
ポリペプチドが配列番号:2を含む、請求項31記載の単離核酸。
配列番号:1を含む、請求項31記載の単離核酸。
ポリペプチドがDNA結合ドメインをさらに含む、請求項31記載の単離核酸。
DNA結合ドメインがSso7d、Sac7dおよびSac7eからなる群より選択される、請求項34記載の単離核酸。
DNA結合ドメインがSso7dである、請求項35記載の単離核酸。
配列番号:3を含む、請求項35記載の単離核酸。
配列番号:4を含むポリペプチドをコードする、請求項35記載の単離核酸。
請求項31記載の核酸を含む発現ベクター。
請求項39記載のベクターでトランスフェクトされた宿主細胞。
配列番号:2との同一性が少なくとも94％であるアミノ酸配列を含み、かつポリメラーゼ活性を有する、単離ポリペプチド。
配列番号:2を含む、請求項41記載の単離ポリペプチド。
DNA結合ドメインをさらに含む、請求項41記載の単離ポリペプチド。
DNA結合ドメインがSso7d、Sac7dまたはSac7eからなる群より選択される、請求項43記載の単離ポリペプチド。
DNA結合ドメインがポリペプチドのカルボキシ末端と融合している、請求項43記載の単離ポリペプチド。
DNA結合ドメインがSso7dである、請求項45記載の単離ポリペプチド。
配列番号:4を含む、請求項46記載の単離ポリペプチド。
ハイブリッド型ポリメラーゼを用いて標的配列を増幅する方法であって、
請求項17または請求項41記載のポリメラーゼを提供する段階、
ポリメラーゼを増幅反応混合物中に配合する段階、および
標的配列を増幅する段階、
を含む方法。