JP2016537700A

JP2016537700A - 酵素バリアントの自動スクリーニング

Info

Publication number: JP2016537700A
Application number: JP2016516874A
Authority: JP
Inventors: シユンザン，; ラッセルジャビニアールサルミエント，; ドナルドスコットバスカルヴィル，; ジャイトダブリュー．ユイスマン，
Original assignee: コデクシス，インコーポレイテッド
Priority date: 2013-09-27
Filing date: 2014-09-26
Publication date: 2016-12-01
Anticipated expiration: 2034-09-26
Also published as: RU2019140645A; EP3049973B1; KR20160057482A; CN105765592B; SG11201601695WA; RU2016116253A; US10696964B2; JP6857029B2; IL244457B; NZ717658A; KR102342205B1; ES2693150T3; JP2019083025A; CA2923755A1; DK3418929T3; US20150133307A1; JP2021131901A; CN105765592A; AU2014324669A1; US11535845B2

Abstract

複雑な生体分子ライブラリーまたはこのようなライブラリーのセットから所望の性質を有する（または１ラウンドの指向進化に最も好適な）生体分子を識別するための方法が開示される。本開示の一部の実施形態は、有益な性質についてタンパク質を仮想スクリーニングするための方法を提供する。本開示の一部の実施形態は、特定の基質が関与する触媒反応に関する所望の活性および／または選択性について酵素を仮想スクリーニングするための方法を提供する。一部の実施形態は、所望の性質を有するタンパク質および酵素を設計および開発するために、スクリーニングと指向進化とを組み合わせている。本方法を実施するシステムおよびコンピュータープログラム製品も提供される。

Description

（関連出願の引用）
本願は、米国特許法§１１９（ｅ）に基づき、米国仮特許出願第６１／８８３，８３８号（２０１３年９月２７日出願、名称「ＡＵＴＯＭＡＴＥＤＳＣＲＥＥＮＩＮＧＯＦＥＮＺＹＭＥＶＡＲＩＡＮＴＳ」）の利益を主張し、上記出願は、あらゆる目的のためにその全体が参照により本明細書に引用される。

タンパク質設計は、サーチ可能な配列空間を構成する可能な分子の組合せの急増以外の理由がなくてもそれだけで困難なタスクであることが長い間知られている。タンパク質の配列空間は、広大であり、当技術分野で現在公知の方法を使用して網羅的に探索することは不可能である。これらの方法は、有用なポリペプチドを識別するために要求される時間およびコストによって制限されることが多い。問題の一部は、シーケンシング、スクリーニング、およびアッセイされなければならない多数のポリペプチドバリアントから生じる。指向進化方法は、有利な性質を有する候補生体分子に絞り込むことにおいて効率を増大させる。今日では、タンパク質の指向進化は、反復して実施されることが多い、様々なハイスループットスクリーニングおよび組換えフォーマットが大部分を占める。

配列活性空間を探索するための様々な計算手法も提案されている。相対的に言って、これらの手法は、その黎明期にあり、かなりの進歩が依然として必要とされている。したがって、候補生体分子をスクリーニング、シーケンシング、およびアッセイする効率を改善する新しい方法が非常に望ましい。

要旨本開示は、分子生物学、分子進化、バイオインフォマティクス、およびデジタルシステムの分野に関する。これらの方法を実施するための、デジタルシステムなどのシステムおよびシステムソフトウェアも提供される。本開示の方法は、工業的および治療的使用のためのタンパク質の最適化において有用性を有する。本方法およびシステムは、特定の基質の触媒反応に関して所望の活性および選択性を有する酵素を設計および開発するために特に有用である。

本開示のある特定の態様は、有益な性質を有するタンパク質を仮想スクリーニングし、かつ／または指向進化プログラムをガイドするための方法に関する。本開示は、複雑な生体分子ライブラリーまたはこのようなライブラリーのセットから所望の性質を有する（またはそのような性質に向けた指向進化に最も適した）生体分子を識別するための方法を提示する。本開示の一部の実施形態は、特定の基質に対する触媒反応に関して所望の活性および選択性について酵素を仮想スクリーニングするための方法を提供する。一部の実施形態は、所望の性質を有するタンパク質および酵素を設計および開発するために、スクリーニングと指向進化とを組み合わせている。本方法を実施するシステムおよびコンピュータープログラム製品も提供される。

本開示の一部の実施形態は、基質との活性について複数の異なる酵素バリアントをスクリーニングするための方法を提供する。一部の実施形態では、本方法は、１つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステムを使用して実施される。本方法は、（ａ）各酵素バリアントごとに、コンピューターシステムによって、基質の計算上の表示を、酵素バリアントの活性部位の計算上の表示にドッキングするステップであって、ドッキングは、（ｉ）活性部位における基質の複数のポーズを生成し、（ｉｉ）活性部位における基質のエネルギー的に好ましいポーズを識別する、ステップと、（ｂ）各エネルギー的に好ましいポーズごとに、ポーズが活性であるかどうかを決定するステップであって、活性ポーズは、活性部位で触媒作用を受けるという基質に関する１つまたは複数の制約を満たす、ステップと、（ｃ）１つまたは複数の活性ポーズを有すると決定された酵素バリアントの少なくとも１つを選択するステップとを含む。

一部の実施形態では、制約は、位置、距離、角度、およびねじれの制約の１つまたは複数を含む。一部の実施形態では、制約は、基質上の特定の部分と、活性部位における特定の残基または残基部分との間の距離を含む。一部の実施形態では、制約は、リガンド上の特定の部分と、活性部位における理想的に配置された天然リガンドとの間の距離を含む。

一部の実施形態では、基質の計算上の表示は、酵素活性に関する反応座標に沿って種を表示する。種は、基質、基質の反応中間体、または基質の遷移状態から選択される。一部の実施形態では、スクリーニングされたバリアントは、複数の基質を転換することができる酵素のパネルから選択され、パネルのメンバーは、参照配列と比べて少なくとも１つの変異を有する。一部の実施形態では、少なくとも１つの変異は、単一残基の変異である。一部の実施形態では、少なくとも１つの変異は、酵素の活性部位におけるものである。一部の実施形態では、複数のバリアントとして、ケトンの還元、アミノ基転移反応、酸化、ニトリルの加水分解、イミンの還元、エノンの還元、アシル加水分解、およびハロヒドリンの脱ハロゲン化から選択される化学反応を触媒することができる１つまたは複数の酵素が挙げられる。一部の実施形態では、酵素は、ケトンレダクターゼ、トランスアミナーゼ、シトクロムＰ４５０、バイヤー−ビリガーモノオキシゲナーゼ、モノアミンオキシダーゼ、ニトリラーゼ、イミンレダクターゼ、エノンレダクターゼ、アシラーゼ、およびハロヒドリンデハロゲナーゼから選択される。しかしながら、任意の適当な酵素が本発明の方法において有用であるため、本発明がいずれかの特定の酵素または酵素のクラスに限定されることは意図されない。一部の実施形態では、バリアントは、１または複数のラウンドのｉｎｖｉｔｒｏおよび／またはｉｎｓｉｌｉｃｏの指向進化によって生成されたライブラリーのメンバーである。

一部の実施形態では、本方法は、少なくとも約１０種の異なるバリアントをスクリーニングする。他の実施形態では、本方法は、少なくとも約１０００種の異なるバリアントをスクリーニングする。

一部の実施形態では、活性部位の計算上の表示は、複数のバリアントに関する３次元ホモロジーモデルから提供される。一部の実施形態では、タンパク質バリアントに関する３次元ホモロジーモデルを生成するための方法が提供される。一部の実施形態では、本方法は、複数の基質をスクリーニングするために適用される。

一部の実施形態は、天然基質が野生型酵素によって触媒された化学変換を受けるときの天然基質、天然基質の反応中間体、または天然基質の遷移状態の１つまたは複数のポーズを識別することによって、触媒された化学変換を受けるという基質に関する制約を識別するための方法を提供する。

一部の実施形態は、複数の酵素バリアントに１つまたは複数の酵素の制約のセットを適用するための方法であって、１つまたは複数の酵素の制約は、天然基質が野生型酵素の存在下で触媒された化学変換を受けるときの野生型酵素の制約に類似している、方法を提供する。

一部の実施形態では、基質の複数のポーズは、高温での分子動力学、ランダムなローテーション、グリッドベースのアニーリングのシミュレートによる改良、および最終的なグリッドベースのまたは完全な力場の最小化（ｆｕｌｌｆｏｒｃｅｆｉｅｌｄｍｉｎｉｍｉｚａｔｉｏｎ）の１つまたは複数を含むドッキングオペレーションにより得られる。一部の実施形態では、リガンドの複数のポーズは、活性部位における基質の少なくとも約１０のポーズを含む。

一部の実施形態では、上記（ｃ）でのバリアントを選択するステップは、他のバリアントとの比較により、多数の活性ポーズを有すると決定されたバリアントを識別するステップを伴う。一部の実施形態では、（ｃ）での選択するステップは、バリアントが有する活性ポーズの数、活性ポーズのドッキングスコア、および活性ポーズの結合エネルギーの１つまたは複数によりバリアントをランク付けするステップを伴う。次いでバリアントは、ランクに基づき選択される。一部の実施形態では、ドッキングスコアは、ファンデルワールス力および静電相互作用に基づく。一部の実施形態では、結合エネルギーは、ファンデルワールス力、静電相互作用、および溶媒和エネルギーの１つまたは複数に基づく。

一部の実施形態では、スクリーニング方法はまた、少なくとも１つの選択されたバリアントの少なくとも一部を含有するかまたはコードする複数のオリゴヌクレオチドを調製するステップも伴う。本方法は、複数のオリゴヌクレオチドを使用して１または複数のラウンドの指向進化を実施するステップをさらに伴う。一部の実施形態では、複数のオリゴヌクレオチドを調製するステップは、核酸シンセサイザーを使用してオリゴヌクレオチドを合成することを伴う。一部の実施形態では、１または複数のラウンドの指向進化を実施するステップは、複数のオリゴヌクレオチドを断片化して組み換えるステップを含む。一部の実施形態では、１または複数のラウンドの指向進化を実施するステップは、複数のオリゴヌクレオチドに飽和変異誘発を実施するステップを含む。

一部の実施形態では、スクリーニングされた酵素バリアントは、所望の触媒活性および／または選択性を有する。また一部の実施形態の方法は、スクリーニングから選択された酵素を合成するステップも伴う。

一部の実施形態では、スクリーニング方法を拡張して、酵素以外の生体分子をスクリーニングすることができる。一部の実施形態は、リガンドとの相互作用について複数のタンパク質バリアントをスクリーニングするための方法を提供する。本方法は、（ａ）各タンパク質バリアントごとに、コンピューターシステムによって、リガンドの計算上の表示を、酵素バリアントの活性部位の計算上の表示にドッキングするステップであって、ドッキングは、（ｉ）活性部位におけるリガンドの複数のポーズを生成し、（ｉｉ）活性部位におけるリガンドのエネルギー的に好ましいポーズを識別する、ステップと、（ｂ）各エネルギー的に好ましいポーズごとに、ポーズが活性であるかどうかを決定するステップであって、活性ポーズは、タンパク質バリアントとの特定の相互作用を受けるというリガンドに関する１つまたは複数の制約を満たす、ステップと、（ｃ）１つまたは複数の活性ポーズを有すると決定されたタンパク質バリアントの少なくとも１つを選択するステップとを伴う。一部の実施形態では、リガンドは、基質、中間体、遷移状態、生成物、阻害剤、アゴニスト、および／またはアンタゴニストから選択されてもよい。

一部の実施形態では、酵素およびタンパク質をスクリーニングするための方法を実施するコンピュータープログラム製品およびコンピューターシステムも提供される。

これらおよび他の特徴を、関連する図面を参照して以下に提示する。

図１は、プロ−Ｒ選択性の触媒反応に関する活性ポーズを識別するための幾何学的な制約を例示し、この反応には、チロシン部分を有するケトンレダクターゼ酵素、アセトフェノン基質、およびコファクターＮＡＤＰＨが関わる。

図２は、一部の実施における候補生体分子の潜在的な活性を分析するためのワークフローを示す流れ図である。

図３Ａは、本開示の一部の実施形態にしたがう生体分子の配列を設計するためのワークフローの例を示す流れ図である。

図３Ｂは、仮想スクリーニングから得られた配列を合成しアッセイすることを含む、生体分子の配列を設計するためのワークフローの例を示す流れ図である。

図３Ｃは、複数の反復適用の各ラウンドにおいてｉｎｖｉｔｒｏの指向進化と仮想スクリーニングとを組み合わせた、生体分子の配列を設計するためのワークフローの例を示す流れ図である。

図４は、本開示の一部の実施形態にしたがって実施することができる例示的なデジタルデバイスを示す。

図５は、指向進化の第２のラウンドからの１０の最良のバリアントならびにラウンド１の骨格（Ｒｄ１ＢＢ）およびラウンド２の骨格（Ｒｄ２ＢＢ）の結合エネルギーおよび選択性を示すデータのプロットを提供する。

図６Ａは、一部の実施形態にしたがう仮想タンパク質スクリーニングシステムからのデータを使用して構築された配列活性モデルの適合度を示す。

図６Ｂは、結合エネルギーの予測において図６Ａで構築されたような配列活性モデルが正確であったことを提示するクロスバリデーションのデータを示す。

図６Ｃは、図６Ａで構築されたような配列活性モデルにしたがう様々な変異についての係数を示す。

図７は、Ｘ軸に、転換を提示する量を示し、Ｙ軸に、１，１，１−トリフルオロプロパン−２−オンからの（Ｒ）−１，１，１−トリフルオロプロパン（ｔｒｉｆｌｕｒｏｐｒｏｐａｎ）−２−オールのエナンチオ選択的な生成に関する、ケトレダクターゼバリアントの仮想スクリーニングからの選択性を示す。

図８は、位置選択的なＣＨのＣ−ＯＨへの酸化に関するＰ４５０の仮想指向進化からの転換およびヒット（一定のレベルの改善を示すバリアント）を提示する量を示す。

詳細な説明
タンパク質および酵素のスクリーニングは、リガンドおよび基質と相互作用するタンパク質および酵素分子の化学的および物理的性質の測定を含む実際的な方法で実施することができる。実際の測定は、時間および資源を消費し、根底にある物理的および化学的機構はしばしば可視化または操作が困難である。本明細書で開示される「仮想」スクリーニング方法およびシステムは、酵素、タンパク質、ならびにそれらの基質およびリガンドの構造および動力学を可視化または操作するためのツールを提供する。これらのツールは、分子を研究するための時間および／または材料を節約することができる。

一部の実施形態では、タンパク質または酵素の仮想スクリーニングは、目的のタンパク質の指向進化で使用される。仮想スクリーニングは、これらの指向進化の実施形態の様々な段階中に物理的なスクリーニングの代わりに使用され、実際のスクリーニングが必要とする物理的な材料または時間を必要とせずに多数の分子および反応を研究することを可能にする。これらの実施形態は、所望の性質を有するタンパク質および酵素を得るためのプロセスをスピードアップすることができる。また材料および資源も、プロセスにおいて節約することができる。一部の実施形態は、特定の基質が関与する触媒反応に関する所望の活性および／または選択性を有する酵素を設計および開発するために特に有用である。
（Ｉ．定義）

本明細書で別段に定義されていない限り、本明細書で使用するすべての技術用語および科学用語は、当業者が一般に理解するのと同じ意味を有する。本明細書に含まれる用語を含む様々な科学辞書が、当業者に周知であり、利用可能である。本明細書に記載のものと同様のまたは等価な任意の方法および材料は、本明細書に開示の実施形態の実行において使用を見出す。

すぐ下に定義した用語は、全体として本明細書を参照することによってより完全に理解される。定義は、特定の実施形態を記載することのみを目的とし、本明細書に記載の複雑な概念の理解を助ける。これらは、本開示の全範囲を限定するように意図されていない。具体的には、本開示は、記載の特定の配列、組成、アルゴリズム、システム、方法論、プロトコル、および試薬に限定されないことが理解されるべきである。なぜなら、これらは、これらが当業者によって使用される場面に応じて変動し得るためである。

本明細書および添付の特許請求の範囲で使用する場合、単数形の「１つの（ａ）」、「１つの（ａｎ）」、および「その（ｔｈｅ）」は、内容および文脈により別段に明確に要求されない限り、複数形の指示対象を含む。したがって例えば、「デバイス」への言及は、このようなデバイスの２つまたはそれより多くの組合せを含む、などである。別段に示されていない限り、「または」の接続詞は、ブール論理演算子としてその正確な意味で使用されることが意図されており、選択状況における特徴の選択（Ａの選択がＢから互に排他的であるＡまたはＢ）ならびに結合状況における特徴の選択（ＡおよびＢの両方が選択されるＡまたはＢ）を包含する。

「ドッキング」は、本明細書で使用される場合、分子（例えば、基質またはリガンド）の計算上の表示の、生体分子（例えば、酵素またはタンパク質）の活性部位の計算上の表示への結合をシミュレートおよび／または特徴付けるためのコンピューターによるプロセスを指す。ドッキングは、典型的には、「ドッカー」コンピュータープログラムを使用したコンピューターシステムで実施される。典型的には、ドッキングプロセスの結果は、特異的な「ポーズ」で活性部位に「ドッキングした」分子の計算上の表示である。複数のドッキングプロセスは、分子の同じ計算上の表示と活性部位の同じ計算上の表示との間で実施されてもよく、それにより結果として活性部位における複数の異なる分子の「ポーズ」がもたらされる。活性部位の計算上の表示における複数の異なる「ポーズ」の構造、コンホメーション、およびエネルギー学を評価することにより、ある特定の「ポーズ」を、リガンドと生体分子との結合に関してよりエネルギー的に好ましいと識別することができる。

一部の実施形態では、ドッキングから生成したポーズを評価して、それらが所望の生体分子との相互作用に関して「活性」であるかどうかを決定する。「活性ポーズ」は、検討中の活性に関する１つまたは複数の制約を満たすポーズである。「制約」は、ポーズの構造、幾何学的配置、コンホメーション、エネルギー学などを制限する可能性がある。ある特定の実施形態では、酵素の活性部位における基質の計算上の表示の「活性ポーズ」は、酵素による触媒作用に関する条件を満たす。ドッキングが、活性部位の計算上の表示における基質の計算上の表示の非常に多くの活性ポーズを識別する場合、表示された具体的な酵素は、基質の生成物への化学変換を触媒するために好ましいと選択されてもよい。

「ドッカー」は、分子（例えば、基質またはリガンド）の計算上の表示と、タンパク質または他の生体分子における目的の活性部位の計算結果表示との間のドッキングプロセスを、コンピューターによりシミュレートおよび／または特徴付けるコンピュータープログラムである。

ドッカーは、典型的には、１つまたはそれより多くのプロセッサーなどのハードウェアと共同して一時的または永久に記憶される場合のあるソフトウェアとして実装される。市販のドッキングプログラムとしては、ＣＤｏｃｋｅｒ（Ａｃｃｅｌｒｙｓ）、ＤＯＣＫ（カリフォルニア大学、ＳａｎＦｒａｎｃｉｓｃｏ）、ＡｕｔｏＤｏｃｋ（ＳｃｒｉｐｐｓＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅ）、ＦｌｅｘＸ（ｔｒｉｐｏｓ．ｃｏｍ）、ＧＯＬＤ（ｃｃｄｃ．ｃａｍ．ａｃ．ｕｋ）、およびＧＬＩＤＥ（ｓｃｈｒｏｄｉｎｇｅｒ．ｃｏｍ）がある。

ドッカーを使用するドッキングは、典型的には、活性部位に関して基質およびリガンドの計算上の表示の「ポーズ」を生成する。これらのポーズは、ドッキングスコアを生成し、または他の方法でドッキングを評価するために使用され得る。一部の実施形態では、ポーズは、ドッカーによって計算された相互作用エネルギーの値と関連する。一部のポーズは、他のポーズよりエネルギー的に好ましい。一部の実施形態では、ドッカーは、ドッキングを評価するために使用するためにユーザーがいくつかのポーズ（ｎ）を指定することを可能にする。最良のドッキングスコアを有する上位ｎ個のポーズのみが、ドッキングを評価するために考慮される。一部の実施形態では、規定された基準を満たす好ましい相互作用エネルギーを有するポーズのみが選択されて、活性または不活性ポーズとして分類される。

一部の実施形態では、ドッカーは、基質またはリガンドの１つまたは複数のポーズが生体分子との好ましい相互作用エネルギーを有する場合、その基質またはリガンドは生体分子と結合する可能性が高いことを決定することができる。結合したリガンドは、アゴニストまたはアンタゴニストとして作用し得る。様々なドッカーが、基質またはリガンドと生体分子との間のドッキングスコアまたは他の結合尺度を出力する。生体分子の活性部位と基質またはリガンドとの一部の組合せに関して、ドッキングプログラムは、結合が起こる可能性が低いことを決定する。このような場合では、ドッキングプログラムは、基質またはリガンドは生体分子と結合しないという結論を出力する。

ドッカーは、リガンドが生体分子の活性部位とドッキングする見込みの評価、またはこのようなドッキングの、それが起こった場合の品質を出力するようにプログラムされる場合がある。ドッキングの見込みおよび品質は、リガンドが生体分子と結合する見込みを提示する。一レベルにおいて、ドッカーは、リガンドが生体分子の活性部位に結合する見込みがあるか否かを判定する。ドッカーのロジックが、結合の見込みがない、または結合が高度に不都合であると結論付ける場合、これは、「洗練されたポーズが見つからなかった」という結果を出力し得る。これは、ドッキングプログラムが生成したすべてのコンホメーションが活性部位との不都合なファンデルワールス衝突および／または静電反発を有するとき起こり得る。ドッキング手順の上記例では、第２のオペレーションにより、閾値未満のソフトエネルギーを有するポーズを見つけることができない場合、ドッカーは、「洗練されたポーズが見つからなかった」などの結果を返し得る。ソフトエネルギーは、ファンデルワールス力および静電気力を含めた非結合相互作用を主に考慮するので、「洗練されたポーズが見つからなかった」という結果は、リガンドが、所与の数のポーズについて、生体分子の受容体との厳しい立体的衝突および／または静電反発を有することを意味する。

ある特定の実施形態では、ドッカーは、リガンドと生体分子の活性部位との間の相互作用を表すドッキングスコアを出力する。ドッカーは、リガンド−生体分子相互作用の様々な特徴を算出し得る。一例では、出力は単に、リガンドと生体分子との間の相互作用エネルギーである。別の実施形態では、全エネルギーが出力される。全エネルギーは、リガンド−生体分子相互作用エネルギーとリガンドの歪みとの組合せであると理解される場合がある。ある特定の実施では、このようなエネルギーは、ＣＨＡＲＭｍなどの力場を使用して算出され得る。

様々な実施形態では、ドッキングプログラムは、生体分子の活性部位におけるリガンドの複数のポーズを考慮することによってこのような出力を生成する。各ポーズは、独自の関連したエネルギー値を有する。一部の実施形態では、ドッキングプログラムは、ポーズをランク付けし、高ランクのポーズの１つまたは複数と関連したエネルギーを考慮する。一部の場合では、これは、ある特定の高ランクのポーズのエネルギーを平均し、または他の方法で上位ランクのポーズの統計分析を実施し得る。他の実施形態では、これは単に、上位ランクのポーズに支持された値を選択し、これをドッキングについて得られたエネルギーとして出力する。

一部の実施形態では、基質の計算上の表示は、基質分子を所望の生成物分子に転換できる酵素反応の反応座標に沿った分子種に対応する。一部の実施形態では、基質の計算上の表示は、基質分子それ自体を表示する。一部の実施形態では、基質の計算上の表示は、反応座標に沿って形成される基質の中間体構造（すなわち、「基質の反応中間体」）を表示する。一部の実施形態では、基質の計算上の表示は、酵素反応座標に沿って形成される遷移状態の構造（すなわち、「基質の遷移状態」）を表示する。

一部の実施形態では、リガンドの計算上の表示は、酵素または生体分子に強く結合するが反応座標に沿って所望の生成物に進行しない分子種を表示することができる。例えば、リガンドの計算上の表示は、酵素の阻害剤またはタンパク質（例えば、受容体）の強く結合するアンタゴニストもしくはアゴニストについてスクリーニングするために、強い阻害剤を表示することができる。

「ポーズ」は、生物学的分子の活性部位に対する基質またはリガンドの位置または配向である。ポーズでは、リガンドのいくつかまたはすべての原子の３次元位置が、活性部位中の原子のいくつかまたはすべての位置に対して指定される。コンホメーションは活性部位を考慮しないので、リガンドのコンホメーションはそのポーズではないが、コンホメーションを、ポーズを判定するために使用することができる。一部の実施形態では、リガンドの配向およびコンホメーションが一緒にポーズを定義する。一部の実施形態では、ポーズは、リガンドの配向／コンホメーションの組合せが、参照活性部位における定義された閾値エネルギーレベルを満たす場合のみ存在する。

様々な計算の仕組みをドッキングのためにポーズを生成するために使用することができる。例としては、回転可能な結合についての系統的または確率論的ねじれサーチ（ｔｏｒｓｉｏｎａｌｓｅａｒｃｈ）、分子動力学シミュレーション、および新しい低エネルギーコンホメーションを「進化させる」ための遺伝的アルゴリズムがある。これらの技法が使用されて、「ポーズ空間」を探索するためのリガンドおよび／または活性部位の計算上の表示が修正される。

ドッカーは、ポーズを評価してどのようにリガンドが活性部位と相互作用するかを判定する。一部の実施形態では、これらは、上述した相互作用タイプの１つまたは複数（例えば、ファンデルワールス力）に基づいて相互作用のエネルギーを算出することによってこれを行う。この情報は、ドッキングを特徴付け、一部の場合では、ドッキングスコアを生成するために使用される。一部の実施では、ドッカーは、ドッキングスコアに基づいてポーズをランク付けする。一部の実施では、ドッカーは、考慮事項から不都合なドッキングスコアを有するポーズを除去する。

ある特定の実施形態では、仮想タンパク質スクリーニングシステムがポーズを評価して、ポーズが活性であるか否かを判定する。ポーズは、それが検討中の所望の活性にとって重要であることが分かっている定義された制約を満たす場合、活性であると見なされる。一例として、仮想タンパク質スクリーニングシステムは、ポーズが活性部位におけるリガンドの触媒的変換をサポートするか否かを判定し得る。

「リガンド」は、生体分子の活性部位と相互作用して、少なくともリガンドおよび生体分子を含有する安定な複合体を形成する分子または複合体である。リガンドおよび生体分子に加えて、安定な複合体は、他の化学エンティティ、例えば、有機および無機コファクター（例えば、補酵素および補欠分子族）、金属イオンなどを含み得る（時に必要とする）。リガンドは、アゴニストまたはアンタゴニストであり得る。

生体分子の「活性部位」は、分子（例えば、基質またはリガンド）の全部または一部を含有するか、および／またはそれらと結合することができる生体分子の構造によって規定される部位である。多くのタイプの活性部位が企図されており、これらの一部は本明細書の他所で説明される。しばしば活性部位は、基質またはリガンドとの結合相互作用を形成することができる化学的および／または物理的な特徴（例えば、アミノ酸残基）を含有する。一部の実施形態では（例えば、生体分子が酵素である場合）、「活性部位」は、少なくとも１つの触媒性残基および複数の結合残基、および時には他の化学エンティティ、例えば有機および無機コファクター（例えば、補酵素および補欠分子族）、金属イオンなどを含む。活性部位の少なくとも１つの触媒性残基は、基質の転換を触媒する触媒性部分を含有していてもよい。活性部位の結合残基は基質との結合相互作用をもたらし、立体選択的および／または位置選択的な方式で活性部位中にそれを保持する。このような相互作用としては、ファンデルワールス相互作用、静電相互作用、水素結合、親水性相互作用、疎水性相互作用、溶媒相互作用、共有結合などを挙げることができる。

一部の実施形態では、活性部位の計算上の表示は、基質の計算上の表示またはリガンドをドッキングし、それによって、活性部位との好ましい相互作用に関して評価することができるポーズを生成するために使用できる（例えば、ポーズについての結合エネルギーの決定）。

一部の実施形態では、活性部位の計算上の表示は、球体または他の形状によって幾何学的に規定される。一部の実施形態では、活性部位は、選択された物体（例えば、リガンドおよび／または構造鋳型中の他の化学エンティティ）の質量中心をそれらが含まれるように調整された半径で取り巻く球体を作製することによって規定される。最小半径は５Åであるが、活性部位のサイズは、球体の半径を１Å、２Å、３Å、４Å、６Å、８Å、１０Åなど増加させることによって拡張することができる。一部の実施において、半径のサイズは、基質近傍の残基を捕捉するように選択される。それゆえに、より大きい基質は、より大きい半径に関連し、小さい基質は、より小さい半径に関連する。本開示がいずれの特定の半径の値に限定されることは意図されない。一部の実施形態では、活性部位は、受容体の空洞から規定することができ、その場合、活性部位は、構造鋳型中で検出された空洞の１つから誘導された。一部の実施形態では、構造鋳型のタンパク質データバンク（ＰＤＢ）ファイルはサイトの記録を使用して規定された活性部位を含むことが多いため、活性部位は、ＰＤＢサイトの記録から規定することができる。構造鋳型を使用して全てのホモロジーモデルが作製され得るため、規定された活性部位は、全てのホモロジーモデルに移行可能である。

一部の実施形態では、活性部位の計算上の表示は、様々な３次元形状、例えば基質および／または酵素上の部分を参照してユーザーがカスタマイズ可能な形状（例えば、楕円または基質の構造を反映した不規則な形状）などによって規定することができる。

一部の実施形態では、活性部位の計算上の表示は、活性部位における基質またはリガンド分子と直接的に（例えば、ファンデルワールス相互作用、静電相互作用、水素結合を介して）相互作用しないが、活性部位の計算上の表示で他のアミノ酸と相互作用し、それによって基質またはリガンドのポーズの評価に影響を与えるアミノ酸を含むように規定することができる。

一部の実施形態では、触媒作用および／または結合に寄与する残基は、上記で規定されたような活性部位の計算上の表示の外側に存在していてもよい。このような残基は、変異または組換えのための候補として活性部位以外の残基を検討することによって、指向進化中に改変されてもよい。

「反応中間体」は、基質からの反応生成物への変換において基質から生成される化学実体である。基質の「遷移状態」は、反応経路に沿った最高ポテンシャルエネルギーに相当する状態にある基質である。一過性の存在を有する傾向がある遷移状態において、反応物分子の衝突が進行して生成物を形成する。本開示では、基質があるプロセスにおいて記載されている場合に時には、中間体および遷移状態も、そのプロセスにとって適当であり得る。このような局面では、基質、中間体、および遷移状態は、「リガンド」と総称して呼ばれる場合がある。一部の場合には、複数の中間体が、基質の触媒的変換において生成される。ある特定の実施形態では、分析のために選択されるリガンド種（基質または中間体または遷移状態）は、触媒的変換の律速段階に関連していると公知であるものである。一例として、酵素コファクターに共有結合的に結合した基質は、律速の段階において化学修飾され得る。このような場合には、基質−コファクター種が相互作用をモデル化するために使用される。

「リガンド」は、生体分子に結合することができる分子であり、結合してさらに触媒による化学変換を受けることができる「基質」分子も含み得る。いくつかのリガンドは、活性部位と結合するが、触媒的変換を起こさない。例としては、薬物設計分野において評価されるリガンドがある。このようなリガンドは、薬理学的目的のために標的生体分子と非共有結合的に結合するその能力について選択される低分子であり得る。一部の場合には、リガンドは、生体分子の天然の挙動を増強、活性化、または阻害するその能力について評価される。

「生体分子」または「生物学的分子」は、一般に生物有機体中に見つかるまたは生物有機体によって生成される分子を指す。一部の実施形態では、生物学的分子は、複数のサブユニットを有するポリマー生物学的巨大分子（すなわち、「バイオポリマー」）を含む。典型的な生体分子としては、タンパク質、酵素、および他のポリペプチド、ＤＮＡ、ＲＮＡおよび他のポリヌクレオチドが挙げられ、さらに、天然に存在するポリマー、例えばＲＮＡ（ヌクレオチドサブユニットから形成される）、ＤＮＡ（ヌクレオチドサブユニットから形成される）、およびペプチドまたはポリペプチド（アミノ酸サブユニットから形成される）といくつかの構造的特徴を共有する分子、例えば、ＲＮＡ類似体、ＤＮＡ類似体、ポリペプチド類似体、ペプチド核酸（ＰＮＡ）、ＲＮＡおよびＤＮＡの組合せ（例えば、キメラプラスト）なども挙げることができる。生体分子がいずれかの特定の分子に限定されることは意図されていない。なぜなら、それだけに限らないが、例えば、脂質、炭水化物、または１つもしくは複数の遺伝的にコード可能な分子（例えば、１つもしくは複数の酵素もしくは酵素経路）などによって作製される他の有機分子などを含めて、任意の適当な生物学的分子が本開示において有用であるためである。本開示の一部の態様にとって特に目的のものは、リガンドと相互作用して化学的または生物学的変換、例えば、基質の触媒変換、生体分子の活性化、または生体分子、特に酵素の不活化を行う活性部位を有する生体分子である。

一部の実施形態では、「有益な性質」または「活性」は、触媒反応速度（ｋ_ｃａｔ）、基質結合親和性（Ｋ_Ｍ）、触媒効率（ｋ_ｃａｔ／Ｋ_Ｍ）、基質特異性、化学選択性、位置選択性、立体選択性、立体特異性、リガンド特異性、受容体アゴニズム、受容体アンタゴニズム、コファクターの転換、酸素安定性、タンパク質発現レベル、溶解度、熱活性、熱安定性、ｐＨ活性、ｐＨ安定性（例えば、アルカリ性もしくは酸性ｐＨにおける）、グルコース阻害、ならびに／または阻害剤（例えば、酢酸、レクチン、タンニン酸、およびフェノール化合物）およびプロテアーゼに対する耐性、の１つまたはそれより多くの増大または低下である。他の所望の活性として、特定の刺激に対する応答におけるプロファイルの変化；例えば、温度および／またはｐＨプロファイルの変化を挙げることができる。合理的なリガンド設計において、標的化共有結合的阻害（ＴＣＩ）の最適化は、活性の一タイプである。一部の実施形態では、本明細書に記載するようにスクリーニングされる２種またはそれより多くのバリアントは、同じ基質に対して作用するが、以下の活性：生成物形成の速度、基質から生成物へのパーセント転換、選択性、および／またはコファクターのパーセント転換の１つまたはそれより多くに関して異なる。本開示がいずれかの特定の有益な性質および／または所望の活性に限定されることは意図されていない。

一部の実施形態では、「活性」は、基質から生成物への転換を触媒する酵素の能力というより限定された概念を記述するために使用される。関連した酵素特性は、特定の生成物、例えば、鏡像異性体または位置選択的生成物などに対するその「選択性」である。本明細書に提示される「活性」の広い定義には選択性が含まれるが、慣例的に、選択性は、時に酵素活性と異なるとみなされる。

用語「タンパク質」、「ポリペプチド」、および「ペプチド」は、長さまたは翻訳後修飾（例えば、グリコシル化、リン酸化、脂質修飾、ミリスチル化（ｍｙｒｉｓｔｉｌａｔｉｏｎ）、ユビキチン化など）にかかわらず、アミド結合によって共有結合的に連結された少なくとも２つのアミノ酸のポリマーを表すために互換的に使用される。一部の場合には、ポリマーは、少なくとも約３０のアミノ酸残基、通常少なくとも約５０のアミノ酸残基を有する。より典型的には、これらは、少なくとも約１００のアミノ酸残基を含有する。この用語は、全長タンパク質またはペプチドの断片であると慣例的に見なされる組成物を含む。この定義内に含まれるのは、Ｄ−およびＬ−アミノ酸、ならびにＤ−とＬ−アミノ酸の混合物である。本明細書に記載のポリペプチドは、遺伝的にコードされるアミノ酸に制限されない。実際に、遺伝的にコードされるアミノ酸に加えて、本明細書に記載のポリペプチドは、全体的にまたは部分的に、天然に存在するおよび／または合成の非コードアミノ酸で構成され得る。一部の実施形態では、ポリペプチドは、全長親ポリペプチドのアミノ酸配列と比較した場合に、アミノ酸の付加もしくは欠失（例えば、ギャップ）、および／または置換を含有するが、依然として機能活性（例えば、触媒活性）を保持する全長祖先または親ポリペプチドの一部である。

「野生型（ｗｉｌｄｔｙｐｅ）」または「野生型（ｗｉｌｄｔｙｐｅ）」（ＷＴ）の生体分子または生物は、それが自然に発生するときに典型的な形態の種の表現型を有するものである。時には、野生型の生体分子は、天然に存在する源から単離される。他の場合には、野生型の生体分子は、実験室の環境で誘導される。通常、野生型の生体分子は、変異ゲノムとは対照的に、正常なまたは参照ゲノムの遺伝子配列に関するか、またはそれによってコードされている。「野生型の生体分子」の定義内には、天然型と同一な配列を有するポリペプチドまたはポリヌクレオチドの組換え形態が含まれる。野生型の生体分子と反応する基質またはリガンドは、時には、「天然」基質またはリガンドとみなされる。

本明細書において使用される場合、用語「バリアント」、「変異体」、「変異体配列」、および「バリアント配列」は、標準または参照配列（例えば、一部の実施形態では、親配列）といくつかの点で異なる生物学的配列を指す。この差異は、「変異」と呼ばれる場合がある。一部の実施形態では、変異体は、少なくとも１つの置換、挿入、クロスオーバー、欠失、および／または他の遺伝子操作によって変更されたポリペプチドまたはポリヌクレオチド配列である。本開示の目的に関して、変異体およびバリアントは、これらが生成される特定の方法に限定されない。一部の実施形態では、変異体またはバリアント配列は、親配列と比較して、増大した、低下した、または実質的に同様の活性または性質を有する。一部の実施形態では、バリアントポリペプチドは、野生型ポリペプチド（例えば、親ポリペプチド）のアミノ酸配列と比較した場合に変異させられた１つまたはそれより多くのアミノ酸残基を含む。一部の実施形態では、ポリペプチドの１つまたはそれより多くのアミノ酸残基は、複数のポリペプチドを構成するバリアントポリペプチドにおいて、親ポリペプチドと比較した場合に一定に保たれ、不変であり、または変異させられていない。一部の実施形態では、親ポリペプチドは、改善された安定性、活性、または任意の他の所望の性質を有するバリアントを生成するための基盤として使用される。

本明細書において使用される場合、用語「酵素バリアント」および「バリアント酵素」は、特にこれらの機能において参照酵素と同様であるが、これらを野生型または別の参照酵素と配列が異なったものにするこれらのアミノ酸配列中の変異を有する酵素に言及して使用される。酵素バリアントは、当業者に周知の多種多様な異なる変異誘発技法によって作製することができる。さらに、変異誘発キットも、多くの商業的な分子生物学の供給業者から入手可能である。規定のアミノ酸における特異的置換（部位指向性）、遺伝子の局所領域内の特異的もしくはランダム変異（位置特異的）、または遺伝子全体にわたるランダム変異誘発（例えば、飽和変異誘発）を行う方法が利用可能である。酵素バリアントを生成するための多数の適当な方法が当業者に公知であり、これらとしては、それだけに限らないが、ＰＣＲを使用する一本鎖ＤＮＡもしくは二本鎖ＤＮＡの部位指向性変異誘発、カセット変異誘発、遺伝子合成、エラープローンＰＣＲ、シャッフリング、および化学的飽和変異誘発、または当技術分野で公知の任意の他の適当な方法がある。バリアントが生成された後、これらを所望の性質（例えば、高いもしくは増大した；または低いもしくは低減された活性、増大した熱安定性および／またはアルカリ安定性など）についてスクリーニングすることができる。

「酵素のパネル」は、パネルの各メンバーが同じ化学反応を触媒するように選択された酵素の群である。一部の実施形態では、パネルのメンバーは、それぞれが同じ反応を起こして複数の基質を一括して転換することができる。多くの場合、パネルメンバーは、複数の基質を効率的に転換するように選択される。一部の場合には、パネルは、市販されている。他の場合には、これらは、ある企業体が独占している。例えば、パネルは、スクリーニング手順でヒットとして識別された様々な酵素を含み得る。ある特定の実施形態では、パネルの１つまたはそれより多くのメンバーは、計算上の表示としてのみ存在する。言い換えれば、その酵素は、仮想の酵素である。

「モデル」は、生体分子またはリガンドの構造の表示である。それは、時に原子の３次元位置の集合物、または表示されているエンティティの部分として提供される。モデルは、活性部位または酵素バリアントの他の態様の計算的に生成された表示を含有することが多い。本明細書の実施形態に関連したモデルの例は、ホモロジーモデリング、タンパク質スレッディング、またはＲｏｓｅｔｔａ（ｒｏｓｅｔｔａｃｏｍｍｏｎｓ．ｏｒｇ／ｓｏｆｔｗａｒｅ／）などのルーチンを使用するａｂｉｎｉｔｉｏタンパク質モデリング、または分子動力学シミュレーションから生成される。

「ホモロジーモデル」は、検討中のリガンドの活性部位を少なくとも含有するタンパク質またはタンパク質の一部の３次元モデルである。ホモロジーモデリングは、タンパク質構造が相同タンパク質間で保存される傾向があるという観察結果に依拠する。ホモロジーモデルは、骨格および側鎖を含めた残基の３次元位置を提供する。モデルは、モデル化された配列の構造に類似する可能性が高い相同タンパク質の構造鋳型から生成される。一部の実施形態では、構造鋳型は、「配列を鋳型にアライメントする」および「ホモロジーモデルを構築する」という２つのステップで使用される。

「配列を鋳型にアライメントする」ステップは、モデル配列を１つまたはそれより多くの構造鋳型配列にアライメントし、ホモロジーモデルを構築するための入力配列アライメントを準備する。アラインメントにより、モデル配列と構造鋳型配列（複数可）との間のギャップおよび相違する他の領域が識別される。

「ホモロジーモデルを構築する」ステップは、構造鋳型の構造的特徴を使用して空間的拘束を導出する。空間的拘束はひいては、例えば、共役勾配およびシミュレーテッドアニーリング最適化手順を使用してモデルタンパク質構造を生成するために使用される。鋳型の構造的特徴は、ＮＭＲまたはＸ線結晶構造解析法などの技法から得られ得る。このような技法の例は、ＱｕＸ、ＳｗａｎｓｏｎＲ、ＤａｙＲ、Ｔｓａｉ、Ｊ．、ＣｕｒｒＰｒｏｔｅｉｎＰｅｐｔＳｃｉ．、２００９年６月；１０巻（３号）：２７０〜８５頁による総説「ＡＧｕｉｄｅｔｏＴｅｍｐｌａｔｅＢａｓｅｄＳｔｒｕｃｔｕｒｅＰｒｅｄｉｃｔｉｏｎ」において見つけることができる。

用語「活性コンホメーション」は、タンパク質が基質を化学変換（例えば、触媒反応）させることを可能にするタンパク質（例えば、酵素）のコンホメーションについての言及において使用される。

「活性ポーズ」は、リガンドが触媒的変換を起こす可能性が高い、または結合部位との共有結合的結合などのいくつかの所望の役割を果たすポーズである。

用語「酸化還元」、「酸化−還元」、および「レドックス」は、１つの反応が酸化であり逆が還元である可逆的な化学反応を指して互換的に使用される。この用語はまた、原子がそれらの酸化状態を変化させる全ての化学反応を指すためにも使用され、一般的に、酸化還元反応は、種間の電子の移動を含む。これは、簡単な酸化還元プロセス、例えば炭素が酸化されて二酸化炭素（ＣＯ_２）が生じるプロセス、もしくは炭素が水素で還元されてメタン（ＣＨ４）が生じるプロセス、または複雑なプロセス、例えば一連の複雑な電子伝達プロセスを介したヒトの体におけるグルコース（Ｃ_６Ｈ_１２Ｏ_６）の酸化のいずれかであり得る。

「オキシドレダクターゼ」は、酸化還元反応を触媒する酵素である。

用語「トランスフェレーション（ｔｒａｎｓｆｅｒａｔｉｏｎ）」は、本明細書において、一方の化合物から他方の化合物に官能基を移す化学反応を指すものとして使用される。「トランスフェラーゼ」は、トランスフェレーション反応を触媒する様々な酵素のいずれかを指すために使用される。

用語「加水分解」は、水が化合物と反応して他の化合物を生成する化学反応を指すために使用され、この反応は、水由来の水素カチオンおよび水酸化物アニオンの付加による化学結合の開裂を含む。

「ヒドロラーゼ」は、加水分解反応を触媒する酵素である。

用語「異性化」は、化合物を異性体に転換する化学反応を指すために使用される。

「イソメラーゼ」は、異性化反応を触媒し、その基質を異性体の形態に変化させる酵素である。

用語「ライゲーション」は、本明細書において、新しい化学結合を形成することによって２つの分子を合体させるあらゆる化学反応を指すために使用される。一部の実施形態では、ライゲーション反応は、より大きい分子の１つに属する小さい化学基の加水分解を含む。一部の実施形態では、酵素は２つの化合物を一緒に連結させることを触媒し、例えばＣ−Ｏ、Ｃ−Ｓ、Ｃ−Ｎなどの合体を触媒する酵素である。ライゲーション反応を触媒する酵素は、「リガーゼ」と称される。

「リアーゼ」は、加水分解および酸化以外の手段によって様々な化学結合の破断を触媒する酵素である。一部の実施形態では、リアーゼ反応は、新しい二重結合または新しい環構造を形成する。

「ケトレダクターゼ」は、典型的にはコファクターＮＡＤＰＨを使用して、立体特異的にケト基をヒドロキシル基に還元する酵素である（例えば、ＷＯ２００８１０３２４８Ａ２、ＷＯ２００９０２９５５４Ａ２、ＷＯ２００９０３６４０４Ａ２、ＷＯ２００９０４２９８４Ａ１、ＷＯ２００９０４６１５３Ａ１、およびＷＯ２０１００２５２３８Ａ２で開示されたバリアントを参照）。

「トランスアミナーゼ」または「アミノトランスフェラーゼ」は、アミノ酸とα−ケト酸とのアミノ基転移反応を触媒する酵素であり、アミノ酸上のアミン基ＮＨ_２がα−ケト酸上のケト基＝Ｏと交換される（例えば、ＷＯ２０１００８１０５３Ａ２およびＷＯ２０１００９９５０１Ａ２で開示されたバリアントを参照）。

「シトクロム」タンパク質（「ＣＹＰ」と略記される）は、有機物質の酸化に関与する酵素である。一例は、シトクロムＰ４５０酵素である。ＣＹＰ酵素の基質としては、これらに限定されないが、代謝中間体、例えば脂質およびステロイドホルモン、加えて生体異物、例えば薬物および他の有毒化学物質が挙げられる。ＣＹＰは、薬物代謝および生体内活性化に関与する主要な酵素である。ＣＹＰは、酵素反応における基質として、様々な低分子および大分子を使用する。シトクロムＰ４５０によって触媒される最も一般的な反応は、モノオキシゲナーゼ反応であり、例えば、一方の酸素原子を有機基質（ＲＨ）に挿入し、同時に他方の酸素原子は還元されて水になる。シトクロムＰ４５０酵素は、ヘムコファクターを含有するタンパク質のスーパーファミリーに属しており、そのためヘムタンパク質である。一般的にこれらは、電子伝達鎖において末端のオキシダーゼ酵素である。Ｃｏｄｅｘｉｓより入手可能なＭｉｃｒｏＣｙｐ（登録商標）スクリーニングプレートおよび酵素は、薬物生成代謝産物および新規のリード化合物の生成に有用である（例えば、ＷＯ２００２０８３８６８Ａ２、ＷＯ２００５０１７１０５Ａ２、ＷＯ２００５０１７１１６Ａ２、およびＷＯ２００３００８５６３Ａ２で開示されたバリアントを参照）。

「バイヤー−ビリガーモノオキシゲナーゼ」は、バイヤー−ビリガー酸化反応を触媒するためにＮＡＤＰＨおよび分子酸素を採用する酵素であり、酸素原子は、カルボニル系基質の炭素−炭素結合に挿入される（例えば、ＷＯ２０１１０７１９８２Ａ２およびＷＯ２０１２０７８８００Ａ２におけるバリアントを参照）。

「モノアミンオキシダーゼ」（ＭＡＯ）（ＥＣ１．４．３．４）は、２炭素の鎖（−ＣＨ_２−ＣＨ_２−）により芳香環に接続されている１つのアミノ基を含有する、神経伝達物質および神経調節物質であるモノアミンの酸化を触媒する酵素である。ＭＡＯは、フラビン含有アミンオキシドレダクターゼのタンパク質ファミリーに属する（例えば、ＷＯ２０１０００８８２８Ａ２におけるバリアントを参照）。

「ニトリラーゼ」またはニトリルアミノヒドロラーゼ（ＥＣ３．５．５．１）は、「遊離の」アミド中間体の形成を伴わずにカルボン酸およびアンモニアへのニトリルの加水分解を触媒する酵素である（例えば、ＷＯ２０１１０１１６３０Ａ２におけるバリアントを参照）。

「イミンレダクターゼ」は、炭素−窒素二重結合を含有するイミン官能基の還元を触媒し、電子を窒素原子に供与して二重結合を破断させる酵素である。

「エノンレダクターゼ」は、アルケンおよびケトンの共役系を含むエノン官能基の還元を触媒し、ケトまたはアルケン二重結合を破断させる酵素である（例えば、ＷＯ２０１００７５５７４Ａ２で開示されたバリアントを参照）。

「アシラーゼ」は、アシルアミドまたはアシルエステル結合の加水開裂を触媒する酵素である（例えば、ＷＯ２０１００５４３１９Ａ２におけるペニシリンＧアシラーゼのバリアントを参照）。

「ハロヒドリンデハロゲナーゼ」「ＨＨＤＨ」は、ビシナルハロヒドリンの分解に関与する酵素である。例えば、ＡｇｒｏｂａｃｔｅｒｉｕｍｒａｄｉｏｂａｃｔｅｒＡＤ１において、ハロヒドリンデハロゲナーゼは、ハロヒドリンの脱ハロゲン化を触媒して対応するエポキシドを生成する（例えば、ＷＯ２０１００８０６３５Ａ２で開示されたバリアントを参照）。

用語「配列」は、それだけに限らないが、全ゲノム、全染色体、染色体セグメント、相互作用する遺伝子についての遺伝子配列のコレクション、遺伝子、核酸配列、タンパク質、ペプチド、ポリペプチド、多糖などを含めた任意の生物学的配列の順序およびアイデンティティーを指すために本明細書で使用される。一部の文脈では、「配列」は、タンパク質中のアミノ酸残基の順序およびアイデンティティー（すなわち、タンパク質配列もしくはタンパク質文字列）、または核酸中のヌクレオチドの順序およびアイデンティティー（すなわち、核酸配列もしくは核酸文字列）を指す。配列は、文字列によって表示され得る。「核酸配列」は、核酸を構成するヌクレオチドの順序およびアイデンティティーを指す。「タンパク質配列」は、タンパク質またはペプチドを構成するアミノ酸の順序およびアイデンティティーを指す。

「コドン」は、遺伝子コードの一部であり、かつタンパク質中の特定のアミノ酸を指定する、またはタンパク質合成を開始もしくは停止する３つの連続したヌクレオチドの特異的配列を指す。

用語「遺伝子」は、ＤＮＡまたは生物学的機能に関連した他の核酸の任意のセグメントを指すために広く使用される。したがって、遺伝子は、コード配列および任意選択で、これらの発現に要求される制御配列を含む。遺伝子は、例えば、他のタンパク質の認識配列を形成する非発現核酸セグメントも任意選択で含む。遺伝子は、目的の源からのクローニング、または公知のもしくは予測された配列情報からの合成を含めて、様々な源から得ることができ、所望のパラメータを有するように設計された配列を含み得る。

「部分（ｍｏｉｅｔｙ）」は、官能基全体または下部構造としての官能基の一部を含み得る分子の一部であり、一方、官能基は、これらの分子の特徴的な化学反応を担う分子内の原子または結合の群である。

「スクリーニング」は、１つまたはそれより多くの生体分子の１つまたはそれより多くの性質が決定されるプロセスを指す。例えば、典型的なスクリーニングプロセスには、１つまたはそれより多くのライブラリーの１つまたはそれより多くのメンバーの１つまたはそれより多くの性質が決定されるものが含まれる。スクリーニングは、生体分子の計算モデルおよび生体分子の仮想環境を使用して計算的に実施することができる。一部の実施形態では、仮想タンパク質スクリーニングシステムが、所望の活性および選択性の選択された酵素について提供される。

「発現系」は、遺伝子または他の核酸によってコードされるタンパク質またはペプチドを発現させるための系である。

「指向進化」、「誘導進化（ｇｕｉｄｅｄｅｖｏｌｕｔｉｏｎ）」、または「人工進化」は、人為的な淘汰、変異、組換え、または他の操作によって１つまたはそれより多くの生体分子配列（またはその配列を表示する文字列）を人工的に変化させるｉｎｓｉｌｉｃｏ、ｉｎｖｉｔｒｏ、またはｉｎｖｉｖｏプロセスを指す。一部の実施形態では、指向進化は、（１）個体の品種、（２）遺伝性遺伝情報を有するいくつかの品種、（３）適合度の異なるいくつかの品種が存在する再現集団（ｒｅｐｒｏｄｕｃｔｉｖｅｐｏｐｕｌａｔｉｏｎ）内で生じる。再現の成功は、有益な特性などの所定の特性についての選択の転帰によって決定される。再現集団は、例えば、ｉｎｖｉｔｒｏプロセスにおける物理的集団、またはｉｎｓｉｌｉｃｏプロセスにおけるコンピューターシステム内の仮想集団とすることができる。

指向進化方法は、発現させ、スクリーニングし、アッセイすることができるバリアントライブラリーを生成するために、ポリヌクレオチドに容易に適用されることができる。変異誘発法および指向進化方法は、当技術分野で周知である（例えば、米国特許第５，６０５，７９３号、同第５，８３０，７２１号、同第６，１３２，９７０号、同第６，４２０，１７５号、同第６，２７７，６３８号、同第６，３６５，４０８号、同第６，６０２，９８６号、同第７，２８８，３７５号、同第６，２８７，８６１号、同第６，２９７，０５３号、同第６，５７６，４６７号、同第６，４４４，４６８号、同第５，８１１２３８号、同第６，１１７，６７９号、同第６，１６５，７９３号、同第６，１８０，４０６号、同第６，２９１，２４２号、同第６，９９５，０１７号、同第６，３９５，５４７号、同第６，５０６，６０２号、同第６，５１９，０６５号、同第６，５０６，６０３号、同第６，４１３，７７４号、同第６，５７３，０９８号、同第６，３２３，０３０号、同第６，３４４，３５６号、同第６，３７２，４９７号、同第７，８６８，１３８号、同第５，８３４，２５２号、同第５，９２８，９０５号、同第６，４８９，１４６号、同第６，０９６，５４８号、同第６，３８７，７０２号、同第６，３９１，５５２号、同第６，３５８，７４２号、同第６，４８２，６４７号、同第６，３３５，１６０号、同第６，６５３，０７２号、同第６，３５５，４８４号、同第６，０３，３４４号、同第６，３１９，７１３号、同第６，６１３，５１４号、同第６，４５５，２５３号、同第６，５７９，６７８号、同第６，５８６，１８２号、同第６，４０６，８５５号、同第６，９４６，２９６号、同第７，５３４，５６４号、同第７，７７６，５９８号、同第５，８３７，４５８号、同第６，３９１，６４０号、同第６，３０９，８８３号、同第７，１０５，２９７号、同第７，７９５，０３０号、同第６，３２６，２０４号、同第６，２５１，６７４号、同第６，７１６，６３１号、同第６，５２８，３１１号、同第６，２８７，８６２号、同第６，３３５，１９８号、同第６，３５２，８５９号、同第６，３７９，９６４号、同第７，１４８，０５４号、同第７，６２９，１７０号、同第７，６２０，５００号、同第６，３６５，３７７号、同第６，３５８，７４０号、同第６，４０６，９１０号、同第６，４１３，７４５号、同第６，４３６，６７５号、同第６，９６１，６６４号、同第７，４３０，４７７号、同第７，８７３，４９９号、同第７，７０２，４６４号、同第７，７８３，４２８号、同第７，７４７，３９１号、同第７，７４７，３９３号、同第７，７５１，９８６号、同第６，３７６，２４６号、同第６，４２６，２２４号、同第６，４２３，５４２号、同第６，４７９，６５２号、同第６，３１９，７１４号、同第６，５２１，４５３号、同第６，３６８，８６１号、同第７，４２１，３４７号、同第７，０５８，５１５号、同第７，０２４，３１２号、同第７，６２０，５０２号、同第７，８５３，４１０号、同第７，９５７，９１２号、同第７，９０４，２４９号、およびすべての関連した非米国対応物；Ｌｉｎｇら、Ａｎａｌ．Ｂｉｏｃｈｅｍ、２５４巻（２号）：１５７〜７８頁［１９９７年］；Ｄａｌｅら、Ｍｅｔｈ．Ｍｏｌ．Ｂｉｏｌ．、５７巻：３６９〜７４頁［１９９６年］；Ｓｍｉｔｈ、Ａｎｎ．Ｒｅｖ．Ｇｅｎｅｔ．、１９巻：４２３〜４６２頁［１９８５年］；Ｂｏｔｓｔｅｉｎら、Ｓｃｉｅｎｃｅ、２２９巻：１１９３〜１２０１頁［１９８５年］；Ｃａｒｔｅｒ、Ｂｉｏｃｈｅｍ．Ｊ．、２３７巻：１〜７頁［１９８６年］；Ｋｒａｍｅｒら、Ｃｅｌｌ、３８巻：８７９〜８８７頁［１９８４年］；Ｗｅｌｌｓら、Ｇｅｎｅ、３４巻：３１５〜３２３頁［１９８５年］；Ｍｉｎｓｈｕｌｌら、Ｃｕｒｒ．Ｏｐ．Ｃｈｅｍ．Ｂｉｏｌ．、３巻：２８４〜２９０頁［１９９９年］；Ｃｈｒｉｓｔｉａｎｓら、Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．、１７巻：２５９〜２６４頁［１９９９年］；Ｃｒａｍｅｒｉら、Ｎａｔｕｒｅ、３９１巻：２８８〜２９１頁［１９９８年］；Ｃｒａｍｅｒｉら、Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．、１５巻：４３６〜４３８頁［１９９７年］；Ｚｈａｎｇら、Ｐｒｏｃ．Ｎａｔ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．、９４巻：４５０４〜４５０９頁［１９９７年］；Ｃｒａｍｅｒｉら、Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．、１４巻：３１５〜３１９頁［１９９６年］；Ｓｔｅｍｍｅｒ、Ｎａｔｕｒｅ、３７０巻：３８９〜３９１頁［１９９４年］；Ｓｔｅｍｍｅｒ、Ｐｒｏｃ．Ｎａｔ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ、９１巻：１０７４７〜１０７５１頁［１９９４年］；ＷＯ９５／２２６２５；ＷＯ９７／００７８；ＷＯ９７／３５９６６；ＷＯ９８／２７２３０；ＷＯ００／４２６５１；ＷＯ０１／７５７６７；およびＷＯ２００９／１５２３３６を参照。これらのすべては、参照により本明細書に組み込まれている）。

ある特定の実施形態では、指向進化方法は、親タンパク質から発生したバリアントをコードする遺伝子を組み換えることによって、および親タンパク質バリアントライブラリー内のバリアントをコードする遺伝子を組み換えることによってタンパク質バリアントライブラリーを生成する。この方法は、親バリアントライブラリーの少なくとも１種のタンパク質をコードする配列または部分配列を含むオリゴヌクレオチドを使用し得る。親バリアントライブラリーのオリゴヌクレオチドのいくつかは、他のバリアントと、組換えによって変更されるように選択された代替アミノ酸のコドンの選択においてのみ異なって密接に関連している場合がある。この方法は、所望の結果が実現されるまで１回または複数回のサイクルについて実施され得る。複数のサイクルが使用される場合、各々は、典型的には、許容される、または改善された性能を有し、少なくとも１つの後続の組換えサイクルで使用するための候補であるバリアントを識別するためのスクリーニングステップを伴う。一部の実施形態では、スクリーニングステップは、所望の基質についての酵素の触媒活性および選択性を決定するための仮想タンパク質スクリーニングシステムを伴う。

一部の実施形態では、指向進化方法は、定義された残基における部位指向性変異誘発によってタンパク質バリアントを生成する。これらの定義された残基は、典型的には、結合部位の構造解析、量子化学分析、配列相同性分析、配列活性モデルなどによって識別される。一部の実施形態は、特異的部位または遺伝子の狭い領域におけるすべての可能な（または可能な限り近い）変異を生成するように試みる飽和変異誘発を使用する。

「シャッフリング」および「遺伝子シャフリング」は、一連の鎖伸長サイクルによって親ポリヌクレオチドの断片のコレクションを組み換える指向進化方法のタイプである。ある特定の実施形態では、鎖伸長サイクルの１つまたはそれより多くは、セルフプライミングであり、すなわち、断片自体以外のプライマーの付加を伴うことなく実施される。各サイクルは、ハイブリダイゼーションによる一本鎖断片のアニーリング、鎖伸長によるアニールされた断片の後続の伸長、および変性を伴う。シャッフリングの過程にわたって、成長中の核酸鎖は、典型的には、「鋳型切り替え」と時に呼ばれるプロセスにおいて複数の異なるアニーリングパートナーにさらされる。このプロセスは、１つの核酸に由来する１つの核酸ドメインを第２の核酸に由来する第２のドメインと切り替えることを伴う（すなわち、第１および第２の核酸がシャッフリング手順における鋳型として機能を果たす）。

鋳型切り替えではしばしば、異なる起源の断片間のクロスオーバーの導入から生じるキメラ配列が生成される。クロスオーバーは、アニーリング、伸長、および変性の複数のサイクルの間の鋳型が切り替えられた組換えによって生成される。したがって、シャッフリングにより、典型的には、バリアントポリヌクレオチド配列が生成される。一部の実施形態では、バリアント配列は、バリアントの「ライブラリー」（すなわち、複数のバリアントを含む群）を含む。これらのライブラリーの一部の実施形態では、バリアントは、２つまたはそれより多くの親ポリヌクレオチドに由来する配列セグメントを含む。

２つまたはそれより多くの親ポリヌクレオチドが使用されるとき、個々の親ポリヌクレオチドは、異なる親に由来する断片が、シャッフリングサイクルで使用されるアニーリング条件下でハイブリダイズするほど十分に相同である。一部の実施形態では、シャッフリングは、相対的に制限された／低い相同性レベルを有する親ポリヌクレオチドの組換えを可能にする。多くの場合、個々の親ポリヌクレオチドは、目的の別個のおよび／もしくは固有のドメイン、ならびに／または他の配列特性を有する。別個の配列特性を有する親ポリヌクレオチドを使用するとき、シャッフリングは、高度に多様なバリアントポリヌクレオチドを生成することができる。

様々なシャッフリング技法が当技術分野で公知である。例えば、米国特許第６，９１７，８８２号、同第７，７７６，５９８号、同第８，０２９，９８８号、同第７，０２４，３１２号、および同第７，７９５，０３０号を参照。これらのすべては、その全体が参照により本明細書に組み込まれている。

いくつかの指向進化技法は、「ＧｅｎｅＳｐｌｉｃｉｎｇｂｙＯｖｅｒｌａｐＥｘｔｅｎｓｉｏｎ」または「ｇｅｎｅＳＯＥｉｎｇ」を使用する。これは、制限部位に依存することなくＤＮＡ配列を組み換え、そしてｉｎｖｉｔｒｏで変異させられたＤＮＡ断片を直接生成するＰＣＲベース方法である。この技法の一部の実施において、最初のＰＣＲにより、完全長生成物を作製するために第２のＰＣＲのための鋳型ＤＮＡとして使用される重なった遺伝子セグメントが生成される。内部ＰＣＲプライマーは、中間セグメントに重なった相補的３’末端を生成し、遺伝子スプライシングのためのヌクレオチド置換、挿入、または欠失を導入する。これらの中間セグメントの重なった鎖は、第２のＰＣＲにおいて３’領域でハイブリダイズし、伸長されて完全長生成物を生成する。様々な用途において、全長生成物は、クローニング目的で発現ベクター中に生成物を挿入するための制限酵素部位を含むことができるフランキングプライマーによって増幅される。例えば、Ｈｏｒｔｏｎら、Ｂｉｏｔｅｃｈｎｉｑｕｅｓ、８巻（５号）：５２８〜３５頁［１９９０年］を参照。「変異誘発」は、標準配列または参照配列、例えば、親核酸または親ポリペプチドなどの中に変異を導入するプロセスである。

部位指向性変異誘発は、変異を導入するための有用な技法の一例であるが、任意の適当な方法が有用である。したがって、代替としてまたは追加的に、変異体は、遺伝子合成、飽和ランダム変異誘発、残基の半合成組み合わせのライブラリー、再帰的配列組換え（「ＲＳＲ」）（例えば、その全体が本明細書に参照により組み込まれている、米国特許出願公開第２００６／０２２３１４３号を参照）、遺伝子シャッフリング、エラープローンＰＣＲ、および／または任意の他の適当な方法によってもたらされ得る。

適当な飽和変異誘発手順の一例は、米国特許出願公開第２０１０／００９３５６０号に記載されており、これは、その全体が参照により本明細書に組み込まれている。

「断片」は、ヌクレオチドまたはアミノ酸の配列の任意の一部である。断片は、それだけに限らないが、ポリペプチドまたはポリヌクレオチド配列の切断を含めた当技術分野で公知の任意の適当な方法を使用して生成され得る。一部の実施形態では、断片は、ポリヌクレオチドを切断するヌクレアーゼを使用することによって生成される。一部の追加の実施形態では、断片は、化学的および／または生物学的合成技法を使用して生成される。一部の実施形態では、断片は、相補的核酸（複数可）の部分的鎖伸長を使用して生成される少なくとも１つの親配列の部分配列を含む。ｉｎｓｉｌｉｃｏ技法を伴う一部の実施形態では、化学的および／または生物学的技法によって生成される断片の結果を模倣するために、仮想断片が計算的に生成される。一部の実施形態では、ポリペプチド断片は、完全長ポリペプチドの活性を呈し、一方、一部の他の実施形態では、ポリペプチド断片は、完全長ポリペプチドが呈する活性を有しない。

「親ポリペプチド」、「親ポリヌクレオチド」、「親核酸」、および「親」は、一般に、野生型ポリペプチド、野生型ポリヌクレオチド、または指向進化などの多様性生成手順における出発点として使用されるバリアントを指すために使用される。一部の実施形態では、親自体が、シャッフリングまたは他の多様性生成手順（複数可）を介して生成される。一部の実施形態では、指向進化で使用される変異体は、親ポリペプチドに直接関連する。一部の実施形態では、親ポリペプチドは、極度の温度、ｐＨ、および／または溶媒条件にさらされるとき安定であり、シャッフリングのためのバリアントを生成するための基盤として機能を果たすことができる。一部の実施形態では、親ポリペプチドは、極度の温度、ｐＨ、および／または溶媒条件に対して安定でなく、親ポリペプチドは、ロバストなバリアントを作製するために進化させられる。

「親核酸」は、親ポリペプチドをコードする。

「ライブラリー」または「集団」は、少なくとも２つの異なる分子、文字列、および／またはモデル、例えば、核酸配列（例えば、遺伝子、オリゴヌクレオチドなど）、またはこれらに由来する発現生成物（例えば、酵素または他のタンパク質）などのコレクションを指す。ライブラリーまたは集団は一般に、いくつかの異なる分子を含む。例えば、ライブラリーまたは集団は、典型的には、少なくとも約１０の異なる分子を含む。大きいライブラリーは、典型的には、少なくとも約１００の異なる分子、より典型的には、少なくとも約１０００の異なる分子を含む。一部の用途については、ライブラリーは、少なくとも約１００００またはそれより多くの異なる分子を含む。しかし、本発明が異なる分子の具体的な数に限定されることは意図されていない。ある特定の実施形態では、ライブラリーは、指向進化手順によって生成されるある数のバリアントまたはキメラ核酸またはタンパク質を含む。

２つの核酸は、この２つの核酸の各々に由来する配列が組み合わされて子孫核酸（複数可）が生成されるとき、「組み換えられる」。２つの配列は、核酸の両方が組換えの基質であるとき、「直接」組み換えられる。

「選択」は、１つまたはそれより多くの生体分子が１つまたはそれより多くの目的の性質を有すると識別されるプロセスを指す。したがって、例えば、ライブラリーをスクリーニングして、１つまたはそれより多くのライブラリーメンバーの１つまたはそれより多くの性質を決定することができる。ライブラリーメンバーのうちの１つまたはそれより多くが目的の性質を持っていると識別される場合、それは、選択される。選択は、ライブラリーメンバーの分離を含むことができるが、これは必要ではない。さらに、選択およびスクリーニングは、同時であることができ、同時であることが多い。本明細書に開示の一部の実施形態は、望ましい活性および／または選択性の酵素をスクリーニングおよび選択するためのシステムおよび方法を提供する。

用語「配列−活性モデル」は、一方において生体分子の活性、特性、または性質と、他方において様々な生物学的な配列との関係を説明するあらゆる数学モデルを指す。

「参照配列」は、配列のバリエーションの元になる配列である。一部の場合には、「参照配列」は、バリエーションを規定するために使用される。このような配列は、所望の活性の最高値（または最高値の１つ）を有するとモデルによって予測された配列であってもよい。別の場合には、参照配列は、元のタンパク質バリアントライブラリーのメンバーの配列であってもよい。ある特定の実施形態では、参照配列は、親のタンパク質または核酸の配列である。

「次世代シーケンシング」および「ハイスループットシーケンシング」は、シーケンシングプロセスを並列化し、数千または数百万の配列を一度に生成するシーケンシング技法である。適当な次世代シーケンシング法の例としては、それだけに限らないが、単一分子リアルタイムシーケンシング（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ、ＭｅｎｌｏＰａｒｋ、Ｃａｌｉｆｏｒｎｉａ）、イオン半導体シーケンシング（例えば、ＩｏｎＴｏｒｒｅｎｔ、ＳｏｕｔｈＳａｎＦｒａｎｃｉｓｃｏ、Ｃａｌｉｆｏｒｎｉａ）、パイロシーケンシング（例えば、４５４、Ｂｒａｎｆｏｒｄ、Ｃｏｎｎｅｃｔｉｃｕｔ）、ライゲーションによるシーケンシング（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｃａｒｌｓｂａｄ、ＣａｌｉｆｏｒｎｉａのＳＯＬｉＤシーケンシング）、合成および可逆性ターミネーターによるシーケンシング（例えば、Ｉｌｌｕｍｉｎａ、ＳａｎＤｉｅｇｏ、Ｃａｌｉｆｏｒｎｉａ）、透過型電子顕微鏡法などの核酸イメージング技術などがある。

「遺伝的アルゴリズム」は、進化のプロセスを模倣するプロセスである。遺伝的アルゴリズム（ＧＡ）は、完全には特徴付けられていないか、または複雑すぎて完全な特徴付けができないが、何らかの分析的評価が利用可能である問題を解決するために多種多様な分野で使用される。すなわち、ＧＡは、解の相対値（または少なくとも、別のものとの比較における１つの潜在的な解の相対値）について何らかの定量化可能な尺度によって評価することができる問題を解決するために使用される。本開示の場合において、遺伝的アルゴリズムは、典型的には文字列が１種または複数の生物学的分子（例えば、核酸、タンパク質など）または配列活性モデルなどのモデルを訓練するために使用されるデータに対応する場合に、コンピューターで文字列を選択または操作するためのプロセスである。

典型的な実施において、遺伝的アルゴリズムは、第１世代で文字列の集団を提供し、評価する。「適合度関数」は、集団のメンバーを評価し、高い活性などの１つまたは複数の基準に基づきそれらをランク付けする。高くランク付けされた文字列は、第２世代に昇格させるために、および／または第２世代のための「子供の文字列」を生成するためにメイティングするために選択される。第２の世代における集団は、適合度関数によって同様に評価され、高ランクのメンバーが、第１の世代と同様に昇格させられ、かつ／またはメイティングされる。遺伝的アルゴリズムは、後続の世代についてこの様式で「収束基準」が満たされるまで継続し、その時点でアルゴリズムは、１つまたは複数の高ランクの個体を結論付ける。

用語「遺伝的操作」（または、「ＧＯ」）は、生物学的なおよび／または計算による遺伝的操作を指し、ここで、文字列の任意のタイプの任意の集団の（かつしたがってこのような列によってコードされる物理的物体の任意の物理的性質の）すべての変化は、論理代数関数の有限のセットのランダムなおよび／または所定の適用の結果として記述することができる。ＧＯの例としては、それだけに限らないが、増殖、クロスオーバー、組換え、変異、ライゲーション、断片化などがある。
ＩＩ．仮想タンパク質スクリーニング

一部の実施形態では、仮想タンパク質スクリーニングシステムは、規定された温度で反応を効率的かつ選択的に触媒することなどの所望の活性を有する可能性が高い生体分子バリアントをコンピューターにより識別することに関連する様々なオペレーションを実施するように設計される。仮想タンパク質スクリーニングシステムは、入力として、バリアントと相互作用することが意図された１つまたは１つより多くのリガンドの表示を取り入れてもよい。システムは、他の入力として、生体分子バリアント、またはこれらのバリアントの少なくとも活性部位の表示を取り入れる場合がある。表示は、リガンドおよび／またはバリアントの原子および／または部分の３次元位置を含有し得る。ホモロジーモデルは、生体分子バリアントの表示の例である。仮想タンパク質スクリーニングシステムは、バリアントの機能を査定するためにドッキング情報および活性の制約を適用する場合がある。

ある特定の実施形態では、仮想タンパク質スクリーニングシステムは、活性ポーズと不活性ポーズとを区別するために１つまたは複数の制約を適用する。このようなポーズは、上述したようなドッカーによって、または別のツールによって生成され得る。リガンドのポーズをその環境で評価して、触媒変換または他の規定された活性がもたらされるようにリガンドの１つまたは複数の特徴がその環境中に配置されるかどうかを決定する。問題となる環境は、典型的には酵素または他の生体分子の活性部位である。

基質または他のリガンドが生体分子の活性部位に結合すると仮定する場合、訪ねるべき質問は、それが「活性な」方式で結合するのかどうかということである。典型的なドッキングプログラムは、リガンドが活性部位に結合するか否かを答えることはできるが、リガンドが「活性な」方式で結合するかどうかに答えることはない。

ある特定の実施形態では、活性は、ドッカーまたは他のツールによって生成された１つまたは複数のポーズを検討することによって決定される。各ポーズを評価して、それが目的の活性（例えば、「所望の活性」）に関連する制約を満たすのかどうかを決定する。活性ポーズは、リガンドが触媒変換を受けるか、または結合部位との共有結合などの何らかの所望の役割を果たす可能性が高いポーズである。

基質の触媒転換を活性として考慮するとき、仮想タンパク質スクリーニングシステムは、特定の反応に関連していることが分かっているポーズを識別するように構成してもよい。一部の実施形態では、これは、基質自体ではなく、反応中間体または遷移状態を考慮する。転換に加えて、ポーズを、他のタイプの活性、例えば、鏡像異性体の立体選択的合成、薬物発見に重要であると識別された標的生体分子の受容体への結合、生成物の位置選択的な変換などに関して評価してもよい。一部の場合には、活性は、非可逆性または可逆性共有結合であり、例えば、標的化共有結合阻害（ＴＣＩ）などである。

制約は、直接的に、手動で、自動的に、経験的に、および／またはこれまでに公知の情報に基づいて決定されてもよい。１つのアプローチにおいて、研究者は、野生型タンパク質に関する活性部位および天然基質を評価する。これは、野生型タンパク質は、生来その天然基質のために進化していることが分かっており、したがって最適な触媒定数（ｋ_ｃａｔ）を有するためである。一部の場合には、野生型タンパク質および天然基質または中間複合体の結晶構造がすでに解析されている。次いで、構造分析に基づき、制約をセットアップすることができる。これは、制約を決定するための「直接的なアプローチ」と称される。このような結晶構造が利用できない場合には、評価は、例えばドッキングプログラムを用いて行なわれてもよい。プログラムを使用して、研究者は、野生型タンパク質における天然基質の触媒変換に関連する制約を識別する。これは、制約を決定するための手動的または実験的アプローチと称される。別のアプローチにおいて、制約は、量子力学計算を使用して決定される。例えば、研究者は、量子力学を使用して、触媒性残基（例えば、Ｔｙｒ）の官能基および／またはコファクター（例えば、ＮＡＤＨＰ）の存在下で基質または中間体または遷移状態を最適化して、それらの状況と類似するように制約を設定することができる。このアプローチは、時には自動的または非経験的アプローチと称される。このアプローチを使用する市販のツールの例は、ｗｗｗ｜．｜Ｇａｕｓｓｉａｎ．ｃｏｍより入手可能なＧａｕｓｓｉａｎである。

制約は、様々な形態を取り入れることができる。ある特定の実施形態では、一部または全部のこれらの制約は、３次元空間においてリガンドのポーズ中の１つまたは複数の原子の相対的な位置を特定する幾何学的な制約である。一部の実施形態では、空間は、活性部位における原子の位置に対して規定されていてもよい。

「幾何学的な制約」は、２またはそれより多くの参加部分または他の化学要素の幾何学的配置を評価する制約である。ある特定の実施形態では、参加物の１つは、リガンド上の部分または他の化学種である。一部の実施形態では、他の参加物は、生体分子の活性部位の部分または他の化学的特徴である。活性部位の部分または他の化学的特徴は、生体分子の活性部位における残基（例えば、アミノ酸残基の側鎖）、コファクターにおける特徴または典型的には活性部位および／もしくは触媒作用に関連する他の化合物などに関連していてもよい。一例として、ケトレダクターゼタンパク質によるケトンの還元において、基質のカルボニル基は、幾何学的な制約における１つの参加物であってもよく、酵素活性部位のチロシン部分は、幾何学的な制約における第２の参加物であってもよい。

一般的に、幾何学的な制約は、一方ではリガンドに関して作成されるが、他方では結合環境の１つまたは複数の特徴に関して作成される。一部の実施形態では、環境は、ペプチド骨格（または側鎖）の残基位置および／またはコファクターあるいは活性部位に通常存在する他の非骨格材料を含み得る。

幾何学的な制約における参加物の幾何学的配置は、部分間の距離、部分間の角度、部分間のねじれ関係などに対して規定され得る。時には、制約は、活性を特徴付けるために使用される、複数の基礎となる幾何学的な制約を含む。例えば、基質の位置に対する制約は、２つまたはそれより多くの原子対間の距離によって規定され得る。図１に例を示す。ねじれ関係の場合には、基質および活性部位環境の特徴が共通の回転軸を有する名目上平行なプレートとみなされる場合に制約は適切であり得る。これらのプレートの軸周りの相対的な角度位置は、ねじれの制約を規定する。

図１は、活性ポーズを識別するための幾何学的な制約を識別するために採用することができるワークフローの例を表す。表されたワークフローでは、野生型酵素がケトンレダクターゼであり、天然基質がアセトフェノンであると仮定される。図１の左上隅に表されるように、天然の反応は、アセトフェノンを、立体選択的な触媒作用により対応するアルコールに転換する。この反応は、ケトン基質のアセチル炭素にキラル中心を導入する。野生型ケトンレダクターゼは、Ｒ鏡像異性体のみが生成されるように転換を制御する。この反応は、コファクターとしてのＮＡＤＰＨの存在下で達成される。この反応は、図１の左上隅で模式的に表される。

図１の右上隅に、触媒作用および選択性の機構が表される。この機構は、活性ポーズと不活性ポーズとを区別するために使用される幾何学的な制約を規定するときに検討される。プロセスの一部として、研究者または自動システムは、アセトフェノン基質の配向を、野生型ケトンレダクターゼにおけるその触媒環境に対して決定する。一般的に、関連する環境は、触媒変換が起こるときに存在する周辺の残基、コファクターなどを含む。

表された例において、野生型ケトンレダクターゼにおける活性部位環境の関連する特徴は、（１）野生型酵素の骨格のチロシン残基および（２）コファクターであるＮＡＤＰＨにおける原子の位置である。活性ポーズにおける基質の他の関連する環境の特徴は、活性部位内のサブポケットである。これらは、図１には示されていない。サブポケットの１つはアセトフェノン基質のフェニル基を収容し、別のサブポケットはアセトフェノンのメチル基を収容する。これらのサブポケットが一緒になって、反応の立体特異性を決定付ける配向に基質を保持する。一部の実施形態では、上記の情報は、野生型ケトンレダクターゼと天然アセトフェノン基質との複合体の結晶構造の構造分析に基づき集められる。したがって、幾何学的な制約を直接規定することができる。

ケトレダクターゼの触媒機構は、表された配置（図１の右上隅）で示された矢印の順番によって表される。具体的には、ＮＡＤＰＨは、アセトフェノンのカルボニル炭素とカップリングしているヒドリドイオンを介して電子を供与する。同時に、アセトフェノンのカルボニル酸素からの電子対はチロシン残基のプロトンに供与され、チロシンのヒドロキシル酸素からの電子対は、ＮＡＤＰ（Ｈ）のリボース部分のプロトンに供与され、そこで基質の対応するアルコールへの転換が完了する。述べたように、この反応は、１つのより大きいサブポケット中に基質のフェニル基が保持され、それより小さい下位のサブポケット中にそのメチル基が保持され、チロシンのヒドロキシル基にごく近接してそのケトン基が保持されている間に進行する。

図１にさらに示されるように、野生型ケトンレダクターゼは、本明細書で「所望の基質」と称される異なる基質の転換を立体特異的に触媒するバリアントケトンレダクターゼに進化させられる。図１の中央に表されるように、所望の反応は、メチルｔｅｒｔ−ブチルケトンの対応するアルコールのＳ鏡像異性体（１ｔｅｒｔ−ブチルエチルアルコール）への転換である。この反応は、転換に最適化されたバリアント酵素の活性部位でコファクターＮＡＤＰＨと共に触媒されると推測される。

反応が所望の立体特異性で展開することを確認するために、１つまたは複数の制約が決定されるべきである。天然基質は、野生型ケトンレダクターゼによってＲ鏡像異性体に転換され、所望の基質は、バリアントによってＳ鏡像異性体に転換されることに留意されたい。それゆえに、所望の基質のｔｅｒｔ−ブチル基が、天然のアセトフェノン基質のメチル基を通常収容するサブポケット中に配置され、所望の基質のメチル基が、天然基質のフェニル基を収容するサブポケット中に配置されることを検討することができる。

これを念頭に置き、位置の制約のセットは、図１の左下隅に表されたように規定されてもよい。そこで示したように、最大の転換（ｋ_ｃａｔ）を得るために、結晶構造におけるＷＴ酵素の活性部位に天然基質が存在するときのように、天然基質の３次元位置に関連して様々な制約が規定される。言い換えれば、図１の右上隅における図表に関して決定されるように、触媒による転換を決定付けるカルボニル炭素およびカルボニル酸素、ならびに立体選択性決定するカルボニル炭素に隣接する２つの炭素のいずれかなどの天然基質の主要な官能基の配向は、Ｘ、Ｙ、Ｚ座標に変換される。全てのバリアントのホモロジーモデルは鋳型としてＷＴの構造を使用して構築されたので、Ｘ、Ｙ、Ｚ座標は、バリアントに移行可能である。この参照のフレームを用いて、所望の基質の主要な官能基（Ｃ_１（Ｃ_２）Ｃ＝Ｏ）の位置は、触媒性チロシン残基およびＮＡＤＰＨコファクターに対して最適な配向で存在すると予測される天然基質の対応する４個の原子の位置と比較することができる。注目すべきことに、触媒作用（例えば、チロシン）に関する残基およびコファクター（ＮＡＤＰＨ）結合に関する残基は全てのバリアントで保存されており、このチロシンおよびＮＡＤＰＨについては、全てのバリアントにおいてわずかな立体配座または位置の変化しか予測されない。これを念頭に置いて、図１の左下隅に表された位置の制約は、所望の基質のカルボニル炭素原子、カルボニル酸素原子、および中央のｔｅｒｔ−ブチル原子の、それに対応する天然基質のカルボニル炭素原子、カルボニル酸素原子、およびメチル炭素原子の位置に対する位置の範囲を特定する。所望の基質の原子と天然基質の対応する原子との位置的な差の範囲は、距離ｄ１、ｄ２、およびｄ３によって表される。一例として、これらの距離のそれぞれは、所望の基質のポーズが活性ポーズとみなされるためには、１オングストロームまたはそれ超もしくはそれ未満であることが必要な場合がある。制約の値は通常、バリアント中の触媒性チロシンおよびコファクターのわずかなコンホメーション変化を反映する一定のフレキシビリティーを可能とする範囲になるように設定される。一部の実施において、これらの距離に関する基準は、機械学習アルゴリズムによって改良される。

上記の例において、所望の基質の３つの関連する原子の位置は、天然基質の原子の位置に近い。上記の位置の制約を満たすポーズにおいて所望の基質とドッキングされたケトレダクターゼバリアントは、触媒活性でありＳ選択的であることが期待される。

一般的に、仮想タンパク質スクリーニングシステムは、様々なタイプのいずれの幾何学的な制約も適用することができる。一部の実施において、上記システムは、参加物間の絶対距離を適用する。例えば、基質カルボニル基中の酸素原子と活性部位のチロシン基の原子との間の距離が、制約として特定されてもよい（例えば、これらの原子間の距離は、２Å±０．５Åでなければならない）。別の例において、カルボニル基中の炭素原子と酸素原子との間の軸によって規定される１本の線と、活性部位中のフェニル基の軸に沿った別の線との間の角度は、１２０°±２０°である。

図１の右下は、それぞれ、結合ポケット内の所望の基質の１つまたは複数の原子と、酵素またはコファクター（または他のエンティティ）の１つまたは複数の原子との間で規定された、幾何学的な制約のタイプの例を表す。距離の制約は、基質における原子と、活性部位残基、コファクターなどにおける原子との間の距離として規定される。角度の制約は、基質およびその環境において規定された２本またはそれより多くの軸間の角度の関係によってポーズに関して規定される。軸は、共有結合、基質の原子と結合ポケット中の部分との間の線などであり得る。例えば、角度は、基質における２つの原子間で規定された１本の軸と、残基における原子および基質における原子の分離線として規定された別の軸との間で規定されていてもよい。一部の他の実施形態では、１つの軸は、残基側鎖における２つの原子間で規定され、別の軸は、基質における原子と残基における原子との分離線によって規定される。追加のタイプの幾何学的な制約は、図１の右下隅に表される。このタイプの制約は、「ねじれの制約」と称され、結合ポケット中の２つの別個のエンティティ（それらの１つは、典型的には基質の全部または一部である）が共通の回転軸を有すると仮定される。ねじれの制約は、一方のエンティティの、共通の回転軸周りの他方に対する角度位置の範囲によって規定され得る。

一般的に、幾何学的な制約は、結合ポケット内における基質部分のいくつかの事前設定された幾何学的位置または配向に対して適用されてもよい。このような位置または配向は、例えば、結合ポケット中の天然基質における活性な部分の代表的な位置によって特定することができる。一例として、検討中の基質のカルボニル基の炭素および酸素原子は、結合ポケット中の天然基質におけるカルボニル基の炭素および酸素原子の位置から１Å以内になければならない。図１の左下隅に示される位置の制約を参照されたい。図１の左下隅における位置の制約が、所望の基質と天然基質との間に存在していることに留意されたい。しかしながら、位置の制約は、図１の下の中央および右隅における幾何学的な制約に対応する所望の基質と酵素バリアントとの関係に変換することができる。

幾何学的な制約を直接的に、手動で、またはコンピューターシステムを使用して自動的に決定することに加えて、スクリーニング結果により制約を改良することもできる。例えば、所望の反応に関して、実験室でのスクリーニングにより、１つまたは１つより多くのバリアントが活性であると識別され、一方でそれ以外のいくつかが不活性であると識別される場合、それらのポーズをさらに分析してもよく、制約を訓練してもよい。

図１に表された例は所望の基質として比較的小さく単純な分子（メチルｔｅｒｔ−ブチルケトン）を使用しているが、指向進化の試みにおいてそれよりもはるかに大きくより複雑な基質がしばしば評価される。

図２は、一部の実施における候補生体分子の潜在的な活性を分析するためのワークフローを示す。多くの様々な活性が検討され得るが、この実施形態では重要視される活性は、基質の触媒的変換である。変換は、エナンチオ選択的または位置選択的であり得る。このような場合には、バリアントは、酵素である。この図の説明において、用語「基質」が使用される場合、その概念は、反応生成物への基質の触媒的変換における律速段階において重要な反応中間体または遷移状態などの関連リガンドにも及ぶ。

図２で示されたように、基質の活性ポーズと不活性ポーズとを区別するために制約を識別することにより、プロセスが始まる。ブロック２０１を参照されたい。一部の場合には、制約は、ドッキングによって識別される。このようなプロセスにおいて、研究者は、基質または反応中間体または遷移状態と酵素の活性部位との相互作用を検討に入れる。プロセスにおいて、研究者は、所望の活性（例えば、基質の立体特異的な触媒的変換）をもたらす制約を識別する。研究者は、酵素および関連する基質、中間体、または遷移状態の表示を提供する構造解析、ドッキングプログラムおよび／または量子力学計算の助けによってこれを行ってもよい。ドッカーを用いてなされるドッキングは、時には「実験的な」ドッキングアプローチと称され、量子力学ツールを用いてなされる最適化は、時には「非経験的」アプローチと称される。一部の実施形態では、ドッキングは、野生型酵素および天然基質、中間体、または遷移状態を用いて実施される。ブロック２０１を参照されたい。上記で説明したように、一部の制約は、図１の左下隅で示されるような、所望の基質中の部分と天然基質または関連するコファクター中の部分との相対的な位置を表示する幾何学的な制約である。一部の実施において、制約は、所望の基質と酵素バリアントとの関係として規定することができ、例えば図１の下の中央および右隅に示される幾何学的な制約である。

一部の場合には、活性ポーズに関する制約は、野生型酵素中の天然基質をドッキングすること以外の技術によって識別することもできる。例えば、触媒反応に関連する部分を識別し、量子力学および分子動力学ツールを使用して識別された部分間の関係を規定することも可能である。

図２に示されるプロセスに戻れば、仮想タンパク質スクリーニングシステムは、活性に関して検討しようとする複数のバリアント生体分子のそれぞれに関する構造モデルを生成するかまたはそれを受け取る。ブロック２０３を参照されたい。説明したように、構造モデルは、活性部位または酵素バリアントの他の態様のコンピューターにより生成された３次元表示である。これらのモデルを、その後のデータベースまたは他のデータリポジトリでの使用のために保存することができる。一部の場合には、モデルの少なくとも１つは、ワークフローで使用するために生成される。一部の場合には、モデルの少なくとも１つが事前に生成されたが、この場合には、プロセスは単にこのようなモデルを受け取る。

複数のモデルは、それぞれ異なる生体分子の配列のためのものであり、図２に示されるプロセスで使用される。これは、ドッキングプログラムを利用する従来のワークフローとは対照的であるはずである。従来のワークフローは、単一の標的または配列に焦点を当てている。一部の場合には、従来のワークフローは受容体の複数の事例を検討するが、これらは同じ配列に基づく。事例のそれぞれは、ＮＭＲまたは分子動力学シミュレーションから生成される異なる３次元座標を有する。

図２のプロセスで使用される構造モデルは、活性部位または酵素配列中の何らかの他の位置に関連する位置における、１つまたは複数のアミノ酸残基のモデルにおける挿入、欠失、または置き換えにより互いに異なっていてもよい。構造モデルは、様々な技術によって生成され得る。一実施形態では、それらはホモロジーモデリングによって生成される。

所定位置における活性の制約および構造モデルを用いて、仮想タンパク質スクリーニングシステムは、検討のために選択されたバリアントに反復適用される。反復適用の制御は、ブロック２０５によって例示されており、これは、検討する次のバリアント酵素が分析のために選択されていることを示す。このオペレーションおよび図２の残りのオペレーションは、ソフトウェアまたはデジタル論理によって実施されてもよい。

現在検討中のバリアント酵素に関して、仮想タンパク質スクリーニングシステムはまず、所望の基質をバリアントの活性部位にドッキングすることを試みる。ブロック２０７を参照。このプロセスは、従来のドッキング手順に対応していてもよい。それゆえに、基質がバリアント中の活性部位とドッキングできるか否かを決定するためにドッカーが利用される場合がある。この決定は、ブロック２０９に示される。所望の基質は、時には、制約を生成するために使用された可能性がある天然基質と異なることに留意されたい。

仮想タンパク質スクリーニングシステムが、ドッキングが成功する可能性が低いと決定する場合、プロセス制御はブロック２２０に方向付けられ、そこでシステムは、検討すべきそれ以上のバリアントがあるかどうかを決定する。検討すべきさらなるバリアントがない場合、提示されているように任意選択のオペレーション２２３でプロセスは完了する。一方で、検討されるべき１つまたは複数のバリアントが残っている場合、プロセス制御は、プロセスステップ２０５に戻るよう方向付けられ、そこで検討のための次のバリアントが選択される。次いでこのバリアントは、ブロック２０７および２０９に関して上述したように、検討中の基質をドッキングするその能力に関して評価される。

検討中のバリアントが基質とうまくドッキングすることができることが判明した場合、プロセス制御は、アルゴリズムの一部に方向付けられ、そこで複数のポーズが検討され、それぞれ活性に関して評価される。後述するように、この分析は、ブロック２１１、２１３、２１５、および２１７によって表される。

示したように、プロセスは複数の利用可能なポーズにわたり反復適用される。様々な実施形態では、ドッカーは、ポーズの選択を助ける。説明したように、ドッカーは、活性部位において非常に多くの基質のポーズを生成することができる。またドッカーは、例えばドッキングスコア、エネルギーに関する検討などの１つまたは複数の基準に基づいてもポーズをランク付けすることができる。他所で説明したように、全エネルギーおよび／または相互作用エネルギーが検討されてもよい。どのようにポーズが生成および／またはランク付けされるかに関係なく、ワークフローは、特定の数のポーズを検討するように設計されていてもよい。検討しようとするポーズの数は、任意に設定することができる。一実施形態では、少なくとも上位の約１０のポーズが検討される。別の実施形態では、少なくとも約２０のポーズが検討されるか、または少なくとも約５０のポーズ、もしくは少なくとも約１００のポーズが検討される。しかしながら、本発明がポーズの具体的な数に限定されることは意図されない。

ブロック２１１で表されるように、プロセスは、分析のために次のポーズを選択する。次いで現在選択されているポーズは、ブロック２０１で識別された制約に対して評価されて、そのポーズが活性ポーズであるかどうかが決定される。説明したように、このような制約は、基質が所望の触媒的変換を受ける可能性が高いように、基質の１つまたは複数の部分が活性部位内に位置するかどうかを決定する幾何学的な制約であってもよい。

ブロック２１３で行われる評価が、現在のポーズが活性ポーズではないことを提示する場合、仮想タンパク質スクリーニングシステムは、次に、検討中の現在のバリアントのために検討すべきそれ以上のいずれかのポーズがあるかどうかを決定する。ブロック２１５を参照。検討すべきさらなるポーズがあると仮定すると、プロセス制御は、ブロック２１１に戻るよう方向付けられ、そこで次のポーズが検討される。

仮想タンパク質スクリーニングシステムが、ブロック２１３で検討中のポーズが活性であると決定すると仮定すると、このポーズはその後の検討のために記録される。ブロック２１７を参照。一部の実施形態では、仮想タンパク質スクリーニングシステムは、現在検討中のバリアントに関する活性ポーズの数のランニングタリー（ｒｕｎｎｉｎｇｔａｌｌｙ）を維持してもよい。

現在のポーズが活性であることを適切に記録した後、プロセス制御は、ブロック２１５に方向付けられ、そこで仮想タンパク質スクリーニングシステムは、検討すべきそれ以上のポーズがあるかどうかを決定する。検討中のバリアントに関して全ての利用可能なポーズの検討を繰り返した後、仮想タンパク質スクリーニングシステムは、検討すべきさらなるポーズがないと決定し、プロセス制御は、現在のバリアントの可能性がある活性を特徴付けるブロック２１８に方向付けられる。特徴付けは、これらに限定されないが、検討中のバリアントに関する活性ポーズの数および関連するドッキングスコア、ならびに本明細書で説明されるような他の検討などの様々な技術によって行うことができる。ブロック２１８のオペレーションが完了した後、プロセス制御は、検討すべきそれ以上のいずれかのバリアントがあるかどうかを決定する決定オペレーション２２０に方向付けられる。検討すべき追加のバリアントがある場合、プロセス制御は、ブロック２０５に戻され、そこでワークフローは上述したように継続される。

ワークフローで全てのバリアントを検討した後、仮想タンパク質スクリーニングシステムは、１つまたは複数の基準、例えばバリアントが有する活性ポーズの数、活性ポーズの１つまたは複数のドッキングスコア、および／または活性ポーズの１つまたは複数の結合エネルギーに基づき、それらをランク付けしてもよい。ブロック２２３を参照。活性ポーズとして識別されたポーズ（ブロック２１７）のみが、ブロック２２３のランク付けを実施して評価する必要がある。この方式において、ワークフロー中のオペレーションは、活性ポーズから不活性ポーズをフィルタリングして、バリアントのランク付けに関連するコンピューターの労力を節約するために役立つ。図２では示されないが、バリアントは、それらのランク付けに基づきさらなる調査のために選択されてもよい。

ある特定の実施形態では、バリアントの各活性ポーズのエネルギー特性を評価するために、結合エネルギーを算出するためのプロトコルが実行される。一部の実施では、このプロトコルは、ファンデルワールス力、静電相互作用、および溶媒和エネルギーを考慮し得る。溶媒和は、典型的には、ドッカーによって実施される算出において考慮されない。様々な溶媒和モデルが結合エネルギーを算出するために利用可能であり、これらとしては、それだけに限らないが、距離依存性誘電体、ペアワイズ加算を用いた一般化ボルン（ＧｅｎＢｏｒｎ）、インプリシットメンブレン（ＩｍｐｌｉｃｉｔＭｅｍｂｒａｎｅ）を用いた一般化ボルン（ＧＢＩＭ）、分子体積統合（ＭｏｌｅｃｕｌａｒＶｏｌｕｍｅｉｎｔｅｇｒａｔｉｏｎ）を用いた一般化ボルン（ＧＢＭＶ）、単純スイッチング（ｓｉｍｐｌｅｓｗｉｔｃｈｉｎｇ）を用いた一般化ボルン（ＧＢＳＷ）、および非極性表面積（ＰＢＳＡ）を用いたポアソン−ボルツマン方程式がある。結合エネルギーを算出するためのプロトコルは、ドッカープログラムと異なり、またはそれと別個である。これらは一般に、これらの算出において溶媒和効果を含めることに部分的に起因して、ドッキングスコアより正確である結果を生じさせる。様々な実施では、結合エネルギーは、活性であると見なされているポーズについてのみ算出される。
Ａ．それぞれ活性部位を含有する複数の生体分子のモデルの生成

コンピューターシステムは、複数のタンパク質バリアントについての３次元モデルを提供することができる。３次元モデルは、タンパク質バリアントの全長配列の一部またはすべての計算上の表示である。典型的には最低でも、計算表示は、少なくともタンパク質バリアントの活性部位をカバーする。

一部の場合には、３次元モデルは、適切に設計されたコンピューターシステムを使用して調製されるホモロジーモデルである。３次元モデルは、タンパク質バリアントがこれらのアミノ酸配列において相違する構造鋳型を使用する。一般に、構造鋳型は、モデル配列に相同である配列についてＸ線結晶構造解析法またはＮＭＲによって以前に解析された構造である。ホモロジーモデルの品質は、構造鋳型の配列アイデンティティーおよび分解能に依存する。ある特定の実施形態では、３次元モデルは、現在または将来のプロジェクトに必要な場合に使用するためにデータベース中に記憶され得る。

タンパク質バリアントの３次元モデルは、ホモロジーモデリング以外の技法によって生成され得る。一例は、タンパク質スレッディングであり、これも構造鋳型を必要とする。別の例は、構造鋳型を必要とせず、根本的な物理的原理に基づくａｂｉｎｉｔｉｏまたはｄｅｎｏｖｏタンパク質モデリングである。ａｂｉｎｉｔｉｏ技法の例としては、分子動力学シミュレーションおよびＲｏｓｅｔｔａソフトウェアスイートを使用するシミュレーションがある。

一部の実施形態では、タンパク質バリアントは、これらの活性部位において互いに異なる。一部の場合では、活性部位は、活性部位のアミノ酸配列中の少なくとも１つの変異によって互いに異なる。変異は、野生型タンパク質配列または一部の他の参照タンパク質配列において行われ得る。一部の場合では、タンパク質バリアントの２つまたはそれより多くは、活性部位について同じアミノ酸配列を共有するが、タンパク質の別の領域のアミノ酸配列が異なる。一部の場合では、２つのタンパク質バリアントは、少なくとも約２つのアミノ酸、または少なくとも約３つのアミノ酸、または少なくとも約４つのアミノ酸だけ互いに異なる。しかし、本発明がタンパク質バリアント間のアミノ酸差異の具体的な数に限定されることは意図されていない。

ある特定の実施形態では、複数のバリアントは、指向進化の１つまたは複数のラウンドによって生成されるライブラリーのメンバーを含む。指向進化で使用される多様性生成技法としては、遺伝子シャフリング、変異誘発、組換えなどがある。指向進化技法の例は、その全体が参照により本明細書に組み込まれている米国特許出願公開第２００６／０２２３１４３号に記載されている。

一部の実施されるプロセスにおいて、複数のバリアントは、少なくとも約１０の異なるバリアント、または少なくとも約１００の異なるバリアント、または少なくとも約１０００の異なるバリアントを含む。しかしながら、本発明がタンパク質バリアントの具体的な数に限定されることは意図されない。
Ｂ．複数の異なるタンパク質バリアントにおけるリガンドの評価

本明細書に説明するように、ドッキングは、リガンドの計算上の表示および生成された複数のバリアントの活性部位の計算上の表示を使用する適切にプログラムされたコンピューターシステムによって行われる。

一例として、ドッカーは、以下のオペレーションの一部またはすべてを実施するように構成され得る：
１．ランダムな種を用いた高温分子動力学を使用して一組のリガンドコンホメーションを生成する。ドッカーは、リガンドの環境を考慮することなくこのようなコンホメーションを生成し得る。したがって、ドッカーは、内部歪みまたはリガンドだけに特異的な他の考慮事項のみを考慮することによって好ましいコンホメーションを識別し得る。生成されるべきコンホメーションの数は、自由裁量で設定することができる。一実施形態では、少なくとも約１０のコンホメーションが生成される。別の実施形態では、少なくとも約２０コンホメーション、または少なくとも約５０コンホメーション、または少なくとも約１００のコンホメーションが生成される。しかし、本発明がコンホメーションの具体的な数に限定されることは意図されていない。
２．リガンドの中心を受容体活性部位内の指定場所に並行移動し、一連結のランダムな回転を実施することによってコンホメーションのランダムな向きを生成する。洗練するための向きの数は、自由裁量で設定することができる。一実施形態では、少なくとも約１０の向きが生成される。別の実施形態では、少なくとも約２０の向き、または少なくとも約５０の向き、または少なくとも約１００の向きが生成される。しかし、本発明が向きのどんな具体的な数にも限定されることは意図されていない。ある特定の実施形態では、ドッカーは、向きとコンホメーションのさらなる組合せを生成するための「柔軟化（ｓｏｆｔｅｎｅｄ）」エネルギーを算出する。ドッカーは、活性部位中のある特定の向きの許容性について物理的に非現実的な仮定を使用して柔軟化エネルギーを算出する。例えば、ドッカーは、リガンド原子および活性部位原子が、パウリ反発および立体的配慮に基づいて不可能である、本質的に同じ空間を占有することができると仮定し得る。この柔軟化された仮定は、例えば、コンホメーション空間を探索するときのレナード−ジョーンズポテンシャルの緩和形式を使用することによって実施することができる。柔軟化エネルギー算出を使用することによって、ドッカーは、物理的に現実的なエネルギー考慮事項を使用して利用可能であるものより、コンホメーションの完全な探索を可能にする。特定の向きにおけるコンホメーションの柔軟化エネルギーが指定された閾値より低い場合、コンホメーション−向きは保たれる。これらの低エネルギーコンホメーションは、「ポーズ」として保持される。ある特定の実施では、このプロセスは、所望の数の低エネルギーポーズが見つかるか、または最大数の悪いポーズが見つかるまで継続する。
３．ステップ２からの各保持されたポーズにシミュレーテッドアニーリング分子動力学を受けさせ、ポーズを洗練する。温度が高い値まで上昇され、次いで標的温度に冷却される。ドッカーは、柔軟化エネルギー算出によって提供されるより物理的に現実的な向きおよび／またはコンホメーションを提供するためにこれを行い得る。
４．非柔軟化ポテンシャルを使用して剛性受容体（ｒｉｇｉｄｒｅｃｅｐｔｏｒ）におけるリガンドの最終的な最小化を実施する。これは、保持されたポーズについてより正確なエネルギー値をもたらす。しかし、この算出は、ポーズのエネルギーについて部分的な情報しかもたらさない場合がある。
５．各最終ポーズについて全エネルギー（（受容体−リガンド相互作用エネルギー）＋（リガンド内部歪み））と相互作用エネルギー単独とを算出する。算出は、ＣＨＡＲＭｍを使用して実施され得る。ポーズは、ＣＨＡＲＭｍエネルギーによって並び替えられ、上位スコアの（最も否定的（ｍｏｓｔｎｅｇａｔｉｖｅ）、したがって結合に好ましい）ポーズが保持される。一部の実施形態では、このステップ（および／またはステップ４）により、エネルギー的に不都合であるポーズが除去される。

以下の参考文献は、ドッカーの機能の一例を提供するものである：Ｗｕら、ＤｅｔａｉｌｅｄＡｎａｌｙｓｉｓｏｆＧｒｉｄ−ＢａｓｅｄＭｏｌｅｃｕｌａｒＤｏｃｋｉｎｇ：ＡＣａｓｅＳｔｕｄｙｏｆＣＤＯＣＫＥＲ − ＡＣＨＡＲＭｍ−ＢａｓｅｄＭＤＤｏｃｋｉｎｇＡｌｇｏｒｉｔｈｍ、Ｊ．ＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍ．、２４巻、１３号、１５４９〜６２頁（２００３年）。これは、その全体が参照により本明細書に組み込まれている。

ドッカー、例えば本明細書で説明されたドッカーは、高性能バリアントを識別するためにスクリーニングシステムによって使用された情報の１つまたは複数のピースを提供することができる。このような情報としては、所望の基質とのドッキングが起こりそうにないバリアントのアイデンティティーが挙げられる。このようなバリアントは、活性などに関して評価する必要はない。ドッカーによって提供される他の情報としては、活性に関して検討することができるポーズのセット（各バリアントにつき１つのセット）が挙げられる。さらに他の情報としては、セット中のポーズのドッキングスコアが挙げられる。
Ｃ．ドッキングされたリガンドのポーズが活性であるかどうかの決定

リガンドとうまくドッキングするタンパク質バリアントに関して、仮想タンパク質スクリーニングシステムは以下のオペレーション：（ｉ）検討中のタンパク質バリアントの活性部位におけるリガンドの計算上の表示の複数のポーズを検討すること、および（ｉｉ）存在する場合、複数のポーズのどれが活性であるかを決定することを行う。

活性ポーズは、リガンドが規定された条件下で（自由裁量の結合条件ではなく）結合するための１つまたは複数の制約を満たすポーズである。リガンドが基質であり、タンパク質が酵素である場合、活性な結合は、基質が触媒による化学変換、特に立体特異的変換を起こすことを可能にする結合であり得る。一部の実施では、制約は、リガンド中の１つもしくは複数の原子ならびにタンパク質および／またはタンパク質に会合したコファクター中の１つもしくは複数の原子の相対的な位置の範囲を規定する幾何学的な制約である。

一部の場合には、制約は、天然の基質および／または後続の中間体であって、それが野生型酵素によって触媒による化学変換を受けるときの中間体の１つまたは複数のコンホメーションから識別される。ある特定の実施形態では、制約としては、（ｉ）基質および／もしくは後続の中間体上の特定の部分と活性部位中の特定の残基もしくは残基部分との間の距離、（ｉｉ）基質および／もしくは後続の中間体上の特定の部分と活性部位中の特定のコファクターとの間の距離、ならびに／または（ｉｉｉ）基質および／もしくは後続の中間体上の特定の部分と活性部位中の理想的に位置された天然の基質および／もしくは後続の中間体上の特定の部分との間の距離がある。ある特定の実施形態では、制約は、化学結合間の角度、軸周りのねじれ、または化学結合における歪みを含み得る。

基質および／または後続の中間体の計算上の表示の複数のポーズは、検討中のタンパク質バリアントの計算上の表示に関して生成され得る。複数のポーズは、様々な技法によって生成され得る。このような技法の一般的な例として、回転可能な結合についての系統的または確率論的ねじりサーチ、分子動力学シミュレーション、および低エネルギーコンホメーションを場所特定するように設計された遺伝的アルゴリズムがある。一例では、ポーズは、高温分子動力学を使用して生成され、その後、ランダム回転、グリッド−ベースシミュレーテッドアニーリングによる洗練、ならびに最終的なグリッドベースもしくは力場最小化が行われて、計算上の表示の活性部位中の基質および／もしくは後続の中間体のコンホメーションおよび／もしくは配向を生成する。これらのオペレーションのいくつか、例えば、グリッド−ベースシミュレーテッドアニーリングによる洗練、およびグリッド−ベースまたは力場最小化は任意選択である。

ある特定の実施形態では、考慮されるポーズの数は、少なくとも約１０、または少なくとも約２０、または少なくとも約５０、または少なくとも約１００、または少なくとも約２００、または少なくとも約５００である。しかし、本発明が考慮されるポーズの具体的な数に限定されることは意図されていない。

プロジェクトが成功した場合、バリアントの少なくとも１つは、活性でありエネルギー的に好ましい１つまたは複数のポーズを有すると決定される。ある特定の実施形態では、さらなる検討のために選択されたバリアントは、他のバリアントとの比較において多数の活性なコンホメーションを有すると決定されたバリアントである。ある特定の実施形態では、バリアントは、それらが有する活性ポーズの数、活性ポーズに関する１つまたは複数のドッキングスコア、および／または活性ポーズに関する１つまたは複数の結合エネルギーに基づきバリアントをランク付けすることによって選択される。例として、検討される可能性があるドッキングスコアのタイプとしては、ファンデルワールス力および／または静電相互作用に基づくスコアが挙げられる。例として、検討される可能性がある結合エネルギーのタイプとしては、ファンデルワールス力、静電相互作用、および溶媒和エネルギーが挙げられる。

１つまたは複数の活性ポーズを支持するように決定されたタンパク質バリアントは、さらなる調査、合成、生成などのために選択されてもよい。一例において、選択されたタンパク質バリアントは、１または複数のラウンドの指向進化を導入するために使用される。一例として、１ラウンドの指向進化は、（ｉ）選択されたタンパク質バリアントの少なくとも一部を含有するかまたはコードする複数のオリゴヌクレオチドを調製するステップと、（ｉｉ）複数のオリゴヌクレオチドを使用して１ラウンドの指向進化を実施するステップとを含み得る。オリゴヌクレオチドは、これらに限定されないが、選択されたタンパク質バリアントの一部または全部をコードする核酸の遺伝子合成、断片化などの任意の適当な手段によって調製されてもよい。ある特定の実施形態では、指向進化のラウンドは、複数のオリゴヌクレオチドを断片化して組み換えるステップを含む。ある特定の実施形態では、指向進化のラウンドは、複数のオリゴヌクレオチドに飽和変異誘発を実施するステップを含む。

制約を使用してスクリーニングされ得る触媒された化学変換としては、これらに限定されないが、例えば、ケトンの還元、アミノ基転移反応、酸化、ニトリルの加水分解、イミンの還元、エノンの還元、アシル加水分解、およびハロヒドリンの脱ハロゲン化が挙げられる。制約を使用して評価される複数のバリアントを提供することができる酵素クラスの例としては、これらに限定されないが、ケトンレダクターゼ、トランスアミナーゼ、シトクロムＰ４５０、バイヤー−ビリガーモノオキシゲナーゼ、モノアミンオキシダーゼ、ニトリラーゼ、イミンレダクターゼ、エノンレダクターゼ、アシラーゼ、およびハロヒドリンデハロゲナーゼが挙げられる。合理的にリガンドを設計する状況において、標的化された共有結合阻害（ＴＣＩ）の最適化は、制約の使用のためにスクリーニングすることができる活性のタイプである。ＴＣＩ適用の例は、その全体が参照により本明細書に組み込まれているＳｉｎｇｈら、Ｔｈｅｒｅｓｕｒｇｅｎｃｅｏｆｃｏｖａｌｅｎｔｄｒｕｇｓ、ＮａｔｕｒｅＲｅｖｉｅｗｓＤｒｕｇＤｉｓｃｏｖｅｒｙ、１０巻、３０７〜３１７頁（２０１１年）で説明されている。一部の実施において、ＴＣＩ活性は、タンパク質中の求核性アミノ酸（例えば、システイン）を識別することによって見出される。本明細書に記載されるプロセスは、阻害しようとする生体分子と反応することができる、阻害に重要な求電子性部分の理想的な配向を規定する制約を満たす阻害剤（推定上の阻害剤）の識別を助けることができる。
ＩＩＩ．酵素を設計するための仮想タンパク質スクリーニングシステムの使用

一部の実施形態は、仮想タンパク質スクリーニングシステムを使用して酵素を仮想でモデリングし、スクリーニングして、それによって所望の性質、例えば触媒活性および選択性を有する酵素を識別するためのプロセスを提供する。一部の実施形態では、現実の酵素のファミリーを、仮想でモデリングして、最初のバリアントライブラリーとしてスクリーニングすることができる。一部の実施形態は、親のポリペプチドまたは参照配列として最初のライブラリーから仮想スクリーニングによって選択された１つまたは複数の酵素を反復して使用して、ｉｎｓｉｌｉｃｏ、ｉｎｖｉｔｒｏ、またはｉｎｖｉｖｏの技術によって新しいバリアントライブラリーを生成することができる。一部の実施形態では、本明細書に記載されるようなシステムによって高くランク付けされた１つまたは複数の酵素は、親のポリペプチドとして選択される。新しいバリアントライブラリーは、親のポリペプチドの配列とは異なるタンパク質配列を含み、かつ／またはその後のバリエーションを導入するための前駆体として使用することができる。

一部の実施形態では、親のポリペプチドは、指向進化の手順で、タンパク質バリアントの新しいライブラリーを生成するために変異誘発および／または組換えベースの多様性生成機構を実施することによって改変される。一部の実施形態では、親のポリペプチドは、少なくとも１つの置換、挿入、交差、欠失、および／または他の遺伝子操作によって変更される。指向進化は、ポリペプチドに対して直接的に（例えば、ｉｎｓｉｌｉｃｏのプロセスで）、またはポリペプチドをコードする核酸に対して間接的に（例えば、ｉｎｖｉｔｒｏのプロセスで）実施されてもよい。新しいライブラリーを使用して、さらなるスクリーニングおよび指向進化のために新しいホモロジーモデルを生成することができる。

一部の実施形態では、酵素のモデリング、スクリーニング、および進化は、一定の基準を満たす１つまたは複数の酵素に出会うまでｉｎｓｉｌｉｃｏで反復して実施される。例えば、基準は、特定の結合エネルギーまたはスコア、またはそれらの改善であり得る。他の実施形態は、ｉｎｓｉｌｉｃｏの技術と物理的な（例えば、ｉｎｖｉｔｒｏまたはｉｎｖｉｖｏの）技術とを組み合わせてもよい。例えば、ｉｎｖｉｔｒｏのスクリーニングおよびシーケンシングによって誘導された酵素を使用した酵素設計プロセスを開始することが可能である。ｉｎｖｉｔｒｏのシーケンシングは、次世代のシーケンシングによって実施してもよい。次いで、酵素設計プロセスは、指向進化、モデリング、およびさらなるスクリーニングのためにｉｎｓｉｌｉｃｏの方法を使用することができる。本プロセスは、最終的に、生物系で酵素を検証するためにｉｎｖｉｔｒｏおよび／またはｉｎｖｉｖｏの技術を使用することができる。様々な適用のためにｉｎｓｉｌｉｃｏおよび物理的な技術の他の組合せおよび順番が好適である。実際に、本発明が方法のいずれかの具体的な組合せおよび／または順番に限定されることは意図されない。

一部の実施形態では、ポリペプチド配列の調製は、ｉｎｓｉｌｉｃｏで達成される。他の実施形態では、ポリペプチドは、核酸シンセサイザーを使用してオリゴヌクレオチドまたは核酸配列を合成し、ヌクレオチド配列を翻訳して、ポリペプチドを得ることによって生成される。

上述したように、一部の実施形態では、選択された酵素は、タンパク質バリアントの新しいライブラリーを生成するために１つまたは複数の組換えベースの多様性生成機構を実施することによって改変されてもよい。このような組換え機構としては、これらに限定されないが、例えば、シャッフリング、鋳型切り換え、オーバーラップ伸長による遺伝子スプライシング、エラープローンＰＣＲ、残基の半合成コンビナトリアルライブラリー、繰り返し配列組換え（「ＲＳＲ」）（例えば、その全体が参照により本明細書に組み込まれている米国特許出願公開第２００６／０２２３１４３号を参照）が挙げられる。一部の実施形態では、これらの組換え機構の一部は、ｉｎｖｉｔｒｏで実施されてもよい。一部の実施形態では、これらの組換え機構の一部は、生物学的機構を模擬するためにコンピューターによりｉｎｓｉｌｉｃｏで実施されてもよい。

一部の実施形態は、タンパク質配列中の１つまたは複数の位置を選択すること、およびそのようにして選択された１つまたは複数の位置における、部位特異的変異方法、例えば飽和変異誘発を実行することを含む。一部の実施形態では、位置は、本文書中の他所で論じられたように、活性部位の構造および／または触媒反応に関する制約を評価することによって選択される。一部の実施形態では、仮想スクリーニングを配列−活性モデリングと組み合わせることが有用である。これらの実施形態では、指向進化のプロセスは、配列−活性モデルの項の係数を評価し、それによって目的の活性に寄与する残基の１つまたは複数を識別することによって位置を選択することができる。米国特許第７，７８３，４２８号（その全体が参照により本明細書に組み込まれている）は、変異誘発のためのアミノ酸を識別するために使用できる配列活性モデルの例を提供する。

一部の実施形態では、本方法は、生成のための新しいタンパク質バリアントライブラリーのメンバーの１つまたは複数を選択するステップを伴う。次いでこれらのバリアントの１つまたは複数は、合成されてもよいし、および／または発現系で発現されてもよい。具体的な実施形態では、本方法は、以下の方式：（ｉ）新しいタンパク質バリアントライブラリーの選択されたメンバーを発現することができる発現系を提供するステップと、（ｉｉ）新しいタンパク質バリアントライブラリーの選択されたメンバーを発現するステップとにおいて継続される。

図３Ａ〜３Ｃは、本明細書の他所で記載された要素の様々な組合せを実施する、生体分子の配列を設計するためのワークフローの例を示す流れ図である。図３Ａは、複数の開始配列の配列情報を生体分子のパネル、例えば酵素のパネルから受け取るステップで開始されるプロセス３００に関する流れ図を示す。ブロック３０２を参照。次いでプロセスは、仮想タンパク質スクリーニングシステムを使用して現在受け取っている配列の仮想スクリーニングを実施する。ブロック３０４を参照。一部の実施形態では、仮想タンパク質スクリーニングシステムは、開始配列の３次元ホモロジーモデルを作製して、上述したように基質のポーズを検討することによって１つまたは複数の基質をホモロジーモデルとドッキングし、それによって開始配列に関するドッキングスコアを生成することができる。また仮想タンパク質スクリーニングシステムは、ドッキング参加物（酵素および基質）の相互作用エネルギーおよび内部エネルギーを計算することもできる。さらに、仮想タンパク質スクリーニングシステムは、ポーズの様々な制約を評価して、ポーズが活性であるかどうか、すなわち基質の触媒的転換を引き起こす可能性の高い方式で基質が酵素と結合するかどうかを決定することができる。さらに、一部の実施形態では、制約の評価はまた、触媒反応の生成物がエナンチオ選択的および／または位置選択的であるかどうかに関する推論も提供する。一部の実施形態では、プロセスは、仮想スクリーニングシステムによって決定された結合エネルギー、活性、および選択性に基づき１つまたは複数の配列を選択する。ブロック３０６を参照。次いでプロセスは、ステップ３０８で選択された配列のさらなる調査を実行することが必要であるかどうかを評価する。必要な場合、この例におけるプロセスは、選択された配列をコンピューターにより変異させる。変異は、上述した様々な多様性生成機構、例えば変異誘発または組換えに基づく。ブロック３１０を参照。次いでコンピューターにより変異させた配列は、仮想タンパク質スクリーニングシステムによる仮想スクリーニングの新しいラウンドに提供される。ブロック３０４を参照。仮想スクリーニングおよび選択は、配列のさらなる調査の必要性がなくなるまで反復適用のために実施されてもよく、このような必要性は、反復適用の具体的な回数および／または所望の活性の特定のレベルなどの事前設定された基準によって決定することができる。その時点で、生体分子（例えば、酵素）を設計するプロセスをステップ３１２において完了させる。

図３Ｂは、酵素などの生体分子の指向進化のためのプロセス３２０に関する流れ図を示し、このプロセスは、３００のプロセスと比較して一部類似しているが一部異なる要素を有する。プロセス３２０は、生体分子（例えば、酵素）の複数の開始配列のｉｎｖｉｔｒｏ合成で開始され、これは、既存の生体分子パネルが利用できない場合に必要であるかまたは有用である可能性がある。ブロック３２２を参照。また合成された配列をアッセイして配列に関するデータを収集してもよく、このデータは、仮想スクリーニングシステムによりデータを得ることができない所望の性質の生体分子を設計するために有用な場合がある。次いでプロセスは、プロセス３００のステップ３０４に類似するブロック３２４に表された仮想タンパク質スクリーニングシステムを使用して合成された配列の仮想スクリーニングを実施する。次いでプロセスは、仮想スクリーニングシステムによって決定された結合エネルギー、活性、および選択性に基づき１つまたは複数の配列を選択する。ブロック３２６を参照。次いでプロセスは、ステップ３２８で選択された配列のさらなる指向進化を実施することが必要かどうかを評価する。必要な場合、この例におけるプロセスは、ｉｎｓｉｌｉｃｏまたはｉｎｖｉｔｒｏで選択された配列を変異させる。変異は、上述した様々な多様性生成機構に基づく。ブロック３３０を参照。次いで変異させた配列は、仮想タンパク質スクリーニングシステムによる仮想スクリーニングの新しいラウンドに提供される。ブロック３２４を参照。仮想スクリーニングおよび選択は、配列のさらなる進化の必要性がなくなるまで反復適用のために実行されてもよく、このような必要性は、反復適用の具体的な回数および／または所望の活性の特定のレベルなどの事前設定された基準によって決定することができる。その時点で、仮想スクリーニングシステムによって選択された配列を合成し、発現させて、現実の酵素を生成する。ブロック３３２を参照。生成された酵素は、仮想スクリーニングプロセスの結果を検証するために使用できる目的の活性についてアッセイすることができる。ブロック３３４を参照。アッセイ後、指向進化プロセスをステップ３３６において終結させる。

図３Ｃは、酵素などの生体分子の指向進化のためのプロセス３４０に関する流れ図を示す。プロセス３４０は、ｉｎｖｉｔｒｏの指向進化で開始して、生体分子（例えば、酵素）の複数の開始配列を誘導する。ブロック３４２を参照。プロセス３２０におけるように、誘導された配列をアッセイして、配列が所望の活性または選択性などの一定の基準を満たすかどうかを決定する。基準を満たす配列は、さらなる開発のためのヒットとして決定される。ブロック３４４を参照。次いでプロセスは、プロセス３００のステップ３０４に類似するブロック３４６に表された仮想タンパク質スクリーニングシステムを使用してヒットの仮想スクリーニングを実施する。一部の実施形態では、プロセスはまた、上述したような仮想スクリーニングシステムによって決定された結合エネルギー、活性、および選択性にも基づいて、１つまたは複数の配列を選択する。次いでプロセスは、ステップ３４８で選択された配列の指向進化のさらなるラウンドを実施することが必要かどうかを評価する。必要な場合、プロセスは、新しい反復適用におけるｉｎｖｉｔｒｏの指向進化のさらなるラウンドのために選択された配列を提供する。ブロック３４２を参照。仮想スクリーニングおよび選択は、配列のさらなる進化の必要性がなくなるまで反復適用のために実施されてもよく、このような必要性は、事前設定された基準によって決定することができる。その時点で、生体分子（例えば、酵素）を設計するプロセスをステップ３５０において終了させる。
ＩＶ．タンパク質バリアントライブラリーの生成

タンパク質バリアントライブラリーは、ライブラリー中のメンバーによって異なる１つまたは複数の残基を有する複数のタンパク質の群を含む。これらのライブラリーは、本明細書に記載の方法および／または当技術分野において公知の任意の適当な手段を使用して生成することができる。様々な実施形態では、これらのライブラリーは、仮想タンパク質スクリーニングシステムのための候補酵素を提供する。一部の実施形態では、ライブラリーは、最初のラウンドではｉｎｓｉｌｉｃｏで提供されスクリーニングされてもよく、その結果として得られた、その後のまたは最後のラウンドから仮想スクリーニングシステムによって選択されたタンパク質は、ｉｎｖｉｔｒｏでシーケンシングおよび／またはスクリーニングされてもよい。スクリーニングの最初のラウンドはｉｎｓｉｌｉｃｏで実施されるため、スクリーニングのための時間およびコストを顕著に低減することができる。タンパク質バリアントライブラリー中に含まれるタンパク質の数は、従来の物理的なスクリーニングと比較して、一部の実施におけるスクリーニングの最初のラウンドで容易に増加させることができる。本開示が、本開示の方法で使用されるタンパク質ライブラリー中のいずれかの特定のタンパク質数に限定されることは意図されない。さらに、本開示が、いずれかの特定のタンパク質バリアントライブラリー（単数または複数）に限定されることも意図されない。

一例において、タンパク質バリアントライブラリーは、一部の実施形態では単一の遺伝子ファミリーによってコードされ得る１つまたは複数の天然に存在するタンパク質、または他の実施形態では酵素のパネルから生成される。他の開始点としては、これらに限定されないが、公知のタンパク質の組換え物および／または新規の合成タンパク質が挙げられる。ライブラリーは、これらの「シード」または「開始」タンパク質から様々な技術によって生成され得る。一例において、ライブラリーは、生物学的または化学的な技術を反映する仮想プロセス、例えば、Ｓｔｅｍｍｅｒ（１９９４年）ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ、ＵＳＡ、１０７４７〜１０７５１頁およびＷＯ９５／２２６２５（両方とも、参照により本明細書に組み込まれている）で説明されているようなＤＮＡ断片化媒介組換え、Ｎｅｓｓら（２００２年）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ２０巻：１２５１〜１２５５頁およびＷＯ００／４２５６１（両方とも、参照により本明細書に組み込まれている）で説明されているような合成オリゴヌクレオチド媒介組換え、または１つまたは複数の親のタンパク質の一部または全部をコードする核酸によって生成される。これらの方法の組合せが使用され得（例えば、ＤＮＡフラグメントおよび合成オリゴヌクレオチドの組換え）、加えて、当技術分野において公知の他の組換えベースの方法、例えば両方とも参照により本明細書に組み込まれているＷＯ９７／２００７８およびＷＯ９８／２７２３０が使用され得る。タンパク質バリアントライブラリーを生成するために使用される任意の適当な方法が、本開示において有用である。実際に、本開示が、バリアントライブラリーを生成するためのいずれかの特定の方法に限定されることは意図されない。

一部の実施形態では、単一の「開始」配列（これは、「祖先」配列であり得る）が、モデリングプロセスで使用される変異の群を規定する目的のために利用され得る。一部の実施形態では、１つより多くの開始配列がある。一部の追加の実施形態では、開始配列の少なくとも１つは、野生型配列である。ある特定の実施形態では、変異は、（ａ）基質特異性、選択性、安定性、および／または他のいずれかの目的の性質に影響を及ぼすものとして、文献において識別され、かつ／または（ｂ）タンパク質のフォールディングパターンの改善（例えば、タンパク質の内部残基をパッキングすること）、リガンドの結合の改善、サブユニットの相互作用の改善、または多種多様な相同体間のファミリーシャッフリング方法の改善などのために、コンピューターにより予測される。本発明が目的の性質または機能のいずれかの具体的な選択に限定されることは意図されない。

一部の実施形態では、変異は、開始配列に仮想的に導入されてもよいし、タンパク質は、有益な性質について仮想スクリーニングされてもよい。部位指向変異誘発は、変異を導入するための有用な技術の一例であるが、任意の適当な方法が利用される。したがって、代替的にまたは付加的に、変異体は、遺伝子合成、飽和ランダム変異誘発、残基の半合成コンビナトリアルライブラリー、指向進化、繰り返し配列組換え（「ＲＳＲ」）（例えば、その全体が参照により本明細書に組み込まれている米国特許出願公開第２００６／０２２３１４３号を参照）、遺伝子シャッフリング、エラープローンＰＣＲ、および／または他の任意の適当な方法によって提供されてもよい。好適な飽和変異誘発手順の一例は、その全体が参照により本明細書に組み込まれている米国特許出願公開第２０１０／００９３５６０号で説明されている。

開始配列は、野生型タンパク質のアミノ酸配列と同一でなくてもよい。しかしながら、一部の実施形態では、開始配列は、野生型タンパク質の配列である。一部の実施形態では、開始配列は、野生型タンパク質に存在しない変異を含む。一部の実施形態では、開始配列は、共通の性質を有するタンパク質の群、例えばタンパク質のファミリーに由来するコンセンサス配列である。

一部の実施形態では、仮想スクリーニングシステムを使用してスクリーニングされ得る触媒された化学変換としては、これらに限定されないが、例えば、ケトンの還元、アミノ基転移反応、酸化、ニトリルの加水分解、イミンの還元、エノンの還元、アシル加水分解、およびハロヒドリンの脱ハロゲン化が挙げられる。評価される複数のバリアントを提供することができる酵素クラスの例としては、これらに限定されないが、ケトンレダクターゼ、トランスアミナーゼ、シトクロムＰ４５０、バイヤー−ビリガーモノオキシゲナーゼ、モノアミンオキシダーゼ、ニトリラーゼ、イミンレダクターゼ、エノンレダクターゼ、アシラーゼ、およびハロヒドリンデハロゲナーゼが挙げられる。

親配列の源として役立ち得る酵素のファミリーまたはクラスの非限定的な代表的な列挙は、これらに限定されないが、オキシドレダクターゼ（Ｅ．Ｃ．１）；トランスフェラーゼ（Ｅ．Ｃ．２）；ヒドロリアーゼ（Ｅ．Ｃ．３）；リアーゼ（Ｅ．Ｃ．４）；イソメラーゼ（Ｅ．Ｃ．５）およびリガーゼ（Ｅ．Ｃ．６）を含む。オキシドレダクターゼのより具体的であるが非限定的なサブグループは、デヒドロゲナーゼ（例えば、アルコールデヒドロゲナーゼ（カルボニルレダクターゼ）、キシルロースレダクターゼ、アルデヒドレダクターゼ、ファルネソールデヒドロゲナーゼ、乳酸デヒドロゲナーゼ、アラビノースデヒドロゲナーゼ、グルコースデヒドロゲナーゼ（ｄｅｈｙｒｏｄｇｅｎａｓｅ）、フルクトースデヒドロゲナーゼ、キシロースレダクターゼおよびコハク酸デヒドロゲナーゼ（ｄｅｈｙｒｏｇｅｎａｓｅ））、オキシダーゼ（例えば、グルコースオキシダーゼ、ヘキソースオキシダーゼ、ガラクトースオキシダーゼおよびラッカーゼ）、モノアミンオキシダーゼ、リポキシゲナーゼ、ペルオキシダーゼ、アルデヒドデヒドロゲナーゼ、レダクターゼ、長鎖アシル−［アシル担体タンパク質］レダクターゼ、アシル−ＣｏＡデヒドロゲナーゼ、エンレダクターゼ、シンターゼ（例えば、グルタミン酸シンターゼ）、硝酸レダクターゼ、モノおよびジオキシゲナーゼ、ならびにカタラーゼを含む。トランスフェラーゼのより具体的であるが非限定的なサブグループは、メチル、アミジノ、およびカルボキシルトランスフェラーゼ、トランスケトラーゼ、トランスアルドラーゼ、アシルトランスフェラーゼ、グリコシルトランスフェラーゼ、トランスアミナーゼ、トランスグルタミナーゼおよびポリメラーゼを含む。ヒドロラーゼのより具体的であるが非限定的なサブグループは、エステルヒドロラーゼ、ペプチダーゼ、グリコシラーゼ、アミラーゼ、セルラーゼ、ヘミセルラーゼ、キシラナーゼ、キチナーゼ、グルコシダーゼ、グルカナーゼ、グルコアミラーゼ、アシラーゼ、ガラクトシダーゼ、プルラナーゼ、フィターゼ、ラクターゼ、アラビノシダーゼ、ヌクレオシダーゼ、ニトリラーゼ、ホスファターゼ、リパーゼ、ホスホリパーゼ、プロテアーゼ、ＡＴＰアーゼ、およびデハロゲナーゼを含む。リアーゼのより具体的であるが非限定的なサブグループは、デカルボキシラーゼ、アルドラーゼ、ヒドラターゼ、デヒドラターゼ（例えば、炭酸脱水酵素）、シンターゼ（例えば、イソプレン、ピネンおよびファルネセンシンターゼ）、ペクチナーゼ（例えば、ペクチンリアーゼ）およびハロヒドリンデヒドロゲナーゼを含む。イソメラーゼのより具体的であるが非限定的なサブグループは、ラセマーゼ、エピメラーゼ、イソメラーゼ（例えば、キシロース、アラビノース、リボース、グルコース、ガラクトースおよびマンノースイソメラーゼ）、トートメラーゼ、およびムターゼ（例えばアシル転移ムターゼ、ホスホムターゼ、およびアミノムターゼを含む。リガーゼのより具体的な、ただし非限定的なサブグループは、エステルシンターゼを含む。親配列の源として使用され得る他の酵素のファミリーまたはクラスは、トランスアミナーゼ、プロテアーゼ、キナーゼ、およびシンターゼを含む。この列挙は、本開示の可能性のある酵素のある特定の具体的な態様を例示しているが、網羅的であるとはみなされず、限定を示したりまたは本開示の範囲の境界を定めたりしない。

一部の場合には、本明細書に記載の方法において有用な候補酵素は、例えば、エナンチオ選択的な還元反応などのエナンチオ選択的な反応を触媒することができる。このような酵素は、例えば医薬化合物の合成において有用な中間体の作製に使用できる。

一部の実施形態では、候補酵素は、エンドキシラナーゼ（ＥＣ３．２．１．８）；β−キシロシダーゼ（ＥＣ３．２．１．３７）；アルファ−Ｌ−アラビノフラノシダーゼ（ＥＣ３．２．１．５５）；アルファ−グルクロニダーゼ（ＥＣ３．２．１．１３９）；アセチルキシランエステラーゼ（ＥＣ３．１．１．７２）；フェルロイルエステラーゼ（ＥＣ３．１．１．７３）；クマロイルエステラーゼ（ＥＣ３．１．１．７３）；アルファ−ガラクトシダーゼ（ＥＣ３．２．１．２２）；ベータ−ガラクトシダーゼ（ＥＣ３．２．１．２３）；ベータ−マンナナーゼ（ＥＣ３．２．１．７８）；ベータ−マンノシダーゼ（ＥＣ３．２．１．２５）；エンド−ポリガラクツロナーゼ（ＥＣ３．２．１．１５）；ペクチンメチルエステラーゼ（ＥＣ３．１．１．１１）；エンド−ガラクタナーゼ（ＥＣ３．２．１．８９）；ペクチンアセチルエステラーゼ（ＥＣ３．１．１．６）；エンド−ペクチンリアーゼ（ＥＣ４．２．２．１０）；ペクチン酸リアーゼ（ＥＣ４．２．２．２）；アルファラムノシダーゼ（ＥＣ３．２．１．４０）；エキソ−ポリアルファ−ガラクツロノシダーゼ（ｇａｌａｃｔｕｒｏｎｏｓｉｄａｓｅ）（ＥＣ３．２．１．８２）；１，４−アルファ−ガラクツロニダーゼ（ｇａｌａｃｔｕｒｏｎｉｄａｓｅ）（ＥＣ３．２．１．６７）；エキソポリガラクツロネート（ｅｘｏｐｏｌｙｇａｌａｃｔｕｒｏｎａｔｅ）リアーゼ（ＥＣ４．２．２．９）；ラムノガラクツロナンエンドリアーゼ（ｅｎｄｏｌｙａｓｅ）ＥＣ（４．２．２．Ｂ３）；ラムノガラクツロナンアセチルエステラーゼ（ＥＣ３．２．１．Ｂ１１）；ラムノガラクツロナンガラクツロノヒドロラーゼ（ｇａｌａｃｔｕｒｏｎｏｈｙｄｒｏｌａｓｅ）（ＥＣ３．２．１．Ｂ１１）；エンド−アラビナナーゼ（ａｒａｂｉｎａｎａｓｅ）（ＥＣ３．２．１．９９）；ラッカーゼ（ＥＣ１．１０．３．２）；マンガン依存性ペルオキシダーゼ（ＥＣ１．１０．３．２）；アミラーゼ（ＥＣ３．２．１．１）、グルコアミラーゼ（ＥＣ３．２．１．３）、プロテアーゼ、リパーゼ、およびリグニンペルオキシダーゼ（ＥＣ１．１１．１．１４）から選択される。１、２、３、４、５種、または５種より多くの酵素の任意の組合せが、本開示の組成物において有用である。本発明が、いずれかの特定の数の酵素および／または酵素クラスに限定されることは意図されない。

任意の適当な方法が有用であるため、本発明が、系統的に変化させた配列を生成するためのいずれかの特定の方法に限定されることは意図されない。本開示の１つまたは複数の実施形態では、ライブラリーを生成するために、単一の開始配列は様々な方式で改変される。一部の実施形態では、ライブラリーは、開始配列の個々の残基を系統的に変化させることによって生成される。ライブラリーの系統的に変化させた配列のセットは、データセット中の配列を規定するために実験計画（ＤＯＥ）方法を使用して演繹的に設計されてもよい。ＤＯＥ方法の説明は、Ｄｉａｍｏｎｄ，Ｗ．Ｊ．（２００１年）ＰｒａｃｔｉｃａｌＥｘｐｅｒｉｍｅｎｔＤｅｓｉｇｎｓ：ｆｏｒＥｎｇｉｎｅｅｒｓａｎｄＳｃｉｅｎｔｉｓｔｓ、ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ、およびＷｉｌｌｉａｍＪＤｒｕｍｍｏｎｄによる「ＰｒａｃｔｉｃａｌＥｘｐｅｒｉｍｅｎｔａｌＤｅｓｉｇｎｆｏｒＥｎｇｉｎｅｅｒｓａｎｄＳｃｉｅｎｔｉｓｔｓ」（１９８１年）ＶａｎＮｏｓｔｒａｎｄＲｅｉｎｈｏｌｄＣｏＮｅｗＹｏｒｋ、「Ｓｔａｔｉｓｔｉｃｓｆｏｒｅｘｐｅｒｉｍｅｎｔｅｒｓ」ＧｅｏｒｇｅＥ．Ｐ．Ｂｏｘ、ＷｉｌｌｉａｍＧＨｕｎｔｅｒおよびＪ．ＳｔｕａｒｔＨｕｎｔｅｒ（１９７８年）ＪｏｈｎＷｉｌｅｙａｎｄＳｏｎｓ、ＮｅｗＹｏｒｋに、または例えばワールドワイドウェブにおいてｉｔｌ．ｎｉｓｔ．ｇｏｖ／ｄｉｖ８９８／ｈａｎｄｂｏｏｋ／で見出すことができる。関連する数学を実施するために利用可能な数々のコンピューター用パッケージがあり、例えば、ＳｔａｔｉｓｔｉｃｓＴｏｏｌｂｏｘ（ＭＡＴＬＡＢ（登録商標））、ＪＭＰ（登録商標）、ＳＴＡＴＩＳＴＩＣＡ（登録商標）、およびＳＴＡＴ−ＥＡＳＥ（登録商標）ＤＥＳＩＧＮＥＸＰＥＲＴ（登録商標）が挙げられる。結果は、本明細書で開示された仮想タンパク質スクリーニングシステムによりスクリーニングするために適当な配列の系統的に変化させた直交分散データのセットである。またＤＯＥベースのデータセットは、当技術分野で公知のようなプラケット−バーマンまたはフラクショナルファクトリアルデザイン（ＦｒａｃｔｉｏｎａｌＦａｃｔｏｒｉａｌＤｅｓｉｇｎ）のいずれかを使用しても容易に生成することができる。Ｄｉａｍｏｎｄ，Ｗ．Ｊ．（２００１年）。

スクリーニングの最初のラウンドはｉｎｓｉｌｉｃｏにより高効率で実施することができるため、一部の実施形態は、通常バリアントの数が従来の物理的な方法でスクリーニングするには多すぎる場合、利用可能な配列の一部または全部を使用して、タンパク質バリアントライブラリーを提供することができる。例えば、それぞれ２０種の可能性のあるアミノ酸を有する１５個の位置を有する配列について、３００個の可能性のある位置対アミノ酸の対が存在し、

種の異なるバリアント配列が存在する。一部の実施において、ライブラリーは、利用可能な計算能力および用途の必要性に応じて、この可能性のあるプールからの数百、数千、数万、数十万、またはそれより多くのバリアントを含む可能性がある。本開示が、ライブラリー中のいずれかの特定のバリアント数に限定されることは意図されない。
Ｖ．タンパク質バリアントのシーケンシング

一部の実施形態では、上述したような仮想スクリーニングで使用されるタンパク質バリアントの活性部位のコンピューターによるモデルを生成するために、物理的なタンパク質バリアントが使用される。一部の実施形態では、仮想スクリーニングから得られたタンパク質バリアントは、上述した様々な方法を使用して物理的に生成される。一部の実施形態では、物理的に生成されたタンパク質バリアントは、１つまたは複数の目的のリガンドに対するそれらの反応に関してアッセイされる。様々な実施形態では、物理的なタンパク質バリアントの配列は、タンパク質シーケンシング方法によって確認され、その方法の一部はさらに後述される。

タンパク質シーケンシングは、タンパク質のアミノ酸配列を決定することを伴う。いくつかのタンパク質シーケンシング技法は、タンパク質がとるコンホメーション、およびタンパク質が任意の非ペプチド分子と複合体形成される程度も決定する。質量分析法およびエドマン分解反応は、タンパク質のアミノ酸の配列を直接決定するために使用される場合がある。

エドマン分解反応は、タンパク質の順序付けられたアミノ酸組成を発見するのを可能にする。一部の実施形態では、自動エドマンシーケンサーをタンパク質バリアントの配列を決定するために使用することができる。自動エドマンシーケンサーは、ますますより長い配列（例えば、最大でおよそ長さ５０アミノ酸の配列）のペプチドをシーケンシングすることができる。一部の実施形態では、エドマン分解を実施するタンパク質シーケンシングプロセスは、以下のうちの１つ以上を伴う。
−− 還元剤、例えば、２−メルカプトエタノールを用いてタンパク質中のジスルフィド架橋をブレイクする。ヨード酢酸などの保護基を、結合の再形成を妨げるために使用し得る。
−− １つを超えて存在する場合、タンパク質複合体の個々の鎖を分離および精製する。
−− 各鎖のアミノ酸組成を決定する
−− 各鎖の末端アミノ酸を決定する
−− 各鎖をブレイクして断片、例えば、長さ５０アミノ酸未満の断片にする。
−− 断片を分離および精製する
−− エドマン分解反応を使用して各断片の配列を決定する
−− アミノ酸配列の追加のリード（複数可）をもたらすために異なるパターンの切断を適用して上記ステップを繰り返す。
−− アミノ酸配列リードから全体的なタンパク質の配列を構築する。

様々な実施において、約５０〜７０アミノ酸より長いペプチドは、エドマン反応によるシーケンシングを促進するために小さい断片にブレイクされるべきである。より長い配列の消化は、トリプシンもしくはペプシンなどのエンドペプチダーゼによって、または臭化シアンなどの化学試薬によって実施することができる。異なる酵素は、異なる切断パターンを与え、断片同士の重複を、全体的な配列を構築するために使用することができる。

エドマン分解反応中、シーケンシングされるペプチドは、基板の固体表面上に吸着されている。一部の実施形態では、１つの適当な基板は、ポリブレン、カチオン性ポリマーで被覆されたガラス繊維である。エドマン試薬、フェニルイソチオシアネート（ＰＩＴＣ）が、トリメチルアミンの弱塩基性緩衝液と一緒に吸着されたペプチドに添加される。この反応溶液は、Ｎ末端アミノ酸のアミン基と反応する。次いで末端アミノ酸を、無水酸を添加することによって選択的に引き離すことができる。次いで誘導体が異性化して置換フェニルチオヒダントインを与え、これを洗い落とし、クロマトグラフィーによって識別することができる。次いでこのサイクルを繰り返すことができる。

一部の実施形態では、質量分析法を使用して、アミノ酸配列の断片の質量対電荷比を決定することによってアミノ酸配列を決定することができる。多重荷電した断片に対応するピークを含む質量スペクトルを決定することができ、この場合、異なる同位体に対応するピーク同士の距離は、断片上の電荷に反比例する。質量スペクトルは、例えば、以前にシーケンシングされたタンパク質のデータベースに対する比較によって分析されて、断片の配列が決定される。次いでこのプロセスが異なる消化酵素を用いて繰り返され、配列における重複が使用されて、完全なアミノ酸配列が構築される。

ペプチドは、全タンパク質より、調製し、質量分析法で分析するのが容易であることが多い。一部の実施形態では、エレクトロスプレーイオン化がペプチドをスペクトル計に送達するために使用される。タンパク質は、エンドプロテアーゼによって消化され、得られた溶液は、高圧液体クロマトグラフィーカラムを通過させられる。このカラムの末端で、溶液は、質量分析計中に噴霧され、陽電位で荷電される。溶液滴上の電荷が、これらを単一イオンに断片化させる。次いでペプチドが断片化され、断片の質量対電荷比が測定される。

タンパク質をコードするＤＮＡまたはｍＲＮＡ配列からアミノ酸配列を間接的に決定することも可能である。核酸シーケンシング方法、例えば、様々な次世代シーケンシング方法が、ＤＮＡまたはＲＮＡ配列を決定するために使用され得る。一部の実施において、タンパク質配列は、タンパク質をコードするヌクレオチドの知識なしで新しく単離される。このような実施において、直接タンパク質シーケンシング方法の１つを使用して短いポリペプチド配列を最初に決定し得る。タンパク質のＲＮＡの相補的マーカーを、この短い配列から決定することができる。次いでこれを、このタンパク質をコードするｍＲＮＡを単離するために使用することができ、次いでこのｍＲＮＡをポリメラーゼ連鎖反応で複製してかなりの量のＤＮＡを得ることができ、次いでこのＤＮＡを、ＤＮＡシーケンシング方法を使用してシーケンシングすることができる。次いでタンパク質のアミノ酸配列を、ＤＮＡ配列から演繹することができる。演繹法では、ｍＲＮＡが翻訳された後に除去されるアミノ酸を考慮に入れることが必要である。

１つまたは複数の実施形態では、核酸配列データは、タンパク質の指向進化のプロセスにおける様々な段階で使用することができる。１つまたはそれより多くの実施形態では、配列データは、第１の世代のシーケンシング方法と見なされる例えば、サンガーシーケンシングまたはマクサム−ギルバートシーケンシングを含めたバルクシーケンシング方法を使用して得ることができる。標識されたジデオキシ鎖ターミネーターを使用することを伴うサンガーシーケンシングは、当技術分野で周知である。例えば、Ｓａｎｇｅｒら、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ、７４巻、５４６３〜５４６７頁（１９９７年）を参照。核酸試料の断片に対して複数の部分的な化学分解反応を実施し、その後断片を検出および分析して配列を推測することを伴うマクサム−ギルバートシーケンシングも当技術分野で周知である。例えば、Ｍａｘａｍら、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ、７４巻、５６０〜５６４頁（１９７７年）を参照。別のバルクシーケンシング方法は、ハイブリダイゼーションによるシーケンシングであり、このシーケンシングでは、試料の配列が、例えば、マイクロアレイまたは遺伝子チップ上の複数の配列へのそのハイブリダイゼーション性質に基づいて演繹される。例えば、Ｄｒｍａｎａｃら、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ、１６巻、５４〜５８頁（１９９８年）を参照。

１つまたはそれより多くの実施形態では、核酸配列データは、次世代シーケンシング法を使用して得られる。次世代シーケンシングは、ハイスループットシーケンシングとも呼ばれる。この技法は、シーケンシングプロセスを並列化し、数千または数百万の配列を一度に生成する。適当な次世代シーケンシング方法の例としては、それだけに限らないが、単一分子リアルタイムシーケンシング（例えば、ＭｅｎｌｏＰａｒｋ、ＣａｌｉｆｏｒｎｉａのＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）、イオン半導体シーケンシング（例えば、ＳｏｕｔｈＳａｎＦｒａｎｃｉｓｃｏ、ＣａｌｉｆｏｒｎｉａのＩｏｎＴｏｒｒｅｎｔ）、パイロシーケンシング（例えば、Ｂｒａｎｆｏｒｄ、Ｃｏｎｎｅｃｔｉｃｕｔの４５４）、ライゲーションによるシーケンシング（例えば、Ｃａｒｌｓｂａｄ、ＣａｌｉｆｏｒｎｉａのＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓが所有するＳＯＬｉＤシーケンシング）、合成および可逆性ターミネーターによるシーケンシング（例えば、ＳａｎＤｉｅｇｏ、ＣａｌｉｆｏｒｎｉａのＩｌｌｕｍｉｎａ）、透過型電子顕微鏡法などの核酸イメージング技術などがある。

一般に、次世代シーケンシング方法は、典型的には、個々のＤＮＡ分子を増幅するためにｉｎｖｉｔｒｏクローニングステップを使用する。エマルジョンＰＣＲ（ｅｍＰＣＲ）は、油相内の水滴においてプライマー被覆ビーズとともに個々のＤＮＡ分子を単離する。ＰＣＲは、ＤＮＡ分子のコピーを生成し、これらはビーズ上のプライマーに結合し、その後、後のシーケンシングのために固定化される。ｅｍＰＣＲは、Ｍａｒｇｕｉｌｉｓら（４５４ＬｉｆｅＳｃｉｅｎｃｅｓ、Ｂｒａｎｆｏｒｄ、ＣＴによって商品化された）、ＳｈｅｎｄｕｒｅおよびＰｏｒｒｅｃａら（「ポロニーシーケンシング」としても公知）による方法、ならびにＳＯＬｉＤシーケンシング（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓＩｎｃ．、ＦｏｓｔｅｒＣｉｔｙ、ＣＡ）で使用される。Ｍ．Ｍａｒｇｕｌｉｅｓら（２００５年）、「Ｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｉｎｍｉｃｒｏｆａｂｒｉｃａｔｅｄｈｉｇｈ−ｄｅｎｓｉｔｙｐｉｃｏｌｉｔｒｅｒｅａｃｔｏｒｓ」、Ｎａｔｕｒｅ、４３７巻：３７６〜３８０頁；Ｊ．Ｓｈｅｎｄｕｒｅら（２００５年）、「ＡｃｃｕｒａｔｅＭｕｌｔｉｐｌｅｘＰｏｌｏｎｙＳｅｑｕｅｎｃｉｎｇｏｆａｎＥｖｏｌｖｅｄＢａｃｔｅｒｉａｌＧｅｎｏｍｅ」、Ｓｃｉｅｎｃｅ、３０９巻（５７４１号）：１７２８〜１７３２頁を参照。ｉｎｖｉｔｒｏクローン増幅は、「ブリッジＰＣＲ」によっても実施することができ、この場合、断片は、プライマーが固体表面に付着されると増幅される。Ｂｒａｓｌａｖｓｋｙらは、この増幅ステップを省略し、ＤＮＡ分子を表面に直接固定する単一分子方法を開発した（ＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓＣｏｒｐ．、Ｃａｍｂｒｉｄｇｅ、ＭＡによって商品化された）。Ｉ．Ｂｒａｓｌａｖｓｋｙら（２００３年）、「ＳｅｑｕｅｎｃｅｉｎｆｏｒｍａｔｉｏｎｃａｎｂｅｏｂｔａｉｎｅｄｆｒｏｍｓｉｎｇｌｅＤＮＡｍｏｌｅｃｕｌｅｓ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ、１００巻：３９６０〜３９６４頁。

表面に物理的に結合したＤＮＡ分子を、並列にシーケンシングすることができる。「合成によるシーケンシング」では、相補鎖は、ＤＮＡポリメラーゼを使用して鋳型鎖の配列に基づいて構築される。色素停止電気泳動シーケンシングのように、可逆性ターミネーター方法（Ｉｌｌｕｍｉｎａ，Ｉｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡおよびＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓＣｏｒｐ．、Ｃａｍｂｒｉｄｇｅ、ＭＡによって商品化された）は、色素ターミネーターの可逆バージョンを使用し、一度に１つのヌクレオチドを付加して、別のヌクレオチドの重合を可能にするためにブロッキング基を繰り返し除去することによって、リアルタイムで各位置における蛍光を検出する。「パイロシーケンシング」も、ＤＮＡ重合を使用し、一度に１つのヌクレオチドを付加し、結合していたピロリン酸の遊離によって放出された光によって所与の場所に付加されたヌクレオチドの数を検出および定量化する（４５４ＬｉｆｅＳｃｉｅｎｃｅｓ、Ｂｒａｎｆｏｒｄ、ＣＴによって商品化された）。Ｍ．Ｒｏｎａｇｈｉら（１９９６年）、「Ｒｅａｌ−ｔｉｍｅＤＮＡｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｄｅｔｅｃｔｉｏｎｏｆｐｙｒｏｐｈｏｓｐｈａｔｅｒｅｌｅａｓｅ」、ＡｎａｌｙｔｉｃａｌＢｉｏｃｈｅｍｉｓｔｒｙ、２４２巻：８４〜８９頁を参照。

次世代シーケンシング方法の具体例は、以下でさらに詳細に記載されている。本発明の１つまたはそれより多くの実施は、本発明の原理から逸脱することなく、以下のシーケンシング方法の１つまたはそれより多くを使用し得る。

単一分子リアルタイムシーケンシング（ＳＭＲＴとしても公知）は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓが開発した、合成技術による並列化された単一分子ＤＮＡシーケンシングである。単一分子リアルタイムシーケンシングは、ゼロモード導波路（ＺＭＷ）を利用する。単一のＤＮＡポリメラーゼ酵素が、鋳型としてのＤＮＡの単一分子とともにＺＭＷの底部に固定される。ＺＭＷは、ＤＮＡポリメラーゼによって組み込まれているＤＮＡの単一のヌクレオチド（塩基としても公知）のみを観察するために十分小さい照らされた観察体積を生成する構造体である。４つのＤＮＡ塩基の各々には、４つの異なる蛍光色素の１つが結合されている。ヌクレオチドがＤＮＡポリメラーゼによって組み込まれるとき、蛍光タグが切り離され、ＺＭＷの観察エリア外に拡散し、ここで、その蛍光は、もはや観察可能でない。検出器は、ヌクレオチド組込みの蛍光シグナルを検出し、色素の対応する蛍光にしたがって塩基のコールが行われる。

適用可能な別の単一分子シーケンシング技術は、ＨｅｌｉｃｏｓＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ（ｔＳＭＳ）技術（例えば、ＨａｒｒｉｓＴ．Ｄ．ら、Ｓｃｉｅｎｃｅ、３２０巻：１０６〜１０９頁［２００８年］に記載された）である。ｔＳＭＳ技法では、ＤＮＡ試料が切断されておよそ１００〜２００ヌクレオチドの鎖にされ、ｐｏｌｙＡ配列が各ＤＮＡ鎖の３’末端に付加される。各鎖は、蛍光標識アデノシンヌクレオチドの付加によって標識される。次いでＤＮＡ鎖は、フローセル表面に固定化された数百万のオリゴ−Ｔ捕捉部位を含むフローセルにハイブリダイズされる。ある特定の実施形態では、鋳型は、約１億の鋳型／ｃｍ^２の密度とすることができる。次いでフローセルは、計測器、例えば、ＨｅｌｉＳｃｏｐｅ（商標）シーケンサー中に装填され、レーザーがフローセルの表面を照らし、各鋳型の位置を明らかにする。ＣＣＤカメラは、フローセル表面上の鋳型の位置をマッピングすることができる。次いで鋳型の蛍光標識が切断され、洗い流される。シーケンシング反応は、ＤＮＡポリメラーゼおよび蛍光標識ヌクレオチドを導入することによって始まる。オリゴ−Ｔ核酸は、プライマーとして機能を果たす。ポリメラーゼは、鋳型指向様式でプライマーに標識ヌクレオチドを組み込む。ポリメラーゼおよび組み込まれなかったヌクレオチドは、除去される。蛍光標識ヌクレオチドの組込みを示す鋳型は、フローセル表面をイメージングすることによって見分けられる。イメージング後、切断ステップにより、蛍光標識が除去され、プロセスは、所望のリード長が達成されるまで他の蛍光標識ヌクレオチドを用いて繰り返される。配列情報は、各ヌクレオチド付加ステップで収集される。単一分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリーの調製におけるＰＣＲベースの増幅を除外し、または典型的には不要にし、この方法は、試料のコピーの測定ではなくその試料の直接測定を可能にする。

イオン半導体シーケンシングは、ＤＮＡの重合中に放出される水素イオンの検出に基づくＤＮＡシーケンシングの方法である。これは、シーケンシング中に相補鎖が鋳型鎖の配列に基づいて構築される「合成によるシーケンシング」の一方法である。シーケンシングされる鋳型ＤＮＡ鎖を含むマイクロウェルは、単一種のデオキシリボヌクレオチド三リン酸（ｄＮＴＰ）であふれさせられる。導入されるｄＮＴＰがリーディング鋳型ヌクレオチド（ｌｅａｄｉｎｇｔｅｍｐｌａｔｅｎｕｃｌｅｏｔｉｄｅ）に相補的である場合、それは、成長中の相補鎖に組み込まれる。これは、反応が起こったことを示す、ＩＳＦＥＴイオンセンサーを作動させる水素イオンの放出を引き起こす。ホモポリマーリピートが鋳型配列中に存在する場合、複数のｄＮＴＰ分子が単一のサイクルで組み込まれる。これは、対応する数の水素の放出および比例してより高い電子シグナルをもたらす。この技術は、修飾ヌクレオチドまたは光学系が使用されないという点で他のシーケンシング技術と異なる。イオン半導体シーケンシングは、イオントレントシーケンシング、ｐＨ媒介シーケンシング、シリコンシーケンシング、または半導体シーケンシングと呼ばれる場合もある。

パイロシーケンシングでは、重合反応によって放出されるピロリン酸イオンは、ＡＴＰスルフリラーゼによってアデノシン５’ホスホ硫酸と反応させられてＡＴＰを生成する。次いでＡＴＰは、ルシフェラーゼによるルシフェリンのオキシルシフェリンおよび光への転換を推進する。蛍光は一過性であるので、蛍光を排除する別個のステップは、この方法では必要でない。一タイプのデオキシリボヌクレオチド三リン酸（ｄＮＴＰ）が一度に付加され、配列情報は、どのｄＮＴＰが反応部位において有意なシグナルを生成するかによって見分けられる。市販のＲｏｃｈｅＧＳＦＬＸ計測器は、この方法を使用して配列を取得する。この技法およびその用途は、例えば、Ｒｏｎａｇｈｉら、ＡｎａｌｙｔｉｃａｌＢｉｏｃｈｅｍｉｓｔｒｙ、２４２巻、８４〜８９頁（１９９６年）、およびＭａｒｇｕｌｉｅｓら、Ｎａｔｕｒｅ、４３７巻、３７６〜３８０頁（２００５年）（Ｎａｔｕｒｅ、４４１巻、１２０頁（２００６年）の誤植）に詳細に論じられている。市販のパイロシーケンシング技術は、４５４シーケンシング（Ｒｏｃｈｅ）（例えば、Ｍａｒｇｕｌｉｅｓ，Ｍ．ら、Ｎａｔｕｒｅ、４３７巻：３７６〜３８０頁［２００５年］に記載された）である。

ライゲーションシーケンシングでは、オーバーハングを有する部分的に二本鎖のオリゴヌクレオチドを、オーバーハングを有するシーケンシングされている核酸に接合するために、リガーゼ酵素が使用される。ライゲーションが起こるために、オーバーハングは、相補的でなければならない。部分的に二本鎖のオリゴヌクレオチドのオーバーハング中の塩基は、部分的に二本鎖のオリゴヌクレオチドおよび／または部分的に二本鎖のオリゴヌクレオチドの別の一部にハイブリダイズする第２のオリゴヌクレオチドにコンジュゲートしたフルオロフォアによって識別することができる。蛍光データを取得した後、ライゲーションされた複合体は、その認識部位（部分的に二本鎖のオリゴヌクレオチド中に含まれていた）から固定距離をカットするＩＩ型制限酵素、例えば、Ｂｂｖｌなどによって、ライゲーション部位の上流で切断される。この切断反応により、先のオーバーハングのすぐ上流に新しいオーバーハングが露出され、このプロセスが繰り返される。この技法およびその用途は、例えば、Ｂｒｅｎｎｅｒら、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ、１８巻、６３０〜６３４頁（２０００年）に詳細に論じられている。一部の実施形態では、ライゲーションシーケンシングは、環状核酸分子のローリングサークル増幅生成物を得、ライゲーションシーケンシングの鋳型としてローリングサークル増幅生成物を使用することによって、本発明の方法に適応されている。

ライゲーションシーケンシング技術の市販の例は、ＳＯＬｉＤ（商標）技術（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）である。ＳＯＬｉＤ（商標）のライゲーションによるシーケンシングでは、ゲノムＤＮＡがせん断されて断片にされ、アダプターが断片の５’および３’末端に結合されて断片ライブラリーが生成される。あるいは、アダプターを断片の５’および３’末端にライゲーションし、断片を環状化し、環状化した断片を消化して内部アダプターを生成し、アダプターを得られた断片の５’および３’末端に結合させることによって内部アダプターを導入して、メイトペアのライブラリーを生成することができる。次に、クローンのビーズ集団が、ビーズ、プライマー、鋳型、およびＰＣＲコンポーネントを含むマイクロリアクター内で調製される。ＰＣＲの後、鋳型が変性され、伸長した鋳型を有するビーズを分離するためにビーズが濃縮される。選択されたビーズ上の鋳型は、ガラススライドへの結合を可能にする３’修飾に付される。配列は、特異的フルオロフォアによって識別される中央決定塩基（ｃｅｎｔｒａｌｄｅｔｅｒｍｉｎｅｄｂａｓｅ）（または塩基の対）を有する部分的にランダムなオリゴヌクレオチドを逐次ハイブリサイズおよびライゲーションすることによって決定することができる。色が記録された後、ライゲーションされたオリゴヌクレオチドが切断および除去され、次いでこのプロセスが繰り返される。

可逆性ターミネーターシーケンシングでは、ブロッキング基の存在に起因して可逆性鎖ターミネーターである蛍光色素標識ヌクレオチド類似体が、単一塩基伸長反応で組み込まれる。塩基のアイデンティティーは、フルオロフォアによって決定される。言い換えれば、各塩基は、異なるフルオロフォアと対形成される。蛍光／配列データが取得された後、フルオロフォアおよびブロッキング基は、化学的に除去され、サイクルは、次の塩基の配列情報を取得するために繰り返される。ＩｌｌｕｍｉｎａＧＡ計測器は、この方法によって動作する。この技法およびその用途は、例えば、Ｒｕｐａｒｅｌら、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ、１０２巻、５９３２〜５９３７頁（２００５年）、およびＨａｒｒｉｓら、Ｓｃｉｅｎｃｅ、３２０巻、１０６〜１０９頁（２００８年）に詳細に論じられている。

可逆性ターミネーターシーケンシング法の市販の例は、Ｉｌｌｕｍｉｎａの合成によるシーケンシングおよび可逆性ターミネーターベースのシーケンシング（例えば、Ｂｅｎｔｌｅｙら、Ｎａｔｕｒｅ、６巻：５３〜５９頁［２００９年］に記載された）である。Ｉｌｌｕｍｉｎａのシーケンシング技術は、断片化されたゲノムＤＮＡの、オリゴヌクレオチドアンカーが結合している平面の光学的に透明な表面への結合を利用する。鋳型ＤＮＡが末端修復されて５’−リン酸化平滑末端が生成され、クレノウ断片のポリメラーゼ活性が使用されて、平滑リン酸化ＤＮＡ断片の３’末端に単一のＡ塩基が付加される。この付加により、オリゴヌクレオチドアダプターへのライゲーションのためのＤＮＡ断片が調製され、このアダプターは、その３’末端に単一のＴ塩基のオーバーハングを有することによってライゲーション効率を増大させる。アダプターオリゴヌクレオチドは、フローセルアンカーと相補的である。限界希釈条件下で、アダプター修飾一本鎖鋳型ＤＮＡがフローセルに添加され、アンカーへのハイブリダイゼーションによって固定化される。結合したＤＮＡ断片は、伸長および架橋増幅されて、それぞれが約１，０００コピーの同じ鋳型を含む数億のクラスターを有する超高密度シーケンシングフローセルが生成される。鋳型は、除去可能な蛍光色素を有する可逆性ターミネーターを使用するロバストな４色のＤＮＡの合成によるシーケンシング技術を使用してシーケンシングされる。高感度蛍光検出が、レーザー励起および全内部反射光学系を使用して達成される。約２０〜４０ｂｐ、例えば、３６ｂｐの短い配列リードが繰り返しマスクされた参照ゲノムに対してアラインメントされ、この短い配列リードの参照ゲノムへの固有のマッピングが、特別に開発されたデータ解析パイプラインソフトウェアを使用して識別される。繰り返しマスクされていない参照ゲノムも使用することができる。繰り返しマスクされた参照ゲノムが使用されても、繰り返しマスクされていない参照ゲノムが使用されても、参照ゲノムにユニークにマッピングするリードのみがカウントされる。最初のリードが完了した後、断片の反対の末端からの第２のリードを可能にするために、鋳型をｉｎｓｉｔｕで再生することができる。したがって、ＤＮＡ断片のシングルエンドまたはペアエンドシーケンシングのいずれかを使用することができる。試料中に存在するＤＮＡ断片の部分的なシーケンシングが実施され、既知の参照ゲノムにマッピングされる所定の長さ、例えば、３６ｂｐのリードを含む配列タグがカウントされる。

ナノ細孔シーケンシングでは、一本鎖核酸分子が、例えば電気泳動駆動力を使用して細孔に通され、一本鎖核酸分子が細孔を通過する際に得られるデータを分析することによって配列が演繹される。データは、イオン電流データとすることができ、ここで各塩基は、例えば、細孔を通過する電流を異なる、区別可能な程度に部分的に遮断することによって電流を変化させる。

別の例示的な、しかし非限定的な実施形態では、本明細書に記載の方法は、透過型電子顕微鏡法（ＴＥＭ）を使用して配列情報を得るステップを含む。本方法は、重原子マーカーで選択的に標識された高分子量（１５０ｋｂまたはそれ超）ＤＮＡの単原子分解能透過型電子顕微鏡イメージングを利用するステップ、および一貫した塩基間間隔を有する超高密度（３ｎｍの鎖間）並列アレイにおいて超薄膜上にこれらの分子を配列するステップを含む。電子顕微鏡は、膜上の分子をイメージングして重原子マーカーの位置を決定し、ＤＮＡから塩基配列情報を抽出するために使用される。本方法は、ＰＣＴ特許公開第ＷＯ２００９／０４６４４５号にさらに記載されている。

別の例示的な、しかし非限定的な実施形態では、本明細書に記載の方法は、第３の世代のシーケンシングを使用して配列情報を得るステップを含む。第３の世代のシーケンシングでは、多くの小さい（約５０ｎｍ）穴を有するアルミニウム被膜を含むスライドがゼロモード導波路として使用される（例えば、Ｌｅｖｅｎｅら、Ｓｃｉｅｎｃｅ、２９９巻、６８２〜６８６頁（２００３年）を参照）。アルミニウム表面は、ポリホスホネート化学、例えば、ポリビニルホスホネート化学によってＤＮＡポリメラーゼの結合から保護されている（例えば、Ｋｏｒｌａｃｈら、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ、１０５巻、１１７６〜１１８１頁（２００８年）を参照）。これは、アルミニウム被膜の穴中の露出したシリカへのＤＮＡポリメラーゼ分子の優先的な結合をもたらす。この設定は、蛍光バックグラウンドを低減させるためにエバネッセント波現象を使用することを可能にし、より高い濃度の蛍光標識されたｄＮＴＰの使用を可能にする。フルオロフォアは、ｄＮＴＰの終端リン酸に結合されており、その結果、ｄＮＴＰが組み込まれると蛍光が放出されるが、フルオロフォアは、新しく組み込まれたヌクレオチドに結合されたままでなく、これは、複合体が、組込みの別のラウンドのために直ちに準備ができることを意味する。この方法によって、アルミニウム被膜の穴の中に存在する個々のプライマー−鋳型複合体へのｄＮＴＰの組込みを検出することができる。例えば、Ｅｉｄら、Ｓｃｉｅｎｃｅ、３２３巻、１３３〜１３８号（２００９年）を参照。
（ＶＩ．遺伝子およびタンパク質バリアントのアッセイ）

一部の実施形態では、本発明の方法に関連して生成されるポリヌクレオチドは、活性スクリーニングのためのタンパク質バリアントを発現させるように細胞内に任意選択でクローニングされる（またはスクリーニングされる生成物を作製するためにｉｎｖｉｔｒｏ転写反応で使用される）。さらに、タンパク質バリアントをコードする核酸は、ｉｎｖｉｔｒｏで濃縮し、シーケンシングし、発現させ、増幅し、または任意の他の一般的な組換え方法で処理することができる。

クローニング、変異誘発、ライブラリー構築、スクリーニングアッセイ、細胞培養などを含めた本明細書で有用な分子生物学的技法を記載する一般的な教科書としては、ＢｅｒｇｅｒおよびＫｉｍｍｅｌ、ＧｕｉｄｅｔｏＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇＴｅｃｈｎｉｑｕｅｓ，ＭｅｔｈｏｄｓｉｎＥｎｚｙｍｏｌｏｇｙ、１５２巻、ＡｃａｄｅｍｉｃＰｒｅｓｓ，Ｉｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ（Ｂｅｒｇｅｒ）；Ｓａｍｂｒｏｏｋら、ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ − ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（２版）、１〜３巻、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ、ＮｅｗＹｏｒｋ、１９８９年（Ｓａｍｂｒｏｏｋ）、ならびにＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓｉｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ、Ｆ．Ｍ．Ａｕｓｕｂｅｌら編、ＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓ、ＧｒｅｅｎｅＰｕｂｌｉｓｈｉｎｇＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．とＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．、ＮｅｗＹｏｒｋとの間のジョイントベンチャー（２０００年にかけて補足された）（Ａｕｓｕｂｅｌ））がある。核酸を植物および動物細胞を含めた細胞に形質導入する方法と同様に、このような核酸によってコードされるタンパク質を発現させる方法も、一般に利用可能である。Ｂｅｒｇｅｒ、Ａｕｓｕｂｅｌ、およびＳａｍｂｒｏｏｋに加えて、動物細胞の培養についての有用な一般的な参考文献としては、Ｆｒｅｓｈｎｅｙ（ＣｕｌｔｕｒｅｏｆＡｎｉｍａｌＣｅｌｌｓ，ａＭａｎｕａｌｏｆＢａｓｉｃＴｅｃｈｎｉｑｕｅ、３版、Ｗｉｌｅｙ− Ｌｉｓｓ、ＮｅｗＹｏｒｋ（１９９４年））、およびその中に引用された参考文献、Ｈｕｍａｓｏｎ（ＡｎｉｍａｌＴｉｓｓｕｅＴｅｃｈｎｉｑｕｅｓ、４版、Ｗ．Ｈ．ＦｒｅｅｍａｎａｎｄＣｏｍｐａｎｙ（１９７９年））、ならびにＲｉｃｃｉａｒｄｅｌｌｉら、ＩｎＶｉｔｒｏＣｅｌｌＤｅｖ．Ｂｉｏｌ．、２５巻：１０１６〜１０２４頁（１９８９年）がある。植物細胞のクローニング、培養、および再生についての参考文献としては、Ｐａｙｎｅら（１９９２年）、ＰｌａｎｔＣｅｌｌａｎｄＴｉｓｓｕｅＣｕｌｔｕｒｅｉｎＬｉｑｕｉｄＳｙｓｔｅｍｓ、ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．、ＮｅｗＹｏｒｋ、ＮＹ（Ｐａｙｎｅ）；ならびにＧａｍｂｏｒｇおよびＰｈｉｌｌｉｐｓ（編）（１９９５年）、ＰｌａｎｔＣｅｌｌ，ＴｉｓｓｕｅａｎｄＯｒｇａｎＣｕｌｔｕｒｅ；ＦｕｎｄａｍｅｎｔａｌＭｅｔｈｏｄｓＳｐｒｉｎｇｅｒＬａｂＭａｎｕａｌ、Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ（ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇＮｅｗＹｏｒｋ）（Ｇａｍｂｏｒｇ）がある。様々な細胞培養培地が、ＡｔｌａｓおよびＰａｒｋｓ（編）、ＴｈｅＨａｎｄｂｏｏｋｏｆＭｉｃｒｏｂｉｏｌｏｇｉｃａｌＭｅｄｉａ（１９９３年）、ＣＲＣＰｒｅｓｓ、ＢｏｃａＲａｔｏｎ、ＦＬ（Ａｔｌａｓ）に記載されている。植物細胞培養についての追加の情報は、市販の文献、例えば、Ｓｉｇｍａ−Ａｌｄｒｉｃｈ，Ｉｎｃ．（ＳｔＬｏｕｉｓ、ＭＯ）からのｔｈｅＬｉｆｅＳｃｉｅｎｃｅＲｅｓｅａｒｃｈＣｅｌｌＣｕｌｔｕｒｅＣａｔａｌｏｇｕｅ（１９９８年）（Ｓｉｇｍａ−ＬＳＲＣＣＣ）、および例えば、同様にＳｉｇｍａ−Ａｌｄｒｉｃｈ，Ｉｎｃ．（ＳｔＬｏｕｉｓ、ＭＯ）からのｔｈｅＰｌａｎｔＣｕｌｔｕｒｅＣａｔａｌｏｇｕｅａｎｄｓｕｐｐｌｅｍｅｎｔ（１９９７年）（Ｓｉｇｍａ−ＰＣＣＳ）に見つかる。

例えば、オリゴヌクレオチド組換え核酸を増幅するために有用なｉｎｖｉｔｒｏ増幅方法に当業者を導くために十分な技法の例として、ポリメラーゼ連鎖反応（ＰＣＲ）、リガーゼ連鎖反応（ＬＣＲ）、Ｑβ−レプリカーゼ増幅、および他のＲＮＡポリメラーゼ媒介技法（例えば、ＮＡＳＢＡ）がある。これらの技法は、Ｂｅｒｇｅｒ、Ｓａｍｂｒｏｏｋ、およびＡｕｓｕｂｅｌ、上記、ならびにＭｕｌｌｉｓら（１９８７年）、米国特許第４，６８３，２０２号；ＰＣＲＰｒｏｔｏｃｏｌｓＡＧｕｉｄｅｔｏＭｅｔｈｏｄｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ（Ｉｎｎｉｓら編）、ＡｃａｄｅｍｉｃＰｒｅｓｓＩｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ（１９９０年）（Ｉｎｎｉｓ）；ＡｒｎｈｅｉｍおよびＬｅｖｉｎｓｏｎ（１９９０年１０月１日）Ｃ＆ＥＮ、３６〜４７頁；ＴｈｅＪｏｕｒｎａｌＯｆＮＩＨＲｅｓｅａｒｃｈ（１９９１年）、３巻、８１〜９４頁；Ｋｗｏｈら（１９８９年）、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ、８６巻、１１７３頁；Ｇｕａｔｅｌｌｉら（１９９０年）、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ、８７巻、１８７４頁；Ｌｏｍｅｌｌら（１９８９年）、Ｊ．Ｃｌｉｎ．Ｃｈｅｍ、３５巻、１８２６頁；Ｌａｎｄｅｇｒｅｎら（１９８８年）、Ｓｃｉｅｎｃｅ、２４１巻、１０７７〜１０８０頁；ＶａｎＢｒｕｎｔ（１９９０年）、Ｂｉｏｔｅｃｈｎｏｌｏｇｙ、８巻、２９１〜２９４頁；ＷｕおよびＷａｌｌａｃｅ（１９８９年）、Ｇｅｎｅ、４巻、５６０頁；Ｂａｒｒｉｎｇｅｒら（１９９０年）、Ｇｅｎｅ、８９巻、１１７頁、ならびにＳｏｏｋｎａｎａｎおよびＭａｌｅｋ（１９９５年）、Ｂｉｏｔｅｃｈｎｏｌｏｇｙ、１３巻：５６３〜５６４頁に見つかる。増幅核酸をｉｎｖｉｔｒｏでクローニングする改良方法は、Ｗａｌｌａｃｅら、米国特許第５，４２６，０３９号に記載されている。ＰＣＲによって大きい核酸を増幅する改良方法は、Ｃｈｅｎｇら（１９９４年）、Ｎａｔｕｒｅ、３６９巻：６８４〜６８５頁、およびその中の参考文献に要約されており、これらの中で最大で４０ｋｂのＰＣＲアンプリコンが生成されている。本質的に任意のＲＮＡを、制限消化、ＰＣＲ拡大、ならびに逆転写酵素およびポリメラーゼを使用するシーケンシングに適した二本鎖ＤＮＡに変換することができることを当業者は理解する。Ａｕｓｕｂｅｌ、Ｓａｍｂｒｏｏｋ、およびＢｅｒｇｅｒ、すべて上記を参照。

一好適な方法では、再アセンブルされた配列が、ファミリーベース組換えオリゴヌクレオチドの組込みについて点検される。これは、例えば、Ｓａｍｂｒｏｏｋ、Ｂｅｒｇｅｒ、およびＡｕｓｕｂｅｌ、上記に本質的に教示されているように、核酸をクローニングおよびシーケンシングすることによって、かつ／または制限消化によって行うことができる。さらに、配列をＰＣＲ増幅し、直接シーケンシングすることができる。したがって、例えば、Ｓａｍｂｒｏｏｋ、Ｂｅｒｇｅｒ、Ａｕｓｕｂｅｌ、およびＩｎｎｉｓ（上記）に加えて、追加のＰＣＲシーケンシング方法論も特に有用である。例えば、ＰＣＲ中のホウ素化ヌクレアーゼ耐性ヌクレオチドのアンプリコン中への選択的な組み込み、および大きさを合わせた鋳型断片を生成するためのヌクレアーゼを用いたアンプリコンの消化によるＰＣＲ生成アンプリコンの直接シーケンシングが実施された（Ｐｏｒｔｅｒら（１９９７年）、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ、２５巻（８号）：１６１１〜１６１７頁）。この方法では、鋳型に対して４つのＰＣＲ反応が実施され、その各々において、ＰＣＲ反応混合物中のヌクレオチド三リン酸の１つが２’デオキシヌクレオシド５’−［Ｐ−ボラノ］−三リン酸と部分的に置換される。ホウ素化ヌクレオチドは、鋳型のＰＣＲ断片の入れ子集合においてＰＣＲアンプリコンに沿った様々な位置でＰＣＲ生成物中に確率論的に組み込まれる。組み込まれたホウ素化ヌクレオチドによって遮断されたエキソヌクレアーゼがＰＣＲアンプリコンを切断するために使用される。次いで切断されたアンプリコンは、ポリアクリルアミドゲル電気泳動を使用してサイズによって分離され、アンプリコンの配列をもたらす。この方法の利点は、それが、ＰＣＲアンプリコンの標準的なサンガースタイルシーケンシングを実施するより、少ない生化学的操作を使用することである。

合成遺伝子は、慣例的なクローニングおよび発現手法に適用でき、したがって、遺伝子およびこれらがコードするタンパク質の性質は、宿主細胞内でこれらを発現させた後に容易に検査することができる。合成遺伝子は、ｉｎｖｉｔｒｏ（無細胞）転写および翻訳によってポリペプチド生成物を生成するためにも使用することができる。したがって、ポリヌクレオチドおよびポリペプチドを、様々な所定のリガンド、低分子、およびイオン、または他のタンパク質およびポリペプチドエピトープを含めたポリマーおよびヘテロポリマー物質、ならびに微生物細胞壁、ウイルスの粒子、表面、および膜に結合するこれらの能力について検査することができる。

例えば、多くの物理的な方法を、直接ポリヌクレオチドによる、またはコードされたポリペプチドによる化学反応の触媒作用に関連した表現型をコードするポリヌクレオチドを検出するために使用することができる。もっぱら例示の目的のために、かつ目的の特定の所定の化学反応の細目に応じて、これらの方法は、基質（複数可）と生成物（複数可）との間の物理的差異、または化学反応と関連した反応媒体の変化（例えば、電磁放射線、吸着、散逸、および蛍光（ＵＶ、可視、もしくは赤外（熱）であってもなくても）の変化）を説明する当技術分野で公知の多数の技法を含み得る。これらの方法は、以下のうちの任意の組合せから選択することができる：質量分析；核磁気共鳴；同位体分布または標識生成物形成を説明する同位体標識材料、分割法およびスペクトル法；反応生成物（複数可）のイオンまたは元素の組成における付随する変化（ｐＨ、無機および有機イオンなどの変化を含む）を検出するためのスペクトル法および化学的方法。本明細書の方法で使用するために適した物理的なアッセイの他の方法は、レポーター性質を有する抗体を含むもの、またはレポーター遺伝子の発現および活性とカップリングしたｉｎｖｉｖｏ親和性認識に基づくものを含めた反応生成物（複数可）に特異的なバイオセンサーの使用に基づくことができる。ｉｎｖｉｖｏでの反応生成物検出および細胞寿命−細胞死−細胞増殖選択のための酵素併用アッセイも、適切な場合使用することができる。物理的なアッセイの特異的な性質にかかわらず、これらはすべて、目的の生体分子によってもたらされ、またはコードされる所望の活性または所望の活性の組合せを選択するために使用される。

選択に使用される具体的なアッセイは、用途に依存することになる。タンパク質、受容体、リガンド、酵素、基質などについての多くのアッセイが公知である。フォーマットとしては、固定化されたコンポーネントへの結合、細胞または生物生存能、レポーター組成物の生成などがある。

ハイスループットアッセイは、本発明で使用されるライブラリーをスクリーニングするために特に適している。ハイスループットアッセイでは、１日で、最大で数千の異なるバリアントをスクリーニングすることが可能である。例えば、マイクロタイタープレートの各ウェルを、別個のアッセイを走らせるために使用することができ、または濃度もしくはインキュベーション時間効果が観察される場合、５〜１０ウェル毎に、単一のバリアントを（例えば、異なる濃度で）試験することができる。したがって、単一の標準的なマイクロタイタープレートは、約１００（例えば、９６）の反応をアッセイすることができる。１５３６ウェルプレートが使用される場合、単一のプレートは、約１００〜約１５００の異なる反応を容易にアッセイすることができる。１日当たりに数個の異なるプレートをアッセイすることが可能であり、最大で約６，０００〜２０，０００の異なるアッセイ（すなわち、異なる核酸、コードされるタンパク質、濃度などを伴う）のアッセイスクリーニングが、本発明の総合システムを使用して可能である。さらに最近では、試薬操作に対するマイクロ流体手法が、例えば、ＣａｌｉｐｅｒＴｅｃｈｎｏｌｏｇｉｅｓ（ＭｏｕｎｔａｉｎＶｉｅｗ、ＣＡ）によって開発されており、これは、非常にハイスループットなマイクロ流体アッセイ方法をもたらすことができる。

ハイスループットスクリーニングシステムは、市販されている（例えば、ＺｙｍａｒｋＣｏｒｐ．、Ｈｏｐｋｉｎｔｏｎ、ＭＡ；ＡｉｒＴｅｃｈｎｉｃａｌＩｎｄｕｓｔｒｉｅｓ、Ｍｅｎｔｏｒ、ＯＨ；ＢｅｃｋｍａｎＩｎｓｔｒｕｍｅｎｔｓ，Ｉｎｃ．、Ｆｕｌｌｅｒｔｏｎ、ＣＡ；ＰｒｅｃｉｓｉｏｎＳｙｓｔｅｍｓ，Ｉｎｃ．、Ｎａｔｉｃｋ、ＭＡなどを参照）。これらのシステムは、典型的には、すべての試料および試薬のピペット操作、液体分注、時限インキュベーション、ならびにアッセイに適切な検出器（複数可）におけるマイクロプレートの最終的な読み取りを含む全手順を自動化する。これらの構成可能なシステムは、ハイスループットで迅速な開始、ならびに高度の柔軟性およびカスタマイゼーションを提供する。

このようなシステムの製造者は、様々なハイスループットスクリーニングアッセイのための詳細なプロトコルを提供している。したがって例えば、ＺｙｍａｒｋＣｏｒｐ．は、遺伝子転写の調節、リガンド結合などを検出するためのスクリーニングシステムを記載する技術告示を提供している。

例えば、ＰＣ（Ｉｎｔｅｌｘ８６もしくはペンティアム（登録商標）チップ互換性のＭＡＣＯＳ、ＷＩＮＤＯＷＳ（登録商標）ファミリー、またはＵＮＩＸ（登録商標）ベース（例えば、ＳＵＮ^ＴＭワークステーション）コンピューターを使用して、デジタル化されたビデオ、またはデジタル化された光学もしくは他のアッセイ画像をデジタル化、記憶、および分析するために、様々な市販の周辺装置およびソフトウェアが利用可能である。

分析用システムは、典型的には、本明細書の方法の１つまたはそれより多くのステップを指示するためのソフトウェアを使用する特殊なアルゴリズムを実施するように具体的にプログラムされたデジタルコンピューターを含み、かつ任意選択で、例えば、次世代シーケンシングプラットフォーム制御ソフトウェア、ハイスループット液体制御ソフトウェア、画像解析ソフトウェア、データ解釈ソフトウェア、源からデジタルコンピューターに作動可能に連結した移動先に溶液を移動させるためのロボット液体制御アーマチュア、ロボット液体制御アーマチュアによるオペレーションまたはハイスループット液体移動を制御するためにデジタルコンピューターにデータを入力するための入力デバイス（例えば、コンピューターキーボード）、および任意選択で、標識されたアッセイコンポーネントからの標識シグナルをデジタル化するためのイメージスキャナーも含む。イメージスキャナーは、プローブ標識強度の測定値をもたらすように画像解析ソフトウェアとインターフェースをとることができる。典型的には、プローブ標識強度測定値は、データ解釈ソフトウェアによって解釈されて、標識プローブが固体支持体上のＤＮＡにハイブリダイズするか否かが示される。

一部の実施形態では、ｉｎｖｉｔｒｏオリゴヌクレオチド媒介組換え生成物、またはｉｎｓｉｌｉｃｏで組み換えられた核酸の物理的な実施形態を含む細胞、ウイルスプラーク、胞子などは、固体培地上で分離されて個々のコロニー（またはプラーク）を生成することができる。自動コロニーピッカー（例えば、Ｑ−ｂｏｔ、Ｇｅｎｅｔｉｘ、Ｕ．Ｋ．）を使用して、コロニーまたはプラークが識別され、摘み取られ、最大で１０，０００の異なる変異体が、２個の３ｍｍのガラス玉／ウェルを含む９６ウェルマイクロタイター皿に接種される。Ｑ−ｂｏｔは、コロニー全体を摘み取るのではなく、コロニーの中心を通じてピンを挿入し、細胞（または菌糸体）および胞子（またはプラーク用途におけるウイルス）を少し試料採取して終了する。ピンがコロニー中に存在する時間、培養培地に接種するためのディップの数、ピンがその培地中に存在する時間、各効果の接種量、および各パラメータは、制御および最適化することができる。

Ｑ−ｂｏｔなどの自動コロニーピッキングの均一なプロセスにより、人のハンドリング誤差が減少し、培養を確立する速度が増大する（おおよそ１０，０００／４時間）。これらの培養物は、温度および湿度が制御されたインキュベーター内で任意選択で振盪される。マイクロタイタープレート中の任意選択のガラス玉は、発酵槽のブレードと同様に細胞の均一な通気および細胞（例えば、菌糸体）断片の分散を促進するように作用する。目的の培養物に由来するクローンは、限界希釈によって単離することができる。やはり上記に記載したように、ライブラリーを構成するプラークまたは細胞は、ハイブリダイゼーション、タンパク質活性、抗体へのタンパク質結合などのいずれかを検出することによって、タンパク質の生成について直接スクリーニングすることもできる。十分なサイズのプールを識別する機会を増大させるために、処理される変異体の数を１０倍増大させるプレスクリーニングを使用することができる。一次スクリーニングの目標は、親株（複数可）と等しい、またはそれより良好な生成物力価を有する変異体を迅速に識別すること、およびこれらの変異体のみを後続の分析のために液体細胞培養に進めることである。

多様なライブラリーをスクリーニングする一手法は、大量並列固相手順を使用してポリヌクレオチドバリアント、例えば、酵素バリアントをコードするポリヌクレオチドを発現する細胞をスクリーニングすることである。吸収、蛍光、またはＦＲＥＴを使用する大量並列固相スクリーニング装置が利用可能である。例えば、Ｂｙｌｉｎａらの米国特許第５，９１４，２４５号（１９９９年）を参照。ｈｔｔｐ：／／ｗｗｗ｜．｜ｋａｉｒｏｓ−ｓｃｉｅｎｔｉｆｉｃ．ｃｏｍ／；Ｙｏｕｖａｎら（１９９９年）「ＦｌｕｏｒｅｓｃｅｎｃｅＩｍａｇｉｎｇＭｉｃｒｏ−Ｓｐｅｃｔｒｏｐｈｏｔｏｍｅｔｅｒ（ＦＩＭＳ）」、Ｂｉｏｔｅｃｈｎｏｌｏｇｙその他、＜ｗｗｗ｜．｜ｅｔ−ａｌ．ｃｏｍ＞、１巻：１〜１６頁；Ｙａｎｇら（１９９８年）、「ＨｉｇｈＲｅｓｏｌｕｔｉｏｎＩｍａｇｉｎｇＭｉｃｒｏｓｃｏｐｅ（ＨＩＲＩＭ）」、Ｂｉｏｔｅｃｈｎｏｌｏｇｙその他、＜ｗｗｗ｜．｜ｅｔ−ａｌ．ｃｏｍ＞、４巻：１〜２０頁；およびｗｗｗ｜．｜ｋａｉｒｏｓ−ｓｃｉｅｎｔｉｆｉｃ．ｃｏｍ．に書き込まれたＹｏｕｖａｎら（１９９９年）、「ＣａｌｉｂｒａｔｉｏｎｏｆＦｌｕｏｒｅｓｃｅｎｃｅＲｅｓｏｎａｎｃｅＥｎｅｒｇｙＴｒａｎｓｆｅｒｉｎＭｉｃｒｏｓｃｏｐｙＵｓｉｎｇＧｅｎｅｔｉｃａｌｌｙＥｎｇｉｎｅｅｒｅｄＧＦＰＤｅｒｉｖａｔｉｖｅｓｏｎＮｉｃｋｅｌＣｈｅｌａｔｉｎｇＢｅａｄｓ」も参照。これらの技法によってスクリーニングされた後、目的の分子は、典型的には単離され、当技術分野で公知である方法を使用して任意選択でシーケンシングされる。次いで配列情報が本明細書に示したように使用されて、新しいタンパク質バリアントライブラリーが設計される。

同様に、いくつかの周知のロボットシステムも、アッセイシステムで有用な溶液相化学反応のために開発された。これらのシステムとしては、ＴａｋｅｄａＣｈｅｍｉｃａｌＩｎｄｕｓｔｒｉｅｓ，ＬＴＤ．（大阪、日本）によって開発された自動合成装置のような自動ワークステーション、および科学者によって実施されるマニュアル合成操作を模倣する、ロボットアームを利用する多くのロボットシステム（ＺｙｍａｔｅＩＩ、ＺｙｍａｒｋＣｏｒｐｏｒａｔｉｏｎ、Ｈｏｐｋｉｎｔｏｎ、Ｍａｓｓ．；Ｏｒｃａ、ＢｅｃｋｍａｎＣｏｕｌｔｅｒ，Ｉｎｃ．（Ｆｕｌｌｅｒｔｏｎ、ＣＡ））がある。上記デバイスのいずれも、本発明で使用するために、例えば、本明細書に記載されるように進化させられた核酸によってコードされる分子のハイスループットスクリーニングに適している。これらのデバイスを本明細書に論じたように操作することができるようにこれらを改良すること（もしあれば）の特質および実施は、当業者に明らかとなるであろう。
（ＶＩＩ．デジタル装置およびシステム）

明らかであるはずであるように、本明細書に記載の実施形態は、１つまたはそれより多くのコンピューターシステム内に記憶された、またはこれらによって移された命令および／またはデータの制御下で作用するプロセスを使用する。本明細書に開示の実施形態は、これらのオペレーションを実施するための装置にも関する。一部の実施形態では、装置は、要求される目的のために特別に設計および／または構築されており、またはこれは、コンピューター中に記憶されたコンピュータープログラムおよび／またはデータ構造によって選択的に稼働させられ、または再構成される汎用コンピューターであり得る。本開示によって提供されるプロセスは、任意の特定のコンピューターまたは他の具体的な装置に本質的に関係しない。特に、様々な汎用マシンが、本明細書の教示に従って書かれたプログラムを用いた使用を見出す。しかし、一部の実施形態では、特殊な装置が、要求される方法のオペレーションを実施するために構築される。様々なこれらのマシンについての特定の構造の一実施形態を以下に記載する。

さらに、本開示のある特定の実施形態は、様々なコンピューター実装されたオペレーションを実施するためのプログラム命令および／またはデータ（データ構造を含む）を含むコンピューター読み取り可能な媒体またはコンピュータープログラム製品に関する。コンピューター読み取り可能な媒体の例としては、それだけに限らないが、ハードディスクなどの磁気媒体；ＣＤ−ＲＯＭデバイスおよびホログラフィックデバイスなどの光媒体；光磁気媒体；ならびにフラッシュメモリーなどの半導体メモリーデバイスがある。ハードウェアデバイス、例えば、リードオンリーメモリーデバイス（ＲＯＭ）およびランダムアクセスメモリデバイス（ＲＡＭ）などが、プログラム命令を記憶するために構成され得る。ハードウェアデバイス、例えば、特定用途向け集積回路（ＡＳＩＣ）およびプログラマブルロジックデバイス（ＰＬＤ）などが、プログラム命令を実行し、記憶するために構成され得る。本開示がコンピューター実装されたオペレーションを実施するための命令および／またはデータを含むどんな特定のコンピューター読み取り可能な媒体またはどんな他のコンピュータープログラム製品にも限定されることは意図されていない。

プログラム命令の例としては、それだけに限らないが、コンパイラーによって生成されるものなどの低レベルコード、およびインタープリターを使用してコンピューターによって実行され得るより高いレベルのコードを含むファイルがある。さらに、プログラム命令としては、それだけに限らないが、マシンコード、ソースコード、および本開示に従って計算機のオペレーションを直接または間接的に制御する任意の他のコードが含まれる。コードは、入力、出力、算出、条件文、ブランチ、反復ループなどを指定し得る。

１つの例示的な例において、本明細書で開示された方法を具体化するコードは、適切に設計されたコンピューティングデバイスにロードされた場合に、デバイスに、１つまたは複数のリガンドと相互作用する１つまたは複数の生体分子バリアントの仮想スクリーニングを実施させる論理命令および／またはデータを含有する固定媒体または伝達可能なプログラム要素で具体化される。図４は、媒体８１７、ネットワークポート８１９、ユーザー入力キーボード８０９、ユーザー入力８１１、または他の入力手段からの命令を読むことができる論理装置である例示的なデジタルデバイス８００を示す。その後、装置８００は、それらの命令を使用して、例えば、リガンド部分と活性部位、コファクターなどの１つまたは複数の特徴との幾何学的関係を評価するための（例えば、活性部位中の天然基質の位置と、タンパク質バリアントの活性部位中の検討中の基質の位置との間の距離を決定するための）データ空間中での統計オペレーションを指示することができる。開示した実施形態を具現化することができる一タイプの論理装置は、ＣＰＵ８０７、任意選択のユーザー入力デバイスキーボード８０９、およびＧＵＩポインティングデバイス８１１、ならびに周辺コンポーネント、例えば、ディスクドライブ８１５およびモニター８０５（これは、ＧＯ改変された文字列をディスプレイし、ユーザーによるこのような文字列のサブセットの簡易化された選択をもたらす）などを含むコンピューターシステム８００のようなコンピューターシステムである。固定媒体８１７が、総合システムをプログラムするために任意選択で使用され、これらとして、例えば、ディスクタイプ光媒体もしくは磁気媒体、または他の電子メモリー記憶素子を挙げることができる。通信ポート８１９をシステムをプログラムするために使用することができ、これは、任意のタイプの通信接続を表すことができる。

ある特定の実施形態は、特定用途向け集積回路（ＡＳＩＣ）またはプログラマブルロジックデバイス（ＰＬＤ）の電気回路内でも具現化することができる。このような場合では、実施形態は、ＡＳＩＣまたはＰＬＤを作製するために使用することができるコンピューター読み取り可能な記述言語で実装される。本開示の一部の実施形態は、様々な他のデジタル装置、例えば、ＰＤＡ、ラップトップコンピューターシステム、ディスプレイ、画像編集設備などの電気回路または論理プロセッサー内で実装される。

一部の実施形態では、本開示は、コンピューターシステムの１つまたはそれより多くのプロセッサーによって実行されると、コンピューターシステムにタンパク質バリアントの仮想スクリーニングおよび／または所望の活性を有するタンパク質のｉｎｓｉｌｉｃｏ指向進化のための方法を実装させるコンピューター実行可能命令を記憶した１つまたはそれより多くのコンピューター読み取り可能な記憶媒体を含むコンピュータープログラム製品に関する。このような方法は、図および疑似コードによって包含されるものなどの本明細書に記載の任意の方法であり得る。一部の実施形態では、例えば、本方法は、複数の酵素に関する配列データを受け取り、生体分子の３次元ホモロジーモデルを生成し、酵素のホモロジーモデルを基質の１つまたは複数の計算上の表示とドッキングし、所望の触媒活性および選択性を有する酵素を選択する。一部の実施形態では、本方法は、スクリーニングプロセスによって高くランク付けされたバリアントからバリアントライブラリーをさらに開発することができる。バリアントライブラリーは、繰り返しの指向進化およびスクリーニングで使用することができ、これは所望の有益な性質を有する酵素をもたらすことができる。

一部の実施形態では、酵素のホモロジーモデルの基質の１つまたはそれより多くの計算上の表示とのドッキングは、本明細書に記載の様式でリガンドの計算上の表示および複数のバリアントの活性部位の計算上の表示を使用するコンピューターシステム上のドッキングプログラムによって行われる。様々な実施形態では、ドッキングを決定するための方法は、基質および酵素のポーズ間の結合エネルギーを評価することを含む。リガンドとうまくドッキングするタンパク質バリアントについて、仮想タンパク質スクリーニングシステムは、検討中のタンパク質バリアントの活性部位におけるリガンドの計算上の表示の複数のポーズを検討して、存在する場合、複数のポーズのどれが活性であるかを決定する。様々な実施形態では、活性ポーズを決定するための方法は、リガンド中の１つまたは複数の原子と、タンパク質および／またはそのタンパク質に会合するコファクター中の１つまたは複数の原子との相対的な位置の範囲を規定する地理的な制約を評価することを含む。
（ＶＩＩＩ．ウェブサイトおよびクラウドコンピューティングにおける実施形態）

インターネットは、通信リンクによって相互接続されたコンピューター、情報家電、およびコンピューターネットワークを含む。相互接続したコンピューターは、様々なサービス、例えば、電子メール、ｆｔｐ、ワールドワイドウェブ（「ＷＷＷ」）、およびセキュアなサービスを含めた他のサービスなどを使用して情報を交換する。ＷＷＷサービスは、サーバーコンピューターシステム（例えば、Ｗｅｂサーバーまたはウェブサイト）が情報のウェブページを遠隔のクライアントの情報家電またはコンピューターシステムに送ることを可能にするものとして理解することができる。そのとき遠隔のクライアントコンピューターシステムは、ウェブページをディスプレイすることができる。一般に、ＷＷＷの各リソース（例えば、コンピューターまたはウェブページ）は、ユニフォームリソースロケーター（「ＵＲＬ」）によってユニークに識別可能である。具体的なウェブページを閲覧し、またはそれと相互作用するために、クライアントコンピューターシステムは、リクエストでそのウェブページのＵＲＬを指定する。リクエストは、そのウェブページをサポートするサーバーに転送される。サーバーがリクエストを受け取ると、これは、そのウェブページをクライアント情報システムに送る。クライアントコンピューターシステムがそのウェブページを受け取ると、これは、ブラウザを使用してウェブページをディスプレイすることができ、またはウェブページまたは別段に提供されるインターフェースと相互作用することができる。ブラウザは、ウェブページをリクエストすること、およびウェブページをディスプレイすることまたはそれと相互作用することを行う論理モジュールである。

現在、表示可能なウェブページは、典型的にはハイパーテキストマークアップ言語（「ＨＴＭＬ」）を使用して定義される。ＨＴＭＬは、ウェブページがどのようにディスプレイされるべきかを定義するタグの標準セットを提供する。ＨＴＭＬドキュメントは、テキスト、グラフィックス、コントロール、および他の特徴をディスプレイすることを制御する様々なタグを含む。ＨＴＭＬドキュメントは、そのサーバーコンピューターシステムまたは他のサーバーコンピューターシステム上で利用可能な他のウェブページのＵＲＬを含み得る。ＵＲＬは、必ずしもユーザーに情報をディスプレイすることなく、遠隔情報家電またはサーバーと通信するために情報家電が使用するＣＧＩスクリプトまたは実行可能なインターフェースのようなものなどを含めた他のタイプのインターフェースを示すこともできる。

インターネットは特に、１人または複数の遠隔の顧客に情報サービスを提供する助けになる。サービスは、インターネットによって購入者に電子的に送達されるアイテム（例えば、音楽または株価）を含むことができる。サービスは、慣例的な流通チャネル（例えば、一般的なキャリア）によって送達され得るアイテム（例えば、食料品、書籍、または化学的もしくは生物学的化合物など）の注文のハンドリングも含むことができる。サービスは、購入者が後の時間にアクセスする航空会社または劇場の予約などのアイテムの注文のハンドリングも含み得る。サーバーコンピューターシステムは、利用可能であるアイテムまたはサービスを列挙するインターフェースの電子版を提供し得る。ユーザーまたは潜在的な購入者は、ブラウザを使用してインターフェースにアクセスし、目的の様々なアイテムを選択し得る。ユーザーが所望のアイテムの選択を完了したとき、次いでサーバーコンピューターシステムは、サービスを完了するために必要な情報をユーザーに促す場合がある。このトランザクション固有の注文情報は、購入者の名称もしくは他の識別、支払いの識別（企業の発注番号もしくはアカウント番号など）、または飛行情報などのサービスを完了するために必要な追加の情報を含み得る。

特に目的のサービスの中でも、インターネットおよび他のネットワークによって提供されることができるものは、生物学的データおよび生物学的データベースである。このようなサービスには、国立衛生研究所（ＮＩＨ）の国立バイオテクノロジー情報センター（ＮＣＢＩ）によって提供される様々なサービスが含まれる。ＮＣＢＩは、分子生物学、生化学、および遺伝学についての知識を記憶および分析するための自動システムを作製し；研究団体および医学界によるこのようなデータベースおよびソフトウェアの使用を促進し；全国的および国際的の両方でバイオテクノロジー情報を集める取り組みを調整し；生物学的に重要な分子の構造および機能を分析するためのコンピューターベース情報処理の高度な方法の研究を実施することを担当している。

ＮＣＢＩは、ＧｅｎＢａｎｋ（登録商標）ＤＮＡ配列データベースの責任を負っている。このデータベースは、個々の研究所、ならびに国際的なヌクレオチド配列データベース、ヨーロッパ分子生物学研究所（ＥＭＢＬ）、および日本のＤＮＡデータベース（ＤＤＢＪ）とのデータ交換によって提出された配列から構築されており、米国特許商標庁に提出される特許配列データを含む。ＧｅｎＢａｎｋ（登録商標）に加えて、ＮＣＢＩは、医学界および科学界のために様々なデータベースをサポートおよび配信する。これらとしては、オンライン版ヒトメンデル遺伝（ＯＭＩＭ）、３Ｄタンパク質構造の分子モデリングデータベース（ＭＭＤＢ）、ユニークヒト遺伝子配列コレクション（ＵｎｉｑｕｅＨｕｍａｎＧｅｎｅＳｅｑｕｅｎｃｅＣｏｌｌｅｃｔｉｏｎ）（ＵｎｉＧｅｎｅ）、ヒトゲノムの遺伝子地図、分類学ブラウザ、および国立がん研究所と共同したがんゲノム解剖学プロジェクト（ＣａｎｃｅｒＧｅｎｏｍｅＡｎａｔｏｍｙＰｒｏｊｅｃｔ）（ＣＧＡＰ）がある。Ｅｎｔｒｅｚは、ユーザーに配列、マッピング、分類学、および構造データへの統合アクセスを提供するＮＣＢＩのサーチ（ｓｅａｒｃｈ）および検索（ｒｅｔｒｉｅｖａｌ）システムである。Ｅｎｔｒｅｚは、配列および染色体マップのグラフィカルビューも提供する。Ｅｎｔｒｅｚの特徴は、関連した配列、構造、および参考文献を検索する能力である。本明細書に記載のＢＬＡＳＴは、全ＤＮＡデータベースに対して配列サーチを実行することができる、遺伝子および遺伝子の特徴を識別するためにＮＣＢＩで開発された配列類似性サーチのためのプログラムである。ＮＣＢＩによって提供されている追加のソフトウェアツールとしては、オープンリーディングフレームファインダー（ＯＲＦＦｉｎｄｅｒ）、電子ＰＣＲ、ならびに配列提出ツール（ｓｅｑｕｅｎｃｅｓｕｂｍｉｓｓｉｏｎｔｏｏｌ）であるＳｅｑｕｉｎおよびＢａｎｋＩｔがある。ＮＣＢＩの様々なデータベースおよびソフトウェアツールが、ＷＷＷから、ＦＴＰによって、またはｅ−ｍａｉｌサーバーによって利用可能である。さらなる情報は、ｗｗｗ｜．｜ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖで利用可能である。

インターネットによって利用可能な一部の生物学的データは、特別なブラウザ「プラグイン」または他の実行可能なコードで一般に閲覧されるデータである。このようなシステムの一例は、ＣＨＩＭＥ、生物学的な分子構造を含めた分子構造の相互作用的仮想３次元ディスプレイを可能にするブラウザのプラグインである。ＣＨＩＭＥに関するさらなる情報は、ｗｗｗ｜．｜ｍｄｌｃｈｉｍｅ．ｃｏｍ／ｃｈｉｍｅ／で利用可能である。

様々な会社および施設が生体化合物を注文するためのオンラインシステムを提供している。このようなシステムの例は、ｗｗｗ｜．｜ｇｅｎｏｓｙｓ．ｃｏｍ／ｏｌｉｇｏ＿ｃｕｓｔｉｎｆｏ．ｃｆｍまたはｗｗｗ｜．｜ｇｅｎｏｍｉｃｔｅｃｈｎｏｌｏｇｉｅｓ．ｃｏｍ／Ｑｂｒｏｗｓｅｒ２＿ＦＰ．ｈｔｍｌで見つけることができる。典型的には、これらのシステムは、所望の生体化合物（オリゴヌクレオチド、ＤＮＡ鎖、ＲＮＡ鎖、アミノ酸配列など）のいくつかの記述子を受け入れ、次いでリクエストされた化合物が製造され、溶液または他の適切な形態で顧客に発送される。

本明細書に提供される方法は、以下でさらに記載されるようにウェブサイト上で実装され得るので、本開示の一部の実施形態によって生成されるポリペプチドまたはポリヌクレオチドを伴う計算結果または物理的結果は、上述した生物情報および化合物と同様の様式でインターネットを通じて提供され得る。

さらに例示するために、本発明の方法を、ローカライズまたは分散コンピューティング環境で実装することができる。分散環境では、本方法は、複数のプロセッサーを含む単一のコンピューターまたは多数のコンピューターで実装され得る。コンピューターを例えば、共通のバスを通じてリンクすることができるが、より好ましくはコンピューター（複数可）は、ネットワーク上のノードである。ネットワークは、汎用または専用のローカルまたはワイドエリアネットワークとすることができ、ある特定の好適な実施形態では、コンピューターは、イントラネットまたはインターネットのコンポーネントであり得る。

インターネットの一実施形態では、クライアントシステムは、典型的にはウェブブラウザを実行し、Ｗｅｂサーバーを実行するサーバーコンピューターにカップリングされている。ウェブブラウザは、典型的には、ＩＢＭのＷｅｂＥｘｐｌｏｒｅｒ、Ｍｉｃｒｏｓｏｆｔのインターネットエクスプローラー、ＮｅｔＳｃａｐｅ、Ｏｐｅｒａ、またはＭｏｓａｉｃなどのプログラムである。Ｗｅｂサーバーは、典型的には、しかし必ずしもではないが、ＩＢＭのＨＴＴＰＤａｅｍｏｎまたは他のｗｗｗｄａｅｍｏｎ（例えば、プログラムのＬＩＮＵＸ（登録商標）ベース形式）などのプログラムである。クライアントコンピューターは、ラインによって、またはワイヤレスシステムを介してサーバーコンピューターと双方向でカップリングされている。次に、サーバーコンピューターは、ウェブサイト（ウェブサイトをホストしているサーバー）と双方向でカップリングされており、本発明の方法を実装するソフトウェアへのアクセスをもたらしている。

述べたように、イントラネットまたはインターネットに接続されているクライアントのユーザーは、クライアントに、本発明の方法の実装を提供するアプリケーション（複数可）をホストしているウェブサイト（複数可）の一部であるリソースをリクエストさせ得る。次いでサーバープログラム（複数可）は、リクエストを処理して指定されたリソースを返す（これらが現在利用可能であると仮定して）。標準的な命名規則（すなわち、ユニフォームリソースロケーター（「ＵＲＬ」））は、ハイパーテキスト転送プロトコル（「ｈｔｔｐ」）、ファイル転送プロトコル（「ｆｔｐ」）、ゴーファー、および広域情報サービス（「ＷＡＩＳ」）などのサブクラスを現在含む、いくつかのタイプのロケーション名を包含する。リソースがダウンロードされるとき、それは、追加のリソースのＵＲＬを含み得る。したがって、クライアントのユーザーは、彼または彼女が具体的にはリクエストしていなかった新しいリソースの存在を容易に学習することができる。

本発明の方法（複数可）を実装するソフトウェアは、真のクライアント−サーバーアーキテクチャ内でウェブサイトをホストするサーバー上で局所的に稼働することができる。したがって、クライアントコンピューターは、リクエストをホストサーバーに知らせ、これは、リクエストされた処理（複数可）を局所的に稼働させ、次いでクライアントに結果をダウンロードする。代わりに、本発明の方法を、本方法（複数可）のコンポーネントがクライアントによって局所的に実施される「マルチティア」フォーマットで実装することができる。これは、クライアントによるリクエストに対してサーバーからダウンロードされたソフトウェア（例えば、Ｊａｖａ（登録商標）アプリケーション）によって実装することができ、またはこれは、クライアント上に「永続的に」インストールされたソフトウェアによって実装することができる。

一実施形態では、本発明の方法を実装するアプリケーション（複数可）は、フレームに分配される。このパラダイムでは、特徴または機能性のコレクションほどではなく、代わりに別々のフレームまたはビューのコレクションとしてアプリケーションを見ることが有用である。例えば、典型的なアプリケーションは一般に、一組のメニューアイテムを含み、その各々は、特定のフレーム、すなわち、アプリケーションのある特定の機能性を顕在化する形式を呼び起こす。この観点で、アプリケーションは、コードのモノリシック体としてではなく、アプレットのコレクションまたは機能性の束として見られる。ブラウザ内からこのようにして、ユーザーは、ウェブページリンクを選択し、これはひいては、アプリケーションの特定のフレーム（すなわち、サブアプリケーション）を呼び起こす。したがって、例えば、１つまたはそれより多くのフレームは、生物学的分子（複数可）を１つまたはそれより多くのデータ空間に入力および／またはエンコードするための機能性を提供し得る一方、別のフレームは、データ空間のモデルを洗練するためのツールを提供する。

ある特定の実施形態では、本発明の方法は、例えば、以下の機能性（複数可）を提供する１つまたは複数のフレームとして実装される：２つまたはそれより多くの生物学的分子を文字列にエンコードして２つまたはそれより多くの異なる最初の文字列のコレクションをもたらす機能（複数可）であって、前記生物学的分子の各々は、サブユニットの選択されたセットを含む、機能；文字列から少なくとの２つの部分文字列を選択する機能；部分文字列を繋ぎ合わせて、最初の文字列の１つまたはそれより多くとほぼ同じ長さの１つまたはそれより多くの生成文字列を形成する機能；文字列のコレクションに生成文字列を付加（配置）する機能；酵素および基質の計算上の表示／モデルを作製およびマニピュレートする機能、基質（例えば、リガンド）の計算上の表示を酵素（例えば、タンパク質）の計算上の表示とドッキングする機能；分子モデルに分子動力学を適用する機能；分子を伴う化学反応に影響する分子同士間の様々な制約（例えば、基質部分と酵素活性部位との間の距離または角度）を算出する機能；および本明細書に示した任意の特徴を実施する機能。

これらの機能性の１つまたはそれより多くも、もっぱらサーバー上またはクライアントコンピューター上で実装され得る。これらの機能、例えば、生物学的分子のコンピューターモデルを作製またはマニピュレートするための機能は、ユーザーが生物学的分子の表示（複数可）を挿入またはマニピュレートすることができる１つまたはそれより多くのウィンドウを提供することができる。さらに、諸機能はまた任意選択で、ローカルネットワークおよび／またはイントラネットによってアクセス可能な私的なおよび／または公共のデータベースへのアクセスを提供し、それによってデータベース中に含まれる１つまたはそれより多くの配列を本発明の方法に入力することができる。したがって、例えば、一実施形態では、ユーザーは任意選択で、ＧｅｎＢａｎｋ（登録商標）のサーチをリクエストし、このようなサーチによって返された配列の１つまたはそれより多くをエンコーディングおよび／または多様性生成機能に入力する能力を有することができる。

コンピューターおよび／またはデータアクセス処理のイントラネットおよび／またはイントラネット実施形態を実装する方法は、当業者に周知であり、非常に詳細に文書提供されている（例えば、Ｃｌｕｅｒら（１９９２年）、「ＡＧｅｎｅｒａｌＦｒａｍｅｗｏｒｋｆｏｒｔｈｅＯｐｔｉｍｉｚａｔｉｏｎｏｆＯｂｊｅｃｔ−ＯｒｉｅｎｔｅｄＱｕｅｒｉｅｓ」、ＰｒｏｃＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ、ＳａｎＤｉｅｇｏ、Ｃａｌｉｆｏｒｎｉａ、１９９２年６月２〜５日、ＳＩＧＭＯＤＲｅｃｏｒｄ、２１巻、２号、１９９２年６月；Ｓｔｏｎｅｂｒａｋｅｒ，Ｍ．編；ＡＣＭＰｒｅｓｓ、３８３〜３９２頁；ＩＳＯ−ＡＮＳＩ、作業草案、「ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ−ＤａｔａｂａｓｅＬａｎｇｕａｇｅＳＱＬ」、ＪｉｍＭｅｌｔｏｎ編、ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎａｎｄＡｍｅｒｉｃａｎＮａｔｉｏｎａｌＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ、１９９２年７月；ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ、「ＯＤＢＣ２．０Ｐｒｏｇｒａｍｍｅｒ’ｓＲｅｆｅｒｅｎｃｅａｎｄＳＤＫＧｕｉｄｅ．ＴｈｅＭｉｃｒｏｓｏｆｔＯｐｅｎＤａｔａｂａｓｅＳｔａｎｄａｒｄｆｏｒＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）．^ＴＭａｎｄＷｉｎｄｏｗｓ（登録商標）ＮＴ^ＴＭ，ＭｉｃｒｏｓｏｆｔＯｐｅｎＤａｔａｂａｓｅＣｏｎｎｅｃｔｉｖｉｔｙ．ＴＭ．ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ」、１９９２年、１９９３年、１９９４年、ＭｉｃｒｏｓｏｆｔＰｒｅｓｓ、３〜３０頁および４１〜５６頁；ＩＳＯ作業草案、「ＤａｔａｂａｓｅＬａｎｇｕａｇｅＳＱＬ−Ｐａｒｔ２：Ｆｏｕｎｄａｔｉｏｎ（ＳＱＬ／Ｆｏｕｎｄａｔｉｏｎ）」、ＣＤ９０７５−２：１９９．ｃｈｉ．ＳＱＬ、１９９７年９月１１日などを参照）。ウェブベースアプリケーションに関する追加の該当する詳細は、ＳｅｌｉｆｏｎｏｖおよびＳｔｅｍｍｅｒによる「ＭＥＴＨＯＤＳＯＦＰＯＰＵＬＡＴＩＮＧＤＡＴＡＳＴＲＵＣＴＵＲＥＳＦＯＲＵＳＥＩＮＥＶＯＬＵＴＩＯＮＡＲＹＳＩＭＵＬＡＴＩＯＮＳ」という表題のＷＯ００／４２５５９に見つかる。

一部の実施形態では、ポリヌクレオチドまたはポリペプチド配列を探索、スクリーニング、および／または開発する方法は、コンピューターネットワークを介して分布した複数のプロセシングユニットおよびメモリーを含むコンピューターシステム上のマルチユーザーシステムとして実装することができ、ここでネットワークは、ＬＡＮ上のイントラネットおよび／またはインターネットを含み得る。一部の実施形態では、分散コンピューティングアーキテクチャは、計算およびデータ記憶のためにコンピューターネットワークを介して利用可能なコンピューターシステムのコレクションである「クラウド」を伴う。クラウドを伴うコンピューター環境は、クラウドコンピューティング環境と呼ばれる。一部の実施形態では、１人または複数のユーザーが、イントラネットおよび／またはインターネットを介して分布したクラウドのコンピューターにアクセスすることができる。一部の実施形態では、ユーザーは、上述したタンパク質バリアントをスクリーニングおよび／または開発する方法を実装するウェブクライアント、サーバーコンピューターによって遠隔でアクセスし得る。

クラウドコンピューティング環境を伴う一部の実施形態では、仮想計算機（ＶＭ）がサーバーコンピューター上にプロビジョニングされており、仮想計算機の結果をユーザーに送り返すことができる。仮想計算機（ＶＭ）は、コンピューターのソフトウェアベースエミュレーションである。仮想計算機は、仮定的コンピューターの仕様に基づき得るか、または実世界のコンピューターのコンピューターアーキテクチャおよび機能をエミュレートし得る。ＶＭの構造および機能は、当技術分野で周知である。典型的には、ＶＭは、システムハードウェアを含むホストプラットフォーム上にインストールされ、ＶＭ自体は、仮想システムハードウェアおよびゲストソフトウェアを含む。

ＶＭのホストシステムハードウェアは、１つまたはそれより多くの中央処理装置（ＣＰＵ）、メモリー、１つまたはそれより多くのハードディスク、および様々な他のデバイスを含む。ＶＭの仮想システムハードウェアは、１つまたはそれより多くの仮想ＣＰＵ、仮想メモリー、１つまたはそれより多くの仮想ハードディスク、および１つまたはそれより多くの仮想デバイスを含む。ＶＭのゲストソフトウェアは、ゲストシステムソフトウェアおよびゲストアプリケーションを含む。一部の実装では、ゲストシステムソフトウェアは、仮想デバイスのドライバーを伴ったゲストオペレーティングシステムを含む。一部の実装では、ＶＭのゲストアプリケーションは、上述した仮想タンパク質スクリーニングシステムの少なくとも１つの事例を含む。

一部の実施形態では、プロビジョニングされるＶＭの数は、解かれるべき問題の計算負荷に対して増減することができる。一部の実施形態では、ユーザーは、クラウドからの仮想計算機、仮想スクリーニングシステムを含むＶＭをリクエストすることができる。一部の実施形態では、クラウドコンピューティング環境は、ユーザーのリクエストに基づいてＶＭをプロビジョニングすることができる。一部の実施形態では、ＶＭは、イメージリポジトリー中に記憶させることができる以前に記憶されたＶＭイメージで存在し得る。クラウドコンピューティング環境は、イメージをサーチし、サーバーまたはユーザーシステムに転送することができる。次いでクラウドコンピューティング環境は、サーバーまたはユーザーシステム上でイメージを起動することができる。

ＩＸ．実施例
（実施例１）
以下の実施例は、酵素バリアントを仮想スクリーニングし、様々な実施形態を実施する所望の触媒活性および選択性を有する酵素を開発するプロセスを例示する。

まとめると、プロセスは、実際の酵素のパネルの３次元ホモロジーモデルを生成し、酵素パネルのメンバーを仮想スクリーニングして、（ａ）活性ポーズで基質とドッキングした、（ｂ）プロ−Ｓコンホメーションでドッキングした、（ｃ）活性ポーズで、かつプロ−Ｓコンホメーションでドッキングしたもののなかでも最も低い全結合エネルギー（またはドッキングスコア）を有した第１のバリアントを選択することを含んでいた。次いでプロセスは、ラウンド１の骨格または親配列として第１のバリアントを使用して、仮想指向進化のための仮想変異誘発技術を使用したラウンド１の仮想バリアントライブラリーを生成した。次いで、プロセスは、ラウンド１の仮想バリアントライブラリーのメンバーのモデルを生成し、ラウンド１の仮想バリアントライブラリーをスクリーニングし、ラウンド１の骨格を選択したときと類似した選択方法を使用してラウンド２の骨格として第２のバリアントを選択した。プロセスはまた、ラウンド１の仮想バリアントライブラリーから追加のバリアントも選択した。追加のバリアントは、（ａ）活性ポーズで基質とドッキングし、（ｂ）活性ポーズでドッキングするもののなかでも低い全結合エネルギー（またはドッキングスコア）を有した。次いでプロセスは、ラウンド２の骨格を追加のバリアントと組み換えて、ラウンド２のバリアントライブラリーに多様性を導入した。最終的に、プロセスは、バリアントをコンピューターによりモデリングし、スクリーニングし、選択して、ラウンド１およびラウンド２の骨格と比較して改善された活性および選択性を有する仮想酵素バリアントを得た。

より具体的には、本実施例のプロセスは、実際の酵素のパネルの１９４個のホモロジーモデルを生成するステップによって開始した。これらの酵素は、所望の基質に構造的または機能的に関連する天然基質を触媒する。プロセスは、所望の基質をホモロジーモデルにドッキングし、実際の酵素パネルのメンバーを仮想スクリーニングして、（ａ）活性ポーズで所望の基質とドッキングし、（ｂ）プロ−Ｓコンホメーションでドッキングした唯一のバリアントを見出した。活性ポーズでの結合の成功は、リガンドが、触媒的変換を受けるか、または結合部位との共有結合などのなんらかの所望の役割を果たす可能性が高いことを示唆していた。所望の基質およびパネルのメンバーのドッキングを、上記で詳細に説明されたドッキング方法によって実施した。所望の基質の機能的に関連する部分と天然基質とを、ドッキング空間中の同じＸ、Ｙ、Ｚ座標にこの２つの基質を置くことによって比較した。所望の基質のポーズが、活性であるか、プロ−Ｓであるか、またはプロ−Ｒであるかどうかを、所望の基質および天然基質の部分間の距離によって決定した。この実施例について、距離の基準を１．２５Åに設定した。基準値およびルール（距離の平均、最小、最大などが基準より小さいことが求められる）は、異なる適用において、および指向進化の様々なラウンドにおいて、調整が可能である。

このバリアントは、プロ−Ｓおよびプロ−Ｒコンホメーションの両方で基質と結合することができることが見出された。バリアントはそれほど選択的ではない可能性があると考えられた。所望の基質に関して活性でありＳ選択的な酵素を誘導するために、このバリアントをラウンド１の骨格として選択して、ｉｎｓｉｌｉｃｏの指向進化の第１のラウンドにおける変異誘発によって、ラウンド１のバリアントライブラリーを生成した。このラウンド１の骨格中の１５個の活性部位の位置が識別され、各位置につきラウンド１の骨格バリアントとは異なる１９種の可能性のあるアミノ酸があり、合計で２８５種の異なる可能性のある点変異があった。ラウンド１の進化において、ラウンド１のバリアントライブラリーのために１０００種の変異体が生成され、各変異体はランダムな数の変異を有し、ここでこのランダムな数は、平均＝４およびＳＤ＝２のガウス分布から選択された。２８５種の可能性のある点変異から、変異をランダムに選択した。

次いで、プロセスは、ポーズの活性および選択性を決定するための基準を、１．２５Åとは対照的により厳格な値である１Åに設定したことを除き、実際の酵素パネルに関して上述した方法に類似したドッキングおよびスクリーニング方法を使用した。プロセスは、活性でありプロ−Ｓのポーズで結合する全ての変異体のなかでも最も低い全結合エネルギーを有する変異を含むものとして１つのバリアントを識別した。実際に、このバリアントにおける変異は、望ましくないプロ−Ｒコンホメーションでの基質の結合を防ぎ、これは、選択性に関して有益な変異を示していた。したがってプロセスは、このバリアントを、ラウンド２の指向進化のための骨格として選択した。

しかしながら、０．３８３０３ｋｃａｌ／ｍｏｌのラウンド２の骨格の結合エネルギーは、ラウンド１の骨格に関して決定された結合エネルギー（−４．００５ｋｃａｌ／ｍｏｌ）と比較しても比較的高く、これは、進化により酵素の有益な性質をさらに改善できることを示唆していた。ラウンド２の指向進化を、ラウンド２の骨格に２９種の変異を導入することによってｉｎｓｉｌｉｃｏで実施した。ラウンド１の進化から得られた全てのバリアントのなかでも最も低い結合エネルギーを有するラウンド１のライブラリーの２９種のバリアントから、２９種の変異を誘導した。ラウンド２の進化において、１０００種の変異体を生成してラウンド２のバリアントライブラリーを生成し、各変異体は、ランダムな数の変異を有し、ここでこのランダムな数は、平均＝６およびＳＤ＝４のガウス分布から選択された。２９種のバリアントから誘導された２９種の可能性のある変異から、変異をランダムに選択した。

次いで、プロセスは、上述した方法に類似したドッキングおよびスクリーニング方法を使用して、ほとんどのバリアントが所望のプロ−Ｓコンホメーションのみでの基質との結合を選び、少なくとも１０種のバリアントが、ラウンド１およびラウンド２の骨格より優れた結合エネルギーを有することを決定した。ラウンド２の進化からの改善されたバリアントならびにラウンド１およびラウンド２の骨格の結合エネルギーに関しては、表１を参照されたい。表１のデータを示すことに加えて、図５は、ラウンド２の進化からの１０種の改善されたバリアント、ならびにラウンド１およびラウンド２の骨格の選択性を示す。この図は、酵素パネルの仮想スクリーニングは、最初に、低い結合エネルギーを有するがＳ−選択的ではないラウンド１の骨格を識別したことを例示する。次いでプロセスは、ｉｎｓｉｌｉｃｏの指向進化（変異誘発）を使用してＳ−選択性を改善し、ラウンド２の骨格を得た。最終的にプロセスは、ラウンド２の進化において基質結合を組換えにより改善し、所望の基質と高親和性を有しエナンチオ選択的な酵素バリアントを得た。

２ラウンドの進化でもたらされた多様性は、生物学的な遺伝子操作からアイデアを得た変異誘発および組換えによって生成した。一部の用途において、仮想タンパク質スクリーニング方法は、指向進化方法をガイドする配列−活性モデルと組み合わせてもよい。米国特許第７，７８３，４２８号に記載された方法にしたがう多重線形回帰技術を用いて配列活性モデルを構築した。図６Ａにおいて、配列活性モデルの予測された結合エネルギーは、配列の試験セットに関して仮想スクリーニングシステムにより得られた観察されたエネルギーに対してプロットされている。試験セットから除外された配列の検証セットを試験することによって、配列活性モデルのクロスバリデーションを行った。このモデルは、試験セットにおける分散の９０．９％（Ｒ^２＝０．９０９）を占める。図６Ｂにおけるクロスバリデーションのデータは、特定の位置に特定の変異を有する配列から結合エネルギーを予測することにおいて配列活性モデルが正確であったことを示し、検証セットにおいて分散の８２．９％（Ｒ^２＝０．８２９）を占める。

このモデルを使用して、変異誘発のためのアミノ酸を識別することができる。指向進化をガイドするために配列活性モデルを使用する他の方式のなかでも、１つの方式は、タンパク質活性への変異の寄与率を反映する特定の位置における特定の残基の特定の変異に関する回帰係数に依存する。具体的には、指向進化のプロセスは、配列−活性モデルの項の係数を評価して、仮想スクリーニングシステムによって計算された実質的な結合エネルギーに寄与する１つまたは複数のアミノ酸を識別することによって変異のための位置を選択することができた。例えば、この実施例において、変異１は大きい正の係数を有しており、これは、変異１が大幅に活性を増加させることを示唆している。図６Ｃを参照。それとは対照的に、変異２７は大きい負の係数を有しており、これは、図６Ｃで測定されたように、高い活性を得るためにこの変異は回避されるべきであることを示唆している。

（実施例２）
実施例２は、図７の上に示した反応のような、プロ−キラルケトンからのキラルアルコールのＲ−鏡像異性体についてのケトレダクターゼバリアントの仮想スクリーニングの実験的な検証を提供する。

プロセスは、ケトレダクターゼ酵素バリアントの２つの既存のパネル（各パネルにつき９６ウェルのフォーマット）の３次元ホモロジーモデルを生成し、ケトレダクターゼパネルの１９２種のメンバーを仮想スクリーニングして、（ａ）活性ポーズで基質とドッキングし、（ｂ）プロ−Ｒコンホメーションでドッキングし、（ｃ）好ましいドッキングスコアを有するバリアントを選択することを含んでいた。

プロセスは、活性でありエネルギー的に好ましいポーズをもたらすことができる２４種のバリアントを識別したが、さらなる開発およびスクリーニングのためにこれに優先順位を付けてもよい。仮想ｉｎｓｉｌｉｃｏスクリーニング結果の有用性および妥当性を検証するために、プロセスはさらに、標準的なプロトコルを用いて全ての１９２種のメンバーに対してｉｎｖｉｔｒｏのスクリーニングも実施し、高速液体クロマトグラフィー（ＨＰＬＣ）を用いて基質／生成物を検出した。

結果を図７に示し、ここでｘ軸は、（ピーク面積_{（Ｒ）−アルコール}＋ピーク面積_{（Ｓ）−アルコール}）÷（ピーク面積_{（Ｒ）−アルコール}＋ピーク面積_{（Ｓ）−アルコール}＋ピーク面積_ケトン）×１００％として計算された転換％であり、ｙ軸は、（ピーク面積_{（Ｒ）−アルコール}−ピーク面積_{（Ｓ）−アルコール}）÷（ピーク面積_{（Ｒ）−アルコール}＋ピーク面積_{（Ｓ）−アルコール}）×１００％として計算された所望のＲ生成物に対するｅ．ｅ．％（エナンチオ選択性の指標）である。仮想スクリーニングによって優先順位を付けられた２４種のバリアントを赤色の四角形として強調表示し、残りのバリアントを青色のひし形としてハイライトした。結果から、１）仮想スクリーニングは、任意のｉｎｖｉｔｒｏのスクリーニングの前に酵素バリアントのセットを用いて所望の転化が実現可能であるかどうかの決定を助けることができること；２）このような小さくフレキシブルな基質は通常、モデリングにとって難題であるとみなされているという事実にもかかわらず、相当量の予測されたバリアントが実際に高い活性（転化％）およびエナンチオ選択性（ｅ．ｅ．％）をもたらしたことが示唆される。それゆえに仮想スクリーニングは、ｉｎｖｉｔｒｏのスクリーニングのために起こる可能性が極めて低い反応をフィルタリングして除き、試験のためにより少ない試料を選択することができ（このケースでは１９２種に対して２４種）、それにより顕著な時間およびコストの節約をもたらすことができる。

（実施例３）
実施例３は、図８の上に示された反応のような立体選択的なＣ＝ＯのＣＨ−ＮＨ_２への還元に関するトランスアミナーゼの仮想指向進化の実験的な検証を提供する。

プロセスは、骨格の１２個の活性部位の位置のｉｎｓｉｌｉｃｏの飽和変異誘発から２２８種の仮想配列の３次元ホモロジーモデルを生成し（１２個の位置×位置１個当たり１９種のＡＡ＝２２８種のバリアント、バリアント１種当たり１種の変異）、２２８種の仮想バリアントを仮想スクリーニングして、（ａ）活性ポーズで基質とドッキングし、（ｂ）所望の立体選択性をもたらすコンホメーションでドッキングし、（ｃ）活性ポーズでかつ標的のコンホメーションでドッキングしたもののなかでも最も低い全結合エネルギーを有するバリアントを選択することを含んだ。

次いでプロセスは、活性でありエネルギー的に好ましいポーズをもたらすことができる１２種のバリアントまたは１２種の変異を識別した。１２種の変異を使用してライブラリーを合成し、これをｉｎｖｉｔｒｏでスクリーニングした。特許化されているプロトコルを用いて３６０種のバリアント（バリアント１種当たり１種または１種より多くの変異）に対してｉｎｖｉｔｒｏのスクリーニングを実施した。ＨＰＬＣを用いて基質／生成物を検出した。

図８にｉｎｖｉｔｒｏのスクリーニングからの最良のバリアントに関する結果を示し、ここでｘ軸は、スクリーニングされた試料であり、ｙ軸は、ＦＩＯＰＣであり、これは、陽性対照に対する改善の倍率（ＦｏｌｄＩｍｐｒｏｖｅｍｅｎｔＯｖｅｒＰｏｓｉｔｉｖｅＣｏｎｔｒｏｌ）と定義され、（転換_{バリアント}％−転換_陰性対照％）÷（転換_陽性対照％−転換_陰性対照％）×１００％として計算される。陽性対照は、仮想スクリーニングおよびｉｎｖｉｔｒｏのスクリーニングの骨格であり、陰性対照は、酵素を含まない空のベクターである。

ｉｎｖｉｔｒｏのライブラリースクリーニングは、１３％のＦＩＯＰＣ＞１．５を有するバリアントおよび５．３％のＦＩＯＰＣ＞２を有するバリアントをもたらした。最上位のヒットは、２．４のＦＩＯＰＣを有した。それゆえに仮想スクリーニングは、ｉｎｖｉｔｒｏのスクリーニングにとって有害な変異をフィルタリングして除き、より標的化されたライブラリーの設計を助けることができ、それにより顕著な時間およびコストの節約をもたらすことができる。例えば、本発明者らがｉｎｖｉｔｒｏで飽和変異誘発ステップを行わなければならない場合、少なくともさらなる８００種のバリアントをスクリーニングする必要がある。

上記は、明確さおよび理解の目的で幾分詳細に記載されたが、形式および詳細の様々な変更を本開示の真の射程から逸脱することなく行うことができることが、本開示を読むことによって当業者に明らかとなるであろう。例えば、上述したすべての技法および装置は、様々な組合せで使用され得る。本願で引用したすべての刊行物、特許、特許出願、または他の文書は、各個々の刊行物、特許、特許出願、または他の文献が、すべての目的に関して参照により組み込まれるように個々に示されているのと同じ程度に、すべての目的に関してその全体が参照により組み込まれている。

Claims

基質との活性について複数の異なる酵素バリアントをスクリーニングするための１つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステムを使用して実施される方法であって、
（ａ）各酵素バリアントごとに、該コンピューターシステムによって、該基質の計算上の表示を、該酵素バリアントの活性部位の計算上の表示にドッキングするステップであって、ドッキングは、（ｉ）該活性部位における該基質の複数のポーズを生成し、（ｉｉ）該活性部位における該基質のエネルギー的に好ましいポーズを識別する、ステップと、
（ｂ）各エネルギー的に好ましいポーズごとに、該ポーズが活性であるかどうかを決定するステップであって、活性ポーズは、該活性部位で触媒作用を受けるという該基質に関する１つまたは複数の制約を満たす、ステップと、
（ｃ）１つまたは複数の活性ポーズを有すると決定された該酵素バリアントの少なくとも１つを選択するステップと
を含む、方法。
前記基質に対して（ｃ）で選択された酵素バリアントの少なくとも１つを、化学反応を生じさせることによってスクリーニングするステップをさらに含む、請求項１に記載の方法。
前記基質の前記計算上の表示が、前記酵素活性に関する反応座標に沿って種を表示し、該種は、該基質、該基質の反応中間体、または該基質の遷移状態から選択される、前記請求項のいずれかに記載の方法。
前記複数の酵素バリアントが、複数の基質を転換することができる酵素のパネルを含み、該パネルのメンバーは、参照配列と比べて少なくとも１つの変異を有する、前記請求項のいずれかに記載の方法。
前記少なくとも１つの変異が、前記酵素の前記活性部位における単一残基の変異である、請求項４に記載の方法。
複数のバリアントが、酸化還元、トランスフェレーション、加水分解、異性化、ライゲーション、および加水分解、酸化、または還元以外の反応による化学結合の破断から選択される化学反応を触媒することができる１つまたは複数の酵素を含む、前記請求項のいずれかに記載の方法。
前記酵素が、オキシドレダクターゼ、トランスフェラーゼ、ヒドロラーゼ、イソメラーゼ、リガーゼ、およびリアーゼから選択される、請求項６に記載の方法。
前記複数のバリアントが、ケトンの還元、アミノ基転移反応、酸化、ニトリルの加水分解、イミンの還元、エノンの還元、アシル加水分解、およびハロヒドリンの脱ハロゲン化から選択される化学反応を触媒することができる１つまたは複数の酵素を含む、請求項６に記載の方法。
前記酵素が、ケトンレダクターゼ、トランスアミナーゼ、シトクロムＰ４５０、バイヤー−ビリガーモノオキシゲナーゼ、モノアミンオキシダーゼ、ニトリラーゼ、イミンレダクターゼ、エノンレダクターゼ、アシラーゼ、およびハロヒドリンデハロゲナーゼから選択される、請求項８に記載の方法。
前記複数のバリアントが、ｉｎｖｉｔｒｏおよび／またはｉｎｓｉｌｉｃｏの１つまたは複数のラウンドの指向進化によって生成されたライブラリーのメンバーを含む、前記請求項のいずれかに記載の方法。
前記複数のバリアントが、少なくとも約１０種の異なるバリアントを含む、前記請求項のいずれかに記載の方法。
前記複数のバリアントが、少なくとも約１０００種の異なるバリアントを含む、前記請求項のいずれかに記載の方法。
活性部位の前記計算上の表示が、前記複数のバリアントに関する３次元ホモロジーモデルから提供される、前記請求項のいずれかに記載の方法。
前記複数のバリアントに関する前記３次元ホモロジーモデルを生成するステップをさらに含む、請求項１３に記載の方法。
前記基質の前記計算上の表示が、該基質の３次元モデルである、前記請求項のいずれかに記載の方法。
複数の基質をスクリーニングするために適用される、前記請求項のいずれかに記載の方法。
天然基質が野生型酵素によって触媒された化学変換を受けるときの、該天然基質、該天然基質の反応中間体、または該天然基質の遷移状態の１つまたは複数のポーズを識別することによって、触媒された化学変換を受けるという該基質に関する制約を識別するステップをさらに含む、前記請求項のいずれかに記載の方法。
前記制約が、位置の制約、距離の制約、角度の制約、およびねじれの制約の１つまたは複数を含む、前記請求項のいずれかに記載の方法。
前記制約が、前記基質上の特定の部分と、前記活性部位における特定の残基または残基部分との間の距離を含む、前記請求項のいずれかに記載の方法。
前記制約が、前記基質上の特定の部分と、コファクター上の特定の残基または残基部分との間の距離を含む、前記請求項のいずれかに記載の方法。
前記制約が、前記基質上の特定の部分と、前記活性部位における理想的に配置された天然基質との間の距離を含む、前記請求項のいずれかに記載の方法。
前記複数の酵素バリアントに１つまたは複数の酵素の制約のセットを適用するステップをさらに含み、該１つまたは複数の酵素の制約は、天然基質が野生型酵素の存在下で触媒された化学変換を受ける場合の該野生型酵素の制約に類似している、前記請求項のいずれかに記載の方法。
前記基質の前記複数のポーズが、高温での分子動力学、ランダムなローテーション、グリッドベースのアニーリングのシミュレートによる改良、グリッドベースのまたは十分な力場の最小化、およびそれらのいずれかの組合せからなる群から選択される１つまたは複数のドッキングオペレーションにより得られる、前記請求項のいずれかに記載の方法。
リガンドの前記複数のポーズが、前記活性部位における前記基質の少なくとも約１０のポーズを含む、前記請求項のいずれかに記載の方法。
（ｃ）における前記選択するステップが、他のバリアントとの比較により、多数の活性ポーズを有すると決定されたバリアントを識別するステップを含む、前記請求項のいずれかに記載の方法。
（ｃ）における前記選択するステップが、
前記バリアントが有する活性ポーズの数、該活性ポーズのドッキングスコア、および該活性ポーズの結合エネルギーの１つまたは複数により該バリアントをランク付けするステップと、
該バリアントのランクに基づきバリアントを選択するステップと
を含む、前記請求項のいずれかに記載の方法。
前記ドッキングスコアが、ファンデルワールス力および静電相互作用に基づいている、請求項２６に記載の方法。
前記結合エネルギーが、ファンデルワールス力、静電相互作用、および溶媒和エネルギーの１つまたは複数に基づいている、請求項２６に記載の方法。
（ｃ）で選択された少なくとも１つのバリアントの少なくとも一部を含有するかまたはコードする複数のオリゴヌクレオチドを調製するステップと、
該複数のオリゴヌクレオチドを使用して１つまたは複数のラウンドの指向進化を実施するステップと
をさらに含む、前記請求項のいずれかに記載の方法。
複数のオリゴヌクレオチドを調製するステップが、前記オリゴヌクレオチドを核酸シンセサイザーを使用して合成するステップを含む、請求項２９に記載の方法。
１つまたは複数のラウンドの指向進化を実施するステップが、前記複数のオリゴヌクレオチドを断片化して組み換えるステップを含む、請求項２９から３０のいずれかに記載の方法。
１つまたは複数のラウンドの指向進化を実施するステップが、前記複数のオリゴヌクレオチドに対して飽和変異誘発を実施するステップを含む、請求項２９から３１のいずれかに記載の方法。
前記酵素バリアントの少なくとも１つが、所望の触媒活性および／または選択性を有する、前記請求項のいずれかに記載の方法。
（ｃ）で選択された前記酵素バリアントの少なくとも１つを合成するステップをさらに含む、前記請求項のいずれかに記載の方法。
コンピューターシステムの１つまたは複数のプロセッサーによって実行されるとき、該コンピューターシステムが酵素バリアントの仮想スクリーニングのための方法を実施するコンピューター実行可能命令を記憶した１つまたは複数のコンピューター可読非一時的記憶媒体を含むコンピュータープログラム製品であって、該命令は、
（ａ）各酵素バリアントごとに、基質の計算上の表示を、該酵素バリアントの活性部位の計算上の表示にドッキングするステップであって、ドッキングは、（ｉ）該活性部位における該基質の複数のポーズを生成し、（ｉｉ）該活性部位における該基質のエネルギー的に好ましいポーズを識別する、ステップと、
（ｂ）各エネルギー的に好ましいポーズごとに、該ポーズが活性であるかどうかを決定するステップであって、活性ポーズは、該活性部位で触媒作用を受けるという該基質に関する１つまたは複数の制約を満たす、ステップと、
（ｃ）１つまたは複数の活性ポーズを有すると決定された該酵素バリアントの少なくとも１つを選択するステップと
を含む、コンピュータープログラム製品。
コンピューターシステムの１つまたは複数のプロセッサーによって実行されるとき、該コンピューターシステムが請求項２から２８のいずれかに記載の方法を実施するコンピューター実行可能命令をさらに含む、請求項３５に記載のコンピュータープログラム製品。
１つまたは複数のプロセッサーと、
システムメモリーと
を含むシステムであって、
該１つまたは複数のプロセッサーおよびメモリーは、基質との活性について酵素バリアントを仮想スクリーニングするための方法を実施するように設計されており、該方法は、
（ａ）各酵素バリアントごとに、該基質の計算上の表示を、該酵素バリアントの活性部位の計算上の表示にドッキングするステップであって、ドッキングは、（ｉ）該活性部位における該基質の複数のポーズを生成し、（ｉｉ）該活性部位における該基質のエネルギー的に好ましいポーズを識別する、ステップと、
（ｂ）各エネルギー的に好ましいポーズごとに、該ポーズが活性であるかどうかを決定するステップであって、活性ポーズは、該活性部位で触媒作用を受けるという該基質に関する１つまたは複数の制約を満たす、ステップと、
（ｃ）１つまたは複数の活性ポーズを有すると決定された該酵素バリアントの少なくとも１つを選択するステップと
を含む、システム。
前記１つまたは複数のプロセッサーおよびメモリーが、請求項２から２８のいずれかに記載の方法を実施するように設計される、請求項３７に記載のシステム。
リガンドとの相互作用について複数のタンパク質バリアントをスクリーニングするための１つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステムを使用して実施される方法であって、
（ａ）各タンパク質バリアントごとに、該コンピューターシステムによって、該リガンドの計算上の表示を、該タンパク質バリアントの活性部位の計算上の表示にドッキングするステップであって、ドッキングは、（ｉ）該活性部位における該リガンドの複数のポーズを生成し、（ｉｉ）該活性部位における該リガンドのエネルギー的に好ましいポーズを識別する、ステップと、
（ｂ）各エネルギー的に好ましいポーズごとに、該ポーズが活性であるかどうかを決定するステップであって、活性ポーズは、タンパク質バリアントとの特定の相互作用を受けるという該リガンドに関する１つまたは複数の制約を満たす、ステップと、
（ｃ）１つまたは複数の活性ポーズを有すると決定された該タンパク質バリアントの少なくとも１つを選択するステップと
を含む、方法。
前記リガンドが、基質、基質の中間体、基質の遷移状態、基質の生成物、タンパク質バリアントの阻害剤、タンパク質バリアントのアゴニスト、およびタンパク質バリアントのアンタゴニストから選択される、請求項３９に記載の方法。