JP2008503589A

JP2008503589A - 機能的生体分子を同定するための方法、システムおよびソフトウェア

Info

Publication number: JP2008503589A
Application number: JP2007518248A
Authority: JP
Inventors: リチャードジョンフォックス，
Original assignee: マキシジェン，インコーポレイテッド
Priority date: 2004-06-22
Filing date: 2005-06-21
Publication date: 2008-02-07
Also published as: US20150065357A1; DK1761879T3; US20100004135A1; US20140249035A1; US8762066B2; WO2006002267A1; US20080220990A1; US9864833B2; US10453554B2; US7747393B2; US20080147369A1; US20050084907A1; EP1761879A1; US20100004136A1; US20070239364A1; EP1761879B1; US20080132416A1; US20100005047A1

Abstract

本発明は一般的に、生物学的に関連するデータスペースを迅速かつ効率的に検索する方法に関する。さらに詳細には、本発明は、所望の特性を有する生体分子を同定する方法、または、複雑な生体分子ライブラリもしくはこのようなライブラリのセットから、このような特性を獲得するために最も適切である方法を包含する。本発明はまた、配列活性関係をモデリングする方法を提供する。この方法の多くはコンピューターで実行されるので、本発明はさらに、これらの方法を行うためのデジタルシステムおよびソフトウェアを提供する。

Description

（関連出願への相互参照）
本願は、２００３年７月２９日に出願され、発明者としてＧｕｓｔａｆｓｓｏｎらを指定し、そして「Ｍｅｔｈｏｄｓ，Ｓｙｓｔｅｍｓ，ａｎｄＳｏｆｔｗａｒｅｆｏｒＩｄｅｎｔｉｆｙｉｎｇＦｕｎｃｔｉｏｎａｌＢｉｏ−Ｍｏｌｅｃｕｌｅｓ」という名称の、米国特許出願第１０／６２９，３５１号の一部継続出願である。この米国特許出願第１０／６２９，３５１号は、２００３年３月３日に出願され、発明者としてＧｕｓｔａｆｓｓｏｎらを指定し、そして「Ｍｅｔｈｏｄｓ，Ｓｙｓｔｅｍｓ，ａｎｄＳｏｆｔｗａｒｅｆｏｒＩｄｅｎｔｉｆｙｉｎｇＦｕｎｃｔｉｏｎａｌＢｉｏ−Ｍｏｌｅｃｕｌｅｓ」という名称の、米国特許出願第１０／３７９，３７８号の一部継続出願である。米国特許出願第１０／３７９，３７８号は、米国特許法第１１９（ｅ）条の下で、２００２年３月１日に出願された米国仮特許出願第６０／３６０，９８２号からの優先権を主張する。これらの文書の各々は、その全体が、全ての目的に対して、本明細書中に参考として援用される。

（背景）
本発明は、分子生物学、分子進化、バイオインフォマティクスおよびデジタルシステムの分野に関する。さらに詳細には、本発明は、生体分子の活性をコンピューターで予測するための方法に関する。デジタルシステムを含むシステム、およびこれらの方法を行うためのシステム・ソフトウェアも提供される。本発明の方法は、産業的な用途および治療用途のためのタンパク質の最適化において有用性を有する。

タンパク質デザインは、検索可能な配列スペースを構成する可能な分子の組み合わせ的な激増というだけの理由で、困難な課題であることが長らく公知である。タンパク質の配列スペースは、膨大であり、そして徹底的に探究することが不可能である。この複雑性の理由で、良好なタンパク質を設計するためには多くの近似手法が用いられている。それらの中で最重要なのは指向進化の方法である。タンパク質の指向進化は、今日では、しばしば反復して行われる、種々のハイスループットスクリーニングおよび組み換え方式によって支配される。

並行して、配列活性スペースを探索するために、種々のコンピューター技術が提唱されている。相対的に言って、これらの技術は、その初期にあり、そして大きな利点が依然として必要である。従って、機能的なタンパク質を同定するために配列スペースを効率的に検索するための新規な方法が極めて望ましい。

（要旨）
本発明は、非線形項、詳細には、この配列における２つ以上の残基の間の相互作用を説明する項を使用するモデルを生成し、そして用いるための技術を提供する。これらの非線形項は、相互作用に関係する残基の存在（または非存在）を各々が示す、２つ以上の変数の乗算を含む「外積（ｃｒｏｓｓｐｒｏｄｕｃｔ）」項であってもよい。ある実施形態では、本発明は、配列の活性を最も良好に記載する非線形項を選択するための技術に関する。残基の間に真の相互作用があるよりも、しばしばはるかに多い潜在的な非線形相互作用項が存在することに注目のこと。従って、オーバーフィッティング（ｏｖｅｒｆｉｔｔｉｎｇ）を回避するために、限られた数の非線形のみが代表的には使用されて、使用されるものは活性に影響する相互作用を反映するはずである。

本発明の１局面は、タンパク質改変体ライブラリにおけるバリエーションについてアミノ酸残基を同定するための方法を提供する。この方法は、以下の操作によって特徴づけられ得る：（ａ）タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容する工程（ｂ）このデータから、アミノ酸残基タイプの関数として活性を予測する配列活性モデルを構築する工程、およびあるタンパク質配列における位置に対応させる工程；ならびに（ｃ）この配列活性モデルを用いて所望の活性に影響を与えるバリエーションについて特定の位置で１つ以上のアミノ酸残基を同定する工程。この配列活性モデルは、１つ以上の非線形項を含み、その各々がタンパク質配列における２つ以上のアミノ酸残基の間の相互作用を示す。このトレーニングセットのデータは、このトレーニングセットにおける各々のタンパク質改変体についての活性および配列の情報を提供する。

このタンパク質改変体ライブラリは、種々の供給源由来のタンパク質を含んでもよい。１実施例では、このメンバーは、単一の遺伝子ファミリーのメンバーによってコードされるタンパク質のような天然に存在するタンパク質を包含する。別の実施例では、このメンバーは、組み換えベースの多様性生成機構を用いることによって得られたタンパク質を含む。例えば、ＤＮＡ断片化媒介性組み換え、合成オリゴヌクレオチド媒介性組み換え、またはその組み合わせは、この目的のために、１つ以上の天然に存在する親タンパク質の全てまたは一部をコードする核酸で行われ得る。さらに別の実施例では、このメンバーは、系統的に改変された配列を同定するためにＤＯＥを行なうことによって得られる。

ある実施形態では、少なくとも１つの非線形項は外積項であり、この外積項が１つの相互作用する残基の存在を示す１つの変数と、別の相互作用する残基の存在を示す別の変数との積を含む。この配列活性モデルの形式は、少なくとも１つの外積項および１つ以上の線形項の合計を含んでもよく、この線形項の各々が上記トレーニングセットにおける可変残基の存在を示す。この外積項は、異なる外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行する工程を、例えば、包含する、種々の技術によって、ある群の潜在的な外積項から選択されてもよい。

この配列活性モデルは、多くの異なる技術によってトレーニングセットから生成され得る。好ましい実施形態では、このモデルは、回帰モデル、例えば、部分最小自乗モデルまたは主成分回帰モデルである。別の実施例では、このモデルはニューラル・ネットワークである。

ある実施形態では、この方法はまた、（ｄ）上記配列活性モデルを用いて、新規なタンパク質改変体ライブラリに固定されたままである（改変されているのとは反対）１つ以上のアミノ酸残基を同定する工程を包含する。

固定またはバリエーションについて残基を同定するための配列活性モデルを用いることは、多くの異なる可能性のある分析的技術のいずれかに関与し得る。ある場合には、「参照配列（ｒｅｆｅｒｅｎｃｅｓｅｑｕｅｎｃｅ）」を用いてバリエーションを既定する。このような配列は、所望の活性の最高値（または最高値の１つ）を有することがモデルによって予測される配列であり得る。別の場合には、参照配列は、オリジナルのタンパク質改変体ライブラリのメンバーの配列であってもよい。この方法は、参照配列から、バリエーションを達成するための部分列（ｓｕｂｓｅｑｕｅｎｃｅ）を選択し得る。さらに、またはあるいは、この配列活性モデルは、所望の活性に対する影響順で残基位置（または特定の位置での特異的な残基）をランク付けする。

この方法の１つの目標は、新規なタンパク質改変体ライブラリを生成することであり得る。このプロセスの一部として、この方法は、この新規なライブラリを生成するために用いられるべき配列を同定してもよい。このような配列は、上記（ｃ）において同定される残基上にバリエーションを含むか、またはこのようなバリエーションを引き続き誘導するために用いられる前駆体である。この配列は、タンパク質改変体の新規なライブラリを生成するために突然変異誘発または組み換えに基づく多様性生成機構を行うことによって改変され得る。これは、指向進化手順の一部を形成し得る。この新規なライブラリはまた、新規な配列活性モデルを開発するのに用いられ得る。この新規なタンパク質改変体ライブラリは、特定の活性、例えば、安定性、触媒活性、治療活性、病原体または毒素に対する耐性、毒性などに対する効果を評価するために分析される。

ある実施形態では、この方法は、生成のために新規なタンパク質改変体ライブラリの１つ以上のメンバーを選択する工程を包含する。次いで、これらの１つ以上が発現系において合成および／または発現され得る。特定の実施形態では、この方法は以下の方式で続く：（ｉ）新規なタンパク質改変ライブラリの選択されたメンバーが発現され得る発現系を提供する工程；および（ｉｉ）新規なタンパク質改変体ライブラリの選択されたメンバーを発現する工程。

ある実施形態では、アミノ酸配列使用以外に、この方法は、モデルを作成して活性を予測するためにヌクレオチド配列を使用する。ヌクレオチドの群、例えばコドンにおけるバリエーションは、ヌクレオチド配列によってコードされるペプチドの活性に影響する。ある実施形態では、このモデルは、ペプチドを発現するために使用される宿主に依存して、（同じアミノ酸をコードする他のコドンと比較して）優先的に発現されるコドンについてのバイアスを提供し得る。

本発明のさらに別の局面は、機械読み取り可能な媒体を含む装置およびコンピュータープログラム製品であって、この媒体に対して上記の方法およびソフトウェアシステムを実行するためのプログラム命令および／またはデータの配置が与えられる、装置およびコンピュータープログラム製品に関連する。高頻度に、このプログラム命令は、特定の方法操作を行うためのコードとして提供される。データは、本発明の特徴を実行するために使用される場合、データ構造、データベース・テーブル、データ・オブジェクトまたは特定の情報の他の適切な配置として提供され得る。本発明の任意の方法またはシステムは、機械読み取り可能な媒体に対して与えられたプログラム命令および／またはデータのように、全体としてまたは一部で、呈示され得る。

本発明のこれらおよび他の特徴は、本発明の詳細な説明において、そして添付の図面と組み合わせて、下にさらに詳細に記載される。

（発明の詳細な考察）
（Ｉ．定義）
本発明を詳細に記載する前に、本発明は、当然ながら変化し得る、特定の配列、組成物、アルゴリズムまたはシステムに限定されないことが理解されるべきである。本明細書に用いられる専門用語は、特定の実施形態を記載する目的にのみ用いられ、限定を意図するものではないこともまた理解されるべきである。本明細書および添付の特許請求の範囲に用いられる場合、単数形「１つの、ある（ａ、ａｎ）」、および「この、その（ｔｈｅ）」は、内容および文脈が明確に他を示すのでない限り、複数の言及を包含する。従って、例えば、「あるデバイス、１つのデバイス（ａｄｅｖｉｃｅ）」という言及は、このようなデバイスの２つ以上の組み合わせなどを包含する。他に示さない限り、「または（ｏｒ）」の接続詞はブール論理演算子（Ｂｏｏｌｅａｎｌｏｇｉｃａｌｏｐｅｒａｔｏｒ）として正確な意味で用いられるものとし、選択肢における特徴の選択（ＡまたはＢ、ここでＡの選択はＢと相互排他的である）および接続詞における特徴の選択（ＡまたはＢ、ここでＡおよびＢの両方が選択される）の両方を包含する。

以下の定義および本開示全体を通じて含まれる定義によって、当業者に公知の定義が補完される。

「生体分子（ｂｉｏ−ｍｏｌｅｃｕｌｅ）」とは、生物学的な生物体において一般に見出される分子をいう。好ましい生物学的な分子としては、事実上複数のサブユニットから構成されている代表的には重合体である生物学的な高分子が挙げられる（すなわち、「バイオポリマー（ｂｉｏｐｏｌｙｍｅｒｓ）」）。代表的な生体高分子としては、限定はしないが、天然に存在するポリマー、例えば、ＲＮＡ（ヌクレオチドサブユニットから形成される）、ＤＮＡ（ヌクレオチドサブユニットから形成される）、およびポリペプチド（アミノ酸サブユニットから形成される）、例えば、ＲＮＡ、ＲＮＡアナログ、ＤＮＡ、ＤＮＡアナログ、ポリペプチド、ポリペプチドアナログ、ペプチド核酸（ＰＮＡ）、ＲＮＡおよびＤＮＡの組み合わせ（例えば、キメラプラスト（ｃｈｉｍｅｒａｐｌａｓｔ））などと、いくつかの構造的な特徴を共有する分子が挙げられる。生体分子としてまた、例えば、脂質、炭水化物または、１つ以上の遺伝的にコード可能な分子（例えば、１つ以上の酵素または酵素経路）によって作成される他の有機分子などが挙げられる。

「核酸（ｎｕｃｌｅｉｃａｃｉｄ）」という用語は、デオキシリボヌクレオチドまたはリボヌクレオチドおよびそのポリマー（例えば、オリゴヌクレオチド、ポリヌクレオチドなど）を、その一本鎖型または二本鎖型でいう。特に限定されない限り、この用語は、核酸であって、この核酸は、参照核酸と同様の結合特性を有し、そして天然に存在するヌクレオチドと同様の方式で代謝される天然のヌクレオチドの公知のアナログを含有する核酸を包含する。他に示さない限り、特定の核酸配列とはまた、その保存的に改変された改変体（例えば、縮重コドン置換）および相補的な配列ならびに明白に示された配列を暗黙のうちに包含する。詳細には、縮重コドン置換は、１つ以上の選択された（または全ての）コドンの第三の位置が混合塩基および／またはデオキシイノシン残基で置換されている配列を生成することによって達成され得る（Ｂａｔｚｅｒら（１９９１）ＮｕｃｌｅｉｃＡｃｉｄＲｅｓ．１９：５０８１；Ｏｈｔｓｕｋａら（１９８５）Ｊ．Ｂｉｏｌ．Ｃｈｅｍ．２６０：２６０５〜２６０８；Ｒｏｓｓｏｌｉｎｉら（１９９４）Ｍｏｌ．Ｃｅｌｌ．Ｐｒｏｂｅｓ８：９１〜９８）。核酸という用語は、例えば、オリゴヌクレオチド、ポリヌクレオチド、ｃＤＮＡおよびｍＲＮＡと交換可能に用いられる。

「核酸配列（ｎｕｃｌｅｉｃａｃｉｄｓｅｑｕｅｎｃｅ）」とは、核酸を含むヌクレオチドの順序および同一性をいう。

「ポリヌクレオチド（ｐｏｌｙｎｕｃｌｅｏｔｉｄｅ）」とは、ヌクレオチド（Ａ、Ｃ、Ｔ、Ｕ、Ｇなど、または天然に存在するかもしくは人工的なヌクレオチドアナログ）のポリマーまたは、状況によっては、ヌクレオチドのポリマーを示す文字列である。所定の核酸または相補的な核酸のいずれかは、任意の特定のポリヌクレオチド配列から決定され得る。

「ポリペプチド（ｐｏｌｙｐｅｐｔｉｄｅ）」および「タンパク質（ｐｒｏｔｅｉｎ）」という用語は、アミノ酸残基のポリマーを指すために本明細書において交換可能に用いられる。代表的には、このポリマーは、少なくとも約３０アミノ酸残基、そして通常は少なくとも約５０アミノ酸残基を有する。さらに代表的には、それらは、少なくとも約１００アミノ酸残基を含む。この用語は、１つ以上のアミノ酸残基が、対応する天然に存在するアミノ酸のアナログ、誘導体または模倣物であるアミノ酸ポリマーに、そして天然に存在するアミノ酸ポリマーにあてはまる。例えば、ポリペプチドは、例えば、糖タンパク質を形成するための炭水化物残基の添加によって、改変または誘導体化され得る。用語「ポリペプチド」および「タンパク質」とは、糖タンパク質および非糖タンパク質を包含する。

「モチーフ」とは、生物学的分子の中でまたは生物学的分子の間でのサブユニットのパターンをいう。例えば、モチーフとは、コードされない生物学的分子のサブユニットパターンをいっても、または生物学的分子のコードされた表示のサブユニットパターンをいってもよい。

「スクリーニング（ｓｃｒｅｅｎｉｎｇ）」とは、１つ以上の生体分子の１つ以上の特性が決定されるプロセスをいう。例えば、代表的なスクリーニングプロセスは、１つ以上のライブラリの１つ以上のメンバーの１つ以上の特性が決定されるプロセスを包含する。

「共分散（ｃｏｖａｒｉａｔｉｏｎ）」という用語は、２つ以上の変数（例えば、ポリペプチド中のアミノ酸など）の相関変数をいう。

「指向進化（ｄｉｒｅｃｔｅｄｅｖｏｌｕｔｉｏｎ）」または「人工的進化（ａｒｔｉｆｉｃｉａｌｅｖｏｌｕｔｉｏｎ）」とは、人工的な選択、組み換えまたは他の操作によって文字列を人工的に変化するプロセス、すなわち、（１）個体のばらつきがあり、いくつかのばらつきは（２）遺伝性であって、（３）そのいくつかのばらつきが適合（予め決定された特性（所望の特徴）についての選択の結果によって決定される繁殖成功）において異なる生殖集団で生じるプロセスをいう。この生殖集団は、コンピューターシステムにおける、例えば、物理的集団または仮想集団であってもよい。

「データ構造（ｄａｔａｓｔｒｕｃｔｕｒｅ）」とは、情報、代表的には情報の複数の「ピース（ｐｉｅｃｅｓ）」の記憶のための機構および必要に応じて関連のデバイスをいう。このデータ構造は、情報（例えば、リスト）の単純な記憶であってもよいし、またはデータ構造は、そこに含まれる情報に関するさらなる情報（例えば、アノテーション）を含んでもよく、データ構造の種々の「メンバー（ｍｅｍｂｅｒｓ）」（すなわち、情報「ピース」）の間の関係を達成し得、そしてデータ構造に対して外部のリソースにポインタまたはリンクを提供してもよい。このデータ構造は、無形であってもよいが、有形の媒体（例えば、紙、コンピューター読み取り媒体、など）に記憶または呈示される場合、有形にされる。このデータ構造は、限定はしないが、シンプルなリスト、リンクしたリスト、インデックス付きリスト、データ・テーブル、インデックス、ハッシュ・インデックス、フラット・ファイル・データベース、リレーショナル・データベース、ローカル・データベース、分散型データベース、シン・クライアント・データベースなどを含む種々の情報アーキテクチュアを呈示し得る。好ましい実施形態では、このデータ構造は、１つ以上の文字列の記憶に十分な分野を提供する。このデータ構造は必要に応じて、文字列のアラインメントが可能になるように、そして必要に応じてこのアラインメントおよび／または文字列類似性および／または文字列相違に関して情報を記憶するように編成される。１実施形態では、この情報は、アラインメント「スコア（ｓｃｏｒｅ）」（例えば、類似性インデックス（ｓｉｍｉｌａｒｉｔｙｉｎｄｅｃｅｘ））および／または個々のサブユニット（例えば、核酸の場合にはヌクレオチド）のアラインメントを示すアラインメントマップの形態である。「コードされた文字列（ｅｎｃｏｄｅｄｃｈａｒａｃｔｅｒｓｔｒｉｎｇ）」という用語は、その分子に関する所望の配列／構造情報を保存する生物学的分子の表示をいう。全体を通じて注記されるとおり、生体分子の非配列特性は、データ構造において記憶され得る、そしてこのような非配列特性のアラインメントは、配列ベースのアラインメントと類似の方式で実行され得る。

「ライブラリ（ｌｉｂｒａｒｙ）」または「集団（ｐｏｐｕｌａｔｉｏｎ）」とは、少なくとも２つの異なる分子、文字列および／またはモデル、例えば、核酸配列（例えば、遺伝子、オリゴヌクレオチドなど）またはそれ由来の発現産物（例えば、酵素）のコレクションをいう。ライブラリまたは集団は一般に、多数の異なる分子を包含する。例えば、ライブラリまたは集団は代表的に、少なくとも約１０個の異なる分子を包含する。大型のライブラリは代表的には、少なくとも約１００個の異なる分子、さらに代表的には少なくとも約１０００個の異なる分子を包含する。いくつかの適用については、このライブラリは、少なくとも約１００００個以上の異なる分子を包含する。

「系統分散（ｓｙｓｔｅｍａｔｉｃｖａｒｉａｎｃｅ）」とは、項目の異なる記述子または、異なる組み合わせで変化されている項目のセットをいう。

「系統的に分散されたデータ（ｓｙｓｔｅｍａｔｉｃａｌｌｙｖａｒｉｅｄｄａｔａ）」とは、異なる組み合わせにおいて変化されている項目または項目のセットの異なる記述子から生成されるか、それに由来するか、またはそれから生じるデータをいう。多くの異なる記述子が、同時に、ただし異なる組み合わせで変化され得る。例えば、アミノ酸の組み合わせが変化されているポリペプチドから集められた活性データは、系統的に分散されたデータである。

「配列（ｓｅｑｕｅｎｃｅ）」および「文字列（ｃｈａｒａｃｔｅｒｓｔｒｉｎｇｓ）」という用語は、本明細書において交換可能に用いられて、タンパク質中のアミノ酸残基の順序および同一性（すなわち、タンパク質配列またはタンパク質文字列）、または核酸分子におけるヌクレオチドの順序および同一性（すなわち、核酸配列または核酸文字列）を指す。

（ＩＩ．改善されたタンパク質改変体ライブラリの生成）
本発明によれば、タンパク質配列および活性スペースを探索するために用いられ得る新規なタンパク質改変ライブラリを生成するための種々の方法が提供される。多くのこのような方法の特徴は、所望の活性に影響を与えることが予測されるタンパク質配列においてアミノ酸残基を同定するための手順である。１例として、このような手順は以下の操作を包含する：
（ａ）タンパク質改変体のトレーニングセットを特徴付けるデータを受容する工程であって、このデータがこのトレーニングセットにおける各々のタンパク質改変体についての活性および配列情報を提供する工程と；
（ｂ）このデータから、アミノ酸残基タイプの関数として活性を予測する配列活性モデルを構築する工程、およびこの配列における位置に対応させる工程（好ましくは、このモデルは、１つ以上の非線形項を含み、各々が２つ以上のアミノ酸残基の間の相互作用を示す）と；
（ｃ）この配列活性モデルを用いて、所望の活性に影響を与えるように変化されるべき１つ以上のタンパク質改変体において特定の位置で１つ以上のアミノ酸残基を同定する工程。

図１は、本発明の１つの適用を示すフローチャートを示す。これは、他の示された、またはいくつかの他の順序で行われ得る種々の操作を示す。示されるとおり、０１のプロセスは、タンパク質改変体ライブラリについての残基配列を含むトレーニングセットを記載するデータの受容を伴いブロック０３で開始する。言い換えれば、このトレーニングセットデータは、タンパク質改変体ライブラリ由来である。代表的には、そのデータは、ライブラリ中の各々のタンパク質について、活性値を有する完全なまたは部分的な残基配列を含む。ある場合には、複数のタイプの活性（例えば、速度定数データおよび熱安定性データ）がトレーニングセットにおいて一緒に提供される。

多くの実施形態では、タンパク質改変体ライブラリの個々のメンバーが、広範な配列および活性を示す。これによって、広範な領域の配列スペースにわたって適応性を有する配列活性モデルを生成することが可能になる。このような多様なライブラリを生成するための技術としては、タンパク質配列の系統的分散および指向進化技術が挙げられる。これらの両方とも、本明細書のいずれかにさらに詳細に記載される。ただし、特定の遺伝子ファミリー（例えば、複数の種で見出される特定のキナーゼ）に相当する遺伝子配列からモデルを生成することがしばしば所望されることに注意のこと。ほとんどの残基は、ファミリーの全てのメンバーにまたがって同一であるので、このモデルは、変化する残基のみを描写する。従って、全ての可能性のある改変体のセットに比較して、このような相対的に小さいトレーニングセットに基づく統計学的なモデルは、局所的な意味で有効である。この目的は、全体的な適合度関数を見出すことではない。なぜなら、それは、検討中のシステムの容量（およびしばしば必要性）を超えるからである。

活性データは、活性の大きさを測定するために適切にデザインされているアッセイまたはスクリーンによって獲得され得る。このような技術は、周知であり、そして本発明の中心ではない。適切なアッセイまたはスクリーンを設計するための原理は広く理解される。タンパク質配列を得るための技術はまた、周知であって、本発明の中心ではない。本発明とともに用いられる活性は、タンパク質安定性（例えば、熱安定性）であってもよい。しかし、多くの重要な実施形態が、他の活性、例えば、触媒活性、病原体および／または毒素に対する耐性、治療活性、毒性などを考慮する。

トレーニングセットのデータが生成または獲得された後、このプロセスは、このデータセットを用いて、配列情報の関数として活性を予測する配列活性モデルを生成する。ブロック０５を参照のこと。このようなモデルは、非線形の式、アルゴリズム、または他のツールであって、ある特定のタンパク質についての配列情報を提供した場合、そのタンパク質の相対的な活性を予測するものである。言い換えれば、タンパク質配列情報は入力であって、活性予測が出力である。本発明の多くの実施形態については、このモデルはまた、活性に対する種々の残基の寄与をランク付けし得る。このようなモデルを生成する方法は、機械の学習能力下に全てがおさまる（例えば、部分的最小自乗回帰（ｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎ）（ＰＬＳ）、主成分回帰（ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔｒｅｇｒｅｓｓｉｏｎ）（ＰＣＲ）および多重線形回帰（ＭＬＲ））が、独立変数（配列情報）の形式、従属変数（単数または複数）（活性）の形式、およびそのモデルの形式（例えば、線形一次式）とともに以下に考察されている。

ブロック０５で生成されたモデルを使用して、活性に影響すると予測される複数の残基位置（例えば、位置３５）、または特定の残基の値（例えば、３５位置のグルタミン）を同定する。ブロック０７を参照のこと。このような位置を同定することに加えて、それらの活性に対する寄与に基づいて残基位置または残基の値を「ランク付け（ｒａｎｋ）」してもよい。例えば、このモデルは、３５位置のグルタミンが、活性に対して最も顕著な正の効果を有し、２０８位置のフェニルアラニンが２番目に顕著な正の結果を有することなどを予測し得る。下に記載される特定のアプローチでは、ＰＬＳまたはＰＣＲ回帰の係数を使用して、特定の残基の重要性をランク付けする。別の特定のアプローチでは、ＰＬＳロードマトリクスを使用して、特定の残基位置の重要性をランク付けする。

このプロセスで活性に影響を与える残基を同定した後、それらのいくつかをブロック０９に示されるようにバリエーションについて選択する。これは、配列スペースを探索する目的で行なわれる。任意の多数の異なる選択プロトコールであって、そのいくつかは以下に記載されているプロトコールを用いて残基を選択する。１実施例では、活性に対して最も有益な影響を有すると予測される特定の残基が保存される（すなわち、変化されない）。しかし、有する影響が小さいと予測される他の残基の特定の数がバリエーションについて選択される。別の例では、活性に対して最大の影響を有することが見出される残基位置がバリエーションについて選択されるが、ただし、トレーニングセットの高能力メンバーにおいてそれらが変化することが見出される場合のみである。例えば、残基位置１９７が活性に対して最大の影響を有するが、高い活性を有するタンパク質の全てまたはほとんどが、この位置でロイシンを有することがこのモデルで予想されるならば、１９７位置は、このアプローチにおけるバリエーションについて選択されない。言い換えれば、次世代のライブラリにおける全てまたはほとんどのタンパク質が１９７位置でロイシンを有する。しかし、いくつかの「良好な（ｇｏｏｄ）」タンパク質が、この位置でバリンを有し、かつその他がロイシンを有するならば、このプロセスは、この位置でアミノ酸を変化させることを選択する。ある場合には、２つ以上の相互作用する残基の組み合わせが活性に最高の影響を有することが見出される。従って、あるストラテジーでは、これらの残基は共変される。

バリエーションに関する残基が同定された後、この方法では次に、専門的な残基バリエーションを有する新規な改変体ライブラリを生成する。ブロック１１を参照のこと。この目的のためには種々の方法論が利用可能である。１実施例では、インビトロまたはインビボの組み換えに基づく多様性生成機構を行って、新規な改変体ライブラリを生成する。このような手順は、親の改変体ライブラリのタンパク質をコードするための配列またはサブ配列を含むオリゴヌクレオチドを使用し得る。いくつかのオリゴヌクレオチドは、密接に関連しており、０９位置でバリエーションについて選択される別のアミノ酸についてのコドンの選択においてのみ異なる。組み換えに基づく多様性生成機構は、１または複数のサイクルで行われ得る。複数のサイクルが用いられる場合、各々は、どの改変体が次の組み換えサイクルにおいて用いられるのに受容可能な能力を有するかを同定するために、スクリーニング工程を包含する。これは、指向進化の形態である。

異なる実施例では、「参照（ｒｅｆｅｒｅｎｃｅ）」タンパク質配列を選択して、０９で選択された残基を、「切り換えて（ｔｏｇｇｌｅｄ）」改変体ライブラリの個々のメンバーを同定する。このように同定された新規なタンパク質を適切な技術によって合成して、新規なライブラリを生成する。１実施例では、この参照配列は、ＰＬＳまたはＰＣＲモデルによって予測される、トレーニングセットのトップ能力（ｔｏｐ−ｐｅｒｆｏｒｍｉｎｇ）のメンバー、すなわち「ベスト（ｂｅｓｔ）」の配列であり得る。

別のアプローチでは、この配列活性モデルは、配列スペースを探索するための遺伝的アルゴリズムにおける「適合度関数（ｆｉｔｎｅｓｓｆｕｎｃｔｉｏｎ）」として用いられる。遺伝的アルゴリズムの１回以上（遺伝子操作のための１つ以上の可能性のある配列を選択するために各々の回では適合度関数を用いる）の後、次の世代のライブラリを、このフローチャートにおいて記載されるとおり、使用のために同定する。極めて現実的な意味で、このストラテジーは、インシリコの指向進化とみることができる。理想的な場合には、正確、厳格な全体的または局所的な適合度関数を当業者が手中にしているならば、当業者は、インシリコで全ての進化を行い、そして最終の商業的または研究的な適用における使用のために単独のベストの改変体を合成することができる。これは、ほとんどの場合には達成不能であると思われるが、このプロセスのこのような見方によって、指向進化のために機械学習技術を用いるという目標およびアプローチが明確になる。

新規なライブラリが生成された後、ブロック１３に示されたとおり、このライブラリは、活性についてスクリーニングされる。理想的には、新規なライブラリは、前のライブラリで観察されたよりも良好な活性を有する１つ以上のメンバーを呈示する。しかし、このような利点がなくても、この新規なライブラリは、有益な情報を提供し得る。そのメンバーは、０９において選択されたバリエーションの効果を説明する改良モデルを生成するために使用され得、そしてその結果、配列スペースのより広い領域にまたがって、さらに正確に活性を予測する。さらに、このライブラリは、（活性において）局所最大から全体の最大へ向かう配列スペースにおける通過に相当し得る。

プロセス０１の目標に依存して、一連の新規なタンパク質改変体ライブラリを生成することが所望され得、このライブラリでは各々がトレーニングセットの新規なメンバーを提供する。次いで、最新のトレーニングセットを用いて改良モデルを生成する。このために、プロセス０１は、さらに別のタンパク質改変体ライブラリが生成されるべきか否かを決定する、決定操作１５とともに示される。種々の基準を用いてこの決定を行ってもよい。例としては、いままで生成されたタンパク質改変体ライブラリの数、現在のライブラリ由来のトップのタンパク質の活性、所望の活性の大きさ、および近年の新規なライブラリで観察された改善のレベルが挙げられる。

このプロセスを新しいライブラリで継続すると仮定すれば、このプロセスは、操作０５に戻り、ここで新しい配列活性モデルを現在のタンパク質改変体ライブラリについて得られた配列および活性データから生成する。言い換えれば、現在のタンパク質改変体ライブラリの配列および活性のデータは、新規なモデルについてのトレーニングセットの一部として機能する（または、それは全体的なトレーニングセットとして機能し得る）。その後、操作０７、０９、１１、１３および１５を上記のように、ただし、新規なモデルを用いて行う。

いくつかのポイントでは、プロセス０１では、このサイクルは終わって、新規なライブラリは生成されない。その時点では、このプロセスは単に終わってもよいし、またはこのライブラリの１つ以上に由来する１つ以上の配列が開発および／または製造のために選択されてもよい。ブロック１７を参照のこと。

（Ａ．タンパク質改変体ライブラリ選択）
タンパク質改変体ライブラリとは、ライブラリにおいてメンバー間で異なる１つ以上の残基を有する複数のタンパク質の群である。それらは、本発明の方法によって生成され得る。それらは、本発明に従う配列活性モデルを生成するために用いられるトレーニングセットのためのデータを提供し得る。タンパク質改変体ライブラリに含まれるタンパク質の数は、適用およびコストに依存する。

１実施例では、タンパク質改変体ライブラリは、単独の遺伝子ファミリーによってコードされるタンパク質のメンバーであり得る、１つ以上の天然に存在するタンパク質から生成される。ライブラリについての他の開始ポイントが用いられてもよい。これらの種子または開始タンパク質から、このライブラリは種々の技術によって生成され得る。１つの場合には、このライブラリは、Ｓｔｅｍｍｅｒ（１９９４）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ１０７４７〜１０７５１およびＷＯ９５／２２６２５に記載されるようなＤＮＡ断片化媒介性組み換え、１つ以上の親タンパク質の一部または全てをコードする核酸上での、Ｎｅｓｓら（２００２）Ｎａｔｕｒｅ，Ｂｉｏｔｅｃｈｎｏｌｏｇｙ２０：１２５１〜１２５５およびＷＯ００／４２５６１）に記載されるような合成オリゴヌクレオチド媒介性組み換えによって生成され得る。これらの方法の組み合わせが同様に用いられ（すなわち、ＤＮＡフラグメントおよび合成オリゴヌクレオチドの組み換え）、そして例えばＷＯ９７／２００７８およびＷＯ９８／２７２３０に記載される他の組み換えに基づく方法も用いられ得る。

別の例では、単一の出発配列がライブラリを生成するために種々の方法で改変される。好ましくはこのライブラリは、この出発配列の個々の残基を系統的に変化させることによって生成される。１実施例では、実験計画法（ｄｅｓｉｇｎｏｆｅｘｐｅｒｉｍｅｎｔ）（ＤＯＥ）方法論を使用して、系統的に変化される配列を同定する。別の例では、オリゴヌクレオチド媒介性組み換えのような「ウエット・ラボ（ｗｅｔｌａｂ）」手順を用いて、いくつかのレベルの系統的変化を導入する。

本明細書において用いる場合、「系統的に変化した配列（ｓｙｓｔｅｍａｔｉｃａｌｌｙｖａｒｉｅｄｓｅｑｕｅｎｃｅｓ）」という用語は、各々の残基が複数の状況でみられる配列のセットをいう。原理的には、この系統的な改変のレベルは、この配列がお互いと直交性である程度（平均と比較した最大相違）によって定量され得る。実際には、このプロセスは、最大直交配列を有することには依存しないが、モデルの量は、試験された配列スペースの直交性に直接関係して改善される。単純な例では、ペプチド配列は、２つの残基位置であって、その各々が２つの異なるアミノ酸のうちの１つを有し得る残基位置を同定することによって系統的に変化される。最大多様性ライブラリは、４つの可能性のある配列全てを包含する。このような最大の系統的バリエーションは、可変位置の数で指数関数的に増大する。例えば、Ｎ残基位置の各々に２つの選択肢が存在する場合、２^Ｎによって増大する。当業者は、最大系統的バリエーションが、しかし、本発明の方法によっては必要とされないことを容易に認識する。系統的変化は、配列スペースの良好なサンプリングを提供する試験のために比較的小セットの配列を同定するための機構を提供する。

系統的に変化された配列を有するタンパク質改変体は、当業者に周知である技術を用いる多数の方法で得ることができる。示されたとおり、適切な方法としては、１つ以上の「親の（ｐａｒｅｎｔａｌ）」ポリヌクレオチド配列に基づいて改変体を生成する組み換えに基づく方法が挙げられる。ポリヌクレオチド配列は、例えば、組み換えられるべきポリヌクレオチドのＤＮＡｓｅ消化、続いて、ライゲーションおよび／または核酸のＰＣＲ再アセンブリを含む、種々の技術を用いて組み換えられ得る。これらの方法としては、例えば、Ｓｔｅｍｍｅｒ（１９９４）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ，９１：１０７４７〜１０７５１、米国特許第５，６０５，７９３号、「ＭｅｔｈｏｄｓｆｏｒＩｎＶｉｔｒｏＲｅｃｏｍｂｉｎａｔｉｏｎ」米国特許第５，８１１，２３８号、「ＭｅｔｈｏｄｓｆｏｒＧｅｎｅｒａｔｉｎｇＰｏｌｙｎｕｃｌｅｏｔｉｄｅｓｈａｖｉｎｇＤｅｓｉｒｅｄＣｈａｒａｃｔｅｒｉｓｔｉｃｓｂｙＩｎｔｅｒａｔｉｖｅＳｅｌｅｃｔｉｏｎａｎｄＲｅｃｏｍｂｉｎａｔｉｏｎ」、米国特許第５，８３０，７２１号、「ＤＮＡＭｕｔａｇｅｎｅｓｉｓｂｙＲａｎｄｏｍＦｒａｇｍｅｎｔａｔｉｏｎａｎｄＲｅａｓｓｅｍｂｌｙ」、米国特許第５，８３４，２５２号、「ＥｎｄＣｏｍｐｌｅｍｅｎｔａｒｙＰｏｌｙｍｅｒａｓｅＲｅａｃｔｉｏｎ」、米国特許第５，８３７，４５８号、「ＭｅｔｈｏｄｓａｎｄＣｏｍｐｏｓｉｔｉｏｎｓｆｏｒＣｅｌｌｕｌａｒａｎｄＭｅｔａｂｏｌｉｃＥｎｇｉｎｅｅｒｉｎｇ」、「ＷＯ９８／４２８３２、「ＲｅｃｏｍｂｉｎａｔｉｏｎｏｆＰｏｌｙｎｕｃｌｅｏｔｉｄｅＳｅｑｕｅｎｃｅＵｓｉｎｇＲａｎｄｏｍｏｒＤｅｆｉｎｅｄＰｒｉｍｅｒｓ」、ＷＯ９８／２７２３０、「ＭｅｔｈｏｄｓａｎｄＣｏｍｐｏｓｉｔｉｏｎｓｆｏｒＰｏｌｙｐｅｐｔｉｄｅＥｎｇｉｎｅｅｒｉｎｇ」、ＷＯ９９／２９９０２、「ＭｅｔｈｏｄｓｆｏｒＣｒｅａｔｉｎｇＰｏｌｙｎｕｃｌｅｏｔｉｄｅａｎｄＰｏｌｙｐｅｐｔｉｄｅＳｅｑｕｅｎｃｅｓ」などに記載される方法が挙げられる。

合成組み換え方法はまた、系統的バリエーションを有するタンパク質改変体ライブラリを生成するために特に十分に適している。合成組み換え方法では、組み換えられるべき多数の遺伝子を集合的にコードする、多数のオリゴヌクレオチドを合成する。代表的には、このオリゴヌクレオチドは相同な親の遺伝子由来の配列を集合的にコードする。例えば、目的の相同な遺伝子は、ＢＬＡＳＴのような配列アラインメントプログラムを用いて整列される（Ａｔｓｃｈｕｌら、Ｊ．Ｍｏｌ．Ｂｉｏｌ．，２１５：４０３〜４１０（１９９０））。ホモログ間でのアミノ酸のバリエーションに対応するヌクレオチドが注目される。これらのバリエーションは、親の配列の共分散分析、親の配列についての機能的な情報、親の配列の間の保存的または非保存的な変化の選択、または他の同様の基準に基づいて全ての可能性のあるバリエーションのサブセットに対して必要に応じてさらに制限される。バリエーションは、必要に応じて、例えば、親の配列の共分散分析、親の配列についての機能的な情報、親の配列の間の保存的または非保存的な変化の選択、またはバリエーションについての位置のみかけの耐性によって同定される位置でさらなるアミノ酸多様性をコードするようにさらに増大される。この結果は、親の遺伝子配列由来のコンセンサスなアミノ酸配列をコードする縮重遺伝子配列であり、アミノ酸バリエーションをコードする位置で縮重ヌクレオチドを伴う。縮重遺伝子に存在する多様性をアセンブルするために必要であるヌクレオチドを含むオリゴヌクレオチドが設計される。このようなアプローチに関する詳細は、例えば、Ｎｅｓｓら（２００２）、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ２０：１２５１〜１２５５、ＷＯ００／４２５６１「ＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＭｅｄｉａｔｅｄＮｕｃｌｅｉｃＡｃｉｄＲｅｃｏｍｂｉｎａｔｉｏｎ」ＷＯ００／４２５６０、「ＭｅｔｈｏｄｓｆｏｒＭａｋｉｎｇＣｈａｒａｃｔｅｒＳｔｒｉｎｇｓ，ＰｏｌｙｎｕｃｌｅｏｔｉｄｅｓａｎｄＰｏｌｙｐｅｐｔｉｄｅｓｈａｖｉｎｇＤｅｓｉｒｅｄＣｈａｒａｃｔｅｒｉｓｔｉｃｓ」、ＷＯ０１／７５７６７、「ＩｎＳｉｌｉｃｏＣｒｏｓｓ−ＯｖｅｒＳｉｔｅＳｅｌｅｃｔｉｏｎ」、およびＷＯ０１／６４８６４、「Ｓｉｎｇｌｅ−ＳｔｒａｎｄｅｄＮｕｃｌｅｉｃＡｃｉｄＴｅｍｐｌａｔｅ−ＭｅｄｉａｔｅｄＲｅｃｏｍｂｉｎａｔｉｏｎａｎｄＮｕｃｌｅｉｃＡｃｉｄＦｒａｇｍｅｎｔＩｓｏｌａｔｉｏｎ」に見出され得る。この同定されたポリヌクレオチド改変体配列は、タンパク質改変体配列のセットまたはライブラリを生成するために、インビトロまたはインビボで転写および翻訳されてもよい。

系統的に変化された配列のセットはまた、データセットにおける配列を規定するための実験計画法（ＤＯＥ）を用いて先験的に設計され得る。ＤＯＥ法の説明は、Ｄｉａｍｏｎｄ，Ｗ．Ｊ．（２００１）ＰｒａｃｔｉｃａｌＥｘｐｅｒｉｍｅｎｔＤｅｓｉｇｎｓ：ｆｏｒＥｎｇｉｎｅｅｒｓａｎｄＳｃｉｅｎｔｉｓｔｓ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓにおいて、そして「ＰｒａｃｔｉｃａｌＥｘｐｅｒｉｍｅｎｔａｌＤｅｓｉｇｎｆｏｒｅｎｇｉｎｅｅｒｓａｎｄＳｃｉｅｎｔｉｓｔ」、ＷｉｌｌｉａｍＪＤｒｕｍｍｏｎｄ（１９８１）ＶａｎＮｏｓｔｒａｎｄＲｅｉｎｈｏｌｄＣｏＮｅｗＹｏｒｋ，「Ｓｔａｔｉｓｔｉｃｓｆｏｒｅｘｐｅｒｉｍｅｎｔｅｒｓ」ＧｅｏｒｇｅＥ．Ｐ．Ｂｏｘ，ＷｉｌｌｉａｍＧＨｕｎｔｅｒおよびＪ．ＳｔｕａｒｔＨｕｎｔｅｒ（１９７８）ＪｏｈｎＷｉｌｅｙａｎｄＳｏｎｓ，ＮｅｗＹｏｒｋにおいて，または、例えば、ｉｔｌ．ｎｉｓｔ．ｇｏｖ／ｄｉｖ８９８／ｈａｎｄｂｏｏｋ／のワールド・ワイド・ウェブで見出すことが可能である。関連の数学を行うのに利用可能ないくつかのコンピューターパッケージがあり、これにはＳｔａｔｉｓｔｉｃｓＴｏｏｌｂｏｘ（ＭａｔＬａｂ）、ＪＭＰ、ＳｔａｔｉｓｔｉｃａａｎｄＳｔａｔｅａｓｅＤｅｓｉｇｎｅｘｐｅｒｔが挙げられる。この結果は、本発明の配列活性モデルを構築するのに適している配列の、系統的に変換された、そして直交性に分散されたデータセットである。ＤＯＥに基づくデータセットは、Ｐｌａｃｋｅｔｔ−ＢｕｒｍａｎまたはＦｒａｃｔｉｏｎａｌＦａｃｔｏｒｉａｌｄｅｓｉｇｎｓ．Ｉｄのいずれかを用いて容易に生成され得る。

操作および化学的な化学では、例えば、一部実施要因計画を用いて、（完全分画デザインにおいてよりも）より少ない実験を規定し、ここでは、２つ以上のレベルの間で、ある要因を変化させる（切り替える）。最適化技術を用いて、選択された実験は、因子空間の不一致を説明するのにおける最大の情報であることを確認する。同じデザインアプローチ（例えば、一部実施要因、Ｄ−最適計画）をタンパク質操作に割り当てて、より小さい配列を構築し、ここで所定の数の位置を２つ以上の残基の間で切り替える。このセットの配列は、問題になっているタンパク質配列スペースに存在する系統的な分散の最適の説明である。

タンパク質操作に適用したＤＯＥアプローチの例としては、以下の操作が挙げられる：
１）前に記載された原理（親の配列における存在、保存のレベル、など）に基づいて切り替えるための位置を同定する；
２）要因の数（可変位置）、レベルの数（各々の位置での選択）、および行う実験の数を規定することによって、市販の統計学的に利用可能なパッケージの１つを用いるＤＯＥ実験を作成する。出力マトリクスの情報内容（代表的には、各々の位置での残基選択に相当する１ｓおよび０ｓからなる）は、行われる実験の数（多いほどよい）に直接依存する；
３）出力マトリクスを用いて、各々の位置での特定の残基選択に対する１ｓおよび０ｓの戻りをコードするタンパク質アラインメントを構築する；
４）タンパク質アラインメントに示されるタンパク質をコードする遺伝子を合成する；
５）関連のアッセイ（単数または複数）において、合成遺伝子によってコードされるタンパク質を試験する；
６）試験された遺伝子／タンパク質に対するモデルを構築する；
７）前に記載された工程に従って、重要な位置を同定し、そして改善された適合度を有する引き続くライブラリを構築する。

例示の目的で、たとえば各々の位置で利用可能な２つの可能性のあるアミノ酸が存在する場合、２０位置での機能的にベストのアミノ酸残基が決定されるタンパク質を考慮する。この場合には、レソルーション（ｒｅｓｏｌｕｔｉｏｎ）ＩＶ要因配置実験（ｆａｃｔｒｉａｌｄｅｓｉｇｎ）が適切である。レソルーション（ｒｅｓｏｌｕｔｉｏｎ）ＩＶ計画は、全ての単一の変数の効果を解明し得るものとして規定され、ここでは重複するそれらに影響する２因子はない。次いで、このデザインは、全部で２^２０（約百万）の可能性のある配列をカバーする、４０個の特定のアミノ酸のセットを同定する。次いで、これらの配列を、標準的な遺伝子合成プロトコールによって生成し、これらのクローンの機能および適合度を決定する。

上記のアプローチに対する代替は、全ての利用可能な配列、例えば、ＧｅｎＢａｎｋ（登録商標）データベースおよび他の公的な供給源を使用して、タンパク質改変体ライブラリを提供することである。これは、大規模な演算能力を必要とするが、現在の技術は、実行可能なアプローチを達成する。全ての利用可能な配列をマッピングさせることによって、目的の配列スペース領域の開始を得る。

（Ｂ．配列活性モデルを作製する工程、およびバリエーションについての残基位置を同定するためにそのモデルを使用する工程）
上記のとおり、本発明で用いられる配列活性モデルは、タンパク質配列情報をタンパク質活性に対して関係させる。このモデルによって用いられるこのタンパク質配列情報は、多くの形態を利用する。高頻度に、これは、タンパク質中のアミノ酸残基の完全な配列、例えば、ＨＧＰＶＦＳＴＧＧＡ．．．．である。しかし、ある場合には、完全なアミノ酸配列を提供することは必要ではないかもしれない。例えば、特定の研究労力において変化されるべき残基のみを提供するだけで十分であるかもしれない。例えば、研究の後期段階では、多くの残基を固定してもよいし、配列スペースの限られた領域のみが探索され続けてもよい。このような状況では、探索を続けるタンパク質の領域における残基の同定のみを入力として要する、配列活性モデルを提供することが便利であり得る。さらに、いくつかのモデルは、この残基位置で残基の正確な同定は必要としないかもしれないが、代わりに、特定の残基位置でアミノ酸を特徴付ける１つ以上の物理的または化学的な特性を同定し得る。例えば、このモデルは、バルク、疎水性、酸性度などによって残基位置の同定を要し得る。いくつかのモデルでは、このような特性の組み合わせが使用される。

配列活性モデルの形態は、配列情報に基づくタンパク質の関連の活性を正確に近似するためのビヒクルを提供する限り、広範に変化してもよい。一般には、従属変数として活性を、そして独立変数として配列／残基の値を処理する。モデルの数学的／論理的形態の例としては、種々の次数の線形および非線形の数学的式、ニューラル・ネットワーク、分類および回帰ツリー／グラフ、クラスタ化アプローチ、再帰分割、サポート・ベクタ・マシンなどが挙げられる。１つの好ましい実施形態では、このモデル型は、線形の加法モデルであって、係数および残基の値の積を合計する。別の好ましい実施形態では、このモデル型は、特定の残基の外積（残基の間の相互作用項に相当する）を含む、種々の配列／残基の項の非線形の積である。

活性と配列との間の数学的／論理的な関係を提供するための配列情報に対する活性のトレーニングセットからモデルを開発する。この関係は代表的には、新規な配列の活性または残基の重要性を予測するための使用の前に確証される。

モデルを生成するための種々の技術が利用可能である。高頻度には、このような技術は最適化または最小化技術である。特異的な例としては、部分最小自乗、種々の他の回帰技術、および遺伝子プログラミング最適化技術、ニューラル・ネットワーク技術、再帰分割、サポート・ベクタ・マシン技術、ＣＡＲＴ（分類および回帰ツリー）および／またはその他が挙げられる。一般には、この技術は、活性に対して有意な影響を有する残基を、そうでない残基から識別し得るモデルを生成するはずである。好ましくは、このモデルはまた、活性に対するそれらの影響に基づく個々の残基（単数または複数）位置をランク付けするはずである。

１つの重要なクラスの技術では、トレーニングセットにおける独立変数および従属変数の共分散を同定する回帰技術によってモデルが生成される。種々の回帰技術が公知であり、そして広範に用いられる。例としては、多重線形回帰（ＭＬＲ）、主成分回帰（ＰＣＲ）および部分最小自乗回帰（ＰＬＳ）が挙げられる。

ＭＬＲは、これらの技術の最も基本的なものである。これによってトレーニングセットのメンバーについて１セットの係数式を簡単に解く。各々の式は、特定の位置での特定の残基の有無（独立変数）とともに、トレーニングセットのメンバー（従属変数）の活性に関する。トレーニングセットにおける残基位置の数に依存して、これらの発現は、かなり大きくてもよい。

ＭＬＲと同様、ＰＬＳおよびＰＣＲは、残基の値に対する配列活性に関する式からモデルを生成する。しかし、これらの技術は、異なる方式でそのように生成する。それらは、独立変数の数を減らせるために最初に座標変換を行う。次いで、それらは、変換された変数に対して回帰を行う。ＭＬＲでは、潜在的に大量の独立変数がある：トレーニングセット内で変化する各々の残基位置について２つ以上。目的のタンパク質およびペプチドはしばしば、かなり大きく、そしてトレーニングセットは、多くの異なる配列を提供し得ることを考慮すれば、独立変数の数は、急速に極めて大きくなり得る。データセットにおけるほとんどのバリエーションを提供するものに対して集中するように変数の数を減少させることによって、ＰＬＳおよびＰＣＲは一般に、より少ないサンプルしか必要とせず、そしてモデルを作製するという問題を簡単にする。

ＰＣＲは、ＰＬＳ回帰と同様であって、ここでは実際の回帰は、生の独立変数（残基の値）の座標変換によって得られた比較的少数の潜在的変数で行なわれる。ＰＬＳとＰＣＲとの間の相違は、ＰＣＲにおける潜在的変数が、独立変数（残基の値）の間で共分散を最大化することによって構築される。ＰＬＳ回帰では、独立変数と従属変数（活性値）との間で共分散を最大化するような方法で、潜在的変数を構築する。部分最小自乗回帰は、Ｈａｎｄ，Ｄ．Ｊ．ら（２００１）ＰｒｉｎｃｉｐｌｅｓｏｆＤａｔａＭｉｎｉｎｇ（ＡｄａｐｔｉｖｅＣｏｍｐｕｔａｔｉｏｎａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）、Ｂｏｓｔｏｎ，ＭＡ，ＭＩＴＰｒｅｓｓにおいて、そしてＧｅｌａｄｉら（１９８６）「ＰａｒｔｉａｌＬｅａｓｔ−ＳｑｕａｒｅｓＲｅｇｒｅｓｓｉｏｎ：ａＴｕｔｏｒｉａｌ」Ａｎａｌ．Ｃｈｉｍ．Ａｃｔａ，１９８：１〜１７に記載されている。これらの参照配列の両方とも、全ての目的のために参考によって、本明細書に援用されている。

ＰＣＲおよびＰＬＳでは、回帰の直接の結果は、重み付けされた潜在的変数の関数である、活性の式である。この式は、潜在的変数をもとの独立変数に戻す変換をする座標変換を行うことによって、もとの独立変数の関数として活性についての式に変換され得る。

本質的には、ＰＣＲもＰＬＳも両方とも、まずトレーニングデータセットに含まれる情報の次元を低下させ、次いで、変換されたデータセットに対する回帰分析を行う。これは、新しい独立変数を作成するために変換されているが、もとの独立変数値を保存する。データセットの変換されたバージョンは、回帰分析を行うための比較的少ない式のみを生じ得る。これを、次元の低下が行われない状況と比較する。その状況では、バリエーションが存在し得る各々の別の残基を考慮しなければならない。これは、極めて大きいセットの係数であってもよい。係数２^Ｎ、ここでＮは、トレーニングセットにおいて変化し得る残基位置の数である。代表的な主成分分析では、わずか３、４、５、６の主成分が使用される。

機械学習技術がトレーニングデータを適合する能力はしばしば、「モデル・フィット（ｍｏｄｅｌｆｉｔ）」と呼ばれ、そして、回帰技術、例えば、ＭＬＲ、ＰＣＲおよびＰＬＳでは、測定値と予測値との間の相違平方和（ｓｕｍｓｑｕａｒｅｄｄｉｆｆｅｒｅｎｃｅ）によって代表的に測定される。所定のトレーニングセットについては、最適のモデル・フィットは常に、ＭＬＲを用いて達成され、ＰＣＲおよびＰＬＳはしばしば悪いモデル・フィット（測定値と予測値との間の誤差平方和がさらに高い）を有する。しかし、ＰＣＲおよびＰＬＳのような潜在性変数回帰技術を用いることの主な利点は、このようなモデルの予測能力に依存する。極めて小さい誤差平方和を有するモデル・フィットを得ることは、このモデルが、トレーニングセットにおいてみられていない新規なサンプルを正確に予測可能であることを、決して保証するものではない。実際に、これはしばしば、特に多くの変数があり、そして観察（サンプル）がごくわずかである場合には、反対の状況である。従って、潜在性変数回帰技術（ＰＣＲ、ＰＬＳ）は、しばしば、トレーニングデータに対して悪いモデル・フィットを有するが、通常はさらに強固であって、トレーニングセット以外の新規なサンプルをさらに正確に予測できる。

本発明に従うモデルを生成するために用いられ得る別のクラスのツールは、サポート・ベクタ・マシンである。これらの数学的ツールは、活性に基づいて２つ以上の群に分類されている、配列のトレーニングセットを入力として採用する。サポート・ベクタ・マシンは、トレーニングセットの「活性（ａｃｔｉｖｅ）」および「不活性（ｉｎａｃｔｉｖｅ）」メンバーを隔てる超平面インターフェース（ｈｙｐｅｒｐｌａｎｅｉｎｔｅｒｆａｃｅ）に対してそれらがどれほど近いかに別々に依存して、トレーニングセットの異なるメンバーを異なって重み付けすることによって動作する。この技術では、どのトレーニングセットのメンバーが活性な群に配置され、そしてどのトレーニングセットのメンバーが不活性な群に配置されるかを最初に科学者が決定することを要する。これは、トレーニングセットの活性なメンバーと不活性なメンバーとの間の境界として働く活性の適切な数学的な値を選択することによって達成され得る。この分類から、サポート・ベクタ・マシンは、ベクトルＷを生成し、これは、トレーニングセットにおける活性および不活性な基の配列を規定する独立変数の個々の１つについての係数値を提供し得る。これらの係数は、本明細書のいずれかに記載されるような個々の残基を「ランク付けする（ｒａｎｋ）」ために用いられ得る。この技術は、その平面の反対側の上の最もせまいトレーニングセットメンバーの間の距離を最大化する超平面を同定することを試みる。別のバリエーションでは、サポート・ベクタ・回帰モデリングを行う。この場合、独立変数は、連続的活動値のベクトルである。サポート・ベクタ・回帰モデルは、係数ベクトルＷを生成し、これは個々の残基をランク付けするために用いられ得る。

ＳＶＭは、多くの研究において大きなデータセットを探すために用いられており、そしてＤＮＡマイクロアレイの分野ではかなりポピュラーである。それらの潜在的な長所としては、どの要因がサンプルをお互いから隔てるかを詳細に識別する（重み付けによる）能力が挙げられる。どの残基が機能に寄与するかをＳＶＭが正確に引き出し得る限りでは、これは、本発明に従う残基をランク付けするための特に有用なツールであり得る。ＳＶＭは、全ての目的のために参考によって本明細書に援用される、Ｓ．Ｇｕｎｎ（１９９８）「ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＲｅｇｒｅｓｓｉｏｎｓ」、ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＦａｃｕｌｔｙｏｆＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｅｄＳｃｉｅｎｃｅ，ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｏｎｉｃｓａｎｄＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｏｕｔｈａｍｐｔｏｎに記載される。

目的の別のモデルの生成技術は、遺伝的プログラミングである。この技術は、トレーニングセットのデータを特徴付ける式および規則を発見するためにＤａｒｗｉｎｉａｎスタイルの進化を使用する。これは、本明細書に記載されるタイプの回帰問題で用いられ得る。背景にある効果は、線形であっても非線形であってもよい。遺伝的プログラミングは、全ての目的のために参考によって本明細書に援用される、Ｒ．Ｇｏｏｄａｃｒｅら（２０００）「ＤｅｔｅｃｔｉｏｎｏｆｔｈｅＤｉｐｉｃｏｌｉｎｉｃＡｃｉｄＢｉｏｍａｒｋｅｒｉｎＢａｃｉｌｌｕｓＳｐｏｒｅｓＵｓｉｎｇＣｕｒｉｅ−ＰｏｉｎｔＰｙｒｏｌｙｓｉｓＭａｓｓＳｐｅｃｔｒｏｍｅｔｒｙａｎｄＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍＩｎｆｒａｒｅｄＳｐｅｃｔｒｏｓｃｏｐｙ」、Ａｎａｌ．Ｃｈｅｍ．，７２，１１９〜１２７に記載される。遺伝的プログラミングを行うためのソフトウェアツールの例としては、ＡｂｅｒＧｅｎｏｍｉｃＣｏｍｐｕｔｉｎｇＬｔｄｏｆＷａｌｅｓ，ＵＫから入手可能な「ＧＭＡＸ」および「ＧＭＡＸ−Ｂｉｏ」が挙げられる。

（ｉ）線形モデルの例
本発明は、非線形モデルに関するが、これらは、活性に対する配列の線形モデルの文脈ではさらに容易に理解され得る。従って、線形モデルの形態および開発をここに記載する。一般には、活性対配列の線形回帰モデルは以下の式を有する：

この線形の式では、ｙは予測される応答であるが、ｃ_ｉｊおよびｘ_ｉｊは、それぞれ、この配列におけるｉの位置で残基選択を示すために用いられる、回帰係数およびビット値またはダミー変数である。タンパク質改変体ライブラリの配列にはＮの残基位置が存在し、これらの各々は、１つ以上の残基によって占有され得る。任意の所定の位置では、ｊ＝１〜Ｍで、別の残基タイプがあり得る。このモデルは、あらゆる位置で残基の間の線形（相加的な）の関係を想定する。式１の展開バージョンは以下のとおりである：

示されるとおり、活性および配列情報の形態でのデータは、最初のタンパク質改変体ライブラリ由来であり、そしてモデルの回帰係数を決定するために用いられる。ダミー変数は最初に、タンパク質改変体配列のアラインメントから同定される。アミノ酸残基位置は、タンパク質改変体配列であって、その位置におけるアミノ酸残基が配列間で異なるタンパク質改変体配列の中から同定される。これらの改変残基位置のいくつかまたは全てにおけるアミノ酸残基情報は、配列活性モデルに取り込まれてもよい。

表Ｉは、１０個の例示的な改変体タンパク質についての可変残基位置および残基タイプの形態の配列情報を、お互いの改変体タンパク質に相当する活性値とともに含む。全ての係数について解くために十分な式を作成するために必要である、代表的なメンバーの大きいセットが存在することが理解される。従って、例えば、表Ｉにおける例示的なタンパク質改変体配列について、位置１０、１６６、１７５および３４０は、可変残基位置であり、そして全ての他の位置、すなわち、表に示されない位置は、改変体１〜１０の間で同一である残基を含む。

など。

従って、式１に基づいて、回帰モデルは、表Ｉにおける系統的に変化されたライブラリ由来であってもよい、すなわち、

ビット値（×ダミー変数）は、示されたアミノ酸残基の有無、あるいは、１、もしくは−１、またはいくつかの他の代用表示として１または０のどちらかで呈示され得る。例えば、１または０の記号を用いて、Ｘ_{１０Ａｌａ}は、改変体１については「１」、そして改変体２については「０」である。１もしくは−１の記号を用いて、Ｘ_{１０Ａｌａ}は、改変体１については「１」、そして改変体２については「−１」である。従って、回帰係数は、ライブラリにおける全ての改変体についての配列活性情報に基づいて、回帰方程式から誘導され得る。改変体１〜１０についてのこのような式の例（ｘについては１または０の記号を用いる）は以下のとおりである：

式の完全なセットを、回帰技術（例えば、ＰＣＲ、ＰＬＳまたはＭＬＲ）を用いて容易に溶解して、目的の各々の残基および位置に相当する回帰係数についての値を決定することができる。この実施例では、回帰係数の相対的な大きさは、活性に対して特定の位置で特定のその残基の寄与の相対的な大きさに相関する。次いで、回帰係数は、どの残基が所望の活性に都合よく寄与する可能性がより高いかを決定するために、ランク付けされるか、そうでなければ分類されてもよい。表ＩＩは、表Ｉに例示される系統的に変化されたライブラリに相当する例示的な回帰係数の値を示す。

回帰係数のランク順序付けリストは、所望の活性（すなわち、適合度の改善）に関して最適化される、タンパク質改変体の新規なライブラリを構築するために用いられ得る。これは、種々の方法で行われてもよい。１つの場合には、最高値が観察された係数を有するアミノ酸残基を保持することによって達成され得る。これらは、回帰モデルによって、所望の活性に対して最も寄与することが示された残基である。負の記述子を使用して、残基（例えば、ロイシンについて１、グリシンについて−１）を同定する場合、係数の絶対値に基づいて残基位置をランク付けすることが必要になる。このような状況では、各々の残基について代表的には単一の係数しか存在しないことに注意のこと。係数の大きさの絶対値によって、対応する残基位置のランク付けが得られる。次いで、それらの各々が所望の活性に関して有害であるか有益であるかを決定するために、個々の残基のサインを考慮することが必要になる。

（ｉｉ）非線形モデル
非線形モデリングを使用して、タンパク質中の活性に寄与する残基間の相互作用を説明する。Ｎ−Ｋのランドスケープはこのタンパク質を描写する。パラメーターＮは、関連のポリペプチド配列のコレクションにおける可変残基の数をいう。パラメーターＫは、これらのポリペプチドのいずれかの中の個々の残基の間の相互作用を示す。相互作用は通常は、ポリペプチドの一次構造、二次構造または三次構造のいずれかにおける種々の残基の間の緊密な物理的近接の結果である。相互作用は、直接相互作用、間接相互作用、物理化学相互作用、折り畳み中間体に起因する相互作用、翻訳効果などに起因し得る。

パラメーターＫは、Ｋ＝１の値について、各々の可変残基（例えば、それらのうち２０が存在する）がその配列における正確に１つの他の残基と相互作用するように規定される。全ての残基が物理的および化学的に他の全ての残基の影響から隔てられている場合、Ｋの値はゼロである。明らかに、ポリペプチドの構造に依存して、Ｋは、広範な種々の値を有し得る。問題になっているポリペプチドの厳格に解かれた構造を考慮すれば、Ｋの値は評価され得る。しかし、しばしばこれは事実とは異なる。

ポリペプチド活性の純粋に線形の相加モデル（上記のとおり）は、２つ以上の残基の間の特異的な相互作用に相当する１つ以上の非線形相互作用項を含むことによって、改良され得る。上記で示されるモデル形態の状況では、これらの項は、有意な正の影響または負の影響を活性に対して有するように相互作用する２つ以上の特定の残基（各々が、この配列における特定の位置に関連する）に相当する２つ以上のダミー変数を含む「外積（ｃｒｏｓｓ−ｐｒｏｄｕｃｔｓ）」として描写される。例えば、外積項は、ｃ_ａｂｘ_ａｘ_ｂ型を有してもよく、ここでｘ_ａは、配列上の特定の位置で特定の残基の存在に相当するダミー変数であり、そして変数ｘ_ｂは、ポリペプチド配列における種々の位置（第一の位置と相互作用する）での特定の残基の存在を示す。このモデルの詳細な例の形態は以下に示す。

外積項に呈示される全ての残基の存在（特異的に同定された位置での残基の各々２つ以上の特異的なタイプ）が、このポリペプチドの全体的な活性に影響する。この影響は、多くの異なる方法で明らかになり得る。例えば、あるポリペプチドに単独で存在する残基が、活性に対して負の影響を有し得る場合、各々の個々の残基が相互作用するが、それらの各々がこのポリペプチドに一緒に存在する場合、その全体的な効果は正である。この反対が、他の場合には真であり得る。さらに、相乗効果が生じ得、ここでは個々の残基単独の各々が活性に対して比較的限られた影響を有するが、それらの全てが存在する場合、活性に対する影響は、全ての個々の残基の累積効果よりも大きい。

非線形モデルは配列における相互作用する可変残基のあらゆる可能性のある組み合わせについての外積項を含むことが可能である。しかし、これは、物理的な現実性を示さない、なぜなら、可変残基のあるサブセットのみがお互いと実際に相互作用するからである。さらに、これは、このモデルを作成するために用いられる特定のポリペプチドの発現であるウソの結果を与え、このポリペプチド内の本当の相互作用を示さないモデルを生じる「オーバーフィッティング（ｏｖｅｒｆｉｔｔｉｎｇ）」を生じる。物理的な現実性を示し、オーバーフィッティングを避けるモデルについての外積項の正確な数は、Ｋという値によって示される。例えば、Ｋ＝１である場合、外積相互作用項の数はＮに等しい。

一般には、多すぎるのではなく少なすぎる外積項を有することの方が、より好ましいかもしれないことに注意のこと。非線形モデルに含まれる比較的小さい外積項が、実際には、活性に対して最大の影響を有するものであるならば、小さすぎるものを有するほうが明らかに好ましい。明らかなはずであるように、非線形モデルを構築するには、活性に対して有意な影響を有する真の構造的な相互作用を示す外積相互作用項を同定することが重要である。これは、種々の方法で達成され得る。これらとしては、以下が挙げられる：候補の外積項（最大の回帰係数を有する項で開始して、小さい回帰係数を有する項に進行する）が、項の追加がもはや統計学的に有意でなくなる時点（Ｆ検定またはいくつかの他の適切な統計的検定によって測定される場合）まで最初の線形のみのモデル１に加えられるフォワード・アディション（ｆｏｒｗａｒｄａｄｄｉｔｉｏｎ）；全ての可能性のある外積項を開始時に追加して、除去最小重要性残留項（ｔｈｅｌｅａｓｔｉｍｐｏｒｔａｎｔｒｅｍａｉｎｉｎｇｔｅｒｍ）が統計的に有意である時点まで（最小回帰係数を有する項で開始して、最大回帰係数を有する項に進行する）１つを取り除く、リバース・エリミネーション（ｒｅｖｅｒｓｅｅｌｉｍｉｎａｔｉｏｎ）。以下に示される１例は、有用な非線形項を同定するための遺伝的アルゴリズムの使用を包含する。

一般には、このような相互作用項を含む非線形モデルを生成するアプローチは、線形モデルを生成するために上記されたアプローチと同じである。言い換えれば、トレーニングセットは、あるモデルに対してデータを「適合する、あてはめる、フィットする（ｆｉｔ）」ために使用される。しかし、１つ以上の非線形項は、好ましくは、上記で考察される外積項が、このモデルの形に追加される。さらに、得られた非線形モデルは、上記の線形モデルと同様、ポリペプチドの全体的活性に対する種々の残基の重要性をランク付けするために使用され得る。種々の技術は、非線形式によって予測されるとおり可変残基の最高の組み合わせを同定し得る。不幸にも、線形の場合とは異なり、相加的モデルの単純な検査によってこれを達成することはしばしば不可能である。残基をランキングするためのアプローチが下に記載される。

わずか２つの残基によって生じる相互作用に限定される場合でさえ、可変残基について非常に多数の可能性のある外積項が存在することに注意のこと。さらなる相互作用が生じる場合、非線形モデルについて考慮する潜在的な相互作用の数は、指数関数方式で増大する。このモデルが、３つ以上の残基を含む相互作用の可能性を含む場合、潜在的な項の数は、さらに急速にさえ増大する。

２０の可変残基が存在しＫ＝１である単純な場合（各々の可変残基は１つの他の可変残基と相互作用すると仮定する）、このモデルでは２０の相互作用項（外積）が存在するはずである。少ない場合、このモデルは、相互作用を完全には描写せず（ただし、この相互作用のいくつかは、活性に対して有意な影響を有し得ない）、そして任意のさらに多いモデルおよびこのモデルがデータセットにオーバーフィットし得る。Ｎ＊（Ｎ−１）／２または１９０個の相互作用の潜在的な対が存在する。この配列における２０の相互作用を描写する２０個の固有の対の組み合わせを見出すことは、重大な計算問題である。約５．４８×１０^２６個の可能性のある組み合わせが存在する。

多くの技術を使用して、関連の外積項を同定し得る。問題のサイズおよび利用可能な計算能力に依存して、全ての可能性のある組み合わせを探索して、それによってこのデータ（トレーニングセットの数）に最適にあてはまる１つのモデルを同定することが可能であり得る。しかし、しばしば、この問題は、利用可能なコンピューター・リソースには大きすぎて、そのため当業者は、効率的な検索アルゴリズムまたは近似式に頼らなければならない。言及されるとおり、１つの適切な検索技術は、遺伝的アルゴリズムである。

遺伝的なアルゴリズムでは、適切な適合度関数および適切な交配手順が規定される。この適合度関数は、どのモデル（外積項の組み合わせ）が「最も適合する（ｍｏｓｔｆｉｔ）」（すなわち、最高の結果を与える可能性が高い）か、を決定するための基準を提供する。この交配手順によって、前の生成における首尾よい「親の（ｐａｒｅｎｔａｌ）」モデルから外積項の新規な組み合わせを導入するための機構が提供される。外積項の組み合わせを同定するための遺伝的アルゴリズムの１例は、図２を参照してここに記載される。このアルゴリズムは、そのいくつかは、他のよりも代表的な物理的実現性のさらに良好なジョブを行う、複数の可能性のあるモデルを含む第一世代で開始する。ブロック２０１を参照のこと。第一および各々の後続的世代は、ある「集団（ｐｏｐｕｌａｔｉｏｎ）」における多数のモデルとして呈示される。各々の「モデル（ｍｏｄｅｌ）」は、線形項（全てのモデルにまたがって固定）および非線形外積項の組み合わせである。この「モデル（ｍｏｄｅｌ）」は、この遺伝的アルゴリズムにおいて、個々の線形および非線形項についての係数を内因的に含まず、非線形項（例えば、外積項）の組み合わせの同定のみを含む。遺伝的アルゴリズムは、各々が非線形相互作用項の種々の組み合わせによって特徴付けられる、モデルの後ろに続く世代を通じた進行によって収束にむかって前進する。

ある世代における各々のモデルを用いて、ポリペプチドのトレーニングセット（公知の配列および関連の活性を有する）を適合させる。トレーニングセットを用いて、現在の世代の個々のモデルを適合させる。図２のブロック２０３、２０５、２０７および２０９を参照のこと。１実施例では、部分最小自乗技術または同様の回帰技術を用いて適合を行う。

得られたモデルの予測力（トレーニングデータセットに対する回帰によって得られる係数を含む）は、適合度関数として用いられる。予測力の詳細な評価を得るために、モデルの多くの異なる適合度が、所定のトレーニングセットについて提供され得る。ブロック２０５、２０７および２０９を参照のこと。各々の適合によって、検討中のモデルの線形および非線形項について係数値のそれ自体の固有のセットが得られる。１つのアプローチでは、「１つ除外（リーブ・ワン・アウト）（ｌｅａｖｅｏｎｅｏｕｔ）」アプローチが使用され、このアプローチではトレーニングセットの１つを除く全メンバーを用いてこのモデルを適合させる。次いで、この１除外メンバーを用いて、モデルの得られた実例の予測力を試験する。このモデル実例（適合によって同定された係数値と一緒のモデル項）は、それを生成するために使用されるトレーニングセットメンバーの活性を予測するという良好なジョブを行うと期待される。しかし、トレーニングセットの利用されたメンバー以外からのポリペプチドの活性を予測するのはそれほどうまく行えないかもしれない。特異的な実施形態では、複数の「リーブ・ワン・アウト（１つ除外）」モデル実例を生成して、各々をそれがこの除外メンバーの活性を予測する能力について評価する。得られたセットの予測を組み合わせて、予測能力の総計の測定を得る（ブロック２１１を参照のこと）。１実施例では、この凝集測定は、現在のモデルの種々の１つ除外（リーブ・ワン・アウト）モデル実例についての予測剰余自乗和（ｐｒｅｄｉｃｔｅｄｒｅｓｉｄｕａｌｓｕｍｏｆｓｑｕａｒｅｓ）（ＰＲＥＳＳ）である。このＰＲＥＳＳは、事実上、遺伝的アルゴリズムの適合度関数である。

特定の生成における非線形の外積項（モデル）の各々の組み合わせをその予測力について評価した後（すなわち、決定２１３が、否定で回答される）、遺伝的アルゴリズムを収束についてチェックする。ブロック２１５を参照のこと。遺伝的アルゴリズムがまだ収束されていないと仮定すれば、現在の生成のモデルがランク付けされる。予測活性の最高のジョブを行うものは、保存されて、次の世代で用いられてもよい。ブロック２１７を参照のこと。例えば、１０％というエリティズム・レート（ｅｌｉｔｉｓｍｒａｔｅ）を使用してもよい。換言すれば、モデルのトップ１０％（適合度関数を用いて決定され、そして例えば、ＰＲＥＳＳスコアによって測定されるとおり）を除外しておいて、次の世代のメンバーにする。次の世代におけるメンバーの残りの９０％を、前の世代からの「親（ｐａｒｅｎｔ）」と交配することによって得る。ブロック２１９、２２１および２２３を参照のこと。

「親（ｐａｒｅｎｔｓ）」は、前の世代からランダムに選択されたモデルである。ブロック２１９を参照のこと。しかし、ランダム選択は代表的には、前の世代のさらに適合した数に向かって重み付けられる。例えば、親のモデルは、線形重み付け（例えば、別のモデルよりも１．２倍良好に行うモデルは、選択される可能性が２０％大きい）、または幾何学的重み付け（すなわち、モデルの予測相違は、選択の確率を得るために力が向上される）を用いて選択され得る。

親のモデルのセットが選択された後、このようなモデルの対をマッチさせて（ブロック２２１）、１つの親からいくつかの非線形項を、そして他の親から他の非線形項を提供することによって子モデルを生成する。１つのアプローチでは、２つの親の非線形項（外積）を整列させて、各々の項は引き続いて、その子が親Ａ由来の項を採用すべきであるか、または親Ｂ由来の項を採用すべきであるかを決定するとみなされる。１つの実行では、交配プロセスは、親Ａで開始して、「クロス・オーバー（ｃｒｏｓｓｏｖｅｒ）」事象が遭遇された最初の非線形項で生じるはずであるかどうかを無作為に決定する。もしそうであるならば、この項は親Ｂから採用される。もしそうでないならば、この項は、親Ａから採用される。次の項は、連続して、クロス・オーバーなどについてみなされる。この項は、クロス・オーバー事象が生じるまでは検討中の前の項を提供する親に継続して由来する。その時点では、次の項は他の親から提供され、そして全ての継続項は、別のクロス・オーバー事象が生じるまでその親から与えられる。同じ非線形外積項が、子のモデルにおいて２つの異なる位置で選択されないことを確実にするために、種々の技術、例えば、部分的にマッチしたクロス・オーバー技術を使用してもよい。

各々の非線形項が考慮された後、子の「モデル」が次の世代のために規定される。次いで、別の２つの親を選択して、別の子モデルなどを作成する。最終的には、この方式で完全な世代が選択された後（ブロック２２３）、次の世代は評価のために準備され、次いでプロセス・コントロールがブロック２０３に戻り、ここで次の世代の数が上記のように評価される。

このプロセスは、収束まで世代ごとに継続し、すなわち、決定ブロック２１５は、否定で回答される。その時点で、トップにランクされたモデルは、全体的なベストのモデルとして現在の世代から選択される。ブロック２２５を参照のこと。収束は、多くの従来の技術によって試験され得る。一般には、これは、多数の連続する世代由来のベストのモデルの能力は感知できるほど変化しないということの決定を包含する。

この時点では、配列からの活性を予測するモデルにおいて非線形外積項を組み込む値を示すためにある例が呈示される。以下の非線形モデルを考慮するが、このモデルでは、この配列における各々の可変位置にわずか２つの残基選択肢しかないと仮定される。この例では、このタンパク質配列は、それぞれ、＋１および−１を用いて、選択肢Ａまたは選択肢Ｂに相当するダミー変数を用いることによって、コードされた配列にキャスティングされる。このモデルは、各々の残基選択を割り当てるためにいずれの数値的な値が用いられるかという恣意的な選択に影響されない。

このコードスキームを考慮して、活性を有するタンパク質配列に関連付けるために用いられる線形モデルは、以下のとおり記載され得る：

ここでｙは、応答（活性）であり、ｃ_ｎはｎ位置での残基選択のための回帰係数、ｘはｎ位置での残基選択（＋１／−１）をコードするダミー変数、そしてｃ^０は応答の平均値である。この形態のモデルは、可変残基の間に相互作用がないと仮定する−各々の残基選択は、このタンパク質の全体的適合度に対して独立して寄与する。

この非線形モデルは、残基の間の相互作用を説明するための、ある特定の数（まだ決定されていない）の外積項を含む。

ここでは、変数は、式（３）のものと同じであるが、ここでは、非線形項があり、例えば、ｃ_１，２は、変数位置１と２との間の相互作用についての回帰定数である。

線形および非線形のモデルの能力を評価するために、ＮＫランドスケープ（Ｋａｕｆｆｍａｎ，１９９３）として公知の合成データ源を用いた。言及されるとおり、Ｎは、シミュレートされたタンパク質の可変位置の数であり、そしてＫは、残基の間の上位性のカップリングである。合成のデータセットはインシリコでのみ生成された。

このデータセットを用いて、最初のトレーニングセットを生成し、ここではＳ＝４０の合成サンプル、Ｎ＝２０の可変位置、そしてＫ＝１である（反復するためには、Ｋ＝１について各々の可変位置は、１つの他の可変位置に対して機能的にカップリングされる）。無作為化されたタンパク質を生成するには、各々の可変位置は、＋１または−１というダミー変数を含むという等しい確率を有した。残基間の相互作用（外積によって示される）および現実の活性は、合成トレーニングセットの各々のメンバーについて既知である。別のＶ＝１００のサンプルを、バリデーションにおける使用のために生成した。ここでも、残基間の相互作用および活性はまた、バリデーションセットの各々の数について既知である。

このトレーニングセットを用いて、上記の方法を用いる線形および非線形の両方のモデルを構築する。いくつかの非線形モデルを、（上記のような遺伝的アルゴリズムを用いて）外積項の選択によって作成し、そして他の非線形モデルは、このような項の選択なしに作成した。Ｓ＝４０というトレーニングセットサイズについては、線形モデルは、この測定されたそして予測された値を合理的に十分相関させ得るが、データに対してバリデートされた場合、トレーニングセットにみられない弱い相関が実証される（図３Ａを参照のこと）。示されるとおり、黒塗りのデータポイントは、トレーニングセットにおける他の３９個のデータポイントに基づいて線形モデルによって作成された相互検証予測を示しており、単一の提出データポイントを予測する。従って、黒塗りのデータポイントによって示される正確に４０個のわずかに異なるモデルが存在する。白抜きのデータポイントは、そのどれもがオリジナルのトレーニングセットには見られなかった、４０個のトレーニングサンプルから構築された単一のモデルによって作成され、そしてバリデーションサンプルＶを予測するために用いられた予測を示す。次いで、バリデーションセットの使用によって、下記の非線形の場合について特に、モデルオーバーフィット問題を被り得る、相互検証されたトレーニングセットとは反対に、モデルの真の予測能力の良好な測定が得られる。

Ｓ＝４０についてのこの結果は、この線形モデルが非線形適合ランドスケープをモデル化するために用いられたことを考慮すれば、興味深い。この場合、線形モデルは、多くとも、所定の残基の選択についての適合のために平均寄与を捕獲し得る。これらの十分な平均寄与を一緒に考慮すれば、線形モデルは、測定された応答をおおまかに予測し得る。線形モデルのバリデーション結果は、トレーニングサイスがＳ＝１００まで増大された場合、わずかに優れていた（図３Ｂを参照のこと）。次いで、アンダーフィット・データに対する比較的単純なモデルの傾向はバイアスについて既知である。

わずかＳ＝４０のサンプルを用いて非線形モデルをトレーニングした（そして２０の非線形外積項を上記のような遺伝的アルゴリズムを用いて選択した）場合、トレーニングセットメンバーとの相関は、優れていた（図３Ｃを参照のこと）。不幸にも、このモデルは、このバリエーションセットにおける測定された値とのその限られた相関によって証明されるとおり、トレーニングセットの外側の限られた予測力を含んだ。多くの潜在的な変数（可能性として２１０）を有する、この非線形モデル、および適切な外積項の同定を容易にする限られたトレーニングデータは、それがトレーニングされたデータセットを本質的に単に記憶できた。このデータをオーバーフィットさせるための高い複雑性モデルの傾向は、分散として公知である。偏り分散（ｂｉａｓ−ｖａｒｉａｎｃｅ）トレードオフは、機械学習における基本的な問題に相当し、そして新規なまたは特徴付けられていない機械学習問題に対処する場合、それに取り組むためには、いくつかの形態のバリデーションが、ほとんどいつも必要である。満足なことに、より大きいロレーニングセット（Ｓ＝１００）については、この非線形モデルは、トレーニング予測、およびさらに重要なことには、バリデーション予測の両方について非常に十分に行った（図３Ｄを参照のこと）。このバリデーション予測は、ほとんどのデータポイントが、トレーニングセットをプロットするための黒丸の使用によって不明瞭であるほど良かった。

比較のために、図３Ｅおよび図３Ｆは、外積項の注意深い選択なしに調製された非線形モデルの能力を示す。図３Ｃおよび図３Ｄにおけるモデルと異なり、あらゆる可能性のある外積項を選択した（すなわち、Ｎ＝２０について１９０外積項）。理解されるとおり、バリデーションセット活性を予測する能力は、外積項の選択で得られる非線形モデルのものと比較して比較的乏しい。これはオーバーフィッティングの発現である。

（ｉｉｉ）モデル予測配列を改変することによって最適化されたタンパク質改変体ライブラリを作成する工程
単独の最高に予測されたタンパク質を簡単に合成するのではなく、各々の位置で残基選択における変化に対して最高のタンパク質の鋭敏な分析に基づいて、タンパク質のコンビナトリアルライブラリを生成し得る。所定の残基選択が、予測されたタンパク質について鋭敏であるほど、その予測された適合度変化は大きくなる。当業者は、これらの感度を最高から最低にランク付けし得、そして感度スコアを用いて、感受性に基づいてこれらの残基を取り込むことによって、引き続く回においてコンビナトリアルタンパク質ライブラリを作製する。線形モデルについては、感度は、このモデルにおける所定の残基項に関連する係数のサイズを単純に考慮することによって同定され得る。非線形モデルでは、これは、不可能である。代わりに、残基感度は、単独の残基が「ベスト」予測配列で変化される場合、活性における変化を算出するためのモデルを用いることによって決定され得る。

残基は、それらがランク付けされる順序で考慮される。検討中の各々の残基については、このプロセスは、その残基を「切り替える（ｔｏｇｇｌｅ）」か否かを決定する。「切り替える」という用語は、最適化されたライブラリにおけるタンパク質改変体の配列における特定の位置への複数のアミノ酸残基タイプの導入をいう。例えば、セリンは、１つのタンパク質改変体において１６６位置で出現し得るが、フェニルアラニンは、同じライブラリにおいて別のタンパク質改変体における位置１６６で出現し得る。トレーニングデータセットにおけるタンパク質改変体配列の間で変化しないアミノ酸残基は代表的には、最適化されたライブラリにおいて固定されたままである。

最適化されたタンパク質改変体ライブラリは、全ての同定された「高（ｈｉｇｈ）」ランクの回帰係数残基が固定され、そして残りの低いランクの回帰係数の残基が切り替えられるように設計され得る。この論理的根拠は、「ベスト（ｂｅｓｔ）」予測タンパク質を囲む局所スペースを検索するべきであるということである。切り替えが導入される出発点「骨格（ｂａｃｋｂｏｎｅ）」は、あるモデルによって予測されるベストのタンパク質、またはスクリーニングされたライブラリ由来の既に確証された「ベストの」タンパク質であり得ることに注意のこと。

別のアプローチでは、少なくとも１つ以上、ただし同定された高ランクの回帰係数の残基の全てではないものが、最適化されたライブラリにおいて固定されて、その他が切り替えられてもよい。一回で多すぎる変化を組み込むことによって、他のアミノ酸残基の状況を劇的に変化させないことが所望される場合に、このアプローチが推奨される。ここでも、切り替えのための出発ポイントは、モデルによって予測される残基のベストのセットであっても、または既存のライブラリ由来のベストのバリデートされたタンパク質であってもよい。または、出発ポイントは十分にモデリングする「平均（ａｖｅｒａｇｅ）」クローンであってもよい。この場合、重要性がより高いことが予測される残基を切り替えることが所望され得る。この論理的根拠は、当業者が、サンプリングから前に省かれた活性ヒルについての検索において大きいスペースを探索すべきであるということである。このタイプのライブラリは代表的には、初期の回ではさらに関連性である。なぜなら、引き続く回についてさらに洗練されたピクチャを生成するからである。

上記の方法論に対する代替は、どの残基を切り替えるかを決定するのにおける残基重要性（ランキング）を用いるための異なる手順を包含する。このような代替の１つでは、より高度にランク付けされた残基位置ほど切り替えについて積極的に好まれる。このアプローチで必要な情報としては、トレーニングセットからのベストのタンパク質の配列、ＰＬＳまたはＰＣＲ予想ベスト配列およびＰＬＳまたはＰＣＲモデルからの残基のランキングが挙げられる。「ベストの（ｂｅｓｔ）」タンパク質とは、データセットにおけるウエットラボ（ｗｅｔ−ｌａｂ）でバリデートされた「ベストの」クローンである（やはり十分にモデリングする最高の測定機能を有する、すなわち、相互検証（クロス確認）における予測値に比較的近くになる、クローン）。この方法は、このタンパク質由来の各々の残基と、所望の活性の最高値を有する「ベスト予測」配列由来の対応する残基とを比較する。最高のロードまたは回帰係数を有する残基が、「ベストの」クローンには存在しない場合、この方法は、引き続くライブラリの切り替え位置としてその位置を紹介する。この残基がベストのクローンに存在する場合、この方法は、切り替え位置としてこの位置を処置せず、そして次の位置を連続して動かす。このプロセスは種々の残基について繰り返されて、このライブラリが十分なサイズに生成されるまで、連続的な低いロード値を通じて動く。

保有するための回帰係数残基の数、および切り替える回帰係数残基の数は、変化してもよい。考慮する要因としては、所望のライブラリサイズ、回帰係数の間の相違の大きさ、および非線形性が存在すると考えられる程度が挙げられる−小さい（中性）の係数を有する残基を保持することは、進化のその後の回における重要な非線形性を明らかにすることができる。本発明の代表的な最適化されたタンパク質改変体ライブラリは、約２^Ｎ個のタンパク質改変体を含み、このＮは、２つの残基間で切り替えられる位置の数に相当する。別の方法を言えば、各々のさらなる切り替えによって追加される多様性によって、ライブラリのサイズは２倍にされ、その結果１０の切り替え位置によって、約１，０００クローン（１，０２４）、１３の位置は約１０，０００クローン（８，１９２）そして２０の位置は約１，０００，０００クローン（１，０４８，５７６）が生じる。適切なサイズのライブラリは、スクリーニングのコストのような要因、ランドスケープの耐久性、スペースの好ましいサンプリングパーセンテージなどに依存する。ある場合には、比較的多数の荷電された残基によって、クローンの異常に大きい割合が非機能的であるライブラリが生じることが見出されている。従って、いくつかの適用では、切り替えるための残基数は約２〜約３０の範囲、すなわち、ライブラリサイズは約４そして２^３０〜約１０^９クローンの範囲であることが推奨され得る。

実際には、当業者は、同時に種々の引き続く回のライブラリストラテジーを探究し得る。このときこのいくつかのストラテジーは、より攻撃的（より「有益な（ｂｅｎｅｆｉｃｉａｌ）」残基を固定する）であって、他のストラテジーは、より保守的である（このスペースをより徹底的に探索することを期待してより「有益」でない残基を固定する）。

ほとんどの天然に存在するか、または他の首尾よいペプチドにおいて生じる、基または残基または「モチーフ（ｍｏｔｉｆｓ）」を同定し保存することが所望され得る。例えば、天然に存在するペプチドにおいてＩｌｅは可変位置３で常に、可変位置１１でＶａｌとカップリングされることが見出され得る。このような残基群は、ペプチドにおける保存活性に対して重要であり得ることが見出されている。それ故、１実施形態では、このような群の保存は、任意の切り替えストラテジーにおいて必要である。言い換えれば、わずかな受容された切り替えは、ベースタンパク質における特定の分類を保存する切り替えであるか、または活性タンパク質においてもまた見出される異なる分類を生成する切り替えである。後者の場合、２つ以上の残基を切り替えることが必要である。

種々のアプローチでは、現在最適化されたライブラリにおける、ウエット・ラボでバリデート確証した「ベストの」（または２〜３のベストのうちの１つ）タンパク質（すなわち、最高であるタンパク質、または２〜３の最高のうちの１つ、やはり十分にモデリングする機能を測定した、すなわち、相互検証（クロス確認）における予測値に比較的近くになる）は、変化の種々のスキームが組み込まれる骨格として機能し得る。別のアプローチでは、十分モデリングされ得ない現在のライブラリにおける、ウエット・ラボでバリデート（確証）した「ベストの」（または２〜３のベストのうちの１つ）タンパク質が、変化の種々のスキームが組み込まれる骨格として機能し得る。他のアプローチでは、所望の活性の最高値（または最高値の１つ）を有することが配列活性モデルによって予測される配列が、骨格として機能し得る。これらのアプローチでは、「次世代（ｎｅｘｔｇｅｎｅｒａｔｉｏｎ）」ライブラリ（そして可能性としては、対応するモデル）についてのデータセットは、ベストのタンパク質の１つまたは２〜３において残基を変化することによって得られる。１実施形態では、これらの変化は、骨格中における残基の系統的な変化を含む。ある場合には、この変化は、種々の変異誘発性、組み換えおよび／または部分列選択技術を含む。これらの各々は、インビトロ、インビボまたはインシリコで行われ得る。

最適の配列は線形モデルによって予測され、上記の検査によって同定されてもよいが、同じことは非線形モデルには当てはまらない。特定の残基が線形および外積項の両方で出現し、そして他の残基の多くの潜在的な組み合わせの状況における活性に対する全体的な影響は、困難な問題を示し得る。

非線形モデルについての外積項の選択と同様に、非線形モデルによって予測される最適の配列は、モデルを用いて全ての可能性のある配列を試験すること（十分なコンピューター・リソースを仮定する）、または遺伝的アルゴリズムのような検索アルゴリズムによって同定され得る。１つの例示的な遺伝的アルゴリズムが記載される。

このアルゴリズムでは、適合度関数は、単に、活性の非線形モデルの予測である。特定の実施例では、約５〜１０％というエリティズム・レート（ｅｌｉｔｉｓｍｒａｔｅ）を使用する。交配のための親の選択は、線形の重み付けされた適合操作を包含する。この選択された親は、順序付けされたセットの残基を提供し、そして均一なクロス・オーバー（ｃｒｏｓｓｏｖｅｒ）操作が使用される。ベストのコンピューター作成タンパク質は、少なくとも１５世代の間改善がみられなかった後に拾い上げられる。

上記のように同定された、コンピューター進化されたタンパク質に含まれる情報は、実験室で新規なタンパク質を合成し、それらを物理的なアッセイに対して試験するために用いられ得る。現実的なウエット・ラボの適合度関数の正確なインシリコ呈示によって、研究者らは、この実験室においてスクリーニングするために必要な進化のサイクルの回数または改変体の数を減少させることが可能である。最適化されたタンパク質改変体ライブラリは、本明細書に記載される組み換え方法を用いて、あるいは、遺伝子合成法によって、続いて、インビボまたはインビトロの発現によって、生成され得る。最適化されたタンパク質改変体ライブラリを所望の活性についてスクリーニングした後、それらは配列決定され得る。図１の考察において上記されるとおり、最適化されたタンパク質改変体ライブラリからの活性および配列の情報は、別の配列活性モデルであって、それからさらに最適化されたライブラリが設計され得る配列活性モデルを、本明細書に記載の方法を用いて、生成するために使用され得る。１アプローチでは、この新規なライブラリ由来の全てのタンパク質をデータセットの一部として用いる。

（ｉｖ）代替的なモデリング選択肢
上記のアプローチに対する複数の他のバリエーションは、本発明の範囲内である。１例として、ｘ_ｉｊ変数は、アミノ酸の物理的特性または化学的特性の提示であり、アミノ酸自体の正確な同一性ではない（ロイシン対バリン対プロリン、．．．）。このような特性の例としては、親油性、バルクおよび電気的特性（例えば、形式電荷、ファン・デル・ワールス表面積関連部分電荷など）が挙げられる。このアプローチを実行するために、アミノ酸残基に相当するｘｉｊ値は、この特性から構築されたそれらの特性または主成分に関して呈示され得る。

別のバリエーションでは、ｘ_ｉｊ変数は、アミノ酸残基ではなくヌクレオチドに相当する。この目標はタンパク質改変体ライブラリのタンパク質をコードする核酸配列を同定することである。アミノ酸ではなくヌクレオチドを用いることによって、当業者は、単なる特定の活性以外のパラメーターに対して最適化し得る。例えば、特定の宿主またはベクターにおけるタンパク質発現は、ヌクレオチド配列の関数であり得る。２つの異なるヌクレオチド配列が、１つのアミノ酸配列を有するタンパク質をコードしてもよいが、ヌクレオチド配列の１つは、より多い量のタンパク質を発現するか、そして／またはさらに活性な状態のタンパク質を発現する。アミノ酸配列ではなくヌクレオチド配列を用いることによって、本発明の方法は、発現特性を、例えば、特異的な活性と同様に最適化し得る。

特定の実施形態では、ヌクレオチド配列はコドンとして示される。モデルは、ヌクレオチド配列の原子単位としてコドンを使用し得、その結果この予測活性は、ヌクレオチド配列における種々のコドンの関数である。各々のコドンは全体的なヌクレオチド配列におけるその位置で一緒になって、配列活性モデルを生成するための独立変数として機能する。所定のアミノ酸についての異なるコドンは、所定の生物体において異なって発現することに注意のこと。さらに詳細には、各々の生物体は、所定のアミノ酸について、好ましいコドン、またはコドン頻度の分布を有する。独立変数としてコドンを用いることによって、本発明はこれらの優先度を説明する。従って、本発明は、発現改変体のライブラリを生成するために用いられ得る（例えば、「活性（ａｃｔｉｖｉｔｙ）」とは、特定の宿主生物体からの発現レベルを包含する）。

特定の方法のアウトラインは、以下の操作を包含する：（ａ）タンパク質改変体のトレーニングセットを特徴付けるデータを受容する工程；（ｂ）このデータから、ヌクレオチドタイプの関数として活性を予測する非線形の配列活性モデルを構築する工程、およびこのヌクレオチド配列における位置に対応させる工程；（ｃ）配列活性モデルを用いて、所望の活性に対する影響順でヌクレオチド配列中の特定の位置でヌクレオチド配列中の位置および／またはヌクレオチドのタイプをランク付けする工程；および（ｄ）このランク付けを用いて、所望の活性に影響を与えるために改変または固定されるべき、ヌクレオチド配列における、１つ以上のヌクレオチドを同定する工程。示されたとおり、変化されるべきヌクレオチドは好ましくは、特定のアミノ酸をコードするコドンである。

上記のアプローチの他のバリエーションは、残基をランク付けするか、そうでなければそれらを重要性に関して特徴づけるための種々の技術の使用を包含する。線形モデルでは、回帰係数の大きさを用いて、残基をランク付けした。大きい規模を有する係数を有する残基（例えば、１６６Ｉｌｅ）は、高ランク残基とみられた。この特徴付けを用いて、タンパク質改変体の新しい最適化されたライブラリの生成において特定の残基を変化するか否かを決定する。非線形モデルに関しては、感度分析はさらに複雑であった。

ＰＬＳおよび他の技術は、特定の残基または残基位置をランク付けするために用いられ得る、回帰係数の大きさを上回る他の情報を提供する。ＰＬＳおよび主成分分析（ＰｒｉｎｃｉｐｌｅＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）（ＰＣＡ）またはＰＣＲのような技術は、主成分または潜在的ベクトルの形態で情報を提供する。これらは、本発明において使用されるタンパク質配列活性スペースのような多次元データセットを通じて最大バリエーションの方向またはベクトルを示す。これらの潜在的ベクトルは、種々の配列寸法の関数である。すなわち、トレーニングセットを構築するために用いられる改変体ライブラリのタンパク質配列を含む個々の残基または残基位置である。従って、潜在的ベクトルは、トレーニングセットにおける各々の残基位置からの寄与の合計を含む。いくつかの位置は、このベクトルの方向に対してさらに強力に寄与する。これらは、比較的大きい「ロード（ｌｏａｄｓ）」、すなわちこのベクトルを記載するために用いられる係数によって、明らかになる。単純な例として、トレーニングセットは、トリペプチドからなってもよい。第一の潜在的ベクトルは代表的には、３つ全ての残基からの寄与を有する。
ベクトル１＝ａ１（残基位置１）＋ａ２（残基位置２）＋ａ３（残基位置３）

この係数ａ１、ａ２およびａ３はロードである。これらはデータセットにおけるバリエーションに対して残基位置を対応させるという重要性を反映するので、それらは、上記のように、「切り替え（ｔｏｇｇｌｉｎｇ）」決定の目的のための個々の残基位置の重要性をランク付けするために用いられ得る。ロードは、回帰係数と同様に、各々の切り替え位置で残基をランク付けするために用いられ得る。種々のパラメーターがこれらのロードの重要性を記載する。このようなバリアブル・インポータンス・イン・プロジェクション（ＶａｒｉａｂｌｅＩｍｐｏｒｔａｎｃｅｉｎＰｒｏｊｅｃｔｉｏｎ）（ＶＩＰ）のいくつかは、トレーニングセットからとられた複数の潜在的ベクトルについてのロードからなる、ロード・マトリクス（ｌｏａｄｍａｔｒｉｘ）を利用する。ＰＬＳプロジェクション（ＰＬＳＰｒｏｊｅｃｔｉｏｎ）のためのバリアブル・インポータンス（ＶａｒｉａｂｌｅＩｍｐｏｒｔａｎｃｅ）において、この変数（例えば、残基位置）の重要性は、ＶＩＰ（プロジェクションにおける可変重要性）を算出することによって計算される。所定のＰＬＳ次元について、（ＶＩＮ）_ａｋ ^２は、ある変数のＰＬＳ重みの自乗（ｗ_ａｋ）^２に、そのＰＬＳ次元によるｙ（従属変数、例えば、特定の関数）における説明可変性パーセントを掛けたものに等しい。（ＶＩＮ）_ａｋ ^２は、全てのＰＬＳ寸法（成分）にまたがって合計される。次いでＶＩＰは、この合計を、ＰＬＳモデルによって説明されるｙにおける総可変性パーセントで割って、このモデルにおける変数の数を掛けることによって算出される。１より大きい、大きいＶＩＰを有する変数は、特定の関数（ｙ）との相関について最も関係しており、従って、切り替え決定を行う目的のために最高にランク付けされる。

本発明の別の実施形態は、単に活性に対するその予測寄与の大きさによって残基をランク付けするのではなく、同様に、それらの予測寄与における信頼によってランク付けする技術を使用する。ある場合には、研究者らは、係数または主成分の偽の値を懸念する。

さらに統計学的に厳格なアプローチでは、このランキングは、大きさおよび分布の組み合わせに基づく。大きさおよび緊密な分布の両方を伴う係数によって最高のランキングが得られる。ある場合には、別のものよりも小さい１係数は、有するバリエーションが少ないせいで、より高いランキングを与えられ得る。従って、本発明のいくつかの実施形態は、大きさおよび標準の偏差または分散の両方に基づいて残基またはヌクレオチドをランク付けする。種々の技術を用いてこれを達成することができる。これらのうちの１つ、ブートストラップｐ値アプローチがここで記載されている。

ブートストラップ法を使用する方法の例は、図４に示される。ここで示すとおり、方法１２５は、ブロック１２７で開始し、ここでオリジナルのデータセットＳが提供される。これは、上記のようなトレーニングセットであってもよい。例えば、これは、上記の方式のいずれか１つにおいて、出発配列の個々の残基を系統的に変化させることによって生成され得る。方法１２５の例では、このデータセットＳは、分析における使用のためのＭの異なるデータポイント（アミノ酸またはヌクレオチド配列から収集された活性および配列の情報）を有する。

データセットＳから、種々のブートストラップセットＢが作成される。これらの各々は、（全てがオリジナルのセットＳから採用された）Ｍメンバーの新しいセットを作成するためのセットＳからの、置換を伴う、サンプリングによって得られる。ブロック１２９を参照のこと。「置換を伴う（ｗｉｔｈｒｅｐｌａｃｅｍｅｎｔ）」状態は、オリジナルのセットＳに対するバリエーションを生じる。この新しいブートストラップセットＢは、時に、Ｓからの複製サンプルを含む。そして、これはまた、Ｓにもともと含まれる特定のサンプルを欠いてもよい。

例えば、１００配列のセットＳを考慮する。この方法で用いられる各々のブートストラップセットＢは、それ自体１００の配列を含む。ブートストラップセットＢは、オリジナルのセットＳにおける１００の配列由来の１００のメンバーの配列の各々を無作為に選択することによって作成される。従って、いくつかの配列は２回以上選択され、そしてその他は全く選択されないことが可能である。

現在考慮中のブートストラップセットＢを用いて、次にこの方法はあるモデルを構築する。ブロック１３１を参照のこと。このモデルは、ＰＬＳ、ＰＣＲ、ＳＶＭ、遺伝的プログラミングなどを用いて、上記のように構築され得る。このモデルは、セットＢ由来の種々のサンプルに見出される残基またはヌクレオチドについてのランキングの係数または他の兆候を提供する。ブロック１３３に示されるとおり、これらの係数または他の兆候は、引き続く使用のために記録される。

次に、決定ブロック１３５では、この方法は、別のブートストラップセットが作成されるべきか否かを決定する。もし、イエスならば、この方法は、ブロック１２９に戻り、ここで新規なブートストラップＢが上記のとおり作成される。もしノーならば、この方法は、下で考察されるブロック１３７に進行する。ブロック１３５での決定は、どれほど多くの異なるセットの係数値が、それらの値の分布を評価するのに用いられるべきであるか次第である。セットＢの数は、正確な統計を得るのに十分でなければならない。１例として、１００〜１０００のブートストラップセットを調製して、分析する。これは、方法１２５のブロック１２９、１３１および１３３を通じた約１００〜１０００の通過として示される。

十分な数のブートストラップセットＢが、上記のように調製されて分析された後、決定１３５は、否定で回答される。示されたとおり、次いでこの方法はブロック１３７に進行する。ある係数のこれらの平均および標準偏差（またはこのモデルによって生成される他の指標）は、係数値（例えば、それらのうち１００〜１０００、各々のブートストラップセット由来の１）を用いて、各々の残基またはヌクレオチド（コドンを含む）について計算される。この情報から、この方法は、ｔ統計値を算出し、そして測定された値がゼロとは異なる信頼区間を決定し得る。ｔ統計値から、信頼区間についてのｐ値を算出する。この場合、ｐ値が小さいほど、測定された回帰係数がゼロとは異なる信頼は大きい。

ｐ値は、多くの異なるタイプの特徴づけのうちの１つに過ぎないが、これは、残基重要性の係数または他の指標における統計的バリエーションを説明し得ることに注意のこと。例としては、回帰係数の９５パーセント信頼区間を算出する工程、および９５パーセント信頼区間がゼロの線と交差する、考慮のために任意の回帰係数を排除する工程が挙げられる。基本的に、標準偏差、分散または他のデータ分析の統計的に関連する測定を説明する任意の特徴づけが用いられ得る。このような特徴づけは好ましくはまた、係数の大きさを説明する。

大きい標準偏差は、種々の原因由来であり得る。１つの原因は、このデータセットにおける測定の乏しさである。別の原因は、オリジナルのデータセットにおける特定の残基またはヌクレオチドの呈示が限られていることである。この後者の場合、いくつかのブートストラップセットは、特定の残基の出現もヌクレオチドの出現も含まない。このような場合、その残基についての係数の値はゼロである。他のブートストラップセットは、残基またはヌクレオチドの少なくともいくつかの出現を含み、そして対応する係数のゼロでない値を与える。しかしゼロ値を与えるセットは、係数の標準偏差を比較的大きくさせる。これによって係数値の信頼が低下し、結果としてランクが低くなる。しかし、検討中の残基またはヌクレオチドに対して比較的小さいデータが存在するとすれば、これは予測されることである。

次に、ブロック１３９で、この方法は、より低い（ベスト）のｐ値から最高（最悪）のｐ値まで回帰係数（または他の指標）をランク付けする。このランキングは、回帰係数自体の絶対値と高度に相関しており、これは、この絶対値が大きいほど、標準偏差がゼロから除かれるという事実のせいである。従って、所定の標準偏差については、ｐ値は、回帰係数が大きくなるにつれて小さくなる。しかし、絶対ランキングは、常に両方のｐ値と同じではなく、そして純粋な偏差法が、特に比較的少ないデータポイントの場合、セットＳで開始するのに利用可能である。

最終的に、ブロック１４１で示されるとおり、この方法は、ブロック１３９の操作において観察されるランキングに基づいて特定の残基を固定および切り替える。これは本質的に、他の実施形態について上記されるランキングの同じ用途である。１アプローチでは、この方法は、ベストの残基（ここでは最低のｐ値を有する残基）を固定し、そしてその他（最高のｐ値を有する残基）を切り替える。

この方法１２５は、十分に機能することがインシリコで示されている。さらに、ｐ値ランキングアプローチは通常は、単一または２〜３のインスタンス残基を取り扱い、ｐ値は一般に、より高い（悪い）。なぜならブートストラッププロセスでは、もとのデータセットにしばしば出現しない残基は、ランダムに拾い上げられる可能性は低いからである。それらの係数が大きい場合でさえ、それらの可変性（標準偏差で測定）は、同様にかなり高い。本能的に、これは所望の結果である。なぜなら、十分呈示されていない残基（十分な頻度でみられていないか、または低い回帰係数を有するかのいずれか）は、次回のライブラリデザインにおける切り替えのための良好な候補であり得るからである。

（ＩＩＩ．デジタル装置およびシステム）
明らかであるはずなように、本発明の実施形態は、１つ以上のコンピューターシステムに記憶されるか、またはそれを通じて移動される命令および／またはデータの制御下で作用するプロセスを使用する。本発明の実施形態はまた、これらの作業を行うための装置に関する。このような装置は、特別に設計されてもよいし、そして／または必要な目的のために構築されてもよく、あるいはコンピュータープログラムおよび／またはそのコンピューターに記憶されたデータ構造によって選択的に活性化されるかまたは再構成された一般的な目的のコンピューターであってもよい。本明細書に呈示されるプロセスは、いかなる特定のコンピューターにも他の装置にも本質的に関連しない。詳細には、種々の一般的目的の機械は、本明細書の教示に従って記載されるプログラムとともに用いられ得る。しかし、いくつかの場合には、必要な方法操作を行うための専門的な装置を構築することがさらに好都合であり得る。種々のこれらの機械についての特定の構造は、以下に示される説明から明らかである。

さらに、本発明の実施形態は、種々のコンピューター実行操作を行うためのプログラム命令および／またはデータ（データ構造を含む）を含む、コンピューター読み取り可能な媒体、またはコンピュータープログラム製品に関する。コンピューター読み取り可能な媒体の例としては、限定はしないが、磁気媒体、例えば、ハードディスク、フロッピー（登録商標）ディスク、磁気テープ；光学メディア、例えば、ＣＤ−ＲＯＭデバイスおよびホログラフィックデバイス；光磁気媒体；半導体記憶デバイス、およびプログラム命令を記憶して行うために特別に構成されているハードウェアデバイス、例えば、読み取り専用メモリデバイス（ＲＯＭ）およびランダム・アクセス・メモリ（ＲＡＭ）、および時には特定用途向け集積回路（ＡＳＩＣ）、プログラム可能論理回路（ＰＬＤ）およびコンピューター読み取り可能な命令を送達するためのシグナル伝達媒体、例えば、ローカル・エリア・ネットワーク、広域ネットワーク、およびインターネットが挙げられる。本発明のデータおよびプログラム命令はまた、キャリア搬送波または他の移動媒体（例えば、可視光線、送電線、および／または電波）上で実現され得る。

プログラム命令の例としては、コンパイラによって生成されるような下層コード、およびインタープリターを用いてコンピューターによって実行され得る高レベルコードを含むファイルの両方が挙げられる。さらに、プログラム命令は、機械コード、ソースコードおよび本発明に従うコンピューター装置の操作を直接または間接的に制御する任意の他のコードを含む。このコードは、入力、出力、計算、条件制御、分岐、反復ループなどを同定し得る。

１実施例では、本発明の方法を実現するコードは、適切に構成されたコンピュータ・デバイスにロードされた場合、このデバイスが１つ以上の文字列上で遺伝的演算子を行うようにさせる、論理命令および／またはデータを含む固定媒体または伝達性プログラムコンポーネント中で実現される。図５は、例示的なデジタルデバイス５００であって、媒体５１７、ネットワークポート５１９、ユーザ入力キーボード５０９、ユーザ入力５１１、または他の入力手段からの命令を読み取り得る論理的装置であることが理解されるべきである、デジタルデバイス５００を示す。装置５００はその後に、データスペースにおける統計的な操作を指示する命令を用いて、例えば、１つ以上のデータセットを構築し得る（例えば、データスペースの代表的な複数のメンバーを決定し得る）。本発明を実現し得る論理的装置の１タイプは、ＣＰＵ５０７と、選択的なユーザ入力デバイスであるキーボード５０９と、ＧＵＩポインティング・デバイス５１１を含むコンピューターシステム５００、ならびに末端成分、例えば、ディスクデバイス５１５およびモニター５０５（これは、ＧＯ改変文字列を示し、そしてこのような文字列のサブセットのユーザによる簡易化選択を提供する）におけるようなコンピューターシステムである。固定媒体５１７は必要に応じて、全体的システムをプログラムするために用いられ、そしてこれには、例えば、ディスク型の光学媒体または磁気メディアまたは他の電気記憶装置エレメントを挙げることができる。通信ポート５１９は、このシステムをプログラムするために用いられ得、そして任意のタイプの通信接続を示し得る。

本発明はまた、特定用途向け集積回路（ＡＳＩＣ）またはプログラム可能論理回路（ＰＬＤ）の回路内で実現され得る。このような場合には、本発明は、ＡＳＩＣまたはＰＬＤを作成するために用いられ得るコンピューター読み取り可能な記述言語で実現される。本発明はまた、ＰＤＡ、ラップトップ・コンピューター・システム、ディスプレイ、画像処理装置などのような種々の他のデジタル装置の回路または論理プロセッサ内で実現され得る。

（ＩＶ．他の実施形態）
前述の発明は、明確さおよび理解の目的のためにある程度詳細に記載されてきたが、形式および詳細における種々の変化が、本発明の真の範囲から逸脱することなくなされ得ることがこの開示を読めば当業者には明らかである。例えば、上記の全ての技術および装置は、種々の組み合わせで用いられ得る。本出願に引用される全ての刊行物、特許、特許出願、または他の文献は、あたかも各々の個々の刊行物、特許、特許出願または他の文献が全ての目的のために参照によって援用されると個々に示されるかのように、同じ程度まで全ての目的のためにその全体が参照によって援用される。

図１は、１つ以上の世代のタンパク質改変体ライブラリを生成するために用いられ得る、バリエーションについて特定の残基を同定する工程を包含する、操作の順序を示すフローチャートである。図２は、本発明の実施形態に従って、非線形外積項を選択するための遺伝的アルゴリズムを示すフローチャートである。図３Ａは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。図３Ｂは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。図３Ｃは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。図３Ｄは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。図３Ｅは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。図３Ｆは、本発明の実施例を示すグラフであって、ここでは特定の線形および非線形のモデルの予測能力が比較されている。図４は、本発明の実施形態に従って、タンパク質改変体ライブラリを生成するブートストラップ・ｐ値法（ｂｏｏｔｓｔｒａｐｐ−ｖａｌｕｅｍｅｔｈｏｄ）を示すフローチャートである。図５は、例示的なデジタルデバイスの模式図である。

Claims

所望の活性に影響するためのタンパク質改変体ライブラリにおけるバリエーションについてアミノ酸残基を同定するための方法であって、
（ａ）タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容する工程であって、該データが該トレーニングセットにおける各々のタンパク質改変体についての活性および配列の情報を提供する工程と；
（ｂ）該データから、アミノ酸残基タイプの関数として活性を予測する配列活性モデルを構築する工程、およびあるタンパク質配列における位置に対応させる工程であって、
該配列活性モデルが、１つ以上の非線形項を含み、各々が該タンパク質配列における２つ以上のアミノ酸残基の間の相互作用を示す工程と；
（ｃ）所望の活性に影響を与えるバリエーションについて特定の位置で１つ以上のアミノ酸残基を同定するために該配列活性モデルを用いる工程と；
を包含する、方法。
前記非線形項の少なくとも１つが外積項であり、該外積項が１つの相互作用する残基の存在を示す１つの変数と、別の相互作用する残基の存在を示す別の変数との積を含む、請求項１に記載の方法。
前記配列活性モデルが、前記少なくとも１つの外積項および１つ以上の線形項の合計を含み、各々が前記トレーニングセットにおける可変残基の存在を示す、請求項２に記載の方法。
前記配列活性モデルを構築する工程が、可能性がある外積項の群から１つ以上の外積項を選択する工程を包含する、請求項２に記載の方法。
前記１つ以上の外積項を選択する工程が、種々の外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行する工程を包含する、請求項４に記載の方法。
前記タンパク質可変体ライブラリにおけるタンパク質改変体が、系統的に改変された配列を有する、請求項１に記載の方法。
系統的に改変された配列を同定するためにＤＯＥを行なう工程をさらに包含する、請求項６に記載の方法。
さらに、
（ｄ）前記配列活性モデルを用いて、新規なタンパク質改変体ライブラリに固定されたままである１つ以上のアミノ酸残基を同定する工程、
を包含する、請求項１に記載の方法。
前記タンパク質改変体ライブラリが、天然に存在するタンパク質またはそれから誘導されるタンパク質を含む、請求項１に記載の方法。
前記天然に存在するタンパク質が、単一の遺伝子ファミリーのメンバーによってコードされるタンパク質を含む、請求項９に記載の方法。
前記タンパク質改変体ライブラリが、組み換えに基づく多様性生成機構を用いることによって得られるタンパク質を含む、請求項１に記載の方法。
前記配列活性モデルが回帰モデルである、請求項１に記載の方法。
前記配列活性モデルを用いて１つ以上のアミノ酸残基を同定する工程が、組み換えに基づく多様性生成機構における使用のための配列を同定する工程をさらに包含し、該配列が（ｃ）において同定される１つ以上のアミノ酸残基においてバリエーションを含む、請求項１に記載の方法。
前記配列活性モデルを用いる工程が、所望の活性の最高値を有することが該モデルによって予測される配列を同定する工程を包含する、請求項１に記載の方法。
前記配列活性モデルを用いて１つ以上のアミノ酸残基を同定する工程が、該配列活性モデルを用いて所望の活性に対する影響順で残基位置をランク付けする工程を包含する、請求項１に記載の方法。
前記モデルを用いる工程が、遺伝的アルゴリズムにおいて適合度関数としてモデルを用いる工程を包含する、請求項１に記載の方法。
前記遺伝的アルゴリズムを使用して、前記所望の活性の最高値を有することがモデルによって予測される配列を選択する、請求項１６に記載の方法。
前記配列活性モデルを用いて、特定の位置で１つ以上のアミノ酸残基を同定する工程が、新規なタンパク質改変体ライブラリを生成するのにおける使用のための１つ以上の配列を同定する工程を包含する、請求項１に記載の方法。
新規なタンパク質改変体ライブラリを生成するのにおける使用のための前記１つ以上の配列が、１つ以上の同定されたアミノ酸残基のバリエーションをコードするオリゴヌクレオチド配列である、請求項１８に記載の方法。
前記オリゴヌクレオチド配列が、（ｉ）天然に存在する親のタンパク質のなかで最高の活性を有する天然に存在する親タンパク質、または（ｉｉ）該最高の活性を有することが前記配列活性モデルによって予測される配列、のうちの少なくとも一部をコードする、請求項１９に記載の方法。
新規なタンパク質改変体ライブラリを特徴付ける活性および配列データを用いて新規な配列活性モデルを構築する工程をさらに包含する、請求項１８に記載の方法。
前記（ｃ）において同定される１つ以上のアミノ酸残基が、前記活性モデル用いて予測される参照配列、または前記タンパク質改変体ライブラリのメンバーを記述する参照配列において同定される、請求項１に記載の方法。
タンパク質改変体ライブラリの前記トレーニングセットが、ＤＮＡ断片化媒介性組み換えまたは合成オリゴヌクレオチド媒介性組み換えを、１つ以上の天然に存在する親タンパク質の全てまたは一部をコードする核酸上で行うことによって得られたタンパク質を含む、請求項１に記載の方法。
プログラム命令が与えられる機械読み取り可能な媒体を備えるコンピュータープログラム製品であって、該プログラム命令は、所望の活性に影響するタンパク質改変体ライブラリにおけるバリエーションについてアミノ酸残基を同定するためのものであって、該命令が、
（ａ）タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容するためのコードであって、
該データが該トレーニングセットにおける各々のタンパク質改変体についての活性および配列の情報を提供するコードと；
（ｂ）該データから、アミノ酸残基タイプの関数として活性を予測する配列活性モデルを構築し、あるタンパク質配列における位置に対応させるためのコードであって、
該配列活性モデルが１つ以上の非線形項を含み、各々が該タンパク質配列中の２つ以上のアミノ酸残基の間の相互作用を示すコードと；
（ｃ）該配列活性モデルを用いて、所望の活性に影響を与えるバリエーションについて特定の位置で１つ以上のアミノ酸残基を同定するためのコードと、
を備える、コンピュータープログラム製品。
非線形項の少なくとも１つが外積項であって、１つの相互作用する残基の存在を示す１つの変数と、別の相互作用する残基の存在を示す別の変数との積を含む、外積項である、請求項２４に記載のコンピュータープログラム製品。
前記配列活性モデルが、前記少なくとも１つの外積項および１つ以上の線形項の合計を含み、各々が前記トレーニングセットにおける可変残基の存在を示す、請求項２５に記載のコンピュータープログラム製品。
前記配列活性モデルを構築するための前記コードが、可能性がある外積項の群から１つ以上の外積項を選択するためのコードを含む、請求項２５に記載のコンピュータープログラム製品。
前記１つ以上の外積項を選択するためのコードが、異なる外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行する工程を包含する、請求項２７に記載のコンピュータープログラム製品。
さらに、
（ｄ）前記配列活性モデルを用いて、新規なタンパク質改変体ライブラリに固定されたままである１つ以上のアミノ酸残基を同定するためのコード、
を包含する、請求項２４に記載のコンピュータープログラム製品。
前記配列活性モデルが回帰モデルである、請求項２４に記載のコンピュータープログラム製品。
前記配列活性モデルを用いて１つ以上のアミノ酸残基を同定するためのコードが、組み換えに基づく多様性生成機構における使用のための配列を同定するためのコードをさらに包含し、該配列が（ｃ）において同定される１つ以上のアミノ酸残基においてバリエーションを含む、請求項２４に記載のコンピュータープログラム製品。
前記配列活性モデルを用いるためのコードが、所望の活性の最高値を有することがモデルによって予測される配列を同定するためのコードを包含する、請求項２４に記載のコンピュータープログラム製品。
前記配列活性モデルを用いて１つ以上のアミノ酸残基を同定するためのコードが、該配列活性モデルを用いて所望の活性に対する影響順で残基位置をランク付けするためのコードを包含する、請求項２４に記載のコンピュータープログラム製品。
前記モデルを用いるためのコードが、遺伝的アルゴリズムにおいて適合度関数としてモデルを用いるためのコードを包含する、請求項２４に記載のコンピュータープログラム製品。
前記遺伝的アルゴリズムを使用して、前記所望の活性の最高値を有することがモデルによって予測される配列を選択する、請求項３４に記載の方法。
前記配列活性モデルを用いて、特定の位置で１つ以上のアミノ酸残基を同定するためのコードが、新規なタンパク質改変体ライブラリを生成するのにおける使用のための１つ以上の配列を同定するためのコードを包含する、請求項２４に記載のコンピュータープログラム。
新規なタンパク質改変体ライブラリを生成するのにおける使用のための前記１つ以上の配列が、１つ以上の同定されたアミノ酸残基のバリエーションをコードするオリゴヌクレオチド配列である、請求項３６に記載のコンピュータープログラム製品。
新規なタンパク質改変体ライブラリを特徴付ける活性および配列データを用いて新規な配列活性モデルを構築するためのコードをさらに包含する、請求項３６に記載のコンピュータープログラム製品。
新規なタンパク質改変体ライブラリの１つ以上のメンバーを生成のために選択するためのコードをさらに包含する、請求項３６に記載のコンピュータープログラム製品。
前記（ｃ）において前記コードによって同定される１つ以上のアミノ酸残基が、前記活性モデル用いて予測される参照配列、または前記タンパク質改変体ライブラリのメンバーを記述する参照配列において同定される、請求項２４に記載のコンピュータープログラム製品。
所望の活性に影響するためにタンパク質改変体ライブラリをコードする核酸におけるバリエーションについてヌクレオチドを同定するための方法であって、該方法が、
（ａ）タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容する工程であって、該データが該トレーニングセットにおける各々のタンパク質改変体についての活性およびヌクレオチド配列の情報を提供する工程と；
（ｂ）該データから、ヌクレオチドタイプの関数として活性を予測する配列活性モデルを構築する工程、および該ヌクレオチド配列における位置に対応させる工程であって、
該配列活性モデルが１つ以上の非線形項を含み、各々がタンパク質配列中の２つ以上のアミノ酸残基の間の相互作用を示す工程と；
（ｃ）該配列活性モデルを用いて、所望の活性に対する影響順で該ヌクレオチド配列中の特定の位置でヌクレオチド配列中の位置および／またはヌクレオチドのタイプをランク付けする工程と、
（ｄ）該ランク付けを用いて、所望の活性に影響を与えるために改変または固定されるべきヌクレオチド配列において、１つ以上のヌクレオチドを同定する工程と、
を包含する、方法。
改変されるべきヌクレオチドが特定のアミノ酸をコードするコドンである、請求項４１に記載の方法。
少なくとも１つの非線形項が外積項であって、１つの相互作用する残基をコードするコドンの存在を示す１つの変数と、異なる相互作用する残基をコードする別のコドンの存在を示す別の変数との積を含む、外積項である、請求項４２に記載の方法。
前記配列活性モデルが、前記少なくとも１つの外積項および１つ以上の線形項の合計を含み、各々が前記トレーニングセットにおける可変残基をコードするコドンの存在を示す、請求項４３に記載の方法。
前記配列活性モデルを構築するための工程が、可能性がある外積項の群から１つ以上の外積項を選択する工程を包含する、請求項４３に記載の方法。
前記１つ以上の外積項を選択する工程が、異なる外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行する工程を包含する、請求項４５に記載の方法。
前記活性が、核酸の発現の関数である、請求項４１に記載の方法。
機械読み取り可能な媒体を備えるコンピュータープログラム製品であって、この媒体に対して、所望の活性に影響するタンパク質改変体ライブラリをコードする核酸におけるバリエーションについてヌクレオチドを同定するためのプログラムコードが提供され、該プログラムコードが：
（ａ）タンパク質改変体ライブラリのトレーニングセットを特徴付けるデータを受容するためのコードであって、該データが該トレーニングセットにおける各々のタンパク質改変体についての活性およびヌクレオチド配列の情報を提供するコードと；
（ｂ）該データから、ヌクレオチドタイプの関数として活性を予測する配列活性モデルを構築し、該ヌクレオチド配列における位置に対応させるためのコードであって、
該配列活性モデルが１つ以上の非線形項を含み、各々がタンパク質配列中の２つ以上のアミノ酸残基の間の相互作用を示すコードと；
（ｃ）配列活性モデルを用いて、所望の活性に対する影響順で該ヌクレオチド配列中の特定の位置で該ヌクレオチド配列中の位置および／またはヌクレオチドのタイプをランク付けするためのコードと、
（ｄ）該ランク付けを用いて、所望の活性に影響を与えるために改変または固定されるべきヌクレオチド配列において、１つ以上のヌクレオチドを同定するためのコードと、
を含む、コンピュータープログラム製品。
改変されるべきヌクレオチドが特定のアミノ酸をコードするコドンである、請求項４８に記載のコンピュータープログラム製品。
前記少なくとも１つの非線形項が外積項であって、該外積項は、１つの相互作用する残基をコードするコドンの存在を示す１つの変数と、異なる相互作用する残基をコードする別のコドンの存在を示す別の変数との積を含む外積項である、請求項４９に記載のコンピュータープログラム製品。
前記配列活性モデルが、前記少なくとも１つの外積項および１つ以上の線形項の合計を含み、各々が前記トレーニングセットにおける可変残基をコードするコドンの存在を示す、請求項５０に記載のコンピュータープログラム製品。
前記配列活性モデルを構築するためのコードが、可能性がある外積項の群から１つ以上の外積項を選択するためのコードを含む、請求項５０に記載のコンピュータープログラム製品。
前記１つ以上の外積項を選択するためのコードが、種々の外積項を使用する種々のモデルの予測能力に基づいて外積項を選択する遺伝的アルゴリズムを実行するためのコードを含む、請求項５２に記載のコンピュータープログラム製品。
前記活性が、核酸の発現の関数である、請求項４８に記載のコンピュータープログラム製品。