JP2010515683A

JP2010515683A - 新規安定化タンパク質の生成方法

Info

Publication number: JP2010515683A
Application number: JP2009544935A
Authority: JP
Inventors: アーノルド，フランシス，エイチ．; リー，ユーゲン
Original assignee: ザカリフォルニアインスティチュートオブテクノロジー
Priority date: 2007-01-05
Filing date: 2008-01-05
Publication date: 2010-05-13
Also published as: WO2008085900A3; EP2099904A2; EP2099904A4; US20120171693A1; WO2008085900A2

Abstract

本開示は、安定化キメラタンパク質を同定および生産する方法を提供する。
【選択図】なし

Description

本発明は、タンパク質および核酸といった生体高分子の設計および技術開発の方法を含む生体分子工学および設計に関連する。

研究、産業そして医学面での用途に向けてさらに改良することのできる、多様な種類の安定したタンパク質が重要である。

本開示は、1つまたは複数の安定化タンパク質を生成する方法を提供する。本開示は、タンパク質の安定性に寄与するセグメントを決定するために、回帰分析を使用する。安定性を示す組み換えキメラタンパク質を分析し、そのキメラ成分を決定する。この回帰分析は、配列安定性データまたは折り畳みタンパク質と折り畳み不全タンパク質を比較した場合の多重配列アライメント（MSA）のコンセンサス分析の決定を含む。

本開示には、構造上または進化的に関連するポリペプチドのセットおよびその対応ポリヌクレオチド配列の特定、構造類似性に基づくその配列のアライメント、アライメントを行った配列における2つ以上の交差位置のセットの選択、代表的タンパク質のセットの組み換えによる生産および試験（例：xP^N個の考えられる組み換え配列のセット、ここでPは親タンパク質数、Nはセグメント数、x＜1）、前記配列によりコードされたタンパク質の発現、前記配列の安定性の測定、配列と安定性との間の関係の分析、セットの中で最も安定性の高い配列の回帰分析を用いた予測、および安定性と生物活性を確認するための前記タンパク質の試験を含む方法を包含する。

本開示は、複数（P）の進化的、構造上または進化的かつ構造上関連があるポリペプチドの同定、複数の関連ポリペプチドの少なくとも第1のポリペプチドおよび少なくとも第2のポリペプチドにおけるN個のペプチドセグメントを含む交差位置のセットの選択、少なくとも第1のポリペプチドおよび第2のポリペプチドのそれぞれからのペプチドセグメントを含む組み合わされた組み換えタンパク質のサンプルセット（xP^N）の生成（x＜1）、発現し折り畳まれた組み合わされた組み換えタンパク質のサンプルセットの安定性の測定、安定性関与ペプチドセグメントを同定するための安定性を持つ組み合わされた組み換えタンパク質の回帰分析の実施、安定性関与ペプチドセグメントを含む安定化ポリペプチドの生成、および安定化ポリペプチドの活性および／または安定性の測定を含む、1つまたは複数の安定化タンパク質の生成方法を提供する。安定化タンパク質は、例えばP450、カルボヒドラーゼ、α-アミラーゼ、β-アミラーゼ、セルラーゼ、β-グルカナーゼ、β-グルコシダーゼ、デキストラナーゼ、デキストリナーゼ、グルコアミラーゼ、ヘミセルラーゼ/ペントサナーゼ/キシラナーゼ、インベルターゼ、ラクターゼ、ペクチナーゼ、プルラナーゼ、プロテアーゼ、オキシゲナーゼ、酸性プロテイナーゼ、アルカリ性プロテアーゼ、ペプシン、ペプチダーゼ、アミノペプチダーゼ、エンドペプチダーゼ、スブチリシン、リパーゼおよびエステラーゼ、アミノアシラーゼ、グルタミナーゼ、リゾチーム、ペニシリンアシラーゼ、イソメラーゼ、オキシドレダクターゼ、アルコールデヒドロゲナーゼ、アミノ酸酸化酵素、カタラーゼ、クロロペルオキシダーゼ、ペルオキシダーゼ、リアーゼ、アセト乳酸デカルボキシラーゼ、アスパラギン酸β-デカルボキシラーゼ、ヒスチダーゼ、トランスフェラーゼ、およびシクロデキストリングリコシルトランスフェラーゼをはじめとする、任意の数の酵素またはタンパク質を含む。1つの態様において、交差位置のセットの選択は、複数の進化的、構造上または進化的かつ構造上関連があるポリペプチド配列のアライメント、および配列同一性の領域の同定を含む。さらなる態様において、本方法は、配列アライメント、ならびにX線結晶解析、NMR、タンパク質構造データベースの検索、ホモロジーモデリング、デノボ(de novo)タンパク質の折り畳み、およびタンパク質構造の計算予測からなる群より選択される1つまたは複数の方法を含む。別の態様において、交差位置のセットの選択は、少なくとも第1のポリペプチドの残基対の間のカップリング相互作用の同定、各データ構造が少なくとも第1および第2のポリペプチドの組み換えを含む交差突然変異体を表す複数のデータ構造の生成（ここで各組み換えは異なる交差位置を有する）、各データ構造についてデータ構造が表す交差突然変異体において破壊されたカップリング相互作用の数に関連する交差破壊の決定、および複数のデータ構造からの閾値未満の交差破壊を有する特定のデータ構造の同定（ここで該特定のデータ構造が表す交差突然変異体の交差位置は同定された交差位置である）を含む。さらなる態様において、カップリング相互作用は、残基間のコンホメーションエネルギーの決定、または残基間の原子間距離の決定により同定される。別の態様において、少なくとも第1および第2のポリペプチドの1つについて、コンホメーションエネルギーは三次元構造から決定される。別の態様において、原子間距離は、複数のポリペプチドのうち少なくとも1つのポリペプチドの三次元構造から決定される。また別の態様において、カップリング相互作用は、閾値を超える残基間のコンホメーションエネルギーにより特定される。1つの態様において、閾値は複数のデータ構造についての交差破壊の平均レベルである。交差位置の同定は、配列同一性の領域に基づくポリペプチド中の考えられる切断点の同定を含む。1つの態様において、安定性の測定は、化学安定性測定、機能的安定性測定および熱安定性測定からなる群より選択される技術を含む。本方法には、配列安定性データまたは折り畳みタンパク質と折り畳み不全タンパク質を比較した場合の多重配列アライメント（MSA）のコンセンサス分析の決定を含む回帰分析が含まれる。1つの態様において、配列安定性の分析は、以下の式：

と表すことができ、ここでT₅₀は従属変数であり、ペプチドセグメントχ_ij（i番目の位置およびj番目の親からの）は独立変数であり、定数項（α₀）は親ポリペプチドの予測T₅₀であり、回帰係数α_ijは親ポリペプチドの対応する参照ペプチドセグメントと比較したペプチドセグメントχ_ijの熱安定性寄与を示す。別の態様において、コンセンサス分析は、安定化ポリペプチドの配列情報および安定性関与ペプチドセグメントの頻度を含む。コンセンサス分析は、安定化タンパク質中の位置（i）における安定性関与ペプチドセグメントの頻度測定と、コンセンサスエネルギー値を得るための位置：セグメント反復の指数関数評価を含む。1つの態様において、安定性を促進する安定性関与ペプチドセグメントは、

と表現される安定化タンパク質の全コンセンサスエネルギー値を低下させる。1つの態様において、回帰分析は、配列安定性データおよび折り畳みタンパク質と折り畳み不全タンパク質を比較した場合の多重配列アライメント（MSA）のコンセンサス分析の組み合わせを含む。

本開示はさらに、進化的、構造上または進化的かつ構造上関連があるポリペプチドをコードする親ポリヌクレオチドのセットPにおける交差位置の選択（ここで交差位置のセットは各セグメントがペプチドをコードするN個のオリゴヌクレオチドセグメントを定義する）、オリゴヌクレオチドセグメントによりコードされるペプチドセグメントを含む組み合わされた組み換えタンパク質のサンプルセットを得るための、交差位置を有する親ポリヌクレオチドのサブセットxP^N間の組み換えの実施（x＜1）、発現し折り畳まれた組み合わされた組み換えタンパク質のサンプルセットの安定性の測定、安定性関与ペプチドセグメントおよびコードするオリゴヌクレオチドセグメントを同定するための、安定性を有する組み合わされた組み換えタンパク質の回帰分析の実施、安定性関与ペプチドセグメントをコードするオリゴヌクレオチドの組み合わせによりコードされる安定化ポリペプチドの生成、および安定化ポリペプチドの活性および／または安定性の測定を含む、1つまたは複数の安定化タンパク質の生成方法を提供する。安定化タンパク質は、例えばP450、カルボヒドラーゼ、α-アミラーゼ、β-アミラーゼ、セルラーゼ、β-グルカナーゼ、β-グルコシダーゼ、デキストラナーゼ、デキストリナーゼ、グルコアミラーゼ、ヘミセルラーゼ/ペントサナーゼ/キシラナーゼ、インベルターゼ、ラクターゼ、ペクチナーゼ、プルラナーゼ、プロテアーゼ、オキシゲナーゼ、酸性プロテイナーゼ、アルカリ性プロテアーゼ、ペプシン、ペプチダーゼ、アミノペプチダーゼ、エンドペプチダーゼ、スブチリシン、リパーゼおよびエステラーゼ、アミノアシラーゼ、グルタミナーゼ、リゾチーム、ペニシリンアシラーゼ、イソメラーゼ、オキシドレダクターゼ、アルコールデヒドロゲナーゼ、アミノ酸酸化酵素、カタラーゼ、クロロペルオキシダーゼ、ペルオキシダーゼ、リアーゼ、アセト乳酸デカルボキシラーゼ、アスパラギン酸β-デカルボキシラーゼ、ヒスチダーゼ、トランスフェラーゼ、およびシクロデキストリングリコシルトランスフェラーゼをはじめとする、任意の数の酵素またはタンパク質を含む。1つの態様において、交差位置のセットの選択は、複数の進化的、構造上または進化的かつ構造上関連があるポリペプチド配列のアライメント、および配列同一性の領域の同定を含む。さらなる態様において、本方法は配列アライメント、ならびにX線結晶解析、NMR、タンパク質構造データベースの検索、ホモロジーモデリング、デノボタンパク質の折り畳み、およびタンパク質構造の計算予測からなる群より選択される1つまたは複数の方法を含む。別の態様において、交差位置のセットの選択は、少なくとも第1のポリペプチドの残基対の間のカップリング相互作用の同定、各データ構造が少なくとも第1および第2のポリペプチドの組み換えを含む交差突然変異体を表す複数のデータ構造の生成（ここで各組み換えは異なる交差位置を有する）、各データ構造についてデータ構造が表す交差突然変異体において破壊されたカップリング相互作用の数に関連する交差破壊の決定、および複数のデータ構造からの閾値未満の交差破壊を有する特定のデータ構造の同定（ここで該特定のデータ構造が表す交差突然変異体の交差位置は同定された交差位置である）を含む。さらなる態様において、カップリング相互作用は、残基間のコンホメーションエネルギーの決定、または残基間の原子間距離の決定により同定される。別の態様において、少なくとも第1および第2のポリペプチドの1つについて、コンホメーションエネルギーは三次元構造から決定される。別の態様において、原子間距離は、複数のポリペプチドのうち少なくとも1つのポリペプチドの三次元構造から決定される。また別の態様において、カップリング相互作用は、閾値を超える残基間のコンホメーションエネルギーにより特定される。1つの態様において、閾値は複数のデータ構造についての交差破壊の平均レベルである。交差位置の同定は、配列同一性の領域に基づくポリペプチド中の考えられる切断点の同定を含む。1つの態様において、安定性の測定は、化学安定性測定、機能的安定性測定および熱安定性測定からなる群より選択される技術を含む。本方法には、配列安定性データまたは折り畳みタンパク質と折り畳み不全タンパク質を比較した場合の多重配列アライメント（MSA）のコンセンサス分析の決定を含む回帰分析を含む。1つの態様において、配列安定性の分析は、以下の式：

と表すことができ、ここでT₅₀は従属変数であり、ペプチドセグメントχ_ij（i番目の位置およびj番目の親からの）は独立変数であり、定数項（α₀）は親ポリペプチドの予測T₅₀であり、回帰係数α_ijは親ポリペプチドの対応する参照ペプチドセグメントと比較したペプチドセグメントχ_ijの熱安定性寄与を示す。別の態様において、コンセンサス分析は安定化ポリペプチドの配列情報および安定性関与ペプチドセグメントの頻度を含む。コンセンサス分析は、安定化タンパク質中の位置（i）における安定性関与ペプチドセグメントの頻度測定と、コンセンサスエネルギー値を得るための位置：セグメント反復の指数関数評価を含む。1つの態様において、安定性を促進する安定性関与ペプチドセグメントは、

本開示はまた、進化的、構造上または進化的かつ構造上関連があるポリペプチドをコードする親ポリヌクレオチドのセットPにおける交差位置の選択（ここで交差位置のセットは各セグメントがペプチドをコードするN個のオリゴヌクレオチドセグメントを定義する）、オリゴヌクレオチドセグメントによりコードされるペプチドセグメントを含む組み合わされた組み換えタンパク質のサンプルセットを得るための交差位置を有する親ポリヌクレオチドのサブセットxP^N間の組み換えの実施（x＜1）、発現し折り畳まれた組み合わされた組み換えタンパク質のサンプルセットの安定性の測定、安定性関与ペプチドセグメントおよびコードするオリゴヌクレオチドセグメントを同定するための安定性を有する組み合わされた組み換えタンパク質の回帰分析の実施、安定性関与ペプチドセグメントに対する配列データおよび安定性測定のデータベースへの出力（ここでデータベースはヌクレオチドおよびアミノ酸配列の両者を含む）を含む、安定化関与ペプチドフラグメントの同定方法を提供する。

また、関連するファミリーのメンバーについての本開示の方法から得られた安定性値を有する安定性関与ペプチドセグメントのデータベースも、本開示により提供される。

本方法にはまた、上述の方法のコンピュータ実装プロセスも含まれる。1つの態様において、コンピュータ実装方法には、組み合わされたタンパク質の生成および／または試験のためのロボットシステムが含まれる。例えば、1つの態様において本開示は、進化的、構造上または進化的かつ構造上関連があるポリペプチドをコードする親ポリヌクレオチドのセットPにおける交差位置の選択（ここで交差位置のセットは各セグメントがペプチドをコードするN個のオリゴヌクレオチドセグメントを定義する）、オリゴヌクレオチドセグメントによりコードされるペプチドセグメントを含む組み合わされた組み換えタンパク質のサンプルセットを得るための、交差位置を有する親ポリヌクレオチドのサブセットxP^N間の組み換えの実施（x＜1）、サンプルセットにおける発現した組み合わされた組み換えタンパク質の安定性測定からのデータ獲得、安定性関与ペプチドセグメントおよびコードするオリゴヌクレオチドセグメントを同定するための、安定性を有する組み合わされた組み換えタンパク質の回帰分析の実施、安定性関与ペプチドセグメントをコードするオリゴヌクレオチドの組み合わせによりコードされる安定化ポリペプチドの生成、および安定化ポリペプチド配列のユーザーへの出力を含む、コンピュータ実装方法を提供する。

その他の態様は、下記の詳細な説明、図面および請求項より明らかであろう。

図1A〜Cは、親およびキメラシトクロムP450の熱安定性が広く異なり累積モデルにより予測されることを示す。a：184種類のキメラシトクロムP450のT₅₀値の分布を示し、測定変動を考察するためのA2に対する4回の実験的反復測定（点線、標準偏差は1.0℃）を含む親A1、A2およびA3のT₅₀も（実線で）示されている。キメラの一部は最も安定性が高い親よりもさらに安定性が高い。b：単純線形モデルからの予測T₅₀は184種類のP450キメラについての測定T₅₀との相関性があり、r＝0.856である。c：bのデータに由来する線形モデルは、熱安定性が最も高いP450（MTP）（最も右上の点）を含めた20種類の新規キメラの安定性を正確に予測する。図2A〜Bは、相対キメラ熱安定性および折り畳みステータスが折り畳みタンパク質の多重配列アライメントにおける配列エレメント頻度から予測できることを示す。a：折り畳みキメラのフラグメント頻度から計算されるコンセンサスエネルギーは、204種類のキメラタンパク質の測定された熱安定性（T₅₀）と相関する。b：613種類の折り畳みキメラおよび334種類の折り畳み不全キメラ（位置4にA2を有するキメラを除く）のコンセンサスエネルギーの分布。折り畳みキメラ（濃グレー）は折り畳み不全のキメラ（淡グレー）よりもコンセンサスエネルギーが低い。図3A〜Bは、線形回帰分析のデータ訓練および試験を示す。a：訓練データセットの実験T₅₀と比較した予測T₅₀。回帰線のr値は0.892である。正方形は訓練後に削除された異常点ポイントを示す。b：（a）の訓練からの回帰モデルパラメータを用いた予測T₅₀を試験データセットの測定T₅₀と比較している。回帰線のr値は0.857である。図4は、（予測T₅₀と測定T₅₀間の相関係数で示す）予測精度が、回帰分析に使用されるキメラの数と関連することを示す。図5は、204回のT₅₀測定から得られた線形回帰モデルパラメータ（表4）を用いた、P450のSCHEMAライブラリの6,561のメンバーのT₅₀予測を示す。図6は、（予測コンセンサスエネルギーと測定T₅₀間のスピアマンの順位相関係数で示す）予測精度が、コンセンサス分析に使用されるキメラの数と関連することを示す。図7A〜Bは、44種類の安定なキメラシトクロムP450ヘムドメインおよび3種類の親配列の配列多様性を示す。a：各キメラのペア（黒）と親-キメラのペア（グレー）間のアミノ酸の差異の数。ペアワイズ配列差（親-親のペアを除く）の範囲は7〜146個のアミノ酸である。b：根底にある配列差に完全に比例するすべてのキメラ-キメラのユークリッド距離について、二次元の説明図を作成することは不可能である。ユークリッド距離と配列差の間の違いを最小化する二次元表現を最適化するために、XGOBIで多次元尺度構成法（DF Swayne, D Cook, and A Buja, J. Comp. Graph. Stat. (1998), 7, 113-30）を使用した。図8は、回帰（丸）を用いた順位付け性能とコンセンサス（黒丸）を用いた順位付け性能の比較を示す。点は3種類の親と205種類のキメラのセットを、測定T₅₀値を用いて上位10、20、30…200へと分類する場合の各順位付け方法の性能を示している。例えば、最左点のy位置は、コンセンサス方法では上位10種類のキメラのうち3種類に正確にフラグを立て、回帰法では6種類に正確にフラグを立てたことを示す。最左点のx位置は、該コンセンサス方法では下位198個のキメラのうち191個に正確にフラグを立て、回帰方法では194個にフラグを立てたことを示す。すべての閾値選択において、回帰モデルはより優れた順位付け成績を有する。

詳細な説明
本明細書および添付の請求項で使用される場合、「ある（a）」「および（and）」および「その（the）」の単数形は、文脈において明確な別段の指示がない限り複数形も含む。そのため、例えば「あるドメイン」という場合は複数のドメインを、「そのタンパク質」という場合は1つまたは複数のタンパク質への言及を含む。

別途定義のない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が属する技術分野の当業者に一般に理解される用語と同様の意味を有する。開示された方法および組成物の実践において本明細書の記載内容と類似または同等の方法および材料を使用することは可能だが、本明細書には模範的方法、装置および物質を記載している。

前記および本文全体を通して取り上げた刊行物は、本願の出願日前の刊行物を開示するためのみに示すものである。本明細書には、先行発明に基づいて本発明者らがこのような開示に先行する権利がないことが認められると解釈される記述は一切ない。

「アミノ酸」は、中央の炭素原子（-炭素原子）が水素原子、カルボン酸基（その炭素原子は本明細書では「カルボキシル炭素原子」と呼ぶ）、アミノ基（その窒素原子は本明細書では「アミノ窒素原子」と呼ぶ）、および側鎖基Rに結合される構造を有する分子である。ペプチド、ポリペプチド、またはタンパク質に組み込まれると、1つのアミノ酸を別のアミノ酸と結合させる脱水反応においてアミノ酸はそのアミノ酸カルボキシル基の1つまたは複数の原子を失う。その結果、タンパク質に組み込まれるとアミノ酸は「アミノ酸残基」と呼ばれる。

「タンパク質」または「ポリペプチド」は、ペプチド結合により連結された2つ以上の個別のアミノ酸（天然に存在するかどうかを問わない）のポリマーを意味し、1つのアミノ酸（またはアミノ酸残基）の-炭素に結合するカルボン酸基のカルボキシル炭素原子が隣接したアミノ酸の-炭素に結合するアミノ基のアミノ窒素原子と共有結合するようになる場合に生じる。「タンパク質」という用語は、その意味の範囲内に「ポリペプチド」および「ペプチド」という用語（本明細書では時として同じ意味で使われる）も含むと理解される。さらに、複数のポリペプチドサブユニット（例：DNAポリメラーゼIII、RNAポリメラーゼII）または別の成分（例えばテロメラーゼで見られるようなRNA分子）を含むタンパク質もまた、本明細書で使用される「タンパク質」の意味の範囲内に包含されると理解される。同様に、タンパク質およびポリペプチドのフラグメントもまた本発明の範囲内であり、本明細書で「タンパク質」と呼ぶことがある。本開示の1つの態様において、安定化タンパク質は2つ以上の親ペプチドセグメントのキメラを含む。

「ペプチドセグメント」は、より大きなポリペプチドまたはタンパク質の一部分またはフラグメントを意味する。ペプチドセグメント自体が機能的活性を持つ必要はないが、場合によっては、ペプチドセグメントはドメイン自体が生物活性を持つポリペプチドのドメインに対応しうる。安定性関与ペプチドセグメントは、該ペプチドセグメントを有しない関連ポリペプチドと比較して、安定性、機能、または折り畳みを促進する、ポリペプチド中に見出されるペプチドセグメントである。不安定性関与ペプチドセグメントは、ポリペプチド中に存在する場合に、安定性、機能または折り畳みの喪失を引き起こすと特定されたペプチドセグメントである。

所与のタンパク質の特定のアミノ酸配列（すなわち、アミノ末端からカルボキシ末端まで記載された場合のポリペプチドの「一次構造」）は、mRNAのコード部分のヌクレオチド配列により決定され、これはすなわち遺伝子情報、通常はゲノムDNA（オルガネラDNA、例えばミトコンドリアまたは葉緑体DNAを含む）により指定される。そのため、遺伝子配列の決定は、対応するポリペプチドの一次配列、そして特に当該遺伝子またはポリヌクレオチド配列によりコードされるポリペプチドまたはタンパク質の役割または活性を予測するのに役立つ。

「ポリヌクレオチド」または「核酸配列」は、ヌクレオチドの多量体型を意味する。場合によってポリヌクレオチドは、ポリヌクレオチドが由来する生物の天然に存在するゲノムにおいて当該ポリヌクレオチドがそれと直に接触するコード配列（1つは5'末端、もう1つは3'末端）のいずれかと直に連続していない配列を意味する。それ故この用語は、例えばベクターに組み込まれている組み換えDNA、自己複製プラスミドまたはウィルスに組み込まれている組み換えDNA、または原核生物または真核生物のゲノムDNAに組み込まれている組み換えDNA、または他の配列とは独立した別個の分子（例：cDNA）として存在する組み換えDNAを包含する。本発明のヌクレオチドは、リボヌクレオチド、デオキシリボヌクレオチド、またはいずれかのヌクレオチドの修飾体でもよい。本明細書で使用されるポリヌクレオチドは、とりわけ一本鎖DNAおよび二本鎖DNA、一本鎖領域と二本鎖領域の混合物であるDNA、一本鎖RNAおよび二本鎖RNA、および一本鎖領域と二本鎖領域の混合物であるRNA、一本鎖または典型的には二本鎖もしくは一本鎖および二本鎖領域の混合物でもよいDNAおよびRNAを含むハイブリッド分子を含む。

さらに、本明細書で使用されるポリヌクレオチドは、RNAまたはDNA、またはRNAとDNAの両方を含む三本鎖領域を意味する。このような領域の鎖は、同一分子または異なる分子に由来してよい。該領域は、1つまたは複数の分子すべてを含むが、より典型的には一部の分子の領域のみを包含する。三重らせん領域の分子の1つは多くの場合、オリゴヌクレオチドである。ポリヌクレオチドという用語は、ゲノムDNAまたはRNA（生物によって、つまりウイルスのRNAゲノム）のほか、ゲノムDNA、およびcDNAによりコードされるmRNAも網羅する。

「核酸セグメント」「オリゴヌクレオチドセグメント」または「ポリヌクレオチドセグメント」は、より大きなポリヌクレオチド分子の一部分を意味する。ポリヌクレオチドセグメントは、コードされるタンパク質の機能的ドメインと対応する必要はないが、場合によってセグメントはタンパク質の機能的ドメインをコードする。ポリヌクレオチドセグメントの長さは約6個以上のヌクレオチドでありうる（例：長さが6〜20、20〜50、50〜100、100〜200、200〜300、300〜400個以上のヌクレオチド）。安定性関与ペプチドセグメントは、安定性関与ポリヌクレオチドセグメントによりコードすることができ、ここで該ペプチドセグメントは、該ペプチドセグメントを有しないポリペプチドに比べて安定性、機能、または折り畳みを促進する。

キメラは、少なくとも2つの異なる親タンパク質の少なくとも2つのセグメントを組み合わせたものである。関連するのは特定の配列であって物理的な核酸自体ではないため、セグメントは実際にはそれぞれの親に由来するものでなくてもよいことは、当業者が理解するとおりである。例えば、キメラP450は2つの異なる親P450からの少なくとも2つのセグメントを有する。2つのセグメントは結果的に新規P450が生じるように結合される。言い換えれば、親のいずれかの同一配列がある場合には、タンパク質はキメラではない。キメラタンパク質は、2つの異なる親タンパク質からの2つ以上のセグメントを含むことができる。例えば、最終キメラのそれぞれまたはキメラのライブラリには、2、3、4、5〜10、10〜20個以上の親が存在する場合がある。各親酵素のセグメントは非常に短いかまたは非常に長い可能性があり、セグメントは、連続するアミノ酸の長さが1個からタンパク質全長でありうる。1つの実施形態において、最小の長さは10アミノ酸である。1つの実施形態において、2つの親について単一の交差点が定義される。交差位置は、1つの親のアミノ酸セグメントが終わり、次の親のアミノ酸セグメントが開始する場所を定義する。そのため単純キメラは、その交差位置以前のセグメントが1つの親に属し、その交差位置以降のセグメントが第2の親に属することになる1つの交差位置しか持たない。1つの実施形態において、キメラは1つより多くの交差位置を持つ。例えば、2、3、4、5、6、7、8、9、10、11〜30箇所以上の交差位置である。これらの交差位置の命名法や定義法が下記で考察される。2つの交差位置および2つの親が存在する実施形態では、第1の親からの第1の連続するセグメントが存在し、その後に第2の親からの第2の連続するセグメントが続き、その後に第1の親からの第3の連続するセグメントが続く。「連続する」とは、セグメントを中断する顕著なものが存在しないことを示す。これらの連続するセグメントは連結されて連続するアミノ酸配列を形成する。例えば、100と150で2つが交差するCYP102A1（以降「A1」）とCYP102A2（以降「A2」）から形成されるP450キメラは、A1から最初のアミノ酸100個を、その後にA2から次の50個を、その後にA1から残り部分のアミノ酸を持つことができ、すべてが1つの連続したアミノ酸鎖に結合される。あるいは、P450キメラは、最初のアミノ酸100個をA2から、次の50個をA1から、そして残りをA2から持つこともできる。完全配列だけでなくキメラの変異体が存在することは、当業者の理解するとおりである。それ故、変異体キメラであれば、各セグメントの100％が最終キメラに存在する必要はない。変異体という用語の定義に伴い、残基の追加または残基の削除または改変のいずれかにより変更できる量が定義される。もちろん、上記考察はアミノ酸だけでなくアミノ酸をコードする核酸にも該当することは、当業者の理解するとおりである。

タンパク質の安定性は、効果的な製品開発に、および治療用または診断用のタンパク質製品において必要な変性条件での、工業用タンパク質の使用（例：酵素反応）の重要な因子である。タンパク質の安定性を最適化する方法には、定向進化およびドメインシャッフリングが挙げられる。しかし、このような組み換えライブラリのスクリーニングおよび開発は困難を伴い、多大な時間を要する。

定向進化は、望ましい特性を持つタンパク質を開発する効果的な技術であることが実証されている。タンパク質がその折り畳みや機能を保持する確率は導入されるランダム置換の数により指数関数的に低下する（Bloom et al., Proc. Natl Acad. Sci. USA, 102, 606-611, 2005）ため、スクリーニングのための合理的な割合の機能的タンパク質を保持するために、各世代では数箇所の突然変異のみが導入される（Voigt et al., Advances in Protein Chemistry, Vol 55, Academic Press, pp. 79-160, 2001）。構造および機能を維持しながら、より高レベルの突然変異を有するライブラリを作製するには、構造を破壊する可能性が比較的低い突然変異を同定する必要がある（Lutz and Patrick, Curr. Opin. Biotechnol., 15, 291-297, 2004）。これを達成する1つの戦略は、相同組み換えである。突然変異がバックボーン構造との互換性を持つため、組み換えにより導入される突然変異はランダム突然変異よりも有害性が低い（Drummond et al., Proc. Natl Acad. Sci. USA, 102, 5280-5385, 2005）。類似性の高いタンパク質のランダム組み換えは多くの場合、機能的配列の割合が大きいライブラリを生成するが、より関連性が低いタンパク質を組み換えると、正確に折り畳まれるキメラタンパク質の割合が低下する。

安定化効果を提供するコンセンサス突然変異を同定するための努力が行われてきた。コンセンサス安定化は場合によって、またある程度においては、効果的であることが示されているが、すべてのコンセンサス突然変異が安定的であるわけではない（例：天然に存在するβ-ラクタマーゼの多重配列アライメントから同定されたコンセンサス残基の40％より多くでは、事実上安定的ではなく不安定的である（Amin et al. Prot. Eng. Des. & Sel., 17(11):787-793, 2004））。これらの方法には2つの問題点がある。第1の点は単一突然変異の安定性に対する効果は通常小さいこと、第2の点は安定化効果を正しく測定できるようにすべての突然変異を組み合わせられるわけではないことである。

そのため、タンパク質開発の方法は、多数の組み換えタンパク質の生成と各組み換えタンパク質の活性の評価による安定化タンパク質の提供に焦点を当ててきた。安定的な突然変異を同定する方法は、考えられる候補を除外または狭める最初の段階である。この理由により、安定化したタンパク質の複数のバージョンを作製できることには価値がある。多数の安定した変異体から選べる場合には次に、対象となる特性の適切な分析により該特性をすべて示す変異体を同定することができる。本開示では、複数のアミノ酸位置で異なりかつ安定性があるゆえ機能性を持つ可能性が高いアミノ酸配列を有する数多く（例：1〜数千）のタンパク質の変異体を形成する方法を提供する。安定化タンパク質のライブラリ生成のためのこうした技術は、当技術分野ではこれまでに提供されてこなかった。

新規タンパク質を生成するためには多数の技術が使用されており、例えばジスルフィド結合、定向進化、およびコンセンサス安定化を導入する部位を同定する計算方法を使用する理論的設計が挙げられる。上述の方法では、安定化タンパク質の選択的な設計のために線形回帰またはコンセンサス分析は使用されない。

組み換えは、in vitroでのタンパク質進化を加速させるために幅広く応用されてきた。このプロセスにおいて、いくつかの遺伝子の遺伝情報を交換して、組み合わされた組み換え突然変異体のライブラリを作製する。これらの突然変異体は、安定性、活性、または改変された基質特異性といった対象となる特性の改善のためにスクリーニングされる。in vitroでの組み換え方法には、DNAシャッフリング、ランダムプライム化組み換え、および付着伸長プロセス（StEP）が挙げられる。DNAシャッフリングにおいて、親DNAは酵素によりフラグメントに消化される。フラグメントは子孫遺伝子に再組立されうる。ランダムプライム化方法では、鋳型DNA配列はランダム配列プライマーでプライミングされ、次にDNAポリメラーゼにより伸長されてフラグメントを生成する。鋳型は除去され、DNAシャッフリングの最終手順のように、フラグメントが完全長遺伝子に再組立される。各々の前記方法において、より小さなフラグメントから開始するか伸長反応を制限して、切断点の数を増やすことができる。StEP組み換えは遺伝子フラグメントを使用しないため、最初の2つの方法とは異なる。鋳型遺伝子は変性や再アニーリング前にプライミング・伸長される。フラグメントが成長するにつれてこれらは新しい鋳型に再アニーリングして、複数の親からの情報を統合する。このプロセスは、完全長の子孫遺伝子が形成されるまで数百回繰り返される。上述の方法は当技術分野では公知である。

最近、自然界で独立して進化した遺伝子を組み合わせることは安定性や機能の大幅な改善を素早く蓄積する強力な方法であることが示された。多数の生物の網羅的配列決定による遺伝子データベースの爆発的増大に鑑みると、相同遺伝子の配列には簡単にアクセスできる。これらの配列は、上述したかまたは当技術分野で公知の組み換え方法によるタンパク質機能の進化のために合成またはクローニングすることができる。

in vitroでの組み換えに対する前記の実験的アプローチに共通するのは、遺伝子が切断されランダムに再形成されるという点である。つまり、配列の類似性が高い領域以外には、どの遺伝子が組み換え用に選ばれ、どの位置で切断点が発生すべきかに関して、実験プロトコルに対する先験的入力はほとんどないか全くない。SCHEMA法（本明細書でさらに説明する）を用いて、広範な組み合わされた組み換え遺伝子ライブラリおよび組み合わされた組み換え遺伝子中で望ましい改善を生む可能性がより高い配列が予測される。

組み換え技術を実施する最初のステップとして、関連するポリペプチドのセットが同定される。ポリペプチドの関連性は、当技術分野で公知の多数の方法により決定されうる。例えば、ポリペプチドはその一次配列または二次配列もしくは三次配列のいずれかで構造上関連している。配列同一性または3D構造的類似性を同定する方法は公知であり、本明細書でさらに説明する。関連ポリペプチドを同定する別の方法は、進化的解析によるものである。多数のタンパク質について系統樹が開発されており、当業者が利用することができる。

関連ポリペプチドのセットを定義する根拠として使用される親配列は、配列決定もしくはは核酸またはタンパク質データベースの問い合わせを含むがこれらに限定されない多数のメカニズムにより提供することができる。さらに、親配列は物理的意味で（例：単離または合成されて）提供することができるが、1つまたは複数の親配列は通常、コンピュータ内で取得される。

アミノ酸配列を含む本開示の実施形態については、親配列は通常、類似の三次元構造を有するタンパク質の共通ファミリーから由来する（例：タンパク質スーパーファミリー）。しかしながら、これらのタンパク質をコードする核酸配列は、高度の配列同一性を共有する場合もあれば共有しない場合もある。本明細書で後述するとおり、本方法には任意の数の技術（例：SCHEMAなど）を用いた交差位置の評価が含まれる。

多様な厳密性や長さでの配列類似性/同一性は、当業者に公知の多数の方法やアルゴリズムを用いて検出および認識することができる。例えば、生体高分子配列の比較分析、ワードプロセッサのスペルチェック機能、および多様なデータベースでのデータ検索について、多数の同一性または類似性の決定方法が設計されてきた。天然ポリヌクレオチド中の4種類の主要な核酸塩基での二重らせんペアワイズの相互作用を理解した上で、配列アライメントまたは本明細書で記載する配列に対応した文字列に対して実施される別の操作の根拠として、相補的な相同ポリヌクレオチド鎖のアニーリングをシミュレーションするモデルを使用することもできる（例：ワードプロセシング操作、配列または部分配列文字列、出力テーブルなどを含む図の構築など）。配列同一性を計算するためのソフトウエアパッケージの例はBLASTであり、これは本明細書の配列に対応した文字列を入力することで本開示に適応させることができる。

親配列を提供した後、配列はアラインされる。別の実施形態において、複数の親配列が提供され、これが次に参照配列と、または相互にアラインされる。比較的短いアミノ酸配列（例えば約30個未満の残基）のアライメントおよび比較は通常簡単である。より長い配列の比較では、2つの配列の最適アライメントを達成するにはさらに洗練された方法が必要となる。

配列の最適アライメントは、例えばSmithおよびWaterman (Adv. Appl. Math. 2:482, 1981）による「ローカルホモロジー」、NeedlemanおよびWunsch（J. Mol. Biol. 48:443, 1970）による「ホモロジーアライメント」アルゴリズム、PearsonおよびLipman (Proc. Natl. Acad. Sci. USA 85:2444, 1988）の「類似性検索」、またはこれらのアルゴリズムのコンピュータ実装（例：GAP、BESTFIT、FASTAおよびウィスコンシン遺伝子学ソフトウエア・パッケージ・リリース7.0で利用できるTFASTA、Genetics Computer Group、575 Science Dr.、Madison、Wis.、およびBLAST、Altschul et al., Nuc. Acids Res. 25:3389-3402, 1977およびAltschul et al., J. Mol. Biol. 215:403-410, 1990などを参照）の方法を含むがこれらに限定されない、利用可能な多数のアルゴリズムにより実施することができる。別の方法として、配列は目視検査によりアライメントをすることができる。一般的に、多様な方法により生成される最高のアライメント（例：比較ウインドウにわたり最も高い配列同一性パーセンテージを結果として生じる相対位置決定）が選択される。しかしながら、本開示の特定の実施形態においては、最高のアライメントは必ずしも最高の配列同一性ではなく、別の選択済みの構造的特徴の重ね合わせであってもよい。

この「配列同一性」という用語は、2つのアミノ酸配列が比較ウインドウにわたり実質的に同一（すなわち、アミノ酸ごとに比較した場合）であることを意味する。「配列類似性」という用語は、同一の生物物理的特性を共有する類似のアミノ酸を意味する。「配列同一性パーセンテージ」または「配列類似性パーセンテージ」という用語は、比較ウインドウにわたり最適にアライメントされた2つの配列を比較し、両方のポリペプチド配列で同一の残基（または類似の残基）のある位置数を決定して一致位置数を求め、比較ウインドウ（すなわち、ウインドウサイズ）における合計位置数で一致位置数を割り、結果を100倍して配列同一性パーセンテージ（または配列類似性パーセンテージ）を得ることで計算される。ポリヌクレオチド配列に関して、配列同一性および配列類似性という用語は、タンパク質配列について記載したのと同程度の意味を持ち、「配列同一性パーセンテージ」という用語は比較ウインドウにおいて2つのポリヌクレオチド配列が同一（ヌクレオチドごとに比較した場合）であることを示す。そのため、ポリヌクレオチド配列同一性パーセンテージ（または例えば分析アルゴリズムに基づく静的置換または他の置換に対するポリヌクレオチド配列類似性パーセンテージ）もまた計算することができる。最大対応は、本明細書に記載する配列アルゴリズム（または当業者が利用できる他のアルゴリズム）の1つを用いるか、目視検査により決定することができる。

ポリペプチドに適用される場合、実質的な同一性または実質的な類似性という用語は、初期設定ギャップ重みづけを用いたBLAST、GAPまたはBESTFITなどのプログラムまたは目視検査により最適にアライメントされた場合、2つのペプチド配列が配列同一性または配列類似性を共有することを意味する。同様に、2つの核酸という状況下で適用される場合、実質的な同一性または実質的な類似性という用語は、初期設定ギャップ重みづけ（以下に詳しく説明する）を用いたBLAST、GAPまたはBESTFITなどのプログラムまたは目視検査により最適にアライメントされた場合、2つの核酸配列が配列同一性または配列類似性を共有することを意味する。

％配列同一性または％配列類似性の決定に適したアルゴリズムの一例はFASTAアルゴリズムであり、Pearson, W. R. & Lipman, D. J., (1988) Proc. Natl. Acad. Sci. USA 85:2444に記載されている。また、W. R. Pearson, (1996) Methods Enzymology 266:227-258も参照されたい。％同一性または％類似性を計算するためにDNA配列のFASTAアライメントで使用される好適なパラメータは、BL50 matrix 15: -5、k-tuple＝2; joining penalty＝40、optimization＝28; gap penalty -12、gap length penalty＝-2; およびwidth＝16で最適化される。

有用なアルゴリズムの別の例はPILEUPである。PILEUPでは、関係および％配列同一性または％配列類似性を示すために、進歩的なペアワイズアライメントを用いて関連配列の群から多重配列アライメントが作製される。また、アライメントを作製するのに使用されるクラスタリング関係を示す樹またはデンドグラムがプロットされる。PILEUPは、Feng & Doolittle, (1987) J. Mol. Evol. 35:351-360の進歩的アライメント方法の単純化を用いる。使用される方法は、Higgins & Sharp, CABIOS 5:151-153, 1989に記載される方法に類似している。該プログラムは、300の配列のアライメントを行うことができ、それぞれの最大長は5,000個のヌクレオチドまたはアミノ酸である。多重アライメントの手順は、2つの最も類似する配列のペアワイズアライメントから始まり、2つのアライメントされた配列のクラスターが生成される。このクラスターは次に、二番目に最も関連性の高い配列またはアライメントされた配列のクラスターにアライメントされる。2つの配列のクラスターは、2つの個別配列のペアワイズアライメントを単純に伸長することでアライメントされる。最終アライメントは、一連の進歩的なペアワイズアライメントにより達成される。該プログラムは、配列比較領域に対する特定の配列およびそのアミノ酸またはヌクレオチド座標を指定し、プログラムパラメータを指定することで実行される。初期設定ギャップ重みづけ（3.00）、初期設定ギャップ長さ重みづけ（0.10）、および重みづけ末端ギャップといったパラメータを用いて参照配列をPILEUPを用いて別の試験配列と比較して、％配列同一性（または％配列類似性）関係を決定する。PILEUPは、GCG配列分析ソフトウエアパッケージ、例えばバージョン7.0（Devereaux et al., (1984) Nuc. Acids Res. 12:387-395）から取得できる。

複数のDNAおよびアミノ酸配列アライメントに適したアルゴリズムの別の例は、CLUSTALWプログラム（Thompson, J. D. et al., (1994) Nuc. Acids Res. 22:4673-4680）である。CLUSTALWは、配列群間の複数のペアワイズ比較を行い、配列同一性に基づき多重アライメントに組み立てる。ギャップオープンおよびギャップ伸張のペナルティは、それぞれ10および0.05であった。アミノ酸アライメントでは、BLOSUMアルゴリズムはタンパク質重みづけ行列として使用することができる（HenikoffおよびHenikoff, (1992) Proc. Natl. Acad. Sci. USA 89:10915-10919）。

関連性を決定する別の方法は、タンパク質およびポリヌクレオチドアライメントによるものである。一般的な方法には、オンラインや多様なソフトウエア流通経路を通して利用できる配列ベースの検索の使用が挙げられる。アミノ酸またはヌクレオチドレベルにおけるホモロジーまたは同一性は、BLAST（Basic Local Alighnment Search Tool）および、blastp、blastn、blastx、tblastnおよびtblastxといったプログラムにより展開されるアルゴリズムを用いたClustalW分析によって決定することができ（Karlin et al., Proc. Natl. Acad. Sci. USA 87, 2264-2268, 1990、 Thompson et al., Nucleic Acids Res 22,4673-4680, 1994、およびAltschul, J. Mol. Evol. 36, 290-300, 1993、参照により全文が組み込まれる）、これらは配列類似性の検索用に改造したものである。BLASTプログラムにより使用されるアプローチでは、まず最初にクエリ配列およびデータベース配列間の類似するセグメントを検討し、次に同定されたすべての一致について統計的有意性を評価し、最後に予め選んでおいた有意閾値を満たす一致のみを要約する。配列データベースの類似性検索に対する基本的問題の考察については、（参照により全文が組み込まれるAltschul et al., Nature Genetics 6, 119-129, 1994を参照）。ヒストグラム、説明、アライメント、予測値（すなわち、データベース配列への一致の報告に対する統計的有意閾値）、カットオフ、行列およびフィルタは、初期設定値となっている。blastp、blastx、tblastn、およびtblastxにより使用される初期設定スコア行列は、BLOSUM62行列である（Henikoff et al., Proc. Natl. Acad. Sci. USA 89, 10915-10919, 1992、参照により全文が組み込まれる）。blastnでは、スコア行列はM（すなわち、一致する残基対に対するリワードスコア）とN（すなわち、一致しない残基に対するペナルティスコア）の割合で設定され、ここでMとNの初期設定値はそれぞれ5および-4である。

従って、かかる方法を用いて、構造上関連があるポリペプチドのファミリーまたは群を同定することができる。（進化的かつそれ故構造上関連するかを問わず）タンパク質ホモロジーは通常、主に配列類似性（配列はランダムに予想される場合よりも類似性が高い）により決定される。アライメントにより類似性が15〜20％のような低い配列は関連している可能性が高く、類似の構造を有するタンパク質をコードする。追加的な構造関連性は、X線結晶解析、NMR、タンパク質構造データベースの検索、ホモロジーモデリング、デノボタンパク質折り畳み、およびタンパク質構造の計算予測を含むがこれらに限定されない任意の数の技術をさらに用いて決定することができる。このような追加的な技術は、単独でも配列ベースのアライメント技術に追加して用いることもできる。1つの態様において、2つのタンパク質間またはポリヌクレオチド配列間の類似性／同一性の程度は、少なくとも約20％以上（例：30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、98％または99％）であるべきである。

いくつかの態様において、BLASTなどの配列ホモロジー検索により親配列が配列データベースから選択される。親配列の同一性は通常約20％〜95％であり、典型的には同一性は35〜80％である。同一性が低いほど、親鎖間での組み換え後の突然変異レベルが高くなる（また結果得られる配列の考えられる安定性向上や機能的変動もより大きい可能性がある）。同一性が高いほど、配列が折り畳みや機能をする確率も高くなる。

構造上、進化的または構造上かつ進化的に関連するタンパク質の同定にポリペプチド配列が使用される場合は、GenBankおよびNCBIを含め一般に利用できるデータベースから対応するポリヌクレオチド配列を同定することができる。ポリヌクレオチド配列は、例えば本明細書に記載するSCHEMA法を用いて、組み換えのための交差位置を同定するために使用される。構造的および進化的に関連するタンパク質の同定にポリヌクレオチド配列が使用される場合は、公に利用できるデータベースを通して対応するポリペプチド配列もまた同定することができる。本開示の1つの態様において、ポリヌクレオチドとポリペプチドの両方の配列が使用されるが、本開示の方法においてはポリヌクレオチド配列のみを単独で使用することもできることが認識される。

同一性または類似性の決定にあたっての上述のコンピュータアルゴリズムおよび目視アライメント技術に加え、別の技術を使用することもできる。例えば、ハイブリダイゼーション技術を使用して、実質的に同一のポリヌクレオチドを同定することができる。このような技術は、結合を促進するための多様な条件下でDNAやRNAを相補鎖に塩基対合させることに基づく。「ストリンジェントな条件」は、（1）洗浄のために低いイオン強度と高温を用いる（例えば、65℃または55℃でのpH 7.2での0.5 Mのリン酸ナトリウム緩衝液や7％SDS中のpH 8.0での1 mMのEDTA）、または（2）ハイブリダイゼーション中にホルムアミドなどの変性剤を用いる（例えば、0.1％ウシ血清アルブミン、0.1％フィコール、0.1％ポリビニルピロリドンを含有する50％ホルムアミド、pH6.5、42℃での0.75MのNaCl、0.075Mのクエン酸ナトリウムを含有する0.05Mのリン酸ナトリウム緩衝液）場合である。別の例は、50％ホルムアミド、5×SSC（0.75MのNaCl、0.075Mのクエン酸ナトリウム）、50mMリン酸ナトリウム(pH6.8)、0.1％ピロリン酸ナトリウム、5×デンハルト溶液、超音波処理サケ精子DNA（50μg/ml）、55℃での0.1％SDSおよび10％硫酸デキストランを使用し、0.2×SSC中および0.1％SDS中で55℃で洗浄することである。当業者であれば、ストリンジェンシー条件を容易に決定して適切に変化させ、明確で検出可能なハイブリダイゼーションシグナルを得ることができる。互いにハイブリダイゼーションするポリヌクレオチド同士は、使用する条件のストリンジェンシーに関連する同一性の程度を共有する。

構造上、進化的、または構造的かつ進化的なポリペプチドが同定され、対応ポリヌクレオチド配列が同定されると、配列の交差位置が分析される。本明細書で使用される場合、「交差位置」という用語は、配列の当該部分の起源が変化する、または1つの供給源から別の供給源に「交差」する配列中の位置を意味する（例：親配列間の交換に関与する部分配列の末端）。

親配列を特定した後（例：第1の配列、第2の配列、および任意の追加配列）、親配列の一部分を置換、スワップまたは交換する。それぞれの交換は、所与の交換の選択されたセグメント（アミノ酸またはヌクレオチドの部分配列）を包含する2つの親配列の第1および第2の交差位置間で生じる。場合により、所定の親配列において複数のセグメントを複数の交差位置でスワップすることができ、それにより（1つまたは複数の親配列から）挿入されるセグメントを1より多く有するキメラポリペプチドが生成される。核酸については、交差部位は交換されたオリゴヌクレオチド領域の5'末端および3'末端を定義する（例：組み換えが生じる位置）。タンパク質配列では、交差部位は、交換されたアミノ酸残基の開始点（N末端）と終了点（C末端）で定義される。いくつかの実施形態においては、第1の交差部位は核酸の5'末端またはアミノ酸配列のN末端と一致する。別の実施形態において、第2の交差部位は核酸の3'末端またはアミノ酸配列のC末端と一致する。交換のために選択されるセグメントの長さはさまざまである。

交差部位の選定は、経験則に基づき（例：配列の5番目のエレメントごとに開始する）、または追加基準に基づき選定することができる。別の特性（特異性など）を改変させながらも進化中のアミノ酸の共変動によりタンパク質が所定の折り畳み、三次構造または機能を保持できる点を考えると、分子の構造全体または機能にとって有害でない考えられる交差位置を選択する上でこの情報は役立つ可能性がある。あるいは、例えば望ましい活性（例：タンパク質または触媒核酸の活性部位）または特定の構造的特徴（例：αヘリックスまたはβシート鎖の置換）を標的にすることで、交換領域を選択することができる。参照タンパク質のコンタクトマップおよび／または三次構造による親配列アライメントの目視分析ではまた、構造上関心のある領域に分析での努力を集中させることができる。

キメラポリペプチドを生成するために親配列間の1つまたは複数のセグメントを組み合わせる方法は、コンピュータ内でも実行することができる。コンピュータ内での組み換え方法は、相同的（または非相同的）な核酸に対応する配列鎖を組み合わせるためにコンピュータ上のアルゴリズムを使用する。結果的に生じる組み合わせ配列は、場合により合成（例：オリゴヌクレオチド合成／遺伝子の再組立技術との併用）によりキメラポリヌクレオチドに変換される。このアプローチは、ランダム、部分ランダムまたは計画的な変異体を生成することができる。コンピュータシステム内のアルゴリズム、オペレータなどの使用を含むコンピュータ内での組み換えに関する多くの詳細は、対応するポリヌクレオチド（および／またはタンパク質）の生成と組み合わされて、また設計されたポリヌクレオチドおよび／またはタンパク質（例：交差部位の選択に基づくもの）とともに、当技術分野では公知である。

簡潔にいえば、望ましい交差位置は、マルコフ鎖モデル、またはSCHEMA法を含む別の望ましい選定方法により、例えばおよその配列アライメントに従い2つ以上の配列間で選択することができる。この方法により交差位置を同定することができ、これで実際に合成できる数へと架橋オリゴヌクレオチドの合計数を低下して、セグメントの組み換えを促進する有用な数の架橋オリゴヌクレオチドを提供することが可能である。交差位置は、組み換え対象の核酸に対応するタンパク質の構造を比較（結晶、nmr、動的シミュレーション、または他の利用可能な方法）することによっても同定できる。構造の考えられるすべてのペアワイズ組み合わせは、重ね合わせすることができる。アミノ酸は、別親構造上で互いに重複する場合、またはアミノ酸とこれに最も近いアミノ酸が類似の距離基準で重複する場合に、考えられる交差点として同定することができる。それぞれの交差位置について架橋オリゴを構築することができる。従って、組み合わされた分子のコンピュータ内での選択と親配列中での交差選択のステップは、1つの同時ステップに組み合わされる。

交差はまず最初に、タンパク質配列に基づき決定される。ただし、新しい組み合わされたえ遺伝子を構築する便宜上、遺伝子組み換え方法に基づきポリヌクレオチド配列という点から交差位置を1〜6の塩基対移動させる（例：DNAフラグメントの異なるダングリングエンドの要件）ことが時には有用である。

1つの態様において、本開示の方法は交差位置を同定および選定するためにSCHEMAアルゴリズムを使用する。SCHEMA法では、構造的情報およびシャッフリング対象の親配列が与えられると切断点の確率分布が改善される。このアプローチは、少なくとも2つの部分に分割することができる。まず最初に、親配列アライメントを通して配列類似性に基づき考えられるすべてのアニーリングポイントを計算し、考えられる交差点の数を減らす。このプロセスは検索スペースを大幅に減少させる。考えられる交差点は、各組み換え突然変異体に関連する交差破壊に基づき除去される。交差破壊は、遺伝子アルゴリズム理論から借用した概念であり、この理論では交差により破壊されるアミノ酸間での良好な相互作用が最も数少ない場合に、組み換えの成功度が最も高いと述べている。良好な相互作用とは、2つのアミノ酸の組み合わせが個別の寄与の合計よりも優れたアミノ酸間の組み合わせ寄与と定義される。良好な相互作用のクラスターに対応するアミノ酸残基のセットの組み換えは、交差破壊を最小限に抑える。子孫遺伝子は、構造を不安定化させることなく、それぞれの親遺伝子からの有益なアミノ酸のセットを持つ可能性が最も高い。

大多数の組み換え方法では、交差点は再アニーリングを促進するための十分なDNA配列類似性が存在する領域で生じる。SCHEMAアルゴリズムの1つの実施形態において、最初のステップは、上述のとおり配列アライメントを通して配列類似性領域を列挙することで、考えられる切断点を計算することである。この配列アライメントから、DNA配列での最低限の重複に従い、親の間の考えられるすべての交差点が計算される。1つの態様において、例えば同一の2つのアミノ酸が一次配列上の切断点からどちらかの方向に対して存在する。言い換えれば、切断点は組み換え配列が4つの同一アミノ酸を持つ場所で生じる可能性がある。切断点基準について、また類似性がより高い場合に交差確率がより高くなる点を含め、DNA配列同一性ではなく類似性を用いて、異なるアルゴリズムを構築することができる。

次に、カップリング相互作用はアミノ酸間の任意の相互作用と定義される。対象となる特性が安定性であれば、これには水素結合、静電相互作用、およびファン・デル・ワールス相互作用が含まれる。三次元結晶構造のアミノ酸の野生型コンホメーションを用いて残基のすべてのペアワイズ組み合わせについて、相互作用のエネルギーが計算される。相互作用を計算するには、タンパク質の計算設計において以前使用された用語である、追加的な水素結合を持つDREIDING力場が使用される。2つの残基間の相互作用エネルギーが所定のカットオフ値より低い場合には、残基はカップリングすべきと見なされる。例えば、-0.25 kcal/molのカットオフ値を使用することができる。その結果は、このカットオフの選択に関しては確かなものである。相互作用エネルギーの絶対値がある閾値を上回るというカップリング基準もまた、成功を収めている。

残基間のカップリングの決定は、上説のアプローチに限定されない。CHARMM（Brooks et al.、1983）または一般的なファン・デル・ワールスおよび静電ポテンシャル（Hill、1960）の使用を含めた、多様な力場を使用することができる。すべてのアミノ酸が各部位に存在する確率とそれに伴うエネルギーを評価することで、カップリングについてより確かな推定を行うために、平均場アプローチを使用することもできる。さらに、単純な距離測定を課すこともできる。2つの残基が所定のカットオフ距離内であれば、これらは相互作用を行っていると見なされる。

上記で計算された潜在的な交差点と矛盾しない形で親を組み換えて遺伝子を生成するために、1つのアルゴリズムが使用される。例えば、ランダムな親を選び、考えられる切断点に到達するまでこの親を子孫にコピーする。0〜1間のランダムな数が選ばれ、この数が交差確率p_cを下回る場合は、新しい親がランダムに選ばれ、新しい考えられる交差点に到達するまで子孫にコピーされる。このプロセスは、子孫遺伝子全体が構築されるまで反復される。別の交差が発生しうる前までに各フラグメントの長さが少なくとも8個分のアミノ酸を持つ必要がある場合には、さらなる制限が課せられる可能性もある。この制限は所望により変化させることができる。

平均フラグメントサイズに直接関連するp_cの解釈を通して、異なる方法にも計算を適用することができる。フラグメンテーションに対するDNAseおよび制限酵素アプローチにおいて、フラグメントサイズは、酵素濃度および別の実験的条件によって制御される。制限酵素の場合には、酵素の多様性によっても制御される。より高い酵素濃度で反応させるほど、フラグメントサイズは小型になる。同様に、ランダムプライム組み換えでは、フラグメントサイズはポリメラーゼがフラグメントを構築しうる時間により制御される。

組み換えポリペプチドがコンピュータ内で生成されると、切断点によって破壊されるカップリング相互作用の数を数えることでその交差破壊が計算される。これを行うには、異なる親のフラグメント間で共有されるすべての相互作用が合計され、その一方でフラグメント内で同じ親から得られたフラグメント間で共有される相互作用は無視される。これは十分な統計データが蓄積されるまで反復しうる。実際には、10⁴〜10⁶の間の組み合わされたポリペプチドがコンピュータ内で生成される。

複数（P）の進化的、構造上または進化的かつ構造上関連があるポリペプチドの同定およびN個のペプチドセグメントを含む交差位置のセットの選択を含む上述の方法を用いる場合、生成されうる組み合わされたキメラポリペプチドの合計数はP^Nである。

少なくとも第1のポリペプチドおよび第2のポリペプチドそれぞれからのペプチドセグメントを含む組み合わされたタンパク質のサンプルセット（xP^N）（x＜1）は、当技術分野で公知の組み換え分子生物学技術により生成される。結果的に得られる組み換えキメラポリペプチドを発現およびアッセイする。通常、発現されるポリペプチドのサンプルセットは、約10〜1000（例：20〜200、30〜100）を含み、その間の任意の範囲または数を含む。例えば、xは0.05〜0.9の係数としうる。

溶液中で単一の規則的な三次元構造が主に存在するという点で、天然タンパク質は大多数のポリマーとは異なる。この規則正しい構造は、温度、圧力または溶媒条件の変化によりほぼランダムな鎖に変換しうることが長く認識されてきた（Neurath et al., Chem. Rev. 34: 157-265, 1944）。タンパク質の折り畳み不全やその後の再折り畳みを誘発することが可能であることから、科学者はin vitroでの折り畳み反応について物理化学を分析することができる（Schellman, Annu. Rev. Biophys. Bio. 16: 115-37, 1987）。これらの研究は、タンパク質内におけるコンホメーション変化の動力学や熱力学に注目しており、生物学上興味深いものである。

タンパク質の機能は、そのコンホメーションの安定性次第である。そのため、タンパク質生化学分野では、安定した折り畳みタンパク質としてポリペプチドを確立し、その折り畳みにつながる物理力を研究するために、安定性測定が頻繁に実施される（Schellman, Annu. Rev. Biophys. Bio. 16: 115-37, 1987）。極端な条件下での治療的有用性および工業用応用を改善するために、安定性を向上させたタンパク質を同定する上で工業および医療治療薬分野の両方において、この点に関心が示されている。従って、安定性を向上させたタンパク質が開発される。その汎用性にもかかわらず、現時点では、安定性測定には多大な時間を要する実験が必要である。多数のポリペプチドを分析する必要がある場合が多いプロテオーム実験では、安定性測定は実用的ではない。そのため、安定性および／または活性を向上させたタンパク質を設計する方法が有用である。

最近の研究では、エレクトロスプレーイオン化（ESI）質量分析と組み合わせた水素交換により、一部精製されたサンプル中のネイティブ様タンパク質を折り畳み不全ポリペプチドと定性的に区別することができ、折り畳みの動力学や熱力学の研究にも使用することができることが実証されている。

熱力学安定性は、タンパク質の機能的ニーズに適合するよう最適レベルへと進化した重要な生物特性である。それ故、タンパク質の安定性に対する研究は、折り畳みの物理化学に関する情報を提供するだけでなく、生物学的に重要な見識を提供する可能性があることから重要である。技術的目的のために、タンパク質の安定性を適切に理解することもまた役立つ。安定性の高いタンパク質、あるいは凝集速度または分解速度の低いタンパク質を合理的に生成可能であることは、多くの用途にとって有益となる。例えば、折り畳み不全に抵抗しうるタンパク質は、高温での酵素触媒作用を必要とする工業用プロセスに使用でき（Van den. Burg et al., Proc. Natl. Acad. Sci. U.S.A. 95(5): 2056-60, 1998）、また細胞中での分解率が低いタンパク質を生成可能であることは、組み換えタンパク質の生産を最大限に行う上で役立つ（Kwon et al., Protein Eng. 9(12): 1197-202, 1996）。

安定性測定はまた、他の生物学的現象のプローブとしても使用することができる。こうした現象のうち最も基本的なものは生物活性である。タンパク質がそのネイティブな状態に存在することのできる能力は、機能の普遍的要件である。それ故、安定性は機能にとっての第1段階の便利なレベルアッセイとして用いることができる。例えば、安定的なコンホメーションに折り畳まれ、潜在的に活性がある配列を選択するために、安定性についてポリペプチド配列のライブラリを試験することができる（Sandberg et al., Biochem. 34: 11970-78, 1995)。

また、結合の検出に安定性の変化を使用することもできる。リガンドがタンパク質のネイティブコンホメーションに結合する場合、タンパク質の全体的安定性は向上する（Schellman, Biopolymers 14: 999-1018, 1975; Pace & McGrath, (1980) J. Biol. Chem. 255: 3862-65; Pace & Grimsley, Biochem. 27: 3242-46, 1988）。結合定数は、安定性の向上度を分析することにより測定することができる。この戦略は、多数のタンパク質に対するイオンや小分子の結合を分析する上で使用されてきた（Pace & McGrath, (1980) J. Biol. Chem. 255: 3862-65; Pace & Grimsley, (1988) Biochem. 27: 3242-46; Schwartz, (1988) Biochem. 27: 8429-36; Brandts & Lin, (1990) Biochem. 29: 6927-40; Straume & Freire, (1992) Anal. Biochem. 203: 259-68; Graziano et al., (1996) Biochem. 35: 13386-92; Kanaya et al., (1996) J. Biol. Chem. 271: 32729-36)。

安定性と結合の連関は最近、リガンド結合を検出する方法として実施されてきた（Bowie & Pakulaに付与された米国特許第5,679,582号）。しかしながらこの方法では、MALDI質量分析などの分析技術によって利用できる高感度という利点を活用しておらず、MALDI質量分析が検出できる低タンパク質レベルでは使用することができない。さらに、タンパク質分解的な方法では、タンパク質分解フラグメントを単離および分析するさらなるステップが必要となり、in vitroの設定では実施できない。最後に、タンパク質の安定性の定量的測定を行なうためにこの方法は使用できない。

発現されるキメラ組み換えタンパク質を安定性および／または生物活性について測定する。安定性および活性を測定する技術は、当技術分野では公知であり、例えば温度が上昇した状況またはpH、塩、有機溶媒などの「厳格な」条件下で機能（例：酵素活性）を保持する能力、および／または機能をより長い時間維持する能力（例：通常の条件または厳格な条件下での保管中）が含まれる。機能は当然ながら、生成されるタンパク質のタイプに左右され、その意図する目的に基づく。例えば、多様な条件のpH、溶媒および温度でアルカンからアルコール類に変換する能力についてP450突然変異体を試験することができる。その他の酵素アッセイは、カルボヒドラーゼ、α-アミラーゼ、β-アミラーゼ、セルラーゼ、β-グルカナーゼ、β-グルコシダーゼ、デキストラナーゼ、デキストリナーゼ、グルコアミラーゼ、ヘミセルラーゼ/ペントサナーゼ/キシラナーゼ、インベルターゼ、ラクターゼ、ペクチナーゼ、プルラナーゼ、プロテアーゼ、オキシゲナーゼ、酸性プロテイナーゼ、アルカリ性プロテアーゼ、ペプシン、ペプチダーゼ、アミノペプチダーゼ、エンドペプチダーゼ、スブチリシン、リパーゼおよびエステラーゼ、アミノアシラーゼ、グルタミナーゼ、リゾチーム、ペニシリンアシラーゼ、イソメラーゼ、オキシドレダクターゼ、アルコールデヒドロゲナーゼ、アミノ酸酸化酵素、カタラーゼ、クロロペルオキシダーゼ、ペルオキシダーゼ、リアーゼ、アセト乳酸デカルボキシラーゼ、アスパラギン酸β-デカルボキシラーゼ、ヒスチダーゼ、トランスフェラーゼ、およびシクロデキストリングリコシルトランスフェラーゼからなる群より選択される多様な工業用酵素についてのものが、当技術分野において公知である。安定性試験は、化学安定性測定、機能的安定性測定および熱安定性測定を含む。化学安定性測定は化学変性測定を含む。熱安定性測定は熱変性測定を含む。機能的安定性測定は、リガンドまたは基質結合技術を含む。他の技術には、多様な電気泳動技術、分光法などが挙げられる。

1つの態様において、折り畳みタンパク質が分析に使用される。別の態様においては、十分発現したタンパク質のみが分析される。それがどのタンパク質かは、安定性を測定する方法次第である（例：活性欠失によるものであれば、欠失の測定に十分な活性が生産されているべきである）。タンパク質の精製により安定性が測定される場合には、精製すべき折り畳みタンパク質が十分存在するべきである。従って、分析するためには組み換えキメラタンパク質が発現され、その安定性が定量測定できるはずである。

本開示は、キメラタンパク質が幅広い範囲の安定性を示すこと、所与の折り畳み配列の安定性はデータ（安定性または折り畳みステータスのいずれか）に基づきキメラライブラリの限られたサンプリングから予測できること、および安定化タンパク質の分析の回帰モデルを用いてさらに開発および設計を最適化できることを示す。

そのキメラ成分を決定するために、安定性を実証する組み換えキメラタンパク質が分析される。この回帰分析は、配列安定性データまたは折り畳みタンパク質と折り畳み不全タンパク質を比較した場合の多重配列アライメント（MSA）のコンセンサス分析の決定を含む。

本開示には、タンパク質安定性を改善するペプチドセグメントを同定するために、組み合わされたキメラタンパク質の組み換え、分析および線形回帰分析のプロセスを通した進化的、構造上または進化的かつ構造上関連があるポリペプチドの組み換えを含む、安定タンパク質の同定および生成方法が含まれる。例えば、N個の交差フラグメントを持つP個の親タンパク質の集団は、P^N個のメンバーの組み換えライブラリ集団を形成することになる。本開示の方法では、組み換え、SCHEMA法および回帰分析を使用して、生成する必要のあるメンバー数を低下させるほか、安定性および／または活性を向上させたポリペプチドを予測および設計する。1つの態様において、線形回帰は配列安定性データを含む。別の態様において、線形回帰分析は多重配列アライメントのコンセンサス分析に基づく。

例えば、1つの態様において、回帰分析は線形モデルを含む。1つの態様において、

が回帰のために使用されたが、ここでT₅₀は従属変数であり、（例えばi＝1、2,…8 およびj＝2または3である場合のi個の位置およびj個の親からの）フラグメントχ_ijは独立変数である。キメラが親2からのフラグメント1を持ち、χ₁₂＝1およびχ₁₃＝0である場合は、χ_ijがダミーとしてコードされる。すべての8箇所の位置について、この計算を用いて既知の配列、安定性および／または機能を含む参照ポリペプチドを使用し、それにより定数項（α₀）は親の予測T₅₀であり、回帰係数α_ijは、対応する参照ポリペプチドフラグメントと比べてフラグメントχ_ijの熱安定性寄与を示す。一般に、8箇所のそれぞれの位置での参照フラグメントは任意に選択することができる。SPSSを用いて回帰が実施された（SPSS for Windows(登録商標), Rel. 11.0.1. 2001. Chicago: SPSS Inc.）。

また別の態様において、安定性を提供するフラグメントを同定するために、コンセンサスエネルギー計算が使用される。線形回帰モデルでは、折り畳みステータスに基づくコンセンサスアプローチよりも、少ない測定値が使用され、偽陽性は少なく真陽性は多く提供される。

コンセンサス安定化は、配列エレメントの頻度はその対応する安定性寄与に相関するという考えに基づく。この相関性は通常、ボルツマン様の指数関係に従うものと仮定される。このような関係は、統計力学への相似において、配列が考えられるすべての折り畳みタンパク質（例：P450）の集合体からランダムにサンプリングされる場合に、最も理にかなっている。天然配列は分岐進化により関連されており、このようなサンプルを含まない場合もある。対照的に、キメラタンパク質のデータセットは、考えられるすべてのキメラの大規模かつほぼランダムなサンプルを示す。本明細書で提供されるデータは、基礎となるコンセンサス安定化アプローチを裏付けるもので、配列エレメントは累積的に安定性に寄与し、安定化するフラグメントは折り畳み配列中により高い頻度で発生し、コンセンサス配列は集合体において最も安定性が高い。これらの結果は、異なる集合体（キメラライブラリと進化したファミリーの比較）および配列変化（組み換えと段階的突然変異の比較）に対するコンセンサス安定化というアイデアの許容性を示す。ただし、コンセンサス安定化についてのこれまでの実施とは異なり、本明細書で記載するアプローチは数十もの安定したタンパク質を生成し、これらのタンパク質は多数のアミノ酸残基において相互にも親からも異なる。

この態様において、位置iでのフラグメントの頻度がその安定性寄与に関数指数的に関連しており、これらのフラグメントの寄与は累積的である場合、参照配列と比べた合計キメラコンセンサスエネルギーは、

から計算することができ、ここで

は参照配列中のiでのフラグメントの集合体頻度である。親参照のコンセンサスエネルギーがゼロとなるように、既知の安定性や配列を持つ親タンパク質が再び参照として使用されるが、参照配列の選択は任意であり、結果には影響を与えない。報告された数値は参照からのエネルギー差と実際に比例しており、略してコンセンサスエネルギーと呼ばれることに留意されたい。折り畳み集合体における親jからのフラグメントiの未加工頻度

は、構成要素フラグメントに由来するキメラの集合体におけるバイアスを反映している場合がある。バイアスを、選択されていない配列のセットにおける頻度

を測定することにより評価してバイアス

を決定することができ、これはバイアスのある集合体では1に等しい。P450集合体については、

が既知である（表5）。構造バイアスは

をb_ijで割ることにより直接補正でき、バイアス補正頻度がすべての分析に使用された。

タンパク質折り畳みに協調性があることやネイティブな構造に多数の三者接触が存在することを考えると、観察された累積性の高さは驚くべき点であった。タンパク質に対する安定性変化の累積性が示された。配列変化が大幅な構造的変化と組み合わさったり、そのような変化をもたらす場合には、累積的でない効果が予想される。すべての配列エレメントは少なくとも1つの状況において、つまり親配列と類似の構造に折り畳まれると考えられることから、ランダム変異と比べて構造破壊がキメラで生じる可能性は低い。さらに、かかるブロック累積性はライブラリ設計により最大限に高めることができ、これがカップリングを低下させる。（上述のような）SCHEMAは、接触数を最小化する配列フラグメントまたは組み換え時点で破壊する相互作用を同定する。キメラ中の2つの残基は、重原子が4.5Å以内であれば1つの接触を有すると定義され、親において同じ位置で現れない場合には接触は破壊されている。P450キメラについての合計約500の接触のうち、平均30未満の接触がSCHEMAライブラリ中の配列で破壊される。ライブラリ内でスワップされたSCHEMAフラグメントは、多数のフラグメント内接触を有し、フラグメント間接触は数少ないか親に対して保存されている。その結果、フラグメントは、安定性に大まかに累積的な寄与をする疑似独立構造モジュールとして機能する。累積性は、累積性からの逸脱に基づく配列誤差の検出を可能とするのに十分強力であり、特性決定されていないキメラの熱安定性についての予測は精度が高く、最も安定したキメラのT₅₀の予測は測定誤差範囲内であった。SCHEMAはβ-ラクタマーゼなどの他のタンパク質骨格との機能的キメラを効果的に同定するため、このアプローチでは他のタンパク質ファミリーに対する新しい安定した機能的配列を同定することができる。

本明細書で実証した開示の方法は、安定性の高い配列を同定し、組み換えは、許容性の高い残基を交換しつつ重要な機能的残基を保存することで生物機能を保持し高い配列多様性を示すことを保証する。この配列多様性は、有用な機能的多様性を生じさせる可能性がある。本研究は、安定化P450酵素において、（2-フェノキシエタノールに対する）活性の改善のほか、全く新しい（ベラパミルおよびアステミゾールに対する）活性の獲得を実証した。P450キメラが薬物の真正なヒト代謝産物を生成できるという点は、迅速な薬物の代謝プロファイリングの道を開き、大腸菌で効果的に産生された可溶性酵素を用いた多様化につながる。

本明細書に記載の方法を用いて、同定された安定性成分に基づき新規安定化タンパク質を設計することができる。それぞれの安定性成分に関連する情報（例：安定化ペプチドセグメント配列またはその対応するコード配列）を同定することができ、安定ペプチド配列成分のデータベースを作製するためにデータベースに保存することができる。

本開示の方法は、縮小したライブラリ開発およびスクリーニングを通して安定したタンパク質および構造を同定する技術を提供する。本開示の方法により開発・同定された安定タンパク質は、例えばランダム突然変異に対してより堅牢であり、多くの場合は望ましい活性を含む他の特性を増強させるための技術開発の開始点としてより優れている。

本明細書で提供した特定の例ではシトクロムP450酵素を考察したが、当業者には、本明細書に記載の方法および技術が1つのタンパク質ファミリーまたは群に制限されないことが明らかである。

化学物質、製薬、繊維、食品および飼料、洗剤分野の確立された市場および成長中の市場の両方で使用されるすべてのクラスの分子および化合物は、厳格な経済的および環境的標準を満たす必要がある。ポリマー、製薬、自然物および農業化学製品の合成は、多くの場合高価なプロセスによって妨害され、これが有害な副産物を生み、不良または不十分な触媒作用に悩まされている。例えば酵素には、触媒作用でのこうした問題を克服できる顕著な利点が多数ある。すなわち、酵素は単一の官能基に作用し、単一分子上の類似の官能基を区別し、エナンチオマーも区別する。さらに、酵素は生分解性であり、反応混合物中では非常に低いモル分率で機能する。その化学特異性、部位特異性、立体特異性により、酵素は望ましい選択的な変換を最適な形で達成するユニークな機会を提示するものである。これらは、特に単一ステップの反応では、多くの場合において化学的に複製するのが極めて困難である。保護基、選択性、および単一の反応容器中で複数ステップの変換を実行する能力のニーズをなくすことは、環境負担の同時低下と相まって、化学業界や製薬業界における酵素に対する需要増加につながった。酵素ベースのプロセスは、多数の従来型の化学薬品ベースの方法に徐々に取って代わりつつある。より幅広い工業用途に向けた現在の制限は、主に市販されている酵素の数が比較的少ないことである。これまでに記述されている3000以上のDNA非修飾酵素活性から現在市販されているのは、たった約300種の酵素（DNA修飾酵素を除く）である。

技術応用への酵素の使用には、厳しい工業条件下での性能も要求される。これには、現在知られている酵素群が進化的に選択されなかった環境での活性や基質上の活性が含まれる。しかしながら、自然環境は極端な温度やpHといった極限状態を提供する。多数の生物は、部分的には、こうした極限状態に耐えることのできるポリペプチドの選択によって、このような状態に適応してきた。さらに、本開示の方法により、これらの条件下で安定性を向上させてきたタンパク質（酵素を含む）の開発および選択が可能となる。

工業用途のための新しい酵素に対するニーズに加え、新規活性を有する生物活性化合物に対するニーズも飛躍的に高まっている。この需要は大部分において、世界人口の変化と、現在利用できる抗生物質への抵抗性を持つ病原体の数の明確な増加傾向とが合わさり生じたものである。例えば、若い人口層を抱える途上国では抗菌薬に対する需要が急上昇している一方、米国など高齢層を抱える国では、癌、糖尿病、関節炎および別の衰弱条件に対する薬物のレパートリーをさらに充実させる必要がある。感染性疾患による死亡率は1980年〜1992年の間に58％上昇し、抗生物質耐性微生物の登場は、米国だけでも年間300億ドル以上を医療のコストに加算していると推定される。

本開示の方法は、幅広い範囲のタンパク質に適用される。この方法は、工業用酵素の安定性（例：セルラーゼ、アミラーゼ、およびキシラナーゼなどの生物エネルギー応用に使用されるもの、キシラナーゼおよびラッカーゼなど製紙に使用されるもの、プロテアーゼおよびリパーゼなど洗剤に使用されるもの、食品に使用されるもの、リパーゼおよび他のヒドロラーゼ、オキシドレダクターゼなどの化学物質の製造に使用されるもの）の安定性の改善に適用することができる。これはまた、治療用タンパク質、センサーおよび診断機器に使用されるタンパク質、および他の用途に使用されるタンパク質の安定性を改善するためにも使用することができる。本方法は、約50個以上のアミノ酸を含むタンパク質またはタンパク質ドメインに適用することもできる（例：50〜100、100〜200、200〜300、300〜400、500〜1000または1000を超えるアミノ酸）。より小さなドメインまたはペプチドセグメントは一般的に、より大きな複数ドメインのタンパク質の一部分を形成する（4つの「ドメイン」を持つタンパク質であるP450 BM3など）。本開示の方法により設計され工業用酵素を含む他のタンパク質酵素は、カルボヒドラーゼ、α-アミラーゼ、β-アミラーゼ、セルラーゼ、β-グルカナーゼ、β-グルコシダーゼ、デキストラナーゼ、デキストリナーゼ、グルコアミラーゼ、ヘミセルラーゼ/ペントサナーゼ/キシラナーゼ、インベルターゼ、ラクターゼ、ペクチナーゼ、プルラナーゼ、プロテアーゼ、オキシゲナーゼ、酸性プロテイナーゼ、アルカリ性プロテアーゼ、ペプシン、ペプチダーゼ、アミノペプチダーゼ、エンドペプチダーゼ、スブチリシン、リパーゼおよびエステラーゼ、アミノアシラーゼ、グルタミナーゼ、リゾチーム、ペニシリンアシラーゼ、イソメラーゼ、オキシドレダクターゼ、アルコールデヒドロゲナーゼ、アミノ酸酸化酵素、カタラーゼ、クロロペルオキシダーゼ、ペルオキシダーゼ、リアーゼ、アセト乳酸デカルボキシラーゼ、アスパラギン酸β-デカルボキシラーゼ、ヒスチダーゼ、トランスフェラーゼ、およびシクロデキストリングリコシルトランスフェラーゼからなる群より選択される。本明細書で提供される具体的な実施例において、本開示は安定化P450（例：シトクロムP450のオキシゲナーゼ）を同定および開発することが可能であることを実証している。

別の実施形態において、本開示の方法および組成物は、環境サンプル中に存在するリード薬物化合物を設計する能力を提供する。本発明の方法は、安定キメラタンパク質を生成するために、新規薬物について環境を探り、または異なる微生物に含まれる関連薬物を同定する能力を提供する。

本開示の方法を用い、安定性向上を目指してポリケチド合成酵素を設計することができる。ポリケチドは、抗生物質（テトラサイクリンおよびエリスロマイシンなど）、抗癌剤（ダウノマイシン）、免疫抑制剤（FK506およびラパマイシン）、および獣医用製品（モネンジン）を含む、生物活性の極めて豊富な供給源である分子である。多数のポリケチド（ポリケチド合成酵素により生産）は、治療剤として高い価値を持つ。ポリケチド合成酵素は、長さならびに機能および結晶化のパターンが異なる多様な炭素鎖の生合成を触媒する、複合作用酵素である。ポリケチド合成酵素遺伝子は、遺伝子クラスターに該当し、ポリケチド合成酵素の少なくとも1つのタイプ（タイプIと呼ばれる）は大きなサイズの遺伝子および酵素を有し、これらの遺伝子/タンパク質の遺伝子操作およびin vitro研究を複雑にしている。

新規ポリケチドの生成のためにポリケチドおよびポストポリケチド生合成遺伝子のライブラリから望ましい成分を選んで結合させる能力が有用である。本開示の方法により、新しい安定組み合わせポリケチド合成酵素のクローニングの促進が可能となる。

本開示の方法により開発された望ましい安定したタンパク質は、タンパク質の産生を制御および調節することのできる発現調節配列を含むベクターにライゲーションすることができる。外来性核酸導入にひときわ大きな能力を持つベクターの使用は、大きなキメラ遺伝子での使用に特に適切であり、大腸菌のf因子（または稔性因子）を含め本明細書中に例として記述されている。大腸菌のこのf因子は、コンジュゲート化中のそれ自体の高移行率に影響を与えるプラスミドであり、混合した微生物サンプルからの遺伝子クラスターなどの大きな核酸フラグメントを獲得し安定的に増殖させる上で理想的である。

本明細書に記載する本発明の多様な技術、方法、および態様の一部または全体を、コンピュータベースのシステムおよび方法を用いて実施することができる。特に配列に基づく検索、アライメント、交差位置の同定および回帰分析を、コンピュータアルゴリズムにより実施することができる。場合によっては、コンピュータにより実行されるプロセスを、組み換えタンパク質または試薬の合成のためにロボット装置に操作可能に接続することができ、これには自動化アッセイによる安定性または機能データの受信もさらに含めることができる。さらに、コンピュータベースのシステムおよび方法は、上述の機能を補強または向上させ、機能の実行速度を高め、本明細書の他の部分での記載内容の一環として、または該内容に追加したものとして追加的な特徴や態様を提供するために使用することができる。上述の技術に従った多様なコンピュータベースのシステム、方法および実施が下記に提示されている。

プロセッサベースのシステムには、主記憶装置（好ましくはランダムアクセスメモリ（RAM））を含めることができ、また補助記憶装置を含めることができる。補助記憶装置には、例えばハードディスクドライブおよび／またはフロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学ディスクドライブに代表されるリムーバブル記憶装置などが含まれる。リムーバブル記憶装置は、リムーバブル記憶媒体に対して読取り／書込みを行う。リムーバブル記憶媒体とは、リムーバブル記憶ドライブにより読取り／書込みが行われるフロッピー(登録商標)ディスク、磁気テープ、光学ディスクなどを意味する。リムーバブル記憶媒体はコンピュータソフトウエアおよび／またはデータから構成されうることは認識されるとおりである。

別の実施形態において、補助記憶装置はコンピュータシステムにコンピュータプログラムまたは別の指示を搭載できるようにする他の類似した手段を含むことができる。このような手段には、例えばリムーバブル記憶装置およびインターフェースを含むことができる。このような例には、プログラムカートリッジおよびカートリッジインターフェース（ビデオゲーム装置に存在するものなど）、可動式メモリチップ（EPROMまたはPROMなど）および関連ソケット、および他のリムーバブル記憶装置およびインターフェースなどが挙げられ、これによりリムーバブル記憶装置からコンピュータシステムにソフトウエアおよびデータを移動することができる。

コンピュータシステムはまた、通信インターフェースを含むことができる。通信インターフェースにより、コンピュータシステムと外部装置の間でのソフトウエアおよびデータの移動が可能となる。通信インターフェースの例には、モデム、ネットワークインターフェース（例えばイーサネット(登録商標)カードなど）、通信ポート、PCMCIAスロットおよびカードなどが挙げられる。通信インターフェースにより移動されるソフトウエアおよびデータは信号形式であり、これは通信インターフェースで受信できる電子信号、電磁信号、光学信号または別の信号であってもよい（例：微小流体チャンネルの流量センサーまたはステージの基板X-Y位置に関連するセンサーからの情報）。これらの信号は、信号を送信できるチャンネルを通して通信インターフェースに提供され、ワイヤレス媒体、ワイヤまたはケーブル、光ファイバーまたは他の通信媒体を用いて実現される。チャンネルの例には、電話線、携帯電話リンク、RFリンク、ネットワークインターフェース、および他の通信チャンネルなどがある。本明細書における「コンピュータプログラム媒体」および「コンピュータが使用できる媒体」という用語は一般的に、リムーバブル記憶装置、ディスクドライブへのインストールが可能なディスク、およびチャンネル上の信号などの媒体を意味する。これらのコンピュータプログラム製品は、コンピュータシステムにソフトウエアまたはプログラム上の指示を提供する手段である。特に本開示には、所定の寸法およびセル種類を含むバイオリアクターシステムに送達されるべき適切なO.sub.2濃度を計算する上でのコンピュータ可読媒体上への指示を含む。

コンピュータプログラム（コンピュータ制御ロジックとも呼ばれる）は、主記憶装置および／または補助記憶装置に保管される。コンピュータプログラムはまた、通信インターフェースを通して受信しうる。このようなコンピュータプログラムは実行されると、マイクロウェル中の位置、サイズおよび含有物基質または生成物の調節を含む本開示の特徴をコンピュータシステムで実施できるようになる。

エレメントがソフトウエアを用いて実装される実施形態において、ソフトウエアはコンピュータプログラム製品内に格納するか、該製品を経由して送信し、リムーバブル記憶ドライブ、ハードドライブまたは通信インターフェースを用いてコンピュータシステムに読み込ませてもよい。制御ロジック（ソフトウエア）は、プロセッサにより実行されると、プロセッサに本明細書に記載した本発明の機能を実行させる。

別の実施形態において、例えばPAL、特定用途向け集積回路（ASIC）または他のハードウエアコンポーネントなどのハードウエアコンポーネントを用いて、エレメントは主にハードウエア内に実装される。当業者には、本明細書に記載する機能を実装するためのハードウエア状態マシンの実装が明らかである。また別の実施形態において、ハードウエアおよびソフトウエア両方の統合を用いてエレメントが埋め込まれる。

本発明をさらに例証するために下記の実施例が提供されるが、これらは該発明を制限するものではない。

ヘム含有酸化還元酵素の汎用的なシトクロムP450ファミリーは、幅広い基質をヒドロキシル化して、医療上また工業上大きな重要性を持つ生成物を生成する。この多様な酵素ファミリーも特によく研究されたメンバーである、巨大菌(Bacillus megaterium)からのシトクロムP450 BM3（CYP102A1または「A1」）は、精製化学合成および薬物のヒト代謝物の生産を含むバイオテクノロジー応用に向けて幅広く技術開発されてきた。こうした応用のための新しい生体触媒を形成するために、CYP102A1およびそのホモログCYP102A2（A2）およびCYP102A3（A3）のヘムドメインの構造に基づくSCHEMA組み換えを使用して、各々が3つの親の1つから選択された最高8つのフラグメントから形成される620種類の折り畳みキメラと335種類の折り畳み不全のキメラP450配列が生成された。キメラはフラグメント組成に従い記載され（例えば23121321）、これは第1のフラグメントを親A2から、第2のフラグメントをA3から、第3のフラグメントをA1から、と受け継いだタンパク質を示す。14種類のキメラの活性の調査では、SCHEMA組み換えにより生成された配列の多様性はまた、親では受け入れない基質を受け入れる能力を含めた機能的多様性を生成することが実証された。

（組み換えにより形成されるものも含めて）大多数の突然変異は不安定化作用を有し、大多数のキメラは大多数の安定な親よりも安定性が低い。ライブラリに存在する数千の新規P450のうち、活性および特異性の詳細な特性決定のために最も安定性の高いものを選ぶことが重要である。そのために、10分間のインキュベーション後にタンパク質の50％が不可逆的に変性する温度であるT₅₀の形式で、184種類のP450キメラの熱安定性（表3）が測定された。安定性分析のために十分なレベルで発現し、2状態変性モデルに適合しうる変性曲線を示す、折り畳みキメラが選択された。親タンパク質のT₅₀値は54.9℃（A1）、43.6℃（A2）および49.1℃（A3）（図1a）であった。折り畳みP450のこのサンプルは、最も安定性の高い親（A1）よりも安定性が高いものを数多く含む（図1a）。

184種類のキメラP450のT₅₀値を線形回帰で分析して、ブロック累積的な熱安定性効果の寄与を評価した。キメラフラグメント組成に対するT₅₀の回帰により、184種類のキメラすべてについて予測T₅₀と観察T₅₀の間の強力な線形相関性が明らかになった。ピアソンr＝0.856（図1b）（表4）。

結果により1つのデータサブセットから別のサブセットへの一般化が可能かどうかを考察し、過剰適合の可能性に取り組むため、データは訓練セット（139データポイント）と試験セット（45データポイント）にランダムに分割された。データ訓練の指針としては、回帰（σ_R）と測定（σ_M＝1.0℃）の標準偏差が使用された。各訓練サイクルの後、すべてのデータポイントは回帰線の決定における役割という観点から重みづけされた。データポイントの予測誤差（予測T₅₀と測定T₅₀間の温度差）が2σ_R以上の場合、そのポイントは削除された。σ_Rが2σ_M（2.0℃）より小さい場合は、訓練プロセスは中止された。2回の訓練サイクル後、σ_Rは1.9℃となった。8つの異常値のみを削除した後、訓練セットのrは0.847から0.892に改善した（図3a）。試験データセット中のタンパク質の熱安定性を予測するために、訓練済み回帰パラメータ（表4）を使用した場合、相関性はr＝0.857で回帰モデルが検証された（図3b）。10回の相互検証により、線形回帰モデルがさらに確認された。

訓練セットから得たモデルパラメータにより予測される最も熱安定性の高いP450（MTP）キメラでは、T₅₀は63.8℃でフラグメント組成は21312333であった。この配列が構築、発現、特性決定され、そのT₅₀である64.4℃は予測値の測定誤差内であり、最も熱安定の高い親A1よりも9.5℃安定性が高かった。事実、これは今日までに特性決定された230種類のキメラの中で最も安定性が高かった。モデル予測をさらに試験するため、620種類の折り畳みキメラの中からさらにキメラ19種類についてT₅₀値が測定され、7種類は熱安定性が高いと予測されたもの、12種類はランダムに選んだものである（表3）。MTPを含む20種類の新しいP450すべての予測および測定T₅₀値は、関連性が極めて高かった（r＝0.956）（図1c）。

雑音が不在の場合には、N個の特異的測定値のみを用いてN個のパラメータの回帰モデルを完全に決定しうる。雑音が存在する場合には、さらなる測定によって予測精度が高まる傾向が高い。測定T₅₀を有する204種類のキメラの配列の一部がランダムに選択され、残りのキメラのT₅₀を予測するためにこれらの配列に基づく回帰モデルの能力が試験された。無作為化した大規模な訓練セットを用いることで、実験的雑音の効果が低下した。同じく重要な点は、配列スペース全体に拡散したキメラで訓練することにより、その結果得られた回帰モデルを1つの参照状態に偏ることが避けられたことである。データポイントを増やすことで予測精度を多少改善することが可能であるものの、約35〜40個の測定値はキメラ安定性の正確な予測に十分だと見出された（図4）。

204個のT₅₀測定値より得た線形回帰モデルパラメータ（表4）は次に、ライブラリ内の6,561種類のキメラすべてのT₅₀値を予測するために使用された（図5）。相当な数（〜300）のキメラがA1よりも安定性が高いと予測された。構築やさらなる特性決定には、予測T₅₀値が60℃以上のキメラ（合計30）が使用された。5種類は本発明者らの以前の研究において作製済みであり⁴、残りの25種類が構築された。表1に示すように、予測された30種類の安定キメラすべては安定性があり、T₅₀は58.5℃〜64.4℃であった。安定性予測は極めて精度が高く、予測および測定のT₅₀値間の標準偏差は1.6℃で、測定誤差（1.0℃）に近かった。

折り畳みキメラの多重配列アライメントは次に、天然配列アライメントに基づく「コンセンサス安定化」方法に類似する安定配列を予測するために使用できるかどうかを決定するために試験された。各キメラの安定性は、折り畳みキメラのコレクションから推定された。コンセンサスエネルギーが低いほど、より高いT₅₀値と関連することが観察された（図2a、ピアソンr＝−0.58、P＜＜10^-9）。さらに、折り畳みタンパク質は折り畳み不全タンパク質よりもコンセンサスエネルギーが低い傾向が見られた（図2b、ウィルコクソン符号順位検定P＜＜10^-9）。

コンセンサスによるキメラの順位付けに関連するエネルギーと統計誤差を計算するために使用されるキメラ配列数の間の交換条件が考察された。613種類の折り畳みキメラから得られる5、10、15. . .300の配列を含むランダムサブセットが選択され、既知のT₅₀を有する3種類の親および204種類のキメラについてコンセンサスエネルギーが計算された。次に、スピアマン順位相関性係数（r_s）がコンセンサスエネルギー予測および測定T₅₀値間で計算された。このプロセスは10回反復され、各サンプルサイズについて平均r_sと標準偏差が計算された（図6）。85種類以上のキメラ配列が使用される場合には、平均順位相関性係数は確実に0.5より大きかった（標準偏差値は0.1未満）。

配列と折り畳みステータスだけでも相対安定性についての非自明的な予測に使用できることが実証された後、最も安定性の高いキメラが次に予測された。各キメラフラグメントに対するコンセンサスエネルギーが計算された（表5）。ライブラリ内の6,561種類のキメラすべての合計コンセンサスエネルギーが計算され、最も低いコンセンサスエネルギーを有する20種類が表6に列挙されている。これらの上位20種類のうち合計17種類（そのうちの8種類は線形回帰予測に基づきすでに構築済み）が作製された。安定性があると予測され構築された5種類の追加キメラもまた、表1に含まれている。本研究のために構築された44種類のキメラはすべて、最も安定性の高い親よりも安定性が高いため、予測T₅₀は最も安定性の高い親の測定T₅₀を超え、コンセンサスエネルギーに基づきより一層安定性が高いとも予測される。

8箇所の位置すべてで最高頻度のフラグメントを有する配列、キメラ21312333は、コンセンサス配列と呼ばれる。そのコンセンサスエネルギーは最低であり、最も安定性が高いと予測される。事実、既知のT₅₀を持つ238種類のキメラすべての中で、21312333は最高の測定安定性を有し、線形回帰モデルにより予測されるMTPでもある。複数の折り畳みキメラのアライメントを分析することで得られるコンセンサス配列は、3個の親配列を単純に考察し、別の2個の親との違いが最も小さいものとしてコンセンサスフラグメントを指定することで得られるもの（21221332）とは、実質的に異なる。

安定性予測には、配列決定の誤差およびキメラ内での点突然変異の両方を同定するための十分な正確さがあった。P450キメラの配列は元々、DNAプローブハイブリダイゼーションにより決定されたが、この誤差率は〜3％であり、ライブラリ構築中の少数の点突然変異もまた予想される。13種類のキメラは、そのT₅₀が線形回帰により測定および分析された元の189種類のキメラのセットから、予測誤差4℃以上で再配列された。5種類は不正確な配列を持つか、点突然変異を含み（表7）、以降の分析から削除された。

さらなる研究により、回帰モデルとコンセンサスモデルの両方ともに、配列決定誤差および突然変異を特定する確率を大幅に高めるほど十分に機能を果たすことが示された。キメラ22313333、21311311、および22311333は、折り畳み不全と報告されたものの高い安定性があることが予測された⁴。全配列決定では、元の22313333構築が不完全であり、いくつかのフラグメントを欠如していることが示され、元の21311311構築には挿入があり、22311333は2個のアミノ酸置換につながる2箇所の点突然変異を有することが示された。修正後のすべての3種類のキメラは非常に安定性が高い（表1）。

新しく構築された熱安定キメラおよび修正された配列は、以前に発表された配列折り畳みステータスデータに追加された（表8）。修正された配列折り畳みデータ（644種類の折り畳みキメラのうち）と測定T₅₀を有する238種類のキメラを用いて、コンセンサス分析が再実施された。コンセンサスエネルギーおよび測定熱安定性の間の相関性rは−0.58〜−0.67と大幅に改善した。

（不可逆的）不活性化の酵素の半減期（t_1/2）は一般的に、安定性を描写するために使用される。13種類の安定したキメラおよび3種類の親について、57℃でt_1/2が測定された（表9）。結果は、安定性の向上は半減期に大きな効果を与えうることが示され、その一方で最も安定した親A1はこの温度での半減期15分間でCOと結合する能力を失い、キメラ21312231の半減期は1600分間、または108倍より大きかった。MTPおよびコンセンサスキメラ21312333の半減期は同様に、1550分間と非常に長い。T₅₀もまた、CYP102A1の変異体に対する最大半量変性に必要な尿素濃度と線形的に相関することが示された。それ故、安定したP450キメラはまた、化学変性剤による不活性化に対する許容性もより高い可能性がある。

44種類の安定キメラはすべて、向上した熱安定性が突然変異、挿入または削除によるものである可能性をなくすために、完全に配列決定することにより確認された。安定キメラは多様な配列ファミリーから成り、7〜99個のアミノ酸位置で互いに異なる（平均46）（図7）。最も近い親への距離は、広ければ99個のアミノ酸にもなる。大多数の熱安定キメラの発現レベルは、親タンパク質のレベルよりも高かった。最も熱安定性が高いキメラは、誘発剤イソプロピル-β-D-チオガラクトピラノシド（IPTG）がなくとも発現された。

安定キメラが触媒活性を保持したか、またより重要な点としてはこれらがバイオテクノロジーとして重大な新規の活性を得たかどうかを決定するための、3種類の親酵素すべてが活性な基質2-フェノキシエタノールに対する熱安定キメラのペルオキシゲナーゼ活性測定において、44種類のキメラすべてが活性であることが示された（表1）。さらに、その多数は最も活性の高い親（A1）よりも活性が高かった。熱安定キメラはまた、2種の薬物、ベラパミルおよびアステミゾールについても活性が試験され、高次MS分析を用いたHPLC/MSによる代謝産物の生成の程度を測定した。どの親もいずれの薬物に対する活性を示さなかったものの、3種類のキメラはベラパミルに対する著明な量の代謝産物を生成し、2種類のキメラはベラパミルおよびアステミゾールの両方からの代謝産物を生成した。生成物2、4、5、8および10（表2）はまた、既知のヒト代謝産物であり、ヒトCYP3A4、1A2、2Cおよび2D6酵素との反応の生成物である。

本開示およびデータは、異なるデータを用いてタンパク質の安定性を予測する2通りのアプローチを実証している。1つは配列安定性データの線形回帰により、もう1つは多重配列アライメントのコンセンサス分析に基づく。最善の予測アプローチは、標的タンパク質ならびに折り畳みステータスおよび安定性が測定される相対的な容易さによる。線形回帰モデルは安定性データを用いるが、これは多くの場合、折り畳みステータスの単純な決定よりも獲得がより困難なものである。しかしながら、線形回帰モデルでは、折り畳みステータスに基づくコンセンサスアプローチよりも測定が少なくて済み、常に偽陽性は少なく真陽性は多く予測される（図8）。

コンセンサス安定化は、配列エレメントの頻度はその対応する安定性寄与に相関するという考えに基づく。この相関性は通常、ボルツマン様の指数関係に従うものと仮定される¹⁵。このような関係は、統計メカニズムへの相似において考えられるすべての折り畳みタンパク質P450の集合体から配列がランダムにサンプリングされる場合に、最も理にかなっている。天然配列は分岐進化により関連されており、このようなサンプルを含まない場合もある。対照的に、本発明者らのキメラタンパク質のデータセットは、考えられるすべての6,561種類のキメラの大規模かつほぼランダムなサンプルを代表する。コンセンサス安定化アプローチの基礎となる根本的な推定の裏付けとして、配列エレメントは累積的に安定性に寄与し、安定化するフラグメントは折り畳み配列中により高い頻度で発生し、コンセンサス配列は集合体において最も安定性が高いことがデータにより示された。これらの結果は、異なる集合体（キメラライブラリと進化したファミリーの比較）および配列変化（組み換えと段階的突然変異の比較）に対するコンセンサス安定化というアイデアの許容性を実証する。ただし、コンセンサス安定化についてのこれまでの実施とは異なり、本明細書で記載するアプローチは数十もの安定したタンパク質を生成し、これらのタンパク質は多数のアミノ酸残基において相互にも親からも異なる。

タンパク質折り畳みの協力的な性質や天然構造における数多くの三者接触に鑑みると、観察された高度の累積性は意外にも思える。タンパク質に対する安定性変化の累積性は、長い間知られてきた。配列変化が大幅な構造的変化と組み合わさったり、そのような変化をもたらす場合には、累積的でない効果が予想される。すべての配列エレメントは少なくとも1つの状況において、つまり親配列の類似の構造に折り畳まれると考えられることから、ランダム突然変異体と比べて構造破壊がキメラで生じる可能性はより低い。さらに、かかるブロック累積性はライブラリ設計により最大限に高めることができ、これがカップリングを低下させる。SCHEMAは、接触数を最小化する配列フラグメントまたは組み換えに伴い破壊される相互作用を同定する。キメラ中の2個の残基は、重原子が4.5Å以内であれば1つの接触を有すると定義され、親において同じ位置で現れない場合には接触は破壊されている。P450キメラについての合計約500の接触において、平均で30より少ない接触がSCHEMAライブラリの配列で破壊されていた。このライブラリ内でスワップされたSCHEMAフラグメントには、多数のフラグメント内接触があり、フラグメント間接触は数少ないか親に対して保存されている。その結果、疑似独立構造モジュールとしてのフラグメント機能は、安定性に対しておおむね累積的な寄与を行っている。累積性は、累積性からの逸脱に基づく配列誤差の検出を可能にするのに十分強力であり、特性決定されていないキメラの熱安定性についての予測は精度が高く、最も安定したキメラのT₅₀の予測は測定誤差範囲内であった。SCHEMAはβ-ラクタマーゼ²²などの別のタンパク質骨格との機能的キメラを効果的に同定するため、このアプローチでは他のタンパク質ファミリーに対する新しい安定した機能的配列を同定できるはずである。

本明細書で実証された両方のアプローチは安定性の高い配列を同定し、組み換えは許容性の高い残基を交換しつつ重要な機能的残基を保存することで生物学的機能を保持し高い配列多様性を示すことを保証する。この配列多様性は、有用な機能的多様性を生じさせる可能性がある。安定P450キメラの組立は、安定した触媒枠組みにおいて新しいまたは向上したP450活性を生成するという希望を動機の一部として行われた。本研究は、安定化酵素において、（2-フェノキシエタノールに対する）活性の改善のほか、全く新しい（ベラパミルおよびアステミゾールに対する）活性の獲得を実証した。P450キメラが薬物の真正なヒト代謝産物を生成できるという点は、迅速な薬物の代謝プロファイリングの道を開き、大腸菌で効果的に産生された可溶性酵素を用いた多様化につながる。

本開示は、キメラタンパク質が幅広い範囲の安定性を示すこと、所与の折り畳み配列の安定性はデータ（安定性または折り畳みステータスのいずれか）に基づきキメラライブラリの限られたサンプリングから予測できることを示す。予測される安定配列を組み立てることで、その親タンパク質とは大幅に異なる44種類の安定化P450が生成され、高レベルで発現され、触媒的に活性である。安定P450ファミリーの個々のメンバーは、バイオテクノロジー的に関連する基質に対する活性を示す。このアプローチにより、既存の機能を保持し新しい機能を探求する安定化タンパク質の全体的なファミリーの生成が可能となる。

熱安定性測定
細胞の抽出物を準備し、P450濃度は以前報告されたとおり決定された⁴。4μMのP450を含有する細胞抽出物のサンプルをさまざまな温度（36℃〜75℃）にわたり10分間サーマルサイクラー中で加熱し、その後に1分間、4℃まで急速冷却した。沈殿物を遠心分離により取り除いた。上清に残るP450をCO差分光法により測定した。10分間のインキュベーション後にタンパク質の50パーセントが不可逆的に変性される温度であるT₅₀が、2状態変性モデルにデータを適合することで決定された⁸。測定の変動性および再現性を確認するために、4つの並行独立実験（細胞培養からT₅₀測定）がA2に対して実施され、ここでは平均T₅₀として43.6℃および標準偏差（σ_M）として1.0℃が得られた。いくつかの配列では、T₅₀が2回測定され、すべての測定値の平均が分析に使用された。

線形回帰
線形モデル：

が回帰のために使用され、ここでT₅₀は従属変数であり、（例えばi＝1、2,…8 およびj＝2または3である場合のi個の位置およびj個の親からの）フラグメントχ_ijは独立変数である。キメラが親2からのフラグメント1を持ち、χ₁₂＝1およびχ₁₃＝0である場合は、χ_ijがダミーコードされた。定数項（α₀）がA1の予測T₅₀であり、回帰係数α_ijが対応する参照（A1）フラグメントと比べてフラグメントχ_ijの熱安定性寄与を示すように、すべての8箇所の位置について、親A1が参照として使用された。一般に、8箇所のそれぞれの位置での参照フラグメントは任意に選択することができる。構造バイアスにより、位置4での親A2からのフラグメントはデータセットからほぼ完全に欠落している。このフラグメントを有するいくつかのキメラはそれ故、コンセンサス分析を含むすべての分析から削除された。SPSSを用いて回帰が実施された（SPSS for Windows(登録商標), Rel. 11.0.1. 2001. Chicago: SPSS Inc.）。

コンセンサスエネルギー計算
位置iでのフラグメントの頻度がその安定性寄与に指数的に関連し、これらのフラグメント寄与は累積的であると仮定すると、参照配列と比べた合計キメラコンセンサスエネルギーは、次式：

から計算され、ここで

は参照配列におけるiでのフラグメントの集合体頻度である。A1のコンセンサスエネルギーがゼロとなるようにA1が再び参照として使用され、参照配列の選択は任意であり、結果に影響を及ぼさない。報告された数値は参照からのエネルギー差と実際に比例しており、略してコンセンサスエネルギーと呼ばれることに留意されたい。折り畳み集合体における親jからのフラグメントiの未加工頻度

は、構成要素フラグメントからのキメラの集合体におけるバイアスを反映している場合がある。バイアスを、選択されていない配列のセットにおける頻度

を測定することにより評価して、バイアス

を決定することができ、これはバイアスのない集合体では1に等しい。P450集合体については、

が既知である（表5）。構造バイアスは、

をb_ijにより割って直接補正することができ、バイアス補正頻度がすべての分析に使用された。

熱安定キメラシトクロムP450の構築
所与の安定キメラを構築するため、標的遺伝子の部分を有する2つのキメラ（例：標的キメラ21312333については21311212および11312333）が鋳型として選ばれた。標的遺伝子は重複伸張PCRにより構築され、pCWori発現ベクターにクローンニングされ、カタラーゼのない大腸菌株SN0037に形質転換された。すべての構築物は全配列決定により確認された。

酵素活性アッセイ
2-フェノキシエタノールに対する活性は、多少の修正を加え報告されたとおり測定した。4μMのP450キメラを含む80μlの細胞溶解物を、96ウェルプレートの各ウェルにおいて20μlの2-フェノキシエタノール溶液（60mM）と混合した。20μlの過酸化水素（120mM）を加えて反応が開始された。最終濃度は2-フェノキシエタノールについては10mM、過酸化水素については20mMであった。1.5時間後、36μL 4-アミノアンチピリン（0.6％）を加える前に反応を120μLの尿素でクエンチした（200mM NaOH中の8M）。混合物は、500nmで、プレートリーダーでブランク測定した後、36μL過硫酸カリウム（0.6％）を加えた。10分間の発色後、溶液の吸光度を再測定した。吸光度は最も活性の高い親A1で標準化した。

ベラパミルおよびアステミゾールによる生物変換
〜8.3μM P450キメラを含む60μLの細胞溶解物を、90μLのEPPS緩衝液（0.1M、pH 8.2）および10μLの薬物（5 mM）と混合した。40μLの過酸化水素（5 mM）を加えて反応を開始した。最終濃度は薬物については250μM、過酸化水素については1mMであった。1.5時間後、反応を200μLアセトニトリルによりクエンチし、混合物を18000gで10分間遠心分離した。HPLCにより25μLの上清を分析した。200μL/分での代謝産物を希釈するために使用された溶媒A（H₂O中の0.2％ギ酸（v/v））および溶媒B（アセトニトリル）との条件は、0〜3分、A:B 90:10、3〜25分、A:B 30:70への線形勾配、25〜30分、A:B 10:90への線形勾配。そのクロマトグラムが親薬物ピークよりも多くを含むサンプルを、LCMSおよびMS/MSでさらに分析した。上記で詳述されたHPLC方法と同一条件を分析のLC部分にも使用し、その後に陽性ESIモードでのMS操作を行なった。MS/MSスペクトルは、最も濃いイオンに対してデータ独立方式で取得した。生成物同定は、ラット肝臓ミクロソーム由来の対照群との保持時間およびタンデムMSスペクトルの比較により達成した。HPLC分離は、Waters 996 PDA検出器と併用して、Waters 2690分離モジュール上でSupelco Discovery C18カラム（2.1×150mm、5μ）を用いて実施した。LCMSおよびMS/MSスペクトルは、Caltech MS装置での熱Finnigan LCQクラシックを用いて得た。

多数の実施形態を説明してきた。しかしながら、記載内容の精神や範囲から逸脱することなく、多様な修正が行われうることが理解される。従って、その他の実施形態も下記の請求項の範囲内である。

Claims

1つまたは複数の安定化タンパク質の生成方法であって、以下のステップ；
複数（P）の進化的、構造上または進化的かつ構造上関連するポリペプチドを同定するステップ、
複数の関連ポリペプチドのうち少なくとも第1のポリペプチドおよび少なくとも第2のポリペプチドにおいてN個のペプチドセグメントを含む交差位置のセットを選択するステップ、
少なくとも第1のポリペプチドおよび第2のポリペプチドそれぞれのペプチドセグメントを含む組み合わされた組み換えタンパク質のサンプルセット（xP^N）を生成するステップ（x＜1）、
発現され折り畳まれた組み合わされた組み換えタンパク質のサンプルセットの安定性を測定するステップ、
安定性を有する組み合わされた組み換えタンパク質の回帰分析を実行して、安定性関与ペプチドセグメントを同定するステップ、
安定性関与ペプチドセグメントを含む安定化ポリペプチドを生成するステップ、および
安定化ポリペプチドの活性および／または安定性を測定するステップ
を含む、上記方法。

前記安定化ポリペプチドが酵素を含む、請求項１に記載の方法。

前記安定化ポリペプチドが工業用酵素を含む、請求項２に記載の方法。

前記工業用酵素が、カルボヒドラーゼ、α-アミラーゼ、β-アミラーゼ、セルラーゼ、β-グルカナーゼ、β-グルコシダーゼ、デキストラナーゼ、デキストリナーゼ、グルコアミラーゼ、ヘミセルラーゼ/ペントサナーゼ/キシラナーゼ、インベルターゼ、ラクターゼ、ペクチナーゼ、プルラナーゼ、プロテアーゼ、オキシゲナーゼ、酸性プロテイナーゼ、アルカリ性プロテアーゼ、ペプシン、ペプチダーゼ、アミノペプチダーゼ、エンドペプチダーゼ、スブチリシン、リパーゼおよびエステラーゼ、アミノアシラーゼ、グルタミナーゼ、リゾチーム、ペニシリンアシラーゼ、イソメラーゼ、オキシドレダクターゼ、アルコールデヒドロゲナーゼ、アミノ酸酸化酵素、カタラーゼ、クロロペルオキシダーゼ、ペルオキシダーゼ、リアーゼ、アセト乳酸デカルボキシラーゼ、アスパラギン酸β-デカルボキシラーゼ、ヒスチダーゼ、トランスフェラーゼ、およびシクロデキストリングリコシルトランスフェラーゼからなる群より選択される、請求項３に記載の方法。

前記工業用酵素がシトクロムP450である、請求項３に記載の方法。

前記安定化ポリペプチドが治療用タンパク質である、請求項１に記載の方法。

交差位置のセットを選択するステップが、以下のステップ：
複数の進化的、構造上または進化的かつ構造上関連するポリペプチドの配列をアライメントするステップ、および
配列同一性の領域を同定するステップ
を含む、請求項１に記載の方法。

配列アライメント、ならびにX線結晶解析、NMR、タンパク質構造データベースの検索、ホモロジーモデリング、デノボタンパク質の折り畳み、およびタンパク質構造の計算予測からなる群より選択される1つまたは複数の方法を含む、請求項７に記載の方法。

交差位置のセットを選択するステップが、以下のステップ：
少なくとも第1のポリペプチドの残基対間のカップリング相互作用を特定するステップ、
各データ構造が少なくとも第1および第2のポリペプチドの組み換えを含む交差突然変異体を表し、各組み換えが異なる交差位置を有する、複数のデータ構造を生成するステップ、
各データ構造について、データ構造により表される交差突然変異体において破壊されたカップリング相互作用の数に関連する交差破壊を決定するステップ、および
複数のデータ構造から、閾値未満の交差破壊を有する特定のデータ構造を同定するステップであって、特定のデータ構造により表される交差突然変異体の交差位置が同定された交差位置であるステップ
を含む、請求項１、７または８に記載の方法。

カップリング相互作用が残基間のコンホメーションエネルギーの決定により特定される、請求項９に記載の方法。

カップリング相互作用が残基間の原子間距離の決定により特定される、請求項９に記載の方法。

少なくとも第1および第2のポリペプチドのそれぞれについてのコンホメーションエネルギーが、第1および第2のポリペプチドのうちの少なくとも1つについての三次元構造から決定される、請求項９に記載の方法。

原子間距離が複数のポリペプチドのうちの少なくとも1つのポリペプチドの三次元構造から決定される、請求項１１に記載の方法。

カップリング相互作用が閾値を超える残基間のコンホメーションエネルギーにより特定される、請求項９に記載の方法。

閾値が複数のデータ構造についての交差破壊の平均レベルである、請求項９に記載の方法。

交差位置の同定が配列同一性の領域に基づくポリペプチドの考えられる切断点の同定を含む、請求項７に記載の方法。

配列同一性の領域が少なくとも4つの残基を含む必要がある、請求項７または１６に記載の方法。

P^Nが50より大きい、請求項１に記載の方法。

安定性の測定が、化学安定性測定、機能的安定性測定および熱安定性測定からなる群より選択される技術を含む、請求項１に記載の方法。

化学安定性測定が化学変性測定を含む、請求項１９に記載の方法。

熱安定性測定が熱変性測定を含む、請求項１９に記載の方法。

機能的安定性測定がリガンドまたは基質結合技術を含む、請求項１９に記載の方法。

回帰分析が、配列安定性データまたは折り畳みタンパク質と折り畳み不全タンパク質とを比較した場合の多重配列アライメント（MSA）のコンセンサス分析の決定を含む、請求項１に記載の方法。

配列安定性データが安定性測定と操作可能に関連する配列情報を含む、請求項２３に記載の方法。

配列安定性分析が、以下の式：

（式中、T₅₀は従属変数であり、ペプチドセグメントχ_ij（i番目の位置およびj番目の親からの）は独立変数であり、定数項（α₀）は親ポリペプチドの予測T₅₀であり、回帰係数α_ijは親ポリペプチドの対応する参照ペプチドセグメントと比較したペプチドセグメントχ_ijの熱安定性寄与を表す。）
により表される、請求項２３または２４に記載の方法。

コンセンサス分析が安定化ポリペプチドの配列情報および安定性関与ペプチドセグメントの頻度を含む、請求項２３に記載の方法。

コンセンサス分析が、安定化タンパク質の位置（i）における安定性関与ペプチドセグメントの頻度測定およびコンセンサスエネルギー値を得るための位置：セグメント反復の指数関数評価を含む、請求項２５に記載の方法。

安定性を促進する安定性関与ペプチドセグメントが、以下の式：

で表現される安定化タンパク質の全コンセンサスエネルギー値を低下させる、請求項２７に記載の方法。

回帰分析が、配列安定性データおよび折り畳みタンパク質と折り畳み不全タンパク質とを比較した場合の多重配列アライメント（MSA）のコンセンサス分析の組み合わせを含む、請求項１に記載の方法。

1つまたは複数の安定化タンパク質の生成方法であって、以下のステップ：
交差位置のセットがN個のオリゴヌクレオチドセグメントを定義し、各セグメントがペプチドをコードする、進化的、構造上または進化的かつ構造上関連するポリペプチドをコードする親ポリヌクレオチドのセットPにおける交差位置を選択するステップ、
交差位置を有する親ポリヌクレオチドのサブセットxP^N間（x＜1）での組み換えを実行して、オリゴヌクレオチドセグメントによりコードされるペプチドセグメントを含む組み合わされた組み換えタンパク質のサンプルセットを得るステップ、
発現され折り畳まれた組み合わされた組み換えタンパク質のサンプルセットの安定性を測定するステップ、
安定性を有する組み合わされた組み換えタンパク質の回帰分析を実行して、安定性関与ペプチドセグメントおよびコードするオリゴヌクレオチドセグメントを同定するステップ、
安定性関与ペプチドセグメントをコードするオリゴヌクレオチドの組み合わせによりコードされる安定化ポリペプチドを生成するステップ、および
安定化ポリペプチドの活性および／または安定性を測定するステップ
を含む、上記方法。

安定化ポリペプチドが酵素を含む、請求項３０に記載の方法。

安定化ポリペプチドが工業用酵素を含む、請求項３１に記載の方法。

工業用酵素が、カルボヒドラーゼ、α-アミラーゼ、β-アミラーゼ、セルラーゼ、β-グルカナーゼ、β-グルコシダーゼ、デキストラナーゼ、デキストリナーゼ、グルコアミラーゼ、ヘミセルラーゼ/ペントサナーゼ/キシラナーゼ、インベルターゼ、ラクターゼ、ペクチナーゼ、プルラナーゼ、プロテアーゼ、オキシゲナーゼ、酸性プロテイナーゼ、アルカリ性プロテアーゼ、ペプシン、ペプチダーゼ、アミノペプチダーゼ、エンドペプチダーゼ、スブチリシン、リパーゼおよびエステラーゼ、アミノアシラーゼ、グルタミナーゼ、リゾチーム、ペニシリンアシラーゼ、イソメラーゼ、オキシドレダクターゼ、アルコールデヒドロゲナーゼ、アミノ酸酸化酵素、カタラーゼ、クロロペルオキシダーゼ、ペルオキシダーゼ、リアーゼ、アセト乳酸デカルボキシラーゼ、アスパラギン酸β-デカルボキシラーゼ、ヒスチダーゼ、トランスフェラーゼ、およびシクロデキストリングリコシルトランスフェラーゼからなる群より選択される、請求項３２に記載の方法。

工業用酵素がシトクロムP450酵素である、請求項３２に記載の方法。

安定化ポリペプチドが治療用タンパク質である、請求項３０に記載の方法。

交差位置のセットを選択するステップが、以下のステップ：
親ポリヌクレオチドのセットの配列をアライメントするステップ、および
配列同一性の領域を同定するステップ
を含む、請求項３０に記載の方法。

配列アライメント、ならびにポリヌクレオチドのセットのメンバーによりコードされるタンパク質の、X線結晶解析、NMR、タンパク質構造データベースの検索、ホモロジーモデリング、デノボタンパク質の折り畳み、およびタンパク質構造の計算予測からなる群より選択される1つまたは複数の方法を含む、請求項３６に記載の方法。

交差位置のセットを選択するステップが、以下のステップ：
少なくとも第1のポリペプチドの残基対間のカップリング相互作用を特定するステップ、
各データ構造が少なくとも第1および第2のポリペプチドの組み換えを含む交差突然変異体を表し、各組み換えが異なる交差位置を有する、複数のデータ構造を生成するステップ、
各データ構造について、データ構造により表される交差突然変異体において破壊されたカップリング相互作用の数に関連する交差破壊を決定するステップ、および
複数のデータ構造から閾値未満の交差破壊を有する特定のデータ構造を同定するステップであって、特定のデータ構造により表される交差突然変異体の交差位置が同定された交差位置であるステップ
を含む、請求項３０、３６または３７に記載の方法。

カップリング相互作用が残基間のコンホメーションエネルギーの決定により特定される、請求項３８に記載の方法。

カップリング相互作用が残基間の原子間距離の決定により特定される、請求項３８に記載の方法。

関連するポリペプチドの少なくとも第1および第2のポリペプチドのそれぞれのコンホメーションエネルギーが、第1および第2のポリペプチドのうちの少なくとも1つの三次元構造から決定される、請求項３９に記載の方法。

原子間距離が複数のポリペプチドのうちの少なくとも1つのポリペプチドの三次元構造から決定される、請求項４０に記載の方法。

カップリング相互作用が、閾値を超える残基間のコンホメーションエネルギーにより特定される、請求項３８に記載の方法。

閾値が複数のデータ構造についての交差破壊の平均レベルである、請求項３８に記載の方法。

交差位置の同定が、ポリヌクレオチドでの配列同一性の領域に基づくポリペプチド中の考えられる切断点の同定を含む、請求項３６に記載の方法。

配列同一性の領域が少なくとも4つのヌクレオチドを含む必要がある、請求項３６または４５に記載の方法。

組み合わされた組み換えライブラリのメンバーの合計数P^Nが50より大きい、請求項３０に記載の方法。

安定性の測定が、化学安定性測定、機能的安定性測定および熱安定性測定からなる群より選択される技術を含む、請求項３０に記載の方法。

化学安定性測定が化学変性測定を含む、請求項４８に記載の方法。

熱安定性測定が熱変性測定を含む、請求項４８に記載の方法。

機能的安定性測定がリガンドまたは基質結合技術を含む、請求項４８に記載の方法。

回帰分析が、配列安定性データまたは折り畳みタンパク質と折り畳み不全タンパク質とを比較した場合の多重配列アライメント（MSA）のコンセンサス分析の決定を含む、請求項３０に記載の方法。

配列安定性データが、安定性測定と操作可能に関連する配列情報を含む、請求項５２に記載の方法。

配列安定性分析が、以下の式：

（式中、T₅₀は従属変数であり、ペプチドセグメントχ_ij（i番目の位置およびj番目の親からの）は独立変数であり、定数項（α₀）は親ポリペプチドの予測T₅₀であり、回帰係数α_ijは親ポリペプチドの対応する参照ペプチドセグメントと比較したペプチドセグメントχ_ijの熱安定性寄与を表す。）
により表され、
T₅₀値を出力する、
請求項５１または５２に記載の方法。

コンセンサス分析が安定化ポリペプチドの配列情報および安定性関与ペプチドセグメントの頻度を含む、請求項５２に記載の方法。

コンセンサス分析が、安定化タンパク質の位置（i）における安定性関与ペプチドセグメントの頻度測定およびコンセンサスエネルギー値を得るための位置：セグメント反復の指数関数評価を含む、請求項５５に記載の方法。

により表される安定化タンパク質の全コンセンサスエネルギー値を低下させる、請求項５６に記載の方法。

回帰分析が、配列安定性データおよび折り畳みタンパク質と折り畳み不全タンパク質とを比較した場合の多重配列アライメント（MSA）のコンセンサス分析の組み合わせを含む、請求項３０に記載の方法。

安定性関与ペプチドフラグメントを特定する方法であって、以下のステップ：
交差位置のセットがN個のオリゴヌクレオチドセグメントを定義し、各セグメントがペプチドをコードする、進化的、構造上または進化的かつ構造上関連するポリペプチドをコードする親ポリヌクレオチドのセットPにおける交差位置を選択するステップ、
交差位置を有する親ポリヌクレオチドのサブセットxP^N間（x＜1）での組み換えを実行し、オリゴヌクレオチドセグメントによりコードされるペプチドセグメントを含む組み合わされた組み換えタンパク質のサンプルセットを得るステップ、
発現され折り畳まれた組み合わされた組み換えタンパク質のサンプルセットの安定性を測定するステップ、
安定性を有する組み合わされた組み換えタンパク質の回帰分析を実行し、安定性関与ペプチドセグメントおよびコードするオリゴヌクレオチドセグメントを同定するステップ、
安定性関与ペプチドセグメントに対する配列データおよび安定性測定をデータベースに出力するステップであって、該データベースがヌクレオチドおよびアミノ酸配列の両方を含むステップ
を含む、上記方法。

請求項５９に記載の方法から得られる安定性値を伴う、安定性関与ペプチドセグメントのデータベース。

自動化された請求項１または３０に記載の方法。

交差位置がコンピュータにより決定される、請求項１または３０に記載の方法。

回帰分析がコンピュータにより実行される、請求項１または３０に記載の方法。

以下のステップ：
交差位置のセットがN個のオリゴヌクレオチドセグメントを定義し、各セグメントがペプチドをコードする、進化的、構造上または進化的かつ構造上関連があるポリペプチドをコードする親ポリヌクレオチドのセットPにおける交差位置を選択するステップ、
交差位置を有する親ポリヌクレオチドのサブセットxP^N間（x＜1）での組み換えを実行し、オリゴヌクレオチドセグメントによりコードされるペプチドセグメントを含む組み合わされた組み換えタンパク質のサンプルセットを得るステップ、
サンプルセットにおける発現された組み合わされた組み換えタンパクの安定性測定からのデータを獲得するステップ、
安定性を有する組み合わされた組み換えタンパク質の回帰分析を実行し、安定性関与ペプチドセグメントおよびコードするオリゴヌクレオチドセグメントを同定するステップ、
安定性関与ペプチドセグメントをコードするオリゴヌクレオチドの組み合わせによりコードされる安定化ポリペプチドを生成するステップ、および
安定化ポリペプチド配列をユーザーに出力するステップ
を含む、コンピュータ実装方法。