JP6744909B2

JP6744909B2 - タンパク質の少なくとも１つの適応度値を予測するための方法及び電子システム、関連するコンピュータプログラム製品

Info

Publication number: JP6744909B2
Application number: JP2018505535A
Authority: JP
Inventors: フォンテーヌ、ニコラ; カデ、フレデリク
Original assignee: Peaccel
Current assignee: Peaccel
Priority date: 2015-04-14
Filing date: 2016-04-14
Publication date: 2020-08-19
Anticipated expiration: 2036-04-14
Also published as: US11749377B2; KR20170137106A; US20180096099A1; IL254976B; EP3082056B1; IL254976A0; CA2982608A1; SG11201708457VA; EP3082056A1; JP2018517219A; MX2017013195A; EP3082056B2; CN107924429B; AU2016247474A1; CA2982608C; DK3082056T4; CN107924429A; BR112017022196A2; AU2016247474B2; CN114882947A

Description

本発明は、アミノ酸配列を含むタンパク質の少なくとも１つの適応度値（fitness value）を予測するための方法及び関連する電子システムに関する。本発明はまた、コンピュータによって実施されると、そのような方法を実施するソフトウェア命令を含むコンピュータプログラム製品に関する。

タンパク質は、少なくとも１本のアミノ酸配列鎖からなる生体分子である。タンパク質は、主にアミノ酸の配列が互いに異なり、配列間の相違は「変異」と呼ばれる。

タンパク質工学の最終目標の１つは、所望の特性（総称して「適応度（fitness）」と呼ぶ）を有するペプチド、酵素、タンパク質、又はアミノ酸配列の設計及び構成である。アミノ酸又はアミノ酸ブロック（キメラタンパク質）の人工的なアミノ酸置換、除去、又は挿入による改変アミノ酸配列（すなわち「変異体」）の構成は、適応度に対する任意の特定のアミノ酸の役割の評価、及びタンパク質構造とその適応度との関係の理解を可能にする。

定量的構造−機能／適応度関係解析の主な目的は、タンパク質の構造の変化がその適応度に及ぼす影響を調べ、数学的に記述することである。変異の影響は、様々なアミノ酸の物理化学的特性及び他の分子特性に関係付けられ、統計解析によって扱うことができる。

適応度ランドスケープを探索し、ｎ個の単一点置換の全ての可能な組合せ（順列）を調べることは非常に困難な作業である。実際、変異体の数は非常に迅速に増加する（表１）。

全ての生じ得る変異体を探索することは、特にｎが増加する場合には実験的に困難である。実際には、ウェットラボで単一点置換を有する変異体を製造することはかなり容易且つ安価である。変異体のそれぞれに関して、適応度を容易に特徴付けることができる。

しかし、単一点置換を組み合わせることは、ウェットラボではそれほど容易でない。標的にされるｎ個の単一点置換の全ての可能な（２^ｎ個の）組合せを生成することは、非常に困難であり且つコストがかかるものであり得る。大規模な適応度の評価には問題がある。

タンパク質の指向性進化のプロセスを促進するために、インビトロ及びインシリコの混合手法が開発されている。それらの手法は、ウェットラボから、（部位特異的な、ランダムな、又は組合せ変異誘発によって）変異体のライブラリを構築すること、ライブラリからの限られた数の試料の配列及び／又は構造（「学習データセット」と呼ばれる）を検索すること、及び各サンプリングされた変異体の適応度を評価することを必要とする。それらは、インシリコから各変異体に関する記述子を抽出し、記述子と適応度（学習段階）との関係を確立するための多変量統計法を使用し、実験的に試験されていない変異体に関する予測を行うためにモデルを確立することをさらに必要とする。

定量的構造−機能関係（ＱＦＳＲ）と呼ばれる３Ｄ構造に基づく方法が提案されている（非特許文献１）。３次元構造ではなく配列のみに基づいて、統計的モデリングを使用してインシリコでの合理的スクリーニングを行う他の方法が提案されている（非特許文献２；非特許文献３；非特許文献４；非特許文献５；非特許文献６）。最もよく知られているのは、２値符号化（０又は１）に基づくＰｒｏＳＡＲ（非特許文献３；非特許文献５）である。

ＱＳＦＲ法は効率的であり、非多様体残基との生じ得る相互作用に関する情報を考慮に入れる。しかし、ＱＳＦＲは、３Ｄタンパク質構造に関する情報を必要とし、そのような情報は現在のところ依然として限られており、この方法はさらに遅くなる。

それに対して、ＰｒｏＳＡＲは、一次配列のみに基づいて計算されるため、３Ｄ構造の知識を必要とせず、線形及び非線形モデルを使用することができる。しかし、ＰｒｏＳＡＲは依然として欠点があり、そのスクリーニング能力は限られている。特に、多様化された残基のみがモデリングに含まれ、その結果、変異された残基と他の非多様体残基との間の生じ得る相互作用に関する情報が欠落している。ＰｒｏＳＡＲは、アミノ酸の物理化学的又は他の分子特性を考慮に入れない変異の２値符号化（０又は１）に依拠している。さらに、（ｉ）試験することができる新規の配列は、モデルを構築するために使用された学習セットで使用された位置で変異又は変異の組合せを有する配列のみであり、（ｉｉ）スクリーニングされる新規の配列における変異の位置の数が訓練セットでの変異の数と異なってはならず、（ｉｉｉ）モデルを構築するために非線形項を導入するときの計算時間は、スーパーコンピュータでは非常に長い（１００個の非線形項では最大で２週間）。

したがって、タンパク質の指向性進化のプロセスを促進する多用途であり高速のインシリコ手法が依然として必要とされる。本発明は、これらの要件を満たし、ディジタル信号処理（ＤＳＰ）に基づく方法を提供する。

ディジタル信号処理技法は、信号を分解して処理し、そこに埋め込まれた情報を明らかにする解析手順である。信号は、連続的（永久的）であってもよいし、又はタンパク質残基などに関して離散的であってもよい。タンパク質では、バイオシークエンス（ＤＮＡ及びタンパク質）の比較、タンパク質ファミリーの特徴付け及びパターン認識、分類、並びに他の構造ベースの研究、例えば、対称性及び反復構造単位又はパターンの解析、２次／３次の構造予測、疎水性コアの予測、モチーフ、保存ドメイン、膜タンパク質の予測、保存領域の予測、タンパク質細胞下位置の予測、アミノ酸配列中の２次構造含量の研究、及びタンパク質中の周期性の検出に関してフーリエ変換法が使用されている。近年、タンパク質構造におけるソレノイドドメインの検出のための新規な方法が提案された。

ディジタル信号処理技法は、タンパク質相互作用を解析するのに役立ち（非特許文献７）、生物学的機能を計算可能にしている。これらの研究は、（非特許文献８）において詳細に検討されている。

これらの手法では、まず、データベースＡＡｉｎｄｅｘからの利用可能なＡＡｉｎｄｅｘの１つを使用してタンパク質残基が数値配列に変換され（非特許文献９；非特許文献１０）、各アミノ酸の生化学的特性又は物理化学的パラメータを表現する。次いで、これらの数値配列が離散フーリエ変換（ＤＦＴ）によって処理されて、情報スペクトルの形式でタンパク質の生物学的特性を提供する。この手順は、情報スペクトル法（ＩＳＭ）と呼ばれる（非特許文献１１）。ＩＳＭ手順は、カルシウム結合タンパク質（非特許文献１２）及びインフルエンザウイルス（非特許文献１３）での主要な構成を調べるために使用されている。

電子−イオン相互作用ポテンシャル（ＥＩＩＰ）と呼ばれるアミノ酸パラメータに関与するＩＳＭの多様体は、共鳴認識モデル（ＲＲＭ）と呼ばれる。この手順では、生物学的機能がスペクトル特性として提供される。この物理−数学的プロセスは、同じ生物学的特性を有する生体分子が、その原子価電子が振動し次いで電磁場内で反響するときを認識してそれら自体に生物学的に付着する（bio-attach）ことに基づいている（非特許文献７；非特許文献１４）。

共鳴認識モデルは４つのステップを含む（（非特許文献８）を参照されたい）。
− ステップ１：タンパク質残基を電子−イオン相互作用ポテンシャル（ＥＩＩＰ）パラメータの数値へと変換。
− ステップ２：ゼロパディング／アップサンプリング。信号処理は、全てのタンパク質のウインドウの長さが同じであることを必要とするため、このプロセスは、ゼロパディングを使用して、任意の位置で解析され得るタンパク質の配列中の隙間を埋める。
− ステップ３：スペクトル特性（ＳＣ）を生成するための高速フーリエ変換（ＦＦＴ）を使用した数値配列の処理、スペクトル特性（ＳＣ）は、ステップ４中に各点について乗算されてクロススペクトル（ＣＳ）特徴を生成する。
− ステップ４：クロススペクトル解析：クロススペクトル（ＣＳ）解析は、スペクトル特性（ＳＣ）の各点乗算を表す。

したがって、ＣＳ解析は、配位子と受容体スペクトルとの間の共通の周波数（共鳴）に基づいて、例えば配位子−受容体結合を予測するために定性的に使用されている。別の例は、ＲＲＭをＨａ−ｒａｓｐ２１タンパク質配列に適用することにより、ｒａｓ様活性の有無、すなわち細胞の形質転換の可能性の有無を予測することである。

これらの従来技術の方法によって提供される情報は有用であるが、指向性進化によって生成された最も有用なタンパク質変異体を同定するには不十分である。

ＤａｍｂｏｒｓｋｙＪ，Ｐｒｏｔ．Ｅｎｇ．（１９９８）Ｊａｎ；１１（１）：２１−３０ＦｏｘＲ．ｅｔａｌ．，ＰｒｏｔｅｉｎＥｎｇ．（２００３）１６（８）：５８９−９７ＦｏｘＲ．，ＪｏｕｒｎａｌｏｆＴｈｅｏｒｅｔｉｃａｌＢｉｏｌｏｇｙ（２００５），２３４：１８７−１９９ＭｉｎｓｈｕｌｌＪ．ｅｔａｌ．，ＣｕｒｒＯｐｉｎＣｈｅｍＢｉｏｌ．２００５Ａｐｒ；９（２）：２０２−９ＦｏｘＲ．ｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ（２００７），２５（３）：３３８−３４４ＦｏｘＲ．ａｎｄＨｕｉｓｍａｎＧＷＴｒｅｎｄｓＢｉｏｔｅｃｈｎｏｌ．２００８Ｍａｒ；２６（３）：１３２−８ＣｏｓｉｃＩ．，ＩＥＥＥＴｒａｎｓＢｉｏｍｅｄＥｎｇ．（１９９４）４１（１２）：１１０１−１４ＮｗａｎｋｗｏＮ．ａｎｄＳｅｋｅｒＨ．（ＪＰｒｏｔｅｏｍｉｃｓＢｉｏｉｎｆｏｒｍ（２０１１）４（１２）：２６０−２６８）Ｋａｗａｓｈｉｍａ，Ｓ．ａｎｄＫａｎｅｈｉｓａ，Ｍ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．（２０００），２８（１）：３７４Ｋａｗａｓｈｉｍａ，Ｓ．ｅｔａｌ．，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．Ｊａｎ２００８；３６ＶｅｌｊｋｏｖｉｃＶ，ｅｔａｌ．，ＩＥＥＥＴｒａｎｓＢｉｏｍｅｄＥｎｇ．１９８５Ｍａｙ；３２（５）：３３７−４１ＶｉａｒｉＡ，ｅｔａｌ．，ＣｏｍｐｕｔＡｐｐｌＢｉｏｓｃｉ．１９９０Ａｐｒ；６（２）：７１−８０ＶｅｌｊｋｏｖｉｃＶ．，ｅｔａｌ．ＢＭＣＳｔｒｕｃｔＢｉｏｌ．２００９Ａｐｒ７；９：２１，ＶｅｌｊｋｏｖｉｃＶ．，ｅｔａｌ．ＢＭＣＳｔｒｕｃｔＢｉｏｌ．２００９Ｓｅｐ２８；９：６２ＣｏｓｉｃＩ．，ＴｈｅＲｅｓｏｎａｎｔＲｅｃｏｇｎｉｔｉｏｎＭｏｄｅｌｏｆＭａｃｒｏｍｏｌｅｃｕｌａｒＢｉｏａｃｔｉｖｉｔｙＢｉｒｋｈａｕｓｅｒＶｅｒｌａｇ，１９９７

したがって、本発明は、タンパク質の少なくとも１つの適応度値を予測するための方法であって、コンピュータ上で実施され、以下のステップ：
− タンパク質のアミノ酸配列をタンパク質データベースによる数値配列に符号化するステップであって、当該数値配列はアミノ酸配列の各アミノ酸の値を含む、ステップと、
− 数値配列に従って、タンパク質スペクトルを計算するステップと、
各適応度について、
− 計算されたタンパク質スペクトルを所定のデータベースのタンパク質スペクトル値と比較するステップであって、データベースがは適応度の異なる値に関するタンパク質スペクトル値を含む、ステップと、
− 比較ステップに従って、適応度の値を予測するステップと
を含む方法に関する。

したがって、本発明者らによって開発された方法は、タンパク質スペクトルの定量解析を含み、これは、所与の活性の有無を予測するだけでなく、タンパク質の適応度値を予測することを可能にする。

本発明の他の有利な態様によれば、本発明による方法は、単独で又は全ての技術的に可能な組合せに従って以下の特徴の１つ又は複数を含む。
− 計算されたタンパク質スペクトルは、少なくとも１つの周波数値を含み、計算されたタンパク質スペクトルは、各周波数値についてタンパク質スペクトル値と比較され、
− タンパク質スペクトル計算ステップにおいて、高速フーリエ変換などのフーリエ変換が、符号化ステップによってさらに得られた数値配列に適用され、
− 各タンパク質スペクトルは以下の式：

を検証し、
ここで、ｊはタンパク質スペクトル｜ｆ_ｊ｜のインデックス番号であり、数値配列はｘ_ｋと表されるＮ個の値を含み、０≦ｋ≦Ｎ−１且つＮ≧１であり、ｉはｉ^２＝−１であるような虚数を定義し、
− 符号化ステップにおいて、タンパク質データベースは生化学的又は物理化学的な特性値の少なくとも１つのインデックスを含み、各特性値はそれぞれのアミノ酸について与えられ、
各アミノ酸について、数値配列における値が所与のインデックスにおけるアミノ酸に関する特性値に等しく、
− 符号化ステップにおいて、タンパク質データベースは特性値の幾つかのインデックスを含み、
当該方法は、各インデックスに従って、試料タンパク質に関する測定適応度値と、試料タンパク質について以前に得られた予測適応度値との比較に基づいて、最良のインデックスを選択するステップをさらに含み、
符号化ステップは、選択されたインデックスを使用して行われ、
− 選択ステップにおいて、選択されたインデックスは、最小の二乗平均平方根誤差を有するインデックスであり、
各インデックスの二乗平均平方根誤差は以下の式：

を検証し、
ここで、ｙ_ｉは第ｉの試料タンパク質の測定適応度であり、

は、第ｊのインデックスを有する第ｉの試料タンパク質の予測適応度であり、
Ｓは試料タンパク質の数であり、
− 選択ステップにおいて、選択されたインデックスは、１に最も近い決定係数を有するインデックスであり、
各インデックスの決定係数は以下の式：

は、第ｊのインデックスを有する第ｉの試料タンパク質の予測適応度であり、
Ｓは試料タンパク質の数であり、

はＳ個の試料タンパク質に関する測定適応度の平均であり、

はＳ個の試料タンパク質に関する予測適応度の平均であり、
− 当該方法は、符号化ステップの後で且つタンパク質スペクトル計算ステップの前に、以下のステップ：
＋数値配列の各値から数値配列値の平均を引くことにより、符号化ステップによって得られた数値配列を正規化するステップ
をさらに含み、
タンパク質スペクトル計算ステップは、正規化された数値配列に対して行われ、
− 当該方法は、符号化ステップの後で且つタンパク質スペクトル計算ステップの前に、以下のステップ：
＋数値配列の一端にＭ個のゼロを加えることにより、符号化ステップによって得られた数値配列をゼロパディングするステップであって、Ｍは（Ｎ−Ｐ）に等しく、ここで、Ｎが所定の整数であり、Ｐは前記数値配列における値の数である、ステップ
をさらに含み、
タンパク質スペクトル計算ステップは、ゼロパディングステップによってさらに得られた数値配列に対して行われ、
− 比較ステップは、適応度の異なる値に関するタンパク質スペクトル値の所定のデータベース内で、所定の基準に従って、計算されたタンパク質スペクトルに最も近いタンパク質スペクトル値を決定するステップを含み、、適応度の予測値は、データベース内において、決定されたタンパク質スペクトル値に関連付けられる適応度値に等しく、
− タンパク質スペクトル計算ステップにおいて、幾つかの周波数範囲に従ってタンパク質について幾つかのタンパク質スペクトルが計算され、
予測ステップにおいて、比較ステップに従って各タンパク質スペクトルについて適応度の中間値が推定され、当該中間適応度値を使用して適応度の予測値が計算され、
好ましくは、中間適応度値に対する部分的最小二乗回帰などの回帰が用いられ、並びに
− 当該方法は、
− 変異体ライブラリのスクリーニングのために、計算されたタンパク質スペクトルに従ってタンパク質を解析するステップ
を含み、
解析は、好ましくは要因判別解析又は主成分解析を使用して行われる。

本発明はまた、コンピュータによって実施されると、上で定義したような方法を実施するソフトウェア命令を含む、コンピュータプログラム製品に関する。

本発明はまた、タンパク質の少なくとも１つの適応度値を予測するための電子予測システムであって、
− アミノ酸配列をタンパク質データベースによる数値配列に符号化するように構成された符号化モジュールであって、数値配列はアミノ酸配列の各アミノ酸の値を含む、符号化モジュールと、
− 数値配列に従って、タンパク質スペクトルを計算するように構成された計算モジュールと、
− 予測モジュールであって、各適応度について、
＋計算されたタンパク質スペクトルを所定のデータベースのタンパク質スペクトル値と比較することであって、データベースは適応度の異なる値に関するタンパク質スペクトル値を含む、比較することと、
＋比較に従って適応度の値を予測することと
を行うように構成された予測モジュールと
を含む、電子予測システムに関する。

本発明は、以下の説明を読むことでより良く理解されるであろう。以下の説明は、単なる例として、添付図面を参照して提示される。

タンパク質の少なくとも１つの適応度値を予測するための電子予測システムの概略図である。予測システムは、アミノ酸配列を数値配列に符号化するように構成された符号化モジュールと、数値配列に従ってタンパク質スペクトルを計算するように構成された計算モジュールと、各適応度の少なくとも１つの値を予測するように構成された予測モジュールとを含む。本発明による、タンパク質の少なくとも１つの適応度値を予測するための方法の概略フローチャートである。天然型及び変異型のヒトＧＬＰ１タンパク質について得られたタンパク質スペクトルの曲線を表す。シトクロムＰ４５０ファミリーのタンパク質の組に関する熱安定性の予測値及び測定値を示す点の組である。各点はそれぞれのタンパク質に関係付けられ、縦軸は予測値に対応し、横軸は測定値に対応し、タンパク質スペクトルに含まれる全ての周波数が用いられる。シトクロムＰ４５０ファミリーからのタンパク質の組の訓練サブセット及び検証サブセットについてそれぞれ得られた、図４のものと同様の図である。訓練サブセットは、熱安定性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、対応する測定値と比較した予測値との関連性を試験するために使用される。シトクロムＰ４５０ファミリーからのタンパク質の組の訓練サブセット及び検証サブセットについてそれぞれ得られた、図４のものと同様の図である。訓練サブセットは、熱安定性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、対応する測定値と比較した予測値との関連性を試験するために使用される。ＧＬＰ１変異体の組に関する結合親和性の予測値及び測定値を含む、図４のものと同様の図である。ＧＬＰ１変異体の組に関する効力の予測値及び測定値を含む、図４のものと同様の図である。エンテロトキシンＳＥＥ及びＳＥＡの組の訓練サブセット及び検証サブセットについてそれぞれ得られた熱安定性の予測値及び測定値を含む、図４のものと同様の図である。訓練サブセットは、上記熱安定性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、予測値の関連性を試験するために使用される。エンテロトキシンＳＥＥ及びＳＥＡの組の訓練サブセット及び検証サブセットについてそれぞれ得られた熱安定性の予測値及び測定値を含む、図４のものと同様の図である。訓練サブセットは、上記熱安定性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、予測値の関連性を試験するために使用される。ＴＮＦ変異体の組の訓練サブセット及び検証サブセットについてそれぞれ得られた結合親和性の予測値及び測定値を含む、図４のものと同様の図である。訓練サブセットは、上記結合親和性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、予測値の関連性を試験するために使用される。ＴＮＦ変異体の組の訓練サブセット及び検証サブセットについてそれぞれ得られた結合親和性の予測値及び測定値を含む、図４のものと同様の図である。訓練サブセットは、上記結合親和性の異なる値に関するタンパク質スペクトル値を含むデータベースを計算するために使用され、検証サブセットは、訓練サブセットと異なり、予測値の関連性を試験するために使用される。タンパク質スペクトルからの周波数値の選択を使用する、図４のものと同様の図である。エポキシドヒドロラーゼファミリーのタンパク質の組に関するエナンチオ選択性の予測値及び測定値を含む、図４のものと同様の図である。エポキシドヒドロラーゼの５１２個の変異体のライブラリのスクリーニングを表す。タンパク質スクリーニングに関する多変量解析（主成分解析）を使用したエポキシドヒドロラーゼの１０個の変異体のタンパク質スペクトルの分類を表す。ブルトン型チロシンキナーゼ多様体に関するタンパク質発現レベルの予測値及び測定値を含む、図４のものと同様の図である。Ｋ５６２細胞株におけるＲＮＡに関するｍＲＮＡ発現レベルの予測値及び測定値を含む、図４のものと同様の図である。心臓細胞におけるタンパク質に関するタンパク質発現レベルの予測値及び測定値を含む、図４のものと同様の図である。腎臓細胞におけるタンパク質に関するタンパク質発現レベルの予測値及び測定値を含む、図４のものと同様の図である。

本明細書で使用するとき、「タンパク質」とは、ペプチド結合によって共に連結された少なくとも２つのアミノ酸を意味する。「タンパク質」という用語には、タンパク質、オリゴペプチド、ポリペプチド、及びペプチドが含まれる。ペプチジル基は、天然のアミノ酸及びペプチド結合、又は合成ペプチド模倣構造体、すなわちペプトイドなどの「類似体」を含むことがある。アミノ酸は、天然のものでも、天然に存在しないものでもよい。好ましい実施形態では、タンパク質は少なくとも１０個のアミノ酸を含むが、より少数のアミノ酸でもよい。

タンパク質の「適応度」とは、触媒効率、触媒活性、速度定数、Ｋｍ、Ｋｅｑ、結合親和性、熱安定性、溶解度、凝集、効力、毒性、アレルギー性、免疫原性、熱力学的安定性、柔軟性などの基準へのそのタンパク質の適合を表す。本発明によれば、「適応度」は「活性」とも呼ばれ、以下の説明では、適応度と活性とが同じ特徴を表すものとみなす。

触媒効率は、通常、ｓ^−１．Ｍ^−１単位で表され、ｋｃａｔ／Ｋｍの比を示す。

触媒活性は、通常、ｍｏｌ．ｓ^−１単位で表され、酵素触媒作用における酵素活性レベルを示す。

速度定数ｋｃａｔは、通常、ｓ^−１単位で表され、反応速度を定量化する数値パラメータを示す。

Ｋｍは、通常、Ｍ単位で表され、反応速度がその最大値の半分である基質濃度を示す。

Ｋｅｑは、通常、（Ｍ単位、Ｍ^−１単位、又は単位なし）で表され、化学反応での化学的平衡を特徴付ける量である。

結合親和性は、通常、Ｍ単位で表され、タンパク質同士又はタンパク質と配位子（ペプチド若しくは小さい化学分子）との相互作用の強さを示す。

熱安定性は、通常、℃単位で表され、通常、測定される活性Ｔ_５０を示し、これは、通常、１０分間のインキュベーション時間後にタンパク質の５０％が不可逆的に変性される温度として定義される。

溶解度は、通常、ｍｏｌ／Ｌ単位で表され、溶液が飽和する前に溶液１リットル当たりに溶解することができる物質（溶質）のモル数を示す。

凝集は、通常、（２８０ｎｍ及び３４０ｎｍでの単純な吸収測定からの）凝集指数を用いて表され、ミスフォールディングされたタンパク質が細胞内又は細胞外で凝集（すなわち蓄積及び集塊）する生物学的現象を表す。

効力は、通常、Ｍ単位で表され、所与の強度の効果をもたらすのに必要な量で表された薬物活性の尺度を示す。

毒性は、通常、Ｍ単位で表され、物質（毒素又は毒）がヒト又は動物に害を与える可能性がある度合いを示す。

アレルギー性は、通常、ＢＡＵ／ｍＬ単位（１ｍＬ当たりの生物学的同等性アレルギー単位）で表され、抗原性物質が即時過敏症（アレルギー）を引き起こす能力を示す。

免疫原性は、通常、試料中の抗体の量の単位で表され、抗原又はエピトープなど特定の物質がヒト又は動物の体内で免疫応答を引き起こす能力を示す。

安定性は、通常、ΔΔＧ（ｋｃａｌ／ｍｏｌ^−１）単位で表され、迅速に、可逆的に、且つ協働してアンフォールディング及びリフォールディングするタンパク質の熱力学的安定性を示す。

柔軟性は、通常、Ａ°単位で表され、タンパク質疾患及び構造変化を表す。

図１では、タンパク質の少なくとも１つの適応度値を予測するための電子予測システム２０は、データ処理ユニット３０と、表示画面３２と、データ処理ユニット３０にデータを入力するための入力手段３４とを含む。

データ処理ユニット３０は、例えば、メモリ４０と、メモリ４０に関連付けられたプロセッサ４２とから構成される。

表示画面３２及び入力手段３４は、それ自体既知である。

メモリ４０は、アミノ酸配列をタンパク質データベース５１による数値配列に符号化するように構成された符号化コンピュータプログラム５０と、数値配列に従ってタンパク質スペクトルを計算するように構成された計算コンピュータプログラム５２とを記憶するように適合され、タンパク質スペクトルは、本明細書において以下では｜ｆ_ｊ｜と表し、ｊはタンパク質スペクトルのインデックス番号である。

メモリ４０はまた、上記適応度の異なる値に関するタンパク質スペクトル値を含むタンパク質スペクトルデータベース５５を予め決定するように構成された、モデリングコンピュータプログラム５４を記憶するように適合される。

メモリ４０は、各適応度について、計算されたタンパク質スペクトルを上記予め決定されたデータベースのタンパク質スペクトル値と比較すると共に、当該比較に従って上記適応度の値を予測するように、また任意選択的にさらに変異体ライブラリをスクリーニングするように構成された、予測コンピュータプログラム５６を記憶するように適合される。

任意選択的な追加として、メモリ４０は、計算されたタンパク質スペクトルに従ってタンパク質を解析し、それにより変異体ライブラリをスクリーニングするように構成された、スクリーニングコンピュータプログラム５８を記憶するように適合される。解析は、好ましくは、要因判別解析又は主成分解析である。

プロセッサ４２は、符号化、計算、モデリング、予測、及びスクリーニングコンピュータプログラム５０、５２、５４、５６、５８のそれぞれを実行するように構成される。符号化、計算、モデルリング、予測、及びスクリーニングコンピュータプログラム５０、５２、５４、５６、５８は、それらがプロセッサ４２によって実行されるときに、それぞれアミノ酸配列をタンパク質データベースによる数値配列に符号化するための符号化モジュール；数値配列に従ってタンパク質スペクトルを計算するための計算モジュール；タンパク質スペクトル値を含むデータベースを予め決定するためのモデリングモジュール；計算されたタンパク質スペクトルを上記予め決定されたデータベースのタンパク質スペクトル値と比較し、当該比較に従って上記適応度の値を予測し、及びスクリーニングするための予測モジュール；計算されたタンパク質スペクトルに従ってタンパク質を解析するためのスクリーニングモジュールを形成する。

代替として、符号化モジュール５０、計算モジュール５２、モデリングモジュール５４、予測モジュール５６、及びスクリーニングモジュール５８は、プログラマブル論理コンポーネントの形態又は専用集積回路の形態である。

符号化モジュール５０は、アミノ酸配列をタンパク質データベース５１による数値配列に符号化するように適合される。数値配列は、アミノ酸配列の各アミノ酸の値ｘ_ｋを含む。数値配列は、Ｐ個の値ｘ_ｋで構成され、０≦ｋ≦Ｐ−１且つＰ≧１（ｋ及びＰは整数）である。

タンパク質データベース５１は、例えばメモリ４０に記憶される。代替として、タンパク質データベース５１は、メモリ４０と異なる遠隔メモリ（図示せず）に記憶される。

タンパク質データベース５１は、好ましくは、アミノ酸インデックスデータベース（ＡＡＩＮｄｅｘとも呼ばれる）である。アミノ酸インデックスデータベースはｈｔｔｐ：／／ｗｗｗ．ｇｅｎｏｍｅ．ｊｐ／ｄｂｇｅｔ−ｂｉｎ／ｗｗｗ＿ｂｆｉｎｄ？ａａｉｎｄｅｘ（バージョンリリース９．１、８月６日）から入手できる。

タンパク質データベース５１は、生化学的又は物理化学的な特性値の少なくとも１つのインデックスを含み、各特性値はそれぞれのアミノ酸について与えられている。タンパク質データベース５１は、好ましくは、生化学的又は物理化学的な特性値の幾つかのインデックスを含む。各インデックスは、それぞれの例を参照して以下に述べるように、例えばＡＡｉｎｄｅｘコードに対応する。アミノ酸配列を符号化するための選択されたＡＡｉｎｄｅｘコードは、例えば、Ｄ伸長構造の正規化周波数、Ｄ電子−イオン相互作用ポテンシャル値、Ｄ全タンパク質のＡＡ組成のＳＤ、ＤｐＫ−Ｃ、又はＤＩＦＨスケールからの重量である。

次いで、アミノ酸配列を符号化するために、符号化モジュール５０は、各アミノ酸について、所与のインデックスでの上記アミノ酸に関する特性値を決定するように適合される。この場合、数値配列における各符号化された値ｘ_ｋは、それぞれの特性値に等しい。

追加として、任意選択的に、タンパク質データベース５１が特性値の幾つかのインデックスを含むとき、符号化モジュール５０は、試料タンパク質に関する測定適応度値と、各インデックスに従って上記試料タンパク質について以前に得られた予測適応度値との比較に基づいて最良のインデックスを選択し、当該選択されたインデックスを使用してアミノ酸配列を符号化するようにさらに構成される。

選択されたインデックスは、例えば、最小二乗平均平方根誤差を用いたインデックスであり、各インデックスの二乗平均平方根誤差は以下の式：

は、第ｊのインデックスを有する第ｉの試料タンパク質の予測適応度であり、
Ｓは試料タンパク質の数である。

代替として、選択されるインデックスは、１に最も近い決定係数を有するインデックスであり、各インデックスの決定係数は以下の式：

はＳ個の試料タンパク質に関する予測適応度の平均である。

追加として、任意選択的に、符号化モジュール５０は、例えば数値配列の各値ｘ_ｋから数値配列値の平均

を引くことにより、得られた数値配列を正規化するようにさらに構成される。

すなわち、

で表される各正規化された値は、以下の式：

を検証する。

平均

は、例えば算術平均であり、以下を満たす。

代替として、平均

は、幾何平均、調和平均、又は平方平均である。

追加として、任意選択的に、符号化モジュール５０は、上記数値配列の一端にＭ個のゼロを加えることにより、得られた数値配列をゼロパディングするようにさらに構成され、Ｍは（Ｎ−Ｐ）に等しい。ここで、Ｎは所定の整数であり、Ｐは上記数値配列における値の初期数である。したがって、Ｎは、ゼロパディング後の数値配列における値の総数である。

計算モジュール５２は、数値配列に従ってタンパク質スペクトルを計算するように構成される。計算されたタンパク質スペクトルは、少なくとも１つの周波数値を含む。

計算モジュール５２は、好ましくは、得られた数値配列に高速フーリエ変換などのフーリエ変換を適用することにより、タンパク質スペクトル｜ｆ_ｊ｜を計算するように構成される。

したがって、各タンパク質スペクトル｜ｆ_ｊ｜は、例えば以下の式：

を検証する。
ここで、ｊはタンパク質スペクトル｜ｆ_ｊ｜のインデックス番号であり、ｉは、ｉ^２＝−１であるような虚数を定義する。

追加として、数値配列が符号化モジュール５０によって正規化されるとき、計算モジュール５２は、正規化された数値配列に対してタンパク質スペクトル計算を行うようにさらに構成される。

したがって、換言すると、この場合、各タンパク質スペクトル｜ｆ_ｊ｜は、例えば以下の式：

を検証する。

追加として、符号化モジュール５０によって数値配列に対してゼロパディングが行われるとき、計算モジュール５２は、ゼロパディングによってさらに得られた数値配列についてタンパク質スペクトル｜ｆ_ｊ｜を計算するようにさらに構成される。

を検証する。

追加として、符号化モジュール５０によって数値配列に対して正規化とゼロパディングとの両方が行われるとき、計算モジュール５２は、ゼロパディングによってさらに得られた正規化された数値配列におけるタンパク質スペクトル｜ｆ_ｊ｜を計算するようにさらに構成される。

を検証する。

モデリングモジュール５４は、符号化モジュール５０から発出された学習データ及び計算モジュール５２から発出された学習タンパク質スペクトルに従って、タンパク質スペクトルデータベース５５（モデルとも呼ばれる）を予め決定するように構成される。学習タンパク質スペクトルは学習データに対応し、学習データは、それぞれ所与の適応度に関係付けられ、好ましくは上記適応度の異なる値に関するものである。

タンパク質スペクトルデータベース５５は、各適応度の異なる値に関するタンパク質スペクトル値を含む。好ましくは、タンパク質スペクトルデータベース５５を構築するために、少なくとも１０個のタンパク質スペクトル及び１０個の異なる適応度が使用される。当然、タンパク質スペクトル及び関連するタンパク質適応度の数が多いほど、適応度の予測に関してより良好な結果となる。以下の実施例では、学習データとして使用されたタンパク質スペクトル及び適応度の数は、８〜２４２（２４２個のタンパク質スペクトル及び２４２個のタンパク質適応度；８個のタンパク質スペクトル及び８個のタンパク質適応度）の範囲であった。

予測モジュール５６は、各適応度について、計算されたタンパク質スペクトルをタンパク質スペクトルデータベース５５のタンパク質スペクトル値と比較し、当該比較に従って上記適応度の値を予測するように適合される。

予測モジュール５６は、タンパク質スペクトルデータベース５５内で、所定の基準に従って、計算されたタンパク質スペクトルに最も近いタンパク質スペクトル値を決定するようにさらに構成される。この場合、上記適応度の予測値は、タンパク質スペクトルデータベース５５内の決定されたタンパク質スペクトル値に関連付けられる適応度値に等しい。

所定の基準は、例えば、計算されたタンパク質スペクトルと、タンパク質スペクトルデータベース５５に含まれるタンパク質スペクトル値との最小の差である。代替として、所定の基準は、計算されたタンパク質スペクトルとタンパク質スペクトルデータベース５５に含まれるタンパク質スペクトル値との間の相関係数Ｒ又は決定係数Ｒ２である。

タンパク質スペクトル｜ｆ_ｊ｜が幾つかの周波数値を含むとき、計算されたタンパク質スペクトル｜ｆ_ｊ｜は、各周波数値について上記タンパク質スペクトル値と比較される。

代替として、計算されたタンパク質スペクトル｜ｆ_ｊ｜と上記タンパク質スペクトル値との比較のために周波数値の幾つかのみが考慮に入れられる。この場合、周波数値は、例えば適応度とのそれらの相関に従ってソートされ、計算されたタンパク質スペクトルの比較のために最良の周波数値のみが考慮に入れられる。

追加として、任意選択的に、予測モジュール５６は、幾つかの周波数範囲に従って上記タンパク質について幾つかのタンパク質スペクトルが計算されるとき、各タンパク質スペクトルについて適応度の中間値を推定するようにさらに構成される。

次いで、予測モジュール５６は、部分的最小二乗回帰（ＰＬＳＲとも呼ばれる）など、上記中間適応度値に対する回帰を用いて適応度の予測値を計算するようにさらに構成される。

代替として、予測モジュール５６は、人工ニューラルネットワーク（ＡＮＮ）を使用して適応度の予測値を計算するように構成され、入力変数は上記中間適応度値であり、出力変数は適応度の予測値である。

追加として、任意選択的に、予測モジュール５６は、適応度としてエナンチオ選択性を用いた図１５を参照して以下に述べるように、変異体ライブラリのスクリーニングを得ることを可能にする。

追加として、任意選択的に、スクリーニングモジュール５８は、計算されたタンパク質スペクトルに従ってタンパク質を解析し、要因判別解析又は主成分解析とそれに続く例えばｋ平均などの数学的処理とを使用して、タンパク質配列をそれらのそれぞれのタンパク質スペクトルに従って分類するように適合される。分類は、例えば、タンパク質スペクトルのファミリー内に異なる群が存在するかどうかを識別するために行うことができる。例えば、高い、中程度の、及び低い適応度を有する群；適応度の表現を有する群と適応度の表現を有さない群である。以下で、図１６を参照してこのスクリーニングをさらに例示する。

次に、本発明による電子予測システム２０の動作を、タンパク質の少なくとも１つの適応度値を予測するための方法のフローチャートを表す図２を参照して述べる。

最初のステップ１００で、符号化モジュール５０は、タンパク質のアミノ酸配列をタンパク質データベース５１による数値配列に符号化する。

符号化ステップ１００は、アミノ酸インデックスデータベース（ＡＡＩｎｄｅｘとも呼ばれる）を使用して行ってよい。

符号化ステップ１００において、符号化モジュール５０は、各アミノ酸について、例えば所与のＡＡｉｎｄｅｘコードにおける所与のインデックスでの当該アミノ酸に関する特性値を決定し、次いで、当該特性値に等しい符号化された値ｘ_ｋを発出する。

追加として、タンパク質データベース５１が任意選択的に特性値の幾つかのインデックスを含むとき、符号化モジュール５０は、さらに、試料タンパク質に関する測定適応度値と、各インデックスに従って当該試料タンパク質について以前に得られた予測適応度値との比較に基づいて最良のインデックスを選択し、当該選択されたインデックスを使用してアミノ酸配列を符号化する。

最良のインデックスは、例えば、式（１）又は式（２）を使用して選択される。

追加として、符号化モジュール５０は、任意選択的に、例えば式（３）に従って数値配列の各値ｘ_ｋから数値配列値の平均

を引くことにより、得られた数値配列を正規化する。

追加として、符号化モジュール５０は、任意選択的に、上記数値配列の一端にＭ個のゼロを加えることにより、得られた数値配列に対してゼロパディングを行う。

符号化ステップ１００の最後に、符号化モジュール５０は、学習数値配列及び検証数値配列を計算モジュール５２に送達し、学習データをモデリングモジュール５４に送達する。

２つのタンパク質スペクトルの一例が図３に示されている。第１の曲線１０２は、天然型のヒトＧＬＰ１タンパク質に関するタンパク質スペクトルを表しており、第２の曲線１０４は、変異型（単一変異）のヒトＧＬＰ１タンパク質に関するタンパク質スペクトルを表している。各曲線１０２、１０４について、タンパク質スペクトルの連続する離散値が互いにつながれている。

次のステップ１１０において、計算モジュール５２は、符号化モジュール５０から発出された各数値配列について、タンパク質スペクトル｜ｆ_ｊ｜を計算する。学習数値配列に対応するタンパク質スペクトルは学習スペクトルとも呼ばれ、検証数値配列に対応するタンパク質スペクトルは検証スペクトルとも呼ばれる。ステップ１１０はスペクトル変換ステップとも呼ばれる。タンパク質スペクトル｜ｆ_ｊ｜は、好ましくは、任意選択的な正規化及び／又はゼロパディングに応じて、例えば式（５）〜（８）のうちの１つの式に従って、高速フーリエ変換などのフーリエ変換を使用することによって計算される。

次いで、モデリングモジュール５４は、ステップ１２０において、符号化ステップ１００中に得られた学習データ及びスペクトル変換ステップ１１０中に得られた学習タンパク質スペクトルに従って、タンパク質スペクトルデータベース５５を決定する。

ステップ１３０において、各適応度について、予測モジュール５６は、計算されたタンパク質スペクトルを、タンパク質スペクトルデータベース５５から発出されたタンパク質スペクトル値と比較し、当該比較に従って適応度値を予測する。

より正確には、予測モジュール５６は、タンパク質スペクトルデータベース５５内で、所定の基準に従って、計算されたタンパク質スペクトルに最も近いタンパク質スペクトル値を決定する。この場合、予測適応度値は、タンパク質スペクトルデータベース５５内の決定されたタンパク質スペクトル値に関連付けられる適応度値に等しい。

任意選択的に、計算されたタンパク質スペクトル｜ｆ_ｊ｜と上記タンパク質スペクトル値との比較のために、周波数値の幾つかのみが考慮に入れられる。

追加として、予測モジュール５６は、幾つかの周波数範囲に従って上記タンパク質について幾つかのタンパク質スペクトルが任意選択的に計算されるとき、各タンパク質スペクトルについて中間適応度値を推定する。次いで、予測モジュール５６は、ＰＬＳＲなど、当該中間適応度値に対する回帰を用いて予測適応度値を計算する。代替として、予測モジュール５６により、当該中間適応度値に基づいて適応度の予測値を計算するために、人工ニューラルネットワーク（ＡＮＮ）が使用される。次いで、予測モジュール５６は、予測適応度についてタンパク質スペクトルをランク付けすることによって、タンパク質スクリーニングを可能にする。

最後に、任意選択的に、スクリーニングモジュール５８は、ステップ１４０で、要因判別解析又は主成分解析などの数学的処理を使用して、タンパク質配列をそれらの各タンパク質スペクトルに従って解析して分類する。

代替として、変異体ライブラリをスクリーニングするための解析は、例えば所定の値との比較を使用することにより、計算されたタンパク質スペクトルに対して直接行われる。

したがって、変異体ライブラリのより良好なスクリーニングを得ることが可能になる。このステップは、多変量解析ステップとも呼ばれる。

解析ステップ１４０は、スペクトル変換ステップ１２０の直後に続き、追加として、予測ステップ１３０が、分類されたタンパク質の幾つか又は全てに関する適応度値を予測するために解析ステップ１４０後に行われ得ることに留意されたい。

潜在成分が元の変数の線形結合として計算される。潜在成分の数は、ＲＭＳＥ（二乗平均平方根誤差）を最小にするように選択される。潜在成分は、元の変数（周波数値）の線形結合として計算される。潜在成分の数は、成分を１つずつ追加することによって、ＲＭＳＥ（二乗平均平方根誤差）を最小にするように選択される。
［実施例］

以下の実施例を参照して本発明をさらに例示する。

実施例１：シトクロムＰ４５０（図４〜図６）
この実施例では、シトクロムＰ４５０のアミノ酸配列を、以下のＡＡｉｎｄｅｘコードを使用して数値配列に符号化した：Ｄ伸長構造の正規化周波数（ＭａｘｆｉｅｌｄａｎｄＳｃｈｅｒａｇａ，Ｂｉｏｃｈｅｍｉｓｔｒｙ．１９７６；１５（２３）：５１３８−５３）。

最初のデータセット（Ｌｉｅｔａｌ．，２００７：ＮａｔＢｉｏｔｅｃｈｎｏｌ２５（９）：１０５１−１０５６．；Ｒｏｍｅｒｏｅｔａｌ．，ＰＮＡＳ．２０１３：Ｊａｎｕａｒｙ１５，ｖｏｌ１１０，ｎ°３：Ｅ１９３−Ｅ２０１からのもの）は、シトクロムＰ４５０ファミリー、特にシトクロムＰ４５０ＢＭ３Ａ１、Ａ２、及びＡ３に関する配列／安定性−機能関係に関する研究からのものであり、この研究は、シトクロムの熱安定性を改良することを狙いとする。ヘム含有酸化還元酵素の多様なシトクロムＰ４５０ファミリーは、様々な基質をヒドロキシル化して、医学的及び工業的に重要性の高い産物を生成する。これら３つの異なる親の任意のものから継承された８つの連続する断片を有する新規のキメラタンパク質が生成された。測定される活性は、１０分間のインキュベーション時間後にタンパク質の５０％が不可逆的に変性される温度として定義されるＴ５０である。得られたデータセットは、３９．２〜６４．４８℃の範囲のＴ５０実験値を有する２４２個の多様体配列で構成される。ＣＹＰ１０２Ａ１、並びにその同族体ＣＹＰ１０２Ａ２（Ａ２）及びＣＹＰ１０２Ａ３（Ａ３）のヘムドメインの組換えは、それぞれ３つの親の１つから選択される８つの断片からなる２４２個のキメラＰ４５０配列の作成を可能にする。キメラは、断片構成に従って書き表される。例えば、２３１２１３２１は、親Ａ２からの最初の断片、Ａ３からの第２の断片、Ａ１からの第３の断片などを継承するタンパク質を表す。

図４は、一個抜き交差検証（ＬＯＯＣＶ）Ｒ２＝０．９６及びＲＭＳＥ＝１．２１を使用して、タンパク質配列の全集合に対するモデリングを行った後に得られた結果を示す。これは、そのような方法を使用してタンパク質の適応度に関する情報を捕捉し得ることを実証する。

図５及び図６は、モデルがシトクロムＰ４５０に関する変異の組合せを予測し得ることを示す。ここでは、データセットを、学習配列としての１９６個の配列と検証配列としての４６個の配列とに分割した。

実施例２：ヒトグルカゴン様ペプチド−１（ＧＬＰ１）予測類似体（図７及び図８）
この実施例では、ＧＬＰ１のアミノ酸配列を、以下のＡＡｉｎｄｅｘコードを使用して数値配列に符号化した：Ｄ電子−イオン相互作用ポテンシャル値（Ｃｏｓｉｃ，ＩＥＥＥＴｒａｎｓＢｉｏｍｅｄＥｎｇ．１９９４Ｄｅｃ；４１（１２）：１１０１−１４）。

タスポグルチド及びエクセンディン−４は、グルカゴン様ペプチド（ＧＬＰ）受容体のペプチドアゴニストとして作用し、ＩＩ型糖尿病の治療のために臨床開発中（タスポグルチド）のＧＬＰ１類似体である。

天然のヒトＧＬＰ１及びタスポグルチドに対する結合親和性（受容体との相互作用）を改良し、及び／又は効力（受容体の活性化−アデニリルシクラーゼ活性）を改良するＧＬＰ１受容体の候補アゴニストを提供するために、本発明の方法を実施した。

ヒトＧＬＰ１の配列から始めて、単一点部位飽和変異誘発を行うことによって変異体のライブラリをインシリコで設計した。アミノ酸配列のあらゆる位置が１９個の他の天然アミノ酸で置換される。したがって、タンパク質配列がｎ＝３０個のアミノ酸から構成されている場合、生成されるライブラリは、３０×１９＝５７０個の単一点多様体を含むことになる。単一点変異の複合を行った。

ＡｄｅｌｈｏｒｓｔＫｅｔａｌ．（ＪＢｉｏｌＣｈｅｍ．１９９４Ｍａｒ４；２６９（９）：６２７５−８）は、ＧＬＰ−１受容体との相互作用に必要な側鎖官能基を同定するために、Ａｌａスキャニングにより、すなわち各アミノ酸をＬ−アラニンで連続的に置換することにより形成されたＧＬＰ−１の一連の類似体を既に述べている。Ｌ−アラニンが親アミノ酸である場合、グルカゴンでの対応する位置に見出されるアミノ酸で置換が行われた。これらの類似体をラットＧＬＰ−１受容体に対する結合アッセイ（ＩＣ５０）でアッセイし、効力（アデニル酸シクラーゼ活性の検出によって測定された受容体活性化、ＥＣ５０）をさらに監視した。これらの類似体（３０個の単一変異体）及びそれらの報告された活性（それぞれ野生型ヒトＧＬＰ１のＩＣ５０又はＥＣ５０と比較して正規化されたＬｏｇ（ＩＣ５０）及びＬｏｇ（ＥＣ５０））を、予測モデルを構築するための学習データセットとして使用した（図７及び図８を参照されたい）。

それらの活性は、結合親和性について−０．６２〜２．５５（ｌｏｇＩＣ５０）の範囲であり、効力について−０．３０〜４．００（ｌｏｇＥＣ５０）の範囲であった。

結果は、Ｒ２及びＲＭＳＥがそれぞれ結合親和性（図７）について０．９３及び０．１９であり、効力（図８）について０．９４及び０．２８であることを示し、したがって、２つの適応度に関する情報を非常に効率的に捕捉し得ることを示している。

ヒトＧＬＰ１、タスポグルチド、及び（予測モデルに基づく）最良のインシリコ類似体に関して評価された結合及び効力は、表７に示す通りであった。

ＧＬＰ１のペプチド配位子類似体とその受容体との結合親和性について、１３５倍の改良が実現される。１２４倍の効力の改良が得られる。

これは、２つ以上のパラメータを同時に改良するために本発明の方法を使用し得ることを示している。

実施例３：エポキシドヒドロラーゼのエナンチオ選択性の推移（図１４及び図１５）
この実施例では、エポキシドヒドロラーゼのアミノ酸配列を、以下のＡＡｉｎｄｅｘコードを使用して数値配列に符号化した：Ｄ全タンパク質のＡＡ組成のＳＤ（Ｎａｋａｓｈｉｍａｅｔａｌ．，Ｐｒｏｔｅｉｎｓ．１９９０；８（２）：１７３−８）。

エナンチオ選択性は、化学反応において、ある立体異性体を別の立体異性体よりも優先して形成することである。エナンチオ選択性は、多くの工業的に重要性の高い化学物質の合成に重要であり、実現は困難である。グリーンケミストリは、酵素が高い特異性を有するときに組換え酵素を利用して対象の化学的産物を合成する。したがって、グリーンケミストリにおいて、効率が改良された酵素が特に求められている。

Ｒｅｅｔｚ，ｅｔａｌ．（Ａｎｇ２００６Ｆｅｂ１３；４５（８）：１２３６−４１）は、ジオール（Ｒ）−及び（Ｓ）−２の生成を伴うグリシジルエーテル１の加水分解速度論的分割における触媒としてのアスペルギルスニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）からのエポキシドヒドロラーゼのエナンチオ選択性変異体の指向性進化を述べている。

このモデルは、Ｒｅｅｔｚｅｔａｌ．（上記）で述べられている１０個の学習配列の組で構築した。

ウェットラボで産生された３２個の変異体に関する結果を、本出願人らの手法を用いて予測されたものと比較した。定量値が図１４の右側に示されており、実験値と予測値との両方を表している。得られた予測値は実験値に非常に近く、平均バイアスは−０．０１１ｋｃａｌ／ｍｏｌであった。これは、少数の学習配列及び学習データでさえ、改良されたパラメータを有する良好な変異体を得ることができることを実証する。

図１５では、５１２個の変異体のライブラリを構築してスクリーニングした。ウェットラボで同定された最良の変異体は、実際には、良好なもの（矢印１５０）に見えるが最良ではない。最良のものは、図１５の楕円１６０によって識別される。野生型タンパク質は矢印１７０によって示されている。

実施例４：エンテロトキシンＳＥＡ及びＳＥＥの熱安定性（Ｔｍ）の予測（図９及び図１０）
この実施例では、エンテロトキシンのアミノ酸配列を、以下のＡＡｉｎｄｅｘコードを使用して数値配列に符号化した：ＤｐＫ−Ｃ（Ｆａｓｍａｎ，１９７６）。

第４のデータセット（ＣａｖａｌｌｉｎＡ．ｅｔａｌ．，２０００：ＢｉｏｌＣｈｅｍ．Ｊａｎ２１；２７５（３）：１６６５−７２からのもの）がエンテロトキシンＳＥＥ及びＳＥＡの熱安定性に関係付けられる。ブドウ球菌エンテロトキシン（ＳＥ）などのスーパー抗原（ＳＡｇ）は、食中毒又は毒素性ショックを引き起こすことが知られている非常に強力なＴ細胞活性化タンパク質である。これらのエンテロトキシンによって誘発される強い細胞毒性は、それらを腫瘍反応性抗体に融合することにより、癌療法のために探索されている。Ｔｍは、変性温度ＥＣ５０値として定義され、１２個のタンパク質配列（ＷＴＳＡＥ＋ＷＴＳＥＥ＋単一の１個〜複数の２１個の変異を含む１０個の変異体）から構成されるデータセットについて５５．１〜７３．３℃の範囲である。

本出願人らの予測を、ウェットラボ結果（ＣａｖａｌｌｉｎＡ．２０００）と比較した。ここでもまた、小さい学習配列（８つの学習配列）及び学習データを使用して、熱安定性に関連する情報を捕捉し、新規の変異体についてこのパラメータを予測することができた。

図１０に対応する検証セットのタンパク質配列（４つのタンパク質配列）のうちの２つの配列は、図９に対応する訓練セットでサンプリングされなかった位置に変異を含んでいたことに留意されたい（７つの新規の変異を有する１つの配列と、２つの変異にわたる１つの新規の変異を有する１つの配列）。したがって、これらの結果は、訓練セットでサンプリングされていない変異の位置を含む新規の変異体を同定することが可能であることを裏付けている。

結果は、Ｒ２及びＲＭＳＥがそれぞれ訓練セット（図９）について０．９７及び１．１６であり、検証セット（図１０）について０．９６及び１．４６であることを示している。したがって、この場合に、熱安定性に関する情報を効率的に予測し得ることを示している。

実施例５：受容体選択性が変化した変異体ＴＮＦ（図１１及び図１２）
この実施例では、ＴＮＦのアミノ酸配列を、以下のＡＡｉｎｄｅｘコードを使用して数値配列に符号化した：ＤＩＦＨスケールからの重量（ＪａｃｏｂｓａｎｄＷｈｉｔｅ，Ｂｉｏｃｈｅｍｉｓｔｒｙ．１９８９；２８（８）：３４２１−３７）。

腫瘍壊死因子（ＴＮＦ）は、発癌を抑制し、感染性病原体を排除してホメオスタシスを維持する重要なサイトカインである。ＴＮＦは、その２つの受容体であるＴＮＦ受容体ＴＮＦＲ１及びＴＮＦＲ２を活性化する。

ＭｕｋａｉＹｅｔａｌ．（ＪＭｏｌＢｉｏｌ．２００９Ｊａｎ３０；３８５（４）：１２２１−９）は、１つのＴＮＦＲのみを活性化する受容体選択性ＴＮＦ変異体を生成した。

Ｍｕｋａｉｅｔａｌ．（上記）によって開示された２１個の変異体の受容体選択性が、変異体（ＷＴ＋単一の１個〜複数の６個の変異を含む２０個の変異体）のデータと、学習データセットとしてその論文に開示されているデータとを使用して予測された。

ＭｕｋａｉＹらによる論文で述べられているように、ＥＬＩＳＡ測定に基づいて、ＴＮＦＲ１（Ｒ１）及びＴＮＦＲ２（Ｒ２）に対するＴＮＦの競合的結合を予測した。Ｒ１とＲ２とに関する相対親和性（％Ｋｄ）を使用してｌｏｇＲ１／Ｒ２比を計算した。相対親和性ｌｏｇ_１０（Ｒ１／Ｒ２）は、０〜２．８７の範囲である。

第１のステップでは、この方法をデータセット全体に適用した。Ｒ２及びＲＭＳＥは、ＴＮＦの結合親和性についてそれぞれ０．９７及び０．１１である。これは、ここでもまた、この方法が適応度に連動した情報も捕捉し得ることを実証する。

第２のステップでは、１７個の変異体を学習配列として使用し、４個を検証配列として使用した。

結果は、Ｒ２及びＲＭＳＥがそれぞれ訓練セット（図１１）について０．９３及び０．２１であり、検証セット（図１２）について０．９９及び０．１７であることを示している。したがって、この方法を使用して、ＴＮＦ変異体が受容体の一方のタイプに優先的に結合する能力（比Ｒ１／Ｒ２）をモデル化することが可能であることを示している。

上の全ての実施例１〜５において、予測を行うためにタンパク質スペクトル全体を使用した。以下の実施例６では、本発明者らは、本発明による方法がタンパク質スペクトルの一部のみを使用して非常に効率的に機能することを実証する。

実施例６：タンパク質スペクトルからの周波数値の選択を使用したシトクロムＰ４５０の熱安定性の予測（図１３）
この実施例では、シトクロムＰ４５０のアミノ酸配列を、以下のＡＡｉｎｄｅｘコードを使用して数値配列に符号化した：Ｄ伸長構造の正規化周波数（ＭａｘｆｉｅｌｄａｎｄＳｃｈｅｒａｇａ，Ｂｉｏｃｈｅｍｉｓｔｒｙ．１９７６；１５（２３）：５１３８−５３）。

ここでは、予測を行うために、タンパク質スペクトルからの最も重要性の高い周波数の選択を使用した。周波数値は、適応度とのそれらの相関に従ってソートされ、最良の周波数値のみが考慮に入れられる。

データセットは実施例１と同じである。

結果は、Ｒ２とＲＭＳＥがそれぞれ０．９１及び１．７５であることを示しており、それにより、タンパク質スペクトルからの周波数の一部（選択）のみを用いて適応度、ここでは熱安定性をやはり効率的に予測できることを示している。

これは、タンパク質スペクトル全体又はタンパク質スペクトルからの周波数の一部（選択）を使用して、本発明の方法を使用し得ることを示す。

実施例７：タンパク質スクリーニングのための多変量解析を使用したタンパク質スペクトルの分類（図１６）
低い値及び高い値の適応度（エナンチオ選択性）を有する１０個のタンパク質スペクトルを含むエポキシドヒドロラーゼのサブセット（実施例３と同様）を使用した。ＰＣＡ（主成分解析）を行った。低い値及び高い値の適応度は、それぞれ小さい楕円形１８０内及び大きい楕円形１９０内にあり、したがって、タンパク質スペクトルに適用された多変量解析がタンパク質スクリーニングに役立つことを示している。

軸Ｘ、Ｙ、及びＺは、ＰＣＡから生じた３つの主成分であり、タンパク質スペクトルの集合に関係付けられる全体の情報の５８．２８％を考慮に入れる（それぞれ軸Ｘ、Ｙ、及びＺの慣性（inertia）に関して２１．５１％、１９．７２％、１６．０５％）。

したがって、前述の実施例で得られた幾つかの適応度の予測値と測定値との間のＲ２及びＲＭＳＥは、本発明による予測システム２０及び方法が異なるタンパク質の異なる適応度値の効率的な予測を可能にすることを示している。

追加として、本発明による方法は、モデルを構築するための学習配列セットで使用されたものとは別の位置に変異又は変異の組合せを有する新規の配列（検証／試験配列）を試験することを可能にする。

この方法はまた、学習配列セットで使用された変異の位置の数と比べて異なる数の変異の位置を有する新規の配列（検証／試験配列）を試験することも可能にする。

この方法はまた、訓練セットでサンプリングされていない変異の位置を含む新規の配列を試験することも可能にする。そのような場合におけるこの方法の実施の例としてエンテロトキシンが挙げられる。

さらに、この方法はまた、モデルを構築するために使用される学習配列セットの長さと比べて、アミノ酸の数に関して異なる長さを有する新規の配列（検証／試験配列）を試験することも可能にする。

この方法は、同一の学習配列と、１つ又は異なる符号化ＡＡｉｎｄｅｘ及び学習データとしての異なる適応度／活性値とを使用して、学習配列又は検証配列に関する適応度（検証／試験データ）を予測することを可能にする。すなわち、この新規の手法を使用して、タンパク質配列に関する２つ以上の活性／適応度を予測することができる。本明細書では、例としてＧＬＰ１を使用する。一例として、同じＡＡｉｎｄｅｘを使用したＧＬＰ１受容体に対する結合親和性の予測と効力の予測とが行われる。

この方法により、非常に小さい学習配列及び学習データを使用して、非常に良い予測を実現し、適応度が改良された変異体を得ることが可能である。わずか１０個のタンパク質配列を使用したエポキシドヒドロラーゼが一例として与えられる。

この方法は、単一点変異又は単一点変異の組合せを有するタンパク質配列ではなく、キメラタンパク質を使用することをさらに可能にする。本明細書では、シトクロムＰ４５０が一例として与えられている。異なるＰ４５０の断片の組合せが使用される。

本発明は、アミノ酸配列中の異なる位置にある異なるＡＡ酸の相互作用の影響を考慮に入れることを可能にする。図３は、単一点変異があらゆる周波数でタンパク質スペクトル全体に影響を及ぼすことを示している。

追加として、この方法は、学習配列に関して５０個のタンパク質配列及び検証配列に関して２０個のタンパク質配列を使用する一方、適応度を予測するために符号化ステップ後に１０分以下のみを必要とするため、非常に効率が良い。

追加として、タンパク質の「適応度」は、タンパク質発現レベル又はｍＲＮＡ発現レベルなどの基準へのそのタンパク質の適応をさらに表す。

したがって、タンパク質の「適応度」とは、触媒効率、触媒活性、速度定数、Ｋｍ、Ｋｅｑ、結合親和性、熱安定性、溶解度、凝集、効力、毒性、アレルギー性、免疫原性、熱力学的安定性、柔軟性、タンパク質発現レベル、及びｍＲＮＡ発現レベルなどの基準へのそのタンパク質の適合を表す。上述したように、「適応度」は「活性」とも呼ばれ、以下の説明では、適応度及び活性が同じ特徴を表すものとみなす。

タンパク質発現レベル又はｍＲＮＡ発現レベルなどの適応度について、以下の実施例を参照してさらに例示する。

実施例８：ブルトン型チロシンキナーゼ多様体に関するタンパク質発現レベルの予測（図１７）
この実施例において、ブルトン型チロシンキナーゼ（ＢＴＫ）は、Ｂ細胞の発達及び成熟に関与する重要なタンパク質である。実際、ＢＴＫは、成熟したＢ細胞による抗体産生を誘発し、感染の除去を促進する。また、このタンパク質の機能不全は、Ｘ連鎖無ガンマグロブリン血症又はブルトン型無ガンマグロブリン血症（Ｂ細胞が成熟しない）などの疾患を引き起こし得る。

この実施例では、以下の表１５に示されるように、１８個のタンパク質多様体（ＦｕｔａｔａｎｉＴ．ｅｔａｌ．１９９８，＜＜ＤｅｆｉｃｉｅｎｔｅｘｐｒｅｓｓｉｏｎｏｆＢｒｕｔｏｎ’ｓｔｙｒｏｓｉｎｅｋｉｎａｓｅｉｎｍｏｎｏｃｙｔｅｓｆｒｏｍＸ−ｌｉｎｋｅｄａｇａｍｍａｇｌｏｂｕｌｉｎｅｍｉａａｓｅｖａｌｕａｔｅｄｂｙａｆｌｏｗｃｙｔｏｍｅｔｒｉｃａｎａｌｙｓｉｓａｎｄｉｔｓｃｌｉｎｉｃａｌａｐｐｌｉｃａｔｉｏｎｔｏｃａｒｒｉｅｒｄｅｔｅｃｔｉｏｎ．＞＞，Ｂｌｏｏｄ．１９９８Ｊａｎ１５；９１（２）：５９５−６０２；ＫａｎｅｇａｎｅＨ．ｅｔａｌ．２０００，＜＜ＤｅｔｅｃｔｉｏｎｏｆＢｒｕｔｏｎ’ｓｔｙｒｏｓｉｎｅｋｉｎａｓｅｍｕｔａｔｉｏｎｓｉｎｈｙｐｏｇａｍｍａｇｌｏｂｕｌｉｎａｅｍｉｃｍａｌｅｓｒｅｇｉｓｔｅｒｅｄａｓｃｏｍｍｏｎｖａｒｉａｂｌｅｉｍｍｕｎｏｄｅｆｉｃｉｅｎｃｙ（ＣＶＩＤ）ｉｎｔｈｅＪａｐａｎｅｓｅＩｍｍｕｎｏｄｅｆｉｃｉｅｎｃｙＲｅｇｉｓｔｒｙ＞＞，ＣｌｉｎＥｘｐＩｍｍｕｎｏｌ．２０００Ｊｕｎ；１２０（３）：５１２−７）及び野生型ＢＴＫを使用した。

図１７において、測定された活性は、ＢＴＫのタンパク質発現レベルに関するインビトロ測定値に対応し、予測された活性は、ＢＴＫのタンパク質発現レベルに関する本発明による方法によって予測された値に対応する。

値は、タンパク質発現レベルのパーセンテージで与えられており、１００％が野生型のタンパク質発現レベルに対応する。

モデルを構築し、タンパク質発現値を予測するために、一個抜き交差検証（ＬＯＯＣＶ）を使用した。結果は、Ｒ２及びＲＭＳＥがそれぞれ０．９８及び１．５であることを示している。それにより、適応度、ここではタンパク質発現レベルも効率的に予測し得ることを示している。タンパク質配列を、最適化された相対分配エネルギー − 方法Ｂ（Ｍｉｙａｚａｗａ−Ｊｅｒｎｉｇａｎ，１９９９Ｓｅｌｆ−ｃｏｎｓｉｓｔｅｎｔｅｓｔｉｍａｔｉｏｎｏｆｉｎｔｅｒ−ｒｅｓｉｄｕｅｐｒｏｔｅｉｎｃｏｎｔａｃｔｅｎｅｒｇｉｅｓｂａｓｅｄｏｎａｎｅｑｕｉｌｉｂｒｉｕｍｍｉｘｔｕｒｅａｐｐｒｏｘｉｍａｔｉｏｎｏｆｒｅｓｉｄｕｅｓ．Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔｕｒｅ，Ｆｕｎｃｔｉｏｎ，ａｎｄＢｉｏｉｎｆｏｒｍａｔｉｃｓ，３４（１），４９−６８）を使用して符号化した。

ＥＭＢＬ−ＥＢＩからのＥｘｐｒｅｓｓｉｏｎＡｔｌａｓ（ｈｔｔｐ：／／ｗｗｗ．ｅｂｉ．ａｃ．ｕｋ／ｇｘａ）は、異なる細胞型、有機体の部分、発達段階、疾患、及び他の条件の動物及び植物試料における遺伝子及びタンパク質発現レベルに関する情報を提供する。当業者は、「正常」条件（例えば組織や細胞型）においてどの遺伝子産物がどの程度の量だけ存在するかに関する情報について、Ｐｅｔｒｙｓｚａｋｅｔａｌ．，２０１６＜＜ＥｘｐｒｅｓｓｉｏｎＡｔｌａｓｕｐｄａｔｅ−ａｎｉｎｔｅｇｒａｔｅｄｄａｔａｂａｓｅｏｆｇｅｎｅａｎｄｐｒｏｔｅｉｎｅｘｐｒｅｓｓｉｏｎｉｎｈｕｍａｎｓ，ａｎｉｍａｌｓａｎｄｐｌａｎｔｓ．＞＞，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．（０４Ｊａｎｕａｒｙ２０１６）４４（Ｄ１）：Ｄ７４６−Ｄ７５２．ｄｏｉ：１０．１０９３／ｎａｒ／ｇｋｖ１０４５を参照するであろう。

実施例９：Ｋ５６２細胞株におけるｍＲＮＡ発現レベルの予測（図１８）
また、本発明による方法は、Ｋ５６２細胞株でのｍＲＮＡ発現レベル値を予測するように適合される（ＦｏｎｓｅｃａＮＡｅｔａｌ．２０１４ＲＮＡ−ＳｅｑＧｅｎｅＰｒｏｆｉｌｉｎｇ−ＡＳｙｓｔｅｍａｔｉｃＥｍｐｉｒｉｃａｌＣｏｍｐａｒｉｓｏｎ．ＰＬｏＳＯＮＥ９（９）：ｅ１０７０２６．ｄｏｉ：１０．１３７１／ｊｏｕｒｎａｌ．ｐｏｎｅ．０１０７０２６）。ＲＮＡ配列とタンパク質配列との間に共直線性があることから、モデルを構築するために、各遺伝子に関連付けられるタンパク質配列を使用した。タンパク質は、ＲＮＡ配列及び長さを反映するアミノ酸組成及び長さによって異なる。以下の表１６に、９７個のＲＮＡについてデータセット（配列及びタンパク質発現レベル）を提供する。

図１８は、一個抜き交差検証（Ｒ２：０．８１、ＲＭＳＥ：１０．３）を使用して得られた結果を示しており、それにより、本発明による方法が、ＲＮＡに関連付けられるタンパク質配列によってｍＲＮＡ発現レベルを予測するようにも適合されることを示している。

タンパク質配列を、２状態モデル（２５％のアクセス可能性）での自己情報値に基づいたハイドロパシースケールを使用して符号化した（Ｎａｄｅｒｉ−Ｍａｎｅｓｈｅｔａｌ．，２００１Ｐｒｅｄｉｃｔｉｏｎｏｆｐｒｏｔｅｉｎｓｕｒｆａｃｅａｃｃｅｓｓｉｂｉｌｉｔｙｗｉｔｈｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｙ．Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔｕｒｅ，Ｆｕｎｃｔｉｏｎ，ａｎｄＢｉｏｉｎｆｏｒｍａｔｉｃｓ，４２（４），４５２−４５９）。

実施例１０：心臓細胞における異なるタンパク質のタンパク質発現レベルの予測（図１９）
本発明による方法を、心臓細胞における異なるタンパク質のタンパク質発現レベル値を予測するためにも使用した。タンパク質は、アミノ酸組成及び長さによって異なる。以下の表１７に、８５個のタンパク質についてデータセット（配列及びタンパク質発現レベル）が提供される。

図１９は、一個抜き交差検証（ＬＯＯＣＶ、Ｒ２：０．８７、ＲＭＳＥ：２０．２２）を使用して得られた結果を示している。図１９では、値に１００００を乗じた。したがって、本発明による方法は、心臓細胞における異なるタンパク質のタンパク質発現レベル値を予測するようにも適合される。

タンパク質配列を、露出残基のパーセンテージを使用して符号化した（Ｊａｎｉｎｅｔａｌ．，１９７８Ｃｏｎｆｏｒｍａｔｉｏｎｏｆａｍｉｎｏａｃｉｄｓｉｄｅ−ｃｈａｉｎｓｉｎｐｒｏｔｅｉｎｓ．Ｊｏｕｒｎａｌｏｆｍｏｌｅｃｕｌａｒｂｉｏｌｏｇｙ，１２５（３），３５７−３８６）。

実施例１１：腎臓細胞における異なるタンパク質のタンパク質発現レベルの予測（図２０）
この実施例ではまた、本発明による方法を、腎臓細胞における異なるタンパク質のタンパク質発現レベル値を予測するために使用した。タンパク質は、アミノ酸組成及び長さによって異なる。以下の表１８に、データセット（配列及びタンパク質発現レベル）を提供する。

図２０は、１３０個のタンパク質配列に関して、一個抜き交差検証（ＬＯＯＣＶ、Ｒ２：０．８３、ＲＭＳＥ：１．７５）を使用して得られた結果を示している。したがって、本発明による方法は、特に腎臓細胞における異なるタンパク質に関してタンパク質発現レベル値を予測するようにも適合される。

タンパク質配列を、Ｍｉｄでの相対嗜好値を使用して符号化した（Ｒｉｃｈａｒｄｓｏｎ−Ｒｉｃｈａｒｄｓｏｎ，１９８８Ａｍｉｎｏａｃｉｄｐｒｅｆｅｒｅｎｃｅｓｆｏｒｓｐｅｃｉｆｉｃｌｏｃａｔｉｏｎｓａｔｔｈｅｅｎｄｓｏｆａｌｐｈａｈｅｌｉｃｅｓ．Ｓｃｉｅｎｃｅ，２４０（４８５９），１６４８−１６５２）。

したがって、上記の実施例で得られたタンパク質発現レベル又はｍＲＮＡ発現レベルなどの幾つかの適応度の予測値と測定値との間のＲ２及びＲＭＳＥは、本発明による予測システム２０及び方法が、タンパク質発現レベル及びｍＲＮＡ発現レベルについても異なるタンパク質又はタンパク質多様体の異なる適応度値の効率的な予測を可能にすることを示している。

Claims

タンパク質の少なくとも１つの適応度値を予測するための方法であって、コンピュータ上で実施され、以下のステップ：
− 前記タンパク質のアミノ酸配列をタンパク質データベース（５１）による数値配列に符号化するステップ（１００）であって、該数値配列は前記アミノ酸配列の各アミノ酸の値を含む、ステップ（１００）と、
− 前記数値配列に従って、タンパク質スペクトルを計算するステップ（１１０）と、
− 各適応度について、前記計算されたタンパク質スペクトルを、前記適応度の異なる値に関するタンパク質スペクトル値を含む所定のデータベース（５５）のタンパク質スペクトル値と比較し、前記比較に従って、前記適応度の値を予測するステップ（１３０）と
を含み、
前記符号化するステップ（１００）において、前記タンパク質データベース（５１）は生化学的又は物理化学的な特性値の少なくとも１つのインデックスを含み、各特性値はそれぞれのアミノ酸について与えられ、各アミノ酸について、前記数値配列における値が所与のインデックスにおける前記アミノ酸に関する前記特性値に等しく、
前記計算するステップ（１００）において、フーリエ変換が前記符号化するステップによってさらに得られた前記数値配列に適用され、
前記予測するステップ（１３０）は、前記適応度の異なる値に関するタンパク質スペクトル値の前記所定のデータベース（５５）内で、所定の基準に従って、前記計算されたタンパク質スペクトルに最も近い前記タンパク質スペクトル値を決定し、予測する前記適応度の前記値は、前記データベース内において、前記決定されたタンパク質スペクトル値に関連付けられる前記適応度値に等しい、
タンパク質の少なくとも１つの適応度値を予測するための方法。
前記計算されたタンパク質スペクトルは、少なくとも１つの周波数値を含み、
前記計算されたタンパク質スペクトルは、各周波数値について前記タンパク質スペクトル値と比較される、請求項１に記載の方法。
各タンパク質スペクトルは以下の式：

を検証し、
ここで、ｊは前記タンパク質スペクトル｜ｆ_ｊ｜のインデックス番号であり、前記数値配列はｘ_ｋと表されるＮ個の値を含み、０≦ｋ≦Ｎ−１且つＮ≧１であり、ｉはｉ^２＝−１であるような虚数を定義する、請求項１又は２に記載の方法。
前記符号化ステップ（１００）において、前記タンパク質データベース（５１）は特性値の幾つかのインデックスを含み、
前記方法は、
− 各インデックスに従って、試料タンパク質に関する測定適応度値と、前記試料タンパク質について以前に得られた予測適応度値との比較に基づいて、最良のインデックスを選択するステップをさらに含み、
前記符号化ステップ（１００）は、前記選択されたインデックスを使用して行われる、請求項１〜３のいずれか一項に記載の方法。
前記選択ステップにおいて、前記選択されたインデックスは、最小の二乗平均平方根誤差を有するインデックスであり、
各インデックスの前記二乗平均平方根誤差は以下の式：

を検証し、
ここで、ｙ_ｉは第ｉの試料タンパク質の測定適応度であり、

は、第ｊのインデックスを有する前記第ｉの試料タンパク質の予測適応度であり、
Ｓは試料タンパク質の数である、請求項４に記載の方法。
前記選択ステップにおいて、前記選択されたインデックスは、１に最も近い決定係数を有するインデックスであり、
各インデックスの前記決定係数は以下の式：

を検証し、
ここで、ｙ_ｉは第ｉの試料タンパク質の測定適応度であり、

は、第ｊのインデックスを有する前記第ｉの試料タンパク質の予測適応度であり、
Ｓは試料タンパク質の数であり、

は、前記Ｓ個の試料タンパク質に関する前記測定適応度の平均であり、

は、前記Ｓ個の試料タンパク質に関する前記予測適応度の平均である、請求項４に記載の方法。
前記符号化ステップの後で且つ前記タンパク質スペクトル計算ステップの前に、以下のステップ：
− 前記数値配列の各値から前記数値配列値の平均を引くことにより、前記符号化ステップによって得られた前記数値配列を正規化するステップ
をさらに含み、
前記タンパク質スペクトル計算ステップは、前記正規化された数値配列に対して行われる、請求項１〜６のいずれか一項に記載の方法。
前記符号化ステップの後で且つ前記タンパク質スペクトル計算ステップの前に、以下のステップ：
− 前記数値配列の一端にＭ個のゼロを加えることにより、前記符号化ステップによって得られた前記数値配列をゼロパディングするステップであって、Ｍは（Ｎ−Ｐ）に等しく、ここで、Ｎが所定の整数であり、Ｐは前記数値配列における値の数である、ステップ
をさらに含み、
前記タンパク質スペクトル計算ステップは、前記ゼロパディングステップによってさらに得られた前記数値配列に対して行われる、請求項１〜７のいずれか一項に記載の方法。
前記タンパク質スペクトル計算ステップ（１１０）において、幾つかの周波数範囲に従って前記タンパク質について幾つかのタンパク質スペクトルが計算され、
前記予測ステップにおいて、前記比較ステップに従って各タンパク質スペクトルについて前記適応度の中間値が推定され、該中間適応度値を使用して前記適応度の前記予測値が計算される、請求項１〜８のいずれか一項に記載の方法。
− 変異体ライブラリのスクリーニングのために、前記計算されたタンパク質スペクトルに従って前記タンパク質を解析するステップ（１４０）
を含む、請求項１〜９のいずれか一項に記載の方法。
コンピュータによって実施されると、請求項１〜１０のいずれか一項に記載の方法を実施するソフトウェア命令を含む、コンピュータプログラム。
タンパク質の少なくとも１つの適応度値を予測するための電子予測システム（２０）であって、
− アミノ酸配列をタンパク質データベース（５１）による数値配列に符号化するように構成された符号化モジュール（５０）であって、該数値配列は前記アミノ酸配列の各アミノ酸の値を含む、符号化モジュール（５０）と、
− 前記数値配列に従って、タンパク質スペクトルを計算するように構成された計算モジュール（５２）と、
− 予測モジュール（５６）であって、各適応度について、
＋前記計算されたタンパク質スペクトルを所定のデータベースのタンパク質スペクトル値と比較することであって、前記データベースは前記適応度の異なる値に関するタンパク質スペクトル値を含む、比較することと、
＋前記比較に従って前記適応度の値を予測することと
を行うように構成された予測モジュール（５６）と
を含み、
前記符号化モジュール（５０）において、前記タンパク質データベース（５１）は生化学的又は物理化学的な特性値の少なくとも１つのインデックスを含み、各特性値はそれぞれのアミノ酸について与えられ、各アミノ酸について、前記数値配列における値が所与のインデックスにおける前記アミノ酸に関する前記特性値に等しく、
前記計算モジュール（５２）において、フーリエ変換が前記符号化モジュール（５０）によってさらに得られた前記数値配列に適用され、
前記予測モジュール（５６）は、
前記適応度の異なる値に関するタンパク質スペクトル値の前記所定のデータベース（５５）内で、所定の基準に従って、前記計算されたタンパク質スペクトルに最も近い前記タンパク質スペクトル値を決定し、
予測する前記適応度の前記値は、前記データベース内において、前記決定されたタンパク質スペクトル値に関連付けられる前記適応度値に等しい、
電子予測システム（２０）。