JP3964087B2

JP3964087B2 - 多重変異蛋白質アミノ酸配列の最適化解を算出する方法、装置、およびこの方法の処理を実行するプログラムを記憶する記憶媒体

Info

Publication number: JP3964087B2
Application number: JP36849899A
Authority: JP
Inventors: 壮一守川; 孝尚中井; 清人石井
Original assignee: Kaneka Corp
Current assignee: Kaneka Corp
Priority date: 1999-12-24
Filing date: 1999-12-24
Publication date: 2007-08-22
Anticipated expiration: 2019-12-24
Also published as: US20030236629A1; EP1241598A1; EP1241598A4; WO2001048640A1; JP2001184381A

Description

【０００１】
【発明の属する技術分野】
この発明は、産業上有用な多重変異蛋白質アミノ酸配列の最適化解を算出する方法、多重変異蛋白質アミノ酸配列の最適化解を算出する装置、および多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを載せた記憶媒体に関する。特に、産業上有用な酵素またはシグナル伝達蛋白質の熱安定性、化学安定性、基質化学選択性、基質立体選択性、至適ｐＨ値のいずれかまたはそれらの組み合わせを改変する方法および装置ならびにそのような方法を記述するプログラムを載せた記憶媒体に関する。
【０００２】
【従来の技術】
所望の構造および機能を有する蛋白質を自由に設計し、作製することは、分子生物学の主要な目的の一つである。従来、このような改変蛋白質の分子設計は、天然蛋白質のアミノ酸配列を、遺伝子改変または合成化学によって改変することによって、蛋白質の改変体を得、その蛋白質の改変体の生物学的機能（例えば、酵素活性）および物理化学的性質（例えば、熱安定性）などをもとの天然蛋白質と比較することによって分析することにより、行われてきている。
【０００３】
既知の蛋白質を雛形として所望の特性をもつ変異蛋白質を設計する情報科学的方法も開発されている。その中でも、蛋白質分子原子座標を直接取り扱う設計方法は特に設計の信頼性が高い。その代表例としては、解候補となるすべての多重変異蛋白質のアミノ酸配列について、それら各々の変異蛋白質分子原子座標を算出した上でそれら各々の変異蛋白質の特性を算出し、その結果をもって所望の特性を有する変異蛋白質を選択するという方法がある。
【０００４】
上記方法において、ある１つの解候補のみを考慮する場合、すなわちある１つの変異蛋白質分子の原子座標を高速に算出する方法としては、野生型蛋白質高次構造を雛形としてデッドエンド排除（ｄｅａｄｅｎｄｅｌｉｍｉｎａｔｉｏｎ）法またはデッドエンド排除アルゴリズムを用いた最適化方法を適用することにより、変異蛋白質分子原子座標を良い精度で算出する方法が知られている。
【０００５】
【発明が解決しようとする課題】
多重変異蛋白質の最適解を求める際に、解候補となるすべての多重変異蛋白質の原子座標を算出することは、解候補数が膨大な数となるため現実的には困難である。例えば、変異対象となる蛋白質のアミノ酸配列中の任意の１０残基について、それらアミノ酸各々をすべて２０種類の天然型アミノ酸に置換した解候補を考えた場合、それらアミノ酸配列の組み合わせは２０の１０乗（２０¹⁰）個という膨大な組み合わせ数となり、実用的な計算時間で多重変異蛋白質の原子座標および蛋白質特性を算出することは難しい。
【０００６】
上記した膨大な数となる解候補の一部分のみを考慮するだけであれば、実用的な計算時間で多重蛋白質の原子座標および蛋白質特性を算出することが可能である。しかしながら、解候補の一部分のみを無作為に抽出し、その一部分のみの中から最適解を選択したとしても、全体の解候補の最適解である保証はまったくない。
【０００７】
本発明の目的は、上記した課題を解決するために、計算精度を低下させることなく、かつ実用的な計算時間をもって多重変異蛋白質アミノ酸配列の最適化解を算出する方法、多重変異蛋白質アミノ酸配列の最適化解を算出する装置および多重変異蛋白質アミノ酸配列の最適化解を算出する方法を載せた記録媒体を提供することにある。
【０００８】
【課題を解決するための手段】
本発明の方法は、遺伝的アルゴリズム（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍ：以下、ＧＡともいう）による最適化方法を多重変異蛋白質のアミノ酸配列の最適化に適用し、得られた解候補である個々の多重変異蛋白質の立体構造原子座標の最適化に、デッドエンド排除（ｄｅａｄｅｎｄｅｌｉｍｉｎａｔｉｏｎ）（ＤＥＥ）アルゴリズムを方法適用することにより、上記目的が達成される。
【０００９】
１つの局面において、本発明は多重変異蛋白質アミノ酸配列の最適化解を算出する方法であって、多重変異蛋白質集団のメンバーに対して、雛形蛋白質集団の立体構造データに基づいて、上記メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを用いて探索すること、および上記メンバーの構造エネルギー極小化計算を実行することによって、最適な多重変異蛋白質の立体構造座標を算出するステップと、上記最適な多重変異蛋白質の立体構造座標から特性値を算出するステップと、上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、上記特性値を最適化するメンバーを算出するステップとを包含する、方法に関する。１つの実施態様において、上記最適な多重変異蛋白質の立体構造座標を算出するステップは、雛形蛋白質の立体構造型をおおむね保持する束縛条件下で行われ得る。
【００１０】
好ましく局面において、本発明は、多重変異蛋白質アミノ酸配列の最適化解を算出する方法であって、
（ａ）雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造データを入力するステップと、
（ｂ）上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、上記雛形蛋白質集団の各メンバーの特性値を算出するステップと、
（ｃ）上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力するステップと、
（ｄ）上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成するステップと、
（ｅ）上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
（ｆ）エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
（ｇ）上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの立体構造データおよび特性値、ならびに上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、ステップ（ｈ）〜（ｊ）を実行する否か決定するステップと、
（ｈ）（ｇ）で実行すると決定される場合に、上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成するステップと、
（ｉ）上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
（ｊ）エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
（ｋ）上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、ステップ（ｈ）〜（ｊ）を実行する否か決定するステップと、
（ｌ）上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、上記所望の特性値を有するメンバーを選択するステップと、
（ｍ）上記選択されたメンバーの配列データおよび特性値を出力するステップとを包含する、方法に関する。１つの実施態様において、上記雛形蛋白質集団の配列データがアミノ酸配列および／または核酸配列であり得る。別の実施態様において、上記雛形蛋白質集団の立体構造データは、原子座標データ、分子トポロジーデータおよび分子力場定数からなる群より選択される少なくとも１つのデータを含み得る。さらに別の実施態様において、上記雛形蛋白質集団は１のメンバーを含み得る。別の実施態様において、上記雛形蛋白質集団が２以上のメンバーを含み得る。別の実施態様において、上記特性値または上記所望の特性値は、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少なくとも１つのデータを含み得る。別の実施態様において、上記計算パラメータは、遺伝的アルゴリズムの計算パラメータであり得る。別の実施態様において、上記計算パラメータは、ステップ（ｇ）においてなされる判断の基準となる特性値を含み得る。別の実施態様において、上記計算パラメータが、変異されるアミノ酸位置を特定する情報を含み得る。別の実施態様において、上記デッドエンド排除アルゴリズムは、１以上のアミノ酸残基に関して適用され得る。他の実施態様において、上記デッドエンド排除アルゴリズムは、すべてのアミノ酸残基に関して適用され得る。別の実施態様において、改変される蛋白質の特性は、熱安定性、化学安定性、基質化学選択性、基質立体選択性および至適ｐＨ値から選択され得る。別の実施態様において、上記アミノ酸配列は、天然アミノ酸、化学改変アミノ酸、非天然アミノ酸からなる群より選択される少なくとも１つの群から構成され得る。別の実施態様において、上記多重変異蛋白質集団の各メンバーは、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも１つの蛋白質を含む分子複合体であり得る。
【００１１】
本発明の別の局面において、本発明は、多重変異蛋白質アミノ酸配列の最適化解を算出する装置であって、多重変異蛋白質集団のメンバーに対して、雛形蛋白質集団の立体構造データに基づいて、上記メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを用いて探索すること、および上記メンバーの構造エネルギー極小化計算を実行することによって、最適な多重変異蛋白質の立体構造座標を算出する手段と、上記最適な多重変異蛋白質の立体構造座標から特性値を算出する手段と、上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、上記特性値を最適化するメンバーを算出する手段とを包含する、装置に関する。１つの実施態様において、上記最適な多重変異蛋白質の立体構造座標を算出する手段は、雛形蛋白質の立体構造型をおおむね保持する束縛条件下で行われ得る。
【００１２】
本発明の別の好ましい局面において、本発明は、多重変異蛋白質アミノ酸配列の最適化解を算出する装置であって、
（１）入力部と、
（２）計算部と、
（３）出力部とを備え、
ここで、上記入力部は、
（ａ）雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造データを入力する手段と
（ｂ）上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力する手段と
を含み、
上記計算部は、
（ｃ）上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、上記雛形蛋白質集団の各メンバーの特性値を算出する手段と、
（ｄ）上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の立体構造データおよび特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成する手段と、
（ｅ）上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行する手段と、
（ｆ）エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出し、そして上記算出された立体構造データおよび特性値を格納する手段と、
（ｇ）上記計算パラメータ、上記雛形蛋白質集団の各メンバーの特性値および上記多重変異蛋白質集団の各メンバーの特性値に基づいて、（ｄ）〜（ｆ）の手段において行われる集団生成ステップを反復するかを決定する手段と、
（ｉ）上記雛形蛋白質集団の各メンバーの特性値および上記多重変異蛋白質集団の各メンバーの特性値から、上記所望の特性値を有するメンバーを選択する手段とを含み、上記出力部は、上記選択されたメンバーの配列データおよび特性値を出力する手段を含む、装置に関する。
【００１３】
１つの実施態様において、上記雛形蛋白質集団の配列データはアミノ酸配列および／または核酸配列であり得る。別の実施態様において、上記雛形蛋白質集団の立体構造データは、原子座標データ、分子トポロジーデータおよび分子力場定数からなる群より選択される少なくとも１つのデータを含み得る。別の実施態様において、上記雛形蛋白質集団は１のメンバーを含み得る。別の実施態様において、上記雛形蛋白質集団は２以上のメンバーを含み得る。別の実施態様において、上記特性値または上記所望の特性値は、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少なくとも１つのデータを含み得る。別の実施態様において、上記計算パラメータが、遺伝的アルゴリズムの計算パラメータであり得る。別の実施態様において、上記計算パラメータが、手段（ｇ）においてなされる判断の基準となる特性値を含み得る。別の実施態様において、上記計算パラメータが、変異されるアミノ酸位置を特定する情報を含み得る。別の実施態様において、上記デッドエンド排除アルゴリズムは、１以上のアミノ酸残基に関して適用され得る。別の実施態様において、上記デッドエンド排除アルゴリズムは、すべてのアミノ酸残基に関して適用され得る。別の実施態様において、改変される蛋白質の特性は、熱安定性、化学安定性、基質化学選択性、基質立体選択性および至適ｐＨ値から選択され得る。別の実施態様において、上記アミノ酸配列は、天然アミノ酸、化学改変アミノ酸、非天然アミノ酸からなる群より選択される少なくとも１つの群から構成され得る。別の実施態様において、上記多重変異蛋白質集団の各メンバーは、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも１つの蛋白質を含む分子複合体であり得る。別の実施態様において、データ格納部をさらに備え得る。
【００１４】
本発明の別の局面において、本発明は、入力されたデータに基づいて、多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、上記方法は、多重変異蛋白質集団のメンバーに対して、雛形蛋白質集団の立体構造データに基づいて、上記メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを用いて探索すること、および上記メンバーの構造エネルギー極小化計算を実行することによって、最適な多重変異蛋白質の立体構造座標を算出するステップと、
上記最適な多重変異蛋白質の立体構造座標から特性値を算出するステップと、上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、上記特性値を最適化するメンバーを算出するステップと
を包含する、記憶媒体に関する。
【００１５】
本発明の別の好ましい局面において，本発明は、入力されたデータに基づいて、多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
上記方法は、（ａ）雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造データを入力するステップと、
（ｂ）上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、上記雛形蛋白質集団の各メンバーの特性値を算出するステップと、
（ｃ）上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力するステップと、
（ｄ）上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成するステップと、
（ｅ）上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
（ｆ）エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
（ｇ）上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの立体構造データおよび特性値、ならびに上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、ステップ（ｈ）〜（ｊ）を実行する否か決定するステップと、
（ｈ）（ｇ）で実行すると決定される場合に、上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成するステップと、
（ｉ）上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
（ｊ）エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
（ｋ）上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、ステップ（ｈ）〜（ｊ）を実行する否か決定するステップと、
（ｌ）上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、上記所望の特性値を有するメンバーを選択するステップと、
（ｍ）上記選択されたメンバーの配列データおよび特性値を出力するステップと
を包含する、記録媒体に関する。
【００１６】
【発明の実施の形態】
本発明は、遺伝的アルゴリズムを遺伝子変異の生成に適用し、生成された変異体の座標最適化にＤＥＥを用いることによって達成された。
【００１７】
「遺伝的アルゴリズム（ＧＡ）」とは、進化において中心課題である環境への適応現象を、遺伝的な情報処理として捉えた最適化のためのアルゴリズムであり、総合進化理論体系の中の分子的プロセスである。すなわち、遺伝的アルゴリズムは、生物にみられる目標の認識、環境との相互作用、記憶保存の性質を複合的に組み合わせたときに生じる自己組織化という学習に基づいた、適応のためのアルゴリズムであって、その情報の基盤を遺伝においたものである（米沢保雄（１９９３）、遺伝的アルゴリズム−進化理論の情報科学、森北出版）。
【００１８】
生物は、その生存本能に基づいて、生き残るために達成すべき「目標」を「認識」する。「目標の認識」のために、生物は、進化の過程における淘汰（すなわち、削除）の基準および判定に有用な情報を利用し得る。生物はまた、生き残るための環境を予測する場合に、自らが「環境との相互作用」を行い得、その結果、生物は有効であった条件などを、「記憶保存」し得る。この結果、生物は、「学習および適応」という活動を行い得る。学習および適応において、生物の示す最大の特性である、高度な「自己組織化」現象が達成される。
【００１９】
（遺伝的アルゴリズムの具体的な説明）
以下、遺伝的アルゴリズムの基本的スキームを説明する。
【００２０】
遺伝的アルゴリズムは、生物が利用する有性生殖および自然選択という２つのプロセスを利用する。生物は、有性生殖において、精子と卵子との受精に代表されるように、相同染色体において対合を起こす。次いで、染色体の任意の地点で交叉が起き、遺伝子の交換すなわち遺伝子組換えが起きる。遺伝子組換えは、突然変異よりも有効かつ効率的な情報の多様化を達成する。自然選択において、有性生殖などによって多様化した個体群のいずれを残して次世代の生存生物すなわち適応生物とするかが決定される。遺伝的アルゴリズムの特徴として、従来のアルゴリズムとは異なり、局所解に落ち込む危険性が大幅に回避されることが挙げられる。
【００２１】
遺伝的アルゴリズムの基本スキームを説明する。遺伝的アルゴリズムは全体として、大別して次の８つのプロセスを含む。
【００２２】
（１）遺伝子型の決定処理
（２）集団発生処理
（３）個体の評価処理
（４）淘汰（削除）処理
（５）増殖処理
（６）交叉（組換え）処理
（７）突然変異処理
（８）群評価処理。
【００２３】
（２）で生成した集団を（３）および（４）によって淘汰し、（５）〜（７）によって多様化し、得られた解を（８）で評価してその結果に応じて（３）〜（７）（本明細書において１「世代」と呼ぶ）を繰り返すという新個体生成および世代交代が遺伝的アルゴリズムの基本的スキームである。このように遺伝的アルゴリズムは、課題となる事象の集団（最適解領域；単一解ではなく複数の解の区域）を人工的に進化（すなわち、最適適応）させて、集団全体として真の最適値へ近づける。ここで、（４）〜（７）の処理は、１つ以上が省略されていてもよい。
【００２４】
次いで、遺伝的アルゴリズムの各処理について解説する。
【００２５】
（１）遺伝子型の決定処理
この処理では、遺伝子型を決定する処理を行う。事象またはシステムのモデル化（すなわち、事象の構成要素への分解、定義、および要素関係の定義）およびモデルの記号表現であるので、ＤＮＡおよびアミノ酸で記述することができる。代表的には二進数表現（ビット）、数値、文字などが挙げられるがこれらに限定されない。事象のモデル化がこのような記号表現に不向きであれば、そのような事象はＧＡに適合しない。
【００２６】
（２）集団発生処理
多様性の生成処理を行う。基本的には、小さな違いを有する個体を多数発生させる。ランダム法およびルール法がある。ランダム法は、初期値が乱数発生に基づく。他方、ルール法では、初期値は一定基準に基づく。
【００２７】
（３）個体の評価処理
この処理では、設定されている環境に適応度が高いものから低いものへのランキングを行う。蛋白質についての評価パラメータとしては、例えば、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学的ポテンシャル、溶媒和ポテンシャル、構造エントロピー、ｐＩなどが挙げられるがこれらに限定されない。これらの評価パラメータは、蛋白質の生化学的性質と直接または間接の関連を有し得る。
【００２８】
（４）淘汰（削除）処理
淘汰処理とは、（３）の評価関数での評価値に基づいて、次期世代に残す個体を選別する処理である。従って、ここでは、評価関数での評価に従って個体が削除される。淘汰は、その削除の様式によって大きく３つに分類される。
【００２９】
（ａ）ランダム方式（ルーレット方式）：個体を、適応度の数値による足切り的選択を最初に行い、その範囲内でランダムに選択する方式；
（ｂ）適応度順位方式（ランキング方式）：適応度の数値による足切り的選択ではなく、所属する個体群での、適応度順に並べた場合の順位によって選択確率を決めており、その確率に基づいて選択する方式；および（ｃ）高適応度抜粋方式（エリート保存方式）：所属する群の中で、適応度が最大の個体を無条件で選択する方式。
【００３０】
（５）増殖処理
この処理において、（４）での淘汰処理によって減少した個体数を増殖処理する。増殖処理は、予め決定した様式に従って、淘汰後の個体総数から一定の割合で個体を抽出して増殖処理することによって行われる。この処理によって、集団全体の適応度の平均値が上昇する、増殖処理は、例えば、評価値の高い個体を優先的に増殖させる処理、または残留した個体の割合に比例させて増殖させる処理などが挙げられる。
【００３１】
（６）交叉（組換え）処理
交叉処理とは、遺伝子組換えでの交叉事象に倣い、ある個体の特定の記号群を別の個体の対応する記号群と交換する処理をいう。淘汰処理のみの処理では、その集団における最高の評価値を超える評価値を有する個体は生じないが、本処理によって、新たな高評価値を有する個体が生成する可能性がある。
【００３２】
交叉には大きく分けて、１点交叉法、多点交叉法、一様交叉法、順位交叉法、循環交叉法、部分的交叉法などがある。
【００３３】
（７）突然変異処理
突然変異処理とは、個体の特定部位を一定の確率で変化させる処理をいう。変化種は、全ての天然型アミノ酸（２０種類）であっても、特定のアミノ酸種から選択される群でもよい。また、変化種は、非天然型アミノ酸または修飾されたアミノ酸を含み得る。淘汰または交叉の処理では、生じる最高値は初期値に拘束される。突然変異によって、初期値に依存しない高適合度の個体を生成することができる。突然変異には、その様式によって、転座方式、重複方式、逆位方式、挿入方式、欠失方式などがある。
【００３４】
（８）生物集団の評価処理
この処理において、上記の処理によって得られた個体集団を、一定の特性パラメータによって評価処理する。ここで、上記のプロセスを反復するか否かの収量条件が判定される。
【００３５】
このような処理を、何世代かのルーチンで繰り返すことにより、遺伝的アルゴリズムが達成される。
【００３６】
（デッドエンド排除法（ＤＥＥ））
デッドエンド排除法（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）は、蛋白質においてアミノ酸の側鎖構造の最適値すなわち全体極小化エネルギー構造（ｇｌｏｂａｌｍｉｎｉｍｕｍｅｎｅｒｇｙｃｏｎｆｏｒｍａｔｉｏｎ；ＧＭＥＣ）を予測する方法である（Ｄｅｓｍｅｔ、Ｊ．ら（１９９２）、３５６、５３９−５４２；Ｄｅｓｍｅｔ、Ｊ．ら（１９９４）、ＴｈｅＰｒｏｔｅｉｎＦｏｌｄｉｎｇＰｒｏｂｌｅｍａｎｄＴｅｒｔｉａｒｙＳｔｒｕｃｔｕｒｅＰｒｅｄｉｃｔｉｏｎ、Ｍｅｒｚら編、ＢｉｒｋｈａｅｕｓｅｒＢｏｓｔｏｎ、３０７−３３７）。側鎖をいくつかの回転異性体（ｒｏｔａｍｅｒ）で近似すれば、仮定された主鎖構造の位置での側鎖構造の予測は異性体の組合せの問題となる。例えば、各残基あたり３個の異性体があると仮定すれば、３¹⁰⁰の組合せが考えられる。ここで、ある残基の１つの異性体について、他の残基の側鎖の異性体の構造に拘らず、全体のエネルギーを非常に不利にすることがわかる場合、その特定の残基の異性体を有する構造の可能性はすべて評価対象から省略され得る。この判断を厳密に行うのがデッドエンド理論（ｄｅａｄｅｎｄｔｈｅｏｒｅｍ）である。この方法によって、多くの蛋白質で、主鎖構造が与えられた時点で最適な側鎖構造を決定し得る。
【００３７】
デッドエンド理論の実際を以下説明する。
【００３８】
蛋白質結晶構造に関する統計学的分析によって、その蛋白質のアミノ酸側鎖は、その炭素鎖のねじれが一般に、ゴーシュ（＋）型（＋６０°）、ゴーシュ（−）型（−６０°）、およびトランス型（１８０°）の主として３つの立体配座をとることが明らかになってきた。さらに、種々のアミノ酸の中でも、ベンゼン環を有するトリプトファンまたはチロシンは９０°に近いχ²角度をとり、ヒスチジンおよびトリプトファンは＋９０°または−９０°の立体配座をとることも明らかになっておる。一般に、側鎖が長いアミノ酸ほど、とり得る立体配座の種類すなわち回転異性体（ｒｏｔａｍｅｒ）は多くなり、例えば、リジンでは５１種類、アルギニンでは５５種類ほどの立体配座が可能であると考えられている（Ｄｅｓｍｅｔ．ら（１９９２）前出）。
【００３９】
このように想定された種々の回転異性体について、ポテンシャルエネルギー関数すなわち評価関数を生成する。この関数は、代表的に、結合の強さに関する項、結合角に関する項、結合のねじれに関する周期関数、非結合原子対についてのレナード−ジョーンズポテンシャル、水素結合についてのポテンシャル、および電荷についてのクーロン関数を含む。このような評価関数を用いて、回転異性体のエネルギーを算出し、以下使用する。
【００４０】
デッドエンド排除アルゴリズムにおいては、所定のセットの回転可能な側鎖のＧＭＥＣを算出することが目的である。このアルゴリズムは、テンプレートと呼ばれる固定された参照構造を用いて、考えられ得る種々の回転異性体を含む構造を比較する。テンプレートには、（１）主鎖の原子、（２）Ｃβ原子、（３）可能性のあるリガンド（例えば、水分子、金属イオン、基質、ヘム基など）、（４）相互作用する蛋白質（例えば、マルチマーを形成する場合の他のサブユニット）、（５）モデリングの際に必要でない側鎖が含まれる。
【００４１】
ある残基の側鎖ｉの特定の回転異性体ｉ_rについて、別の回転異性体ｉｔが存在する場合、以下のように計算してその回転異性体ｉ_rを考慮から消去するか否かを決定する。ここで、ある残基の側鎖の回転異性体について、評価関数を用いてその側鎖に独特の自己エネルギーを算出する。さらに、テンプレートの固定原子とこの側鎖原子との相互作用エネルギーを算出し、この２つのエネルギーの和をその回転異性体の「固有エネルギー」（Ｅ（ｉ_r）；ｉ_rはある残基の特定の回転異性体）という。次いで、この回転異性体上の原子と、別の回転異性体上の原子との相互作用エネルギーの和を全ての残基について積分し、この値を「非結合対相互作用エネルギー」（Σ_jＥ（ｉ_rｊ_s）；ｊ_sはｉとは異なる残基の特定の回転異性体）という。非結合対相互作用エネルギーの各残基についての最小値の積分を「最小非結合対相互作用エネルギー」（Σ_jｍｉｎ_sＥ（ｉ_rｊ_s））といい、非結合対相互作用エネルギーの各残基についての最大値の積分を「最大非結合対相互作用エネルギー」（Σ_jｍａｘ_sＥ（ｉ_rｊ_s））という。
【００４２】
ここで、以下の関係：
【００４３】
【数１】
【００４４】
すなわち、ある回転異性体ｉ_rの固有エネルギーおよび最小非結合対相互作用エネルギーの和が、別の回転異性体ｉ_tの固有エネルギーおよび最大非結合対相互作用エネルギーの和よりも大きい場合は、回転異性体ｉ_rをＧＭＥＣの計算の際から省略する。この計算を順次各回転異性体について行うことにより、ＧＭＥＣに適合しない回転異性体をすべて省略し、ＧＭＥＣ計算を行う。
【００４５】
計算には非必要な候補を効率的に省略できるので、ＤＥＥアルゴリズムを適用すれば、ＧＭＥＣ計算を大幅に短縮し得る。
【００４６】
（エネルギー極小化計算）
次にエネルギー極小化計算について説明する。
【００４７】
エネルギー極小化法とは、蛋白質構造などの系の安定構造を算出する方法である。エネルギー極小化法では、出発構造からさほど遠くない局所的な安定構造を求める。
【００４８】
エネルギー極小化法においては、まず初期座標を与える。次に、この座標をエネルギーが低下すると期待される方向に少しずつ変化させて次の座標を得る。このステップを繰り返し、構造変化、エネルギー変化および力が充分小さくなったときにこの繰り返しを停止して、極小構造を得る（現代化学増刊１３「新薬のリードジェネレーション」１３章、分子動力学設計システム、東京化学同人を参照のこと）。
【００４９】
代表的には、ベクトル表現で、
【００５０】
【数２】
【００５１】
と表され、ここで、〜付きのｒは、ｎまたはｎ＋１ステップにおける座標であり、δは座標の変化を表す。
【００５２】
δを得るためには、代表的には、最大降下法、共役勾配法、Ｎｅｗｔｏｎ−Ｒａｐｈｓｏｎ法（ＮＲ法）および適応基底Ｎｅｗｔｏｎ−Ｒａｐｈｓｏｎ法（ＡＢＮＲ法）がある。
【００５３】
最大降下法は、δに対してポテンシャルエネルギーの勾配をとる。
【００５４】
【数３】
【００５５】
極小点から遠く離れた場所では効率よくエネルギーが低下するが、極小点に近づくと、収束が遅くなる傾向がある。ｋ_ｎは、線上探索で使用するパラメーターである。
【００５６】
共役勾配法では、次のステップの座標を得るのにエネルギーの勾配に加え、前回の勾配も利用する。一般的に、収束は最大降下法より優れているといわれる。
【００５７】
【数４】
【００５８】
【数５】
【００５９】
ここで、δ＝−ｋ_n（▽_nＥ）、αは、単純な線上探索で最適値が決められるパラメーターである。
【００６０】
ＮＲ法では、δｎの評価に対して一次微分（勾配）に加えて、二次微分行列（曲率）を利用する。
【００６１】
【数６】
【００６２】
【数７】
【００６３】
この方法は、極小点付近の収束は極めて早いが、力の定数の行列とその逆行列のに計算がかかりすぎるという欠点を有している。また、大きな記憶容量も必要である。従って、巨大分子に適用するのは困難である。
【００６４】
ＮＲ法が基底ベクトルを完全空間で解くのに対して、ＡＢＮＲ法は、副空間で解くという簡易法であり、巨大分子に適用し得る。前回までのステップにおいて最も大きな動きがあった部分を取り込むように、ｎステップ目の基底ベクトルは、過去ｐ＋１ステップの位置ベクトルから形成される。
【００６５】
【数８】
【００６６】
通常ｐは、４〜１０の値が採用される。二次微分マトリクスは、減少した基底ベクトルおよび一次微分ベクトルから形成され、マトリクスの大きさは大幅に減少するので、計算時間も記憶容量も少なくてすむ。ＡＢＮＲ法は、一次微分法における計算の速さ、およびＮＲ法の二次微分定法のうち、重要なもののみを取り込むという利点を有している。初回のｐ＋１回ステップは、最大降下法で計算され、続いてＡＢＮＲ法が適用される。
【００６７】
（定義）
以下、本明細書において使用される主な用語の一部を定義する。
【００６８】
「雛形蛋白質集団」とは、本明細書において遺伝的アルゴリズムにおいて使用される場合、計算の基礎となる蛋白質の集団をいう。雛形蛋白質集団は、少なくとも１つの蛋白質を含み、代表的には２以上の蛋白質（すなわちメンバー）を含み、好ましくは、４以上の蛋白質を含み、より好ましくは同定されている同一の蛋白質スーパーファミリーに属する数の蛋白質を含むが、これらに限定されない。「多重変異蛋白質集団」とは、本発明の方法によって多重の変異が導入された蛋白質の集団をいう。多重変異蛋白質集団は、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成され得る。好ましくは、複数の同種分子から構成される。また、好ましくは、複数の異種分子から構成される。また、好ましくは、複数の同種分子と複数の異種分子との組み合わせから構成される。前記多重変異蛋白質集団の各メンバーは、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも１つの蛋白質を含む分子複合体であり得る。変異とは、蛋白質のアミノ酸配列が変更されることをいい、蛋白質のアミノ酸配列に、アミノ酸の置換、欠失、挿入が導入されるか、またはあるアミノ酸が修飾されることを含み得る。本明細書においては、多重変異とは、通常複数の変異をいうが、変異は１つでもあり得る。雛形蛋白質集団または多重変異蛋白質集団の「メンバー」とは、それぞれの集団に属する蛋白質メンバーをいう。
【００６９】
蛋白質の「配列データ」とは、その蛋白質のアミノ酸配列データまたは、そのアミノ酸配列をコードする核酸配列データをいう。核酸配列は、公知の配列またはアミノ酸配列から推定される配列であり得る。
【００７０】
蛋白質の「立体構造データ」とは、その蛋白質の三次元構造に関するデータをいう。蛋白質の立体構造データには、代表的に、原子座標データ、分子トポロジー、分子力場定数が挙げられる。原子座標データは、代表的に、Ｘ線結晶構造解析またはＮＭＲ構造解析から得られたデータであり、このような原子座標データは、新規にＸ線結晶構造解析またはＮＭＲ構造解析を行って得られ得るか、または公知のデータベース（例えば、プロテイン・データ・バンク（ＰＤＢ））から入手し得る。原子座標データはまた、モデリングまたは計算によって作成されたデータであり得る。本明細書において、「立体構造型」または「フォールド」とは、蛋白質内部の二次構造の配置の仕方またはトポロジーをいう。本発明の方法は、好ましくは雛形蛋白質の立体構造型をおおむね保持する束縛条件下で実行され得る。
【００７１】
分子トポロジーは、市販もしくはフリーウェアのツールプログラムを用いて算出し得るが、自作プログラムを用いてもよい。また、市販の分子力場計算プログラム（例えば、ＰＲＥＳＴＯ、蛋白工学研究所株式会社、に付属のｐｒｅｐａｒプログラム）に付属の分子トポロジー計算プログラムを使用し得る。
【００７２】
分子力場定数（または分子力場ポテンシャル）もまた、市販もしくはフリーウェアのツールプログラムを用いて算出し得るが、自作データを用いてもよい。また、市販の分子力場計算プログラム（例えば、ＡＭＢＥＲ、ＯｘｆｏｒｄＭｏｌｅｃｕｌａｒ）に付属の分子力場定数データを使用し得る。
【００７３】
蛋白質の「特性値」とは、蛋白質の物理化学的性質をいう。特性値は、配列データおよび／または立体構造データから計算され得る。蛋白質の特性値には、代表的に、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーが挙げられるが、これらに限定されない。蛋白質の特性値は、蛋白質の生化学的特性に関する値でもあり得る。蛋白質の特性値は、酵素またはシグナル伝達蛋白質のような蛋白質またはポリペプチドの熱安定性、化学安定性、酵素の基質化学選択性または基質立体選択性、至適ｐＨなどの生化学的特性と直接または間接的な関連を有し得る。これらの直接的な関連または間接的な関連については、当業者は容易に認識し得る。従って、当業者は、自己の目的に従って「所望の特性値」を設定し、計算パラメータを決定し得る。ここで、所望の特性値は、本明細書において、ある蛋白質についての特性値を変更させる際の目標値をいう。
【００７４】
本明細書において、「計算パラメータ」とは、本発明の方法を実行する際に必要となるパラメータをいう。計算パラメータには、代表的に遺伝的アルゴリズムの計算パラメータである。このような計算パラメータには、集団数、集団中の個体数、世代数、淘汰率、増殖率、交叉率、もしくは変異率のいずれか１つ、またはそれらの組み合わせを変化させることに関するパラメータが含まれる。ここで、「世代数」とは、遺伝的アルゴリズムを適用する数をいう。また、計算パラメータには、遺伝的アルゴリズムの反復についての判断の基準となる特性値もまた含まれる。計算パラメータには、変異されるアミノ酸位置を特定する情報も挙げられる。さらに、計算パラメータには、世代数Ｎに関する計算パラメータが含まれ、ここで、Ｎは、Ｎ−１回目までに算出された蛋白質の特性値の最適値と、Ｎ回目で算出された特性値の最適値とが初めて等価になる回数である。このように、計算パラメータは、変異の対象となる蛋白質の生化学的特性と、直接または間接的に関連し得、従って、これらの計算パラメータを適切に操作することによって、所望の生化学的特性を有するか、またた所望の生化学的特性に近い特性を有する蛋白質を生成し得る。
【００７５】
本発明は、一つの局面において、多重変異蛋白質の最適化解を算出する方法に関する。
【００７６】
本発明の多重変異蛋白質アミノ酸配列の最適化解を算出する方法は、多重変異蛋白質集団のメンバーに対して、雛形蛋白質集団の立体構造データに基づいて、該メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除アルゴリズムを用いて探索すること、および該メンバーの構造エネルギー極小化計算を実行することによって、最適な多重変異蛋白質の立体構造座標を算出するステップと、該最適な多重変異蛋白質の立体構造座標から特性値を算出するステップと、該多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、該特性値を最適化するメンバーを算出するステップとを包含する。
【００７７】
図１は、多重変異蛋白質の最適化解を算出する方法を示す例示的なフローチャートである。図１に示される方法の処理は、コンピュータ５００によって実行され得る。
【００７８】
図６は、本発明の多重変異蛋白質の最適化解を算出する方法の処理を実行するコンピュータの５００の構成例を示す。
【００７９】
コンピュータ５００は、入力部５０１と、ＣＰＵ５０２と、出力部５０３と、メモリ５０４と、バス５０５とを備える。入力部５０１と、ＣＰＵ５０２と、出力部５０３と、メモリ５０４とは、バス５０５によって相互に接続されている。入力部５０１と出力部５０３とは入出力装置５０６に接続されている。
【００８０】
以下、コンピュータ５００によって実行される多重変異蛋白質の最適化解を算出する方法の処理の概略を説明する。
【００８１】
図１に示される本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方法の処理を表現するプログラム（以下、最適化プログラム）は、例えば、メモリ５０２に格納されている。あるいは、最適化プログラムは、フロッピーディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭのような任意のタイプの記録媒体に記録され得る。そのような記録媒体に記録された最適化プログラムは、出入力装置５０６（例えば、ディスクドライブ）を介してコンピュータ５００のメモリ５０４にロードされる。ＣＰＵ５０２が最適化プログラムを実行することによって、コンピュータ５００は、本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方法の処理を実行する装置として機能する。
【００８２】
入力部５０１を介して、雛形蛋白質集団の配列データおよび雛形蛋白質集団の立体構造データおよび計算パラメータを入力する。
【００８３】
ＣＰＵ５０２は、入力部５０１で入力された情報をもとに、雛形蛋白質集団の各メンバーの特性値を算出し、メモリ５０４に特性値データを格納する。次いで、ＣＰＵ５０２は、計算パラメータ、所望の特性値および雛形蛋白質集団の立体構造および特性値に基づいて、雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成する。その後、ＣＰＵ５０２は、多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、アミノ酸側鎖の位置を最適化し、エネルギー極小化計算を実行する。次いで、ＣＰＵ５０２は、エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出し、この算出された立体構造データおよび特性値をメモリ５０４に格納し得る。
【００８４】
次に、ＣＰＵ５０２は、計算パラメータ、雛形蛋白質集団の各メンバーの特性値および多重変異蛋白質集団の各メンバーの特性値に基づいて、再度上記アルゴリズムを反復するか決定する。上記アルゴリズムが反復されると決定した場合には、ＣＰＵ５０２はさらに、上記アルゴリズムを反復し得る。
【００８５】
反復する場合は、ＣＰＵ５０２は、計算パラメータ、所望の特性値および雛形蛋白質集団の特性値のほかに、これまでに算出された特性も考慮して、雛形蛋白質集団に遺伝的アルゴリズムを適用し、多重変異蛋白質集団を生成し、その後の処理を続ける。
【００８６】
ＣＰＵ５０２が反復を中止する判断を下した場合、ＣＰＵ５０２は、メモリ５０４に格納されている雛形蛋白質集団の各メンバーの特性値および多重変異蛋白質集団の各メンバーの特性値から、所望の特性値を有するメンバーを選択する。
【００８７】
その後、出力部５０３は、ＣＰＵ５０２が選択したメンバーの配列データおよび特性値を出力する。出力されたデータは、入出力装置５０６から出力され得る。
【００８８】
以下、本発明の方法の詳細を、図１を参照しながら説明する。
【００８９】
本発明の方法は、多重変異蛋白質の最適化解を算出する方法であって、代表的には、以下のステップ（１０）〜（５０）を包含する。各ステップは、入力部５０１、ＣＰＵ５０２または出力部５０３（図６）によって実行される。
【００９０】
ステップ１０：入力部５０１に、雛型蛋白質集団の配列データおよびこの雛型蛋白質集団の立体構造データが入力される。
【００９１】
このステップでは、本発明の方法において基本データと使用される雛型蛋白質集団の配列データおよびその立体構造データを入力する。入力されたデータは、メモリ５０４に格納され得る。配列データは、アミノ酸配列または核酸配列であり得る。アミノ酸配列は、修飾基（たとえば、糖鎖、脂肪酸、硫酸基など）で修飾されていてもよい。アミノ酸配列に使用されるアミノ酸は、天然アミノ酸、非天然アミノ酸のいずれかまたはその両方であり得る。アミノ酸配列または核酸配列のデータは、公知のデータベース（ＳｗｉｓｓＰｒｏｔ、ＧｅｎＢａｎｋなど）から入手し得るか、または当該分野で周知の技術（例えば、サンガー法、エドマン法など）を用いて新たに決定し得る。入力される立体構造データは、例えば、原子座標データなどであり得る。原子座標は、例えば、Ｘ線構造解析などによる実験データ、もしくは、モデリングまたは計算などによって作成された座標データであり得る。立体構造データはまた、例えば、公知のデータベース（例えば、ＰＤＢなど）から入手し得る。
【００９２】
ステップ１２：ＣＰＵ５０２は、上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、該雛形蛋白質集団の各メンバーの特性値を算出する。算出されたデータは、メモリ５０４に格納され得る。ステップ１０で入力されたデータに基づいて、本発明の方法において用いる特性値の計算を行う。特性値は、最適値を決定する際の決定要因である。本発明で使用され得る特性値には、例えば、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーが挙げられる。
【００９３】
ステップ１４：入力部５０１において、下記のアルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値が入力される。
【００９４】
このステップにおいて、本発明の方法においてアルゴリズムを実施する際の計算パラメータなどが入力される。入力されたデータは、メモリ５０４に格納され得る。入力され得る計算パラメータには、遺伝的アルゴリズムのパラメータ、例えば、世代数、変異率、淘汰率、淘汰方法、交叉率、交叉方法のようなパラメータが挙げられる。計算パラメータは、選択基準となる特性値であり得る。計算パラメータはまた、世代間の評価であり得、例えば、第Ｎ−１世代までの最適値と第Ｎ世代までの最適値が一致した場合に計算を終了するという条件であり得る。
【００９５】
所望の特性値とは、本発明の方法によって入手することを目的とする多重変異体蛋白質についての任意の特性値である。所望の特性値には、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーなどが挙げられる。所望の特性値は、蛋白質の生化学的特性値でもあり得る。あるいは、所望の特性値は、蛋白質の生化学的特性値と直接または間接的に関連し得る。従って、所望の特性値は、蛋白質の生化学的特性の変異の様式に応じて変更させ得る。
【００９６】
当業者が、計算パラメータを、所望の特性値に応じて、適切に設定し得ることは明らかである。
【００９７】
ステップ２０：ＣＰＵ５０２は、上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成する。
【００９８】
このステップにおいて遺伝的アルゴリズムを雛形蛋白質集団に適用する。遺伝的アルゴリズムは、上記に記載したように、入力された集団に対して、各個体の評価処理、淘汰処理、増殖処理、交叉処理、突然変異処理、および群評価処理を行う。淘汰処理、増殖処理、交叉処理および突然変異処理は、すべて行ってもよく、１以上の処理を行わなくてもよい。ステップ２０は第１回目の遺伝的アルゴリズムの適用であり、入力された雛形蛋白質集団に対して遺伝的アルゴリズムが適用される。必要に応じて、遺伝的アルゴリズムが局所解に陥らないように、ｌこの１回目の遺伝的アルゴリズムの突然変異率（例えば、５０％、７５％、１００％など）を高くし、多様性を充分担保することが好ましい。このステップで生成されたデータは、メモリ５０４に格納され得る。
【００９９】
ステップ２２：ＣＰＵ５０２は、上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行する。
【０１００】
このステップでは、ステップ２０で生成した多重変異蛋白質集団の各メンバーのアミノ酸配列の各アミノ酸残基について、デッドエンド排除アルゴリズムによりそれらの原子座標を最適化し、エネルギー最小化計算を行う。デッドエンド排除アルゴリズムにおいては、全てのアミノ酸残基について処理を行ってもよく、変異されていないアミノ酸残基の一部またはすべてを固定して処理を行ってもよい。好ましくは、変異したアミノ酸残基およびそれらの近傍の変異されていないアミノ酸残基に対して処理を行う。このステップで生成されたデータは、メモリ５０４に格納され得るか、または出力部５０３から出力され得る。ここで、出力されるデータは、例えば、蛋白質を構成する原子各々を一意的に示す名称、およびそれらの原子の構造座標であり得る。
【０１０１】
ステップ２４：ＣＰＵ５０２は、エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出する。
【０１０２】
このステップにおいて、エネルギー極小化計算を行った上記の蛋白質集団の立体構造データは上記に記載した周知方法などにより計算され、そしてステップ１２で行ったのと同様な方法で特性値が算出される。算出されたデータは、解候補であり、必要に応じて格納部に格納され得る。このステップで生成されたデータは、メモリ５０４に格納され得る。
【０１０３】
ステップ３０：ＣＰＵ５０２は、上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの特性値、および上記多重変異蛋白質集団の各メンバーの特性値に基づいて、以下のステップ２１、２３および２５を実行する否か決定する。
【０１０４】
ステップ２０、２２および２４において算出された多重変異蛋白質集団の特性値を評価して、所望の特性値が得られた否か、または入力された遺伝的アルゴリズムの計算パラメータのいずれかに基づいて、再度の遺伝的アルゴリズムを適用するかを決定する。このステップでの判定は、回数で決定してもよく、この場合、例えば、Ｎ（ここで、Ｎは、Ｎ−１回目までに算出された蛋白質の特性値の最適値と、Ｎ回目で算出された特性値の最適値とが初めて等価になる回数である）回目で反復を停止させ得る。ステップ２１、２３および２５を実行しないと決定した場合は、ステップ４０に進む。
【０１０５】
ステップ２１：ステップ３０で実行すると決定された場合、または下記のステップ３１において反復すると決定された場合、ＣＰＵ５０２は、上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成する。このステップで生成されたデータは、メモリ５０４に格納され得る。
【０１０６】
このステップにおいて遺伝的アルゴリズムを、雛形蛋白質集団および上記で生成された多重変異蛋白質集団を含む集団に適用する。遺伝的アルゴリズムは、上記に記載したように、入力された集団に対して、各個体の評価処理、淘汰処理、増殖処理、交叉処理、突然変異処理、および群評価処理を行う。淘汰処理、増殖処理、交叉処理および突然変異処理は、すべて行ってもよく、１以上の処理を行わなくてもよい。このステップは、２回目以降の遺伝的アルゴリズムの適用ステップである。２回目以降の遺伝的アルゴリズムにおいて遺伝的アルゴリズムが適用される集団は、雛形蛋白質集団に含まれる蛋白質メンバーの他に、これまでの遺伝的アルゴリズムによって生成した多重変異蛋白質集団の蛋白質メンバーも存在し得る。必要に応じて、遺伝的アルゴリズムが局所解に陥らないように、突然変異率（例えば、５０％、７５％または１００％など）を高くし、多様性を充分担保してもよい。このステップで生成されたデータは、メモリ５０４に格納され得る。
【０１０７】
ステップ２３：ＣＰＵ５０２は、上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行する。このステップで生成されたデータは、メモリ５０４に格納され得る。
【０１０８】
このステップにおいて、ステップ２１で生成した多重変異蛋白質集団の各メンバーのアミノ酸配列の各アミノ酸残基について、デッドエンド排除アルゴリズムにより最適化し、エネルギー極小化計算が行われる。なお、すでに極小化計算がなされた蛋白質メンバーについては、この極小化計算が省略され得る。デッドエンド排除アルゴリズムにおいては、全てのアミノ酸残基について処理を行ってもよく、変異されていないアミノ酸残基を固定して処理を行ってもよい。
【０１０９】
ステップ２５；ＣＰＵ５０２は、エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出する。
【０１１０】
このステップにおいて、ステップ２３においてエネルギー極小化計算を行った上記の蛋白質集団の立体構造データを当該分野で周知の方法により計算し、そして蛋白質集団の各蛋白質メンバーの特性値を、ステップ１２で行ったのと同様な方法で算出する。算出されたデータは、解候補であり、メモリ５０４に格納され得る。
【０１１１】
ステップ３１：ＣＰＵ５０２は、上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、さらにステップ２１、２３および２５を実行する否か決定する。このステップでの判定は、回数で決定してもよく、この場合、例えば、Ｎ（ここで、Ｎは、Ｎ−１回目までに算出された蛋白質の特性値の最適値と、Ｎ回目で算出された特性値の最適値とが初めて等価になる回数である）回目で反復を停止させ得る。ステップ２１、２３および２５を実行しないと決定した場合は、ステップ４０に進む。
【０１１２】
ステップ４０：ＣＰＵ５０２は、上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、上記所望の特性値を有するメンバーを選択する。
【０１１３】
多重変異蛋白質集団の生成が終了した後、このステップにおいて、これまでに得られた各蛋白質メンバーの特性値を比較し、所望の特性値を有する蛋白質メンバーを選択する。選択されるメンバーは、メモリ５０４に格納されているデータから選択され得る。選択する数は、１つでも、複数でもよく、例えば、少なくとも５、１０、２０，５０、１００または２００個選択し得る。場合によっては、雛形蛋白質集団のメンバーから所望の特性値を有するものが選ばれ得るが、通常は多重変異蛋白質集団からのメンバーが所望の特性値を有する。所望の特性値を有する個体は、必ずしも集団内での存在比は高くならないことに注意する。
【０１１４】
ステップ５０：出力部５０３は、上記選択されたメンバーの配列データおよび特性値を出力する。このステップにおいて、ステップ４０で選択された所望の特性値を有する蛋白質メンバーの配列データおよび特性値を出力する。出力形式は、どんな形式でもよいが、例えば、特性値を階級付けし、最適値からランク付けしてリスト形式で出力し得る。出力されるデータは、紙にプリントアウトされてもよく、記憶媒体（例えば、磁気記憶装置（例えば、ハードディスク、フロッピーディスクなど）、光学記憶装置（例えば、ＭＯディスクなど）など）に格納されてもよい。
【０１１５】
なお、図６に示される例では、多重変異蛋白質の最適化解を算出する装置に含まれる各部が、ソフトウェアによって実現されている。しかし、多重変異蛋白質の最適化解を算出する装置に含まれる各部の機能をハードウェア（回路）によって実現することも可能である。
【０１１６】
次に、本発明に適用される遺伝的アルゴリズムを説明する。
【０１１７】
図２は、ＧＡにおけるある１世代のスキームを示す。現世代の多重変異蛋白質アミノ酸配列集団（２０１）に対してＧＡプロセスを実行する。本発明におけるＧＡプロセスは、対応する現世代の多重変異蛋白質特性値データベース（２０３）より得た蛋白質特性値および淘汰率により淘汰を実行するプロセス（２０２）、集団中の個体数変化および増殖率により増殖を実行するプロセス（２０４）、交叉率により交叉を実行するプロセス（２０６）、突然変異率により突然変異プロセス（２０８）の組み合わせにより実行される。これらのプロセスを順次実行し、次世代の多重変異蛋白質アミノ酸配列集団（２１０）を得る。プロセス（２０２）〜（２０８）の実行順序は図２と異なっていてもよく、いずれかのプロセスを実行しなくともよい。プロセス（２０２）〜（２０８）において使用されるＧＡの変数、すなわち集団中の個体数、世代数、淘汰率、増殖率、交叉率および突然変異率は各世代および各集団ごとに変更することができ、かつ変異が許容されるアミノ酸種を限定することができる。
【０１１８】
以下、本発明において適用されるデッドエンド排除（ＤＥＥ）アルゴリズムを、説明する。
【０１１９】
図３は、ＧＡにおけるある１世代に対して、その世代に含まれる変異蛋白質集団各々の立体構造原子座標を算出し、ついで各々の蛋白質特性値を算出するプロセスを示す。まず、現世代の多重変異蛋白質アミノ酸配列集団（２０１）から、順次あるひとつの多重変異蛋白質アミノ酸配列（２２０）を選択する。そのアミノ酸配列情報を用いて、仮の変異蛋白質アミノ酸原子座標を、雛形となる蛋白質立体構造原子座標（１０１）にスーパーインポーズする（２２２）。この仮の原子座標に対して、デッドエンド排除アルゴリズムを適用した操作を実行し、変異蛋白質のアミノ酸側鎖原子座標を部分最適化する（２２４）。さらにエネルギー極小化計算を実行し、変異蛋白質のアミノ酸側鎖原子座標を全体最適化し（２２６）、最適化された多重変異蛋白質原子座標（２２８）を得る。プロセス（２２２）〜（２２６）を順次実行し、現世代の多重蛋白質原子座標集団（２３０）を得る。これらの蛋白質原子座標を用いて、各々の蛋白質特性値を算出し（２４０）、現世代の多重変異蛋白質特性値データベース（２４２）を作成する。この特性値データベースをＧＡにおける計算パラメータとして用い得る。
【０１２０】
一般に、蛋白質アミノ酸配列が多重変異する場合、各々のアミノ酸変異が蛋白質の特性に与える影響はほぼ相加的であり、まれに特定の複数アミノ酸変異が非相加的に影響を与えることが知られている。したがって、所望の特性をもつ変異蛋白質を効率よく設計するためには、所望の特性を変異蛋白質に相加的に与える各々のアミノ酸変異を組み合わせていくプロセスと、非相加的な複数アミノ酸変異を同時に考慮するプロセスとを組み合わせた方法が必要となる。広域的最適化方法であるＧＡはその探索特性により、上記した相加的なアミノ酸変異と非相加的な複数アミノ酸変異とを同時に考慮して、多重変異蛋白質のアミノ酸配列を最適化することができる。
【０１２１】
ＧＡを適用することにより、解候補である多重変異蛋白質アミノ酸配列のすべてに対して対応する蛋白質立体構造原子座標および蛋白質特性値を算出することなく、解候補の一部に対してのみ対応する蛋白質立体構造原子座標および蛋白質特性値を算出し得、かつ計算精度を低下させることなく、計算時間を大幅に短縮することができる。
【０１２２】
本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方法において、解候補である多重変異蛋白質アミノ酸配列に対して、雛形となる蛋白質高次構造をおおむね保持するという束縛条件下において、変異蛋白質のアミノ酸側鎖立体構造に対してＤＥＥ計算を実行し、ついでエネルギー極小化計算を適用することにより、多重変異蛋白質の立体構造原子座標を良い精度で算出し得る。解候補である多重変異蛋白質の立体構造原子座標は未知であることが多く、また新たに実験的に原子座標を決定することは多くの資源を消費するので、前記方法により、すべての候補について計算することなく原子座標が精度良く算出できることは有用である。
【０１２３】
得られた多重変異蛋白質の立体構造原子座標を用いることにより、有用な蛋白質の特性値を精度よく算出することができる。多重変異蛋白質のアミノ酸配列のみから得られる蛋白質の特性値は通常限られたものであり、また精度の高い特性値が得られない場合が多い。立体構造原子座標を用いることにより、例えば変異蛋白質の分子力学ポテンシャルまたは量子力学ポテンシャルを算出し、変異蛋白質が熱変性する過程での自由エネルギー変化量を算出することができる。この変化量は蛋白質の熱的安定性や化学的安定性、さらには蛋白質と他分子とが会合する過程での結合の強さを算出することができる。
【０１２４】
ＧＡにおけるアミノ酸配列の変異において、集団数、集団中の個体数、世代数、淘汰率、増殖率、交叉率、突然変異率を変化させることにより、所望の設計パラメータに応じた多重変異蛋白質アミノ酸配列の最適化を行なうことができる。例えば集団中の個体数と交叉率や突然変異率を適切に設定することにより、雛形となる蛋白質のアミノ酸配列と、解候補とする多重変異型アミノ酸配列との差異の大小を制御することが可能であり、雛型に近い変異型または雛型から遠い変異型への最適化を選択的に行なうことができる。
【０１２５】
ＧＡにおけるアミノ酸配列の変異において、各々のアミノ酸の変異が許容されるアミノ酸種を限定することにより、所望の設計諸元に応じた多重変異蛋白質アミノ酸配列の最適化を行なうことができる。例えば特定のアミノ酸変異部位について、そのアミノ酸種を塩基性アミノ酸種または酸性アミノ酸種等に限定することにより、多重変異蛋白質の静電的特性を雛形蛋白質と変えることなく、変異蛋白質の熱安定性を最適化することができる。
【０１２６】
【実施例】
ＤＮＡ転写制御因子であるλ−リプレッサー蛋白質の耐熱性向上設計を試みた実施例を以下に示す。大腸菌の野生型λ−リプレッサー蛋白質の立体構造原子座標はプロテイン・データ・バンク（ＰｒｏｔｅｉｎＤａｔａＢａｎｋ）に登録公開されており（登録番号１ＬＭＢ）、この原子座標を雛形蛋白質として用いた。
【０１２７】
野生型λ−リプレッサー蛋白質のバリン−３６位、メチオニン−４０位およびバリン−４７位アミノ酸残基はいわゆる疎水性コア部分に位置しており、これら３残基を多重変異させることにより、野生型よりも耐熱性に優れた変異型λ−リプレッサー蛋白質を設計できることが期待された。
【０１２８】
実際の多重突然変異計算にあたっては、本発明のアルゴリズムを実装した計算機プログラムｓｈｒｉｋｅ（鐘淵化学工業から入手可能）を用い、上記耐熱性向上設計を実施した。この実装構成例を図４に示す。
【０１２９】
ＧＡプロセスにおける計算パラメータとしては、計算実施回数つまり集団数を２、変異蛋白質集団のメンバー数つまり個体数を１００、世代数を４０、突然変異率を初回のみ１００％および次回以降を２０％、淘汰率すなわち生残率を７０％、、交叉率を２０％とし、増殖率は個体数不変とした。変異蛋白質立体構造最適化プロセスにおける所望の特性値としては、ＡＭＢＥＲ分子力場ポテンシャルおよび溶媒和ポテンシャルを用いた。蛋白質特性算出プロセスにおける特性値としては、ＡＭＢＥＲ分子力場ポテンシャルおよび溶媒和ポテンシャルを用いて蛋白質全構造エネルギーを算出し、そのエネルギー値を蛋白質の特性値として用いた。多重変異蛋白質集団の相異なる２つのメンバーの該構造エネルギー値の差を、それら２つの変異蛋白質の熱安定性の指標とした。アミノ酸変異種の制約は、天然型アミノ酸２０種類のいずれへも変異可能であるという条件を用いた。
【０１３０】
ＧＡプロセスにおいて算出されたすべての多重変異蛋白質アミノ酸配列について、算出された上記構造エネルギー値を指標として整理し、設計結果とした。その結果のうち上位１２０種の多重変異蛋白質について、それらの３６位、４０位および４７位の変異型アミノ酸配列をアミノ酸１文字コードを用いて図５Ａおよび図５Ｂに示すとともに、それらの蛋白質特性値すなわち上記構造エネルギー差の値もまた図５Ａおよび図５Ｂに示す。
【０１３１】
図５Ａおよび図５Ｂに示した計算および設計結果と、合成された該変異蛋白質の実験結果のうちでデータ入手が可能なものとの比較を以下に示す。すなわち、文献ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ（１９９１）ｖｏｌ．２１９３５９−３７６頁に記載の実験結果によれば、図５Ａおよび図５Ｂ中の順位７位であるＬｅｕ−３６、Ｌｅｕ−４０、Ｉｌｅ−４７変異蛋白質および順位４４位であるＩｌｅ−３６、Ｍｅｔ−４０、Ｖａｌ−４７変異蛋白質は、図５Ａおよび図５Ｂ中の順位１０９位であるＶａｌ−３６、Ｍｅｔ−４０、Ｖａｌ−４７野生型蛋白質よりも高い耐熱性を備えていることが示されている。
【０１３２】
【表１】
【０１３３】
この結果をもって、本発明による変異蛋白質設計手段を用いることにより、目的特性値を最適にする変異蛋白質設計案を、精度を低下させることなく選択できることが示された。
【０１３４】
本実施例において結果として出力された変異蛋白質のアミノ酸の総数は、５１６であった。また、本実施例に要した計算時間は、計算機としてＳＧＩ社Ｏｒｉｇｉｎ２００を用いて３．６時間であった。一方、本発明で示されたＧＡプロセスを適用せずに考えられるすべてのアミノ酸配列の組み合わせを計算した場合、すなわち変異箇所３箇所各々について２０種類の天然型アミノ酸変異（すなわち、合計８０００個）を行なった場合、上記計算機を用いて３１．４時間の計算時間を要した。
【０１３５】
本発明の方法での出力結果のうち上位２００個と、従来技術の方法での出力結果のうち上位２００個とを比較すると、１９８個が重複していた。したがって、上位２００個を算出することに関する計算精度について、９９％の計算精度を有することが明らかになった。
【０１３６】
このように、本発明の方法を用いると、計算精度を低下させずに、時間を約１／１０に短縮することが可能である。
この結果をもって、本発明による変異蛋白質設計手段を用いることにより、目的特性値を最適にする変異蛋白質設計案を、短時間で選択できることが示される。さらに、本発明の方法は、ＤＥＥアルゴリズムのみを用いた蛋白質設計技術（Ｍａｌａｋａｕｓｋａｓ、Ｓ．ら（１９９８）、ＮａｔｕｒｅＳｔｒｕｃｔｕａｌＢｉｏｌｏｇｙ、５、４７０−４７５）では達成されなかった、自然界での分子進化に近い最適解を得ることができるという従来では予測不可能であった効果が達成された。
【０１３７】
【発明の効果】
変異蛋白質について自然条件に適合した最適解を、迅速かつ精度を落とさずに求めることができる。
【図面の簡単な説明】
【図１】遺伝的アルゴリズムを用いた変異蛋白質設計方法のフローチャートである。
【図２】変異蛋白質配列制御部の詳細構成例である。
【図３】変異蛋白質立体構造最適化装置および変異蛋白質特性値算出部の詳細構成例である。
【図４】本発明の実装構成例である。
【図５Ａ】実施例の結果説明図である。
【図５Ｂ】実施例の結果説明図の続きである。
【図６】本発明を実行するコンピュータ５００の構成例である。

Claims

多重変異蛋白質アミノ酸配列の最適化解を算出する方法であって、
（ａ）雛型蛋白質集団の配列データおよび該雛型蛋白質集団の立体構造データを入力するステップと、
（ｂ）該雛型蛋白質集団の配列データおよび立体構造データに基づいて、該雛形蛋白質集団の各メンバーの特性値を算出するステップと、
（ｃ）該アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力するステップと、
（ｄ）該計算パラメータ、所望の特性値および該雛形蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成するステップと、
（ｅ）該多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
（ｆ）エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
（ｇ）該計算パラメータ、該所望の特性値、該雛形蛋白質集団の各メンバーの立体構造データおよび特性値、ならびに該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、ステップ（ｈ）〜（ｊ）を実行する否か決定するステップと、
（ｈ）（ｇ）で実行すると決定される場合に、該計算パラメータ、所望の特性値および該雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成するステップと、
（ｉ）該新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
（ｊ）エネルギー極小化された該新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
（ｋ）該計算パラメータ、該所望の特性値、該雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、ステップ（ｈ）〜（ｊ）を実行する否か決定するステップと、
（ｌ）該雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、該所望の特性値を有するメンバーを選択するステップと、
（ｍ）該選択されたメンバーの配列データおよび特性値を出力するステップと
を包含する、方法。
前記雛形蛋白質集団の配列データがアミノ酸配列および／または核酸配列である、請求項１に記載の方法。
前記雛形蛋白質集団の立体構造データが、原子座標データ、分子トポロジーデータおよび分子力場定数からなる群より選択される少なくとも１つのデータを含む、請求項１に記載の方法。
前記雛形蛋白質集団が１のメンバーを含む、請求項１に記載の方法。
前記雛形蛋白質集団が２以上のメンバーを含む、請求項１に記載の方法。
前記特性値または前記所望の特性値が、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少なくとも１つのデータを含む、請求項１に記載の方法。
前記計算パラメータが、遺伝的アルゴリズムの計算パラメータである、請求項１に記載の方法。
前記計算パラメータが、ステップ（ｇ）においてなされる判断の基準となる特性値を含む、請求項１に記載の方法。
前記計算パラメータが、変異されるアミノ酸位置を特定する情報を含む、請求項１に記載の方法。
前記デッドエンド排除アルゴリズムが、１以上のアミノ酸残基に関して適用される、請求項１に記載の方法。
前記デッドエンド排除アルゴリズムが、すべてのアミノ酸残基に関して適用される、請求項１に記載の方法。
改変される蛋白質の特性が、熱安定性、化学安定性、基質化学選択性、基質立体選択性および至適ｐＨ値から選択される、請求項１に記載の方法。
前記アミノ酸配列が、天然アミノ酸、化学改変アミノ酸、非天然アミノ酸からなる群より選択される少なくとも１つの群から構成される、請求項２に記載の方法。
前記多重変異蛋白質集団の各メンバーが、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも１つの蛋白質を含む分子複合体である、請求項１に記載の方法。
多重変異蛋白質アミノ酸配列の最適化解を算出する装置であって、
（１）入力部と、
（２）計算部と、
（３）出力部とを備え、
ここで、該入力部は、
（ａ）雛型蛋白質集団の配列データおよび該雛型蛋白質集団の立体構造データを入力する手段と
（ｂ）該アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力する手段と
を含み、
該計算部は、
（ｃ）該雛型蛋白質集団の配列データおよび立体構造データに基づいて、該雛形蛋白質集団の各メンバーの特性値を算出する手段と、
（ｄ）該計算パラメータ、所望の特性値および該雛形蛋白質集団の立体構造データおよび特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成する手段と、
（ｅ）該多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行する手段と、
（ｆ）エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出し、そして該算出された立体構造データおよび特性値を格納する手段と、
（ｇ）該計算パラメータ、該雛形蛋白質集団の各メンバーの特性値および該多重変異蛋白質集団の各メンバーの特性値に基づいて、（ｄ）〜（ｆ）の手段において行われる集団生成ステップを反復するかを決定する手段と、
（ｉ）該雛形蛋白質集団の各メンバーの特性値および該多重変異蛋白質集団の各メンバーの特性値から、該所望の特性値を有するメンバーを選択する手段と
を含み、
該出力部は、
該選択されたメンバーの配列データおよび特性値を出力する手段
を含む、
装置。
前記雛形蛋白質集団の配列データがアミノ酸配列および／または核酸配列である、請求項１５に記載の装置。
前記雛形蛋白質集団の立体構造データが、原子座標データ、分子トポロジーデータおよび分子力場定数からなる群より選択される少なくとも１つのデータを含む、請求項１５に記載の装置。
前記雛形蛋白質集団が１のメンバーを含む、請求項１５に記載の装置。
前記雛形蛋白質集団が２以上のメンバーを含む、請求項１５に記載の装置。
前記特性値または前記所望の特性値が、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少なくとも１つのデータを含む、請求項１５に記載の装置。
前記計算パラメータが、遺伝的アルゴリズムの計算パラメータである、請求項１５に記載の装置。
前記計算パラメータが、手段（ｇ）においてなされる判断の基準となる特性値を含む、請求項１５に記載の装置。
前記計算パラメータが、変異されるアミノ酸位置を特定する情報を含む、請求項１５に記載の装置。
前記デッドエンド排除アルゴリズムが、１以上のアミノ酸残基に関して適用される、請求項１５に記載の装置。
前記デッドエンド排除アルゴリズムが、すべてのアミノ酸残基に関して適用される、請求項１５に記載の装置。
改変される蛋白質の特性が、熱安定性、化学安定性、基質化学選択性、基質立体選択性および至適ｐＨ値から選択される、請求項１５に記載の装置。
前記アミノ酸配列が、天然アミノ酸、化学改変アミノ酸、非天然アミノ酸からなる群より選択される少なくとも１つの群から構成される、請求項１６に記載の装置。
前記多重変異蛋白質集団の各メンバーが、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも１つの蛋白質を含む分子複合体である、請求項１５に記載の装置。
データ格納部をさらに備える、請求項１５に記載の装置。
入力されたデータに基づいて、多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
該方法は、（ａ）雛型蛋白質集団の配列データおよび該雛型蛋白質集団の立体構造データを入力するステップと、
（ｂ）該雛型蛋白質集団の配列データおよび立体構造データに基づいて、該雛形蛋白質集団の各メンバーの特性値を算出するステップと、
（ｃ）該アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力するステップと、
（ｄ）該計算パラメータ、所望の特性値および該雛形蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成するステップと、
（ｅ）該多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
（ｆ）エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
（ｇ）該計算パラメータ、該所望の特性値、該雛形蛋白質集団の各メンバーの立体構造データおよび特性値、ならびに該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、ステップ（ｈ）〜（ｊ）を実行する否か決定するステップと、
（ｈ）（ｇ）で実行すると決定される場合に、該計算パラメータ、所望の特性値および該雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成するステップと、
（ｉ）該新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除（ＤｅａｄＥｎｄＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
（ｊ）エネルギー極小化された該新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
（ｋ）該計算パラメータ、該所望の特性値、該雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、ステップ（ｈ）〜（ｊ）を実行する否か決定するステップと、
（ｌ）該雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、該所望の特性値を有するメンバーを選択するステップと、
（ｍ）該選択されたメンバーの配列データおよび特性値を出力するステップと
を包含する、記録媒体。