JP3964087B2 - 多重変異蛋白質アミノ酸配列の最適化解を算出する方法、装置、およびこの方法の処理を実行するプログラムを記憶する記憶媒体 - Google Patents

多重変異蛋白質アミノ酸配列の最適化解を算出する方法、装置、およびこの方法の処理を実行するプログラムを記憶する記憶媒体 Download PDF

Info

Publication number
JP3964087B2
JP3964087B2 JP36849899A JP36849899A JP3964087B2 JP 3964087 B2 JP3964087 B2 JP 3964087B2 JP 36849899 A JP36849899 A JP 36849899A JP 36849899 A JP36849899 A JP 36849899A JP 3964087 B2 JP3964087 B2 JP 3964087B2
Authority
JP
Japan
Prior art keywords
amino acid
protein population
protein
population
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36849899A
Other languages
English (en)
Other versions
JP2001184381A (ja
Inventor
壮一 守川
孝尚 中井
清人 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaneka Corp
Original Assignee
Kaneka Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaneka Corp filed Critical Kaneka Corp
Priority to JP36849899A priority Critical patent/JP3964087B2/ja
Priority to EP00987705A priority patent/EP1241598A4/en
Priority to PCT/JP2000/009127 priority patent/WO2001048640A1/ja
Publication of JP2001184381A publication Critical patent/JP2001184381A/ja
Priority to US10/177,646 priority patent/US20030236629A1/en
Application granted granted Critical
Publication of JP3964087B2 publication Critical patent/JP3964087B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Peptides Or Proteins (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、産業上有用な多重変異蛋白質アミノ酸配列の最適化解を算出する方法、多重変異蛋白質アミノ酸配列の最適化解を算出する装置、および多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを載せた記憶媒体に関する。特に、産業上有用な酵素またはシグナル伝達蛋白質の熱安定性、化学安定性、基質化学選択性、基質立体選択性、至適pH値のいずれかまたはそれらの組み合わせを改変する方法および装置ならびにそのような方法を記述するプログラムを載せた記憶媒体に関する。
【0002】
【従来の技術】
所望の構造および機能を有する蛋白質を自由に設計し、作製することは、分子生物学の主要な目的の一つである。従来、このような改変蛋白質の分子設計は、天然蛋白質のアミノ酸配列を、遺伝子改変または合成化学によって改変することによって、蛋白質の改変体を得、その蛋白質の改変体の生物学的機能(例えば、酵素活性)および物理化学的性質(例えば、熱安定性)などをもとの天然蛋白質と比較することによって分析することにより、行われてきている。
【0003】
既知の蛋白質を雛形として所望の特性をもつ変異蛋白質を設計する情報科学的方法も開発されている。その中でも、蛋白質分子原子座標を直接取り扱う設計方法は特に設計の信頼性が高い。その代表例としては、解候補となるすべての多重変異蛋白質のアミノ酸配列について、それら各々の変異蛋白質分子原子座標を算出した上でそれら各々の変異蛋白質の特性を算出し、その結果をもって所望の特性を有する変異蛋白質を選択するという方法がある。
【0004】
上記方法において、ある1つの解候補のみを考慮する場合、すなわちある1つの変異蛋白質分子の原子座標を高速に算出する方法としては、野生型蛋白質高次構造を雛形としてデッドエンド排除(dead end elimination)法またはデッドエンド排除アルゴリズムを用いた最適化方法を適用することにより、変異蛋白質分子原子座標を良い精度で算出する方法が知られている。
【0005】
【発明が解決しようとする課題】
多重変異蛋白質の最適解を求める際に、解候補となるすべての多重変異蛋白質の原子座標を算出することは、解候補数が膨大な数となるため現実的には困難である。例えば、変異対象となる蛋白質のアミノ酸配列中の任意の10残基について、それらアミノ酸各々をすべて20種類の天然型アミノ酸に置換した解候補を考えた場合、それらアミノ酸配列の組み合わせは20の10乗(2010)個という膨大な組み合わせ数となり、実用的な計算時間で多重変異蛋白質の原子座標および蛋白質特性を算出することは難しい。
【0006】
上記した膨大な数となる解候補の一部分のみを考慮するだけであれば、実用的な計算時間で多重蛋白質の原子座標および蛋白質特性を算出することが可能である。しかしながら、解候補の一部分のみを無作為に抽出し、その一部分のみの中から最適解を選択したとしても、全体の解候補の最適解である保証はまったくない。
【0007】
本発明の目的は、上記した課題を解決するために、計算精度を低下させることなく、かつ実用的な計算時間をもって多重変異蛋白質アミノ酸配列の最適化解を算出する方法、多重変異蛋白質アミノ酸配列の最適化解を算出する装置および多重変異蛋白質アミノ酸配列の最適化解を算出する方法を載せた記録媒体を提供することにある。
【0008】
【課題を解決するための手段】
本発明の方法は、遺伝的アルゴリズム(Genetic Algorithm:以下、GAともいう)による最適化方法を多重変異蛋白質のアミノ酸配列の最適化に適用し、得られた解候補である個々の多重変異蛋白質の立体構造原子座標の最適化に、デッドエンド排除(dead end elimination)(DEE)アルゴリズムを方法適用することにより、上記目的が達成される。
【0009】
1つの局面において、本発明は多重変異蛋白質アミノ酸配列の最適化解を算出する方法であって、多重変異蛋白質集団のメンバーに対して、雛形蛋白質集団の立体構造データに基づいて、上記メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除(Dead End Elimination)アルゴリズムを用いて探索すること、および上記メンバーの構造エネルギー極小化計算を実行することによって、最適な多重変異蛋白質の立体構造座標を算出するステップと、上記最適な多重変異蛋白質の立体構造座標から特性値を算出するステップと、上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、上記特性値を最適化するメンバーを算出するステップとを包含する、方法に関する。1つの実施態様において、上記最適な多重変異蛋白質の立体構造座標を算出するステップは、雛形蛋白質の立体構造型をおおむね保持する束縛条件下で行われ得る。
【0010】
好ましく局面において、本発明は、多重変異蛋白質アミノ酸配列の最適化解を算出する方法であって、
(a)雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造データを入力するステップと、
(b)上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、上記雛形蛋白質集団の各メンバーの特性値を算出するステップと、
(c)上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力するステップと、
(d)上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成するステップと、
(e)上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
(f)エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
(g)上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの立体構造データおよび特性値、ならびに上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、ステップ(h)〜(j)を実行する否か決定するステップと、
(h)(g)で実行すると決定される場合に、上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成するステップと、
(i)上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
(j)エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
(k)上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、ステップ(h)〜(j)を実行する否か決定するステップと、
(l)上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、上記所望の特性値を有するメンバーを選択するステップと、
(m)上記選択されたメンバーの配列データおよび特性値を出力するステップとを包含する、方法に関する。1つの実施態様において、上記雛形蛋白質集団の配列データがアミノ酸配列および/または核酸配列であり得る。別の実施態様において、上記雛形蛋白質集団の立体構造データは、原子座標データ、分子トポロジーデータおよび分子力場定数からなる群より選択される少なくとも1つのデータを含み得る。さらに別の実施態様において、上記雛形蛋白質集団は1のメンバーを含み得る。別の実施態様において、上記雛形蛋白質集団が2以上のメンバーを含み得る。別の実施態様において、上記特性値または上記所望の特性値は、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少なくとも1つのデータを含み得る。別の実施態様において、上記計算パラメータは、遺伝的アルゴリズムの計算パラメータであり得る。別の実施態様において、上記計算パラメータは、ステップ(g)においてなされる判断の基準となる特性値を含み得る。別の実施態様において、上記計算パラメータが、変異されるアミノ酸位置を特定する情報を含み得る。別の実施態様において、上記デッドエンド排除アルゴリズムは、1以上のアミノ酸残基に関して適用され得る。他の実施態様において、上記デッドエンド排除アルゴリズムは、すべてのアミノ酸残基に関して適用され得る。別の実施態様において、改変される蛋白質の特性は、熱安定性、化学安定性、基質化学選択性、基質立体選択性および至適pH値から選択され得る。別の実施態様において、上記アミノ酸配列は、天然アミノ酸、化学改変アミノ酸、非天然アミノ酸からなる群より選択される少なくとも1つの群から構成され得る。別の実施態様において、上記多重変異蛋白質集団の各メンバーは、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも1つの蛋白質を含む分子複合体であり得る。
【0011】
本発明の別の局面において、本発明は、多重変異蛋白質アミノ酸配列の最適化解を算出する装置であって、多重変異蛋白質集団のメンバーに対して、雛形蛋白質集団の立体構造データに基づいて、上記メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除(Dead End Elimination)アルゴリズムを用いて探索すること、および上記メンバーの構造エネルギー極小化計算を実行することによって、最適な多重変異蛋白質の立体構造座標を算出する手段と、上記最適な多重変異蛋白質の立体構造座標から特性値を算出する手段と、上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、上記特性値を最適化するメンバーを算出する手段とを包含する、装置に関する。1つの実施態様において、上記最適な多重変異蛋白質の立体構造座標を算出する手段は、雛形蛋白質の立体構造型をおおむね保持する束縛条件下で行われ得る。
【0012】
本発明の別の好ましい局面において、本発明は、多重変異蛋白質アミノ酸配列の最適化解を算出する装置であって、
(1)入力部と、
(2)計算部と、
(3)出力部とを備え、
ここで、上記入力部は、
(a)雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造データを入力する手段と
(b)上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力する手段と
を含み、
上記計算部は、
(c)上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、上記雛形蛋白質集団の各メンバーの特性値を算出する手段と、
(d)上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の立体構造データおよび特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成する手段と、
(e)上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行する手段と、
(f)エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出し、そして上記算出された立体構造データおよび特性値を格納する手段と、
(g)上記計算パラメータ、上記雛形蛋白質集団の各メンバーの特性値および上記多重変異蛋白質集団の各メンバーの特性値に基づいて、(d)〜(f)の手段において行われる集団生成ステップを反復するかを決定する手段と、
(i)上記雛形蛋白質集団の各メンバーの特性値および上記多重変異蛋白質集団の各メンバーの特性値から、上記所望の特性値を有するメンバーを選択する手段とを含み、上記出力部は、上記選択されたメンバーの配列データおよび特性値を出力する手段を含む、装置に関する。
【0013】
1つの実施態様において、上記雛形蛋白質集団の配列データはアミノ酸配列および/または核酸配列であり得る。別の実施態様において、上記雛形蛋白質集団の立体構造データは、原子座標データ、分子トポロジーデータおよび分子力場定数からなる群より選択される少なくとも1つのデータを含み得る。別の実施態様において、上記雛形蛋白質集団は1のメンバーを含み得る。別の実施態様において、上記雛形蛋白質集団は2以上のメンバーを含み得る。別の実施態様において、上記特性値または上記所望の特性値は、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少なくとも1つのデータを含み得る。別の実施態様において、上記計算パラメータが、遺伝的アルゴリズムの計算パラメータであり得る。別の実施態様において、上記計算パラメータが、手段(g)においてなされる判断の基準となる特性値を含み得る。別の実施態様において、上記計算パラメータが、変異されるアミノ酸位置を特定する情報を含み得る。別の実施態様において、上記デッドエンド排除アルゴリズムは、1以上のアミノ酸残基に関して適用され得る。別の実施態様において、上記デッドエンド排除アルゴリズムは、すべてのアミノ酸残基に関して適用され得る。別の実施態様において、改変される蛋白質の特性は、熱安定性、化学安定性、基質化学選択性、基質立体選択性および至適pH値から選択され得る。別の実施態様において、上記アミノ酸配列は、天然アミノ酸、化学改変アミノ酸、非天然アミノ酸からなる群より選択される少なくとも1つの群から構成され得る。別の実施態様において、上記多重変異蛋白質集団の各メンバーは、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも1つの蛋白質を含む分子複合体であり得る。別の実施態様において、データ格納部をさらに備え得る。
【0014】
本発明の別の局面において、本発明は、入力されたデータに基づいて、多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、上記方法は、多重変異蛋白質集団のメンバーに対して、雛形蛋白質集団の立体構造データに基づいて、上記メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除(Dead End Elimination)アルゴリズムを用いて探索すること、および上記メンバーの構造エネルギー極小化計算を実行することによって、最適な多重変異蛋白質の立体構造座標を算出するステップと、
上記最適な多重変異蛋白質の立体構造座標から特性値を算出するステップと、上記多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、上記特性値を最適化するメンバーを算出するステップと
を包含する、記憶媒体に関する。
【0015】
本発明の別の好ましい局面において,本発明は、入力されたデータに基づいて、多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
上記方法は、(a)雛型蛋白質集団の配列データおよび上記雛型蛋白質集団の立体構造データを入力するステップと、
(b)上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、上記雛形蛋白質集団の各メンバーの特性値を算出するステップと、
(c)上記アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力するステップと、
(d)上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成するステップと、
(e)上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
(f)エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
(g)上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの立体構造データおよび特性値、ならびに上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、ステップ(h)〜(j)を実行する否か決定するステップと、
(h)(g)で実行すると決定される場合に、上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成するステップと、
(i)上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
(j)エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
(k)上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、ステップ(h)〜(j)を実行する否か決定するステップと、
(l)上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、上記所望の特性値を有するメンバーを選択するステップと、
(m)上記選択されたメンバーの配列データおよび特性値を出力するステップと
を包含する、記録媒体に関する。
【0016】
【発明の実施の形態】
本発明は、遺伝的アルゴリズムを遺伝子変異の生成に適用し、生成された変異体の座標最適化にDEEを用いることによって達成された。
【0017】
「遺伝的アルゴリズム(GA)」とは、進化において中心課題である環境への適応現象を、遺伝的な情報処理として捉えた最適化のためのアルゴリズムであり、総合進化理論体系の中の分子的プロセスである。すなわち、遺伝的アルゴリズムは、生物にみられる目標の認識、環境との相互作用、記憶保存の性質を複合的に組み合わせたときに生じる自己組織化という学習に基づいた、適応のためのアルゴリズムであって、その情報の基盤を遺伝においたものである(米沢保雄(1993)、遺伝的アルゴリズム−進化理論の情報科学、森北出版)。
【0018】
生物は、その生存本能に基づいて、生き残るために達成すべき「目標」を「認識」する。「目標の認識」のために、生物は、進化の過程における淘汰(すなわち、削除)の基準および判定に有用な情報を利用し得る。生物はまた、生き残るための環境を予測する場合に、自らが「環境との相互作用」を行い得、その結果、生物は有効であった条件などを、「記憶保存」し得る。この結果、生物は、「学習および適応」という活動を行い得る。学習および適応において、生物の示す最大の特性である、高度な「自己組織化」現象が達成される。
【0019】
(遺伝的アルゴリズムの具体的な説明)
以下、遺伝的アルゴリズムの基本的スキームを説明する。
【0020】
遺伝的アルゴリズムは、生物が利用する有性生殖および自然選択という2つのプロセスを利用する。生物は、有性生殖において、精子と卵子との受精に代表されるように、相同染色体において対合を起こす。次いで、染色体の任意の地点で交叉が起き、遺伝子の交換すなわち遺伝子組換えが起きる。遺伝子組換えは、突然変異よりも有効かつ効率的な情報の多様化を達成する。自然選択において、有性生殖などによって多様化した個体群のいずれを残して次世代の生存生物すなわち適応生物とするかが決定される。遺伝的アルゴリズムの特徴として、従来のアルゴリズムとは異なり、局所解に落ち込む危険性が大幅に回避されることが挙げられる。
【0021】
遺伝的アルゴリズムの基本スキームを説明する。遺伝的アルゴリズムは全体として、大別して次の8つのプロセスを含む。
【0022】
(1)遺伝子型の決定処理
(2)集団発生処理
(3)個体の評価処理
(4)淘汰(削除)処理
(5)増殖処理
(6)交叉(組換え)処理
(7)突然変異処理
(8)群評価処理。
【0023】
(2)で生成した集団を(3)および(4)によって淘汰し、(5)〜(7)によって多様化し、得られた解を(8)で評価してその結果に応じて(3)〜(7)(本明細書において1「世代」と呼ぶ)を繰り返すという新個体生成および世代交代が遺伝的アルゴリズムの基本的スキームである。このように遺伝的アルゴリズムは、課題となる事象の集団(最適解領域;単一解ではなく複数の解の区域)を人工的に進化(すなわち、最適適応)させて、集団全体として真の最適値へ近づける。ここで、(4)〜(7)の処理は、1つ以上が省略されていてもよい。
【0024】
次いで、遺伝的アルゴリズムの各処理について解説する。
【0025】
(1)遺伝子型の決定処理
この処理では、遺伝子型を決定する処理を行う。事象またはシステムのモデル化(すなわち、事象の構成要素への分解、定義、および要素関係の定義)およびモデルの記号表現であるので、DNAおよびアミノ酸で記述することができる。代表的には二進数表現(ビット)、数値、文字などが挙げられるがこれらに限定されない。事象のモデル化がこのような記号表現に不向きであれば、そのような事象はGAに適合しない。
【0026】
(2)集団発生処理
多様性の生成処理を行う。基本的には、小さな違いを有する個体を多数発生させる。ランダム法およびルール法がある。ランダム法は、初期値が乱数発生に基づく。他方、ルール法では、初期値は一定基準に基づく。
【0027】
(3)個体の評価処理
この処理では、設定されている環境に適応度が高いものから低いものへのランキングを行う。蛋白質についての評価パラメータとしては、例えば、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学的ポテンシャル、溶媒和ポテンシャル、構造エントロピー、pIなどが挙げられるがこれらに限定されない。これらの評価パラメータは、蛋白質の生化学的性質と直接または間接の関連を有し得る。
【0028】
(4)淘汰(削除)処理
淘汰処理とは、(3)の評価関数での評価値に基づいて、次期世代に残す個体を選別する処理である。従って、ここでは、評価関数での評価に従って個体が削除される。淘汰は、その削除の様式によって大きく3つに分類される。
【0029】
(a)ランダム方式(ルーレット方式):個体を、適応度の数値による足切り的選択を最初に行い、その範囲内でランダムに選択する方式;
(b)適応度順位方式(ランキング方式):適応度の数値による足切り選択ではなく、所属する個体群での、適応度順に並べた場合の順位によって選択確率を決めており、その確率に基づいて選択する方式;および(c)高適応度抜粋方式(エリート保存方式):所属する群の中で、適応度が最大の個体を無条件で選択する方式。
【0030】
(5)増殖処理
この処理において、(4)での淘汰処理によって減少した個体数を増殖処理する。増殖処理は、予め決定した様式に従って、淘汰後の個体総数から一定の割合で個体を抽出して増殖処理することによって行われる。この処理によって、集団全体の適応度の平均値が上昇する、増殖処理は、例えば、評価値の高い個体を優先的に増殖させる処理、または残留した個体の割合に比例させて増殖させる処理などが挙げられる。
【0031】
(6)交叉(組換え)処理
交叉処理とは、遺伝子組換えでの交叉事象に倣い、ある個体の特定の記号群を別の個体の対応する記号群と交換する処理をいう。淘汰処理のみの処理では、その集団における最高の評価値を超える評価値を有する個体は生じないが、本処理によって、新たな高評価値を有する個体が生成する可能性がある。
【0032】
交叉には大きく分けて、1点交叉法、多点交叉法、一様交叉法、順位交叉法、循環交叉法、部分的交叉法などがある。
【0033】
(7)突然変異処理
突然変異処理とは、個体の特定部位を一定の確率で変化させる処理をいう。変化種は、全ての天然型アミノ酸(20種類)であっても、特定のアミノ酸種から選択される群でもよい。また、変化種は、非天然型アミノ酸または修飾されたアミノ酸を含み得る。淘汰または交叉の処理では、生じる最高値は初期値に拘束される。突然変異によって、初期値に依存しない高適合度の個体を生成することができる。突然変異には、その様式によって、転座方式、重複方式、逆位方式、挿入方式、欠失方式などがある。
【0034】
(8)生物集団の評価処理
この処理において、上記の処理によって得られた個体集団を、一定の特性パラメータによって評価処理する。ここで、上記のプロセスを反復するか否かの収量条件が判定される。
【0035】
このような処理を、何世代かのルーチンで繰り返すことにより、遺伝的アルゴリズムが達成される。
【0036】
(デッドエンド排除法(DEE))
デッドエンド排除法(Dead End Elimination)は、蛋白質においてアミノ酸の側鎖構造の最適値すなわち全体極小化エネルギー構造(global minimum energy conformation;GMEC)を予測する方法である(Desmet、J.ら(1992)、356、539−542;Desmet、J.ら(1994)、The Protein Folding Problem and Tertiary Structure Prediction、Merzら編、Birkhaeuser Boston、307−337)。側鎖をいくつかの回転異性体(rotamer)で近似すれば、仮定された主鎖構造の位置での側鎖構造の予測は異性体の組合せの問題となる。例えば、各残基あたり3個の異性体があると仮定すれば、3100の組合せが考えられる。ここで、ある残基の1つの異性体について、他の残基の側鎖の異性体の構造に拘らず、全体のエネルギーを非常に不利にすることがわかる場合、その特定の残基の異性体を有する構造の可能性はすべて評価対象から省略され得る。この判断を厳密に行うのがデッドエンド理論(dead end theorem)である。この方法によって、多くの蛋白質で、主鎖構造が与えられた時点で最適な側鎖構造を決定し得る。
【0037】
デッドエンド理論の実際を以下説明する。
【0038】
蛋白質結晶構造に関する統計学的分析によって、その蛋白質のアミノ酸側鎖は、その炭素鎖のねじれが一般に、ゴーシュ(+)型(+60°)、ゴーシュ(−)型(−60°)、およびトランス型(180°)の主として3つの立体配座をとることが明らかになってきた。さらに、種々のアミノ酸の中でも、ベンゼン環を有するトリプトファンまたはチロシンは90°に近いχ2角度をとり、ヒスチジンおよびトリプトファンは+90°または−90°の立体配座をとることも明らかになっておる。一般に、側鎖が長いアミノ酸ほど、とり得る立体配座の種類すなわち回転異性体(rotamer)は多くなり、例えば、リジンでは51種類、アルギニンでは55種類ほどの立体配座が可能であると考えられている(Desmet.ら(1992)前出)。
【0039】
このように想定された種々の回転異性体について、ポテンシャルエネルギー関数すなわち評価関数を生成する。この関数は、代表的に、結合の強さに関する項、結合角に関する項、結合のねじれに関する周期関数、非結合原子対についてのレナード−ジョーンズポテンシャル、水素結合についてのポテンシャル、および電荷についてのクーロン関数を含む。このような評価関数を用いて、回転異性体のエネルギーを算出し、以下使用する。
【0040】
デッドエンド排除アルゴリズムにおいては、所定のセットの回転可能な側鎖のGMECを算出することが目的である。このアルゴリズムは、テンプレートと呼ばれる固定された参照構造を用いて、考えられ得る種々の回転異性体を含む構造を比較する。テンプレートには、(1)主鎖の原子、(2)Cβ原子、(3)可能性のあるリガンド(例えば、水分子、金属イオン、基質、ヘム基など)、(4)相互作用する蛋白質(例えば、マルチマーを形成する場合の他のサブユニット)、(5)モデリングの際に必要でない側鎖が含まれる。
【0041】
ある残基の側鎖iの特定の回転異性体irについて、別の回転異性体itが存在する場合、以下のように計算してその回転異性体irを考慮から消去するか否かを決定する。ここで、ある残基の側鎖の回転異性体について、評価関数を用いてその側鎖に独特の自己エネルギーを算出する。さらに、テンプレートの固定原子とこの側鎖原子との相互作用エネルギーを算出し、この2つのエネルギーの和をその回転異性体の「固有エネルギー」(E(ir);irはある残基の特定の回転異性体)という。次いで、この回転異性体上の原子と、別の回転異性体上の原子との相互作用エネルギーの和を全ての残基について積分し、この値を「非結合対相互作用エネルギー」(ΣjE(irs); jsはiとは異なる残基の特定の回転異性体)という。非結合対相互作用エネルギーの各残基についての最小値の積分を「最小非結合対相互作用エネルギー」(ΣjminsE(irs))といい、非結合対相互作用エネルギーの各残基についての最大値の積分を「最大非結合対相互作用エネルギー」(ΣjmaxsE(irs))という。
【0042】
ここで、以下の関係:
【0043】
【数1】
【0044】
すなわち、ある回転異性体irの固有エネルギーおよび最小非結合対相互作用エネルギーの和が、別の回転異性体itの固有エネルギーおよび最大非結合対相互作用エネルギーの和よりも大きい場合は、回転異性体irをGMECの計算の際から省略する。この計算を順次各回転異性体について行うことにより、GMECに適合しない回転異性体をすべて省略し、GMEC計算を行う。
【0045】
計算には非必要な候補を効率的に省略できるので、DEEアルゴリズムを適用すれば、GMEC計算を大幅に短縮し得る。
【0046】
(エネルギー極小化計算)
次にエネルギー極小化計算について説明する。
【0047】
エネルギー極小化法とは、蛋白質構造などの系の安定構造を算出する方法である。エネルギー極小化法では、出発構造からさほど遠くない局所的な安定構造を求める。
【0048】
エネルギー極小化法においては、まず初期座標を与える。次に、この座標をエネルギーが低下すると期待される方向に少しずつ変化させて次の座標を得る。このステップを繰り返し、構造変化、エネルギー変化および力が充分小さくなったときにこの繰り返しを停止して、極小構造を得る(現代化学増刊13「新薬のリードジェネレーション」13章、分子動力学設計システム、東京化学同人を参照のこと)。
【0049】
代表的には、ベクトル表現で、
【0050】
【数2】
【0051】
と表され、ここで、〜付きのrは、nまたはn+1ステップにおける座標であり、δは座標の変化を表す。
【0052】
δを得るためには、代表的には、最大降下法、共役勾配法、Newton−Raphson法(NR法)および適応基底Newton−Raphson法(ABNR法)がある。
【0053】
最大降下法は、δに対してポテンシャルエネルギーの勾配をとる。
【0054】
【数3】
【0055】
極小点から遠く離れた場所では効率よくエネルギーが低下するが、極小点に近づくと、収束が遅くなる傾向がある。kは、線上探索で使用するパラメーターである。
【0056】
共役勾配法では、次のステップの座標を得るのにエネルギーの勾配に加え、前回の勾配も利用する。一般的に、収束は最大降下法より優れているといわれる。
【0057】
【数4】
【0058】
【数5】
【0059】
ここで、δ=−kn(▽nE)、αは、単純な線上探索で最適値が決められるパラメーターである。
【0060】
NR法では、δnの評価に対して一次微分(勾配)に加えて、二次微分行列(曲率)を利用する。
【0061】
【数6】
【0062】
【数7】
【0063】
この方法は、極小点付近の収束は極めて早いが、力の定数の行列とその逆行列のに計算がかかりすぎるという欠点を有している。また、大きな記憶容量も必要である。従って、巨大分子に適用するのは困難である。
【0064】
NR法が基底ベクトルを完全空間で解くのに対して、ABNR法は、副空間で解くという簡易法であり、巨大分子に適用し得る。前回までのステップにおいて最も大きな動きがあった部分を取り込むように、nステップ目の基底ベクトルは、過去p+1ステップの位置ベクトルから形成される。
【0065】
【数8】
【0066】
通常pは、4〜10の値が採用される。二次微分マトリクスは、減少した基底ベクトルおよび一次微分ベクトルから形成され、マトリクスの大きさは大幅に減少するので、計算時間も記憶容量も少なくてすむ。ABNR法は、一次微分法における計算の速さ、およびNR法の二次微分定法のうち、重要なもののみを取り込むという利点を有している。初回のp+1回ステップは、最大降下法で計算され、続いてABNR法が適用される。
【0067】
(定義)
以下、本明細書において使用される主な用語の一部を定義する。
【0068】
「雛形蛋白質集団」とは、本明細書において遺伝的アルゴリズムにおいて使用される場合、計算の基礎となる蛋白質の集団をいう。雛形蛋白質集団は、少なくとも1つの蛋白質を含み、代表的には2以上の蛋白質(すなわちメンバー)を含み、好ましくは、4以上の蛋白質を含み、より好ましくは同定されている同一の蛋白質スーパーファミリーに属する数の蛋白質を含むが、これらに限定されない。「多重変異蛋白質集団」とは、本発明の方法によって多重の変異が導入された蛋白質の集団をいう。多重変異蛋白質集団は、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成され得る。好ましくは、複数の同種分子から構成される。また、好ましくは、複数の異種分子から構成される。また、好ましくは、複数の同種分子と複数の異種分子との組み合わせから構成される。前記多重変異蛋白質集団の各メンバーは、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも1つの蛋白質を含む分子複合体であり得る。変異とは、蛋白質のアミノ酸配列が変更されることをいい、蛋白質のアミノ酸配列に、アミノ酸の置換、欠失、挿入が導入されるか、またはあるアミノ酸が修飾されることを含み得る。本明細書においては、多重変異とは、通常複数の変異をいうが、変異は1つでもあり得る。雛形蛋白質集団または多重変異蛋白質集団の「メンバー」とは、それぞれの集団に属する蛋白質メンバーをいう。
【0069】
蛋白質の「配列データ」とは、その蛋白質のアミノ酸配列データまたは、そのアミノ酸配列をコードする核酸配列データをいう。核酸配列は、公知の配列またはアミノ酸配列から推定される配列であり得る。
【0070】
蛋白質の「立体構造データ」とは、その蛋白質の三次元構造に関するデータをいう。蛋白質の立体構造データには、代表的に、原子座標データ、分子トポロジー、分子力場定数が挙げられる。原子座標データは、代表的に、X線結晶構造解析またはNMR構造解析から得られたデータであり、このような原子座標データは、新規にX線結晶構造解析またはNMR構造解析を行って得られ得るか、または公知のデータベース(例えば、プロテイン・データ・バンク(PDB))から入手し得る。原子座標データはまた、モデリングまたは計算によって作成されたデータであり得る。本明細書において、「立体構造型」または「フォールド」とは、蛋白質内部の二次構造の配置の仕方またはトポロジーをいう。本発明の方法は、好ましくは雛形蛋白質の立体構造型をおおむね保持する束縛条件下で実行され得る。
【0071】
分子トポロジーは、市販もしくはフリーウェアのツールプログラムを用いて算出し得るが、自作プログラムを用いてもよい。また、市販の分子力場計算プログラム(例えば、PRESTO、蛋白工学研究所株式会社、に付属のpreparプログラム)に付属の分子トポロジー計算プログラムを使用し得る。
【0072】
分子力場定数(または分子力場ポテンシャル)もまた、市販もしくはフリーウェアのツールプログラムを用いて算出し得るが、自作データを用いてもよい。また、市販の分子力場計算プログラム(例えば、AMBER、Oxford Molecular)に付属の分子力場定数データを使用し得る。
【0073】
蛋白質の「特性値」とは、蛋白質の物理化学的性質をいう。特性値は、配列データおよび/または立体構造データから計算され得る。蛋白質の特性値には、代表的に、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーが挙げられるが、これらに限定されない。蛋白質の特性値は、蛋白質の生化学的特性に関する値でもあり得る。蛋白質の特性値は、酵素またはシグナル伝達蛋白質のような蛋白質またはポリペプチドの熱安定性、化学安定性、酵素の基質化学選択性または基質立体選択性、至適pHなどの生化学的特性と直接または間接的な関連を有し得る。これらの直接的な関連または間接的な関連については、当業者は容易に認識し得る。従って、当業者は、自己の目的に従って「所望の特性値」を設定し、計算パラメータを決定し得る。ここで、所望の特性値は、本明細書において、ある蛋白質についての特性値を変更させる際の目標値をいう。
【0074】
本明細書において、「計算パラメータ」とは、本発明の方法を実行する際に必要となるパラメータをいう。計算パラメータには、代表的に遺伝的アルゴリズムの計算パラメータである。このような計算パラメータには、集団数、集団中の個体数、世代数、淘汰率、増殖率、交叉率、もしくは変異率のいずれか1つ、またはそれらの組み合わせを変化させることに関するパラメータが含まれる。ここで、「世代数」とは、遺伝的アルゴリズムを適用する数をいう。また、計算パラメータには、遺伝的アルゴリズムの反復についての判断の基準となる特性値もまた含まれる。計算パラメータには、変異されるアミノ酸位置を特定する情報も挙げられる。さらに、計算パラメータには、世代数Nに関する計算パラメータが含まれ、ここで、Nは、N−1回目までに算出された蛋白質の特性値の最適値と、N回目で算出された特性値の最適値とが初めて等価になる回数である。このように、計算パラメータは、変異の対象となる蛋白質の生化学的特性と、直接または間接的に関連し得、従って、これらの計算パラメータを適切に操作することによって、所望の生化学的特性を有するか、またた所望の生化学的特性に近い特性を有する蛋白質を生成し得る。
【0075】
本発明は、一つの局面において、多重変異蛋白質の最適化解を算出する方法に関する。
【0076】
本発明の多重変異蛋白質アミノ酸配列の最適化解を算出する方法は、多重変異蛋白質集団のメンバーに対して、雛形蛋白質集団の立体構造データに基づいて、該メンバーの各々のアミノ酸配列のアミノ酸側鎖立体構造座標をデッドエンド排除アルゴリズムを用いて探索すること、および該メンバーの構造エネルギー極小化計算を実行することによって、最適な多重変異蛋白質の立体構造座標を算出するステップと、該最適な多重変異蛋白質の立体構造座標から特性値を算出するステップと、該多重変異蛋白質集団に対して遺伝的アルゴリズムを適用して、該特性値を最適化するメンバーを算出するステップとを包含する。
【0077】
図1は、多重変異蛋白質の最適化解を算出する方法を示す例示的なフローチャートである。図1に示される方法の処理は、コンピュータ500によって実行され得る。
【0078】
図6は、本発明の多重変異蛋白質の最適化解を算出する方法の処理を実行するコンピュータの500の構成例を示す。
【0079】
コンピュータ500は、入力部501と、CPU502と、出力部503と、メモリ504と、バス505とを備える。入力部501と、CPU502と、出力部503と、メモリ504とは、バス505によって相互に接続されている。入力部501と出力部503とは入出力装置506に接続されている。
【0080】
以下、コンピュータ500によって実行される多重変異蛋白質の最適化解を算出する方法の処理の概略を説明する。
【0081】
図1に示される本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方法の処理を表現するプログラム(以下、最適化プログラム)は、例えば、メモリ502に格納されている。あるいは、最適化プログラムは、フロッピーディスク、MO、CD−ROM、DVD−ROMのような任意のタイプの記録媒体に記録され得る。そのような記録媒体に記録された最適化プログラムは、出入力装置506(例えば、ディスクドライブ)を介してコンピュータ500のメモリ504にロードされる。CPU502が最適化プログラムを実行することによって、コンピュータ500は、本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方法の処理を実行する装置として機能する。
【0082】
入力部501を介して、雛形蛋白質集団の配列データおよび雛形蛋白質集団の立体構造データおよび計算パラメータを入力する。
【0083】
CPU502は、入力部501で入力された情報をもとに、雛形蛋白質集団の各メンバーの特性値を算出し、メモリ504に特性値データを格納する。次いで、CPU502は、計算パラメータ、所望の特性値および雛形蛋白質集団の立体構造および特性値に基づいて、雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成する。その後、CPU502は、多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、アミノ酸側鎖の位置を最適化し、エネルギー極小化計算を実行する。次いで、CPU502は、エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出し、この算出された立体構造データおよび特性値をメモリ504に格納し得る。
【0084】
次に、CPU502は、計算パラメータ、雛形蛋白質集団の各メンバーの特性値および多重変異蛋白質集団の各メンバーの特性値に基づいて、再度上記アルゴリズムを反復するか決定する。上記アルゴリズムが反復されると決定した場合には、CPU502はさらに、上記アルゴリズムを反復し得る。
【0085】
反復する場合は、CPU502は、計算パラメータ、所望の特性値および雛形蛋白質集団の特性値のほかに、これまでに算出された特性も考慮して、雛形蛋白質集団に遺伝的アルゴリズムを適用し、多重変異蛋白質集団を生成し、その後の処理を続ける。
【0086】
CPU502が反復を中止する判断を下した場合、CPU502は、メモリ504に格納されている雛形蛋白質集団の各メンバーの特性値および多重変異蛋白質集団の各メンバーの特性値から、所望の特性値を有するメンバーを選択する。
【0087】
その後、出力部503は、CPU502が選択したメンバーの配列データおよび特性値を出力する。出力されたデータは、入出力装置506から出力され得る。
【0088】
以下、本発明の方法の詳細を、図1を参照しながら説明する。
【0089】
本発明の方法は、多重変異蛋白質の最適化解を算出する方法であって、代表的には、以下のステップ(10)〜(50)を包含する。各ステップは、入力部501、CPU502または出力部503(図6)によって実行される。
【0090】
ステップ10:入力部501に、雛型蛋白質集団の配列データおよびこの雛型蛋白質集団の立体構造データが入力される。
【0091】
このステップでは、本発明の方法において基本データと使用される雛型蛋白質集団の配列データおよびその立体構造データを入力する。入力されたデータは、メモリ504に格納され得る。配列データは、アミノ酸配列または核酸配列であり得る。アミノ酸配列は、修飾基(たとえば、糖鎖、脂肪酸、硫酸基など)で修飾されていてもよい。アミノ酸配列に使用されるアミノ酸は、天然アミノ酸、非天然アミノ酸のいずれかまたはその両方であり得る。アミノ酸配列または核酸配列のデータは、公知のデータベース(SwissProt、GenBankなど)から入手し得るか、または当該分野で周知の技術(例えば、サンガー法、エドマン法など)を用いて新たに決定し得る。入力される立体構造データは、例えば、原子座標データなどであり得る。原子座標は、例えば、X線構造解析などによる実験データ、もしくは、モデリングまたは計算などによって作成された座標データであり得る。立体構造データはまた、例えば、公知のデータベース(例えば、PDBなど)から入手し得る。
【0092】
ステップ12:CPU502は、上記雛型蛋白質集団の配列データおよび立体構造データに基づいて、該雛形蛋白質集団の各メンバーの特性値を算出する。算出されたデータは、メモリ504に格納され得る。ステップ10で入力されたデータに基づいて、本発明の方法において用いる特性値の計算を行う。特性値は、最適値を決定する際の決定要因である。本発明で使用され得る特性値には、例えば、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーが挙げられる。
【0093】
ステップ14:入力部501において、下記のアルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値が入力される。
【0094】
このステップにおいて、本発明の方法においてアルゴリズムを実施する際の計算パラメータなどが入力される。入力されたデータは、メモリ504に格納され得る。入力され得る計算パラメータには、遺伝的アルゴリズムのパラメータ、例えば、世代数、変異率、淘汰率、淘汰方法、交叉率、交叉方法のようなパラメータが挙げられる。計算パラメータは、選択基準となる特性値であり得る。計算パラメータはまた、世代間の評価であり得、例えば、第N−1世代までの最適値と第N世代までの最適値が一致した場合に計算を終了するという条件であり得る。
【0095】
所望の特性値とは、本発明の方法によって入手することを目的とする多重変異体蛋白質についての任意の特性値である。所望の特性値には、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーなどが挙げられる。所望の特性値は、蛋白質の生化学的特性値でもあり得る。あるいは、所望の特性値は、蛋白質の生化学的特性値と直接または間接的に関連し得る。従って、所望の特性値は、蛋白質の生化学的特性の変異の様式に応じて変更させ得る。
【0096】
当業者が、計算パラメータを、所望の特性値に応じて、適切に設定し得ることは明らかである。
【0097】
ステップ20:CPU502は、上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成する。
【0098】
このステップにおいて遺伝的アルゴリズムを雛形蛋白質集団に適用する。遺伝的アルゴリズムは、上記に記載したように、入力された集団に対して、各個体の評価処理、淘汰処理、増殖処理、交叉処理、突然変異処理、および群評価処理を行う。淘汰処理、増殖処理、交叉処理および突然変異処理は、すべて行ってもよく、1以上の処理を行わなくてもよい。ステップ20は第1回目の遺伝的アルゴリズムの適用であり、入力された雛形蛋白質集団に対して遺伝的アルゴリズムが適用される。必要に応じて、遺伝的アルゴリズムが局所解に陥らないように、lこの1回目の遺伝的アルゴリズムの突然変異率(例えば、50%、75%、100%など)を高くし、多様性を充分担保することが好ましい。このステップで生成されたデータは、メモリ504に格納され得る。
【0099】
ステップ22:CPU502は、上記多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行する。
【0100】
このステップでは、ステップ20で生成した多重変異蛋白質集団の各メンバーのアミノ酸配列の各アミノ酸残基について、デッドエンド排除アルゴリズムによりそれらの原子座標を最適化し、エネルギー最小化計算を行う。デッドエンド排除アルゴリズムにおいては、全てのアミノ酸残基について処理を行ってもよく、変異されていないアミノ酸残基の一部またはすべてを固定して処理を行ってもよい。好ましくは、変異したアミノ酸残基およびそれらの近傍の変異されていないアミノ酸残基に対して処理を行う。このステップで生成されたデータは、メモリ504に格納され得るか、または出力部503から出力され得る。ここで、出力されるデータは、例えば、蛋白質を構成する原子各々を一意的に示す名称、およびそれらの原子の構造座標であり得る。
【0101】
ステップ24:CPU502は、エネルギー極小化された上記多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出する。
【0102】
このステップにおいて、エネルギー極小化計算を行った上記の蛋白質集団の立体構造データは上記に記載した周知方法などにより計算され、そしてステップ12で行ったのと同様な方法で特性値が算出される。算出されたデータは、解候補であり、必要に応じて格納部に格納され得る。このステップで生成されたデータは、メモリ504に格納され得る。
【0103】
ステップ30:CPU502は、上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの特性値、および上記多重変異蛋白質集団の各メンバーの特性値に基づいて、以下のステップ21、23および25を実行する否か決定する。
【0104】
ステップ20、22および24において算出された多重変異蛋白質集団の特性値を評価して、所望の特性値が得られた否か、または入力された遺伝的アルゴリズムの計算パラメータのいずれかに基づいて、再度の遺伝的アルゴリズムを適用するかを決定する。このステップでの判定は、回数で決定してもよく、この場合、例えば、N(ここで、Nは、N−1回目までに算出された蛋白質の特性値の最適値と、N回目で算出された特性値の最適値とが初めて等価になる回数である)回目で反復を停止させ得る。ステップ21、23および25を実行しないと決定した場合は、ステップ40に進む。
【0105】
ステップ21:ステップ30で実行すると決定された場合、または下記のステップ31において反復すると決定された場合、CPU502は、上記計算パラメータ、所望の特性値および上記雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、上記雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成する。このステップで生成されたデータは、メモリ504に格納され得る。
【0106】
このステップにおいて遺伝的アルゴリズムを、雛形蛋白質集団および上記で生成された多重変異蛋白質集団を含む集団に適用する。遺伝的アルゴリズムは、上記に記載したように、入力された集団に対して、各個体の評価処理、淘汰処理、増殖処理、交叉処理、突然変異処理、および群評価処理を行う。淘汰処理、増殖処理、交叉処理および突然変異処理は、すべて行ってもよく、1以上の処理を行わなくてもよい。このステップは、2回目以降の遺伝的アルゴリズムの適用ステップである。2回目以降の遺伝的アルゴリズムにおいて遺伝的アルゴリズムが適用される集団は、雛形蛋白質集団に含まれる蛋白質メンバーの他に、これまでの遺伝的アルゴリズムによって生成した多重変異蛋白質集団の蛋白質メンバーも存在し得る。必要に応じて、遺伝的アルゴリズムが局所解に陥らないように、突然変異率(例えば、50%、75%または100%など)を高くし、多様性を充分担保してもよい。このステップで生成されたデータは、メモリ504に格納され得る。
【0107】
ステップ23:CPU502は、上記新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、上記アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行する。このステップで生成されたデータは、メモリ504に格納され得る。
【0108】
このステップにおいて、ステップ21で生成した多重変異蛋白質集団の各メンバーのアミノ酸配列の各アミノ酸残基について、デッドエンド排除アルゴリズムにより最適化し、エネルギー極小化計算が行われる。なお、すでに極小化計算がなされた蛋白質メンバーについては、この極小化計算が省略され得る。デッドエンド排除アルゴリズムにおいては、全てのアミノ酸残基について処理を行ってもよく、変異されていないアミノ酸残基を固定して処理を行ってもよい。
【0109】
ステップ25;CPU502は、エネルギー極小化された上記新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出する。
【0110】
このステップにおいて、ステップ23においてエネルギー極小化計算を行った上記の蛋白質集団の立体構造データを当該分野で周知の方法により計算し、そして蛋白質集団の各蛋白質メンバーの特性値を、ステップ12で行ったのと同様な方法で算出する。算出されたデータは、解候補であり、メモリ504に格納され得る。
【0111】
ステップ31:CPU502は、上記計算パラメータ、上記所望の特性値、上記雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、さらにステップ21、23および25を実行する否か決定する。このステップでの判定は、回数で決定してもよく、この場合、例えば、N(ここで、Nは、N−1回目までに算出された蛋白質の特性値の最適値と、N回目で算出された特性値の最適値とが初めて等価になる回数である)回目で反復を停止させ得る。ステップ21、23および25を実行しないと決定した場合は、ステップ40に進む。
【0112】
ステップ40:CPU502は、上記雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、上記所望の特性値を有するメンバーを選択する。
【0113】
多重変異蛋白質集団の生成が終了した後、このステップにおいて、これまでに得られた各蛋白質メンバーの特性値を比較し、所望の特性値を有する蛋白質メンバーを選択する。選択されるメンバーは、メモリ504に格納されているデータから選択され得る。選択する数は、1つでも、複数でもよく、例えば、少なくとも5、10、20,50、100または200個選択し得る。場合によっては、雛形蛋白質集団のメンバーから所望の特性値を有するものが選ばれ得るが、通常は多重変異蛋白質集団からのメンバーが所望の特性値を有する。所望の特性値を有する個体は、必ずしも集団内での存在比は高くならないことに注意する。
【0114】
ステップ50:出力部503は、上記選択されたメンバーの配列データおよび特性値を出力する。このステップにおいて、ステップ40で選択された所望の特性値を有する蛋白質メンバーの配列データおよび特性値を出力する。出力形式は、どんな形式でもよいが、例えば、特性値を階級付けし、最適値からランク付けしてリスト形式で出力し得る。出力されるデータは、紙にプリントアウトされてもよく、記憶媒体(例えば、磁気記憶装置(例えば、ハードディスク、フロッピーディスクなど)、光学記憶装置(例えば、MOディスクなど)など)に格納されてもよい。
【0115】
なお、図6に示される例では、多重変異蛋白質の最適化解を算出する装置に含まれる各部が、ソフトウェアによって実現されている。しかし、多重変異蛋白質の最適化解を算出する装置に含まれる各部の機能をハードウェア(回路)によって実現することも可能である。
【0116】
次に、本発明に適用される遺伝的アルゴリズムを説明する。
【0117】
図2は、GAにおけるある1世代のスキームを示す。現世代の多重変異蛋白質アミノ酸配列集団(201)に対してGAプロセスを実行する。本発明におけるGAプロセスは、対応する現世代の多重変異蛋白質特性値データベース(203)より得た蛋白質特性値および淘汰率により淘汰を実行するプロセス(202)、集団中の個体数変化および増殖率により増殖を実行するプロセス(204)、交叉率により交叉を実行するプロセス(206)、突然変異率により突然変異プロセス(208)の組み合わせにより実行される。これらのプロセスを順次実行し、次世代の多重変異蛋白質アミノ酸配列集団(210)を得る。プロセス(202)〜(208)の実行順序は図2と異なっていてもよく、いずれかのプロセスを実行しなくともよい。プロセス(202)〜(208)において使用されるGAの変数、すなわち集団中の個体数、世代数、淘汰率、増殖率、交叉率および突然変異率は各世代および各集団ごとに変更することができ、かつ変異が許容されるアミノ酸種を限定することができる。
【0118】
以下、本発明において適用されるデッドエンド排除(DEE)アルゴリズムを、説明する。
【0119】
図3は、GAにおけるある1世代に対して、その世代に含まれる変異蛋白質集団各々の立体構造原子座標を算出し、ついで各々の蛋白質特性値を算出するプロセスを示す。まず、現世代の多重変異蛋白質アミノ酸配列集団(201)から、順次あるひとつの多重変異蛋白質アミノ酸配列(220)を選択する。そのアミノ酸配列情報を用いて、仮の変異蛋白質アミノ酸原子座標を、雛形となる蛋白質立体構造原子座標(101)にスーパーインポーズする(222)。この仮の原子座標に対して、デッドエンド排除アルゴリズムを適用した操作を実行し、変異蛋白質のアミノ酸側鎖原子座標を部分最適化する(224)。さらにエネルギー極小化計算を実行し、変異蛋白質のアミノ酸側鎖原子座標を全体最適化し(226)、最適化された多重変異蛋白質原子座標(228)を得る。プロセス(222)〜(226)を順次実行し、現世代の多重蛋白質原子座標集団(230)を得る。これらの蛋白質原子座標を用いて、各々の蛋白質特性値を算出し(240)、現世代の多重変異蛋白質特性値データベース(242)を作成する。この特性値データベースをGAにおける計算パラメータとして用い得る。
【0120】
一般に、蛋白質アミノ酸配列が多重変異する場合、各々のアミノ酸変異が蛋白質の特性に与える影響はほぼ相加的であり、まれに特定の複数アミノ酸変異が非相加的に影響を与えることが知られている。したがって、所望の特性をもつ変異蛋白質を効率よく設計するためには、所望の特性を変異蛋白質に相加的に与える各々のアミノ酸変異を組み合わせていくプロセスと、非相加的な複数アミノ酸変異を同時に考慮するプロセスとを組み合わせた方法が必要となる。広域的最適化方法であるGAはその探索特性により、上記した相加的なアミノ酸変異と非相加的な複数アミノ酸変異とを同時に考慮して、多重変異蛋白質のアミノ酸配列を最適化することができる。
【0121】
GAを適用することにより、解候補である多重変異蛋白質アミノ酸配列のすべてに対して対応する蛋白質立体構造原子座標および蛋白質特性値を算出することなく、解候補の一部に対してのみ対応する蛋白質立体構造原子座標および蛋白質特性値を算出し得、かつ計算精度を低下させることなく、計算時間を大幅に短縮することができる。
【0122】
本発明の多重変異蛋白質アミノ酸配列の最適解を算出する方法において、解候補である多重変異蛋白質アミノ酸配列に対して、雛形となる蛋白質高次構造をおおむね保持するという束縛条件下において、変異蛋白質のアミノ酸側鎖立体構造に対してDEE計算を実行し、ついでエネルギー極小化計算を適用することにより、多重変異蛋白質の立体構造原子座標を良い精度で算出し得る。解候補である多重変異蛋白質の立体構造原子座標は未知であることが多く、また新たに実験的に原子座標を決定することは多くの資源を消費するので、前記方法により、すべての候補について計算することなく原子座標が精度良く算出できることは有用である。
【0123】
得られた多重変異蛋白質の立体構造原子座標を用いることにより、有用な蛋白質の特性値を精度よく算出することができる。多重変異蛋白質のアミノ酸配列のみから得られる蛋白質の特性値は通常限られたものであり、また精度の高い特性値が得られない場合が多い。立体構造原子座標を用いることにより、例えば変異蛋白質の分子力学ポテンシャルまたは量子力学ポテンシャルを算出し、変異蛋白質が熱変性する過程での自由エネルギー変化量を算出することができる。この変化量は蛋白質の熱的安定性や化学的安定性、さらには蛋白質と他分子とが会合する過程での結合の強さを算出することができる。
【0124】
GAにおけるアミノ酸配列の変異において、集団数、集団中の個体数、世代数、淘汰率、増殖率、交叉率、突然変異率を変化させることにより、所望の設計パラメータに応じた多重変異蛋白質アミノ酸配列の最適化を行なうことができる。例えば集団中の個体数と交叉率や突然変異率を適切に設定することにより、雛形となる蛋白質のアミノ酸配列と、解候補とする多重変異型アミノ酸配列との差異の大小を制御することが可能であり、雛型に近い変異型または雛型から遠い変異型への最適化を選択的に行なうことができる。
【0125】
GAにおけるアミノ酸配列の変異において、各々のアミノ酸の変異が許容されるアミノ酸種を限定することにより、所望の設計諸元に応じた多重変異蛋白質アミノ酸配列の最適化を行なうことができる。例えば特定のアミノ酸変異部位について、そのアミノ酸種を塩基性アミノ酸種または酸性アミノ酸種等に限定することにより、多重変異蛋白質の静電的特性を雛形蛋白質と変えることなく、変異蛋白質の熱安定性を最適化することができる。
【0126】
【実施例】
DNA転写制御因子であるλ−リプレッサー蛋白質の耐熱性向上設計を試みた実施例を以下に示す。大腸菌の野生型λ−リプレッサー蛋白質の立体構造原子座標はプロテイン・データ・バンク(Protein Data Bank)に登録公開されており(登録番号1LMB)、この原子座標を雛形蛋白質として用いた。
【0127】
野生型λ−リプレッサー蛋白質のバリン−36位、メチオニン−40位およびバリン−47位アミノ酸残基はいわゆる疎水性コア部分に位置しており、これら3残基を多重変異させることにより、野生型よりも耐熱性に優れた変異型λ−リプレッサー蛋白質を設計できることが期待された。
【0128】
実際の多重突然変異計算にあたっては、本発明のアルゴリズムを実装した計算機プログラムshrike(鐘淵化学工業から入手可能)を用い、上記耐熱性向上設計を実施した。この実装構成例を図4に示す。
【0129】
GAプロセスにおける計算パラメータとしては、計算実施回数つまり集団数を2、変異蛋白質集団のメンバー数つまり個体数を100、世代数を40、突然変異率を初回のみ100%および次回以降を20%、淘汰率すなわち生残率を70%、、交叉率を20%とし、増殖率は個体数不変とした。変異蛋白質立体構造最適化プロセスにおける所望の特性値としては、AMBER分子力場ポテンシャルおよび溶媒和ポテンシャルを用いた。蛋白質特性算出プロセスにおける特性値としては、 AMBER分子力場ポテンシャルおよび溶媒和ポテンシャルを用いて蛋白質全構造エネルギーを算出し、そのエネルギー値を蛋白質の特性値として用いた。多重変異蛋白質集団の相異なる2つのメンバーの該構造エネルギー値の差を、それら2つの変異蛋白質の熱安定性の指標とした。アミノ酸変異種の制約は、天然型アミノ酸20種類のいずれへも変異可能であるという条件を用いた。
【0130】
GAプロセスにおいて算出されたすべての多重変異蛋白質アミノ酸配列について、算出された上記構造エネルギー値を指標として整理し、設計結果とした。その結果のうち上位120種の多重変異蛋白質について、それらの36位、40位および47位の変異型アミノ酸配列をアミノ酸1文字コードを用いて図5Aおよび図5Bに示すとともに、それらの蛋白質特性値すなわち上記構造エネルギー差の値もまた図5Aおよび図5Bに示す。
【0131】
図5Aおよび図5Bに示した計算および設計結果と、合成された該変異蛋白質の実験結果のうちでデータ入手が可能なものとの比較を以下に示す。すなわち、文献 Journal of Molecular Biology (1991) vol.219 359−376頁に記載の実験結果によれば、図5Aおよび図5B中の順位7位であるLeu−36、Leu−40、Ile−47変異蛋白質および順位44位であるIle−36、Met−40、Val−47変異蛋白質は、図5Aおよび図5B中の順位109位であるVal−36、Met−40、Val−47野生型蛋白質よりも高い耐熱性を備えていることが示されている。
【0132】
【表1】
【0133】
この結果をもって、本発明による変異蛋白質設計手段を用いることにより、目的特性値を最適にする変異蛋白質設計案を、精度を低下させることなく選択できることが示された。
【0134】
本実施例において結果として出力された変異蛋白質のアミノ酸の総数は、516であった。また、本実施例に要した計算時間は、計算機としてSGI社Origin200を用いて3.6時間であった。一方、本発明で示されたGAプロセスを適用せずに考えられるすべてのアミノ酸配列の組み合わせを計算した場合、すなわち変異箇所3箇所各々について20種類の天然型アミノ酸変異(すなわち、合計8000個)を行なった場合、上記計算機を用いて31.4時間の計算時間を要した。
【0135】
本発明の方法での出力結果のうち上位200個と、従来技術の方法での出力結果のうち上位200個とを比較すると、198個が重複していた。したがって、上位200個を算出することに関する計算精度について、99%の計算精度を有することが明らかになった。
【0136】
このように、本発明の方法を用いると、計算精度を低下させずに、時間を約1/10に短縮することが可能である。
この結果をもって、本発明による変異蛋白質設計手段を用いることにより、目的特性値を最適にする変異蛋白質設計案を、短時間で選択できることが示される。さらに、本発明の方法は、DEEアルゴリズムのみを用いた蛋白質設計技術(Malakauskas、S.ら(1998)、Nature Structual Biology、5、470−475)では達成されなかった、自然界での分子進化に近い最適解を得ることができるという従来では予測不可能であった効果が達成された。
【0137】
【発明の効果】
変異蛋白質について自然条件に適合した最適解を、迅速かつ精度を落とさずに求めることができる。
【図面の簡単な説明】
【図1】 遺伝的アルゴリズムを用いた変異蛋白質設計方法のフローチャートである。
【図2】 変異蛋白質配列制御部の詳細構成例である。
【図3】 変異蛋白質立体構造最適化装置および変異蛋白質特性値算出部の詳細構成例である。
【図4】 本発明の実装構成例である。
【図5A】 実施例の結果説明図である。
【図5B】 実施例の結果説明図の続きである。
【図6】 本発明を実行するコンピュータ500の構成例である。

Claims (30)

  1. 多重変異蛋白質アミノ酸配列の最適化解を算出する方法であって、
    (a)雛型蛋白質集団の配列データおよび該雛型蛋白質集団の立体構造データを入力するステップと、
    (b)該雛型蛋白質集団の配列データおよび立体構造データに基づいて、該雛形蛋白質集団の各メンバーの特性値を算出するステップと、
    (c)該アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力するステップと、
    (d)該計算パラメータ、所望の特性値および該雛形蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成するステップと、
    (e)該多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
    (f)エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
    (g)該計算パラメータ、該所望の特性値、該雛形蛋白質集団の各メンバーの立体構造データおよび特性値、ならびに該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、ステップ(h)〜(j)を実行する否か決定するステップと、
    (h)(g)で実行すると決定される場合に、該計算パラメータ、所望の特性値および該雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成するステップと、
    (i)該新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
    (j)エネルギー極小化された該新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
    (k)該計算パラメータ、該所望の特性値、該雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、ステップ(h)〜(j)を実行する否か決定するステップと、
    (l)該雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、該所望の特性値を有するメンバーを選択するステップと、
    (m)該選択されたメンバーの配列データおよび特性値を出力するステップと
    を包含する、方法。
  2. 前記雛形蛋白質集団の配列データがアミノ酸配列および/または核酸配列である、請求項1記載の方法。
  3. 前記雛形蛋白質集団の立体構造データが、原子座標データ、分子トポロジーデータおよび分子力場定数からなる群より選択される少なくとも1つのデータを含む、請求項に記載の方法。
  4. 前記雛形蛋白質集団が1のメンバーを含む、請求項に記載の方法。
  5. 前記雛形蛋白質集団が2以上のメンバーを含む、請求項に記載の方法。
  6. 前記特性値または前記所望の特性値が、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少なくとも1つのデータを含む、請求項に記載の方法。
  7. 前記計算パラメータが、遺伝的アルゴリズムの計算パラメータである、請求項に記載の方法。
  8. 前記計算パラメータが、ステップ(g)においてなされる判断の基準となる特性値を含む、請求項に記載の方法。
  9. 前記計算パラメータが、変異されるアミノ酸位置を特定する情報を含む、請求項に記載の方法。
  10. 前記デッドエンド排除アルゴリズムが、1以上のアミノ酸残基に関して適用される、請求項に記載の方法。
  11. 前記デッドエンド排除アルゴリズムが、すべてのアミノ酸残基に関して適用される、請求項に記載の方法。
  12. 改変される蛋白質の特性が、熱安定性、化学安定性、基質化学選択性、基質立体選択性および至適pH値から選択される、請求項に記載の方法。
  13. 前記アミノ酸配列が、天然アミノ酸、化学改変アミノ酸、非天然アミノ酸からなる群より選択される少なくとも1つの群から構成される、請求項に記載の方法。
  14. 前記多重変異蛋白質集団の各メンバーが、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも1つの蛋白質を含む分子複合体である、請求項に記載の方法。
  15. 多重変異蛋白質アミノ酸配列の最適化解を算出する装置であって、
    (1)入力部と、
    (2)計算部と、
    (3)出力部とを備え、
    ここで、該入力部は、
    (a)雛型蛋白質集団の配列データおよび該雛型蛋白質集団の立体構造データを入力する手段と
    (b)該アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力する手段と
    を含み、
    該計算部は、
    (c)該雛型蛋白質集団の配列データおよび立体構造データに基づいて、該雛形蛋白質集団の各メンバーの特性値を算出する手段と、
    (d)該計算パラメータ、所望の特性値および該雛形蛋白質集団の立体構造データおよび特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成する手段と、
    (e)該多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行する手段と、
    (f)エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出し、そして該算出された立体構造データおよび特性値を格納する手段と、
    (g)該計算パラメータ、該雛形蛋白質集団の各メンバーの特性値および該多重変異蛋白質集団の各メンバーの特性値に基づいて、(d)〜(f)の手段において行われる集団生成ステップを反復するかを決定する手段と、
    (i)該雛形蛋白質集団の各メンバーの特性値および該多重変異蛋白質集団の各メンバーの特性値から、該所望の特性値を有するメンバーを選択する手段と
    を含み、
    該出力部は、
    該選択されたメンバーの配列データおよび特性値を出力する手段
    を含む、
    装置。
  16. 前記雛形蛋白質集団の配列データがアミノ酸配列および/または核酸配列である、請求項15に記載の装置。
  17. 前記雛形蛋白質集団の立体構造データが、原子座標データ、分子トポロジーデータおよび分子力場定数からなる群より選択される少なくとも1つのデータを含む、請求項15に記載の装置。
  18. 前記雛形蛋白質集団が1のメンバーを含む、請求項15に記載の装置。
  19. 前記雛形蛋白質集団が2以上のメンバーを含む、請求項15に記載の装置。
  20. 前記特性値または前記所望の特性値が、経験的分子力学ポテンシャル、半経験的量子力学ポテンシャル、非経験的量子力学ポテンシャル、電磁気学ポテンシャル、溶媒和ポテンシャルおよび構造エントロピーからなる群より選択される少なくとも1つのデータを含む、請求項15に記載の装置。
  21. 前記計算パラメータが、遺伝的アルゴリズムの計算パラメータである、請求項1に記載の装置。
  22. 前記計算パラメータが、手段(g)においてなされる判断の基準となる特性値を含む、請求項1に記載の装置。
  23. 前記計算パラメータが、変異されるアミノ酸位置を特定する情報を含む、請求項1に記載の装置。
  24. 前記デッドエンド排除アルゴリズムが、1以上のアミノ酸残基に関して適用される、請求項15に記載の装置。
  25. 前記デッドエンド排除アルゴリズムが、すべてのアミノ酸残基に関して適用される、請求項15に記載の装置。
  26. 改変される蛋白質の特性が、熱安定性、化学安定性、基質化学選択性、基質立体選択性および至適pH値から選択される、請求項15に記載の装置。
  27. 前記アミノ酸配列が、天然アミノ酸、化学改変アミノ酸、非天然アミノ酸からなる群より選択される少なくとも1つの群から構成される、請求項16に記載の装置。
  28. 前記多重変異蛋白質集団の各メンバーが、複数の同種分子、複数の異種分子、またはそれらの組み合わせから構成される少なくとも1つの蛋白質を含む分子複合体である、請求項15に記載の装置。
  29. データ格納部をさらに備える、請求項15に記載の装置。
  30. 入力されたデータに基づいて、多重変異蛋白質アミノ酸配列の最適化解を算出する方法を実行するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    該方法は、(a)雛型蛋白質集団の配列データおよび該雛型蛋白質集団の立体構造データを入力するステップと、
    (b)該雛型蛋白質集団の配列データおよび立体構造データに基づいて、該雛形蛋白質集団の各メンバーの特性値を算出するステップと、
    (c)該アルゴリズムを実行する際に用いる計算パラメータおよび所望の特性値を入力するステップと、
    (d)該計算パラメータ、所望の特性値および該雛形蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、多重変異蛋白質集団を生成するステップと、
    (e)該多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
    (f)エネルギー極小化された該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
    (g)該計算パラメータ、該所望の特性値、該雛形蛋白質集団の各メンバーの立体構造データおよび特性値、ならびに該多重変異蛋白質集団の各メンバーの立体構造データおよび特性値に基づいて、ステップ(h)〜(j)を実行する否か決定するステップと、
    (h)(g)で実行すると決定される場合に、該計算パラメータ、所望の特性値および該雛形蛋白質集団の特性値、ならびにこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、該雛形蛋白質集団に遺伝的アルゴリズムを適用して、新たな多重変異蛋白質集団を生成するステップと、
    (i)該新たな多重変異蛋白質集団の各メンバーのアミノ酸残基のアミノ酸側鎖に対してデッドエンド排除(Dead End Elimination)アルゴリズムを適用して、該アミノ酸側鎖の位置を最適化し、次いで、エネルギー極小化計算を実行するステップと、
    (j)エネルギー極小化された該新たな多重変異蛋白質集団の各メンバーの立体構造データおよび特性値を算出するステップと、
    (k)該計算パラメータ、該所望の特性値、該雛形蛋白質集団の各メンバーの特性値、およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値に基づいて、ステップ(h)〜(j)を実行する否か決定するステップと、
    (l)該雛形蛋白質集団の各メンバーの特性値およびこれまでに生成されたすべての多重変異蛋白質集団の各メンバーの特性値から、該所望の特性値を有するメンバーを選択するステップと、
    (m)該選択されたメンバーの配列データおよび特性値を出力するステップと
    を包含する、記録媒体。
JP36849899A 1999-12-24 1999-12-24 多重変異蛋白質アミノ酸配列の最適化解を算出する方法、装置、およびこの方法の処理を実行するプログラムを記憶する記憶媒体 Expired - Fee Related JP3964087B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP36849899A JP3964087B2 (ja) 1999-12-24 1999-12-24 多重変異蛋白質アミノ酸配列の最適化解を算出する方法、装置、およびこの方法の処理を実行するプログラムを記憶する記憶媒体
EP00987705A EP1241598A4 (en) 1999-12-24 2000-12-21 METHOD AND DEVICE FOR CALCULATING THE OPTIMIZATION SOLUTION OF A MULTI-MUTANT PROTEIN AMINO ACID SEQUENCE, AND PROGRAM STORAGE MEDIUM FOR PERFORMING SAID METHOD
PCT/JP2000/009127 WO2001048640A1 (fr) 1999-12-24 2000-12-21 Procede et dispositif de calcul de la solution d'optimisation d'une sequence d'acides amines de proteines mutantes multiples, et support de stockage du programme permettant l'execution dudit procede
US10/177,646 US20030236629A1 (en) 1999-12-24 2002-06-20 Method and apparatus for calculating optimized solution of amino acid sequences of multiple-mutated proteins and storage medium storing program for executing the method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP36849899A JP3964087B2 (ja) 1999-12-24 1999-12-24 多重変異蛋白質アミノ酸配列の最適化解を算出する方法、装置、およびこの方法の処理を実行するプログラムを記憶する記憶媒体
US10/177,646 US20030236629A1 (en) 1999-12-24 2002-06-20 Method and apparatus for calculating optimized solution of amino acid sequences of multiple-mutated proteins and storage medium storing program for executing the method

Publications (2)

Publication Number Publication Date
JP2001184381A JP2001184381A (ja) 2001-07-06
JP3964087B2 true JP3964087B2 (ja) 2007-08-22

Family

ID=32232553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36849899A Expired - Fee Related JP3964087B2 (ja) 1999-12-24 1999-12-24 多重変異蛋白質アミノ酸配列の最適化解を算出する方法、装置、およびこの方法の処理を実行するプログラムを記憶する記憶媒体

Country Status (4)

Country Link
US (1) US20030236629A1 (ja)
EP (1) EP1241598A4 (ja)
JP (1) JP3964087B2 (ja)
WO (1) WO2001048640A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042375A1 (en) * 2007-08-08 2010-02-18 Wisconsin Alumni Research Foundation System and Method for Designing Proteins
JP5382675B2 (ja) * 2007-10-19 2014-01-08 独立行政法人産業技術総合研究所 安定な変異型タンパク質の製造方法
JP5252341B2 (ja) * 2007-12-07 2013-07-31 独立行政法人産業技術総合研究所 変異型タンパク質のアミノ酸配列設計方法および装置。
JP2010004763A (ja) * 2008-06-25 2010-01-14 Kaneka Corp β−ケトチオラーゼ変異体
EP2527436B1 (en) 2010-01-20 2016-12-14 Kaneka Corporation Nadh oxidase mutant having improved stability and use thereof
JPWO2013002277A1 (ja) 2011-06-28 2015-02-23 株式会社カネカ 酵素機能改変方法及びその変異体
JP6353799B2 (ja) * 2015-03-10 2018-07-04 一夫 桑田 プログラムおよび支援方法
JP2022512637A (ja) * 2018-10-11 2022-02-07 バークレー ライツ,インコーポレイテッド 最適化タンパク質生成の同定のためのシステム及び方法並びにそのためのキット
CN115409174B (zh) * 2022-11-01 2023-03-31 之江实验室 一种基于dram存内计算的碱基序列过滤方法与装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK0974111T3 (da) * 1997-04-11 2003-04-22 California Inst Of Techn Apparat og metode til automatiseret design af proteiner

Also Published As

Publication number Publication date
US20030236629A1 (en) 2003-12-25
EP1241598A1 (en) 2002-09-18
EP1241598A4 (en) 2006-07-26
WO2001048640A1 (fr) 2001-07-05
JP2001184381A (ja) 2001-07-06

Similar Documents

Publication Publication Date Title
Chowdhury et al. A review on multiple sequence alignment from the perspective of genetic algorithm
Sinha et al. A probabilistic method to detect regulatory modules
Barrett et al. Scoring hidden Markov models
Pedersen et al. Genetic algorithms for protein structure prediction
JP3964087B2 (ja) 多重変異蛋白質アミノ酸配列の最適化解を算出する方法、装置、およびこの方法の処理を実行するプログラムを記憶する記憶媒体
CN111863121A (zh) 一种基于图卷积神经网络的蛋白质自相互作用预测方法
Chowdhury et al. A bi-objective function optimization approach for multiple sequence alignment using genetic algorithm
Hu et al. Recognition of β-hairpin motifs in proteins by using the composite vector
Congdon et al. Preliminary results for GAMI: A genetic algorithms approach to motif inference
Patel et al. Protein secondary structure prediction using support vector machines (SVMs)
Chaabane A hybrid solver for protein multiple sequence alignment problem
US20100304983A1 (en) Method for protein structure determination, gene identification, mutational analysis, and protein design
WO2008134261A2 (en) A method for protein structure determination, gene identification, mutational analysis, and protein design
De Clercq et al. Deep learning for classification of DNA functional sequences
Martin et al. Choosing the optimal hidden Markov model for secondary-structure prediction
Rocha et al. A multiobjective approach for protein structure prediction using a steady-state genetic algorithm with phenotypic crowding
Rocha et al. Using crowding-distance in a multiobjective genetic algorithm for protein structure prediction
Pekuwali et al. Optimization of Spaced K-mer Frequency Feature Extraction using Genetic Algorithms for Metagenome Fragment Classification.
Kim et al. Binding matrix: a novel approach for binding site recognition
Rocha et al. Using an aggregation tree to arrange energy function terms for protein structure prediction
Lin et al. Evolutionary multitasking for multi-objective feature selection in classification
Kabir et al. Prediction of Phi and Psi Angle Fluctuations from Protein Sequences
Dubey et al. A novel framework for ab initio coarse protein structure prediction
Lajevardy et al. Developing new genetic algorithm based on integer programming for multiple sequence alignment
US20030059844A1 (en) Apparatus and method for predicting rules of protein sequence interactions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070523

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100601

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110601

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120601

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120601

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130601

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130601

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140601

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees