JP2003536117A - 進化シュミレーションにおける使用のためにデータ構造を居住させる方法 - Google Patents

進化シュミレーションにおける使用のためにデータ構造を居住させる方法

Info

Publication number
JP2003536117A
JP2003536117A JP2000594066A JP2000594066A JP2003536117A JP 2003536117 A JP2003536117 A JP 2003536117A JP 2000594066 A JP2000594066 A JP 2000594066A JP 2000594066 A JP2000594066 A JP 2000594066A JP 2003536117 A JP2003536117 A JP 2003536117A
Authority
JP
Japan
Prior art keywords
strings
string
initial
substrings
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000594066A
Other languages
English (en)
Other versions
JP4899024B2 (ja
JP2003536117A5 (ja
Inventor
サーゲイ エイ. セリホノブ,
ウィレム ピー. シー. ステマー,
Original Assignee
マキシジェン, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/408,392 external-priority patent/US6376246B1/en
Priority claimed from US09/408,393 external-priority patent/US6436675B1/en
Priority claimed from PCT/US2000/001138 external-priority patent/WO2000042559A1/en
Priority claimed from PCT/US2000/001202 external-priority patent/WO2000042560A2/en
Priority claimed from US09/494,282 external-priority patent/US6917882B2/en
Application filed by マキシジェン, インコーポレイテッド filed Critical マキシジェン, インコーポレイテッド
Priority claimed from US09/484,850 external-priority patent/US6368861B1/en
Priority claimed from US10/196,473 external-priority patent/US20030054390A1/en
Publication of JP2003536117A publication Critical patent/JP2003536117A/ja
Publication of JP2003536117A5 publication Critical patent/JP2003536117A5/ja
Publication of JP4899024B2 publication Critical patent/JP4899024B2/ja
Application granted granted Critical
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • C12N15/1031Mutagenizing nucleic acids mutagenesis by gene assembly, e.g. assembly by oligonucleotide extension PCR
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/0068Means for controlling the apparatus of the process
    • B01J2219/00686Automatic
    • B01J2219/00689Automatic using computers

Landscapes

  • Genetics & Genomics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 特に、本発明は、進化モデリングにおける使用のためのデータ構造を居住させる新規な方法を提供する。特に、本発明は、複数のキャラクターストリングを有するデータ構造を居住させるための方法を提供する。これらの方法は、2以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に2以上の生物学的分子をコードすること;キャラクターストリングのプールから少なくとも2つのサブストリングを選択すること;これらのサブストリングを結び付けて、1以上の初期キャラクターストリングとして同じ長さの1以上の解ストリングを形成すること;ストリングの収集物に解ストリングを加えること;ならびに必要に応じて、初期キャラクターストリングの収集物中の初期ストリングと1以上の解ストリングを使用して、このプロセスを繰り返すことを包含する。

Description

【発明の詳細な説明】
【0001】 (関連出願の相互参照) 本出願は、1999年10月21日に出願された米国特許出願第09/416
,837号の一部継続出願である。
【0002】 本出願はまた、SelifonovらのPCT出願(1999年1月18日出
願)(Jonathan Alan Quite法律事務所により、代理人書類
番号:02−289−3PC0で出願)による「METHODS FOR MA
KING CHARACTER STRINGS,POLYNUCLEOTID
ES AND POLYPEPTIDES HAVING DESIRED C
HARACTERISTICS」に対する優先権を主張する。PCT出願(19
99年1月18日出願)は、Selifonovらによる1999年10月12
日出願の米国特許出願第09/416,375号「METHODS FOR M
AKING CHARACTER STRINGS,POLYNUCLEOTI
DES AND POLYPEPTIDES HAVING DESIRED
CHARACTERISTICS」の一部継続出願である。Selifonov
らによる1999年10月12日出願の米国特許出願第09/416,375号
は、SelifonovおよびStemmerによる1999年1月19日出願
の米国特許出願第60/116,447号「METHODS FOR MAKI
NG CHARACTER STRINGS,POLYNUCELOTIDES
AND POLYPEPTIDES HAVING DESIRED CHA
RACTERISTICS」の正規出願であり、そしてまたSelifonov
およびStemmerによる1999年2月5日出願の米国特許出願第60/1
18,854号「METHODS FOR MAKING CHARACTER
STRINGS,POLYNUCLEOTIDES AND POLYPEP
TIDES HAVING DESIRED CHARACTERISTICS
」の正規出願である。
【0003】 本出願はまた、CrameriらのPCT出願(1999年1月18日出願)
(Jonathan Alan Quite法律事務所により、代理人書類番号
:02−296−3PCで出願)による「OLIGONUCLEOTIDE M
EDIATED NUCLEIC ACID RECOMBINATION」に
対する優先権を主張する。PCT出願(1999年1月18日出願)は、Cra
meriらによる1999年9月28日出願の米国特許出願第09/408,3
92号「OLIGONUCLEOTIDE MEDIATED NUCLEIC
ACID RECOMBINATION」の一部継続出願である。米国特許出
願第09/408,392号は、Crameriらによる1999年2月5日出
願の米国特許出願第60/118,813号「OLIGONUCLEOTIDE
MEDIATED NUCLEIC ACID RECOMBINATION
」の正規出願であり、そしてまたCrameriらによる1999年6月24日
出願の米国特許出願第60/141,049号「OLIGONUCLEOTID
E MEDIATED NUCLEIC ACID RECOMBINATIO
N」の正規出願である。
【0004】 本出願はまた、Welchらによる1999年9月28日出願の米国特許出願
第09/408,393号「USE OF CODON VARIED OLI
GONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING」に関連する。
【0005】 本出願は、適切に、米国特許法第119条および/または米国特許法第120
条に提供されるように、これらの出願の各々に対する優先権を主張し、そしてそ
の利益を請求する。これらの出願の全ては、全ての目的のためにそれらの全体が
参考として本明細書に引用される。
【0006】 (著作権の告知) この特許書類の開示の一部は、著作権の保護に供される材料を含む。著作権者
は、特許書類または特許が米国特許商標庁の特許ファイルまたは記録に現れるの
で、特許書類または特許の開示の誰によるファクシミリでの複製に対しても異論
はないが、他の点では、どんなことでも全ての著作権の権利を有する。
【0007】 (連邦政府により援助を受けた研究および開発の下で行われた発明に対する権
利に関しての宣言) 該当せず。
【0008】 (発明の分野) 本発明は、コンピューターモデリングおよびシュミレーションの分野に関する
。特に、本発明は、進化モデリングにおける使用のためにデータ構造を居住させ
る新規な方法を提供する。
【0009】 (発明の背景) 個々の遺伝システムおよび/または集団の遺伝/表現型システムの生命の進化
をシュミレーションおよび/または調査するコンピューターの使用の広汎な歴史
が存在する。ほとんどの人工生命(A生命)シュミレーションを推進する動力は
、人工生命体が進化し、そして/またはそれらの環境に対して適応させるアルゴ
リズムである。この基本的なアルゴリズムは、2つの主なカテゴリー(学習アル
ゴリズム(例えば、神経ネットワークにより代表されるアルゴリズム)および例
えば、遺伝アルゴリズムにより代表される進化アルゴリズムに分かれる。
【0010】 多くの人工生命研究者ら、特に学習および適応のようなより高次のプロセスに
関心のある研究者らは、人口脳として働く神経網をそれらの生物に与えている(
例えば、Touretzky(1088〜1991)、Neural Info
rmation Processing Systems、第1〜4巻、Mor
gan Kaufmann、1988〜1991を参照のこと)。ニュートラル
ネットワークは、学習アルゴリズムである。それらは、例えば、イメージをカテ
ゴリーに分類するように訓練され得る。代表的な課題は、どの文字が所定の手記
の文字に対応するかを認識することである。
【0011】 神経網は、ニューロンと呼ばれる入力−出力デバイスから構成され、これは、
(高度に接続された)ネットワークにおいて組織される。通常、ネットワークは
、複数の層(感覚入力を受ける入力層、実際の計算を実行する任意の数のいわゆ
る秘密層(hidden layers)、およびこれらの計算の結果を報告す
る出力層)へと組織される。神経ネットワークの訓練は、網内のニューロンの間
の接続の強度を調整することを包含する。
【0012】 生物学的に影響を与えられる基本的なアルゴリズムの他の主要な型は、「進化
」アルゴリズムである。プロセスの学習(例えば、神経ネットワーク)は、個々
の生物におけるプロセスの学習に比喩的に基づくが、進化アルゴリズムは、個体
の集団内の進化的な変化によって影響を与えられる。神経網に対して、進化アル
ゴリズムは、近年、学術団体および産業団体に広汎に受け入れられるのみであっ
た。
【0013】 進化アルゴリズムは、一般に反復的である。反復は、代表的には、「世代」と
していわれる。基本の進化アルゴリズムは、伝統的には、無作為に選択された個
体の集団で開始する。各世代において、個体は、課された問題を解決するために
それら自体の中で「競争」する。比較的十分に実行する個体は、次の世代へと「
生存」するようである。次の世代に生存している個体は、小さな無作為の改変に
供され得る。このアルゴリズムが正確に設定され、そしてこの問題が、実際に、
この様式における解答に対する1つの対象である場合、反復が進行するにつれて
、この集団は、質を向上させる解答を含む。
【0014】 最も有名な進化アルゴリズムは、J.Hollandのgenetic al
gorithm(J.H.Holland(1992)Adaptation
in Natural and Artificial Systems.Un
iversity of Michigan Press 1975、MIT
Pressによるリプリント)である。遺伝的アルゴリズムは、実際のコンテク
ストにおいて、広範に使用される(例えば、財務予測、経営科学など)。その解
空間(solution space)が不連続(「凹凸がある(rugged
)」)でありそして不十分に理解されている多変量問題に対して、特に良好に適
用される。遺伝的アルゴリズムを適用するために、当業者は、以下を定義する、
1)パラメーター値のセットから、(0−1)ビットストリング(例えば、キャ
ラクターストリング)のセットへのマッピング、および2)ビットストリングか
ら実数(いわゆる適応度関数(fitness function))へのマッ
ピング。
【0015】 ほとんどの進化アルゴリズムにおいて、ランダムに選択したビットストリング
のセットは、最初の集団を構成する。基本的な遺伝的アルゴリズムにおいて、以
下の間、サイクルを繰り返す;集団中の各個体の適応度が評価される;個体のコ
ピーが、その適応度に比例して作製される;そしてサイクルが繰り返される。そ
のような進化アルゴリズムの代表的な開始点は、ランダムに選択されたビットス
トリングのセットである。「任意の」、ランダムな、または偶然の開始集団の使
用は、進化アルゴリズムを、当面の問題の効率的な解決、正確な解決、または簡
潔な解決から遠くに、強力に偏らせ得る(特に、そのアルゴリズムを使用して、
生物学的歴史または生物学的プロセスをモデリングするか、または分析する場合
)。実際、進化アルゴリズムを、それがなんであれ任意の解に至らせる唯一の「
力」は、適応度決定および付随する淘汰圧である。最終的に解には到達するが、
プロセスが、集団のメンバーが、お互いに関連性を有さないランダムな(例えば
、任意の)初期状態から開始するので、アルゴリズムが進行する際の集団の変遷
は、シミュレーションされた系の変遷を反映する情報をほとんど明らかにしない
か、または全く明らかにしない。
【0016】 さらに、進化アルゴリズムは、代表的には、比較的高度のシミュレーションで
あり、そして集団レベルの情報を提供する。特定の遺伝情報(もし、少しでも存
在する場合)は、代表的には、対立遺伝子(代表的には単一のキャラクターとし
て)の抽象的な表示としてか、または対立遺伝子の頻度として存在する。結果と
して、進化アルゴリズムは、分子レベルの事象について、ほとんど情報を提供し
ないか、または、全く提供しない。
【0017】 同様に、ニューラルネットおよび/または細胞オートマトンは、その開始点と
して本質的に人工の構築物を選択し、そして内部法則(アルゴリズム)を利用し
て、生物学的プロセスを近似する。結果として、そのようなモデルは、一般にプ
ロセスまたはメタプロセス(metaprocess)を模倣するが、これもま
た、分子レベルの事象に関する情報または洞察を、ほとんどもたらさないか、全
くもたらさない。
【0018】 (発明の要旨) 本発明は、さらなるコンピュータ操作(例えば、遺伝的/進化アルゴリズムを
介する)のために適切な、「初期」集団を生成するための、新規な方法を提供す
る。本発明の方法によって生成された集団のメンバーは、天然に存在する集団に
おいて見出される共分散の程度を反映する、程度の変化するお互いの「関連性」
または「類似性」を保有する。さらに、代表的な進化アルゴリズムにおいて入力
として使用される集団とは異なり、本明細書において提供される方法によって生
成される集団は、個々のメンバーについての詳細な情報を代表的に含み、そして
その情報は、代表的には、メンバー間の可変性および/または関連性の「連続的
な」(2進法よりはむしろ)尺度を提供するのに十分に複雑性である。実際、本
発明の方法は、本発明の方法に従って作成された集団を含む個体における、分子
情報の詳細なコーディングを提供する。
【0019】 従って、1つの実施態様において、本発明は、キャラクターストリングを有す
るデータ構造の集団を形成する(例えば、キャラクターストリングの集団または
ライブラリーを生成する)方法を提供する。この方法は、好ましくは、以下を包
含するi)2つ以上の生物学的分子を、キャラクターストリング中にコードし、
2つ以上の異なる初期キャラクターストリングの集団を提供する工程であって、
ここで、この生物学的分子の各々が、少なくとも約10のサブユニットを含む、
工程;ii)そのキャラクターストリングから少なくとも2つのサブストリング
を選択する工程;iii)そのサブストリングを結び付けて、初期キャラクター
ストリングの1つ以上とほぼ同一の長さの、1つ以上の解ストリングを形成する
工程;iv)解ストリングをストリングの集団(データ構造)に添加する工程;
ならびにv)必要に応じて、1つ以上のその解ストリングを、初期キャラクター
ストリングの集団中の初期ストリングとして使用して、工程(i)または(ii
)から(iv)を繰り返す工程。特定の好ましい実施態様において、「コードす
る」とは、1つ以上の核酸配列および/または1つ以上のアミノ酸配列を、キャ
ラクターストリング中にコードすることを包含する。核酸配列および/またはア
ミノ酸配列は、未知であり得、および/または偶然に選択され得るが、好ましく
は、公知のタンパク質(単数または複数)をコードする。1つの好ましい実施態
様において、生物学的分子は、お互いに、少なくとも約30%、好ましくは少な
くとも約50%、より好ましくは少なくとも約75%、そして最も好ましくは少
なくとも約85%、90%、または95%でさえもの、配列同一性を有するよう
に、選択される。
【0020】 1つの実施態様において、サブストリング(単数または複数)を選択して、そ
の結果、サブストリングの末端が、同一の2つのストリング間の全体としての配
列同一性よりも初期のキャラクターストリングの別の対応する領域に対してより
高い配列同一性を有する約3〜約300の、好ましくは約6〜約20の、より好
ましくは約10〜約100の、そして最も好ましくは約20〜約50のキャラク
ターのキャラクターストリング領域中に生じる。別の実施態様において、選択工
程は、そのサブストリングの末端が約4〜約100の、好ましくは約4〜約50
の、なおより好ましくは約4〜約10の、さらにより好ましくは約6〜約30の
、そして最も好ましくは約6〜約20のキャラクターの予め規定されたモチーフ
中に生じるように、サブストリングを選択することを、包含し得る。
【0021】 1つの実施態様において、選択および連結は、2つの異なる初期ストリングか
らサブストリングを結び付けて、その結果、2つの異なる初期ストリング間の全
体としての配列同一性よりも2つの異なる初期のストリング間のより高い配列同
一性を有する約3〜約20キャラクターの領域中の連結が生じることを含み得る
。選択はまた、その2つ以上の初期キャラクターストリングを整列し、そのキャ
ラクターストリングの2つ以上のサブストリング間の対同一性を最大化する工程
、および1つのサブストリングの末端について整列された対のメンバーであるキ
ャラクターを選択する工程を包含し得る。
【0022】 特定の実施態様において、「追加」工程は、キャラクターストリングによって
コードされるタンパク質の、理論的PI、PK、分子量、疎水性、2次構造およ
び/または他の特性の計算を包含する。1つの好ましい実施態様において、解ス
トリングが、初期ストリングに対して、30%より大きいか、好ましくは50%
より大きいか、より好ましくは75%より大きいか、または85%の配列同一性
を有する場合にのみ、解ストリングを、集団(データ構造)に追加する。
【0023】 この方法は、キャラクターストリングの1つ以上のキャラクターをランダムに
変更する工程をさらに包含し得る。このことは、ランダムストリングを、初期ス
トリング集団に導入する工程、および/または本明細書に記載されるような確立
論的なオペレーターを利用する工程、を包含するが、これらに限定されない多数
の方法に従って達成され得る。特定の好ましい実施態様において、上記の操作は
、コンピュータ中で実行される。
【0024】 別の実施態様において、本発明は、i)2つ以上の生物学的分子をキャラクタ
ーストリング中にコードして、2つ以上の異なる初期キャラクターストリングの
集団を提供し、ここでこの生物学的分子の各々が、少なくとも約10のサブユニ
ットを含有する;ii)そのキャラクターストリングから少なくとも2つのサブ
ストリングを選択する;iii)サブストリングを連結し、初期キャラクタース
トリングの1つ以上とほぼ同一の長さの1つ以上の解ストリングを形成する;i
v)解ストリングを、ストリングの集団に追加する(すなわち、データ構造の集
団を形成する);そしてv)必要に応じて、1つ以上の解ストリングを、初期キ
ャラクターストリングの集団中の初期ストリングとして使用して、工程(i)ま
たは(ii)から(iv)を繰り返す、コンピュータコードを含むコンピュータ
プログラム解を提供する。すなわち、本明細書において記載される操作を実行す
るコンピュータコードを含むコンピュータプログラム解である。プログラムコー
ドは、コンパイルの様式において、ソースコードとして、オブジェクトコードと
して、実行可能なものとしてなどで、提供され得る。このプログラムは、任意の
都合よい媒体において提供され得る(例えば、磁気媒体、光学媒体、電子媒体、
光磁気媒体など)。コードはまた、コンピュータ上に(例えば、メモリー(ダイ
ナミックまたはスタティックメモリー)中、ハードドライブ上など)に存在し得
る。
【0025】 別の実施態様において、本発明は、生物学的分子の配列に由来する、ラベル(
タグ)および/または音楽を生成するシステムを提供する。このシステムは、生
物学的分子(例えば、核酸および/またはタンパク質)からの2つ以上の初期ス
トリングをコードするエンコーダー;2つ以上のストリングからサブストリング
を同定し、そして選択するためのアイソレーター;サブストリングを結び付ける
ためのコンカテネーター;ストリングの集団として結び付けられたサブストリン
グを保管するためのデータ構造;ストリングの集団の数および/または可変性を
測定し、そしてストリングの集団中に存在する十分なストリングを決定するため
のコンパレーター;ならびにストリングの集団を、ローストリングファイル(r
aw string file)中に書き込むためのコマンドライターを含む。
好ましい実施態様において、アイソレーターは、2つ以上の初期ストリングの間
の同一性の領域を整列して決定するためのコンパレーターを含む。同様に、コン
パレーターは、配列同一性を計算するための手段を含み得、そしてアイソレータ
ーおよびコンパレーターは、必要に応じて、この手段を共有し得る。好ましい実
施態様において、アイソレーターは、サブストリングの末端が、同一の2つのス
トリング間の全体としての配列同一性よりも初期のキャラクターストリングの別
の対応する領域に対してより高い配列同一性を有する約3〜約100個のキャラ
クターのストリング領域中に生じるように、サブストリングを選択する。
【0026】 別の実施態様において、アイソレーターは、サブストリングの末端が、約4〜
約100の、好ましくは約4〜約50の、なおより好ましくは約4〜約10の、
さらにより好ましくは約6〜約30の、そして最も好ましくは約6〜約20のキ
ャラクターの予め規定されたモチーフ中に生じるように、そのサブストリングを
選択する。1つの実施態様において、アイソレーターおよびコンカテネーターは
、個々に、または組み合わせて、2つの異なる初期ストリングからのサブストリ
ングを連結し、その結果、連結が、その2つの異なる初期ストリング間の全体と
しての配列同一性よりも、その2つの異なる初期ストリング間でより高い配列同
一性を有する約3〜約300の、より好ましくは約5〜約200の、最も好まし
くは約10〜約100のキャラクターの領域中に生じる。1つの好ましい実行に
おいて、アイソレーターは、2つ以上の初期キャラクターストリングを整列し、
そのキャラクターストリングの2つ以上のサブストリング間の対同一性を最大化
し、そして1つのサブストリングの末端について整列された対のメンバーである
キャラクターを選択する。
【0027】 コンパレーターは、任意の広範に種々の選択判定基準を課し得る。従って、種
々の実施態様において、コンパレーターは、コードされるタンパク質の、理論的
なPI、PK、分子量、疎水性、2次構造および/または他の特性を計算し得る
。1つの好ましい実施態様において、コンパレーターは、ストリングが初期スト
リングと30%を超える同一性を有する場合にのみ、ストリングをデータ構造に
追加する。
【0028】 このシステムは、必要に応じて、キャラクターストリングの1つ以上のキャラ
クターをランダムに変更するオペレーターを含み得る。特定の実施態様において
、そのようなオペレーターは、そのキャラクターストリング中の特定の予め選択
されたキャラクターの1つ以上の出現を、ランダムに選択および変更し得る。こ
のシステムにおける好ましいデータ構造は、コードされた(もしくはデコンボル
ブ(deconvolve)された)核酸配列および/またはコードされたもし
くはデコンボルブ(deconvolve)されたアミノ酸配列を蓄積する。
【0029】 本発明のさらなる理解は、以下の特定の実施態様の詳細な考察から得られ得る
。明確さの目的のために、この考察は、特定の実施例に関する、装置、方法、お
よび概念を参照する。しかし、本発明の方法は、種々のタイプの論理デバイス内
において作動し得る。従って、本発明は、添付の特許請求の範囲において(均等
論のもとにおいて解釈されるように)提供される以外には、限定されないことが
意図される。
【0030】 さらに、ロジックシステムが、モジュール様式中の広範に種々の異なるコンポ
ーネントおよび異なるファンクションを含み得ることが理解される。システムの
異なる実施態様は、エレメントおよびファンクションの異なる混合物を含み得、
そして種々のエレメントの一部として種々のファンクションをグループ化し得る
。明確さの目的のために、本発明は、多くの異なる革新的なコンポーネントおよ
びコンポーネントの革新的な組み合わせを含むシステムに関して記載される。本
発明が、本明細書の任意の説明的な実施態様に列挙される革新的なコンポーネン
トの全てを含む組み合わせに限定されるといういかなる推論も、なされるべきで
はない。
【0031】 (定義) 用語「キャラクターストリング」「ワード」「バイナリストリング」または「
コードされたストリング」は、配列情報(例えば、核酸のヌクレオチド配列、タ
ンパク質のアミノ酸配列、多糖類の糖配列などのような生物学的分子のサブユニ
ット構造)を蓄積し得る任意の実体を、表す。1つの実施態様において、キャラ
クターストリングは、キャラクターの単純な配列(文字(letter)、数、
または他のシンボル)形態であり得るか、または有形または無形(例えば、電子
的、磁気的など)の形態におけるそのような情報の数的表示であり得る。キャラ
クターストリングは、「直線状」である必要はないが、多数の他の形態(例えば
、結び付けられたリストなど)においてもまた存在し得る。
【0032】 キャラクターストリングのキャラクターに関して使用される場合、「キャラク
ター」とは、ストリングのサブユニットをいう。好ましい実施態様において、キ
ャラクターストリングのキャラクターは、コードされた生物学的分子の1つのサ
ブユニットをコードする。従って、例えば、好ましい実施態様において、コード
された生物学的分子がタンパク質である場合、ストリングのキャラクターは、単
一のアミノ酸をコードする。
【0033】 「モチーフ」とは、生物学的分子を含むサブユニットのパターンをいう。この
モチーフとは、コードされていない生物学的分子のサブユニットパターンをいい
得るか、または生物学的分子のコードされた表現のサブユニットパターンをいい
得る。
【0034】 用語サブストリングとは、別のストリング中に見出されるストリングをいう。
サブストリングは、全長「親」ストリングを含み得るが、代表的にはサブストリ
ングは、全長ストリングのサブストリングを表す。
【0035】 用語「データ構造」とは、情報の蓄積のための構造および必要に応じて付随す
る装置をいい、代表的には、情報の多数の「部分」をいう。データ構造は、情報
の単純な記録(例えば、リスト)であり得るか、あるいは、データ構造は、そこ
に含まれる情報に関するさらなる情報(例えば、注釈)を含み得、データ構造の
種々の「メンバー」(情報の「部分」)間の関係を構築し得、そしてポインター
(pointer)を提供し得るか、またはデータ構造の外部のリソース(re
source)と結び付けられ得る。データ構造は無形であり得るが、有形媒体
中に蓄積/表示される場合に、有形とされる。データ構造は、単純なリスト、結
び付けられたリスト、索引をつけたリスト、データテーブル、索引、ハッシュ(
hash)索引、フラットファイル(flat file)データベース、リレ
ーショナル(relational)データベース、ローカル(local)デ
ータベース、分散型(distributed)データベース、散在型顧客デー
タベース(thin client detabase)などを含むがこれらに
限定されない種々の情報アーキテクチャー(architecture)を表し
得る。好ましい実施態様において、データ構造は、1つ以上のキャラクタースト
リングの蓄積のために十分なフィールド(field)を提供する。データ構造
は、好ましくは、キャラクターストリングの整列を可能しに、そして必要に応じ
て、整列および/またはストリング類似性および/またはストリングの差異に関
する情報を蓄積するように構成される。1つの実施態様において、この情報は、
整列「スコア」(例えば、類似性索引)の形態、および/または個々のサブユニ
ット(例えば、核酸の場合におけるヌクレオチド)整列を示す整列マップである
。用語「コードされたキャラクターストリング」とは、生物学的分子に関する所
望の配列情報および/または構造情報を保持するその生物学的分子の表示をいう
【0036】 本明細書において使用する場合、類似性とは、分子のコードされた表示の間の
(例えば、初期キャラクターストリング)、またはコードされたキャラクタース
トリングによって表示される分子の間の類似性の尺度をいうことができる。
【0037】 ストリングのオペレーション(例えば、挿入、欠失、変換など)をいう場合、
オペレーションが、生物学的分子のコードされた表示についてか、またはコード
された表示が、オペレーションを表現するように、コードする前の「分子」につ
いて実行され得ることが理解される。
【0038】 生物学的分子に関して使用される場合、用語「サブユニット」とは、生物学が
構成される特徴的な「モノマー」をいう。従って、例えば、核酸のサブユニット
は、ヌクレオチドであり、ポリペプチドのサブユニットは、アミノ酸であり、多
糖類のサブユニットは、糖であるなどである。
【0039】 用語「プール」または「集団」は、ストリングに関して使用される場合、互換
可能に使用される。
【0040】 「生物学的分子」とは、生物学的生物において代表的に見出される分子をいう
。好ましい生物学的分子としては、代表的には天然において複数のサブユニット
から構成されるポリマー性である生物学的高分子が挙げられる。代表的な生物学
的分子にとしては、核酸(ヌクレオチドサブユニットの形態)、タンパク質(ア
ミノ酸サブユニットの形態)、多糖類(糖サブユニットの形態)などが挙げられ
るが、これらに限定されない。
【0041】 句「生物学的分子をコードする」とは、好ましくは最初の生物学的分子の情報
コンテンツ(information content)を含み、従って、その
情報コンテンツを再度作成するために使用され得るその生物学的分子の表示の生
成を意味する。
【0042】 用語「核酸」とは、他に限定しない限り、1本鎖形態または2本鎖形態のデオ
キシリボヌクレオチドポリマーまたはリボヌクレオチドポリマーをいい、天然に
存在するヌクレオチドと類似の様式において機能し得る天然のヌクレオチドの公
知のアナログを包含する。
【0043】 「核酸配列」とは、核酸を含むヌクレオチドの規則性および同一性をいう。
【0044】 用語「ポリペプチド」、「ペプチド」および「タンパク質」は、本明細書にお
いて互換可能に使用され、アミノ酸残基のポリマーをいう。この用語は、1つ以
上のアミノ酸が対応する天然に存在するアミノ酸の人工化学アナログであるアミ
ノ酸ポリマー、および天然に生じるアミノ酸ポリマーに適用される。
【0045】 「ポリペプチド配列」とは、ポリペプチドを含むアミノ酸の規則性および同一
性をいう。
【0046】 本明細書において使用される場合、句「ストリングの集団に解ストリングを追
加する」は、数学的追加を必要としない。むしろそれは、ストリングのセットに
含まれるとして、1つ以上のストリングを同定するプロセスをいう。このことは
、 問題のストリングを、ストリングの集団であるデータ構造中にコピーする手段か
または移動する手段、ストリングからストリングの集団を表示するデータ構造に
、ポインターを設定する手段か、または提供する手段、特定のセット中のその包
含物を示すストリングと関連するフラグを設定する手段、あるいは、そのように
生成されたストリングが、集団中に含まれるというルールを単純に指定する手段
を含むがこれらに限定されない種々の手段によって達成され得る。
【0047】 (詳細な説明) (I.キャラクターストリングの集団の生成) 本発明は、進化的モデルにおいて、より好ましくは遺伝的アルゴリズムによっ
て類型化される進化的モデルにおいて、最初の(または成熟/プロセスされた)
集団としての使用に適切な実体の、実際のまたは理論的な集団の提示を生成する
ための、新規な計算的手法を提供する。特定の生物学的有機体の特徴を反映する
ために初期化された場合に、この本発明の方法によって生成された実体は、根底
をなす分子生物学に関する有意な情報(例えば、代表的なアミノ酸配列または核
酸配列)を各々含み、そしてそれによって遺伝的または他のアルゴリズムに基づ
くモデルが、前例がないレベル、すなわち、分子レベルでの進化の過程に関する
情報を提供することを可能にする。
【0048】 特に好ましい実施態様において、本発明の方法は、キャラクターストリングの
集団を生成し、ここで各キャラクターストリングは、1つ以上の生物学的分子を
表す。いくつかのストリングを「種子」として使用して、本発明は、最初の種子
のメンバーに対して「進化的な」関係を有する大きなストリングの集団を生成す
る。最初のメンバーのセットが任意か、無作為/偶然か、または数学的もしくは
表現の簡便さのために選択されるかである、伝統的な遺伝的アルゴリズムと対照
的に、本発明の方法によって生成される集団は、好ましい実施態様において、既
知で既存の生物学的「前駆体」(例えば、特定の核酸配列および/またはポリペ
プチド配列)から誘導される。
【0049】 好ましい実施態様において、本発明は以下の工程を包含する: 1)2つ以上の生物学的分子の同定/選択する工程; 2)生物学的分子をキャラクターストリングにコード化する工程; 3)キャラクターストリングからの少なくとも2つのサブストリングを選択す
る工程; 4)これらのサブストリングを結び付けて、1つ以上の初期キャラクタースト
リングとほぼ同じ長さの1つ以上の解ストリングを形成する工程; 5)解ストリングを、初期ストリングのセットまたは別々のセットであり得る
、ストリングのコレクションに追加する工程; 6)必要に応じて、得られたストリングセットにさらなるバリエーションを導
入する工程; 7)必要に応じて、得られるストリングセットに、淘汰圧を追加する工程; 8)必要に応じて、初期キャラクターストリングのコレクションにおいて初期
ストリングとしての1つ以上の解ストリングを使用して、工程(2)または(3
)から(7)までを反復する工程。 これらの各操作は、以下でより詳細に記載される。
【0050】 (II.1つ以上の生物学的分子のキャラクターストリングへのコード化) 本発明の方法は、代表的には、1つ以上の「種子」メンバーを利用する。この
「種子」メンバーは、好ましくは、1つ以上の生物学的分子の提示である。従っ
て、本発明の好ましい実施態様の初期段階は、2つ以上の生物学的分子を選択す
る工程、および生物学的分子を1つ以上のキャラクターストリングにコード化す
る工程を包含する。
【0051】 (A 「種子/初期」生物学的分子を同定/選択する工程) 実質的に任意の生物学的分子が本発明の方法において使用され得る。しかし、
好ましい生物学的分子は、複数の「サブユニット」を包含する「ポリマー性」生
体高分子である。本発明の方法に特に十分に適している生体高分子には、核酸(
例えば、DNA、RNAなど)、タンパク質、糖タンパク質、糖質、ポリサッカ
リド、特定の脂肪酸などが挙げられるが、これらに限定されない。
【0052】 核酸が選択される場合、その核酸は、一本鎖または二本鎖であり得るが、一本
鎖が二本鎖核酸を表すこと/コード化することのために十分であり得ることが認
識され得る。この核酸は、好ましくは既知の核酸である。このような核酸配列は
、多数の供給源から容易に決定され得、そのような供給源には、公的なデータベ
ース(例えば、GenBank)、所有権を有するデータベース(例えば、In
cyteデータベース)、科学刊行物、商用または私設の配列決定研究室、組織
内の配列決定研究室が含まれるがこれらに限定されない。
【0053】 核酸分子には、ゲノム核酸、cDNA、mRNA、人工配列、改変されたヌク
レオチドを有する天然配列などが含まれ得る。
【0054】 1つの好ましい実施態様において、2つ以上の生物学的分子は、「関連する」
が、同一ではない。従って、この核酸は、同一の遺伝子(単数または複数)を示
し得るが、それらが由来する系統、種、属、科、目、門、または界において異な
り得る。同様に、1つの実施態様において、タンパク質、ポリサッカリド、また
は他の分子は、それらが異なる系統、種、属、科、目、門、または界から選択さ
れるという事実から得られる分子間の違いを有する、同じタンパク質、ポリサッ
カリド、または他の分子である。
【0055】 生物学的分子は、単一遺伝子産物(例えば、mRNA、cDNA、タンパク質
など)であることを表し得るか、あるいはそれらは遺伝子産物および/または非
コードアミノ酸のコレクションを表し得る。特定の好ましい実施態様において、
生物学的分子は、1つ以上の特定の代謝経路(例えば、調節経路、シグナル伝達
経路、または合成経路)のメンバーを表す。従って、例えば、生物学的分子は、
全体のオペロン、または完全な生合成経路(例えば、lacオペロン、タンパク
質:B−DNA galオペロン、コリシンAオペロン、luxオペロン、ポリ
ケチド合成経路など)を含むメンバーを含み得る。
【0056】 特定の好ましい実施態様において、生物学的分子は、多数の異なる遺伝子、タ
ンパク質などのを含み得る。従って、特定の実施態様において、生物学的分子は
、個体の、または同一のもしくは異なる種の複数の個体の、核酸全体(例えば、
ゲノムDNA、cDNA、もしくはmRNA)、タンパク質全体、または脂質全
体などを含み得る。
【0057】 特定の実施態様において、生物学的分子は、種の分子の集団の全体の「提示」
を反映し得る。分子の集団の高水準の提示は、実験室において達成され、そして
本発明の方法に従ってインシリコで行われ得る。複雑な分子または分子の集団を
提示する方法は、Representational Difference
Analysis(RDA)および関連技術(例えば、Lisitsyn(19
95)Trends Genet.11(8):303−307,Rising
erら(1994)Mol Carcinog.11(1):13−18、およ
びMichielsら(1998)Nucleic Acids Res.26
:15 3608−3610、ならびにそこで引用される参考文献を参照のこと
)において見出される。
【0058】 本発明の方法においてコード化および操作のために特に好ましい生物学的分子
には、タンパク質、および/または種々のクラスのタンパク質の分子(例えば、
エリトロポイエチン(EPO)のような治療タンパク質、インスリン、ヒト成長
ホルモンのようなペプチドホルモン;好中球活性化ペプチド−78、GROα/
MGSA、Groβ、GROγ、MIP−1α、MIP−16、MCP−1、上
皮増殖因子、線維芽細胞増殖因子、肝細胞増殖因子、インスリン様増殖因子、イ
ンターフェロン、インターロイキン、ケラチノサイト増殖因子、白血病阻害因子
、オンコスタチンM、PD−ECSF、PDGF、プライオトロピン(plei
otropin)、SCF、c−kitリガンド、血管形成因子(例えば、血管
内皮増殖因子VEGF−A、VEGF−B、VEGF−C、VEGF−D、胎盤
増殖因子(PLGF)など)、増殖因子(例えば、G−CSF、GM−CSF)
、可溶性レセプター(例えば、IL4R、IL−13R、IL−10R、可溶性
T細胞レセプターなど)などのような増殖因子およびサイトカイン)をコードす
る核酸が挙げられる。
【0059】 他の好ましいコード化分子には、転写アクチベーターおよび発現アクチベータ
ーが含まれるがこれらに限定されない。転写アクチベーターおよび発現アクチベ
ーターには、原核生物、ウイルス、ならびに、真菌、植物、および動物を含む真
核生物において見出される、細胞増殖、分化、調節などを調節する遺伝子および
/またはタンパク質が含まれる。発現アクチベーターには、サイトカイン、炎症
性分子、増殖因子、増殖因子レセプター、およびオンコジーン産物、インターロ
イキン(例えば、IL−1、IL−2、IL−8など)、インターフェロン、F
GF、IGF−1、IGF−II、FF、PDGF、TNF、TGF−α、TG
F−β、EGK、KGF、SCR/c−kit、CD40L/CD40、VLA
−4/VCAM−1、ICAM−1/LFA−1、およびヒアルリン(hyal
urin)/CD44、シグナル伝達分子、および対応するオンコジーン産物(
例えば、Mos、RAS、Raf、およびMet);ならびに転写アクチベータ
ーおよび転写サプレッサー(例えば、p53、Tat、Fos、Myc、Jun
、Myb、Rel)、ならびに、ステロイドホルモンレセプター(例えば、エス
トロゲン、プロゲステロン、テストステロン、アルドステロン、LDLレセプタ
ーリガンド、およびコルチコステロンについてのレセプター)が含まれるがそれ
らに限定されない。
【0060】 本発明の方法におけるコード化のための好ましい分子はまた、感染性またはさ
もなくば病原性の生物由来のタンパク質(例えば、Aspergillus属、
Candida属、E.coli、Staphyloccoi属、Strept
occi属、Clostridia属、Neisseria属、Enterob
acteriacea属、Helicobacter属、Vibrio属、Ca
pylobacter属、Pseudomonas属、Ureaplasma属
、Legionella属、Spirochetes属、Mycobacter
ia属、Actnomyces属、Nocardia属、Chlamydia属
、Rickettsia属、Coxiella属、Ehrilichia属、R
ochalimaea、Brucella、Yersinia、Fracise
lla、およびPasturella;原生動物、ウイルス(+)RNAウイル
ス、(−)RNAウイルス、オルトミクソウイルス、dsDNAウイルス、レト
ロウイルスなどに特徴的なタンパク質)を含む。
【0061】 なお他の適切な分子には、転写のインヒビター、作物の疫病の毒素、工業的に
重要な酵素(例えば、プロテアーゼ、ヌクレアーゼ、およびリパーゼ)などが挙
げられる。
【0062】 好ましい分子には、核酸またはそれらがコードするタンパク質の関連する「フ
ァミリー」のメンバーが挙げられる。関連性(例えば、包含または「ファミリー
」からの除外)は、タンパク質機能によって、および/またはそのファミリーの
他のメンバーとの配列同一性によって決定され得る。配列同一性は、本明細書中
に記載されるように決定され得、そして好ましくはファミリーのメンバーは、少
なくとも約30%の配列同一性、より好ましくは少なくとも約50%の配列同一
性、そして最も好ましくは少なくとも約80%の配列同一性を共有する。特定の
例において、低い(例えば、約30%未満の配列同一性)が有意な関連性を有す
る分子を含むことが所望される。このような方法は、バイオインフォマティクス
の文献において周知であり、そして代表的には、配列/類似性情報を有する分子
フォールディングパターンの組み込みを包含する。このようなアプローチの1つ
の一般的な実施は、「スレッディングアルゴリズム」を含む。スレッディングア
ルゴリズムは、配列を、構造的なテンプレートに対して比較することによって、
遠い相同性を検出する。標的とテンプレートとの間の構造的類似性が十分に大き
い場合、それらの関連性は、有意な配列類似性の非存在下で検出され得る。スレ
ッディングアルゴリズムは、当業者に周知であり、そして例えば、NCBI S
tructure Group Threading Package(Nat
ional Center for Biological Informat
ionから入手可能(例えば、http://www.ncbi.nlm.ni
h.gov/Structure/RESEARCH/threading.h
tmlを参照のこと))およびSeaFold(Molecular Simu
lations,Inc.)において見出され得る。
【0063】 (B)生物学的分子のキャラクターストリングへのコード化) 生物学的分子は、キャラクターストリングにコードされる。最も単純な例にお
いて、キャラクターストリングは、生物学的分子を表すために使用される文字コ
ードと同一である。従って、例えば、キャラクターストリングは、核酸がコード
される、文字A、C、G、T、またはUを含み得る。同様に、標準的なアミノ酸
命名法がポリペプチド配列を表すために使用され得る。あるいは、ある程度まで
、コード化スキームは任意であることが認識される。従って、例えば、核酸の場
合において、A、C、G、T、またはUは、整数1、2、3、4、および5によ
って、それぞれ表され得、そして核酸は、それ自体が単一の(代表的には大きい
にもかかわらず)整数である、これらの整数のストリングとして表され得る。他
のコード化スキームもまた可能である。例えば、生物学的分子は、キャラクター
ストリングにコード化され得、ここで分子の各「サブユニット」は、複数文字の
表現にコード化される。あるいは、種々の圧縮された表現もまた可能である(例
えば、反復性のモチーフが、各々の出現を識別する適切なポインタを用いて、1
回のみで表現される場合)。
【0064】 生物学的分子はまた、別個の/単一のストリングであるデータ構造にコードさ
れる必要はない。より複雑なデータ構造(例えば、アレイ、リンクしたリスト、
インデックス付構造(データベースまたはデータ表などを含むがこれらに限定さ
れない))はまた、生物学的分子をコード化するために使用され得る。
【0065】 生物学的分子の表現の入力、記憶、および検索を許容することが可能な本質的
にいかなるデータ構造も適切である。これらの操作は手動で(例えば、紙と鉛筆
、またはカードファイルなどを用いて)達成され得るが、好ましいデータ構造は
、光学的におよび/または電子的におよび/または磁気的に操作され得るデータ
構造であり、従って、自動化された入力操作、記憶操作、および出力操作を可能
にする(例えば、コンピュータによって)データ構造である。
【0066】 (III.サブストリングの選択) 好ましい実施態様において、生物学的分子をコード化したキャラクターストリ
ングは、サブストリングがそこから選択される、ストリングの初期集団を提供す
る。代表的には、少なくとも2つのサブストリングが選択され、1つのサブスト
リングは各初期キャラクターストリングに由来する。2つより多い初期キャラク
ターストリングが存在する場合には、少なくとも2つの初期キャラクターストリ
ングがこのようなサブストリングを提供する限りは、すべての初期キャラクター
ストリングがサブストリングを提供する必要はない。しかし、好ましい実施態様
において、少なくとも1つのサブストリングが、各々の初期ストリングから選択
される。
【0067】 (A)サブストリング長) 任意の所定のストリングから生成され得る理論的なストリングの最大数以外に
は、初期ストリングから選択され得るサブストリングの最大数の限定は、実質的
に存在しない。従って、例えば、初期ストリングから選択されるサブストリング
の最大数は、初期ストリングの完全な順列によって生成されるストリングの数で
ある。
【0068】 しかし、比較的適度な長さの初期ストリングを用いると、順列の数は非常に多
い。従って、好ましい実施態様において、サブストリングは、サブストリングが
重複しないように初期ストリングから選択される。別の方法で表現すると、好ま
しい実施態様において、初期ストリングのいずれか1つに由来のサブストリング
は、正しい規則性で結び付けられた場合に、これらのサブストリングが、それら
がそこから選択される完全な初期ストリングを再現するように選択される。
【0069】 好ましいサブストリングはまた、過度に短くないように選択される。代表的に
は、サブストリングは、コード化された生物学的分子の1つのサブユニットを表
すのに必要な短いストリング長よりも短くない。従って、例えば、コード化され
た生物学的分子が核酸である場合には、サブストリングは、少なくとも1つのヌ
クレオチドをコードするのに充分な長さである。同様に、コード化された生物学
的分子がポリペプチドである場合には、サブストリングは、少なくとも1つのア
ミノ酸をコード化するのに充分な長さである。
【0070】 好ましい実施態様において、選択されるサブストリングは、コード化された生
物学的分子の、少なくとも2、好ましくは少なくとも4、より好ましくは少なく
とも10、なおより好ましくは少なくとも20、そして最も好ましくは少なくと
も50、100、500、または1000サブユニットをコード化し得る。
【0071】 サブストリング長は、生物学的編成の特定のレベルを捕捉するために選択され
得る。例えば、遺伝子全体、cDNA、mRNAをコード化するサブストリング
が選択され得る。「より高度な」編成のレベルにおいて、オペロンまたは調節経
路もしくは合成経路において見出され得るような、一連の関連する遺伝子、cD
NA、mRNAなどをコード化するサブストリングが、選択され得る。「より高
度な」レベルの編成において、個体の核酸全体(例えば、ゲノムDNA、総RN
A、総cDNA)をコード化するサブストリングが、選択され得る。サブストリ
ングが選択される初期ストリングがより高度なレベルの組織をコード化する限り
、サブストリング中に捕捉される「編成のレベル」に対する限定は、実質的に存
在しない。従って、サブストリング(単数または複数)が個々の遺伝子をコード
化するために選択される場合、初期ストリングは、全体の代謝経路をコード化し
得る。このサブストリングが個体の核酸全体をコード化するために選択される場
合、初期ストリングは、集団の核酸全体などをコード化し得る。
【0072】 逆に、サブストリングはまた、生物学的編成の特定のレベルのサブユニットを
コード化するために選択され得る。従って、例えば、サブストリングは、タンパ
ク質の特定のドメイン、染色体の特定の領域(例えば、特徴的に増幅されるか、
欠失されるか、または転座された領域)などを選択するために使用され得る。
【0073】 (B)サブストリング(Substring)選択アルゴリズム) 任意の広範な種々のアプローチが使用されてサブストリングが選択され得る。
この特定のアプローチはモデリングされる問題によって決定される。好ましい選
択アプローチとしては、ランダムサブストリング選択、均一なサブストリング選
択、モーチフに基づく選択、アラインメントに基づく選択、および頻度に偏りの
ある(frequency−biased)選択が挙げられるが、これらに限定
されない。同じサブストリング選択方法はあらゆる初期キャラクターストリング
に適用される必要はないが、むしろ異なるサブストリング選択方法が異なる初期
ストリングに対して使用され得る。さらに、多重サブストリング選択方法を任意
の初期キャラクターストリングに適用することが可能である。
【0074】 (1.ランダムサブストリング選択) 1つの単純なアプローチにおいて、サブストリングはランダムに選択され得る
。多くのアプローチがサブストリングの「ランダム」選択について利用可能であ
る。例えば、ここで、最小長「L」のサブストリングは長さ「M」のコードされ
たキャラクターストリングから選択され、「切断点」は、(短い末端ストリング
を避けるため)LからM−Lに及ぶ整数(ストリングに沿った位置を示す)を生
成する乱数発生器を使用して選択され得る。長さがL未満の「内部」サブストリ
ングは捨てられる。
【0075】 別のアプローチにおいて、キャラクターストリングに沿った各位置のアドレス
を指定する(例えば、1からNに及ぶ整数によって、ここでNはキャラクタース
トリングの長さである)。最小サブストリング長「L」および最大サブストリン
グ長「M」を選択する。次いで、乱数発生器を、LからMに及ぶ番号「V」を生
成するため使用する。次いで、アルゴリズムは、1からVまでのポジションから
サブストリングを選択し、そしてポジションV+1は再びポジション1になる。
次いで、このプロセスを初期ストリングがスパンされるまで繰り返す。
【0076】 ランダムにサブストリングを選択する他の方法は容易に考案される。本発明の
目的のために、「ランダム」選択は、選択プロセスがランダムネスに対する形式
的な統計的要件をみたすことを必要としない。擬似ランダムまたは偶然の選択は
この文脈において十分である。
【0077】 (2.均一なサブストリング選択) 均一なサブストリング選択において、各初期ストリングから得られるべき所望
のサブストリングの数を決定する。次いで、初期ストリングを所望のサブストリ
ングの数に均一に分ける。初期ストリング長が均一な分割を許可しない場合、1
以上のより短いまたはより長いサブストリングが許可され得る。
【0078】 (3.モチーフに基づく選択) サブストリングは、モチーフに基づく選択を使用して、初期ストリングから選
択され得る。このアプローチにおいて、初期キャラクターストリングを、予め選
択された特定のモチーフの発生に対して走査する。次いで、そのモチーフに対し
て予め定義された関連性においてサブストリングの終点が発生するようにサブス
トリングを選択する。従って、例えば、その終わりは、モチーフまたは「上流」
または「下流」内でモチーフの終わりから予め選択されたサブユニットの番号で
あり得る。
【0079】 モチーフは完全に任意であり得るか、または物理的因子もしくは生物学的分子
の特性を反映し得る。従って、例えば、コードされた生物学的分子が核酸である
場合、モチーフは制限エンドヌクレアーゼ(例えば、EcoRv、HindII
I、BamHI、PvuIIなど)の結合特異性、タンパク質結合部位、特定の
イントロン/エキソン接合部、トランスポゾンなどを反映するために選択され得
る。同様に、コードされた生物学的分子がタンパク質である場合、モチーフはプ
ロテアーゼ結合部位、タンパク結合部位、レセプター結合部位、特定のリガンド
、相補性決定領域、エピトープなどを反映し得る。
【0080】 同様に、多糖類は特定の糖モチーフを含み得、糖タンパク質は特定の糖モチー
フおよび/または特定のアミノ酸モチーフなどを有し得る。
【0081】 モチーフは、コードされた生物学的分子の1次構造を詳細に反映する必要はな
い。2次構造および3次構造モチーフもまた可能であり、そしてサブストリング
終点を描写するために使用され得る。従って、例えば、コードされたタンパク質
は、特徴的なα−ヘリックス、β−シート、α−ヘリックスモチーフを包み得る
。そしてこのモチーフの発生はサブストリング終点を描写するために使用され得
る。
【0082】 別の「より高度な規則性」の種類のモチーフは、例えば「断片化消化」によっ
て説明されるように「メタ−モチーフ」であり得る。このアプローチにおいて、
サブストリング終点は単一モチーフの発生によって決定されないが、1つ以上の
モチーフの配位されたパターンおよび間隔によって描写される。
【0083】 厳密に配列パターンを反映せず、むしろキャラクターストリングの特定のドメ
インの情報量を反映するモチーフがまた選択/利用され得る。従って、例えばRi (b,l)によって表されるように、米国特許第5,867,402号は情報
量重みマトリックスへの変換による配列シグナルをプロセシングするためのコン
ピューターシステムおよび計算方法を記載している。Ri(b,l)によって値
iを生成する情報量重みマトリックスに対して特定の配列シグナルを適用し、
特定の配列シグナルの個々の情報量を包含する第2の変換が続く。キャラクター
ストリングの情報量の決定に対する他のアプローチもまた公知である。(Sta
den、(1984)Nucleic Acids Res.12:505−5
19;Schneidr(1994)Nanotechnology5:1−8
;Hermanら(1992)J.Bacteriol.3558−3560頁
;Schneiderら(1990)Nucleic Acids Res.、
18(20):6097−6100;Berg,ら(1988)J.Mol.B
iol.、200(4):709−723をもまた参照のこと)。
【0084】 意図される他のモチーフは生物学的シグナルを反映する。従って、例えば、コ
ードされた核酸、メチオニンの場合において、サブストリングの終点を描写する
1つのモチーフは、終止コドンまたは開始コドンであり得るか、あるいは、タン
パク質などの場合においては、ポリアデニル化シグナルであり得る。
【0085】 同じモチーフがあらゆる初期配列に適用される必要はない。さらに、複数のモ
チーフ、メタ−モチーフおよび/またはモチーフ/メタ−モチーフの組み合わせ
は任意の配列に適用され得る。
【0086】 (4.アラインメントに基づく選択) 別のアプローチにおいて、サブストリングは、2つ以上の初期キャラクタース
トリングをアラインメントさせることにより、そして、サブストリングの終点を
選択するための初期ストリング間で高い同一性の領域を選択することによって選
択される。従って、例えば、配列アラインメント後、サブストリングは、少なく
とも約5サブユニットの長さ、好ましくは少なくとも約10サブユニットの長さ
、より好ましくは少なくとも約20サブユニットの長さ、さらにより好ましくは
少なくとも約30サブユニットの長さ、そして最も好ましくは少なくとも約50
、100、200、500サブユニットの長さ、またはさらに、1000サブユ
ニットの長さに及ぶウインドウにわたって、サブストリングの終点が、少なくと
も30%の、好ましくは少なくとも50%の、より好ましくは少なくとも70%
の、さらにより好ましくは少なくとも80%の、そして最も好ましくは少なくと
も85%、90%、95%、またはさらに、少なくとも99%の配列同一性を有
する領域の(例えば、中央部内で)サブストリングの終点が発生するように選択
され得る。
【0087】 2つ以上の生物学的高分子(例えば、核酸またはポリペプチド)の文脈におけ
る用語「配列同一性」または「パーセント配列同一性」または「パーセント同一
性」またはパーセント「相同性」は、同じ配列であるか、あるいは、ある配列に
配列比較アルゴリズムを使用して、または視覚的検査によって測定されるように
、最大一致について比較し、そして整列した場合に、同じであるサブユニット(
例えば、アミノ酸残基またはヌクレオチド)の特定化されたパーセンテージを有
する2つ以上の配列または部分配列をいう。
【0088】 配列比較に関して、代表的には、ある配列は参照配列として作用し、この配列
に対して試験配列を比較する。好ましい実施態様において、配列比較アルゴリズ
ムを使用する場合、試験および参照配列をコンピューターに入力し、必要ならば
部分配列座標を設計し、そして配列アルゴリズムプログラムパラメーターを設計
する。次いで、設計されたプログラムパラメーターに基づいて、配列比較アルゴ
リズムは参照配列に対して試験配列について配列同一性パーセントを計算する。
【0089】 アラインメントおよび配列比較アルゴリズムは当業者に周知である。例えば、
比較のための配列の最適なアラインメントは、以下を含むが、これらに限定され
ないアルゴリズムであり得る:SmithおよびWaterman(1981)
Adv.Apple.Math.2:482の局所的相同性アルゴリズム、Ne
edl manおよびWench(1970)J.Mol.Biol.48:4
43の相同性アラインメントアルゴリズム、PearsonおよびLipan(
1988)Pro.Natl.Acad.Sic.USA 85:2444の類
似性検索方法によるもの、市販モジュールおよび/または市販ソフトウエアパッ
ケージ(例えば、the Wisconsin Genetics Softw
are Package、Genetics Computer Group、
575 Science Dr.、Madison、WI)においてコンピュー
ター処理されたこれらのアルゴリズムの実行によるもの(例えば、GAP、BE
STFIT、FASTA、およびTFASTA)、または視覚的検査によるもの
(通常、Amusableら、前出を参照のこと)。
【0090】 有用なアルゴリズムの1つの例はPILEUPである。PILEUPは、進行
的にペアを成すアラインメントを使用して関連配列の群から複数の配列アライン
メントを生成し、関係およびパーセント配列同一性を示す。それはまた、使用さ
れるクラスタリング関係を示す系図またはエンドガミーをプロットし、アライン
メントを作成する。PILEUPはFengおよびDoolittle(198
7)J.Mol.Evol.35:351〜360の進行的アラインメント方法
の単純化を使用する。使用されるこの方法はHigginsおよびSharp(
1989)CABIOS5:151〜153によって記述される方法と類似する
。このプログラムは、各最大長5000個のヌクレオチドまたはアミノ酸の30
0配列までアラインメントさせ得る。多数アラインメント手順は、2つの最も類
似した配列のペアを成すアラインメントとともに始まり、2つのアラインメント
された配列のクラスターを生成する。次いで、このクラスターをアラインメント
された配列の次の最も関連した配列またはクラスターに対してアラインメントす
る。配列の2つののクラスターを2つの個々の配列のペアを成すアラインメント
の単純な進長により整列させる。最終アラインメントを一連の進行的にペアを成
すアラインメントによって達成する。このプログラムを配列比較領域についての
特定の配列およびそれらのアミノ酸座標またはヌクレオチド座標を設計すること
により、そしてプログラムパラメーターを設計することにより実行する。例えば
、参照配列を他の試験配列に対して比較し、以下のパラメーター(defaul
t gap weight(3.00)、default gap lengt
h weight(0.10)およびweighted end gaps)を
使用するパーセント配列同一性関係を決定し得る。
【0091】 パーセント配列同一性および配列類似性を決定するために適した別のアルゴ
リズムの例はBLASTアルゴリズムであり、これはAltschulら(19
90)J.Mol.Biol.215:403〜410において記載される。B
LAST分析を実行するためのソフトウエアはNational Center
for Biotechnology Information(http:
//www.ncbi.nlm.nih.gov/)によって公に入手可能であ
る。このアルゴリズムは、照会配列中の長さWの短いワードを同定することによ
り高得点配列対(HSP)の最初の同定を含み、このことはデータベース配列中
の同じ長さのワードと整列された場合に、一致するか、またはいくつかの陽性と
評価される閾値スコアTを満たすかのどちらかである。Tを近傍のワードスコア
閾値とみなす(Altschulら前出)。これら初期近傍ワードヒットは検索
を開始する種子として作用し、それらを含むより長いHSPsを見い出す。この
ワードヒットを、累積的アラインメントスコアが増加し得る限り各配列に沿って
両方向に進長させる。累積的アラインメントスコアがその最大到達値からX量の
近くに下落する場合、1つ以上の陰性スコアリング残基アラインメントの蓄積の
ために累積スコアが0以下になる場合、またはどちらかの配列の終点に到達した
場合に、各方向においてワードヒットの進長は停止する。このBLASTアルゴ
リズムパラメーターW、T、およびXはアラインメントの感度およびスピードを
決定する。このBLASTプログラムは11のワード長(W)、50のBLOS
UM62スコアリングマトリクス(HenikoffおよびHenikoff(
1989)Proc.Natl.Acad.Sci.USA89:10915を
参照のこと)アラインメント(B)、10の例外(E)、M=5、N=−4、およ
び両鎖の比較をデフォルトとして使用する。
【0092】 パーセント配列同一性を計算することに加えて、このBLASTアルゴリズム
はまた2つの配列間の類似性の統計的分析を実行する(例えば、Karlinお
よびAltschul(1993)Proc.Natl.Acad.Sci.U
SA 90:5873〜5787を参照のこと)。BLASTアルゴリズムによ
り提供された類似性の1つの計測は最も小さい合計確率(P(N))であり、こ
れは確率の指標を提供し、その確率によって2つのヌクレオチドまたはアミノ酸
配列間の一致が偶発する。例えば、核酸は、参照核酸に対する試験核酸の比較に
おいて最も小さい合計確率が約0.1未満、より好ましくは約0.01未満、お
よび最も好ましくは約0.001未満である場合、参照配列に類似しているとみ
なされる。
【0093】 上記同定された類似性アルゴリズムは、例示的であり、かつ限定的でないこと
が意図される。類似性は全長の初期キャラクターストリングにわたって決定され
得るか、または特定のサブドメインに限定され得るということが理解される。
【0094】 (5.頻度に偏りのある(frequency−biased)選択) 頻度に偏りのある(frequency−biased)部分配列選択方法に
おいて、部分配列は、部分配列の終点が特定の予め選択された頻度基準を満たす
る部分配列ドメインに対する特定の関係において生じるように選択される。例え
ば、高度に反復化したサブユニットパターン(例えば、核酸の場合において、「
ACACACACACAC」のようなAC反復の高い集中)を含むコードされた
生物学的分子を除外することが所望される場合、サブユニット選択が設計され、
特定のサブユニットまたはサブユニットのモチーフの特定の反復密度が出現する
前に終点を生成し得る。この瞬間において、反復密度は、サブユニット数または
サブユニットモチーフの長さにおいてそれぞれ測定されたキャラクターストリン
グ長あたりのサブユニットまたはサブユニットモチーフの発生数である。
【0095】 従って、上記で示唆された例において、サブストリングは、ACモチーフが0
.5(50%)を超える頻度で、少なくとも例えば4モチーフ長(この場合にお
いて8サブユニット長)の長さにわたって発生するキャラクターストリング領域
に隣接してサブストリング終点が発生するように選択され得る。
【0096】 そのような選択の他の例は、少なくともXサブユニットにわたる100%の出
現にて、特定のサブユニットの出現に基づくサブストリング選択である。従って
、例えば、コードされた生物学的分子が核酸であり、そしてこのサブユニットが
アデノシン「A」である場合、頻度に偏りのある選択はサブストリング終点をポ
リアデニル化シグナル(例えば、AAAAAAA)の出現にて設定し得る。頻度
に偏りのあるサブストリング選択基準の設計に依存して、上記に記載されている
ように、モチーフに基づく選択スキームを使用して同等の結果が得られ得る。
【0097】 (6.他の基準) 多数の他の基準を使用し、特定のサブストリングの選択に影響を与え、そして
/または決定し得る。そのような基準は、サブストリングによってコードされる
分子の予想される疎水性および/またはPIおよび/またはPKを含む。他の基
準は、交差数、所望されるフラグメントの大きさ、サブストリングの長さの分布
、および/またはサブストリングによってコードされる分子の折り畳みに関する
合理的な情報を含む。
【0098】 (IV.サブストリングの連結) 一担、サブストリングの集団が初期ストリングから選択されると、このサブス
トリングは連結され、およそまたは正確に親初期ストリングと同じ長さの新しい
ストリングを生成する。このストリング連結は幅広い数の方法によって実行され
得る。
【0099】 1つの実施態様において、このサブストリングはランダムに連結され「再結合
」ストリングを生成する。そのような「ランダム」連結に対する1つのアプロー
チにおいて、各サブストリングは独特の識別名を割り当てられる(例えば、整数
または他の識別名)。次いで、この識別名がプールよりランダムに選択され(例
えば、乱数発生器を使用する)、そしてそれらの識別名に対応する部分配列が結
合され、連結された配列を生成する。結合された部分配列がおよそまたは正確に
開始キャラクターストリングの長さである場合、このプロセスは再び開始され別
のストリングを生成する。このプロセスを全てのサブストリングが利用されるま
で繰り返す。あるいは、「サブストリングプール」よりそれらを取り除くこと無
しにこのサブストリングを選択し得、そして所望される数の「完全長」ストリン
グを得るまでこのプロセスを繰り返す。
【0100】 しかし、好ましい実施態様において、初期ストリング中に存在するような連結
されたストリングを形成するサブストリングの相対的規則性を維持することが所
望される。このことは任意の幅広い数の手段により達成され得る。例えば、親ス
トリングより選択された各サブストリングは、その親ストリングより誘導される
他のストリングの位置に対するそのサブストリングの初期ストリングにおける位
置を同定する識別名(例えば、ポインタ)とともに「タグ化」され得る。他の初
期ストリング中の対応する位置より誘導されるサブストリングには、類似した位
置の識別名を割り当てる。各3つの初期ストリング(A、B、およびC命名した
)が1から5までの通し番号をつけた5つのサブストリングを発生させる場合、
このアプローチを図2において説明する。説明されているように、各サブストリ
ングは独特に同定され得る(例えば、A1、A2、...A5、B1、B2、.
..B5、C1、C2、...C5)。次いで、プール1(A1、B1およびC
2からなる)、プール2(A2、B2およびC2からなる)などからプール5の
サブストリングをランダムに選択することにより、連結されたストリングは生成
され得る。このプロセスは、3つのストリングが再構成されるまで繰り返され得
る。
【0101】 この連結スキームにおいて、一担サブストリングが連結されると、サブストリ
ングプールよりそれが除去される。しかし、このプールから部分配列を「コピー
する」ことにより、そして従って、後の連結に利用可能なサブストリングをまだ
保持している間に、連結された配列中でそれを利用することによってこの連結は
達成され得る。これはより大きな多様性を発生させる。
【0102】 他の実施態様において、連結の間、様々なアラインメントおよび/または類似
性アルゴリズムを使用してサブストリングの関連配列を一般的に維持し得る。こ
のアプローチにおいて、高度類似性の領域を会合することにより、部分配列に、
連結された配列中に相対位置を割り当てる(例えば、図3を参照のこと)。
【0103】 好ましい実施態様において、最初にコードされた生物学的分子は、互いに何ら
かの関係を有する。従って、例えば、コードされる分子が、特定の酵素ファミリ
ーにおけるメンバーを表す場合、分子は特定の集団などからの個体を表す。サブ
配列は、有意な類似性を有するドメインを共有することが予測される。さらに、
重要な機能性ドメインは、保存される傾向があり、そしてそれゆえまた、サブ配
列の特定のドメインの類似性を増大させる。従って、サブ配列間の高度な類似性
を有する領域を整列することは、初期ストリングにおけるそれらの規則性を反映
するサブ配列の相対的な規則性を再構築する傾向がある。
【0104】 完全な規則性が全ての結び付けられたキャラクターストリングにおいて確立さ
れることは要求されない。結び付けられた配列のパーセンテージ(例えば、好ま
しくは、少なくとも1パーセント、より好ましくは、少なくとも10パーセント
、なおより好ましくは、少なくとも20%、そして最も好ましくは、少なくとも
40パーセント、少なくとも60%、または少なくとも80パーセント)が元々
の規則性を保つことが好ましい。
【0105】 サブ配列を再並べ替えする類似性基準の使用は、ハイブリダイゼーション(S
BH)法(そこでは、類似性アルゴリズムは、完全配列のフラグメントから核酸
配列を再構築するために使用される)による配列決定に類似する(例えば、Ba
rinaga(1991)Science、253:1489;Bains(1
992)Bio/Technology 10:757−758;Drmana
cおよびCrkvenjakov、ユーゴスラビア特許出願第570/87号、
1987;Drmanacら(1989)Genomics、4:114;St
rezoskaら(1991)Proc.Natl.Acad.Sci.USA 88:10089;ならびにDrmanacおよびCrkvenjakov、
米国特許第5,202,231号を参照のこと)。
【0106】 特定の結び付け単独、または選択および結び付け操作は一緒に、特定のオペレ
ータによって表わされ得ることが理解される。この種の特定のオペレータは、遺
伝学アルゴリズムにおいて公知である。従って、例えば、「クロスオーバー」(
相互転座)オペレータが定義され得、そこでは、2つの異なる初期配列中の類似
の位置にあるサブ配列が交換される。同様に、クロスオーバー事象における特定
のサブ配列を連結し、その結果、そのサブ配列が互いにクロスオーバーする(そ
れらが隣接するサブ配列であるか否かに関わらず)「連結」オペレータが、定義
され得る。前述の開示を鑑みて、その他のオペレータが当業者に公知である。
【0107】 (V.ストリングの収集物に解ストリングを加える) 本発明の方法によって生成される結び付けられたストリングは、「居住させた
データセット(populated dataset)」を形成するストリング
の収集物に加えられる。この収集物中のストリングは、本明細書に記載される方
法のさらなる反復において、初期ストリングとして使用され得る(図1を参照の
こと)。この文脈における、加える、は、ストリングのセット内に含まれるよう
な1つ以上のストリングを同定するプロセスをいう。これは、問題のストリング
を、ストリングの収集物であるデータ構造中にコピーまたは移動させること、そ
のストリングからストリングの収集物を表すデータ構造へポインタを設定するか
または提供すること、そのストリングと関連するフラッグ(ストリングを特定の
セットに含むことを示す)を設定すること、あるいは単にそのように生成された
ストリングがその収集物中に含められるルールを設計することを含むが、これら
に限定されない種々の手段によって達成され得る。
【0108】 一旦、1つ以上の結び付けられたキャラクターストリングが生成されると、選
択基準が、必要に応じて、結び付けられたストリングがストリングの収集物中に
(例えば、第二の反復のための初期ストリングとして、および/または居住され
たデータ構造の要素として)含められるべきか否かを決定するために課される。
広範な数の選択基準が利用され得る。
【0109】 1つの実施態様において、類似性指標は、選択基準として使用され得る。従っ
て、新たに生成された結び付けられたキャラクターストリングは、互いに、およ
び/または初期ストリング(またはそのコードされた分子)と、および/または
1つ以上の「参照」ストリングと、特定の所定の類似性(例えば、10%を超え
、好ましくは、20%または30%を超え、より好ましくは、40%または50
%を超え、そして最も好ましくは、60%、70%、80%、またはさらには9
0%を超える)を共有しなければならない。
【0110】 選択はまた、配列同一性が極めて低い場合でさえ、「関連性」を評価するアル
ゴリズムの使用を含み得る。このような方法には、「スレッディング(thre
ading)」アルゴリズムおよび/または共分散測定が含まれる。
【0111】 その他の選択基準は、結び付けられたストリングによって表される分子がコン
ピュータにより予測された特定の特性を満足することを要求し得る。従って、例
えば、選択基準は、最小または最大の分子量、特定の緩衝系における特定の最小
または最大の自由エネルギー、特定の標的分子または表面との最小または最大の
接触表面、特定の緩衝系における特定の正味の電荷、予想されたPK、PI、結
合アビディティー、特定の二次もしくは三次形態などを要求し得る。
【0112】 なお他の選択基準は、結び付けられたストリングによって表されるその分子が
、特定の経験的物理的にアッセイされた特性に合うことを要求し得る。従って、
例えば、選択基準は、結び付けられたストリングによって表される分子が特定の
温度安定性、酵素活性のレベルを有すること、特定のpHの溶液を生成すること
、特定の温度および/またはpH至適条件を有すること、特定の溶媒系において
最小または最大の可溶性を有すること、最小または最大の親和性で標的分子に結
合することなどを要求し得る。特定の選択基準の物理的な決定は、代表的には、
結び付けられたストリングによって表されるその分子が、合成され(例えば、化
学的に、もしくは組換え法により)るか、または単離されることを要求する。
【0113】 物理的系におけるそのような選択基準の適用は、当業者に公知である(例えば
、Stemmerら(1991)Tumor Targeting 4:1−4
;Nessら(1999)Nature Biotechnology 17:
893−896;Changら(1999)Nature Biotechno
logy 17:793−797;MinshullおよびStemmer(1
999)Current Opinion in Chemical Biol
ogy 3:284−290;Christiansら(1999)Natur
e Biotechnology 17:259−264;Crameriら(
1998)Nature 391:288−291;Crameriら(199
7)Nature Biotechnology 15:436−438;Zh
angら(1997)Proc.Natl.Acad.Sci.,USA、94
:4504−4509;Pattenら(1997)Curr.Opin.Bi
otech.8:724−733;Crameriら(1996)Nature
Med.2:100−103;Crameriら(1996)Nature
Biotechnology 14:315−319;Gatesら(1996
)J.Mol.Biol.255:373−386;Stemmer(1996
)CrameriおよびStemmer(1995)BioTechnique
s 18:194−195;米国特許第5,605,793号、同第5,811
,238号、同第5,830,721号、同第5,834,252号、同第5,
837,458号、WO95/22625、WO97/0078、WO97/3
5966、WO99/41402;WO99/41383、WO99/4136
9、WO9941368、EP0934999;EP0932670;WO99
23107;WO9921979;WO9831837;WO9827230、
およびWO9813487を参照のこと)。
【0114】 (VI.さらなる改変の導入) 特定の例において、さらなる改変をその集団に導入することが望ましい。これ
は、本発明の方法によって生成される初期集団を使用する進化アルゴリズムの繰
り返される反復が、モデル化された問題に解答を与えない場合(例えば、どのメ
ンバーも選択基準に合わない)に、特に所望される。
【0115】 多くの方法が、改変を、本発明の方法によって生成されるストリング集団に導
入するために使用され得る。改変が初期ストリングに(その方法に対する入力)
または結び付けられたストリングに(出力)導入され得ることに留意する。好ま
しくは、そのような改変は、選択工程の前に導入されるが、しかし、特定の場合
には、改変は、選択後(例えば、二回目の反復の前)に導入され得る。
【0116】 1つのアプローチにおいて、確率論的オペレータが、コードされる分子を含む
1つ以上のサブユニットをランダムに/偶然に変更するアルゴリズムに導入され
る。改変は、コードされていない分子(これは次いで、キャラクターストリング
にコードされる)に導入され得ること、および/または改変は、コードされるキ
ャラクターストリングに直接導入され得ることに留意する。確率論的なオペレー
タは、代表的には、2つの選択プロセスを呼び出す。1つの選択プロセスは、ど
のサブユニットが変更されるかの決定を含む。一方、他の選択プロセスは、何の
サブユニットに変更されるかの選択/決定を含む。両方の選択プロセスは、確率
論的であり得るか、または選択プロセスにあり、またはその他は、決定因子であ
り得る。従って、例えば、「変異する」ためのサブユニットの選択は、ランダム
/偶然であり得るが、変異は、常に、同じ新たな/置換サブユニットに入り得る
。あるいは、変異されるべき特定のサブユニットは、予め決定され得るが、変異
された/得られるサブユニットのその選択は、ランダム/偶然であり得る。なお
別の実施態様において、変異させるサブユニットの選択および変異の結果の両方
は、ランダム/偶然であり得る。
【0117】 好ましい実施態様において、確率論的オペレータはまた、「変異」の発生の平
均頻度を設定する「変異頻度」を入力もしくはパラメータとしてとる。従って、
例えば、変異頻度が10%に設定される場合、その確率論的オペレータは、変異
を、初期ストリング中に含む10サブユニットのうちの1に発生することを許容
するのみである。その変異頻度はまた、範囲(例えば、5%〜10%など)を設
定し得る。
【0118】 その「確率論的オペレータ」は、全ての初期ストリングに、または初期ストリ
ングを含む全てのサブストリングに適用される必要はない。従って、特定の実施
態様において、確率論的オペレータの作用は、1つ以上の初期ストリングの特定
の初期ストリングおよび/または特定のサブストリング(例えば、ドメイン)に
制約される。
【0119】 確率論的オペレータの両方の選択基準が固定される場合、そのオペレータは、
もはや確率論的ではなく、むしろ「指向された変異」を導入する。このようなオ
ペレータは、そのオペレータが遭遇する全てのサブユニット「A」をサブユニッ
ト「B」に変更するように指向し得る。その指向された変異オペレータはなお、
パラメータ/属性/入力として変異頻度をとり得る。上記のように、その変異頻
度は、そのオペレータが実際に形質転換する「遭遇される」サブユニットの数を
制限する。
【0120】 上記のように、その確率論的オペレータが、1つ以上のコードされたサブユニ
ットを変更し得ることもまた理解される。特定の実施態様において、そのオペレ
ータは、多重にコードされたサブユニット、またはさらには全体のサブストリン
グ/ドメインをさえ変更する。
【0121】 改変もまた、挿入オペレータまたは欠失オペレータの使用によって導入され得
る。挿入オペレータまたは欠失オペレータは、本質的に「確率論的変異」オペレ
ータのバリアントである。1つ以上のサブユニットを形質転換するかわりに、欠
失オペレータは、1つ以上のサブユニットを欠失させ、一方、挿入オペレータは
、1つ以上のサブユニットを挿入する。再び、欠失オペレータおよび挿入オペレ
ータは、2つの選択プロセスを有する;挿入または欠失の部位を選択する1つの
プロセス、およびその欠失のサイズまたはその挿入の同一性を選択する別のプロ
セス。選択プロセスの1つまたは両方は、確率論的であり得る。両方の選択プロ
セスが、予め決定されている(非確率論的)場合、その挿入または欠失オペレー
タは、指向された挿入オペレータまたは指向された欠失オペレータである。確率
論的オペレータに関して、その挿入オペレータまたは欠失オペレータは、変異頻
度をパラメータ/属性/入力として取り得る。
【0122】 別の実施態様において、改変は、ランダムに、または偶然に生成される1つ以
上の初期ストリングを加えることによって増大され得、生物学的分子に由来する
初期ストリングに対して必須の関係は有さない。改変導入初期ストリングは、厳
密にランダムまたは偶然なストリングとして生成され得るか、または特定の実施
態様では、改変ストリングは、特定の予め決定された基準に従って生成される(
例えば、特定のサブユニットの発生頻度、コードされるストリングに対する最小
および/または最大程度の類似性など)。改変導入初期ストリングは、全長スト
リングである必要はないが、単に1つ以上のサブストリングを含むこともあり得
る。この性質のストリングまたはサブストリングは、改変もまた減少させるため
に使用され得ることに留意する。従って、特定の分子ドメインが、「好ましい」
場合、このドメインをコードするストリングまたはサブストリングは、初期スト
リングの集団に加えられ得る。
【0123】 (VII.データ構造を居住させる) 1つの実施態様において、本発明の方法によって生成される全ての結び付けら
れたストリングは、データ構造を居住させるために使用されるか、および/また
は本明細書に記載される方法の別の反復において、初期ストリングとして使用さ
れる。その他の実施態様において、選択基準は、上記のように課され、そして選
択基準に適合する結び付けられたストリングのみが、初期ストリングとして使用
され、および/またはデータ構造を居住させるために使用される。データ構造は
、上記の操作において使用されるコードされる分子の結び付けられた表示ととも
に居住され得るか、あるいはその結び付けられたストリングは、部分的に逆重畳
積分されて、より単純なコードされたものとして再生され得るか、またはそのコ
ードされた生物学的分子の表示を指向し得、そしてこれらの逆重畳積分されたス
トリングは、データ構造を居住させるために使用され得る。
【0124】 1つの実施態様において、そのデータ構造は、結び付けられたストリングが書
き込まれた一枚の紙、またはそれぞれのカードに1つ以上の結び付けられたスト
リングがリストされているカードの集団と同じくらい単純であり得る。好ましい
実施態様において、そのデータ構造は、適切に設計されたコンピュータによって
そのデータ構造の操作を可能にする媒体(例えば、機械的および/または流体お
よび/または光学的および/または量子的および/または磁気的および/または
電子的)において実施される。特に好ましい実施態様において、そのデータ構造
は、コンピュータメモリ(例えば、ダイナミック、スタティック、リードオンリ
ーなど)中に、および/または光学的、磁気的、または磁気光学的保存媒体中に
形成される。
【0125】 そのデータ構造は、コンピュータアクセス可能形態においてさえ、結び付けら
れたストリングのリストを単に提供し得る。あるいは、そのデータ構造は、種々
の「エントリー」間の関係を保存するために構築され得る。簡単なレベルにおい
て、これは、エントリーの簡単な同一性および/または規則性を維持することを
包含し得る。より精巧なデータ構造はまた、利用可能であり、そしてデータ構造
(例えば、結び付けられたストリング)中の1つ以上のエントリー間の関係をイ
ンデックス付けするため、および/または選別するため、および/または維持す
るための付属的な構造を提供し得る。そのデータ構造は、さらに、そのエントリ
ーに関する注釈(例えば、起源、タイプ、物理的特性など)、またはエントリー
と外部データ供給源との間のリンクに関する注釈を包含し得る。好ましいデータ
構造には、リスト、リンクされたリスト、表、ハッシュ・テーブルおよび他のイ
ンデックス、フラットファイルデータベース、リレーショナルデータベース、局
所または分配コンピュータシステムが含まれるが、これらに限定されない。特に
好ましい実施態様において、そのデータ構造は、従来的な(例えば、磁気および
/または光学的)媒体に保存されたデータファイルか、またはコンピュータメモ
リに読み込まれたデータファイルである。
【0126】 (VIII.プログラムされたデジタル装置における実施態様) 本発明は、適切に構成されたコンピュータデバイスにロードされた場合に、本
発明の方法に従って、そのデバイスにデータ構造を居住させる(例えば、結び付
けられたストリングのプール/収集物を生成する)論理構造および/またはデー
タを含む固定された媒体または伝達可能プログラム構成要素において実施され得
る。
【0127】 図4は、媒体717および/またはネットワークポート719からの命令を読
むことができる論理装置として理解され得るデジタルデバイス700を示す。装
置700は、その後、その命令を使用して、分子のコードされた表示およびデー
タ構造の集団の生物学的分子操作のコード化を指向させ得る。本発明を具体化し
得る論理装置の1つのタイプは、CPU707、光学入力デバイス709および
711、ディスクドライブ715および必要に応じてモニタ705を含む700
に例示されるようなコンピュータシステムである。固定された媒体717は、こ
のようなシステムをプログラムするために使用され得、そしてディスクタイプの
光学的または磁気的な媒体またはメモリを表し得る。コミュニケーションポート
719はまた、このようなシステムをプログラムするために使用され得、そして
任意のタイプのコミュニケーションコネクションを表し得る。
【0128】 本発明はまた、特定の一体化された回路(ASIC)またはプログラム可能な
論理デバイス(PLD)のアプリケーションの回路内で実施され得る。このよう
な場合、本発明は、本明細書に記載されるように操作されるASICまたはPL
Dを生成するために使用され得るコンピュータ理解可能な記述子言語で実施され
得る。
【0129】 本発明はまた、その他のデジタル装置(例えば、カメラ、ディスプレイ、画像
編集装置など)の回路または論理プロセス内で実施され得る。
【0130】 (IX.ウェブサイトにおける実施態様) 本発明の方法は、ローカライズされたコンピューティング環境、または分散コ
ンピューティング環境において実現され得る。分散環境において、この方法は、
複数のプロセッサーを含む1つのコンピューターまたは多数のコンピューター上
で実施され得る。このコンピューターは、例えば、共通バスを通じてリンクされ
得るが、より好ましくは、このコンピューターはネットワーク上のノードである
。このネットワークは、汎用化したもしくは専用化した、ローカルネットワーク
または広域ネットワークであり得、特定の好ましい実施態様では、コンピュータ
ーは、イントラネットまたはインターネットの構成要素であり得る。
【0131】 好ましい実施態様では、クライアントシステムは、代表的に、ウェブブラウザ
を実行し、そしてウェブサーバーを実行するサーバーコンピューターに接続され
る。このウェブブラウザは、代表的に、IBMのWeb Explorer、ま
たはNetScapeもしくはMosaicのようなプログラムである。ウェブ
サーバーは、代表的に、IBMのHTTP Daemonまたは他のWWWデー
モンのようなプログラムであるが、それである必要はない。クライアントコンピ
ューターは、ラインを通してかまたはワイアレスシステムを介してサーバーコン
ピューターと双方向接続される。次いで、このサーバーコンピューターは、本発
明の方法を実現するソフトウェアへのアクセスを提供するウェブサイト(サーバ
ーがこのウェブサイトをホスティングする)と双方向接続される。
【0132】 イントラネットまたはインターネットに接続されたクライアントのユーザーは
、本発明の方法の実現を提供するアプリケーションをホスティングするウェブサ
イトの部分であるリソースをクライアントに要求させ得る。次いで、サーバープ
ログラムは、特定のリソース(それらは現在利用可能であると想定する)を返答
するために要求を処理する。Uniform Resource Locato
r(「URL」)として公知の、標準的な命名規則が適用されている。この規則
は、いくつかの形式のロケーション名を含む。これは、現在、例えば以下のよう
なサブクラスを含む:Hypertext Transport Protoc
ol(「http」)、File Transport Protocol(「
ftp」、ゴーファー(gopher)、およびWide Area Info
rmation Service(「WAIS」)。リソースがダウンロードさ
れる場合、これはさらなるURLのリソースを含み得る。従って、クライアント
のユーザーは、彼または彼女が具体的に要求しなかった新規なリソースの存在を
容易に知ることができる。
【0133】 本発明の方法を実現するソフトウェアは、真のクライアント−サーバーアーキ
テクチャにおいてウェブサイトをホスティングするサーバー上にて、ローカルで
実行し得る。従って、クライアントコンピューターのポストは、要求されたプロ
セスをローカルで実行するホストサーバーに要求し、次いで、結果をクライアン
トにダウンロードして戻す。あるいは、本発明の方法は、「多層(multi−
tier)」形式で実行され得、ここで本方法の構成要素は、クライアントによ
りローカルで実行される。これは、クライアントによる要求に対してサーバーか
らダウンロードされるソフトウェア(例えば、Java(登録商標)アプリケー
ション)により実現され得るか、またはクライアント上に「永久に」インストー
ルされるソフトウェアにより実現され得る。
【0134】 1つに実施態様では、本発明の方法を実現するアプリケーションは、フレーム
へと分割される。このパラダイムにおいて、特徴または機能のコレクションとし
てアプリケーションを見るのではなく、代わりに分散したフレームまたはビュー
のコレクションとしてアプリケーションを見るのに役立つ。例えば、代表的なア
プリケーションは、一般的に、一組のメニューアイテム(その各々が特定のフレ
ームを呼び出す−−すなわち、アプリケーションの特定の機能を表すフォーム)
を含む。この観点において、アプリケーションは、コードのモノリシック体とし
てではなく、アプレットのコレクションまたは機能のバンドルとみなされる。こ
の様式において、ブラウザ内から、ユーザーは、ウェブページリンクを選択して
、次にアプリケーションの特定のフレーム(すなわち、サブアプリケーション)
を呼び出す。従って、例えば、1つ以上のフレームが、1つ以上のキャラクター
ストリング中に生物学的分子を入力する、および/またはその分子をコードする
ための機能を提供し得るが、別のフレームは、コードされたキャラクターストリ
ングの多様性を生成するおよび/または増加するためのツールを提供する。
【0135】 フレームのコレクションとしてアプリケーションを表現することに加えて、ア
プリケーションはまた、イントラネットおよび/またはインターネット上の位置
(アプリケーションを示すURL(Universal Resource L
ocator)アドレスとして表現される。各URLは、好ましくは、2つの特
性を含む:データ形式またはMIME(Multipurpose Inter
net Mail Extension)形式とともにURLに関するコンテン
トデータ(すなわち、どんなデータもサーバー上に保存される)。このデータ形
式は、ウェブブラウザが、サーバーから受け取るデータをどのように解釈すべき
か(例えば、ビットマップイメージのような .gifファイルの解釈)を決定
することを可能にする。結局、これは、ブラウザで一旦受入れられたデータの処
理の仕方の記述として役割を果たす。バイナリーデータのストリームは、HTM
L形式として受入れられる場合、ブラウザは、それをHTMLページとして描写
する。一方、その代わりに、ビットマップの形式で受入れる場合、ブラウザは、
それをビットマップイメージとして描画するなどのようである。
【0136】 Microsoft Windowsでは、ホストアプリケーションに、ある
データオブジェクト(すなわち、特定の形式のデータ)との関係を登録させる、
異なる技術が存在する。ある技術は、アプリケーションについて、あるものにつ
いての特定のファイル拡張子との関係(例えば、.doc−−「Microso
ft Word書類」)をWindowsに登録することであり;これは、Wi
ndowアプリケーションによって採用される最もよく用いられる技術である。
Microsoft Object Linking and Embedde
d(OLE)において採用される別のアプローチは、クラスGlobally
Unique Identifier、すなわちGUID−−(GUIDを有す
る書類をホスティングするために)呼び出すための特定のサーバーアプリケーシ
ョンを示すための16バイト識別子の使用である。このクラスIDは、特定のD
LL(Dynamic Link Library)またはアプリケーションサ
ーバーに接続されている特定の機器に登録される。
【0137】 特定の目的の1つの実施態様において、ホストアプリケーションを書類と関連
づけするための技術は、MIME形式の使用を通じてである。MIMEは、書類
オブジェクトをパッケージ化するための規格化された技術を提供する、それは、
どのアプリケーションが書類をホスティングするのに適切なかを示すMIMEヘ
ッダを含む。これら書類は、全て、インターネットを通じて転送するのに適する
フォーマットで収納される。
【0138】 1つの好ましい実施態様において、本発明の方法は、部分的に、本発明の方法
の使用に固有のMIME形式の使用を用いて実現される。MIME形式は、書類
(例えば、Microsoft ActiveX書類)をローカルで作成するた
めに必要な情報を含むが、さらに、必要ならば、書類の表示を表現するためのプ
ログラムコードを見つけそしてダウンロードするために必要な情報もまた含む。
このプログラムコードが既にローカルに存在する場合、それは、ローカルの複製
をアップデートする目的でダウンロードされる必要だけがある。これは、書類の
表示を表現するためのダウンロード可能なプログラムコードをサポートする情報
を含む新しい書類形式を定義する。
【0139】 MIME形式は、.APPのファイル拡張子と関連し得る。.APP拡張子を
有するファイルは、OLE書類であり、これはOLE DocObjectによ
って実現される。.APPファイルは1つのファイルであるので、それは、HT
ML HREFを用いてサーバー上に置かれ得そしてリンクされ得る。この.A
PPファイルは、好ましくは以下のデータの断片を含む:(1)ActiveX
オブジェクトのCLDSID、これは、本発明の方法の使用に適切な1つ以上の
フォームとして実現されるOLE Document Viewerである;(
2)オブジェクトのコードが見出され得るURLのコードベース、および(3)
(必要に応じて)必要とされるバージョン番号。一旦、.APP DocObj
ectハンドラコードがインストールされ、そしてAPP MIME形式を登録
すると、それを使用して、ユーザーのウェブブラウザへと.APPファイルをダ
ウンロードし得る。
【0140】 サーバー側において、.APPファイルは、現実に1つのファイルであるので
、ウェブサーバーは、単に要求を受入れ、そしてクライアントにこのファイルを
戻す。APPファイルがダウンロードされる場合、.APP DocObjec
tハンドラは、オペレーティングシステムにこの.APPファイルに固有のオブ
ジェクトに関するコードベースをダウンロードするように要求する。このシステ
ムの機能は、CoGetClassObjectFromURL機能を通じて、
Windowsにおいて利用可能である。ActiveXオブジェクトのコード
ベースがダウンロードされた後、この.APP DocObjectハンドラは
、ブラウザにそれ自身の表示を、例えば、Explorer書類サイト上のAc
tivateMe方法を呼び出すことによって、作成することを要求する。次い
で、Internet Explorerは、DocObjectを呼び出して
、表示の証拠として実例を示す(それは、ダウンロードされたコードからのAc
tiveX表示オブジェクト例を作成することによってなされる)。一旦作成さ
れると、ActiveX表示オブジェクトは、Internet Explor
erにおいて適所で起動される。Internet Explorerは、適切
なフォームを作成し、そしてフォームの子を制御する。
【0141】 一旦このフォームが作成されると、それは、それがその機能を実行するために
必要である、もとの任意のリモートサーバーオブジェクトへの接続を確立し得る
。この点において、ユーザーは、このフォームで対話し得、このフォームは、I
nternet Explorerフレームに埋め込まれているようである。ユ
ーザーが、違うページに変える場合、ブラウザは、このフォームを最終的に閉じ
かつ破棄する(ならびに、リモートサーバーに対する任意の未決着の接続も放棄
する)責任を想定する。
【0142】 1つの好ましい実施態様では、エンドユーザーのデスクトップからの、このシ
ステムへのエントリーポイントは、企業ホームページまたは別の特定のウェブサ
イトのホームページである。このページは、必要に応じて、従来の様式で、多数
のリンクを含み得る。ユーザーがアプリケーションページ(例えば、本発明の方
法の機能を提供するページ)への特定のリンクをクリックすることに応じて、ウ
ェブブラウザは、サーバー上に常駐するアプリケーションページ(ファイル)に
接続する。
【0143】 1つの実施態様では、ユーザーが本発明の方法へのアクセスを要求する場合、
このユーザーは、特定のページ形式(例えば、ウェブブラウザにおける(本発明
の方法の1つ以上の要素を実行する)アプリケーションの所定の位置での実行の
ためのアプリケーション(appdoc)ページ)に指向される。各アプリケー
ションページは、URLを使用して位置づけられるので、他のページは、それへ
のハイパーリンクを有し得る。複数のアプリケーションページは、アプリケーシ
ョンページへのハイパーリンクを含むカタログページを作成することによってグ
ループ化され得る。ユーザーが、あるアプリケーションページを示すハイパーリ
ンクを選択する場合、ウェブブラウザは、アプリケーションコードをダウンロー
ドし、そしてブラウザ内でページを実行する。
【0144】 ブラウザがアプリケーションページをダウンロードする際に、このブラウザ(
定義されたMIME形式に基づく)は、ある形式の書類に関するハンドラである
、ローカルハンドラを呼び出す。すなわち、詳細には、アプリケーションページ
は、好ましくはGlobally Unique Idetifier(GUI
D)および書類をホスティングするために呼び出すリモート(ダウンロード可能
な)アプリケーションを識別するためのコードベースURLを含む。アプリケー
ションページと共に届く書類オブジェクトおよびGUIDが与えられれば、ロー
カルハンドラは、ホスティングアプリケーションが既にローカルに常駐している
かどうかを(例えば、Windows 95/NTレジストリを検査することに
よって)確かめるためにクライアント機器を見る。この点で、ローカルハンドラ
は、(あれば)ローカルコピーを呼び出すことを選択し得るか、またはホストア
プリケーションの最新バージョンをダウンロードし得る。
【0145】 異なるモデルのダウンロードコードは、市販されている。コードがダウンロー
ドされる場合、「コードベース」仕様(ファイル)は、最初にサーバーから要求
される。このコードベース自体は、簡易DLLファイルから複数の圧縮ファイル
を含むCabinetファイル(Microsoft .cabファイル)に及
び得る。なおさらに、情報(例えば、Microsoft .inf)ファイル
は、ダウンロードされるアプリケーションをインストールする方法をクライアン
トシステムに指示するために採用され得る。これらの機構は、どのアプリケーシ
ョンの構成要素が、ダウンロードされるか、そして何時ダウンロードされるかを
選択することにおいて、卓越した柔軟性を与える。
【0146】 好ましい実施態様について、プログラムコードを実際にダウンロードするため
に採用される機構そのものが、標準的Microsof ActiveX AP
I(Application Programing Interface)−
コールに依存する。ActiveX APIは、ウェブで配布されるアプリケー
ションに関するネイティブサポートを提供しないが、そのAPIは、プログラム
コードの正確なバージョンを位置付け、ローカル機器へそれをコピーし、その整
合性を検証し、そしてそれをクライアントオペレーティングシステムに登録する
ために呼び出され得る。一旦、このコードがダウンロードされると、ハンドラが
、書類オブジェクトを表現するために(レジストリが既にインストールされた場
合、このレジストリを通じてホスティングアプリケーションを呼び出すのに類似
した様式で)今存在するアプリケーションホストを呼び出すことを実行し得る。
【0147】 ホスティングアプリケーション(OLEサーバー)が、クライアントでロード
される以上は、このクライアントシステムは、ブラウザ内でアプリケーションを
正しく表現するためにOLEドキュメントビューアーキテクチャを採用し得る。
これは、ブラウザのメニューにアプリケーションのメニューを加えるために、お
よび(シングルActiveXコントロールレクタングル(control r
ectangle)−−既述した制限内で実行するのにアプリケーションを要求
することとは対照的に)ブラウザのサイズを変える際にアプリケーションのサイ
ズを正しく変えるために、従来のOLE方法論を用いることを含む。一旦、アプ
リケーションがクライアントで実行されると、それは例えば、RPC(Remo
te Procedure Call)方法論を使用してリモートロジックを実
行し得る。この様式において、リモートプロシージャーとして好適に実現される
ロジックも、さらに使用され得る。
【0148】 特定の好ましい実施態様では、本発明の方法は、以下の機能を提供する1つ以
上のフレームとして実行される。2つ以上の生物学的分子を、キャラクタースト
リング中にコードして、2つ以上の異なる初期キャラクターストリングのコレク
ションを提供する機能(ここで、各々の上記生物学的分子は、少なくとも約10
のサブユニットを含む);キャラクターストリングから少なくとも2つのサブス
トリングを選択する機能;サブストリングを結び付けて、1つ以上の初期キャラ
クターストリングとほぼ同じ長さの1つ以上の産物ストリングを形成する機能;
およびストリングのコレクションへ産物ストリングを加える(配置する)機能。
【0149】 2つ以上の生物学的分子をコードする機能は、好ましくは、1つ以上のウィン
ドウを提供する。ここで、ユーザーは、生物学的分子の表示を挿入し得る。さら
に、コーディング機能はまた、必要に応じて、ローカルネットワークならびに/
または、インターネットを通じてアクセス可能な個人のデータベースおよび/も
しくは公的なデータベースへのアクセスを提供し、それによって、データベース
中に含まれる1つ以上の配列が、本発明の方法へと入力され得る。従って、例え
ば、1つの実施態様において、エンドユーザーが核酸配列をコーディング機能中
に入力する場合、ユーザーは、必要に応じて、GenBankの検索を要求し、
そしてこのような検索によって戻ってきた、1つ以上の配列をコーディング機能
および/または多様性生成機能に入力する能力を有し得る。
【0150】 コンピュータープロセスならびに/またはデータアクセスプロセスのインター
ネットおよび/もしくはイントラネットの実施態様を実現する方法は、当業者に
周知であり、そして極めて詳細に記録されている(例えば、Cluerら、(1
992) A General Framework for the Opt
imization of Object−Oriented Queries
, Proc SIGMOD International Conferen
ce on Management of Data,San Diego,C
alifornia,1992年6月2〜5日,SIGMOD Record,
第21巻、1992年6月2日発行;Stonebraker,M.編;ACM
Press,383−392頁;ISO−ANSI,Working Dra
ft,「Information Technology−Database
Language SQL」,Jim Melton編,Intenation
al Organization for Standardization
and American National Standards Inst
itute,1992年7月;Microsoft Corporation,
「ODBC 2.0 Programmer’s Reference and
SDK Guide.The Microsoft Open Databa
se Standard for Microsoft Windows.TM
. and Windows NT.TM.,Microsoft Open
Database Connectivity.TM. Software D
evelopment Kit」,1992,1993,1994 Micro
soft Press,3−30頁および41−56頁;ISO Workin
g Draft,「Database Language SQL−Part
2:Foundation(SQL/Foundation)」,CD9075
−2:199.chi.SQL,1997年9月11日など、を参照のこと)。
【0151】 当業者は、多くの改善が、本発明の範囲から逸脱することなく、本構成に対し
てなされ得ることを認識する。例えば、2段構成において、WWWゲートウェイ
の機能を実行するサーバーシステムはまた、ウェブサーバーの機能も実行し得る
。例えば、上記の実施態様のいずれか1つは、URL以外の形式であるユーザー
(単数/複数)末端からの要求を認めるように変更され得る。なお別の変更は、
複数のマネージャー環境への適応を含む。
【0152】 (X.物理的評価およびフィードバックループの組み込み) 上記のように、特定の好ましい実施態様において、選択基準は、結び付けられ
たストリングにより提示される分子が、特定の経験的な物理的にアッセイされた
特性を満たすことが必要であり得る。これらの特性をアッセイするために、コー
ドされた分子を得る必要がある。このことを達成するために、結び付けられたス
トリングにより提示される分子は、物理的に合成される(例えば、化学的にもし
くは組換え法により)か、または単離される。
【0153】 本発明に従って生成されたキャラクターストリングの収集物によりコードされ
る遺伝子、タンパク質、ポリサッカライドの物理的合成は、1つ以上の所望の特
性についての物理的アッセイに敏感に反応する物理的提示物を作製するための主
な手段である。
【0154】 好ましい実施態様において、遺伝子合成技術は、代表的には、一致した様式で
、および本発明の方法により生成される結び付けられたストリングの収集物に提
供される配列提示に対する忠実な厳守において、ライブラリーを構築するために
使用される。
【0155】 好ましい遺伝子合成方法は、104〜109遺伝子/タンパク質変化のライブラ
リーの迅速な構築を可能にする。これは、代表的には、物理的アッセイまたは選
択方法により完全にサンプリングされるのと同程度に、より大きなライブラリー
を作製および維持することがより困難であり、かつときおり作製および維持され
得ないので、スクリーニング/選択プロトコルに適切である。例えば、当該分野
における既存の物理的アッセイ方法(例えば、「生死(life and de
ath)」選択法を含む)は、一般に、特定のライブラリーの特定のスクリーニ
ングにより約109の変化以下のサンプリングを可能にし、そして多くのアッセ
イは約104〜105のメンバーのサンプリングに制限されている。従って、いく
つかのより小さなライブラリーを構築することは、好ましい方法である。なぜな
ら、大きなライブラリーは、完全にサンプリングすることは容易にはできないか
らである。しかし、より大きなライブラリーは、例えば、ハイスループット方法
を用いて、やはり作製およびサンプリングされる。
【0156】 十分に規定された配列を用いて遺伝子、ポリサッカライド、タンパク質などを
合成するために使用され得る多くの方法が存在し、そしてこの分野は、急激に発
展している。単に、例を明示する目的で、この議論は、生物学的分子の生成につ
いて公知の方法の多くの可能性のあるかつ利用可能な型のうちの1つに焦点を当
てている。
【0157】 ポリヌクレオチド合成における現在の技術は、当業者がオリゴヌクレオチドを
効率的に調製することを可能にする、周知かつ成熟したホスホルアミダイト化学
により最もよく表れている。100bpより有意に長いオリゴヌクレオチドの慣
用的合成についてこの化学を使用することは可能であるが、いくらか実際的では
ない。そして合成収量は減少し、必要とされる生成の程度は増大する。「代表的
な」40〜80bpサイズのオリゴヌクレオチドは、非常に高純度で慣用的かつ
直接的に獲得され得る。
【0158】 オリゴヌクレオチドおよびなお完全な合成(二本鎖または一本鎖)遺伝子を、
多くの市販の供給源(例えば、The Midland Certified
Reagent Company(mcrc@oligos.com)、The
Great American Gene Company(http://
www.genco.com)、ExpressGen,Inc.(www.e
xpressgen.com)、Operon Technologies I
nc.(alameda,CA)などの多くの商用の供給源のいずれかから注文
し得る。同様に、ペプチドを、PeptidoGenic(pkim@ccne
t.com)、HTI Bio−pro=duct,Inc.(http://
www.htibio.com)、BMA Biomedicals,Ltd.
(U.K.Bio−Synthesis,Inc.などのような種々の供給元の
いずれかから特注し得る。
【0159】 最適化、並行、およびハイスループットに容易に敏感に反応しやすい小さなフ
ラグメントからの全遺伝子合成の関連する実証は、DillonおよびRose
n(1990)Biotechniques,(9)3:298−300に記載
される。リガーゼを使用することなく部分的に重複する一本鎖オリゴヌクレオチ
ドのセットからの、単純かつ迅速なPCRベースの遺伝子アセンブリプロセスが
記載される。いくつかのグループはまた、漸増するサイズの種々の遺伝子の合成
に対して、同じPCRベースの遺伝子アセンブリアプローチのバリエーションが
首尾よく適用され、従って、この方法の変異した遺伝子のライブラリー合成につ
いての一般的適用性およびコンビナトリアルな性質を実証したことを記載した(
有用な参考文献に関しては、Sandhuら(1992)Biotechniq
ues,12(1):15−16、ProdomouおよびPearl(199
2)Protein Engin.,5(8):827−829、Chenら(
1994)JACS、1994(11):8799−8800、Hayashi
ら(1994)Biotechniques,17:310−314などもまた
参照のこと)。
【0160】 より最近では、Stemmerら(1995)Gene 1645:49−5
3は、PCRベースのアセンブリ方法が、数十または数百さえもの合成40bp
オリゴヌクレオチドから、少なくとも2.7kbまでのより大きな遺伝子を構築
するために有用であるという証拠を提供した。これらの著者らはまた、「循環」
アセンブリPCRが使用される場合、公知のPCRベースの遺伝子合成プロトコ
ル(オリゴヌクレオチド合成、遺伝子アセンブリ、遺伝子増幅、および代表的に
は、クローニング)を包含する4つの工程から、遺伝子増幅工程が省略され得る
ことを実証した。
【0161】 一旦調製されると、当業者に周知の慣用的方法に従って遺伝子をベクターに挿
入し得、そしてこのベクターを使用して、宿主細胞をトランスフェクトし得、そ
してコードされたタンパク質を発現し得る。これらの目的を達成するためのクロ
ーニング方法論、および核酸の配列を確認するための配列決定方法は、当該分野
で周知である。適切なクローニングおよび配列決定技術、ならびに多くのクロー
ニングの実施を通して当業者を指導するに十分な指示は、BergerおよびK
immel、Guide to Molecular Cloning Tec
hniques,Methods in Enzymology、第152巻、
Academic Press,Inc.、San Diego(Berger
);Sambrookら(1989)Molecular Cloning_A
Laboratory Manual(第2版)第1〜3巻、Cold Sp
ring Harbor Laboratory,Cold Spring H
arbor Press,NY;およびCurrent Protocols
in Molecular Biology、F.M.Ausubelら編、C
urrent Protocols、Greene Publishing A
ssociates,Inc.とJohn Wiley&Sons,Inc.と
の合弁事業(1994、増補)に見出される。生物学的試薬および実験装置の製
造業者からの製品情報はまた、公知の生物学的方法において有用な情報を提供す
る。このような製造業者らとしては、SIGMA Chemical comp
any(Saint Louis,MO)、R&D systems(Minn
eapolis,MN)Pharmacia LKB Biotechnolo
gy(Piscataway,NJ)、CLONTECH Laborator
ies,Inc.(Palo Alto,CA)、Chem Genes Co
rp.,Aldrich Chemical Company(Milwauk
ee,WI)、Glen Research,Inc.、GIBCO BRL
Life Technologies,Inc.(Gaithersberg,
MD)、Fluka Chemica BioChemica Analyti
ka(Fluka Chemie AG,Buchs,Switzerland
)、Invitrogen,San Diego,CAおよびApplied
Biosystems(Foster City,CA)、ならびに当業者に公
知の多くの他の商業的供給元が挙げられる。
【0162】 物理的分子は、一旦発現されると、1つ以上の特性についてスクリーニングさ
れ得、そしてこの分子は、それらが選択基準を満たすか否かを決定され得る。次
いで、物理的選択基準を満たす分子をコードするキャラクターストリングは、上
記のとおりに選択される。物理的特性(例えば、結合特異性および/またはアビ
ディティー、酵素活性、分子量、電荷、熱安定性、至適温度、至適pHなど)に
ついての多くのアッセイは、当業者に周知である。
【0163】 特定の実施態様において、物理的分子は、1回以上の「シャッフリング」手順
に供され得、そして必要に応じて、特定の物理的特性についてスクリーニングさ
れて、新たな分子を生成する。次いで、この新たな分子は、上記の方法に従って
コードされ、そして処理される。
【0164】 種々の「シャッフリング方法」が公知である。これらの方法としては、本発明
者らおよび共同研究者ら(例えば、Stemmer(1994)Nature
370:389−391、Stemmerら(1994)、Proc.Natl
.Acad.Sci.USA 91:10747−10751、Stemmer
、米国特許第5,603,793号、Stemmerら、米国特許第5,830
,721号、Stemmerら、米国特許第5,811,238号、Minsh
ullら、米国特許第5,837,458号、Crameriら(1996)N
ature Med.2(1)100−103、PCT公開WO95/2262
5、WO97/20078、WO96/33207、WO97/33957、W
O98/27230、WO97/35966、WO98/31837、WO98
/13487、WO98/13485、およびWO98/42832)に教示さ
れる方法が挙げられる。さらに、いくつかの同時係属中の出願は、重要なDNA
シャッフリング方法論を記載する(例えば、同時係属中の米国特許出願第09/
116,118号(1998年7月15日出願)、同第60/102,362号
、およびSelifonovおよびStemmerのMethods for
making character strings,polynucleot
ides&polypeptide having desired char
acteristics(02/05/1999出願)、米国特許出願第60/
118,854号を参照のこと)。
【0165】 さらに、上記の方法はまた、並行様式で実施され得、ここで引き続く物理的ス
クリーニングのための個々のライブラリーのメンバーの各々(複数の遺伝子、タ
ンパク質、ポリサッカライドなどを含む)は、空間的に分離された容器または容
器のアレイにおいて合成されるか、またはプール様式で合成される。プール様式
では、所望の複数の分子の全てまたは一部が、単一の容器において合成される。
多くの他の合成アプローチは公知であり、そして他方に対する一方の特定の利点
は、当業者に容易に決定され得る。
【0166】 本明細書中で議論されるプロセスは、ハイスループットシステムを使用する生
成に対して敏感に反応する。ハイスループット(例えば、ロボット利用)システ
ムは、市販されている(例えば、Zymark Corp.,Hopkinto
n,MA;Air Technical Industries,Mentor
,OH;Beckman Instruments,Inc.Fullerto
n,CA;Precision Systems,Inc.,Natick,M
Aなどを参照のこと)。これらのシステムは、代表的には、全てのサンプルおよ
び試薬のピペッティング、液体分配、時間設定された(timed)インキュベ
ーション、およびアッセイに適切な検出器でのマイクロプレートの最終的な読み
とりを含む全体的な手順を自動化する。これらの設定可能なシステムは、ハイス
ループットおよび迅速な起動ならびに高い程度の融通性およびカスタマイズを提
供する。このようなシステムの製造は、詳細なプロトコルに種々のハイスループ
ットを提供する。従って、例えば、Zymark Corp.は、クローニング
発現および化学的または組換え的に生成された産物のスクリーニングについての
ハイスループットシステムの使用を記載する技術会報を提供する。
【0167】 (XI.生成されたストリング集団の使用) (A).遺伝的/進化アルゴリズムの使用) 1つの実施態様において、本発明の方法は、キャラクターストリングの集団を
提供する。特に好ましいキャラクターストリングは、コードされた生物学的分子
を提示し、そして代表的には、このコードされた分子は、互いが生物学的組織化
のレベルを反映するいくらかの関係を有する。結果的に、本発明の方法により生
成されたこのキャラクターストリングは、均質な配列空間からの、ランダムなま
たは無計画な選択を反映しないが、むしろ、組織化(例えば、遺伝子、遺伝子フ
ァミリー、個体、亜集団など)の特定のレベルが自然界で見出されることを反映
する関連性(または変化)の程度を捕捉する。従って、本発明の方法により生成
されたキャラクターストリングの収集物(例えば、構成された(populat
ed)データ構造)は、種々の進化モデルについての有用な開始点を提供し、そ
して進化アルゴリズム(進化計算)における使用のために便利である。
【0168】 このようなモデルにおいて使用された場合、本発明の方法により生成されたこ
の集団(キャラクターストリングの収集物)は、任意の集団に対する進化的アル
ゴリズムの実行よりはるかに多くの情報を提供する。
【0169】 例えば、進化的アルゴリズムが開始点として利用される場合、ランダムまたは
任意のメンバーのセット、シミュレーションの動力学は、任意の開始点から特定
の溶液までの前進を反映する(例えば、得られる集団における特性の分配)。開
始点は任意であり、そして本質的に天然のプロセスにより生成された集団と関連
しないので、これらの動力学は、天然のプロセス/集団の動力学に関する情報を
提供しない。
【0170】 対照的に、本発明の方法により生成されるキャラクターストリングの収集物は
、従来の進化アルゴリズムにおいて使用される開始点をランダムに生成するより
、はるかに多くの情報を含む。第1に、集団の各メンバーは、分子構造に関する
かなりの情報を含む。従って、1つのメンバーが、単に「自己/非自己」として
ではなく別のメンバーから区別されるが、むしろメンバーは、関連性/類似性の
程度により区別される。本発明の方法により生成された集団のメンバーは、変化
する共変動の程度を反映する。
【0171】 さらに、本発明の方法により生成される集団は、初期ストリングにコードされ
る生物学的組織化のレベルの微細な構造特徴を反映するので、シミュレーション
の初期動力学は、これらのストリングセットを使用して実行されるシミュレーシ
ョンの初期動力学は、「実世界」集団の動力学を反映し、そして進化プロセスへ
かなりの洞察を提供する。
【0172】 さらに特定の分子が、本発明の方法を使用して生成されるメンバーにより提示
されるので、これらのデータ構造を使用して実行された進化アルゴリズムは、分
子進化および/または新たなかつ有用な分子実体の設計に関する実際の情報を提
供する。
【0173】 (B)指標生成における使用) 別の実施態様において、本発明の方法により生成されるデータ構造は、本質的
に任意の種類の情報を指標化するためのタグ(指標)として使用され得る。この
アプローチにおいて、より大きな類似性の情報は、より大きな類似性を有するデ
ータ構造(キャラクターストリング)のメンバーを使用してタグ化される。その
一方で、より低い類似性の情報は、より低い類似性を有するデータ構造のメンバ
ーでタグ化される。好ましい実施態様において、データの2つの異なる断片をタ
グ化するために使用されるキャラクターストリングの類似性は、タグ化された情
報の類似性を反映する(タグ化された情報の類似性と比例する)。
【0174】 検索が行われる場合、最初のヒットが伝統的な検索技術を用いて同定される。
次いで、密接に関連した情報が所望であれば、このデータ構造は、上記の周知の
類似性アルゴリズムのいずれかを使用して類似するメンバーについて検索され得
る。これらの類似性アルゴリズムは、多くのデータ領域(data space
)の完全、迅速、かつ有効な検索を提供するように設計される。所望の類似性の
メンバー(指標)が同定されると、それらは、タグ化されたデータに注意を向け
させ、それによりエンドユーザーに関連する情報を提供する。
【0175】 (C)データベース検索における参考対象物としての使用) 関連出願では、本発明の方法により生成されるこのデータ構造、またはこのよ
うなデータ構造のメンバー(すなわち、キャラクターストリング)は、データベ
ース検索において参照対象物として使用され得る。例えば、初期の公知の情報(
例えば、分子構造、または上記の知識データベース(knowledge da
tabase)からの指標ストリング)は、本明細書中に記載の方法に従ってコ
ードされ、そして改変される。これは、関連するが、明らかではない、初期のコ
ードされた情報の改変を捕捉する新たなデータ構造を生成する。
【0176】 得られる情報(例えば、データ構造のメンバー)を解析して、実際の分子また
は理論的分子を同定し、そしてこれは同じかまたは関連する分子についての代表
的なデータベースを検索するために使用され得る。コードされた情報がデータベ
ース指標に由来する場合、このデータ構造のメンバーを使用して、本来のデータ
ベースまたは新たなデータベースをプローブし、関連する/関連した情報を同定
し得る。
【0177】 (D)特定の分子特性を付与する構造モチーフの同定) 例えば、機能的操作を容易にするために、特定の特性を担い得る分子(例えば
、タンパク質)の領域を同定することは、しばしば、興味深い。これは、通常X
線結晶学により得られる構造情報を使用して、伝統的に行われる。
【0178】 類似のまたはなお同一の反応を触媒する天然に存在する酵素の配列は、広範に
変化し得;配列は、わずか50%以下で同一であり得るが、このような酵素のフ
ァミリーは、1つの同一の反応を触媒し得、これらの酵素の他の特性は有意に異
なり得る。これらの特性としては、例えば、温度および有機溶媒に対する安定性
、至適pH、可溶性、固定化された場合に活性を保持する能力、異なる宿主系で
の発現の容易さの物理的特性が挙げられる。それらはまた、活性(Kcatおよび
m)、受容される基質の範囲、および行われる化学的な事象(even of chemistries)を含む触媒特性が挙げられる。本明細書中で記載さ
れる方法は、非触媒性タンパク質(例えば、サイトカインのようなリガンド)お
よび核酸配列(例えば、多くの異なるリガンドにより誘導可能であり得るプロモ
ーター)さえにも適用され得る。複数の機能的重要性(dimensions)
が「相同な」配列のファミリーによりコードされる。
【0179】 類似する触媒機能を有する酵素間の分岐が理由で、特定の特性と個々のアミノ
酸とを特定の位置で相関づけることは通常は可能でない。あまりにも多くのアミ
ノ酸相違が存在する。しかし、バリアントのライブラリーは、本発明の方法に従
う初期ストリングへファミリーのメンバーをコードし、次いで、そのコードされ
たバリアントを有するデータ構造を構成するようにサブストリングを選択し、そ
して結び付けることにより相同な天然の配列のファミリーから調製され得る。
【0180】 このコードされたか、または解析されたバリアントは、所望の特性についてイ
ンシリコで試験され得、そして/またはコードされたバリアントは結び付けられ
得、そして対応する分子は、物理的に上記のように合成される。次いで、この合
成された分子は、1つ以上の所望の特性についてスクリーニングされ得る。
【0181】 データ構造のメンバーは、特定の特性についての特定の条件セットの下で試験
される場合、これらの条件についてのこのデータ構造(または初期ストリング収
集物)からの配列の最適な組み合わせが決定され得る。このアッセイ条件をわず
か1つのパラメーターにおいて変化させる場合、ライブラリー(データ構造)由
来の異なる個体が最良のパフォーマーとして同定される。スクリーニング条件は
非常に類似しているので、大部分のアミノ酸は、おそらく、最良のパフォーマー
の2つのセット(初期ストリング収集物における最良のパフォーマー(セット1
)および構成されたデータ構造における最良のパフォーマー(セット2))の間
で保存される。従って、この2つの異なる条件化での最良の酵素の配列の比較に
より、性能における差異の原因である配列差異が同定される。
【0182】 素因成分分析(例えば、Partek type softwareを用いて
)は、このような分析に有用な多くの複数変量ツールのうちの1つである。
【0183】 (E)音楽の発生における使用) さらに別の実施態様において、本発明の方法を使用して、音楽を発生させ得る
。多くの周知のプログラムのいずれかを使用して、生物学的分子(例えば、DN
A、タンパク質など)は、音符にコードされ得る。これは、特定の音符上に特定
のサブユニットをマッピングする工程を包含し得る。これらの音符のタイミング
および/または音質は、そのサブユニットが存在するモチーフおよび/または二
次構造によって決定される。
【0184】 従って、例えば、プログラムSSミディ(SS−midi)は、種々の核酸配
列およびアミノ酸配列を音楽にコードするために使用されている。1つのアプロ
ーチ(DNAカリプソ)において、プリンは、ピリミジンの3/2の速度で再生
され、塩基C、T、G、Aは、音符C、F、G、Aにマッピングされ、そして第
一鎖は、ジャズオルガンを用いて再生されたが、その相補鎖は、バスを用いて再
生された。他のアプローチにおいて、音符/サブユニットがヘリックス中に見出
され、次いで、それがβ−シート中に見出される場合、音符の継続時間がより長
くあり得る。他のバリアントも、もちろん可能である。
【0185】 本発明の方法において、生物学的分子はストリングにコードされ、そのサブス
トリングが選択および結び付けられ、そしてデータ構造が上記のように設置され
る。次いで、この設置されたデータ構造は、このデータ構造にコードされた新規
の配列を音楽にマッピングするプログラム(例えば、SSミディ)への入力とし
て使用される。このデータ構造は、上記のように繰り返して再設置され得、これ
によって、このように生成された音楽句のバリアントを発生させる。
【0186】 (F)合成機械の駆動における使用) 上記に示されるように、本発明の方法によって生成されたデータ構造を使用し
て、そのコード分子(例えば、ポリペプチド、核酸、ポリサッカリドなど)の化
学合成のためのデバイスを駆動し得る。ほんのわずかの開始配列(「シードメン
バー」)のみを使用して、本発明の方法は、何十、何百、何千、何万、何十万、
またはさらには何百万もの異なるコード分子を、文字式で提供する。得られたデ
ータ構造、またはそのメンバーを使用して、化学(または、組換え)合成を駆動
する場合、実質的に任意のサイズの所望の分子の「コンビナトリアル」ライブラ
リーが調製され得る。このような「コンビナトリアル」ライブラリーは、治療剤
、生産加工分子、特定の酵素などについてスクリーニングするためのシステムを
提供するために、広く所望される。
【0187】 (実施例) 以下の実施例は、本発明を限定するためでなく、例示するために提供される。
【0188】 (実施例1:サブチリシンファミリーモデル) アミノ酸配列を整列した(コドン使用頻度は、好ましい発現系のためのレトロ
翻訳(retrotranslation)に最適化され得、そして合成のため
のオリゴヌクレオチドの数は最小化され得る)。7つの親の全ての可能な対のド
ットプロット対様式アライメントを作製した(図5、図6、図7)。対6および
対7は、7アミノ酸以上の各ウインドウあたり95%の同一性パーセントを示し
、一方、他の全ての対は、7アミノ酸以上の各ウインドウあたり80%の同一性
パーセントを示した。低い相同性の交差が高度に相同な親の支出で提示され得る
ように、アライメントのストリンジェンシー(および引き続く親間の交差の提示
)が各対について個々に操作され得ることに留意する。構造的偏りまたは活性部
位の偏りは、このモデルにおいて全く組込まれなかった。
【0189】 (実施例2:キメラポリヌクレオチドの合成のための交差オリゴヌクレオチド
の設計のためのプロセス) 第1に、キメラ接合を形成するための交差オペレーターを適用するために、サ
ブストリングを、親(開始)ストリングにおいて同定および選択した。これは、
以下によって実行される:a)全ての親のキャラクターストリング間の対様式相
同領域の全てまたは一部を同定する工程、b)各々の選択された対様式相同領域
内の少なくとも1つの交差点を指標化するために、同定された対様式相同性領域
の全てまたは一部を選択する工程、c)各々の選択された対様式非相同性領域内
の少なくとも1つの交差点を指標化するために、1つ以上の対様式非相同性領域
を選択する工程(「c」は、省略可能な任意の工程であり、そして構造−活性に
基づく選抜が適用され得る工程でもある)であって、それによって、交差点のさ
らなる選択に適切な親のキャラクターストリングの、位置的かつ親指標化領域/
エリア(サブストリング)のセットの記述を提供する工程。
【0190】 第2に、パート1で選択されたサブストリングのセットの各サブストリング内
の交差点のさらなる選択を実行する。この工程は、以下を含む:a)各々の選択
されたサブストリングにおいて少なくとも1つの交差点を無作為に選択する工程
、ならびに/またはb)各々の選択されたサブストリング内の交差点選択の確率
を決定するための、1以上のアニーリングシュミレーションに基づくモデルを使
用して、各々の選択されたサブストリングにおいて少なくとも1つの交差点を選
択する工程、および/またはc)各々の選択されたサブストリングのおよそ中間
における1つの交差点を選択する工程であって、これによって、対様式交差点の
セットを作製する工程であり、ここで、各点は、この点でキメラ接合を形成する
ことが所望される各々の親ストリングにおける対応する文字位置に指標化される
【0191】 第3に、任意のコドン使用頻度調整を実行する。相同性(DNAまたはアミノ
酸をコードするストリング)を決定するために使用される方法に依存して、この
プロセスは変更され得る。例えば、DNA配列を使用する場合:a)選択された
発現系のためのコドンの調整を、全ての親ストリングについて実行し、そしてb
)親間のコドンの調整を、全ての対応する位置での全ての所定のアミノ酸につい
てのコドン使用頻度を標準化するために実施し得る。このプロセスは、遺伝子ラ
イブラリー合成のための異なるオリゴヌクレオチドの総数を有意に減少し得、そ
してアミノ酸相同性がDNA相同性より高い場合か、または高度に相同な遺伝子
のファミリー(例えば、80%+の同一性)を伴う場合に、特に有利であり得る
【0192】 このオプションは、注意して実行されるべきである。なぜなら、これは本質的
に、選抜変異オペレーターの発現であるからである。従って、所望しない結果を
有し得る、この偏りの導入に対するオリゴヌクレオチドのコストを削減する利点
を考慮する。より代表的には、大部分の親における所定の位置でアミノ酸をコー
ドするコドンを使用する。
【0193】 アミノ酸配列を使用する場合:a)DNAを縮重するために配列をレトロ翻訳
する;b)元のDNA(大部分の親の、または対応する親の)におけるコドン使
用頻度に対する位置ごとの参照を使用して、縮重するヌクレオチドを定義するか
、および/または選択された発現系に適切なコドン調整を実行する。ここで、物
理的アッセイを実行する。
【0194】 この工程をまた使用して、もしあるならば、引き続く同定/QA/脱回旋(d
econvolution)/ライブラリーエントリーの操作のために、遺伝子
のコード部分内に任意の制限部位を導入し得る。パート2で同定された全ての交
差点(親の対に指標化された)を、調整されたDNA配列に対応して指標化する
【0195】 第4に、オリゴヌクレオチド配置を、遺伝子アセンブリスキームのために選択
する。この工程は、いくつかの決定工程を包含する: 均一の40〜60マーのオリゴヌクレオチドを代表的に使用する(より長いオ
リゴヌクレオチドを使用することは、親の構築のためのオリゴヌクレオチドの数
の減少を生じるが、近接して位置される交差/変異の提示を提供するために、さ
らなる専用のオリゴヌクレオチドを使用する)。
【0196】 より短いオリゴヌクレオチドまたはより長いオリゴヌクレオチドのいずれが許
容されるか(すなわち、はい/いいえ?の決定)を選択する。「はい」の決定は
、ギャップ(欠失/挿入)(特に、1〜2アミノ酸)を有する異なる長さの高い
相同性の遺伝子のオリゴヌクレオチドの総数を削減する。
【0197】 重複の長さ(代表的には、15〜20塩基(これは、対称または非対称であり
得る))を選択する。
【0198】 縮重オリゴヌクレオチドが許容されるか否か(はい/いいえ?)を選択する。
別の強力なコスト削減特徴およびさらなる配列相違性を得るための強力な手段で
もある。部分的縮重スキームおよび最小縮重スキームは、変異誘発ライブラリー
を確立する際に特に有利である。
【0199】 ソフトウェアツールがこれらの操作に使用される場合、パラメーターのいくつ
かの変更を実行し、最大のライブラリー複雑性および最小のコストを選択する。
種々の長さのオリゴヌクレオチドを使用する複雑なアセンブリスキームを行うこ
とは、プロセスの指標化、および引き続く、位置的にコードされる並行または部
分的プール形式でのライブラリーのアセンブリを、有意に複雑にする。これが、
精巧なソフトウェアを用いないでなされる場合、単純かつ均一なスキーム(例え
ば、全てのオリゴヌクレオチドが、20塩基の重複を有する40塩基長である)
を使用し得る。
【0200】 第5に、「便宜的配列(convenience sequence)」を、
親ストリングの前後に設計する。理想的には、これは、最終的に全てのライブラ
リーエントリーにおいて確立される同じセットである。これらは、任意の制限部
位、アセンブルされた産物同定のためのプライマー配列、RBS、リーダーペプ
チド、および他の特別または所望の特徴を含む。原理的に、この便宜的配列を後
の段階で定義し得、そしてこの段階では、適切な長さの「ダミー」セットを使用
し得る(例えば、容易に認識可能な禁制文字からのサブストリング)。
【0201】 パート6において、全ての親を確立するためのオリゴヌクレオチドストリング
の指標化マトリクスを、選択されたスキームに従って作製する。全てのオリゴヌ
クレオチドの指標は、以下を含む:親識別子(親ID)、コード鎖または相補鎖
の表示、および位置番号。交差点を、頭部および尾部の便宜的サブストリングを
有する全ての親ストリングの指標化コードストリングについて決定する。全ての
鎖の相補鎖を作製する。全てのコードストリングを、パート4の選択されたアセ
ンブリPCRスキームに従って選択する(例えば、40bpの増分において)。
全ての相補ストリングを、同じスキームに従って分割する(例えば、40bpを
20bpシフトで)。
【0202】 パート7において、オリゴヌクレオチドの指標化マトリクスを、全ての対様式
交差操作について作製する。第1に、対様式交差マーカーを有する、全てのオリ
ゴヌクレオチドを決定する。第2に、親交差マーカーの同じ位置および同じ対を
有する、全てのオリゴヌクレオチドの全てのセット(交差点あたり4つ)を決定
する。第3に、同じ交差マーカーで標識されている、4つのオリゴヌクレオチド
ストリングの全てのセットを取り、そして2つのコード鎖および2つの相補鎖を
コードする文字を有する4つのキメラオリゴヌクレオチドストリングの別の誘導
セット(例えば、40=20+20スキームにおいて20bpシフトを有する)
を作製する。1つの親の順方向末端配列ストリング、それに続いて交差点後の第
2の親の逆方向末端を有する、2つのコードストリングが可能である。相補スト
リングもまた、同じ様式で設計し、これによって、PCRによる遺伝子ライブラ
リーアセンブリに適切なオリゴヌクレオチドをコードするストリングの、指標化
完全インベントリーを得る。
【0203】 このインベントリーをさらに、必要に応じて、全ての重複オリゴヌクレオチド
を検出し、これらを計数し、そして各オリゴヌクレオチドストリングの指標にお
ける「存在比=量」フィールドに対する計数値の導入を付随させて、インベント
リーから消去することによって洗練し得る。これは、ライブラリー合成のための
オリゴヌクレオチドの総数を減少するために(特に、親配列が高度に相同である
場合において)、非常に有利な工程であり得る。
【0204】 本明細書の以上において記載される方法および材料に対して、請求される本発
明の精神または範囲から逸脱することなく改変が行われ得、そして本発明は、以
下を含む多くの異なる用途に適用され得る: 反復プロセスに含まれる、シャッフリングされた核酸を生成するため、および
/またはシャッフリングされた核酸を試験するための統合システムの使用。
【0205】 本明細書の以上において記載された選択ストラテジー、材料、構成要素、方法
または基材のいずれか1つの使用を利用する、アッセイ、キットまたはシステム
。キットは、必要に応じて、方法またはアッセイを実施するための説明書、包装
材料、アッセイ、デバイスまたはシステムの構成要素を含む1以上の容器などを
、さらに含む。
【0206】 さらなる局面において、本発明は、本明細書中の方法および装置を具体化する
キットを提供する。本発明のキットは、必要に応じて、以下の1以上を含む:(
1)本明細書中に記載のシャッフリングされた成分;(2)本明細書中に記載さ
れる方法を実施するため、および/または本明細書中の選択手順を操作するため
の説明書;(3)1以上のアッセイ成分;(4)核酸または酵素、他の核酸、ト
ランスジェニック植物、動物、細胞などを保管するための容器;(5)包装材料
;ならびに(6)本明細書中に記載されるプロセスおよび/または決定工程のい
ずれかを実行するためのソフトウェア。
【0207】 さらなる局面において、本発明は、本明細書中の任意の構成要素またはキット
の使用、本明細書中の任意の方法またはアッセイの実施、および/または本明細
書中の任意のアッセイまたは方法を実施するための任意の装置またはキットの使
用を提供する。
【0208】 本明細書中に記載される実施例および実施態様が、例示目的のみのものである
こと、およびこれらを考慮して種々の改変または変更が、当業者によって示唆さ
れ、そして本出願の精神および権利ならびに添付の特許請求の範囲内に含まれる
べきであることが、理解される。本明細書中に引用される全ての刊行物、特許、
および特許出願は、全ての目的のためにその全体が参考として、本明細書中に援
用される。
【図面の簡単な説明】
【図1】 図1は、本発明の方法の1つの実施態様を示すフローチャートを図示する。
【図2】 図2は、本発明の方法(単数または複数)に従うサブ配列の選択および結び付
けを図示する。
【図3】 図3は、本発明の方法(単数または複数)に従うサブ配列の選択および結び付
けを図示し、ここでこの結び付けは、サブストリングの規則性を固定するための
アラインメントアルゴリズムを利用する。
【図4】 図4は、本発明に従う代表的なデジタルデバイス700を図示する。
【図5】 図5は、異なるサブチリシン(初期キャラクターストリングの典型的なセット
)についての類似性パーセントを示すチャートおよび関係系統樹である。
【図6】 図6は、異なるサブチリシンについての相同性領域を示す、対をなすドットプ
ロットアラインメントである。
【図7】 図7は、7つの異なる親サブチリシンについての相同性領域を示す、対をなす
ドットプロットアラインメントである。
───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 60/116,447 (32)優先日 平成11年1月19日(1999.1.19) (33)優先権主張国 米国(US) (31)優先権主張番号 60/118,813 (32)優先日 平成11年2月5日(1999.2.5) (33)優先権主張国 米国(US) (31)優先権主張番号 60/118,854 (32)優先日 平成11年2月5日(1999.2.5) (33)優先権主張国 米国(US) (31)優先権主張番号 60/141,049 (32)優先日 平成11年6月24日(1999.6.24) (33)優先権主張国 米国(US) (31)優先権主張番号 09/408,392 (32)優先日 平成11年9月28日(1999.9.28) (33)優先権主張国 米国(US) (31)優先権主張番号 09/408,393 (32)優先日 平成11年9月28日(1999.9.28) (33)優先権主張国 米国(US) (31)優先権主張番号 09/416,375 (32)優先日 平成11年10月12日(1999.10.12) (33)優先権主張国 米国(US) (31)優先権主張番号 09/416,837 (32)優先日 平成11年10月12日(1999.10.12) (33)優先権主張国 米国(US) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,US,UZ,VN,YU,ZA,ZW Fターム(参考) 4B024 AA20 CA02 5B075 MM01 MM04 MM11 ND03 ND18 ND20 ND23 ND34 NR02 NR16 PQ02 PQ05 UU19

Claims (41)

    【特許請求の範囲】
  1. 【請求項1】 複数のキャラクターストリングを有するデータ構造を居住さ
    せる方法であって、該方法は、以下の工程: i)2以上の異なる初期キャラクターストリングの収集物を提供するために、
    キャラクターストリング中に2以上の生物学的分子をコードする工程であって、
    ここで該生物学的分子の各々が、少なくとも約10のサブユニットを含む、工程
    ; ii)該キャラクターストリングから少なくとも2つのサブストリングを選択
    する工程; iii)該サブストリングを結び付けて、1以上の該初期キャラクターストリ
    ングと同じ長さの1以上の解ストリングを形成する工程 iv)ストリングの収集物に解ストリングを加える工程;ならびに v)必要に応じて、初期キャラクターストリングの収集物中の初期ストリング
    として、1以上の該解ストリングを使用して、工程(i)または(ii)〜(i
    v)を繰り返す工程、 を包含する、方法。
  2. 【請求項2】 前記コードする工程が、前記キャラクターストリング中に1
    以上の核酸配列をコードする工程を包含する、請求項1に記載の方法。
  3. 【請求項3】 前記1以上の核酸配列が、既知のタンパク質をコードする核
    酸配列を含む、請求項2に記載の方法。
  4. 【請求項4】 前記コードする工程が、前記キャラクターストリング中に1
    以上のアミノ酸配列をコードする工程を包含する、請求項1に記載の方法。
  5. 【請求項5】 前記1以上のアミノ酸配列が、既知のタンパク質をコードす
    る核酸配列を含む、請求項4に記載の方法。
  6. 【請求項6】 前記生物学的分子が、少なくとも30%の配列同一性を有す
    る、請求項1に記載の方法。
  7. 【請求項7】 前記サブストリングの末端が同じ2つのストリングの間の全
    体的な配列同一性よりも、前記初期キャラクターストリングの別の対応する領域
    とより高い配列同一性を有する約3〜約20文字のストリング領域において生じ
    るように、前記選択する工程が、サブストリングを選択する工程を包含する、請
    求項1に記載の方法。
  8. 【請求項8】 前記選択する工程が、前記サブストリングの末端が約4〜約
    8の文字の所定のモチーフにおいて生じるようにサブストリングを選択する工程
    を包含する、請求項1に記載の方法。
  9. 【請求項9】 前記結び付けが前記2つの異なる初期ストリングの間の全体
    的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同一性
    を有する約3〜約20の文字の領域において生じるように、前記選択する工程お
    よび結び付ける工程が、2つの異なる初期ストリングに由来するサブストリング
    を結び付ける工程を包含する、請求項1に記載の方法。
  10. 【請求項10】 前記選択する工程が、2以上の前記初期キャラクタースト
    リングを整列し、該キャラクターストリングのうちの2以上のサブストリングの
    間の対同一性を最大化する工程、および1つのサブストリングの末端について整
    列された対のメンバーである文字を選択する工程を包含する、請求項1に記載の
    方法。
  11. 【請求項11】 前記解ストリングが前記初期ストリングと30%より多い
    配列同一性を有する場合のみに、前記解ストリングが前記収集物に加えられる、
    請求項1に記載の方法。
  12. 【請求項12】 前記方法がさらに、前記キャラクターストリングの1以上
    の文字を無作為に変化させる工程を包含する、請求項1に記載の方法。
  13. 【請求項13】 前記方法がさらに、前記キャラクターストリング中の特定
    の予め選択された文字の1以上の出現を無作為に選択する工程および変化させる
    工程を包含する、請求項12に記載の方法。
  14. 【請求項14】 コンピュータプログラムの解であって、以下: i)2以上の異なる初期キャラクターストリングの収集物を提供するために、
    キャラクターストリング中に2以上の生物学的分子をコードし、ここで各々の該
    生物学的分子が、少なくとも約10のサブユニットを含み; ii)該キャラクターストリングから少なくとも2つのサブストリングを選択
    し; iii)該サブストリングを結び付けて、1以上の初期キャラクターストリン
    グとして同じ長さの1以上の解ストリングを形成する工程; iv)ストリングの収集物に解ストリングを加え;そして v)必要に応じて、初期キャラクターストリングの収集物中の初期ストリング
    として、1以上の該解ストリングを使用して、工程(i)または(ii)〜(i
    v)を繰り返す、 コンピューターコードを含む、コンピュータープログラムの解。
  15. 【請求項15】 前記2以上の生物学的分子が核酸配列である、請求項14
    に記載のプログラム。
  16. 【請求項16】 前記2以上の生物学的分子が既知のタンパク質の核酸配列
    である、請求項14に記載のプログラム。
  17. 【請求項17】 前記2以上の生物学的分子がアミノ酸配列である、請求頁
    14に記載のプログラム。
  18. 【請求項18】 前記生物学的分子が少なくとも30%配列同一性を有する
    、請求項14に記載のプログラム。
  19. 【請求項19】 前記サブストリングの末端が、前記同じ2つのストリング
    の間の全体的な配列同一性よりも前記初期キャラクターストリングの別の対応す
    る領域とより高い配列同一性を有する約3〜約20の文字のストリング領域にお
    いて生じるように、前記コードがサブストリングを選択する、請求項14に記載
    のプログラム。
  20. 【請求項20】 前記サブストリングの末端が約4〜約8の文字の所定のモ
    チーフにおいて生じるように、前記コードがサブストリングを選択する、請求項
    14に記載のプログラム。
  21. 【請求項21】 前記結び付けが、前記2つの異なる初期ストリングの間の
    全体的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同
    一性を有する、約3〜約20の文字の領域において生じるように、前記コードが
    、該2つの異なる初期ストリングに由来するサブストリングを選択し、かつ結び
    付ける、請求項14に記載のプログラム。
  22. 【請求項22】 コードが、前記キャラクターストリングのうちの2以上の
    サブストリングの間の対同一性を最大化するために2以上の前記初期ストリング
    を整列する工程、および1つのサブストリングの末端に対して整列された対のメ
    ンバーである文字を選択する工程によってサブストリングを選択する、請求項1
    4に記載のプログラム。
  23. 【請求項23】 前記解ストリングが初期ストリングと30%より大きい同
    一性を有する場合のみに、該解ストリングが前記収集物に加えられる、請求項1
    4に記載のプログラム。
  24. 【請求項24】 前記方法がさらに、前記キャラクターストリングの1以上
    の文字を無作為に変化させる工程を包含する、請求項14に記載のプログラム。
  25. 【請求項25】 前記方法が、前記キャラクターストリング中の特定の予め
    選択された文字の1以上の出現を無作為に選択する工程および変化させる工程を
    さらに包含する、請求項24に記載のプログラム。
  26. 【請求項26】 前記コードが、磁気媒体、光学媒体、光磁気媒体からなる
    群より選択される媒体に貯蔵される、請求項14に記載のプログラム。
  27. 【請求項27】 前記コードが、コンピューターの動的記憶装置または静的
    記憶装置である、請求項14に記載のプログラム。
  28. 【請求項28】 複数の関連ラベルを作製するためのラベル生成システムで
    あって、該ラベルシステムは、以下: 生物学的分子からの2以上の初期ストリングをコードするためのエンコーダー
    ; 該2以上のストリングからのサブストリングを識別し、かつ選択するためのア
    イソレーター; 該サブストリングを結び付けるためのコンカテネーター; ストリングの収集物として結び付けられたサブストリングを貯蔵するためのデ
    ータ構造; ストリングの該収集物の数および変動性を測定し、かつ十分なストリングがス
    トリングの該収集物に存在することを決定するためのコンパレーター;および 生のストリングファイル中にストリングの該収集物を書き込むためのコマンド
    ライター、 を備える、ラベル生成システム。
  29. 【請求項29】 前記アイソレーターが前記2以上の初期ストリングの間の
    同一性の領域を整列し、かつ決定するためのコンパレーターを備える、請求項2
    8に記載のシステム。
  30. 【請求項30】 前記エンコーダーがキャラクターストリング中に核酸配列
    をコードするための手段を備える、請求項28に記載のシステム。
  31. 【請求項31】 前記エンコーダーがキャラクターストリング中にアミノ酸
    配列をコードするための手段を備える、請求項28に記載のシステム。
  32. 【請求項32】 前記コンパレーターが配列同一性を算定するための手段を
    備える、請求項28に記載のシステム。
  33. 【請求項33】 前記サブストリングの末端が、前記同じ2つのストリング
    の間の全体的な配列同一性よりも前記初期キャラクターストリングの別の対応す
    る領域とより高い配列同一性を有する、約3〜約100の文字のストリング領域
    において生じるように、前期アイソレーターがサブストリングを選択する、請求
    項28に記載のシステム。
  34. 【請求項34】 前記サブストリングの末端が約4〜約8の文字の所定のモ
    チーフにおいて生じるように、前記アイソレーターがサブストリングを選択する
    、請求項28に記載のシステム。
  35. 【請求項35】 前記結び付けが、前記2つの異なる初期ストリングの間の
    全体的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同
    一性を有する、約3〜約100の文字の領域において生じるように、前記アイソ
    レーターおよびコンカテネーターが2つの異なる初期ストリングからのサブスト
    リングを個々または組み合せて結び付ける、請求項28に記載のシステム。
  36. 【請求項36】 前記アイソレーターが、前記キャラクターストリングのう
    ちの2以上のサブストリングの間の対同一性を最大化するように、2以上の前記
    初期キャラクターストリングを整列し、そして1つのサブストリングの末端に対
    して整列された対のメンバーである文字を選択する、請求項28に記載のシステ
    ム。
  37. 【請求項37】 前記ストリングが初期ストリングと30%より大きい同一
    性を有する場合に、前記コンパレーターが前記データ構造にストリングを加える
    、請求項28に記載のシステム。
  38. 【請求項38】 前記キャラクターストリングの1以上の文字を無作為に変
    化させるオペレーターをさらに備える、請求項28に記載のシステム。
  39. 【請求項39】 前記オペレーターが、前記キャラクターストリング中の特
    定の予め選択された文字の1以上の出現を無作為に選択し、かつ変化させる、請
    求項38に記載のシステム。
  40. 【請求項40】 データ構造が、コードされた核酸配列を貯蔵するデータ構
    造である、請求項28に記載のシステム。
  41. 【請求項41】 データ構造が、コードされたアミノ酸配列を貯蔵するデー
    タ構造である、請求項28に記載のシステム。
JP2000594066A 1999-01-18 2000-01-18 進化シュミレーションにおける使用のためにデータ構造を居住させる方法 Expired - Fee Related JP4899024B2 (ja)

Applications Claiming Priority (25)

Application Number Priority Date Filing Date Title
US09/484,850 1999-01-18
US0001202 1999-01-18
USPCT/US00/01202 1999-01-18
US11644799P 1999-01-19 1999-01-19
US60/116,447 1999-01-19
US11885499P 1999-02-05 1999-02-05
US11881399P 1999-02-05 1999-02-05
US60/118,854 1999-02-05
US60/118,813 1999-02-05
US14104999P 1999-06-24 1999-06-24
US60/141,049 1999-06-24
US09/408,392 US6376246B1 (en) 1999-02-05 1999-09-28 Oligonucleotide mediated nucleic acid recombination
US09/408,392 1999-09-28
US09/408,393 1999-09-28
US09/408,393 US6436675B1 (en) 1999-09-28 1999-09-28 Use of codon-varied oligonucleotide synthesis for synthetic shuffling
US41683799A 1999-10-12 1999-10-12
US41637599A 1999-10-12 1999-10-12
US09/416,375 1999-10-12
US09/416,837 1999-10-12
PCT/US2000/001202 WO2000042560A2 (en) 1999-01-19 2000-01-18 Methods for making character strings, polynucleotides and polypeptides
US09/494,282 US6917882B2 (en) 1999-01-19 2000-01-18 Methods for making character strings, polynucleotides and polypeptides having desired characteristics
PCT/US2000/001138 WO2000042559A1 (en) 1999-01-18 2000-01-18 Methods of populating data structures for use in evolutionary simulations
US09/484,850 US6368861B1 (en) 1999-01-19 2000-01-18 Oligonucleotide mediated nucleic acid recombination
US72160100A 2000-11-21 2000-11-21
US10/196,473 US20030054390A1 (en) 1999-01-19 2002-07-15 Oligonucleotide mediated nucleic acid recombination

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010179767A Division JP2011040068A (ja) 1999-01-18 2010-08-10 進化シュミレーションにおける使用のためにデータ構造を居住させる方法

Publications (3)

Publication Number Publication Date
JP2003536117A true JP2003536117A (ja) 2003-12-02
JP2003536117A5 JP2003536117A5 (ja) 2007-03-15
JP4899024B2 JP4899024B2 (ja) 2012-03-21

Family

ID=43759788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000594066A Expired - Fee Related JP4899024B2 (ja) 1999-01-18 2000-01-18 進化シュミレーションにおける使用のためにデータ構造を居住させる方法

Country Status (2)

Country Link
JP (1) JP4899024B2 (ja)
CA (1) CA2337949C (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018522205A (ja) * 2015-05-01 2018-08-09 シュレーディンガー エルエルシーSchrodinger,Llc 化合物の溶解度を予測するための物理学をベースにした計算方法
JP2019520622A (ja) * 2016-04-27 2019-07-18 ザイマージェン インコーポレイテッド ヌクレオチド配列の生産を制御するための製造指示フォームを生成するための方法およびシステム
US11312951B2 (en) 2015-12-07 2022-04-26 Zymergen Inc. Systems and methods for host cell improvement utilizing epistatic effects
US11352621B2 (en) 2015-12-07 2022-06-07 Zymergen Inc. HTP genomic engineering platform

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110957015B (zh) * 2019-12-02 2023-04-28 南开大学 电子医疗记录数据的缺失值填充方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997020078A1 (en) * 1995-11-30 1997-06-05 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997020078A1 (en) * 1995-11-30 1997-06-05 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
JP2000500981A (ja) * 1995-11-30 2000-02-02 マキシジェン,インコーポレイテッド 反復的選択および組換えにより所望の特徴を有するポリヌクレオチドを作製する方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6010026093, Willem P.C. Stemmer, "DNA shuffling by random fragmentation and reassembly: In vitro recombination for molecular evolution", Proc.Natl.Acad.Sci.USA, 1994, Vol.91, page.10747−10751 *
JPN6010026096, Jasbir Singh et al., "Application of Genetic Algorithms to Combinatorial Synthesis: A Computational Approach to Lead Ident", J.Am.Chem.Soc., 1996, Vol.118, page.1669−1676 *
JPN6010026099, Venkat Venkatasubramanian et al., "Evolutionary Design of Molecules with Desired Properties Using the Genetic Algorithm", J.Chem.Inf.Comput.Sci., 1995, Vol.35, page.188−195 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018522205A (ja) * 2015-05-01 2018-08-09 シュレーディンガー エルエルシーSchrodinger,Llc 化合物の溶解度を予測するための物理学をベースにした計算方法
US10783985B2 (en) 2015-05-01 2020-09-22 Schrödinger, Llc Physics-based computational methods for predicting compound solubility
US11312951B2 (en) 2015-12-07 2022-04-26 Zymergen Inc. Systems and methods for host cell improvement utilizing epistatic effects
US11352621B2 (en) 2015-12-07 2022-06-07 Zymergen Inc. HTP genomic engineering platform
JP2019520622A (ja) * 2016-04-27 2019-07-18 ザイマージェン インコーポレイテッド ヌクレオチド配列の生産を制御するための製造指示フォームを生成するための方法およびシステム
US11151497B2 (en) 2016-04-27 2021-10-19 Zymergen Inc. Microbial strain design system and methods for improved large-scale production of engineered nucleotide sequences

Also Published As

Publication number Publication date
JP4899024B2 (ja) 2012-03-21
CA2337949A1 (en) 2000-07-20
CA2337949C (en) 2011-03-15

Similar Documents

Publication Publication Date Title
US8170806B2 (en) Methods of populating data structures for use in evolutionary simulations
US6961664B2 (en) Methods of populating data structures for use in evolutionary simulations
EP1151409A1 (en) Methods of populating data stuctures for use in evolutionary simulations
Caetano-Anollés Tracing the evolution of RNA structure in ribosomes
Kinghorn et al. Aptamer bioinformatics
US10155943B2 (en) Method of generating an optimized, diverse population of variants
DK2250595T3 (en) PROCEDURE FOR SELECTING AN OPTIMIZED VARIETY OF VARIETIES
RU2694321C2 (ru) Основанное на структуре прогнозное моделирование
Henaut et al. Analysis and predictions from Escherichia coli sequences, or E. coli in silico
JP2003536117A (ja) 進化シュミレーションにおける使用のためにデータ構造を居住させる方法
Runge et al. Rnabench: A comprehensive library for in silico rna modelling
Wang et al. Computational biology and genome informatics
JP2011040068A (ja) 進化シュミレーションにおける使用のためにデータ構造を居住させる方法
Kartous et al. A new quantum cuckoo search algorithm for multiple sequence alignment
Chu Evolving genetic regulatory networks for systems biology
Thompson Statistics for bioinformatics: methods for multiple sequence alignment
CA2721213A1 (en) A system for generating labels from sequences of biological molecules
KR20010083870A (ko) 진화 시뮬레이션용 데이터 구조를 분포시키는 방법
Huang et al. Agent-based model of genotype editing
Wagner et al. Compactness and cycles in signal transduction and transcriptional regulation networks: a signature of natural selection?
Manrubia Cuevas et al. From genotypes to organisms: State-of-the-art and perspectives of a cornerstone in evolutionary dynamics
Mir et al. A Taxonomy for RNA Motif Discovery
Gesell et al. Phylogeny and evolution of RNA structure
Anwar Natural variation of gene regulatory networks in\(Arabidopsis\)\(thaliana\)
Schultes et al. No molecule is an island: molecular evolution and the study of sequence space

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100514

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110701

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111201

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20111201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111206

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees