JP2011040068A - Method of populating data structure for use in evolutionary simulation - Google Patents

Method of populating data structure for use in evolutionary simulation Download PDF

Info

Publication number
JP2011040068A
JP2011040068A JP2010179767A JP2010179767A JP2011040068A JP 2011040068 A JP2011040068 A JP 2011040068A JP 2010179767 A JP2010179767 A JP 2010179767A JP 2010179767 A JP2010179767 A JP 2010179767A JP 2011040068 A JP2011040068 A JP 2011040068A
Authority
JP
Japan
Prior art keywords
strings
string
initial
substring
substrings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010179767A
Other languages
Japanese (ja)
Inventor
Sergey A Slifonov
エイ. セリホノブ サーゲイ
Willem P C Stemmer
ピー. シー. ステマー ウィレム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maxygen Inc
Original Assignee
Maxygen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/408,393 external-priority patent/US6436675B1/en
Priority claimed from US09/408,392 external-priority patent/US6376246B1/en
Application filed by Maxygen Inc filed Critical Maxygen Inc
Publication of JP2011040068A publication Critical patent/JP2011040068A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method of populating data structures for use in evolutionary simulations. <P>SOLUTION: There is provided novel methods of populating data structures for use in evolutionary simulations and provides methods of populating a data structure with a plurality of character strings. The methods involve: encoding two or more biological molecules into character strings to provide a collection of two or more different initial character strings; selecting at least two substrings from the pool of character strings; concatenating the substrings to form one or more product strings about the same length as one or more of the initial character strings; adding the product strings to a collection of strings; and optionally repeating this process using one or more of the product strings as an initial string in the collection of initial character strings. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

(関連出願の相互参照)
本出願は、1999年10月21日に出願された米国特許出願第09/416,837号の一部継続出願である。
(Cross-reference of related applications)
This application is a continuation-in-part of US patent application Ser. No. 09 / 416,837, filed Oct. 21, 1999.

本出願はまた、SelifonovらのPCT出願(1999年1月18日出願)(Jonathan Alan Quite法律事務所により、代理人書類番号:02−289−3PC0で出願)による「METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS」に対する優先権を主張する。PCT出願(1999年1月18日出願)は、Selifonovらによる1999年10月12日出願の米国特許出願第09/416,375号「METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS」の一部継続出願である。Selifonovらによる1999年10月12日出願の米国特許出願第09/416,375号は、SelifonovおよびStemmerによる1999年1月19日出願の米国特許出願第60/116,447号「METHODS FOR MAKING CHARACTER STRINGS,POLYNUCELOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS」の正規出願であり、そしてまたSelifonovおよびStemmerによる1999年2月5日出願の米国特許出願第60/118,854号「METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS」の正規出願である。   This application is also a “METHODS FOR MAKING CHARACTER STRINGS, POLYNUCLEOTIDS” filed by Selifonov et al. Claims priority over "AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS". PCT application (filed January 18, 1999) is a US patent application 09 / 416,375 filed Oct. 12, 1999 by SELIFONOV et al. This is a continuation-part application. US patent application Ser. No. 09 / 416,375, filed Oct. 12, 1999, by Selinovov et al. STRINGS, POLYNUCELOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS, and also US Patent Application No. 60 / 118,854, METHODS FORMINGRIDERS It is a regular application of “HAVING DESIRED CHARACTERISTICS”.

本出願はまた、CrameriらのPCT出願(1999年1月18日出願)(Jonathan Alan Quite法律事務所により、代理人書類番号:02−296−3PCで出願)による「OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION」に対する優先権を主張する。PCT出願(1999年1月18日出願)は、Crameriらによる1999年9月28日出願の米国特許出願第09/408,392号「OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION」の一部継続出願である。米国特許出願第09/408,392号は、Crameriらによる1999年2月5日出願の米国特許出願第60/118,813号「OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION」の正規出願であり、そしてまたCrameriらによる1999年6月24日出願の米国特許出願第60/141,049号「OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION」の正規出願である。   This application is also directed to "OLIGON CULCULATION MEDIATED NUCLEIC ACID RECOMBINATION" by Crameri et al. PCT application (filed 18 January 1999) (filed by Jonathan Alan Quite Law Office, attorney document number: 02-296-3PC). Claim priority. The PCT application (filed Jan. 18, 1999) is a continuation-in-part of U.S. patent application Ser. No. 09 / 408,392, “OLIGON CLUOTIDE MEDIATED NUCLEIC ACID RECOMBINATION” filed Sep. 28, 1999 by Crameri et al. US patent application Ser. No. 09 / 408,392 is a regular application of US Patent Application No. 60 / 118,813 “OLIGON UCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION” filed February 5, 1999 by Crameri et al., And also Crameri et al. US Patent Application No. 60 / 141,049, filed June 24, 1999, "OLIGON UCLEOTIDE MEDIUMED NUCLEIC ACID RECOMBINATION".

本出願はまた、Welchらによる1999年9月28日出願の米国特許出願第09/408,393号「USE OF CODON VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING」に関連する。   This application is also related to US patent application Ser. No. 09 / 408,393, filed Sep. 28, 1999, “USE OF CODON VARIED OLIGONUCLEOTO SYNTHESIS FOR SYNTHETIC SHUFFLING” by Welch et al.

本出願は、適切に、米国特許法第119条および/または米国特許法第120条に提供されるように、これらの出願の各々に対する優先権を主張し、そしてその利益を請求する。これらの出願の全ては、全ての目的のためにそれらの全体が参考として本明細書に引用される。   This application claims priority to and claims the benefit of each of these applications, as suitably provided in 35 USC 119 and / or 120 USC. All of these applications are hereby incorporated by reference in their entirety for all purposes.

(著作権の告知)
この特許書類の開示の一部は、著作権の保護に供される材料を含む。著作権者は、特許書類または特許が米国特許商標庁の特許ファイルまたは記録に現れるので、特許書類または特許の開示の誰によるファクシミリでの複製に対しても異論はないが、他の点では、どんなことでも全ての著作権の権利を有する。
(Copyright notice)
Part of the disclosure of this patent document contains material that is subject to copyright protection. The copyright owner has no objection to the facsimile reproduction of the patent document or patent disclosure by anyone, because the patent document or patent appears in the US Patent and Trademark Office patent file or record, but in other respects, All rights are reserved for everything.

(連邦政府により援助を受けた研究および開発の下で行われた発明に対する権利に関しての宣言)
該当せず。
(Declaration concerning rights to inventions made under research and development supported by the federal government)
Not applicable.

(発明の分野)
本発明は、コンピューターモデリングおよびシュミレーションの分野に関する。特に、本発明は、進化モデリングにおける使用のためにデータ構造を居住させる新規な方法を提供する。
(Field of Invention)
The present invention relates to the field of computer modeling and simulation. In particular, the present invention provides a novel way to populate a data structure for use in evolutionary modeling.

(発明の背景)
個々の遺伝システムおよび/または集団の遺伝/表現型システムの生命の進化をシュミレーションおよび/または調査するコンピューターの使用の広汎な歴史が存在する。ほとんどの人工生命(A生命)シュミレーションを推進する動力は、人工生命体が進化し、そして/またはそれらの環境に対して適応させるアルゴリズムである。この基本的なアルゴリズムは、2つの主なカテゴリー(学習アルゴリズム(例えば、神経ネットワークにより代表されるアルゴリズム)および例えば、遺伝アルゴリズムにより代表される進化アルゴリズムに分かれる。
(Background of the Invention)
There is an extensive history of the use of computers to simulate and / or explore the life evolution of individual genetic systems and / or population genetic / phenotypic systems. The driving force behind most artificial life (A life) simulations is the algorithms that artificial life forms evolve and / or adapt to their environment. This basic algorithm can be divided into two main categories: learning algorithms (eg, algorithms represented by neural networks) and evolutionary algorithms represented by, for example, genetic algorithms.

多くの人工生命研究者ら、特に学習および適応のようなより高次のプロセスに関心のある研究者らは、人口脳として働く神経網をそれらの生物に与えている(例えば、Touretzky(1088〜1991)、Neural Information Processing Systems、第1〜4巻、Morgan Kaufmann、1988〜1991を参照のこと)。ニュートラルネットワークは、学習アルゴリズムである。それらは、例えば、イメージをカテゴリーに分類するように訓練され得る。代表的な課題は、どの文字が所定の手記の文字に対応するかを認識することである。   Many artificial life researchers, especially those interested in higher-order processes such as learning and adaptation, provide their organisms with a neural network that acts as an artificial brain (eg Touretsky (1088- 1991), Neural Information Processing Systems, Vols. 1-4, Morgan Kaufmann, 1988-1991). A neutral network is a learning algorithm. They can be trained to classify images into categories, for example. A typical problem is recognizing which character corresponds to a predetermined handwritten character.

神経網は、ニューロンと呼ばれる入力−出力デバイスから構成され、これは、(高度に接続された)ネットワークにおいて組織される。通常、ネットワークは、複数の層(感覚入力を受ける入力層、実際の計算を実行する任意の数のいわゆる秘密層(hidden layers)、およびこれらの計算の結果を報告する出力層)へと組織される。神経ネットワークの訓練は、網内のニューロンの間の接続の強度を調整することを包含する。   A neural network consists of input-output devices called neurons, which are organized in a (highly connected) network. Typically, a network is organized into multiple layers: an input layer that receives sensory input, any number of so-called hidden layers that perform the actual calculations, and an output layer that reports the results of these calculations. The Neural network training involves adjusting the strength of connections between neurons in the network.

生物学的に影響を与えられる基本的なアルゴリズムの他の主要な型は、「進化」アルゴリズムである。プロセスの学習(例えば、神経ネットワーク)は、個々の生物におけるプロセスの学習に比喩的に基づくが、進化アルゴリズムは、個体の集団内の進化的な変化によって影響を与えられる。神経網に対して、進化アルゴリズムは、近年、学術団体および産業団体に広汎に受け入れられるのみであった。   Another major type of basic algorithm that is biologically influenced is the “evolution” algorithm. While process learning (eg, neural networks) is metaphorically based on process learning in individual organisms, evolutionary algorithms are influenced by evolutionary changes within a population of individuals. For neural networks, evolutionary algorithms have only been widely accepted in recent years by academic and industrial organizations.

進化アルゴリズムは、一般に反復的である。反復は、代表的には、「世代」としていわれる。基本の進化アルゴリズムは、伝統的には、無作為に選択された個体の集団で開始する。各世代において、個体は、課された問題を解決するためにそれら自体の中で「競争」する。比較的十分に実行する個体は、次の世代へと「生存」するようである。次の世代に生存している個体は、小さな無作為の改変に供され得る。このアルゴリズムが正確に設定され、そしてこの問題が、実際に、この様式における解答に対する1つの対象である場合、反復が進行するにつれて、この集団は、質を向上させる解答を含む。   Evolutionary algorithms are generally iterative. An iteration is typically referred to as a “generation”. The basic evolutionary algorithm traditionally starts with a randomly selected population of individuals. In each generation, individuals “compete” within themselves to solve the imposed problem. Individuals that perform relatively well appear to "survive" to the next generation. Individuals surviving the next generation can be subject to small random modifications. If the algorithm is set up correctly and the problem is in fact one object for answers in this manner, as the iteration proceeds, the population will contain answers that improve quality.

最も有名な進化アルゴリズムは、J.Hollandのgenetic algorithm(J.H.Holland(1992)Adaptation in Natural and Artificial Systems.University of Michigan Press 1975、MIT Pressによるリプリント)である。遺伝的アルゴリズムは、実際のコンテクストにおいて、広範に使用される(例えば、財務予測、経営科学など)。その解空間(solution space)が不連続(「凹凸がある(rugged)」)でありそして不十分に理解されている多変量問題に対して、特に良好に適用される。遺伝的アルゴリズムを適用するために、当業者は、以下を定義する、1)パラメーター値のセットから、(0−1)ビットストリング(例えば、キャラクターストリング)のセットへのマッピング、および2)ビットストリングから実数(いわゆる適応度関数(fitness function))へのマッピング。   The most famous evolutionary algorithm is J.I. Holland's genetic algorithm (reprinted by JH Holland (1992) Adaptation in Natural and Artificial Systems. University of Michigan Press 1975, MIT Press). Genetic algorithms are widely used in the actual context (eg, financial forecasting, management science, etc.). It applies particularly well to multivariate problems where the solution space is discontinuous ("rugged") and is poorly understood. To apply the genetic algorithm, one skilled in the art defines the following: 1) mapping from a set of parameter values to (0-1) a set of bit strings (eg, character strings), and 2) a bit string To real number (so-called fitness function).

ほとんどの進化アルゴリズムにおいて、ランダムに選択したビットストリングのセットは、最初の集団を構成する。基本的な遺伝的アルゴリズムにおいて、以下の間、サイクルを繰り返す;集団中の各個体の適応度が評価される;個体のコピーが、その適応度に比例して作製される;そしてサイクルが繰り返される。そのような進化アルゴリズムの代表的な開始点は、ランダムに選択されたビットストリングのセットである。「任意の」、ランダムな、または偶然の開始集団の使用は、進化アルゴリズムを、当面の問題の効率的な解決、正確な解決、または簡潔な解決から遠くに、強力に偏らせ得る(特に、そのアルゴリズムを使用して、生物学的歴史または生物学的プロセスをモデリングするか、または分析する場合)。実際、進化アルゴリズムを、それがなんであれ任意の解に至らせる唯一の「力」は、適応度決定および付随する淘汰圧である。最終的に解には到達するが、プロセスが、集団のメンバーが、お互いに関連性を有さないランダムな(例えば、任意の)初期状態から開始するので、アルゴリズムが進行する際の集団の変遷は、シミュレーションされた系の変遷を反映する情報をほとんど明らかにしないか、または全く明らかにしない。   In most evolutionary algorithms, a randomly selected set of bit strings constitutes the initial population. In a basic genetic algorithm, the cycle is repeated for the following; the fitness of each individual in the population is evaluated; a copy of the individual is made in proportion to the fitness; and the cycle is repeated . A typical starting point for such an evolutionary algorithm is a randomly selected set of bit strings. The use of an “arbitrary”, random, or accidental starting population can strongly bias the evolutionary algorithm away from an efficient, accurate, or concise solution of the immediate problem (in particular, If the algorithm is used to model or analyze biological history or biological processes). In fact, the only “force” that makes an evolutionary algorithm whatever the solution is is fitness determination and the accompanying pressure. The solution is ultimately reached, but the process begins with a random (eg, arbitrary) initial state in which the members of the group are not related to each other, so the transition of the group as the algorithm progresses Reveals little or no information that reflects the evolution of the simulated system.

さらに、進化アルゴリズムは、代表的には、比較的高度のシミュレーションであり、そして集団レベルの情報を提供する。特定の遺伝情報(もし、少しでも存在する場合)は、代表的には、対立遺伝子(代表的には単一のキャラクターとして)の抽象的な表示としてか、または対立遺伝子の頻度として存在する。結果として、進化アルゴリズムは、分子レベルの事象について、ほとんど情報を提供しないか、または、全く提供しない。   Furthermore, evolutionary algorithms are typically relatively sophisticated simulations and provide population level information. Specific genetic information (if any) is typically present as an abstract representation of the allele (typically as a single character) or as the frequency of the allele. As a result, evolutionary algorithms provide little or no information about molecular level events.

同様に、ニューラルネットおよび/または細胞オートマトンは、その開始点として本質的に人工の構築物を選択し、そして内部法則(アルゴリズム)を利用して、生物学的プロセスを近似する。結果として、そのようなモデルは、一般にプロセスまたはメタプロセス(metaprocess)を模倣するが、これもまた、分子レベルの事象に関する情報または洞察を、ほとんどもたらさないか、全くもたらさない。   Similarly, a neural network and / or cellular automaton selects an essentially artificial construct as its starting point and utilizes internal laws (algorithms) to approximate biological processes. As a result, such models generally mimic processes or metaprocesses, which also provide little or no information or insights about molecular level events.

本発明は、以下の項目を提供する。
(項目1) 複数のキャラクターストリングを有するデータ構造を居住させる方法であって、該方法は、以下の工程:
i)2以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に2以上の生物学的分子をコードする工程であって、ここで該生物学的分子の各々が、少なくとも約10のサブユニットを含む、工程;
ii)該キャラクターストリングから少なくとも2つのサブストリングを選択する工程;
iii)該サブストリングを結び付けて、1以上の該初期キャラクターストリングと同じ長さの1以上の解ストリングを形成する工程
iv)ストリングの収集物に解ストリングを加える工程;ならびに
v)必要に応じて、初期キャラクターストリングの収集物中の初期ストリングとして、1以上の該解ストリングを使用して、工程(i)または(ii)〜(iv)を繰り返す工程、
を包含する、方法。
(項目2) 前記コードする工程が、前記キャラクターストリング中に1以上の核酸配列をコードする工程を包含する、項目1に記載の方法。
(項目3) 前記1以上の核酸配列が、既知のタンパク質をコードする核酸配列を含む、項目2に記載の方法。
(項目4) 前記コードする工程が、前記キャラクターストリング中に1以上のアミノ酸配列をコードする工程を包含する、項目1に記載の方法。
(項目5) 前記1以上のアミノ酸配列が、既知のタンパク質をコードする核酸配列を含む、項目4に記載の方法。
(項目6) 前記生物学的分子が、少なくとも30%の配列同一性を有する、項目1に記載の方法。
(項目7) 前記サブストリングの末端が同じ2つのストリングの間の全体的な配列同一性よりも、前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する約3〜約20文字のストリング領域において生じるように、前記選択する工程が、サブストリングを選択する工程を包含する、項目1に記載の方法。
(項目8) 前記選択する工程が、前記サブストリングの末端が約4〜約8の文字の所定のモチーフにおいて生じるようにサブストリングを選択する工程を包含する、項目1に記載の方法。
(項目9) 前記結び付けが前記2つの異なる初期ストリングの間の全体的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同一性を有する約3〜約20の文字の領域において生じるように、前記選択する工程および結び付ける工程が、2つの異なる初期ストリングに由来するサブストリングを結び付ける工程を包含する、項目1に記載の方法。
(項目10) 前記選択する工程が、2以上の前記初期キャラクターストリングを整列し、該キャラクターストリングのうちの2以上のサブストリングの間の対同一性を最大化する工程、および1つのサブストリングの末端について整列された対のメンバーである文字を選択する工程を包含する、項目1に記載の方法。
(項目11) 前記解ストリングが前記初期ストリングと30%より多い配列同一性を有する場合のみに、前記解ストリングが前記収集物に加えられる、項目1に記載の方法。
(項目12) 前記方法がさらに、前記キャラクターストリングの1以上の文字を無作為に変化させる工程を包含する、項目1に記載の方法。
(項目13) 前記方法がさらに、前記キャラクターストリング中の特定の予め選択された文字の1以上の出現を無作為に選択する工程および変化させる工程を包含する、項目12に記載の方法。
(項目14) コンピュータプログラムの解であって、以下:
i)2以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に2以上の生物学的分子をコードし、ここで各々の該生物学的分子が、少なくとも約10のサブユニットを含み;
ii)該キャラクターストリングから少なくとも2つのサブストリングを選択し;
iii)該サブストリングを結び付けて、1以上の初期キャラクターストリングとして同じ長さの1以上の解ストリングを形成する工程;
iv)ストリングの収集物に解ストリングを加え;そして
v)必要に応じて、初期キャラクターストリングの収集物中の初期ストリングとして、1以上の該解ストリングを使用して、工程(i)または(ii)〜(iv)を繰り返す、
コンピューターコードを含む、コンピュータープログラムの解。
(項目15) 前記2以上の生物学的分子が核酸配列である、項目14に記載のプログラム。
(項目16) 前記2以上の生物学的分子が既知のタンパク質の核酸配列である、項目14に記載のプログラム。
(項目17) 前記2以上の生物学的分子がアミノ酸配列である、請求頁14に記載のプログラム。
(項目18) 前記生物学的分子が少なくとも30%配列同一性を有する、項目14に記載のプログラム。
(項目19) 前記サブストリングの末端が、前記同じ2つのストリングの間の全体的な配列同一性よりも前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する約3〜約20の文字のストリング領域において生じるように、前記コードがサブストリングを選択する、項目14に記載のプログラム。
(項目20) 前記サブストリングの末端が約4〜約8の文字の所定のモチーフにおいて生じるように、前記コードがサブストリングを選択する、項目14に記載のプログラム。
(項目21) 前記結び付けが、前記2つの異なる初期ストリングの間の全体的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同一性を有する、約3〜約20の文字の領域において生じるように、前記コードが、該2つの異なる初期ストリングに由来するサブストリングを選択し、かつ結び付ける、項目14に記載のプログラム。
(項目22) コードが、前記キャラクターストリングのうちの2以上のサブストリングの間の対同一性を最大化するために2以上の前記初期ストリングを整列する工程、および1つのサブストリングの末端に対して整列された対のメンバーである文字を選択する工程によってサブストリングを選択する、項目14に記載のプログラム。
(項目23) 前記解ストリングが初期ストリングと30%より大きい同一性を有する場合のみに、該解ストリングが前記収集物に加えられる、項目14に記載のプログラム。
(項目24) 前記方法がさらに、前記キャラクターストリングの1以上の文字を無作為に変化させる工程を包含する、項目14に記載のプログラム。
(項目25) 前記方法が、前記キャラクターストリング中の特定の予め選択された文字の1以上の出現を無作為に選択する工程および変化させる工程をさらに包含する、項目24に記載のプログラム。
(項目26) 前記コードが、磁気媒体、光学媒体、光磁気媒体からなる群より選択される媒体に貯蔵される、項目14に記載のプログラム。
(項目27) 前記コードが、コンピューターの動的記憶装置または静的記憶装置である、項目14に記載のプログラム。
(項目28) 複数の関連ラベルを作製するためのラベル生成システムであって、該ラベルシステムは、以下:
生物学的分子からの2以上の初期ストリングをコードするためのエンコーダー;
該2以上のストリングからのサブストリングを識別し、かつ選択するためのアイソレーター;
該サブストリングを結び付けるためのコンカテネーター;
ストリングの収集物として結び付けられたサブストリングを貯蔵するためのデータ構造;
ストリングの該収集物の数および変動性を測定し、かつ十分なストリングがストリングの該収集物に存在することを決定するためのコンパレーター;および
生のストリングファイル中にストリングの該収集物を書き込むためのコマンドライター、
を備える、ラベル生成システム。
(項目29) 前記アイソレーターが前記2以上の初期ストリングの間の同一性の領域を整列し、かつ決定するためのコンパレーターを備える、項目28に記載のシステム。
(項目30) 前記エンコーダーがキャラクターストリング中に核酸配列をコードするための手段を備える、項目28に記載のシステム。
(項目31) 前記エンコーダーがキャラクターストリング中にアミノ酸配列をコードするための手段を備える、項目28に記載のシステム。
(項目32) 前記コンパレーターが配列同一性を算定するための手段を備える、項目28に記載のシステム。
(項目33) 前記サブストリングの末端が、前記同じ2つのストリングの間の全体的な配列同一性よりも前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する、約3〜約100の文字のストリング領域において生じるように、前期アイソレーターがサブストリングを選択する、項目28に記載のシステム。
(項目34) 前記サブストリングの末端が約4〜約8の文字の所定のモチーフにおいて生じるように、前記アイソレーターがサブストリングを選択する、項目28に記載のシステム。
(項目35) 前記結び付けが、前記2つの異なる初期ストリングの間の全体的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同一性を有する、約3〜約100の文字の領域において生じるように、前記アイソレーターおよびコンカテネーターが2つの異なる初期ストリングからのサブストリングを個々または組み合せて結び付ける、項目28に記載のシステム。
(項目36) 前記アイソレーターが、前記キャラクターストリングのうちの2以上のサブストリングの間の対同一性を最大化するように、2以上の前記初期キャラクターストリングを整列し、そして1つのサブストリングの末端に対して整列された対のメンバーである文字を選択する、項目28に記載のシステム。
(項目37) 前記ストリングが初期ストリングと30%より大きい同一性を有する場合に、前記コンパレーターが前記データ構造にストリングを加える、項目28に記載のシステム。
(項目38) 前記キャラクターストリングの1以上の文字を無作為に変化させるオペレーターをさらに備える、項目28に記載のシステム。
(項目39) 前記オペレーターが、前記キャラクターストリング中の特定の予め選択された文字の1以上の出現を無作為に選択し、かつ変化させる、項目38に記載のシステム。
(項目40) データ構造が、コードされた核酸配列を貯蔵するデータ構造である、項目28に記載のシステム。
(項目41) データ構造が、コードされたアミノ酸配列を貯蔵するデータ構造である、項目28に記載のシステム。
(発明の要旨)
本発明は、さらなるコンピュータ操作(例えば、遺伝的/進化アルゴリズムを介する)のために適切な、「初期」集団を生成するための、新規な方法を提供する。本発明の方法によって生成された集団のメンバーは、天然に存在する集団において見出される共分散の程度を反映する、程度の変化するお互いの「関連性」または「類似性」を保有する。さらに、代表的な進化アルゴリズムにおいて入力として使用される集団とは異なり、本明細書において提供される方法によって生成される集団は、個々のメンバーについての詳細な情報を代表的に含み、そしてその情報は、代表的には、メンバー間の可変性および/または関連性の「連続的な」(2進法よりはむしろ)尺度を提供するのに十分に複雑性である。実際、本発明の方法は、本発明の方法に従って作成された集団を含む個体における、分子情報の詳細なコーディングを提供する。
The present invention provides the following items.
(Item 1) A method of occupying a data structure having a plurality of character strings, the method comprising the following steps:
i) encoding two or more biological molecules in the character string to provide a collection of two or more different initial character strings, wherein each of the biological molecules is at least about Comprising 10 subunits;
ii) selecting at least two substrings from the character string;
iii) concatenating the substrings to form one or more solution strings of the same length as the one or more initial character strings.
iv) adding a solution string to the collection of strings; and
v) optionally repeating steps (i) or (ii)-(iv) using one or more of the solution strings as an initial string in the collection of initial character strings,
Including the method.
(Item 2) The method according to item 1, wherein the encoding step includes a step of encoding one or more nucleic acid sequences in the character string.
(Item 3) The method according to item 2, wherein the one or more nucleic acid sequences include a nucleic acid sequence encoding a known protein.
(Item 4) The method according to item 1, wherein the encoding step includes a step of encoding one or more amino acid sequences in the character string.
(Item 5) The method according to item 4, wherein the one or more amino acid sequences include a nucleic acid sequence encoding a known protein.
6. The method of claim 1, wherein the biological molecule has at least 30% sequence identity.
7. About 3 to about 20 characters having a higher sequence identity with another corresponding region of the initial character string than the overall sequence identity between two strings with the same end of the substring. 2. The method of item 1, wherein the selecting step includes selecting a substring, as occurs in the string region.
8. The method of claim 1, wherein the selecting comprises selecting a substring such that the end of the substring occurs in a predetermined motif of about 4 to about 8 characters.
(Item 9) In a region of about 3 to about 20 characters wherein the binding has a higher sequence identity between the two different initial strings than the overall sequence identity between the two different initial strings. The method of item 1, wherein the selecting and linking steps, as occurring, include the step of linking substrings from two different initial strings.
(Item 10) The step of selecting aligns two or more initial character strings and maximizes pair identity between two or more substrings of the character strings; and 2. The method of item 1, comprising selecting a letter that is a member of a pair aligned with respect to the ends.
11. The method of claim 1, wherein the solution string is added to the collection only if the solution string has greater than 30% sequence identity with the initial string.
12. The method of claim 1, wherein the method further comprises the step of randomly changing one or more characters of the character string.
13. The method of claim 12, wherein the method further comprises randomly selecting and changing one or more occurrences of a particular preselected character in the character string.
(Item 14) A solution of a computer program, the following:
i) encoding two or more biological molecules in the character string to provide a collection of two or more different initial character strings, wherein each biological molecule has at least about 10 subunits; Including:
ii) selecting at least two substrings from the character string;
iii) concatenating the substrings to form one or more solution strings of the same length as the one or more initial character strings;
iv) adding a solution string to the collection of strings; and
v) Repeat steps (i) or (ii)-(iv), if necessary, using one or more of the solution strings as an initial string in the collection of initial character strings.
Solution of computer programs, including computer code.
(Item 15) The program according to item 14, wherein the two or more biological molecules are nucleic acid sequences.
(Item 16) The program according to item 14, wherein the two or more biological molecules are nucleic acid sequences of known proteins.
(Item 17) The program according to claim 14, wherein the two or more biological molecules are amino acid sequences.
(Item 18) The program according to item 14, wherein the biological molecules have at least 30% sequence identity.
19. The sequence of about 3 to about 20 wherein the end of the substring has a higher sequence identity with another corresponding region of the initial character string than the overall sequence identity between the same two strings. Item 15. The program according to item 14, wherein the code selects a substring so that it occurs in a string region of a character.
20. The program of claim 14, wherein the code selects a substring such that the end of the substring occurs in a predetermined motif of about 4 to about 8 characters.
21. The combination of about 3 to about 20 characters, wherein the association has a higher sequence identity between the two different initial strings than the overall sequence identity between the two different initial strings Item 15. The program of item 14, wherein the code selects and associates substrings derived from the two different initial strings to occur in a region.
22. The method wherein the code aligns two or more of the initial strings to maximize pair identity between two or more substrings of the character string, and for the end of one substring Item 15. The program according to item 14, wherein a substring is selected by selecting a character that is a pair of aligned members.
23. The program of claim 14, wherein the solution string is added to the collection only if the solution string has greater than 30% identity with the initial string.
(Item 24) The program according to item 14, wherein the method further includes a step of randomly changing one or more characters of the character string.
25. The program of claim 24, wherein the method further comprises randomly selecting and changing one or more occurrences of a particular preselected character in the character string.
(Item 26) The program according to item 14, wherein the code is stored in a medium selected from the group consisting of a magnetic medium, an optical medium, and a magneto-optical medium.
(Item 27) The program according to item 14, wherein the code is a dynamic storage device or a static storage device of a computer.
28. A label generation system for producing a plurality of related labels, the label system comprising:
An encoder for encoding two or more initial strings from a biological molecule;
An isolator for identifying and selecting substrings from the two or more strings;
A concatenator for linking the substrings;
A data structure for storing substrings associated as a collection of strings;
A comparator for measuring the number and variability of the collection of strings and determining that sufficient strings are present in the collection of strings; and
A command writer for writing the collection of strings into a raw string file;
A label generation system comprising:
29. The system of claim 28, wherein the isolator comprises a comparator for aligning and determining a region of identity between the two or more initial strings.
30. The system of claim 28, wherein the encoder comprises means for encoding a nucleic acid sequence in a character string.
31. The system of claim 28, wherein the encoder comprises means for encoding an amino acid sequence in a character string.
32. The system of claim 28, wherein the comparator comprises means for calculating sequence identity.
33. About 3 to about, wherein the end of the substring has a higher sequence identity with another corresponding region of the initial character string than the overall sequence identity between the same two strings 29. The system of item 28, wherein the pre-isolator selects a substring to occur in a string region of 100 characters.
34. The system of claim 28, wherein the isolator selects a substring such that the end of the substring occurs in a predetermined motif of about 4 to about 8 characters.
35. The combination of about 3 to about 100 characters, wherein the association has a higher sequence identity between the two different initial strings than the overall sequence identity between the two different initial strings 29. The system of item 28, wherein the isolator and concatenator combine substrings from two different initial strings individually or in combination, as occurs in a region.
36. The isolator aligns two or more of the initial character strings such that the isolator maximizes pair identity between two or more substrings of the character string, and ends one substring. 29. The system of item 28, wherein the system selects characters that are paired members aligned with respect to.
37. The system of claim 28, wherein the comparator adds a string to the data structure when the string has greater than 30% identity with an initial string.
38. The system of claim 28, further comprising an operator that randomly changes one or more characters of the character string.
39. The system of claim 38, wherein the operator randomly selects and changes one or more occurrences of a particular preselected character in the character string.
40. The system of claim 28, wherein the data structure is a data structure that stores an encoded nucleic acid sequence.
41. The system of claim 28, wherein the data structure is a data structure that stores an encoded amino acid sequence.
(Summary of the Invention)
The present invention provides a novel method for generating “initial” populations suitable for further computer manipulation (eg, via genetic / evolutionary algorithms). The members of the population produced by the methods of the present invention possess varying degrees of “association” or “similarity” with each other, reflecting the degree of covariance found in the naturally occurring population. Further, unlike the population used as input in a typical evolutionary algorithm, the population generated by the methods provided herein typically includes detailed information about individual members, and that information Are typically complex enough to provide a “continuous” (rather than binary) measure of variability and / or association between members. Indeed, the method of the present invention provides detailed coding of molecular information in individuals including populations created according to the method of the present invention.

従って、1つの実施態様において、本発明は、キャラクターストリングを有するデータ構造の集団を形成する(例えば、キャラクターストリングの集団またはライブラリーを生成する)方法を提供する。この方法は、好ましくは、以下を包含するi)2つ以上の生物学的分子を、キャラクターストリング中にコードし、2つ以上の異なる初期キャラクターストリングの集団を提供する工程であって、ここで、この生物学的分子の各々が、少なくとも約10のサブユニットを含む、工程;ii)そのキャラクターストリングから少なくとも2つのサブストリングを選択する工程;iii)そのサブストリングを結び付けて、初期キャラクターストリングの1つ以上とほぼ同一の長さの、1つ以上の解ストリングを形成する工程;iv)解ストリングをストリングの集団(データ構造)に添加する工程;ならびにv)必要に応じて、1つ以上のその解ストリングを、初期キャラクターストリングの集団中の初期ストリングとして使用して、工程(i)または(ii)から(iv)を繰り返す工程。特定の好ましい実施態様において、「コードする」とは、1つ以上の核酸配列および/または1つ以上のアミノ酸配列を、キャラクターストリング中にコードすることを包含する。核酸配列および/またはアミノ酸配列は、未知であり得、および/または偶然に選択され得るが、好ましくは、公知のタンパク質(単数または複数)をコードする。1つの好ましい実施態様において、生物学的分子は、お互いに、少なくとも約30%、好ましくは少なくとも約50%、より好ましくは少なくとも約75%、そして最も好ましくは少なくとも約85%、90%、または95%でさえもの、配列同一性を有するように、選択される。   Accordingly, in one embodiment, the present invention provides a method of forming a collection of data structures having character strings (eg, generating a collection or library of character strings). The method preferably includes i) encoding two or more biological molecules in a character string and providing a population of two or more different initial character strings, wherein: Each of the biological molecules comprises at least about 10 subunits; ii) selecting at least two substrings from the character string; iii) concatenating the substrings of the initial character string Forming one or more solution strings of approximately the same length as one or more; iv) adding a solution string to a collection of strings (data structure); and v) optionally one or more Using the solution string of as an initial string in the population of initial character strings, Or (ii) from repeating (iv) step. In certain preferred embodiments, “encoding” includes encoding one or more nucleic acid sequences and / or one or more amino acid sequences in a character string. The nucleic acid sequence and / or amino acid sequence may be unknown and / or selected by chance, but preferably encodes a known protein (s). In one preferred embodiment, the biological molecules are at least about 30%, preferably at least about 50%, more preferably at least about 75%, and most preferably at least about 85%, 90%, or 95 of each other. Even% is chosen to have sequence identity.

1つの実施態様において、サブストリング(単数または複数)を選択して、その結果、サブストリングの末端が、同一の2つのストリング間の全体としての配列同一性よりも初期のキャラクターストリングの別の対応する領域に対してより高い配列同一性を有する約3〜約300の、好ましくは約6〜約20の、より好ましくは約10〜約100の、そして最も好ましくは約20〜約50のキャラクターのキャラクターストリング領域中に生じる。別の実施態様において、選択工程は、そのサブストリングの末端が約4〜約100の、好ましくは約4〜約50の、なおより好ましくは約4〜約10の、さらにより好ましくは約6〜約30の、そして最も好ましくは約6〜約20のキャラクターの予め規定されたモチーフ中に生じるように、サブストリングを選択することを、包含し得る。   In one embodiment, the substring (s) is selected so that the end of the substring has a different correspondence of the initial character string than the overall sequence identity between the same two strings. Of about 3 to about 300, preferably about 6 to about 20, more preferably about 10 to about 100, and most preferably about 20 to about 50 characters having a higher sequence identity to the region Occurs in the character string area. In another embodiment, the selection step comprises from about 4 to about 100, preferably from about 4 to about 50, even more preferably from about 4 to about 10, even more preferably from about 6 to about 4 to the end of the substring. Selecting substrings to occur in a predefined motif of about 30 and most preferably about 6 to about 20 characters can be included.

1つの実施態様において、選択および連結は、2つの異なる初期ストリングからサブストリングを結び付けて、その結果、2つの異なる初期ストリング間の全体としての配列同一性よりも2つの異なる初期のストリング間のより高い配列同一性を有する約3〜約20キャラクターの領域中の連結が生じることを含み得る。選択はまた、その2つ以上の初期キャラクターストリングを整列し、そのキャラクターストリングの2つ以上のサブストリング間の対同一性を最大化する工程、および1つのサブストリングの末端について整列された対のメンバーであるキャラクターを選択する工程を包含し得る。   In one embodiment, the selection and concatenation links substrings from two different initial strings so that the overall sequence identity between the two different initial strings is more than between the two different initial strings. It can include linking in regions of about 3 to about 20 characters with high sequence identity. Selection also aligns the two or more initial character strings, maximizes pair identity between the two or more substrings of the character string, and pairs of aligned pairs for the end of one substring. The step of selecting a member character may be included.

特定の実施態様において、「追加」工程は、キャラクターストリングによってコードされるタンパク質の、理論的PI、PK、分子量、疎水性、2次構造および/または他の特性の計算を包含する。1つの好ましい実施態様において、解ストリングが、初期ストリングに対して、30%より大きいか、好ましくは50%より大きいか、より好ましくは75%より大きいか、または85%の配列同一性を有する場合にのみ、解ストリングを、集団(データ構造)に追加する。   In certain embodiments, the “adding” step involves calculating the theoretical PI, PK, molecular weight, hydrophobicity, secondary structure and / or other properties of the protein encoded by the character string. In one preferred embodiment, the solution string has a sequence identity of greater than 30%, preferably greater than 50%, more preferably greater than 75%, or 85% relative to the initial string. Only the solution string is added to the group (data structure).

この方法は、キャラクターストリングの1つ以上のキャラクターをランダムに変更する工程をさらに包含し得る。このことは、ランダムストリングを、初期ストリング集団に導入する工程、および/または本明細書に記載されるような確立論的なオペレーターを利用する工程、を包含するが、これらに限定されない多数の方法に従って達成され得る。特定の好ましい実施態様において、上記の操作は、コンピュータ中で実行される。   The method may further include the step of randomly changing one or more characters of the character string. This includes a number of methods including, but not limited to, introducing random strings into the initial string population and / or utilizing stochastic operators as described herein. Can be achieved according to. In certain preferred embodiments, the above operations are performed in a computer.

別の実施態様において、本発明は、i)2つ以上の生物学的分子をキャラクターストリング中にコードして、2つ以上の異なる初期キャラクターストリングの集団を提供し、ここでこの生物学的分子の各々が、少なくとも約10のサブユニットを含有する;ii)そのキャラクターストリングから少なくとも2つのサブストリングを選択する;iii)サブストリングを連結し、初期キャラクターストリングの1つ以上とほぼ同一の長さの1つ以上の解ストリングを形成する;iv)解ストリングを、ストリングの集団に追加する(すなわち、データ構造の集団を形成する);そしてv)必要に応じて、1つ以上の解ストリングを、初期キャラクターストリングの集団中の初期ストリングとして使用して、工程(i)または(ii)から(iv)を繰り返す、コンピュータコードを含むコンピュータプログラム解を提供する。すなわち、本明細書において記載される操作を実行するコンピュータコードを含むコンピュータプログラム解である。プログラムコードは、コンパイルの様式において、ソースコードとして、オブジェクトコードとして、実行可能なものとしてなどで、提供され得る。このプログラムは、任意の都合よい媒体において提供され得る(例えば、磁気媒体、光学媒体、電子媒体、光磁気媒体など)。コードはまた、コンピュータ上に(例えば、メモリー(ダイナミックまたはスタティックメモリー)中、ハードドライブ上など)に存在し得る。   In another embodiment, the present invention provides i) encoding two or more biological molecules in a character string to provide a population of two or more different initial character strings, wherein the biological molecule Each containing at least about 10 subunits; ii) selecting at least two substrings from the character string; iii) concatenating the substrings and being approximately the same length as one or more of the initial character strings Iv) add the solution string to the collection of strings (ie, form a collection of data structures); and v) optionally, add one or more solution strings. , From steps (i) or (ii) to (i ) Repeated, a computer program solution comprising computer code. That is, a computer program solution that includes computer code that performs the operations described herein. Program code may be provided in a compiled manner, as source code, as object code, as executable, etc. The program may be provided on any convenient medium (eg, magnetic medium, optical medium, electronic medium, magneto-optical medium, etc.). The code may also reside on a computer (eg, in memory (dynamic or static memory), on a hard drive, etc.).

別の実施態様において、本発明は、生物学的分子の配列に由来する、ラベル(タグ)および/または音楽を生成するシステムを提供する。このシステムは、生物学的分子(例えば、核酸および/またはタンパク質)からの2つ以上の初期ストリングをコードするエンコーダー;2つ以上のストリングからサブストリングを同定し、そして選択するためのアイソレーター;サブストリングを結び付けるためのコンカテネーター;ストリングの集団として結び付けられたサブストリングを保管するためのデータ構造;ストリングの集団の数および/または可変性を測定し、そしてストリングの集団中に存在する十分なストリングを決定するためのコンパレーター;ならびにストリングの集団を、ローストリングファイル(raw string file)中に書き込むためのコマンドライターを含む。好ましい実施態様において、アイソレーターは、2つ以上の初期ストリングの間の同一性の領域を整列して決定するためのコンパレーターを含む。同様に、コンパレーターは、配列同一性を計算するための手段を含み得、そしてアイソレーターおよびコンパレーターは、必要に応じて、この手段を共有し得る。好ましい実施態様において、アイソレーターは、サブストリングの末端が、同一の2つのストリング間の全体としての配列同一性よりも初期のキャラクターストリングの別の対応する領域に対してより高い配列同一性を有する約3〜約100個のキャラクターのストリング領域中に生じるように、サブストリングを選択する。   In another embodiment, the present invention provides a system for generating labels (tags) and / or music derived from sequences of biological molecules. The system includes an encoder that encodes two or more initial strings from a biological molecule (eg, nucleic acid and / or protein); an isolator for identifying and selecting substrings from two or more strings; A concatenator for associating strings; a data structure for storing substrings associated as a collection of strings; measuring the number and / or variability of a collection of strings and sufficient to exist in the collection of strings A comparator for determining a string; as well as a command writer for writing a collection of strings into a raw string file. In a preferred embodiment, the isolator includes a comparator for aligning and determining a region of identity between two or more initial strings. Similarly, comparators can include means for calculating sequence identity, and isolators and comparators can share this means if desired. In a preferred embodiment, the isolator has a sequence identity with the end of the substring having a higher sequence identity to another corresponding region of the initial character string than the overall sequence identity between the same two strings. Substrings are selected to occur in the string region of 3 to about 100 characters.

別の実施態様において、アイソレーターは、サブストリングの末端が、約4〜約100の、好ましくは約4〜約50の、なおより好ましくは約4〜約10の、さらにより好ましくは約6〜約30の、そして最も好ましくは約6〜約20のキャラクターの予め規定されたモチーフ中に生じるように、そのサブストリングを選択する。1つの実施態様において、アイソレーターおよびコンカテネーターは、個々に、または組み合わせて、2つの異なる初期ストリングからのサブストリングを連結し、その結果、連結が、その2つの異なる初期ストリング間の全体としての配列同一性よりも、その2つの異なる初期ストリング間でより高い配列同一性を有する約3〜約300の、より好ましくは約5〜約200の、最も好ましくは約10〜約100のキャラクターの領域中に生じる。1つの好ましい実行において、アイソレーターは、2つ以上の初期キャラクターストリングを整列し、そのキャラクターストリングの2つ以上のサブストリング間の対同一性を最大化し、そして1つのサブストリングの末端について整列された対のメンバーであるキャラクターを選択する。   In another embodiment, the isolator has from about 4 to about 100, preferably from about 4 to about 50, even more preferably from about 4 to about 10, even more preferably from about 6 to about about the end of the substring. The substring is selected to occur in a predefined motif of 30 and most preferably about 6 to about 20 characters. In one embodiment, the isolator and concatenator individually or in combination concatenate substrings from two different initial strings so that the concatenation is as a whole between the two different initial strings. A region of about 3 to about 300, more preferably about 5 to about 200, most preferably about 10 to about 100 characters having higher sequence identity between the two different initial strings than sequence identity. Occurs inside. In one preferred implementation, the isolator aligns two or more initial character strings, maximizes pair identity between two or more substrings of the character string, and is aligned with respect to the end of one substring. Select a character that is a member of a pair.

コンパレーターは、任意の広範に種々の選択判定基準を課し得る。従って、種々の実施態様において、コンパレーターは、コードされるタンパク質の、理論的なPI、PK、分子量、疎水性、2次構造および/または他の特性を計算し得る。1つの好ましい実施態様において、コンパレーターは、ストリングが初期ストリングと30%を超える同一性を有する場合にのみ、ストリングをデータ構造に追加する。   The comparator may impose various selection criteria on any broad basis. Thus, in various embodiments, the comparator can calculate the theoretical PI, PK, molecular weight, hydrophobicity, secondary structure and / or other properties of the encoded protein. In one preferred embodiment, the comparator adds the string to the data structure only if the string has more than 30% identity with the initial string.

このシステムは、必要に応じて、キャラクターストリングの1つ以上のキャラクターをランダムに変更するオペレーターを含み得る。特定の実施態様において、そのようなオペレーターは、そのキャラクターストリング中の特定の予め選択されたキャラクターの1つ以上の出現を、ランダムに選択および変更し得る。このシステムにおける好ましいデータ構造は、コードされた(もしくはデコンボルブ(deconvolve)された)核酸配列および/またはコードされたもしくはデコンボルブ(deconvolve)されたアミノ酸配列を蓄積する。   The system may include an operator that randomly changes one or more characters in the character string as needed. In certain embodiments, such an operator may randomly select and change one or more occurrences of a particular preselected character in the character string. Preferred data structures in this system accumulate encoded (or deconvoluted) nucleic acid sequences and / or encoded or deconvoluted amino acid sequences.

本発明のさらなる理解は、以下の特定の実施態様の詳細な考察から得られ得る。明確さの目的のために、この考察は、特定の実施例に関する、装置、方法、および概念を参照する。しかし、本発明の方法は、種々のタイプの論理デバイス内において作動し得る。従って、本発明は、添付の特許請求の範囲において(均等論のもとにおいて解釈されるように)提供される以外には、限定されないことが意図される。   A further understanding of the invention can be obtained from a detailed discussion of the specific embodiments below. For purposes of clarity, this discussion will refer to apparatus, methods, and concepts relating to particular embodiments. However, the method of the present invention can operate in various types of logic devices. Accordingly, it is intended that the invention not be limited except as provided in the appended claims (as interpreted under equivalent theory).

さらに、ロジックシステムが、モジュール様式中の広範に種々の異なるコンポーネントおよび異なるファンクションを含み得ることが理解される。システムの異なる実施態様は、エレメントおよびファンクションの異なる混合物を含み得、そして種々のエレメントの一部として種々のファンクションをグループ化し得る。明確さの目的のために、本発明は、多くの異なる革新的なコンポーネントおよびコンポーネントの革新的な組み合わせを含むシステムに関して記載される。本発明が、本明細書の任意の説明的な実施態様に列挙される革新的なコンポーネントの全てを含む組み合わせに限定されるといういかなる推論も、なされるべきではない。   Further, it is understood that a logic system can include a wide variety of different components and different functions in a modular format. Different embodiments of the system may include different mixtures of elements and functions, and group various functions as part of various elements. For purposes of clarity, the present invention will be described with respect to a system that includes many different innovative components and innovative combinations of components. No inference should be made that the invention is limited to combinations including all of the innovative components listed in any illustrative embodiment herein.

(定義)
用語「キャラクターストリング」「ワード」「バイナリストリング」または「コードされたストリング」は、配列情報(例えば、核酸のヌクレオチド配列、タンパク質のアミノ酸配列、多糖類の糖配列などのような生物学的分子のサブユニット構造)を蓄積し得る任意の実体を、表す。1つの実施態様において、キャラクターストリングは、キャラクターの単純な配列(文字(letter)、数、または他のシンボル)形態であり得るか、または有形または無形(例えば、電子的、磁気的など)の形態におけるそのような情報の数的表示であり得る。キャラクターストリングは、「直線状」である必要はないが、多数の他の形態(例えば、結び付けられたリストなど)においてもまた存在し得る。
(Definition)
The terms “character string”, “word”, “binary string” or “coded string” refer to sequence information (eg, the nucleotide sequence of a nucleic acid, the amino acid sequence of a protein, the sugar sequence of a polysaccharide, etc.). Represents any entity that can accumulate (subunit structure). In one embodiment, the character string can be in the form of a simple array of characters (letters, numbers, or other symbols), or in the form of tangible or intangible (eg, electronic, magnetic, etc.) Can be a numerical representation of such information in The character string need not be “straight”, but may also exist in many other forms (eg, a linked list).

キャラクターストリングのキャラクターに関して使用される場合、「キャラクター」とは、ストリングのサブユニットをいう。好ましい実施態様において、キャラクターストリングのキャラクターは、コードされた生物学的分子の1つのサブユニットをコードする。従って、例えば、好ましい実施態様において、コードされた生物学的分子がタンパク質である場合、ストリングのキャラクターは、単一のアミノ酸をコードする。   “Character” when used in reference to a character in a character string refers to a subunit of the string. In a preferred embodiment, the character of the character string encodes one subunit of the encoded biological molecule. Thus, for example, in a preferred embodiment, if the encoded biological molecule is a protein, the string character encodes a single amino acid.

「モチーフ」とは、生物学的分子を含むサブユニットのパターンをいう。このモチーフとは、コードされていない生物学的分子のサブユニットパターンをいい得るか、または生物学的分子のコードされた表現のサブユニットパターンをいい得る。   “Motif” refers to a pattern of subunits containing biological molecules. This motif may refer to a subunit pattern of an uncoded biological molecule or a subunit pattern of an encoded representation of a biological molecule.

用語サブストリングとは、別のストリング中に見出されるストリングをいう。サブストリングは、全長「親」ストリングを含み得るが、代表的にはサブストリングは、全長ストリングのサブストリングを表す。   The term substring refers to a string found in another string. A substring may include a full length “parent” string, but typically a substring represents a substring of a full length string.

用語「データ構造」とは、情報の蓄積のための構造および必要に応じて付随する装置をいい、代表的には、情報の多数の「部分」をいう。データ構造は、情報の単純な記録(例えば、リスト)であり得るか、あるいは、データ構造は、そこに含まれる情報に関するさらなる情報(例えば、注釈)を含み得、データ構造の種々の「メンバー」(情報の「部分」)間の関係を構築し得、そしてポインター(pointer)を提供し得るか、またはデータ構造の外部のリソース(resource)と結び付けられ得る。データ構造は無形であり得るが、有形媒体中に蓄積/表示される場合に、有形とされる。データ構造は、単純なリスト、結び付けられたリスト、索引をつけたリスト、データテーブル、索引、ハッシュ(hash)索引、フラットファイル(flat file)データベース、リレーショナル(relational)データベース、ローカル(local)データベース、分散型(distributed)データベース、散在型顧客データベース(thin client detabase)などを含むがこれらに限定されない種々の情報アーキテクチャー(architecture)を表し得る。好ましい実施態様において、データ構造は、1つ以上のキャラクターストリングの蓄積のために十分なフィールド(field)を提供する。データ構造は、好ましくは、キャラクターストリングの整列を可能しに、そして必要に応じて、整列および/またはストリング類似性および/またはストリングの差異に関する情報を蓄積するように構成される。1つの実施態様において、この情報は、整列「スコア」(例えば、類似性索引)の形態、および/または個々のサブユニット(例えば、核酸の場合におけるヌクレオチド)整列を示す整列マップである。用語「コードされたキャラクターストリング」とは、生物学的分子に関する所望の配列情報および/または構造情報を保持するその生物学的分子の表示をいう。   The term “data structure” refers to a structure for storing information and optionally accompanying devices, and typically refers to a number of “portions” of information. The data structure can be a simple record (eg, a list) of information, or the data structure can contain additional information (eg, annotations) about the information contained therein, and various “members” of the data structure. A relationship between (a “part of information”) can be established and a pointer can be provided, or can be tied to a resource external to the data structure. Data structures can be intangible, but are tangible when stored / displayed in a tangible medium. The data structure is simple list, linked list, indexed list, data table, index, hash index, flat file database, relational database, local database, It may represent various information architectures including, but not limited to, distributed databases, thin client databases, and the like. In the preferred embodiment, the data structure provides enough fields for the storage of one or more character strings. The data structure is preferably configured to allow alignment of the character strings and optionally store information regarding alignment and / or string similarity and / or string differences. In one embodiment, this information is an alignment map showing the form of the alignment “score” (eg, similarity index) and / or the alignment of individual subunits (eg, nucleotides in the case of nucleic acids). The term “coded character string” refers to a representation of a biological molecule that retains the desired sequence and / or structural information about the biological molecule.

本明細書において使用する場合、類似性とは、分子のコードされた表示の間の(例えば、初期キャラクターストリング)、またはコードされたキャラクターストリングによって表示される分子の間の類似性の尺度をいうことができる。   As used herein, similarity refers to a measure of similarity between encoded representations of molecules (eg, initial character strings) or between molecules displayed by encoded character strings. be able to.

ストリングのオペレーション(例えば、挿入、欠失、変換など)をいう場合、オペレーションが、生物学的分子のコードされた表示についてか、またはコードされた表示が、オペレーションを表現するように、コードする前の「分子」について実行され得ることが理解される。   When referring to string operations (eg, insertions, deletions, transformations, etc.), before the operation codes for the coded representation of the biological molecule or the coded representation represents the operation. It is understood that this can be performed on

生物学的分子に関して使用される場合、用語「サブユニット」とは、生物学が構成される特徴的な「モノマー」をいう。従って、例えば、核酸のサブユニットは、ヌクレオチドであり、ポリペプチドのサブユニットは、アミノ酸であり、多糖類のサブユニットは、糖であるなどである。   As used with respect to biological molecules, the term “subunit” refers to the characteristic “monomer” from which biology is composed. Thus, for example, a nucleic acid subunit is a nucleotide, a polypeptide subunit is an amino acid, a polysaccharide subunit is a sugar, and the like.

用語「プール」または「集団」は、ストリングに関して使用される場合、互換可能に使用される。   The terms “pool” or “population” are used interchangeably when used with respect to strings.

「生物学的分子」とは、生物学的生物において代表的に見出される分子をいう。好ましい生物学的分子としては、代表的には天然において複数のサブユニットから構成されるポリマー性である生物学的高分子が挙げられる。代表的な生物学的分子にとしては、核酸(ヌクレオチドサブユニットの形態)、タンパク質(アミノ酸サブユニットの形態)、多糖類(糖サブユニットの形態)などが挙げられるが、これらに限定されない。   “Biological molecule” refers to a molecule typically found in biological organisms. Preferred biological molecules include biological macromolecules that are polymeric and typically composed of multiple subunits in nature. Representative biological molecules include, but are not limited to, nucleic acids (in the form of nucleotide subunits), proteins (in the form of amino acid subunits), polysaccharides (in the form of sugar subunits), and the like.

句「生物学的分子をコードする」とは、好ましくは最初の生物学的分子の情報コンテンツ(information content)を含み、従って、その情報コンテンツを再度作成するために使用され得るその生物学的分子の表示の生成を意味する。   The phrase “encodes a biological molecule” preferably includes the information content of the original biological molecule, and therefore can be used to recreate that information content. Means the generation of

用語「核酸」とは、他に限定しない限り、1本鎖形態または2本鎖形態のデオキシリボヌクレオチドポリマーまたはリボヌクレオチドポリマーをいい、天然に存在するヌクレオチドと類似の様式において機能し得る天然のヌクレオチドの公知のアナログを包含する。   The term “nucleic acid”, unless otherwise limited, refers to a single-stranded or double-stranded form of a deoxyribonucleotide polymer or ribonucleotide polymer, which is a natural nucleotide that can function in a manner similar to a naturally occurring nucleotide. Includes known analogs.

「核酸配列」とは、核酸を含むヌクレオチドの規則性および同一性をいう。   “Nucleic acid sequence” refers to the regularity and identity of nucleotides comprising nucleic acids.

用語「ポリペプチド」、「ペプチド」および「タンパク質」は、本明細書において互換可能に使用され、アミノ酸残基のポリマーをいう。この用語は、1つ以上のアミノ酸が対応する天然に存在するアミノ酸の人工化学アナログであるアミノ酸ポリマー、および天然に生じるアミノ酸ポリマーに適用される。   The terms “polypeptide”, “peptide” and “protein” are used interchangeably herein and refer to a polymer of amino acid residues. This term applies to amino acid polymers in which one or more amino acids are artificial chemical analogs of the corresponding naturally occurring amino acids, and naturally occurring amino acid polymers.

「ポリペプチド配列」とは、ポリペプチドを含むアミノ酸の規則性および同一性をいう。
本明細書において使用される場合、句「ストリングの集団に解ストリングを追加する」は、数学的追加を必要としない。むしろそれは、ストリングのセットに含まれるとして、1つ以上のストリングを同定するプロセスをいう。このことは、問題のストリングを、ストリングの集団であるデータ構造中にコピーする手段かまたは移動する手段、ストリングからストリングの集団を表示するデータ構造に、ポインターを設定する手段か、または提供する手段、特定のセット中のその包含物を示すストリングと関連するフラグを設定する手段、あるいは、そのように生成されたストリングが、集団中に含まれるというルールを単純に指定する手段を含むがこれらに限定されない種々の手段によって達成され得る。
“Polypeptide sequence” refers to the regularity and identity of amino acids comprising a polypeptide.
As used herein, the phrase “adding a solution string to a collection of strings” does not require mathematical addition. Rather, it refers to the process of identifying one or more strings as being included in a set of strings. This means that the string in question is copied or moved into a data structure that is a collection of strings, a means for setting or providing a pointer to a data structure that displays the collection of strings from a string Including means for setting a flag associated with a string indicating its inclusion in a particular set, or simply specifying a rule that the string so generated is included in the population. It can be achieved by various means without limitation.

図1は、本発明の方法の1つの実施態様を示すフローチャートを図示する。FIG. 1 illustrates a flow chart illustrating one embodiment of the method of the present invention. 図2は、本発明の方法(単数または複数)に従うサブ配列の選択および結び付けを図示する。FIG. 2 illustrates the selection and association of subsequences according to the method (s) of the present invention. 図3は、本発明の方法(単数または複数)に従うサブ配列の選択および結び付けを図示し、ここでこの結び付けは、サブストリングの規則性を固定するためのアラインメントアルゴリズムを利用する。FIG. 3 illustrates the selection and linking of subsequences according to the method (s) of the present invention, where the linking utilizes an alignment algorithm to fix the substring regularity. 図4は、本発明に従う代表的なデジタルデバイス700を図示する。FIG. 4 illustrates an exemplary digital device 700 in accordance with the present invention. 図5は、異なるサブチリシン(初期キャラクターストリングの典型的なセット)についての類似性パーセントを示すチャートおよび関係系統樹である。FIG. 5 is a chart and related phylogenetic tree showing percent similarity for different subtilisins (a typical set of initial character strings). 図6は、異なるサブチリシンについての相同性領域を示す、対をなすドットプロットアラインメントである。FIG. 6 is a paired dot plot alignment showing regions of homology for different subtilisins. 図7は、7つの異なる親サブチリシンについての相同性領域を示す、対をなすドットプロットアラインメントである。FIG. 7 is a paired dot plot alignment showing the regions of homology for seven different parent subtilisins.

(詳細な説明)
(I.キャラクターストリングの集団の生成)
本発明は、進化的モデルにおいて、より好ましくは遺伝的アルゴリズムによって類型化される進化的モデルにおいて、最初の(または成熟/プロセスされた)集団としての使用に適切な実体の、実際のまたは理論的な集団の提示を生成するための、新規な計算的手法を提供する。特定の生物学的有機体の特徴を反映するために初期化された場合に、この本発明の方法によって生成された実体は、根底をなす分子生物学に関する有意な情報(例えば、代表的なアミノ酸配列または核酸配列)を各々含み、そしてそれによって遺伝的または他のアルゴリズムに基づくモデルが、前例がないレベル、すなわち、分子レベルでの進化の過程に関する情報を提供することを可能にする。
(Detailed explanation)
(I. Generation of character string groups)
The present invention relates to an actual or theoretical entity suitable for use as an initial (or mature / processed) population in an evolutionary model, more preferably in an evolutionary model typified by a genetic algorithm. Provides a new computational method for generating a large population presentation. When initialized to reflect the characteristics of a particular biological organism, the entity generated by this method of the present invention provides significant information about the underlying molecular biology (eg, representative amino acids Sequence or nucleic acid sequence), thereby allowing models based on genetics or other algorithms to provide information on the process of evolution at an unprecedented level, ie the molecular level.

特に好ましい実施態様において、本発明の方法は、キャラクターストリングの集団を生成し、ここで各キャラクターストリングは、1つ以上の生物学的分子を表す。いくつかのストリングを「種子」として使用して、本発明は、最初の種子のメンバーに対して「進化的な」関係を有する大きなストリングの集団を生成する。最初のメンバーのセットが任意か、無作為/偶然か、または数学的もしくは表現の簡便さのために選択されるかである、伝統的な遺伝的アルゴリズムと対照的に、本発明の方法によって生成される集団は、好ましい実施態様において、既知で既存の生物学的「前駆体」(例えば、特定の核酸配列および/またはポリペプチド配列)から誘導される。   In a particularly preferred embodiment, the method of the present invention generates a population of character strings, where each character string represents one or more biological molecules. Using several strings as “seed”, the present invention produces a large population of strings having an “evolutionary” relationship to the initial seed members. Generated by the method of the present invention, in contrast to traditional genetic algorithms, where the initial set of members is arbitrary, random / accidental, or selected for mathematical or expressive convenience The resulting population is derived, in a preferred embodiment, from known and existing biological “precursors” (eg, specific nucleic acid sequences and / or polypeptide sequences).

好ましい実施態様において、本発明は以下の工程を包含する:
1)2つ以上の生物学的分子の同定/選択する工程;
2)生物学的分子をキャラクターストリングにコード化する工程;
3)キャラクターストリングからの少なくとも2つのサブストリングを選択する工程;
4)これらのサブストリングを結び付けて、1つ以上の初期キャラクターストリングとほぼ同じ長さの1つ以上の解ストリングを形成する工程;
5)解ストリングを、初期ストリングのセットまたは別々のセットであり得る、ストリングのコレクションに追加する工程;
6)必要に応じて、得られたストリングセットにさらなるバリエーションを導入する工程;
7)必要に応じて、得られるストリングセットに、淘汰圧を追加する工程;
8)必要に応じて、初期キャラクターストリングのコレクションにおいて初期ストリングとしての1つ以上の解ストリングを使用して、工程(2)または(3)から(7)までを反復する工程。
これらの各操作は、以下でより詳細に記載される。
In a preferred embodiment, the present invention includes the following steps:
1) identifying / selecting two or more biological molecules;
2) encoding a biological molecule into a character string;
3) selecting at least two substrings from the character string;
4) combining these substrings to form one or more solution strings of approximately the same length as the one or more initial character strings;
5) adding the solution string to a collection of strings, which can be a set of initial strings or a separate set;
6) If necessary, introducing further variations into the resulting string set;
7) If necessary, adding a soot pressure to the resulting string set;
8) Repeat steps (2) or (3) to (7) as needed using one or more solution strings as initial strings in the collection of initial character strings.
Each of these operations is described in more detail below.

(II.1つ以上の生物学的分子のキャラクターストリングへのコード化)
本発明の方法は、代表的には、1つ以上の「種子」メンバーを利用する。この「種子」メンバーは、好ましくは、1つ以上の生物学的分子の提示である。従って、本発明の好ましい実施態様の初期段階は、2つ以上の生物学的分子を選択する工程、および生物学的分子を1つ以上のキャラクターストリングにコード化する工程を包含する。
(II. Encoding one or more biological molecules into a character string)
The methods of the present invention typically utilize one or more “seed” members. This “seed” member is preferably a presentation of one or more biological molecules. Thus, the initial stage of a preferred embodiment of the present invention includes selecting two or more biological molecules and encoding the biological molecules into one or more character strings.

(A 「種子/初期」生物学的分子を同定/選択する工程)
実質的に任意の生物学的分子が本発明の方法において使用され得る。しかし、好ましい生物学的分子は、複数の「サブユニット」を包含する「ポリマー性」生体高分子である。本発明の方法に特に十分に適している生体高分子には、核酸(例えば、DNA、RNAなど)、タンパク質、糖タンパク質、糖質、ポリサッカリド、特定の脂肪酸などが挙げられるが、これらに限定されない。
(A step of identifying / selecting “seed / early” biological molecules)
Virtually any biological molecule can be used in the methods of the invention. However, preferred biological molecules are “polymeric” biopolymers that include multiple “subunits”. Biopolymers that are particularly well suited for the methods of the present invention include, but are not limited to, nucleic acids (eg, DNA, RNA, etc.), proteins, glycoproteins, carbohydrates, polysaccharides, specific fatty acids, and the like. Not.

核酸が選択される場合、その核酸は、一本鎖または二本鎖であり得るが、一本鎖が二本鎖核酸を表すこと/コード化することのために十分であり得ることが認識され得る。この核酸は、好ましくは既知の核酸である。このような核酸配列は、多数の供給源から容易に決定され得、そのような供給源には、公的なデータベース(例えば、GenBank)、所有権を有するデータベース(例えば、Incyteデータベース)、科学刊行物、商用または私設の配列決定研究室、組織内の配列決定研究室が含まれるがこれらに限定されない。   When a nucleic acid is selected, it is recognized that the nucleic acid can be single stranded or double stranded, but the single stranded can be sufficient to represent / encode a double stranded nucleic acid. obtain. This nucleic acid is preferably a known nucleic acid. Such nucleic acid sequences can be readily determined from a number of sources, including public databases (eg, GenBank), proprietary databases (eg, Incyte database), scientific publications. Products, commercial or private sequencing laboratories, and in-situ sequencing laboratories.

核酸分子には、ゲノム核酸、cDNA、mRNA、人工配列、改変されたヌクレオチドを有する天然配列などが含まれ得る。   Nucleic acid molecules can include genomic nucleic acids, cDNA, mRNA, artificial sequences, natural sequences with modified nucleotides, and the like.

1つの好ましい実施態様において、2つ以上の生物学的分子は、「関連する」が、同一ではない。従って、この核酸は、同一の遺伝子(単数または複数)を示し得るが、それらが由来する系統、種、属、科、目、門、または界において異なり得る。同様に、1つの実施態様において、タンパク質、ポリサッカリド、または他の分子は、それらが異なる系統、種、属、科、目、門、または界から選択されるという事実から得られる分子間の違いを有する、同じタンパク質、ポリサッカリド、または他の分子である。   In one preferred embodiment, two or more biological molecules are “related” but not identical. Thus, the nucleic acids may represent the same gene or genes, but may differ in the line, species, genus, family, eye, gate, or world from which they are derived. Similarly, in one embodiment, the differences between molecules resulting from the fact that proteins, polysaccharides, or other molecules are selected from different strains, species, genera, families, eyes, gates, or worlds Are the same protein, polysaccharide, or other molecule.

生物学的分子は、単一遺伝子産物(例えば、mRNA、cDNA、タンパク質など)であることを表し得るか、あるいはそれらは遺伝子産物および/または非コードアミノ酸のコレクションを表し得る。特定の好ましい実施態様において、生物学的分子は、1つ以上の特定の代謝経路(例えば、調節経路、シグナル伝達経路、または合成経路)のメンバーを表す。従って、例えば、生物学的分子は、全体のオペロン、または完全な生合成経路(例えば、lacオペロン、タンパク質:B−DNA galオペロン、コリシンAオペロン、luxオペロン、ポリケチド合成経路など)を含むメンバーを含み得る。   A biological molecule can represent a single gene product (eg, mRNA, cDNA, protein, etc.) or they can represent a collection of gene products and / or non-coding amino acids. In certain preferred embodiments, a biological molecule represents a member of one or more specific metabolic pathways (eg, regulatory, signaling, or synthetic pathways). Thus, for example, a biological molecule comprises an entire operon or a member that contains a complete biosynthetic pathway (eg, lac operon, protein: B-DNA gal operon, colicin A operon, lux operon, polyketide synthesis pathway, etc.). May be included.

特定の好ましい実施態様において、生物学的分子は、多数の異なる遺伝子、タンパク質などのを含み得る。従って、特定の実施態様において、生物学的分子は、個体の、または同一のもしくは異なる種の複数の個体の、核酸全体(例えば、ゲノムDNA、cDNA、もしくはmRNA)、タンパク質全体、または脂質全体などを含み得る。   In certain preferred embodiments, the biological molecule may include a number of different genes, proteins, and the like. Thus, in certain embodiments, the biological molecule is an individual or multiple individuals of the same or different species, such as whole nucleic acids (eg, genomic DNA, cDNA, or mRNA), whole proteins, or whole lipids, etc. Can be included.

特定の実施態様において、生物学的分子は、種の分子の集団の全体の「提示」を反映し得る。分子の集団の高水準の提示は、実験室において達成され、そして本発明の方法に従ってインシリコで行われ得る。複雑な分子または分子の集団を提示する方法は、Representational Difference Analysis(RDA)および関連技術(例えば、Lisitsyn(1995)Trends Genet.11(8):303−307,Risingerら(1994)Mol Carcinog.11(1):13−18、およびMichielsら(1998)Nucleic Acids Res.26:15 3608−3610、ならびにそこで引用される参考文献を参照のこと)において見出される。   In certain embodiments, a biological molecule may reflect the entire “presentation” of a population of species molecules. A high level presentation of a population of molecules is achieved in the laboratory and can be performed in silico according to the method of the invention. Methods for presenting complex molecules or populations of molecules are described in Representational Difference Analysis (RDA) and related techniques (eg, Lisitsyn (1995) Trends Genet. 11 (8): 303-307, Risinger et al. (1994) Mol Carcinog. 11). (1): 13-18, and Michaels et al. (1998) Nucleic Acids Res. 26:15 3608-3610, and references cited therein).

本発明の方法においてコード化および操作のために特に好ましい生物学的分子には、タンパク質、および/または種々のクラスのタンパク質の分子(例えば、エリトロポイエチン(EPO)のような治療タンパク質、インスリン、ヒト成長ホルモンのようなペプチドホルモン;好中球活性化ペプチド−78、GROα/MGSA、Groβ、GROγ、MIP−1α、MIP−16、MCP−1、上皮増殖因子、線維芽細胞増殖因子、肝細胞増殖因子、インスリン様増殖因子、インターフェロン、インターロイキン、ケラチノサイト増殖因子、白血病阻害因子、オンコスタチンM、PD−ECSF、PDGF、プライオトロピン(pleiotropin)、SCF、c−kitリガンド、血管形成因子(例えば、血管内皮増殖因子VEGF−A、VEGF−B、VEGF−C、VEGF−D、胎盤増殖因子(PLGF)など)、増殖因子(例えば、G−CSF、GM−CSF)、可溶性レセプター(例えば、IL4R、IL−13R、IL−10R、可溶性T細胞レセプターなど)などのような増殖因子およびサイトカイン)をコードする核酸が挙げられる。   Particularly preferred biological molecules for encoding and manipulation in the methods of the invention include proteins, and / or molecules of various classes of proteins (eg, therapeutic proteins such as erythropoietin (EPO), insulin , Peptide hormones such as human growth hormone; neutrophil activating peptide-78, GROα / MGSA, Groβ, GROγ, MIP-1α, MIP-16, MCP-1, epidermal growth factor, fibroblast growth factor, liver Cell growth factor, insulin-like growth factor, interferon, interleukin, keratinocyte growth factor, leukemia inhibitory factor, oncostatin M, PD-ECSF, PDGF, pleiotropin, SCF, c-kit ligand, angiogenic factor (eg Vascular endothelial growth factor VEGF- , VEGF-B, VEGF-C, VEGF-D, placental growth factor (PLGF), etc., growth factors (eg, G-CSF, GM-CSF), soluble receptors (eg, IL4R, IL-13R, IL-10R) Nucleic acids encoding growth factors and cytokines such as soluble T cell receptors).

他の好ましいコード化分子には、転写アクチベーターおよび発現アクチベーターが含まれるがこれらに限定されない。転写アクチベーターおよび発現アクチベーターには、原核生物、ウイルス、ならびに、真菌、植物、および動物を含む真核生物において見出される、細胞増殖、分化、調節などを調節する遺伝子および/またはタンパク質が含まれる。発現アクチベーターには、サイトカイン、炎症性分子、増殖因子、増殖因子レセプター、およびオンコジーン産物、インターロイキン(例えば、IL−1、IL−2、IL−8など)、インターフェロン、FGF、IGF−1、IGF−II、FF、PDGF、TNF、TGF−α、TGF−β、EGK、KGF、SCR/c−kit、CD40L/CD40、VLA−4/VCAM−1、ICAM−1/LFA−1、およびヒアルリン(hyalurin)/CD44、シグナル伝達分子、および対応するオンコジーン産物(例えば、Mos、RAS、Raf、およびMet);ならびに転写アクチベーターおよび転写サプレッサー(例えば、p53、Tat、Fos、Myc、Jun、Myb、Rel)、ならびに、ステロイドホルモンレセプター(例えば、エストロゲン、プロゲステロン、テストステロン、アルドステロン、LDLレセプターリガンド、およびコルチコステロンについてのレセプター)が含まれるがそれらに限定されない。   Other preferred encoding molecules include, but are not limited to, transcriptional activators and expression activators. Transcriptional and expression activators include genes and / or proteins that regulate cell growth, differentiation, regulation, etc. found in prokaryotes, viruses, and eukaryotes including fungi, plants, and animals . Expression activators include cytokines, inflammatory molecules, growth factors, growth factor receptors, and oncogene products, interleukins (eg, IL-1, IL-2, IL-8, etc.), interferons, FGF, IGF-1, IGF-II, FF, PDGF, TNF, TGF-α, TGF-β, EGK, KGF, SCR / c-kit, CD40L / CD40, VLA-4 / VCAM-1, ICAM-1 / LFA-1, and hyalurin (Hyalurin) / CD44, signaling molecules, and corresponding oncogene products (eg, Mos, RAS, Raf, and Met); and transcriptional activators and suppressors (eg, p53, Tat, Fos, Myc, Jun, Myb, Rel) and steroid hormones Scepters such as, but not limited to, estrogen, progesterone, testosterone, aldosterone, LDL receptor ligands, and receptors for corticosterone.

本発明の方法におけるコード化のための好ましい分子はまた、感染性またはさもなくば病原性の生物由来のタンパク質(例えば、Aspergillus属、Candida属、E.coli、Staphyloccoi属、Streptocci属、Clostridia属、Neisseria属、Enterobacteriacea属、Helicobacter属、Vibrio属、Capylobacter属、Pseudomonas属、Ureaplasma属、Legionella属、Spirochetes属、Mycobacteria属、Actnomyces属、Nocardia属、Chlamydia属、Rickettsia属、Coxiella属、Ehrilichia属、Rochalimaea、Brucella、Yersinia、Fracisella、およびPasturella;原生動物、ウイルス(+)RNAウイルス、(−)RNAウイルス、オルトミクソウイルス、dsDNAウイルス、レトロウイルスなどに特徴的なタンパク質)を含む。   Preferred molecules for encoding in the methods of the invention are also proteins from infectious or otherwise pathogenic organisms (eg Aspergillus, Candida, E. coli, Staphylococci, Streptocci, Clostridia, Neisseria spp., Enterobacteriacea spp., Helicobacter spp., Vibrio spp., Capylobacter spp., Pseudomonas spp., Ureaplasma spp., Legionella spp., Spirochetes spp., Mycobacteria spp., Actnomyces spp., Nocardia spp., Chlamydia spp., Rickettsia spp., Coxiella spp, Ehrilichia genus, Rochalimaea Including RNA viruses, orthomyxovirus, dsDNA viruses, characteristic protein such as a retrovirus) - protozoa, viruses (+) RNA virus, (); Brucella, Yersinia, Fracisella, and Pasturella.

なお他の適切な分子には、転写のインヒビター、作物の疫病の毒素、工業的に重要な酵素(例えば、プロテアーゼ、ヌクレアーゼ、およびリパーゼ)などが挙げられる。   Still other suitable molecules include inhibitors of transcription, crop plague toxins, industrially important enzymes (eg, proteases, nucleases, and lipases).

好ましい分子には、核酸またはそれらがコードするタンパク質の関連する「ファミリー」のメンバーが挙げられる。関連性(例えば、包含または「ファミリー」からの除外)は、タンパク質機能によって、および/またはそのファミリーの他のメンバーとの配列同一性によって決定され得る。配列同一性は、本明細書中に記載されるように決定され得、そして好ましくはファミリーのメンバーは、少なくとも約30%の配列同一性、より好ましくは少なくとも約50%の配列同一性、そして最も好ましくは少なくとも約80%の配列同一性を共有する。特定の例において、低い(例えば、約30%未満の配列同一性)が有意な関連性を有する分子を含むことが所望される。このような方法は、バイオインフォマティクスの文献において周知であり、そして代表的には、配列/類似性情報を有する分子フォールディングパターンの組み込みを包含する。このようなアプローチの1つの一般的な実施は、「スレッディングアルゴリズム」を含む。スレッディングアルゴリズムは、配列を、構造的なテンプレートに対して比較することによって、遠い相同性を検出する。標的とテンプレートとの間の構造的類似性が十分に大きい場合、それらの関連性は、有意な配列類似性の非存在下で検出され得る。スレッディングアルゴリズムは、当業者に周知であり、そして例えば、NCBI Structure Group Threading Package(National Center for Biological Informationから入手可能(例えば、http://www.ncbi.nlm.nih.gov/Structure/RESEARCH/threading.htmlを参照のこと))およびSeaFold(Molecular Simulations,Inc.)において見出され得る。   Preferred molecules include members of the relevant “family” of nucleic acids or the proteins they encode. Association (eg, inclusion or exclusion from “family”) can be determined by protein function and / or by sequence identity with other members of the family. Sequence identity can be determined as described herein, and preferably family members have at least about 30% sequence identity, more preferably at least about 50% sequence identity, and most Preferably they share at least about 80% sequence identity. In certain instances, it is desirable to include molecules with low (eg, less than about 30% sequence identity) with significant association. Such methods are well known in the bioinformatics literature and typically involve the incorporation of molecular folding patterns with sequence / similarity information. One common implementation of such an approach involves a “threading algorithm”. Threading algorithms detect distant homology by comparing sequences against structural templates. If the structural similarity between the target and the template is sufficiently large, those associations can be detected in the absence of significant sequence similarity. Threading algorithms are well known to those skilled in the art and are available, for example, from the NCBI Structure Group Threading Package (available from the National Center for Biological Information (eg, http: //www.ncbi.relm.rht. .Html))) and SeaFold (Molecular Simulations, Inc.).

(B)生物学的分子のキャラクターストリングへのコード化)
生物学的分子は、キャラクターストリングにコードされる。最も単純な例において、キャラクターストリングは、生物学的分子を表すために使用される文字コードと同一である。従って、例えば、キャラクターストリングは、核酸がコードされる、文字A、C、G、T、またはUを含み得る。同様に、標準的なアミノ酸命名法がポリペプチド配列を表すために使用され得る。あるいは、ある程度まで、コード化スキームは任意であることが認識される。従って、例えば、核酸の場合において、A、C、G、T、またはUは、整数1、2、3、4、および5によって、それぞれ表され得、そして核酸は、それ自体が単一の(代表的には大きいにもかかわらず)整数である、これらの整数のストリングとして表され得る。他のコード化スキームもまた可能である。例えば、生物学的分子は、キャラクターストリングにコード化され得、ここで分子の各「サブユニット」は、複数文字の表現にコード化される。あるいは、種々の圧縮された表現もまた可能である(例えば、反復性のモチーフが、各々の出現を識別する適切なポインタを用いて、1回のみで表現される場合)。
(B) Encoding biological molecules into character strings)
Biological molecules are encoded in character strings. In the simplest example, the character string is identical to the character code used to represent the biological molecule. Thus, for example, a character string can include the letters A, C, G, T, or U, where a nucleic acid is encoded. Similarly, standard amino acid nomenclature can be used to represent polypeptide sequences. Alternatively, to some extent, it will be appreciated that the encoding scheme is arbitrary. Thus, for example, in the case of nucleic acids, A, C, G, T, or U can be represented by the integers 1, 2, 3, 4, and 5, respectively, and the nucleic acid itself is a single ( It can be represented as a string of these integers, which are integers (typically large). Other encoding schemes are also possible. For example, a biological molecule can be encoded into a character string, where each “subunit” of the molecule is encoded into a multi-character representation. Alternatively, various compressed representations are also possible (eg, where repetitive motifs are represented only once, with appropriate pointers identifying each occurrence).

生物学的分子はまた、別個の/単一のストリングであるデータ構造にコードされる必要はない。より複雑なデータ構造(例えば、アレイ、リンクしたリスト、インデックス付構造(データベースまたはデータ表などを含むがこれらに限定されない))はまた、生物学的分子をコード化するために使用され得る。   Biological molecules also need not be encoded in a data structure that is a separate / single string. More complex data structures (eg, arrays, linked lists, indexed structures (including but not limited to databases or data tables)) can also be used to encode biological molecules.

生物学的分子の表現の入力、記憶、および検索を許容することが可能な本質的にいかなるデータ構造も適切である。これらの操作は手動で(例えば、紙と鉛筆、またはカードファイルなどを用いて)達成され得るが、好ましいデータ構造は、光学的におよび/または電子的におよび/または磁気的に操作され得るデータ構造であり、従って、自動化された入力操作、記憶操作、および出力操作を可能にする(例えば、コンピュータによって)データ構造である。   Essentially any data structure that can allow entry, storage, and retrieval of a representation of a biological molecule is suitable. Although these operations can be accomplished manually (eg, using paper and pencil, or card files, etc.), preferred data structures are data that can be manipulated optically and / or electronically and / or magnetically. A structure, and thus a data structure that allows automated input, storage, and output operations (eg, by a computer).

(III.サブストリングの選択)
好ましい実施態様において、生物学的分子をコード化したキャラクターストリングは、サブストリングがそこから選択される、ストリングの初期集団を提供する。代表的には、少なくとも2つのサブストリングが選択され、1つのサブストリングは各初期キャラクターストリングに由来する。2つより多い初期キャラクターストリングが存在する場合には、少なくとも2つの初期キャラクターストリングがこのようなサブストリングを提供する限りは、すべての初期キャラクターストリングがサブストリングを提供する必要はない。しかし、好ましい実施態様において、少なくとも1つのサブストリングが、各々の初期ストリングから選択される。
(III. Selection of substring)
In a preferred embodiment, a character string encoding a biological molecule provides an initial population of strings from which substrings are selected. Typically, at least two substrings are selected, and one substring is derived from each initial character string. If there are more than two initial character strings, not all initial character strings need to provide substrings, as long as at least two initial character strings provide such substrings. However, in a preferred embodiment, at least one substring is selected from each initial string.

(A)サブストリング長)
任意の所定のストリングから生成され得る理論的なストリングの最大数以外には、初期ストリングから選択され得るサブストリングの最大数の限定は、実質的に存在しない。従って、例えば、初期ストリングから選択されるサブストリングの最大数は、初期ストリングの完全な順列によって生成されるストリングの数である。
(A) Substring length)
There is virtually no limit to the maximum number of substrings that can be selected from the initial string, other than the maximum number of theoretical strings that can be generated from any given string. Thus, for example, the maximum number of substrings selected from the initial string is the number of strings generated by the complete permutation of the initial string.

しかし、比較的適度な長さの初期ストリングを用いると、順列の数は非常に多い。従って、好ましい実施態様において、サブストリングは、サブストリングが重複しないように初期ストリングから選択される。別の方法で表現すると、好ましい実施態様において、初期ストリングのいずれか1つに由来のサブストリングは、正しい規則性で結び付けられた場合に、これらのサブストリングが、それらがそこから選択される完全な初期ストリングを再現するように選択される。   However, using a relatively reasonably long initial string, the number of permutations is very large. Thus, in a preferred embodiment, the substring is selected from the initial string so that the substrings do not overlap. Expressed differently, in a preferred embodiment, substrings from any one of the initial strings, when combined with the correct regularity, are substrings from which they are selected. Selected to reproduce the initial string.

好ましいサブストリングはまた、過度に短くないように選択される。代表的には、サブストリングは、コード化された生物学的分子の1つのサブユニットを表すのに必要な短いストリング長よりも短くない。従って、例えば、コード化された生物学的分子が核酸である場合には、サブストリングは、少なくとも1つのヌクレオチドをコードするのに充分な長さである。同様に、コード化された生物学的分子がポリペプチドである場合には、サブストリングは、少なくとも1つのアミノ酸をコード化するのに充分な長さである。   Preferred substrings are also chosen not to be too short. Typically, a substring is not shorter than the short string length required to represent one subunit of the encoded biological molecule. Thus, for example, if the encoded biological molecule is a nucleic acid, the substring is long enough to encode at least one nucleotide. Similarly, if the encoded biological molecule is a polypeptide, the substring is long enough to encode at least one amino acid.

好ましい実施態様において、選択されるサブストリングは、コード化された生物学的分子の、少なくとも2、好ましくは少なくとも4、より好ましくは少なくとも10、なおより好ましくは少なくとも20、そして最も好ましくは少なくとも50、100、500、または1000サブユニットをコード化し得る。   In preferred embodiments, the substring selected is at least 2, preferably at least 4, more preferably at least 10, even more preferably at least 20, and most preferably at least 50 of the encoded biological molecule, One hundred, 500, or 1000 subunits may be encoded.

サブストリング長は、生物学的編成の特定のレベルを捕捉するために選択され得る。例えば、遺伝子全体、cDNA、mRNAをコード化するサブストリングが選択され得る。「より高度な」編成のレベルにおいて、オペロンまたは調節経路もしくは合成経路において見出され得るような、一連の関連する遺伝子、cDNA、mRNAなどをコード化するサブストリングが、選択され得る。「より高度な」レベルの編成において、個体の核酸全体(例えば、ゲノムDNA、総RNA、総cDNA)をコード化するサブストリングが、選択され得る。サブストリングが選択される初期ストリングがより高度なレベルの組織をコード化する限り、サブストリング中に捕捉される「編成のレベル」に対する限定は、実質的に存在しない。従って、サブストリング(単数または複数)が個々の遺伝子をコード化するために選択される場合、初期ストリングは、全体の代謝経路をコード化し得る。このサブストリングが個体の核酸全体をコード化するために選択される場合、初期ストリングは、集団の核酸全体などをコード化し得る。   The substring length can be selected to capture a specific level of biological organization. For example, substrings encoding the entire gene, cDNA, mRNA can be selected. At the level of “higher” organization, substrings can be selected that encode a series of related genes, cDNAs, mRNAs, etc., as can be found in operons or regulatory or synthetic pathways. At a “higher” level of organization, substrings that encode the entire nucleic acid (eg, genomic DNA, total RNA, total cDNA) of an individual can be selected. As long as the initial string from which the substring is selected encodes a higher level of organization, there is virtually no limit to the “level of organization” captured in the substring. Thus, when substring (s) are selected to encode individual genes, the initial string can encode the entire metabolic pathway. If this substring is selected to encode an individual's entire nucleic acid, the initial string may encode an entire population of nucleic acids and the like.

逆に、サブストリングはまた、生物学的編成の特定のレベルのサブユニットをコード化するために選択され得る。従って、例えば、サブストリングは、タンパク質の特定のドメイン、染色体の特定の領域(例えば、特徴的に増幅されるか、欠失されるか、または転座された領域)などを選択するために使用され得る。   Conversely, substrings can also be selected to encode a particular level of subunits of biological organization. Thus, for example, substrings are used to select specific domains of proteins, specific regions of chromosomes (eg, regions that are characteristically amplified, deleted, or translocated), etc. Can be done.

(B)サブストリング(Substring)選択アルゴリズム)
任意の広範な種々のアプローチが使用されてサブストリングが選択され得る。この特定のアプローチはモデリングされる問題によって決定される。好ましい選択アプローチとしては、ランダムサブストリング選択、均一なサブストリング選択、モーチフに基づく選択、アラインメントに基づく選択、および頻度に偏りのある(frequency−biased)選択が挙げられるが、これらに限定されない。同じサブストリング選択方法はあらゆる初期キャラクターストリングに適用される必要はないが、むしろ異なるサブストリング選択方法が異なる初期ストリングに対して使用され得る。さらに、多重サブストリング選択方法を任意の初期キャラクターストリングに適用することが可能である。
(B) Substring selection algorithm)
Any of a wide variety of approaches can be used to select substrings. This particular approach is determined by the problem being modeled. Preferred selection approaches include, but are not limited to, random substring selection, uniform substring selection, morph-based selection, alignment-based selection, and frequency-biased selection. The same substring selection method need not be applied to every initial character string, but rather different substring selection methods can be used for different initial strings. Furthermore, the multiple substring selection method can be applied to any initial character string.

(1.ランダムサブストリング選択)
1つの単純なアプローチにおいて、サブストリングはランダムに選択され得る。多くのアプローチがサブストリングの「ランダム」選択について利用可能である。例えば、ここで、最小長「L」のサブストリングは長さ「M」のコードされたキャラクターストリングから選択され、「切断点」は、(短い末端ストリングを避けるため)LからM−Lに及ぶ整数(ストリングに沿った位置を示す)を生成する乱数発生器を使用して選択され得る。長さがL未満の「内部」サブストリングは捨てられる。
(1. Random substring selection)
In one simple approach, substrings can be selected randomly. Many approaches are available for “random” selection of substrings. For example, where the substring of minimum length “L” is selected from a coded character string of length “M”, the “cutting point” ranges from L to ML (to avoid short end strings). It can be selected using a random number generator that generates an integer (indicating a position along the string). “Internal” substrings of length less than L are discarded.

別のアプローチにおいて、キャラクターストリングに沿った各位置のアドレスを指定する(例えば、1からNに及ぶ整数によって、ここでNはキャラクターストリングの長さである)。最小サブストリング長「L」および最大サブストリング長「M」を選択する。次いで、乱数発生器を、LからMに及ぶ番号「V」を生成するため使用する。次いで、アルゴリズムは、1からVまでのポジションからサブストリングを選択し、そしてポジションV+1は再びポジション1になる。次いで、このプロセスを初期ストリングがスパンされるまで繰り返す。   In another approach, the address of each location along the character string is specified (eg, an integer ranging from 1 to N, where N is the length of the character string). Select the minimum substring length “L” and the maximum substring length “M”. A random number generator is then used to generate the number “V” ranging from L to M. The algorithm then selects a substring from positions 1 to V, and position V + 1 becomes position 1 again. This process is then repeated until the initial string is spanned.

ランダムにサブストリングを選択する他の方法は容易に考案される。本発明の目的のために、「ランダム」選択は、選択プロセスがランダムネスに対する形式的な統計的要件をみたすことを必要としない。擬似ランダムまたは偶然の選択はこの文脈において十分である。   Other methods of randomly selecting substrings are easily devised. For the purposes of the present invention, “random” selection does not require the selection process to meet formal statistical requirements for randomness. Pseudo-random or accidental selection is sufficient in this context.

(2.均一なサブストリング選択)
均一なサブストリング選択において、各初期ストリングから得られるべき所望のサブストリングの数を決定する。次いで、初期ストリングを所望のサブストリングの数に均一に分ける。初期ストリング長が均一な分割を許可しない場合、1以上のより短いまたはより長いサブストリングが許可され得る。
(2. Uniform substring selection)
In uniform substring selection, the number of desired substrings to be obtained from each initial string is determined. The initial string is then uniformly divided into the desired number of substrings. If the initial string length does not allow uniform splitting, one or more shorter or longer substrings may be allowed.

(3.モチーフに基づく選択)
サブストリングは、モチーフに基づく選択を使用して、初期ストリングから選択され得る。このアプローチにおいて、初期キャラクターストリングを、予め選択された特定のモチーフの発生に対して走査する。次いで、そのモチーフに対して予め定義された関連性においてサブストリングの終点が発生するようにサブストリングを選択する。従って、例えば、その終わりは、モチーフまたは「上流」または「下流」内でモチーフの終わりから予め選択されたサブユニットの番号であり得る。
(3. Selection based on motif)
Substrings can be selected from the initial string using motif-based selection. In this approach, the initial character string is scanned for the occurrence of a specific preselected motif. The substring is then selected such that the end point of the substring occurs in a predefined association with the motif. Thus, for example, the end may be a motif or a subunit number preselected from the end of the motif within “upstream” or “downstream”.

モチーフは完全に任意であり得るか、または物理的因子もしくは生物学的分子の特性を反映し得る。従って、例えば、コードされた生物学的分子が核酸である場合、モチーフは制限エンドヌクレアーゼ(例えば、EcoRv、HindIII、BamHI、PvuIIなど)の結合特異性、タンパク質結合部位、特定のイントロン/エキソン接合部、トランスポゾンなどを反映するために選択され得る。同様に、コードされた生物学的分子がタンパク質である場合、モチーフはプロテアーゼ結合部位、タンパク結合部位、レセプター結合部位、特定のリガンド、相補性決定領域、エピトープなどを反映し得る。   The motif can be completely arbitrary or can reflect the characteristics of a physical factor or biological molecule. Thus, for example, if the encoded biological molecule is a nucleic acid, the motif is the binding specificity of a restriction endonuclease (eg, EcoRv, HindIII, BamHI, PvuII, etc.), protein binding site, specific intron / exon junction Can be selected to reflect transposons, etc. Similarly, if the encoded biological molecule is a protein, the motif may reflect a protease binding site, protein binding site, receptor binding site, specific ligand, complementarity determining region, epitope, and the like.

同様に、多糖類は特定の糖モチーフを含み得、糖タンパク質は特定の糖モチーフおよび/または特定のアミノ酸モチーフなどを有し得る。   Similarly, polysaccharides can contain specific sugar motifs, glycoproteins can have specific sugar motifs and / or specific amino acid motifs, and the like.

モチーフは、コードされた生物学的分子の1次構造を詳細に反映する必要はない。2次構造および3次構造モチーフもまた可能であり、そしてサブストリング終点を描写するために使用され得る。従って、例えば、コードされたタンパク質は、特徴的なα−ヘリックス、β−シート、α−ヘリックスモチーフを包み得る。そしてこのモチーフの発生はサブストリング終点を描写するために使用され得る。   The motif need not reflect in detail the primary structure of the encoded biological molecule. Secondary and tertiary structure motifs are also possible and can be used to delineate substring endpoints. Thus, for example, the encoded protein can wrap a characteristic α-helix, β-sheet, α-helix motif. The occurrence of this motif can then be used to delineate the substring endpoint.

別の「より高度な規則性」の種類のモチーフは、例えば「断片化消化」によって説明されるように「メタ−モチーフ」であり得る。このアプローチにおいて、サブストリング終点は単一モチーフの発生によって決定されないが、1つ以上のモチーフの配位されたパターンおよび間隔によって描写される。   Another “higher regularity” type of motif may be a “meta-motif”, as described, for example, by “fragmented digestion”. In this approach, the substring endpoint is not determined by the occurrence of a single motif, but is delineated by coordinated patterns and spacing of one or more motifs.

厳密に配列パターンを反映せず、むしろキャラクターストリングの特定のドメインの情報量を反映するモチーフがまた選択/利用され得る。従って、例えばRi(b,l)によって表されるように、米国特許第5,867,402号は情報量重みマトリックスへの変換による配列シグナルをプロセシングするためのコンピューターシステムおよび計算方法を記載している。Ri(b,l)によって値Riを生成する情報量重みマトリックスに対して特定の配列シグナルを適用し、特定の配列シグナルの個々の情報量を包含する第2の変換が続く。キャラクターストリングの情報量の決定に対する他のアプローチもまた公知である。(Staden、(1984)Nucleic Acids Res.12:505−519;Schneidr(1994)Nanotechnology5:1−8;Hermanら(1992)J.Bacteriol.3558−3560頁;Schneiderら(1990)Nucleic Acids Res.、18(20):6097−6100;Berg,ら(1988)J.Mol.Biol.、200(4):709−723をもまた参照のこと)。 Motifs that do not strictly reflect the sequence pattern, but rather reflect the amount of information in a particular domain of the character string can also be selected / utilized. Thus, for example, as represented by R i (b, l), US Pat. No. 5,867,402 describes a computer system and calculation method for processing sequence signals by conversion to an information weight matrix. ing. A particular sequence signal is applied to the information weight matrix that produces the value R i by R i (b, l), followed by a second transformation that encompasses the individual information of the particular sequence signal. Other approaches to determining character string information are also known. (Staden, (1984) Nucleic Acids Res. 12: 505-519; Schneidr (1994) Nanotechnology 5: 1-8; Herman et al. (1992) J. Bacteriol. 3558-3560; Schneider et al. (1990) Nucleic Acids. 18 (20): 6097-6100; see also Berg, et al. (1988) J. Mol. Biol., 200 (4): 709-723).

意図される他のモチーフは生物学的シグナルを反映する。従って、例えば、コードされた核酸、メチオニンの場合において、サブストリングの終点を描写する1つのモチーフは、終止コドンまたは開始コドンであり得るか、あるいは、タンパク質などの場合においては、ポリアデニル化シグナルであり得る。   Other contemplated motifs reflect biological signals. Thus, for example, in the case of the encoded nucleic acid, methionine, one motif that delineates the end point of the substring can be a stop codon or start codon, or in the case of proteins etc., is a polyadenylation signal obtain.

同じモチーフがあらゆる初期配列に適用される必要はない。さらに、複数のモチーフ、メタ−モチーフおよび/またはモチーフ/メタ−モチーフの組み合わせは任意の配列に適用され得る。   The same motif need not be applied to every initial sequence. Further, multiple motifs, meta-motifs and / or motif / meta-motif combinations can be applied to any sequence.

(4.アラインメントに基づく選択)
別のアプローチにおいて、サブストリングは、2つ以上の初期キャラクターストリングをアラインメントさせることにより、そして、サブストリングの終点を選択するための初期ストリング間で高い同一性の領域を選択することによって選択される。従って、例えば、配列アラインメント後、サブストリングは、少なくとも約5サブユニットの長さ、好ましくは少なくとも約10サブユニットの長さ、より好ましくは少なくとも約20サブユニットの長さ、さらにより好ましくは少なくとも約30サブユニットの長さ、そして最も好ましくは少なくとも約50、100、200、500サブユニットの長さ、またはさらに、1000サブユニットの長さに及ぶウインドウにわたって、サブストリングの終点が、少なくとも30%の、好ましくは少なくとも50%の、より好ましくは少なくとも70%の、さらにより好ましくは少なくとも80%の、そして最も好ましくは少なくとも85%、90%、95%、またはさらに、少なくとも99%の配列同一性を有する領域の(例えば、中央部内で)サブストリングの終点が発生するように選択され得る。
(4. Selection based on alignment)
In another approach, the substring is selected by aligning two or more initial character strings and by selecting a region of high identity between the initial strings to select the end points of the substring. . Thus, for example, after sequence alignment, a substring is at least about 5 subunits in length, preferably at least about 10 subunits in length, more preferably at least about 20 subunits in length, even more preferably at least about at least about Over a window spanning a length of 30 subunits, and most preferably at least about 50, 100, 200, 500 subunits, or even 1000 subunits, the end point of the substring is at least 30% Preferably at least 50%, more preferably at least 70%, even more preferably at least 80%, and most preferably at least 85%, 90%, 95%, or even at least 99% sequence identity. (E.g. in the center of the area ) End point of the substring may be selected to produce.

2つ以上の生物学的高分子(例えば、核酸またはポリペプチド)の文脈における用語「配列同一性」または「パーセント配列同一性」または「パーセント同一性」またはパーセント「相同性」は、同じ配列であるか、あるいは、ある配列に配列比較アルゴリズムを使用して、または視覚的検査によって測定されるように、最大一致について比較し、そして整列した場合に、同じであるサブユニット(例えば、アミノ酸残基またはヌクレオチド)の特定化されたパーセンテージを有する2つ以上の配列または部分配列をいう。   The terms “sequence identity” or “percent sequence identity” or “percent identity” or percent “homology” in the context of two or more biological macromolecules (eg, nucleic acids or polypeptides) are the same sequence. Subunits that are the same when compared and aligned for maximal matches, as measured using sequence comparison algorithms or by visual inspection for certain sequences (e.g., amino acid residues) Or two or more sequences or subsequences with a specified percentage of nucleotides).

配列比較に関して、代表的には、ある配列は参照配列として作用し、この配列に対して試験配列を比較する。好ましい実施態様において、配列比較アルゴリズムを使用する場合、試験および参照配列をコンピューターに入力し、必要ならば部分配列座標を設計し、そして配列アルゴリズムプログラムパラメーターを設計する。次いで、設計されたプログラムパラメーターに基づいて、配列比較アルゴリズムは参照配列に対して試験配列について配列同一性パーセントを計算する。   For sequence comparison, typically one sequence acts as a reference sequence, to which test sequences are compared. In a preferred embodiment, when using a sequence comparison algorithm, test and reference sequences are entered into a computer, subsequence coordinates are designed if necessary, and sequence algorithm program parameters are designed. The sequence comparison algorithm then calculates the percent sequence identity for the test sequence relative to the reference sequence, based on the designed program parameters.

アラインメントおよび配列比較アルゴリズムは当業者に周知である。例えば、比較のための配列の最適なアラインメントは、以下を含むが、これらに限定されないアルゴリズムであり得る:SmithおよびWaterman(1981)Adv.Apple.Math.2:482の局所的相同性アルゴリズム、Needl manおよびWench(1970)J.Mol.Biol.48:443の相同性アラインメントアルゴリズム、PearsonおよびLipan(1988)Pro.Natl.Acad.Sic.USA 85:2444の類似性検索方法によるもの、市販モジュールおよび/または市販ソフトウエアパッケージ(例えば、the Wisconsin Genetics Software Package、Genetics Computer Group、575 Science Dr.、Madison、WI)においてコンピューター処理されたこれらのアルゴリズムの実行によるもの(例えば、GAP、BESTFIT、FASTA、およびTFASTA)、または視覚的検査によるもの(通常、Amusableら、前出を参照のこと)。   Alignment and sequence comparison algorithms are well known to those skilled in the art. For example, an optimal alignment of sequences for comparison can be an algorithm including, but not limited to: Smith and Waterman (1981) Adv. Apple. Math. 2: 482 local homology algorithm, Needl man and Wench (1970) J. MoI. Mol. Biol. 48: 443 homology alignment algorithm, Pearson and Lipan (1988) Pro. Natl. Acad. Sic. USA 85: 2444 by similarity search method, commercially available modules and / or commercially available software packages (eg, the Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, WI). By algorithm execution (eg, GAP, BESTFIT, FASTA, and TFASTA) or by visual inspection (usually see Amusable et al., Supra).

有用なアルゴリズムの1つの例はPILEUPである。PILEUPは、進行的にペアを成すアラインメントを使用して関連配列の群から複数の配列アラインメントを生成し、関係およびパーセント配列同一性を示す。それはまた、使用されるクラスタリング関係を示す系図またはエンドガミーをプロットし、アラインメントを作成する。PILEUPはFengおよびDoolittle(1987)J.Mol.Evol.35:351〜360の進行的アラインメント方法の単純化を使用する。使用されるこの方法はHigginsおよびSharp(1989)CABIOS5:151〜153によって記述される方法と類似する。このプログラムは、各最大長5000個のヌクレオチドまたはアミノ酸の300配列までアラインメントさせ得る。多数アラインメント手順は、2つの最も類似した配列のペアを成すアラインメントとともに始まり、2つのアラインメントされた配列のクラスターを生成する。次いで、このクラスターをアラインメントされた配列の次の最も関連した配列またはクラスターに対してアラインメントする。配列の2つののクラスターを2つの個々の配列のペアを成すアラインメントの単純な進長により整列させる。最終アラインメントを一連の進行的にペアを成すアラインメントによって達成する。このプログラムを配列比較領域についての特定の配列およびそれらのアミノ酸座標またはヌクレオチド座標を設計することにより、そしてプログラムパラメーターを設計することにより実行する。例えば、参照配列を他の試験配列に対して比較し、以下のパラメーター(default gap weight(3.00)、default gap length weight(0.10)およびweighted end gaps)を使用するパーセント配列同一性関係を決定し得る。   One example of a useful algorithm is PILEUP. PILEUP uses progressively paired alignments to generate multiple sequence alignments from groups of related sequences, indicating relationships and percent sequence identity. It also plots a genealogy or endogmy showing the clustering relationships used and creates an alignment. PILEUP is described in Feng and Doolittle (1987) J. MoI. Mol. Evol. Use the 35: 351-360 progressive alignment method simplification. This method used is similar to the method described by Higgins and Sharp (1989) CABIOS 5: 151-153. The program can align up to 300 sequences of each maximum length of 5000 nucleotides or amino acids. The multiple alignment procedure begins with the alignment of the two most similar sequence pairs and produces a cluster of the two aligned sequences. This cluster is then aligned to the next most related sequence or cluster of aligned sequences. Two clusters of sequences are aligned by a simple progression of an alignment that forms two individual sequence pairs. Final alignment is achieved by a series of progressively paired alignments. This program is run by designing specific sequences for their sequence comparison regions and their amino acid coordinates or nucleotide coordinates, and by designing program parameters. For example, percent sequence identity relationship using reference parameters compared to other test sequences and using the following parameters: default gap weight (3.00), default gap length weight (0.10) and weighted end gaps Can be determined.

パーセント配列同一性および配列類似性を決定するために適した別のアルゴリズムの例はBLASTアルゴリズムであり、これはAltschulら(1990)J.Mol.Biol.215:403〜410において記載される。BLAST分析を実行するためのソフトウエアはNational Center for Biotechnology Information(http://www.ncbi.nlm.nih.gov/)によって公に入手可能である。このアルゴリズムは、照会配列中の長さWの短いワードを同定することにより高得点配列対(HSP)の最初の同定を含み、このことはデータベース配列中の同じ長さのワードと整列された場合に、一致するか、またはいくつかの陽性と評価される閾値スコアTを満たすかのどちらかである。Tを近傍のワードスコア閾値とみなす(Altschulら前出)。これら初期近傍ワードヒットは検索を開始する種子として作用し、それらを含むより長いHSPsを見い出す。このワードヒットを、累積的アラインメントスコアが増加し得る限り各配列に沿って両方向に進長させる。累積的アラインメントスコアがその最大到達値からX量の近くに下落する場合、1つ以上の陰性スコアリング残基アラインメントの蓄積のために累積スコアが0以下になる場合、またはどちらかの配列の終点に到達した場合に、各方向においてワードヒットの進長は停止する。このBLASTアルゴリズムパラメーターW、T、およびXはアラインメントの感度およびスピードを決定する。このBLASTプログラムは11のワード長(W)、50のBLOSUM62スコアリングマトリクス(HenikoffおよびHenikoff(1989)Proc.Natl.Acad.Sci.USA89:10915を参照のこと)アラインメント(B)、10の例外(E)、M=5、N=−4、および両鎖の比較をデフォルトとして使用する。 An example of another algorithm suitable for determining percent sequence identity and sequence similarity is the BLAST algorithm, which is described in Altschul et al. (1990) J. MoI. Mol. Biol. 215: 403-410. Software for performing BLAST analyzes is publicly available through the National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/). This algorithm includes the initial identification of a high-scoring sequence pair (HSP) by identifying a short word of length W in the query sequence, which is aligned with the same length of word in the database sequence Either meet or meet a threshold score T that evaluates to some positives. Consider T as the neighborhood word score threshold (Altschul et al., Supra). These initial neighborhood word hits act as seeds for initiating searches and find longer HSPs containing them. This word hit is advanced in both directions along each sequence for as far as the cumulative alignment score can be increased. If the cumulative alignment score falls near its X amount from its maximum reached value, if the cumulative score falls below zero due to the accumulation of one or more negative scoring residue alignments, or the end of either sequence The word hit progression stops in each direction. The BLAST algorithm parameters W, T, and X determine the sensitivity and speed of the alignment. The BLAST program has 11 word lengths (W), 50 BLOSUM62 scoring matrices (see Henikoff and Henikoff (1989) Proc. Natl. Acad. Sci. USA 89: 10915) Alignment (B), 10 exceptions ( E), M = 5, N = -4, and comparison of both strands is used as default.

パーセント配列同一性を計算することに加えて、このBLASTアルゴリズムはまた2つの配列間の類似性の統計的分析を実行する(例えば、KarlinおよびAltschul(1993)Proc.Natl.Acad.Sci.USA 90:5873〜5787を参照のこと)。BLASTアルゴリズムにより提供された類似性の1つの計測は最も小さい合計確率(P(N))であり、これは確率の指標を提供し、その確率によって2つのヌクレオチドまたはアミノ酸配列間の一致が偶発する。例えば、核酸は、参照核酸に対する試験核酸の比較において最も小さい合計確率が約0.1未満、より好ましくは約0.01未満、および最も好ましくは約0.001未満である場合、参照配列に類似しているとみなされる。   In addition to calculating percent sequence identity, the BLAST algorithm also performs a statistical analysis of similarity between two sequences (eg, Karlin and Altschul (1993) Proc. Natl. Acad. Sci. USA 90). : 5873-5787). One measure of similarity provided by the BLAST algorithm is the smallest total probability (P (N)), which provides an indication of probability, which coincides with the coincidence between two nucleotide or amino acid sequences . For example, a nucleic acid is similar to a reference sequence if the smallest total probability in the comparison of the test nucleic acid to the reference nucleic acid is less than about 0.1, more preferably less than about 0.01, and most preferably less than about 0.001. Is considered to be.

上記同定された類似性アルゴリズムは、例示的であり、かつ限定的でないことが意図される。類似性は全長の初期キャラクターストリングにわたって決定され得るか、または特定のサブドメインに限定され得るということが理解される。   The above identified similarity algorithm is intended to be exemplary and not limiting. It is understood that similarity can be determined over the full length initial character string or can be limited to a particular subdomain.

(5.頻度に偏りのある(frequency−biased)選択)
頻度に偏りのある(frequency−biased)部分配列選択方法において、部分配列は、部分配列の終点が特定の予め選択された頻度基準を満たする部分配列ドメインに対する特定の関係において生じるように選択される。例えば、高度に反復化したサブユニットパターン(例えば、核酸の場合において、「ACACACACACAC」のようなAC反復の高い集中)を含むコードされた生物学的分子を除外することが所望される場合、サブユニット選択が設計され、特定のサブユニットまたはサブユニットのモチーフの特定の反復密度が出現する前に終点を生成し得る。この瞬間において、反復密度は、サブユニット数またはサブユニットモチーフの長さにおいてそれぞれ測定されたキャラクターストリング長あたりのサブユニットまたはサブユニットモチーフの発生数である。
(5. Frequency-biased selection)
In a frequency-biased partial sequence selection method, the partial sequences are selected such that the end points of the partial sequences occur in a specific relationship to the partial sequence domain that meets certain preselected frequency criteria. . For example, if it is desired to exclude encoded biological molecules that contain highly repeated subunit patterns (eg, high concentrations of AC repeats such as “ACACACACACAC” in the case of nucleic acids) Unit selection can be designed to generate an endpoint before the appearance of a specific repeat density of a specific subunit or subunit motif. At this moment, the repeat density is the number of occurrences of subunits or subunit motifs per character string length measured in number of subunits or length of subunit motif, respectively.

従って、上記で示唆された例において、サブストリングは、ACモチーフが0.5(50%)を超える頻度で、少なくとも例えば4モチーフ長(この場合において8サブユニット長)の長さにわたって発生するキャラクターストリング領域に隣接してサブストリング終点が発生するように選択され得る。   Thus, in the example suggested above, the substring is a character that occurs at a frequency of more than 0.5 (50%) AC motifs, for example, over a length of at least 4 motifs (in this case, 8 subunits). A substring endpoint can be selected to occur adjacent to the string region.

そのような選択の他の例は、少なくともXサブユニットにわたる100%の出現にて、特定のサブユニットの出現に基づくサブストリング選択である。従って、例えば、コードされた生物学的分子が核酸であり、そしてこのサブユニットがアデノシン「A」である場合、頻度に偏りのある選択はサブストリング終点をポリアデニル化シグナル(例えば、AAAAAAA)の出現にて設定し得る。頻度に偏りのあるサブストリング選択基準の設計に依存して、上記に記載されているように、モチーフに基づく選択スキームを使用して同等の結果が得られ得る。   Another example of such a selection is a substring selection based on the occurrence of a particular subunit, with at least 100% occurrence over the X subunit. Thus, for example, if the encoded biological molecule is a nucleic acid and this subunit is adenosine “A”, a frequency-biased selection may result in the occurrence of a polyadenylation signal (eg, AAAAAAA) as a substring endpoint. It can be set with. Depending on the design of the frequency-biased substring selection criteria, equivalent results can be obtained using a motif-based selection scheme, as described above.

(6.他の基準)
多数の他の基準を使用し、特定のサブストリングの選択に影響を与え、そして/または決定し得る。そのような基準は、サブストリングによってコードされる分子の予想される疎水性および/またはPIおよび/またはPKを含む。他の基準は、交差数、所望されるフラグメントの大きさ、サブストリングの長さの分布、および/またはサブストリングによってコードされる分子の折り畳みに関する合理的な情報を含む。
(6. Other criteria)
Numerous other criteria can be used to influence and / or determine the selection of a particular substring. Such criteria include the expected hydrophobicity of the molecule encoded by the substring and / or PI and / or PK. Other criteria include reasonable information regarding the number of crossings, the desired fragment size, the distribution of substring lengths, and / or the folding of the molecules encoded by the substrings.

(IV.サブストリングの連結)
一担、サブストリングの集団が初期ストリングから選択されると、このサブストリングは連結され、およそまたは正確に親初期ストリングと同じ長さの新しいストリングを生成する。このストリング連結は幅広い数の方法によって実行され得る。
(IV. Concatenation of substrings)
Once a group of substrings is selected from the initial string, the substrings are concatenated to generate a new string that is approximately or exactly the same length as the parent initial string. This string concatenation can be performed in a wide variety of ways.

1つの実施態様において、このサブストリングはランダムに連結され「再結合」ストリングを生成する。そのような「ランダム」連結に対する1つのアプローチにおいて、各サブストリングは独特の識別名を割り当てられる(例えば、整数または他の識別名)。次いで、この識別名がプールよりランダムに選択され(例えば、乱数発生器を使用する)、そしてそれらの識別名に対応する部分配列が結合され、連結された配列を生成する。結合された部分配列がおよそまたは正確に開始キャラクターストリングの長さである場合、このプロセスは再び開始され別のストリングを生成する。このプロセスを全てのサブストリングが利用されるまで繰り返す。あるいは、「サブストリングプール」よりそれらを取り除くこと無しにこのサブストリングを選択し得、そして所望される数の「完全長」ストリングを得るまでこのプロセスを繰り返す。   In one embodiment, the substrings are randomly concatenated to produce a “recombination” string. In one approach to such “random” concatenation, each substring is assigned a unique identifier (eg, an integer or other identifier). This distinguished name is then randomly selected from the pool (eg, using a random number generator) and the partial sequences corresponding to those distinguished names are combined to produce a concatenated sequence. If the combined subsequence is approximately or exactly the length of the starting character string, the process begins again to generate another string. This process is repeated until all substrings are used. Alternatively, this substring can be selected without removing them from the “substring pool” and the process is repeated until the desired number of “full-length” strings is obtained.

しかし、好ましい実施態様において、初期ストリング中に存在するような連結されたストリングを形成するサブストリングの相対的規則性を維持することが所望される。このことは任意の幅広い数の手段により達成され得る。例えば、親ストリングより選択された各サブストリングは、その親ストリングより誘導される他のストリングの位置に対するそのサブストリングの初期ストリングにおける位置を同定する識別名(例えば、ポインタ)とともに「タグ化」され得る。他の初期ストリング中の対応する位置より誘導されるサブストリングには、類似した位置の識別名を割り当てる。各3つの初期ストリング(A、B、およびC命名した)が1から5までの通し番号をつけた5つのサブストリングを発生させる場合、このアプローチを図2において説明する。説明されているように、各サブストリングは独特に同定され得る(例えば、A1、A2、...A5、B1、B2、...B5、C1、C2、...C5)。次いで、プール1(A1、B1およびC2からなる)、プール2(A2、B2およびC2からなる)などからプール5のサブストリングをランダムに選択することにより、連結されたストリングは生成され得る。このプロセスは、3つのストリングが再構成されるまで繰り返され得る。   However, in the preferred embodiment, it is desirable to maintain the relative regularity of the substrings that form the concatenated string as it exists in the initial string. This can be accomplished by any wide number of means. For example, each substring selected from the parent string is “tagged” with an identifier (eg, a pointer) that identifies the position of the substring in the initial string relative to the position of other strings derived from the parent string. obtain. Substrings derived from corresponding positions in other initial strings are assigned similar position identifiers. This approach is illustrated in FIG. 2 when each of the three initial strings (named A, B, and C) generates five substrings, numbered 1-5. As described, each substring can be uniquely identified (eg, A1, A2, ... A5, B1, B2, ... B5, C1, C2, ... C5). A concatenated string can then be generated by randomly selecting a substring of pool 5 from pool 1 (consisting of A1, B1 and C2), pool 2 (consisting of A2, B2 and C2), etc. This process can be repeated until the three strings are reconstructed.

この連結スキームにおいて、一担サブストリングが連結されると、サブストリングプールよりそれが除去される。しかし、このプールから部分配列を「コピーする」ことにより、そして従って、後の連結に利用可能なサブストリングをまだ保持している間に、連結された配列中でそれを利用することによってこの連結は達成され得る。これはより大きな多様性を発生させる。   In this concatenation scheme, when a shared substring is concatenated, it is removed from the substring pool. However, by “copying” a subsequence from this pool, and thus using this in a linked sequence while still retaining a substring available for later linkage, Can be achieved. This creates greater diversity.

他の実施態様において、連結の間、様々なアラインメントおよび/または類似性アルゴリズムを使用してサブストリングの関連配列を一般的に維持し得る。このアプローチにおいて、高度類似性の領域を会合することにより、部分配列に、連結された配列中に相対位置を割り当てる(例えば、図3を参照のこと)。   In other embodiments, various alignment and / or similarity algorithms may generally be used to maintain the related sequences of substrings during ligation. In this approach, subsequences are assigned a relative position in the linked sequence by associating regions of high similarity (see, eg, FIG. 3).

好ましい実施態様において、最初にコードされた生物学的分子は、互いに何らかの関係を有する。従って、例えば、コードされる分子が、特定の酵素ファミリーにおけるメンバーを表す場合、分子は特定の集団などからの個体を表す。サブ配列は、有意な類似性を有するドメインを共有することが予測される。さらに、重要な機能性ドメインは、保存される傾向があり、そしてそれゆえまた、サブ配列の特定のドメインの類似性を増大させる。従って、サブ配列間の高度な類似性を有する領域を整列することは、初期ストリングにおけるそれらの規則性を反映するサブ配列の相対的な規則性を再構築する傾向がある。   In a preferred embodiment, the originally encoded biological molecules have some relationship to each other. Thus, for example, if an encoded molecule represents a member in a particular enzyme family, the molecule represents an individual from a particular population or the like. Subsequences are expected to share domains with significant similarity. In addition, important functional domains tend to be conserved and therefore also increase the similarity of specific domains of subsequences. Thus, aligning regions with a high degree of similarity between subsequences tends to reconstruct the relative regularity of subsequences that reflect their regularity in the initial string.

完全な規則性が全ての結び付けられたキャラクターストリングにおいて確立されることは要求されない。結び付けられた配列のパーセンテージ(例えば、好ましくは、少なくとも1パーセント、より好ましくは、少なくとも10パーセント、なおより好ましくは、少なくとも20%、そして最も好ましくは、少なくとも40パーセント、少なくとも60%、または少なくとも80パーセント)が元々の規則性を保つことが好ましい。   It is not required that complete regularity be established in all associated character strings. Percentage of bound sequences (eg, preferably at least 1 percent, more preferably at least 10 percent, even more preferably at least 20%, and most preferably at least 40 percent, at least 60%, or at least 80 percent. ) Preferably retains its original regularity.

サブ配列を再並べ替えする類似性基準の使用は、ハイブリダイゼーション(SBH)法(そこでは、類似性アルゴリズムは、完全配列のフラグメントから核酸配列を再構築するために使用される)による配列決定に類似する(例えば、Barinaga(1991)Science、253:1489;Bains(1992)Bio/Technology 10:757−758;DrmanacおよびCrkvenjakov、ユーゴスラビア特許出願第570/87号、1987;Drmanacら(1989)Genomics、4:114;Strezoskaら(1991)Proc.Natl.Acad.Sci.USA 88:10089;ならびにDrmanacおよびCrkvenjakov、米国特許第5,202,231号を参照のこと)。   The use of similarity criteria to reorder the subsequences can be used for sequencing by the hybridization (SBH) method, where similarity algorithms are used to reconstruct nucleic acid sequences from fragments of the complete sequence. Similar (eg, Barinaga (1991) Science, 253: 1489; Bains (1992) Bio / Technology 10: 757-758; Drmanac and Crkvenjakov, Yugoslavia patent application No. 570/87, 1987; Drmanac et al. (1989) Gen 4: 114; Strezkaska et al. (1991) Proc. Natl. Acad. Sci. USA 88: 10089; and Drmanac and Crkvenjakov, US Pat. 231).

特定の結び付け単独、または選択および結び付け操作は一緒に、特定のオペレータによって表わされ得ることが理解される。この種の特定のオペレータは、遺伝学アルゴリズムにおいて公知である。従って、例えば、「クロスオーバー」(相互転座)オペレータが定義され得、そこでは、2つの異なる初期配列中の類似の位置にあるサブ配列が交換される。同様に、クロスオーバー事象における特定のサブ配列を連結し、その結果、そのサブ配列が互いにクロスオーバーする(それらが隣接するサブ配列であるか否かに関わらず)「連結」オペレータが、定義され得る。前述の開示を鑑みて、その他のオペレータが当業者に公知である。   It will be understood that a particular association alone or selection and association operation may be represented together by a particular operator. Such specific operators are known in genetic algorithms. Thus, for example, a “crossover” (reciprocal translocation) operator can be defined in which subsequences at similar positions in two different initial sequences are exchanged. Similarly, a “link” operator is defined that links specific subsequences in a crossover event so that the subsequences crossover each other (whether or not they are adjacent subsequences). obtain. In view of the foregoing disclosure, other operators are known to those skilled in the art.

(V.ストリングの収集物に解ストリングを加える)
本発明の方法によって生成される結び付けられたストリングは、「居住させたデータセット(populated dataset)」を形成するストリングの収集物に加えられる。この収集物中のストリングは、本明細書に記載される方法のさらなる反復において、初期ストリングとして使用され得る(図1を参照のこと)。この文脈における、加える、は、ストリングのセット内に含まれるような1つ以上のストリングを同定するプロセスをいう。これは、問題のストリングを、ストリングの収集物であるデータ構造中にコピーまたは移動させること、そのストリングからストリングの収集物を表すデータ構造へポインタを設定するかまたは提供すること、そのストリングと関連するフラッグ(ストリングを特定のセットに含むことを示す)を設定すること、あるいは単にそのように生成されたストリングがその収集物中に含められるルールを設計することを含むが、これらに限定されない種々の手段によって達成され得る。
(V. Add a solution string to a collection of strings)
The bound strings generated by the method of the present invention are added to a collection of strings that form a “populated data set”. The string in this collection can be used as an initial string in further iterations of the methods described herein (see FIG. 1). In this context, adding refers to the process of identifying one or more strings as contained within a set of strings. This involves copying or moving the string in question into a data structure that is a collection of strings, setting or providing a pointer from that string to a data structure that represents the collection of strings, and associated with that string Various flags including, but not limited to, setting a flag (indicating that the string should be included in a particular set) or simply designing a rule so that the string so generated is included in the collection It can be achieved by the following means.

一旦、1つ以上の結び付けられたキャラクターストリングが生成されると、選択基準が、必要に応じて、結び付けられたストリングがストリングの収集物中に(例えば、第二の反復のための初期ストリングとして、および/または居住されたデータ構造の要素として)含められるべきか否かを決定するために課される。広範な数の選択基準が利用され得る。   Once one or more associated character strings have been generated, the selection criteria can be used to specify the associated string in the collection of strings (eg, as an initial string for the second iteration). And / or as an element of a populated data structure). A wide number of selection criteria can be utilized.

1つの実施態様において、類似性指標は、選択基準として使用され得る。従って、新たに生成された結び付けられたキャラクターストリングは、互いに、および/または初期ストリング(またはそのコードされた分子)と、および/または1つ以上の「参照」ストリングと、特定の所定の類似性(例えば、10%を超え、好ましくは、20%または30%を超え、より好ましくは、40%または50%を超え、そして最も好ましくは、60%、70%、80%、またはさらには90%を超える)を共有しなければならない。   In one embodiment, the similarity measure can be used as a selection criterion. Thus, the newly generated associated character strings are of a certain predetermined similarity to each other and / or the initial string (or its encoded molecule) and / or one or more “reference” strings. (E.g., greater than 10%, preferably greater than 20% or 30%, more preferably greater than 40% or 50%, and most preferably 60%, 70%, 80%, or even 90% Must be shared).

選択はまた、配列同一性が極めて低い場合でさえ、「関連性」を評価するアルゴリズムの使用を含み得る。このような方法には、「スレッディング(threading)」アルゴリズムおよび/または共分散測定が含まれる。   Selection can also include the use of algorithms that evaluate “relevance” even when the sequence identity is very low. Such methods include “threading” algorithms and / or covariance measurements.

その他の選択基準は、結び付けられたストリングによって表される分子がコンピュータにより予測された特定の特性を満足することを要求し得る。従って、例えば、選択基準は、最小または最大の分子量、特定の緩衝系における特定の最小または最大の自由エネルギー、特定の標的分子または表面との最小または最大の接触表面、特定の緩衝系における特定の正味の電荷、予想されたPK、PI、結合アビディティー、特定の二次もしくは三次形態などを要求し得る。   Other selection criteria may require that the molecule represented by the associated string satisfy certain properties predicted by the computer. Thus, for example, the selection criteria can be the minimum or maximum molecular weight, the specific minimum or maximum free energy in a specific buffer system, the minimum or maximum contact surface with a specific target molecule or surface, the specific in a specific buffer system Net charge, expected PK, PI, binding avidity, specific secondary or tertiary form, etc. may be required.

なお他の選択基準は、結び付けられたストリングによって表されるその分子が、特定の経験的物理的にアッセイされた特性に合うことを要求し得る。従って、例えば、選択基準は、結び付けられたストリングによって表される分子が特定の温度安定性、酵素活性のレベルを有すること、特定のpHの溶液を生成すること、特定の温度および/またはpH至適条件を有すること、特定の溶媒系において最小または最大の可溶性を有すること、最小または最大の親和性で標的分子に結合することなどを要求し得る。特定の選択基準の物理的な決定は、代表的には、結び付けられたストリングによって表されるその分子が、合成され(例えば、化学的に、もしくは組換え法により)るか、または単離されることを要求する。   Still other selection criteria may require that the molecule represented by the associated string meet certain empirical physical assayed properties. Thus, for example, the selection criteria may be that the molecule represented by the associated string has a particular temperature stability, level of enzyme activity, produces a solution of a particular pH, a particular temperature and / or pH optimum. It may require having appropriate conditions, having a minimum or maximum solubility in a particular solvent system, binding to a target molecule with minimum or maximum affinity, and the like. The physical determination of a particular selection criterion is typically that the molecule represented by the associated string is synthesized (eg, chemically or recombinantly) or isolated. Request that.

物理的系におけるそのような選択基準の適用は、当業者に公知である(例えば、Stemmerら(1991)Tumor Targeting 4:1−4;Nessら(1999)Nature Biotechnology 17:893−896;Changら(1999)Nature Biotechnology 17:793−797;MinshullおよびStemmer(1999)Current Opinion in Chemical Biology 3:284−290;Christiansら(1999)Nature Biotechnology 17:259−264;Crameriら(1998)Nature 391:288−291;Crameriら(1997)Nature Biotechnology 15:436−438;Zhangら(1997)Proc.Natl.Acad.Sci.,USA、94:4504−4509;Pattenら(1997)Curr.Opin.Biotech.8:724−733;Crameriら(1996)Nature Med.2:100−103;Crameriら(1996)Nature Biotechnology 14:315−319;Gatesら(1996)J.Mol.Biol.255:373−386;Stemmer(1996)CrameriおよびStemmer(1995)BioTechniques 18:194−195;米国特許第5,605,793号、同第5,811,238号、同第5,830,721号、同第5,834,252号、同第5,837,458号、WO95/22625、WO97/0078、WO97/35966、WO99/41402;WO99/41383、WO99/41369、WO9941368、EP0934999;EP0932670;WO9923107;WO9921979;WO9831837;WO9827230、およびWO9813487を参照のこと)。   Application of such selection criteria in physical systems is known to those skilled in the art (eg, Stemmer et al. (1991) Tumor Targeting 4: 1-4; Ness et al. (1999) Nature Biotechnology 17: 893-896; Chang et al. (1999) Nature Biotechnology 17: 793-797; Minsull and Stemmer (1999) Current Opinion in Chemical Biology 3: 284-290; Christians et al. -291; Crameri et al. (1997) Nature Biotec. nolology 15: 436-438; Zhang et al. (1997) Proc. Natl. Acad. Sci., USA, 94: 4504-4509; Patten et al. (1997) Curr. Opin.Biotech.8: 724-733; ) Nature Med. 2: 100-103; Crameri et al. (1996) Nature Biotechnology 14: 315-319; Gates et al. (1996) J. Mol. Biol. 255: 373-386; Stemmer (1996) Crameri and Stemmer (1995). BioTechniques 18: 194-195; U.S. Pat. Nos. 5,605,793, 5,811,238, 5,830,721, 5,834 No. 252, No. 5,837,458, WO95 / 22625, WO97 / 0078, WO97 / 35966, WO99 / 41402; WO99 / 41383, WO99 / 41369, WO9941368, EP09343999; EP0923107; WO9923107; And WO 9813487).

(VI.さらなる改変の導入)
特定の例において、さらなる改変をその集団に導入することが望ましい。これは、本発明の方法によって生成される初期集団を使用する進化アルゴリズムの繰り返される反復が、モデル化された問題に解答を与えない場合(例えば、どのメンバーも選択基準に合わない)に、特に所望される。
(VI. Introduction of further modifications)
In certain instances, it may be desirable to introduce further modifications to the population. This is especially true when repeated iterations of the evolutionary algorithm using the initial population generated by the method of the invention do not answer the modeled problem (eg, no member meets the selection criteria). Desired.

多くの方法が、改変を、本発明の方法によって生成されるストリング集団に導入するために使用され得る。改変が初期ストリングに(その方法に対する入力)または結び付けられたストリングに(出力)導入され得ることに留意する。好ましくは、そのような改変は、選択工程の前に導入されるが、しかし、特定の場合には、改変は、選択後(例えば、二回目の反復の前)に導入され得る。   Many methods can be used to introduce modifications into the string population generated by the methods of the present invention. Note that modifications can be introduced in the initial string (input to the method) or in the associated string (output). Preferably, such modifications are introduced before the selection step, but in certain cases, modifications can be introduced after selection (eg, before the second iteration).

1つのアプローチにおいて、確率論的オペレータが、コードされる分子を含む1つ以上のサブユニットをランダムに/偶然に変更するアルゴリズムに導入される。改変は、コードされていない分子(これは次いで、キャラクターストリングにコードされる)に導入され得ること、および/または改変は、コードされるキャラクターストリングに直接導入され得ることに留意する。確率論的なオペレータは、代表的には、2つの選択プロセスを呼び出す。1つの選択プロセスは、どのサブユニットが変更されるかの決定を含む。一方、他の選択プロセスは、何のサブユニットに変更されるかの選択/決定を含む。両方の選択プロセスは、確率論的であり得るか、または選択プロセスにあり、またはその他は、決定因子であり得る。従って、例えば、「変異する」ためのサブユニットの選択は、ランダム/偶然であり得るが、変異は、常に、同じ新たな/置換サブユニットに入り得る。あるいは、変異されるべき特定のサブユニットは、予め決定され得るが、変異された/得られるサブユニットのその選択は、ランダム/偶然であり得る。なお別の実施態様において、変異させるサブユニットの選択および変異の結果の両方は、ランダム/偶然であり得る。   In one approach, a stochastic operator is introduced into an algorithm that randomly / accidentally changes one or more subunits containing the encoded molecule. Note that modifications can be introduced into the non-coded molecule (which is then encoded into the character string) and / or modifications can be introduced directly into the encoded character string. A probabilistic operator typically invokes two selection processes. One selection process involves determining which subunits are changed. On the other hand, other selection processes include selection / determination of what subunits are changed. Both selection processes can be probabilistic or in the selection process, or the others can be determinants. Thus, for example, the selection of a subunit to “mutate” can be random / coincident, but the mutation can always enter the same new / replacement subunit. Alternatively, the particular subunit to be mutated can be predetermined, but the selection of the mutated / obtained subunit can be random / coincident. In yet another embodiment, both the selection of subunits to be mutated and the result of the mutation can be random / accidental.

好ましい実施態様において、確率論的オペレータはまた、「変異」の発生の平均頻度を設定する「変異頻度」を入力もしくはパラメータとしてとる。従って、例えば、変異頻度が10%に設定される場合、その確率論的オペレータは、変異を、初期ストリング中に含む10サブユニットのうちの1に発生することを許容するのみである。その変異頻度はまた、範囲(例えば、5%〜10%など)を設定し得る。   In a preferred embodiment, the stochastic operator also takes as input or parameter “mutation frequency” that sets the average frequency of occurrence of “mutation”. Thus, for example, if the mutation frequency is set to 10%, the probabilistic operator will only allow the mutation to occur in one of the ten subunits included in the initial string. The mutation frequency can also set a range (eg, 5% to 10%, etc.).

その「確率論的オペレータ」は、全ての初期ストリングに、または初期ストリングを含む全てのサブストリングに適用される必要はない。従って、特定の実施態様において、確率論的オペレータの作用は、1つ以上の初期ストリングの特定の初期ストリングおよび/または特定のサブストリング(例えば、ドメイン)に制約される。   The “stochastic operator” need not be applied to all initial strings or to all substrings that contain initial strings. Thus, in certain embodiments, the action of a stochastic operator is constrained to a particular initial string and / or a particular substring (eg, domain) of one or more initial strings.

確率論的オペレータの両方の選択基準が固定される場合、そのオペレータは、もはや確率論的ではなく、むしろ「指向された変異」を導入する。このようなオペレータは、そのオペレータが遭遇する全てのサブユニット「A」をサブユニット「B」に変更するように指向し得る。その指向された変異オペレータはなお、パラメータ/属性/入力として変異頻度をとり得る。上記のように、その変異頻度は、そのオペレータが実際に形質転換する「遭遇される」サブユニットの数を制限する。   If both selection criteria for a stochastic operator are fixed, the operator is no longer stochastic, but rather introduces a “directed mutation”. Such an operator may be directed to change all subunits “A” encountered by the operator to subunit “B”. The directed mutation operator can still take mutation frequency as a parameter / attribute / input. As noted above, the mutation frequency limits the number of “encountered” subunits that the operator actually transforms.

上記のように、その確率論的オペレータが、1つ以上のコードされたサブユニットを変更し得ることもまた理解される。特定の実施態様において、そのオペレータは、多重にコードされたサブユニット、またはさらには全体のサブストリング/ドメインをさえ変更する。   As described above, it is also understood that the probabilistic operator can change one or more encoded subunits. In certain embodiments, the operator modifies multiple encoded subunits, or even the entire substring / domain.

改変もまた、挿入オペレータまたは欠失オペレータの使用によって導入され得る。挿入オペレータまたは欠失オペレータは、本質的に「確率論的変異」オペレータのバリアントである。1つ以上のサブユニットを形質転換するかわりに、欠失オペレータは、1つ以上のサブユニットを欠失させ、一方、挿入オペレータは、1つ以上のサブユニットを挿入する。再び、欠失オペレータおよび挿入オペレータは、2つの選択プロセスを有する;挿入または欠失の部位を選択する1つのプロセス、およびその欠失のサイズまたはその挿入の同一性を選択する別のプロセス。選択プロセスの1つまたは両方は、確率論的であり得る。両方の選択プロセスが、予め決定されている(非確率論的)場合、その挿入または欠失オペレータは、指向された挿入オペレータまたは指向された欠失オペレータである。確率論的オペレータに関して、その挿入オペレータまたは欠失オペレータは、変異頻度をパラメータ/属性/入力として取り得る。   Modifications can also be introduced through the use of insertion or deletion operators. Insertion or deletion operators are essentially variants of “stochastic mutation” operators. Instead of transforming one or more subunits, the deletion operator deletes one or more subunits, while the insertion operator inserts one or more subunits. Again, the deletion operator and the insertion operator have two selection processes; one process for selecting the site of insertion or deletion, and another process for selecting the size of the deletion or the identity of the insertion. One or both of the selection processes can be probabilistic. If both selection processes are predetermined (non-stochastic), the insertion or deletion operator is a directed insertion operator or a directed deletion operator. For a probabilistic operator, the insertion or deletion operator can take the mutation frequency as a parameter / attribute / input.

別の実施態様において、改変は、ランダムに、または偶然に生成される1つ以上の初期ストリングを加えることによって増大され得、生物学的分子に由来する初期ストリングに対して必須の関係は有さない。改変導入初期ストリングは、厳密にランダムまたは偶然なストリングとして生成され得るか、または特定の実施態様では、改変ストリングは、特定の予め決定された基準に従って生成される(例えば、特定のサブユニットの発生頻度、コードされるストリングに対する最小および/または最大程度の類似性など)。改変導入初期ストリングは、全長ストリングである必要はないが、単に1つ以上のサブストリングを含むこともあり得る。この性質のストリングまたはサブストリングは、改変もまた減少させるために使用され得ることに留意する。従って、特定の分子ドメインが、「好ましい」場合、このドメインをコードするストリングまたはサブストリングは、初期ストリングの集団に加えられ得る。   In another embodiment, the modification can be augmented by adding one or more initial strings that are randomly or accidentally generated and have an essential relationship to the initial strings derived from the biological molecule. Absent. The modified introductory initial string can be generated as a strictly random or accidental string, or in certain embodiments, the modified string is generated according to certain predetermined criteria (e.g., occurrence of a particular subunit). Frequency, minimum and / or maximum degree of similarity to the encoded string). The modified introductory initial string need not be a full-length string, but may simply include one or more substrings. Note that strings or substrings of this nature can also be used to reduce modification. Thus, if a particular molecular domain is “preferred”, a string or substring encoding this domain can be added to the population of initial strings.

(VII.データ構造を居住させる)
1つの実施態様において、本発明の方法によって生成される全ての結び付けられたストリングは、データ構造を居住させるために使用されるか、および/または本明細書に記載される方法の別の反復において、初期ストリングとして使用される。その他の実施態様において、選択基準は、上記のように課され、そして選択基準に適合する結び付けられたストリングのみが、初期ストリングとして使用され、および/またはデータ構造を居住させるために使用される。データ構造は、上記の操作において使用されるコードされる分子の結び付けられた表示とともに居住され得るか、あるいはその結び付けられたストリングは、部分的に逆重畳積分されて、より単純なコードされたものとして再生され得るか、またはそのコードされた生物学的分子の表示を指向し得、そしてこれらの逆重畳積分されたストリングは、データ構造を居住させるために使用され得る。
(VII. Residing data structure)
In one embodiment, all linked strings generated by the method of the present invention are used to populate the data structure and / or in another iteration of the method described herein. Used as an initial string. In other embodiments, selection criteria are imposed as described above, and only the associated string that meets the selection criteria is used as the initial string and / or used to populate the data structure. The data structure can be populated with the associated representation of the encoded molecule used in the above operation, or the associated string can be partially deconvolved to produce a simpler encoded one Can be reproduced as or directed to the representation of the encoded biological molecule, and these deconvolution integrated strings can be used to populate the data structure.

1つの実施態様において、そのデータ構造は、結び付けられたストリングが書き込まれた一枚の紙、またはそれぞれのカードに1つ以上の結び付けられたストリングがリストされているカードの集団と同じくらい単純であり得る。好ましい実施態様において、そのデータ構造は、適切に設計されたコンピュータによってそのデータ構造の操作を可能にする媒体(例えば、機械的および/または流体および/または光学的および/または量子的および/または磁気的および/または電子的)において実施される。特に好ましい実施態様において、そのデータ構造は、コンピュータメモリ(例えば、ダイナミック、スタティック、リードオンリーなど)中に、および/または光学的、磁気的、または磁気光学的保存媒体中に形成される。   In one embodiment, the data structure is as simple as a piece of paper on which the associated strings are written, or a group of cards in which each card has one or more associated strings listed. possible. In a preferred embodiment, the data structure is a medium (e.g., mechanical and / or fluid and / or optical and / or quantum and / or magnetic) that allows the data structure to be manipulated by a suitably designed computer. And / or electronic). In particularly preferred embodiments, the data structure is formed in computer memory (eg, dynamic, static, read-only, etc.) and / or in an optical, magnetic, or magneto-optical storage medium.

そのデータ構造は、コンピュータアクセス可能形態においてさえ、結び付けられたストリングのリストを単に提供し得る。あるいは、そのデータ構造は、種々の「エントリー」間の関係を保存するために構築され得る。簡単なレベルにおいて、これは、エントリーの簡単な同一性および/または規則性を維持することを包含し得る。より精巧なデータ構造はまた、利用可能であり、そしてデータ構造(例えば、結び付けられたストリング)中の1つ以上のエントリー間の関係をインデックス付けするため、および/または選別するため、および/または維持するための付属的な構造を提供し得る。そのデータ構造は、さらに、そのエントリーに関する注釈(例えば、起源、タイプ、物理的特性など)、またはエントリーと外部データ供給源との間のリンクに関する注釈を包含し得る。好ましいデータ構造には、リスト、リンクされたリスト、表、ハッシュ・テーブルおよび他のインデックス、フラットファイルデータベース、リレーショナルデータベース、局所または分配コンピュータシステムが含まれるが、これらに限定されない。特に好ましい実施態様において、そのデータ構造は、従来的な(例えば、磁気および/または光学的)媒体に保存されたデータファイルか、またはコンピュータメモリに読み込まれたデータファイルである。   That data structure may simply provide a list of associated strings, even in computer accessible form. Alternatively, the data structure can be constructed to store relationships between the various “entries”. At a simple level, this may involve maintaining simple identity and / or regularity of entries. More sophisticated data structures are also available and for indexing and / or screening relationships between one or more entries in a data structure (eg, a concatenated string) and / or Ancillary structures for maintaining can be provided. The data structure may further include annotations on the entry (eg, origin, type, physical characteristics, etc.) or annotations on the link between the entry and the external data source. Preferred data structures include, but are not limited to, lists, linked lists, tables, hash tables and other indexes, flat file databases, relational databases, local or distributed computer systems. In a particularly preferred embodiment, the data structure is a data file stored on a conventional (eg, magnetic and / or optical) medium or a data file read into a computer memory.

(VIII.プログラムされたデジタル装置における実施態様)
本発明は、適切に構成されたコンピュータデバイスにロードされた場合に、本発明の方法に従って、そのデバイスにデータ構造を居住させる(例えば、結び付けられたストリングのプール/収集物を生成する)論理構造および/またはデータを含む固定された媒体または伝達可能プログラム構成要素において実施され得る。
(VIII. Implementation in a programmed digital device)
The present invention, when loaded into an appropriately configured computing device, causes the device to populate the data structure (eg, generate a pool / collection of associated strings) according to the method of the present invention. And / or may be implemented on a fixed medium or a transmissible program component containing data.

図4は、媒体717および/またはネットワークポート719からの命令を読むことができる論理装置として理解され得るデジタルデバイス700を示す。装置700は、その後、その命令を使用して、分子のコードされた表示およびデータ構造の集団の生物学的分子操作のコード化を指向させ得る。本発明を具体化し得る論理装置の1つのタイプは、CPU707、光学入力デバイス709および711、ディスクドライブ715および必要に応じてモニタ705を含む700に例示されるようなコンピュータシステムである。固定された媒体717は、このようなシステムをプログラムするために使用され得、そしてディスクタイプの光学的または磁気的な媒体またはメモリを表し得る。コミュニケーションポート719はまた、このようなシステムをプログラムするために使用され得、そして任意のタイプのコミュニケーションコネクションを表し得る。   FIG. 4 illustrates a digital device 700 that can be understood as a logic device that can read instructions from media 717 and / or network port 719. The apparatus 700 can then use the instructions to direct the encoded representation of the molecule and the coding of the biological molecule manipulation of the population of data structures. One type of logic device that may embody the invention is a computer system such as that illustrated in 700 that includes a CPU 707, optical input devices 709 and 711, a disk drive 715 and optionally a monitor 705. Fixed medium 717 can be used to program such a system and can represent a disk-type optical or magnetic medium or memory. Communication port 719 may also be used to program such a system and may represent any type of communication connection.

本発明はまた、特定の一体化された回路(ASIC)またはプログラム可能な論理デバイス(PLD)のアプリケーションの回路内で実施され得る。このような場合、本発明は、本明細書に記載されるように操作されるASICまたはPLDを生成するために使用され得るコンピュータ理解可能な記述子言語で実施され得る。   The present invention may also be implemented in the circuit of a particular integrated circuit (ASIC) or programmable logic device (PLD) application. In such cases, the present invention may be implemented in a computer-understood descriptor language that can be used to generate an ASIC or PLD that is operated as described herein.

本発明はまた、その他のデジタル装置(例えば、カメラ、ディスプレイ、画像編集装置など)の回路または論理プロセス内で実施され得る。   The present invention may also be implemented within the circuitry or logic process of other digital devices (eg, cameras, displays, image editing devices, etc.).

(IX.ウェブサイトにおける実施態様)
本発明の方法は、ローカライズされたコンピューティング環境、または分散コンピューティング環境において実現され得る。分散環境において、この方法は、複数のプロセッサーを含む1つのコンピューターまたは多数のコンピューター上で実施され得る。このコンピューターは、例えば、共通バスを通じてリンクされ得るが、より好ましくは、このコンピューターはネットワーク上のノードである。このネットワークは、汎用化したもしくは専用化した、ローカルネットワークまたは広域ネットワークであり得、特定の好ましい実施態様では、コンピューターは、イントラネットまたはインターネットの構成要素であり得る。
(IX. Embodiments on the website)
The method of the present invention may be implemented in a localized computing environment or a distributed computing environment. In a distributed environment, the method can be implemented on a single computer or multiple computers that include multiple processors. The computer can be linked through a common bus, for example, but more preferably the computer is a node on the network. The network can be a generalized or dedicated, local or wide area network, and in certain preferred embodiments the computer can be an intranet or Internet component.

好ましい実施態様では、クライアントシステムは、代表的に、ウェブブラウザを実行し、そしてウェブサーバーを実行するサーバーコンピューターに接続される。このウェブブラウザは、代表的に、IBMのWeb Explorer、またはNetScapeもしくはMosaicのようなプログラムである。ウェブサーバーは、代表的に、IBMのHTTP Daemonまたは他のWWWデーモンのようなプログラムであるが、それである必要はない。クライアントコンピューターは、ラインを通してかまたはワイアレスシステムを介してサーバーコンピューターと双方向接続される。次いで、このサーバーコンピューターは、本発明の方法を実現するソフトウェアへのアクセスを提供するウェブサイト(サーバーがこのウェブサイトをホスティングする)と双方向接続される。   In the preferred embodiment, the client system typically runs a web browser and is connected to a server computer running a web server. This web browser is typically an IBM Web Explorer, or a program such as NetScape or Mosaic. The web server is typically a program, such as, but not necessarily, IBM's HTTP Daemon or other WWW daemon. The client computer is bi-directionally connected to the server computer through a line or via a wireless system. The server computer is then bi-directionally connected to a website that provides access to software that implements the method of the present invention (the server hosts this website).

イントラネットまたはインターネットに接続されたクライアントのユーザーは、本発明の方法の実現を提供するアプリケーションをホスティングするウェブサイトの部分であるリソースをクライアントに要求させ得る。次いで、サーバープログラムは、特定のリソース(それらは現在利用可能であると想定する)を返答するために要求を処理する。Uniform Resource Locator(「URL」)として公知の、標準的な命名規則が適用されている。この規則は、いくつかの形式のロケーション名を含む。これは、現在、例えば以下のようなサブクラスを含む:Hypertext Transport Protocol(「http」)、File Transport Protocol(「ftp」、ゴーファー(gopher)、およびWide Area Information Service(「WAIS」)。リソースがダウンロードされる場合、これはさらなるURLのリソースを含み得る。従って、クライアントのユーザーは、彼または彼女が具体的に要求しなかった新規なリソースの存在を容易に知ることができる。   A user of a client connected to an intranet or the Internet may cause the client to request resources that are part of a website hosting an application that provides an implementation of the method of the present invention. The server program then processes the request to reply with specific resources (assuming they are currently available). A standard naming convention known as Uniform Resource Locator (“URL”) is applied. This rule includes several forms of location names. This currently includes, for example, the following subclasses: Hypertext Transport Protocol ("http"), File Transport Protocol ("ftp", gopher, and Wide Area Information Service ("WAIS"). If so, this may include additional URL resources, so the client user can easily know the presence of new resources that he or she did not specifically request.

本発明の方法を実現するソフトウェアは、真のクライアント−サーバーアーキテクチャにおいてウェブサイトをホスティングするサーバー上にて、ローカルで実行し得る。従って、クライアントコンピューターのポストは、要求されたプロセスをローカルで実行するホストサーバーに要求し、次いで、結果をクライアントにダウンロードして戻す。あるいは、本発明の方法は、「多層(multi−tier)」形式で実行され得、ここで本方法の構成要素は、クライアントによりローカルで実行される。これは、クライアントによる要求に対してサーバーからダウンロードされるソフトウェア(例えば、Java(登録商標)アプリケーション)により実現され得るか、またはクライアント上に「永久に」インストールされるソフトウェアにより実現され得る。   The software implementing the method of the present invention may run locally on a server hosting a website in a true client-server architecture. Thus, the client computer's post requests the requested process from the host server running locally, and then downloads the results back to the client. Alternatively, the method of the present invention may be performed in a “multi-tier” format, where the components of the method are performed locally by the client. This can be accomplished by software downloaded from the server in response to a request by the client (eg, a Java application) or by software installed “permanently” on the client.

1つに実施態様では、本発明の方法を実現するアプリケーションは、フレームへと分割される。このパラダイムにおいて、特徴または機能のコレクションとしてアプリケーションを見るのではなく、代わりに分散したフレームまたはビューのコレクションとしてアプリケーションを見るのに役立つ。例えば、代表的なアプリケーションは、一般的に、一組のメニューアイテム(その各々が特定のフレームを呼び出す−−すなわち、アプリケーションの特定の機能を表すフォーム)を含む。この観点において、アプリケーションは、コードのモノリシック体としてではなく、アプレットのコレクションまたは機能のバンドルとみなされる。この様式において、ブラウザ内から、ユーザーは、ウェブページリンクを選択して、次にアプリケーションの特定のフレーム(すなわち、サブアプリケーション)を呼び出す。従って、例えば、1つ以上のフレームが、1つ以上のキャラクターストリング中に生物学的分子を入力する、および/またはその分子をコードするための機能を提供し得るが、別のフレームは、コードされたキャラクターストリングの多様性を生成するおよび/または増加するためのツールを提供する。   In one embodiment, an application implementing the method of the present invention is divided into frames. In this paradigm, instead of looking at the application as a collection of features or functions, it is instead helpful to view the application as a collection of distributed frames or views. For example, a typical application typically includes a set of menu items, each of which calls a specific frame--ie, a form that represents a specific function of the application. In this regard, an application is viewed as a collection of applets or a bundle of functions rather than as a monolithic body of code. In this manner, from within the browser, the user selects a web page link and then invokes a specific frame (ie, sub-application) of the application. Thus, for example, one or more frames may provide a function for entering and / or encoding a biological molecule in one or more character strings, while another frame is a code Provides a tool for generating and / or increasing the diversity of generated character strings.

フレームのコレクションとしてアプリケーションを表現することに加えて、アプリケーションはまた、イントラネットおよび/またはインターネット上の位置(アプリケーションを示すURL(Universal Resource Locator)アドレスとして表現される。各URLは、好ましくは、2つの特性を含む:データ形式またはMIME(Multipurpose Internet Mail Extension)形式とともにURLに関するコンテントデータ(すなわち、どんなデータもサーバー上に保存される)。このデータ形式は、ウェブブラウザが、サーバーから受け取るデータをどのように解釈すべきか(例えば、ビットマップイメージのような .gifファイルの解釈)を決定することを可能にする。結局、これは、ブラウザで一旦受入れられたデータの処理の仕方の記述として役割を果たす。バイナリーデータのストリームは、HTML形式として受入れられる場合、ブラウザは、それをHTMLページとして描写する。一方、その代わりに、ビットマップの形式で受入れる場合、ブラウザは、それをビットマップイメージとして描画するなどのようである。   In addition to representing an application as a collection of frames, the application is also represented as a location on the intranet and / or the Internet (a Universal Resource Locator address indicating the application. Each URL preferably has two Includes characteristics: content data about URLs (ie, any data is stored on the server) along with the data format or MIME (Multipurpose Internet Mail Extension) format, which is how the data is received by the web browser from the server Can be determined (eg, interpretation of .gif files such as bitmap images). This serves as a description of how to process the data once accepted by the browser, and if the stream of binary data is accepted as HTML format, the browser renders it as an HTML page, instead. In the case of accepting it in the form of a bitmap, the browser seems to render it as a bitmap image.

Microsoft Windows(登録商標)では、ホストアプリケーションに、あるデータオブジェクト(すなわち、特定の形式のデータ)との関係を登録させる、異なる技術が存在する。ある技術は、アプリケーションについて、あるものについての特定のファイル拡張子との関係(例えば、.doc−−「Microsoft Word書類」)をWindows(登録商標)に登録することであり;これは、Windowアプリケーションによって採用される最もよく用いられる技術である。Microsoft Object Linking and Embedded(OLE)において採用される別のアプローチは、クラスGlobally Unique Identifier、すなわちGUID−−(GUIDを有する書類をホスティングするために)呼び出すための特定のサーバーアプリケーションを示すための16バイト識別子の使用である。このクラスIDは、特定のDLL(Dynamic Link Library)またはアプリケーションサーバーに接続されている特定の機器に登録される。   In Microsoft Windows (registered trademark), there are different technologies that allow a host application to register a relationship with a certain data object (that is, data in a specific format). One technique is to register an application with a particular file extension (eg, .doc-"Microsoft Word document") with Windows (registered trademark); Is the most commonly used technology adopted by. Another approach taken in Microsoft Object Linking and Embedded (OLE) is the class Globally Unique Identifier, i.e., 16 bytes to indicate a specific server application to call (to host a document with a GUID). The use of identifiers. This class ID is registered in a specific device connected to a specific DLL (Dynamic Link Library) or an application server.

特定の目的の1つの実施態様において、ホストアプリケーションを書類と関連づけするための技術は、MIME形式の使用を通じてである。MIMEは、書類オブジェクトをパッケージ化するための規格化された技術を提供する、それは、どのアプリケーションが書類をホスティングするのに適切なかを示すMIMEヘッダを含む。これら書類は、全て、インターネットを通じて転送するのに適するフォーマットで収納される。   In one embodiment for a particular purpose, the technique for associating a host application with a document is through the use of a MIME format. MIME provides a standardized technique for packaging document objects, which includes a MIME header that indicates which application is appropriate for hosting the document. All these documents are stored in a format suitable for transfer over the Internet.

1つの好ましい実施態様において、本発明の方法は、部分的に、本発明の方法の使用に固有のMIME形式の使用を用いて実現される。MIME形式は、書類(例えば、Microsoft ActiveX書類)をローカルで作成するために必要な情報を含むが、さらに、必要ならば、書類の表示を表現するためのプログラムコードを見つけそしてダウンロードするために必要な情報もまた含む。このプログラムコードが既にローカルに存在する場合、それは、ローカルの複製をアップデートする目的でダウンロードされる必要だけがある。これは、書類の表示を表現するためのダウンロード可能なプログラムコードをサポートする情報を含む新しい書類形式を定義する。   In one preferred embodiment, the method of the present invention is implemented, in part, using the MIME format inherent in the use of the method of the present invention. The MIME format contains the information needed to create a document (eg, Microsoft ActiveX document) locally, but is also needed to find and download program code to represent the display of the document, if necessary. It also contains information. If this program code already exists locally, it only needs to be downloaded for the purpose of updating the local replica. This defines a new document format that contains information that supports downloadable program code to represent the display of the document.

MIME形式は、.APPのファイル拡張子と関連し得る。.APP拡張子を有するファイルは、OLE書類であり、これはOLE DocObjectによって実現される。.APPファイルは1つのファイルであるので、それは、HTML HREFを用いてサーバー上に置かれ得そしてリンクされ得る。この.APPファイルは、好ましくは以下のデータの断片を含む:(1)ActiveXオブジェクトのCLDSID、これは、本発明の方法の使用に適切な1つ以上のフォームとして実現されるOLE Document Viewerである;(2)オブジェクトのコードが見出され得るURLのコードベース、および(3)(必要に応じて)必要とされるバージョン番号。一旦、.APP DocObjectハンドラコードがインストールされ、そしてAPP MIME形式を登録すると、それを使用して、ユーザーのウェブブラウザへと.APPファイルをダウンロードし得る。   The MIME format is. May be associated with the APP file extension. . A file with an APP extension is an OLE document, which is realized by OLE DocObject. . Since an APP file is a single file, it can be placed on the server and linked using HTML HREF. this. The APP file preferably includes the following pieces of data: (1) The CLDSID of the ActiveX object, which is an OLE Document Viewer implemented as one or more forms suitable for use with the method of the present invention; 2) the code base of the URL where the code of the object can be found, and (3) the required version number (if needed). Once. Once the APP DocObject handler code is installed and the APP MIME format is registered, it is used to the user's web browser. An APP file can be downloaded.

サーバー側において、.APPファイルは、現実に1つのファイルであるので、ウェブサーバーは、単に要求を受入れ、そしてクライアントにこのファイルを戻す。APPファイルがダウンロードされる場合、.APP DocObjectハンドラは、オペレーティングシステムにこの.APPファイルに固有のオブジェクトに関するコードベースをダウンロードするように要求する。このシステムの機能は、CoGetClassObjectFromURL機能を通じて、Windows(登録商標)において利用可能である。ActiveXオブジェクトのコードベースがダウンロードされた後、この.APP DocObjectハンドラは、ブラウザにそれ自身の表示を、例えば、Explorer書類サイト上のActivateMe方法を呼び出すことによって、作成することを要求する。次いで、Internet Explorerは、DocObjectを呼び出して、表示の証拠として実例を示す(それは、ダウンロードされたコードからのActiveX表示オブジェクト例を作成することによってなされる)。一旦作成されると、ActiveX表示オブジェクトは、Internet Explorerにおいて適所で起動される。Internet Explorerは、適切なフォームを作成し、そしてフォームの子を制御する。   On the server side,. Since the APP file is actually a single file, the web server simply accepts the request and returns this file to the client. When an APP file is downloaded,. The APP DocObject handler sends this. Request to download the code base for objects specific to the APP file. The functions of this system are available in Windows (registered trademark) through the CoGetClassObjectFromURL function. After the code base of the ActiveX object is downloaded, this. The APP DocObject handler requests the browser to create its own display, for example, by calling the ActivateMe method on the Explorer document site. The Internet Explorer then calls DocObject to demonstrate the display as evidence (which is done by creating an ActiveX display object example from the downloaded code). Once created, the ActiveX display object is launched in place in the Internet Explorer. Internet Explorer creates the appropriate form and controls the children of the form.

一旦このフォームが作成されると、それは、それがその機能を実行するために必要である、もとの任意のリモートサーバーオブジェクトへの接続を確立し得る。この点において、ユーザーは、このフォームで対話し得、このフォームは、Internet Explorerフレームに埋め込まれているようである。ユーザーが、違うページに変える場合、ブラウザは、このフォームを最終的に閉じかつ破棄する(ならびに、リモートサーバーに対する任意の未決着の接続も放棄する)責任を想定する。   Once this form is created, it can establish a connection to any original remote server object it needs to perform its function. At this point, the user can interact with this form, which appears to be embedded in the Internet Explorer frame. If the user changes to a different page, the browser assumes responsibility for eventually closing and destroying this form (as well as abandoning any outstanding connections to the remote server).

1つの好ましい実施態様では、エンドユーザーのデスクトップからの、このシステムへのエントリーポイントは、企業ホームページまたは別の特定のウェブサイトのホームページである。このページは、必要に応じて、従来の様式で、多数のリンクを含み得る。ユーザーがアプリケーションページ(例えば、本発明の方法の機能を提供するページ)への特定のリンクをクリックすることに応じて、ウェブブラウザは、サーバー上に常駐するアプリケーションページ(ファイル)に接続する。   In one preferred embodiment, the entry point to the system from the end user's desktop is the corporate home page or the home page of another specific website. This page may include multiple links in a conventional manner, if desired. In response to a user clicking on a particular link to an application page (eg, a page that provides the functionality of the method of the present invention), the web browser connects to an application page (file) that resides on the server.

1つの実施態様では、ユーザーが本発明の方法へのアクセスを要求する場合、このユーザーは、特定のページ形式(例えば、ウェブブラウザにおける(本発明の方法の1つ以上の要素を実行する)アプリケーションの所定の位置での実行のためのアプリケーション(appdoc)ページ)に指向される。各アプリケーションページは、URLを使用して位置づけられるので、他のページは、それへのハイパーリンクを有し得る。複数のアプリケーションページは、アプリケーションページへのハイパーリンクを含むカタログページを作成することによってグループ化され得る。ユーザーが、あるアプリケーションページを示すハイパーリンクを選択する場合、ウェブブラウザは、アプリケーションコードをダウンロードし、そしてブラウザ内でページを実行する。   In one embodiment, when a user requests access to the method of the present invention, the user may use a specific page format (e.g., an application (performing one or more elements of the method of the present invention) in a web browser). Application (appdoc) page) for execution at a predetermined location. Each application page is located using a URL, so other pages may have hyperlinks to it. Multiple application pages can be grouped by creating a catalog page that includes hyperlinks to application pages. When the user selects a hyperlink that points to an application page, the web browser downloads the application code and executes the page within the browser.

ブラウザがアプリケーションページをダウンロードする際に、このブラウザ(定義されたMIME形式に基づく)は、ある形式の書類に関するハンドラである、ローカルハンドラを呼び出す。すなわち、詳細には、アプリケーションページは、好ましくはGlobally Unique Idetifier(GUID)および書類をホスティングするために呼び出すリモート(ダウンロード可能な)アプリケーションを識別するためのコードベースURLを含む。アプリケーションページと共に届く書類オブジェクトおよびGUIDが与えられれば、ローカルハンドラは、ホスティングアプリケーションが既にローカルに常駐しているかどうかを(例えば、Windows(登録商標) 95/NTレジストリを検査することによって)確かめるためにクライアント機器を見る。この点で、ローカルハンドラは、(あれば)ローカルコピーを呼び出すことを選択し得るか、またはホストアプリケーションの最新バージョンをダウンロードし得る。   When a browser downloads an application page, this browser (based on the defined MIME format) calls a local handler, which is a handler for a certain type of document. That is, in particular, the application page preferably includes a Globally Unique Identifier (GUID) and a code base URL for identifying the remote (downloadable) application to call to host the document. Given a document object and GUID that arrives with the application page, the local handler can check to see if the hosting application is already resident locally (eg, by examining the Windows 95 / NT registry). View client devices. At this point, the local handler may choose to call the local copy (if any) or download the latest version of the host application.

異なるモデルのダウンロードコードは、市販されている。コードがダウンロードされる場合、「コードベース」仕様(ファイル)は、最初にサーバーから要求される。このコードベース自体は、簡易DLLファイルから複数の圧縮ファイルを含むCabinetファイル(Microsoft .cabファイル)に及び得る。なおさらに、情報(例えば、Microsoft .inf)ファイルは、ダウンロードされるアプリケーションをインストールする方法をクライアントシステムに指示するために採用され得る。これらの機構は、どのアプリケーションの構成要素が、ダウンロードされるか、そして何時ダウンロードされるかを選択することにおいて、卓越した柔軟性を与える。   Download codes for different models are commercially available. When code is downloaded, a “code base” specification (file) is first requested from the server. The code base itself can range from a simple DLL file to a Cabinet file (Microsoft .cab file) containing multiple compressed files. Still further, an information (eg, Microsoft .inf) file may be employed to instruct the client system how to install the downloaded application. These mechanisms provide great flexibility in choosing which application components are downloaded and when.

好ましい実施態様について、プログラムコードを実際にダウンロードするために採用される機構そのものが、標準的Microsof ActiveX API(Application Programing Interface)−コールに依存する。ActiveX APIは、ウェブで配布されるアプリケーションに関するネイティブサポートを提供しないが、そのAPIは、プログラムコードの正確なバージョンを位置付け、ローカル機器へそれをコピーし、その整合性を検証し、そしてそれをクライアントオペレーティングシステムに登録するために呼び出され得る。一旦、このコードがダウンロードされると、ハンドラが、書類オブジェクトを表現するために(レジストリが既にインストールされた場合、このレジストリを通じてホスティングアプリケーションを呼び出すのに類似した様式で)今存在するアプリケーションホストを呼び出すことを実行し得る。   For the preferred embodiment, the mechanism employed to actually download the program code relies on a standard Microsoft ActiveX API (Application Programming Interface) -call. The ActiveX API does not provide native support for web-distributed applications, but the API locates the exact version of the program code, copies it to the local device, verifies its integrity, and passes it to the client Can be called to register with the operating system. Once this code is downloaded, the handler calls the application host that currently exists to represent the document object (in a manner similar to calling the hosting application through the registry if the registry is already installed). Can do that.

ホスティングアプリケーション(OLEサーバー)が、クライアントでロードされる以上は、このクライアントシステムは、ブラウザ内でアプリケーションを正しく表現するためにOLEドキュメントビューアーキテクチャを採用し得る。これは、ブラウザのメニューにアプリケーションのメニューを加えるために、および(シングルActiveXコントロールレクタングル(control rectangle)−−既述した制限内で実行するのにアプリケーションを要求することとは対照的に)ブラウザのサイズを変える際にアプリケーションのサイズを正しく変えるために、従来のOLE方法論を用いることを含む。一旦、アプリケーションがクライアントで実行されると、それは例えば、RPC(Remote Procedure Call)方法論を使用してリモートロジックを実行し得る。この様式において、リモートプロシージャーとして好適に実現されるロジックも、さらに使用され得る。   As long as the hosting application (OLE server) is loaded at the client, the client system may employ an OLE document view architecture to correctly represent the application within the browser. This is done to add the application's menu to the browser's menu and (as opposed to requiring the application to run within the single ActiveX control rectangle--restricted stated). It involves using traditional OLE methodologies to correctly change the size of the application when changing the size. Once the application is executed on the client, it may execute remote logic using, for example, an RPC (Remote Procedure Call) methodology. In this manner, logic suitably implemented as a remote procedure can also be used.

特定の好ましい実施態様では、本発明の方法は、以下の機能を提供する1つ以上のフレームとして実行される。2つ以上の生物学的分子を、キャラクターストリング中にコードして、2つ以上の異なる初期キャラクターストリングのコレクションを提供する機能(ここで、各々の上記生物学的分子は、少なくとも約10のサブユニットを含む);キャラクターストリングから少なくとも2つのサブストリングを選択する機能;サブストリングを結び付けて、1つ以上の初期キャラクターストリングとほぼ同じ長さの1つ以上の産物ストリングを形成する機能;およびストリングのコレクションへ産物ストリングを加える(配置する)機能。   In certain preferred embodiments, the method of the present invention is implemented as one or more frames that provide the following functionality. The ability to encode two or more biological molecules into a character string to provide a collection of two or more different initial character strings, wherein each of the biological molecules has at least about 10 sub-strings The ability to select at least two substrings from the character string; the ability to combine the substrings to form one or more product strings of approximately the same length as the one or more initial character strings; and the strings Ability to add (place) product strings to any collection.

2つ以上の生物学的分子をコードする機能は、好ましくは、1つ以上のウィンドウを提供する。ここで、ユーザーは、生物学的分子の表示を挿入し得る。さらに、コーディング機能はまた、必要に応じて、ローカルネットワークならびに/または、インターネットを通じてアクセス可能な個人のデータベースおよび/もしくは公的なデータベースへのアクセスを提供し、それによって、データベース中に含まれる1つ以上の配列が、本発明の方法へと入力され得る。従って、例えば、1つの実施態様において、エンドユーザーが核酸配列をコーディング機能中に入力する場合、ユーザーは、必要に応じて、GenBankの検索を要求し、そしてこのような検索によって戻ってきた、1つ以上の配列をコーディング機能および/または多様性生成機能に入力する能力を有し得る。   The ability to encode more than one biological molecule preferably provides more than one window. Here, the user can insert an indication of the biological molecule. In addition, the coding function also provides access to a personal database and / or public database accessible through the local network and / or the Internet, if desired, so that one included in the database. The above sequences can be input into the method of the present invention. Thus, for example, in one embodiment, when an end user enters a nucleic acid sequence into a coding function, the user requested a GenBank search, if necessary, and returned by such a search. It may have the ability to input more than one sequence into the coding function and / or diversity generation function.

コンピュータープロセスならびに/またはデータアクセスプロセスのインターネットおよび/もしくはイントラネットの実施態様を実現する方法は、当業者に周知であり、そして極めて詳細に記録されている(例えば、Cluerら、(1992) A General Framework for the Optimization of Object−Oriented Queries, Proc SIGMOD International Conference on Management of Data,San Diego,California,1992年6月2〜5日,SIGMOD Record,第21巻、1992年6月2日発行;Stonebraker,M.編;ACM Press,383−392頁;ISO−ANSI,Working Draft,「Information Technology−Database Language SQL」,Jim Melton編,Intenational Organization for Standardization and American National Standards Institute,1992年7月;Microsoft Corporation,「ODBC 2.0 Programmer’s Reference and SDK Guide.The Microsoft Open Database Standard for Microsoft Windows.TM. and Windows NT.TM.,Microsoft Open Database Connectivity.TM. Software Development Kit」,1992,1993,1994 Microsoft Press,3−30頁および41−56頁;ISO Working Draft,「Database Language SQL−Part 2:Foundation(SQL/Foundation)」,CD9075−2:199.chi.SQL,1997年9月11日など、を参照のこと)。   Methods for realizing Internet and / or intranet implementations of computer processes and / or data access processes are well known to those skilled in the art and are recorded in great detail (eg, Cluer et al. (1992) A General Framework). For the Optimization of Object-Oriented Queries, Proc SIGMOD International Conference on Management of Data, San Diego, California, June 2-5, S19 Ed; ACM Press, pages 383-392; I SO-ANSI, Working Draft, "Information Technology-Database Language SQL", Jim Melton ed., Intenational Organization for Standardization and American National Standards Institute, 1992 July; Microsoft Corporation, "ODBC 2.0 Programmer's Reference and SDK Guide The Microsoft Open Database Standard for Microsoft Windows.TM. And Windows NT.TM, Microsoft Open D. The Microsoft Open Database Standard for Microsoft Windows.TM. database Connection Technology.TM. Software Development Kit ", 1992, 1993, 1994 Microsoft Press, pages 3-30 and 41-56; ISO Working Draft," Data Base Language QSd2: 90QLQF 2D: 75% 2: 199.chi.SQL, September 11, 1997, etc.).

当業者は、多くの改善が、本発明の範囲から逸脱することなく、本構成に対してなされ得ることを認識する。例えば、2段構成において、WWWゲートウェイの機能を実行するサーバーシステムはまた、ウェブサーバーの機能も実行し得る。例えば、上記の実施態様のいずれか1つは、URL以外の形式であるユーザー(単数/複数)末端からの要求を認めるように変更され得る。なお別の変更は、複数のマネージャー環境への適応を含む。   Those skilled in the art will recognize that many improvements can be made to this configuration without departing from the scope of the present invention. For example, in a two-stage configuration, a server system that performs the function of a WWW gateway may also perform the function of a web server. For example, any one of the above embodiments may be modified to accept requests from the user (s) end that are in a format other than URL. Yet another change involves adapting to multiple manager environments.

(X.物理的評価およびフィードバックループの組み込み)
上記のように、特定の好ましい実施態様において、選択基準は、結び付けられたストリングにより提示される分子が、特定の経験的な物理的にアッセイされた特性を満たすことが必要であり得る。これらの特性をアッセイするために、コードされた分子を得る必要がある。このことを達成するために、結び付けられたストリングにより提示される分子は、物理的に合成される(例えば、化学的にもしくは組換え法により)か、または単離される。
(X. Physical evaluation and feedback loop integration)
As noted above, in certain preferred embodiments, the selection criteria may require that the molecules presented by the associated string meet certain empirical physical assayed properties. In order to assay these properties, it is necessary to obtain the encoded molecule. To accomplish this, the molecule presented by the linked string is physically synthesized (eg, chemically or by recombinant methods) or isolated.

本発明に従って生成されたキャラクターストリングの収集物によりコードされる遺伝子、タンパク質、ポリサッカライドの物理的合成は、1つ以上の所望の特性についての物理的アッセイに敏感に反応する物理的提示物を作製するための主な手段である。   The physical synthesis of genes, proteins, and polysaccharides encoded by a collection of character strings generated in accordance with the present invention creates a physical presentation that is sensitive to physical assays for one or more desired properties. Is the main means to do.

好ましい実施態様において、遺伝子合成技術は、代表的には、一致した様式で、および本発明の方法により生成される結び付けられたストリングの収集物に提供される配列提示に対する忠実な厳守において、ライブラリーを構築するために使用される。   In a preferred embodiment, gene synthesis techniques typically involve libraries in a consistent manner and in strict adherence to sequence presentation provided in a collection of linked strings produced by the methods of the invention. Used to build.

好ましい遺伝子合成方法は、104〜109遺伝子/タンパク質変化のライブラリーの迅速な構築を可能にする。これは、代表的には、物理的アッセイまたは選択方法により完全にサンプリングされるのと同程度に、より大きなライブラリーを作製および維持することがより困難であり、かつときおり作製および維持され得ないので、スクリーニング/選択プロトコルに適切である。例えば、当該分野における既存の物理的アッセイ方法(例えば、「生死(life and death)」選択法を含む)は、一般に、特定のライブラリーの特定のスクリーニングにより約109の変化以下のサンプリングを可能にし、そして多くのアッセイは約104〜105のメンバーのサンプリングに制限されている。従って、いくつかのより小さなライブラリーを構築することは、好ましい方法である。なぜなら、大きなライブラリーは、完全にサンプリングすることは容易にはできないからである。しかし、より大きなライブラリーは、例えば、ハイスループット方法を用いて、やはり作製およびサンプリングされる。 Preferred gene synthesis methods allow the rapid construction of a library of 10 4 to 10 9 gene / protein changes. This is typically more difficult to create and maintain, and sometimes cannot be created and maintained, as is fully sampled by physical assays or selection methods. So it is suitable for screening / selection protocols. For example, existing physical assay methods in the art (eg, including “life and death” selection methods) generally allow sampling less than about 10 9 changes by specific screening of specific libraries. And many assays are limited to sampling about 10 4 to 10 5 members. Therefore, building several smaller libraries is the preferred method. This is because a large library cannot be easily sampled completely. However, larger libraries are still created and sampled using, for example, high throughput methods.

十分に規定された配列を用いて遺伝子、ポリサッカライド、タンパク質などを合成するために使用され得る多くの方法が存在し、そしてこの分野は、急激に発展している。単に、例を明示する目的で、この議論は、生物学的分子の生成について公知の方法の多くの可能性のあるかつ利用可能な型のうちの1つに焦点を当てている。   There are many methods that can be used to synthesize genes, polysaccharides, proteins, etc. using well-defined sequences, and the field is developing rapidly. For discussion purposes only, this discussion focuses on one of the many possible and available types of known methods for the production of biological molecules.

ポリヌクレオチド合成における現在の技術は、当業者がオリゴヌクレオチドを効率的に調製することを可能にする、周知かつ成熟したホスホルアミダイト化学により最もよく表れている。100bpより有意に長いオリゴヌクレオチドの慣用的合成についてこの化学を使用することは可能であるが、いくらか実際的ではない。そして合成収量は減少し、必要とされる生成の程度は増大する。「代表的な」40〜80bpサイズのオリゴヌクレオチドは、非常に高純度で慣用的かつ直接的に獲得され得る。   Current techniques in polynucleotide synthesis are best illustrated by well-known and mature phosphoramidite chemistry, which allows one skilled in the art to efficiently prepare oligonucleotides. Although it is possible to use this chemistry for conventional synthesis of oligonucleotides significantly longer than 100 bp, it is somewhat impractical. And the synthetic yield decreases and the degree of production required increases. “Representative” 40-80 bp size oligonucleotides can be obtained routinely and directly in very high purity.

オリゴヌクレオチドおよびなお完全な合成(二本鎖または一本鎖)遺伝子を、多くの市販の供給源(例えば、The Midland Certified Reagent Company(mcrc@oligos.com)、The Great American Gene Company(http://www.genco.com)、ExpressGen,Inc.(www.expressgen.com)、Operon Technologies Inc.(alameda,CA)などの多くの商用の供給源のいずれかから注文し得る。同様に、ペプチドを、PeptidoGenic(pkim@ccnet.com)、HTI Bio−pro=duct,Inc.(http://www.htibio.com)、BMA Biomedicals,Ltd.(U.K.Bio−Synthesis,Inc.などのような種々の供給元のいずれかから特注し得る。   Oligonucleotides and still complete synthetic (double or single stranded) genes are available from a number of commercial sources (eg, The Midland Certified Reagent Company (mcrc@oligos.com), The Great American Gene Company (http: / /Www.genco.com), ExpressGen, Inc. (www.expressgen.com), Operon Technologies Inc. (alameda, Calif.) Similarly, peptides can be ordered. PeptidoGenic (pkim@ccnet.com), HTI Bio-pro = duc, Inc. (http://www.htbio.com) ), BMA Biomedicals, Ltd. (UK Bio-Synthesis, Inc., etc.).

最適化、並行、およびハイスループットに容易に敏感に反応しやすい小さなフラグメントからの全遺伝子合成の関連する実証は、DillonおよびRosen(1990)Biotechniques,(9)3:298−300に記載される。リガーゼを使用することなく部分的に重複する一本鎖オリゴヌクレオチドのセットからの、単純かつ迅速なPCRベースの遺伝子アセンブリプロセスが記載される。いくつかのグループはまた、漸増するサイズの種々の遺伝子の合成に対して、同じPCRベースの遺伝子アセンブリアプローチのバリエーションが首尾よく適用され、従って、この方法の変異した遺伝子のライブラリー合成についての一般的適用性およびコンビナトリアルな性質を実証したことを記載した(有用な参考文献に関しては、Sandhuら(1992)Biotechniques,12(1):15−16、ProdomouおよびPearl(1992)Protein Engin.,5(8):827−829、Chenら(1994)JACS、1994(11):8799−8800、Hayashiら(1994)Biotechniques,17:310−314などもまた参照のこと)。   A related demonstration of total gene synthesis from small fragments that are easily sensitive to optimization, parallelism, and high throughput is described in Dillon and Rosen (1990) Biotechniques, (9) 3: 298-300. A simple and rapid PCR-based gene assembly process from a set of partially overlapping single-stranded oligonucleotides without using ligase is described. Some groups have also successfully applied variations of the same PCR-based gene assembly approach to the synthesis of increasing sizes of various genes, and thus the general approach to library synthesis of mutated genes in this method. (For useful references, see Sandhu et al. (1992) Biotechniques, 12 (1): 15-16, Prodomou and Pearl (1992) Protein Engin., 5 ( 8): 827-829, Chen et al. (1994) JACS, 1994 (11): 8799-8800, Hayashi et al. (1994) Biotechniques, 17: 310-314, etc.).

より最近では、Stemmerら(1995)Gene 1645:49−53は、PCRベースのアセンブリ方法が、数十または数百さえもの合成40bpオリゴヌクレオチドから、少なくとも2.7kbまでのより大きな遺伝子を構築するために有用であるという証拠を提供した。これらの著者らはまた、「循環」アセンブリPCRが使用される場合、公知のPCRベースの遺伝子合成プロトコル(オリゴヌクレオチド合成、遺伝子アセンブリ、遺伝子増幅、および代表的には、クローニング)を包含する4つの工程から、遺伝子増幅工程が省略され得ることを実証した。   More recently, Stemmer et al. (1995) Gene 1645: 49-53 has shown that PCR-based assembly methods construct larger genes up to at least 2.7 kb from dozens or even hundreds of synthetic 40 bp oligonucleotides. Provided evidence that it is useful. These authors also include four known PCR-based gene synthesis protocols (oligonucleotide synthesis, gene assembly, gene amplification, and typically cloning) when “circular” assembly PCR is used. From the process, it was demonstrated that the gene amplification process can be omitted.

一旦調製されると、当業者に周知の慣用的方法に従って遺伝子をベクターに挿入し得、そしてこのベクターを使用して、宿主細胞をトランスフェクトし得、そしてコードされたタンパク質を発現し得る。これらの目的を達成するためのクローニング方法論、および核酸の配列を確認するための配列決定方法は、当該分野で周知である。適切なクローニングおよび配列決定技術、ならびに多くのクローニングの実施を通して当業者を指導するに十分な指示は、BergerおよびKimmel、Guide to Molecular Cloning Techniques,Methods in Enzymology、第152巻、Academic Press,Inc.、San Diego(Berger);Sambrookら(1989)Molecular Cloning_A Laboratory Manual(第2版)第1〜3巻、Cold Spring Harbor Laboratory,Cold Spring Harbor Press,NY;およびCurrent Protocols in Molecular Biology、F.M.Ausubelら編、Current Protocols、Greene Publishing Associates,Inc.とJohn Wiley&Sons,Inc.との合弁事業(1994、増補)に見出される。生物学的試薬および実験装置の製造業者からの製品情報はまた、公知の生物学的方法において有用な情報を提供する。このような製造業者らとしては、SIGMA Chemical company(Saint Louis,MO)、R&D systems(Minneapolis,MN)Pharmacia LKB Biotechnology(Piscataway,NJ)、CLONTECH Laboratories,Inc.(Palo Alto,CA)、Chem Genes Corp.,Aldrich Chemical Company(Milwaukee,WI)、Glen Research,Inc.、GIBCO BRL Life Technologies,Inc.(Gaithersberg,MD)、Fluka Chemica BioChemica Analytika(Fluka Chemie AG,Buchs,Switzerland)、Invitrogen,San Diego,CAおよびApplied Biosystems(Foster City,CA)、ならびに当業者に公知の多くの他の商業的供給元が挙げられる。   Once prepared, the gene can be inserted into a vector according to conventional methods well known to those skilled in the art, and the vector can be used to transfect host cells and express the encoded protein. Cloning methodologies to achieve these objectives and sequencing methods to confirm nucleic acid sequences are well known in the art. Suitable cloning and sequencing techniques, as well as instructions sufficient to guide one of ordinary skill in the art through many cloning practices, can be found in Berger and Kimmel, Guide to Molecular Cloning Technologies, Methods in Enzymology, Vol. 152, Academic Press, Inc. , San Diego (Berger); Sambrook et al. (1989) Molecular Cloning_A Laboratory Manual (2nd edition), Vol. 1-3, Spring Spring Harbor Laboratory, Cold Spring Harbor, Cold Spring Harbor and Cold Spring Harbor, Cold Spring Harbor and Cold Spring Harbor. M.M. Edited by Ausubel et al., Current Protocols, Greene Publishing Associates, Inc. And John Wiley & Sons, Inc. Found in the joint venture (1994, augmented). Product information from manufacturers of biological reagents and laboratory equipment also provides useful information in known biological methods. Such manufacturers include SIGMA Chemical company (Saint Louis, MO), R & D systems (Minneapolis, MN) Pharmacia LKB Biotechnology (Piscataway, NJ), CLONTECH Laboratories. (Palo Alto, CA), Chem Genes Corp. , Aldrich Chemical Company (Milwaukee, WI), Glen Research, Inc. , GIBCO BRL Life Technologies, Inc. (Gaithersberg, MD), Fluka Chemia BioChemical Analyka (Fluka Chemie AG, Buchs, Switzerland), Invitrogen, San Diego, CA and Applied Biosystems Is mentioned.

物理的分子は、一旦発現されると、1つ以上の特性についてスクリーニングされ得、そしてこの分子は、それらが選択基準を満たすか否かを決定され得る。次いで、物理的選択基準を満たす分子をコードするキャラクターストリングは、上記のとおりに選択される。物理的特性(例えば、結合特異性および/またはアビディティー、酵素活性、分子量、電荷、熱安定性、至適温度、至適pHなど)についての多くのアッセイは、当業者に周知である。   Physical molecules, once expressed, can be screened for one or more properties, and the molecules can be determined whether they meet the selection criteria. A character string encoding a molecule that meets the physical selection criteria is then selected as described above. Many assays for physical properties (eg, binding specificity and / or avidity, enzyme activity, molecular weight, charge, thermal stability, optimal temperature, optimal pH, etc.) are well known to those skilled in the art.

特定の実施態様において、物理的分子は、1回以上の「シャッフリング」手順に供され得、そして必要に応じて、特定の物理的特性についてスクリーニングされて、新たな分子を生成する。次いで、この新たな分子は、上記の方法に従ってコードされ、そして処理される。   In certain embodiments, physical molecules can be subjected to one or more “shuffling” procedures and optionally screened for specific physical properties to generate new molecules. This new molecule is then encoded and processed according to the method described above.

種々の「シャッフリング方法」が公知である。これらの方法としては、本発明者らおよび共同研究者ら(例えば、Stemmer(1994)Nature 370:389−391、Stemmerら(1994)、Proc.Natl.Acad.Sci.USA 91:10747−10751、Stemmer、米国特許第5,603,793号、Stemmerら、米国特許第5,830,721号、Stemmerら、米国特許第5,811,238号、Minshullら、米国特許第5,837,458号、Crameriら(1996)Nature Med.2(1)100−103、PCT公開WO95/22625、WO97/20078、WO96/33207、WO97/33957、WO98/27230、WO97/35966、WO98/31837、WO98/13487、WO98/13485、およびWO98/42832)に教示される方法が挙げられる。さらに、いくつかの同時係属中の出願は、重要なDNAシャッフリング方法論を記載する(例えば、同時係属中の米国特許出願第09/116,118号(1998年7月15日出願)、同第60/102,362号、およびSelifonovおよびStemmerのMethods for making character strings,polynucleotides&polypeptide having desired characteristics(02/05/1999出願)、米国特許出願第60/118,854号を参照のこと)。   Various “shuffling methods” are known. These methods include the inventors and co-workers (eg, Stemmer (1994) Nature 370: 389-391, Stemmer et al. (1994), Proc. Natl. Acad. Sci. USA 91: 10747-10551, Stemmer, US Pat. No. 5,603,793, Stemmer et al., US Pat. No. 5,830,721, Stemmer et al., US Pat. No. 5,811,238, Minshull et al., US Pat. No. 5,837,458 Crameri et al. (1996) Nature Med. 2 (1) 100-103, PCT publications WO95 / 22625, WO97 / 20078, WO96 / 33207, WO97 / 33957, WO98 / 27230, WO97 / 35966, WO98 / 31837, O98 / 13487, WO98 / 13485, and WO98 / 42832) the methods taught are mentioned. In addition, several co-pending applications describe important DNA shuffling methodologies (eg, co-pending US patent application Ser. No. 09 / 116,118 (filed Jul. 15, 1998), 60 / 102,362, and Selifonov and Stemmer's Methods for making character strings, polynucleotides & polypeptides having desirable characteristics (US patent application, No. 60 / No. 60 / No.

さらに、上記の方法はまた、並行様式で実施され得、ここで引き続く物理的スクリーニングのための個々のライブラリーのメンバーの各々(複数の遺伝子、タンパク質、ポリサッカライドなどを含む)は、空間的に分離された容器または容器のアレイにおいて合成されるか、またはプール様式で合成される。プール様式では、所望の複数の分子の全てまたは一部が、単一の容器において合成される。多くの他の合成アプローチは公知であり、そして他方に対する一方の特定の利点は、当業者に容易に決定され得る。   Furthermore, the above method can also be performed in a parallel fashion, where each individual library member (including multiple genes, proteins, polysaccharides, etc.) for subsequent physical screening is spatially Synthesized in separate containers or arrays of containers or synthesized in a pooled fashion. In the pool mode, all or part of the desired plurality of molecules is synthesized in a single container. Many other synthetic approaches are known and one particular advantage over the other can be readily determined by one skilled in the art.

本明細書中で議論されるプロセスは、ハイスループットシステムを使用する生成に対して敏感に反応する。ハイスループット(例えば、ロボット利用)システムは、市販されている(例えば、Zymark Corp.,Hopkinton,MA;Air Technical Industries,Mentor,OH;Beckman Instruments,Inc.Fullerton,CA;Precision Systems,Inc.,Natick,MAなどを参照のこと)。これらのシステムは、代表的には、全てのサンプルおよび試薬のピペッティング、液体分配、時間設定された(timed)インキュベーション、およびアッセイに適切な検出器でのマイクロプレートの最終的な読みとりを含む全体的な手順を自動化する。これらの設定可能なシステムは、ハイスループットおよび迅速な起動ならびに高い程度の融通性およびカスタマイズを提供する。このようなシステムの製造は、詳細なプロトコルに種々のハイスループットを提供する。従って、例えば、Zymark Corp.は、クローニング発現および化学的または組換え的に生成された産物のスクリーニングについてのハイスループットシステムの使用を記載する技術会報を提供する。   The processes discussed herein are sensitive to production using high throughput systems. High-throughput (eg, robotic) systems are commercially available (eg, Zymark Corp., Hopkinton, Mass .; Air Technical Industries, Mentor, Ohio; Beckman Instruments, Inc. Fullerton, Calif .; Precition Systems, Inc.). , MA, etc.). These systems typically include pipetting all samples and reagents, liquid dispensing, timed incubation, and final reading of the microplate with a detector appropriate for the assay. Automate the process. These configurable systems provide high throughput and quick start-up as well as a high degree of flexibility and customization. The manufacture of such a system provides various high throughputs for detailed protocols. Thus, for example, Zymark Corp. Provides a technical bulletin describing the use of high-throughput systems for cloning expression and screening of chemically or recombinantly produced products.

(XI.生成されたストリング集団の使用)
(A).遺伝的/進化アルゴリズムの使用)
1つの実施態様において、本発明の方法は、キャラクターストリングの集団を提供する。特に好ましいキャラクターストリングは、コードされた生物学的分子を提示し、そして代表的には、このコードされた分子は、互いが生物学的組織化のレベルを反映するいくらかの関係を有する。結果的に、本発明の方法により生成されたこのキャラクターストリングは、均質な配列空間からの、ランダムなまたは無計画な選択を反映しないが、むしろ、組織化(例えば、遺伝子、遺伝子ファミリー、個体、亜集団など)の特定のレベルが自然界で見出されることを反映する関連性(または変化)の程度を捕捉する。従って、本発明の方法により生成されたキャラクターストリングの収集物(例えば、構成された(populated)データ構造)は、種々の進化モデルについての有用な開始点を提供し、そして進化アルゴリズム(進化計算)における使用のために便利である。
(XI. Use of generated string population)
(A). Use of genetic / evolutionary algorithms)
In one embodiment, the method of the present invention provides a collection of character strings. Particularly preferred character strings present encoded biological molecules, and typically the encoded molecules have some relationship with each other that reflects the level of biological organization. As a result, this character string generated by the method of the present invention does not reflect a random or unplanned selection from a homogeneous sequence space, but rather is organized (eg, gene, gene family, individual, Capture the degree of relevance (or change) that reflects that a particular level of subpopulation (such as a subpopulation) is found in nature. Thus, the collection of character strings (eg, populated data structures) generated by the method of the present invention provides a useful starting point for various evolution models and evolution algorithms (evolution calculations) Convenient for use in.

このようなモデルにおいて使用された場合、本発明の方法により生成されたこの集団(キャラクターストリングの収集物)は、任意の集団に対する進化的アルゴリズムの実行よりはるかに多くの情報を提供する。   When used in such a model, this population (a collection of character strings) generated by the method of the present invention provides much more information than performing an evolutionary algorithm on an arbitrary population.

例えば、進化的アルゴリズムが開始点として利用される場合、ランダムまたは任意のメンバーのセット、シミュレーションの動力学は、任意の開始点から特定の溶液までの前進を反映する(例えば、得られる集団における特性の分配)。開始点は任意であり、そして本質的に天然のプロセスにより生成された集団と関連しないので、これらの動力学は、天然のプロセス/集団の動力学に関する情報を提供しない。   For example, if an evolutionary algorithm is used as a starting point, a random or arbitrary set of members, the dynamics of the simulation will reflect progress from any starting point to a particular solution (eg, characteristics in the resulting population Distribution). These dynamics do not provide information about the dynamics of the natural process / population, since the starting point is arbitrary and is not inherently associated with the population generated by the natural process.

対照的に、本発明の方法により生成されるキャラクターストリングの収集物は、従来の進化アルゴリズムにおいて使用される開始点をランダムに生成するより、はるかに多くの情報を含む。第1に、集団の各メンバーは、分子構造に関するかなりの情報を含む。従って、1つのメンバーが、単に「自己/非自己」としてではなく別のメンバーから区別されるが、むしろメンバーは、関連性/類似性の程度により区別される。本発明の方法により生成された集団のメンバーは、変化する共変動の程度を反映する。   In contrast, the collection of character strings generated by the method of the present invention contains much more information than randomly generating the starting point used in conventional evolutionary algorithms. First, each member of the population contains considerable information about the molecular structure. Thus, one member is distinguished from another member rather than simply “self / non-self”, but rather members are distinguished by the degree of relevance / similarity. The members of the population generated by the method of the present invention reflect the varying degree of covariation.

さらに、本発明の方法により生成される集団は、初期ストリングにコードされる生物学的組織化のレベルの微細な構造特徴を反映するので、シミュレーションの初期動力学は、これらのストリングセットを使用して実行されるシミュレーションの初期動力学は、「実世界」集団の動力学を反映し、そして進化プロセスへかなりの洞察を提供する。   Furthermore, since the population generated by the method of the present invention reflects the fine structural features of the level of biological organization encoded in the initial string, the initial dynamics of the simulation use these string sets. The initial dynamics of the simulation carried out in time reflect the dynamics of the “real world” population and provide considerable insight into the evolutionary process.

さらに特定の分子が、本発明の方法を使用して生成されるメンバーにより提示されるので、これらのデータ構造を使用して実行された進化アルゴリズムは、分子進化および/または新たなかつ有用な分子実体の設計に関する実際の情報を提供する。   Since more specific molecules are presented by members generated using the methods of the present invention, evolution algorithms implemented using these data structures are useful for molecular evolution and / or new and useful molecular entities. Provides actual information on the design of

(B)指標生成における使用)
別の実施態様において、本発明の方法により生成されるデータ構造は、本質的に任意の種類の情報を指標化するためのタグ(指標)として使用され得る。このアプローチにおいて、より大きな類似性の情報は、より大きな類似性を有するデータ構造(キャラクターストリング)のメンバーを使用してタグ化される。その一方で、より低い類似性の情報は、より低い類似性を有するデータ構造のメンバーでタグ化される。好ましい実施態様において、データの2つの異なる断片をタグ化するために使用されるキャラクターストリングの類似性は、タグ化された情報の類似性を反映する(タグ化された情報の類似性と比例する)。
(B) Use in index generation)
In another embodiment, the data structure generated by the method of the present invention can be used as a tag (indicator) to index essentially any kind of information. In this approach, greater similarity information is tagged using members of a data structure (character string) with greater similarity. On the other hand, lower similarity information is tagged with members of the data structure with lower similarity. In a preferred embodiment, the similarity of the character strings used to tag two different pieces of data reflects the similarity of the tagged information (proportional to the similarity of the tagged information) ).

検索が行われる場合、最初のヒットが伝統的な検索技術を用いて同定される。次いで、密接に関連した情報が所望であれば、このデータ構造は、上記の周知の類似性アルゴリズムのいずれかを使用して類似するメンバーについて検索され得る。これらの類似性アルゴリズムは、多くのデータ領域(data space)の完全、迅速、かつ有効な検索を提供するように設計される。所望の類似性のメンバー(指標)が同定されると、それらは、タグ化されたデータに注意を向けさせ、それによりエンドユーザーに関連する情報を提供する。   When a search is performed, the first hit is identified using traditional search techniques. The data structure can then be searched for similar members using any of the well-known similarity algorithms described above if closely related information is desired. These similarity algorithms are designed to provide a complete, fast, and effective search of many data spaces. Once the desired similarity members (indicators) are identified, they draw attention to the tagged data, thereby providing information relevant to the end user.

(C)データベース検索における参考対象物としての使用)
関連出願では、本発明の方法により生成されるこのデータ構造、またはこのようなデータ構造のメンバー(すなわち、キャラクターストリング)は、データベース検索において参照対象物として使用され得る。例えば、初期の公知の情報(例えば、分子構造、または上記の知識データベース(knowledge database)からの指標ストリング)は、本明細書中に記載の方法に従ってコードされ、そして改変される。これは、関連するが、明らかではない、初期のコードされた情報の改変を捕捉する新たなデータ構造を生成する。
(C) Use as a reference object in database search)
In related applications, this data structure generated by the method of the present invention, or a member of such a data structure (ie, a character string) can be used as a reference object in a database search. For example, the initial known information (eg, molecular structure, or index string from the above knowledge database) is encoded and modified according to the methods described herein. This creates a new data structure that captures the relevant but not obvious modification of the initial coded information.

得られる情報(例えば、データ構造のメンバー)を解析して、実際の分子または理論的分子を同定し、そしてこれは同じかまたは関連する分子についての代表的なデータベースを検索するために使用され得る。コードされた情報がデータベース指標に由来する場合、このデータ構造のメンバーを使用して、本来のデータベースまたは新たなデータベースをプローブし、関連する/関連した情報を同定し得る。   Analyzing the resulting information (eg, members of a data structure) to identify actual or theoretical molecules, which can be used to search a representative database for the same or related molecules . If the coded information comes from a database index, members of this data structure can be used to probe the original database or a new database to identify relevant / related information.

(D)特定の分子特性を付与する構造モチーフの同定)
例えば、機能的操作を容易にするために、特定の特性を担い得る分子(例えば、タンパク質)の領域を同定することは、しばしば、興味深い。これは、通常X線結晶学により得られる構造情報を使用して、伝統的に行われる。
(D) Identification of structural motifs that confer specific molecular properties)
For example, to facilitate functional manipulation, it is often interesting to identify regions of a molecule (eg, a protein) that can assume a particular property. This is traditionally done using structural information usually obtained by X-ray crystallography.

類似のまたはなお同一の反応を触媒する天然に存在する酵素の配列は、広範に変化し得;配列は、わずか50%以下で同一であり得るが、このような酵素のファミリーは、1つの同一の反応を触媒し得、これらの酵素の他の特性は有意に異なり得る。これらの特性としては、例えば、温度および有機溶媒に対する安定性、至適pH、可溶性、固定化された場合に活性を保持する能力、異なる宿主系での発現の容易さの物理的特性が挙げられる。それらはまた、活性(KcatおよびKm)、受容される基質の範囲、および行われる化学的な事象(even of chemistries)を含む触媒特性が挙げられる。本明細書中で記載される方法は、非触媒性タンパク質(例えば、サイトカインのようなリガンド)および核酸配列(例えば、多くの異なるリガンドにより誘導可能であり得るプロモーター)さえにも適用され得る。複数の機能的重要性(dimensions)が「相同な」配列のファミリーによりコードされる。 The sequence of naturally occurring enzymes that catalyze similar or still identical reactions can vary widely; the sequences can be identical by no more than 50%, but a family of such enzymes is one identical And other properties of these enzymes can be significantly different. These properties include, for example, physical properties of stability to temperature and organic solvents, optimal pH, solubility, ability to retain activity when immobilized, and ease of expression in different host systems. . They also include catalytic properties including activity (K cat and K m ), the range of substrates accepted, and chemical events that take place (even of chemistry). The methods described herein can be applied even to non-catalytic proteins (eg, ligands such as cytokines) and nucleic acid sequences (eg, promoters that can be inducible by many different ligands). Multiple functional dimensions are encoded by a family of “homologous” sequences.

類似する触媒機能を有する酵素間の分岐が理由で、特定の特性と個々のアミノ酸とを特定の位置で相関づけることは通常は可能でない。あまりにも多くのアミノ酸相違が存在する。しかし、バリアントのライブラリーは、本発明の方法に従う初期ストリングへファミリーのメンバーをコードし、次いで、そのコードされたバリアントを有するデータ構造を構成するようにサブストリングを選択し、そして結び付けることにより相同な天然の配列のファミリーから調製され得る。   Because of the branching between enzymes with similar catalytic functions, it is not usually possible to correlate specific properties with individual amino acids at specific positions. There are too many amino acid differences. However, the library of variants encodes the members of the family into an initial string according to the method of the present invention, and then selects and links substrings to form a data structure with that encoded variant, and makes homology Can be prepared from a family of natural sequences.

このコードされたか、または解析されたバリアントは、所望の特性についてインシリコで試験され得、そして/またはコードされたバリアントは結び付けられ得、そして対応する分子は、物理的に上記のように合成される。次いで、この合成された分子は、1つ以上の所望の特性についてスクリーニングされ得る。   This encoded or analyzed variant can be tested in silico for the desired property and / or the encoded variant can be linked and the corresponding molecule is physically synthesized as described above. . The synthesized molecule can then be screened for one or more desired properties.

データ構造のメンバーは、特定の特性についての特定の条件セットの下で試験される場合、これらの条件についてのこのデータ構造(または初期ストリング収集物)からの配列の最適な組み合わせが決定され得る。このアッセイ条件をわずか1つのパラメーターにおいて変化させる場合、ライブラリー(データ構造)由来の異なる個体が最良のパフォーマーとして同定される。スクリーニング条件は非常に類似しているので、大部分のアミノ酸は、おそらく、最良のパフォーマーの2つのセット(初期ストリング収集物における最良のパフォーマー(セット1)および構成されたデータ構造における最良のパフォーマー(セット2))の間で保存される。従って、この2つの異なる条件化での最良の酵素の配列の比較により、性能における差異の原因である配列差異が同定される。   If members of a data structure are tested under a particular set of conditions for a particular property, the optimal combination of sequences from this data structure (or initial string collection) for those conditions can be determined. If this assay condition is varied in only one parameter, different individuals from the library (data structure) are identified as the best performers. Since the screening conditions are very similar, most amino acids probably have two sets of best performers (the best performer in the initial string collection (set 1) and the best performer in the structured data structure ( Saved between sets 2)). Thus, a comparison of the best enzyme sequences under these two different conditions identifies the sequence differences responsible for the differences in performance.

素因成分分析(例えば、Partek type softwareを用いて)は、このような分析に有用な多くの複数変量ツールのうちの1つである。   Predisposing component analysis (eg, using Partek type software) is one of many multivariate tools useful for such analysis.

(E)音楽の発生における使用)
さらに別の実施態様において、本発明の方法を使用して、音楽を発生させ得る。多くの周知のプログラムのいずれかを使用して、生物学的分子(例えば、DNA、タンパク質など)は、音符にコードされ得る。これは、特定の音符上に特定のサブユニットをマッピングする工程を包含し得る。これらの音符のタイミングおよび/または音質は、そのサブユニットが存在するモチーフおよび/または二次構造によって決定される。
(E) Use in music generation)
In yet another embodiment, the method of the present invention may be used to generate music. Using any of a number of well-known programs, biological molecules (eg, DNA, proteins, etc.) can be encoded into musical notes. This can include mapping a particular subunit onto a particular note. The timing and / or sound quality of these notes is determined by the motif and / or secondary structure in which the subunit is present.

従って、例えば、プログラムSSミディ(SS−midi)は、種々の核酸配列およびアミノ酸配列を音楽にコードするために使用されている。1つのアプローチ(DNAカリプソ)において、プリンは、ピリミジンの3/2の速度で再生され、塩基C、T、G、Aは、音符C、F、G、Aにマッピングされ、そして第一鎖は、ジャズオルガンを用いて再生されたが、その相補鎖は、バスを用いて再生された。他のアプローチにおいて、音符/サブユニットがヘリックス中に見出され、次いで、それがβ−シート中に見出される場合、音符の継続時間がより長くあり得る。他のバリアントも、もちろん可能である。   Thus, for example, the program SS Midi (SS-midi) has been used to encode various nucleic acid and amino acid sequences into music. In one approach (DNA calypso), purines are regenerated at 3/2 the rate of pyrimidines, bases C, T, G, A are mapped to notes C, F, G, A, and the first strand is It was regenerated using a jazz organ, but its complementary strand was regenerated using a bus. In other approaches, if a note / subunit is found in a helix and then it is found in a β-sheet, the duration of the note may be longer. Other variants are of course possible.

本発明の方法において、生物学的分子はストリングにコードされ、そのサブストリングが選択および結び付けられ、そしてデータ構造が上記のように設置される。次いで、この設置されたデータ構造は、このデータ構造にコードされた新規の配列を音楽にマッピングするプログラム(例えば、SSミディ)への入力として使用される。このデータ構造は、上記のように繰り返して再設置され得、これによって、このように生成された音楽句のバリアントを発生させる。   In the method of the present invention, the biological molecule is encoded into a string, its substrings are selected and linked, and the data structure is set up as described above. This installed data structure is then used as input to a program (eg, SS Midi) that maps the new sequence encoded in this data structure to music. This data structure may be reiterated repeatedly as described above, thereby generating a variant of the music phrase thus generated.

(F)合成機械の駆動における使用)
上記に示されるように、本発明の方法によって生成されたデータ構造を使用して、そのコード分子(例えば、ポリペプチド、核酸、ポリサッカリドなど)の化学合成のためのデバイスを駆動し得る。ほんのわずかの開始配列(「シードメンバー」)のみを使用して、本発明の方法は、何十、何百、何千、何万、何十万、またはさらには何百万もの異なるコード分子を、文字式で提供する。得られたデータ構造、またはそのメンバーを使用して、化学(または、組換え)合成を駆動する場合、実質的に任意のサイズの所望の分子の「コンビナトリアル」ライブラリーが調製され得る。このような「コンビナトリアル」ライブラリーは、治療剤、生産加工分子、特定の酵素などについてスクリーニングするためのシステムを提供するために、広く所望される。
(F) Use in driving a synthesis machine)
As indicated above, the data structures generated by the methods of the invention can be used to drive devices for chemical synthesis of the coding molecule (eg, polypeptide, nucleic acid, polysaccharide, etc.). Using only a few start sequences (“seed members”), the method of the present invention allows dozens, hundreds, thousands, tens of thousands, hundreds of thousands, or even millions of different coding molecules. , Provided as a character expression. When the resulting data structure, or member thereof, is used to drive chemical (or recombinant) synthesis, a “combinatorial” library of the desired molecule of virtually any size can be prepared. Such “combinatorial” libraries are widely desired to provide a system for screening for therapeutic agents, production engineered molecules, specific enzymes, and the like.

(実施例)
以下の実施例は、本発明を限定するためでなく、例示するために提供される。
(Example)
The following examples are provided to illustrate, but not to limit the invention.

(実施例1:サブチリシンファミリーモデル)
アミノ酸配列を整列した(コドン使用頻度は、好ましい発現系のためのレトロ翻訳(retrotranslation)に最適化され得、そして合成のためのオリゴヌクレオチドの数は最小化され得る)。7つの親の全ての可能な対のドットプロット対様式アライメントを作製した(図5、図6、図7)。対6および対7は、7アミノ酸以上の各ウインドウあたり95%の同一性パーセントを示し、一方、他の全ての対は、7アミノ酸以上の各ウインドウあたり80%の同一性パーセントを示した。低い相同性の交差が高度に相同な親の支出で提示され得るように、アライメントのストリンジェンシー(および引き続く親間の交差の提示)が各対について個々に操作され得ることに留意する。構造的偏りまたは活性部位の偏りは、このモデルにおいて全く組込まれなかった。
(Example 1: Subtilisin family model)
The amino acid sequences were aligned (codon usage can be optimized for retrotranslation for preferred expression systems and the number of oligonucleotides for synthesis can be minimized). A dot plot versus modal alignment of all seven possible pairs of parents was created (FIGS. 5, 6, 7). Pairs 6 and 7 showed a percent identity of 95% for each window of 7 amino acids or more, while all other pairs showed a percent identity of 80% for each window of 7 amino acids or more. Note that the stringency of alignment (and subsequent presentation of cross-parent crossing) can be manipulated individually for each pair, so that low homology crossings can be presented at the expense of highly homologous parents. No structural or active site bias was incorporated in this model.

(実施例2:キメラポリヌクレオチドの合成のための交差オリゴヌクレオチドの設計のためのプロセス)
第1に、キメラ接合を形成するための交差オペレーターを適用するために、サブストリングを、親(開始)ストリングにおいて同定および選択した。これは、以下によって実行される:a)全ての親のキャラクターストリング間の対様式相同領域の全てまたは一部を同定する工程、b)各々の選択された対様式相同領域内の少なくとも1つの交差点を指標化するために、同定された対様式相同性領域の全てまたは一部を選択する工程、c)各々の選択された対様式非相同性領域内の少なくとも1つの交差点を指標化するために、1つ以上の対様式非相同性領域を選択する工程(「c」は、省略可能な任意の工程であり、そして構造−活性に基づく選抜が適用され得る工程でもある)であって、それによって、交差点のさらなる選択に適切な親のキャラクターストリングの、位置的かつ親指標化領域/エリア(サブストリング)のセットの記述を提供する工程。
Example 2: Process for the design of crossed oligonucleotides for the synthesis of chimeric polynucleotides
First, substrings were identified and selected in the parent (starting) string to apply a crossing operator to form a chimeric junction. This is performed by: a) identifying all or part of the pairwise homology region between all parent character strings, b) at least one intersection in each selected pairwise homology region Selecting all or a portion of the identified pairwise homology regions to index at least one intersection point within each selected pairwise homology region Selecting one or more pairwise heterologous regions ("c" is an optional step and is also a step to which structure-activity based selection can be applied), comprising: Providing a description of a set of positional and parent indexed areas / areas (substrings) of parent character strings suitable for further selection of intersections.

第2に、パート1で選択されたサブストリングのセットの各サブストリング内の交差点のさらなる選択を実行する。この工程は、以下を含む:a)各々の選択されたサブストリングにおいて少なくとも1つの交差点を無作為に選択する工程、ならびに/またはb)各々の選択されたサブストリング内の交差点選択の確率を決定するための、1以上のアニーリングシュミレーションに基づくモデルを使用して、各々の選択されたサブストリングにおいて少なくとも1つの交差点を選択する工程、および/またはc)各々の選択されたサブストリングのおよそ中間における1つの交差点を選択する工程であって、これによって、対様式交差点のセットを作製する工程であり、ここで、各点は、この点でキメラ接合を形成することが所望される各々の親ストリングにおける対応する文字位置に指標化される。   Second, perform further selection of intersections within each substring of the set of substrings selected in Part 1. This step includes: a) randomly selecting at least one intersection in each selected substring, and / or b) determining the probability of intersection selection in each selected substring. Selecting at least one intersection in each selected substring using a model based on one or more annealing simulations, and / or c) approximately in the middle of each selected substring Selecting one intersection, thereby creating a set of pairwise intersections, where each point is each parent string for which it is desired to form a chimera junction Is indexed to the corresponding character position in.

第3に、任意のコドン使用頻度調整を実行する。相同性(DNAまたはアミノ酸をコードするストリング)を決定するために使用される方法に依存して、このプロセスは変更され得る。例えば、DNA配列を使用する場合:a)選択された発現系のためのコドンの調整を、全ての親ストリングについて実行し、そしてb)親間のコドンの調整を、全ての対応する位置での全ての所定のアミノ酸についてのコドン使用頻度を標準化するために実施し得る。このプロセスは、遺伝子ライブラリー合成のための異なるオリゴヌクレオチドの総数を有意に減少し得、そしてアミノ酸相同性がDNA相同性より高い場合か、または高度に相同な遺伝子のファミリー(例えば、80%+の同一性)を伴う場合に、特に有利であり得る。   Third, any codon usage frequency adjustment is performed. Depending on the method used to determine homology (DNA or amino acid-encoding string), this process can be modified. For example, when using DNA sequences: a) codon adjustment for the selected expression system is performed for all parent strings, and b) codon adjustment between parents at all corresponding positions. This can be done to standardize codon usage for all given amino acids. This process can significantly reduce the total number of different oligonucleotides for gene library synthesis and if the amino acid homology is higher than the DNA homology or a family of highly homologous genes (eg, 80% + Can be particularly advantageous.

このオプションは、注意して実行されるべきである。なぜなら、これは本質的に、選抜変異オペレーターの発現であるからである。従って、所望しない結果を有し得る、この偏りの導入に対するオリゴヌクレオチドのコストを削減する利点を考慮する。より代表的には、大部分の親における所定の位置でアミノ酸をコードするコドンを使用する。   This option should be performed with caution. This is because it is essentially the expression of a selective mutation operator. Therefore, consider the benefits of reducing the cost of oligonucleotides for the introduction of this bias, which may have undesirable results. More typically, a codon encoding an amino acid at a given position in most parents is used.

アミノ酸配列を使用する場合:a)DNAを縮重するために配列をレトロ翻訳する;b)元のDNA(大部分の親の、または対応する親の)におけるコドン使用頻度に対する位置ごとの参照を使用して、縮重するヌクレオチドを定義するか、および/または選択された発現系に適切なコドン調整を実行する。ここで、物理的アッセイを実行する。   When using amino acid sequences: a) retrotranslating sequences to degenerate DNA; b) position-by-position reference to codon usage in original DNA (most parent or corresponding parent) Used to define degenerate nucleotides and / or to perform codon adjustments appropriate for the selected expression system. Here, a physical assay is performed.

この工程をまた使用して、もしあるならば、引き続く同定/QA/脱回旋(deconvolution)/ライブラリーエントリーの操作のために、遺伝子のコード部分内に任意の制限部位を導入し得る。パート2で同定された全ての交差点(親の対に指標化された)を、調整されたDNA配列に対応して指標化する。   This process can also be used to introduce optional restriction sites within the coding portion of the gene for subsequent identification / QA / devolution / library entry manipulation, if any. All intersections identified in part 2 (indexed to the parent pair) are indexed corresponding to the adjusted DNA sequence.

第4に、オリゴヌクレオチド配置を、遺伝子アセンブリスキームのために選択する。この工程は、いくつかの決定工程を包含する:
均一の40〜60マーのオリゴヌクレオチドを代表的に使用する(より長いオリゴヌクレオチドを使用することは、親の構築のためのオリゴヌクレオチドの数の減少を生じるが、近接して位置される交差/変異の提示を提供するために、さらなる専用のオリゴヌクレオチドを使用する)。
Fourth, the oligonucleotide configuration is selected for the gene assembly scheme. This process involves several determination steps:
Homogeneous 40-60 mer oligonucleotides are typically used (using longer oligonucleotides results in a decrease in the number of oligonucleotides for parental construction, but in close proximity / Use additional dedicated oligonucleotides to provide a presentation of the mutation).

より短いオリゴヌクレオチドまたはより長いオリゴヌクレオチドのいずれが許容されるか(すなわち、はい/いいえ?の決定)を選択する。「はい」の決定は、ギャップ(欠失/挿入)(特に、1〜2アミノ酸)を有する異なる長さの高い相同性の遺伝子のオリゴヌクレオチドの総数を削減する。   Choose whether shorter or longer oligonucleotides are acceptable (ie, yes / no? Determination). The “yes” determination reduces the total number of oligonucleotides of different lengths of highly homologous genes with gaps (deletions / insertions) (particularly 1-2 amino acids).

重複の長さ(代表的には、15〜20塩基(これは、対称または非対称であり得る))を選択する。   The length of overlap (typically 15-20 bases, which can be symmetric or asymmetric) is selected.

縮重オリゴヌクレオチドが許容されるか否か(はい/いいえ?)を選択する。別の強力なコスト削減特徴およびさらなる配列相違性を得るための強力な手段でもある。部分的縮重スキームおよび最小縮重スキームは、変異誘発ライブラリーを確立する際に特に有利である。   Choose whether degenerate oligonucleotides are allowed (yes / no?). It is also a powerful means for obtaining another powerful cost-reducing feature and further sequence differences. Partially degenerate and minimally degenerate schemes are particularly advantageous in establishing mutagenesis libraries.

ソフトウェアツールがこれらの操作に使用される場合、パラメーターのいくつかの変更を実行し、最大のライブラリー複雑性および最小のコストを選択する。種々の長さのオリゴヌクレオチドを使用する複雑なアセンブリスキームを行うことは、プロセスの指標化、および引き続く、位置的にコードされる並行または部分的プール形式でのライブラリーのアセンブリを、有意に複雑にする。これが、精巧なソフトウェアを用いないでなされる場合、単純かつ均一なスキーム(例えば、全てのオリゴヌクレオチドが、20塩基の重複を有する40塩基長である)を使用し得る。   When a software tool is used for these operations, it performs several parameter changes and selects maximum library complexity and minimum cost. Performing a complex assembly scheme using oligonucleotides of various lengths can significantly complicate process indexing and subsequent assembly of libraries in a positionally encoded parallel or partial pool format. To. If this is done without elaborate software, a simple and uniform scheme (eg, all oligonucleotides are 40 bases long with 20 base overlap) can be used.

第5に、「便宜的配列(convenience sequence)」を、親ストリングの前後に設計する。理想的には、これは、最終的に全てのライブラリーエントリーにおいて確立される同じセットである。これらは、任意の制限部位、アセンブルされた産物同定のためのプライマー配列、RBS、リーダーペプチド、および他の特別または所望の特徴を含む。原理的に、この便宜的配列を後の段階で定義し得、そしてこの段階では、適切な長さの「ダミー」セットを使用し得る(例えば、容易に認識可能な禁制文字からのサブストリング)。   Fifth, “convenience sequences” are designed around the parent string. Ideally this is the same set that will eventually be established in all library entries. These include any restriction sites, primer sequences for assembled product identification, RBS, leader peptides, and other special or desired features. In principle, this expedient sequence can be defined at a later stage, and at this stage a “dummy” set of appropriate length can be used (eg, a substring from a forbidden character that is easily recognizable) .

パート6において、全ての親を確立するためのオリゴヌクレオチドストリングの指標化マトリクスを、選択されたスキームに従って作製する。全てのオリゴヌクレオチドの指標は、以下を含む:親識別子(親ID)、コード鎖または相補鎖の表示、および位置番号。交差点を、頭部および尾部の便宜的サブストリングを有する全ての親ストリングの指標化コードストリングについて決定する。全ての鎖の相補鎖を作製する。全てのコードストリングを、パート4の選択されたアセンブリPCRスキームに従って選択する(例えば、40bpの増分において)。全ての相補ストリングを、同じスキームに従って分割する(例えば、40bpを20bpシフトで)。   In Part 6, an indexed matrix of oligonucleotide strings for establishing all parents is created according to the selected scheme. All oligonucleotide indicators include: parent identifier (parent ID), coding or complementary strand designation, and position number. An intersection is determined for all parent string indexed code strings with head and tail expedient substrings. Make complementary strands of all strands. All code strings are selected according to the selected assembly PCR scheme of Part 4 (eg, in 40 bp increments). All complementary strings are split according to the same scheme (eg, 40 bp with 20 bp shift).

パート7において、オリゴヌクレオチドの指標化マトリクスを、全ての対様式交差操作について作製する。第1に、対様式交差マーカーを有する、全てのオリゴヌクレオチドを決定する。第2に、親交差マーカーの同じ位置および同じ対を有する、全てのオリゴヌクレオチドの全てのセット(交差点あたり4つ)を決定する。第3に、同じ交差マーカーで標識されている、4つのオリゴヌクレオチドストリングの全てのセットを取り、そして2つのコード鎖および2つの相補鎖をコードする文字を有する4つのキメラオリゴヌクレオチドストリングの別の誘導セット(例えば、40=20+20スキームにおいて20bpシフトを有する)を作製する。1つの親の順方向末端配列ストリング、それに続いて交差点後の第2の親の逆方向末端を有する、2つのコードストリングが可能である。相補ストリングもまた、同じ様式で設計し、これによって、PCRによる遺伝子ライブラリーアセンブリに適切なオリゴヌクレオチドをコードするストリングの、指標化完全インベントリーを得る。   In Part 7, an oligonucleotide indexing matrix is created for all pairwise crossover operations. First, all oligonucleotides that have pairwise crossover markers are determined. Second, determine all sets (4 per intersection) of all oligonucleotides with the same location and the same pair of parental crossover markers. Third, another set of four chimeric oligonucleotide strings that take all sets of four oligonucleotide strings labeled with the same crossing marker and have two coding strands and two complementary strand coding characters An induction set is created (eg, having a 20 bp shift in a 40 = 20 + 20 scheme). Two code strings are possible, with one parent forward terminal sequence string followed by a second parent reverse terminal after the intersection. Complementary strings are also designed in the same manner, thereby obtaining an indexed complete inventory of strings encoding oligonucleotides appropriate for PCR gene library assembly.

このインベントリーをさらに、必要に応じて、全ての重複オリゴヌクレオチドを検出し、これらを計数し、そして各オリゴヌクレオチドストリングの指標における「存在比=量」フィールドに対する計数値の導入を付随させて、インベントリーから消去することによって洗練し得る。これは、ライブラリー合成のためのオリゴヌクレオチドの総数を減少するために(特に、親配列が高度に相同である場合において)、非常に有利な工程であり得る。   This inventory is further monitored, if necessary, by detecting all duplicate oligonucleotides, counting them, and accompanying the introduction of a count for the “abundance = amount” field in the indicator of each oligonucleotide string. You can refine by erasing from. This can be a very advantageous step to reduce the total number of oligonucleotides for library synthesis (especially when the parent sequence is highly homologous).

本明細書の以上において記載される方法および材料に対して、請求される本発明の精神または範囲から逸脱することなく改変が行われ得、そして本発明は、以下を含む多くの異なる用途に適用され得る:
反復プロセスに含まれる、シャッフリングされた核酸を生成するため、および/またはシャッフリングされた核酸を試験するための統合システムの使用。
Modifications may be made to the methods and materials described hereinabove without departing from the spirit or scope of the claimed invention, and the invention applies to many different uses, including the following: Can be:
Use of an integrated system to generate shuffled nucleic acids and / or to test shuffled nucleic acids included in an iterative process.

本明細書の以上において記載された選択ストラテジー、材料、構成要素、方法または基材のいずれか1つの使用を利用する、アッセイ、キットまたはシステム。キットは、必要に応じて、方法またはアッセイを実施するための説明書、包装材料、アッセイ、デバイスまたはシステムの構成要素を含む1以上の容器などを、さらに含む。   An assay, kit or system that utilizes the use of any one of the selection strategies, materials, components, methods or substrates described herein above. The kit optionally further includes instructions for performing the method or assay, packaging material, one or more containers containing components of the assay, device or system, and the like.

さらなる局面において、本発明は、本明細書中の方法および装置を具体化するキットを提供する。本発明のキットは、必要に応じて、以下の1以上を含む:(1)本明細書中に記載のシャッフリングされた成分;(2)本明細書中に記載される方法を実施するため、および/または本明細書中の選択手順を操作するための説明書;(3)1以上のアッセイ成分;(4)核酸または酵素、他の核酸、トランスジェニック植物、動物、細胞などを保管するための容器;(5)包装材料;ならびに(6)本明細書中に記載されるプロセスおよび/または決定工程のいずれかを実行するためのソフトウェア。   In a further aspect, the present invention provides kits embodying the methods and devices herein. The kit of the present invention optionally comprises one or more of the following: (1) shuffled components as described herein; (2) to perform the methods described herein; And / or instructions for operating the selection procedures herein; (3) one or more assay components; (4) to store nucleic acids or enzymes, other nucleic acids, transgenic plants, animals, cells, etc. (5) packaging material; and (6) software for performing any of the processes and / or determination steps described herein.

さらなる局面において、本発明は、本明細書中の任意の構成要素またはキットの使用、本明細書中の任意の方法またはアッセイの実施、および/または本明細書中の任意のアッセイまたは方法を実施するための任意の装置またはキットの使用を提供する。   In further aspects, the present invention uses any component or kit herein, performs any method or assay herein, and / or performs any assay or method herein. Provide the use of any device or kit to do.

本明細書中に記載される実施例および実施態様が、例示目的のみのものであること、およびこれらを考慮して種々の改変または変更が、当業者によって示唆され、そして本出願の精神および権利ならびに添付の特許請求の範囲内に含まれるべきであることが、理解される。本明細書中に引用される全ての刊行物、特許、および特許出願は、全ての目的のためにその全体が参考として、本明細書中に援用される。   The examples and embodiments described herein are for illustrative purposes only, and various modifications or alterations have been suggested by one skilled in the art in view of these, and the spirit and rights of this application As well as within the scope of the appended claims. All publications, patents, and patent applications cited herein are hereby incorporated by reference in their entirety for all purposes.

Claims (1)

明細書中に記載の発明。Invention described in the specification.
JP2010179767A 1999-01-18 2010-08-10 Method of populating data structure for use in evolutionary simulation Withdrawn JP2011040068A (en)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US48485099A 1999-01-18 1999-01-18
US11644799P 1999-01-19 1999-01-19
US11881399P 1999-02-05 1999-02-05
US11885499P 1999-02-05 1999-02-05
US14104999P 1999-06-24 1999-06-24
US09/408,393 US6436675B1 (en) 1999-09-28 1999-09-28 Use of codon-varied oligonucleotide synthesis for synthetic shuffling
US09/408,392 US6376246B1 (en) 1999-02-05 1999-09-28 Oligonucleotide mediated nucleic acid recombination
US41637599A 1999-10-12 1999-10-12
US41683799A 1999-10-12 1999-10-12

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000594066A Division JP4899024B2 (en) 1999-01-18 2000-01-18 How to populate a data structure for use in evolutionary simulation

Publications (1)

Publication Number Publication Date
JP2011040068A true JP2011040068A (en) 2011-02-24

Family

ID=34427195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010179767A Withdrawn JP2011040068A (en) 1999-01-18 2010-08-10 Method of populating data structure for use in evolutionary simulation

Country Status (2)

Country Link
JP (1) JP2011040068A (en)
MX (1) MXPA01001477A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015210481A (en) * 2014-04-30 2015-11-24 エクボ株式会社 Device and method for generating molecular arrangement structure sound

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015210481A (en) * 2014-04-30 2015-11-24 エクボ株式会社 Device and method for generating molecular arrangement structure sound

Also Published As

Publication number Publication date
MXPA01001477A (en) 2003-08-01

Similar Documents

Publication Publication Date Title
US8170806B2 (en) Methods of populating data structures for use in evolutionary simulations
US6961664B2 (en) Methods of populating data structures for use in evolutionary simulations
EP1151409A1 (en) Methods of populating data stuctures for use in evolutionary simulations
Manrubia et al. From genotypes to organisms: State-of-the-art and perspectives of a cornerstone in evolutionary dynamics
US8504498B2 (en) Method of generating an optimized, diverse population of variants
US8768871B2 (en) Method of generating an optimized, diverse population of variants
US7058515B1 (en) Methods for making character strings, polynucleotides and polypeptides having desired characteristics
Xiao et al. Using cellular automata to generate image representation for biological sequences
US7783428B2 (en) Methods, systems, and software for identifying functional biomolecules
Henaut et al. Analysis and predictions from Escherichia coli sequences, or E. coli in silico
US20110257892A1 (en) Methods for identifying sets of oligonucleotides for use in an in vitro recombination procedure
US20050191688A1 (en) Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US20110257023A1 (en) Methods, systems, and software for identifying functional biomolecules
WO2001075767A2 (en) In silico cross-over site selection
JP4899024B2 (en) How to populate a data structure for use in evolutionary simulation
Webber Jr et al. Elucidating protein secondary structures using alpha‐carbon recurrence quantifications
JP2011040068A (en) Method of populating data structure for use in evolutionary simulation
Raven et al. In silico evolution of nucleic acid-binding proteins from a nonfunctional scaffold
CA2721213A1 (en) A system for generating labels from sequences of biological molecules
KR20010083870A (en) Methods of populating data structures for use in evolutionary simulations
Dufault‐Thompson et al. Applications of de Bruijn graphs in microbiome research
Runge et al. RnaBench: A Comprehensive Library for In Silico RNA Modelling
Schultes et al. No molecule is an island: molecular evolution and the study of sequence space
DK2250594T3 (en) Process for generating an optimized, diverse population of variants
Whitehead Reconstructing gene function and gene regulatory networks in prokaryotes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110805

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20111201

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120518