JP6373827B2

JP6373827B2 - 最適化されたヌクレオチドフロー順序を生成及び使用するためのシステム及び方法

Info

Publication number: JP6373827B2
Application number: JP2015512060A
Authority: JP
Inventors: チェン，イー−ジュイ; ウォン，チウ・タイ・エイ
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2012-05-18
Filing date: 2013-05-16
Publication date: 2018-08-15
Anticipated expiration: 2033-05-16
Also published as: US20130311105A1; US10192024B2; EP2850551A2; WO2013171303A3; WO2013171303A2; CA2873146A1; JP2015519662A; CN104364789A

Description

本発明は、分子生物学の分野に関する。より具体的には、一般に「合成による配列決定（Sequencing-by-Synthesis：ＳＢＳ）」技術と呼ばれるもので生成される核酸配列データに位相同期(phasic synchrony)誤差が入り込むのを最小にするように最適化されたフロー順序の態様を生成し使用するためのシステム及び方法に関する。

合成による配列決定（ＳＢＳ）は一般に核酸試料中の１種以上のヌクレオチドの種類又は配列組成を決定する方法を指し、この方法はヌクレオチド配列組成を決定すべき鋳型核酸分子に対して相補的な一本鎖ポリヌクレオチド分子の段階的合成を含む。例えば、ＳＢＳ技術は典型的には、鋳型分子の核酸種に対して相補的な新生ポリヌクレオチド分子に対応する配列位置で１個の核酸（ヌクレオチドとも称される）種を付加することで機能する。核酸種の新生分子への付加は、一般に、様々な当技術分野で公知の方法を使用して検出され、こうした方法としては、酵素又は電子（即ち、ＩＳＦＥＴ若しくは他の関連技術を用いたｐＨ検出）による検出法を含むピロシーケンシング（pyrosequencing）と称される方法、又は蛍光検出法、例えば、可逆性ターミネーターを使用する方法が挙げられるが、これらに限定されない。典型的には、このプロセスは、鋳型に相補的な、完全な（即ち、すべての配列位置が表される）配列長又は所望の配列長が合成されるまで反復される。ＳＢＳ技術のいくつかの例は、米国特許第６，２７４，３２０号、同第７，２１１，３９０号、同第７，２４４，５５９号、同第７，２６４，９２９号、及び同第７，３３５，７６２号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。

ＳＢＳのいくつかの態様では、オリゴヌクレオチドプライマーは、試料鋳型分子の所定の相補的な位置にアニールするように設計される。このプライマー／鋳型複合体は、核酸ポリメラーゼ酵素の存在下でヌクレオチド種を与えられる。このヌクレオチド種が、オリゴヌクレオチドプライマーの３’末端に直接隣接している試料鋳型分子の配列位置に対応する核酸種に対して相補的な場合には、ポリメラーゼはこのヌクレオチド種によってプライマーを伸長する。あるいは、いくつかの態様では、プライマー／鋳型複合体は、複数の対象とするヌクレオチド種（典型的にはＡ、Ｇ、Ｃ、及びＴ）を一度に与えられ、オリゴヌクレオチドプライマーの３’末端に直接隣接している試料鋳型分子の対応する配列位置で相補的なヌクレオチド種が取り込まれる。上述したように、ヌクレオチド種の取り込みは、例えば、酵素的に若しくは電子的にピロリン酸（ＰＰｉ）又は水素イオン（Ｈ^＋）の放出を検出することによって（例は、米国特許第６，２１０，８９１号、同第６，２５８，５６８号、及び同第６，８２８，１００号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する）、又はヌクレオチドに結合した検出可能標識を介して、様々な当技術分野で公知の方法によって検出することができる。典型的な態様では、取り込まれていないヌクレオチドは、例えば洗浄によって除去される。検出可能な標識が使用される態様では、検出可能な標識は、典型的には、次の合成サイクルの前に不活性にする必要がある（例えば、化学的切断又は光脱色による）。次いで、鋳型／ポリメラーゼ複合体中の次の配列位置は、上述したように、別のヌクレオチド種、又は複数の対象とするヌクレオチド種を用いて照会することができる。ヌクレオチド付加、プライマー伸長、信号取得、及び洗浄からなるサイクルが繰り返された結果、鋳型鎖のヌクレオチド配列が決定される。

ＳＢＳの典型的な態様では、信頼できる検出に十分な強い信号を達成するために、多数又は「クローン」集団の実質的に同一の鋳型分子（例えば、１０^３、１０^４、１０^５、１０^６、又は１０^７個の分子）を同時に、任意の１つの配列決定反応で分析する。所与の反応の集団中の実質的にすべての鋳型分子に関連する新生分子の「均質な伸長」と称されるものが、信号対ノイズ比を小さくするために必要である。本明細書で用いる用語「均質な伸長」は一般に、上述した実質的に同一である鋳型分子の集団の各構成分子が、反応中に同じステップを均質に行う伸長反応の関係又は位相を指す。例えば、鋳型分子の集団と関係するそれぞれの伸長反応は、それらが結合した鋳型分子のそれぞれに関して同じ配列位置で同じ反応ステップを行っている際に、互いに同相である（in phase）（場合により、位相同期性（phasic synchrony）又は位相同調性（phasic synchronism）であるとも称される）と記述することができる。

しかし、当業者は、それぞれの集団中の鋳型分子のごく一部が、その集団中の残りの鋳型分子との位相同調性を失うか、又は位相同調性から外れる（即ち、鋳型分子のその一部に関係する反応は、その集団に対して行われる配列決定反応において他の鋳型分子を追い越すか、又は他の鋳型分子より遅れるかのどちらかである）ことを理解する（いくつかの例は、Ronaghi, M. Pyrosequencing sheds light on DNA sequencing（ピロ配列決定がＤＮＡの配列決定に光明を投じる）. Genome Res. 11, 3-11 (2001)に記載されており、その内容は引用することにより、あらゆる目的で全体を本願に援用する）。例えば、１つの位置による配列の伸長のために、１つ以上のヌクレオチド種を１つ以上の新生分子中に適切に取り込む反応が失敗することによって、結果としてそれに続くそれぞれの反応が、その集団の残りの部分の配列位置より後ろの、位相が異なる配列位置で生じることとなる。この作用を本明細書では、「不完全伸長（incomplete extension：ＩＥ）」と称する。あるいは、その集団の残りの部分の配列位置より前の、位相が異なる配列位置における１つ以上のヌクレオチド種の取り込みによる新生分子の不適切な伸長を、本明細書において「繰越（carry forward：ＣＦ）」と称する。ＣＦとＩＥの複合作用を本明細書ではＣＡＦＩＥと称する。

当業者は、ＩＥ誤差及びＣＦ誤差の両方の可能性が、伸長反応の間に各々の配列位置で発生する場合があるので、結果として得られる配列データ中に明白な蓄積作用を有する場合があることが分かっている。例えば、この作用は、「配列読み取り」の終わりに向けて特に顕著になる場合がある。

さらに、ＩＥ作用及びＣＦ作用はＳＢＳ手法を使用して確実に配列決定することができる鋳型分子の長さ（場合により「読み取り長」とも称される）に上限を課す場合がある。というのは、配列データの質は読み取り長が長くなるにつれて低下するからである。

ＳＢＳのいくつかの態様では、数値モデル化手法及びシミュレーション手法をＳＢＳ配列決定法から得られた配列データに上手く応用し、配列データ中のＣＡＦＩＥ誤差を生物情報工学的に補正し、配列決定実行からの使用可能な読み取り長を伸ばした。しかしながら、そのような配列手法はＳＢＳ配列決定法からの配列読み取りに見られる蓄積されたＣＡＦＩＥ誤差に対しての補正であり、配列決定実行の間のＣＡＦＩＥ誤差の蓄積を低減する機構を提供しない。

本明細書に記載のＳＢＳの態様では、予め決められた順序（「フロー順序」、「フローパターン」、又は「ヌクレオチド分注順序」とも称する）に従って配列決定の反応環境に各々のヌクレオチド種を個別に順次導入する。例えば、ＳＢＳの態様では、１サイクルがＴＡＣＧ順序のヌクレオチド種のフロー等の４種のヌクレオチド種の予め決められた順序の繰り返しサイクルを使用する。いくつかの態様において、フロー順序は用途に応じて２００回〜４００回繰り返してもよい。しかしながら、実際には、フロー順序は、上記のＴＡＣＧ等の４種のヌクレオチドのサイクルの繰り返しである必要はない。実際、いくつかのＳＢＳアプリケーションは、最小数のヌクレオチド種フローにより伸長される取り込まれる塩基の数を最大にする（即ち、設計で非常に高い伸長率を有する）と先験的に知られている配列である単位複製配列のヌクレオチド配列に適合させた専用のフロー順序を利用している。既述の単位複製配列型フロー順序の態様では、フロー順序は単位複製配列の配列組成によって定義される１つのフロー順序（即ち、非循環式）として解釈することができる。

従って、数値ＣＡＦＩＥ補正及びカスタム化したフロー順序設計の概念を拡張し、配列決定実行の間に、ＣＡＦＩＥ型誤差の蓄積を低減する又は何らかのＣＡＦＩＥ誤差を補正することができる１つ以上のフロー順序を実施することは望ましい。換言すると、ＣＡＦＩＥ補正法を配列決定データに応用するのとは対照的に、配列決定実行の間にＣＡＦＩＥ誤差の蓄積を低減及び／又は何らかのＣＡＦＩＥ誤差を補正することができるより最適なフロー順序を予測するためにアルゴリズム及びモデル化法を用いることができる。

多数の参考文献が本明細書において引用されているが、それらの全ての内容は引用することにより、あらゆる目的で全体を本願に援用する。さらに、これらの参考文献はいずれも、上記でどのように特徴付けられているかに関わらず、本明細書で特許請求された主題の発明に先行するものと認められるものではない。

本発明の態様は、核酸の配列決定に関する。より詳細には、本発明の態様は、ＳＢＳによる核酸の配列決定の際に得られるデータの位相同期誤差を補正する帰納的方法及びシステムに関する。

配列データにおける位相同期誤差の蓄積を最小にするフロー順序を生成する方法であって、以下のステップを含む方法の一態様について述べる：（ａ）ｋ塩基長を含むヌクレオチド種の複数の配列順序付け（sequential orderings）を生成するステップであり、ここで、配列順序付けは合成による配列決定の反応環境にヌクレオチド種を導入する順序を規定するものである；（ｂ）配列順序付けを用い、１つ以上の参照ゲノムからの配列データの取得をシミュレーションするステップであり、ここで、配列データは位相同期誤差の蓄積を含むものである；及び（ｃ）読み取り長パラメータ及び伸長率パラメータを用いて１つ以上の配列順序付けを選択するステップ。

配列データ中の位相同期誤差の蓄積を最小にするフロー順序を用いて核酸鋳型の配列を決定する方法であって、以下のステップを含む方法の一態様について述べる：（ａ）ｋ塩基長を含むヌクレオチド種の配列順序付けを合成による配列決定の反応環境に導入するステップであり、ここで、ヌクレオチド種の配列順序付けは、高読み取り長特性及び低伸長率特性を含むものである；（ｂ）実質的に同一の核酸鋳型分子の１つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から信号を取得するステップであり、ここで、信号は、伸長の位相から遅れた１つ以上の集団の核酸鋳型分子のサブセットからの一定の誤差を含むものである；及び、（ｃ）ヌクレオチド種の配列順序付けの導入及び反復回数の信号取得を周期的に反復するステップであり、ここで、核酸分子のサブセットは、配列順序付けの高読み取り長特性と低伸長率特性によって、前記一定の誤差を低減させる伸長の位相と再同期するものである。

また、配列データの位相同期誤差の蓄積を最小にするフロー順序を用いて、核酸鋳型の配列を決定する方法であって、以下のステップを含む方法の別の態様について記述する：（ａ）合成による配列決定の反応環境にヌクレオチド種の配列順序付けを導入するステップ；（ｂ）実質的に同一の核酸鋳型分子の１つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から複数の第１の信号を取得するステップ；（ｃ）第１の信号を用いて、ヌクレオチドの第２の配列順序付けを選択するステップであり、ここで、ヌクレオチド種の第２の配列順序付けは、ｋ塩基長、高読み取り長特性、及び低伸長率特性を含むものである；（ｄ）合成による配列決定の反応環境にヌクレオチドの第２の配列順序付けを導入するステップ；（ｅ）実質的に同一の核酸鋳型分子の１つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から複数の第２の信号を取得するステップであり、ここで、第２の信号は、伸長の位相から遅れた１つ以上の集団の核酸鋳型分子のサブセットからの一定の誤差を含むものである；及び、（ｆ）ヌクレオチド種の第２の配列順序付けの導入及び反復回数の信号取得を周期的に反復するステップであり、ここで、核酸分子のサブセットは、配列順序付けの高読み取り長特性と低伸長率特性によって、前記一定の誤差を低減させる伸長の位相と再同期するものである。

上述の態様及び実施は、必ずしも互いに包括的又は排他的なものではなく、同じ又は異なる態様又は実施に関連して提示されているかどうかに関わらず、矛盾の無いその他の可能なあらゆる様態で組み合わされてもよい。１つの態様又は実施の記述は、他の態様及び／又は実施に対して限定することを意図したものではない。また、本明細書の他の部分に記載されているあらゆる１つ以上の機能、ステップ、動作、又は手法は、代替的な実施において、発明の開示に記載されているあらゆる１つ以上の機能、ステップ、動作、又は手法と組み合わされてもよい。従って、上述の態様及び実施は、限定するものではなく、むしろ例示的なものである。

従って、本発明は、配列データ中の位相同期誤差の蓄積を最小にするフロー順序を生成する方法であって、以下のステップを含む方法を提供する：
（ａ）ｋ塩基長を含むヌクレオチド種の複数の配列順序付けを生成するステップであり、ここで、配列順序付けは、合成による配列決定の反応環境にヌクレオチド種を導入する順序を規定するものである；
（ｂ）配列順序付けを用い、１つ以上の参照ゲノムからの配列データの取得をシミュレーションするステップであり、ここで、配列データは位相同期誤差の蓄積を含むものである；及び、
（ｃ）読み取り長パラメータ及び伸長率パラメータを用いて１つ以上の配列順序付けを選択するステップ。

配列データの取得のシミュレーションは、繰越パラメータ及び位相同期誤差の蓄積をシミュレーションする不完全伸長パラメータの使用を含む。
ｋ塩基長は、１６、２４、３２及び４０塩基長からなる群から選択してもよい。また、ｋ塩基長は、３２〜４０塩基の範囲の長さを含んでもよい。

読み取り長パラメータは、３％未満の蓄積された位相同期誤差を含む一定の読み取り長を含んでもよい。
伸長率パラメータは、１つのヌクレオチドフローが伸長させることができる鋳型分子に対して相補的な配列位置の平均数を含んでもよい。

選択された配列順序付けは、高読み取り長パラメータ及び低伸長率パラメータを含む。一態様において、読み取り長パラメータは約４００ｂｐを超え、伸長率パラメータは、０．５％不完全率かつ０．５％繰越率において約０．５５ｂｐ／フロー以下である。

本発明は、また配列データ中の位相同期誤差の蓄積を最小にするフロー順序を用いて核酸鋳型の配列を決定する方法であって、以下のステップを含む方法を提供する。
（ａ）ｋ塩基長を含むヌクレオチド種の配列順序付けを合成による配列決定の反応環境に導入するステップであり、ここで、ヌクレオチド種の配列順序付けは高読み取り長特性及び低伸長率特性を含むものである；
（ｂ）実質的に同一の核酸鋳型分子の１つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から信号を取得するステップであり、ここで、信号は、伸長の位相から遅れた１つ以上の集団の核酸鋳型分子のサブセットからの一定の誤差を含むものである；及び、
（ｃ）ヌクレオチド種の配列順序付けの導入及び反復回数の信号取得を周期的に反復するステップであり、ここで、核酸分子のサブセットは、配列順序付けの高読み取り長特性と低伸長率特性によって、前記一定の誤差を低減させる伸長の位相と再同期するものである。

合成による配列決定の反応環境は、ウェルのアレイを含んでもよい。ｋ塩基長は、１６、２４、３２、及び４０塩基長からなる群から選択してもよく、あるいは３２〜４０個の範囲の長さを含んでもよい。読み取り長特性は、３％未満の蓄積された位相同期誤差を含む一定の読み取り長を含んでもよい。伸長率特性は、１つのヌクレオチドフローが伸長させることができる鋳型分子に対して相補的な配列位置の平均数を含む。読み取り長パラメータは、約４００ｂｐを超え、伸長率パラメータは、０．５％不完全率かつ０．５％繰越率において約０．５５ｂｐ／フロー以下である。

本発明は、また配列データ中の位相同期誤差の蓄積を最小にするフロー順序を用いて核酸鋳型の配列を決定する方法であって、
（ａ）ｋ塩基長、高読み取り長特性値、及び低伸長率特性値を含むヌクレオチド種の第１の配列順序付けを、合成による配列決定の反応環境に導入するステップ；
（ｂ）実質的に同一の核酸鋳型分子の１つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から複数の第１の信号を取得するステップ；
（ｃ）ｋ塩基長、高読み取り長特性値、及び低伸長率特性値を含むヌクレオチド種の第２の配列順序付けを、合成による配列決定の反応環境に導入するステップであり、ここで、ヌクレオチド種の第２の配列順序付けは、ヌクレオチド種の第１の配列順序付けと同一ではない；及び、
（ｄ）実質的に同一の核酸鋳型分子の１つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から複数の第２の信号を取得するステップ、
を含み、
第１又は第２の配列順序付けの配列組成により、１つ以上の集団の１つ以上のサブセットが伸長の位相に遅れを取り、続くフローにおける伸長の位相と再同期する方法を提供する。

再度、ｋ塩基長は、１６、２４、３２、及び４０塩基長からなる群から選択してもよく、あるいは３２〜４０塩基の範囲の長さを含んでもよい。

上記及び更に別の特徴は、添付の図面と合わせて考慮すると、以下の詳細な記述から、より明確に認識される。図面において、同種の参照番号は同種の構造、要素、又はステップを示し、参照番号の最も左の数字はその参照要素が最初に現われる図面の番号を示す（例えば、構成部品１６０は最初に図１に現われる）。但し、これらの取決めはすべて、限定的ではなく典型的又は例示的に示すためのものである。
図１は、コンピュータ制御された配列決定装置及び反応担体の一態様の機能ブロック図である。図２は、複数の計算されたフロー順序を用いて大腸菌参照配列に対するシミュレーションした合成による配列決定ステップの効果の簡略化された一態様のグラフ表示である。図３は、複数の計算されたフロー順序を用いてシミュレーションした合成による配列決定ステップの、大腸菌参照配列、Ｔ．サーモフィラス配列、及びＣ．ジェジュニ配列の平均に対する効果の簡略化された一態様のグラフ表示である。図４Ａは、マップされた長さのヒストグラム及び塩基位置の誤差について、フロー順序である「ＥＸ１」及び「ＴＡＣＧ」での実行とで比較した一態様の簡略化されたグラフ表示である。図４Ｂは、マップされた長さのヒストグラム及び塩基位置の誤差について、フロー順序である「ＥＸ１」及び「ＴＡＣＧ」での実行とで比較した一態様の簡略化されたグラフ表示である。

以下で詳細に記述するように、本明細書に記載の発明の態様は、一般に「合成による配列決定」（ＳＢＳ）技術と呼ばれるものによって生成された核酸配列データ中の位相同期誤差を最小にするために最適化されたフロー順序の態様を生成・使用するシステムと方法を含む。本明細書に記載の「位相同期フロー順序」は、配列決定及びデータ取得ステップの間に導入された何らかのＣＡＦＩＥ誤差を少なくとも部分的に動的に補正することによってＣＡＦＩＥ誤差の蓄積を低減するように計算された配列組成を有するいかなる長さであってもよい。また、当然のことながら、位相同期フロー順序は全体の配列決定実行の単一なフロー順序でも、周期的に反復されるより短い長さのフロー順序であってもよい。
ａ．全般
特記しない限り、本明細書で用いられるすべての技術用語及び科学用語は、本発明が属する技術分野の当業者が一般的に理解しているものと同じ意味を有する。本明細書に記載のものと類似又は同等の方法及び材料を、本発明の実施に用いることができ、適当な方法及び材料の例を以下に記載する。例えば、２つを超えるステップを含む方法を記載することができる。そのような方法において、定められた目標を達成するために必ずしもすべてのステップは必要とされない場合があり、本発明は、単独のステップの使用によってこれらの別個の目標を実現することを想定している。すべての出版物、特許出願、特許、及びその他の参考文献の内容は引用することにより、本願に援用する。また、材料、方法、及び例は例示的なものにすぎず、限定を意図するものではない。

用語「フローグラム（flowgram）」は、一般に、ＳＢＳ法、特にピロリン酸に基づく配列決定方法（「ピロシーケンシング（pyrosequencing）」とも呼ばれる）により生成された配列データをグラフ表示したものを指し、より具体的には「ピログラム（pyrogram）」と呼ぶことができる。

本明細書で用いる用語「読み取り（read）」又は「配列読み取り（sequence read）」は、一般に、１つの核酸鋳型分子から、又は実質的に同一である複数の鋳型核酸分子のコピーの集団から得られる全配列データを指す。

本明細書で用いる用語「実行（run）」又は「配列決定実行（sequencing run）」は、一般に１つ以上の鋳型核酸分子の配列決定操作において実施される一連の配列決定反応を指す。

本明細書で用いる用語「フロー（flow）」は、一般に、典型的には鋳型核酸分子を含む反復する合成による配列決定ステップの一部である反応環境へのヌクレオチド種又は試薬の一回の導入を指す。例えば、フローは、ヌクレオチド種及び／又は１種以上の試薬、例えば、配列決定ステップに使用できるか又は前のヌクレオチド種のフローからの持ち越し、或いはノイズ効果を低減するために使用できる緩衝液、洗浄液、又は酵素を含むことができる。

本明細書で用いる用語「フロー順序（flow order）」、「フローパターン（flow pattern）」、又は「ヌクレオチド分注順序（nucleotide dispensation order）」は、一般に、反応環境へのヌクレオチド種の予め決められた一連のフローを指す。いくつかの態様では、フローサイクルは４種のヌクレオチド種を、Ｔ、Ａ、Ｃ、Ｇのヌクレオチド種の順序で、又は１種以上のヌクレオチド種が繰り返される他の順序で逐次添加することを含む。

本明細書で用いる用語「フローサイクル（flow cycle）」は、一般に、フロー順序の反復を指し、いくつかの態様では、フローサイクルは、サイクルごとに同じフロー順序を有する反復サイクルであり、いくつかの態様では、サイクルごとにフロー順序が変わる。

本明細書で用いる用語「読み取り長（read length）」は、一般に、信頼性をもって配列決定できる鋳型分子の長さの上限を指す。システム及び／又はプロセスの読み取り長に関与する数多くの要因が存在し、それには鋳型核酸分子中のＧＣ含量の程度が含まれるが、これに限定されない。

本明細書で用いる用語「信号減退（signal droop）」は、一般に、読み取り長が増加すると共に検出信号強度が減少することを指す。
本明細書で用いる用語「試験断片（test fragment）」又は「ＴＦ」は、一般に、品質管理、較正、又はその他の関連する目的で使用できる既知の配列組成の核酸要素を指す。

本明細書で用いる用語「プライマー」は、一般に、適切な温度で適切な緩衝液中において、核酸鎖に相補的なプライマー伸長産物の合成が誘発される条件の下で、ＤＮＡ合成の開始点として働くオリゴヌクレオチドを指す。プライマーは、好ましくは１本鎖オリゴデオキシリボヌクレオチドである。

「新生（nascent）分子」は、一般に、鋳型分子中の対応するヌクレオチド種と相補的なヌクレオチド種を取込むことにより、鋳型依存性ＤＮＡポリメラーゼによって伸長されるＤＮＡ鎖を指す。

「鋳型核酸」、「鋳型分子」、「標的核酸」、又は「標的分子」は、一般に、配列決定反応の対象であり、それから配列のデータ又は情報が生成される核酸分子を指す。
本明細書で用いる用語「ヌクレオチド種」は、一般に、典型的には新生核酸分子に取り込まれるプリン類（アデニン、グアニン）及びピリミジン類（シトシン、ウラシル、チミン）を含む核酸単量体の種類を指す。「天然」ヌクレオチド種には、例えばアデニン、グアニン、シトシン、ウラシル、及びチミンが含まれる。上記の天然ヌクレオチド種の修飾形には、α−チオ三リン酸誘導体（例えば、ｄＡＴＰ−α−Ｓ）、ヒポキサンチン、キサンチン、７−メチルグアニン、５，６−ジヒドロウラシル、及び５−メチルシトシンが含まれるがこれらに限定されない。

本明細書で用いる用語「単量体反復配列」又は「単独重合体」は、一般的に、同じヌクレオチド種を含む２つ以上の配列位置（即ち、反復ヌクレオチド種）を指す。
本明細書で用いる用語「均質な伸長」は、一般に、実質的に同一の鋳型分子の集団の各構成員が、反応において同じ伸長ステップを均質に実施している伸長反応の関係又は位相を指す。

本明細書で用いる用語「完了効率」は、一般に、所定のフローの間に適正に伸長する新生分子の百分率を指す。
本明細書で用いる用語「不完全伸長率」は、一般に、すべての新生分子の数に対する適正に伸長できなかった新生分子の数の比率を指す。

本明細書で用いる用語「ゲノムライブラリー」又は「ショットガンライブラリー」は、一般に、生物又は個体のゲノムの全体（即ち、ゲノムの全領域）に由来し、かつ／又はこのゲノムを表す分子集合体を指す。

本明細書で用いる用語「単位複製配列（amplicon）」は、一般に、ポリメラーゼ連鎖反応法又はリガーゼ連鎖反応法から生成したもの等の選択された増幅生成物を指す。
本明細書で用いる用語「変異体（variant）」又は「対立遺伝子（allele）」は、一般に、類似するけれども互いにある程度の相異を有する配列組成をそれぞれコードする複数の種のうちの１つを指す。この相異には、一ヌクレオチド多型性（ＳＮＰ）等の多型性、挿入又は欠失（挿入／欠失事象の組合せは「インデル」とも呼ばれる）、反復配列（縦列反復配列とも呼ばれる）の数の差、及び構造変化を含むがそれらに限定するものではない、当業者に公知の任意の型の遺伝的変異を含めることができる。

本明細書で用いる用語「対立遺伝子頻度（allele frequency, allelic frequency）」は、一般に、特定の変異体を含む集団中のすべての変異体の割合を指す。
本明細書で用いる用語「鍵配列（key sequence）」又は「鍵要素（key element）」は、一般に、鋳型分子から生成された配列データの品質管理基準として用いられる既知の配列組成物を含んだ既知の部位（即ち、典型的には連結されたアダプター要素に含まれる）で、鋳型核酸分子に関連付けられた核酸配列要素（典型的には、約４つの配列位置、即ち、ＴＧＡＣ又はヌクレオチド種のその他の組合せ）を指す。配列データは、適正な部位で鍵要素に関連付けられた既知の配列組成物を含む場合、品質管理に合格する
本明細書で用いる用語「キーパス（keypass）」又は「キーパスウェル（keypass well）」は、一般に、反応ウェル内の既知の配列組成物の全長核酸試験配列（即ち、上述の「試験断片」又は「ＴＦ」）の配列決定を指す。この場合、ＴＦ配列及び／又はＴＦに関連付けられた鍵配列から得られ、又は標的核酸に関連付けられたアダプターにおける配列の精度は、ＴＦ及び／又はキーの既知の配列組成物と比較され、配列決定精度の測定及び品質管理のために使用される。典型的な態様では、配列決定実行におけるウェルの総数の割合は、いくつかの態様では分散した領域に分布したキーパスウェルになる。

本明細書で用いる用語「平滑末端」は、当業者が理解している解釈と同じで、一般に、１対の相補的ヌクレオチド塩基種で終わる末端を有する線状２本鎖核酸分子を指し、その際、１対の平滑末端は、典型的には互いの連結に相性がよい。

本明細書で用いる用語「粘着末端（sticky end）」又は「突出部(overhang)」は、当業者が理解している解釈と同じで、一般に、分子の一方の鎖の末端に１つ以上の非対合ヌクレオチド種をもつ線状二本鎖核酸分子を指し、この非対合ヌクレオチド種はいずれか一方の鎖に存在し、単一の塩基位置又は複数の塩基位置を含む（「付着端（cohesive end）」とも呼ばれることがある）。

本明細書中で用いる「ＳＰＲＩ」は、当業者が理解している解釈と同じで、一般に「固相可逆固定（Solid Phase Reversible Immobilization）」という特許取得された技術を指し、その場合、標的核酸は特定の緩衝条件でビーズの存在下で選択的に沈降し、前記のビーズはしばしばカルボキシル化されており、常磁性である。沈降した標的核酸は、前記のビーズに固定され、操作者の要望に従って溶離緩衝液により分離されるまで結合が保たれている(DeAngelis, Margaret M. et al: Solid-Phase Reversible Immobilization for the Isolation of PCR Products（ＰＣＲ生成物の単離のための固相可逆固定）. Nucleic Acids Res (1995), Vol. 23:22; 4742-4743に記載されており、その内容は引用することにより、あらゆる目的で全体を本願に援用する）。

本明細書で用いる用語「カルボキシル化された」は、当業者が理解している解釈と同じで、一般に、微粒子等の材料を少なくとも１つのカルボキシル基の付加による修飾を指す。カルボキシル基はＣＯＯＨ又はＣＯＯ⁻である。

本明細書で用いる用語「常磁性」は、当業者が理解している解釈と同じで、一般にその材料の磁性が外部印加磁界の存在するところでのみ発生し、外部印加磁界が除かれると磁化は全く維持されない材料の特性を指す。

本明細書で用いる用語「ビーズ」又は「ビーズ担体」は、一般に、あらゆる好都合な大きさの、不規則又は規則的な形状のあらゆる種類の固相粒子を指し、それらは様々の既知材料、例えば、セルロース、セルロース誘導体、アクリル樹脂、ガラス、シリカゲル、ポリスチレン、ゼラチン、ポリビニルピロリドン、ビニルとアクリルアミドの共重合体、ジビニルベンゼン等で架橋したポリスチレン（例えば、Merrifield, Biochemistry 3 (1964) 1385-1390に記載されているもの）、ポリアクリルアミド、ラテックスゲル、ポリスチレン、デキストラン、ゴム、シリコン、プラスチック、ニトロセルロース、天然海綿、シリカゲル、細孔制御ガラス、金属、架橋デキストラン（例えば、Sephadex（登録商標））、アガロースゲル（Sepharose（登録商標））、及び当業者に既知の他の固相ビーズ担体から作製される。但し、当然ながら、固相担体は、細孔への流体及び／又は生体分子の浸透を可能にするある程度の空隙率を有してもよい。

本明細書で用いる用語「反応環境」は、一般的に、反応を行なうことができ、典型的にはそこに反応物を少なくとも一時的に収容又は閉じ込め、少なくとも１種類の反応生成物を検出することができる、ある体積の空間を指す。反応環境の例としては、キュベット、チューブ、ボトル、及び平面又は非平面の担体表面の１つ以上のくぼみ、ウェル、又は反応容器が挙げられるが、それらに限定されない。

本明細書で用いる用語「仮想ターミネーター」は、一般に、反応速度を実質的に低下させるターミネーターを指し、反応を停止させるための追加の段階、例えば反応物の除去を採用してもよい。

試料の調製及び処理、配列データの生成、及び配列データの分析に関連するシステム及び方法のいくつかの典型的な態様を下記に一般的に記述する。それらの一部又は全部を本明細書に記述する発明の態様に使用できる。特に、鋳型核酸分子の調製、鋳型分子の増幅、標的特異的単位複製配列及び／又はゲノムライブラリーの生成のためのシステム及び方法、配列決定法及び機器、並びにコンピュータシステムの典型的な態様を記述する。

典型的な態様において、実験試料又は診断試料に由来する核酸分子をその未処理の形から調製及び処理して高処理量配列決定に適した鋳型分子にするべきである。その処理方法は応用例によって異なっていてよく、その結果、様々な特性を含む鋳型分子が得られる。例えば、高処理量配列決定のいくつかの態様において、少なくとも特定の配列決定法が正確に配列データを生成することができる長さに匹敵する配列又は読み取り長を有する鋳型分子を生成するのが好ましい。本例において、長さには約２５〜３０塩基、約５０〜１００塩基、約２００〜３００塩基、約３５０〜５００塩基、約５００〜１０００塩基の範囲、１０００塩基より大きい長さ、又は特定の配列決定の使用に適した他の長さいずれかの長さが含まれてよい。いくつかの態様において、試料、例えばゲノム試料に由来する核酸を、当業者に既知の多数の方法を用いて断片化する。好ましい態様において、核酸を無作為に断片化する（即ち、特定の配列又は領域を選択しない）方法には、噴霧法又は超音波処理法と呼ばれる方法を含めることができる。しかし、他の断片化の方法、例えば制限エンドヌクレアーゼ（ポリヌクレオチド内部加水分解酵素）を用いる消化を断片化の目的のために用いることができるのは当然である。同様に、本例において、いくつかの処理方法では、当技術分野で既知のサイズ選択法を用い、所望の長さの核酸断片を選択的に単離してもよい。

また、いくつかの態様において、追加の機能要素をそれぞれの鋳型核酸分子に関連づけることが好ましい。その要素は、多様な機能を得るために使用でき、増幅及び／又は配列決定法のためのプライマー配列、品質管理要素（即ち、鍵要素又は他の種類の品質管理要素等）、起源試料若しくは患者試料との様々な関連付けを暗号化する固有識別子（多重識別子（multiplex identifier）又は「ＭＩＤ」とも呼ばれる）、又は他の機能要素が含まれるが、それらに限定されない。

例えば、本発明のいくつかの態様は、既知の識別可能な配列組成を有するＭＩＤ要素の１つ以上の態様を試料と関連させ、そのＭＩＤ要素の態様をその関連試料に由来する鋳型核酸分子と結合（coupling）することを含む。多数の異なる試料に由来するＭＩＤを結合した鋳型核酸分子をためて、単一の「多重化」試料又は組成物にし、次いでそれを効率的に処理して、ＭＩＤを結合した鋳型核酸分子それぞれについての配列データを作成することができる。鋳型核酸それぞれについての配列データを復元して（de-convoluted）、結合したＭＩＤ要素の配列組成を同定し、起源試料との関連性を同定する。本例において、多重化組成物は約３８４の試料、約９６の試料、約５０の試料、約２０の試料、約１６の試料、約１２の試料、約１０の試料、又は他の数の試料からの代表を含むことができる。それぞれの試料は研究の状況において異なる実験条件、処理、種、又は個人と関連付けされてもよい。同様に、それぞれの試料は診断の状況において異なる組織、細胞、個人、条件、薬物又は他の処置と関連付けされてもよい。当業者は、上記で挙げた試料の数は例の目的のためであり、従って限定するとみなすべきでないことが分かっている。

好ましい態様において、各ＭＩＤ要素の配列組成物は、容易に識別可能であり、配列決定ステップから導入される誤差を生じにくい。ＭＩＤ要素のいくつかの態様は、自然界に存在する配列との配列類似性が最小である固有の配列組成の核酸種を含む。あるいは、ＭＩＤ要素の態様は、自然界に存在する配列とのある程度の配列類似性を含んでいてもよい。

同様に、好ましい態様において、各々のＭＩＤ要素の位置は、鋳型核酸分子及び／又はその鋳型分子に結合されたアダプター要素のいくつかの特徴に関連して知られている。各々のＭＩＤの位置が既知であることは、配列データ中のＭＩＤ要素を見出して、そして起こり得る誤差とそれに続く起源試料との関連付けについてＭＩＤ配列組成を解釈するために有用である。

例えば、ＭＩＤ要素に対する位置的な関係のための手掛かりとして有用ないくつかの特徴には、鋳型分子の長さ（即ち、そのＭＩＤ要素はその５’又は３’末端からどの位の配列位置にあるか分かっている）、ＭＩＤ要素に隣接して位置する識別可能な配列マーカー、例えば鍵要素及び／又は１つ以上のプライマー要素が含まれてよいが、それらに限定されない。本例において、鍵要素及びプライマー要素は一般に、典型的には多重化組成中で試料ごとに変動せず、ＭＩＤ要素を探すための位置の基準として用いることができる既知の配列組成を含む。応用プログラム１３５により実施される分析アルゴリズムは、コンピュータ１３０で実行されて、それぞれのＭＩＤを結合された鋳型に関して生成された配列データを分析して、より容易に識別可能な鍵要素及び／又はプライマー要素を同定し、それらの位置から外挿してそのＭＩＤ要素の配列が含まれると推定される配列領域を同定することができる。応用プログラム１３５は、次いでこの推定領域及びおそらくその両側の領域内のある距離離れた領域の配列組成を処理して、ＭＩＤ要素及びそれの配列組成を確実に同定することができる。

前記の機能性要素の一部又は全部を組み合わせてアダプター要素にし、これらを特定の処理ステップでヌクレオチド配列に結合させることができる。例えば、一部の態様は、増幅及び／又は配列決定のために用いられるプライマー配列に相補的な配列組成を含む反応開始（priming）配列要素又は領域を会合させることができる。更に、これらの同じ要素を、「鎖選択」と呼ぶことができる方法及び固相担体への核酸分子の固定のために使用できる。一部の態様において、２組の反応開始配列領域（以後、反応開始配列Ａ及び反応開始配列Ｂと呼ぶ）を鎖選択に使用でき、その場合、反応開始配列Ａの単一の複製物及び反応開始配列Ｂの単一の複製物をもつ一本鎖のみを選択し、調製試料として含める。別の態様において、アダプター要素の設計機能により鎖選択の必要がなくなる。その同じ反応開始配列領域を増幅及び固定のための方法に使用でき、その場合、例えば、反応開始配列Ｂを固体担体表面に固定することができ、増幅産物をそれから伸長させる。

断片化、鎖選択、並びに機能要素及びアダプターの付加のための試料処理の更なる例は、２００４年１月２８日に出願された「Method for preparing single-stranded DNA libraries（一本鎖ＤＮＡライブラリーを調製するための方法）」と題された米国特許出願番号第１０／７６７，８９４号、２００８年５月２９日に出願された「System and Method for Identification of Individual Samples from a Multiplex Mixture（多重化混合物からの個々の試料を特定するための装置及び方法）」と題された米国特許出願番号第１２／１５６，２４２号、及び２００９年２月２３日に出願された「System and Method for Improved Processing of Nucleic Acids for Production of Sequencable Libraries（配列決定可能なライブラリーの作製のための改良された核酸処理のためのシステム及び方法）」と題された米国特許出願番号第１２／３８０，１３９号において記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。

鋳型核酸分子の増幅を実施して実質的に同一であるコピーの集団を生成するためのシステム及び方法の様々な例を記載する。ＳＢＳのいくつかの態様では、１種以上のヌクレオチド種を鋳型分子のコピーと関連するそれぞれの新生分子に取り込ませる際に、それぞれの核酸要素の多数のコピーを生成させてより強い信号を発生させるのが望ましいことは当業者に明らかである。核酸分子のコピーを作成するための当技術分野で既知の手法が多数ある。例えば細菌ベクターの「ローリングサークル」増幅と呼ばれる方法（上記で引用することにより援用した、米国特許第６，２７４，３２０号及び第７，２１１，３９０号に記載されている）及びポリメラーゼ連鎖反応（ＰＣＲ）法を用いる増幅のような、核酸分子のコピーを生成するための当技術で既知の多くの技法が存在し、その技法のそれぞれが本明細書で記述する発明に使用することができる。高処理量用途に特に適したＰＣＲ法のひとつには、エマルションＰＣＲ法（ｅｍＰＣＲ法とも呼ばれる）が含まれる。

エマルションＰＣＲ法の典型的な態様には、２種類の非混和性物質の安定なエマルションを形成して、その内部で反応を行なうことができる水性液滴を形成することが含まれる。特に、ＰＣＲ法に使用するのに適したエマルションの水性液滴には、別の流体、例えば典型的にはある種の油が含まれる疎水性流体（連続相とも呼ばれる）内で液滴（不連続相とも呼ばれる）として懸濁又は分散されている第１の流体、例えば水に基づく流体が含まれてよい。使用できる油の例としてはミネラル油、シリコーン油、又はフッ素化油が挙げられるが、これらに限定されない。

更に、エマルションのいくつかの態様は、エマルションを安定化する作用をもつ界面活性剤を使用でき、これはＰＣＲ等特定の処理法に特に有用な可能性がある。界面活性剤のいくつかの態様には、１種類以上のシリコーン界面活性剤又はフッ素化界面活性剤を含めることができる。例えば、１種類以上の非イオン界面活性剤を使用でき、それには、モノオレイン酸ソルビタン（Ｓｐａｎ８０とも呼ばれる）、モノオレイン酸ポリオキシエチレンソルビタン（Ｔｗｅｅｎ８０とも呼ばれる）、又はいくつかの好ましい態様において、ジメチコーンコポリオール（dimethicone copolyol）（ＡｂｉｌＥＭ９０とも呼ばれる）、ポリシロキサン、ポリアルキルポリエーテル共重合体、ポレグリセロールエステル、ポロキサマー（poloxamer）類、及びＰＶＰ／ヘキサデカン共重合体（ＵｎｉｍｅｒＵ−１５１とも呼ばれる）、或いはより好ましい態様において、シクロペンタシロキサン中の高分子量シリコーンポリエーテル（ＤＣ５２２５Ｃとも呼ばれ、Dow Corningから入手できる）が含まれるが、これらに限定されない。

エマルションの液滴は、区画、マイクロカプセル、マイクロリアクター、微小環境、又は関連技術分野で一般に用いられる他の名称でも呼ぶことができる。水性液滴は、エマルションの成分又は組成物の組成、それに収容される内容物、及び採用する調製法に応じて変動するサイズ範囲にあってよい。前記エマルションは、その内部でＰＣＲ等の化学反応を実施できる微小環境を形成する。例えば、鋳型核酸及び所望のＰＣＲ反応を行うのに必要なすべての試薬は、カプセル封入することができ、かつエマルションの液滴中に化学的に隔離することができる。いくつかの態様においては追加の界面活性剤又は安定剤を用いて、前記の液滴の安定性をさらに増強することができる。ＰＣＲ法に典型的な熱サイクル操作は、カプセル封入された核酸鋳型を増幅するために液滴を使用して実行し、その結果、鋳型核酸の、多くの実質的に同一な複製物を含んだ集団が生成することができる。いくつかの態様において、液滴内の集団を「クローン隔離された」、「区画化された」、「封鎖された」、「カプセル封入された」、又は「局在化した」集団と呼ぶことができる。同様に本例において、前記の液滴の一部又は全部はさらに、鋳型及び鋳型の増幅コピー、鋳型に相補的な増幅コピー、又はその組合せを付着させるための、ビーズ等の固体担体を封入することができる。さらに固体担体は、他のタイプの核酸、試薬、標識、又は対象とする他の分子の付着を可能にする。

エマルションを破壊してビーズを回収した後、典型的態様において、それに固定した鋳型核酸分子の増幅に成功した実質的に同一であるコピーの集団を含むビーズを「濃縮」することが望ましい。例えば、「ＤＮＡ陽性」ビーズを濃縮するための方法には、固定された増幅コピーの遊離末端領域（典型的にはアダプター配列中にある）にプライマー種をハイブリダイズさせ、そのプライマーをポリメラーゼ仲介延長反応により伸長させ、そのプライマーを濃縮用担体、例えば磁性ビーズ又はセファロースビーズに結合させることが含まれてもよい。それらのビーズを含む溶液に選択的条件、例えば磁場をかけるか又は遠心分離を施すことができ、その際、濃縮用ビーズはその選択的条件に応答し、「ＤＮＡ陰性」ビーズ（即ち、固定されたコピーを全く又はわずかしか含まない）から分離される。

本明細書に記載する発明に有用なエマルションの態様は、前記の化学反応を多量に並行して実施できるきわめて高密度の液滴又はマイクロカプセルを含むことができる。増幅に用いるエマルション及び配列決定用としてのそれらの使用の他の例は、米国特許第７，６３８，２７６号、同７，６２２，２８０号、同７，８４２，４５７号、同７，９２７，７９７号、及び同８，０１２，６９０号、並びに米国特許出願第１３／０３３，２４０号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。

時には超深度配列決定（Ultra-Deep Sequencing）と呼ばれる配列決定用の標的特異的単位複製配列を生成する態様も、標的核酸を含む試料から選択した標的領域（単数又は複数）を増幅するための特異的核酸プライマーの一式の使用を含む本明細書に記載する発明に使用できる。さらに、試料は、研究又は診断用途と関連する配列組成を含む配列変異体を含有することが分かっているか又はその疑いがある核酸分子の集団を含むことができ、その際、それらのプライマーを用いて試料中の配列変異体を増幅させ、その分布を見抜くことができる。例えば、核酸試料中の多数の対立遺伝子の特異的増幅及び配列決定により配列変異体を同定するための方法を実施することができる。対象とする領域又は核酸集団に共通の区分（segment）を囲む領域を増幅するように設計したＰＣＲプライマー対により、核酸をまず増幅させる。ＰＣＲ反応の各生成物（第１単位複製配列）を、次いで別々の反応容器、例えば前記のエマルションに基づく反応容器内でさらに個別に増幅させる。それぞれ第１単位複製配列集団の１構成員に由来する得られた単位複製配列（本明細書中で第２単位複製配列と呼ぶ）を配列決定し、この配列集合体を用いて、存在する１種類以上の変異体の対立遺伝子頻度を決定する。重要なことは、この方法は存在する変異体を予め知る必要がなく、典型的には核酸分子の集団中に１％未満の頻度で存在する変異体を同定できることである。

前記の標的特異的な増幅及び配列決定法のいくつかの利点には、これまで達成されたものより高いレベルの感度が含まれ、これは鋳型核酸分子の混合集団を含む方式に特に有用である。更に、高処理量配列決定機器を用いる態様、例えば454 Life Sciences Corporationにより提供されるPicoTiterPlateアレイ（ＰＴＰプレート又はアレイとも呼ばれることもある）のウェルと呼ばれるものを用いる態様において、前記方法は実行又は実験１回につき１００，０００超、３００，０００超、５００，０００超、又は１，０００，０００超の核酸領域に関する配列組成を生成するのに使用することができ、また、この方法は少なくとも部分的に利用者の好み、例えばガスケット等の使用により可能になるレーン構成に依存するかもしれない。また、前記方法は、試料中に存在する対立遺伝子変異体の１％以下である可能性がある低存在度の対立遺伝子を検出する感度を提供する。前記方法の他の利点には、分析した領域の配列を含むデータが生成されることが含まれる。重要なことは、分析される遺伝子座の配列の予備知識をもつ必要がないことである。

配列決定のための標的特異的単位複製配列の更なる例が、２００５年４月１２日に出願された「Methods for determining sequence variants using ultra-deep sequencing（超深度配列決定を用いて配列変異体を決定するための方法）」と題された米国特許出願番号第１１／１０４，７８１号、２００８年３月１４日に出願された「System and Method for Detection of HIV Drug Resistant Variants（ＨＩＶ薬物耐性変異体の検出のためのシステム及び方法）」と題されたＰＣＴ特許出願番号第ＵＳ２００８／００３４２４号、２００９年６月１７日に出願された「System and Method for Detection of HIV Tropism Variants（ＨＩＶ向性変異体の検出のためのシステム及び方法）」と題された米国特許第７，８８８，０３４号、２００９年１１月１９日に出願された「SYSTEM AND METHOD FOR DETECTION OF HIV INTEGRASE VARIANTS（ＨＩＶインテグラーゼ変異体の検出のためのシステム及び方法）」と題された米国特許出願番号第１２／５９２，２４３号において記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。

更に、配列決定の態様は、サンガー（Sanger）型手法、即ち、一般にハイブリダイゼーションによる配列決定（Sequencing by Hybridization）（ＳＢＨ）、連結による配列決定（Sequencing by Ligation）（ＳＢＬ）、又は取り込みによる配列決定（Sequencing by Incorporation）（ＳＢＩ）と呼ばれる手法を含むことができる。配列決定法には、ポロニー配列決定法（polony sequencing technique）と呼ばれるもの、並びにナノポア、導波、及び他の単分子検出法、又は可逆性ターミネーター法も含めることができる。前記のように、好ましい手法には、合成による配列決定（Sequencing by Synthesis）法を含めることができる。例えば、いくつかのＳＢＳ態様は、核酸鋳型の実質的に同一であるコピーの集団を配列決定するものであり、一般的に、試料鋳型分子の予め定めた相補的位置にアニールするように設計された１つ以上のオリゴヌクレオチドプライマー、又は鋳型分子に結合した１つ以上のアダプターを用いる。このプライマー／鋳型複合体に、核酸ポリメラーゼ酵素の存在下でヌクレオチド種が提示される。そのヌクレオチド種が、試料鋳型分子のオリゴヌクレオチドプライマーの３’末端のすぐ隣の配列位置に対応する核酸種に対して相補的であれば、ポリメラーゼがそのヌクレオチド種でプライマーを伸長する。あるいは、いくつかの態様において、プライマー／鋳型複合体に複数の対象とするヌクレオチド種（典型的にはＡ、Ｇ、Ｃ、及びＴ）が一度に与えられ、オリゴヌクレオチドプライマーの３’末端に直接隣接している試料鋳型分子の対応する配列位置で相補的なヌクレオチド種が取り込まれる。上記のいずれの態様においても、それ以上の延長を阻止するためにヌクレオチド種を化学的に保護する（例えば、３’−Ｏ位置において）ことができ、それは次回の合成の前に脱ブロックする必要がある。当然であるが、ヌクレオチド種を新生分子の末端に付加するプロセスは、プライマーの末端への付加について前記に述べたものと実質的に同じである。

上記のように、ヌクレオチド種の取り込みは当技術分野で知られている様々な方法により、例えば光を発生する酵素反応過程を用いてピロリン酸（ＰＰｉ）の放出を検出することにより、又は水素イオン（Ｈ^＋）放出の検出及びｐＨの変化の測定により（例は、米国特許第６，２１０，８９１号、第６，２５８，５６８号、及び第６，８２８，１００号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する）、又はそのヌクレオチドに結合させた検出可能な標識により検出することができる。検出可能な標識のいくつかの例には、質量タグ及び蛍光又は化学発光標識が含まれるが、それらに限定されない。典型的な態様において、取り込まれなかったヌクレオチドは例えば洗浄により除去される。更に、いくつかの態様において、その組み込まれなかったヌクレオチドに、例えば２００８年６月２７日に出願された「System and Method for Adaptive Reagent Control in Nucleic Acid Sequencing（核酸配列決定における適応性試薬制御のためのシステム及び方法）」と題された米国特許出願番号第１２／２１５，４５５号、及び２００９年１月２９日に出願された「System and Method for Improved Signal Detection in Nucleic Acid Sequencing（核酸配列決定における向上した信号検出のためのシステム及び方法）」と題された米国特許出番号第１２／３２２，２８４号（それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する）に記載されているようなアピラーゼ又はピロホスファターゼ酵素を用いる分解等の酵素的分解を施すことができる。

検出可能な標識が使用される態様では、検出可能な標識を、典型的には次の合成サイクルの前に（例えば、化学的切断又は光脱色により）不活性にする必要がある。次いで、鋳型／ポリメラーゼ複合体中の次の配列位置を、上述のように、別のヌクレオチド種、又は複数の対象とするヌクレオチド種を用いて照会することができる。ヌクレオチド付加、伸長、信号取得、及び洗浄からなるサイクルが繰り返された結果、鋳型鎖のヌクレオチド配列が決定される。本例を続けることにより、信頼できる検出のために十分に強い信号を実現するために、実質的に同一の多数の鋳型分子又は集団（例えば、１０^３、１０^４、１０^５、１０^６、又は１０^７個の分子）が、任意の１つの配列決定反応で同時に分析される。

更に、いくつかの態様において、「対合末端（paired-end）」配列決定法とでも呼ばれる方法を用いることにより配列決定ステップの読み取り長能力及び質を改善することが有利であると考えられる。例えば、いくつかの態様の配列決定法では、高品質で信頼できる読み取りを得ることができる分子の全長に制限がある。言い換えると、信頼できる読み取り長を得るための配列位置の総数は、使用する配列決定の態様に依存し、２５、５０、１００、又は５００塩基を超えることができない。対合末端配列決定法は、それぞれの末端が中央でリンカー配列により連結した元の鋳型核酸分子の断片を含む分子のそれぞれの末端（「タグ」末端と呼ばれることもある）を個別に配列決定することによって、信頼できる読み取り長を延長する。それらの鋳型断片の元の位置関係は分かっているので、配列読み取りから得られるデータを再度組み合わせて、より長い高品質の読み取り長をもつ単一の読み取りにすることができる。対合末端配列決定の態様の更なる例は、「対合末端配列決定（Paired end sequencing）」と題された米国特許第７，６０１，４９９号、及び２００９年１月２８日に出願された「対合末端配列決定」と題された米国特許出願番号第１２／３２２，１１９号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。

ＳＢＳ装置のいくつかの例は上記の方法の一部又は全部を実施することができ、それには検出装置、例えば光学的検出のための電荷結合装置（即ち、ＣＣＤカメラ）若しくは共焦点型構築物、イオン若しくは化学物質の検出用構築物のためのイオン感応性電界効果トランジスタ(Ion-Sensitive Field Effect Transistor)（「ＩＳＦＥＴ」とも呼ばれる）若しくは化学感応性電界効果トランジスタ(Chemical-Sensitive Field Effect Transistor)（「ＣｈｅｍＦＥＴ」とも呼ばれる）、微少流体反応器若しくはフローセル、反応担体、及び／又はポンプ及び流動弁の内の１種類以上を含むことができる。ピロリン酸に基づく配列決定法の例をとれば、いくつかの態様の装置は、発生する背景ノイズのレベルが本質的に低い化学発光検出法を採用できる。

いくつかの態様において、配列決定のための反応担体には、平面担体、例えばスライド型担体、ＩＳＦＥＴ検出要素を収容したウェル型構造物を含む半導体チップ、又はいくつかの態様においてウェル型構造物を含むことができる導波管型反応担体を含めることができる。さらに、反応担体には、前記のように454 Life Sciences Corporationから入手できるＰＴＰアレイと呼ばれるものを含めることができ、これは実質的に同一である鋳型分子の集団をそれぞれが保持できるようにした無数のきわめて小さなウェルを生成するように酸エッチングされた光ファイバー面板から形成される（即ち、いくつかの好ましい態様は、約３３０万個のウェルを７０×７５ｍｍのＰＴＰアレイに３５μｍのウェル間隔幅で含む）。いくつかの態様において、実質的に同一である鋳型分子の各集団をそれぞれ、固体担体、例えばビーズ表面に配置することができ、そのそれぞれを上記のウェルの１つの中に配置することができる。例えば、ある装置では、流体試薬をＰＴＰプレートホルダーへ供給するための試薬送達要素、及びＰＴＰプレートのそれぞれのウェルから放射された光の光子を収集できるＣＣＤ型検出装置が含まれてもよい。改善された信号認識のための特性を含む反応担体の例は、２００５年８月３０日に出願された「THIN-FILM COATED MICROWELL ARRAYS AND METHODS OF MAKING SAME（薄膜でコートされたマイクロウェルアレイ及び同じものを作る方法）」と題された米国特許第７，６８２，８１６号において記載されており、その内容は引用することにより、あらゆる目的で全体を本願に援用する。ＳＢＳ型配列決定及びピロリン酸配列決定を実施するための装置及び方法の更なる他の例が米国特許第７，３２３，３０５号及び同第７，５７５，８６５号において記載されており、その両方の内容は引用することにより、本願に援用する。

更に、１つ以上の試料調製ステップ、例えば、上記のｅｍＰＣＲステップを自動化するシステム及び方法を採用できる。例えば、自動化された系は、ｅｍＰＣＲ処理用のエマルションを生成するのに有効な溶液を提供するＰＣＲ熱サイクル操作を実施すること及び配列決定用の核酸分子のうまく調製された集団の濃縮をすること等に利用することができる。自動化された試料調製システムの例は、米国特許第７，９２７，７９７号及び米国特許出願番号第１３／０４５，２１０号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。

また、本明細書の態様に記載する発明のシステム及び方法には、コンピュータシステムで実行するために記憶させたコンピュータで読み取り可能な媒体を用いるいくつかの設計、分析、又は他の操作の実施が含まれてもよい。例えば、検出された信号を処理する、及び／又はＳＢＳ系及び方法を用いて生成されたデータを分析するためのいくつかの態様が下記で詳細に記述されており、その処理及び分析の態様はコンピュータシステムで実施可能である。

いくつかの態様では、データ処理応用プログラムは、ＣＡＦＩＥ誤差の蓄積の生配列データを補正するためのアルゴリズムを含む。例えば、ＣＡＦＩＥ誤差要因の一部又はすべてを正確に近似計算して理論上のフローグラムモデルに使用して、実際の配列決定実行から得られる実データの表現を提供し、続いて反転数学モデルを用いて、観察されたフローグラムから理論上のフローグラムを近似計算する。従って、誤差の近似計算は、観察されたフローグラムに表現される実際の配列決定データに使用することができ、すべて又は実質的にすべての誤差要因が除去された目的の核酸の配列組成を表現する理論上のフローグラムを作成する。ＣＡＦＩＥ補正の態様の更なる例は、米国特許第８，３０１，３９４号及び同第８，３６４，４１７号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。

本明細書に記述された発明に使用するコンピュータシステムの代表的態様には、あらゆる種類のコンピュータプラットホーム、例えば、ワークステーション、パーソナルコンピュータ、サーバ、又はあらゆる他の現在又は将来のコンピュータが含まれてもよい。但し、本明細書に記述された上記コンピュータプラットホームは本発明の特殊な操作を実施するために特別に構築されたものであり、汎用コンピュータとは考えられないことは、当業者は分かっている。コンピュータには、典型的には、既知の構成要素、例えばプロセッサ、オペレーティングシステム、システムメモリ、メモリ記憶装置、入出力制御装置、入出力装置、及び表示装置が含まれる。コンピュータの多くの可能性のある構成及び構成要素は多数あり、それにはキャッシュメモリ、データバックアップ装置、及び他の多数の装置も含まれることも当業者は理解している。

表示装置には視覚情報を提供する表示装置が含まれてよく、この情報は典型的にはピクセルのアレイとして論理的及び／又は物理的に組織化されていてよい。インターフェース制御装置も含まれてもよく、それは入出力インターフェースを提供するための多様な既知又は将来のソフトウェアプログラムの任意のものを含むことができる。例えば、インターフェースには１種類以上の図形表現を使用者に提供する、一般に「図形使用者インターフェース（Graphical User Interface）」と呼ばれるもの（ＧＵＩと呼ばれることが多い）が含まれてもよい。インターフェースは典型的には、当業者には既知の選択若しくは入力の手段を用いて使用者の入力を受けることができるようになっている。

同じ又は別の態様において、コンピュータの応用プログラムには「コマンドラインインターフェース」と呼ばれる（ＣＬＩと呼ばれることが多い）ものを含むインターフェースを使用できる。ＣＬＩは典型的には応用プログラムと使用者の間のテキストに基づく対話を提供する。典型的には、コマンドラインインターフェースは、表示装置を通してテキストのラインとして出力を与え、入力を受ける。例えば、一部の実施には「シェル」と呼ばれるもの、例えば、当業者に既知のUnix（登録商標）シェル、又はMicrosoft.NETフレームワーク等のオブジェクト指向型プログラミングアーキテクチャを用いるMicrosoft Windows Powershellを含むことができる。

当業者は、インターフェースに１つ以上のＧＵＩ、ＣＬＩ又はそれらの組み合わせが含まれてよいことを理解している。
処理装置には、市販の処理装置、例えばIntel Corporation製のCeleron、Core、又はPentium（登録商標）処理装置、Sun Microsystemsにより作られたＳＰＡＲＣ処理装置、AMD corporation製のAthlon、Sempron、Phenom、又はOpteron処理装置が含まれてよく、又はそれは入手可能な、又は今後入手可能になる他の処理装置の１つであってもよい。処理装置のいくつかの態様は、マルチコア処理装置と呼ばれるもの、及び／又は単独又は多重コア構成の並列処理技術を用いることにしたものを含むことができる。例えば、マルチコアアーキテクチャは典型的には２個以上の処理装置の「実行コア」を含む。本例では、それぞれの実行コアは多重スレッドの並列実行を可能にする独立した処理装置として機能することができる。更に、処理装置は一般に３２又は６４ビットアーキテクチャと呼ばれるもの、又は現在知られている又は将来開発される可能性のある他のアーキテクチャ構成物で構成されていてよいことを当業者は理解している。

処理装置は典型的にはオペレーティングシステムを実行し、それは例えばMicrosoft CorporationからのWindows（登録商標）型オペレーティングシステム（例えばWindows XP、Windows Vista、又はWindows_7）、Apple Computer Corp.からのMac OS Xオペレーティングシステム（例えばMac OS X v10.6「Snow Leopard」オペレーティングシステム）、多数の業者若しくはオープンソースと呼ばれるものから入手可能なUnix（登録商標）若しくはLinux（登録商標）型オペレーティングシステム、別の若しくは未来のオペレーティングシステム、又はその何らかの組み合わせであってよい。オペレーティングシステムは周知の方式でファームウェア及びハードウェアとインターフェース構築されており、様々なプログラミング言語で書かれる可能性のある各種コンピュータプログラムの機能をプロセッサが組み合わせて実行するのを容易にする。オペレーティングシステムは、典型的には処理装置と協同して、コンピュータの他の構成要素の機能を組み合わせて実行する。オペレーティングシステムはスケジューリング、入出力制御、ファイル及びデータの管理、メモリ管理、並びに通信制御及び関連するサービスも提供し、それらはすべて既知の技術に従う。

システムメモリには、様々な既知の、又は未来のメモリ記憶装置の任意のもの含めることができる。例としては、任意の一般的に入手可能なランダムアクセスメモリ（ＲＡＭ）、磁気媒体（例えば常駐ハードディスク若しくはテープ）、光学媒体（例えば読み取り及び書き込み用コンパクトディスク）、又は他のメモリ記憶装置を挙げられる。メモリ記憶装置には、コンパクトディスクドライブ、テープドライブ、着脱式ハードディスクドライブ、ＵＳＢ若しくはフラッシュドライブ、又はディスケットドライブが含まれる様々な既知の、又は未来の装置の任意のものを含めることができる。そのような種類のメモリ記憶装置は典型的にはプログラム記憶媒体、例えばそれぞれコンパクトディスク、磁気テープ、着脱式ハードディスク、ＵＳＢ若しくはフラッシュドライブ、又はフロッピー（登録商標）ディスクから読み取り、及び／又はそれらに書き込む。これらのプログラム記憶媒体、又は現在用いられている、又は後に開発される可能性のある他のものすべてが、コンピュータプログラム製品と考えることができる。当然であるが、これらのプログラム記憶媒体は、典型的にはコンピュータソフトウェアプログラム及び／又はデータを記憶する。コンピュータ制御論理とも呼ばれるコンピュータソフトウェアプログラムは、典型的にはシステムメモリ及び／又はメモリ記憶装置と合わせて用いられるプログラム記憶装置中に記憶されている。

いくつかの態様において、その中に記憶された制御論理（プログラムコードが含まれるコンピュータソフトウェアプログラム）を有するコンピュータで使用可能な媒体を含むコンピュータプログラム製品を記述する。その制御論理は、処理装置により実行されると、処理装置に本明細書で記述した機能を実行させる。他の態様において、一部の機能は例えばハードウェア状態機械（hardware state machine）を用いて、主にハードウェアにおいて実施される。本明細書で記述した機能を実施するハードウェア状態機械の実施は当業者には明らかである。

入出力制御装置は、ヒトであろうと機械であろうと、ローカルであろうと遠隔であろうと、使用者からの情報を受け取り、処理するための任意の様々な既知の装置を含むことができる。そのような装置としては、例えば、モデムカード、ワイヤレスカード、ネットワークインターフェイスカード、サウンドカード、又は任意の様々な既知の入力装置の他の種類の制御装置が挙げられる。出力制御装置は、ヒトであろうと機械であろうと、ローカルであろうと遠隔であろうと、使用者に情報を与えるための任意の様々な既知の表示装置のための制御装置が含むことができる。本明細書で記述した態様において、コンピュータの機能要素はシステムバスを介して互いと通信する。コンピュータのいくつかの態様では、ネットワーク又は他の種類の遠隔通信を用いていくつかの機能要素と通信することができる。

当業者には自明であるが、機器制御及び／又はデータ処理応用プログラムは、ソフトウェアで実施される場合、システムメモリ及び／又はメモリ記憶装置にロードされ、それから実行できる。機器制御及び／又はデータ処理応用プログラムの全部又は一部がそのメモリ記憶装置の読み取り専用メモリ又はそれに類する装置中に存在していてもよく、そのような装置はその機器制御及び／又はデータ処理応用プログラムを入出力制御装置によって最初にロードする必要はない。当業者には、機器制御及び／又はデータ処理応用プログラム、又はその一部を処理装置によって既知の方法で、実行に有利なようにシステムメモリ若しくはキャッシュメモリ又は両方にロードしてもよいことは、当業者には理解される。

また、コンピュータは、システムメモリ中に記憶された１つ以上のライブラリーファイル、実験データファイル、及びインターネットクライアントを含むことができる。例えば、実験データは、１つ以上の実験若しくはアッセイに関連するデータ、例えば１つ以上のＳＢＳ実験又は方法と関係する検出信号値、又は他の値を含むことができる。更に、インターネットクライアントは、ネットワークを用いて別のコンピュータの遠隔サービスにアクセスすることを可能にする応用プログラムを含んでもよく、例えば一般に「ウェブブラウザ」と呼ばれるものを含んでいてもよい。本例において、いくつかの一般的に用いられるウェブブラウザには、Microsoft Corporationから入手できるMicrosoft Internet Explorer 8、Mozilla CorporationからのMozilla Firefox 3.6、Apple Computer Corp.からのSafari 4、Google CorporationからのGoogle Chrome、又は当技術分野で現在知られている、若しくは将来開発される可能性のある他の種類のウェブブラウザが含まれる。同様に、同じ又は他の態様において、インターネットクライアントにはネットワークを介して遠隔情報にアクセスできるように特殊化されたソフトウェア応用プログラム、例えば生物学的応用プログラム用のデータ処理応用プログラムが含まれていてよく、又はインターネットクライアントはそれらの要素であってもよい。

ネットワークは、当業者に周知の多種多様な種類のネットワークの内の１種以上を含むことができる。例えば、ネットワークは、一般にＴＣＰ／ＩＰプロトコルスイートと呼ばれるものを通信に用いるローカルエリアネットワーク又は広域ネットワークを含めることができる。ネットワークには、一般にインターネットと呼ばれる世界的な相互接続されたコンピューターネットワークのシステムを含むネットワークを含むことができるか、あるいはイントラネットアーキテクチャーも含むことができる。ネットワーク接続環境にある使用者によっては、一般に「ファイアウォール」と呼ばれるもの（場合によりパケットフィルタ、又はボーダー保護デバイスと呼ばれる）を使用して、ハードウェア及び／又はソフトウェアシステムとを往来する情報トラフィックを制御することを好む場合があることも当業者は理解する。例えば、ファイアウォールはハードウェア若しくはソフトウェア要素又はその何らかの組合せを含むことができ、一般に、例えば、ネットワーク管理者等の使用者が導入したセキュリティー基本方針を整備するように設計されている。
ｂ．本明細書に記載された発明の態様
上述したように、本明細書に記述された発明は、一般にＳＢＳ法と呼ばれるものによって生成される核酸配列データの位相同期誤差の蓄積を最小にするように設計された位相同期フロー順序の態様を生成及び使用するシステム及び方法に関する。

典型的な配列決定の態様において、１つ以上の工程ステップを自動化する１つ以上の機器要素を使用できる。例えば、配列決定法の態様は、一部又は全部の段階を自動化して実施する機器装備を用いて実行できる。図１は、配列決定機器１００の図例を示し、これは、光信号を捕獲する必要がある配列決定ステップのために、一般に、反応担体１０５で行なわれる配列決定反応の実行及びデータ取得のための光学サブシステム及び流体サブシステムを含む。しかし、他のモードのデータ取得（即ち、ｐＨ、温度、電流、電気化学等）を必要とする配列決定法についてはそのモードのデータ取得のための当業者に既知のサブシステムを採用できることは当然である。例えば、鋳型分子の試料を使用者１０１又は何らかの自動化態様により反応担体１０５に装填し、次いで配列決定機器１００を用いて多量に並行して配列決定して、それぞれの鋳型分子の配列組成を示す配列データを得ることができる。重要なことだが、使用者１０１には配列決定技術のいかなる種類の使用者を含んでもよい。

いくつかの態様において、機器１００を用いる配列決定の必要な試料調製ステップの一部又は全部を実施するように構成された試料調製機器１８０を用いて、試料を所望により全自動化又は部分自動化様式での配列決定用に調製できる。試料調製機器１８０は説明のために提示され、個々の配列決定アッセイに必要な試料調製と関連する段階の一部又は全部を実施するようにそれぞれ設計された１台以上の機器を表わしてよいことを当業者は分かっている。試料調製機器の例には、ロボット式プラットホーム、例えばHamilton Robotics、Fluidigm Corporation、Beckman Coulter、又はCaliper Life Sciencesから入手できるものが含まれる。

さらに、図１に示すように、配列決定機器１００は１つ以上の外部コンピュータ構成要素、例えばコンピュータ１３０に作動可能な状態で連携していてもよく、これは例えばシステムソフトウェア又はファームウェア、例えば応用プログラム１３５を実行することができ、これは１つ以上の機器、例えば配列決定機器１００又は試料調製機器１８０の指示制御、及び／又はデータ分析機能を提供できる。コンピュータ１３０は更に他のコンピュータ又はサーバにネットワーク１５０を介して作動可能な状態で接続していてもよく、これは機器システムを遠隔操作でき、大量のデータを記憶及び処理が可能なシステムに出力（export）することができる。本例において、配列決定機器１００及び／又はコンピュータ１３０は、本明細書に一般的に記載した態様の構成要素及び特徴の一部又は全部を含むことができる。

上述したように、いくつかの既述した態様は、各々のフローの検出された信号値を補正し、一定のレベルのＣＦ及びＩＥを仮定して、任意の既知の配列について位相同調喪失の程度を計算することによって蓄積されたＣＡＦＩＥ誤差を説明するシステム及び方法を含む。

以下に例示した表１は、様々な読み取り長について、９９％以上の精度をもたらす（即ち、読み取りが鋳型分子の実際の配列の少なくとも９９％を表す）、ＩＥ及びＣＦについての数学的にモデル化された閾値の例を提供する。表１に示す予測値は、様々な読み取り長の配列決定精度、及び約９９％の読込み精度を達成するのに許容可能なＩＥ及びＣＦ誤差の程度に及ぼすＣＦ及びＩＥ効果の影響を示す。表１は、補正されていない読み取りについて、約１００の配列位置の読み取り長が９９％正確である（即ち、９９％以上の完了効率）ために、１％以下のＣＦ率が許容できる（その集団についてのＩＥが０に等しいと仮定して）ことを示す。さらに、約１００の配列位置の読み取り長が９９％正確であるために、０．２５％以下のＩＥ率が許容できる（ＣＦ率が０に等しいと仮定して）。

表１に与えられた値は、例示の目的のみのためであり、限定のためとみなされるべきでないことは当然である。ゲノム配列又は参照配列、及び予測を立てるのに使用される他のパラメータ等のいくつかの要因が、値のばらつきの一因となり得ることを、当業者は分かっている。例えば、ＳＢＳ法の典型的な態様では、一般に、１〜２％の範囲であるＣＦ率を実現する一方で、ＩＥ率は、０．１〜０．４％の範囲である（即ち、完了効率は９９．６〜９９．９％の範囲である）。上述したように、位相同調性の喪失は、読み取り長に対して蓄積作用を有し、読み取り長が長くなるにつれて読み取りの品質を劣化させるので、ＣＦ及びＩＥの補正及び／又は低減は望ましい。

いくつかの先に記載した態様では、ＣＦ及びＩＥの両方を表す値は、例えば、PicoTiterPlateアレイ又はＩＳＦＥＴ型デバイス等の他のタイプのウェルのアレイの１つのウェル内に存在する鋳型分子の集団等の実質的に同一の鋳型分子集団の読み取り全体にわたって実質的に一定であると仮定される。その結果、鋳型分子の実際の配列の何らかの先験的な知識がなくても、２つの単純なパラメータである「完了効率」及び「繰越」を使用して、読み取り全体にわたる各配列位置の数値を補正することができる。先に記載した態様のシステム及び方法は、鋳型分子の集団中に発生するＣＦ及びＩＥの量を求め、これらを補正するのに非常に効果的であることが見出された。例えば、ＣＦ及びＩＥを説明するために、各ウェル中に存在する実質的に同一の鋳型分子の各集団について、各フローから検出される信号値の補正を適用する既出の補正の態様が実施された。

既述の態様は、位相同調の欠如を非線形マッピングとしてモデル化する。即ち、
方程式（１）：
Ｍ（ｐ，ε，λ）＝ｑ
ここで、
− Ｍは、ＣＡＦＩＥマッピングであり、
− ｐは、理論上のフローグラム［アレイとして］であり、
− λは、完了効率パラメータであり、
− εは、繰越パラメータであり、
− ｑは、観察されたフローグラム［アレイとして］である。

理論上のフローグラムを、方程式（１）のマッピングモデル式を使用して現実に観察されたフローグラムに変換することによって、ＩＥ及びＣＦを見積もることができる。そのようなマッピング式のモデルは、例えば、既知の配列を有するポリヌクレオチド鋳型分子を配列決定することにより観察されたフローグラム（ｑ）に導入される誤差を分析することによって生成することができる。

例えば、理論上のフローグラム（ｐ）は、反応環境に導入されたヌクレオチド種に関連した理想化された信号強度値を提供し、理論上のフローグラムのそれぞれの理想化された値は、整数又はゼロである。本例では、「１」の値は、１個のヌクレオチド取り込みによって誘発された１００％検出された信号強度を表し、「０」は、０％の信号を表す（例えば、１００万の実質的に同一の鋳型分子及び１００万の新生分子の集団を含むウェル中で、「１」は、すべての新生分子が１個のヌクレオチドによって伸長される場合に誘発される信号を表し、「２」は、すべての新生分子が２個のヌクレオチドによって伸長される場合に誘発される信号を表す）。あるいは、観察された（又はシミュレーションされた）フローグラム（ｑ）は、反応環境に導入されたヌクレオチド種に関連した実際に測定された信号強度値を提供する。

本例では、理論上のフローグラム（ｐ）と、観察されたフローグラム（ｑ）との間の信号強度値の差は、各々のフローの繰返しでは、少なくとも部分的に位相同期の損失を表す。例えば、観察されたフローグラム（ｑ）に表される信号値は整数ではなく、ヌクレオチド種のフローの同じ繰返しでは、一般に、理論上のフローグラム（ｐ）に表される理想値よりわずかに大きいか、又はわずかに小さい。

「Ｍ」として表現されるマッピングモデルは、ＣＦ及びＩＥパラメータの既知の値を使用して見積もることができる。例えば、ＣＦ及びＩＥパラメータは、ε（繰越）パラメータ及びλ（完了効率）パラメータを含む。ＣＦ及びＩＥパラメータは、マッピングモデルＭを見積もり、理論上のフローグラム（ｐ）の信号値を観察されたフローグラム（ｑ）の値に変換するために使用してもよい。本例では、マッピングモデルＭによって表される誤差値は、フローの各々の繰返しと共に蓄積し、指数関数的に増加する。

上記の例を続けると、実質的に同じ鋳型分子の各々の集団に関連する位相同期した配列決定反応は、フローの繰返し後、位相同期した３つの異なる亜集団になる。この亜集団は、フロー中のヌクレオチド種が、鋳型分子に対して適切な配列位置に適切に組み込まれる位相同期反応の第１の亜集団と（たとえば、ＣＡＦＩＥ効果はない）、ＣＦメカニズムによる不適切な取り込みが生じ、反応が、第１集団に対する配列位置より先に進む位相同期反応の第２亜集団と、ＩＥメカニズムによる不適切な取り込みが生じ、反応が、第１集団の配列位置より遅れる位相同期反応の第３亜集団とを含む。本例では、次のフロー繰返しで、３つの亜亜集団は、上記の３つの亜集団の各々から生じるという具合である。当業者は、ｎ番目のフローの繰返しで、フローｎで信号を生じる位相同期の３^ｎの集団があることを理解する。

更に上記の例を続けると、逆マッピングモデルＭは、ＣＦ及びＩＥパラメータの正確な値（例えば、ε（繰越）及びλ（完了効率）パラメータの両方の値）の見積もりを用い、観察されたフローグラム（ｑ）の信号値は逆にして、理論上のフローグラム（ｐ）の信号値を与える。

いくつかの態様は、以下に概略を示す２つの連続的な段階（ｉ）及び（ｉｉ）で、反転したマッピングを実行する。
各々のヌクレオチド種のフローｉについて、
（ｉ）−ヌクレオチド種の添加により、新生分子を伸長する。

（ｉｉ）−前の添加から残るヌクレオチド種により、新生分子を伸長する。

ここで、
− ｐ_ｉは、ｉ番目のヌクレオチド種のフローで、理論上の（クリーンな）フローグラムの信号値であり、
− ｑ_ｉは、ｉ番目のヌクレオチド種のフローで、観察されたフローグラムの信号値であり、
− ｍ_ｉは、ｉ番目のヌクレオチド種のフローのフローグラム配列位置で、取り込みに使用できるヌクレオチド種分子の画分であり、
− Ｎ_ｉは、ｉ番目のヌクレオチド種添加（Ａ、Ｃ、Ｇ、又はＴ）であり、
− εは、繰越（ＣＦ）パラメータであり、
− λは、完了効率パラメータ（ＩＥ）であり、
− （ｊ、ｊ’）は対の指数であり、ｐ_ｊ’はフローグラムのｐ_ｊの次の正の値である。

いくつかの態様において、フローごとにマッピングモデルを用いた計算を実行し帰納的に、観察されたフローグラム（ｑ）及び鋳型分子の画分ｍを段階（ｉ）及び段階（ｉｉ）を通じて更新する。

以下で、より詳細に記述されるように、順行列モデルを、逆行列モデルを誘導するために使用することができる。例えば、逆行列モデルを用いる行列計算を正しいＣＦ及びＩＥのパラメータの見積もり値を導出するために使用することができる。例えば、ＣＦ及びＩＥパラメータの様々な値を行列計算に使用し、観察されたフローグラムへの適合の程度について評価することができる。典型的には、観察されたフローグラム（ｑ）に対して最適なＣＦ及びＩＥパラメータ値は、ＣＦ及びＩＥパラメータの実際の値として良好な見積もり値であると判定される。

同じ例において、順行列モデルを使用する順行列計算は、完了効率値λ＝０．９５及び繰越値ε＝０．０５を含むＣＦ及びＩＥパラメータを使用して、観察されたフローグラム（ｑ）を生成させることができる。順行列のフローの反復に関連する各々の列は、各々のヌクレオチド種のフローに関する帰納的な段階（ｉ、ｉｉ）の演算及び結果を記録する。

方程式（１）及び帰納的段階（ｉ、ｉｉ）は、行列アレイ演算として書き換えることができる。
方程式（２）：
［Μ（ｐ’，ε，λ）］^＊ｐ＝ｑ
ここで、
− ［Μ（ｐ’，ε，λ）］は行列であり、
− ^＊は行列アレイの乗算であり、
− ｐ’は、理論上のフローグラムの２進コード化リストである
（例えば、図１のフローグラムｐ、ｐ＝［０１０２００１０３０１２］^ｔは、ｐ’＝［０１０１００１０１０１１］^ｔとしてコード化される）。
方程式（２）の逆行形から、逆マッピングが得られ、観察されたフローグラム（ｑ）１０３が理論上のフローグラム（ｐ）１０１に戻して変換される。

方程式（３）：
ｐ＝［Μ^−１（ｐ’，ε，λ）］^＊ｑ
ここで、
− ［Μ^−１（ｐ’，ε，λ）］は逆行列である。

反転の方程式（３）を解くために反復法を使用し、各読み取りについての理論上のフローグラム（ｐ）を得る。この反復は、ＣＡＦＩＥ反転に対して与えられた１対のパラメータ（ε、λ）を用いて実施される。

方程式（４）：
ｐ^{（ｎ＋１）}＝［Ｍ^−１（ｐ’^（ｎ），ε，λ）］^＊ｑ
ここで、ｐ’^（１）＝ｑ’が計算の種として使用される。

本明細書に記載の例においても、また、逆行列モデルを使用する逆行列計算は、完了効率値λ＝０．９５及び繰越値ε＝０．０５を含むＣＦ及びＩＥパラメータを使用して、観察されたフローグラム（ｑ）から理論上のフローグラム（ｐ）を生成させることができる。

閾値の値は、システムの信号対ノイズ比の見積もり値を表すために使用される。例えば、ある実施では、固定値である閾値≡０．２を使用することができる。そのような実施では、フローグラムｑに関連する２進コード化リストｑ’は、フローグラム値ｑが０．２より大きいとき、値「１」をコード化し、フローグラム値ｑが０．２以下であるとき、値「０」をコード化する。本例では、閾値０．２は、上述したように信号対ノイズ比の見積もり値である。

あるいは、いくつかの実施では、閾値を使用することができ、与えられた１対のパラメータ（ε、λ）に関する方程式（４）によってクリーンな理論上のフローグラム（ｐ）に反転することができる。多くの実施では、フローグラム反転の単一の反復で一般に十分である。いくつかの実施では、フローグラム表現の精度が各反復とともに改善され得る場合、特により長い読み取り長について、計算が所望の品質で解に収束するまで、フローグラム反転を２回、３回又はそれ以上の回数の反復を実施することが望ましい場合がある。いくつかの態様において、フローグラム反転の１回又は２回の反復を、計算効率の利益のために実施することができる。また、コンピュータコードによって実施されるいくつかの態様は、使用者が、多くの繰返しを選択し、ユーザの選択に応じて各々の繰返しを実行するか、あるいは連続的に実行することを可能にする。例えば、使用者は、１つ又は複数の領域への値の入力、又はＧＵＩで提示されたボタンの選択等、当技術分野で公知の方法を使用して選択を実施することができる。本例では、使用者は、実施するための反復の数を示す値を入力することができ、また使用者は、本発明の反復を実行するためボタンを選択することができる。さらに、ユーザは、データ品質の目安を選択し、本発明を繰り返してデータ品質のレベルを達成することができる。

いくつかの態様では、ＣＦ及びＩＥパラメータの値の見積もりは、方程式（４）を使用して決定することができる。例えば、完了効率パラメータ（λ）の最適値は、異なる値を完了効率パラメータとして入力し、固定値をＣＦパラメータとして使用することにより、方程式（４）を使用して試験計算を実施して決定することができる。本例では、一定のＣＦ値ε＝０とし、λ＝１、０．９９９、０．９９８、．．．、０．９９０の値を連続して使用し、各々の結果を得ることができる。異なる態様においては、λ値の間の０．００１の間隔を、他の間隔、例えば、０．０５、０．０１、０．００５、０．００１、０．０００５、０．０００１等の間隔値によって置き換えることができる。

本例を継続して、計算された理論上のフローグラム（ｐ）におけるフローバーの任意の信号値がλの入力値を使用して方程式（４）を解いた後に、０未満に下がる場合、そのλ値は、最適な完了効率パラメータの値と判定される。λの最適値が決定された後、引き続いてより小さいλ値を使用すると、「過剰適合」と呼ばれるものをもたらし、人為的に負のフロー信号を生成する。また、本例では、単独重合体を表す長い一連のフローバー（例えば、同じヌクレオチド種を含む一連の配列位置）の後の配列位置における何らかのフローバーについて補正された信号値は０未満に下がる場合がある。このゼロ交差点は、最適な完了効率は、以下でλ^＊として表される。

同様に、いくつかの態様では、ＣＦの効果も同様の手法によって対処することができる。例えば、ＣＦパラメータの値を試験することができ、例えば、完了効率パラメータλを上述の値λ^＊に固定したε＝０、０．００２５、０．００５、０．００７５、０．０１、．．．、０．０４の値を含むことができる。本例では、εの入力値間の間隔０．００２５は、例示目的の提示であり、他の小さい間隔値、例えば、０．０５、０．０１、０．００５、０．００１、０．０００５、０．０００１、０．００００１等の間隔値に置き換えることができる。計算された理論上のフローグラム（ｐ）におけるフローバーの任意の信号値が、εの入力値を使用して方程式（４）を解いた後に、０未満に下がる場合（例えば、λ経路に沿って検索していた間に０未満に下がったフローバーの信号値以外のフローバーの任意の信号値）、そのε値は、最適なＣＦパラメータの値と判定される。εの最適値が決定された後、引き続いてより大きい値を使用すると、「過剰適合」の状態になり、人為的に負のフロー信号を生成する。また、本例では、単独重合体を表す長い一連のフローバーの前の配列位置におけるいくつかのフローバーの補正された信号値は０未満に下がる場合がある。このゼロ交差点は、最適なＣＦは、以後ε^＊として表される。

従って、ＣＦ及びＩＥの量、並びに基礎となる鋳型分子配列ｐは先験的に未知であるので、本発明の方法は完全な新規分析モードで使用することができる。反転を実施するために、ポリメラーゼ取り込み効率（即ち、λ）、又はヌクレオチド洗浄効率（即ち、ε）に関する事前の知識は不要であり、参照ヌクレオチド配列もなんら必要としない。

いくつかの態様では、上述したパラメータ見積もりの検索プロセスは、ε及びλの入力検索間隔ごとに、段階（ｉ、ｉｉ）によって行列［Ｍ］を構成するが、計算効率の点から限界がある。こうした限界は、少なくとも部分的に、行列構成演算に近似を使用することによって克服することができる。例えば、検索間隔ごとに行列を再構成する必要がなく、従って計算速度を大幅に改善することができる。２つのこのような方法について、以下で説明する。
方法１：
ε及び（１−λ）の小さい値で（例えば、（１−λ）≦０．００１及びε≦０．００２５）、行列［Ｍ］が分解され、近似されて以下の形になる。

方程式（５）：
［Ｍ（ｐ’，ε，λ）］〜［Ｌ（ｐ’，Δλ）］^φ＊［Ｕ（ｐ’，Δε）］^ω
ここで、
− Δε＝０．００２５及びΔλ＝０．００１は、各々ε軸及びλ軸における間隔である。

− φ及びωは、行列の累乗であり、ω〜ε／Δε及びφ〜（１−λ）／Δλの特性を有する。
− ［Ｌ（ｐ’，Δλ）］は、下対角行列であり、小さい欠損ΔλでのＩＥの効果をモデル化する。

− ［Ｕ（ｐ’，Δλ）］は、上対角行列であり、小さい欠損ΔεでのＣＦの効果をモデル化する。
この分解により、方程式（５）は、検索経路に沿って一度、下対角行列Ｌ及び上対角行列Ｕを構成し、検索グリッド（ε，λ）での不完全及び繰越の程度が行列の累乗（ω，φ）によりモデル化される。検索間隔の小さい値、即ち、Δε＝０．００２５及びΔλ＝０．００１は、例えば、０．０５、０．０１、０．００５、０．００１、０．０００５、０．０００１等の他の小さい値に置き換えることができる。

以前に提示された（ε，λ）グリッドを検索する代わりに、ここでの方法は、一連の（ω，φ）グリッドにより実施し、これらのグリッドは、行列の累乗の計算を容易にするために正の整数であることが好ましい。最適な（ω^＊，φ^＊）は、ゼロ交差条件で定義され、対応する完了効率及びＣＦパラメータは、λ^＊＝（１−φ^＊Δλ）及びε^＊＝ω^＊Δεである。
方法２：
小さいε及び（１−λ）の場合における方程式（５）を受けて、下対角累乗行列及び上対角累乗行列［Ｌ］^φ及び［Ｕ］^ωは、以下によってさらに近似される。即ち、
方程式（６）：
［Ｌ］^φ≡（［Ｉ］＋［ｌ］）^φ〜［Ｉ］＋φ［ｌ］
方程式（７）：
［Ｕ］^ω≡（［Ｉ］＋［ｕ］）^ω〜［Ｉ］＋ω［ｕ］
ここで、
− ［Ｉ］は、恒等行列であり、
− ［ｌ］及び［ｕ］は、それぞれ、［Ｌ］及び［Ｕ］の非対角行列である。

これは、行列の累乗の計算段階の迂回を公式化し、その結果、計算時間を更に加速する（例えば、短縮する）。従って、（ω，φ）の検索空間は、すべて正の実数を含む。最適な（ω^＊，φ^＊）は、ゼロ交差条件で定義され、対応する完了効率及びＣＦパラメータは、
方程式（８）：
λ^＊＝（１−φ^＊Δλ）及びε^＊＝ω^＊Δε
である。

上記に提示した態様は、行列の構成及び反転、並びに（ε，λ）面内における２次元検索に基づき、ＣＡＦＩＥパラメータの最適な対を検索する。これらの計算は、典型的には、実質的に同一の鋳型分子の各集団に対して実施され、例えば、反応部位に基づくシステムのアレイ（例えば、ウェルのPicoTiterPlateアレイ又はウェルのＩＳＦＥＴアレイ）中での部位ごとの分析を含んでもよい。いくつかの態様では、行列は最適なＣＡＦＩＥ値（ε^＊，λ^＊）を生成するために各集団／部位について構成される。

上述した態様はまた、一定の完了効率λ及びＣＦ・εパラメータに関連する率は、配列決定実行全体にわたって一定のままであることを仮定する。この仮定は、数回のフローサイクルを含むフローグラム中の「フローウィンドウ」と呼ばれることのあるものにＣＡＦＩＥ検索及び反転手順を使用することによって緩和される（この場合、「数回の」とは、１回とフローサイクルの総回数の間の任意の整数を意味する）。例えば、各々のフローウィンドウは、フローグラムに表現されるフローサイクルの全集合の部分集合であり、１対のＣＡＦＩＥパラメータ及び対応するクリーンな理論上のフローグラム（ｐ）を見つける必要がある。本例では、各々のフローウィンドウは、配列決定実行に関連するフローグラム中の最初のフローから開始し、フローグラム中のフローサイクルの全長以下のある一定のフローで終了し、各々のより小さいフローウィンドウは、より大きいフローウィンドウ内に入れ子状態になるように配置される。各々のフローウィンドウｋでは、検索及び反転処理は個々に行われ、一連のＣＡＦＩＥパラメータを生成し、これらのパラメータはウィンドウ指数の関数ｋ、即ち、ε^＊＝ε^＊（ｋ）及びλ^＊＝λ（ｋ）になる。計算されたクリーンな理論上のフローグラム（ｐ）ｐ（ｋ）も、入れ子状になっており、指数ｋに応じてＣＡＦＩＥパラメータのこれらの変数値の結果である。「切換え」処理、即ち、ウィンドウ（ｋ−１）及びｋ間のフローに関するｐ＝ｐ（ｋ）は、フローウィンドウ配列ｐ（ｋ）を最終のフローグラム（ｐ）に再構築する。

同じ又は別の態様では、λ及びεの一定の値の仮定は、別の方法で排除することができる。例えば、完了効率λ、及びＣＦ・εパラメータは、各ヌクレオチド種の添加に関しては、「Ｎ」（「Ａ」、「Ｇ」、「Ｃ」、又は「Ｔ」）、及びフロー位置「ｉ」（１、２、３、．．．）の関数として、指数関数等のパラメータ形式をとることができる。即ち、
方程式（９−１０）：
λ_Ｎ（ｉ）＝λ^０ _Ν ^＊ｅｘｐ（−δ_Ｎ ^＊ｉ）
ε_Ｎ（ｉ）＝ε^０ _Ν ^＊ｅｘｐ（−β_Ｎ ^＊ｉ）
ここで、
− λ_Ｎ（ｉ）は、「ｉ」番目のフローにおけるヌクレオチド種「Ｎ」の完了効率であり、
− ε_Ｎ（ｉ）は、「ｉ」番目のフローにおけるヌクレオチド種「Ｎ」のＣＦであり、
− λ^０ _Ｎ及びε^０ _Ｎは、初期値であり、
− δ_Ｎ及びβ_Ｎは、減衰率である。

検索法は、４つのパラメータ空間、λ^０ _Ｎ、ε^０ _Ｎ、δ_Ｎ、及びβ_Ｎを使用し、最適値を決定する。
さらに、当業者は、上記のＣＡＦＩＥ機構に関連しない他のノイズ源が存在し得ることも分かっている。こうしたノイズ源としては、電子的ノイズ源、たとえば「暗電流」と呼ばれるもの、光学的ノイズ源、生物学的ノイズ源、化学的ノイズ源、又は先行技術で公知か、又は将来発見され得るその他のノイズ源が挙げられるが、これらだけに限らない。本明細書に記載する発明のいくつかの態様は、その他のノイズ源に対して様々なレベルの感受性を示す場合があり、こうした感度は、多くの場合、実質的に一定であるか、及び／又は予測可能なレベルである。例えば、既知又は未知の源に起因する予測可能及び一定レベルのノイズは、概して補正が容易である。１つの補正方法は、ノイズに関連する値（ノイズが過剰信号を追加するか、又は検出信号を減少させるかどうかによる）を、フローに関連するすべての信号値に数学的に加算するか、又はこうした検出信号から減算することである。

ノイズのレベルが予測不可能ないくつかの態様では、少なくとも部分的に、ノイズのレベルの見積もりを信号データに埋もれている情報から引き出すことができる。例えば、配列位置に存在しないことが分かっているか、存在しないと予測されるヌクレオチド種の場合は、実際の信号値は０に等しい（即ち、「０−ｍｅｒ」位置）はずであることが予測される。従って、どの検出信号も、システム内のすべてのノイズ源が原因の可能性がある。本明細書の例では、現在記載されている態様では、ＣＡＦＩＥ機構からノイズを見積もるので、そのようなノイズをデータから除去し、その下にあるノイズを明らかにすることができる。本明細書の例では、見積もりを、配列実行におけるすべての「０−ｍｅｒ」配列位置を調べることによって改善することができる。この場合、２進コードするｐ’^（ｎ）の方程式（４）における「閾値」の値は、上記の態様で記載したような固定値ではなく、各々の実行について動的に求めることによって、そのノイズレベルを表すことができる
なお、さらに、いくつかの先に記載した態様は、観察されたフローグラム（ｑ）中に表された配列データの過剰補正を防止するために、「安全基準」と呼ぶことができるものを含んでいた。上述したように、過剰補正は、上記のアルゴリズムが反復される際に導入される誤差の指数関数的な蓄積を引き起こす場合がある。例えば、上述した他のノイズ源は、信号データに適用される補正量を含む安全基準を決定する場合がある。例えば、いくつかの実施では、ＣＡＦＩＥ源以外からの一定レベルのノイズを仮定し、データに対して６０％補正（例えば、１００％は、完全な補正を意味する）と呼ばれる場合がある安全基準を適用することができる。この見積もりは、計算されたクリーンなフローグラムｐの６０％、及び観察されたフローグラムｑの４０％を含む「ハイブリッド」フローグラム、「０．６ｐ＋０．４ｑ」を使用する。あるいは、ＣＡＦＩＥ以外のノイズが「低い」レベルにある場合、例えば、８０％というより高い補正率を適用することができる。

その上、更なる態様は、上述したＣＡＦＩＥ補正の態様（以下、「標準的ＣＡＦＩＥ」と呼ぶ）に対して実質的な性能改善を提供し、使用者に大きな利点をもたらす。以下により詳細に説明するように、ＣＡＦＩＥ補正法の改善は、標準的ＣＡＦＩＥからの理論上のフローグラム（ｐ）出力を採用し、正の取り込みリストが最適化された結果に収束するまでフローグラム信号を帰納的に再見積もりすることによって（以下、「帰納的ＣＡＦＩＥ」と呼ぶ）、上述した標準的ＣＡＦＩＥ補正法にまで及ぶ。帰納的に補正されたフローグラム及び正の取り込みリストが収束すると、帰納的ＣＡＦＩＥ法は上述した標準的ＣＡＦＩＥ補正法よりも良好な補正を行う。この改善は、位相同期ＣＡＦＩＥパラメータを見出すためのアルゴリズムの改善、及び位相同期誤差を補正するための帰納的手順を含む。また、同じ、又は別の態様では、コンセンサスフローリスト（consensus flow list）を生物の既知の参照配列から取り、上述したような閾値を見積もるのに使用することができる参照ＣＡＦＩＥ補正を使用してもよく、この場合、２進コード化リスト中の位置は、参照配列中の対応する配列位置に基づく信号をまったく有さないことを予測することができ、従って観察された信号を、ノイズ及び／又は参照配列に由来する配列変異体に帰することができる。当然ながら、観察された信号の大きさは、一般に、特に信号を有さないと予測される２進コード化リスト中の他の位置での信号の大きさと比較される場合、これが配列変異体に起因する可能性があるのか、又はノイズに起因する可能性があるのかを示す。

帰納的ＣＡＦＩＥ補正法の典型的態様では、標準的ＣＡＦＩＥ補正法を使用して、配列読み取りから観察されたフローグラムに位相同期補正を最初に実施し、ＣＡＦＩＥ補正されたフローグラムを生成する帰納的ＣＡＦＩＥアルゴリズムを使用する反復によって、観察されたフローグラム（ｑ）から得られたものより真の配列をより正確に反映する新しい２進コード化リスト（ｐ’）を見積もる。次いで、この新しい２進コード化リストを使用して、配列読み取りの完了効率λ及び繰越εのパラメータを再び見積もる（従って、より正確に）。（λ、ε）の新しい見積もりは、２進コード化リストの負の取り込みの際に補正された信号が、実際の背景のノイズレベルに可能な限り近くなることを要求することによって実現される。具体的には、本発明者らは、アルゴリズムにおいてＣＡＦＩＥ行列にパラメータλ及びεの摂動を実施する。即ち、
方程式（１１−１２）：
Δｑ_λ＝［Μ^−１（ｐ’，１−Δλ，０）］^＊ｑ−ｑ
Δｑ_ε＝［Ｍ^−１（ｐ’，１，Δε）］^＊ｑ−ｑ
ここで、Μ（ｐ’，λ，ε）は、上述したＣＡＦＩＥ行列であり、Δｑ_λ及びΔｑ_εは、２進コード化リストｐ’を用いた摂動Δλ及びΔεに応答したフローグラムの変化であり、ｐは、標準的ＣＡＦＩＥ補正によって計算された理論上のフローグラムである。

帰納的ＣＡＦＩＥ法では、新しいλ及びεは、以下の手順によって得られる。摂動増分（ｔ_λ，ｔ_ε）を以下の数式を最小化することによって計算する。

ここでノイズは、最初の４８のフローの負の取り込みの際（ｐ’（ｉ）＝０）に関連するフロー信号の平均である。ｔ_λ及びｔ_εの値を決定した後、ＣＡＦＩＥ補正パラメータ（λ，ε）を以下のように計算する。即ち、
方程式（１４−１５）：
λ＝１−ｔ_λΔλ
ε＝ｔ_εΔε
このようにして、λ及びεは、位相不一致ＣＡＦＩＥ誤差を最小限にする最適な対として確実になる。最後に、ＣＡＦＩＥ補正を実施して新しいＣＡＦＩＥ補正された理論上のフローグラムｐ^（１）を得る。

方程式（１６）：
ｐ^（１）＝［Μ^−１（ｐ’，ε，λ）］^＊ｑ
上記に述べた手順を反復して繰り返す。即ち、反復ｎ＋１で、フローグラムｐ^（ｎ）を使用することによって２進コード化リストｐ’^（ｎ）を見積もり、最小化手順（１３）によってＣＡＦＩＥ検索を再び実施し、摂動式（１４〜１６）によって、新しいＣＡＦＩＥ補正したフローグラムｐ^{（ｎ＋１）}及びＣＡＦＩＥパラメータ（ε^{（ｎ＋１）}，λ^{（ｎ＋１）}）を得る。

方程式（１７）：
ｐ^{（ｎ＋１）}＝［Μ^−１（ｐ’^（ｎ），ε^{（ｎ＋１）}，λ（^ｎ＋１））］^＊ｑ
いくつかの態様では、２進コード化リストが収束する、ｐ’（ｎ＋１）＝ｐ’（ｎ）まで帰納的手順を継続する。正のフローリストｉは、ｐ’（ｎ）（ｉ）＝１である場合、正のヌクレオチド取り込みを示すフロー位置を近似する。より正確には、アルゴリズムによって見積もられる正のフローリストは、位相非同期性のより正確な補正をもたらす。従って、帰納的アルゴリズムでは、反復してＣＡＦＩＥ補正されたフローグラムを使用し、収束時に帰納的に補正されたフローグラムをもたらす。各反復において、アルゴリズムにより、ＣＡＦＩＥパラメータ（ε^（ｎ），λ^（ｎ））のより良好な見積もり値、及び次の反復において位相誤差のより正確なＣＡＦＩＥ補正を与える２進コード化ｐ’^（ｎ）が得られる。

いくつかの態様では、ＣＡＦＩＥパラメータが収束する、（ε^{（ｎ＋１）}，λ^{（ｎ＋１）}）＝（ε^（ｎ），λ^（ｎ））まで帰納的手順を継続し、この収束は２進コード化リストがＣＡＦＩＥパラメータを使用して計算される方法の性質によっては２進コード化リストの収束も意味する。収束を判定するのにＣＡＦＩＥパラメータを使用することの１つの利点は、２進コード化リストｐ’の収束を見積もるより計算が効率的に行えることである。

本明細書に記述された位相同期フロー順序設計及び使用のシステム及び方法の態様は、ＳＢＳステップ中のＣＡＦＩＥ誤差の蓄積を改善し、配列決定実行のためのより長い高品質の読み取り長とより高い読み取り精度をもたらす。例えば、ＳＢＳ実行において実施される際は、この方法の態様によって得られる位相同期フロー順序態様により、配列決定実行の間に配列決定反応の正しい位相に遅れを取っていた実質的に同一の鋳型分子の集団の構成員は正しい位相に追いつき、位相同期フロー順序におけるフローの特定の位置において分子同士で再同期することができる。例えば、実質的に同一の鋳型核酸分子の集団からの鋳型核酸分子のサブセットが、フローの間にＴ種等のヌクレオチド種を取り込むことができなかった場合には、その結果として、集団の残りの位相同期から外れる（即ち、そのサブセットは集団の残りに遅れを取る）。その後すぐ（即ち、１〜３つのフロー以内）に核酸種をフローに繰り返すと、集団の残りの部分の位相が進む（即ち、次の相補種を取り込むことによって）前にＴヌクレオチドを取り込み、その結果、サブセットは集団の残りと再同期し、位相同期誤差を回復する可能性がある。

重要なのは、本明細書に記載の位相同期フロー順序の態様が４−ヌクレオチド循環順序に限定されず、周期的な２４、３２、４０或いはそれ以上の数のヌクレオチドフロー配列等の長いフロー順序を含有することができることである。また同様に重要なのは、フロー順序配列は任意の長さでよく、４の倍数である必要はない。

フロー順序設計のためのＣＡＦＩＥシミュレーション及び読み取り長
フローサイクル１回当たりのｋ塩基ヌクレオチド配列を有する数値的に生成したフロー順序を含むフロー順序設計のためのＣＡＦＩＥ誤差及び読み取り長のシミュレーションを行った。例えば、「ＴＡＣＧ」フロー順序は、４塩基フロー順序であり、「ＴＣＧＴＧＡＣＧＴＣＴＡ」（配列ＩＤ番号：１）循環フローは、１２塩基フロー順序である。所定のフロー順序並びに所定の繰越率及び不完全伸長率に対して、ＳＢＳ法を用いて大腸菌参照配列から得られると予測されるフローグラム信号のシミュレーションを生成した。このシミュレーションは、ゲノムのショットガン配列を模倣するために大腸菌参照配列から約１０，０００の無作為に選択された領域からのフローグラムを含んでいた。シミュレーションしたフローグラムは、フローグラム値を四捨五入して整数にすることによって塩基呼び出しを行った。信号処理におけるＣＡＦＩＥ補正方法の偏りを回避するためにシミュレーションしたフローグラムの信号補正は行わなかった。

ＣＡＦＩＥ誤差のために、フローグラム信号は、ヌクレオチドフローの数の増加と共に蓄積された誤差と位相がずれる。フローグラムの初期の部分は、配列決定の後段（通常、誤差（位相誤差）の程度が大きい曖昧な信号を含有する）のフローグラムよりも高品質（低い誤差率）である。従って、シミュレーションの読み取り長を、読み取りの「高品質」部分の蓄積誤差が各読み取りについて３％未満となるように３’末端から切り捨てた。

高品質読み取り長「Ｌ」を、シミュレーション中のすべての１０，０００の読み取りのトリミングされた（trimmed）読み取り長を平均することによって計算した。フロー順序の理論上の伸長速度「Ｒ」（完全な配列決定条件において１つのヌクレオチドフローが伸長できる鋳型分子に対して相補的な配列位置の平均数として定義される（ＣＡＦＩＥなし））も計算した。このようにしてフロー順序及び与えられたＣＡＦＩＥ率に対してＣＡＦＩＥモデル化及びシミュレーションから得られる長さＬ及び伸長率Ｒに到達した。

上記の操作を、フロー順序における４個のヌクレオチド種（Ａ、Ｔ、Ｇ及びＣ）を並置することによって構築される様々なフロー順序で何度も繰り返した。これらの計算結果を図２にプロットする。図２は、フローサイクル１回当たりのヌクレオチドの１６、２４、３２及び４０塩基のフロー順序についてシミュレーションした読み取り長Ｌ対伸長率Ｒを示したものである（それぞれ、コンピュータプログラムによって生成させた２００のフロー順序を含有する）。シミュレーションは、フロー順序のサイクルの繰り返しである（ＳＢＳシステム実行を模倣した）１６００のヌクレオチドフローを用いた合成による配列決定において、０．５％の未完了と０．５％の繰越率を仮定した。例えば、図２は、０．５％ＣＡＦＩＥを有する大腸菌配列の無作為に選択されたフロー順序について、シミュレーションした読み取り長Ｌ対伸長率Ｒを説明する例を提供している。読み取りを３％蓄積誤差までトリミングし、合成による配列決定で１６００のヌクレオチドフローを用いてシミュレーションを行い、ＳＢＳシステムにおけるヌクレオチドフローの数に近似させた。破線は、読み取り長の改善が飽和する境界線である。「ＴＡＣＧ」（十字記号）は、ＳＢＳ態様に既に用いたフロー順序に対応する。ＥＸ１〜ＥＸ８（十字）は、飽和曲線（破線）の近傍にあるフロー順序の例であり、対応する伸長率と共に長い読み取り長を与える効果的なフロー順序を表す。

図２に例示するように、フロー順序が小さい伸長率Ｒを有する程、より長い読み取り長Ｌが達成でき、実質的に同一の鋳型の集団における位相不一致鋳型が、特定のヌクレオチドフローでの集団の伸長の正しい位相に、フロー順序の間に追いついて再同期する頻度がより高くなるようにヌクレオチドフロー順序は設計されている。また、フロー順序中の塩基の数の依存性も存在し、一定の伸長率の場合、フロー順序中に塩基を多く含むフロー順序ほど、長い読み取り長が達成できる。しかしながら、この効果は１サイクルにつきヌクレオチドフローが３２〜４０塩基のフロー順序で飽和し、それを超えると読み取り長はそれ以上改善しない（図２）。

先のＳＢＳ態様で実施した「ＴＡＣＧ」フロー順序の結果も、参照として図２にプロットする。ＴＡＣＧフロー順序は、ＣＡＦＩＥが０．５％である場合、高い伸長率Ｒを有するが、非常に短い読み取り長Ｌしか与えられないことが観察される。この場合、位相誤差が急速に蓄積するので、読み取りに対して数値的に信号補正を行い、誤差の補正と読み取り長の回復を行わなければならない。

「効果的」なフロー順序は、長い読み取り長を与えると同時に高い伸長率を有するべきである。従って、図２の飽和曲線（破線）の近傍のフロー順序は効果的なフロー順序の例である。それら（ＥＸ１〜ＥＸ８）のいくつかに、図中で印を付け、それらのヌクレオチド配列を以下の表２に列挙する。これらの中で、ＥＸ８は、０．５％ＣＡＦＩＥのシミュレーションからは最適に（最も長い読み取り長）近い。従って、当然ながら、約４００ｂｐを超える読み取り長及び約０．５５ｂｐ／フロー以下の伸長率は、一般にＣＡＦＩＥ誤差の蓄積率が低いために高品質のデータを提供する。

注目すべきは、ＣＡＦＩＥ誤差の蓄積の低減に効果的なフロー順序態様は、（ＣＡＦＩＥパラメータによって表される）ＣＡＦＩＥ誤差の程度及び配列決定の際の鋳型核酸分子の配列組成又はシミュレーションの際の参照配列の配列組成に依存する。最終的な信頼できる読み取り長が、配列決定後の処理において上記のように配列データにＣＡＦＩＥ補正を行うことで更に改善されることを当業者は分かっている。上で示した例は、大腸菌を参照ゲノムとし、０．５％の不完全効率と０．５％の繰越率を仮定することで得られたものである。

種々の配列組成特性を有する複数のゲノムに対する位相同期フロー順序の効果を実証するために、大腸菌（５０％ＧＣ含量）に加え、Ｔ．サーモフィラス（７０％ＧＣ含量）及びＣ．ジェジュニ（３０％ＧＣ含量）の参照配列を含むように拡張してシミュレーションしてもよい。それらは、それぞれ、高ＧＣ含量、低ＧＣ含量及び中ＧＣ含量のゲノムを代表する。シミュレーションは、上述と同じ手順で行ったが、今回は読み取り長（Ｌ）及び伸長率（Ｒ）は３つの参照ゲノムから無作為に選択された読み取りの平均値である。

図３は、図に同様に印を付けられた同じフロー順序のＥＸ１〜ＥＸ８（表２）でのシミュレーション結果を示している。図３には、Ｔ．サーモフィラス及びＣ．ジェジュニの結果が、大腸菌の場合のシミュレーションから得られたものと一致し、低い伸長率を有するフロー順序ほど長い読み取り長が達成されていることが示されている。表２に列挙したフロー順序のＥＸ１〜ＥＸ８は有効性を維持し、飽和線（破線、図３）の近傍にあり、対応する伸長率に対する最長読み取り長に接近している。例えば、図３は、無作為に選択されたフロー順序（大腸菌、Ｔ．サーモフィラス、及びＣ．ジェジュニを含む複数のゲノムの平均）で、０．５％ＣＡＦＩＥでのシミュレーションされた読み取り長Ｌ対伸長率Ｒの図示を提供する。読み取りを３％蓄積誤差までトリミングし、合成による配列決定で１６００のヌクレオチドフローを用いてシミュレーションを行い、ＳＢＳシステムにおけるヌクレオチドフローの数に近似させた。破線は、読み取り長の改善が飽和する境界を示す。「ＴＡＣＧ」は、ＳＢＳ態様に既に用いたフロー順序に対応する。ＥＸ１〜ＥＸ８は図２で得られ、示されているフロー順序と同じである。

図２及び図３に示されたシミュレーションから、参照配列が利用可能な場合は、ＣＡＦＩＥモデル化及びシミュレーションから１組の効果的なフロー順序を導出することができることが分かる。これらのフロー順序は位相誤差を減少することができ、その結果、信号処理で位相誤差を数値で補正をしなくても、長い高品質の読み取り長が得られる。配列決定実行の前に、不完全率及び繰越率が分かっているか、見積もることができる場合には、最大又はほぼ最大の読み取り長を達成するフロー順序（例えば、ＥＸ８）をシミュレーションモデル化から導出できる。このように、この方法は、単位複製配列の共通配列が利用可能な場合、単位複製配列／標的配列決定にとって特に有用であり、試料のヌクレオチド配列を調整するために効果的なフロー順序を導出することもできる。

新規な配列決定又は参照配列が入手できない応用プログラムでは、包括的な部類のフロー順序も、シミュレーションにおいて複数のゲノムを含むことによって導出することができる。これらのフロー順序が効果的であることが示され、ＥＸ１〜ＥＸ８等の具体的な例が表２に記載されている。これらの任意のフロー順序は、新規配列決定応用プログラムに配備された配列決定スクリプトで実施することができる。

再配列決定（単位複製配列）及び新規配列決定の両方の応用プログラムに対しての不完全率及び繰越率は機器や試薬の実行履歴から推測することができる。例えば、ＳＢＳプラットホームのいくつかの態様に対し、多くの機器及び試薬のロット全体にわたって、不完全率は０．２％〜０．５％（又は０．９９８〜０．９９５の完了効率）及び繰越率は０．５％〜１％であることが観察される。ＣＡＦＩＥの包括的な情報を用いて最適なフロー順序の態様を、最長の読み取り長を与えるシミュレーションモデル化によって得ることができる。この例では、図中のフロー順序ＥＸ８及びＥＸ８の近傍のフロー順序は、ＣＡＦＩＥが０．５％である場合の例である。

ゲノムのＧＣ含量に対してシミュレーションを行うと、効果的なフロー順序のリストも先験的に導出することができる。次いで配列決定実行に対する効果的な位相同期フロー順序をライブラリー試料（この試料の情報は配列決定実行前に手に入れることができる）のＧＣ含量に従ってこのリストから選択することができる。

あるいは、充分な数のフローからデータを取得した後、配列決定実行の間に、効果的な位相同期フロー順序を選択して、ＧＣ含量の見積もりを行う、或いはＧＣ含量の見積り量に最適のフロー順序を実施することができる。例えば、ＣＡＦＩＥに対してシミュレーションを行い、効果的な位相同期フロー順序の態様のリストを先験的に導出することができる。これは、任意のフロー順序を有する配列決定フローの初期段階（例えば、実行の最初の４０又は８０のヌクレオチドフロー）でフローグラム信号を用いた実行、又は位相同期フロー順序（例えば、ＥＸ１〜８）の態様について見積もることができる。次いで、特に配列組成（即ち、ＧＣ含量）及び実行時中の実行のＣＡＦＩＥ誤差の程度に適合するように具体的に調整された最適な位相同期フロー順序を選択し、配列決定における残存ヌクレオチドフローに対して実施することができる。

いくつかの態様において、様々な組成及び／又は特性を有する複数のフロー順序を、配列決定実行において、多くのフローサイクルの繰り返しで連続して使用できる。いくつかの態様において、それぞれのフロー順序は、独自の特性を有すると同時に、他のフロー順序と共通の特性を有してもよい。これも当然であるが、１つ以上のフロー順序を、無作為或いは非無作為に１つの配列決定実行で繰り返すことができる。

フロー順序最適化アルゴリズムの別の態様は、参照ゲノムに関するヌクレオチドフロー順序を最適化するモンテカルロ・シミュレーションを含む。参照配列読み取りの一組は、（例えば、１，５００塩基長を有する５，０００の読み取り）使用者指定の参照ゲノム（例えば、大腸菌）から生成することができる。アルゴリズムは、入力フロー順序を受け取り、フロー順序に基づいて読み取りの完全なフローグラムを生成する。次いで「生フローグラム（即ち、ＣＡＦＩＥ誤差のあるフローグラム）」を、一定の繰越（例えば、０．５％）及び完了効率（例えば、９９．５％）を前提とするＣＡＦＩＥ行列を用いた理想フローグラムの摂動によって生成する。位相不一致誤差信号を低減するフロー順序の効果を評価するために、生フローグラムを、強度値を整数に四捨五入することによって直接塩基呼び出しをする。塩基位置までの蓄積誤差を、塩基呼び出しされた配列と参照読み取りを比較することによって算出した。読み取りを蓄積誤差が閾値（例えば、３％）以下になるようにトリミングする。次いで平均読み取り長を計算する。フロー順序の効果を、その理論効率ε_Ｔ（ＣＡＦＩＥ効果無しで１つのフローにつき取り込まれた塩基の平均数）及び観察効率ε_０（ＣＡＦＩＥ効果有りで１つのフローにつき取り込まれた塩基の平均数）によって測定する。一般に、ＣＡＦＩＥ誤差が速く蓄積されるに従い、理論効率が高くなり、観察効率が低くなる。品質スコアをフロー順序の効果を測定するために構築することができる。例えば、
Ｑ＝ｗ_１ε_Ｔ＋ｗ_２ε_０
ここで、ｗ_１及びｗ_２は、０．５及び０．５等のそれぞれの効率に与えられた重み付けである。

新しいフロー順序は、フロー順序における任意の１対のヌクレオチド種の順序を変えることによって生成される。フローグラムの生成、塩基呼び出し、及びトリミングが繰り返えされる。次いで、新しいフロー順序の品質スコアＱ’が計算される。Ｑ’がＱよりも大きい場合は、新しいフロー順序が受け入れられる。Ｑ’がＱよりも小さい場合は、新しいフロー順序が以下の確率で受け入れられる。

Ｐ＝ｅｘｐ［（Ｑ’−Ｑ）／Ｔ］
ここで、Ｔは、次善のフロー順序が受け入れられる可能性を制御する「温度」である。全体の処理は品質スコアが最大となるまで繰り返えされ、参照ゲノムと選択パラメータｗ_１、ｗ_２及びＴに関して最適フロー順序が得られた。

Ｔが非常に大きい場合、すべての低い品質スコアのフロー順序は受け入れられる。反対に、Ｔが非常に小さい場合は、低い品質スコアをもたらす順列は受け入れられない。Ｔの典型的な値は様々な順列の（Ｑ’−Ｑ）量を計算することによって見積もることができる。Ｔは、移動の約半分が（Ｑ’−Ｑ）の負の値として受け入られるように選択することができる。

パラメータＴは、シミュレーションの過程で、徐々に、例えば、高い値から低い値に変化してもよい。シミュレーションされたアニーリングとして知られるこの方法によって最適領域の近傍内の検索を絞り込むことができる。

完了効率は、配列決定の実行を通して酵素効率の変化をモデル化するために、フローグラムの最初から最後まで、例えば高い値から低い値に、徐々に変化してもよい。繰越パラメータも同様に処理することができる。

このモデルは、複数の参照ゲノムの最適化まで拡張することができる。各参照ゲノムに対する品質スコアＱｉが存在する。これらの個々の品質スコアの組合せから計算された全品質スコアを使用できる。特に、これらの個々の重量平均品質スコアを使用することができる。

実施例
配列決定データ、ＴＡＣＧ並びにフロー順序ＥＸ１及びＥＸ３の比較
フロー順序ＥＸ１及びＥＸ３（表２）を標準試薬一式及び材料を用いてＳＢＳ機器で試験した。それらの読み取り長を以下の表３に要約し、（ａ）信号処理におけるＣＡＦＩＥ補正なし（ＣＡＦＩＥ補正の偏りを避けるため）及び（ｂ）ＣＡＦＩＥ補正による全信号処理の結果を示す。

試験したフロー順序において、平均読み取り長はＣＡＦＩＥ補正なしであっても４００ｂｐを超えていた（表中の太字）。比較として、ＴＡＣＧフロー順序でのＳＢＳ実行では、配列データのＣＡＦＩＥ補正なしの場合で平均読み取り長は１００〜２００ｂｐであった。全信号処理後の結果でも、同様に大幅に改善された（マッピングの統計情報については表４を参照）。このように効果的なフロー順序態様からの改善は一貫している。

配列データの比較−参照ゲノムへのマッピング
ゲノムの参照配列へのマッピングの結果を以下の表５に要約し、フロー順序ＥＸ１での３回の配列決定実行の結果を示す（表２）。

大腸菌の場合は、マップされた長さは全て約７００ｂｐ超であり、Ｔ．サーモフィラスの場合は、読み取り長は様々であったが、それでもすべて５００ｂｐは超えていた（変動はライブラリーの試料に依存しているようであった）。実行データは、ＣＡＦＩＥ補正を含む完全処理を有するデータ分析ソフトウェアによって処理した。結果から、ＥＸ１ではＴＡＣＧフロー順序を用いて行った実行よりも、１００ｂｐ超は長いマップされた長さが得られたことが分かる。マップされた長さのヒストグラムと塩基位置での読み取り誤差率の比較を図４に示す。

その他の位相同期フロー順序態様
フロー順序Ａ
TACGTACGTACG (12)
AGCGTACTGCATGCATCAGTATGCG (25)
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
（配列番号：Ｎｏ．１０〜９０）

フロー順序Ａの特性
最初の１２のフロー（４つの塩基フロー順序を３回循環）の後の２５のフローごとに発生する最後の３つの位置における３つの変動位置と組み合わされた反復配列組成により、完全な順序は周期的に繰り返す２５のフロー、即ち変動成分を有するフロー順序として解釈される。
反復領域
Ａ＝６、Ｇ＝５、Ｃ＝５、Ｔ＝６
第１変動位置＝Ｇ又はＣ
第２変動位置＝Ａ、Ｇ又はＣ
第３変動位置＝Ｔ，Ｇ，又はＣ
第１〜第３変動位置の組合せ＝少なくとも１つのＧ及び１つのＣ
３回反復４塩基フロー順序；８０回反復繰り返し／２５のフローの変動領域；２０１２全フロー

フロー順序Ｂ特性
TACGTACGTACG (12)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=9)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=8)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=8)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
（配列番号：Ｎｏ．９１〜１４７）

フロー順序Ｂの特性
最初の１２のフロー（４つの塩基フロー順序を３回循環）の後の３３のフローごとに発生する２９のフローの変動領域と組み合わされた最初の位置及び最後の３つの位置の反復配列組成により、完全な順序は周期的に繰り返す３３のフロー、即ち実質的に変動成分を有するフロー順序として解釈される。

最初の位置＝常にＡ
変動領域２９個の位置＝８つのフローと７つの残りを有する１つの種を常に有する（全ての種のフロー数を１だけ増やす繰り返し位置は含まない）
最後の３つの位置＝常にＴＣＧ
第１及び第２の繰り返し領域の組合せ＝各ヌクレオチド種を一度表す
３回反復４塩基フロー順序；５５回反復繰り返し／３３のフローの変動領域；１８２７全フロー
様々な態様及び実施について述べてきたが、当業者には明らかであるが、上記の記載は例示的なものに過ぎず、非限定的なものであり、例示目的のために記載されている。図示の態様の様々な機能要素間に機能を分配するための他の多くの構成が可能である。別の態様において、任意の要素の機能を様々な方法で実行することが可能である。

Claims

配列データ中の位相同期誤差の蓄積を最小にするフロー順序を生成する方法であって、以下のステップを含む前記方法：
（ａ）合成配列決定の反応環境にヌクレオチド種を導入するための複数のフロー順序を決定するステップであり、ここで各フロー順序はヌクレオチド種を並置することによって構築されるものであり、前記各フロー順序はｋ塩基長のヌクレオチド種を含むものであり、前記各フロー順序に含まれるヌクレオチド種はチミン、アデニン、シトシン、及びグアニンからなる群から選択されるものである；
（ｂ）前記各フロー順序を用いた合成配列決定による１つ以上の参照ゲノムからの配列データの取得をシミュレーションすることで、読み取り長パラメータ及び伸長率パラメータを決定するステップであり、ここで、前記配列データは、位相同期誤差の蓄積を含むものであり、前記読み取り長パラメータは、３％未満の蓄積された位相同期誤差を含む一定の読み取り長であり、前記伸長率パラメータは、鋳型分子に対して１つのヌクレオチドフローが伸長させることができる相補的な配列位置の平均数である；及び、
（ｃ）前記読み取り長パラメータ及び伸長率パラメータに基づいて、配列データ中の位相同期誤差の蓄積を最小にするフロー順序を決定するステップ。
配列データのシミュレーションされた取得が、位相同期誤差の蓄積をシミュレーションする繰越パラメータ及び不完全伸長パラメータを使用することを含む、請求項１に記載の方法。
ｋ塩基長が１６、２４、３２、及び４０塩基長からなる群から選択される、請求項１または２に記載の方法。
ｋ塩基長が３２〜４０塩基の範囲の長さを含む、請求項１または２に記載の方法。
４００ｂｐを超える読み取り長パラメータ及び０．５５ｂｐ／フロー以下の伸長率パラメータが、配列データ中の位相同期誤差の蓄積を最小にするフロー順序を決定するための基準である、請求項１〜４のいずれか１項に記載の方法。