JP5465793B2

JP5465793B2 - 帰納的アルゴリズムを使用することによる、ｄｎａ配列決定データにおける位相不一致エラーを補正するためのシステムおよび方法

Info

Publication number: JP5465793B2
Application number: JP2012557570A
Authority: JP
Inventors: チェン，イ−ジュ; ウォン，チウ・タイ・アンドリュー
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2010-03-31
Filing date: 2011-03-29
Publication date: 2014-04-09
Anticipated expiration: 2031-03-29
Also published as: WO2011120964A8; WO2011120964A1; EP2553619A1; JP2013522743A; CA2789566A1; CN102834828A; US9317654B2; US8364417B2; CN102834828B; US20110213563A1; EP2553619B1; US20130131995A1

Description

本発明は、分子生物学の分野に関する。より具体的には、本発明は、「合成時解読」（ＳＢＳ）技法と一般に呼ばれるものによって生成される核酸配列データにおける位相同期性エラーを補正するための帰納的方法に関する。

合成時解読（ＳＢＳ）は一般に、核酸試料中の１つまたは複数のヌクレオチドの同一性または配列組成を決定するための方法を指し、この方法は、ヌクレオチド配列組成が決定される鋳型核酸分子と相補的な一本鎖のポリヌクレオチド分子の段階的合成を含む。例えば、ＳＢＳ技法は、典型的には、対応する配列位置で鋳型分子の核酸種と相補的な新生ポリヌクレオチド分子に、単一の核酸（ヌクレオチドとも呼ばれる）種を付加することによって作用する。核酸種の新生分子への付加は一般に、それだけに限らないが、酵素的または電子的（すなわち、ＩＳＦＥＴを用いたｐＨ検出もしくは他の関連技術）検出ストラテジーを含む場合があるピロシーケンスと呼ばれるもの、あるいはいくつかの実施形態において可逆性ターミネーターを使用することができる蛍光検出法を含む、様々な当技術分野で公知の方法を使用して検出される。典型的には、このプロセスは、鋳型と相補的な完全な（すなわち、すべての配列位置が表される）、または所望の配列長が合成されるまで反復性である。ＳＢＳ技法のいくつかの例は、そのそれぞれが、すべての目的に関してその全体が参照により本明細書に組み込まれている、米国特許第６，２７４，３２０号、同第７，２１１，３９０号、同第７，２４４，５５９号、同第７，２６４，９２９号、および同第７，３３５，７６２号に記載されている。

ＳＢＳのいくつかの実施形態では、オリゴヌクレオチドプライマーは、試料鋳型分子の所定の相補的な位置にアニールするように設計される。プライマー／鋳型複合体は、核酸ポリメラーゼ酵素の存在下でヌクレオチド種を与えられる。このヌクレオチド種が、オリゴヌクレオチドプライマーの３’末端に直接隣接する、試料鋳型分子上の配列位置に対応する核酸種に相補的である場合、ポリメラーゼは、プライマーにこのヌクレオチド種を伸長する。あるいは、いくつかの実施形態では、プライマー／鋳型複合体は、複数の対象とするヌクレオチド種（典型的にはＡ、Ｇ、Ｃ、およびＴ）を一度に与えられ、オリゴヌクレオチドプライマーの３’末端に直接隣接する、試料鋳型分子上の対応する配列位置で相補的なヌクレオチド種（specie）が取り込まれる。記載された実施形態のいずれにおいても、ヌクレオチド種は、さらなる伸長を防止するために化学的にブロックすることができ（３’−Ｏの位置などで）、合成の次ラウンドの前にブロック解除される必要がある。上述したように、ヌクレオチド種の取り込みは、例えば、酵素的に、もしくは電子的にピロホスフェート（ＰＰｉ）の放出を検出することによって（そのそれぞれが、すべての目的に関してその全体が参照により本明細書に組み込まれている、米国特許第６，２１０，８９１号、同第６，２５８，５６８号、および同第６，８２８，１００号に記載された例）、またはヌクレオチドに結合した検出可能標識を介して、様々な当技術分野で公知の方法によって検出することができる。検出可能標識のいくつかの例には、それだけに限らないが、質量タグ、および蛍光または化学発光標識が含まれる。典型的な実施形態では、取り込まれていないヌクレオチドは、例えば、洗浄によって除去される。検出可能標識が使用される実施形態では、これらは、典型的には、合成のその後のサイクルの前に、不活化されなければならない（例えば、化学的切断または光退色による）。次いで、鋳型／ポリメラーゼ複合体中の次の配列位置に、上述したように、別のヌクレオチド種、または複数の対象とするヌクレオチド種をクエリーすることができる。ヌクレオチド付加、プライマー伸長、シグナル取得、および洗浄のサイクルの繰り返しにより、鋳型ストランドのヌクレオチド配列が決定される。

ＳＢＳの典型的な実施形態では、信頼できる検出のために十分強いシグナルを実現するために、多数または集団の実質的に同一の鋳型分子（例えば、１０^３、１０^４、１０^５、１０^６、または１０^７分子）が、任意の１つの配列決定反応で同時に分析される。所与の反応の集団中の実質的にすべての鋳型分子に関連する新生分子の「均質な伸長」と呼ばれるものが、低い信号対ノイズ比のために必要とされる。本明細書において用語「均質な伸長」は一般に、上述した実質的に同一の鋳型分子の集団の各メンバーが、反応において同じ工程を均一的に実施している伸長反応の関係または位相を指す。例えば、鋳型分子の集団に関連した各伸長反応は、これらが、関連した鋳型分子のそれぞれについて、同じ配列位置で同じ反応工程を実施しているとき、互いに同相である（場合により、位相同期性または位相同調性とも呼ばれる）と記述することができる。

しかし、当業者は、各集団中のごく少量の鋳型分子は、集団中の鋳型分子の残りと位相同調性を失うか、または位相同調性から外れる（すなわち、少量の鋳型分子に関連する反応は、より進み、または遅れ、配列決定反応中の他の鋳型分子は、集団で進行することを理解するであろう（いくつかの例は、すべての目的に関してその全体が参照により本明細書に組み込まれているＲｏｎａｇｈｉ，Ｍ．ＰｙｒｏｓｅｑｕｅｎｃｉｎｇｓｈｅｄｓｌｉｇｈｔｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇ．ＧｅｎｏｍｅＲｅｓ．１１、３〜１１（２００１）に記載されている））。例えば、１つの位置による配列の伸長のために、１つまたは複数のヌクレオチド種を１つまたは複数の新生分子中に適切に取り込む反応の失敗は、集団の残りの配列位置と遅れ、位相が外れた配列位置での各後続の反応をもたらす。この作用は、「不完全伸長（incomplete extension）」（ＩＥ）と本明細書で呼ばれる。あるいは、集団の残りの配列位置より進み、位相が外れた配列位置での１つまたは複数のヌクレオチド種の取り込みによる新生分子の不適切な伸長は、「繰越（carry forward）」（ＣＦ）と本明細書で呼ばれる。ＣＦとＩＥの合わせた作用は、ＣＡＦＩＥと本明細書で呼ばれる。

不完全伸長の問題に関して、単独で、またはいくつかの組合せで起こり得る、ＩＥの一因となる可能性のあるいくつかの機構が存在する場合がある。ＩＥの一因となる可能性のある機構の一例として、鋳型／ポリメラーゼ複合体のサブセットに与えられるヌクレオチド種の欠如を挙げることができる。ＩＥの一因となる可能性のある機構の別の例として、ポリメラーゼ分子のサブセットの、新生分子中への取り込みのために適切に与えられるヌクレオチド種を取り込むことの失敗を挙げることができる。ＩＥの一因となる可能性のある機構のさらなる例として、鋳型／ポリメラーゼ複合体におけるポリメラーゼ活性の非存在を挙げることができる。

ＳＢＳ法におけるＩＥエラーを少なくともある程度説明し得るさらに別の機構の例として、Ｍｅｔｚｇｅｒ（すべての目的に関して、その全体が参照により本明細書に組み込まれている、ＧｅｎｏｍｅＲｅｓ．２００５年１２月；１５（１２）：１７６７〜７６）によって概説されているような循環可逆的停止（cyclic reversible termination）（ＣＲＴ）と呼ばれるものを挙げることができる。ＣＲＴでは、ヌクレオチド種は、修飾された３’−Ｏ基（通常、キャップ、保護基、またはターミネーターと呼ばれる）を有し、これは、１つのヌクレオチド種を取り込んだ後の新生分子のさらなる伸長を防止する。これらの保護基は、化学的処理または光処理を含めた様々な方法の１つによって脱着可能であるように設計される。３’−Ｏ位置の脱保護（および３’−ＯＨ基の生成）の後、新生分子を別のヌクレオチド種によって伸長することができる。しかし、少量の新生分子が、不完全な脱保護効率（不完全な脱保護）のために保護されたままであるとき、位相の非同調性が起こる。後続のサイクルにおいて、保護されたままであるこの少量の新生分子は伸長されず、したがって集団の残りの配列位置と後れを取り、位相から外れることになる。しかし、後続の脱保護工程により、以前に不適切に残っていた保護基の少なくともいくつかを順調に除去することができ、伸長を再開させ、新生分子からのシグナルを生成し、集団の残りとの位相同期性から外れ続ける。当業者は、ＩＥの一因となる他の要因が存在する場合があり、したがって、上記に示した例に限定されないことを理解するであろう。

本発明の現在記載されている実施形態のシステムおよび方法は、任意のそのような単一の、または合わさった原因もしくは機構から生じ得るＩＥエラーの補正を対象とする。例えば、不完全な脱保護と後続の順調な脱保護のカップリングによって引き起こされるＩＥエラーの補正は、本発明の一目的である。

ＣＦの問題に関して、単独で、またはいくつかの組合せで起こり得る、ＣＦの一因となる可能性のあるいくつかの機構が存在する場合がある。例えば、１つの可能性のある機構として、以前のサイクルから残っている過剰のヌクレオチド種を挙げることができる。これは、サイクルの最後で実施される洗浄プロトコールにより、そのサイクルからのヌクレオチド種が大部分除去されるが、必ずしもすべてが除去されないために起こり得る。本例では、結果は、「Ｇ」ヌクレオチド種サイクル中に存在するごく少量の「Ａ」ヌクレオチド種を含む場合があり、相補的な「Ｔ」ヌクレオチド種が鋳型分子中の対応する配列位置に存在する場合、ごく少量の新生分子の伸長に至る。繰越作用を引き起こす可能性のある機構の別の例として、鋳型分子上のヌクレオチド種に相補的でないヌクレオチド種の新生分子中への不適切な取り込みなどのポリメラーゼエラーを挙げることができる。

ＳＢＳ法におけるＣＦを少なくともある程度説明し得るさらに別の機構の例として、Ｍｅｔｚｇｅｒ（上記に参照により組み込まれている、ＧｅｎｏｍｅＲｅｓ．２００５年１２月；１５（１２）：１７６７〜７６）によって概説されているような循環可逆的停止を挙げることができる。本例では、ＩＥに関して上述したように、一部の少量のヌクレオチド分子が保護基を欠くことになる、または保護基を失った、３’−Ｏ保護されたヌクレオチド種の配合物が使用される場合がある。保護基の喪失は、意図された脱保護工程の前に、配列決定プロセスの間にも起こり得る。脱保護基のいずれのそのような欠如も、いくつかの新生分子が同時に１つを超えるヌクレオチド種によって伸長される原因になる。少量の新生分子のそのような不適切な複数の伸長は、これらの新生分子に配列位置を前進させ、集団の残りの配列位置と位相を外れさせる。したがって、保護されていないヌクレオチドおよび／または尚早に脱保護されたヌクレオチドは、ＣＲＴを伴うＳＢＳ法におけるＣＦの少なくともある程度一因となり得る。

本発明の現在記載されている実施形態のシステムおよび方法は、任意のそのような単一の、または合わさった原因もしくは機構から生じ得るＣＦエラーの補正を対象とする。例えば、保護基の欠如のために生じるＣＦエラーの補正は、本発明の一目的である。

さらに、本発明の現在記載されている実施形態のシステムおよび方法は、ＩＥエラーおよびＣＦエラーの両方の補正を対象とし、両タイプのエラーは、同じ配列決定反応において１つの集団についていくつかの組合せで起こり得る。例えば、ＩＥおよびＣＦはそれぞれ、上述したように、単一の、または合わさった原因または機構から生じ得る。

当業者は、ＩＥエラーおよびＣＦエラーの両方の可能性は、伸長反応の間に各配列位置で発生する場合があり、したがって、得られる配列データ中で明白な累積的作用を有する場合があることを理解するであろう。例えば、この作用は、「配列読み取り」の最後に向けて特に顕著になり得る。本明細書において用語「読み取り」または「配列読み取り」は一般に、単一の核酸鋳型分子、または鋳型核酸分子の複数の実質的に同一のコピーの集団から得られる配列データ全体を指す。

さらに、配列データの品質は、読み取り長さが長くなるにつれて低下するので、ＩＥ作用およびＣＦ作用は、ＳＢＳ手法を使用して確実に配列決定することができる鋳型分子の長さの上限（場合により「読み取り長さ」とも呼ばれる）を課す場合がある。

例えば、ＳＢＳの一方法は、２０またはそれより良好な「Ｐｈｒｅｄ」品質スコアと呼ばれるものを伴って、典型的なランで２５００万を超える配列位置を含む配列データを生成することができる（２０のＰｈｒｅｄ品質スコアは、配列データが９９％以上の精度を有すると予測されることを意味する）。ＳＢＳ法についてのＰｈｒｅｄ２０の品質を伴う全体的な配列決定処理量は、キャピラリー電気泳動技法を使用するＳａｎｇｅｒ配列決定方法として当業者に公知であるものによって生成される配列データの全体的な配列決定処理量より著しく高いが、これは現在、ＳＢＳ法では実質的により短い読み取り長さという代償を負っている（すべての目的に関してその全体が参照により本明細書に組み込まれている、Ｍａｒｇｕｌｉｅｓら、２００５、Ｎａｔｕｒｅ４３７：３７６〜８０）。したがって、ＩＥエラーおよびＣＦエラーにより生じる配列データの劣化を回避または補正することによって読み取り長さの上限を増大させると、ＳＢＳ法についての全体的な配列決定処理量が増加するはずである。

したがって、核酸配列決定の合成時解読法によって生じる配列データ中のＩＥエラーおよび／またはＣＦエラーを補正することを対象とするシステムおよび方法を提供することが望ましい。

いくつかの参考文献が本明細書に引用されており、その開示全体は、すべての目的に関して参照により、その全体が本明細書に組み込まれている。さらに、これらの参考文献のいずれも、上記でどのように特徴づけられているかにかかわらず、本明細書に特許請求される主題の本発明に対する先行技術として認めるものではない。

本発明の実施形態は、核酸配列の決定に関する。より具体的には、本発明の実施形態は、ＳＢＳによる核酸の配列決定の間に得られるデータ中の位相同期性エラーを補正するための帰納的方法およびシステムに関する。

配列決定反応の間に導入されるヌクレオチド種に応答して生成されるシグナルを検出する工程と；ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と；繰越値および不完全伸長値を使用して、観測値から正の取り込み値および負の取り込み値を定義する工程と；負の取り込み値に関連する観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と；修正された繰越値および修正された不完全伸長値を使用して、正の取り込み値および負の取り込み値を再定義するする工程と；正の取り込み値および負の取り込み値が収束するまで、修正および再定義の工程を繰り返す工程とを含む、鋳型分子の集団から生成される配列データの位相同期性に関連するエラーを補正するための方法の実施形態が記載されている。

いくつかの実施では、繰越値および不完全伸長値が収束するまでこの方法を繰り返す。
配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する配列決定機器；ならびにヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と；繰越値および不完全伸長値を使用して、観測値から正の取り込み値および負の取り込み値を定義する工程と；負の取り込み値に関連する観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と；修正された繰越値および修正された不完全伸長値を使用して、正の取り込み値および負の取り込み値を再定義する工程と；繰越値および不完全伸長値が収束するまで、修正および再定義の工程を繰り返す工程とを含む方法を実施する記憶された実行可能なコードを備えるコンピュータを備える、鋳型分子の集団から生成される配列データの位相同期性に関連するエラーを補正するためのシステムまたは機器も記載されている。

より正確には、本発明は、鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための方法であって、
（ａ）配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する工程と；
（ｂ）ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と；
（ｃ）繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と；
（ｄ）負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と；
（ｅ）修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義するする工程と；
（ｆ）複数の正の取り込み値および複数の負の取り込み値が収束するまで工程（ｄ）〜（ｅ）を繰り返す工程と
を含む方法を提供する。

本発明の範囲内で、複数の配列決定反応が並行して実行され、工程（ａ）〜（ｆ）が配列決定反応のそれぞれについて実行される。
好ましくは、正の取り込み値および負の取り込み値は整数であり、最も好ましくは、正の取り込み値は１であり、負の取り込み値は０である。

工程（ｃ）において使用される繰越値および不完全伸長値は、パラメータ推定モデルを使用して求めることができる。
工程（ｃ）の前に、正の取り込み値および負の取り込み値は、閾値を使用して割り当てることができ、正の取り込み値は、観測値が閾値より上であるときに割り当てられ、負の取り込み値は、観測値が閾値未満であるときに割り当てられる。前記閾値は、好ましくは０〜１の間の範囲の値を含み、最も好ましくは約０．２である。閾値はまた、ヌクレオチド種がまったく存在しない複数の位置を予測するために、参照配列を使用することによって定義することができる。

ノイズ値は、導入されるヌクレオチド種の数からの負の取り込み値に関連する観測値の平均とすることができる。導入されるヌクレオチド種の数は、導入される最初の４８ヌクレオチド種を含むことが好ましい。

一実施形態では、本発明はまた、鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための方法であって、
（ａ）配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する工程と；
（ｂ）ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と；
（ｃ）繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と；
（ｄ）負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と；
（ｅ）修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義するする工程と；
（ｆ）繰越値および不完全伸長値が収束するまで工程（ｄ）〜（ｅ）を繰り返す工程と
を含む方法を提供する。

本発明はまた、鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するためのシステムまたは機器であって、
（ａ）配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する配列決定機器コンポーネントと；
（ｂ）
ｉ．ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と；
ｉｉ．繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と；
ｉｉｉ．負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と；
ｉｖ．修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義する工程と；
ｖ．繰越値および不完全伸長値が収束するまで工程ｉｉｉ〜ｉｖを繰り返す工程と
を含む方法を実施する記憶された実行可能なコードを備えるコンピュータと
を備えるシステムまたは機器を提供する。

本発明の範囲内で、システムまたは機器は複数の配列決定反応を並行して実行し、工程（ｉ）〜（ｖ）が配列決定反応のそれぞれについて実行される。
好ましくは、正の取り込み値および負の取り込み値は整数であり、最も好ましくは、正の取り込み値は１であり、負の取り込み値は０である。

工程（ｃ）において使用される繰越値および不完全伸長値は、パラメータ推定モデルを使用して求めることができる。
工程（ｃ）の前に、正の取り込み値および負の取り込み値は、閾値を使用して割り当てることができ、正の取り込み値は、観測値が閾値より上であるとき割り当てられ、負の取り込み値は、観測値が閾値未満であるとき割り当てられる。前記閾値は、好ましくは０〜１の間の範囲の値を含み、最も好ましくは約０．２である。閾値はまた、ヌクレオチド種がまったく存在しない複数の位置を予測するために、参照配列を使用することによって定義することができる。

上記実施形態および実施は、これらが同じ、または異なる実施形態または実施とともに与えられていてもいなくても、必ずしも互いに包括的または排他的である必要はなく、対立せず、別の方法で可能である任意の様式で組み合わせることができる。１つの実施形態または実施の説明は、他の実施形態および／または実施に関して限定的であることが意図されていない。また、本明細書の他で記載される任意の１つまたは複数の機能、工程、操作、または技法は、代替の実施において、概要において記載される任意の１つまたは複数の機能、工程、操作、または技法と組み合わせることができる。したがって、上記実施形態および実施は、限定的ではなく例示的である。

上記特徴およびさらなる特徴は、添付の図面とともに考慮される場合、以下の詳細な説明からより明らかに理解されるであろう。図面において、同じ参照数字は、同じ構造、要素、または方法工程を示し、参照数字の最も左の桁は、参照要素が最初に現れる図面の番号を示す（例えば、要素１６０が図１中で最初に現れる）。しかし、これらの取り決めのすべては、限定的ではなく、典型的または例示的であることが意図されている。

理論フローグラム（flowgram）を観察フローグラムに変換するための数学的モデルの一実施形態の簡略化されたグラフ表示である。図１のマッピングモデルの反転の一実施形態の簡略化されたグラフ表示である。図１および２のマッピングモデルを含む順行列（forward matrix）計算および逆行列計算についてのモデルの一実施形態の簡略化されたグラフ表示である。図３ａの順モデルを使用する順行列計算の一実施形態の簡略化されたグラフ表示である。図３ａの反転モデルを使用する逆行列計算の一実施形態の簡略化されたグラフ表示である。図３ａおよび４ａの反転モデルを使用して、様々なレベルの反復性補正を使用して得られる結果の一実施形態の簡略化されたグラフ表示である。現在記載されている発明のＣＡＦＩＥエラー補正法の結果の一実施形態の簡略化されたグラフ表示である。実質的に同一の鋳型分子の集団の試料にわたるパラメータ値の分布の一実施形態の簡略化されたグラフ表示である。ＩＥ補正のみの効果、およびＣＡＦＩＥ補正の効果の一実施形態の簡略化されたグラフ表示である。ｎ反復についての配列データ中の位相同期性エラーを帰納的に補正するための方法の一実施形態の簡略化されたグラフ表示である。配列データ中の位相同期性エラーを補正するための帰納的なアルゴリズムを利用する、読み取り長さおよび塩基位置でのエラーについての以前に記載された実施形態に勝る利点を示す、配列決定結果の一実施形態の簡略化されたグラフ表示である。

本明細書において用語「フローグラム」は一般に、ＳＢＳ法、特に、ピロリン酸に基づく配列決定法（「ピロシーケンス」とも呼ばれる）によって生成される配列データのグラフ表示を指し、より具体的には「ピログラム」と呼ばれる場合がある。

フローグラムに図化される場合、各フローについての検出される光または他のシグナル（例えば、ｐＨ変化）の値は、約０（フロー中のヌクレオチド種が次の配列位置において鋳型中のヌクレオチド種と相補的でなく、したがって取り込まれなかったことを示す）、または約１（鋳型中のヌクレオチドと相補的な正確に１個のヌクレオチド種の取り込みが検出されたことを示す）、または１を超えるおよその整数（鋳型中の連続した２個のヌクレオチド種と相補的な、フロー中に与えられたヌクレオチド種の２個以上のコピーの取り込みが検出されたことを示す）である場合がある。

本明細書において用語「ラン」または「配列決定ラン」は一般に、１つまたは複数の鋳型核酸分子の配列決定操作において実施される一連の配列決定反応を指す。
本明細書において用語「フロー」は一般に、鋳型核酸分子を含む環境への溶液の添加の連続サイクルまたは反復性サイクルを指し、この場合溶液は、新生分子に付加するためのヌクレオチド種、あるいは配列決定反応において、またはヌクレオチド種の以前のフローサイクルからのキャリーオーバーもしくはノイズ作用を低減するために使用することができる緩衝液または酵素などの他の試薬を含むことができる。

本明細書において用語「フローサイクル」は一般に、１つのヌクレオチド種がサイクルの間に１回流される連続した一連のフローを指す（すなわち、フローサイクルは、Ｔ、Ａ、Ｃ、Ｇヌクレオチド種の順序での連続した付加を含むことができるが、他の配列組合せもこの定義の一部とみなされる）。典型的には、フローサイクルは、サイクル間で同じ順序のフローを有する繰り返しのサイクルである。

本明細書において用語「読み取り長さ」は一般に、確実に配列決定することができる鋳型分子の長さの上限を指す。それだけに限らないが、鋳型核酸分子中のＧＣ含量の程度を含めて、システムおよび／またはプロセスの読み取り長さに寄与する多数の要因が存在する。

本明細書において用語「バイナリエンコーディングリスト（binary encoding list）」（以下に説明するように、場合によりｐ’またはｑ’と表される）は一般に、完了した配列決定ランに関連する、各ヌクレオチド種についての正または負の取り込みイベント（すなわち、負の取り込みイベントは、ヌクレオチド種が順調に取り込まれなかったことを示す）の状態を示すバイナリ値を含むヌクレオチド種フローのリストを指す。各ヌクレオチド取り込みイベントは、ヌクレオチドフローの間に観察されたシグナル値の強度から計算された値が閾値シグナル値より大きいとき、正の取り込みイベントとして定義され、観察されたシグナル値の強度から計算された値が閾値シグナル値未満であるとき、負の取り込みイベントとして定義される。次いで、各定義されたヌクレオチド取り込みイベントに、負の取り込みが「０」で表され、正の取り込みが「１」で表されるようにバイナリ等価値が割り当てられる。例えば、配列決定フロー順序がＴＣＡＧである場合、最初の４フロー内での「Ａ」および「Ｇ」の正の取り込みイベントは、０，０，１，１の「バイナリエンコーディングリスト」をもたらす。用語「バイナリエンコーディングリスト」および「バイナリリスト」は、本明細書で互換的に使用される。

本明細書において用語「閾値」は一般に、所与の配列決定ランについて観察フローグラムから計算される値を指し、ヌクレオチド種取り込みイベントと関連しない源から検出されるシグナル（場合により「バックグラウンドシグナル」とも呼ばれる）のレベルに関連する数値を指す。

本明細書において用語「新生分子」は一般に、鋳型分子中の対応するヌクレオチド種に相補的なヌクレオチド種の取り込みにより、鋳型依存性ＤＮＡポリメラーゼによって伸長されているＤＮＡストランドを指す。

本明細書において用語「ヌクレオチド種」は一般に、新生核酸分子中に典型的に取り込まれるプリン（アデニン、グアニン）およびピリミジン（シトシン、ウラシル、チミン）を含めた核酸モノマータイプの素性を指す。

本明細書において用語「完了効率」は一般に、所与のフローの間に適切に伸長される新生分子の百分率を指す。本明細書において用語「不完全伸長率」は一般に、すべての新生分子数に対する、適切に伸長されることに失敗する新生分子数の比を指す。本明細書に記載されている発明のいくつかの実施形態では、上述したＣＦ機構およびＩＥ機構を説明するために、各フローの検出されたシグナルを補正する。例えば、本発明の一態様は、所与のレベルＣＦおよびＩＥを仮定して、任意の既知の配列について位相同調性喪失の程度を計算する工程を含む。

配列決定プロセスの実施形態は、ハイブリダイゼーションによる配列決定（ＳＢＨ）技法、ライゲーションによる配列決定（ＳＢＬ）技法、または取り込みによる配列決定（ＳＢＩ）技法と一般に呼ばれる技法であるＳａｎｇｅｒタイプ技法を含むことができる。さらに、配列決定技法として、ポロニー配列決定技法と呼ばれるもの；ナノ孔、導波路、および他の単一分子検出技法；または可逆性ターミネーター技法を挙げることができる。上述したように、好適な技法として、合成時解読法を挙げることができる。例えば、いくつかのＳＢＳ実施形態では、核酸鋳型の実質的に同一のコピーの集団を配列決定し、典型的には、試料鋳型分子の所定の相補的な位置にアニールするように設計された１つもしくは複数のオリゴヌクレオチドプライマー、または鋳型分子に結合した１つもしくは複数のアダプターを使用する。プライマー／鋳型複合体は、核酸ポリメラーゼ酵素の存在下でヌクレオチド種を与えられる。このヌクレオチド種が、オリゴヌクレオチドプライマーの３’末端に直接隣接する、試料鋳型分子上の配列位置に対応する核酸種に相補的である場合、ポリメラーゼは、プライマーにこのヌクレオチド種を伸長する。あるいは、いくつかの実施形態では、プライマー／鋳型複合体は、複数の対象とするヌクレオチド種（典型的にはＡ、Ｇ、Ｃ、およびＴ）を一度に与えられ、オリゴヌクレオチドプライマーの３’末端に直接隣接する、試料鋳型分子上の対応する配列位置で相補的なヌクレオチド種が取り込まれる。記載された実施形態のいずれにおいても、ヌクレオチド種は、さらなる伸長を防止するために化学的にブロックすることができ（３’−Ｏの位置などで）、合成の次ラウンドの前にブロック解除される必要がある。新生分子の末端にヌクレオチド種を付加するプロセスは、プライマーの末端への付加について上述したプロセスと実質的に同じであることも理解されるであろう。

上述したように、ヌクレオチド種の取り込みは、例えば、光を生成するために酵素反応プロセスを使用してピロホスフェート（ＰＰｉ）の放出を検出することによって、もしくはｐＨ変化の検出を介して（そのそれぞれが、すべての目的に関してその全体が参照により本明細書に組み込まれている、米国特許第６，２１０，８９１号、同第６，２５８，５６８号、および同第６，８２８，１００号に記載された例）、またはヌクレオチドに結合した検出可能標識を介して、様々な当技術分野で公知の方法によって検出することができる。検出可能標識のいくつかの例には、それだけに限らないが、質量タグ、および蛍光標識または化学発光標識が含まれる。典型的な実施形態では、取り込まれていないヌクレオチドは、例えば、洗浄によって除去される。さらに、いくつかの実施形態では、取り込まれていないヌクレオチドは、酵素分解、例えば、２００８年６月２７日に出願された、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＡｄａｐｔｉｖｅＲｅａｇｅｎｔＣｏｎｔｒｏｌｉｎＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｉｎｇ」という表題の米国特許出願第１２／２１５，４５５号、および２００９年１月２９日に出願された、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＩｍｐｒｏｖｅｄＳｉｇｎａｌＤｅｔｅｃｔｉｏｎｉｎＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｉｎｇ」という表題の同第１２／３２２，２８４号に記載されたように、アピラーゼまたはピロホスファターゼ酵素を使用する分解などにかけることができる。これらの特許出願のそれぞれは、すべての目的に関してその全体が参照により本明細書に組み込まれている。

検出可能標識が使用される実施形態では、これらは、典型的には、合成のその後のサイクルの前に不活化されなければならない（例えば、化学的切断または光退色）。次いで、鋳型／ポリメラーゼ複合体中の次の配列位置に、上述したように、別のヌクレオチド種、または複数の対象とするヌクレオチド種をクエリーすることができる。ヌクレオチド付加、伸長、シグナル取得、および洗浄のサイクルの繰り返しは、鋳型ストランドのヌクレオチド配列の決定をもたらす。本例を用いて継続して、信頼できる検出のために十分強いシグナルを実現するために、多数または集団の実質的に同一の鋳型分子（例えば、１０^３、１０^４、１０^５、１０^６、または１０^７分子）が、典型的には任意の１つの配列決定反応で同時に分析される。

また、本発明の現在記載されている実施形態のシステムおよび方法は、コンピュータシステムで実行するために記憶されたコンピュータ判読可能な媒体を使用して、いくつかの設計、分析、または他の操作の実施を含むことができる。例えば、検出されたシグナルを処理し、かつ／または処理および分析の実施形態がコンピュータシステムで実施可能であるＳＢＳシステムおよびＳＢＳ法を使用して生成されたデータを分析するためのいくつかの実施形態が以下に詳細に記載されている。

現在記載されている発明で使用するためのコンピュータシステムの例示的な実施形態は、任意のタイプのコンピュータプラットフォーム、例えば、ワークステーション、パーソナルコンピュータ、サーバー、または任意の他の現在もしくは将来のコンピュータなどを含むことができる。しかし、本明細書に記載されるような上述のコンピュータプラットフォームは、記載された発明の特殊化された操作を実施するように特に構成され、汎用コンピュータとみなされないことが当業者によって理解されるであろう。コンピュータは、典型的には、公知のコンポーネント、例えば、プロセッサ、オペレーティングシステム、システムメモリ、メモリ記憶デバイス、入出力コントローラ、入出力デバイス、および表示デバイスなどを含む。コンピュータの多くの可能な構成およびコンポーネントが存在し、キャッシュメモリ、データバックアップユニット、および多くの他のデバイスも含むことができることも当業者によって理解されるであろう。

表示デバイスとして、視覚的な情報を提供する表示デバイスを挙げることができ、この情報は、典型的には、ピクセルのアレイのように論理的かつ／または物理的に系統立てることができる。入出力インターフェースを提供するための任意の様々な公知または将来のソフトウェアプログラムを含むことができるインターフェースコントローラも含めることができる。例えば、インターフェースとして、ユーザーに１つまたは複数のグラフ表示を提供する「グラフィカルユーザーインターフェース」と一般に呼ばれるもの（ＧＵＩと呼ばれることが多い）を挙げることができる。インターフェースは、典型的には、当業者に公知の選択または入力の手段を使用してユーザー入力を受け入れることが可能になっている。

同じまたは代替の実施形態では、コンピュータ上のアプリケーションは、「コマンドラインインターフェース」と呼ばれるもの（ＣＬＩと呼ばれることが多い）を含むインターフェースを使用することができる。ＣＬＩは、典型的には、アプリケーションとユーザーの間にテキストベースの相互作用をもたらす。典型的には、コマンドラインインターフェースは、表示デバイスを通じてテキストのラインとして、出力を与え、入力を受け取る。例えば、いくつかの実施では、「シェル」と呼ばれるもの、例えば、当業者に公知のＵｎｉｘＳｈｅｌｌ、またはＭｉｃｒｏｓｏｆｔ．ＮＥＴフレームワークなどのオブジェクト指向型プログラミングアーキテクチャを使用するＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓＰｏｗｅｒｓｈｅｌｌなどを含むことができる。

インターフェースは、１つまたは複数のＧＵＩ、ＣＬＩ、またはこれらの組合せを含むことができることを当業者は理解するであろう。
プロセッサとして、市販のプロセッサ、例えば、ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ製のＣｅｌｅｒｏｎ（登録商標）、Ｃｏｒｅ（商標）、Ｐｅｎｔｉｕｍ（登録商標）プロセッサ、ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓ製のＳＰＡＲＣ（登録商標）プロセッサ、ＡＭＤｃｏｒｐｏｒａｔｉｏｎ製のＡｔｈｌｏｎ（商標）、Ｓｅｍｐｒｏｎ（商標）、Ｐｈｅｎｏｍ（商標）、もしくはＯｐｔｅｒｏｎ（商標）プロセッサなどを挙げることができ、またはこれは、入手可能であるか、もしくは入手可能になる他のプロセッサの１つであってもよい。プロセッサのいくつかの実施形態では、マルチコアプロセッサと呼ばれるものを含み、かつ／またはシングルコアもしくはマルチコア配置で並列処理技術を使用することを可能にすることができる。例えば、マルチコアアーキテクチャは、典型的には、２個以上のプロセッサ「エグゼキューションコア」を含む。本例では、各エグゼキューションコアは、複数のスレッドのパラレルエグゼキューションを可能にする独立したプロセッサとして機能することができる。さらに、プロセッサは、３２ビットもしくは６４ビットアーキテクチャと一般に呼ばれるもの、または現在公知であり、もしくは将来開発される場合のある他のアーキテクチャ構成で構成することができることを当業者は理解するであろう。

プロセッサは、典型的にはオペレーティングシステムを実行し、これは、例えば、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎからのＷｉｎｄｏｗｓ（登録商標）型オペレーティングシステム（Ｗｉｎｄｏｗｓ（登録商標）ＸＰ、ＷｉｎｄｏｗｓＶｉｓｔａ（登録商標）、もしくはＷｉｎｄｏｗｓ（登録商標）＿７など）；ＡｐｐｌｅＣｏｍｐｕｔｅｒＣｏｒｐ．からのＭａｃＯＳＸオペレーティングシステム（ＭａｃＯＳＸｖ１０．６「ＳｎｏｗＬｅｏｐａｒｄ」オペレーティングシステムなど）；Ｕｎｉｘ（登録商標）、もしくは多くの供給業者から入手可能なＬｉｎｕｘ型オペレーティングシステム、もしくはオープンソースと呼ばれるもの；別の、もしくは将来のオペレーティングシステム；またはこれらのいくつかの組合せとすることができる。オペレーティングシステムは、ファームウェアおよびハードウェアと周知の様式でインターフェースを取り、様々なプログラミング言語で書くことができる様々なコンピュータプログラムの機能をコーディネートして実行することにおいてプロセッサを支援する。オペレーティングシステムは、典型的にはプロセッサと協調して、コンピュータの他のコンポーネントの機能をコーディネートして実行する。オペレーティングシステムはまた、すべて公知の技法に従って、スケジューリング、入出力制御、ファイルおよびデータ管理、メモリ管理、ならびにコミュニケーション制御、ならびに関係したサービスをもたらす。

システムメモリは、任意の様々な公知または将来のメモリ記憶デバイスを含むことができる。例として、任意の一般に入手可能なランダムアクセスメモリ（ＲＡＭ）、固定（resident）ハードディスクもしくはテープなどの磁気媒体、リードライトコンパクトディスクなどの光媒体、または他のメモリ記憶デバイスが挙げられる。メモリ記憶デバイスとして、コンパクトディスクドライブ、テープドライブ、リムーバブルハードディスクドライブ、ＵＳＢもしくはフラッシュドライブ、またはディスケットドライブを含めた任意の様々な公知または将来のデバイスを挙げることができる。そのようなタイプのメモリ記憶デバイスは、典型的には、プログラム記憶媒体（示していない）、例えば、それぞれ、コンパクトディスク、磁気テープ、リムーバブルハードディスク、ＵＳＢもしくはフラッシュドライブ、またはフロッピーディスケットなどから読み取り、かつ／またはこれらに書き込む。これらのプログラム記憶媒体、または現在使用されており、もしくは後に開発され得る他の媒体のいずれも、コンピュータプログラム製品とみなすことができる。理解されるように、これらのプログラム記憶媒体は、典型的には、コンピュータソフトウェアプログラムおよび／またはデータを記憶する。コンピュータソフトウェアプログラムは、コンピュータ制御ロジックとも呼ばれ、典型的には、システムメモリおよび／またはメモリ記憶デバイスとともに使用されるプログラム記憶デバイス中に記憶される。

いくつかの実施形態では、中に記憶された制御ロジック（プログラムコードを含めたコンピュータソフトウェアプログラム）を有するコンピュータで使用可能な媒体を含むコンピュータプログラム製品が記載されている。制御ロジックは、プロセッサによって実行される場合、プロセッサに本明細書に記載される機能を実施させる。他の実施形態では、いくつかの機能は、例えば、ハードウェアステートマシンを使用して、主にハードウェア内で実施される。本明細書に記載される機能を実施するようにハードウェアステートマシンを実装することは、当業者に明らかとなるであろう。

入出力コントローラは、ヒトであってもマシンであっても、ローカルであってもリモートであっても、ユーザーから情報を受け入れ、処理するための任意の様々な公知のデバイスを含むことができる。そのようなデバイスとして、例えば、モデムカード、ワイヤレスカード、ネットワークインターフェースカード、サウンドカード、または任意の様々な公知の入力デバイス用の他のタイプのコントローラが挙げられる。出力コントローラは、ヒトであってもマシンであっても、ローカルであってもリモートであっても、ユーザーに情報を与えるための任意の様々な公知の表示デバイス用のコントローラを含むことができる。現在記載されている実施形態では、コンピュータの機能的エレメントは、システムバスを介して互いに通信する。コンピュータのいくつかの実施形態では、ネットワーク、または他のタイプのリモート通信を使用していくつかの機能的エレメントと通信することができる。

当業者に明白となるように、機器制御および／またはデータ処理アプリケーションは、ソフトウェアで実施される場合、システムメモリおよび／またはメモリ記憶デバイスにロードし、これらから実行することができる。機器制御および／またはデータ処理アプリケーションのすべて、または一部は、リードオンリーメモリまたはメモリ記憶デバイスの同様のデバイスに備わっている場合もあり、そのようなデバイスは、機器制御および／またはデータ処理アプリケーションが、入出力コントローラを通じて最初にロードされる必要はない。当業者によって理解されるように、機器制御および／もしくはデータ処理アプリケーション、またはその一部は、実行に有利な場合、システムメモリもしくはキャッシュメモリ、または両方に、公知の様式でプロセッサによってロードすることができる。

また、コンピュータは、１つまたは複数のライブラリーファイル、実験データファイル、およびシステムメモリに記憶されたインターネットクライアントを含むことができる。例えば、実験データは、１つまたは複数の実験またはアッセイに関係するデータ、例えば、検出されたシグナル値、または１つもしくは複数のＳＢＳ実験もしくはＳＢＳプロセスに関連する他の値などを含むことができる。さらに、インターネットクライアントは、ネットワークを使用して別のコンピュータ上のリモートサービスにアクセスすることが可能になったアプリケーションを含むことができ、例えば、「ウェブブラウザ」と一般に呼ばれるものを備えることができる。本例において、いくつかの一般に使用されるウェブブラウザとして、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能なＭｉｃｒｏｓｏｆｔ（登録商標）ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ８、ＭｏｚｉｌｌａＣｏｒｐｏｒａｔｉｏｎからのＭｏｚｉｌｌａＦｉｒｅｆｏｘ（登録商標）３．６、ＡｐｐｌｅＣｏｍｐｕｔｅｒＣｏｒｐ．からのＳａｆａｒｉ４、Ｇｏｏｇｌｅ（商標）ＣｏｒｐｏｒａｔｉｏｎからのＧｏｏｇｌｅＣｈｒｏｍｅ、または現在当技術分野で公知であり、もしくは将来開発される他のタイプのウェブブラウザが挙げられる。また、同じ、または他の実施形態では、インターネットクライアントは、生物学的用途用のデータ処理アプリケーションなどの、ネットワークを介して遠隔情報にアクセスすることが可能になった特殊化されたソフトウェアアプリケーションを含むことができ、またはこのアプリケーションのエレメントである場合がある。

ネットワークは、当業者に周知の多くの様々なタイプのネットワークの１つまたは複数を含むことができる。例えば、ネットワークとして、通信するのに適したＴＣＰ／ＩＰプロトコールと一般に呼ばれるものを使用するローカルエリアネットワークまたはワイドエリアネットワークを挙げることができる。ネットワークは、インターネットと一般に呼ばれる相互接続したコンピュータネットワークの世界的システムを備えるネットワークを含むことができ、または様々なイントラネットアーキテクチャを含むこともできる。ネットワークされた環境中の一部のユーザーは、ハードウェアおよび／またはソフトウェアシステムを往来する情報トラフィックを管理するために、「ファイアウォール」と一般に呼ばれるもの（場合により、パケットフィルター、またはボーダープロテクションデバイス（Border Protection Device）とも呼ばれる）を使用することを好む場合があることを、当業者は理解するであろう。例えば、ファイアウォールは、ハードウェアもしくはソフトウェアエレメント、またはこれらのいくつかの組合せを備えることができ、典型的には、例えば、ネットワーク管理者などのユーザーによってセキュリティーポリシーを整備させるように設計される。

先に記載した実施形態の例は、上記に参照により組み込まれている、２００７年２月１５日に出願された、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＣｏｒｒｅｃｔｉｎｇＰｒｉｍｅｒＥｘｔｅｎｓｉｏｎＥｒｒｏｒｓｉｎＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅＤａｔａ」という表題のＰＣＴ特許出願第ＵＳ２００７／００４１８７号に提供されており、ＩＥおよびＣＦの数学的モデルによって理論フローグラムを現実の観察フローグラムに変換することができるという発見に少なくともある程度基づく。例えば、理論フローグラムは、上述したＣＡＦＩＥ機構、または他のタイプのバックグラウンドエラーからのエラーをまったく有さない配列読み取りから生成されたデータを表す。同じように、観察フローグラムは、ある程度の記載したＣＡＦＩＥ要因および他のバックグラウンドエラー要因を含む配列読み取りから生成されるデータを表す。本例では、エラー要因のいくつか、またはすべてを理論フローグラムモデルに正確に近似し、適用することによって、実際の配列決定ランから得られる現実のデータの表示をもたらすことができる。さらに、本明細書に記載した先に記載した実施形態はまた、数学的モデルの反転を使用して観察フローグラムから理論フローグラムを近似することができるという概念に少なくともある程度基づく。したがって、上記からの例を継続して、エラーの近似を、観察フローグラムにおいて表される実際の配列決定データに適用することによって、エラー要因のすべて、または実質的にすべてが除去された標的核酸の配列組成を表す理論フローグラムを生成することができる。

いくつかの先に記載した実施形態では、上述したＣＦ機構およびＩＥ機構を説明するために、各フローの検出されたシグナルを補正する。例えば、一態様は、ＣＦおよびＩＥの所与のレベルを仮定して、任意の既知の配列についての位相同調性喪失の程度を計算する工程を含む。

以下に例示した表１は、様々な読み取り長さについて、９９％またはそれより良好な精度をもたらす（例えば、読み取りが鋳型分子の実際の配列の少なくとも９９％を表す）、ＩＥおよびＣＦについての数学的にモデル化された閾値の例を提供する。表１に与えられた予測値は、様々な読み取り長さについての配列決定精度に対するＣＦ作用およびＩＥ作用のインパクト、ならびに約９９％の読み取り精度を実現するのに許容され得るＩＥエラーおよびＣＦエラーの程度を例示する。表１は、補正されていない読み取りについて、約１００配列位置の読み取り長さが９９％正確である（すなわち、９９％以上の完了効率）であるために、１％以下のＣＦ率が許容できる（その集団についてのＩＥが０に等しいと仮定して）ことを示す。さらに、約１００配列位置の読み取り長さが９９％正確であるために、０．２５％以下のＩＥ率が許容できる（ＣＲ率が０に等しいと仮定して）。

表１に与えられた値は、例示の目的のみのためであり、限定的であるとみなされるべきでないことが理解されるであろう。ゲノム配列または参照配列、および予測を立てるのに使用される他のパラメータなどのいくつかの要因が、値のばらつきの一因となり得ることを、当業者は理解するであろう。例えば、ＳＢＳ法の典型的な実施形態では、一般に、１〜２％の範囲であるＣＦ率を実現する一方で、ＩＥ率は、０．１〜０．４％の範囲である（すなわち、完了効率は９９．６〜９９．９％の範囲である）。上述したように、位相同調性の喪失は、読み取り長さに対して累積的作用を有し、読み取り長さが長くなるにつれて読み取りの品質を劣化させるので、ＣＦおよびＩＥの補正は望ましい。

いくつかの先に記載した実施形態では、ＣＦおよびＩＥの両方を表す値は、例えば、ＰｉｃｏＴｉｔｅｒＰｌａｔｅアレイまたはＩＳＦＥＴ型デバイスなどの他のタイプのウェルのアレイの１つのウェル内に存在する鋳型分子の集団などの実質的に同一の鋳型分子集団の読み取り全体にわたって実質的に一定であると仮定される。これは、鋳型分子の実際の配列のいずれの推測的な知見も伴うことなく、２つの単純なパラメータである「完了効率」および「繰越」を使用して、読み取り全体にわたる各配列位置の数値的補正を可能にする。先に記載した実施形態のシステムおよび方法は、鋳型分子の集団中に発生するＣＦおよびＩＥの量を求め、これらを補正するのに非常に効果的であることが見出された。例えば、ＣＦおよびＩＥを説明するために、各ウェル中に存在する実質的に同一の鋳型分子の各集団について、各フローから検出されるシグナル値の補正を適用する、補正の先の実施形態が実施された。

先に記載した実施形態では、非線形マッピングとして位相同調性の欠如をモデル化する：
式（１）：
Ｍ（ｐ，ε，λ）＝ｑ
式中：
− ＭはＣＡＦＩＥマッピングであり、
− ｐは理論フローグラム［アレイとして］であり、
− λは完了効率パラメータであり、
− εは繰越パラメータであり、
− ｑは観察フローグラム［アレイとして］である。

理論フローグラムを、式（１）に与えたマッピングモデル式を使用して現実の観察フローグラムに変換することによって、ＩＥおよびＣＦを推定することができる。そのようなマッピング式のモデルは、例えば、既知の配列を有するポリヌクレオチド鋳型分子を配列決定することにより観察フローグラム（ｑ）に導入されるエラーを分析することによって生成することができる。式（１）によって与えられる数学的モデルの例は、図１に例示されている。

例えば、図１の左側で、理論フローグラム１０１は、理論フローグラム（ｐ）の例示的な表示であり、これは、その関連するヌクレオチド種の隣の括弧内に表された理想化されたシグナル強度値を示す。理論フローグラム１０１のそれぞれの理想化された値は、整数または０である。本例では、「１」の値は、１個のヌクレオチド取り込みによって誘発された１００％検出されたシグナル強度を表し、「０」は、０％のシグナルを表す（例えば、１００万の実質的に同一の鋳型分子および１００万の新生分子の集団を含むウェル中で、「１」は、どの新生分子も１個のヌクレオチドによって伸長される場合に誘発されるシグナルを表し、「２」は、どの新生分子も２個のヌクレオチドによって伸長される場合に誘発されるシグナルを表す、など）。

図１の右側で、観察フローグラム１０３は、観察された（または模擬の）フローグラム（ｑ）からの検出されたシグナル強度値の例示的な表示である。同様に、フローグラム１０３中の各シグナル強度値は、その関連するヌクレオチド種の隣の括弧内に表されている。また、図１の右側は、ヌクレオチドおよびシグナル値と関連した反復性フロー配列を表す代表的な数をもたらすフロー１０５である（例えば、フロー１０５の各反復は、１個のヌクレオチド種の付加、その後の洗浄プロセスを表す）。例えば、図１中に例示されたフロー１は、フロー１０５の前記反復において導入された「Ｃ」ヌクレオチド種と関連し、理論フローグラム１０１および観察フローグラム１０３の両方についてのシグナル値に対応する。

図１の例において、各フロー１０５の反復の理論的なフローグラム１０１と観察フローグラム１０３との間のシグナル強度値の差異は、少なくともある程度、位相同期性の喪失を示す。例えば、観察フローグラム１０３で表されたシグナル値は整数でなく、むしろそれぞれは、フロー１０５の同じ反復について、理論的なフローグラム１０１で表された理想的な値より、典型的にはわずかに高いか、わずかに低い。

「Ｍ」として表されるマッピングモデル１１０は、パラメータ１１３の既知の値を使用して推定することができる。例えば、パラメータ１１３は、ε（繰越）パラメータおよびλ（完了効率）パラメータを含む。パラメータ１１３は、マッピングモデル１１０を推定し、理論フローグラム（ｐ）１０１のシグナル値を観測値（ｑ）１０３に変換するのに使用することができる。本例では、マッピングモデル１１０によって表されるエラー値は、フロー１０５の各反復とともに蓄積し、指数関数的に増える。

上記からの例を継続して、エラー値によって表されるエラーは、理論では、各フローとともに指数関数的に増える。例えば、実質的に同一の鋳型分子の各集団に関連した位相的に同調した配列決定反応は、フローの反復の後、３つの異なる位相的に同調した亜集団になる。亜集団には、フロー中のヌクレオチド種が鋳型分子と比べて適切な配列位置で適切に取り込まれた位相的に同調した反応（例えば、ＣＡＦＩＥ作用なし）の第１の亜集団、ＣＦ機構からの不適切な取り込みが起こり、反応が第１の集団の配列位置より進んでいる位相的に同調した反応の第２の亜集団、ＩＥ機構からの不適切な取り込みが起こり、反応が第１の集団の配列位置より遅れた位相的に同調した反応の第３の亜集団が含まれる。本例では、次のフローの反復において、３つのサブ亜集団が上述した３つの亜集団のそれぞれから形成するなどである。ｎ番目のフローの反復で、フローｎでシグナルに寄与する、位相的に同調した反応の３^ｎの集団が存在することになることを当業者は理解するであろう。

上記からの例をさらに継続して、図２は、反転マッピングモデル２１０として図２中に表されているマッピングモデル１１０の反転の例示的な表示を提供する。例えば、パラメータ１１３（例えば、ε（繰越）およびλ（完了効率）パラメータの両方についての値）の補正値を推定することにより、観察フローグラム（ｑ）１０３のシグナル値を反転して戻すことによって、理論フローグラム（ｐ）１０１のシグナル値を得る。

図１および図２中に表されたシグナル値は、実例の目的のみで提供されており、広い範囲の値が可能であることを、当業者は理解するであろう。したがって、これらは限定的であるとしてみなされるべきでない。

いくつかの実施形態では、以下に概略した２つの連続した段階、（ｉ）および（ｉｉ）でマッピングの反転を実行する：
各ヌクレオチド種のフローｉについて：
（ｉ） − ヌクレオチド種の付加を通じた新生分子の伸長：
Ｎ_ｊ＝Ｎ_ｉおよびｐ_ｊ＞０であるようなすべてのｊについて、

（ｉｉ） − 先の付加からのヌクレオチド種の残りを通じた新生分子の伸長：
Ｎ_ｊ＝Ｎ_ｉ−１およびｐ_ｊ＞０であるようなすべてのｊについて、

式中：
− ｐ_ｉは、ｉ番目のヌクレオチド種のフローにおける理論的な（クリーンな）フローグラムのシグナル値であり、
− ｑ_ｊは、ｉ番目のヌクレオチド種のフローにおける観察フローグラムのシグナル値であり、
− ｍ_ｉは、ｉ番目のヌクレオチド種のフローについてのフローグラムの配列位置における取り込みに利用可能なヌクレオチド種分子の画分であり、
− Ｎ_ｉは、ｉ番目のヌクレオチド種の付加（Ａ、Ｃ、Ｇ、またはＴ）であり、
− （ｊ，ｊ’）は、ｐ_ｊ’がフローグラム上のｐ_ｊの次の正の値であるような対の指数である。

いくつかの実施形態では、マッピングモデルを使用する計算は、フローごとに（例えば、フロー１０５の反復）実行され、段階（ｉ）および（ｉｉ）を通じて帰納的に、観察フローグラム（ｑ）、および鋳型分子の画分ｍをアップデートする。

図３Ａは、行列計算に使用されるモデルの例示的な例を提供する。例えば、以下でより詳細に記載されるように、順行列モデル３１０を、逆行列モデル３２０を導出するのに使用することができる。本例では、逆行列モデル３２０を使用する行列計算の実施は、パラメータ１１３の見積もり値を導出するために使用される場合がある。例えば、パラメータ１１３の様々な値を、行列計算中に適用し、観察フローグラム１０３へのフィッティングの程度について評価することができる。典型的には、観察フローグラム（ｑ）１０３に対して最良のフィットをもたらすパラメータ１１３は、パラメータ１１３の実際の値についての良好な推定値であると判断される。

さらに、図３Ｂは、順行列モデル３１０を使用する順行列計算の例示的な例を提供する。本例では、観察フローグラム（ｑ）１０３は、完了効率値λ＝０．９５および繰越値ε＝０．０５を含むパラメータ１１３を使用して、行列計算によって生成される。行列のフロー１０５の反復に関連する各行は、各ヌクレオチド種のフローについての操作および帰納的段階（ｉ、ｉｉ）の結果を記録する。

式（１）および帰納的段階（ｉ、ｉｉ）は、行列−アレイ操作として書き換えることができる：
式（２）：
［Μ（ｐ’，ε，λ）］^＊ｐ＝ｑ
式中：
− ［Μ（ｐ’，ε，λ）］は行列であり、
− ^＊は行列−アレイ乗算であり、
− ｐ’は、理論フローグラムのバイナリエンコーディングリストである
（例えば、図１中のフローグラムｐ、ｐ＝［０１０２００１０３０１２］^ｔは、ｐ’＝［０１０１００１０１０１１］^ｔとしてエンコードされる）。

式（２）の逆形態は、逆マッピングを与え、観察フローグラム（ｑ）１０３を理論フローグラム（ｐ）１０１に戻して変換する：
式（３）：
ｐ＝［Μ^−１（ｐ’，ε，λ）］^＊ｑ
式中：
− ［Μ^−１（ｐ’，ε，λ）］は逆行列である。

図３Ａ中の逆行列モデル３２０として例示された反転の式（３）を解くのに反復法が使用されて、各読み取りについての理論フローグラム（ｐ）１０１が得られる。この反復は、ＣＡＦＩＥ反転についての所与の対のパラメータ１１３（ε、λ）を用いて実施される：
式（４）：
ｐ^{（ｎ＋１）}＝［Ｍ^−１（ｐ’^（ｎ），ε，λ）］^＊ｑ
ここでｐ’^（１）＝ｑ’が計算の種として使用される。

図３Ｂと同様に、図４Ａは、逆行列モデル３２０を使用する逆行列計算の例示的な例を提供する。本例では、理論フローグラム（ｐ）１０１は、完了効率値λ＝０．９５および繰越値ε＝０．０５を含むパラメータ１１３を使用して、観察フローグラム（ｑ）１０３から生成される。

閾値の値は、システムの信号対ノイズ比の見積もり値を表すために使用される。例えば、一実施では、固定値である閾値≡０．２を使用することができる。そのような実施では、フローグラムｑに関連するバイナリエンコーディングリストｑ’は、フローグラム値ｑが０．２より大きいとき、値「１」をエンコードし、フローグラム値ｑが０．２以下であるとき、値「０」をエンコードする。本例では、閾値０．２は、上述したように信号対ノイズ比の見積もり値である。

あるいは、いくつかの実施では、０〜１の間の範囲、例えば、０．０５、０．１、または０．３の閾値を使用することができる。したがって、観察フローグラム（ｑ）１０３は、所与の対のパラメータ１１３（ε、λ）について、式（４）を通じてクリーンな理論フローグラム（ｐ）に反転することができる。多くの実施では、フローグラム反転の１回の反復で一般に十分となり得る。いくつかの実施では、フローグラム表示の精度が各反復とともに改善され得る場合、特により長い読み取り長さについて、所望の品質を伴った解に対して計算が収束するまで、フローグラム反転の２回、３回、またはそれ以上の反復を実施することが望ましい場合がある。好適な実施形態では、フローグラム反転の１回または２回の反復を、計算効率の利益のために実施することができる。また、コンピュータコードによって実施される本発明のいくつかの実施形態は、ユーザー選択に応えて各反復を実施し、かつ／または連続的に実施するためのいくつかの反復の選択をユーザーに可能にすることができる。例えば、ユーザーは、１つまたは複数のフィールドにおける値の入力、またはＧＵＩで提示されたボタンの選択など、当技術分野で公知の方法を使用して選択を実施することができる。本例では、ユーザーは、実施するための反復の数を示す値を入力することができ、かつ／またはユーザーは、本発明の反復を実行するためボタンを選択することができる。さらに、データ品質のレベルが達成されるまで本発明を反復する場合、ユーザーは、データ品質の目安を選択することができる。

図４Ｂは、式（４）の方法を使用して、連続した数の反復においてどのように結果が改善され得るかの例示的な例を提供する。未処理のフローグラム４１０は、各反復がフローバー（flow bar）４０９によって表された、ヌクレオチド種付加の３３６回のフロー反復から、完了効率値λ＝０．９９７および繰越値ε＝０．０３を含むパラメータ値１１３を有する観察フローグラム（ｑ）１０３の実施形態を例示する。例えば、各フローバー４０９は、ヌクレオチド種のフローを代表し、各種は、バー４０９の色またはパターンによって具体的に表すことができる。さらに、各フローに関連する検出された、または補正されたシグナル値は、シグナル強度４０５によって与えられるスケールと比べたバー４０９の高さによって表される。

読み取り長さ４０７によって与えられるスケールと比べて、特に５０配列位置を超える読み取り長さについてのフローバー４０９のシグナル強度４０５の値に関して、未処理のフローグラム４１０において高い程度のばらつきが存在することを、当業者は理解するであろう。言い換えれば、フローバー４０９の大部分のシグナル値は、整数であるシグナル値を含まない。２反復のフローグラム４２０は、本発明の実施形態を使用して補正を２反復した後の、観察フローグラム（ｑ）１０３の同じ実施形態を例示する。フローバー４０９のシグナル強度４０５の一貫性は、特に、読み取り長さ４０７の位置１５０以下におけるフローバー４０９について改善されている。同様に、データ品質の改善は、それぞれ４反復のフローグラム４３０および８反復のフローグラム４４０においても実証され、ここでフローグラム４４０は、実質的にすべてのフローバー４０９が一貫性および整数値を示すことを例示する。

いくつかの実施形態では、パラメータ１１３の値の見積もりは、式（４）を使用して求めることができる。例えば、完了効率パラメータ（λ）の最良フィッティング値は、ＣＦパラメータについて固定値を使用しながら、完了効率パラメータについて異なる値を入力して、式（４）を使用して試験計算を実施することによって求めることができる。本例では、λ＝１、０．９９９、０．９９８、．．．、０．９９０の値を、固定されたＣＦ値ε＝０とともに引き続いて使用することができ、それぞれについての結果を得ることができる。異なる実施形態では、λ値の間の０．００１の間隔を、他の間隔、例えば、０．０５、０．０１、０．００５、０．００１、０．０００５、０．０００１などの間隔値によって置き換えることができる。

本例を継続して、計算された理論フローグラム（ｐ）におけるフローバー４０９についての任意のシグナル値４０５が、λについての入力値を使用して式（４）を解いた後に０未満に下がる場合、そのλ値は、最良フィッティングの完了効率パラメータとして宣言される。λの最良フィッティング値が求められた後、引き続いてより小さいλ値を使用すると、「オーバーフィッティング」と呼ばれるものをもたらし、人工的に負のフローシグナルを生成する。また、本例では、ホモポリマーを表す長い一連のフローバー４０９（例えば、同じヌクレオチド種を含む一連の配列位置）の後の配列位置におけるいくつかのフローバー４０９について補正されたシグナル値４０５は、０未満に下がる場合がある。このゼロ交差点は、図５中の楕円５０３に例示されており、最良フィットの完了効率は、以下でλ^＊として表される。

同様に、いくつかの実施形態では、ＣＦの作用も同様の手法によって対処することができる。例えば、先に見出された値λ^＊で固定された完了効率パラメータλとともに、ε＝０、０．００２５、０．００５、０．００７５、０．０１、．．．、０．０４の値を含むことができるＣＦパラメータの値を試験することができる。これは、ステップ２→３として図５に例示されており、ここで楕円５０３は、開始位置２（ε，λ）＝（０，λ^＊）を示す。本例では、εについての入力値同士間の０．００２５の間隔は例示の目的で提示されており、他の小さい間隔値、例えば、０．０５、０．０１、０．００５、０．００１、０．０００５、０．０００１、０．００００１などの間隔値と置き換えることができる。計算された理論フローグラム（ｐ）におけるフローバー４０９についての任意のシグナル値４０５が、εについての入力値を使用して、式（４）を解いた後に０未満に下がる場合（例えば、λ経路に沿って探索していた間に０未満に下がったフローバー４０９についてのシグナル値４０５以外のフローバー４０９についての任意のシグナル値４０５）、そのε値は、最良フィッティングのＣＦパラメータの値として宣言される。εの最良フィッティング値が求められた後、引き続いてより大きい値を使用すると、「オーバーフィッティング」をもたらし、人工的に負のフローシグナルを生成する。また、本例では、ホモポリマーを表す長い一連のフローバー４０９の前の配列位置におけるいくつかのフローバー４０９について補正されたシグナル値４０５は、０未満に下がる場合がある。このゼロ交差点は、図５中の楕円５０５に例示されており、最良フィットＣＦは、以下でε^＊として表される。

図５は、例えば、横軸が完了効率軸５２０を表し、縦軸がＣＦ軸５１０を表す例示的な例を提供する。楕円５０１、５０３、および５０５内のグラフはそれぞれ、上述したようなステップを表し、３つのシグナルを示すフローグラムの例示的な部分を含む。例えば、中心のバーは、メインシグナルバー５３７を表し、左のマイナーシグナル（ＣＦバー５３５）、および右のマイナーシグナル（ＩＥバー５３３）が隣接している。楕円５０１は、当初の観察フローグラム（ｑ）１０３のステップを例示し、この場合、メインシグナルバー５３７は位相非同調性によって小さくなっており、ＣＦバー５３５およびＩＥバー５３３のマイナーシグナルは、位相非同調性が原因となったノイズを表す。楕円５０３は、ＩＥが補正されたステップを表し、この場合、ＩＥバー５３３ａに関連するシグナルが排除され、したがって中心のメインシグナルバー５３７が増大している。上述したように、ＩＥが補正された点は、例えば、最良フィットの完了効率パラメータについてのゼロ交差点を含む場合があり、λ^＊と表される。楕円５０５は、ＣＦバー５３５ａに関連したシグナルの排除によって例示された、ＣＦが補正されたさらなるステップを表し、したがって中心のメインシグナルバー５３７が増大している。上述したように、ＣＦが補正された点は、例えば、最良フィットの完了効率パラメータについてのゼロ交差点を含む場合があり、ε^＊と表される。楕円５０５は補正の結果を例示し、これは、位相非同調性エラーに起因するノイズが実質的に除去された、理論的な予期されるフローグラムの近似である。

したがって、ＣＦおよびＩＥの量、ならびに基となる鋳型分子配列ｐは未知の推測的なものであるので、本発明の方法は、完全な新規の分析モードにおいて使用することができる。ポリメラーゼ取り込み効率（すなわち、λ）またはヌクレオチドウォッシュアウトの有効性（すなわち、ε）を事前に知っている必要はまったくなく、反転を実施するのにいずれの参照ヌクレオチド配列も必要としない。

いくつかの実施形態では、上述したパラメータ見積もりのための探索プロセスは、εおよびλの入力探索間隔ごとに、段階（ｉ、ｉｉ）を通じて行列［Ｍ］を構築し、これは、計算効率の展望から限界がある。そのような限界は、行列構築操作に対して近似を使用することによって、少なくともある程度克服することができる。例えば、探索間隔ごとに行列を再構築することを回避し、したがって計算速度を大いに改善することができる。２つのそのような方法を以下に説明する。
方法１：
εおよび（１−λ）の小さい値で（例えば、（１−λ）≦０．００１およびε≦．００２５）、行列［Ｍ］が分解され、近似されて以下の形態になる：
式（５）：

式中：
− Δε＝０．００２５およびΔλ＝０．００１は、それぞれε軸およびλ軸における間隔である。

− φおよび

は、

およびφ〜（１−λ）／Δλの特性を有する行列の累乗である。
− ［Ｌ（ｐ’，Δλ）］は、下対角行列（lower diagonal matrix）であり、これは、小さい欠損ΔλでのＩＥの作用をモデル化する。

− ［Ｕ（ｐ’，Δλ）］は、上対角行列（upper diagonal matrix）であり、これは、小さい欠損ΔεでのＣＦの作用をモデル化する。
この分解を通じて、式（５）は、下対角行列Ｌおよび上対角行列Ｕを探索経路に沿って一度だけ構築し、探索グリッド、（ε，λ）での不完全および繰越の程度が行列の累乗

によってモデル化される。探索間隔の小さい値、すなわち、Δε＝０．００２５およびΔλ＝０．００１は、他の小さい値、例えば、０．０５、０．０１、０．００５、０．００１、０．０００５、０．０００１などによって置き換えることができる。

以前に示された（ε，λ）グリッドに対する探索の代わりに、ここでの方法は、

グリッドのセットを通じて実施し、これらのグリッドは、行列の累乗の計算を容易にするために正の整数であることが好ましい。最良フィットの

は、ゼロ交差条件で定義され、対応する完了効率およびＣＦパラメータは、λ^＊＝（１−φ^＊Δλ）および

である。
方法２：
小さいεおよび（１−λ）の場合における式（５）の後に、下対角累乗行列および上対角累乗行列、［Ｌ］^φおよび

は、（式６）：
［Ｌ］^φ≡（［Ι］＋［ｌ］）^φ〜［Ｉ］＋φ［ｌ］
式（７）：

によってさらに近似され、式中：
− ［Ｉ］は恒等行列であり、
− ［ｌ］および［ｕ］はそれぞれ、［Ｌ］および［Ｕ］の非対角行列である。

これは、行列の累乗の計算段階のバイパスを公式化し、したがって計算時間のスピードアップ（例えば、減少）をもたらす。

における探索空間は、今やすべて正の実数を含有する。最良フィットの

は、ゼロ交差条件で定義され、対応する完了効率およびＣＦパラメータは：
式（８）：

である。
上記に提示した実施形態は、行列を構築し、反転させるステップ、およびＣＡＦＩＥパラメータの最適な対をプローブするための（ε，λ）面内の二次元探索に基づく。これらの計算は、典型的には、実質的に同一の鋳型分子の各集団に対して実施され、例えば、反応部位に基づくシステムのアレイ（例えば、ウェルのＰｉｃｏＴｉｔｅｒＰｌａｔｅアレイまたはウェルのＩＳＦＥＴアレイ）中での部位ごとの分析を含むことができる。いくつかの実施形態では、行列は、最適なＣＡＦＩＥ値（ε^＊、λ^＊）を生成するために各集団／部位について構築される。図６は、上述した反転／探索方法１を使用することによって計算した場合の、数十万の集団／ウェル６０３の試料中の完了効率パラメータ６０５の値λ^＊およびＣＦパラメータ６０７の値ε^＊の分布の例示的な例を提供する。上述した方法２を使用することによる計算は、方法１より短い計算時間で済み、同様の結果をもたらす。

上述した実施形態はまた、一定の完了効率λおよびＣＦ εパラメータに関連する率は、配列決定ラン全体にわたって一定のままであることを仮定する。この仮定は、いくつかのフローサイクル（「いくつかの」は、１とサイクルの総数の間の任意の整数を意味する）を含むフローグラム中の「フローウィンドウ」と呼ばれる場合のあるものにＣＡＦＩＥ探索および反転手順を適用することによって軽減され得る。例えば、各フローウィンドウは、１対のＣＡＦＩＥパラメータおよび対応するクリーンな理論フローグラム１０１が見つけられる必要がある、フローグラム中に表されるフルセットのフローサイクルのサブセットである。本例では、各フローウィンドウは、これが配列決定ランに関連するフローグラム中の第１のフローから始まり、フローグラム中のフローサイクルの全長以下のある特定のフローで終わるようにアレンジされ、この場合それぞれのより小さいフローウィンドウは、より大きいものの中にネストされる。各フローウィンドウｋについて、探索および反転プロセスは、一連のＣＡＦＩＥパラメータ１１３を生成するのに独立して行われ、これらのパラメータはこの時、ウィンドウ指標ｋの関数、すなわち、ε^＊＝ε^＊（ｋ）およびλ^＊＝λ^＊（ｋ）である。計算された理論フローグラム１０１、ｐ（ｋ）もネストされ、指標ｋに応じたＣＡＦＩＥパラメータのこれらの変数値の結果である。「スティッチング」プロセス：ウィンドウ（ｋ−１）とｋの間のフローについてのｐ＝ｐ（ｋ）は、フローウィンドウ配列ｐ（ｋ）を最終的なフローグラム（ｐ）１０１に再構築する。

同じまたは代替の実施形態では、λおよびεについて一定の値を仮定することは、別の方法によって排除することができる。例えば、完了効率λ、およびＣＦ εパラメータは、各ヌクレオチド種の付加「Ｎ」（「Ａ」、「Ｇ」、「Ｃ」、または「Ｔ」）について、かつフロー位置「ｉ」（１、２、３、．．．）の関数として、指数関数などのパラメトリック形態を仮定することができる：
式（９〜１０）：
λ_Ｎ（ｉ）＝λ^０ _Ν ^＊ｅｘｐ（−δ_Ｎ ^＊ｉ）、
ε_Ｎ（ｉ）＝ε^０ _Ν ^＊ｅｘｐ（−β_Ｎ ^＊ｉ）
式中：
− λ_Ｎ（ｉ）は、「ｉ」番目のフローにおけるヌクレオチド種「Ｎ」の完了効率であり、
− ε_Ｎ（ｉ）は、「ｉ」番目のフローにおけるヌクレオチド種「Ｎ」のＣＦであり、
− λ^０ _Ｎおよびε^０ _Ｎは、初期値であり、
− δ_Ｎおよびβ_Ｎは、減衰率である。

探索法は、最適な値を求めるために４つのパラメータ空間、λ^０ _Ｎ、ε^０ _Ｎ、δ_Ｎ、およびβ_Ｎにおいて適用される。
さらに、当業者は、記載したＣＡＦＩＥ機構に関係しない他のノイズ源が存在し得ることも理解するであろう。そのようなノイズ源として、それだけに限らないが、「暗電流」と呼ばれる場合のあるものなどの電子源、光源、生物源、化学源、または当技術分野で公知の、もしくは将来発見され得る他の源を挙げることができる。現在記載されている発明のいくつかの実施形態では、多くのアプリケーションにおいて、実質的に一貫した、かつ／または予測可能なレベルである場合のある他のノイズ源に対して様々なレベルの感度を示すことができる。例えば、既知または未知の源に起因する、予測可能なレベルおよび一貫したレベルのノイズは、一般に補正することが容易である。補正の一方法は、フローに関連するすべてのシグナル値から、ノイズに関連する値を数学的に加減することである（ノイズが過剰のシグナルを加えるか、検出されるシグナルを低下させるかに応じて）。

ノイズのレベルが予測可能でないいくつかの実施形態では、少なくともある程度、ノイズのレベルの見積もりをシグナルデータに埋もれている情報から引き出すことができる。例えば、配列位置で存在しないことが分かっているか、予測されるヌクレオチド種については、実際のシグナル値は０に等しい（すなわち、「０−ｍｅｒ」位置）はずであることが予期される。したがって、任意の検出されるシグナルは、システム内のすべてのノイズ源に起因し得る。本例において、現在記載されている実施形態では、ＣＡＦＩＥ機構からのノイズを推定するので、そのようなノイズをデータから除去し、その下にあるノイズを明らかにすることができる。本例では、推定は、配列ランにおいてすべての「０−ｍｅｒ」配列位置を調べることによって改善することができる。この場合、バイナリエンコードするｐ’^（ｎ）の式（４）における「閾値」の値は、上記の先の実施形態で記載したような固定値の代わりに、各ランについてダイナミックに求めることによって、そのノイズレベルを表すことができる。

なおさらに、いくつかの先に記載された実施形態は、観察フローグラム中に表された配列データの過剰補正を防止するために、「安全基準」と呼ばれる場合のあるものを含んでいた。上述したように、過剰補正は、記載されたアルゴリズムが反復するにつれて導入されるエラーの指数関数的蓄積を引き起こす場合がある。例えば、上述した他のノイズ源は、シグナルデータに適用される補正量を含む安全基準を決定する場合がある。例えば、いくつかの実施では、他の非ＣＡＦＩＥ源からの所与のレベルのノイズを仮定し、データに対して６０％補正（例えば、１００％は、完全な補正を意味する）と呼ばれる場合のあるものの安全基準を適用することができる。この推定は、計算されたクリーンなフローグラムｐの６０％、および観察フローグラムｑの４０％を含む「ハイブリッド」フローグラム、「０．６ｐ＋０．４ｑ」を使用する。あるいは、非ＣＡＦＩＥノイズが「低い」レベルにある場合、例えば、８０％などのより高い百分率の補正を適用することができる。

黄色ブドウ球菌（Staphylococcus aureus）ＣＯＬおよびマイコプラズマ・ジェニタリウム（Mycoplasma genitalium）のゲノムを、４５４ＬｉｆｅＳｃｉｅｎｃｅｓＣｏｒｐｏｒａｔｉｏｎＧｅｎｏｍｅＳｅｑｕｅｎｃｅｒ（上記で参照により組み込まれている、Ｍａｒｇｕｌｉｅｓら、２００５）上でショットガン配列決定した。図７は、ゲノムのカバー率、共通配列の正確さ、中程度の読み取り長さ、および１２５配列位置にわたる読み取り長さの１００％の精度を実現したウェルの百分率に対するＩＥ補正のみ、およびＣＡＦＩＥ補正の効果の例示的な例を提供する。これらの測定のそれぞれで、ＣＡＦＩＥ補正は、ＩＥ補正単独より優れていた。ＩＥ補正単独は、補正なして実現した結果に対して優れていた。制御配列を有するビーズを別個に調製し、実験試料と混合した後、アレイを調製した。

図７が実証するように、ＣＡＦＩＥ補正手順を使用すると、６３フローサイクルまたは２５２フロー反復（例えば、各フローサイクルは、４ヌクレオチド種フロー反復を含む）の理論的な最大値付近である１１２配列位置から１４７配列位置までの６３フローサイクルのランについての平均読み取り長さが長くなる。理論的な最大値は、フローサイクルの数、この場合では６３に、４ヌクレオチド付加の各サイクルにおいて平均で伸長される配列位置の数（２．５）を乗じることによって計算される：６３×２．５＝１５７．５（理論的な最大値）。１４７配列位置の平均読み取り長さは、フローサイクルにわたって９５％の精度で、既知のゲノム配列にフローグラムをマッピングすることによって求めた。

当業者は、データからのエラーの正確な除去は、前記データのより効率的で正確な解釈をもたらすことを理解するであろう。したがって、例えば、配列決定ランにおいて生成されるデータからエラーを除去する工程は、配列ランから生成される配列中の各核酸種を同定するコールのより正確な生成、およびより高い品質の配列情報をもたらす。先に記載された発明のいくつかの実施形態は、配列決定装置でのＳＢＳ配列決定ランから生成されるデータを分析するためのシステムおよび方法を含む。ＳＢＳ装置および方法のいくつかの例では、ピロリン酸に基づく配列決定手法と呼ばれるものを使用することができ、これは、例えば、電荷結合素子（ＣＣＤ）カメラなどの検出デバイス、マイクロフルイディクスチャンバー、試料カートリッジホルダー、またはポンプおよびフローバルブのうちの１つまたは複数を備えることができる。

現在記載されている発明の実施形態は、上述したＣＡＦＩＥ補正の実施形態（以下、「標準的ＣＡＦＩＥ」と呼ぶ）に対して実質的な性能改善をもたらし、ユーザーにかなりの利点をもたらす。以下により詳細に説明するように、ＣＡＦＩＥ補正方法の改善は、標準的ＣＡＦＩＥからの理論フローグラム（ｐ）出力を採用し、正の取り込みリストが最適化された結果に収束するまでフローグラムシグナルを帰納的に再推定することによって（以下、「帰納的ＣＡＦＩＥ」と呼ぶ）、上述した標準的ＣＡＦＩＥ補正法に及ぶ。帰納的に補正されたフローグラムおよび正の取り込みリストが収束すると、帰納的ＣＡＦＩＥ法は、以下でさらに詳細に説明するように、上述した標準的ＣＡＦＩＥ補正法に対してより良好な補正を生じる。この改善は、位相同期性ＣＡＦＩＥパラメータを見出すためのアルゴリズムの改善、および位相同期性エラーを補正するための帰納的手順を含む。同じ、または代替の実施形態は、コンセンサスフローリスト（consensus flow list）を生物の既知の参照配列から採用し、上述したような閾値を推定するのに使用することができる参照ＣＡＦＩＥ補正を含む場合があり、この場合、バイナリエンコーディングリスト中の位置は、参照配列中の対応する配列位置に基づくシグナルをまったく有さないことを予測することができ、したがって観察されたシグナルは、ノイズおよび／または参照配列に由来する配列変異体に特徴づけることができる。観察されたシグナルの規模は一般に、特に、シグナルをまったく有さないと予測されるバイナリエンコーディングリスト中の他の位置でのシグナルの規模と比較される場合、これが配列変異体に特徴づけることができるのか、またはノイズに特徴づけることができるのかを示すことが理解されるであろう。

図８は、ＣＡＦＩＥパラメータをさらに最適化し、さらに最適化されたパラメータを再適用することによってより正確なフローリストを繰り返して発展させ、中間のＣＡＦＩＥ補正されたフローグラムを生成し、最終的に帰納的に補正されたフローグラムに収束させる帰納的ＣＡＦＩＥ実施形態の簡略化されたグラフの例を提供する。

帰納的ＣＡＦＩＥ補正ストラテジーの典型的実施形態では、標準的ＣＡＦＩＥ補正法を使用して、かつＣＡＦＩＥ補正されたフローグラムを生成する帰納的ＣＡＦＩＥアルゴリズムを使用する反復を通じて、配列読み取りから観察フローグラムに位相同期性補正を最初に実施し、これは、観察フローグラムから得られたものより真の配列をより正確に反映する新しいバイナリエンコーディングリスト（ｐ’）を推定する。次いでこの新しいバイナリエンコーディングリストを使用して、配列読み取りについての完了効率λおよび繰越εのパラメータを再び推定する（したがってより正確に）。（λ、ε）の新しい見積もりは、バイナリエンコーディングリストの負の取り込みイベントにおいて補正されたシグナルが、可能な限り実際のバックグラウンドノイズレベルに近くなることを要求することによって実現される。具体的には、本発明者らは、アルゴリズムにおいてＣＡＦＩＥ行列にパラメータλおよびεの摂動を実施する：
式（１１〜１２）：
Δｑ_λ＝［Μ^−１（ｐ’，１−Δλ，０）］^＊ｑ−ｑ，
Δｑ_ε＝［Ｍ^−１（ｐ’，１，Δε）］^＊ｑ−ｑ、
式中、Μ（ｐ’，λ，ε）は、上述したＣＡＦＩＥ行列であり、Δｑ_λおよびΔｑ_εは、バイナリエンコーディングリストｐ’を用いた摂動ΔλおよびΔεに応答したフローグラムの変化であり、ｐは、標準的ＣＡＦＩＥ補正によって計算された理論フローグラムである。

帰納的ＣＡＦＩＥ法では、新しいλおよびεは、以下の手順によって得られる。摂動増分（ｔ_λ，ｔ_ε）を以下の数式を最小化することによって計算する：
式（１３）：

ここでノイズは、最初の４８フローの負の取り込みイベント（ｐ’（ｉ）＝０）に関連するフローシグナルの平均である。ｔ_λおよびｔ_εの値を求めた後、ＣＡＦＩＥ補正パラメータ（λ，ε）を以下のように計算する：
式（１４〜１５）：
λ＝１−ｔ_λΔλ、
ε＝ｔ_εΔε。

このようにして、λおよびεは、位相から外れたＣＡＦＩＥエラーを最小限にする最適な対として確実になる。最後に、ＣＡＦＩＥ補正
式（１６）：
ｐ^（１）＝［Μ^−１（ｐ’，ε，λ）］^＊ｑ、
を実施して新しいＣＡＦＩＥ補正された理論フローグラムｐ^（１）を得る。

上記に述べた手順を反復して繰り返す：反復ｎ＋１で、フローグラムｐ^（ｎ）を使用することによってバイナリエンコーディングリストｐ’^（ｎ）を推定し、最小化手順（１３）によってＣＡＦＩＥ探索を再び実施し、摂動式（１４〜１６）を通じて、新しいＣＡＦＩＥ補正したフローグラムｐ^{（ｎ＋１）}およびＣＡＦＩＥパラメータ（ε^{（ｎ＋１）}，λ^{（ｎ＋１）}）を得る。

式（１７）：
ｐ^{（ｎ＋１）}＝［Μ^−１（ｐ’^（ｎ），ε^{（ｎ＋１）}，λ（^ｎ＋１））］^＊ｑ。
いくつかの実施形態では、バイナリエンコーディングリストが収束する、ｐ’^{（ｎ＋１）}＝ｐ’^（ｎ）まで帰納的手順を継続する。正のフローリストｉは、ｐ’^（ｎ）（ｉ）＝１である場合、正のヌクレオチド取り込みを示すフロー位置を近似する。より正確には、アルゴリズムによって推定される正のフローリストは、位相非同期性のより正確な補正をもたらす。したがって、帰納的アルゴリズムでは、反復してＣＡＦＩＥ補正されたフローグラムを使用し、収束時に帰納的に補正されたフローグラムをもたらす。各反復において、アルゴリズムにより、ＣＡＦＩＥパラメータ（ε^（ｎ），λ^（ｎ））のより良好な見積もり値、および次の反復において位相エラーのより正確なＣＡＦＩＥ補正を与えるバイナリエンコーディングｐ’^（ｎ）が得られる。

いくつかの実施形態では、ＣＡＦＩＥパラメータが収束する、（ε^{（ｎ＋１）}，λ^{（ｎ＋１）}）＝（ε^（ｎ），λ^（ｎ））まで帰納的手順を継続し、この収束は、バイナリエンコーディングリストがＣＡＦＩＥパラメータを使用して計算される方法の性質によって、バイナリコーディングリストの収束も意味する。収束を判定するのにＣＡＦＩＥパラメータを使用することの１つの利点は、バイナリエンコーディングリストｐ’の収束を推定するより計算的に効率的であることである。

表１〜６は、配列読み取りについての標準的ＣＡＦＩＥ補正法と帰納的ＣＡＦＩＥ補正法の結果の比較を提示する。これらのすべてにおいて、帰納的ＣＡＦＩＥ補正法を試験することにより、５０〜９０ｂｐのより長い読み取り長さ、より多数の高品質な読み取り（品質トリミングプロセスに合格する読み取りとして定義される）、および標準的ＣＡＦＩＥ補正ストラテジーと比較した場合に匹敵する読み取り精度をもたらすことができた。図９も、２つのＣＡＦＩＥ補正法についての読み取り長さの分布および読み取りエラー分布の例示的なプロットを提供し、標準的ＣＡＦＩＥ法のライン９１０に勝る帰納的ＣＡＦＩＥ補正法のライン９０５からの好都合な結果を示す。表５は、帰納的補正法で処理した８回の配列決定ランの結果を要約する。平均のマッピングされた長さは６００〜７００ｂｐであり、Ｑ２０読み取り長さは４３０〜５６５ｂｐであり、最長の完全な読み取り長さは８７０〜９３０ｂｐであり、最長のマッピングされた読み取りは９０１〜９９７ｂｐである。

このように、核酸の配列決定の間に得られた配列データ中のエラーを補正するための方法およびシステムが提供されていることが分かる。特定の実施形態を詳細に本明細書で開示してきたが、それは、例示の目的のみのために例として開示されており、以下に続く添付の特許請求の範囲に関して限定的であることは意図されていない。特に、様々な置換、変更、および改変を、特許請求の範囲によって定義される本発明の精神および範囲から逸脱することなく行うことができることが企図されている。他の態様、利点、および改変も以下の特許請求の範囲内であるとみなされる。提示された特許請求の範囲は、本明細書に開示された本発明を代表する。他の請求されていない発明も企図されている。後の請求項におけるそのような発明を実行する権利は、本明細書によって確保されている。

Claims

鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための方法であって、
（ａ）配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する工程と、
（ｂ）ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と、
（ｃ）繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と、
（ｄ）負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と、
（ｅ）修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義する工程と、
（ｆ）複数の正の取り込み値および複数の負の取り込み値が収束するまで工程（ｄ）〜（ｅ）を繰り返す工程と
を含む方法。
正の取り込み値および負の取り込み値が整数であり、好ましくは、正の取り込み値が１であり、負の取り込み値が０である、請求項１に記載の方法。
工程（ｃ）において使用される繰越値および不完全伸長値が、パラメータ推定モデルを使用して求められる、請求項１に記載の方法。
工程（ｃ）の前に、正の取り込み値および負の取り込み値が閾値を使用して割り当てられ、正の取り込み値は、観測値が閾値より上であるとき割り当てられ、負の取り込み値は、観測値が閾値未満であるとき割り当てられる、請求項１に記載の方法。
閾値が０〜１の間の範囲の値を含み、好ましくは、閾値は約０．２である、請求項４に記載の方法。
ヌクレオチド種がまったく存在しない複数の位置を予測するために、閾値が参照配列を使用して定義される、請求項４に記載の方法。
ノイズ値が、導入されるヌクレオチド種の数からの負の取り込み値に関連する観測値の平均であり、好ましくは、導入されるヌクレオチド種の数は、導入される最初の４８ヌクレオチド種を含む、請求項１に記載の方法。
複数の配列決定反応が並行して実行され、工程（ａ）〜（ｆ）が配列決定反応のそれぞれについて実行される、請求項１に記載の方法。
鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための方法であって、
（ａ）配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する工程と、
（ｂ）ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と、
（ｃ）繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と、
（ｄ）負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と、
（ｅ）修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義するする工程と、
（ｆ）繰越値および不完全伸長値が収束するまで工程（ｄ）〜（ｅ）を繰り返す工程と
を含む方法。
鋳型分子の実質的に同一のコピーの集団から生成される配列データの位相同期性に関連するエラーを帰納的に補正するための機器であって、
（ａ）配列決定反応の間に導入される複数のヌクレオチド種に応答して生成される複数のシグナルを検出する配列決定機器コンポーネントと、
（ｂ）
ｉ．ヌクレオチド種のそれぞれから検出されるシグナルの観測値を生成する工程と；
ｉｉ．繰越値および不完全伸長値を使用して、観測値から複数の正の取り込み値および複数の負の取り込み値を定義する工程と；
ｉｉｉ．負の取り込み値に関連する複数の観測値から導出されるノイズ値を使用して繰越値および不完全伸長値を修正する工程と；
ｉｖ．修正された繰越値および修正された不完全伸長値を使用して、複数の正の取り込み値および複数の負の取り込み値を再定義する工程と；
ｖ．繰越値および不完全伸長値が収束するまで工程ｉｉｉ〜ｉｖを繰り返す工程と
を含む方法を実施する、記憶された実行可能なコードを備えるコンピュータと
を備える機器。
正の取り込み値および負の取り込み値が整数であり、好ましくは、正の取り込み値が１であり、負の取り込み値が０である、請求項１０に記載の機器。
工程（ｉｉ）において使用される繰越値および不完全伸長値が、パラメータ推定モデルを使用して求められる、請求項１０に記載の機器。
工程（ｉｉ）の前に、コンピュータが正の取り込み値および負の取り込み値を、閾値を使用して割り当て、正の取り込み値は、観測値が閾値より上であるときに割り当てられ、負の取り込み値は、観測値が閾値未満であるときに割り当てられる、請求項１０に記載の機器。
閾値が０〜１の間の範囲の値を含み、好ましくは、閾値は約０．２である、請求項１３に記載の機器。
ヌクレオチド種がまったく存在しない複数の位置を予測するために、コンピュータが、参照配列を使用して閾値を定義する、請求項１３に記載のシステム。
ノイズ値が、導入されるヌクレオチド種の数からの負の取り込み値に関連する観測値の平均であり、好ましくは、導入されるヌクレオチド種の数は、導入される最初の４８ヌクレオチド種を含む、請求項１０に記載のシステム。
配列決定システムが、複数の配列決定反応を並行して実行し、コンピュータが、配列決定反応のそれぞれについて工程（ｉ）〜（ｖ）を実行する、請求項１０に記載の機器。