JP2010528608A5

JP2010528608A5 -

Info

Publication number: JP2010528608A5
Application number: JP2010510347A
Authority: JP
Filing date: 2008-05-29
Publication date: 2011-07-14

Description

複合的な混合物から個々の試料を特定するためのシステムおよび方法

本発明は、分子生物学およびバイオインフォマティクスの分野に関する。より具体的には、本発明は、複合識別子（ＭＩＤ）と呼ばれることもある一意識別子（ＵＩＤ）エレメントを、特定の試料に由来する１つまたは複数の核酸エレメントと関連づけ、その試料の関連づけたエレメントを、１つまたは複数の他の試料の関連づけたエレメントと混合して前記試料の複合混合物にし、一般に「配列決定」技術と呼ばれるものによって得られたデータから各識別子およびその関連づけた試料を特定することに関する。

例えば、終結およびサイズ分離技術を使用する当業者に通常知られているＳａｎｇｅｒ配列決定法と呼ばれるものに基づく技術など、ここに記載の発明で使用するのに適した、当技術分野で知られている「配列決定」技術がいくつか存在する。核酸試料中の１つまたは複数のヌクレオチドの出所または配列組成を決定する、他のクラスの強力なハイスループット配列決定技術には、「合成による配列決定」技術（ＳＢＳ）、「ハイブリダイゼーションによる配列決定」（ＳＢＨ）、または「ライゲーションによる配列決定」（ＳＢＬ）技術がある。このうち、ＳＢＳ法は、それだけに限らないが、以前の技術と比べて低コストでの大量高品質配列情報の大量並行生成を含む、以前から使用されている配列決定法より望ましい利点を多数もたらす。本明細書において「大量並行」という用語は一般に、多数の異なる鋳型分子からの配列情報の並行した同時生成を指し、この場合個々の鋳型分子または実質的に同一の鋳型分子の集団は分離または区画化され、反復する一連の反応を含むことがある配列決定工程に同時にさらされ、それによって各鋳型分子の核酸組成を表す独立した配列読み取りが得られる。言い換えると、その利点は、多数の異なる試料または試料内に存在する異なる核酸エレメントと関連づけた複数の核酸エレメントを同時に配列決定できることを含む。

ＳＢＳ法の典型的な実施形態は、ヌクレオチド配列組成を決定する鋳型核酸分子と相補的な一本鎖のポリヌクレオチド分子の段階的な合成を含む。例えば、ＳＢＳ技術は、典型的には、単一の核酸（ヌクレオチドとも呼ばれる）種を、対応する配列位置で、鋳型分子の核酸種と相補的な新生ポリヌクレオチド分子に付加することによって働く。新生分子への核酸種の付加は、それだけに限らないが、パイロシークエンス法と呼ばれるもの、または可逆的ターミネーターもしくは蛍光共鳴エネルギー移動色素（ＦＲＥＴ）を含めたエネルギー移動標識を使用するものなどの蛍光検出法を含めた、当技術分野で知られている様々な方法を使用して一般に検出される。典型的には、その工程は、鋳型と相補的である完全な（すなわち全ての配列位置が表されている）または所望の配列長が合成されるまで反復する。

さらに、上記に記載のように、ＳＢＳの多数の実施形態は、大量並行の形式で配列決定操作を行うことが可能である。例えば、ＳＢＳ法のいくつかの実施形態は、調製および／または配列決定法と関連する１つまたは複数のステップまたは操作を自動化する機器を使用して行われる。いくつかの機器は、それぞれのウェルまたはマイクロリアクター中で同時に反応を行うことができるウェルの付いたプレートや他の型のマイクロリアクターの構成などのエレメントを使用する。ＳＢＳ技術ならびに大量並行配列決定の系および方法のさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、特許文献１；特許文献２；特許文献３、特許文献４；特許文献５；特許文献６；特許文献７；および特許文献８；ならびに全ての目的でその全体が参照により本明細書に組み込まれている米国特許出願第１１／１９５，２５４号に記載されている。

ＳＢＳのいくつかの実施形態では、鋳型核酸分子のコピーを含む集団中で１つまたは複数のヌクレオチド種が各新生分子中に取り込まれたときに強いシグナルをもたらす、各鋳型核酸エレメントの実質的に同一のコピーを多数生成することが望ましい可能性もある。例えば、細菌ベクターと呼ばれるものを使用した増幅、「ローリングサークル」型増幅（上記で参照により組み込まれている特許文献１および特許文献４に記載されている）、等温増幅技術や、ポリメラーゼ連鎖反応（ＰＣＲ）法など、核酸分子のコピーを生成する、当技術分野で知られている技術が多数存在し、それぞれの技術は、本明細書に記載の発明で使用するのに適している。ハイスループットの適用に特に適した１つのＰＣＲ技術は、エマルジョンＰＣＲ法と呼ばれるものを含む。

エマルジョンＰＣＲ法の典型的な実施形態は、１つの物質がもう１つの物質内に分散した、混ぜ合わせることに抵抗性のある２つの不混和性物質の安定なエマルジョンを作り出すことを含む。エマルジョンは、別の流体内に懸濁した液滴を含んでよく、区画、マイクロカプセル、マイクロリアクター、微小環境と、または関連技術分野で通常使用される他の名称で呼ばれることもある。液滴は、エマルジョンの構成成分の組成および使用する形成技術に応じてサイズが変動し得る。記載のエマルジョンは、その中でＰＣＲなどの化学反応を行うことができる微小環境を作り出す。例えば、鋳型核酸および所望のＰＣＲ反応を行うのに必要な全ての試薬をカプセル化し、エマルジョンの液滴中に化学的に隔離することができる。液滴を使用してＰＣＲ法に特有の温度サイクル操作を実行してカプセル化核酸鋳型を増幅することができ、その結果、鋳型核酸の実質的に同一のコピーを多数含む集団が得られる。この例においても、記載の液滴の一部または全部は、対象とする核酸、試薬、標識、または他の分子を付着させるためのビーズなどの固体担体をさらにカプセル化することができる。

ここに記載の発明で有用なエマルジョンの実施形態は、大量並行の形で記載の化学反応を行うことを可能にする非常に高い密度の液滴またはマイクロカプセルを含み得る。エマルジョンおよび配列決定の適用のためのその使用のさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、米国特許出願第１０／８６１，９３０号；第１０／８６６，３９２号；第１０／７６７，８９９号；第１１／０４５，６７８号に記載されている。

当業者なら、本明細書に記載の増幅および配列決定法の大量並行性によってもたらされる利点が、「複合」試料と呼ぶことができるものの処理に特に適し得ることを理解するであろう。例えば、複合組成物は、複数の個体の試料などの複数の試料からの代表物を含み得る。多くの適用では、各試料を別々に処理することとは対照的に、複数の試料を混合して、１回の操作で処理することができる単一の複合的な試料にすることが望ましい可能性がある。したがって、その結果は、典型的には試薬、労力、機器使用およびコストの実質的な節約ならびに注いだ処理時間の著しい節約を含み得る。複合処理の記載した利点は、個体の試料数が増大するにつれてより顕著になる。さらに、複合処理は、研究ならびに診断の場面で適用される。例えば、多くの適用では、増幅反応で単一の複合的な試料を使用し、その後、単一の配列決定の実行で増幅した複合組成物を処理することが望ましい可能性がある。

次いで、複合組成物の処理に伴う１つの問題は、元の各試料と、前記試料に由来する鋳型分子から得られた配列データとの関連の特定となる。この問題の解決策は、各鋳型分子とその元の試料との関連を特異的に特定する核酸配列などの識別子の関連づけを含む。この解決策の利点は、関連づけた核酸配列の配列情報が鋳型分子から得られた配列データ中に埋め込まれ、その情報をバイオインフォマティクスで分析して配列データをその元の試料と関連づけることができることである。

以前の研究は、複合処理のために、核酸配列識別子を、標的配列と連結した５’プライマーと関連づけることについて記載している。そのような研究の１つは、Ｂｉｎｌａｄｅｎらのものである（ＢｉｎｌａｄｅｎＪ、ＧｉｌｂｅｒｔＭＴＰ、ＢｏｌｌｂａｃｋＪＰ、ＰａｎｉｔｚＦ、ＢｅｎｄｉｘｅｎＣ（２００７年）ＴｈｅｕｓｅｏｆｃｏｄｅｄＰＣＲＰｒｉｍｅｒｓＥｎａｂｌｅｓＨｉｇｈ−ＴｈｒｏｕｇｈｐｕｔＳｅｑｕｅｎｃｉｎｇｏｆＭｕｌｔｉｐｌｅＨｏｍｏｌｏｇＡｍｐｌｉｆｉｃａｔｉｏｎＰｒｏｄｕｃｔｓｂｙＰａｒａｌｌｅｌ４５４Ｓｅｑｕｅｎｃｉｎｇ．ＰＬｏＳＯＮＥ２巻（２号）：ｅ１９７．ｄｏｉ：１０．１３７１／ｊｏｕｒｎａｌ．ｐｏｎｅ．００００１９７（２００７年２月１４日にオンライン公開、この文献は全ての目的でその全体が参照により本明細書に組み込まれている）。上記で述べたように、Ｂｉｎｌａｄｅｎらは、短い配列識別子を複合的な試料中で処理する標的配列と関連づけ、その後バイオインフォマティクスで分析して短い識別子をその元の試料と関連づける配列データを作成することについて記載している。しかし、一般的な配列組成の核酸識別子を鋳型分子に単に付着させ、得られた配列データ中の前記識別子の配列を特定することには限界がある。様々な機構から配列データ中へのエラーの導入がまず懸念される。そのような機構は、典型的には互いとの組合せで働き、一般に、配列データからは個々に特定できない。したがって、導入されたエラーのために、エンドユーザーは、配列データとその元の試料との関連づけを特定することができず、またはおそらくより悪いことに、エラーが起こっていることを特定できず、誤っている元の試料に配列データを誤って割り当てる。

他の根源が存在する可能性もあるが、エラー導入の重要な根源が２つ考慮される。第１は、配列決定操作によって導入されるエラーであり、場合によっては「フローエラー」と呼ぶことができる。例えば、フローエラーは、ポリメラーゼ酵素による誤ったヌクレオチド種の取り込みを含むポリメラーゼエラーを含み得る。配列決定操作は、「繰り越し」および「不完全伸長」と呼ばれるものを含む相同調性エラーと呼ぶことができるもの（相同調性エラーの組合せはＣＡＦＩＥエラーと呼ばれることもある）を導入する可能性もある。相同調性エラーおよび訂正の方法は、全ての目的でその全体が参照により本明細書に組み込まれている、２００７年２月１５日に出願された「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＣｏｒｒｅｃｔｉｎｇＰｒｉｍｅｒＥｘｔｅｎｓｉｏｎＥｒｒｏｒｓｉｎＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅＤａｔａ」という名称のＰＣＴ出願第ＵＳ２００７／００４１８７号にさらに記載されている。

第２は、プライマー合成や増幅エラーなどの配列決定操作から独立している工程から導入されるエラーである。例えば、ＰＣＲ用に合成されたオリゴヌクレオチドプライマーは、ここに記載の発明の１つまたは複数のＵＩＤエレメントを含む可能性があり、次いで配列決定鋳型として使用されるプライマー／ＵＩＤエレメントの合成中にエラーが導入される可能性がある。ＵＩＤエレメントの忠実度の高い配列決定は、配列データ中の合成されたエラーを忠実に再現する。この例においても、例えばポリメラーゼによって複製におけるエラーが増幅した１０，０００；１００，０００；または１，０００，０００塩基ごとに１回導入される可能性がある程度の複製エラーを有する、ＰＣＲ法で通常使用されるポリメラーゼ酵素が知られている。

米国特許第６，２７４，３２０号明細書米国特許第６，２５８，５６８号明細書米国特許第６，２１０，８９１号明細書米国特許第７，２１１，３９０号明細書米国特許第７，２４４，５５９号明細書米国特許第７，２６４，９２９号明細書米国特許第７，３３５，７６２号明細書米国特許第７，３２３，３０５号明細書

したがって、１）エラー導入に抵抗性があり、２）導入されたエラーの検出を可能にし、３）導入されたエラーの訂正を可能にする一意識別子を使用するとかなり有利となる。ここに記載の発明は、これらの問題に対処するものであり、より良好な認識および特定の特性をもたらし、その結果データの品質および実験の効率が向上する一意識別子を関連づける系および方法を提供する。

本発明の実施形態は、核酸の配列の決定に関する。より具体的には、本発明の実施形態は、核酸の配列決定の間に得られたデータ中のエラーを訂正し、核酸をその起源と関連づけるための方法および系に関する。

核酸エレメントから得られた配列データ中に導入されたエラーの検出および導入されたエラーの訂正を可能にする配列組成を含む核酸エレメントを含む、鋳型核酸分子の起源を特定する識別子エレメントの実施形態が記載され、核酸エレメントは鋳型核酸分子の末端と連結するように構築され、鋳型核酸分子の起源を特定する。

また、鋳型核酸分子から得られた配列データから第１の識別子配列を特定するステップと、第１の識別子配列中で導入されたエラーを検出するステップと、第１の識別子配列中で導入されたエラーを訂正するステップと、訂正された第１の識別子配列と、鋳型分子と連結した第１の識別子エレメントとを関連づけるステップと、訂正された第１の識別子配列と第１の識別子エレメントとの関連づけを使用して、鋳型分子の起源を特定するステップとを含む、鋳型核酸分子の起源を特定するための方法の実施形態も記載される。

いくつかの実装形態では、その方法は、鋳型核酸分子から得られた配列データから第２の識別子配列を特定するステップと、第２の識別子配列中で導入されたエラーを検出するステップと、第２の識別子配列中で導入されたエラーを訂正するステップと、訂正された第２の識別子配列と、鋳型核酸分子と連結した第２の識別子エレメントとを関連づけるステップと、訂正された第１の識別子配列と第１の識別子エレメントとの関連づけを、訂正された第２の識別子配列と第２の識別子エレメントとの関連づけと組み合わせて使用して、鋳型核酸分子の起源を特定するステップとをさらに含む。

さらに、各核酸エレメントから得られた配列データ中に導入されたエラーの検出および導入されたエラーの訂正を可能にする独自の配列組成をそれぞれが含む核酸エレメントのセットを含む、鋳型核酸分子の起源を特定するキットの実施形態が記載され、それぞれの核酸エレメントは鋳型核酸分子の末端と連結するように構築され、鋳型核酸分子の起源を特定する。

さらに、システムメモリ中に保存された実行可能なコードを含むコンピュータの実施形態が記載され、実行可能なコードは、鋳型核酸分子の起源を特定するための方法であって、鋳型核酸分子から得られた配列データから識別子配列を特定するステップと、識別子配列中で導入されたエラーを検出するステップと、識別子配列中で導入されたエラーを訂正するステップと、訂正された識別子配列と、鋳型分子と連結した識別子エレメントとを関連づけるステップと、訂正された識別子配列と識別子エレメントとの関連づけを使用して、鋳型分子の起源を特定するステップとを含む方法を行う。

上記の実施形態および実装形態は、必ずしも互いに包含的でも排他的でもなく、それが同じ実施形態または実装形態との関連で示されていても、異なる実施形態または実装形態との関連で示されていても、相反せずその他可能な任意の形で組み合わせることができる。１つの実施形態または実装形態の記載は、他の実施形態および／または実装形態に関して限定するものではない。また、本明細書中の他の箇所に記載した任意の１つまたは複数の機能、ステップ、操作、または技術は、代替の実装形態において、概要中に記載した任意の１つまたは複数の機能、ステップ、操作、または技術と組み合わせることができる。したがって、上記の実施形態および実装形態は限定的ではなく例示的である。

上記の特徴およびさらなる特徴は、添付図面と併せて考慮したときに、下記の詳細な説明からよりはっきりと理解されるであろう。図面中で、同じ参照数字は同じ構造、エレメント、または方法のステップを示し、参照数字の最も左の桁は、参照エレメントが最初に現れる図面の番号を示す（例えば、エレメント１６０は図１で最初に現れる）。しかし、これらの取り決めの全ては、限定的ではなく典型的または例示的であるものとする。
したがって、本発明は、以下の項目を提供する：
（項目１）
鋳型核酸分子の起源を特定する識別子エレメントであって、
核酸エレメントから得られた配列データ中に導入されたエラーの検出および該導入されたエラーの訂正を可能にする配列組成を含む核酸エレメントであって、鋳型核酸分子の末端と連結するように構築され、該鋳型核酸分子の起源を特定する核酸エレメント
を含む識別子エレメント。
（項目２）
上記配列組成が、最大３個の上記導入されたエラーの検出および最大２個の該導入されたエラーの訂正を可能にする、
項目１に記載の識別子エレメント。
（項目３）
上記配列組成が１０個の配列位置を含む、
項目１に記載の識別子エレメント。
（項目４）
上記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
項目１に記載の識別子エレメント。
（項目５）
上記配列組成が、最小限の配列長、最小限の数のフローサイクル、配列独自性、およびモノマー反復からなる群から選択されるパラメーターのセットをベースにした設計を含む、
項目１に記載の識別子エレメント。
（項目６）
上記配列組成が、融解温度、ギブズ自由エネルギー、ヘアピン形成、およびダイマー形成からなる群から選択されるパラメーターのセットをベースにした設計を含む、
項目１に記載の識別子エレメント。
（項目７）
上記核酸エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、上記鋳型核酸分子の末端と連結する、
項目１に記載の識別子エレメント。
（項目８）
上記核酸エレメントが、上記プライマーエレメントに対して既知の位置にある、
項目７に記載の識別子エレメント。
（項目９）
上記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定（ｂｉｐａｒｔｉｔｅａｍｐｌｉｆｉｃａｔｉｏｎ−ｓｅｑｕｅｎｃｉｎｇ）プライマーからなる群から選択される、
項目７に記載の識別子エレメント。
（項目１０）
上記アダプターが品質管理エレメントを含む、
項目７に記載の識別子エレメント。
（項目１１）
上記核酸エレメントが、上記品質管理エレメントに対して既知の位置にある、
項目７に記載の識別子エレメント。
（項目１２）
上記鋳型核酸分子の起源が実験試料または診断試料を含む、
項目１に記載の識別子エレメント。
（項目１３）
上記核酸エレメントが、それぞれが独自の配列組成を含む複数の互換性のある核酸エレメントを含むセットに属し、上記導入されたエラーの検出が、該セットの該互換性のある核酸エレメントの配列組成と関連する、
項目１に記載の識別子エレメント。
（項目１４）
上記セットが１４個の上記互換性のある核酸エレメントを含む、
項目１３に記載の識別子エレメント。
（項目１５）
鋳型核酸分子の起源を特定するための方法であって、
鋳型核酸分子から得られた配列データから第１の識別子配列を特定するステップと、
該第１の識別子配列中で導入されたエラーを検出するステップと、
該第１の識別子配列中で該導入されたエラーを訂正するステップと、
訂正された該第１の識別子配列を、該鋳型分子と連結した第１の識別子エレメントと関連づけるステップと、
該訂正された第１の識別子配列と該第１の識別子エレメントとの関連づけを使用して、該鋳型分子の起源を特定するステップと
を含む方法。
（項目１６）
鋳型核酸分子を配列決定して上記配列データを得るステップ
をさらに含む、項目１５に記載の方法。
（項目１７）
上記鋳型核酸分子が、複数の異なる起源由来の複数の鋳型分子を含む複合的な試料中に含まれる、
項目１５に記載の方法。
（項目１８）
上記第１の識別子配列中で上記導入されたエラーを最大３個検出するステップと、
該第１の識別子配列中で該導入されたエラーを最大２個訂正するステップと
をさらに含む、項目１５に記載の方法。
（項目１９）
上記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
項目１５に記載の方法。
（項目２０）
上記検出するステップが、
上記識別子配列に隣接する１つまたは複数の配列領域における配列組成の１つまたは複数の特性を測定するステップと、
測定された該特性に由来する１つまたは複数の仮定を使用して上記導入されたエラーを検出するステップと
を含む、項目１５に記載の方法。
（項目２１）
上記第１の識別子エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、上記鋳型核酸分子と連結する、
項目１５に記載の方法。
（項目２２）
上記第１の識別子エレメントが、上記プライマーエレメントに対して既知の位置にある、
項目２１に記載の方法。
（項目２３）
上記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定プライマーからなる群から選択される、
項目２１に記載の方法。
（項目２４）
上記アダプターが品質管理エレメントを含む、
項目２１に記載の方法。
（項目２５）
上記第１の識別子エレメントが、上記品質管理エレメントに対して既知の位置にある、項目２１に記載の方法。
（項目２６）
上記鋳型核酸分子の起源が実験試料または診断試料を含む、
項目１５に記載の方法。
（項目２７）
上記鋳型核酸分子から得られた配列データから第２の識別子配列を特定するステップと、
該第２の識別子配列中で導入されたエラーを検出するステップと、
該第２の識別子配列中で該導入されたエラーを訂正するステップと、
訂正された該第２の識別子配列を、該鋳型核酸分子と連結した第２の識別子エレメントと関連づけるステップと、
上記訂正された第１の識別子配列と上記第１の識別子エレメントとの関連づけを、該訂正された第２の識別子配列と該第２の識別子エレメントとの関連づけと組み合わせて使用して、該鋳型分子の起源を特定するステップと
をさらに含む、項目１５に記載の方法。
（項目２８）
上記第２の識別子配列中で上記導入されたエラーを最大３個検出するステップと、
該第２の識別子配列中で該導入されたエラーを最大２個訂正するステップと
をさらに含む、項目２７に記載の方法。
（項目２９）
上記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
項目１５に記載の方法。
（項目３０）
上記第１の識別子が、識別子の複数セットのうちの、互換性のある識別子の少なくとも１つのセットに属する、
項目１５に記載の方法。
（項目３１）
上記互換性のある識別子のセットが、上記導入されたエラーの検出および訂正を可能にする１４個の識別子を含む、
項目１５に記載の方法。
（項目３２）
鋳型核酸分子の起源を特定するためのキットであって、
各核酸エレメントから得られた配列データ中に導入されたエラーの検出および該導入されたエラーの訂正を可能にする独自の配列組成をそれぞれが含む核酸エレメントのセットであって、それぞれの該核酸エレメントが鋳型核酸分子の末端と連結するように構築され、該鋳型核酸分子の起源を特定する核酸エレメントのセット
を含むキット。
（項目３４）
上記独自の配列組成が、最大３個の上記導入されたエラーの検出および最大２個の該導入されたエラーの訂正を可能にする、
項目３２に記載のキット。
（項目３５）
上記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、項目３２に記載のキット。
（項目３６）
各核酸エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、上記鋳型核酸分子の末端と連結する、
項目３２に記載のキット。
（項目３７）
上記核酸エレメントが、上記プライマーエレメントに対して既知の位置にある、
項目３６に記載のキット。
（項目３８）
上記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定プライマーからなる群から選択される、
項目３６に記載のキット。
（項目３９）
上記アダプターが品質管理エレメントを含む、
項目３６に記載のキット。
（項目４０）
上記核酸エレメントが、上記品質管理エレメントに対して既知の位置にある、
項目３６に記載のキット。
（項目４１）
それぞれの上記核酸エレメントにおける上記導入されたエラーの検出が、上記セットの他の核酸エレメントの独自の配列組成と関連する、
項目３２に記載のキット。
（項目４２）
上記セットが１４個の上記核酸エレメントを含む、
項目４１に記載のキット。
（項目４３）
コンピュータであって、該コンピュータは、該コンピュータに保存された実行可能なコードを含み、該実行可能なコードは、鋳型核酸分子の起源を特定するための方法を実行し、該方法は、
鋳型核酸分子から得られた配列データから識別子配列を特定するステップと、
該識別子配列中で導入されたエラーを検出するステップと、
該識別子配列中で該導入されたエラーを訂正するステップと、
該訂正された識別子配列を、該鋳型分子と連結した識別子エレメントと関連づけるステップと、
該訂正された識別子配列と該識別子エレメントとの関連づけを使用して、該鋳型分子の起源を特定するステップと
を含む、コンピュータ。
（項目４４）
上記鋳型核酸分子が、複数の異なる起源由来の複数の鋳型分子を含む複合的な試料中に含まれる、
項目４３に記載の方法。
（項目４５）
上記第１の識別子配列中で上記導入されたエラーを最大３個検出するステップと、
該第１の識別子配列中で該導入されたエラーを最大２個訂正するステップと
をさらに含む、項目４３に記載の方法。
（項目４６）
上記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
項目４３に記載の方法。
（項目４８）
上記特定するステップが、
上記配列データにおける１つまたは複数のエレメントの既知の位置関係を使用して上記識別子配列の位置を決定するステップ
をさらに含む、項目４３に記載の方法。
（項目４９）
上記１つまたは複数のエレメントがプライマー配列を含む、
項目４８に記載の方法。
（項目５０）
上記検出するステップが、
上記識別子配列に隣接する１つまたは複数の配列領域における配列組成の１つまたは複数の特性を測定するステップと、
測定された該特性に由来する１つまたは複数の仮定を使用して上記導入されたエラーを検出するステップと
をさらに含む、項目４３に記載の方法。
（項目５１）
上記鋳型核酸分子から得られた配列データから第２の識別子配列を特定するステップと、
該第２の識別子配列中で導入されたエラーを検出するステップと、
該第２の識別子配列中で該導入されたエラーを訂正するステップと、
訂正された該第２の識別子配列を、該鋳型分子と連結した第２の識別子エレメントと関連づけるステップと、
上記訂正された第１の識別子配列と上記第１の識別子エレメントとの関連づけを該訂正された第２の識別子配列と該第２の識別子エレメントとの関連づけと組み合わせて使用して、該鋳型分子の起源を特定するステップと
をさらに含む、項目４３に記載の方法。

ここに記載の発明で使用するのに適した配列決定機器およびコンピュータシステムの一実施形態の機能ブロック図である。（図２Ａ）ＵＩＤ構成成分を含むゲノムライブラリーで使用するのに適したアダプターエレメントの一実施形態の単純化した図示である。

（図２Ｂ）ＵＩＤ構成成分を含むアンプリコンで使用するのに適したアダプターエレメントの一実施形態の単純化した図示である。
異なる配列組成のＵＩＤエレメントの互換性を表す算出されたエラーボールの一実施形態の単純化した図示である。

下記でより詳細に記載するように、ここに記載の発明の実施形態は、以後ＵＩＤエレメントと呼ぶ一意識別子と、試料の１つまたは複数の核酸分子とを関連づける系および方法を含む。ＵＩＤエレメントは、配列データ中に導入されたエラーに抵抗性があり、エラーの検出および訂正を可能にする。さらに、本発明は、そのＵＩＤ関連核酸分子を、１つもしくは複数の他の試料の同様なＵＩＤ関連（「標識」と呼ばれることもある）核酸分子と混合しまたはそれとともにプールし、プール試料中の各核酸分子を配列決定して、各核酸の配列データを得ることを含む。ここに記載の発明は、各ＵＩＤエレメントの配列組成を設計し、各核酸の配列データを分析して、埋め込まれたＵＩＤ配列コードを特定し、前記コードと試料の出所とを関連づける系および方法をさらに含む。

ａ．一般
「フローグラム」および「パイログラム」という用語は、本明細書において交換可能な形で使用することができ、ＳＢＳ法によって得られた配列データの図示を指す。

さらに、本明細書において「読み取り」または「配列読み取り」という用語は一般に、単一の核酸鋳型分子、または鋳型核酸分子の複数の実質的に同一のコピーの集団から得られた配列データ全体を指す。

本明細書において「実行」または「配列決定実行」という用語は一般に、１つまたは複数の鋳型核酸分子の配列決定操作中に行われる一連の配列決定反応を指す。

本明細書において「フロー」という用語は一般に、鋳型核酸分子を含む環境への溶液の添加の連続または反復サイクルを指し、その溶液は、新生分子に付加するヌクレオチド種、またはヌクレオチド種の前回のフローサイクルからのキャリーオーバーまたはノイズの影響を減らすのに使用することができる緩衝液や酵素などの他の試薬を含み得る。

本明細書において「フローサイクル」という用語は一般に、ヌクレオチド種がサイクルの間に１度流れる連続した一連のフローを指す（すなわち、フローサイクルは、Ｔ、Ａ、Ｃ、Ｇヌクレオチド種の順での連続した付加を含み得るが、他の配列の組合せもこの定義の一部とみなされる）。典型的には、フローサイクルは、反復するサイクルであり、サイクルごとに同じフローの順序を有する。

本明細書において「読み取り長」という用語は一般に、確実に配列決定することができる鋳型分子の長さの上限を指す。それだけに限らないが、鋳型核酸分子中のＧＣ含量の程度を含めて、系および／または工程の読み取り長に寄与する多数のファクターがある。

「新生分子」は一般に、鋳型分子中の対応するヌクレオチド種と相補的なヌクレオチド種の取り込みにより、鋳型依存性ＤＮＡポリメラーゼによって伸長されつつあるＤＮＡ鎖を指す。

「鋳型核酸」、「鋳型分子」、「標的核酸」、または「標的分子」という用語は一般に、配列決定反応の対象である核酸分子を指し、その分子から配列データまたは情報が得られる。

本明細書において「ヌクレオチド種」という用語は一般に、典型的には新生核酸分子中に取り込まれるプリン（アデニン、グアニン）およびピリミジン（シトシン、ウラシル、チミン）を含めた核酸モノマーであることを指す。

本明細書において「モノマーリピート」または「ホモポリマー」という用語は一般に、同じヌクレオチド種を含む２つ以上の配列位置（すなわち反復したヌクレオチド種）を指す。

本明細書において「均一伸長」という用語は一般に、実質的に同一の鋳型分子の集団の各構成要素が、反応中の同じ伸長ステップを均一に行う、伸長反応の関係または相を指す。

本明細書において「完了効率」という用語は一般に、所与のフローの間に正しく伸長された新生分子の百分率を指す。

本明細書において「不完全伸長率」という用語は一般に、全ての新生分子の数に対する、正しく伸長していない新生分子の数の比率を指す。

本明細書において「ゲノムライブラリー」または「ショットガンライブラリー」という用語は一般に、生物または個体のゲノム全体（すなわちゲノムの全領域）に由来し、かつ／またはそれを表す分子の収集物を指す。

本明細書において「アンプリコン」という用語は一般に、ポリメラーゼ連鎖反応またはリガーゼ連鎖反応技術から産生されたものなどの選択された増幅産物を指す。

本明細書において「キーパス」または「キーパスマッピング」という用語は一般に、鋳型分子から得られた配列データの品質管理基準として使用される既知の配列組成を含む既知の位置で鋳型核酸分子と関連する（すなわち典型的にはライゲートしたアダプターエレメント中に含まれる）核酸の「キーエレメント」を指す。配列データは、正しい位置でキーエレメントと関連する既知の配列組成を含む場合に、品質管理を通過する。

本明細書において「平滑末端」または「平滑末端化された」という用語は一般に、相補的なヌクレオチド塩基種の対で終結している末端を有する直鎖二本鎖核酸分子を指し、平滑末端の対は互いとのライゲーションについて常に互換性がある。

試料調製および処理、配列データの生成、ならびに配列データの分析と関連する系および方法のいくつかの例示的な実施形態を下記に一般的に記載するが、その一部または全部は、ここに記載の発明の実施形態で使用するのに適している。特に、鋳型核酸分子の調製、鋳型分子の増幅、標的特異的アンプリコンおよび／またはゲノムライブラリーの生成の系および方法、配列決定法および機器、ならびにコンピュータシステムの例示的な実施形態を記載する。

典型的な実施形態では、実験または診断試料に由来する核酸分子を、その生の形からハイスループット配列決定に適した鋳型分子へと調製および処理しなければならない。処理方法は、適用ごとに異なることがあり、その結果、様々な特性を含む鋳型分子が得られる。例えば、ハイスループット配列決定のいくつかの実施形態では、少なくとも特定の配列決定法が正確に配列データを作成することができる長さである配列または読み取り長を有する鋳型分子を生成することが好ましい。この例において、その長さは、約２５〜３０塩基対、約３０〜５０塩基対、約５０〜１００塩基対、約１００〜２００塩基対、約２００〜３００塩基対、もしくは約３５０〜５００塩基対、または特定の配列決定の適用に適した他の長さを含み得る。いくつかの実施形態では、ゲノム試料などの試料の核酸を、当業者に知られているいくつかの方法を使用して断片化する。好ましい実施形態では、噴霧化または超音波処理と呼ばれるものを含む、核酸をランダムに断片化する（すなわち特定の配列または領域を選択しない）方法を使用する。しかし、制限エンドヌクレアーゼを使用した消化などの断片化の他の方法を、断片化の目的で使用できることが理解されるであろう。この例においても、いくつかの処理方法では、当技術分野で知られているサイズ選択法を使用して、所望の長さの核酸断片を選択的に単離することができる。

また、いくつかの実施形態では、さらなる機能的エレメントと各鋳型核酸分子とを関連づけることが好ましい。それだけに限らないが、増幅および／または配列決定法用のプライマー配列、品質管理エレメント、元の試料または患者などとの様々な関連をコードする一意識別子、または他の機能的エレメントを含めて、様々な機能のためにエレメントを使用することができる。例えば、いくつかの実施形態は、増幅および／または配列決定に使用されるプライマー配列と相補的な配列組成を含むプライミング配列エレメントまたは領域を関連づけることができる。さらに、「鎖選択」と呼ぶことができるもの、および固相担体への核酸分子の固定化に、同じエレメントを使用することができる。この例において、２セットのプライミング配列領域（以後プライミング配列Ａ、およびプライミング配列Ｂと呼ぶ）を、プライミング配列Ａの１コピーおよびプライミング配列Ｂの１コピーを有する一本鎖だけが選択される鎖選択に使用し、調製された試料として含めることができる。増幅および固定化の方法で同じプライミング配列領域を使用することができ、例えば、プライミング配列Ｂを固体担体上に固定化することができ、増幅された産物をそこから伸長する。

断片化、鎖選択、ならびに機能的エレメントおよびアダプターの付加のための試料処理のさらなる例は、２００４年１月２８日に出願された「Ｍｅｔｈｏｄｆｏｒｐｒｅｐａｒｉｎｇｓｉｎｇｌｅ−ｓｔｒａｎｄｅｄＤＮＡｌｉｂｒａｒｉｅｓ」という名称の米国特許出願第１０／７６７，８９４号；および２００７年６月１日に出願された「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＩｎｄｉｖｉｄｕａｌＳａｍｐｌｅｓｆｒｏｍａＭｕｌｔｉｐｌｅｘＭｉｘｔｕｒｅ」という名称の米国仮出願第６０／９４１，３８１号に記載され、これらはそれぞれ、全ての目的でその全体が参照により本明細書に組み込まれている。

鋳型核酸分子の増幅を行って実質的に同一のコピーの集団を生成する系および方法の様々な例を記載する。ＳＢＳのいくつかの実施形態では、各鋳型核酸エレメントの多数のコピーを生成して、１つまたは複数のヌクレオチド種が、鋳型核酸分子のコピーと関連する各新生分子中に取り込まれたときに強いシグナルを得ることが望ましいことが、当業者には明らかであろう。例えば、細菌ベクターと呼ばれるものを使用した増幅、「ローリングサークル」型増幅（上記で参照により組み込まれている米国特許第６，２７４，３２０号および第７，２１１，３９０号に記載されている）や、ポリメラーゼ連鎖反応（ＰＣＲ）法など、核酸分子のコピーを生成する、当技術分野で知られている技術が多数存在し、それぞれの技術は、ここに記載の発明で使用するのに適している。ハイスループットの適用に特に適した１つのＰＣＲ技術は、エマルジョンＰＣＲ法と呼ばれるもの（ｅｍＰＣＲ（商標）法とも呼ばれる）を含む。

エマルジョンＰＣＲ法の典型的な実施形態は、その中で反応を行うことができる水性液滴を作り出す２つの不混和性物質の安定なエマルジョンを作り出すことを含む。特に、ＰＣＲ法で使用するのに適したエマルジョンの水性液滴は、油ベースの流体など別の流体内の不連続相と呼ぶことができるものの中で懸濁または分散した水ベースの流体などの第１の流体を含み得る。さらに、いくつかのエマルジョンの実施形態は、ＰＣＲなどの特定の処理方法に特に有用であり得るエマルジョンを安定化するのに働く界面活性剤を使用することができる。界面活性剤のいくつかの実施形態は、ソルビタンモノオレエート（Ｓｐａｎ（商標）８０とも呼ばれる）、ポリオキシエチレンソルビタンモノオレエート（Ｔｗｅｅｎ（商標）８０とも呼ばれる）、またはいくつかの好ましい実施形態ではジメチコンコポリオール（Ａｂｉｌ（登録商標）ＥＭ９０とも呼ばれる）、ポリシロキサン、ポリアルキルポリエーテルコポリマー、ポリグリセロールエステル、ポロキサマー、およびＰＶＰ／ヘキサデカンコポリマー（ＵｎｉｍｅｒＵ−１５１とも呼ばれる）、またはより好ましい実施形態ではシクロペンタシロキサン中の高分子量シリコーンポリエーテル（ＤｏｗＣｏｒｎｉｎｇから入手可能であるＤＣ５２２５Ｃとも呼ばれる）などの非イオン性界面活性剤を含み得る。

エマルジョンの液滴は、区画、マイクロカプセル、マイクロリアクター、微小環境と、または関連技術分野で通常使用される他の名称で呼ぶこともできる。水性液滴は、エマルジョンの構成成分または組成物の組成、その中に含有される内容物、および使用する形成技術に応じてサイズが変動し得る。記載のエマルジョンは、その中でＰＣＲなどの化学反応を行うことができる微小環境を作り出す。例えば、鋳型核酸および所望のＰＣＲ反応を行うのに必要な全ての試薬をカプセル化し、エマルジョンの液滴中に化学的に隔離することができる。いくつかの実施形態では、さらなる界面活性剤または他の安定化剤を使用して、上記に記載の液滴のさらなる安定性を促進することができる。液滴を使用してＰＣＲ法に特有の温度サイクル操作を実行してカプセル化核酸鋳型を増幅することができ、その結果、鋳型核酸の実質的に同一のコピーを多数含む集団が得られる。いくつかの実施形態では、液滴内にある集団は、「クローン性に隔離された」、「区画化された」、「隔絶された」、「カプセル化された」、または「局在する」集団と呼ぶことができる。この例においても、記載の液滴の一部または全部は、対象とする鋳型または他の型の核酸、試薬、標識、もしくは他の分子を付着させるためのビーズなどの固体担体をさらにカプセル化することができる。

ここに記載の発明で有用なエマルジョンの実施形態は、大量並行の形で記載の化学反応を行うことを可能にする非常に高い密度の液滴またはマイクロカプセルを含み得る。増幅に使用されるエマルジョンおよび配列決定の適用のためのその使用のさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、米国特許出願第１０／８６１，９３０号；第１０／８６６，３９２号；第１０／７６７，８９９号；第１１／０４５，６７８号に記載されている。

また、核酸プライマーのセットを使用して、標的核酸を含む試料から選択された１つまたは複数の標的領域を増幅することを含む、配列決定用の標的特異的アンプリコンを生成する例示的な実施形態を記載する。さらに、試料は、配列変異体を含有することが知られまたは疑われる核酸分子の集団を含んでよく、プライマーを使用して、試料中の配列変異体を増幅し、その分布に対する洞察をもたらすことができる。

例えば、特異的増幅によって配列変異体を特定し、核酸試料中の複数の対立遺伝子を配列決定するための方法を行うことができる。核酸に対して最初に、対象とする領域を取り囲む領域または核酸集団に共通するセグメントを増幅するように設計されたＰＣＲプライマーの対による増幅を行う。上記に記載のエマルジョンベースの容器などの別々の反応容器中で、それぞれのＰＣＲ反応産物（アンプリコン）をその後さらに個々に増幅する。それぞれがアンプリコンの第１の集団の１つの構成要素に由来する、得られたアンプリコン（本明細書において第２のアンプリコンと呼ばれる）を配列決定し、異なるエマルジョンＰＣＲアンプリコンからの配列の収集物を使用して、対立遺伝子頻度を決定する。

記載の標的特異的増幅および配列決定法のいくつかの利点は、以前に実現されているより高いレベルの感度を含む。さらに、例えば４５４ＬｉｆｅＳｃｉｅｎｃｅｓＣｏｒｐｏｒａｔｉｏｎによって提供されるＰｉｃｏＴｉｔｅｒＰｌａｔｅ（登録商標）ウェルアレイと呼ばれるものを使用する実施形態などのハイスループット配列決定機器を使用する実施形態では、記載の方法を使用して、１回の実行または実験当たり１００，０００個を超えるまたは３００，０００個を超える異なるコピーの対立遺伝子を配列決定することができる。また、記載の方法は、１％以下の対立遺伝子変異体に相当し得る少量の対立遺伝子を検出する感度をもたらす。その方法の別の利点は、分析した領域の配列を含むデータを生成することを含む。重要なことに、分析される位置の配列についての事前の知識を有する必要はない。

配列決定用の標的特異的アンプリコンのさらなる例は、全ての目的でその全体が参照により本明細書に組み込まれている、２００５年４月１２日に出願された「Ｍｅｔｈｏｄｓｆｏｒｄｅｔｅｒｍｉｎｉｎｇｓｅｑｕｅｎｃｅｖａｒｉａｎｔｓｕｓｉｎｇｕｌｔｒａ−ｄｅｅｐｓｅｑｕｅｎｃｉｎｇ」という名称の米国特許出願第１１／１０４，７８１号に記載されている。

さらに、配列決定の実施形態は、ポロニー配列決定技術、ナノポアおよび他の単一分子検出技術、または可逆的ターミネーター技術と呼ばれるものであるＳａｎｇｅｒ型の技術を含み得る。上記に記載のように、好ましい技術は、合成による配列決定法を含み得る。例えば、いくつかのＳＢＳの実施形態は、核酸鋳型の実質的に同一のコピーの集団を配列決定し、典型的には、試料鋳型分子の所定の相補的な位置とアニールするように設計された１つもしくは複数のオリゴヌクレオチドプライマー、または鋳型分子に付着した１つもしくは複数のアダプターを使用する。プライマー／鋳型複合体は、核酸ポリメラーゼ酵素の存在下で、ヌクレオチド種を用いて提示される。ヌクレオチド種が、オリゴヌクレオチドプライマーの３’末端と直接隣接している、試料鋳型分子上の配列位置と対応する核酸種と相補的である場合、ポリメラーゼは、ヌクレオチド種を用いてプライマーを伸長する。あるいは、いくつかの実施形態では、プライマー／鋳型複合体は、一度に、対象とする複数のヌクレオチド種（典型的には、Ａ、Ｇ、Ｃ、およびＴ）を用いて提示され、オリゴヌクレオチドプライマーの３’末端と直接隣接している、試料核酸分子上の対応する配列位置で相補的なヌクレオチド種が取り込まれる。記載の実施形態のどちらでも、ヌクレオチド種を（３’−Ｏ位置などで）化学的に遮断してさらなる伸長を防止することができ、次回の合成の前にはそれを脱遮断することが必要である。ヌクレオチド種を新生分子の末端に付加する工程が、プライマーの末端に付加する上記に記載の工程と実質的に同じであることも理解されるであろう。

上記に記載のように、ヌクレオチド種の取り込みは、当技術分野で知られている様々な方法によって、例えば、ピロリン酸（ＰＰｉ）の放出を検出することによって（それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、米国特許第６，２１０，８９１号；第６，２５８，５６８号；および第６，８２８，１００号に記載の例）、またはヌクレオチドと結合した検出可能な標識を介して検出することができる。検出可能な標識のいくつかの例として、それだけに限らないが、質量タグおよび蛍光または化学発光標識がある。典型的な実施形態では、取り込まれていないヌクレオチドを、例えば洗浄することによって除去する。さらに、いくつかの実施形態では、取り込まれていないヌクレオチドに対して、例えば、全ての目的でその全体が参照により本明細書に組み込まれている、２００７年６月２８日に出願されたＳｙｓｔｅｍａｎｄＭｅｔｈｏｄＦｏｒＡｄａｐｔｉｖｅＲｅａｇｅｎｔＣｏｎｔｒｏｌｉｎＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｉｎｇという名称の米国仮特許出願第６０／９４６，７４３号に記載のアピラーゼ酵素を使用する分解などの酵素的分解を行うことができる。検出可能な標識を使用する実施形態では、その標識は、典型的には、（例えば、化学的切断または光退色によって）次の合成サイクルの前に不活性化されなければならない。次いで、上記に記載のように、鋳型／ポリメラーゼ複合体中の次の配列位置を、対象とする別のヌクレオチド種、または複数のヌクレオチド種を用いて問い合わせることができる。ヌクレオチド付加、伸長、シグナル取得、および洗浄の反復サイクルの結果、鋳型鎖のヌクレオチド配列が決定される。この例を継続して、典型的には、多数の実質的に同一の鋳型分子またはその集団（例えば、１０^３、１０^４、１０^５、１０^６、または１０^７個の分子）を任意の１つの配列決定反応中で同時に分析して、確実な検出に十分である強いシグナルを実現する。

さらに、いくつかの実施形態では、「対末端」配列決定戦略と呼ぶことができるものを使用することによって、読み取り長の能力および配列決定工程の質を向上させると有利となり得る。例えば、配列決定法のいくつかの実施形態は、高品質かつ確実な読み取りを得ることができる分子の全長に対して制限を有する。言い換えると、確実な読み取り長の配列位置の総数は、使用する配列決定の実施形態によっては、２５、５０、１００、または１５０塩基を越えられない。対末端配列決定戦略は、リンカー配列によって中心部で連結した各末端に元の鋳型核酸分子の断片を含む分子の各末端（「タグ」末端と呼ばれることもある）を別々に配列決定することによって、確実な読み取り長を伸ばす。鋳型断片の元の位置関係が分かっており、したがって、配列読み取りのデータを再度組み合わせて、長い高品質の読み取り長を有する単一の読み取りにすることができる。対末端配列決定の実施形態のさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、２００６年６月６日に出願された「Ｐａｉｒｅｄｅｎｄｓｅｑｕｅｎｃｉｎｇ」という名称の米国特許出願第１１／４４８，４６２号および２００８年２月５日に出願された「Ｐａｉｒｅｄｅｎｄｓｅｑｕｅｎｃｉｎｇ」という名称の米国仮特許出願第６０／０２６，３１９号に記載されている。

上記に記載の方法の一部または全部を実装することができるＳＢＳ装置のいくつかの例は、電荷結合素子（すなわちＣＣＤカメラ）などの検出素子、マイクロ流体チャンバーもしくはフローセル、反応担体、ならびに／またはポンプおよびフローバルブのうち１つまたは複数を含み得る。ピロリン酸ベースの配列決定の例をとると、装置の実施形態は、もともと低レベルのバックグラウンドノイズしか生じない化学発光検出戦略を使用することができる。

いくつかの実施形態では、配列決定用の反応担体は、酸で腐食させて、それぞれが実質的に同一の鋳型分子の集団を保持できる何十万もの非常に小さなウェルを生じさせた繊維光学面板から形成されるＰｉｃｏＴｉｔｅｒＰｌａｔｅ（登録商標）アレイと呼ばれるもの（ＰＴＰ（登録商標）プレートとも呼ばれる）を含み得る。いくつかの実施形態では、実質的に同一の鋳型分子の各集団をビーズなどの固体担体上に配置することができ、その担体はそれぞれ、前記ウェルの１つの中に配置することができる。例えば、装置は、ＰＴＰプレートホルダー、ならびにＰＴＰプレート上の各ウェルから放射された光子を収集することができるＣＣＤ型検出素子に流体試薬を供給するための試薬送達エレメントを含み得る。ＳＢＳ型配列決定およびピロリン酸配列決定を行う装置および方法のさらなる例は、どちらも上記で参照により組み込まれている米国特許第７，３２３，３０５号および米国特許出願第１１／１９５，２５４号に記載されている。

さらに、上記に記載のｅｍＰＣＲ（商標）工程などの１つまたは複数の試料調製工程を自動化する系および方法を使用することができる。例えば、マイクロ流体技術を使用して、ｅｍＰＣＲ処理用のエマルジョンを生成し、ＰＣＲ温度サイクル操作を行い、配列決定用の核酸分子の調製に成功した集団を濃縮するための使い捨てできる低コストの溶液を供給することができる。試料調製用のマイクロ流体系の例は、全ての目的でその全体が参照により本明細書に組み込まれている、２００７年５月４日に出願された「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＭｉｃｒｏｆｌｕｉｄｉｃＣｏｎｔｒｏｌｏｆＮｕｃｌｅｉｃＡｃｉｄａｍｐｌｉｆｉｃａｔｉｏｎａｎｄＳｅｇｒｅｇａｔｉｏｎ」という名称の米国仮特許出願第６０／９１５，９６８号に記載されている。

また、本発明のここに記載の実施形態の系および方法は、コンピュータシステム上での実行用に保存された、コンピュータで読み取り可能な媒体を使用したいくつかの設計、分析、または他の操作の実装形態を含み得る。例えば、検出されたシグナルを処理し、かつ／または処理および分析の実施形態がコンピュータシステム上に実装可能であるＳＢＳの系および方法を使用して得られたデータを分析するいくつかの実施形態を下記で詳細に記載する。

ここに記載の発明で使用するコンピュータシステムの例示的な実施形態は、ワークステーション、パーソナルコンピュータ、サーバや、任意の他の現在または将来のコンピュータなど任意の型のコンピュータプラットホームを含み得る。コンピュータは、典型的には、プロセッサ、オペレーティングシステム、システムメモリ、メモリ記憶デバイス、入出力制御装置、入出力デバイスや表示デバイスなどの構成要素を含む。コンピュータの構成および構成要素が多数考えられ、キャッシュメモリ、データバックアップユニット、および多数の他のデバイスを含んでもよいことが関連分野の技術者に理解されるであろう。

表示デバイスは、視覚的情報を供給する表示デバイスを含んでよく、典型的にはこの情報を論理的かつ／または物理的にピクセルのアレイとして構築することができる。入出力インターフェースを供給する様々な既知または将来のソフトウェアプログラムのいずれかを含み得るインターフェース制御装置を含めることもできる。例えば、インターフェースは、ユーザーに１つまたは複数の図示を提供する「グラフィカルユーザーインターフェース」と一般に呼ばれるもの（ＧＵＩと呼ばれることが多い）を含み得る。典型的には、インターフェースは、関連分野の技術者に知られている選択または入力の手段を使用してユーザーが入力を受け取ることを可能にする。

同じまたは代替の実施形態では、コンピュータ上のアプリケーションは、「コマンドラインインターフェース」と呼ばれるもの（ＣＬＩと呼ばれることが多い）を含むインターフェースを使用することができる。ＣＬＩは、典型的にはアプリケーションとユーザーとのテキストベースの相互作用を提供する。典型的には、コマンドラインインターフェースは、出力を提示し、表示デバイスを介してテキストの行として入力を受け取る。例えば、いくつかの実装形態は、関連分野の技術者に知られているＵｎｉｘ（登録商標）Ｓｈｅｌｌ、またはＭｉｃｒｏｓｏｆｔ．ＮＥＴフレームワークなどのオブジェクト指向型プログラミングアーキテクチャを使用するＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）Ｐｏｗｅｒｓｈｅｌｌなどの「シェル」と呼ばれるものを含み得る。

関連分野の技術者なら、インターフェースが、１つまたは複数のＧＵＩ、ＣＬＩまたはその組合せを含んでよいことを理解するであろう。

プロセッサは、ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎによって製造されたＣｅｎｔｒｉｎｏ（登録商標）、Ｃｏｒｅ（商標）２、Ｉｔａｎｉｕｍ（登録商標）もしくはＰｅｎｔｉｕｍ（登録商標）プロセッサ、ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓによって製造されたＳＰＡＲＣ（登録商標）プロセッサ、ＡＭＤ社によって製造されたＡｔｈａｌｏｎ（商標）もしくはＯｐｔｅｒｏｎ（商標）などの市販のプロセッサを含んでもよく、またはそれは利用可能でありもしくは利用可能となる他のプロセッサの１つでもよい。プロセッサのいくつかの実施形態は、マルチコアプロセッサと呼ばれるものを含んでもよく、かつ／または単一もしくはマルチコアの構成で並行処理技術を使用することを可能にする。例えば、マルチコアアーキテクチャは、典型的には２つ以上のプロセッサ「実行コア」を含む。この例において、各実行コアは、複数スレッドの並行した実行を可能にする独立したプロセッサとして機能することができる。さらに、関連分野の技術者なら、一般に３２もしくは６４ビットアーキテクチャと呼ばれるもの、または現在知られもしくは将来開発される可能性がある他のアーキテクチャ構成としてプロセッサを構成することができることを理解するであろう。

プロセッサは、典型的にはオペレーティングシステムを実行し、そのシステムは、例えば、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎのＷｉｎｄｏｗｓ（登録商標）型オペレーティングシステム（Ｗｉｎｄｏｗｓ（登録商標）ＸＰやＷｉｎｄｏｗｓ（登録商標）Ｖｉｓｔａ（登録商標）など）；ＡｐｐｌｅＣｏｍｐｕｔｅｒＣｏｒｐ．のＭａｃＯＳＸオペレーティングシステム（７．５ＭａｃＯＳＸｖ１０．４「Ｔｉｇｅｒ」や７．６ＭａｃＯＳＸｖ１０．５「Ｌｅｏｐａｒｄ」オペレーティングシステムなど）；多数のベンダーもしくはオープンソースと呼ばれるものから入手可能なＵｎｉｘ（登録商標）またはＬｉｎｕｘ型オペレーティングシステム；別のもしくは将来のオペレーティングシステム；またはそのいくつかの組合せでよい。オペレーティングシステムは、よく知られている形でファームウェアおよびハードウェアと接続し、様々なプログラミング言語で書かれている可能性がある様々なコンピュータプログラムの機能を調整し実行する際にプロセッサを促進する。オペレーティングシステムは、典型的にはプロセッサとの協調の際に、コンピュータの他の構成要素の機能を調整し実行する。オペレーティングシステムはまた、すべて既知の技術に従って、スケジューリング、入出力制御、ファイルおよびデータ管理、メモリ管理、ならびに通信制御および関連サービスも提供する。

システムメモリは、様々な既知または将来のメモリ記憶デバイスのいずれかを含み得る。例として、任意の通常入手可能なランダムアクセスメモリ（ＲＡＭ）、常駐ハードディスクもしくはテープなどの磁気媒体、読み書きコンパクトディスクなどの光学媒体、または他のメモリ記憶デバイスがある。メモリ記憶デバイスは、コンパクトディスクドライブ、テープドライブ、可換型ハードディスクドライブ、ＵＳＢもしくはフラッシュドライブ、またはディスケットドライブを含めた様々な既知または将来のデバイスのいずれかを含み得る。そのような型のメモリ記憶デバイスは、典型的にはそれぞれコンパクトディスク、磁気テープ、可換型ハードディスク、ＵＳＢもしくはフラッシュドライブ、またはフロッピー（登録商標）ディスケットなどのプログラム記憶媒体（示さず）から読み取り、かつ／またはそれに書き込む。任意のこれらのプログラム記憶媒体、または現在使用され、もしくは後に開発される可能性がある他の媒体は、コンピュータプログラム製品とみなすことができる。理解されるであろうが、これらのプログラム記憶媒体は、典型的にはコンピュータソフトウェアプログラムおよび／またはデータを記憶する。コンピュータ制御論理とも呼ばれるコンピュータソフトウェアプログラムは、典型的にはシステムメモリおよび／またはメモリ記憶デバイスと併せて使用されるプログラム記憶デバイス中に記憶される。

いくつかの実施形態では、その中に制御論理（プログラムコードを含めたコンピュータソフトウェアプログラム）が記憶されている、コンピュータで使用可能な媒体を含むコンピュータプログラム製品を記載する。制御論理は、プロセッサによって実行されたとき、プロセッサに本明細書に記載の機能を果たさせる。他の実施形態では、例えばハードウェアステートマシンを使用するハードウェア中にいくつかの機能が最初から実装されている。本明細書に記載の機能を果たすためのハードウェアステートマシンの実装は、関連分野の技術者には明らかであろう。

入出力制御装置は、ヒトであれ機械であれ、ローカルであれリモートであれ、ユーザーから情報を受け取り処理する任意の様々な既知のデバイスを含むことができる。そのようなデバイスには、例えば、モデムカード、ワイヤレスカード、ネットワークインターフェースカード、サウンドカード、または任意の様々な既知の入力デバイス用の他の型の制御装置がある。出力制御装置は、ヒトであれ機械であれ、ローカルであれリモートであれ、ユーザーに情報を提示するための任意の様々な既知の表示デバイス用の制御装置を含むことができる。ここに記載の実施形態では、コンピュータの機能的エレメントは、システムバスを介して互いに通信する。コンピュータのいくつかの実施形態は、ネットワークまたは他の型のリモート通信を使用して、いくつかの機能的エレメントと通信することができる。

関連分野の技術者には明らかであろうが、機器制御および／またはデータ処理アプリケーションは、ソフトウェア中に実装されている場合、システムメモリおよび／またはメモリ記憶デバイス中にロードしそこから実行することができる。機器制御および／またはデータ処理アプリケーションの全部または一部は、読み取り専用メモリまたはメモリ記憶デバイスの同様のデバイスに存在してもよく、そのようなデバイスは、機器制御および／またはデータ処理アプリケーションが最初に入出力制御装置を介してロードされることを必要としない。機器制御および／またはデータ処理アプリケーション、またはその一部は、実行に有利となるように、知られている形でプロセッサによってシステムメモリ、もしくはキャッシュメモリ、またはその両方へとロードできることが関連分野の技術者には理解されるであろう。

また、コンピュータは、１つまたは複数のライブラリーファイル、実験データファイル、およびシステムメモリ中に格納されたインターネットクライアントを含んでもよい。例えば、実験データは、検出されたシグナル値や、１つまたは複数のＳＢＳ実験または工程と関連する他の値など、１つまたは複数の実験またはアッセイと関係するデータを含むことができる。さらに、インターネットクライアントは、ネットワークを使用して別のコンピュータ上のリモートサービスにアクセスすることを可能にするアプリケーションを含み得、例えば、一般に「ウェブブラウザ」と呼ばれるものを含み得る。この例において、いくつかの通常使用されるウェブブラウザには、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能なＭｉｃｒｏｓｏｆｔ（登録商標）ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ７、ＭｏｚｉｌｌａＣｏｒｐｏｒａｔｉｏｎのＭｏｚｉｌｌａＦｉｒｅｆｏｘ（登録商標）２、ＡｐｐｌｅＣｏｍｐｕｔｅｒＣｏｒｐ．のＳａｆａｒｉ１．２、または当技術分野で現在知られもしくは将来開発される他の型のウェブブラウザがある。また、同じまたは他の実施形態では、インターネットクライアントは、ＳＢＳアプリケーション用のデータ処理アプリケーションなど、ネットワークを介してリモート情報にアクセスすることを可能にする専門のソフトウェアアプリケーションを含み得、またはそのエレメントであり得る。

ネットワークは、当業者によく知られている多数の様々な型のネットワークのうち１つまたは複数を含み得る。例えば、ネットワークは、通常ＴＣＰ／ＩＰプロトコルスイートと呼ばれるものを使用して通信するローカルまたは広域ネットワークを含み得る。ネットワークは、通常インターネットと呼ばれる、相互接続したコンピュータネットワークの世界規模のシステムを含むネットワークを含み得、または様々なイントラネットアーキテクチャを含んでもよい。関連分野の技術者なら、ネットワーク環境にある一部のユーザーが、一般に「ファイアウォール」と呼ばれるもの（パケットフィルタ、または境界保護デバイスと呼ばれることもある）を使用して、ハードウェアおよび／またはソフトウェアシステムを出入りする情報通信量を制御することを好む可能性があることも理解するであろう。例えば、ファイアウォールは、ハードウェアまたはソフトウェアのエレメントまたはそのいくつかの組合せを含んでよく、典型的には、例えばネットワーク管理者などのユーザーによって導入されるセキュリティーポリシーを実行するように設計される。

ｂ．ここに記載の発明の実施形態
上記に記載のように、ここに記載の発明は、知られている特定可能な配列組成を有するＵＩＤエレメントの１つまたは複数の実施形態を試料と関連づけ、ＵＩＤエレメントの実施形態を、関連づけた試料の鋳型核酸分子と連結することを含む。いくつかの異なる試料のＵＩＤ連結鋳型核酸分子をプールして単一の「複合」試料または組成物にし、次いでそれを効率よく処理して各ＵＩＤ連結核酸分子の配列データを得ることができる。各鋳型核酸の配列データにデコンボリューションをかけて、連結したＵＩＤエレメントの配列組成および特定された元の試料との関連づけを特定する。例えば、複合組成物は、約３８４個の試料、約９６個の試料、約５０個の試料、約２０個の試料、約１６個の試料、約１０個の試料、または他の試料数からの代表物を含み得る。研究の場面では、各試料を、異なる実験条件、治療、種、または個体と関連づけることができる。同様に、診断の場面では、各試料と、異なる組織、細胞、個体、状態、または治療とを関連づけることができる。当業者なら、上記に挙げた試料数が例を挙げる目的のものであり、したがって限定するものとみなすべきでないことを理解するであろう。

典型的には、試料を処理して配列データを得るほか、その配列データの解釈も行う系および方法を使用する。図１は、例えば上記に記載のＰＴＰ（登録商標）プレート担体を含み得る反応担体１０５を使用して配列決定工程を実行するのに使用される配列決定機器１００を図示した例を示す。例えば処理用システムソフトウェアまたはファームウェアも実行でき、分析機能を果たすこともできるコンピュータ１３０も図１に図示されている。図１の例では、コンピュータ１３０は、実行用のシステムメモリ中にアプリケーション１３５を格納することもでき、そこでアプリケーション１３５は本明細書に記載のデータ処理機能の一部または全部を果たすことができる。実行用の他のコンピュータまたはサーバ型構造にアプリケーション１３５を格納し、ネットワークを介してリモート通信しまたは標準媒体により情報を転送するその機能の一部または全部を果たすことができることも理解されるであろう。例えば、複合的な試料中の処理された標的分子は、ユーザー１０１によって反応担体１０５上に添加され、または次いで配列決定機器１００を使用していくつかの自動化された実施形態が大量並行の形式で配列決定して、各標的分子の配列組成を表す配列データを得ることができる。重要なことに、ユーザー１０１は、独立した研究者、大学や企業体などの任意のユーザーを含んでよい。この例において、配列決定機器１００、反応担体１０５、および／またはコンピュータ１３０は、一般に上記に記載した実施形態の構成要素および特性の一部または全部を含み得る。

好ましい実施形態では、各ＵＩＤエレメントの配列組成は容易に特定可能であり、配列決定工程から導入されたエラーに抵抗性がある。ＵＩＤエレメントのいくつかの実施形態は、天然に存在する配列との配列類似性を最小限しか有さない核酸種の一意的な配列組成を含む。あるいは、ＵＩＤエレメントの実施形態は、天然に存在する配列との配列類似性をある程度含んでもよい。

また、好ましい実施形態では、鋳型核酸分子および／または鋳型分子と連結したアダプターエレメントのいくつかの特徴と比べて各ＵＩＤエレメントの位置が分かる。各ＵＩＤの位置が分かっていることは、配列データ中でＵＩＤエレメントを見つけ、考えられるエラーについてＵＩＤの配列組成を解釈し、その後元の試料と関連づけるのに有用である。

例えば、ＵＩＤエレメントとの位置関係のアンカーとして有用ないくつかの特徴には、それだけに限らないが、鋳型分子の長さ（すなわち、ＵＩＤエレメントは５’または３’末端からの非常に多数の配列位置にあることが知られている）、（下記でより詳細に記載する）キーエレメントなどの認識可能な配列マーカー、および／またはＵＩＤエレメントと隣接して位置する１つもしくは複数のプライマーエレメントがあり得る。この例において、キーおよびプライマーエレメントは、典型的には複合組成物中で試料ごとに様々とならない既知の配列組成を一般に含み、ＵＩＤエレメントを探索する位置基準としてそれを使用することができる。アプリケーション１３５によって実装されている分析アルゴリズムをコンピュータ１３０上で実行して、得られた配列データを、各ＵＩＤ連結鋳型について分析して、より容易に認識可能なキーおよび／またはプライマーエレメントを特定し、それらの位置から外插して、ＵＩＤエレメントの配列を含むことが推定される配列領域を特定することができる。次いで、アプリケーション１３５は、推定される領域の配列組成および隣接領域中のおそらくいくらか離れている配列組成を処理して、ＵＩＤエレメントおよびその配列組成をはっきりと特定することができる。

また、下記で詳細に記載するように、いくつかの実施形態では、各キーエレメントおよび／または１つもしくは複数のプライマーエレメントから得られた配列データを分析して、配列決定実行について相対的なエラー率の程度を決定することができる。次いで、ＵＩＤエレメントについて得られた配列データの分析でエラー率の程度を使用することができる。例えば、エラー率が過剰であり、所定の閾値を上回る場合、同様のエラー率が、ＵＩＤエレメントについて得られた配列データ中に存在することも想定でき、したがって、鋳型全体の配列データを疑わしいとしてフィルタにかけて除去することができる。さらに、ＵＩＤエレメントが直鎖鋳型分子の各末端と連結している実施形態では、各末端についてエラー率を明らかにし、非対称的に分析することができる。重要なことに、いくつかの実施形態、特に「長い」読み取り長（すなわち、約１００塩基対以上の長さ）を得ることができる配列決定技術では、配列データ中のエラー率が５’末端と３’末端の間で異なる可能性があることが理解されるであろう。

好ましい実施形態では、ＵＩＤエレメントは、鋳型核酸分子の末端と作動的に連結することができるアダプターと関連している。典型的なハイスループット配列決定の適用では、鋳型核酸分子が直鎖であり、アダプターがその各末端と連結できることが望ましい。図２Ａおよび２Ｂは、１つまたは複数のＵＩＤエレメントを含む、様々な適用のためのアダプター組成の実施形態を図示した例を示す。しかし、異なる増幅および配列決定戦略で様々なアダプターの構成を使用できることが理解されるであろう。図２Ａは、ゲノムライブラリーの増幅および配列決定で使用するのに適したアダプターの実施形態を含むアダプターエレメント２００を図示した例を示す。アダプターエレメント２００が、本明細書に記載のアダプターエレメントとは独立に標的特異的配列とともに独立して増幅された鋳型分子のライブラリーにも適していることも理解されるであろう。アダプターエレメント２００は、プライマー２０５、キー２０７、およびＵＩＤ２１０を含むいくつかの構成成分を含む。また、図２Ｂは、アンプリコンの増幅および配列決定で使用するのに適したアダプター２２０の一実施形態を図示した例を示す。アダプターエレメント２２０は、プライマー２０５、キー２０７、ＵＩＤ２１０を含む、アダプター２００と類似したいくつかの構成成分を含み、標的特異的エレメント２２５が付加されている。図２Ａおよび２Ｂで示す構成成分の相対的な配置が例示する目的のものであり、限定するものとみなすべきでないことが理解されるであろう。

いくつかの代替の実施形態では、ＵＩＤ２１０エレメントは、上記に記載のアダプターエレメントと関連していない。むしろ、ＵＩＤ２１０エレメントを、すでにアダプターの付いた鋳型分子、またはアダプターの付いていない鋳型分子と独立に連結することができる別々のエレメントとみなすことができる。この戦略は、いくつかの状況で、特定のステップまたはアッセイに伴う負の作用を回避するのに有用となり得る。例えば、いくつかの実施形態では、増幅ステップからコピーを作製した後、実質的に同一の鋳型分子の各集団とＵＩＤ２１０エレメントをライゲートすると有利となり得る。増幅後にアダプターの付いた鋳型分子とＵＩＤエレメントを連結することによって、増幅法によって導入されるエラーが回避される。この例において、ポリメラーゼを使用するＰＣＲ増幅法は、使用するポリメラーゼまたはポリメラーゼブレンドの型（すなわち、ブレンドは「忠実度の高い」ポリメラーゼおよび「校正」能を有するポリメラーゼと呼ぶことができるものの混合物を含み得る）および増幅サイクル数に少なくとも一部基づく特定のエラー導入率を有することが知られている。

配列決定用に調製された直鎖鋳型分子の各末端でのアダプター２００または２２０の一実施形態など、アダプター２００または２２０の複数の実施形態を各鋳型分子とともに使用できることも理解されるであろう。しかし、いくつかの実施形態では、アダプター２００または２２０内のエレメントの位置上の配置を、５’末端でのアダプター２００または２２０中のエレメントの配置に対して３’末端で逆にすることができる（すなわち、アダプター２００または２２０のエレメントは図２Ａまたは２Ｂで図示した例から回文構造の配置にある）。例えば、エレメント２２０の実施形態は、複合組成物中のアンプリコンライブラリーの実質的に全ての鋳型分子の各末端上に位置づけることができ、したがって、ＵＩＤ２１０の２つの実施形態を組み合わせて、下記でより詳細に論じる特定に使用することができる。

プライマー２０５は、エマルジョンＰＣＲの実施形態に関して上記に記載したようなプライマー種（またはプライマー対のプライマー）（すなわちプライマーＡおよびプライマーＢ）を含んでよい。また、プライマー２０５は、やはり上記に記載のＳＢＳ配列決定反応に使用されるプライマー種を含んでもよい。さらに、プライマー２０５は、エマルジョンＰＣＲにもＳＢＳ配列決定工程にも使用可能な二連ＰＣＲ／配列決定プライマーと呼ばれるものを含んでよい。キー２０７は、４つのヌクレオチド種（すなわちＡ、Ｃ、Ｇ、Ｔ）の組合せなどヌクレオチド種の短い配列を指す「識別用キー配列」と呼ぶことができるものを含んでよい。典型的には、キー２０７を配列データの品質管理に使用することができ、例えばキー２０７をプライマー２０５と直接隣接または近接して位置づけ、既知配列の配置における４つの各ヌクレオチド種（すなわちＴＣＡＧ）の１つを含んでよい。したがって、配列決定法の忠実度は、配列データでキー２０７における４つの各ヌクレオチド種について表されるはずであり、４つの各ヌクレオチド種が忠実に表される場合に品質管理基準を通過することができる。例えば、キー２０７から得られた配列データで表されるヌクレオチド種の１つのエラーから、そのヌクレオチド種と関連する、配列決定工程における問題が示唆され得る。そのようなエラーは、配列決定機器１００の１つまたは複数の構成要素の機械的障害、低品質の試薬または試薬の供給が低いこと、操作スクリプトエラー、または起こり得る系統的な型のエラーの他の根源に由来するものであり得る。したがって、そのような系統的な型のエラーがキー２０７中で検出された場合、その鋳型分子の実行で得られた配列データは、品質基準を通過することができず、典型的には拒絶される。

ＤＮＡ断片のライブラリー全体にキー２０７の同じ識別用配列を使用することができ、あるいは異なる配列組成を異なる目的でライブラリーの一部と関連づけることができる。プライマー２０５およびキー２０７と関連するプライマーおよびキーエレメントのさらなる例は、上記で参照により組み込まれている米国特許出願第１０／７６７，８９４号に記載されている。

標的特異的エレメント２２５は、ゲノムの領域を特異的に認識する配列組成を含む。例えば、標的特異的エレメント２２５をプライマー配列として使用して、ゲノム、組織試料、不均一な細胞集団または環境試料の中で認められる領域など、配列決定する特定の標的領域のアンプリコンライブラリーを増幅し作製することができる。これらには、例えば、ＰＣＲ産物、候補遺伝子、突然変異ホットスポット、進化上のまたは医学的に重要な可変領域が含まれ得る。それは、可変または縮重増幅プライマーを使用することによって全ゲノム増幅を行い、その後全ゲノム配列決定を行うような適用に使用することもできる。二連プライマーでの標的特異的配列の使用を記載しているさらなる例は、全ての目的でその全体が参照により本明細書に組み込まれている、２００５年４月１２日に出願された「Ｍｅｔｈｏｄｓｆｏｒｄｅｔｅｒｍｉｎｉｎｇｓｅｑｕｅｎｃｅｖａｒｉａｎｔｓｕｓｉｎｇｕｌｔｒａ−ｄｅｅｐｓｅｑｕｅｎｃｉｎｇ」という名称の米国特許出願第１１／１０４，７８１号に記載されている。

ＵＩＤ２１０のいくつかの実施形態は、複合的な試料中における比較的少数の試料の関連づけで使用するのに特に適し得る。特に、複合的な試料中で特定する関連づけが少数しか存在しないとき、各試料を、導入されたエラーを容易に検出し訂正できるほど互いに十分に一意的である配列組成を含むＵＩＤ２１０の別個の実装形態と関連づける。いくつかの実施形態では、下記でより詳細に記載するように、互換性のあるＵＩＤ２１０配列エレメントの群をまとめて「セット」にする。例えば、ＵＩＤ２１０エレメントのセットは、最大１４個の試料との関連づけを一意的に特定するのに使用することができる１４個の構成要素を含み得、各構成要素を単一の試料と関連づける。

特定する関連づけの数が増えるにつれて、設計基準および所望の特性を満たす、各関連づけについてのＵＩＤ２１０の別個の実施形態を設計することがますます難しくなることが理解されるであろう。そのような場合、複数のＵＩＤ２１０エレメントを組み合わせて使用して、鋳型分子とその元の試料とを一意的に関連づけると有利となり得、ＵＩＤ２１０の一実施形態を、直鎖鋳型分子の各末端に位置づけることができる。例えば、鋳型分子から得られた配列データと元の試料との特定する関連づけの数が大きくなりすぎると、ＵＩＤ２１０の所与の必要な設計パラメーターおよび特性を受け入れられない可能性がある。特に、多くの実施形態では、試料の数から、特定の数のフローサイクルの反復およびＵＩＤエレメントが占める配列位置の数を含む設計基準にとって望ましくないほど長いＵＩＤ２１０の配列の長さが必要となるとき、各関連づけについて別個のＵＩＤエレメントを使用することは望ましくない。この例において、「長い」読み取り長が得られる配列決定技術の実施形態では、ＵＩＤ２１０は、最大１０個の配列位置を含んでよい。あるいは、配列決定技術の他の実施形態では配列位置約２５〜５０個の比較的短い読み取り長を得ることができ、したがって鋳型分子の読み取り長を最適化するにはＵＩＤ２１０が短いことが望ましい。この例において、ＵＩＤ２１０は、少なくとも一部は適用に応じて最大４個の配列位置、最大６個の配列位置、または最大８個の配列位置を含む短い読み取り長で設計することができる。

上記に記載のように、少数と多数のどちらの関連づけにも適したＵＩＤ２１０の設計および実装の実施形態は、それぞれが好ましい設計基準および特性を満たすＵＩＤ２１０の「セット」を使用することである。正確なエラーの検出および訂正の特徴を可能にする配列組成を有するＵＩＤ２１０エレメントの設計などのいくつかの適用では、ここに記載の「セット」戦略を使用することが望ましい。例えば、下記でより詳細に記載するように、セット中のＵＩＤエレメントの配列組成は、エラーの検出および訂正を可能にするために、互いに十分異なっていなければならず、それによって、特定のセットに利用可能な互換性のある構成要素が限定される。しかし、複数セットのＵＩＤ２１０構成要素を鋳型分子と組み合わせて使用することができ、この場合各セットの構成要素は異なる相対的位置にあり、したがって容易に解釈可能である。

上記に記載の特定する関連づけが多数である問題を克服するために、ＵＩＤ２１０エレメントのセットの２つ以上の構成要素を組み合わせて使用することができる。例えば、ＵＩＤ２１０エレメントのセットは、１０ｍｅｒの配列長を含む、１０、１２、１４個または他の個数の構成要素を含んでよい。いくつかの実施形態では、２つのＵＩＤ２１０エレメントを各鋳型分子と関連づけ、それを組み合わせて使用して最大１４４個の異なる関連づけを特定することができる（すなわち、エレメント１で使用する１２個のＵＩＤ構成要素にエレメント２で使用する１２個のＵＩＤ構成要素を掛けると、関連づけを一意的に特定するのに使用することができるＵＩＤエレメント１および２の１４４通りの組合せが考えられる）。

関連分野の技術者なら、鋳型分子と関連づけた各ＵＩＤ２１０エレメントがセットの総数のＵＩＤ構成要素のサブセットを含み得る代替の実施形態を使用する（すなわちセットの構成要素の一部を使用する）ことができることを理解するであろう。言い換えると、完全なセットの１２個の構成要素のうち、８個だけを１つのエレメントの位置で使用することができる。ＵＩＤ構成要素のサブセットを使用することが望ましいことがある理由がいくつかあり、それには、特定する関連づけの数を少なくする（すなわち組合せの数を少なくする）必要があること、設備やソフトウェアの制限などの物理的もしくは実際的な実験条件、またはエレメントの位置におけるセットのＵＩＤ構成要素の好ましい組合せが含まれる。例えば、第１のエレメントは、セットの１２個のＵＩＤ構成要素を全て使用することができ、第２のエレメントは、同じまたは異なるセットの８個のＵＩＤ構成要素のサブセットを使用することができ、それによって９６通りの考えられる組合せが得られる。

組合せ戦略で使用するＵＩＤ２１０エレメントは、鋳型分子の位置に対して様々な位置上の配置で構成することができる。例えば、２個のＵＩＤ２１０エレメントを組み合わせて利用して各鋳型分子とその元の試料との関連づけを特定する戦略は、直鎖鋳型分子の各末端に位置するＵＩＤエレメント（すなわち一方は５’末端にあり他方は３’末端にあるＵＩＤ２１０エレメント）を含み得る。この例において、各ＵＩＤ２１０エレメントは、上記で論じた標的特異的アンプリコンまたはゲノムライブラリー配列決定戦略で使用されるアダプター２００または２２０などのアダプターエレメントと関連づけることができる。したがって、鋳型分子と関連する配列データは、アンプリコンの各末端にＵＩＤエレメントの配列組成を含むはずである。次いで、ＵＩＤエレメントの組合せを使用して、配列データを鋳型分子の元の試料と関連づけることができる。

いくつかの代替の実施形態では、ＵＩＤ２１０エレメントを、上記に記載の直鎖鋳型分子の各末端にあるアダプターエレメント中に組み込むことができる。しかし、鋳型分子の読み取り長は、配列決定技術が取り扱える能力より長くなり得る。そのような場合、独立して鋳型分子を各末端から配列決定する（すなわち各末端について別々に配列決定を実行する）ことができ、その末端と関連するＵＩＤ２１０エレメントを、単一のＵＩＤ２１０識別子として使用することができる。

さらに、いくつかの実施形態では、試料１つ当たりに１より多いＵＩＤ２１０エレメント、またはＵＩＤ２１０エレメントの１より多い組合せを割り当てることが望ましい可能性がある。そのような戦略は、ＵＩＤ２１０エレメント自体を含み得る様々な根源によって導入される、考えられる意図しないバイアスから保護する重複をもたらすことができる。例えば、鋳型分子の集団を有する試料を、それぞれが関連づけ用の独自のＵＩＤ２１０エレメントを使用する部分試料に細分することができる。そのような場合、試料の鋳型分子の同じ集団についての異なるＵＩＤ２１０エレメントの重複から、正しい関連づけが特定されるという大きな確実性がもたらされ、またはそのエラーが大きすぎて関連づけの正しい特定が確実にできないかどうかが示される。

一般に上記に記載したように、ここに記載の発明の実施形態は、鋳型分子と、それから得られた配列データと元の試料との関連づけを特定する目的で各鋳型分子と作動的に連結した１つまたは複数のＵＩＤ２１０エレメントを含む。ＵＩＤエレメントの１つまたは複数の実施形態は、それだけに限らないがライゲーション技術を含めた当技術分野で知られている様々な方法を使用して、アダプターの１つまたは複数の構成成分および鋳型分子と作動的に連結することができる。核酸分子を互いにライゲートするための方法は当技術分野で一般に知られ、その方法では、付着末端または平滑末端ライゲーションと呼ばれるもののためのリガーゼ酵素を使用することを含む。ライゲーションを使用してアダプターエレメントを鋳型分子と連結するさらなる例は、それぞれが全ての目的でその全体が参照により本明細書に組み込まれている、２００４年１月２８日に出願された「Ｍｅｔｈｏｄｆｏｒｐｒｅｐａｒｉｎｇｓｉｎｇｌｅ−ｓｔｒａｎｄｅｄＤＮＡｌｉｂｒａｒｉｅｓ」という名称の米国特許出願第１０／７６７，８９４号、および２００８年２月２７日に出願された「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＩｍｐｒｏｖｅｄＰｒｏｃｅｓｓｉｎｇｏｆＮｕｃｌｅｉｃＡｃｉｄｓｆｏｒＰｒｏｄｕｃｔｉｏｎｏｆＳｅｑｕｅｎｃａｂｌｅＬｉｂｒａｒｉｅｓ」という名称の米国仮特許出願第６０／０３１，７７９号に記載されている。例えば、大きな鋳型核酸または全ゲノムＤＮＡ試料を、機械的手段（すなわち噴霧化、超音波処理）または酵素的手段（すなわちＤＮアーゼＩ）によって断片化することができ、得られた各断片の末端を、アダプターエレメントと互換性があるように加工する（すなわち、ＢＡＬ３２ヌクレアーゼやダイズヌクレアーゼなどのエキソヌクレアーゼと呼ばれるものを使用して加工する）ことができ、各断片を１つまたは複数のアダプターエレメントと（すなわちＴ４ＤＮＡリガーゼを使用して）ライゲートすることができる。この例において、例えばアダプターの３’末端と断片の５’末端との選択的結合などによって、各アダプターエレメントを一方向に断片とライゲートする。

いくつかの実施形態では、キットの形でＵＩＤ２１０エレメントをユーザー１０１に提供することができ、そのキットは、図２Ａおよび２Ｂに図示されているように、組み込まれたＵＩＤ２１０エレメントを含むアダプターを含み得る。または、キットは、ユーザー１０１が所望するように組み込むことを可能にする独立したエレメントとしてＵＩＤ２１０を含み得る。

上記に記載のように、ＵＩＤ２１０の実施形態は、それだけに限らないが、ａ）各ＵＩＤエレメントが、合成またはフローサイクルを最小限の数しか必要としない最小限の配列長を含むこと、ｂ）各ＵＩＤエレメントが配列独自性を含むこと、ｃ）各ＵＩＤエレメントが、導入されたエラーに対する抵抗性を含むこと、およびｄ）各ＵＩＤエレメントが増幅方法（ＰＣＲやベクター中へのクローン化など）に干渉しないことを含むいくつかの好ましい特性または設計基準を含むべきである。

また、ＵＩＤエレメント設計のいくつかの実施形態は、ｉ）「ヘアピン」（「ヘアピンループ」または「ステムループ」とも呼ばれる）および「プライマーダイマー」と呼ばれるものの形成に抵抗するように選択されるＵＩＤの配列組成；ｉｉ）ＵＩＤエレメントが好ましい融解温度（すなわち４０℃）および／またはギブズ自由エネルギー（すなわち−１．５のΔＧカットオフ）の特性を含むことの一部または全部を含む核酸の物理的な特性または設計基準を考慮することもある。いくつかの望ましい特性の態様およびＵＩＤ設計に対するその影響を下記でより詳細に記載する。

ＵＩＤエレメントの重要な特性の１つは、それが他の特徴的な要件の必要を満たすのに必要な最小限の数の塩基または配列位置を含むべきであることである。例えば、各ＵＩＤエレメントは、鋳型分子／配列データとその元の試料との間の所望される数の関連づけを一意的に特定するのに必要な最小限の配列長を含むべきである。所望される数の関連づけは、少なくとも１２個の異なる試料、少なくとも９６個の異なる試料、少なくとも３８４個の異なる試料、または将来企図し得るそれより多い数の試料と関連する鋳型分子／配列データの特定を含み得る。言い換えると、ＵＩＤの配列長は、鋳型分子の読み取り長の位置の数を保存するために必要な長さ（すなわち「配列の不動産（ｓｅｑｕｅｎｃｅｒｅａｌｅｓｔａｔｅ）」と呼ぶことができるもの）より長くするべきでない。さらに、最小限の配列長は、各ＵＩＤエレメントの配列データを得るのにヌクレオチド種のセットの最小限の数のフローサイクルを費やし、または必要とすべきである。ＵＩＤエレメントの配列データを得るのに必要なヌクレオチド種のフローサイクルの数を最小限にすると、試薬コスト、機器使用（すなわち処理時間）、データの品質、および読み取り長における利点がもたらされる。例えば、それぞれのフローサイクルを追加すると、ＣＡＦＩＥエラーの導入の確率、および試薬の使用が増大する。この例において、１０ｍｅｒの各ＵＩＤエレメントが、各ＵＩＤエレメントの配列データを得るのに５回のヌクレオチド種のフローサイクルしか必要としないことが好ましい。

別の重要な特性は、各ＵＩＤエレメントの配列独自性を含む。本明細書において「配列独自性」という用語は一般に、各配列が、比較の対象である他の全てのＵＩＤ配列と容易に認識可能であるような、複数のＵＩＤ配列間の区別可能な違いを指す。特に、各ＵＩＤエレメントは、導入されたエラーの容易な検出およびエラーの一部または全部の訂正を可能にする程度の配列独自性を含むことが必要である。さらに、各ＵＩＤエレメントに反復した配列組成がなく、それが制限酵素によって認識される配列組成を含むべきでないことが一般に好ましい。言い換えると、ＵＩＤエレメントが、ヌクレオチド種の同じ組成を有する連続したモノマーを含むことは望ましくない。例えば、各ＵＩＤエレメントの配列独自性の好ましい実施形態は、１０ｍｅｒのエレメント（すなわち全部で１０個の配列位置）において、エラーが導入された最大３個の配列位置の検出およびエラーが導入された最大２個の配列位置の訂正を可能にする。当業者なら、導入されたエラーが、「挿入」、「欠失」、「置換」、またはそのいくつかの組合せ（すなわち、同じ配列位置における挿入と欠失の組合せが置換であるように見え、単一のエラー事象としてカウントされる）と呼ばれるものを含む可能性があることが理解されるであろう。また、エラーの検出および訂正のレベルは、ＵＩＤエレメントの配列長に少なくとも一部は依存する可能性がある。さらに、ＵＩＤ２１０の外側（すなわち上流または下流）にある導入されたエラーは、ＵＩＤ２１０の配列組成の解釈に影響がある可能性がある。このことは、ＵＩＤ特定用の配列データを解読または分析する場面で、下記にさらに論じる。

やはり望ましいさらなる特性は、導入されたエラーに対する抵抗性を含む。例えば、鋳型分子や他の配列エレメントなどの核酸配列中のモノマー反復は、配列読み取り中にエラーを引き起こす可能性がある。そのエラーは、反復したモノマーの数の提示または呼び出しの過不足を含み得る。したがって、ＵＩＤエレメントが、近くにある配列エレメントの隣接したモノマーと同じヌクレオチド種で開始または終了（すなわち配列エレメントまたは構成成分間でモノマー反復を生成）しないことが望ましい。この例において、図２Ａおよび２Ｂに図示したキー２０７など、近くにある配列エレメントは、「Ｇ」ヌクレオチド種で終了する可能性がある。したがって、ＵＩＤ２１０などのＵＩＤエレメントは、反復した「Ｇ」種からエラーが導入される可能性の増大を回避するには、同じ「Ｇ」ヌクレオチド種で開始すべきでない。

ＳＢＳの場面で特に関連するエラーの別の根源は、「繰り越し」または「不完全伸長」作用と呼ばれるもの（ＣＡＦＩＥ作用と呼ばれることもある）を含む。例えば、試料の核酸分子の各増幅集団における小さな割合の鋳型核酸分子（すなわち核酸分子鋳型から増幅された実質的に同一のコピーの集団）が、その集団における鋳型核酸分子の残りとの相同調性を失うまたはなくす（すなわち、一部の鋳型分子に関連する反応が、その集団に対する配列決定反応の実行において他の鋳型分子より早く進みまたは遅れる）。ＣＡＦＩＥの機構およびＣＡＦＩＥエラーを訂正するための方法のさらなる記載は、全ての目的でその全体が参照により本明細書に組み込まれている、２００７年２月１５日に出願された「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄＦｏｒＣｏｒｒｅｃｔｉｎｇＰｒｉｍｅｒＥｘｔｅｎｓｉｏｎＥｒｒｏｒｓｉｎＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅＤａｔａ」という名称のＰＣＴ出願第ＵＳ２００７／００４１８７号にさらに記載されている。

また、ある型のエラーが他の型より高頻度で起こり、かつ／または他の型のエラーより重大である可能性があることが理解されるであろう。例えば、欠失エラーは、置換エラーより著しい影響を有する可能性がある。したがって、より頻繁または有害な型のエラーに対処することをより重視するようにして各ＵＩＤエレメントを設計すると有利である。

以前に述べたように、典型的には、ＵＩＤエレメントの配列組成をランダムにまたは非選択的に設計することは好ましくない。不適切に設計された２つのＵＩＤエレメントおよびそのようなＵＩＤエレメントを使用したエラーの検出／訂正の問題の潜在性を示す例を表１に提示する。

表１の例では、ＵＩＤエレメント１または２のどちらかが元の配列エレメントである場合、得られたＵＩＤ配列として表されたＵＩＤ配列がエラーを含む（すなわち、少なくとも１つのエラーの存在が検出される）ことが明らかである。しかし、どちらの単一エラーでもその得られた配列をもたらす可能性があるので、ＵＩＤエレメント１またはＵＩＤエレメント２のどちらが実際のＵＩＤエレメントであったかは、得られたＵＩＤ配列の配列組成からは明らかでない。言い換えると、ＵＩＤエレメント１で、２番目の位置の「Ｃ」ヌクレオチド種を「Ｇ」種に変換する１つのエラーが導入された可能性がある。ＵＩＤエレメント２で、３番目の位置の「Ｃ」ヌクレオチド種を「Ｔ」種に変換する１つのエラーが導入された可能性もある。配列情報を考慮すると、そのエラーは検出されるが、どちらのＵＩＤエレメントが元のエレメントであったかを推論することは不可能であり、したがってそれを訂正することができない。したがって、得られたＵＩＤ配列とＵＩＤエレメント１または２のどちらかとの関連づけを確実になすことはできず、したがってそのＵＩＤエレメントの１つと連結した鋳型分子の元の試料を特定できず、得られた配列情報は捨てる必要があり得る。言い換えると、ＵＩＤエレメント１および２の設計は、記載の型の導入されたエラーから回復するほど互いに十分には異なっていない。

不十分なＵＩＤ設計の潜在的な結果を表２にさらに例示する。

表２の例は、ＰＣＲ工程によって導入されたエラーの最も一般的な型の１つである、ＵＩＤエレメント１で３番目の位置のＡヌクレオチド種がＧヌクレオチド種に置換される事象によって、ＵＩＤ２１０エレメントの配列組成と正確に一致する潜在的な結果のさらに明らかな姿を示す。したがって、不十分なＵＩＤ２１０設計の結果、検出不可能なエラーが生じ、そのエラーの結果、元の試料に配列データを誤って割り当てる可能性が高くなる。

様々な方法を使用して、必要な設計基準を満たす配列組成を含むＵＩＤエレメントを設計することができる。また、本明細書に記載の方法の一部または全部を使用してＵＩＤ２１０を設計するのに、図１に図示したアプリケーション１３５を使用することができる。例えば、所与の長さについて考えられる全ての配列組成、および設計基準と関連するパラメーターのセットを考慮した他の配列組成との考えられるコンフリクトを算出する「ブルートフォース」法を使用することができる。この例において、エラーが導入された最大３個の配列位置が検出され、エラーが導入された最大２個の配列位置が訂正されるように１０ｍｅｒのＵＩＤエレメントの配列組成を算出することができる。

上記に記載の特性を考慮した最も厳密な設計基準を満たす、ＵＩＤ２１０エレメントのセットの構成要素にとって好ましい配列組成の設計は、計算上の課題を提示する。当業者に知られている数学的方法を適用して、設計の制約を考慮した、セットの構成要素について考えられる配列組成を算出することができる。例えば、設計の制約を考慮して配列組成の考えられる全ての組合せの数学的変換を算出して、セット中の各ＵＩＤエレメントと他の構成要素との潜在的な互換性を決定する「エラーボール」または「エラークラウド」と呼ぶことができるものを得ることができる。潜在的なＵＩＤエレメントの配列組成の互換性は、重複していないエラーボールとして視覚的に示すことができる。例えば、図３は、フローサイクルの数や配列長の要件など上記に記載の設計基準の一部または全部を含む、ＵＩＤ３１０、ＵＩＤ３２０、ＵＩＤ３３０、ＵＩＤ３４０、およびＵＩＤ３５０について算出されたエラーボールの「空間潜在性」と呼ぶことができるものを示す図を提供する。図３に図示されているように、ＵＩＤ３１０、ＵＩＤ３２０、およびＵＩＤ３３０のエラーボールは重複しておらず、したがって互換性のあるＵＩＤ２１０エレメントの配列組成を表す。さらに、ＵＩＤ３４０はＵＩＤ３２０および３５０と重複し、これは互換性のないＵＩＤエレメントの配列組成を表している。しかし、ＵＩＤ３４０はＵＩＤ３１０およびＵＩＤ３３０と重複しておらず、したがって重複していない各ＵＩＤエレメントについては互換性のある配列組成を表す。

あるいは、当技術分野で「動的計画法」の技術と呼ばれるものを使用する、より計算上効率のよい手法を使用することができる。本明細書において「動的計画法」という用語は一般に、重複する下位の問題を含む問題および最適な構造を解明するための方法を指す。動的計画法の技術は、典型的には、アプリオリな知識を用いない方法より実質的に計算上効率がよい。

動的計画法の技術のいくつかの実施形態は、核酸種の列などの文字列の「最小編集距離」と呼ぶことができるものを算出することを含む。言い換えると、セット中の各ＵＩＤ構成要素エレメントは、核酸種の組成を表している文字列とみなすことができる。本明細書において「最小編集距離」という用語は一般に、第１の列を第２の列に変化させるのに必要な点変異の最小数を指す。さらに、本明細書において「点変異」という用語は一般に、列中のある文字から別の文字への置換、列中への文字の挿入、または列からの文字の欠失と呼ばれる、列中の場所における文字組成の変化を指し、それを含む。例えば、ＵＩＤ２１０エレメントのセットの潜在的な各構成要素について、そのセットの他の全ての構成要素に対する最小編集距離を算出することができる。その後、最小編集距離を比較し、特定の基準を満たす他の全ての構成要素から十分に離れた最小編集距離を有するセットの各構成要素を少なくとも一部はベースにして、ＵＩＤ２１０エレメントのセットの構成要素を選択することができる。最小編集距離を算出する系および方法は、関連分野の技術者によく知られ、それをいくつかの形で実装することができる。

ここに記載の発明の別の重要な態様は、データ内のＵＩＤ２１０配列エレメントを「解読」または特定する配列データの分析を対象とする。いくつかの実施形態では、各実行からの配列データを処理しＵＩＤ２１０を特定するほか、任意のエラーを検出または訂正する機能も果たすアプリケーション１３５としてコンピュータコード中にアルゴリズムを実装することができる。情報の列中のエラーを検出および訂正するための方法が、コンピュータの分野で、特に電子的に記憶および転送されたデータの領域で使用されていることを認識することが重要である。例えば、ある形態から別の形態へのデータビットの「反転」の問題が、データがネットワークを介して転送され、または電子媒体中に保存されたときに起こる。ビットの反転は記憶または転送されたデータの完全性に関する問題を提示し、それはここに記載の置換型のエラーと類似している。反転エラーの検出および訂正方法は、どちらも全ての目的でその全体が参照により本明細書に組み込まれている、Ｊ．Ｆ．Ｗａｋｅｒｌｙ、「Ｄｅｔｅｃｔｉｏｎｏｆｕｎｉｄｉｒｅｃｔｉｏｎａｌｍｕｌｔｉｐｌｅｅｒｒｏｒｓｕｓｉｎｇｌｏｗｃｏｓｔａｒｉｔｈｍｅｔｉｃｃｏｄｅｓ」、ＩＥＥＥＴｒａｎｓ．Ｃｏｍｐｕｔ．、Ｃ−２４巻、２１０〜２１２頁、１９７５年２月、およびＪ．Ｆ．Ｗａｋｅｒｌｙ、ＥｒｒｏｒＤｅｔｅｃｔｉｎｇＣｏｄｅｓ，Ｓｅｌｆ−ＣｈｅｃｋｉｎｇＣｉｒｃｕｉｔｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ、Ａｍｓｔｅｒｄａｍ、ＴｈｅＮｅｔｈｅｒｌａｎｄｓ：Ｎｏｒｔｈ−Ｈｏｌｌａｎｄ、１９７８年に記載されている。

しかし、上記に記載の反転エラーを検出および訂正するための方法は、配列データ中のエラー、より具体的にはＵＩＤエレメント中のエラーの検出および訂正の問題に適用できない。重要なことに、置換および欠失の問題のほか、位相整合の問題を生じさせ、各配列位置での情報の解釈を複雑にする置換の問題も取り扱うため、配列データ中の問題は実質的により複雑である。

上記に記載のように、プライマー２０５、キー２０７、配列の５’および３’末端など他の容易に特定可能なエレメントに対して既知の位置にＵＩＤ２１０を位置づけることができる。しかし、ちょうどＵＩＤ２１０内の導入されたエラーが有害な作用を有するとき、ＵＩＤ２１０エレメントの領域の外側にあるエラーは、各ＵＩＤ２１０エレメントを特定する効率に影響を及ぼす可能性もある。さらに、ＵＩＤ２１０によって定義される領域の外側にあるいくつかの型のエラーは、ＵＩＤ２１０配列内のエラーに寄与し、その配列内のエラーとしてカウントされる可能性がある。例えば、挿入事象は、ＵＩＤ２１０エレメントの前にある（すなわち上流にある）配列データ中で起こり、またはその中に表される可能性があり、そのデータは解釈することが難しい可能性がある。この例において、挿入事象は、ＴＣＡＧ配列組成を含むキー２０７の末端における１つまたは複数のＧヌクレオチド種の塩基の挿入を含み得、それは、配列位置でのヌクレオチド種が「過剰に呼び出された」ときに起こり得る。しかし、データを解釈するアプリケーションは、それが挿入事象であることを知らず、ＵＩＤ２１０の最初の配列位置に、異なるヌクレオチド種の代わりにＧヌクレオチドを提供した置換事象の可能性を除外することができない。言い換えると、ＵＩＤ２１０の外側にあるエラーによって、アルゴリズムは、そのエラーが、そのアルゴリズムがＵＩＤ２１０の最初の配列位置を探すはずである場所を移動させる挿入であるかどうか、またはそれが置換事象であるかどうかを決定する。

上記からの例を継続すると、アルゴリズムまたはユーザーは、図２Ａおよび２Ｂに図示されているように、キー２０７など別の既知のエレメントと直接隣接しているＵＩＤ２１０エレメントを探すことができるが、キー２０７とＵＩＤ２１０の間での１つの塩基の挿入は、典型的には、ＵＩＤ２１０に属するものとして割り当てられ得る（第１の挿入エラーとしてカウント）。さらに、アルゴリズムまたはユーザーは、ＵＩＤ２１０が特定の長さ（すなわち１０個の配列位置）であると予想し、したがって、最初の挿入のために実際のＵＩＤエレメントの最後の配列位置を切り捨てる（第２の欠失エラーとしてカウント）。したがって、ＵＩＤ領域の外側にあるエラーが、ＵＩＤ２１０の配列組成の発見および解釈に対して多大な影響がある可能性があることは明らかである。

いくつかの実施形態では、ＵＩＤ２１０によって定義される領域の外側にあるエラーは、新生分子の３’末端で特に問題となる。例えば、配列決定実行が３’末端で長くなるほど、累積エラー（上記に記載のＣＡＦＩＥ型のエラーなど）およびエラーの導入率がますます高くなる可能性がある、５’から３’末端へのＳＢＳ配列決定の（すなわち新生分子の３’末端にヌクレオチド種を付加する）いくつかの実施形態。したがって、厳密な基準ではなく特定の仮定を使用してＵＩＤ２１０を特定することはより実際的かつ有効であり得る。やはり上記に記載のように、５’に使用する仮定は、３’末端に使用する仮定と異なっていてよく、これを「非対称的」と呼ぶことができる。例えば、５’末端に３個を超える配列位置のエラーは存在しないことを仮定することができ、これは経験的な証拠と一致する。しかし、この例において、３’末端でのエラーの可能性が高いことにより、３’末端では、４個を超える配列位置のエラーは存在しないことを仮定することができる。各末端での検出可能なエラーにおける非対称的な違いのために、訂正可能なエラーの量も異なる可能性があることを推論することもできる。この例において、５’末端での訂正可能なエラーは上記に記載のように２個の配列位置であり得るが、３’末端での訂正可能なエラーは１個の配列位置だけであり得る。また、５’末端に使用することができないさらなる仮定を３’末端で使用することができる。そのような仮定は、ＵＩＤ２１０に近接している１つまたは複数の「呼び出されない」位置の存在を含み得る。

この例において、アダプターエレメント２００または２２０の実施形態は、図２Ａまたは２Ｂで図示したものに対して回文構造の配置にある鋳型核酸の３’末端に存在する（上記に記載）。しかし、この例がエレメントの配置における違いを指し、各アダプターと関連するエレメントが同じ組成を有する必要はない（すなわち、３’末端が、最初のＵＩＤエレメントの配列組成を含むことがあり、５’末端が、異なる配列組成を有するＵＩＤエレメントを含むことがある）ことが理解されるであろう。いくつかの実施形態が必ずしも各アダプターにおいて同じエレメントの組成を含むわけではない（すなわち、５’末端のアダプターがＵＩＤ２１０エレメントを含み、３’のアダプターがそれを含まないことがあり、またはその逆も同様である）ことがさらに理解されるであろう。また、導入されたエラーに対する抵抗性に関して、プライマーエレメント２０５の配列品質の固有の内部標準が存在してもよい。例えば、プライマー２０５の配列組成中に導入されたエラーは、そのそれぞれの標的に対するハイブリダイゼーション品質に負の影響を及ぼし、それによってＰＣＲ工程で増幅されず、したがって配列決定用の鋳型分子の集団中に表されない。プライマー２０５の配列組成は既知であり、配列決定に関連する何らかのエラーを除いてエラーは実質的にないと仮定することができるので、このプライマー２０５の固有の品質標準はＵＩＤ２１０の発見に有用である。やはり上記に記載のように、キーエレメント２０７は、品質管理の目的に使用することができ、同じ場面で位置基準としても有用である。したがって、この例において、プライマー２０５および／またはキー２０７は、エレメント間の既知の位置関係を使用してＵＩＤ２１０を特定するための容易に特定可能なアンカー基準点として使用することができる。例えば、アプリケーション１３５によって実装されているアルゴリズムなど、ユーザーまたはアルゴリズムは、その仮定を少なくとも一部ベースとして、キー２０７と直接隣接して、またはいくらか既知の距離だけ離れて位置するＵＩＤ２１０を探すことができる。

さらに、ユーザーまたはアルゴリズムが、推定されるＵＩＤ２１０エレメントの配列組成を特定した後、エラーの特定および訂正のステップを行う。ここに記載の発明の実施形態は、セット中のＵＩＤ２１０構成要素の配列組成に対して、推定されるＵＩＤ２１０エレメントの配列組成を比較する。完全一致は、その元の試料と関連する。完全な一致が認められない場合、推定される配列と最も近い配列組成を有するＵＩＤ２１０エレメントを分析して、起こり得た可能な挿入、欠失、または置換エラーを決定する。例えば、推定されるＵＩＤ２１０エレメントと最も近いＵＩＤ２１０エレメントを特定し、または推定されるＵＩＤ２１０エレメントをエラーが多すぎるとみなす。この例において、ＵＩＤ２１０セットの全ての構成要素または選択構成要素の配列組成に対する、推定されるＵＩＤ２１０エレメントの配列組成との最小編集距離を算出することができる。最大２個の配列位置のエラーを訂正する可能性がある、最大３個の配列位置のエラーを検出するパラメーターを使用して、最小編集距離を算出することができる。この例において、パラメーターの制約（すなわち検出／訂正）を考慮した、推定されるＵＩＤ２１０エレメントと最も近いまたは最も短い最小編集距離を有するＵＩＤ２１０構成要素を、推定されるＵＩＤ２１０エレメントの配列組成として割り当てることができる。また、最小編集距離の計算から、３個の配列位置のエラーが起こっていたと決定された場合、推定されるＵＩＤ２１０エレメントを、使用できず、元の試料と関連しないものとすることができる。

当業者なら、ＵＩＤ２１０エレメントを組み合わせて使用したとき、典型的には各ＵＩＤ２１０エレメントを独立して分析することを理解するであろう。次いで、特定されたＵＩＤ２１０エレメントの組合せを、元の試料に割り当てられた既知の組合せに対して比較して、配列データとその元の特定の試料との関連づけを特定することができる。

好ましい実施形態では、上記に記載のように、コンピュータ１３０上での実行用に保存されたアプリケーション１３５を使用して、ＵＩＤ２１０発見アルゴリズムを実装する。さらに、同じまたは他のアプリケーションは、配列データから特定されたＵＩＤ２１０を元の試料と関連づけるステップ、インターフェースを介してユーザーにその結果を提供するステップ、および／またはその後に分析もしくは使用するために電子媒体中にその結果を格納するステップを行うことができる。

（実施例１）
限定された数の設計の制約を考慮したＵＩＤエレメントの設計
検出、訂正、およびヘアピンの設計の制約を考慮して、潜在的なＵＩＤエレメントの配列組成の設計を算出した。

最初に各ＵＩＤエレメントについて１０塩基対の配列長を算出し、１，０４８，５７６個の考えられるエレメントを得た。

次に、その考えられるエレメントのうち、モノマー反復を有さず、フローサイクルを５回（２０フロー）またはそれ未満しか必要とせず、「Ｇ」ヌクレオチド種で開始しないＵＩＤエレメントを算出し、３４，００１個の考えられるエレメントを得た。

フィルタをかけて、４０℃の温度でヘアピンとなり、ΔＧ＝−１．５であるものを除外するさらなるステップから、２６，２７８個の考えられるエレメントが得られた。

最後に、その考えられるエレメントのうち５，０００個をランダムに選択して、２個の配列位置のエラーを訂正し、３個の配列位置のエラーを検出することができる、互換性のあるセットまたはクラスターを探し、以下のものを得た：
１２個の構成要素からなる３２，９９９セット
１３個の構成要素からなる３，６２５セット
１４個の構成要素からなる２４セット
（実施例２）
ＵＩＤ配列エレメントを作り出す例示的なコンピュータコード
（１）エラークラウドをベースにしたもの、（２）編集距離をベースにしたもの、および（３）編集距離をベースにしたものを含む３つの技術のうち１つを使用する検索を実行し、候補選択を試みる前に「安全性マップ」を使用して検索でソフトウェアが有効に先読みできる編集距離を予め算出するさらなる効率戦略を用いたＵＩＤＣｒｅａｔｅ．Ｊａｖａ（登録商標）クラスファイル。

上記のコンピュータコードが例を挙げる目的で提供され、数多くの代替の方法およびコード構造を使用できることが理解されるであろう。本明細書で提供される例示的なコードが、独立のアプリケーションとして実行し、またはさらなるコンピュータコードもしくは改変を伴わずに完全に実行することを意図していないことも理解されるであろう。

（実施例３）
算出されたＵＩＤ配列、クラスターＩＤ、およびフローグラムスクリプトの表

（実施例４）
ＵＩＤ特定のためにヌクレオチド配列を表し操作する例示的なコンピュータコード

以前に述べたように、上記のコンピュータコードが例を挙げる目的で提供され、数多くの代替の方法およびコード構造を使用できることが理解されるであろう。本明細書で提供される例示的なコードが、独立のアプリケーションとして実行し、またはさらなるコンピュータコードもしくは改変を伴わずに完全に実行することを意図していないことも理解されるであろう。

様々な実施形態および実装形態を記載してきたが、上記のものが限定的ではなく例示的に過ぎず、ほんの一例として提示されていることが関連分野の技術者には明らかであるはずである。示した実施形態の様々な機能的エレメントの間で機能を分配させる多数の他のスキームが考えられる。任意のエレメントの機能は、代替の実施形態において様々な形で実施することができる。

Claims

鋳型核酸分子の起源を特定する識別子エレメントであって、
核酸エレメントから得られた配列データ中に導入されたエラーの検出および該導入されたエラーの訂正を可能にする配列組成を含む核酸エレメントであって、鋳型核酸分子の末端と連結するように構築され、該鋳型核酸分子の起源を特定する核酸エレメント
を含む識別子エレメント。
前記配列組成が、最大３個の前記導入されたエラーの検出および最大２個の該導入されたエラーの訂正を可能にする、
請求項１に記載の識別子エレメント。
前記配列組成が１０個の配列位置を含む、
請求項１に記載の識別子エレメント。
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項１に記載の識別子エレメント。
前記配列組成が、最小限の配列長、最小限の数のフローサイクル、配列独自性、およびモノマー反復からなる群から選択されるパラメーターのセットをベースにした設計を含む、
請求項１に記載の識別子エレメント。
前記配列組成が、融解温度、ギブズ自由エネルギー、ヘアピン形成、およびダイマー形成からなる群から選択されるパラメーターのセットをベースにした設計を含む、
請求項１に記載の識別子エレメント。
前記核酸エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、前記鋳型核酸分子の末端と連結する、
請求項１に記載の識別子エレメント。
前記核酸エレメントが、前記プライマーエレメントに対して既知の位置にある、
請求項７に記載の識別子エレメント。
前記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定（ｂｉｐａｒｔｉｔｅａｍｐｌｉｆｉｃａｔｉｏｎ−ｓｅｑｕｅｎｃｉｎｇ）プライマーからなる群から選択される、
請求項７に記載の識別子エレメント。
前記アダプターが品質管理エレメントを含む、
請求項７に記載の識別子エレメント。
前記核酸エレメントが、前記品質管理エレメントに対して既知の位置にある、
請求項７に記載の識別子エレメント。
前記鋳型核酸分子の起源が実験試料または診断試料を含む、
請求項１に記載の識別子エレメント。
前記核酸エレメントが、それぞれが独自の配列組成を含む複数の互換性のある核酸エレメントを含むセットに属し、前記導入されたエラーの検出が、該セットの該互換性のある核酸エレメントの配列組成と関連する、
請求項１に記載の識別子エレメント。
前記セットが１４個の前記互換性のある核酸エレメントを含む、
請求項１３に記載の識別子エレメント。
鋳型核酸分子の起源を特定するための方法であって、
鋳型核酸分子から得られた配列データから第１の識別子配列を特定するステップと、
該第１の識別子配列中で導入されたエラーを検出するステップと、
該第１の識別子配列中で該導入されたエラーを訂正するステップと、
訂正された該第１の識別子配列を、該鋳型分子と連結した第１の識別子エレメントと関連づけるステップと、
該訂正された第１の識別子配列と該第１の識別子エレメントとの関連づけを使用して、該鋳型分子の起源を特定するステップと
を含む方法。
鋳型核酸分子を配列決定して前記配列データを得るステップ
をさらに含む、請求項１５に記載の方法。
前記鋳型核酸分子が、複数の異なる起源由来の複数の鋳型分子を含む複合的な試料中に含まれる、
請求項１５に記載の方法。
前記第１の識別子配列中で前記導入されたエラーを最大３個検出するステップと、
該第１の識別子配列中で該導入されたエラーを最大２個訂正するステップと
をさらに含む、請求項１５に記載の方法。
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項１５に記載の方法。
前記検出するステップが、
前記識別子配列に隣接する１つまたは複数の配列領域における配列組成の１つまたは複数の特性を測定するステップと、
測定された該特性に由来する１つまたは複数の仮定を使用して前記導入されたエラーを検出するステップと
を含む、請求項１５に記載の方法。
前記第１の識別子エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、前記鋳型核酸分子と連結する、
請求項１５に記載の方法。
前記第１の識別子エレメントが、前記プライマーエレメントに対して既知の位置にある、
請求項２１に記載の方法。
前記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定プライマーからなる群から選択される、
請求項２１に記載の方法。
前記アダプターが品質管理エレメントを含む、
請求項２１に記載の方法。
前記第１の識別子エレメントが、前記品質管理エレメントに対して既知の位置にある、請求項２１に記載の方法。
前記鋳型核酸分子の起源が実験試料または診断試料を含む、
請求項１５に記載の方法。
前記鋳型核酸分子から得られた配列データから第２の識別子配列を特定するステップと、
該第２の識別子配列中で導入されたエラーを検出するステップと、
該第２の識別子配列中で該導入されたエラーを訂正するステップと、
訂正された該第２の識別子配列を、該鋳型核酸分子と連結した第２の識別子エレメントと関連づけるステップと、
前記訂正された第１の識別子配列と前記第１の識別子エレメントとの関連づけを、該訂正された第２の識別子配列と該第２の識別子エレメントとの関連づけと組み合わせて使用して、該鋳型分子の起源を特定するステップと
をさらに含む、請求項１５に記載の方法。
前記第２の識別子配列中で前記導入されたエラーを最大３個検出するステップと、
該第２の識別子配列中で該導入されたエラーを最大２個訂正するステップと
をさらに含む、請求項２７に記載の方法。
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項１５に記載の方法。
前記第１の識別子が、識別子の複数セットのうちの、互換性のある識別子の少なくとも１つのセットに属する、
請求項１５に記載の方法。
前記互換性のある識別子のセットが、前記導入されたエラーの検出および訂正を可能にする１４個の識別子を含む、
請求項１５に記載の方法。
鋳型核酸分子の起源を特定するためのキットであって、
各核酸エレメントから得られた配列データ中に導入されたエラーの検出および該導入されたエラーの訂正を可能にする独自の配列組成をそれぞれが含む核酸エレメントのセットであって、それぞれの該核酸エレメントが鋳型核酸分子の末端と連結するように構築され、該鋳型核酸分子の起源を特定する核酸エレメントのセット
を含むキット。
前記独自の配列組成が、最大３個の前記導入されたエラーの検出および最大２個の該導入されたエラーの訂正を可能にする、
請求項３２に記載のキット。
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、請求項３２に記載のキット。
各核酸エレメントが、プライマーエレメントを含むアダプター中に組み込まれ、該アダプターが、前記鋳型核酸分子の末端と連結する、
請求項３２に記載のキット。
前記核酸エレメントが、前記プライマーエレメントに対して既知の位置にある、
請求項３６に記載のキット。
前記プライマーエレメントが、増幅プライマー、配列決定プライマー、または二連増幅−配列決定プライマーからなる群から選択される、
請求項３６に記載のキット。
前記アダプターが品質管理エレメントを含む、
請求項３６に記載のキット。
前記核酸エレメントが、前記品質管理エレメントに対して既知の位置にある、
請求項３６に記載のキット。
それぞれの前記核酸エレメントにおける前記導入されたエラーの検出が、前記セットの他の核酸エレメントの独自の配列組成と関連する、
請求項３２に記載のキット。
前記セットが１４個の前記核酸エレメントを含む、
請求項４１に記載のキット。
コンピュータであって、該コンピュータは、該コンピュータに保存された実行可能なコードを含み、該実行可能なコードは、鋳型核酸分子の起源を特定するための方法を実行し、該方法は、
鋳型核酸分子から得られた配列データから識別子配列を特定するステップと、
該識別子配列中で導入されたエラーを検出するステップと、
該識別子配列中で該導入されたエラーを訂正するステップと、
該訂正された識別子配列を、該鋳型分子と連結した識別子エレメントと関連づけるステップと、
該訂正された識別子配列と該識別子エレメントとの関連づけを使用して、該鋳型分子の起源を特定するステップと
を含む、コンピュータ。
前記鋳型核酸分子が、複数の異なる起源由来の複数の鋳型分子を含む複合的な試料中に含まれる、
請求項４３に記載の方法。
前記第１の識別子配列中で前記導入されたエラーを最大３個検出するステップと、
該第１の識別子配列中で該導入されたエラーを最大２個訂正するステップと
をさらに含む、請求項４３に記載の方法。
前記導入されたエラーが、挿入エラー、欠失エラー、および置換エラーからなる群から選択される、
請求項４３に記載の方法。
前記特定するステップが、
前記配列データにおける１つまたは複数のエレメントの既知の位置関係を使用して前記識別子配列の位置を決定するステップ
をさらに含む、請求項４３に記載の方法。
前記１つまたは複数のエレメントがプライマー配列を含む、
請求項４８に記載の方法。
前記検出するステップが、
前記識別子配列に隣接する１つまたは複数の配列領域における配列組成の１つまたは複数の特性を測定するステップと、
測定された該特性に由来する１つまたは複数の仮定を使用して前記導入されたエラーを検出するステップと
をさらに含む、請求項４３に記載の方法。
前記鋳型核酸分子から得られた配列データから第２の識別子配列を特定するステップと、
該第２の識別子配列中で導入されたエラーを検出するステップと、
該第２の識別子配列中で該導入されたエラーを訂正するステップと、
訂正された該第２の識別子配列を、該鋳型分子と連結した第２の識別子エレメントと関連づけるステップと、
前記訂正された第１の識別子配列と前記第１の識別子エレメントとの関連づけを該訂正された第２の識別子配列と該第２の識別子エレメントとの関連づけと組み合わせて使用して、該鋳型分子の起源を特定するステップと
をさらに含む、請求項４３に記載の方法。