JP6285929B2

JP6285929B2 - 遺伝的変異を検出するためのシステムおよび方法

Info

Publication number: JP6285929B2
Application number: JP2015523238A
Authority: JP
Inventors: リチャーズ，ハンター; エヴァンス，エリック; スリニヴァサン，バラジ; スリニヴァサン，スブラマニアム; シャー，アビク; パターソン，エイ・スコット; チュウ，クレメント
Original assignee: カウンシル，インコーポレーテッド
Priority date: 2012-07-17
Filing date: 2013-07-17
Publication date: 2018-02-28
Anticipated expiration: 2033-07-17
Also published as: ES2637538T3; WO2014015084A3; JP2018019701A; CA2876505A1; CN104812947B; JP2015531588A; EP2875173B1; AU2018217306A1; WO2014015084A2; EP2875173A4; CN108456717A; JP6234629B1; EP2875173A2; IL236269A0; HK1246372A1; EP3243937A1; AU2013292610A1; CN104812947A; AU2013292610B2; JP2018038417A

Description

次世代配列決定（ＮＧＳ）は、日単位で測定されるターンアラウンドタイムでの小規模の安価なゲノム配列決定を許容する。しかしながら、ＮＧＳが一般に行われ、理解されている通り、ゲノムの全ての領域は、大まかに等しい確率で配列決定され、つまり、可能性のある突然変異を解釈するために機能が十分によく理解されている、比較的低い割合の領域から配列情報を収集するように、大量のゲノム配列が収集および破棄される。一般に、完全ゲノム試料から興味のある領域のみを精製することは、配列決定とは別のステップとして行われる。それは、通常、当該技術分野の現状において何日もかかる低効率プロセスである。

直接標的配列決定（ＤＴＳ）は、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．により用いられる標準配列決定プロトコルに対する修正であり、配列決定基質（すなわち、フローセル）が同様にゲノム配列捕捉基質になるのを許容する。典型的な次世代配列決定プロトコルの通常フローに別の器具を追加することなく、ＤＴＳプロトコルは、特別に調製されたライブラリーからｇＤＮＡを捕捉するように配列決定表面を修飾する。次に、捕捉されたライブラリーは、通常のｇＤＮＡライブラリーと同様に配列決定される。しかしながら、以前の提案に従う配列決定基質の修飾および付随するライブラリー調製は、非効率性をもたらし、信頼性および再現性を低減して、価値のある試料を浪費する。したがって、ＤＴＳプロセスに対する改善が望ましい。

発明の概要
一態様において、本発明は、複数の標的ポリヌクレオチドを配列決定するための装置、および装置を生成する方法を提供する。一実施形態において、この方法は、（ａ）反応表面を有する固体支持体を提供することと、（ｂ）その固体支持体に複数のオリゴヌクレオチドを結合することと、を含む。いくつかの実施形態において、複数のオリゴヌクレオチドは、（ｉ）複数の異なる第１のオリゴヌクレオチドであって、配列Ａおよび配列Ｂを含み、配列Ａは、全ての第１のオリゴヌクレオチドの中で共通であり、さらに配列Ｂは、それぞれの異なる第１のオリゴヌクレオチドに対して異なり、それぞれの第１のオリゴヌクレオチドの３′末端にあり、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、複数の異なる第１のオリゴヌクレオチドと、（ｉｉ）配列Ａをそれぞれの３′末端に含む複数の第２のオリゴヌクレオチドと、（ｉｉｉ）配列Ｃをそれぞれの３′末端に含む複数の第３のオリゴヌクレオチドと、を含み、配列Ｃは、複数の異なる標的ポリヌクレオチドにより共有される配列と同じである。いくつかの実施形態において、Ａ、Ｂ、およびＣは、異なる配列であり、それぞれ５個以上のヌクレオチドを含む。

いくつかの実施形態において、配列Ａ、Ｂ、およびＣは、互いに９０％未満の配列同一性を有する。いくつかの実施形態において、複数のオリゴヌクレオチドは、反応部分を含み、その結果、反応表面と反応部分との間の反応が、複数のオリゴヌクレオチドを固体支持体に結合するようになる。いくつかの実施形態において、複数の第１のオリゴヌクレオチドは、それぞれが異なる配列Ｂを含む、少なくとも約１００個の異なる第１のオリゴヌクレオチドを含む。いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂは、図４−１〜３に示される配列番号２２〜１２１からなる群から選択される配列を含む。いくつかの実施形態において、固体支持体は、フローセルのチャネルである。いくつかの実施形態において、反応表面は、アクリルアミド、Ｎ−（５−ブロモアセトアミジルペンチル）アクリルアミド、テトラメチルエチレンジアミン、および過硫酸カリウムを含む重合混合物から生成され得る官能化ポリアクリルアミドを含む。いくつかの実施形態において、複数の第２のオリゴヌクレオチドの量は、複数の第１のオリゴヌクレオチドの量より少なくとも約１０００倍または１００００倍高く、複数の第２のオリゴヌクレオチドの量および複数の第３のオリゴヌクレオチドの量は、約１対１の比である。いくつかの実施形態において、第１のオリゴヌクレオチドのそれぞれは、固体支持体に約５０ｐＭの濃度で付加される。いくつかの実施形態において、複数の第２のオリゴヌクレオチドおよび複数の第３のオリゴヌクレオチドの濃度は、約５００ｎＭである。いくつかの実施形態において、本発明は、複数の標的ポリヌクレオチドを配列決定する方法を提供し、この方法は、本発明の方法に従い生成された装置を、標的ポリヌクレオチドおよび非標的ポリヌクレオチドを含む試料に曝露することを含み、非標的ゲノム配列と比較して、標的ゲノム配列に対して配列決定データが強化される。いくつかの実施形態において、複数の異なる第１のオリゴヌクレオチドは、配列Ａおよび配列Ｂを含む追加の第１のオリゴヌクレオチドをさらに含み、配列Ｂは、それぞれの異なる追加の第１のオリゴヌクレオチドに対して異なり、それぞれの追加の第１のオリゴヌクレオチドの３′末端にあり、非対象配列を含む配列、または非対象配列の２００ヌクレオチド以内にある配列に相補性である。

一態様において、本発明は、試料中の複数の標的ポリヌクレオチドを配列決定するための方法を提供する。一実施形態において、この方法は、（ａ）断片化ポリヌクレオチドを生成するように、標的ポリヌクレオチドを断片化することと、（ｂ）適合したポリヌクレオチドの両端で相補性配列Ｄ′にハイブリダイズされた配列Ｄを含む、適合したポリヌクレオチドを生成するように、それぞれが配列Ｄを含むアダプターオリゴヌクレオチドを、断片化ポリヌクレオチドに連結することであって、任意に配列Ｄ′が、標的ポリヌクレオチド３′末端の伸長により生成される、連結することと、（ｃ）適合したポリヌクレオチドを、配列Ｃ、配列Ｄ、および試料と関連付けられたバーコードを含む増幅プライマーを使用して増幅することであって、配列Ｄが、増幅プライマーの３′末端に位置付けられる、増幅することと、（ｄ）増幅した標的ポリヌクレオチドを、固体表面に結合した複数の異なる第１のオリゴヌクレオチドにハイブリダイズすることと、（ｅ）固体表面上で架橋増幅を行うことと、（ｆ）ステップ（ｅ）からの複数のポリヌクレオチドを配列決定することと、を含む。固体表面は、本明細書に記載される複数のオリゴヌクレオチドを含んでよく、本明細書に記載され、任意に本明細書に記載される方法に従い生成される装置を含む。いくつかの実施形態において、固体表面は、（ｉ）複数の異なる第１のオリゴヌクレオチドであって、配列Ａおよび配列Ｂを含み、配列Ａが、全ての第１のオリゴヌクレオチドの中で共通であり、さらに配列Ｂが、それぞれの異なる第１のオリゴヌクレオチドに対して異なり、それぞれの第１のオリゴヌクレオチドの３′末端にあり、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、複数の異なる第１のオリゴヌクレオチドと、（ｉｉ）配列Ａをそれぞれの３′末端に含む複数の第２のオリゴヌクレオチドと、（ｉｉｉ）配列Ｃをそれぞれの３′末端に含む複数の第３のオリゴヌクレオチドと、を含む。いくつかの実施形態において、配列Ａ、Ｂ、およびＣは、異なる配列であり、それぞれ５個以上のヌクレオチドを含む。

いくつかの実施形態において、この方法は、ステップ（ｄ）の前に、第２の増幅ステップをさらに含み、増幅したポリヌクレオチドは、ステップ（ｃ）において標的ポリヌクレオチドに付加された１つ以上の配列の少なくとも一部分に相補性である配列を含む３′末端を有する第２の増幅プライマーを使用して増幅される。いくつかの実施形態において、配列Ａ、Ｂ、およびＣは、互いに９０％未満の配列同一性を有する。いくつかの実施形態において、複数の第１のオリゴヌクレオチドは、それぞれが異なる配列Ｂを含む、少なくとも約１００個の異なる第１のオリゴヌクレオチドを含む。いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂは、図４−１〜３に示される配列番号２２〜１２１からなる群から選択される配列を含む。いくつかの実施形態において、それぞれのバーコードは、少なくとも３つのヌクレオチド位置において、２つ以上の試料のプール中のバーコードと１つおきに異なる。いくつかの実施形態において、試料は、４つのヌクレオチド塩基Ａ、Ｇ、Ｃ、およびＴの全てが、プール中のそれぞれのバーコードに沿ってあらゆる位置でほぼ均一に表されるようにプールされる。いくつかの実施形態において、１つ以上のバーコードは、ＡＧＧＴＣＡ、ＣＡＧＣＡＧ、ＡＣＴＧＣＴ、ＴＡＡＣＧＧ、ＧＧＡＴＴＡ、ＡＡＣＣＴＧ、ＧＣＣＧＴＴ、ＣＧＴＴＧＡ、ＧＴＡＡＣＣ、ＣＴＴＡＡＣ、ＴＧＣＴＡＡ、ＧＡＴＣＣＧ、ＣＣＡＧＧＴ、ＴＴＣＡＧＣ、ＡＴＧＡＴＣ、およびＴＣＧＧＡＴからなる群から選択される。いくつかの実施形態において、バーコードは、配列Ｃと配列Ｄとの間に位置する。いくつかの実施形態において、この方法は、標的ポリヌクレオチドが誘導される試料を、バーコード配列に基づいて特定するステップをさらに含む。いくつかの実施形態において、断片化ポリヌクレオチドは、約２００〜約１０００塩基対の長さの中央値を有する。いくつかの実施形態において、ステップ（ｆ）は、（ｉ）バーコードから３′にある位置にハイブリダイズする第１の配列決定プライマーの伸長により配列決定することと、次いで（ｉｉ）バーコードから５′にある位置にハイブリダイズする第２の配列決定プライマーの伸長により配列決定することと、を含む。いくつかの実施形態において、固体支持体は、フローセルのチャネルである。いくつかの実施形態において、ステップ（ｂ）および（ｃ）は、液体ハンドラー（例えば、ＢｉｏｍｅｋＦＸＰ）のような自動システムにより行われる。いくつかの実施形態において、ステップ（ｄ）は、例えば、ｃＢｏｔマシンを備えるシステムのような自動システムにより行われる。いくつかの実施形態において、ステップ（ｄ）を行う自動システムは、ステップ（ｅ）も行う。いくつかの実施形態において、配列決定データは、少なくとも約１００個の異なる標的ポリヌクレオチドに対して生成される。いくつかの実施形態において、ステップ（ｄ）は、単一フローセルにおいて少なくとも約１０μｇのＤＮＡを利用する。いくつかの実施形態において、この方法は、複椎の試料上で並行して行われる。いくつかの実施形態において、ステップ（ｃ）は、複数の試料のそれぞれに対して四重に行われる。いくつかの実施形態において、ＤＮＡの量は、ステップ（ａ）、（ｂ）、および（ｃ）のうちの１つ以上の完了時に測定される。いくつかの実施形態において、ステップ（ａ）、（ｂ）、および（ｃ）のうちの１つ以上は、次のステップで使用されるそのステップの最後に残るＤＮＡの量の最小閾値、例えば、それぞれ１μｇ、０．８μｇ、１３μｇを有する。いくつかの実施形態において、配列決定データは、単一反応において少なくとも約１０^８個の標的配列に対して生成される。いくつかの実施形態において、配列決定データは、単一反応において１試料当たり約１０^７個未満の標的配列に対して生成される。いくつかの実施形態において、１つ以上の原因となる遺伝的変異体の存在または非存在は、少なくとも約９０％の精度で決定される。いくつかの実施形態において、複数の異なる第１のオリゴヌクレオチドは、配列Ａおよび配列Ｂを含む追加の第１のオリゴヌクレオチドをさらに含み、配列Ｂは、それぞれの異なる追加の第１のオリゴヌクレオチドに対して異なり、それぞれの追加の第１のオリゴヌクレオチドの３′末端にあり、非対象配列を含む配列、または非対象配列の２００ヌクレオチド以内にある配列に相補性である。

一態様において、本発明は、試料中の複数の異なる標的ポリヌクレオチドを濃縮する方法を提供する。いくつかの実施形態において、この方法は、（ａ）配列Ｙを含むアダプターオリゴヌクレオチドを、標的ポリヌクレオチドのそれぞれに連結することと、（ｂ）複数の異なるオリゴヌクレオチドプライマーを、適合した標的ポリヌクレオチドにハイブリダイズすることであって、それぞれのオリゴヌクレオチドプライマーが、配列Ｚおよび配列Ｗを含み、配列Ｚが、全てのオリゴヌクレオチドプライマーの中で共通であり、さらに配列Ｗが、それぞれの異なるオリゴヌクレオチドプライマーに対して異なり、それぞれのオリゴヌクレオチドプライマーの３′末端に位置付けられ、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、ハイブリダイズすることと、（ｃ）伸長反応において、配列Ｚおよび配列Ｙ′を含む伸長したプライマーを生成するように、オリゴヌクレオチドプライマーを適合した標的ポリヌクレオチドに沿って伸長することであって、配列Ｙ′が配列Ｙに相補性である、伸長することと、（ｄ）伸長したプライマーを、（ｉ）配列Ｖおよび配列Ｚを含む第１の増幅プライマーであって、配列Ｚが第１の増幅プライマーの３′末端に位置付けられる、第１の増幅プライマー、ならびに（ｉｉ）配列Ｘおよび配列Ｙを含む第２の増幅プライマーであって、配列Ｙが第２の増幅プライマーの３′末端に位置付けられる、第２の増幅プライマーの対を使用して、指数関数的に増幅することと、を含む。いくつかの実施形態において、配列Ｗ、Ｙ、およびＺは、異なる配列であり、それぞれ５個以上のヌクレオチドを含む。それぞれのオリゴヌクレオチドプライマーは、第１の結合パートナーを含んでも含まなくてもよい。いくつかの実施形態において、この方法は、ステップ（ｄ）の前に、伸長したプライマーを、第１の結合パートナーに結合する第２の結合パートナーを含む固体表面に曝露することと、それにより伸長したプライマーを、伸長反応の１つ以上の成分から取り出して精製することと、をさらに含む。いくつかの実施形態において、この方法は、精製ステップを含まない。

いくつかの実施形態において、複数のオリゴヌクレオチドプライマーは、それぞれが異なる配列Ｗを含む、少なくとも約１００個の異なるオリゴヌクレオチドプライマーを含む。いくつかの実施形態において、複数のオリゴヌクレオチドプライマーのうちの１つ以上の配列Ｗは、図４−１〜３に示される配列番号２２〜１２１からなる群から選択される配列を含む。いくつかの実施形態において、標的ポリヌクレオチドは、断片化ポリヌクレオチドを含む。いくつかの実施形態において、断片化ポリヌクレオチドは、約２００〜約１０００塩基対の長さの中央値を有する。いくつかの実施形態において、断片化ポリヌクレオチドは、ステップ（ａ）の前に平滑末端を生成するか、または明確なオーバーハング、例えば、アデニンからなるオーバーハングを有するように処理される。いくつかの実施形態において、第１の結合パートナーおよび第２の結合パートナーは、ストレプトアビジンおよびビオチン等の結合対のメンバーである。いくつかの実施形態において、固体表面は、磁場に反応するビーズ等のビーズである。いくつかの実施形態において、精製ステップは、ビーズを精製するための磁場の印加を含む。いくつかの実施形態において、伸長したプライマーは、標的ポリヌクレオチドから取り出して精製される。いくつかの実施形態において、この方法は、ステップ（ｄ）の生成物を配列決定することをさらに含む。いくつかの実施形態において、配列決定は、二本鎖架橋ポリヌクレオチドを生成するように、ステップ（ｄ）の生成物を、固体支持体に結合した結合オリゴヌクレオチドとの架橋増幅により増幅することと、架橋ポリヌクレオチドの一本鎖を、結合オリゴヌクレオチド中の切断部位で切断することと、固体支持体に結合した標的配列を含む遊離一本鎖ポリヌクレオチドを生成するように、切断された架橋ポリヌクレオチドを変性させることと、ステップ（ａ）、（ｃ）、または（ｄ）のうちの１つ以上の間に付加された１つ以上の配列の少なくとも一部分にハイブリダイズされた配列決定プライマーを伸長することにより、標的配列を配列決定することと、を含む。いくつかの実施形態において、配列決定は、結合テンプレートを生成するように、ステップ（ｄ）の生成物を、固体支持体上の結合プライマーの伸長により増幅することと、配列決定プライマーを結合テンプレートにハイブリダイズすることと、配列決定プライマーを伸長することと、配列決定プライマーの伸長により付加されたヌクレオチドを特定することと、を含む。いくつかの実施形態において、複数の異なるオリゴヌクレオチドプライマーは、配列Ｚおよび配列Ｗを含む追加のオリゴヌクレオチドプライマーをさらに含み、配列Ｗは、それぞれの異なる追加のオリゴヌクレオチドプライマーに対して異なり、それぞれの追加のオリゴヌクレオチドプライマーの３′末端にあり、非対象配列を含む配列、または非対象配列の２００ヌクレオチド以内にある配列に相補性である。

一態様において、本発明は、試料中の複数の異なる標的ポリヌクレオチドを濃縮する方法を提供する。いくつかの実施形態において、この方法は、（ａ）複数の異なるオリゴヌクレオチドプライマーを標的ポリヌクレオチドにハイブリダイズすることであって、それぞれのオリゴヌクレオチドプライマーが、配列Ｚおよび配列Ｗを含み、配列Ｚが、全てのオリゴヌクレオチドプライマーの中で共通であり、さらに配列Ｗが、それぞれの異なるオリゴヌクレオチドプライマーに対して異なり、それぞれのオリゴヌクレオチドプライマーの３′末端に位置付けられ、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、ハイブリダイズすることと、（ｂ）伸長反応において、伸長したプライマーを生成するように、オリゴヌクレオチドプライマーを標的ポリヌクレオチドに沿って伸長することと、（ｃ）アダプターオリゴヌクレオチドをそれぞれの伸長したプライマーに連結することであって、アダプターオリゴヌクレオチドが、配列Ｙ′を含み、さらに配列Ｙ′が、配列Ｙの相補体である、連結することと、（ｄ）伸長したプライマーを、（ｉ）配列Ｖおよび配列Ｚを含む第１の増幅プライマーであって、配列Ｚが第１の増幅プライマーの３′末端に位置付けられる、第１の増幅プライマー、ならびに（ｉｉ）配列Ｘおよび配列Ｙを含む第２の増幅プライマーであって、配列Ｙが第２の増幅プライマーの３′末端に位置付けられる、第２の増幅プライマーの対を使用して、指数関数的に増幅することと、を含む。いくつかの実施形態において、配列Ｗ、Ｙ、およびＺは、異なる配列であり、それぞれ５個以上のヌクレオチドを含む。それぞれのオリゴヌクレオチドプライマーは、第１の結合パートナーを含んでも含まなくてもよい。いくつかの実施形態において、この方法は、ステップ（ｄ）の前に、伸長したプライマーを、第１の結合パートナーに結合する第２の結合パートナーを含む固体表面に曝露して、それにより伸長したプライマーを、伸長反応の１つ以上の成分から取り出して精製することをさらに含む。いくつかの実施形態において、この方法は、精製ステップを含まない。

いくつかの実施形態において、複数のオリゴヌクレオチドプライマーは、それぞれが異なる配列Ｗを含む、少なくとも約１００個の異なるオリゴヌクレオチドプライマーを含む。いくつかの実施形態において、複数のオリゴヌクレオチドプライマーのうちの１つ以上の配列Ｗは、図４−１〜３に示される配列番号２２〜１２１からなる群から選択される配列を含む。いくつかの実施形態において、標的ポリヌクレオチドは、断片化ポリヌクレオチドを含む。いくつかの実施形態において、断片化ポリヌクレオチドは、約２００〜約１０００塩基対の長さの中央値を有する。いくつかの実施形態において、ステップ（ｂ）は、伸長したプライマー、およびそれらがハイブリダイズされる標的ポリヌクレオチドを、平滑末端を生成するか、またはステップ（ｃ）の前に明確なオーバーハング、例えば、アデニンからなるオーバーハングを有するように処理することをさらに含む。いくつかの実施形態において、第１の結合パートナーおよび第２の結合パートナーは、ストレプトアビジンおよびビオチン等の結合対のメンバーである。いくつかの実施形態において、固体表面は、磁場に反応するビーズ等のビーズである。いくつかの実施形態において、精製ステップは、ビーズを精製するように磁場の印加を含む。いくつかの実施形態において、伸長したプライマーは、標的ポリヌクレオチドから取り出して精製される。いくつかの実施形態において、この方法は、ステップ（ｄ）の生成物を配列決定することをさらに含む。いくつかの実施形態において、配列決定は、二本鎖架橋ポリヌクレオチドを生成するように、ステップ（ｄ）の生成物を、固体支持体に結合した結合オリゴヌクレオチドとの架橋増幅により増幅することと、架橋ポリヌクレオチドの一本鎖を、結合オリゴヌクレオチド中の切断部位で切断することと、固体支持体に結合した標的配列を含む遊離一本鎖ポリヌクレオチドを生成するように、切断された架橋ポリヌクレオチドを変性させることと、ステップ（ｂ）、（ｃ）、または（ｄ）のうちの１つ以上の間に付加された１つ以上の配列の少なくとも一部分にハイブリダイズされた配列決定プライマーを伸長することにより、標的配列を配列決定することと、を含む。いくつかの実施形態において、配列決定は、結合テンプレートを生成するように、ステップ（ｄ）の生成物を、固体支持体上の結合プライマーの伸長により増幅することと、配列決定プライマーを結合テンプレートにハイブリダイズすることと、配列決定プライマーを伸長することと、配列決定プライマーの伸長により付加されたヌクレオチドを特定することと、を含む。いくつかの実施形態において、複数の異なるオリゴヌクレオチドプライマーは、配列Ｚおよび配列Ｗを含む追加のオリゴヌクレオチドプライマーをさらに含み、配列Ｗは、それぞれの異なる追加のオリゴヌクレオチドプライマーに対して異なり、それぞれの追加のオリゴヌクレオチドプライマーの３′末端にあり、非対象配列を含む配列、または非対象配列の２００ヌクレオチド以内にある配列に相補性である。

一態様において、本発明は、対象のゲノム中の遺伝的変異を検出する方法を提供する。いくつかの実施形態において、この方法は、（ａ）ポリヌクレオチドの複数のクラスタを提供することであって、（ｉ）それぞれのクラスタが、支持体に結合した核酸二本鎖の複数コピーを含み、（ｉｉ）クラスタ中のそれぞれの二本鎖が、配列Ａ−Ｂ−Ｇ′−Ｄ′−Ｃ′を５′から３′に含む第１の分子と、配列Ｃ−Ｄ−Ｇ−Ｂ′−Ａ′を５′から３′に含む第２の分子と、を含み、（ｉｉｉ）配列Ａ′が、配列Ａに相補性であり、配列Ｂ′が、配列Ｂに相補性であり、配列Ｃ′が、配列Ｃに相補性であり、配列Ｄ′が、配列Ｄに相補性であり、配列Ｇ′が、配列Ｇに相補性であり、（ｉｖ）配列Ｇが、対象からの標的ポリヌクレオチド配列の一部分であり、複数のクラスタのそれぞれに対して異なり、（ｖ）配列Ｂ′が、対応する標的ポリヌクレオチド配列中の配列Ｇに関して５′に位置する、提供することと、（ｂ）それぞれのクラスタに対してＲ１配列を生成するように、配列Ｇ′を、配列Ｄを含む第１のプライマーの伸長により配列決定することと、（ｃ）それぞれのクラスタに対してＲ２配列を生成するように、配列Ｂ′を、配列Ａを含む第２のプライマーの伸長により配列決定することと、（ｄ）全てのＲ１配列を第１の参照配列に整列させるように、第１のアルゴリズムを使用して第１のアラインメントを行うことと、（ｅ）第１の参照配列に関して挿入または欠失を含む可能性が高いとして第１のアラインメントにおいて特定されたＲ１配列を局所的に整列させ、それぞれの挿入または欠失の単一コンセンサスアラインメントを生成するように、第２のアルゴリズムを使用して第２のアラインメントを行うことと、（ｆ）全てのＲ２配列を第２の参照配列に整列させることにより、Ｒ２アラインメントを行うことと、（ｇ）ステップ（ｄ）〜（ｆ）により特定された配列変異を特定するレポートを受信者に伝送することと、を含む。

いくつかの実施形態において、第１の参照配列は、参照ゲノムを含む。いくつかの実施形態において、第２の参照配列は、あらゆる異なる標的ポリヌクレオチドのあらゆる配列Ｂからなる。いくつかの実施形態において、Ｒ２配列は、Ｒ１配列から独立して整列される。いくつかの実施形態において、この方法は、同じクラスタのＲ２配列が整列する第１の参照配列中の第２の位置から１０，０００塩基対を超えて離れた、第１の参照配列中の第１の位置に整列するＲ１配列を破棄することをさらに含む。いくつかの実施形態において、欠失されるＲ１配列の部分が、あるクラスタの配列Ｂ′の少なくとも一部分と同一であり、配列Ｇが、そのクラスタのＲ１配列より短いとき、そのクラスタのＲ１配列の一部分を欠失させることをさらに含む。いくつかの実施形態において、この方法は、欠失されるＲ１配列の一部分が、任意の配列Ｂ′の少なくとも一部分と同一であり、その部分が、Ｒ１の５′もしくは３′ヌクレオチドのいずれかを含み、（ｉ）いかなるＲ２配列も、そのクラスタに対して生成されなかったか、または（ｉｉ）生成されたＲ２配列が、任意の配列Ｂと同一でないかのいずれかであるとき、クラスタのＲ１配列の一部分を欠失させることをさらに含む。いくつかの実施形態において、第１のアルゴリズムを使用するシステムを用いて第１のアラインメントを行うことは、そのシステムが第２のアルゴリズムを使用して第１のアラインメントを行う場合にかかる、および／または使用されるより少ない時間で、および／または少ないシステムメモリを使用して全てのＲ１読み取り値を整列させる。いくつかの実施形態において、第１のアルゴリズムは、バローズ−ホイーラー変換に基づく。いくつかの実施形態において、第２のアルゴリズムは、スミス−ウォーターマンアルゴリズムまたはハッシュ関数に基づく。いくつかの実施形態において、Ｒ１およびＲ２配列は、少なくとも１００個の異なる標的ポリヌクレオチドに対して生成される。いくつかの実施形態において、配列Ａ、Ｂ、Ｃ、およびＤは、少なくとも５個のヌクレオチド長である。いくつかの実施形態において、あらゆるクラスタの配列Ｇは、１〜１０００ヌクレオチド長である。いくつかの実施形態において、複数のクラスタのそれぞれのプローブ配列Ｂは、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である。いくつかの実施形態において、クラスタのうちの１つ以上の配列Ｂは、配列番号２２〜１２１からなる群から選択される配列を含む。いくつかの実施形態において、Ｒ１配列は、単一反応において少なくとも約１０^８個のクラスタに対して生成される。いくつかの実施形態において、１つ以上の原因となる遺伝的変異体の存在、非存在、または対立遺伝子比は、少なくとも約９０％の精度で決定される。いくつかの実施形態において、コンセンサス配列は、標的ポリヌクレオチド中の挿入、欠失、または挿入および欠失を、少なくとも約９０％の精度で特定する。いくつかの実施形態において、複数のクラスタのそれぞれのプローブ配列Ｂは、非対象配列、または非対象配列の２００ヌクレオチド以内にある配列に相補性である。いくつかの実施形態において、１つ以上の非対象配列の存在または非存在は、少なくとも約９０％の精度で決定される。いくつかの実施形態において、この方法は、対象のＲ１配列に基づいて複数の確率を計算することと、それらの確率をレポートに含めることと、をさらに含み、それぞれの確率は、対象または対象の子孫が疾患または形質を有するか、または発症する確率である。

いくつかの実施形態において、それぞれの第１の分子は、バーコード配列を含む。いくつかの実施形態において、それぞれのバーコードは、並行して分析される複数の異なるバーコード中のバーコードと１つおきに異なる。いくつかの実施形態において、バーコード配列は、単一反応において配列決定された試料のプール中の単一試料と関連付けられる。いくつかの実施形態において、複数のバーコード配列のそれぞれは、単一反応において配列決定された試料のプール中の単一試料と一意に関連付けられる。いくつかの実施形態において、バーコード配列は、配列Ｄ′から５′に位置する。いくつかの実施形態において、この方法は、第３のプライマーを配列Ｃ′にハイブリダイズすることと、それぞれのクラスタに対してバーコード配列を生成するように、バーコード配列を、第３のプライマーの伸長により配列決定することと、をさらに含む。いくつかの実施形態において、この方法は、バーコード配列に基づいて、クラスタから配列を分類することをさらに含む。いくつかの実施形態において、この方法は、バーコード配列分類内で同じ配列およびアラインメントを有する複数のＲ１配列を、そのうちの１つを除いて全てを破棄することをさらに含む。

一態様において、本発明は、対象のゲノム中の遺伝的変異を検出する方法を提供する。いくつかの実施形態において、この方法は、（ａ）ポリヌクレオチドの複数のクラスタに配列決定データを提供することであって、（ｉ）それぞれのクラスタが、支持体に結合した核酸二本鎖の複数コピーを含み、（ｉｉ）クラスタ中のそれぞれの二本鎖が、配列Ａ−Ｂ−Ｇ′−Ｄ′−Ｃ′を５′から３′に含む第１の分子と、配列Ｃ−Ｄ−Ｇ−Ｂ′−Ａ′を５′から３′に含む第２の分子と、を含み、（ｉｉｉ）配列Ａ′が、配列Ａに相補性であり、配列Ｂ′が、配列Ｂに相補性であり、配列Ｃ′が、配列Ｃに相補性であり、配列Ｄ′が、配列Ｄに相補性であり、配列Ｇ′が、配列Ｇに相補性であり、（ｉｖ）配列Ｇが、対象からの標的ポリヌクレオチド配列の一部分であり、複数のクラスタのそれぞれに対して異なり、（ｖ）配列Ｂ′が、対応する標的ポリヌクレオチド配列中の配列Ｇに関して５′に位置し、（ｖｉｉｉ）配列決定データが、配列Ｄを含む第１のプライマーの伸長により生成されたＲ１配列を含み、（ｖｉ）配列決定データが、配列Ａを含む第２のプライマーの伸長により生成されたＲ２配列を含む、提供することと、（ｂ）全てのＲ１配列を第１の参照配列に整列させるように、第１のアルゴリズムを使用して第１のアラインメントを行うことと、（ｃ）第１の参照配列に関して挿入または欠失を含む可能性が高いとして、該第１のアラインメントにおいて特定されたＲ１配列を局所的に整列させ、それぞれの挿入または欠失の単一コンセンサスアラインメントを生成するように、第２のアルゴリズムを使用して第２のアラインメントを行うことと、（ｄ）全てのＲ２配列を第２の参照配列に整列させることにより、Ｒ２アラインメントを行うことと、（ｅ）ステップ（ｂ）〜（ｄ）により特定された配列変異を特定するレポートを受信者に伝送することと、を含む。

いくつかの実施形態において、第１の参照配列は、参照ゲノムを含む。いくつかの実施形態において、第２の参照配列は、あらゆる異なる標的ポリヌクレオチドのあらゆる配列Ｂからなる。いくつかの実施形態において、Ｒ２配列は、Ｒ１配列から独立して整列される。いくつかの実施形態において、この方法は、１０，０００より多くの塩基対である第１の参照配列中の第１の位置に整列するＲ１配列を、同じクラスタのＲ２配列が整列する第１の参照配列中の第２の位置から破棄することをさらに含む。いくつかの実施形態において、この方法は、欠失されるＲ１配列の一部分が、あるクラスタの配列Ｂ′の少なくとも一部分と同一であり、配列Ｇが、そのクラスタのＲ１配列より短いとき、そのクラスタのＲ１配列の一部分を欠失させることをさらに含む。いくつかの実施形態において、この方法は、欠失されるＲ１配列の一部分が、任意の配列Ｂ′の少なくとも一部分と同一であり、その部分が、Ｒ１の５′もしくは３′ヌクレオチドのいずれかを含み、（ｉ）いかなるＲ２配列も、クラスタに対して生成されなかったか、または（ｉｉ）生成されたＲ２配列が、任意の配列Ｂと同一でないかのいずれかであるとき、クラスタのＲ１配列の一部分を欠失させることをさらに含む。いくつかの実施形態において、第１のアルゴリズムを使用するシステムを用いて第１のアラインメントを行うことは、そのシステムが第２のアルゴリズムを使用して第１のアラインメントを行う場合にかかる、および／または使用されるより少ない時間で、および／または少ないシステムメモリを使用して全てのＲ１読み取り値を整列させる。いくつかの実施形態において、第１のアルゴリズムは、バローズ−ホイーラー変換に基づく。いくつかの実施形態において、第２のアルゴリズムは、スミス−ウォーターマンアルゴリズムまたはハッシュ関数に基づく。いくつかの実施形態において、配列決定データは、少なくとも１００個の異なる標的ポリヌクレオチドのＲ１およびＲ２配列を含む。いくつかの実施形態において、配列Ａ、Ｂ、Ｃ、およびＤは、少なくとも５個のヌクレオチド長である。いくつかの実施形態において、あらゆるクラスタの配列Ｇは、１〜１０００ヌクレオチド長である。いくつかの実施形態において、複数のクラスタのそれぞれのプローブ配列Ｂは、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である。いくつかの実施形態において、クラスタのうちの１つ以上の配列Ｂは、配列番号２２〜１２１からなる群から選択される配列を含む。いくつかの実施形態において、配列決定データは、単一反応からの少なくとも約１０^８個のＲ１配列を含む。いくつかの実施形態において、１つ以上の原因となる遺伝的変異体の存在、非存在、または対立遺伝子比は、少なくとも約９０％の精度で決定される。いくつかの実施形態において、コンセンサス配列は、標的ポリヌクレオチド中の挿入、欠失、または挿入および欠失を、少なくとも約９０％の精度で特定する。いくつかの実施形態において、複数のクラスタのそれぞれのプローブ配列Ｂは、非対象配列を含む配列、または非対象配列の２００ヌクレオチド以内にある配列に相補性である。いくつかの実施形態において、１つ以上の非対象配列の存在または非存在は、少なくとも約９０％の精度で決定される。いくつかの実施形態において、この方法は、Ｒ１配列に基づいて複数の確率を計算することと、それらの確率をレポートに含めることと、をさらに含み、それぞれの確率は、対象または対象の子孫が疾患または形質を有するか、または発症する確率である。

いくつかの実施形態において、それぞれの第１の分子は、バーコード配列を含む。いくつかの実施形態において、それぞれのバーコードは、並行して分析された複数の異なるバーコード中のバーコードと１つおきに異なる。いくつかの実施形態において、バーコード配列は、単一反応において配列決定された試料のプール中の単一試料と関連付けられ、配列決定データに表される。いくつかの実施形態において、複数のバーコード配列のそれぞれは、単一反応において配列決定された試料のプール中の単一試料と一意に関連付けられる。いくつかの実施形態において、バーコード配列は、配列Ｄ′から５′に位置する。いくつかの実施形態において、配列決定データは、配列Ｃを含む第３のプライマーの伸長により生成されたそれぞれのクラスタのバーコード配列をさらに含む。いくつかの実施形態において、この方法は、バーコード配列に基づいて、クラスタからの配列を分類することをさらに含む。いくつかの実施形態において、この方法は、バーコード配列分類内で同じ配列およびアラインメントを有する複数のＲ１配列を、そのうちの１つを除く全てを破棄することをさらに含む。

参照による組み込み
本明細書において言及する全ての刊行物、特許、および特許出願は、それぞれ個別の刊行物、特許、または特許出願が、参照により組み込まれることが具体的かつ個別に示されたのと同じ程度で参照により本明細書に組み込まれる。

本発明の新規特徴が、添付の特許請求の範囲において詳細に説明される。本発明の特徴および利点に関するより良い理解は、本発明の原理が利用される例証の実施形態を説明する以下の詳細な説明、および添付の図面を参照することにより得られる。

結合したオリゴヌクレオチドを含む例示の固体支持体の一部分、および標的ポリヌクレオチドを増幅する例示の架橋増幅プロセスの第１のステップを示す。本発明の実施形態に従う例示の捕捉および増幅プロセスを示す。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の原因となる遺伝的変異体の表を提供する。例示の特定標的配列に相補性である例示の配列の表を提供する。例示の特定標的配列に相補性である例示の配列の表を提供する。例示の特定標的配列に相補性である例示の配列の表を提供する。本発明の実施形態に従う例示の増幅プロセスを示す。標的増幅、架橋増幅、および配列決定の例示のプロセスを示す。本発明の実施形態に従う例示の増幅プロセスを示す。本発明の方法において有用なコンピューターシステムの非限定的な例を示す。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。異なる集団を区別する多数のＡＩＭを提供する。これらのエントリーは、ｄｂＳＮＰデータベース、すなわち米国政府により維持される遺伝的変異体のデータベース：ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ＳＮＰ／における項目を指す。ｄｂＳＮＰ中の精選された記録は、遺伝的変異体の配列および位置を説明する情報を含み、また、得ることができる場合には、異なる集団におけるそのような変異体の対立遺伝子の頻度を含む。ｒｓ番号（例えば、ｒｓ３３２、ｒｓ２５等）は、ｄｂＳＮＰデータベースの一部分にインデックスを付けるために使用されるＩＤ番号である。配列決定データを整列させるための例示のデータ処理プロセスを示す。配列決定データを使用してアラインメントを生成するための例示のプロセスを示す。図１２Ａおよび１２Ｂは、例示のアラインメントプロセスにおけるｆｉｘ＿ａｌｉｇｎステップの前および後のアラインメントを示す。図１３Ａおよび１３Ｂは、例示の局所アラインメントステップの前および後のアラインメントを示す。ユーザーが、希な遺伝的疾患の保因者である確率を配信する例示のプロセスを説明する。ユーザーが、希な遺伝的疾患の保因者である確率を配信する例示のプロセスを説明する。ユーザーが、希な遺伝的疾患の保因者である確率を配信する例示のプロセスを説明する。ユーザーが、希な遺伝的疾患の保因者である確率を配信する例示のプロセスを説明する。２人の仮想の親：母親Ｈｅｎ（ＪａｎｅＤｏｅ）および父親Ｈｅｎ（ＪｏｈｎＤｏｅ）に対するレポート作成のための例示の入出力ステップを示す。試料プローブ設計プロセスのステップにおいて考慮される配列領域の位置的関係を示す。

「ポリヌクレオチド」、「ヌクレオチド」、「ヌクレオチド配列」、「核酸」、および「オリゴヌクレオチド」という用語は、同義に使用される。それらは、任意の長さのヌクレオチドのポリマー形態、デオキシリボヌクレオチドもしくはリボヌクレオチドのいずれか、またはそれらの類似体を指す。ポリヌクレオチドは、任意の３次元構造を有することができ、既知または未知の任意の機能を行うことができる。以下は、ポリヌクレオチドの非限定的な例である：遺伝子または遺伝子断片のコードまたは非コード領域、遺伝子間ＤＮＡ、連鎖分析から定義される遺伝子座（複数可）、エクソン、イントロン、メッセンジャーＲＮＡ（ｍＲＮＡ）、転移ＲＮＡ、リボソームＲＮＡ、短干渉ＲＮＡ（ｓｉＲＮＡ）、短ヘアピンＲＮＡ（ｓｈＲＮＡ）、マイクロＲＮＡ（ｍｉＲＮＡ）、小核小体ＲＮＡ、リボザイム、ｃＤＮＡ、組み換えポリヌクレオチド、分岐ポリヌクレオチド、プラスミド、ベクター、任意の配列の単離ＤＮＡ、任意の配列の単離ＲＮＡ、核酸プローブ、アダプター、およびプライマー。ポリヌクレオチドは、修飾ヌクレオチド、例えば、メチル化ヌクレオチドおよびヌクレオチド類似体を含み得る。存在する場合、ヌクレオチド構造への修飾は、ポリマーの組み立ての前または後に付与され得る。ヌクレオチドの配列は、非ヌクレオチドオチド成分により中断され得る。ポリヌクレオチドは、重合後、例えば、標識成分、タグ、反応部分、または結合パートナーとの共役によりさらに修飾され得る。ポリヌクレオチド配列は、提供されるとき、特に明記しない限り５′から３′の方向で列挙される。

本明細書において使用される場合、「標的ポリヌクレオチド」という用語は、本発明の１つ以上のオリゴヌクレオチドがハイブリダイズするように設計される標的配列を有する核酸分子の集団中の核酸分子またはポリヌクレオチドを指す。いくつかの実施形態において、標的配列は、試料から誘導された配列、例えば、特定のゲノム、ミトコンドリア、細菌、ウイルス、またはＲＮＡ（例えば、ｍＲＮＡ、ｍｉＲＮＡ、一次ｍｉＲＮＡ、またはプレｍｉＲＮＡ）配列を一意に特定する。いくつかの実施形態において、標的配列は、例えば、複数の異なる標的ポリヌクレオチドにより共有される共通の配列、例えば、異なる標的ポリヌクレオチドに連結された共通のアダプター配列である。「標的ポリヌクレオチド」は、一方もしくは両方の鎖上に標的配列を含む二本鎖核酸分子、または標的配列を含む一本鎖核酸分子を指すように使用され得、核酸分子の任意の供給源、またはそれを単離もしくは生成するためのプロセスから誘導され得る。標的ポリヌクレオチドは、１つ以上（例えば、１、２、３、４、５、６、７、８、９、１０、またはそれより多く）の標的配列を含んでよく、それらは同じであっても異なってもよい。一般に、異なる標的ポリヌクレオチドは、異なる配列、例えば、１つ以上の異なるヌクレオチドまたは１つ以上の異なる標的配列を含む。

「ハイブリダイゼーション」および「アニーリング」は、１つ以上のポリヌクレオチドが反応して、ヌクレオチド残基の塩基間の水素結合を介して安定化される複合体を形成する反応を指す。水素結合は、ワトソンクリック塩基対合、フーグスティーン結合によるか、または任意の他の配列特異的方法において起こり得る。この複合体は、二本鎖構造を形成する２つの鎖、多鎖複合体を形成する３つ以上の鎖、単一自己ハイブリダイジング鎖、またはこれらの任意の組み合わせを含んでよい。ハイブリダイゼーション反応は、より広範囲のプロセスにおけるステップ、例えば、ＰＣＲの開始、またはリボザイムによるポリヌクレオチドの酵素切断を構成することができる。第２の配列のヌクレオチド残基の塩基との水素結合を介して安定化され得る１の配列は、第２の配列に「ハイブリダイズ可能」であると言われる。そのような場合、第２の配列が、第１の配列にハイブリダイズ可能であると言うこともできる。

一般に、所与の配列の「相補体」は、所与の配列に完全に相補性であり、ハイブリダイズ可能な配列である。一般に、第２の配列または第２の配列の群にハイブリダイズ可能な第１の配列は、第２の配列または第２の配列の群に特異的または選択的にハイブリダイズ可能であり、第２の配列または第２の配列の群へのハイブリダイゼーションが、ハイブリダイゼーション反応中、非標的配列とのハイブリダイゼーションよりも好ましいようにする（例えば、当該技術分野において一般に使用される厳しい条件のような所与の条件群の下で熱力学的により安定である）。典型的に、ハイブリダイズ可能な配列は、それらそれぞれの長さの全部または一部分にわたってある程度の配列相補性、例えば、２５％〜１００％の相補性（少なくとも約２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、および１００％の配列相補性を含む）を共有する。

ポリヌクレオチドに適用される「ハイブリダイズされた」という用語は、ヌクレオチド残基の塩基間の水素結合を介して安定化された複合中のポリヌクレオチドを指す。水素結合は、ワトソンクリック塩基対合、フーグスティーン結合、または任意の他の配列特異的方法により起こり得る。複合体は、二本鎖構造を形成する２つの鎖、多鎖複合体を形成する３つ以上の鎖、単一自己ハイブリダイジング鎖、またはこれらの任意の組み合わせを含んでよい。ハイブリダイゼーション反応は、より広範囲のプロセスにおけるステップ、例えば、ＰＣＲの開始、ライゲーション反応、配列決定反応、または切断反応を構成することができる。

本発明の実施は、別段の指示が無い限り、当該技術分野の技術の範囲内である、免疫学、生化学、化学、分子生物学、微生物学、細胞生物学、ゲノムおよび組み換えＤＮＡの従来技術を用いる。例えば、Ｓａｍｂｒｏｏｋ，ＦｒｉｔｓｃｈａｎｄＭａｎｉａｔｉｓ，ＭＯＬＥＣＵＬＡＲＣＬＯＮＩＮＧ：ＡＬＡＢＯＲＡＴＯＲＹＭＡＮＵＡＬ，２ｎｄｅｄｉｔｉｏｎ（１９８９）、ＣＵＲＲＥＮＴＰＲＯＴＯＣＯＬＳＩＮＭＯＬＥＣＵＬＡＲＢＩＯＬＯＧＹ（Ｆ．Ｍ．Ａｕｓｕｂｅｌ，ｅｔａｌ．ｅｄｓ．，（１９８７））、シリーズＭＥＴＨＯＤＳＩＮＥＮＺＹＭＯＬＯＧＹ（ＡｃａｄｅｍｉｃＰｒｅｓｓ，Ｉｎｃ．）：ＰＣＲ２：ＡＰＲＡＣＴＩＣＡＬＡＰＰＲＯＡＣＨ（Ｍ．Ｊ．ＭａｃＰｈｅｒｓｏｎ，Ｂ．Ｄ．ＨａｍｅｓａｎｄＧ．Ｒ．Ｔａｙｌｏｒｅｄｓ．（１９９５）），ＨａｒｌｏｗａｎｄＬａｎｅ，ｅｄｓ．（１９８８）ＡＮＴＩＢＯＤＩＥＳ，ＡＬＡＢＯＲＡＴＯＲＹＭＡＮＵＡＬ，ａｎｄＡＮＩＭＡＬＣＥＬＬＣＵＬＴＵＲＥ（Ｒ．Ｉ．Ｆｒｅｓｈｎｅｙ，ｅｄ．（１９８７））を参照されたい。

一態様において、本発明は、複数の標的ポリヌクレオチドを配列決定するための装置を生成する方法を提供する。一実施形態において、この方法は、（ａ）反応表面を有する固体支持体を提供することと、（ｂ）複数のオリゴヌクレオチドを固体支持体に結合することと、を含む。いくつかの実施形態において、複数のオリゴヌクレオチドは、（ｉ）複数の異なる第１のオリゴヌクレオチドであって、配列Ａおよび配列Ｂを含み、配列Ａが、全ての第１のオリゴヌクレオチドの中で共通であり、さらに配列Ｂが、それぞれの異なる第１のオリゴヌクレオチドに対して異なり、それぞれの第１のオリゴヌクレオチドの３′末端にあり、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、第１のオリゴヌクレオチドと、（ｉｉ）配列Ａをそれぞれの３′末端に含む複数の第２のオリゴヌクレオチドと、（ｉｉｉ）複数の異なる標的ポリヌクレオチドにより共有される配列と同じである、配列Ｃを３′末端に含む複数の第３のオリゴヌクレオチドと、を含む。いくつかの実施形態において、配列Ａ、Ｂ、およびＣのうちの１つ以上は、異なる配列である。いくつかの実施形態において、配列Ａ、Ｂ、およびＣのうちの１つ以上は、配列Ａ、Ｂ、およびＣのその他のうちの１つ以上とは約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、もしくはそれより多いか、それ未満、またはそれ以上異なる（例えば、約１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、またはそれより高い配列同一性未満の配列同一性を有する）。いくつかの実施形態において、配列Ａ、Ｂ、およびＣのうちの１つ以上は、それぞれ約１、２、３、４、５、６、７、８、９、１０、１５、２０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチドを含む。

様々な好適な固体支持体材料は、当該技術分野において既知である。固体支持体材料の非限定的な例としては、ガラス、溶融シリカ、および他のシリカ含有材料のようなシリカ系基質；ポリエチレン、ポリスチレン、ポリ（塩化ビニル）、ポリプロピレン、ナイロン、ポリエステル、ポリカーボネート、ポリ（メチルメタクリレート）、および環状オレフィンポリマー基質のようなシリコン水素化物またはプラスチック材料；および金、二酸化チタン、またはケイ素支持体のような他の固体支持体が挙げられる。固体支持体材料は、任意の好適な形態で提供され得、ビーズ、ナノ粒子、ナノ結晶、ファイバー、マイクロファイバー、ナノファイバー、ナノワイヤー、ナノチューブ、マット、平板、平板ウエハーまたはスライド、多ウェルプレート、光学スライド、フローセル、およびチャネルが挙げられるが、これらに限定されない。固体支持体は、１つ以上の追加構造、例えば、チャネル、マイクロ流体チャネル、毛細管、およびウェルをさらに含むことができる。いくつかの実施形態において、固体支持体は、フローセルのチャネルである。

分子（例えば、核酸）の固体支持体への固定または結合について言及するとき、「固定した」および「結合した」という用語は、本明細書において同義に使用され、両方の用語は、別段の指示が無い限り、直接または間接、共有または非共有結合を包含することが意図される。本発明のいくつかの実施形態において、共有結合が好まれ得るが、一般に、唯一必要なことは、分子（例えば、核酸）が、支持体を使用することが意図される条件の下、例えば、核酸増幅および／または配列決定の適用において、支持体に固定または結合したままであることである。

いくつかの実施形態において、固体支持体材料は、指定条件の下、分子（例えば、オリゴヌクレオチドまたは修飾オリゴヌクレオチド）が、固体支持体の表面に直接結合され得るように、反応性の材料を含む。いくつかの実施形態において、固体支持体材料は、例えば、ポリヌクレオチド等の生分子への結合（例えば、共有結合）を許容する、反応基を含む中間材料の層またはコーティングの適用により、「官能化」された不活性基質またはマトリックス（例えば、ガラススライド、ポリマービーズ、または他の固体支持体材料）を含む。そのような支持体の例としては、ガラスのような不活性基質上に支持されるポリアクリルアミドハイドロゲルが挙げられるが、これに限定されない。そのような実施形態において、生体分子（例えば、オリゴヌクレオチド）は、中間材料（例えば、ヒドロゲル）に直接共有結合され得るが、この中間材料は、それ自体が基質またはマトリックス（例えば、ガラス基質）に非共有結合されてもよい。

反応表面の非限定的な例としては、タンパク質の表面上への物理吸着によるビオチン基の安定した結合を形成するためのビオチン化アルブミン（ＢＳＡ）の使用を含む。共有結合修飾は、分子を固体支持体に、通常はガラススライドに結合するために使用されている、シランを使用して行うことができる。例として、テトラエトキシシランおよびトリエトキシ−ブロモアセトアミドプロピル−シランの混合物（例えば、１：１００の比）を使用して、チオリン酸塩またはホスホロチオエート官能性を含む核酸の結合を許容する官能化ガラススライドを調製することができる。ビオチン分子は、アミノ表面と反応するビオチン−ＰＥＧ−スクシンイミジルエステル等の適切な反応種を使用して表面に結合され得る。

いくつかの実施形態において、固体支持体に結合されるオリゴヌクレオチドは、反応部分を含む。一般に、反応部分は、反応表面と反応することにより、固体支持体への結合を促進する任意の部分を含む。いくつかの実施形態において、官能化ポリアクリルアミドヒドロゲルは、反応部分を含む複数のオリゴヌクレオチドに結合するために使用され、この反応部分は、硫黄含有求核基である。適切な硫黄求核基含有ポリヌクレオチドの例は、Ｚｈａｏら（ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，２００１，２９（４），９５５〜９５９）およびＰｉｒｒｕｎｇら（Ｌａｎｇｍｕｉｒ，２０００，１６，２１８５〜２１９１）に開示され、例えば、単純チオール、チオリン酸塩、およびチオホスホルアミダートが挙げられる。好ましいヒドロゲルは、（ｉ）アクリルアミド、メタクリルアミド、ヒドロキシエチルメタクリレート、またはＮ−ビニルピロリジノンである、第１のコモノマーと、（ｉｉ）Ｎ−（５−ブロモアセトアミジルペンチル）アクリルアミド、テトラメチルエチレンジアミンのような官能化アクリルアミドまたはアクリレートである、第２のコモノマーとの混合物から形成されるものである。いくつかの実施形態において、官能化ポリアクリルアミドを含む反応表面は、アクリルアミド、Ｎ−（５−ブロモアセトアミジルペンチル）アクリルアミド、テトラメチルエチレンジアミン、および渦硫酸カリウムを含む重合混合物から生成される。支持体材料および反応表面のさらなる非限定的な例は、米国公開第２０１２００５３０７４号および国際公開第２００５０６５８１４号により提供され、参照によりそれら全体が本明細書に組み込まれる。

固体支持体が、結合のために曝露されるオリゴヌクレオチドは、任意の好適な長さであり得、１つ以上の配列要素を含み得る。配列要素の例としては、１つ以上の増幅プライマーアニーリング配列またはその相補体、１つ以上の配列決定プライマーアニーリング配列またはその相補体、複数の異なるオリゴヌクレオチドまたは異なるオリゴヌクレオチドのサブセットの中で共有される１つ以上の共通配列、１つ以上の制限酵素認識部位、１つ以上の標的ポリヌクレオチド配列に相補性の１つ以上の標的認識配列、１つ以上のランダムまたはニアランダム配列（例えば、１つ以上の位置にある２つ以上の異なるヌクレオチドの群からランダムに選択される１つ以上のヌクレオチド、異なるヌクレオチドのそれぞれは、そのランダム配列を含むオリゴヌクレオチドのプール中に表される１つ以上の位置で選択される）、１つ以上のスペーサー、およびこれらの組み合わせが挙げられるが、これらに限定されない。２つ以上の配列要素は、互いに非隣接であり得るか（例えば、１つ以上のヌクレオチドにより分離される）、互いに隣接し得るか、部分的に重なり得るか、または完全に重なり得る。例えば、増幅プライマーアニーリング配列は、配列決定プライマーアニーリング配列としても機能し得る。配列要素は、オリゴヌクレオチドの３′末端もしくはその付近、５′末端もしくはその付近、またはその内部に位置し得る。一般に、本明細書において使用される場合、「３′末端に」位置する配列要素は、オリゴヌクレオチドの最も３′側のヌクレオチドを含み、「５′末端に」位置する配列要素は、オリゴヌクレオチドの最も５′側のヌクレオチドを含む。いくつかの実施形態において、配列要素は、約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、３５、４０、５０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド長である。いくつかの実施形態において、オリゴヌクレオチドは、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド長である。

スペーサーは、反復した単一ヌクレオチド（例えば、一列に１、２、３、４、５、６、７、８、９、１０、もしくはそれより多くの同じヌクレオチド）、または１、２、３、４、５、６、７、８、９、１０、もしくはそれより多くの回数反復される２、３、４、５、６、７、８、９、１０、もしくはそれより多くのヌクレオチドの配列からなり得る。スペーサーは、試料中の任意の標的配列にハイブリダイズしない配列のような特定配列を含むか、またはそれからなり得る。スペーサーは、ランダムに選択されたヌクレオチドの配列を含むか、またはそれからなり得る。

いくつかの実施形態において、それぞれが全ての第１のオリゴヌクレオチドの中で共通である配列Ａと、それぞれの異なる第１のオリゴヌクレオチドに対して異なる配列Ｂとを含む、複数の異なる第１のオリゴヌクレオチドは、固体支持体に結合される。いくつかの実施形態において、それぞれの第１のオリゴヌクレオチドの配列Ｂは、異なる標的配列に相補性である。いくつかの実施形態において、複数の第１のオリゴヌクレオチドは、それぞれが異なる配列Ｂを含む、約５、１０、２５、５０、７５、１００、１２５、１５０、１７５、２００、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、またはそれより多いか、それ未満、またはそれ以上の異なる第１のオリゴヌクレオチドを含む。いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂは、図４−１〜３に示される配列番号２２〜１２１からなる群から選択される配列を含む（例えば、それぞれが図４−１〜３からの異なる配列を持つ１、５、１０、２５、５０、７５、または１００の異なるオリゴヌクレオチド）。いくつかの実施形態において、配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、原因となる遺伝的変異体を含む。いくつかの実施形態において、配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、原因となる遺伝的変異体の約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。原因となる遺伝的変異体は、典型的に、第１のオリゴヌクレオチドの下流に位置し、原因となる遺伝的変異体の少なくとも一部分が、第１のオリゴヌクレオチドの伸長のためのテンプレートとなるようにする。一般に、原因となる遺伝的変異体は、疾患または形質との関連の統計的、生物学的、および／または機能的証明が存在する遺伝的変異体である。単一原因となる遺伝的変異体を、複数の疾患または形質と関連付けることができる。いくつかの実施形態において、原因となる遺伝的変異体を、メンデル形質、非メンデル形質、または両方と関連付けることができる。原因となる遺伝的変異体は、１、２、３、４、５、６、７、８、９、１０、２０、５０、またはそれより多くの配列差といったポリヌクレオチド中（例えば、原因となる遺伝的変異体を含むポリヌクレオチドと、同じ相対ゲノム位置において原因となる遺伝的変異体を欠失するポリヌクレオチドとの間）の変化として呈し得る。原因となる遺伝的変異体の種類の非限定的な例としては、単一ヌクレオチド多型（ＳＮＰ）、欠失／挿入多型（ＤＩＰ）、コピー数変異体（ＣＮＶ）、短縦列反復（ＳＴＲ）、制限断片長多型（ＲＦＬＰ）、単純配列反復（ＳＳＲ）、可変数の縦列反復（ＶＮＴＲ）、ランダム増幅多型ＤＮＡ（ＲＡＰＤ）、増幅断片長多型（ＡＦＬＰ）、レトロトランスポゾン間増幅多型（ＩＲＡＰ）、長短散在要素（ＬＩＮＥ／ＳＩＮＥ）、長縦列反復（ＬＴＲ）、可動要素、レトロトランスポゾンマイクロサテライト増幅多型、レトロトランスポゾン系挿入多型、配列特異的増幅多型、および遺伝性後成的修飾（例えば、ＤＮＡメチル化）が挙げられる。原因となる遺伝的変異体は、密接に関連する原因となる遺伝的変異体の群であってもよい。いくつかの原因となる遺伝的変異体は、ＲＮＡポリヌクレオチドの配列変異として影響を及ぼし得る。このレベルで、いくつかの原因となる遺伝的変異体は、ある種のＲＮＡポリヌクレオチドの存在または非存在によっても示される。またいくつかの原因となる遺伝的変異体は、タンパク質ポリペプチドの配列変異をもたらす。多数の原因となる遺伝的変異体が、当該技術分野において既知である。ＳＮＰである原因となる遺伝的変異体の一例は、鎌状赤血球貧血を引き起こすヘモグロビンのＨｂＳ変異体である。ＤＩＰである原因となる遺伝的変異体の一例は、嚢胞性線維症を引き起こすＣＦＴＲ遺伝子のδ５０８突然変異である。ＣＮＶである原因となる遺伝的変異体の一例は、ダウン症候群を引き起こすトリソミー２１である。ＳＴＲである原因となる遺伝的変異体の一例は、ハンチントン病を引き起こす縦列反復である。図３−１〜３８は、原因となる遺伝的変異体および関連疾患の非限定的な例の表を提供する。原因となる遺伝的変異体の非限定的な例は、米国公開第２０１０００２２４０６号にも説明され、参照によりその全体が本明細書に組み込まれる。

原因となる遺伝的変異体は本来、個体、族、および集団の遺伝子型および表現型の統計的および分子遺伝学的分析により発見され得る。メンデル形質の原因となる遺伝的変異体は、典型的に２段階プロセスで特定される。第１段階において、複数の個体がその形質を有する族が、遺伝子型および表現型について審査される。これらの族から得た遺伝子型および表現型データを使用して、メンデル形質の存在と多数の遺伝子マーカーの存在との間の統計的関連を確立する。この関連は、原因となる遺伝的変異体がマップする可能性が高い候補領域を確立する。第２段階において、原因となる遺伝的変異体自体が特定される。第２のステップは、典型的に、候補領域を配列決定することを含む。より洗練された１段階プロセスが、原因となる遺伝的変異体の直接特定、またはより小さな候補領域の特定を許容する、より進んだ技術を用いて可能である。ある形質に対して１つの原因となる遺伝的変異体が発見された後、同じ形質の追加の変異体が、単純な方法により発見され得る。例えば、形質と関連付けられる遺伝子は、その形質またはそれらの相対物を有する個体において配列決定され得る。原因となる遺伝的変異体を発見するための新たな方法の発明は、活発な研究分野である。既存の方法の適用および新たな方法の組み込みは、本明細書に記載のデバイス、システム、および方法により使用または試験され得る追加の原因となる遺伝的変異体の発見をもたらし続けることが期待される。多くの原因となる遺伝的変異体は、オンライン版人間のメンデルの遺伝（ＯｎｌｉｎｅＭｅｎｄｅｌｉａｎＩｎｈｅｒｉｔａｎｃｅｉｎＭａｎ（ＯＭＩＭ））およびヒト遺伝子変異データベース（ＨｕｍａｎＧｅｎｅＭｕｔａｔｉｏｎＤａｔａｂａｓｅ（ＨＧＭＤ））を含むデータベースにおいて目録化される。原因となる遺伝的変異体は、学術文献、カンファレンス、および学者間の私的通信においても報告されている。

原因となる遺伝的変異体は、特定の集団内に任意の頻度で存在し得る。いくつかの実施形態において、原因となる遺伝的変異体のうちの少なくとも１つは、参照集団において１％を超えない発生率を有する形質を引き起こす。別の実施形態において、原因となる遺伝的変異体のうちの少なくとも１つは、参照集団において１０，０００分の１を超えない発生率を有する形質を引き起こす。いくつかの実施形態において、原因となる遺伝的変異体は、疾患または形質と関連付けられる。いくつかの実施形態において、原因となる遺伝的変異体は、その存在が、疾患または形質を有するか、または発症する危険性を約１％、５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、１００％、２００％、３００％、４００％、５００％、もしくはそれより多いか、それ未満、またはそれ以上だけ増加させる、遺伝的変異体である。いくつかの実施形態において、原因となる遺伝的変異体は、その存在が、疾患または形質を有するか、または発症する危険性を約１倍、２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍、２５倍、５０倍、１００倍、５００倍、１０００倍、１００００倍、もしくはそれより多いか、それ未満、またはそれ以上だけ増加させる、遺伝的変異体である。いくつかの実施形態において、原因となる遺伝的変異体は、その存在が、疾患または形質を有するか、または発症する危険性を、任意の統計的に有意な量（例えば、約０．１、０．０５、１０^−３、１０^−４、１０^−５、１０^−６、１０^−７、１０^−８、１０^−９、１０^−１０、１０^−１１、１０^−１２、１０^−１３、１０^−１４、１０^−１５、もしくはそれより小さいか、またはそれ未満のｐ値を有する増加）だけ増加させる、遺伝的変異体である。

いくつかの実施形態において、原因となる遺伝的変異体は、２つ以上の異なる個体集団間、例えば、２つ以上のヒト集団間で疾患または形質との異なる程度の関連を有する。いくつかの実施形態において、原因となる遺伝的変異体は、１つ以上の集団、例えば、１つ以上のヒト集団内でのみ疾患または形質との統計的に有意な関連を有する。ヒト集団は、共通の遺伝的継承を共有するヒトのグループ、例えば民族グループ（例えば、白色人種）であり得る。ヒト集団は、ハプロタイプ集団またはハプロタイプ集団のグループ（例えば、ハプロタイプＨ１、Ｍ５２）であり得る。ヒト集団は、国民グループ（例えば、アメリカ人、イギリス人、アイルランド人）であり得る。ヒト集団は、年齢、性別、および社会経済学的因子により最も良く描出されるもの等の人口統計的集団であり得る。ヒト集団は、歴史的集団であり得る。集団は、分布の極端にある個体が決して互いに出会うことがないような大きな地理的領域にわたって分布する個体からなり得る。集団の個体は、不連続領域に地理的に分散し得る。集団は、生物地理的祖先についての情報を提供することができる。集団は、祖先により定義することもできる。遺伝学的研究が、集団を定義することができる。いくつかの実施形態において、集団は、祖先および遺伝学に基づくことがあり、主要なヒト集団は、西ユーラシア人、サハラ以南アフリカ人、東アジア人、および先住アメリカ人を含む、大陸規模の分類に対応する。ほとんどのヒトは、祖先に基づいてこれらの集団のうちの少なくとも１つに割り当てられ得る。多数のより小さな集団も、オーストラリア先住民、オセアニア人、ブッシュマンを含む大陸分類として区別される。

非常に頻繁に、集団を亜集団にさらに分解することができる。集団と亜集団との間の関係は、階層的であり得る。例えば、オセアニア人集団は、ポリネシア人、メラネシア人、およびミクロネシア人を含む亜集団にさらに細分することができる。西ユーラシア人集団は、ヨーロッパ人、西／中央アジア人、南アジア人、および北アフリカ人を含む亜集団にさらに細分することができる。ヨーロッパ人集団は、北西ヨーロッパ人、南ヨーロッパ人、およびアシュケナージ系ユダヤ人集団を含む亜集団にさらに細分することができる。北西ヨーロッパ人集団は、イギリス人、アイルランド人、ドイツ人、フィンランド人等を含む国民集団にさらに細分することができる。東アジア集団は、中国人、日本人、および韓国人亜集団にさらに細分することができる。南アジア集団は、インド人およびパキスタン人集団にさらに細分することができる。インド人集団は、ドラヴィダ族、ブラフーイ族、カンナダ族、マラヤーラム族、タミル族、テルグ族、ツルバ族、およびゴンド族にさらに細分することができる。亜集団は、原因となる遺伝的変異体を特定する目的で集団として機能し得る。

いくつかの実施形態において、原因となる遺伝的変異体は、希な遺伝的疾患等の疾患と関連付けられる。原因となる遺伝的変異体が関連付けられ得る疾患の例として、２１−ヒドロキシラーゼ欠乏症、ＡＢＣＣ８−関連インスリン過剰症、ＡＲＳＡＣＳ、軟骨形成不全、色覚異常、アデノシン一リン酸デアミナーゼ１、神経細胞障害を伴う脳梁欠損症、アルカプトン尿症、α−１−抗トリプシン欠乏症、α−マンノシド症、α−サルコグリカン異常症、α−サラセミア、アルツハイマー、アンジオテンシンＩＩ受容体、Ｉ型、アポリポタンパク質Ｅ遺伝子型決定、アルギニノコハク酸尿症、アスパルチルグリコサミン尿症、ビタミンＥ欠乏症を伴う運動失調、運動失調−毛細管拡張症、多腺性自己免疫症候群１型ＢＲＣＡ１遺伝性乳癌／卵巣癌、ＢＲＣＡ２遺伝性乳癌／卵巣癌、１つ以上の他の種類の癌、バルデ−ビードル症候群、ベスト卵黄様黄斑変性症、β−サルコグリカン異常症、β−サラセミア、ビオチニダーゼ欠乏症、ブラウ症候群、ブルーム症候群、ＣＦＴＲ関連障害、ＣＬＮ３−関連神経セロイド−リポフスチン症、ＣＬＮ５−関連神経セロイド−リポフスチン症、ＣＬＮ８−関連神経セロイド−リポフスチン症、カナバン病、カルニチンパルミトイルトランスフェラーゼＩＡ欠乏症、カルニチンパルミトイルトランスフェラーゼＩＩ欠乏症、軟骨毛髪形成不全症、脳海綿状血管奇形、全脈絡膜萎縮、コーエン症候群、先天性白内障、顔面異形症および神経障害、先天性グリコシル化異常症Ｉａ、先天性グリコシル化異常症Ｉｂ、フィンランド型先天性ネフローゼ、クローン病、シスチン症、ＤＦＮＡ９（ＣＯＣＨ）、糖尿病および難聴、早発性原発性ジストニア（ＤＹＴＩ）、接合型表皮水疱症ヘルリッツ−ピアソン型、ＦＡＮＣＣ−関連ファンコニ貧血、ＦＧＦＲ１−関連頭蓋骨癒合症、ＦＧＦＲ２−関連頭蓋骨癒合症、ＦＧＦＲ３−関連頭蓋骨癒合症、第Ｖ因子ライデン栓友病、第Ｖ因子Ｒ２突然変異栓友病、第ＸＩ因子欠乏症、第ＸＩＩＩ因子欠乏症、家族性腺腫性ポリポージス、家族性自律神経失調症、家族性高コレステロール血症Ｂ型、家族性地中海熱、遊離シアル酸蓄積症、パーキンソニズム−１７を伴う前頭側頭型認知症、フマラーゼ欠乏症、ＧＪＢ２−関連ＤＦＮＡ３非症候性難聴および聴覚消失、ＧＪＢ２−関連ＤＦＮＢ１非症候性難聴および聴覚消失、ＧＮＥ−関連筋障害、ガラクトース血症、ゴーシェ病、グルコース−６−リン酸デヒドロゲナーゼ欠乏症、グルタル酸血症Ｉ型、糖原貯蔵症Ｉａ型、糖原貯蔵症Ｉｂ型、糖原貯蔵症ＩＩ型、糖原貯蔵症ＩＩＩ型、糖原貯蔵症Ｖ型、薄束（Ｇｒａｃｉｌｅ）症候群、ＨＦＥ−関連遺伝性ヘモクロマトーシス、ハイデルＡＩＭ、ヘモグロビンＳβ−サラセミア、遺伝性フルクトース不耐症、遺伝性膵炎、遺伝性チミン−ウラシル尿症、ヘキソサミニダーゼＡ欠乏症、発汗性外胚葉形成不全症２、シスタチオニンβ−シンターゼ欠乏により引き起こされるホモシスチン尿症、高カリウム性周期性四肢麻痺１型、高オルニチン血症−高アンモニア血症−ホモシトルリン尿症症候群、原発性１型高シュウ酸尿症、原発性２型高シュウ酸尿症、軟骨低形成症、低カリウム血性周期性麻痺１型、低カリウム血性周期性麻痺２型、低ホスファターゼ症、小児筋障害および乳酸アシドーシス（致命的および非致命的形態）、イソ吉草酸血症、クラッベ病、ＬＧＭＤ２Ｉ、レーバー遺伝性視神経萎縮症、リー症候群フランス系カナダ型、長鎖３−ヒドロキシアシル−ＣｏＡデヒドロゲナーゼ欠乏症、ＭＥＬＡＳ、ＭＥＲＲＦ、ＭＴＨＦＲ欠乏症、ＭＴＨＦＲ熱不安定性異型、ＭＴＲＮＲ１−関連難聴および聴覚消失、ＭＴＴＳ１−関連難聴および聴覚消失、ＭＹＨ−関連ポリポージス、メープルシロップ尿症１Ａ型、メープルシロップ尿症１Ｂ型、マックーン−オルブライト症候群、中鎖アシル−コエンザイムＡデヒドロゲナーゼ欠乏症、皮質下嚢胞を伴う巨脳性白質脳症、異染性白質ジストロフィー、ミトコンドリア心筋症、ミトコンドリアＤＮＡ−関連リー症候群およびＮＡＲＰ、ムコリピド症ＩＶ、ムコ多糖症Ｉ型、ムコ多糖症ＩＩＩＡ型、ムコ多糖症ＶＩＩ型、多内分泌腺腫瘍２型、筋−眼−脳病、ネマリン筋障害、神経学的表現型、スフィンゴミエリナーゼ欠乏に起因するニーマン−ピック病、ニーマン−ピック病Ｃ１型、ナイミーヘン染色体不安定症候群、ＰＰＴ１−関連ニューロンセロイド−リポフスチン症、ＰＲＯＰ１−関連下垂体ホルモン欠乏症、パリスター−ホール症候群、先天性筋緊張症、ペンドレッド症候群、ペルオキシソーム二機能酵素欠乏症、広汎性発達障害、フェニルアラニンヒドロキシラーゼ欠乏症、プラスミノーゲン活性化因子抑制剤Ｉ、多発性嚢胞腎常染色体劣性、プロトロンビンＧ２０２１０Ａ栓友病、プソイドビタミンＤ欠乏くる病、濃化異骨症、網膜色素変性、常染色体劣性ボスニア型、レット症候群、肢根型点状軟骨異形成症１型、短鎖アシル−ＣｏＡデヒドロゲナーゼ欠乏症、シュバックマン−ダイアモンド症候群、シェーグレン−ラルソン症候群、スミス−レムリ−オピッツ症候群、痙性対麻痺１３、硫酸輸送体−関連骨軟骨異形成、ＴＦＲ２−関連遺伝性ヘモクロマトーシス、ＴＰＰ１−関連神経セロイド−リポフスチン症、致死性異形成症、トランスチレチンアミロイド症、三機能タンパク質欠乏症、チロシンヒドロキシラーゼ−欠乏ＤＲＤ、チロシン血症Ｉ型、ウィルソン病、Ｘ−結合若年網膜隔離症、およびゼルウィガー症候群スペクトルが挙げられるが、これらに限定されない。

いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、非対象配列を含む。いくつかの実施形態において、配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、非対象配列の約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。一般に、非対象配列は、試験される個体以外の生物から誘導されるポリヌクレオチド、例えば、細菌、古細菌、ウイルス、原生生物、真菌、または他の生物からのＤＮＡまたはＲＮＡに対応する。非対象配列は、ある生物または生物の類の同一性を示すことがあり、さらに感染のような疾患状態を示し得る。生物を特定する際に有用な非対象配列の例としては、限定されないが、ｒＲＮＡ配列、例えば１６ｓｒＲＮＡ配列が挙げられる（例えば、国際公開第２０１０１５１８４２号を参照）。いくつかの実施形態において、非対象配列は、原因となる遺伝的変異体の代わりに、またはそれとは別に分析される。いくつかの実施形態において、原因となる遺伝的変異体および非対象配列は、並行して、例えば同じ試料中（例えば、第１のオリゴヌクレオチド、原因となる遺伝的変異体を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つもの、および非対象配列を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものの混合物を使用する）および／または同じレポートにおいて分析される。

いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、祖先情報提供マーカー（ＡＩＭ）を含む。いくつかの実施形態において、配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、ＡＩＭの約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。一般に、ＡＩＭは、２つ以上のヒト集団等の２つ以上の個体集団間で頻度が異なる遺伝的変異体であり、単独または１つ以上の他のＡＩＭとの組み合わせのいずれかで対象の祖先を推理するために使用され得る。ＡＩＭは、原因となる遺伝的変異体のうちの１つの危険性が高い集団等の１つ以上の集団に属するか、または属しない人を分類するために使用され得る。例えば、ＡＩＭは、ある形質の罹患率が高い集団についての診断手段となり得る。場合によっては、ＡＩＭは、より細かい精度で集団、例えば、亜大陸群または関連する民族グループを区別する。いくつかの実施形態において、ＡＩＭは、原因となる遺伝的変異体および／または非対象配列の代わりに、またはそれとは別に分析される。いくつかの実施形態において、ＡＩＭ、原因となる遺伝的変異体、および／または非対象配列は、並行して、例えば、同じ試料中（例えば、第１のオリゴヌクレオチド、原因となる遺伝的変異体を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つもの、およびＡＩＭを含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものの混合物を使用する）および／または同じレポート中で分析される。ＡＩＭの種類の非限定的な例としては、単一ヌクレオチド多型（ＳＮＰ）、欠失／挿入多型（ＤＩＰ）、コピー数変異体（ＣＮＶ）、短縦列反復（ＳＴＲ）、制限断片長多型（ＲＦＬＰ）、単純配列反復（ＳＳＲ）、可変数の縦列反復（ＶＮＴＲ）、ランダム増幅多型ＤＮＡ（ＲＡＰＤ）、増幅断片長多型（ＡＦＬＰ）、レトロトランスポゾン間増幅多型（ＩＲＡＰ）、長および短散在要素（ＬＩＮＥ／ＳＩＮＥ）、長縦列反復（ＬＴＲ）、可動要素、レトロトランスポゾンマイクロサテライト増幅多型、レトロトランスポゾン系挿入多型、配列特異的増幅多型、および遺伝性後成的修飾（例えば、ＤＮＡメチル化）が挙げられる。ＡＩＭは、ＲＮＡポリヌクレオチド中の配列変異でもあり得る。いくつかのＡＩＭは、ある種のＲＮＡポリヌクレオチドの存在または濃度により示すこともできる。いくつかのＡＩＭは、タンパク質ポリペプチド中の配列変異でもあり得る。いくつかのＡＩＭは、ある種のタンパク質ポリペプチドの存在または非存在により示すこともできる。多数の祖先情報提供マーカーが、図９−１〜１０に特定される。他のＡＩＭは、米国公開第２００７／００３７１８２号に説明されている。ＡＩＭは、原因となる遺伝的変異体であってもなくてもよい。例えば、ダフィーヌル（ＦＹ^＊０）遺伝的変異体は、血液抗原の非存在を引き起こす。この異型は、サハラ以南アフリカ人集団においてほぼ１００％の頻度で存在し、サハラ以南アフリカ外の集団においてほぼ０％の頻度で存在する。色素沈着と関連付けられる多くの原因となる遺伝的変異体もＡＩＭである。原因となる遺伝的変異体でないＡＩＭは、他のＡＩＭにより引き起こされた形質と間接的に関連付けることができる。

ＡＩＭは、複数の集団における遺伝的変異体の頻度を決定することにより発見することができる。これは、様々な集団からの個体における既知の異型の頻度を決定することにより達成され得る。異型発見のプロセス中に本質的に達成されることもある。両方のタスクは、ＳＮＰ多型を目録化したＩｎｔｅｒｎａｔｉｏｎａｌＨａｐＭａｐプロジェクトにより行われた。祖先情報提供マーカーは、それらの予知力を判断する多様な測定値によりランク付することができる。１つの測定値は、ＦｓｔまたはＦＳＴと呼ばれるライトのＦ統計である。この変数は、固定指数を含む他の名前で知られている。ＡＩＭをランク付するための別の基準は、情報提供性である。ＡＩＭをランク付する別の方法は、ＰａｓｃｈｏｕらのＰＣＡ相関ＳＮＰ法である（Ｐａｓｃｈｏｕｅｔａｌ．ＰＣＡ−ｃｏｒｒｅｌａｔｅｄＳＮＰｓｆｏｒｓｔｒｕｃｔｕｒｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｉｎｗｏｒｌｄｗｉｄｅｈｕｍａｎｐｏｐｕｌａｔｉｏｎｓ．ＰＬｏＳＧｅｎｅｔ（２００７）第３巻（９）ｐｐ．１６７２〜８６）。

祖先情報提供マーカーに基づいて、祖先推理において前選択した程度の信頼性を達成するため（例えば、少なくとも約８０％、８５％、９０％、９５％、９７．５％、９９％、またはそれ以上）、および複数の集団の祖先推理を達成するために、複数の祖先情報提供マーカーを審査することが必要であり得る。ランダムに選択された遺伝的変異体の十分に大きな一団を使用して、祖先を推理することができる（例えば、約５、１０、１５、２５、５０、１００、２５０、５００、１０００、２５００、５０００、もしくはそれより多いか、またはそれ以上のＡＩＭ）。特に適切なＡＩＭの標的群を構築することができる。多くの研究者は、示唆される祖先情報提供マーカーの一覧表を公開している（例えば、Ｓｅｌｄｉｎｅｔａｌ．ＡｐｐｌｉｃａｔｉｏｎｏｆａｎｃｅｓｔｒｙｉｎｆｏｒｍａｔｉｖｅｍａｒｋｅｒｓｔｏａｓｓｏｃｉａｔｉｏｎｓｔｕｄｉｅｓｉｎＥｕｒｏｐｅａｎＡｍｅｒｉｃａｎｓ．ＰＬｏＳＧｅｎｅｔ（２００８）第４巻（１）ｐｐ．ｅ５、Ｈａｌｄｅｒｅｔａｌ．Ａｐａｎｅｌｏｆａｎｃｅｓｔｒｙｉｎｆｏｒｍａｔｉｖｅｍａｒｋｅｒｓｆｏｒｅｓｔｉｍａｔｉｎｇｉｎｄｉｖｉｄｕａｌｂｉｏｇｅｏｇｒａｐｈｉｃａｌａｎｃｅｓｔｒｙａｎｄａｄｍｉｘｔｕｒｅｆｒｏｍｆｏｕｒｃｏｎｔｉｎｅｎｔｓ：ｕｔｉｌｉｔｙａｎｄａｐｐｌｉｃａｔｉｏｎｓ．ＨｕｍＭｕｔａｔ：（２００８）第２９巻（５）ｐｐ．６４８〜５８、Ｔｉａｎｅｔａｌ．ＡｎａｌｙｓｉｓａｎｄａｐｐｌｉｃａｔｉｏｎｏｆＥｕｒｏｐｅａｎｇｅｎｅｔｉｃｓｕｂｓｔｒｕｃｔｕｒｅｕｓｉｎｇ３００ＫＳＮＰｉｎｆｏｒｍａｔｉｏｎ．ＰＬｏＳＧｅｎｅｔ（２００８）第４巻（１）ｐｐ．ｅ４、Ｐｒｉｃｅｅｔａｌ．ＤｉｓｃｅｒｎｉｎｇｔｈｅａｎｃｅｓｔｒｙｏｆＥｕｒｏｐｅａｎＡｍｅｒｉｃａｎｓｉｎｇｅｎｅｔｉｃａｓｓｏｃｉａｔｉｏｎｓｔｕｄｉｅｓ．ＰＬｏＳＧｅｎｅｔ（２００８）第４巻（１）ｐｐ．ｅ２３６、Ｐａｓｃｈｏｕｅｔａｌ．ＰＣＡ−ｃｏｒｒｅｌａｔｅｄＳＮＰｓｆｏｒｓｔｒｕｃｔｕｒｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｉｎｗｏｒｌｄｗｉｄｅｈｕｍａｎｐｏｐｕｌａｔｉｏｎｓ．ＰＬｏＳＧｅｎｅｔ（２００７）第３巻（９）ｐｐ．１６７２〜８６、およびＢａｕｃｈｅｔｅｔａｌ．ＭｅａｓｕｒｉｎｇＥｕｒｏｐｅａｎｐｏｐｕｌａｔｉｏｎｓｔｒａｔｉｆｉｃａｔｉｏｎｗｉｔｈｍｉｃｒｏａｒｒａｙｇｅｎｏｔｙｐｅｄａｔａ．ＡｍＪＨｕｍＧｅｎｅｔ（２００７）第８０巻（５）ｐｐ．９４８〜５６）。これらのおよび同様の一覧表を使用し、本明細書に記載されるデバイスまたは方法が試験するように構成され得るＡＩＭの一団を構築することができる。

いくつかの実施形態において、複数の第２のヌクレオチドおよび複数の第３のヌクレオチドは、複数の第１のヌクレオチドに加えて、固体支持体に結合される。いくつかの実施形態において、第２のヌクレオチドは全て、配列Ａを３′末端に含み、複数の第２のオリゴヌクレオチド中の配列Ａは、第１のオリゴヌクレオチドの全ての配列Ａと同じである。いくつかの実施形態において、第３のオリゴヌクレオチドは、配列Ｃを３′末端に含み、配列Ｃは、複数の異なる標的ポリヌクレオチドにより共有される配列に相補性である。いくつかの実施形態において、テンプレートとなる標的ポリヌクレオチドに沿った第１のオリゴヌクレオチドの伸長は、配列Ｃを含む伸長生成物を生成し、これは配列Ｃに相補性であり、特異的にハイブリダイズ可能である。いくつかの実施形態において、固体支持体に曝露される複数の第２のオリゴヌクレオチドの量は、例えば、固体支持体に結合された複数のオリゴヌクレオチドに対する反応において、固体支持体に曝露される複数の第１のオリゴヌクレオチドの量より約１０倍、５０倍、１００倍、１０００倍、５０００倍、７５００倍、１００００倍、１２５００倍、１５０００倍、２００００倍、５００００倍、１０００００倍、もしくはそれより多いか、それ未満、またはそれ以上高い。いくつかの実施形態において、複数の第２のオリゴヌクレオチドの量対固体支持体に曝露された第３のオリゴヌクレオチドの量の比（または反比）は、約１：１、２：１、３：１、４：１、５：１、６：１、７：１、８：１、９：１、１０：１、もしくはそれより多いか、それ未満、またはそれ以上である。いくつかの実施形態において、複数の第１のオリゴヌクレオチドは、固体支持体に約０．５ｐＭ、１ｐＭ、５ｐＭ、１０ｐＭ、２５ｐＭ、５０ｐＭ、７５ｐＭ、１００ｐＭ、２００ｐＭ、５００ｐＭ、１ｎＭ、１０ｎＭ、１００ｎＭ、５００ｎＭ、もしくはそれより高いか、それ未満、またはそれ以上の濃度で付加される。いくつかの実施形態において、複数の第２のオリゴヌクレオチドおよび／または第３のオリゴヌクレオチドの濃度は、約０．５ｎＭ、１ｎＭ、５ｎＭ、１０ｎＭ、２５ｎＭ、５０ｎＭ、７５ｎＭ、１００ｎＭ、２００ｎＭ、５００ｎＭ、１μＭ、５μＭ、１０μＭ、２５μＭ、５０μＭ、１００μＭ、５００μＭ、もしくはそれより高いか、それ未満、またはそれ以上である。

いくつかの実施形態において、１つ以上の複数のオリゴヌクレオチドは、１つ以上の保護基を含む。一般に、保護基は、例えば、ポリメラーゼ、リガーゼ、および／または他の酵素によりオリゴヌクレオチドの３′末端の伸長を防ぐ任意の修飾である。保護基は、オリゴヌクレオチドが固体支持体に結合される前または後に付加されてよい。いくつかの実施形態において、保護基は、増幅または配列決定プロセスの間に付加される。保護基の例としては、アルキル基、非ヌクレオチドリンカー、ホスホロチオエート、アルカン−ジオール残基、ペプチド核酸、および例えば、コルジセピンを含む３′−ＯＨを欠くヌクレオチド誘導体が挙げられるが、これらに限定されない。

いくつかの実施形態において、基質に結合されたオリゴヌクレオチドのうちの１つ以上は、切断部位を含み、その部位での切断が、切断されたポリヌクレオチドの全てまたは一部分を、固体支持体への結合から解放するようにする。いくつかの実施形態において、切断は、ポリヌクレオチドテンプレートに沿って伸長され得る３′末端を生成する。いくつかの実施形態において、複数の第１、第２、および／または第３のオリゴヌクレオチドの一部分のみが、切断部位を含む（例えば、約１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、もしくはそれより多いか、それ未満、またはそれ以上）。切断部位は、化学的、酵素的、および光化学的切断を含むが、これらに限定されない任意の好適な手段により切断可能であり得る。切断基は、第１のヌクレオチドと固体支持体との間、またはオリゴヌクレオチド中の任意の数のヌクレオチド、例えば、固体支持体への結合点から約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド、あるいはその後に位置付けられ得る。

化学的、酵素的、および光化学切断のプロセス、ならびにそのようなプロセスにより切断される切断部位は、当該技術分野において既知である。切断手段の例としては、切断部位が、二本鎖テンプレートの片方または両方の鎖の切断を配向する酵素の適切な制限部位である、制限酵素消化；切断部位が１つ以上のリボヌクレオチドを含み得る、デオキシリボヌクレオチドとリボヌクレオチドとの間の結合のＲＮａｓｅ消化または化学切断；切断部位が、適切なジスルフィド結合を含む必要がある、還元剤（例えば、ＴＣＥＰ）を用いたジスルフィド結合の化学還元；切断部位が、ジオール結合を含む必要がある、過ヨウ素酸塩を用いたジオール結合の化学切断；脱塩基部位の生成および後次の加水分解が挙げられるが、これらに限定されない。切断に続いて、例えば、ポリメラーゼ、リガーゼ、および／または他の酵素により伸長することができない３′末端の生成を遮断することができる。遮断薬の例としては、切断剤の付加前、付加中、または付加後に付加され得るアミン（例えば、エタノールアミン）が挙げられるが、これに限定されない。切断プロセスおよび切断部位の追加の非限定的な例は、米国公開第２０１２００５３０７４号に説明され、参照によりその全体が組み込まれる。

いくつかの実施形態において、複数の標的ポリヌクレオチドが、複数の標的ポリヌクレオチドを含む試料を本発明の装置に曝露することを含む方法に従い増幅される。いくつかの実施形態において、増幅プロセスは、架橋増幅を含む。標準架橋増幅を行うための一般的な方法は、当該技術分野において既知である。例として、国際公開第１９９８／０４４１５１号および同第２０００／０１８９５７号はともに、複数の同一の固定されたポリヌクレオチド鎖および複数の同一の固定された相補鎖から形成されたクラスタまたは「コロニー」からなるアレイを形成するために、増幅生成物が固体支持体上に固定されるのを許容する、核酸増幅の方法を説明する。いくつかの実施形態において、複数のポリヌクレオチドは、複数の標的ポリヌクレオチドを含む試料を本発明の装置に曝露することを含む方法に従い配列決定される。固体支持体に結合された複数のオリゴヌクレオチドを使用して配列決定を行うための一般的な方法、例えば、参照によりそれら全体が本明細書に組み込まれる、米国公開第２０１２００５３０７４号および同第２０１１０２２３６０１号に開示される方法は、当該技術分野において既知である。本発明の方法および装置に従い標的ポリヌクレオチドを増幅および／または配列決定するための非限定的な例示的方法が、本明細書で提供される。一般に、特定の標的ポリヌクレオチドの増幅は、非標的ゲノム配列と比較して、標的ゲノム配列のような標的ポリヌクレオチドに対して強化される配列決定データの生成を許容する。いくつかの実施形態において、非標的ポリヌクレオチドと比較して、標的ポリヌクレオチドに対する配列決定データ（特に原因となる遺伝的変異体の配列決定データ）の強化は、約または少なくとも約１０倍、１００倍、５００倍、１０００倍、５０００倍、１００００倍、５００００倍、１０００００倍、１００００００倍、またはそれ以上である。

オリゴヌクレオチドを含む基質、それらの生成のための方法、ならびにそれらの操作のためのシステムおよび方法の非限定的な例は、国際公開第２００８／００２５０２号に提供され、参照によりその全体が本明細書に組み込まれる。

一態様において、本発明は、試料中の複数の標的ポリヌクレオチドを配列決定するための方法を提供する。一実施形態において、この方法は、（ａ）断片化ポリヌクレオチドを生成するように、標的ポリヌクレオチドを断片化することと、（ｂ）適合したポリヌクレオチドの両端で相補性配列Ｄ′にハイブリダイズされた配列Ｄを含む、適合したポリヌクレオチドを生成するように、それぞれが配列Ｄを含むアダプターオリゴヌクレオチドを、断片化ポリヌクレオチドに連結することであって、任意に配列Ｄ′が、標的ポリヌクレオチド３′末端の伸長により生成される、連結することと、（ｃ）適合したポリヌクレオチドを、配列Ｃ、配列Ｄ、および試料と関連付けられたバーコードを含む増幅プライマーを使用して増幅することであって、配列Ｄが、増幅プライマーの３′末端に位置付けられる、増幅することと、（ｄ）増幅された標的ポリヌクレオチドを、固体表面に結合した複数の異なる第１のオリゴヌクレオチドにハイブリダイズすることと、（ｅ）固体表面上で架橋増幅を行うことと、（ｆ）ステップ（ｅ）からの複数のポリヌクレオチドを配列決定することと、を含む。固体表面は、本明細書に記載され、任意に本明細書に記載の方法に従い生成される装置を含む、本明細書に記載される複数のオリゴヌクレオチドを含み得る。いくつかの実施形態において、固体表面は、（ｉ）複数の異なる第１のオリゴヌクレオチドであって、配列Ａおよび配列Ｂを含み、配列Ａが、全ての第１のオリゴヌクレオチドの中で共通であり、さらに配列Ｂが、それぞれの異なる第１のオリゴヌクレオチドに対して異なり、それぞれの第１のオリゴヌクレオチドの３′末端にあり、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、複数の異なる第１のオリゴヌクレオチドと、（ｉｉ）配列Ａをそれぞれの３′末端に含む、複数の第２のオリゴヌクレオチドと、（ｉｉｉ）配列Ｃをそれぞれの３′末端に含む、複数の第３のオリゴヌクレオチドと、を含む。いくつかの実施形態において、配列Ａ、Ｂ、Ｃ、およびＤのうちの１つ以上は、異なる配列である。いくつかの実施形態において、配列Ａ、Ｂ、Ｃ、およびＤのうちの１つ以上は、配列Ａ、Ｂ、Ｃ、およびＤのうちの他の１つ以上とは約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、もしくはそれより多いか、それ未満、またはそれ以上異なる（例えば、約１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、もしくはそれより多い配列同一性未満の配列同一性を有する）。いくつかの実施形態において、配列Ａ、Ｂ、Ｃ、およびＤのうちの１つ以上は、それぞれ約１、２、３、４、５、６、７、８、９、１０、１５、２０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチドを含む。

標的ポリヌクレオチドが誘導される試料は、同じ個体からの複数の試料、異なる個体からの試料、またはこれらの組み合わせを含むことができる。いくつかの実施形態において、試料は、単一個体からの複数のポリヌクレオチドを含む。いくつかの実施形態において、試料は、２つ以上の個体からの複数のポリヌクレオチドを含む。個体は、標的ポリヌクレオチドが誘導され得る任意の生物またはその一部分であり、その非限定的な例としては、植物、動物、真菌、原生生物、モネラ界生物、ウイルス、ミトコンドリア、および葉緑体が挙げられる。試料ポリヌクレオチドは、細胞試料、組織試料、流体試料、またはそこから誘導される器官試料（またはそれらのうちのいずれかから誘導される細胞培養物）等の対象から単離することができ、例えば、培養細胞株、生検、血液試料、口腔粘膜検体、または細胞を含有する流体試料（例えば、唾液）が挙げられる。対象は、動物であり得、限定されないが、ウシ、ブタ、マウス、ラット、ニワトリ、ネコ、イヌ等が挙げられ、通常はヒトのような哺乳類である。試料は、例えば、化学合成により人工的に誘導することもできる。いくつかの実施形態において、試料は、ＤＮＡを含む。いくつかの実施形態において、試料は、ゲノムＤＮＡを含む。いくつかの実施形態において、試料は、ミトコンドリアＤＮＡ、葉緑体ＤＮＡ、プラスミドＤＮＡ、細菌人工染色体、酵母人工染色体、オリゴヌクレオチドタグ、試料が採取された対象以外の生物（例えば、細菌、ウイルス、または真菌）からのポリヌクレオチド、またはこれらの組み合わせを含む。いくつかの実施形態において、試料は、増幅により、例えば、プライマーおよびＤＮＡポリメラーゼの任意の好適な組み合わせを使用するプライマー伸長反応（ポリメラーゼ連鎖反応（ＰＣＲ）、逆転写、およびこれらの組み合わせを含むが、これらに限定されない）により生成されたＤＮＡを含む。プライマー伸長反応のテンプレートがＲＮＡである場合、逆転写の生成物は、相補ＤＮＡ（ｃＤＮＡ）と称される。プライマー伸長反応において有用なプライマーは、１つ以上の標的に特異的な配列、ランダム配列、部分的ランダム配列、およびこれらの組み合わせを含むことができる。プライマー伸長反応に好適な反応条件は、当該技術分野において既知である。一般に、試料ポリヌクレオチドは、試料中に存在する任意のポリヌクレオチドを含む、標的ポリヌクレオチドを含んでも含まなくてもよい。いくつかの実施形態において、単一個体からの試料は、複数の別個の試料に分割され（例えば、２、３、４、５、６、７、８、９、１０、またはそれより多くの別個の試料）、それらは独立して本発明の方法、例えば、二重、三重、四重、またはそれ以上の分析に供される。

核酸の抽出および精製のための方法は、当該技術分野において周知である。例えば、核酸は、フェノール、フェノール／クロロホルム／イソアミルアルコール、またはＴＲＩｚｏｌおよびＴｒｉＲｅａｇｅｎｔを含む同様の製剤を用いる有機抽出により精製することができる。抽出技法の他の非限定的な例としては、（１）例えば、フェノール／クロロホルム有機試薬（Ａｕｓｕｂｅｌｅｔａｌ．，１９９３）を使用するエタノール沈殿が続く有機抽出（自動核酸抽出器、例えば、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（ＦｏｓｔｅｒＣｉｔｙ，Ｃａｌｉｆ．）から入手できるモデル３４１ＤＮＡ抽出器を使用するか、または使用しない）、（２）固定相吸着法（米国特許第５，２３４，８０９号、Ｗａｌｓｈｅｔａｌ．，１９９１））、および（３）食塩誘発性核酸沈殿法（Ｍｉｌｌｅｒｅｔａｌ．，（１９８８）、そのような沈殿法は、典型的に「塩析」法と称される）が挙げられる。核酸単離および／または精製の別の例としては、核酸が特異的に、または非特異的に結合することができる磁性粒子の使用に続く、磁石を使用し、核酸をビーズから洗浄および溶出するビーズの単離が挙げられる（例えば、米国特許第５，７０５，６２８号を参照）。いくつかの実施形態において、上記単離法は、試料から望ましくないタンパク質を排除する、例えば、プロテイナーゼＫまたは他の同様のプロテイナーゼを用いる消化を助けるように、酵素消化ステップが先行し得る。例えば、米国特許第７，００１，７２４号を参照されたい。所望される場合、ＲＮａｓｅ阻害剤は、溶解緩衝液に付加されてよい。ある特定の細胞または試料の種類の場合、タンパク質変性／消化ステップをプロトコルに追加することが望ましい場合がある。精製方法は、ＤＮＡ、ＲＮＡ、または両方を単離するように配向され得る。ＤＮＡおよびＲＮＡの両方が、抽出手順の間またはその後に一緒に単離されるとき、さらなるステップを用いて、片方または両方を他方から別個に精製することができる。抽出された核酸の亜分画は、例えば、サイズ、配列、または他の物理的もしくは化学的特徴ごとに精製することにより生成することもできる。最初の核酸単離ステップに加えて、例えば、過剰な、または望ましくない試薬、反応物質、または生成物を取り除くために、本発明の方法における任意のステップ後に核酸の精製を行うことができる。試料中の核酸の量および／または純度を決定するための方法は、当該技術分野において既知であり、吸光度（例えば、２６０ｎｍ、２８０ｎｍでの光の吸光度、およびそれらの比）および標識の検出（例えば、ＳＹＢＲグリーン、ＳＹＢＲブルー、ＤＡＰＩ、ヨウ化プロピジウム、ヘキスト染色、ＳＹＢＲゴールド、臭化エチジウム等の蛍光染色および挿入剤）が挙げられる。

いくつかの実施形態において、標的ポリヌクレオチドは、１つ以上の特定のサイズ範囲（複数可）の断片化ポリヌクレオチドの集団に断片化される。いくつかの実施形態において、断片化に供される試料ポリヌクレオチドの量は、約５０ｎｇ、１００ｎｇ、２００ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、６００ｎｇ、７００ｎｇ、８００ｎｇ、９００ｎｇ、１０００ｎｇ、１５００ｎｇ、２０００ｎｇ、２５００ｎｇ、５０００ｎｇ、１０μｇ、もしくはそれより多いか、それ未満、またはそれ以上である。いくつかの実施形態において、断片は、約１、１０、１００、１０００、１００００、１０００００、３０００００、５０００００、もしくはそれより多いか、それ未満、またはそれ以上の開始ＤＮＡのゲノム相当物から生成される。断片化は、化学的、酵素的、および機械的断片化を含む、当該技術分野において既知の方法により達成され得る。いくつかの実施形態において、断片は、約１０〜約１０，０００ヌクレオチドの長さの平均または中央値を有する。いくつかの実施形態において、断片は、約５０〜約２，０００ヌクレオチドの長さの平均または中央値を有する。いくつかの実施形態において、断片は、約１００〜２５００、２００〜１０００、１０〜８００、１０〜５００、５０〜５００、５０〜２５０、または５０〜１５０ヌクレオチド、それ未満、それを超える、またはその間の長さの平均または中央値を有する。いくつかの実施形態において、断片は、約２００、３００、５００、６００、８００、１０００、１５００ヌクレオチド、もしくはそれより多いか、それ未満、またはそれ以上の長さの平均または中央値を有する。いくつかの実施形態において、断片化は、機械的に達成され、試料ポリヌクレオチドを吸音超音波処理に供することを含む。いくつかの実施形態において、断片化は、１つ以上の酵素が二本鎖核酸切断を生成するのに好適な条件下で、試料ポリヌクレオチドを１つ以上の酵素で処理することを含む。ポリヌクレオチド断片の生成に有用な酵素の例としては、配列特異的および非配列特異的ヌクレアーゼが挙げられる。ヌクレアーゼの非限定的な例としては、ＤＮａｓｅＩ、断片化酵素、制限エンドヌクレアーゼ、それらの異型、およびそれらの組み合わせが挙げられる。例えば、ＤＮａｓｅＩを用いる消化は、Ｍｇ＋＋の非存在下、およびＭｎ＋＋の存在下でＤＮＡ中のランダム二本鎖切断を誘発することができる。いくつかの実施形態において、断片化は、試料ポリヌクレオチドを１つ以上の制限エンドヌクレアーゼで処理することを含む。断片化は、５′オーバーハング、３′オーバーハング、平滑末端、またはこれらの組み合わせを有する断片を生成することができる。いくつかの実施形態において、例えば、断片化が１つ以上の制限エンドヌクレアーゼの使用を含むとき、試料ポリヌクレオチドの切断は、予測可能な配列を有するオーバーハングを残す。いくつかの実施形態において、この方法は、アガロースゲルからのカラム精製または単離等の標準方法を介して断片をサイズ選択するステップを含む。いくつかの実施形態において、この方法は、断片化後に断片長の平均および／または中央値を決定することを含む。いくつかの実施形態において、所望の閾値を上回る断片長の平均および／または中央値を有する試料は、再度断片化に供される。いくつかの実施形態において、所望の閾値を下回る断片長の平均および／または中央値を有する試料は、破棄される。

いくつかの実施形態において、断片化ポリヌクレオチドの５′および／または３′末端ヌクレオチド配列は、１つ以上のアダプターオリゴヌクレオチド（「アダプター」とも称される）とのライゲーションの前に修飾されない。例えば、制限エンドヌクレアーゼによる断片化を使用して、予測可能なオーバーハングを残すことができ、ポリヌクレオチド断片上の予測可能なオーバーハングに相補性であるオーバーハングを含む１つ以上のアダプターオリゴヌクレオチドとのライゲーションが続く。別の例において、予測可能な平滑末端を残す酵素による切断の後に、平滑末端を含むアダプターオリゴヌクレオチドに対する平滑末端化ポリヌクレオチド断片のライゲーションが続く。いくつかの実施形態において、断片化ポリヌクレオチドは、アダプターに連結される前に、平滑末端を有するポリヌクレオチド断片を生成するように平滑末端研摩される（または「末端修復される」）。平滑末端研摩ステップは、３′〜５′エキソヌクレアーゼ活性および５′〜３′ポリメラーゼ活性の両方を有するＤＮＡポリメラーゼ、例えば、Ｔ４ポリメラーゼといった好適な酵素でのインキュベーションにより達成され得る。いくつかの実施形態において、末端修復は、オーバーハングを生成するために、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、もしくはそれより多くのヌクレオチド、例えば、１つ以上のアデニン（「Ａテーリング」）、１つ以上のチミン、１つ以上のグアニン、または１つ以上のシトシンの付加が後に続くか、またはそれで終了する。オーバーハングを有するポリヌクレオチド断片を、例えば、ライゲーション反応において、相補性オーバーハングを有する１つ以上のアダプターオリゴヌクレオチドに連結することができる。例えば、単一のアデニンを、テンプレート独立ポリメラーゼを使用して、末端修復されたポリヌクレオチド断片の３′末端に付加することができ、後にそれぞれが３′末端に突出するチミンを有する１つ以上のアダプターへのライゲーションが続く。いくつかの実施形態において、アダプターオリゴヌクレオチドは、１つ以上のヌクレオチドを持つ３′末端の伸長に続いて、５′リン酸化により修飾された平滑末端二本鎖ＤＮＡ断片分子に連結することができる。場合によっては、３′末端の伸長は、例えば、クレノウポリメラーゼもしくは当該技術分野において既知の任意の他の好適なポリメラーゼ等のポリメラーゼを用いるか、またはターミナルデオキシヌクレオチドトランスフェラーゼの使用により、マグネシウムを含有する好適な緩衝液中の１つ以上のｄＮＴＰの存在下で行われ得る。いくつかの実施形態において、平滑末端を有する標的ポリヌクレオチドは、平滑末端を含む１つ以上のアダプターに連結される。断片化ポリヌクレオチドの５′末端のリン酸化は、例えば、ＡＴＰおよびマグネシウムを含有する好適な緩衝液中のＴ４ポリヌクレオチドを用いて行われ得る。断片化ポリヌクレオチドは、任意に、例えば、ホスファターゼ等の当該技術分野において既知の酵素を使用することにより、５′末端または３′末端を脱リン酸化するように処理されてよい。

いくつかの実施形態において、断片化の後に、断片化ポリヌクレオチドに対するアダプターオリゴヌクレオチドのライゲーションが続く。アダプターオリゴヌクレオチドは、配列を有する任意のオリゴヌクレオチドを含み、その少なくとも一部分は、標的ポリヌクレオチドに連結され得ることが知られている。アダプターオリゴヌクレオチドは、ＤＮＡ、ＲＮＡ、ヌクレオチド類似体、非標準ヌクレオチド、標識ヌクレオチド、修飾ヌクレオチド、またはこれらの組み合わせを含むことができる。アダプターオリゴヌクレオチドは、一本鎖、二本鎖、または部分的二本鎖であり得る。一般に、部分的二本鎖アダプターは、１つ以上の一本鎖領域および１つ以上の二本鎖領域を含む。二本鎖アダプターは、互いにハイブリダイズされた２つの別個のオリゴヌクレオチドを含むことができ（「オリゴヌクレオチド二本鎖」とも称される）、ハイブリダイゼーションは、１つ以上の平滑末端、１つ以上の３′オーバーハング、１つ以上の５′オーバーハング、ミスマッチおよび／または非対合ヌクレオチドから生じる１つ以上の隆起、またはこれらの任意の組み合わせを残し得る。いくつかの実施形態において、一本鎖アダプターは、互いにハイブリダイズすることができる２つ以上の配列を含む。２つのそのようなハイブリダイズ可能な配列が、一本鎖アダプターに含有されるとき、ハイブリダイゼーションは、ヘアピン構造を（ヘアピンアダプター）を生じる。アダプターの２つのハイブリダイズされた領域が、非ハイブリダイズ領域により互いから分離されるとき、「バブル」構造が生じる。バブル構造を含むアダプターは、内部ハイブリダイゼーションを含む単一アダプターオリゴヌクレオチドからなり得るか、または互いにハイブリダイズされた２つ以上のアダプターオリゴヌクレオチドを含み得る。例えば、アダプター中の２つのハイブリダイズ可能な配列間の部配列ハイブリダイゼーションは、一本鎖アダプターオリゴヌクレオチドにおいて二本鎖構造を生成することができる。異なる種類のアダプターは、ヘアピンアダプターおよび二本鎖アダプター、または異なる配列のアダプター等の組み合わせで使用することができる。異なるアダプターは、連続反応において、または同時に標的ポリヌクレオチドに連結され得る。いくつかの実施形態において、同一のアダプターが、標的ポリヌクレオチドの両端に付加される。例えば、第１および第２のアダプターを、同じ反応に付加することができる。アダプターを、標的ポリヌクレオチドと合わせる前に操作することができる。例えば、末端リン酸塩を付加または除去することができる。

いくつかの実施形態において、アダプターは、２本の鎖がアニールされるとき、少なくとも１つの二本鎖領域および少なくとも１つの不適合領域を提供するように、２つの部分的に相補性のポリヌクレオチド鎖をアニールすることにより形成されたミスマッチアダプターである。アダプターの「二本鎖領域」は、短い二本鎖領域であり、典型的に、２つの部分的に相補性のポリヌクレオチド鎖のアニーリングにより形成された５個以上の連続塩基対を含む。この用語は、単に二本鎖がアニールされる核酸の二本鎖領域を指し、いかなる特定の構造配置も暗示するものではない。いくつかの実施形態において、二本鎖領域は、約５、１０、１５、２０、２５、３０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド長である。一般に、ミスマッチアダプターの二本鎖領域が、機能を喪失することなく可能な限り短いことが有益である。この文脈において、「機能」とは、二本鎖領域が、酵素触媒された核酸ライゲーション反応のための標準反応条件下で安定した二本鎖を形成することを意味し、これらの条件は、当業者に既知であり（例えば、酵素に適切なライゲーション緩衝液中４℃〜２５℃の範囲の温度でのインキュベーション）、アダプターを形成する２つの鎖が、標的分子へのアダプターのライゲーションの間、部分的にアニールされたままであるようにする。二本鎖領域が、典型的にプライマー伸長またはＰＣＲ反応のアニーリングステップにおいて使用される条件下で安定することは、必ずしも必要とは限らない。典型的に、二本鎖領域は、アダプターの「ライゲーション可能な」末端、すなわち、ライゲーション反応において標的ポリヌクレオチドに連結される末端に隣接する。アダプターのライゲーション可能な末端は、平滑であるか、または他の実施形態において短いことがある。１つ以上のヌクレオチドの５′または３′オーバーハングは、ライゲーションを平易化／促進するように存在し得る。アダプターのライゲーション可能な末端における５′末端ヌクレオチドは、典型的に、試料ポリヌクレオチド上の３′ヒドロキシル基へのホスホジエステル結合を可能にするようにリン酸化される。「不適合領域」という用語は、アダプターを形成する２つのポリヌクレオチド鎖の配列が、非相補性の程度を呈し、２つの鎖がプライマー伸長またはＰＣＲ反応のための標準アニーリング条件下で互いにアニーリングできないようになるアダプターの領域を指す。不適合領域における２本の鎖は、酵素触媒されたライゲーション反応の標準反応条件下で、ある程度のアニーリングを呈し得るが、但し、２つの鎖は、アニーリング条件下で一本鎖形態に戻る。

アダプターオリゴヌクレオチドは、多様な配列要素のうちの１つ以上を含有することができ、１つ以上の増幅プライマーアニーリング配列またはその相補体、１つ以上の配列決定プライマーアニーリング配列またはその相補体、１つ以上のバーコード配列、複数の異なるアダプターまたは異なるアダプターのサブセットの中で共有される１つ以上の共通配列、１つ以上の制限酵素認識部位、１つ以上の標的ポリヌクレオチドオーバーハングに相補性である１つ以上のオーバーハング、１つ以上のプローブ結合部位（例えば、配列決定プラットフォーム、例えば、本明細書に記載される装置等の超並列配列決定のためのフローセル、またはＩｌｌｕｍｉｎａ，Ｉｎｃ．により開発されたフローセルへの結合のため）、１つ以上のランダムまたはニアランダム配列（例えば、１つ以上の位置にある２つ以上の異なるヌクレオチドの群からランダムに選択される１つ以上のヌクレオチド、異なるヌクレオチドのそれぞれは、ランダム配列を含むアダプターのプールに表される１つ以上の位置で選択される）、およびこれらの組み合わせが挙げられるが、これらに限定されない。２つ以上の配列要素は、互いに非隣接であり得るか（例えば、１つ以上のヌクレオチドにより分離される）、互いに隣接し得るか、部分的に重なり得るか、または完全に重なり得る。例えば、増幅プライマーアニーリング配列は、配列決定プライマーアニーリング配列としても機能し得る。配列要素は、３′末端もしくはその付近、５′末端もしくはその付近、またはアダプターオリゴヌクレオチドの内側に位置し得る。アダプターオリゴヌクレオチドが、ヘアピン等の二次構造を形成することができるとき、配列要素は、部分的もしくは完全に二次構造の外側に位置し得るか、部分的もしくは完全に二次構造の内側に位置し得るか、または二次構造に関与する配列間に位置し得る。配列要素は、任意の好適な長さ、例えば、約３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド長であってよい。アダプターオリゴヌクレオチドは、それらが含まれる１つ以上の配列要素を収容するのに少なくとも十分な任意の好適な長さを有することができる。いくつかの実施形態において、アダプターは、約１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、２００，、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド長である。

いくつかの実施形態において、１つの試料からの断片化ポリヌクレオチドに連結されたアダプターオリゴヌクレオチドは、全てのアダプターオリゴヌクレオチドに共通の１つ以上の配列と、その特定の試料のポリヌクレオチドに連結されたアダプターに一意のバーコードとを含み、バーコード配列を使用して、１つの試料またはアダプター連結反応から生じるポリヌクレオチドを、別の試料またはアダプター連結反応から生じるポリヌクレオチドと区別できるようにする。いくつかの実施形態において、アダプターオリゴヌクレオチドは、１つ以上の標的ポリヌクレオチドオーバーハングに相補性である５′オーバーハング、３′オーバーハング、または両方を含む。相補的オーバーハングは、１つ以上のヌクレオチド長であり得、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、またはそれより多くのヌクレオチド長が挙げられるが、これらに限定されない。相補的オーバーハングは、固定配列を含み得る。アダプターオリゴヌクレオチドの相補的オーバーハングは、１つ以上のヌクレオチドのランダム配列を含み得、１つ以上のヌクレオチドが、１つ以上の位置にある２つ以上の異なるヌクレオチドの群からランダムに選択され、異なるヌクレオチドのそれぞれが、ランダム配列を含む相補的オーバーハングを持つアダプターのプールに表される１つ以上の位置で選択されるようになる。いくつかの実施形態において、アダプターオーバーハングは、制限エンドヌクレアーゼ消化により生成された標的ポリヌクレオチドオーバーハングに相補性である。いくつかの実施形態において、アダプターオーバーハングは、アデニンまたはチミンからなる。

いくつかの実施形態において、アダプターオリゴヌクレオチドは、配列要素配列Ｄを含む１本の鎖を含む。いくつかの実施形態において、アダプターオリゴヌクレオチドは、相補配列Ｄ′にハイブリダイズされた配列Ｄを含み、配列Ｄ′は、配列Ｄと同じまたは異なる鎖上にある。いくつかの実施形態において、標的ポリヌクレオチドの３′末端は、アダプターオリゴヌクレオチドに沿って伸長され、相補配列Ｄ′を生成する。好ましい実施形態において、断片化ポリヌクレオチドおよびアダプターオリゴヌクレオチドは、両末端でアダプターオリゴヌクレオチド配列に連結された断片化ポリヌクレオチド配列を含む二本鎖の適合したポリヌクレオチドを生成するように組み合わされ、（例えば、ライゲーションにより、および任意に断片伸長により）処理され、適合したポリヌクレオチドの両末端は、配列Ｄ′にハイブリダイズされた配列Ｄを含む。いくつかの実施形態において、アダプター連結に供される断片化ポリヌクレオチドの量は、約５０ｎｇ、１００ｎｇ、２００ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、６００ｎｇ、７００ｎｇ、８００ｎｇ、９００ｎｇ、１０００ｎｇ、１５００ｎｇ、２０００ｎｇ、２５００ｎｇ、５０００ｎｇ、１０μｇ、もしくはそれより多いか（例えば、閾値量）、それ未満、またはそれ以上である。いくつかの実施形態において、断片化ポリヌクレオチドの量は、アダプター連結を進める前に決定され、アダプター連結は、その量が閾値量を下回る場合は行われない。

「連結」および「ライゲーション」という用語は、アダプターオリゴヌクレオチドおよび試料ポリヌクレオチドのような２つのポリヌクレオチドに関して本明細書において使用される場合、連続する骨格を持つ単一のより大きなポリヌクレオチドを生成するための２つの別個のポリヌクレオチドの共有結合を指す。２つのポリヌクレオチドを連結するための方法は、当該技術分野において既知であり、酵素的および非酵素的（例えば、化学的）方法が挙げられるが、これらに限定されない。非酵素的であるライゲーション反応の例としては、参照により本明細書に組み込まれる、米国特許第５，７８０，６１３号および同第５，４７６，９３０号に記載される非酵素的ライゲーション技法が挙げられる。いくつかの実施形態において、アダプターオリゴヌクレオチドは、リガーゼ、例えば、ＤＮＡリガーゼまたはＲＮＡリガーゼにより断片化ポリヌクレオチドに連結される。それぞれが特徴付けられた反応条件を有する複数のリガーゼは、当該技術分野において既知であり、限定されないが、ｔＲＮＡリガーゼ、ＴａｑＤＮＡリガーゼ、好熱菌（Ｔｈｅｒｍｕｓｆｉｌｉｆｏｒｍｉｓ）ＤＮＡリガーゼ、大腸菌（Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉ）ＤＮＡリガーゼ、ＴｔｈＤＮＡリガーゼ、ＴｈｅｒｍｕｓｓｃｏｔｏｄｕｃｔｕｓＤＮＡリガーゼ（ＩおよびＩＩ）、熱安定リガーゼ、Ａｍｐｌｉｇａｓｅ熱安定ＤＮＡリガーゼ、ＶａｎＣ型リガーゼ、９°ＮＤＮＡリガーゼ、ＴｓｐＤＮＡリガーゼ、および生物資源調査により発見された新規リガーゼを含むＮＡＤ^＋依存性リガーゼ；Ｔ４ＲＮＡリガーゼ、Ｔ４ＤＮＡリガーゼ、Ｔ３ＤＮＡリガーゼ、Ｔ７ＤＮＡリガーゼ、ＰｆｕＤＮＡリガーゼ、ＤＮＡリガーゼ１、ＤＮＡリガーゼＩＩＩ、ＤＮＡリガーゼＩＶ、および生物資源調査により発見された新規リガーゼを含む、ＡＴＰ依存性リガーゼ；ならびにそれらの野生型、変異体アイソフォーム、および遺伝子操作された異型が挙げられる。ライゲーションは、相補性オーバーハングのようなハイブリダイズ可能な配列を有するポリヌクレオチドの間にあり得る。ライゲーションは、２つの平滑末端の間にもあり得る。一般に、５′リン酸塩は、ライゲーション反応において利用される。５′リン酸塩は、断片化ポリヌクレオチド、アダプターオリゴヌクレオチド、または両方により提供され得る。５′リン酸塩は、必要に応じて、連結されるポリヌクレオチドに付加され得るか、またはそれから除去され得る。５′リン酸塩の付加または除去のための方法は、当該技術分野において既知であり、限定されないが、酵素的および化学的プロセスが挙げられる。５′リン酸塩の付加および／または除去に有用な酵素としては、キナーゼ、ホスファターゼ、およびポリメラーゼが挙げられる。いくつかの実施形態において、ライゲーション反応において連結される２つの末端の両方（例えば、アダプター末端および断片化ポリヌクレオチド末端）は、２つの共有結合が２つの末端を連結する際に、断片化ポリヌクレオチドの片方または両端で行われるように、５′リン酸塩を提供する。いくつかの実施形態において、３′リン酸塩は、ライゲーションの前に除去される。いくつかの実施形態において、アダプターオリゴヌクレオチドは、断片化ポリヌクレオチドの両端に付加され、各末端の片方または両方の鎖は、１つ以上のアダプターオリゴヌクレオチドに連結される。いくつかの実施形態において、別個のライゲーション反応は、各試料に少なくとも１つの異なるバーコード配列を含む異なるアダプターオリゴヌクレオチドを使用する異なる試料に対して実行され、どのバーコード配列も並行して分析される複数の試料の標的ポリヌクレオチドに連結されないようになる。

アダプターオリゴヌクレオチドの非限定的な例としては、ＣＡＣＴＣＡＧＣＡＧＣＡＣＧＡＣＧＡＴＣＡＣＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧＴ（配列番号１７）をＧＲＧＡＧＴＣＧＴＣＧＴＧＣＴＧＣＴＡＧＴＧＴＣＴＡＣＡＣＡＴＡＴＴＣＴＣＴＧＴＣ（配列番号１８）にハイブリダイズすることにより形成された二本鎖アダプターが挙げられる。アダプターオリゴヌクレオチドの追加の非限定的な例は、参照により本明細書に組み込まれる、米国公開第２０１１０３１９２９０号および同第２００７０１２８６２４号に記載される。

いくつかの実施形態において、適合したポリヌクレオチドは、試料中の標的ポリヌクレオチドを増幅する増幅反応に供される。いくつかの実施形態において、増幅は、配列Ｃ、配列Ｄ、および試料と関連付けられるバーコードを含むプライマーを使用し、配列Ｄは、増幅プライマーの３′末端に位置付けられる。増幅プライマーは、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、もしくはそれより多くのヌクレオチド、それ未満、またはそれ以上の任意の好適な長さであり得、それらの任意の部分または全ては、プライマーがハイブリダイズする対応する標的配列に相補性であり得る（例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド）。「増幅」は、標的配列のコピー数を増加させる任意のプロセスを指す。標的ポリヌクレオチドのプライマー配向増幅のための方法は、当該技術分野において既知であり、限定されないが、ポリメラーゼ連鎖反応（ＰＣＲ）に基づく方法が挙げられる。ＰＣＲによる標的配列の増幅に好ましい条件は、当該技術分野において既知であり、プロセス中の多様なステップにおいて最適化されることができ、例えば、標的型、標的濃度、増幅される配列長、標的および／または１つ以上のプライマーの配列、プライマー長、プライマー濃度、使用されるポリメラーゼ、反応量、１つ以上の要素と１つ以上の他の要素との比、およびその他の反応における要素の特徴に依存し、それらのうちのいくつか、または全ては変更することができる。一般に、ＰＣＲは、増幅される標的の変性（二本鎖の場合）、標的に対する１つ以上のプライマーのハイブリダイゼーション、およびＤＮＡポリメラーゼによるプライマーの伸長というステップを必要とし、これらのステップは、標的配列を増幅するために反復（または「サイクル化」）する。このプロセスにおけるステップは、収率を増強する、疑似生成物の形成を減少させる、および／またはプライマーアニーリングの特異性を増減させる等の様々な結果に対して最適化することができる。最適化の方法は、当該技術分野において周知であり、増幅反応における要素の種類もしくは量、および／またはプロセスにおける所与のステップの条件（例えば、特定のステップでの温度、特定のステップの期間、および／またはサイクル数）に対する調整を含む。いくつかの実施形態において、増幅反応は、少なくとも５、１０、１５、２０、２５、３０、３５、５０、またはそれより多くのサイクルを含む。いくつかの実施形態において、増幅反応は、５、１０、１５、２０、２５、３５、５０、またはそれより多くを超えないサイクルを含む。サイクルは、任意の数のステップ、例えば、１、２、３、４、５、６、７、８、９、１０、もしくはそれより多くのステップを含むことができる。ステップは、鎖変性、プライマーアニーリング、およびプライマー伸長を含むが、これらに限定されない所与のステップの目的を達成するのに好適な任意の温度または温度の勾配を含むことができる。ステップは、手動で中断されるまで無期限に、約１秒、５秒、１０秒、１５秒、２０秒、２５秒、３０秒、３５秒、４０秒、４５秒、５０秒、５５秒、６０秒、７０秒、８０秒、９０秒、１００秒、１２０秒、１８０秒、２４０秒、３００秒、３６０秒、４２０秒、４８０秒、５４０秒、６００秒、もしくはそれより多いか、それ未満、またはそれ以上であるが、これらに限定されない任意の期間であり得る。異なるステップを含む任意の数の周期は、任意の順序で組み合わせることができる。

いくつかの実施形態において、増幅は、増幅プライマーの３′末端にある配列Ｄと、適合したポリヌクレオチドの配列Ｄ′との間のハイブリダイゼーション、増幅プライマーから誘導された配列Ｄと、プライマー伸長中に生成された配列Ｄ′とを含むプライマー伸長生成物を生成するための適合したポリヌクレオチドに沿った増幅プライマーの伸長を含む。いくつかの実施形態において、増幅プロセスは、プライマー伸長生成物をテンプレートポリヌクレオチドから変性させること、およびそのプライマー伸長生成物をさらなるプライマー伸長反応のテンプレートとして使用するプロセスを反復することにより、１回以上反復される。いくつかの実施形態において、プライマー伸長の第１のサイクルは、第１のプライマー伸長反応において使用されるプライマーと同じプライマーを使用して、約５、１０、１５、２０、２５、３０、３５、５０、またはそれより多いサイクルの間に反復される。いくつかの実施形態において、増幅プライマーによる１つ以上のプライマー伸長の後に、第１の増幅プライマーを持つ増幅により適合したポリヌクレオチドに付加された配列に対して配列相補性（例えば、配列Ｃの相補体またはその一部分に相補性）を含む３′末端を有する第２の増幅プライマーを使用する１つ以上の増幅サイクルが続く。いくつかの実施形態において、第２の増幅プライマーは、配列Ｃ、またはその一部分を３′末端に含む。第２の増幅プライマーの非限定的な例は、ＣＧＡＧＡＴＣＴＡＣＡＣＧＣＣＴＣＣＣＴＣＧＣＧＣＣＡＴＣＡＧ（配列番号１９）を含む。いくつかの実施形態において、第２の増幅プライマーによる増幅は、約５、１０、１５、２０、２５、３０、３５、５０、もしくはそれより多いか、それ未満、またはそれ以上のサイクルを含む。いくつかの実施形態において、増幅に供される適合したポリヌクレオチドの量は、約５０ｎｇ、１００ｎｇ、２００ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、６００ｎｇ、７００ｎｇ、８００ｎｇ、９００ｎｇ、１０００ｎｇ、１５００ｎｇ、２０００ｎｇ、２５００ｎｇ、５０００ｎｇ、１０μｇ、もしくはそれより多いか（例えば、閾値量）、それ未満、またはそれ以上である。いくつかの実施形態において、適合したポリヌクレオチドの量は、増幅を進める前に決定され、その量が閾値量を下回る場合、増幅は行われない。

いくつかの実施形態において、増幅プライマーは、バーコードを含む。本明細書において使用される場合、「バーコード」という用語は、バーコードが関連付けられるポリヌクレオチドのいくつかの特徴が特定されるのを許す既知の核酸配列を指す。いくつかの実施形態において、特定されるポリヌクレオチドの特徴は、ポリヌクレオチドが誘導される試料である。いくつかの実施形態において、バーコードは、約または少なくとも約３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、もしくはそれより多いヌクレオチド長である。いくつかの実施形態において、バーコードは、１０、９、８、７、６、５、または４ヌクレオチド長より短い。いくつかの実施形態において、いくつかのポリヌクレオチドと関連付けられるバーコードは、他のポリヌクレオチドと関連付けられるバーコードとは異なる長さである。一般に、バーコードは十分な長さであり、それらが関連付けられるバーコードに基づく試料の特定を許すように十分に異なる配列を含む。いくつかの実施形態において、バーコード、およびそれが関連付けられる試料の供給源は、バーコード配列中の１つ以上のヌクレオチドの突然変異、挿入、または欠失後、例えば、１、２、３、４、５、６、７、８、９、１０、もしくはそれより多いヌクレオチドの突然変異、挿入、または欠失後に正確に特定することができる。いくつかの実施形態において、複数のバーコード中の各バーコードは、少なくとも３つのヌクレオチド位置、例えば、少なくとも３、４、５、６、７、８、９、１０、もしくはそれより多いヌクレオチド位置において複数のバーコードと１つおきに異なる。複数のバーコードは、試料のプールに表されることがあり、それぞれの試料は、そのプール中の他の試料から誘導されるポリヌクレオチドに含有されるバーコードとは異なる１つ以上のバーコードを含むポリヌクレオチドを含む。１つ以上のバーコードを含むポリヌクレオチドの試料は、それらが連結されるバーコード配列に基づいてプールされ得、ヌクレオチド塩基Ａ、Ｇ、Ｃ、およびＴの４つ全てが、プール中の各バーコードに沿って１つ以上の位置にほぼ均一に表される（例えば、１、２、３、４、５、６、７、８、もしくはそれより多い位置、またはバーコードの全ての位置）。いくつかの実施形態において、本発明の方法は、標的ポリヌクレオチドが、標的ポリヌクレオチドが連結されるバーコード配列に基づいて誘導される試料を特定することをさらに含み、一般に、バーコードは、標的ヌクレオチドに連結されるとき、標的ポリヌクレオチドが誘導された試料の識別子として機能する核酸配列を含む。

いくつかの実施形態において、別個の増幅反応は、それぞれの試料に対して少なくとも１つの異なるバーコード配列を含む増幅プライマーを使用して、別個の試料に対して実行され、いずれのバーコード配列も２つ以上の試料のプール中の複数の試料の標的ポリヌクレオチドに連結されるようになる。いくつかの実施形態において、異なる試料から誘導され、異なるバーコードを含む増幅ポリヌクレオチドが、ポリヌクレオチドの後次操作を進める前にプールされる（例えば、固体支持体上の増幅および／または配列決定前）。プールは、全体反応量を含む総構成増幅反応の任意の分画を含むことができる。試料は、均一または不均一にプールされ得る。いくつかの実施形態において、標的ポリヌクレオチドは、それらが連結されるバーコードに基づいてプールされる。プールは、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、２０、２５、３０、４０、５０、７５、１００、もしくはそれより多いか、それ未満、またはそれ以上の異なる試料から誘導されたポリヌクレオチドを含み得る。試料は、ヌクレオチド塩基Ａ、Ｇ、Ｃ、およびＴをバーコードに沿って均一に１つ以上の位置で表すために、例えば、４、８、１２、１６、２０、２４、２８、３２、３６、４０、４４、４８、５２、５６、６０、６４、９６、１２８、１９２、２５６、３８４等の４の倍数でプールすることができる。バーコードの非限定的な例としては、ＡＧＧＴＣＡ、ＣＡＧＣＡＧ、ＡＣＴＧＣＴ、ＴＡＡＣＧＧ、ＧＧＡＴＴＡ、ＡＡＣＣＴＧ、ＧＣＣＧＴＴ、ＣＧＴＴＧＡ、ＧＴＡＡＣＣ、ＣＴＴＡＡＣ、ＴＧＣＴＡＡ、ＧＡＴＣＣＧ、ＣＣＡＧＧＴ、ＴＴＣＡＧＣ、ＡＴＧＡＴＣ、およびＴＣＧＧＡＴが挙げられる。いくつかの実施形態において、バーコードは、増幅プライマーの配列Ｄと配列Ｃの間、または配列Ｃおよび配列Ｄの後に５′から３′配向（「下流」）に位置付けられる。いくつかの実施形態において、増幅プライマーは、配列ＣＧＡＧＡＴＣＴＡＣＡＣＧＣＣＴＣＣＣＴＣＧＣＧＣＣＡＴＣＡＧＸＸＸＸＸＸＣＡＣＴＣＡＧＣＡＧＣＡＣＧＡＣＧＡＴＣＡＣ（配列番号２１）を含むか、またはそれからなり、それぞれの「Ｘ」は、バーコード配列のゼロ、１つ、またはそれ以上のヌクレオチドを表す。

増幅プライマーの非限定的な例を、表１に提供する。

いくつかの実施形態において、標的ポリヌクレオチドは、本明細書に記載される任意の装置のような固体支持体に結合された複数のオリゴヌクレオチドにハイブリダイズされる。ハイブリダイゼーションは、アダプター連結および増幅のような１つ以上の試料処理ステップの前または後であり得る。好ましい実施形態において、標的ポリヌクレオチドは、アダプター連結および１つ以上の増幅反応の両方の後に固体支持体上のオリゴヌクレオチドにハイブリダイズされる。固体支持体上のオリゴヌクレオチドは、ランダムポリヌクレオチド配列、複数の異なる標的ポリヌクレオチドに共通する特定配列（例えば、配列Ｄ、Ｄ′、もしくはその一部分等のアダプターオリゴヌクレオチドから誘導される１つ以上の配列）、増幅プライマーから誘導される１つ以上の配列（例えば、配列Ｃ、Ｃ′、もしくはその一部分、またはこれらの組み合わせ）、異なる標的ポリヌクレオチドに特定配列（例えば、本明細書に記載される配列Ｂにより表される）、またはこれらの組み合わせにハイブリダイズすることができる。いくつかの実施形態において、固体支持体は、配列Ａおよび配列Ｂを含む複数の異なる第１のオリゴヌクレオチドを含み、配列Ａは、全ての第１のオリゴヌクレオチドの中で共通であり、さらに配列Ｂは、それぞれの異なる第１のオリゴヌクレオチドに対して異なり、それぞれの第１のオリゴヌクレオチドの３′末端にある。いくつかの実施形態において、複数の第１のオリゴヌクレオチドは、約５、１０、２５、５０、７５、１００、１２５、１５０、１７５、２００、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多いか、それ未満、またはそれ以上の異なるオリゴヌクレオチドを含み、それぞれが、異なる配列Ｂを含む。いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂは、図４−１〜３に示される配列番号２２〜１２１からなる群から選択される配列を含む（例えば、１、５、１０、２５、５０、７５、または１００個の異なるオリゴヌクレオチドは、それぞれが図４−１〜３からの異なる配列を持つ）。いくつかの実施形態において、配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、本明細書に記載されるように、原因となる遺伝的変異体を含む。いくつかの実施形態において、配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、本明細書に記載されるように、原因となる遺伝的変異体の約１、２、３、４、５、６、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、またはそれより多いヌクレオチド以内にある。原因となる遺伝的変異体は、典型的に、第１のオリゴヌクレオチドの下流に位置し、原因となる遺伝的変異体の少なくとも一部分が、第１のオリゴヌクレオチドの伸長のためのテンプレートとして機能するようになる。固体支持体は、本明細書に記載されるように、それぞれの第２のオリゴヌクレオチドの３′末端に配列Ａを含む複数の第２のオリゴヌクレオチドと、それぞれの第３のオリゴヌクレオチドの３′末端に配列Ｃを含む複数の第３のオリゴヌクレオチドと、をさらに含むことができる。

いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、非対象配列を含む。いくつかの実施形態において、配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、非対象配列の約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。一般に、非対象配列は、試験される個体、または試料が採取された個体以外の生物から誘導されたポリヌクレオチド、例えば、細菌、古細菌、ウイルス、原生生物、真菌、または他の生物からのＤＮＡまたはＲＮＡに対応する。非対象配列は、胎児からの核酸、例えば、胎児からの無細胞核酸（細胞外核酸とも称される）を含むこともできる。非対象配列は、生物の同一性を示し得るか、またはさらに感染等の疾患状態を示し得る。生物を特定する際に有用な非対象配列の例としては、限定されないが、ｒＲＮＡ配列、例えば、１６ｓｒＲＮＡ配列が挙げられる（例えば、国際公開第２０１０１５１８４２号を参照）。いくつかの実施形態において、非対象配列は、原因となる遺伝的変異体の代わりに、またはそれとは別に分析される。いくつかの実施形態において、原因となる遺伝的変異体および非対象配列は、例えば、同じ試料中（例えば、原因となる遺伝的変異体を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものと、非対象配列を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものとの第１のオリゴヌクレオチドの混合物を使用する）および／または同じレポートにおいて並行して分析される。

いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、祖先情報提供マーカー（ＡＩＭ）を含む。いくつかの実施形態において、配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、ＡＩＭの約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にあり、ＡＩＭは、原因となる遺伝的変異体のうちの１つに対して危険性が高い集団のような１つ以上の集団に属するか、または属しない人を分類するために使用され得る。例えば、ＡＩＭは、ある形質の保有率が高い集団に対して特徴的であり得る。場合によっては、ＡＩＭは、より細かい精度で集団、例えば、亜大陸グループまたは関連する民族グループを区別する。いくつかの実施形態において、ＡＩＭは、原因となる遺伝的変異体および／または非対象配列の代わりに、またはそれとは別に分析される。いくつかの実施形態において、ＡＩＭ、原因となる遺伝的変異体、および／または非対象配列は、同じ試料中（例えば、原因となる遺伝的変異体を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものと、ＡＩＭを含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものとの第１のオリゴヌクレオチドの混合物を使用する）および／または同じレポートにおいて並行して分析される。

いくつかの実施形態において、この方法は、固体支持体上で架橋増幅を行うことをさらに含む。一般に、架橋増幅は、テンプレートへのプライマーのアニーリング、プライマー伸長、およびテンプレートからの伸長プライマーの分離の反復ステップを使用する。これらのステップは、一般に、ＰＣＲ（または逆転写酵素＋ＰＣＲ）技法において当業者に既知の試薬および条件を使用して行うことができる。したがって、核酸ポリメラーゼは、好適なテンプレートの存在下で、プライマーを伸長するようにヌクレオシド三リン酸塩分子（またはＤＮＡ／ＲＮＡに存在するヌクレオチドの前駆体として機能する他の分子、例えば、修飾ヌクレオシド三リン酸塩）の供給と一緒に使用することができる。望ましくは、過剰なデオキシリボヌクレオシド三リン酸塩が望ましくは提供される。好ましいデオキシリボヌクレオシド三リン酸塩は、ｄＴＴＰ（デオキシチミジンヌクレオシド三リン酸塩）、ｄＡＴＰ（デオキシアデノシンヌクレオシド三リン酸塩）、ｄＣＴＰ（デオキシシトシンヌクレオシド三リン酸塩）、およびｄＧＴＰ（デオキシグアノシンヌクレオシド三リン酸塩）と省略される。好ましいリボヌクレオシド三リン酸塩は、ＵＴＰ、ＡＴＰ、ＣＴＰ、およびＧＴＰである。しかしながら、代替が可能である。これらは、天然に存在し得るか、または非天然に存在し得る。一般にＰＣＲ反応に使用される種類の緩衝液が提供されてもよい。プライマー伸長中にヌクレオチドを組み込むために使用される核酸ポリメラーゼは、好ましくは、それが数回使用され得るために利用される反応条件下で安定している。したがって、加熱を使用して新たに合成された核酸鎖をそのテンプレートから分離する場合、核酸ポリメラーゼは、好ましくは使用される温度で熱安定性である。そのような熱安定性ポリメラーゼは、当業者に既知である。それらは、好熱性微生物から得られ、Ｔａｑポリメラーゼとして知られるＤＮＡ依存性ＤＮＡポリメラーゼ、およびその熱安定性誘導体も含む。

典型的に、プライマーのそのテンプレートへのアニーリングは、２５℃〜９０℃の温度で行う。この範囲の温度は、典型的に、プライマー伸長中にも使用され、アニーリングおよび／または変性中に使用される温度と同じであり得るか、または異なり得る。アニーリングを許し、また所望の程度のプライマー伸長が起こるのを許すのに十分な時間が経過した後、所望される場合、鎖分離を許すように温度を高めることができる。この段階で、温度は、典型的に、６０℃〜１００℃の温度に高められる。アニーリングの前に非特異的プライミング問題を低減するため、および／または増幅開始のタイミングを制御するため、例えば、多数の試料の増幅開始を同期させるために、高い温度を使用することもできる。代替として、低塩および高ｐＨ（１２超）の溶液での処理によるか、またはカオトロピック塩（例えば、グアニジン塩酸塩）を使用することによるか、または有機溶媒（例えば、ホルムアミド）により、鎖が分離され得る。

鎖分離（例えば、加熱による）に続いて、洗浄ステップが行われ得る。この洗浄ステップは、例えば、同じテンプレートを固定プライマーの近接に維持することが所望される場合に、アニーリング、プライマー伸長、および鎖分離の初期段階の間で省略され得る。これは、コロニー形成を開始するためにテンプレートが数回使用されるのを許す。固体支持体上の増幅により生成されるコロニーのサイズは、例えば、アニーリング、プライマー伸長、および鎖分離が起こるサイクル数を制御することにより制御することができる。コロニーのサイズに作用する因子を制御することもできる。これらは、固定プライマーの表面上の数および配置、プライマーが固定される支持体の構成、テンプレートおよび／またはプライマー分子の長さおよび剛性、温度、ならびに上述のサイクルが行われ得る流体のイオン強度および粘度を含む。

本発明の方法に従う増幅プロセスの非限定的な例が、図１に示され、以下に記載される。第１に、固体支持体に結合され、配列Ｂをその３′末端に含む第１のオリゴヌクレオチドは、相補性標的配列Ｂ′、例えば、複数の異なる標的ポリヌクレオチド（例えば、特定のゲノムＤＮＡ配列）中の特定の標的ポリヌクレオチドに固有の配列にハイブリダイズする。このようにして、配列Ｂはプローブとして機能する。図１の標的ポリヌクレオチドは、アダプターオリゴヌクレオチド（例えば、配列ＤおよびＤ′）および増幅プライマー（例えば、ＣおよびＣ′）から誘導される配列を含む。第１のオリゴヌクレオチドの伸長は、固体支持体に結合された第１の伸長を生成し、第１の伸長生成物は、５′から３′に配列Ａ、Ｂ、Ｃ′、およびＤ′を含み、配列Ｃ′は、配列Ｃに相補性であり、配列Ｄ′は、配列Ｄに相補性である。次に、第１の伸長生成物は、標的ポリヌクレオチドテンプレートから（例えば、熱または化学変性により）分離される。次に、第１の伸長生成物の配列Ｃ′は、固体支持体に結合された複数の第３のオリゴヌクレオチドのうちの１つにハイブリダイズし、第３のオリゴヌクレオチドは、配列Ｃをその３′末端に含む。第３のオリゴヌクレオチドの伸長は、固体支持体に結合された第２の伸長生成物を生成し、第２の伸長生成物は、５′から３′に配列Ｃ、Ｄ、Ｂ′、およびＡ′を含み、配列Ｂ′は、配列Ｂに相補性であり、配列Ａ′は、配列Ａに相補性である。２つの伸長生成物は、二本鎖ポリヌクレオチド「架橋」を形成し、一本の鎖が両端で固体支持体に結合される。次に、第１および第２の伸長生成物は変性され、伸長生成物と他のオリゴヌクレオチドとの間の部分配列ハイブリダイゼーションに続く伸長は、第１および第２の伸長生成物を複製する。例えば、それぞれの第１の伸長生成物は、第２の伸長生成物の追加のコピーを生成するように、さらなる第３のオリゴヌクレオチドにハイブリダイズすることができる。さらに、第２の伸長生成物は、固体支持体に結合された複数の第２のオリゴヌクレオチドのうちの１つにハイブリダイズすることができ、第２のオリゴヌクレオチドは、配列Ａをその３′末端に含む。第２のオリゴヌクレオチドの伸長は、第１の伸長生成物の配列を含む伸長生成物を生成する。伸長生成物に沿った一連の伸長は、最初の第１の伸長生成物から放射状に外に広がり、第１の伸長生成物のクラスタまたは「コロニー」および単一の標的ポリヌクレオチドから誘導されるそれらの相補性第２の伸長生成物を生成する。このプロセスは、異なる配列または配列配置を含むオリゴヌクレオチド、異なる標的ポリヌクレオチドまたは標的ポリヌクレオチドの組み合わせ、固体支持体の種類、および特定の架橋増幅反応に依存する他の考慮事項に対応するように修飾され得る。一般に、このプロセスは、標的ポリヌクレオチドおよび非標的ポリヌクレオチドを含む試料ポリヌクレオチドからの特定の標的ポリヌクレオチドの固体支持体上の増幅を提供する。一般に、標的ポリヌクレオチドは、選択的に増幅するが、試料中の非標的ポリヌクレオチドは、増幅しないか、またははるかに低い程度、例えば、１つ以上の標的ポリヌクレオチドより約１０倍、１００倍、５００倍、１０００倍、２５００倍、５０００倍、１００００倍、２５０００倍、５００００倍、１０００００倍、１００００００倍、もしくはそれより多いか、それ未満だけ低く増幅する。

いくつかの実施形態において、架橋増幅に供された以前の増幅ステップから増幅したポリヌクレオチドの量は、約５０ｎｇ、１００ｎｇ、５００ｎｇ、１μｇ、２μｇ、３μｇ、４μｇ、５μｇ、６μｇ、７μｇ、８μｇ、９μｇ、１０μｇ、１１μｇ、１２μｇ、１３μｇ、１４μｇ、１５μｇ、２０μｇ、２５μｇ、２６μｇ、２７μｇ、２８μｇ、２９μｇ、３０μｇ、４０μｇ、５０μｇ、もしくはそれより多いか、それ未満、またはそれ以上である（例えば、閾値量）。いくつかの実施形態において、以前の増幅ステップから増幅したポリヌクレオチドの量は、架橋増幅を進める前に決定され、その量が閾値量を下回る場合、架橋増幅は行われない。

いくつかの実施形態において、架橋増幅に続いて、固体支持体に結合された複数のオリゴヌクレオチドを配列決定する。試薬および反応条件を含む、固体支持体に結合されたポリヌクレオチドを配列決定するための一般的な方法は、当該技術分野において既知である。いくつかの実施形態において、配列決定は、単一末端配列決定を含むか、またはそれからなる。いくつかの実施形態において、配列決定は、対合末端配列決定を含むか、またはそれからなる。配列決定は、任意の好適な配列決定技法を使用して実行することができ、ヌクレオチドは、連続して遊離３′ヒドロキシル基に付加され、５′から３′配向のポリヌクレオチド鎖の合成をもたらす。付加されるヌクレオチドの同一性は、好ましくは、それぞれのヌクレオチド付加後に決定される。全ての隣接する塩基が配列決定されるとは限らないライゲーションによる配列決定を使用する配列決定技法、および塩基が表面上の鎖に付加されるのではなく、そこから除去される超並列シグネチャー配列決定（ＭＰＳＳ）もまた、ピロリン酸放出（ピロ配列決定）の検出を使用する技術であるため、本発明の範囲内である。そのようなピロ配列決定に基づく技法は、特に、ビーズがライブラリー分子からの単一テンプレートが、それぞれのビーズ上で増幅されるように乳剤中で増幅されている、ビーズの配列決定アレイに適用可能である。

本発明の方法で使用することができる１つの特定配列決定方法は、可逆的連鎖停止剤として作用することができる修飾ヌクレオチドの使用に依存する。そのような可逆的連鎖停止剤は、例えば、国際公開第０４０１８４９７号および米国特許第７０５７０２６号に記載されるように、除去可能な３′保護基を含む。そのような修飾ヌクレオチドが、配列決定されるテンプレートの領域に相補性の成長ポリヌクレオチド鎖に組み込まれると、さらなる配列伸長を配向するために使用できる遊離３′−ＯＨ基は存在しないため、ポリメラーゼは、さらなるヌクレオチドを付加することができない。成長鎖に組み込まれる塩基の同一性が決定されると、３′保護基は、次の連続するヌクレオチドの付加を許すように除去され得る。これらの修飾ヌクレオチドを使用して誘導される生成物を順序付けることにより、ＤＮＡテンプレートのＤＮＡ配列を推測することが可能である。そのような反応は、修飾ヌクレオチドのそれぞれが、特定の塩基に対応することが知られている異なる標識に結合した場合、修飾ヌクレオチドのそれぞれが単一実験において行い、それぞれの統合ステップにおいて付加された塩基間の区別を容易にすることができる。好適な標識の非限定的な例は、国際公開第２００７／１３５３６８号に記載され、その内容は、参照によりそれら全体が本明細書に組み込まれる。代替として、個別に付加された修飾ヌクレオチドのそれぞれを含有する別個の反応を実行することができる。

修飾ヌクレオチドは、それらの検出を容易にするための標識を担持し得る。特定の実施形態において、標識は蛍光標識である。それぞれのヌクレオチド型は、異なる蛍光標識を担持し得る。しかしながら、検出可能な標識は、蛍光標識である必要はない。ＤＮＡ配列へのヌクレオチドの組み込みの検出を許す任意の標識を使用することができる。蛍光標識されたヌクレオチドを検出するための方法は、標識ヌクレオチドに特異的な波長のレーザー光線を使用すること、または他の好適な光源の使用を含む。組み込まれたヌクレオチド上の標識からの蛍光は、ＣＣＤカメラまたは他の好適な検出手段により検出され得る。好適な検出手段は、国際公開第２００７／１２３７４４号に記載され、その内容は、参照によりそれら全体が本明細書に組み込まれる。

いくつかの実施形態において、第１の配列決定反応は、固体支持体に結合したオリゴヌクレオチドに含有される切断部位での切断により形成された３′末端から進行し、そのオリゴヌクレオチドは、架橋増幅中に伸長された。いくつかの実施形態において、切断鎖は、結合したオリゴヌクレオチドの伸長により配列決定する前に、その相補鎖から分離される。いくつかの実施形態において、切断により形成された新たに遊離された３′末端を有する結合したオリゴヌクレオチドは、鎖置換活性を有するポリメラーゼを使用して伸長され、切断した鎖は、新たな鎖が伸長されると置換される。いくつかの実施形態において、結合したオリゴヌクレオチドの伸長は、増幅反応からのテンプレート伸長生成物の全長に沿って進み、いくつかの実施形態において、最後に特定されたヌクレオチドを越える伸長を含む。いくつかの実施形態において、次にテンプレート伸長生成物は、固体支持体に結合したオリゴヌクレオチドに含有される切断部位で切断され、配列決定反応中に伸長したオリゴヌクレオチドは、遊離された第１の配列決定伸長生成物を生成するために線形化される。次に、第１の配列決定生成物の５′末端は、配列決定プライマー（例えば、本明細書に記載される配列決定プライマー）の伸長によるか、または切断部位での切断により形成される３′末端からの伸長により進めることができる、第２の配列決定反応のテンプレートとして機能し得る。いくつかの実施形態において、配列決定されるテンプレートポリヌクレオチドに沿って特定されたヌクレオチド数の平均または中央値は、約１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、１５０、２００、３００、４００、５００、もしくはそれより多いか、それ未満、またはそれ以上である。

いくつかの実施形態において、配列決定は、少なくとも部分的に一本鎖であるテンプレートを生成するために、実質的に全てを除去するか、または「架橋」構造における固定鎖のうちの１つの少なくとも一部分を除去もしくは置換するように、架橋増幅生成物を処理することを含む。したがって、一本鎖であるテンプレートの一部分は、配列決定プライマーを用いるハイブリダイゼーションに使用可能である。架橋二本鎖核酸構造における１つの固定鎖の全てまたは一部分を除去するプロセスは、本明細書において「線形化」と称されることがあり、国際公開第０７０１０２５１号にさらに詳細に記載され、その内容は、参照によりそれら全体が本明細書に組み込まれる。

架橋テンプレート構造は、制限エンドヌクレアーゼを用いた片方もしくは両方の鎖の切断によるか、または切断エンドヌクレアーゼを用いた１つの鎖の切断により線形化され得る。切断の他の方法は、制限酵素または切断酵素の代替として使用することができ、化学切断（例えば、過ヨウ素を用いるジオール結合の切断）、エンドヌクレアーゼを用いた切断による脱塩基部位の切断（例えば、ＮＥＢにより供給される「ＵＳＥＲ」、パーツ番号Ｍ５５０５Ｓ）、熱またはアルカリへの曝露による、それ以外ではデオキシリボヌクレオチドからなる増幅生成物に組み込まれるリボヌクレオチドの切断、光化学切断またはペプチドリンカーの切断を含むが、これらに限定されない。いくつかの実施形態において、線形化ステップは、例えば、共有結合で固定化した１つのみの増幅オリゴヌクレオチドを用いて、別の増幅オリゴヌクレオチドを溶液中に含まないで固相増幅反応が行われるときに回避され得る。切断ステップに続いて、切断に使用される方法に関係なく、切断反応の生成物は、固体支持体に結合されない切断鎖（複数可）の一部分（複数可）を除去するために変性条件に供され得る。好適な変性条件は、例えば、水酸化ナトリウム溶液、ホルムアミド溶液、または熱は、例えば、標準分子生物学プロトコルに記載されるように、当該技術分野において既知である（Ｓａｍｂｒｏｏｋｅｔａｌ．，２００１，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ，ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，３ｒｄＥｄ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＮＹ；ＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓ，ｅｄｓＡｕｓｕｂｅｌｅｔａｌ．）。変性は、部分的または実質的に一本鎖である配列決定テンプレートの生成をもたらす。次に、配列決定反応は、テンプレートの一本鎖部分への配列決定プライマーのハイブリダイゼーションにより開始されてよい。したがって、本発明は、核酸シーケンシング反応が、配列決定プライマーを線形化増幅生成物の一本鎖領域にハイブリダイズすることと、１つ以上のヌクレオチドを配列決定される増幅テンプレート鎖の領域に相補性のポリヌクレオチド鎖に連続的に組み込むことと、組み込まれたヌクレオチド（複数可）のうちの１つ以上に存在する塩基を特定することと、それによりテンプレート鎖の領域の配列を決定することと、を含む方法を包含する。

いくつかの実施形態において、配列決定プライマーは、アダプターオリゴヌクレオチドから誘導された１つ以上の配列に相補性の配列、増幅プライマー、固体支持体に結合されたオリゴヌクレオチド、またはこれらの組み合わせを含む。いくつかの実施形態において、配列決定プライマーは、配列Ｄまたはその一部分を含む。いくつかの実施形態において、配列決定プライマーは、配列Ｃまたはその一部分を含む。配列決定プライマーは、任意の好適な長さ、例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチドであり得、その任意の部分または全ては、プライマーがハイブリダイズする対応する標的配列に相補性であり得る（例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド）。いくつかの実施形態において、配列決定プライマーは、配列ＣＡＣＴＣＡＧＣＡＧＣＡＣＧＡＣＧＡＴＣＡＣＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧ（配列番号２０）を含む。

一般に、配列決定プライマーの伸長は、配列決定伸長生成物を生成する。配列決定プロセス中で特定される配列決定伸長生成物に付加されるヌクレオチドの数は、テンプレート配列、反応条件、使用される試薬、および他の因子を含む多数の因子に依存し得る。いくつかの実施形態において、成長配列決定プライマーに沿って特定されたヌクレオチド数の平均または中央値は、約１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、１５０、２００、３００、４００、５００、もしくはそれより多いか、それ未満、またはそれ以上である。いくつかの実施形態において、配列決定プライマーは、増幅反応からのテンプレートプライマー伸長生成物の全長に知って伸長され、いくつかの実施形態において、最後に特定されたヌクレオチドを超える伸長を含む。

いくつかの実施形態において、配列決定伸長生成物は、テンプレートを部分的または完全に一本鎖にし、第２の配列決定プライマーとのハイブリダイゼーションに使用可能にするために、配列決定伸長生成物を、それがハイブリダイズされる結合したテンプレート鎖から除去するように変性条件に供される。第２の配列決定プライマーは、第１の配列決定プライマーと同じであり得るか、または異なり得る。いくつかの実施形態において、第２の配列決定プライマーは、第１の配列決定プライマーがハイブリダイズする配列よりも標的核酸の５′末端の近くに位置する配列にハイブリダイズする。いくつかの実施形態において、第２の配列決定プライマーは、第１の配列決定プライマーがハイブリダイズする配列よりも標的核酸の３′末端の近くに位置する配列にハイブリダイズする。いくつかの実施形態において、第１および第２の配列決定プライマーのうちの１つのみが、バーコード配列に沿って伸長し、それによりそのバーコード配列中のヌクレオチドを特定する。いくつかの実施形態において、１つの配列決定プライマー（例えば、第１の配列決定プライマー）は、バーコードから５′に位置する配列にハイブリダイズし（この配列決定プライマーの伸長が、バーコードに相補性の配列を生成しなくなる）、別の配列決定プライマー（例えば、第２の配列決定プライマー）は、バーコードから３′に位置する配列にハイブリダイズする（この配列決定プライマーの伸長が、バーコードに相補性の配列を生成するようになる）。いくつかの実施形態において、第２の配列決定プライマーは、配列番号１９を含む。

本発明は、本質的にポリヌクレオチド鎖へのヌクレオチドの連続組み込みに依存する任意の配列決定手法を使用することができるため、上記のような配列決定方法の使用に限定されることを意図しない。好適な技法としては、例えば、米国特許第６３０６５９７号、米国公開第２００９０２３３８０２号、同第２０１２００５３０７４号、および同第２０１１０２２３６０１号に記載されるものが挙げられ、それらは参照によりそれら全体が組み込まれる。鎖再合成が用いられる場合において、両方の鎖は、固定化された鎖の一部分の後次解放を許すように、表面に固定化されなければならない。これは、国際公開第０７０１０２５１号に記載される多数の機構を通じて達成することができ、その内容が参照によりその全体が本明細書に組み込まれる。例えば、１つのプライマーは、ウラシルヌクレオチドを含有することができ、これは、ヌクレオチド塩基を除去する酵素ウラシルＤＮＡグリコシラーゼ（ＵＤＧ）、および脱塩基性ヌクレオチドを切除するエンドヌクレアーゼＶＩＩＩを使用して、ウラシル塩基において鎖を切断できることを意味する。この酵素の組み合わせは、ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢパーツ番号Ｍ５５０５）からＵＳＥＲ（商標）として入手可能である。第２のプライマーは、８−オキソグアニンヌクレオチドを含み得、次に、酵素ＦＰＧ（ＮＥＢパーツ番号Ｍ０２４０）により切断可能である。プライマーのこの設計は、どのプライマーがプロセスのどの時点で切断されるか、およびクラスタのどこで切断が起こるかの完全な制御を提供する。プライマーは、例えば、特定の位置での化学的切断を許すジスルフィドまたはジオール修飾を用いて化学的に修飾され得る。

いくつかの実施形態において、配列決定データは、単一反応容器（例えば、フローセル中のチャネル）内の試料から約５、１０、２５、５０、１００、１５０、２００、２５０、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多いか、それ未満、またはそれ以上の異なる標的ポリヌクレオチドに対して生成される。いくつかの実施形態において、配列決定データは、複数の試料、例えば、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２４、４８、９６、１９２、３８４、７６８、１０００、もしくはそれより多いか、それ未満、またはそれ以上の試料に対して並行して生成される。いくつかの実施形態において、配列決定データは、単一反応容器（例えば、フローセル内のチャネル）内の複数の試料、例えば、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２４、４８、９６、１９２、３８４、７６８、１０００、もしくはそれより多いか、それ未満、またはそれ以上の試料に対して生成され、配列決定データは、配列決定されたポリヌクレオチドが起源とする試料に従い後次に分類される。単一反応において、配列決定データは、架橋増幅反応から約または少なくとも約１０^６、１０^７、１０^８、２×１０^８、３×１０^８、４×１０^８、５×１０^８、１０^９、１０^１０、もしくはそれより多い標的ポリヌクレオチドまたはクラスタに対して生成され得、その反応において、それぞれの試料に対して約１０^４、１０^５、１０^６、２×１０^６、３×１０^６、４×１０^６、５×１０^６、１０^７、１０^８、もしくはそれより多いか、それ未満、またはそれ以上の標的ポリヌクレオチドまたはクラスタの配列決定データを含み得る。いくつかの実施形態において、約５、１０、２５、５０、７５、１００、１２５、１５０、１７５、２００、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多いか、それ未満、またはそれ以上の原因となる遺伝的変異体の存在、非存在、または遺伝子型は、配列決定データに基づいて試料に対して決定される。１つ以上の原因となる遺伝的変異体の存在、非存在、または遺伝子型は、約８０％、８５％、９０％、９５％、９７．５％、９９％、９９．５％、９９．９％、もしくはそれより高いか、またはそれ以上の精度で決定され得る。

いくつかの実施形態において、本発明の方法におけるステップのうちの１つ以上、または全ては、例えば、１つ以上の自動デバイスの使用により自動化される。一般に、自動デバイスは、ヒトの指示なしに作動することができるデバイスであり、自動システムは、例えば、自動デバイスがさらなるヒトの操作なしに１つ以上のステップを行った後にコンピューターに命令を入力することにより、ヒトが機能を促進するように任意の動作を行った後の期間中に機能を行うことができる。本発明の実施形態を実現するコードを含むソフトウェアおよびプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、テープ、フラッシュドライブ、もしくはディスク、または他の適切なコンピューター可読媒体等のいくつかの種類のデータ記憶媒体上に記憶されてもよい。本発明の様々な実施形態は、ハードウェアのみで、またはソフトウェアおよびハードウェアの組み合わせで実現することもできる。例えば、一実施形態において、従来のパーソナルコンピューターではなく、プログラマブル論理制御装置（ＰＬＣ）が使用される。当業者に既知の通り、ＰＬＣは、汎用コンピューターにかかる費用が不要である多様なプロセス制御アプリケーションにおいて頻繁に使用される。ＰＬＣは、１つまたは多様な制御プログラムを実行する既知の方法で構成され得、ユーザーもしくは別のデバイスからの入力を受け取ることができ、および／またはパーソナルコンピューターのそれに似た方法で、ユーザーもしくは別のデバイスに出力を提供することができる。したがって、本発明の実施形態は、汎用コンピューターに関して説明されているが、他の構成が使用され得るため、汎用コンピューターの使用は単なる例示であることを理解されたい。

いくつかの実施形態において、自動化は、１つ以上の液体ハンドラーおよび関連ソフトウェアの使用を含み得る。いくつかの市販の液体ハンドリングシステムを利用して、これらのプロセスの自動化を行うことができる（例えば、例として、Ｐｅｒｋｉｎ−Ｅｌｍｅｒ、ＢｅｃｋｍａｎＣｏｕｌｔｅｒ、ＣａｌｉｐｅｒＬｉｆｅＳｃｉｅｎｃｅｓ、Ｔｅｃａｎ、Ｅｐｐｅｎｄｏｒｆ、ＡｐｒｉｃｏｔＤｅｓｉｇｎ、Ｖｅｌｏｃｉｔｙ１１からの液体ハンドラーを参照）。いくつかの実施形態において、自動ステップは、断片化、末端修復、Ａ−テーリング（アデニンオーバーハングの付加）、アダプター連結、ＰＣＲ増幅、試料定量化（例えば、ＤＮＡの量および／または純度）、および配列決定のうちの１つ以上を含む。いくつかの実施形態において、固体表面に結合した増幅ポリヌクレオチドのハイブリダイゼーション、テンプレートとしての増幅ポリヌクレオチドに沿った伸長、および／または架橋増幅が、自動化される（例えば、ＩｌｌｕｍｉｎａｃＢｏｔの使用により）。架橋増幅を行うためのデバイスの非限定的な例は、国際公開第２００８００２５０２号に記載される。いくつかの実施形態において、配列決定は自動化される。多様な自動配列決定機器が市販されており、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＳＯＬｉＤプラットフォーム、およびｐＨに基づく検出）、Ｒｏｃｈｅ（４５４プラットフォーム）、Ｉｌｌｕｍｉｎａ（例えば、フローセルに基づくシステム、例えば、ゲノムアナライザー、ＨｉＳｅｑ、またはＭｉＳｅｑシステム）により製造されるシーケンサーを含む。２、３、４、５、またはそれ以上の自動デバイス間（例えば、液体ハンドラー、架橋増幅デバイス、および配列決定デバイスのうちの１つ以上の間）での伝達は、手動または自動であり得る。いくつかの実施形態において、本発明の方法における１つ以上のステップ（例えば、全てのステップまたは全ての自動化ステップ）は、約７２、４８、２４、２０、１８、１６、１４、１２、１０、９、８、７、６、５、４、３、２、１、もしくはそれ以下、またはそれ未満の時間内に完了される。いくつかの実施形態において、試料受領、ＤＮＡ抽出、断片化、アダプター連結、増幅、または架橋増幅からの配列決定データの生成までの時間は、約７２、４８、２４、２０、１８、１６、１４、１２、１０、９、８、７、６、５、４、３、２、１、もしくはそれ以下、またはそれ未満の時間である。

一態様において、本発明は、試料中の複数の異なる標的ポリヌクレオチドを富化する方法を提供する。いくつかの実施形態において、この方法は、（ａ）配列Ｙを含むアダプターオリゴヌクレオチドを標的ポリヌクレオチドのそれぞれに連結することと、（ｂ）複数の異なるオリゴヌクレオチドプライマーを、適合した標的ポリヌクレオチドにハイブリダイズすることであって、それぞれのオリゴヌクレオチドプライマーが、配列Ｚおよび配列Ｗを含み、配列Ｚが、全てのオリゴヌクレオチドプライマーの中で共通であり、さらに配列Ｗが、それぞれの異なるオリゴヌクレオチドプライマーに対して異なり、それぞれのオリゴヌクレオチドプライマーの３′末端に位置付けられ、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、ハイブリダイズすることと、（ｃ）伸長反応において、配列Ｚおよび配列Ｙ′を含む伸長したプライマーを生成するように、オリゴヌクレオチドプライマーを適合した標的ポリヌクレオチドに沿って伸長することであって、配列Ｙ′が、配列Ｙに相補性である、伸長することと、（ｄ）（ｉ）第１の増幅プライマーであって、配列Ｖおよび配列Ｚを含み、配列Ｚが第１の増幅プライマーの３′末端に位置付けられる、第１の増幅プライマー、ならびに（ｉｉ）第２の増幅プライマーであって、配列Ｘおよび配列Ｙを含み、配列Ｙが第２の増幅プライマーの３′末端に位置付けられる、第２の増幅プライマーの対を使用して、指数関数的に増幅することと、を含む。いくつかの実施形態において、それぞれのオリゴヌクレオチドプライマーは、第１の結合パートナーを含む。いくつかの実施形態において、この方法は、ステップ（ｄ）の前に、伸長したプライマーを、第１の結合パートナーに結合する第２の結合パートナーを含む固体表面に曝露することと、それにより伸長したプライマーを、伸長反応の１つ以上の成分から取り出して精製することをさらに含む。いくつかの実施形態において、配列Ｖ、Ｗ、Ｘ、Ｙ、およびＺのうちの１つ以上は、異なる配列である。いくつかの実施形態において、配列Ｖおよび配列Ｘは同じである。いくつかの実施形態において、配列Ｖおよび／または配列Ｘは、それらそれぞれのプライマーに含まれない。いくつかの実施形態において、配列Ｖ、Ｗ、Ｘ、Ｙ、およびＺのうちの１つ以上は、配列Ｖ、Ｗ、Ｘ、Ｙ、およびＺのその他の１つ以上と、約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、もしくはそれより多いか、それ未満、またはそれ以上異なる（例えば、約１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、もしくはそれより高い配列同一性、またはそれより低い配列同一性を有する）。いくつかの実施形態において、配列Ｖ、Ｗ、Ｘ、Ｙ、およびＺのうちの１つ以上は、それぞれ約１、２、３、４、５、６、７、８、９、１０、１５、２０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチドを含む。いくつかの実施形態において、本発明の他の態様に関して記載されるように、配列Ｖまたは配列Ｚは、配列Ａに相当し、配列Ｗは、配列Ｂに相当し、配列Ｘは、配列Ｃに相当し、および／または配列Ｙは、配列Ｄに相当する。

一態様において、本発明は、試料中の複数の異なる標的ポリヌクレオチドを富化する方法を提供する。いくつかの実施形態において、この方法は、（ａ）複数の異なるオリゴヌクレオチドプライマーを、標的ポリヌクレオチドにハイブリダイズすることであって、それぞれのオリゴヌクレオチドプライマーが、配列Ｚおよび配列Ｗを含み、配列Ｚが、全てのオリゴヌクレオチドプライマーの中で共通であり、さらに配列Ｗが、それぞれの異なるオリゴヌクレオチドプライマーに対して異なり、それぞれのオリゴヌクレオチドプライマーの３′末端に位置付けられ、原因となる遺伝的変異体を含む配列、または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、ハイブリダイズすることと、（ｂ）伸長反応において、伸長したプライマーを生成するように、オリゴヌクレオチドプライマーを標的ポリヌクレオチドに沿って伸長することと、（ｃ）アダプターオリゴヌクレオチドをそれぞれの伸長したプライマーに連結することであって、アダプターオリゴヌクレオチドが、配列Ｙ′を含み、さらに配列Ｙ′が、配列Ｙの相補体である、連結することと、（ｄ）（ｉ）第１の増幅プライマーであって、配列Ｖおよび配列Ｚを含み、配列Ｚが第１の増幅プライマーの３′末端に位置付けられる、第１の増幅プライマー、ならびに（ｉｉ）第２の増幅プライマーであって、配列Ｘおよび配列Ｙを含み、配列Ｙが第２の増幅プライマーの３′末端に位置付けられる、第２の増幅プライマーの対を使用して、指数関数的に増幅することと、を含む。いくつかの実施形態において、それぞれのオリゴヌクレオチドプライマーは、第１の結合パートナーを含む。いくつかの実施形態において、この方法は、ステップ（ｃ）の前に、伸長したプライマーを、第１の結合パートナーに結合する第２の結合パートナーを含む固体表面に曝露することと、それにより伸長したプライマーを、伸長反応の１つ以上の成分から取り出して精製することをさらに含む。いくつかの実施形態において、配列Ｖ、Ｗ、Ｘ、Ｙ、およびＺのうちの１つ以上は、異なる配列である。いくつかの実施形態において、配列Ｖおよび配列Ｘは同じである。いくつかの実施形態において、配列Ｖおよび／または配列Ｘは、それらそれぞれのプライマーに含まれない。いくつかの実施形態において、配列Ｖ、Ｗ、Ｘ、Ｙ、およびＺのうちの１つ以上は、配列Ｖ、Ｗ、Ｘ、Ｙ、およびＺのその他の１つ以上と、約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、もしくはそれより多いか、それ未満、またはそれ以上異なる（例えば、約１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、もしくはそれより高い配列同一性、またはそれより低い配列同一性を有する）。いくつかの実施形態において、配列Ｖ、Ｗ、Ｘ、Ｙ、およびＺのうちの１つ以上は、それぞれ約１、２、３、４、５、６、７、８、９、１０、１５、２０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチドを含む。いくつかの実施形態において、本発明の他の態様に関して記載されるように、配列Ｖまたは配列Ｚは、配列Ａに相当し、配列Ｗは、配列Ｂに相当し、配列Ｘは、配列Ｃに相当し、および／または配列Ｙは、配列Ｄに相当する。

標的ポリヌクレオチドが誘導される試料は、同じ個体からの複数の試料、異なる個体からの試料、またはそれらの組み合わせを含むことができる。いくつかの実施形態において、試料は、単一個体からの複数のポリヌクレオチドを含む。いくつかの実施形態において、試料は、２つ以上の個体からの複数のポリヌクレオチドを含む。試料ポリヌクレオチドの供給源の例およびそれらを精製するための方法は、例えば、本発明の他の態様に関して本明細書に記載される。

いくつかの実施形態において、標的ポリヌクレオチドは、１つ以上の特定のサイズ範囲（複数可）の断片化ポリヌクレオチドの集団に断片化される。いくつかの実施形態において、断片化に供される試料ポリヌクレオチドの量は、約５０ｎｇ、１００ｎｇ、２００ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、６００ｎｇ、７００ｎｇ、８００ｎｇ、９００ｎｇ、１０００ｎｇ、１５００ｎｇ、２０００ｎｇ、２５００ｎｇ、５０００ｎｇ、１０μｇ、もしくはそれより多いか、それ未満、またはそれ以上である。いくつかの実施形態において、断片は、約１、１０、１００、１０００、１００００、１０００００、３０００００、５０００００、もしくはそれより多いか、それ未満、またはそれ以上の開始ＤＮＡのゲノム相当物から生成される。断片化は、化学的、酵素的、および機械的断片化を含む当該技術分野において既知の方法により達成され得る。いくつかの実施形態において、断片は、約１０〜約１０，０００ヌクレオチド長の平均または中央値を有する。いくつかの実施形態において、断片は、約５０〜約２，０００ヌクレオチドの長さの平均または中央値を有する。いくつかの実施形態において、断片は、約１００〜２５００、２００〜１０００、１０〜８００、１０〜５００、５０〜５００、５０〜２５０、または５０〜１５０ヌクレオチド長であるか、それ未満、それ以上、またはその間の平均または中央値を有する。いくつかの実施形態において、断片は、約２００、３００、５００、６００、８００、１０００、１５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド長の平均または中央値を有する。断片化および任意の末端修復（任意のＡ−テーリングを含む）の例示の方法は、例えば、本発明の他の態様に関して本明細書に記載される。末端修復は、アダプターオリゴヌクレオチドの連結前、例えば、オリゴヌクレオチドプライマーの伸長前または伸長後の任意のステップにおいて行われ得る。

いくつかの実施形態において、オリゴヌクレオチドプライマー伸長の断片化の後に、断片化または伸長ポリヌクレオチドへのアダプターオリゴヌクレオチドのライゲーションが続く（例えば、図５および７を参照）。アダプターオリゴヌクレオチドの例、およびそれらの操作および標的ポリヌクレオチドへの連結のための方法は、例えば、本発明の他の態様に関して本明細書に記載される。いくつかの実施形態において、アダプターオリゴヌクレオチドは、配列要素配列Ｙを含む１本の鎖を含む。いくつかの実施形態において、アダプターオリゴヌクレオチドは、配列Ｙの相補体である、配列要素配列Ｙ′を含む１本の鎖を含む。いくつかの実施形態において、アダプターオリゴヌクレオチドは、相補性配列Ｙ′にハイブリダイズされた配列Ｙを含み、配列Ｙ′は、配列Ｙと同じまたは異なる鎖上にある。いくつかの実施形態において、標的ポリヌクレオチドの３′末端または伸長したプライマーは、アダプターオリゴヌクレオチドに沿って伸長し、配列Ｙまたは配列Ｙ′を生成する。いくつかの実施形態において、断片化ポリヌクレオチドおよびアダプターオリゴヌクレオチドは、両端でアダプターオリゴヌクレオチド配列に連結した断片化ポリヌクレオチド配列を含む二本鎖の適合したポリヌクレオチドを生成するように（例えば、ライゲーションにより、および任意に断片伸長により）合わせて処理され、適合したポリヌクレオチドの両端は、配列Ｙ′にハイブリダイズされた配列Ｙを含む。いくつかの実施形態において、標的ポリヌクレオチドにハイブリダイズされた伸長したプライマーは、一端で配列Ｙ′にハイブリダイズされた配列Ｙを含む二本鎖の適合したポリヌクレオチドを生成するように（例えば、ライゲーションにより、および任意に３′末端伸長により）合わせて処理される。いくつかの実施形態において、さらなる操作（例えば、アダプター連結またはオリゴヌクレオチドプライマー伸長）に供される断片化ポリヌクレオチドの量は、約５０ｎｇ、１００ｎｇ、２００ｎｇ、３００ｎｇ、４００ｎｇ、５００ｎｇ、６００ｎｇ、７００ｎｇ、８００ｎｇ、９００ｎｇ、１０００ｎｇ、１５００ｎｇ、２０００ｎｇ、２５００ｎｇ、５０００ｎｇ、１０μｇ、もしくはそれより多いか（例えば、閾値量）、それ未満、またはそれ以上である。いくつかの実施形態において、断片化ポリヌクレオチドの量は、さらなる操作を進める前に決定され、その量が閾値量を下回る場合、さらなる操作は行われない。

いくつかの実施形態において、標的ポリヌクレオチド配列に相補性の配列を含むプライマー伸長生成物は、伸長反応において生成される。一般に、伸長反応は、標的ポリヌクレオチドにハイブリダイズされたオリゴヌクレオチドプライマーの伸長を含む。オリゴヌクレオチドプライマーは、任意の好適な長さ、例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチドであり得、その任意の部分または全ては、プライマーがハイブリダイズする対応する標的配列に相補性であり得る（例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド）。プライマー伸長は、ＰＣＲ反応の１つ以上のサイクル、例えば、変性、プライマーアニーリング、およびプライマー伸長を含み得、これらは、逆プライマーを用いるか、または用いずに任意の回数で反復され得る。例えば、逆プライマーの非存在下で複数のサイクルを使用して、さらなる増幅のためのテンプレートとして伸長プライマーを使用せずに、対応する標的に沿ったプライマーの反復伸長により１つ以上の標的ポリヌクレオチドを直線的に増幅することができる。プライマーとして有用なオリゴヌクレオチドおよびプライマー伸長反応（例えば、増幅）におけるそれらの使用のための方法の例は、例えば、本発明の他の態様に関して本明細書に提供される。増幅方法の非限定的な例の例示が、図２に提供される。

いくつかの実施形態において、オリゴヌクレオチドプライマーは、反応において複数の異なるオリゴヌクレオチドプライマーのそれぞれに共通する配列Ｚと、それぞれの異なるオリゴヌクレオチドプライマーに対して異なり、それぞれのオリゴヌクレオチドプライマーの３′末端に位置付けられる配列Ｗと、を含む。いくつかの実施形態において、複数のオリゴヌクレオチドプライマーは、約５、１０、２５、５０、７５、１００、１２５、１５０、１７５、２００、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多いか、それ未満、またはそれ以上の異なるオリゴヌクレオチドを含み、それぞれが異なる配列Ｗを含む。いくつかの実施形態において、複数のオリゴヌクレオチドプライマーのうちの１つ以上の配列Ｗは、図４−１〜３に示される配列番号２２〜１２１からなる群から選択される配列を含む（例えば、それぞれが図４−１〜３からの異なる配列を持つ１、５、１０、２５、５０、７５、または１００個の異なるオリゴヌクレオチド）。いくつかの実施形態において、配列Ｗ、またはそれが特異的にハイブリダイズする標的配列は、本明細書に記載される原因となる遺伝的変異体を含む。いくつかの実施形態において、配列Ｗまたはそれが特異的にハイブリダイズする標的配列は、本明細書に記載されるように、原因となる遺伝的変異体の約１、２、３、４、５、６、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。原因となる遺伝的変異体は、典型的に、オリゴヌクレオチドプライマーの下流に位置し、その原因となる遺伝的変異体の少なくとも一部分が、オリゴヌクレオチドプライマーの伸長のためのテンプレートとして機能する。典型的に、アダプターオリゴヌクレオチドから誘導された配列Ｙを含む標的ポリヌクレオチドに沿ったオリゴヌクレオチドプライマーの伸長は、プライマーから誘導された配列を５′末端に含み、アダプターから誘導された配列に相補性の配列（例えば、Ｙの相補体である配列Ｙ′）を３′末端付近に含むプライマー伸長生成物を生成する。

いくつかの実施形態において、複数のオリゴヌクレオチドプライマーのうちの１つ以上の配列Ｗ、またはそれが特異的にハイブリダイズする標的配列は、非対象配列を含む。いくつかの実施形態において、配列Ｗまたはそれが特異的にハイブリダイズする標的配列は、非対象配列の約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。一般に、非対象配列は、試験される個体以外の生物から誘導されるポリヌクレオチド、例えば、細菌、古細菌、ウイルス、原生生物、真菌、または他の生物からのＤＮＡまたはＲＮＡに対応する。非対象配列は、ある生物または生物の類の同一性を示すことがあり、さらに感染等の疾患状態を示し得る。生物を特定する際に有用な非対象配列の例としては、ｒＲＮＡ配列、例えば１６ｓｒＲＮＡ配列が挙げられるが、これに限定されない（例えば、国際公開第２０１０１５１８４２号を参照）。いくつかの実施形態において、非対象配列は、原因となる遺伝的変異体の代わりに、またはそれとは別に分析される。いくつかの実施形態において、原因となる遺伝的変異体および非対象配列は、並行して、例えば同じ試料中（例えば、第１のオリゴヌクレオチド、原因となる遺伝的変異体を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｗを持つもの、および非対象配列を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｗを持つものの混合物を使用する）および／または同じレポート中で分析される。

いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｗ、またはそれが特異的にハイブリダイズする標的配列は、祖先情報提供マーカー（ＡＩＭ）を含む。いくつかの実施形態において、配列Ｗまたはそれが特異的にハイブリダイズする標的配列は、ＡＩＭの約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。ＡＩＭは、原因となる遺伝的変異体のうちの１つの危険性が高い集団のような１つ以上の集団に属するか、または属しない人を分類するために使用され得る。例えば、ＡＩＭは、ある形質の保有率が高い集団についての診断手段となり得る。場合によっては、ＡＩＭは、より細かい精度で集団、例えば、亜大陸グループまたは関連する民族グループを区別する。いくつかの実施形態において、ＡＩＭは、原因となる遺伝的変異体および／または非対象配列の代わりに、またはそれとは別に分析される。いくつかの実施形態において、ＡＩＭ、原因となる遺伝的変異体、および／または非対象配列は、並行して、例えば、同じ試料中（例えば、第１のオリゴヌクレオチド、原因となる遺伝的変異体を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つもの、およびＡＩＭを含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものの混合物を使用する）および／または同じレポート中で分析される。

いくつかの実施形態において、オリゴヌクレオチドプライマーは、結合対のメンバーのような第１の結合パートナーを含む。一般に、「結合パートナー」は、第１の部分および第２の部分のうちの１つを指し、第１および第２の部分は、互いに対して特定の結合親和性を有する。本発明における使用のための好適な結合対としては、限定されないが、抗原／抗体（例えば、ジゴキシゲニン／抗ジゴキシゲニン、ジニトロフェニル（ＤＮＰ）／抗ＤＮＡ、ダンシル−Ｘ−抗ダンシル、フルオレセイン／抗フルオレセイン、ルシファー黄色／抗ルシファー黄色、およびローダミン／抗ローダミン）；ビオチン／アビジン（またはビオチン／ストレプトアビジン）；カルモデュリン結合タンパク質（ＣＢＰ／カルモデュリン）；ホルモン／ホルモン受容体；レクチン／炭水化物；ペプチド／細胞膜受容体；タンパク質Ａ／抗体；ハプテン／抗ハプテン；酵素／共因子；および酵素／基質が挙げられるが、これらに限定されない。他の好適な結合対としては、ＦＬＡＧ−ペプチド（Ｈｏｐｐｅｔａｌ．，ＢｉｏＴｅｃｈｎｏｌｏｇｙ，６：１２０４〜１２１０（１９８８））；ＫＴ３エピトープペプチド（Ｍａｒｔｉｎｅｔａｌ，Ｓｃｉｅｎｃｅ，２５５：１９２〜１９４（１９９２））；チューブリンエピトープペプチド（Ｓｋｉｎｎｅｒｅｔａｌ．，Ｊ．Ｂｉｏｌ．Ｃｈｅｍ．，２６６：１５１６３〜１５１６６（１９９１））；およびＴ７遺伝子１０タンパク質ペプチドタグ（Ｌｕｔｚ−Ｆｒｅｙｅｒｍｕｔｈｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ，８７：６３９３〜６３９７（１９９０））およびそれに対するそれぞれの抗体等のポリペプチドが挙げられる。結合パートナーのさらなる非限定的な例としては、細胞膜受容体、毒素、および毒のアゴニストおよびアンタゴニスト、ウイルスエピトープ、ステロイド、ホルモン受容体、ペプチド、酵素、および他の触媒ポリペプチド等のホルモン、酵素基質、共因子、小有機分子薬物を含む薬物、アヘン剤、アヘン剤受容体、エクチン、糖、ポリサッカリドを含むサッカリド、タンパク質、およびモノクローナル抗体と合成抗体断片とを含む抗体、細胞、細胞膜、および細胞膜受容体を含むその中の部分、ならびに細胞小器官が挙げられる。いくつかの実施形態において、第１の結合パートナーは、反応部分であり、第２の結合パートナーは、本発明の他の態様に関して本明細書に記載されるような反応部分と反応する反応表面である。いくつかの実施形態において、オリゴヌクレオチドプライマーは、伸長反応を開始する前に固体表面に結合される。結合パートナーのオリゴヌクレオチドへの付加のための方法は、当該技術分野において既知であり、合成中（例えば、結合パートナーを含む修飾ヌクレオチドを使用することにより）、または合成後に付加を含む。

いくつかの実施形態において、オリゴヌクレオチドプライマーの伸長の後に、固体表面上の伸長プライマーの精製が続く。いくつかの実施形態において、アダプター連結の後に、固体表面上の伸長プライマーの精製が続く。典型的に、固体表面は、結合対の第２のメンバーであり、第１の結合パートナーに結合する第２の結合パートナーを含む。いくつかの実施形態において、固体表面は、膜、スライド、プレート、微細機械加工されたチップ、微粒子、ビーズ等を含む広範な形態を有し得る。固体表面は、ガラス、プラスチック、ケイ素、アルカンチオール酸誘導体化金、セルロース、低架橋および高架橋ポリスチレン、シリカゲル、ポリアミド等を含むが、これらに限定されない広範囲の材料を含み得、様々な形態および特徴（例えば、ウェル、インデント、チャネル等）を有することができる。この表面は、親水性であり得るか、または親水性にすることができ、シリカ、硫酸マグネシウム、およびアルミニウム等の無機粉末；天然ポリマー材料、特にセルロース材料およびセルロースから誘導された材料（繊維含有紙、例えば、濾紙、クロマトグラフ紙等）；合成または修飾された天然に存在するポリマー、例えば、ニトロセルロース、酢酸セルロース、ポリ（塩化ビニル）、ポリアクリルアミド、架橋デキストラン、アガロース、ポリアクリレート、ポリエチレン、ポリプロピレン、ポリ（４−メチルブチル）等；それら自体が使用されるか、または他の材料と併せて使用されるかのいずれか；バイオガラス、セラミック、金属として使用可能なガラス等を含み得る。リポソーム、リン脂質小胞、および細胞等の天然または合成アセンブリを用いることもできる。この表面は、薄片、棒、ビーズを含む粒子等の多数の形状のうちのいずれか１つを有することができる。

いくつかの実施形態において、固体表面は、１つのビーズまたは複数のビーズを含む。これらのビーズは、任意の便宜的なサイズであり得、任意の数の既知の材料から製造され得る。そのような材料の例としては、無機物、天然ポリマー、および合成ポリマーが挙げられる。これらの材料の特定例としては、セルロース、セルロース誘導体、アクリル樹脂、ガラス、シリカゲル、ポリスチレン、ゼラチン、ポリビニルピロリドン、ビニルおよびアクリルアミドのコポリマー、ジビニルベンゼン等と架橋されたポリスチレン（例えば、Ｍｅｒｒｉｆｉｅｌｄ，Ｂｉｏｃｈｅｍｉｓｔｒｙ１９６４，３，１３８５〜１３９０に記載される）、ポリアクリルアミド、ラテックスゲル、ポリスチレン、デキストラン、ゴム、シリコン、プラスチック、ニトロセルロース、天然スポンジ、シリカゲル、制御細孔ガラス、金属、架橋デキストラン（例えば、Ｓｅｐｈａｄｅｘ）アガロースゲル（Ｓｅｐｈａｒｏｓｅ）、および当業者に既知の他の固体支持体が挙げられる。ビーズは、一般に、直径約２〜約１００μｍ、または直径約５〜約８０μｍ、場合によっては直径約１０〜約４０μｍである。いくつかの実施形態において、ビーズは、磁性、常磁性、または他の方法で磁場に応答性であり得る。ビーズを磁場に対して応答性にすることは、例えば、磁場の印加およびビーズの単離により（例えば、溶液からのビーズの除去またはビーズからの溶液の除去により）そこに結合されたポリヌクレオチドを有するビーズの単離および精製に有用であり得る。磁場に対して応答性のビーズの非限定的な例としては、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（Ｃａｒｌｓｂａｄ，ＣＡ）により製造されたダイナビーズ（Ｄｙｎａｂｅａｄｓ）が挙げられる。ビーズを分離する他の方法を使用することもできる。例えば、捕捉ビーズは、核酸−ビーズ複合体を蛍光にする蛍光部分で標識され得る。標的捕捉ビーズ複合体は、例えば、フローサイトメトリーまたは蛍光細胞選別装置により分離され得る。ビーズは、遠心分離により分離されることもできる。ビーズへの結合によるポリヌクレオチドの単離は、例えば、好適な洗浄緩衝液中でビーズを洗浄するステップをさらに含み得る。一般に、プライマー伸長生成物の精製は、プライマー伸長反応の１つ以上の成分から取り出して精製することを含み、伸長生成物が精製される１つ以上の成分が、例えば、１０倍、５倍、１００倍、５００倍、１０００倍、１００００倍、１０００００倍、もしくはそれより多いか、または検出レベルを下回る量だけ低減されるようにする。いくつかの実施形態において、精製は、プライマー伸長生成物が、それらがハイブリダイズされた標的ポリヌクレオチドテンプレートから取り出して精製されるように、変性ステップを含む。

伸長プライマーは、線形増幅または指数関数的増幅のような増幅に供され得る。増幅のための方法は、当該技術分野において既知であり、その例は、例えば、本発明の他の態様に関して本明細書に記載される。指数関数的増幅としては、ＰＣＲ増幅、およびプライマー伸長生成物が、プライマー伸長のさらなる試行のためのテンプレートとして機能する任意の他の増幅方法が挙げられる。増幅は、典型的に、１つ以上の増幅プライマーを利用し、その例は、例えば、本発明の他の態様に関して本明細書に記載される。増幅プライマーは、任意の好適な長さ、例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチドであり得、その任意の部分または全ては、プライマーがハイブリダイズする対応する標的配列に相補性であり得る（例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド）。一般に、ＰＣＲには、増幅される標的の変性（二本鎖である場合）、１つ以上のプライマーの標的へのハイブリダイゼーション、およびＤＮＡポリメラーゼによるプライマーの伸長のステップが関与し、ステップは、標的配列を増幅するために反復（または「サイクル化」）される。このプロセスにおけるステップは、収率を強化する、疑似生成物の形成を減少させる、および／またはプライマーアニーリングの特異性を増減させる等の様々な結果に対して最適化することができる。最適化の方法は、当該技術分野において周知であり、増幅反応における要素の種類もしくは量、および／またはプロセスにおける所与のステップの条件（例えば、特定ステップでの温度、特定ステップの期間、および／またはサイクル数）に対する調整を含む。いくつかの実施形態において、増幅反応は、少なくとも５、１０、１５、２０、２５、３０、３５、５０、またはそれより多いサイクルを含む。いくつかの実施形態において、増幅反応は、わずか５、１０、１５、２０、２５、３５、５０、またはそれより多いサイクルを含む。サイクルは、任意の数のステップ、例えば、１、２、３、４、５、６、７、８、９、１０、もしくはそれより多いステップを含むことができる。ステップは、鎖変性、プライマーアニーリング、およびプライマー伸長を含むが、これらに限定されない所与のステップの目的を達成するのに好適な任意の温度または温度の勾配を含むことができる。ステップは、手動で中断されるまで無期限に、約１秒、５秒、１０秒、１５秒、２０秒、２５秒、３０秒、３５秒、４０秒、４５秒、５０秒、５５秒、６０秒、７０秒、８０秒、９０秒、１００秒、１２０秒、１８０秒、２４０秒、３００秒、３６０秒、４２０秒、４８０秒、５４０秒、６００秒、もしくはそれより多いか、それ未満、またはそれ以上であるが、これらに限定されない任意の期間であり得る。異なるステップを含む任意の数のサイクルは、任意の順序で組み合わせることができる。

いくつかの実施形態において、増幅は、増幅プライマーの対を使用してプライマー伸長生成物を生成することを含む。増幅プライマーは、アダプターオリゴヌクレオチド配列から誘導された配列の全体または１つ以上の部分に相補性の配列、オリゴヌクレオチドプライマー配列から誘導された配列、テンプレートポリヌクレオチドに相補性でない配列（例えば、５′非相補性配列）、１つ以上の他の配列要素（例えば、本明細書に記載されるような配列要素）、またはそれらの組み合わせを含み得る。いくつかの実施形態において、第２の増幅プライマーは、配列Ｘおよび配列Ｙを含み、配列Ｙは、第２の増幅プライマーの３′末端に位置付けられる。

図２は、増幅プロセスの非限定的な例を示す。例示の指数関数的増幅反応の第１のステップにおいて、第２の増幅プライマーの配列Ｙは、以前のオリゴヌクレオチドプライマー伸長反応からの伸長プライマーの相補性配列Ｙ′にハイブリダイズする。第２の増幅プライマーの伸長（例えば、ポリメラーゼによる）は、配列Ｘ、Ｙ、Ｗ′、およびＺ′を５′から３′の方向で含む第２の増幅プライマー伸長生成物を生成し、配列Ｗ′は、配列Ｗの相補体であり、配列Ｚ′は、配列Ｚの相補体である。次に、プライマー伸長生成物は変性され、さらなる第２の増幅プライマーとのハイブリダーゼーションおよびその伸長のためのテンプレートとして機能するように、テンプレート標的ポリヌクレオチド、および第１の増幅プライマーとのハイブリダイゼーションおよびその伸長のための伸長生成物を遊離する。いくつかの実施形態において、第１の増幅プライマーは、配列Ｖおよび配列Ｚを含み、配列Ｚは、第１の増幅プライマーの３′末端に位置付けられる。この例示の増幅反応において、配列Ｚは、第２の増幅プライマー伸長生成物の配列Ｚ′にハイブリダイズする。第１のプライマーの伸長（例えば、ポリメラーゼによる）は、配列Ｖ、Ｚ、Ｗ、Ｙ′、およびＸ′を５′から３′配向に含む第１の増幅プライマー伸長生成物を生成し、配列Ｘ′は、配列Ｘに相補性であり、それ自体が第２の増幅プライマーの伸長のためのテンプレートとして機能することができる。したがって、変性、ハイブリダイゼーション、および伸長の反復サイクルは、配列Ｘ、Ｙ、Ｗ′、Ｚ′、およびＶ′（５′から３′）を含む第２の鎖にハイブリダイズされた配列Ｖ、Ｚ、Ｗ、Ｙ′、およびＸ′（５′から３′）を含む１つの鎖を含むプライマー伸長生成物の二本鎖を生成する。この例示の増幅反応に従い、標的ポリヌクレオチド配列は、一般に、片方の鎖上の配列ＺとＹ′との間、および他方の鎖上の配列Ｚ′とＹとの間に位置付けられる。

いくつかの実施形態において、オリゴヌクレオチドプライマーおよび／または１つ以上の増幅プライマーは、バーコードを含む。バーコードの例は、例えば、本発明の他の態様に関して本明細書に記載される。いくつかの実施形態において、別個の増幅反応は、それぞれの試料に対して少なくとも１つの異なるバーコード配列を含む増幅プライマーを使用して、別個の試料に対して実行され、いかなるバーコード配列も、並行して分析される複数の試料の標的ポリヌクレオチドに連結されないようになる。いくつかの実施形態において、異なる試料から誘導され、異なるバーコードを含む増幅ポリヌクレオチドは、ポリヌクレオチドの後次操作を進める前（例えば、配列決定前）にプールされる。プールは、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、４０、５０、７５、１００、もしくはそれより多いか、それ未満、またはそれ以上の異なる試料から誘導されたポリヌクレオチドを含み得る。プールは、後次に配列決定に供され得、配列決定された標的ポリヌクレオチドの供給源試料は、それらの関連バーコードに基づいて特定され得る。

いくつかの実施形態において、指数関数的に増幅された標的ポリヌクレオチドが配列決定される。配列決定は、例えば、本発明の他の態様を参照して本明細書に記載される配列決定プロセスを含む、当該技術分野において既知の任意の配列決定方法に従い行われ得る。テンプレートに依存する合成を使用する配列分析は、いくつかの異なるプロセスを含むことができる。例えば、広範に実施される４色Ｓａｎｇｅｒ配列決定方法において、テンプレート分子の集団を使用して、相補性断片配列の集団を形成する。プライマー伸長は、４つの天然に存在するヌクレオチドの存在下、色素標識された終止因子ヌクレオチド、例えばジデオキシリボヌクレオチドの亜集団を用いて実行され、それぞれの種類の終止因子（ｄｄＡＴＰ、ｄｄＧＴＰ、ｄｄＴＴＰ、ｄｄＣＴＰ）は、異なる検出可能な標識を含む。結果として、断片の入れ子式集合が形成され、断片は、プライマーを超える配列中のそれぞれのヌクレオチドで終止し、終止ヌクレオチドの特定を許容する方法で標識される。次に、入れ子式断片集団は、例えば、キャピラリー電気泳動を使用して、サイズに基づく分離に供され、それぞれの異なるサイズの断片と関連付けられる標識は、終止ヌクレオチドを特定するために特定される。結果として、分離システムにおいて検出器を越えて移動する標識の配列は、合成された断片の配列情報の直接読み出し、および相補性により基礎的テンプレートを提供する（例えば、米国特許第５１７１５３４号を参照）。

テンプレートに依存する配列決定方法の他の例としては、合成プロセスによる配列が挙げられ、個別のヌクレオチドは、それらが成長プライマー伸長生成物に付加されると反復して特定される。

ピロ配列決定は、配列決定反応の副産物、つまりピロリン酸塩の存在について、得られる合成混合物をアッセイすることにより、ヌクレオチドの組み込みを特定する合成プロセスによる配列の例である。具体的に、プライマー／テンプレート／ポリメラーゼ複合体が、単一種のヌクレオチドと接触する。そのヌクレオチドが組み込まれる場合、重合反応は、ピロリン酸塩を放出する三リン酸塩鎖のαリン酸塩とβリン酸塩との間のヌクレオシド三リン酸塩を切断する。次に、放出されたピロリン酸塩の存在は、ピロリン酸塩をＡＭＰでＡＴＰに変換する化学発光酵素レポーターシステムを使用して特定された後、ルシフェラーゼ酵素を使用してＡＴＰを測定し、測定可能な光シグナルを生成する。光が検出される場合、塩基が組み込まれており、光が検出されない場合は塩基が組み込まれていない。適切な洗浄ステップに続いて、様々な塩基は、複合体と周期的に接触し、テンプレート配列における後次塩基を連続的に特定する。例えば、米国特許第６２１０８９１号を参照されたい。

関連するプロセスにおいて、プライマー／テンプレート／ポリメラーゼ複合体は、基質上で固定化され、複合体は、標識ヌクレオチドと接触する。複合体の固定化は、プライマー配列、テンプレート配列、および／またはポリメラーゼ酵素を通じて行われることがあり、共有結合または非共有結合であり得る。例えば、複合体の固定化は、ポリメラーゼまたはプライマーと基質表面との間の結合を介することができる。代替構成において、ヌクレオチドは、除去可能な終止基とともに、および除去可能な終止基なしに提供される。組み込む際に、標識は複合体と連結され、したがって検出可能である。終止因子を担持するヌクレオチドの場合、個別に特定可能な標識を担持する４つの異なるヌクレオチドの全ては、複合体と接触する。標識ヌクレオチドの組み込みは、終止因子の存在を理由として伸長を停止し、標識を複合体に付加して、組み込まれたヌクレオチドの特定を可能にする。次に、この標識および終止因子は、組み込まれたヌクレオチドから除去され、適切な洗浄ステップに続いて、プロセスは反復される。非終止ヌクレオチドの場合、単一種の標識ヌクレオチドが複合体に付加され、ピロ配列決定と同様に、それが組み込まれるかどうかを決定する。ヌクレオチド上の標識基の除去および適切な洗浄ステップに続いて、様々な異なるヌクレオチドが、同じプロセスにおいて反応混合物を通じてサイクル化される。例えば、あらゆる目的で参照によりその全体が本明細書に組み込まれる、米国特許第６８３３２４６号を参照されたい。例えば、Ｉｌｌｕｍｉｎａゲノム分析器システムは、参照により本明細書に組み込まれる国際公開第９８／４４１５１号に記載される技術に基づき、ＤＮＡ分子は、アンカープローブ結合部位（それ以外では、フローセル結合部位と称される）を介して、配列決定プラットフォーム（フローセル）に結合され、ガラススライド上で原位置増幅する。ＤＮＡ分子が増幅する固体表面は、典型的に、複数の第１および第２の結合オリゴヌクレオチドを含み、第１の結合オリゴヌクレオチドは、標的ポリヌクレオチドの付近または片方の末端にある配列に相補性であり、第２の結合オリゴヌクレオチドは、標的ポリヌクレオチドの付近または他方の末端にある配列に相補性である。この配置は、本明細書に記載されるような架橋増幅を許容する。次に、ＤＮＡ分子は、配列決定プライマーにアニールされ、可逆的終止因子アプローチを使用して塩基ごとに並行して配列決定される。配列決定プライマーのハイブリダイゼーションは、架橋を係留する結合オリゴヌクレオチドのうちの１つにおいて、切断部位での二本鎖架橋ポリヌクレオチドの１本の鎖の切断により進行され得、したがって、変性により除去され得る固体基質に結合されない１つの単一鎖、および配列決定プライマーに結合され、それに対するハイブリダーゼーションに使用可能な他の鎖を残す。典型的に、Ｉｌｌｕｍｉｎａゲノム分析器システムは、８つのチャネルを持つフローセルを利用して、１８〜３６塩基長の配列決定読み出し値を生成し、１試験当たり１．３Ｇｂｐを超える高品質データを生成する（ｗｗｗ．ｉｌｌｕｍｉｎａ．ｃｏｍを参照）。

合成プロセスによるなおもさらなる配列において、異なる標識ヌクレオチドの組み込みは、テンプレートに依存する合成が実行されると実時間で観察される。具体的に、個別の固定化プライマー／テンプレート／ポリメラーゼ複合体は、蛍光標識ヌクレオチドが組み込まれると観察され、それが付加されるとそれぞれの付加された塩基の実時間特定を許容する。このプロセスにおいて、標識基は、組み込み中に切断されたヌクレオチドの一部分に結合される。例えば、標識基の組み込み中に除去されたリン酸鎖の一部分、すなわち、ａ、β、γ、またはヌクレオシドポリリン酸塩上の他の末端リン酸基に結合することにより、標識は、新生鎖に組み込まれず、代わりに天然のＤＮＡが生成される。個別の分子の観察は、典型的に、非常に小さな照明量内での複合体の光学的閉じ込めを必要とする。複合体を光学的に制限することにより、ランダムに拡散するヌクレオチドが非常に短期間の間存在する一方、組み込まれたヌクレオチドが、それらが組み込まれるとより長い間観察量内で保持される、監視領域を形成する。これは、組み込み事象と関連付けられる特徴的なシグナルをもたらし、これも付加される塩基に特徴的であるシグナルプロファイルによって特徴付けられる。関連態様において、蛍光共鳴エネルギー転移（ＦＲＥＴ）色素対のような相互作用する標識成分は、ポリメラーゼまたは複合体の他の部分、および組み込みヌクレオチド上に提供され、組み込み事象が標識成分を相互に作用する近接に置くと、特徴的なシグナルが生じ、これもまた組み込まれる塩基に特徴的である（例えば、米国特許第６，０５６，６６１号、同第６，９１７，７２６号、同第７，０３３，７６４号、同第７，０５２，８４７号、同第７，０５６，６７６号、同第７，１７０，０５０号、同第７，３６１，４６６号、および同第７，４１６，８４４号、ならびに米国公開第２００７０１３４１２８号を参照）。

いくつかの実施形態において、試料中の核酸は、ライゲーションにより配列決定され得る。この方法は、ＤＮＡリガーゼ酵素を使用して、例えば、ポロニー方法およびＳＯＬｉＤ技術（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ、現Ｉｎｖｉｔｒｏｇｅｎ）において使用されるように、標的配列を特定する。一般に、固定長の全ての可能なオリゴヌクレオチドのプールが提供され、配列決定された位置に従い標識される。オリゴヌクレオチドは、アニーリングおよびライゲーションされ、マッチング配列のためのＤＮＡリガーゼによる選好的ライゲーションは、その位置での相補性配列に対応するシグナルを生じる。

いくつかの実施形態において、配列決定データは、複数の試料、例えば、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２４、４８、９６、１９２、３８４、７６８、１０００、もしくはそれより多いか、それ未満、またはそれ以上の試料に対して並行して生成される。いくつかの実施形態において、配列決定データは、単一反応容器（例えば、フローセル中のチャネル）内の複数の試料、例えば、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２４、４８、９６、１９２、３８４、７６８、１０００、もしくはそれより多いか、それ未満、またはそれ以上の試料に対して生成され、配列決定データは、配列決定されたポリヌクレオチドが起源とする試料に従い（例えば、バーコード配列に基づいて）後次に分類される。

いくつかの実施形態において、配列決定データは、単一反応容器（例えば、フローセル中のチャネル）内の試料からの約５、１０、２５、５０、１００、１５０、２００、２５０、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多い異なる標的ポリヌクレオチドに対して生成される。いくつかの実施形態において、配列決定データは、複数の試料、例えば、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２４、４８、９６、１９２、３８４、７６８、１０００、もしくはそれより多いか、それ未満、またはそれ以上の試料に対して並行して生成される。いくつかの実施形態において、配列決定データは、単一反応容器（例えば、フローセル中のチャネル）内の複数の試料、例えば、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２４、４８、９６、１９２、３８４、７６８、１０００、もしくはそれより多いか、それ未満、またはそれ以上の試料に対して生成され、配列決定データは、配列決定されたポリヌクレオチドが起源とする試料に従い後次に分類され、単一反応において、配列決定データは、架橋増幅反応から約、または少なくとも約１０^６、１０^７、１０^８、２×１０^８、３×１０^８、４×１０^８、５×１０^８、１０^９、１０^１０、もしくはそれより多い標的ポリヌクレオチドまたはクラスタに対して生成され得、反応におけるそれぞれの試料に対して約１０^４、１０^５、１０^６、２×１０^６、３×１０^６、４×１０^６、５×１０^６、１０^７、１０^８、それ未満、またはそれ以上の標的ポリヌクレオチドまたはクラスタの配列決定データを含み得る。いくつかの実施形態において、約５、１０、２５、５０、７５、１００、１２５、１５０、１７５、２００、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多いか、それ未満、またはそれ以上の原因となる遺伝的変異体の存在または非存在は、配列決定データに基づいて、試料に対して決定される。１つ以上の原因となる遺伝的変異体の存在または非存在は、約８０％、８５％、９０％、９５％、９７．５％、９９％、９９．５％、９９．９％、もしくはそれより高いか、またはそれ以上の精度で決定され得る。

いくつかの実施形態において、本発明の方法におけるステップの１つ以上、または全ては、例えば、１つ以上の自動化デバイスの使用により自動化される。一般に、自動化デバイスは、ヒトの指示なしに作動することができるデバイスである。自動デバイスは、例えば、自動化デバイスがさらなるヒトの操作なしに１つ以上のステップを行った後にコンピューターに命令を入力することにより、ヒトが機能を促進するように任意の動作を行った後の期間中に機能を行うことができる。本発明の実施形態を実現するコードを含むソフトウェアおよびプログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、テープ、フラッシュドライブ、もしくはディスク、または他の適切なコンピューター可読媒体等のいくつかの種類のデータ記憶媒体上に記憶されてもよい。本発明の様々な実施形態は、ハードウェアのみで、またはソフトウェアおよびハードウェアの組み合わせにで実現することもできる。例えば、一実施形態において、従来のパーソナルコンピューターではなく、プログラマブル論理制御装置（ＰＬＣ）が使用される。当業者に既知の通り、ＰＬＣは、汎用コンピューターにかかる費用が不要である多様なプロセス制御アプリケーションにおいて頻繁に使用される。ＰＬＣは、１つまたは多様な制御プログラムを実行する既知の方法で構成され得、ユーザーもしくは別のデバイスからの入力を受信することができ、および／またはパーソナルコンピューターのそれに似た方法でユーザーもしくは別のデバイスに出力を提供することができる。したがって、本発明の実施形態は、汎用コンピューターに関して説明されているが、他の構成が使用される得るため、汎用コンピューターの使用は単なる例示であることを理解されたい。

いくつかの実施形態において、自動化は、１つ以上の液体ハンドラーおよび関連ソフトウェアの使用を含み得る。いくつかの市販の液体ハンドリングシステムを利用して、これらのプロセスの自動化を試験することができる（例えば、例として、Ｐｅｒｋｉｎ−Ｅｌｍｅｒ、ＢｅｃｋｍａｎＣｏｕｌｔｅｒ、ＣａｌｉｐｅｒＬｉｆｅＳｃｉｅｎｃｅｓ、Ｔｅｃａｎ、Ｅｐｐｅｎｄｏｒｆ、ＡｐｒｉｃｏｔＤｅｓｉｇｎ、Ｖｅｌｏｃｉｔｙ１１からの液体ハンドラーを参照）。いくつかの実施形態において、自動化ステップは、断片化、末端修復、Ａ−テーリング（アデニンオーバーハングの付加）、アダプター連結、ＰＣＲ増幅、試料定量化（例えば、ＤＮＡの量および／または純度）、および配列決定のうちの１つ以上を含む。いくつかの実施形態において、架橋増幅は、自動化される（例えば、ＩｌｌｕｍｉｎａｃＢｏｔの使用により）。いくつかの実施形態において、配列決定は自動化される。多様な自動化配列決定機器は、市販されており、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＳＯＬｉＤプラットフォーム、およびｐＨに基づく検出）、Ｒｏｃｈｅ（４５４プラットフォーム）、Ｉｌｌｕｍｉｎａ（例えば、フローセルに基づくシステム、例えば、ゲノムアナライザー、ＨｉＳｅｑ、またはＭｉＳｅｑシステム）により製造されるシーケンサーを含む。２、３、４、５、またはそれ以上の自動化デバイス間（例えば、液体ハンドラー、架橋増幅デバイス、および配列決定デバイスのうちの１つ以上の間）での転移は、手動または自動であってよい。いくつかの実施形態において、本発明の方法における１つ以上のステップ（例えば、全てのステップまたは全ての自動化ステップ）は、約７２、４８、２４、２０、１８、１６、１４、１２、１０、９、８、７、６、５、４、３、２、１、もしくはそれより少ないか、またはそれ以下の時間内に完了される。いくつかの実施形態において、試料受領、ＤＮＡ抽出、断片化、アダプター連結、増幅、または架橋増幅からの配列決定データの生成までの時間は、約７２、４８、２４、２０、１８、１６、１４、１２、１０、９、８、７、６、５、４、３、２、１、もしくはそれより少ないか、またはそれ以下の時間である。

一態様において、本発明は、対象のゲノム中の遺伝的変異を検出する方法を提供する。いくつかの実施形態において、この方法は、配列決定データを生成すること、および分析することを含む。一実施形態において、この方法は、（ａ）ポリヌクレオチドの複数のクラスタを提供することであって、（ｉ）それぞれのクラスタが、支持体に結合した核酸二本鎖の複数コピーを含み、（ｉｉ）クラスタ中のそれぞれの二本鎖が、配列Ａ−Ｂ−Ｇ′−Ｄ′−Ｃ′を５′から３′に含む第１の分子と、配列Ｃ−Ｄ−Ｇ−Ｂ′−Ａ′を５′から３′に含む第２の分子と、を含み、（ｉｉｉ）配列Ａ′が、配列Ａに相補性であり、配列Ｂ′が、配列Ｂに相補性であり、配列Ｃ′が、配列Ｃに相補性であり、配列Ｄ′が、配列Ｄに相補性であり、配列Ｇ′が、配列Ｇに相補性であり、（ｉｖ）配列Ｇが、対象からの標的ポリヌクレオチド配列の一部分であり、複数のクラスタのそれぞれに対して異なり、（ｖ）配列Ｂ′が、対応する標的ポリヌクレオチド配列中の配列Ｇに関して５′に位置する、提供することと、（ｂ）配列Ｇ′を、配列Ｄを含む第１のプライマーの伸長により配列決定し、それぞれのクラスタのＲ１配列を生成することと、（ｃ）それぞれのクラスタのＲ２配列を生成するように、配列Ａを含む第２のプライマーの伸長により配列Ｂ′を配列決定することと、（ｄ）全てのＲ１配列を第１の参照配列に整列させるように、第１のアルゴリズムを使用して第１のアラインメントを行うことと、（ｅ）第１の参照配列に関して挿入または欠失を含有する可能性が高いとして第１のアラインメントにおいて特定されたＲ１配列を局所的に整列させ、それぞれの挿入または欠失の単一コンセンサスアラインメントを生成するように、第２のアルゴリズムを使用して第２のアラインメントを行うことと、（ｆ）全てのＲ２配列を第２の参照配列に整列させることにより、Ｒ２アラインメントを行うことと、（ｇ）ステップ（ｄ）〜（ｆ）により特定された配列変異を特定するレポートを受信者に送信することと、を含む。いくつかの実施形態において、配列Ａ、Ｂ、Ｃ、およびＤは、本発明の他の態様に関して記載されるように、それぞれ配列Ａ、Ｂ、Ｃ、およびＤに対応する。

いくつかの実施形態において、この方法は、（ａ）ポリヌクレオチドの複数のクラスタの配列決定データを提供することであって、（ｉ）それぞれのクラスタが、支持体に結合した核酸二本鎖の複数コピーを含み、（ｉｉ）クラスタ中のそれぞれの二本鎖が、配列Ａ−Ｂ−Ｇ′−Ｄ′−Ｃ′を５′から３′に含む第１の分子と、配列Ｃ−Ｄ−Ｇ−Ｂ′−Ａ′を５′から３′に含む第２の分子と、を含み、（ｉｉｉ）配列Ａ′が、配列Ａに相補性であり、配列Ｂ′が、配列Ｂに相補性であり、配列Ｃ′が、配列Ｃに相補性であり、配列Ｄ′が、配列Ｄに相補性であり、配列Ｇ′が、配列Ｇに相補性であり、（ｉｖ）配列Ｇが、対象からの標的ポリヌクレオチド配列の一部分であり、複数のクラスタのそれぞれに対して異なり、（ｖ）配列Ｂ′が、対応する標的ポリヌクレオチド配列中の配列Ｇに関して５′に位置し、（ｖｉｉｉ）配列決定データが、配列Ｄを含む第１のプライマーの伸長により生成されたＲ１配列を含み、（ｖｉ）配列決定データが、配列Ａを含む第２のプライマーの伸長により生成されたＲ２配列を含む、提供することと、（ｂ）全てのＲ１配列を第１の参照配列に整列させるように、第１のアルゴリズムを使用して第１のアラインメントを行うことと、（ｃ）第１の参照配列に関して挿入または欠失を含有する可能性が高いとして、該第１のアラインメントにおいて特定されたＲ１配列を局所的に整列させ、それぞれの挿入または欠失の単一コンセンサスアラインメントを生成するように、第２のアルゴリズムを使用して第２のアラインメントを行うことと、（ｄ）全てのＲ２配列を第２の参照配列に整列させることにより、Ｒ２アラインメントを行うことと、（ｅ）ステップ（ｂ）〜（ｄ）により特定された配列変異を特定するレポートを受信者に送信することと、を含む。いくつかの実施形態において、配列Ａ、Ｂ、Ｃ、およびＤは、本発明の他の態様に関して記載されるように、それぞれ配列Ａ、Ｂ、Ｃ、およびＤに対応する。

一般に、ポリヌクレオチドのクラスタは、支持体上の位置に共局在化する核酸二本鎖の複数のコピーを含む。多様な好適な固体支持体および支持体、材料は、当該技術分野において既知であり、その非限定的な例は、例えば、本発明の他の態様に関して本明細書に提供される。ポリヌクレオチドのクラスタは、架橋増幅により生成され得る。架橋増幅を行うための好適な方法および装置は、例えば、本発明の他の態様に関して本明細書に提供される。いくつかの実施形態において、固体支持体は、複数のクラスタを含み、それぞれのクラスタは、異なる標的ポリヌクレオチド配列の増幅により複数形成される。増幅される標的ポリヌクレオチド配列、例えば、配列Ｇの部分は、支持体上に固定化された第１のオリゴヌクレオチドの伸長を含むプロセスにおいて支持体に結合され得る。いくつかの実施形態において、固体支持体は、配列Ａおよび配列Ｂを含む複数の異なる第１のオリゴヌクレオチドを含み、配列Ａは、全ての第１のオリゴヌクレオチドの中で共通であり、さらに配列Ｂは、それぞれの異なる第１のオリゴヌクレオチドに対して異なり、それぞれの第１のオリゴヌクレオチドの３′末端にある。いくつかの実施形態において、複数の第１のオリゴヌクレオチドは、約５、１０、２５、５０、７５、１００、１２５、１５０、１７５、２００、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多いか、それ未満、またはそれ以上の異なるオリゴヌクレオチドを含み、それぞれが異なる配列Ｂを含む。いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂは、図４−１〜３に示される配列番号２２〜１２１からなる群から選択される配列を含む（例えば、それぞれが図４−１〜３からの異なる配列を持つ１、５、１０、２５、５０、７５、または１００個の異なるオリゴヌクレオチド）。いくつかの実施形態において、配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、本明細書に記載される原因となる遺伝的変異体を含む。いくつかの実施形態において、配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、本明細書に記載される原因的変異体の約１、２、３、４、５、６、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。原因となる遺伝的変異体は、典型的に、第１のオリゴヌクレオチドの下流に位置し、原因となる遺伝的変異体の少なくとも一部分が、第１のヌクレオチドの伸長のためのテンプレートとして機能するようになる。固体支持体は、本明細書に記載されるように、それぞれの第２のオリゴヌクレオチドの３′末端に配列Ａを含む複数の第２のオリゴヌクレオチドと、それぞれの第３のオリゴヌクレオチドの３′末端に配列Ｃを含む複数の第３のオリゴヌクレオチドと、をさらに含み得る。二本鎖のクラスタを生成するために結合された第１、第２、および第３のオリゴヌクレオチドを使用する標的ポリヌクレオチド配列の一部分の架橋増幅の例は、図１に示され、配列Ｇ′は、配列ＢとＤ′との間に黒線で表され、配列Ｇは、配列Ｂ′とＤとの間に黒線で表される。

いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、非対象配列を含む。いくつかの実施形態において、配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、非対象配列の約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。一般に、非対象配列は、試験される個体以外の生物から誘導されるポリヌクレオチド、例えば、細菌、古細菌、ウイルス、原生生物、真菌、または他の生物からのＤＮＡまたはＲＮＡに対応する。非対象配列は、胎児からの核酸、例えば、胎児からの無細胞核酸（細胞外核酸とも称される）を含むこともできる。非対象配列は、生物の同一性を示し得、さらに感染等の疾患状態を示し得る。生物を特定する際に有用な非対象配列の例としては、限定されないが、ｒＲＮＡ配列、例えば、１６ｓｒＲＮＡ配列が挙げられる（例えば、国際公開第２０１０１５１８４２号を参照）。いくつかの実施形態において、非対象配列は、原因となる遺伝的変異体の代わりに、またはそれとは別に分析される。いくつかの実施形態において、原因となる遺伝的変異体および非対象配列は、例えば、同じ試料中（例えば、原因となる遺伝的変異体を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものと、非対象配列を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものとの第１のオリゴヌクレオチドの混合物を使用する）および／または同じレポートにおいて並行して分析される。

いくつかの実施形態において、複数の第１のオリゴヌクレオチドのうちの１つ以上の配列Ｂ、またはそれが特異的にハイブリダイズする標的配列は、祖先情報提供マーカー（ＡＩＭ）を含む。いくつかの実施形態において、配列Ｂまたはそれが特異的にハイブリダイズする標的配列は、ＡＩＭの約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド以内にある。ＡＩＭは、原因となる遺伝的変異体のうちの１つの危険性が高い集団のような１つ以上の集団に属するか、または属しない人を分類するために使用され得る。例えば、ＡＩＭは、ある形質の保有率が高い集団についての診断手段となり得る。場合によっては、ＡＩＭは、より細かい精度で集団、例えば、亜大陸グループまたは関連する民族グループを区別する。いくつかの実施形態において、ＡＩＭは、原因となる遺伝的変異体および／または非対象配列の代わりに、またはそれとは別に分析される。いくつかの実施形態において、ＡＩＭ、原因となる遺伝的変異体、および／または非対象配列は、並行して、例えば、同じ試料中（例えば、第１のオリゴヌクレオチド、原因となる遺伝的変異体を含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つもの、およびＡＩＭを含むか、またはその付近にある配列に特異的にハイブリダイズする配列Ｂを持つものの混合物を使用する）および／または同じレポート中で分析される。

いくつかの実施形態において、複数のクラスタのうちの１つ以上の配列が配列決定される。配列決定の例示の方法は、例えば、本発明の他の態様に関して本明細書に記載される。配列決定データは、それぞれのクラスタの１つ以上の配列決定プライマーの伸長により生成され得る。配列決定プライマーは、任意の好適な長さ、例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチドであり、その任意の部分または全ては、プライマーがハイブリダイズする対応する標的配列に相補性であり得る（例えば、約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド）。配列決定プライマー、プライマーＤは、それが相補性配列Ｄ′に特異的にハイブリダイズするように、配列Ｄを含むか、またはそれからなり得る。いくつかの実施形態において、配列Ｄ′の下流にある第１のヌクレオチドは、配列Ｇ′の第１のヌクレオチドであり、プライマーＤの伸長に付加された第１のヌクレオチドが配列Ｇに対応するようになる。配列決定プライマー、プライマーＣは、それが相補性配列Ｃ′に特異的にハイブリダイズするように、配列Ｃを含むか、またはそれからなり得る。いくつかの実施形態において、配列Ｃ′の下流にある第１のヌクレオチドは、バーコード配列の第１のヌクレオチドであり、プライマーＣの伸長に付加された第１のヌクレオチドがバーコード配列に対応するようになる。配列決定プライマー、プライマーＡは、それが相補性配列Ａ′に特異的にハイブリダイズするように、配列Ａを含むか、またはそれからなり得る。いくつかの実施形態において、配列Ａ′の下流にある第１のヌクレオチドは、配列Ｂ′の第１のヌクレオチドであり、プライマーＡの伸長に付加された第１のヌクレオチドが配列Ｂに対応するようになる。いくつかの実施形態において、配列決定プライマーは、配列ＣＡＣＴＣＡＧＣＡＧＣＡＣＧＡＣＧＡＴＣＡＣＡＧＡＴＧＴＧＴＡＴＡＡＧＡＧＡＣＡＧ（配列番号２０）を含む。

２つ以上の異なる配列決定プライマーが、それぞれのクラスタに対して複数の配列決定読み出し値を生成するように連続配列決定反応において使用され得る。例えば、連続配列決定反応は、プライマーＡ、Ｃ、およびＤのそれぞれに対して任意の順序で行われ得る（例えば、プライマーＤ、次にプライマーＣ、次にプライマーＡ）。配列決定反応は、鎖切断、鎖変性、または前の反応の１つ以上の成分（例えば、配列決定プライマー）を除去するための洗浄ステップのうちの１つ以上により進められ得る。配列決定反応は、個別のヌクレオチドプライマー伸長の複数のサイクルを含み得、それぞれの付加後に、付加された塩基の同一性を決定する特定ステップが続く。個別のヌクレオチド伸長のサイクル数は、例えば、連続配列決定反応において使用される複数の配列決定プライマーのそれぞれに対して、または連続配列決定反応において使用される全ての配列決定プライマーに対して集合的に、約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０、４０、５０、６０、７０、８０、９０、１００、１５０、２００、２５０、５００、もしくはそれより多いか、またはそれ以上である。いくつかの実施形態において、個別のヌクレオチド伸長のサイクル数は、バーコードまたはプローブ配列等の特定される配列の長さに基づいて選択され、約３０、２５、２０、１５、１０、９、８、７、６、５サイクル、もしくはそれより少ないか、またはそれ以下であり得る。連続配列決定反応において使用される複数の配列決定プライマーのそれぞれに対するサイクル数は、異なり得る。例えば、５９サイクルのプライマーＤの伸長後に、６サイクルのプライマーＣの伸長が続いてよく、次に１５サイクルのプライマーＡの伸長が続いて、合計８０サイクルの伸長となり得る。

第１の配列決定プライマー、第２の配列決定プライマー、およびインデックスプライマーである第３のプライマーの伸長は、それぞれのクラスタに対して、それぞれＲ１、Ｒ２、およびバーコード配列を生成することができる。一般に、複数の配列は、クラスタのアレイ上の位置等の連続伸長反応の物理的共局在化に基づいて、単一クラスタから生じると特定される。いくつかの実施形態において、配列決定データ（例えば、Ｒ１および／またはＲ２配列）は、単一反応容器（例えば、フローセル中のチャネル）内の試料からの約５、１０、２５、５０、１００、１５０、２００、２５０、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多いか、それ未満、またはそれ以上の異なる標的ポリヌクレオチドに対して、例えば、１つ以上の配列決定プライマーの伸長により生成される。いくつかの実施形態において、配列決定データは、複数の試料、例えば、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２４、４８、９６、１９２、３８４、７６８、１０００、もしくはそれより多い試料に対して並行して生成される。いくつかの実施形態において、配列決定データは、単一反応容器（例えば、フローセル中のチャネル）内の試料からの約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２４、４８、９６、１９２、３８４、７６８、１０００、もしくはそれより多い試料に対して生成され、配列決定データは、配列決定されたポリヌクレオチドが生じる試料に従って（例えば、バーコード配列に基づいて）、後次に分類される。バーコード配列に基づく配列決定データの分類は、例えば、本明細書に記載される１つ以上のアラインメントを行う前または後、および任意に１つ以上の配列を分析から除去する前に行われ得る。一般に、配列決定読み出し値がバーコードに基づいて分類されると、読み出し値のそれぞれの分類は、他の分類から独立してさらに処理される。いくつかの実施形態において、それぞれのバーコードは、並行して分析された複数の異なるバーコード中のバーコードと１つおきに異なる。典型的に、バーコード配列は、単一反応において配列決定された試料のプール中の単一試料と関連付けられる。いくつかの実施形態において、複数のバーコード配列のそれぞれは、同時に配列決定された試料のプール中の単一試料と固有に関連付けられる。いくつかの実施形態において、バーコード配列は、配列Ｄ′から５′に位置する。

単一反応において、配列決定データ（例えば、Ｒ１および／またはＲ２配列）は、架橋増幅反応からの約または少なくとも約１０^６、１０^７、１０^８、２×１０^８、３×１０^８、４×１０^８、５×１０^８、１０^９、１０^１０、もしくはそれより多い標的ポリヌクレオチドまたはクラスタに対して生成され、反応におけるそれぞれの試料に対して約１０^４、１０^５、１０^６、２×１０^６、３×１０^６、４×１０^６、５×１０^６、１０^７、１０^８、それ未満、またはそれ以上の標的ポリヌクレオチドまたはクラスタに対する配列決定データを含み得る。配列決定システムは、様々な出力データファイル型またはフォーマットのいずれかで配列決定データを出力することができ、^＊．ｆａｓｔａ、^＊．ｃｓｆａｓｔａ、^＊ｓｅｑ．ｔｘｔ、^＊ｑｓｅｑ．ｔｘｔ、^＊．ｆａｓｔｑ、^＊．ｓｆｆ、^＊ｐｒｂ．ｔｘｔ、^＊．ｓｍｓ、^＊ｓｒｓおよび／または^＊．ｑｖが挙げられるが、これらに限定されない。いくつかの実施形態において、約５、１０、２５、５０、７５、１００、１２５、１５０、１７５、２００、３００、４００、５００、７５０、１０００、２５００、５０００、７５００、１００００、２００００、５００００、もしくはそれより多いか、それ未満、またはそれ以上の原因となる遺伝的変異体の存在または非存在は、配列決定データに基づいて、試料に対して決定される。１つ以上の原因となる遺伝的変異体の存在、非存在、または対立遺伝子比は、約８０％、８５％、９０％、９５％、９７．５％、９９％、９９．５％、９９．９％、もしくはそれより高いか、またはそれ以上の精度で決定され得る。いくつかの実施形態において、１つ以上の非対象配列および／または１つ以上のＡＩＭの存在、非存在、または量は、約８０％、８５％、９０％、９５％、９７．５％、９９％、９９．５％、９９．９％、もしくはそれより高いか、またはそれ以上の精度で決定される。

いくつかの実施形態において、複数のクラスタに対する１つ以上の配列決定反応において特定された配列は、参照配列に対して整列される。一般に、アラインメントは、１つの配列を別の配列に沿って置くことと、ギャップをそれぞれの配列に沿って反復して導入することと、２つの配列がどれ程良好にマッチするかをスコア付することと、好ましくは、参照に沿って様々な位置に対して繰り返すことと、を伴う。最良のスコアマッチは、アラインメントであると見なされ、配列間の関係の程度についての推測を示す。いくつかの実施形態において、配列決定読み出し値が比較される参照配列は、参照ゲノム、例えば、対象と同じ種のメンバーのゲノムである。参照ゲノムは、完全であり得るか、または不完全であり得る。いくつかの実施形態において、参照ゲノムは、標的ポリヌクレオチドを含有する領域のみからなる。いくつかの実施形態において、参照配列は、ヒトゲノムを含むか、またはそれからなる。いくつかの実施形態において、参照配列は、試験されるか、または試料が採取される個体以外の１つ以上の生物のポリヌクレオチドの配列、例えば、１つ以上の細菌、古細菌、ウイルス、原生生物、真菌、または他の生物からの配列を含むか、またはそれからなる。いくつかの実施形態において、参照配列は、複数の既知の配列、例えば、標的ポリヌクレオチド配列を増幅するために使用される全てのプローブ配列を含むか、またはそれらからなる（例えば、全ての異なる標的ポリヌクレオチドに対する全ての配列Ｂおよび／または配列Ｂ′）。１つのプライマーの伸長から生成された配列決定データ（例えば、プライマーＤからのＲ１配列）は、別のプライマーの伸長から生成された配列決定データ（例えば、プライマーＡからのＲ２配列）と同じか、または異なる参照配列に整列され得る。１つのプライマーの伸長から生成された配列決定データは、参照配列に２回以上整列され得、それぞれのアラインメントは、異なるアラインメントアルゴリズムを使用する。Ｒ１配列は、Ｒ２配列から独立して整列され得、Ｒ１およびＲ２配列の第１のアラインメントは、同じアラインメントアルゴリズムを使用し得る。

アラインメントにおいて、参照における非マッチング塩基に沿った配列決定読み出し値中の塩基は、置換突然変異がその点で発生したことを示す。同様に、１つの配列が他の配列中の塩基に沿ってギャップを含む場合、挿入または欠失突然変異（「インデル」）が発生したことが推測される。１つの配列が互いに整列されることを特定することが所望される場合、アラインメントは、時として対合アラインメントと呼ばれる。複数の配列アラインメントは、一般に、例えば、一連の対合アラインメントを含む、２つ以上の配列のアラインメントを指す。いくつかの実施形態において、アラインメントをスコア付することは、置換およびインデルの確率に対して値を設定することを伴う。個別の塩基が整列されるとき、マッチまたはミスマッチは、置換可能性によるアラインメントスコアに寄与し、これは例えば、マッチに対して１、およびミスマッチに対して０．３３であり得る。インデルは、ギャップペナルティによりアラインメントスコアから差し引き、例えば、ギャップペナルティは−１であり得る。ギャップペナルティおよび置換可能性は、配列がどのように突然変異するかについての経験的知識または演繹的仮定に基づき得る。それらの値は、得られるアラインメントに影響する。アラインメントを行うためのアルゴリズムの例としては、限定されないが、スミス−ウォーターマン（ＳＷ）アルゴリズム、ニードルマン−ウンシュ（ＮＷ）アルゴリズム、バローズ−ホイーラー変換に基づくアルゴリズム（ＢＷＴ）、およびＮｏｖｏａｌｉｇｎ（ＮｏｖｏｃｒａｆｔＴｅｃｈｎｏｌｏｇｉｅｓ；ｗｗｗ．ｎｏｖｏｃｒａｆｔ．ｃｏｍで入手可能）、ＥＬＡＮＤ（Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏ，ＣＡ）、ＳＯＡＰ（ｓｏａｐ．ｇｅｎｏｍｉｃｓ．ｏｒｇ．ｃｎで入手可能）、およびＭａｑ（ｍａｑ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔで入手可能）等のハッシュ関数アライナーが挙げられる。

いくつかの実施形態において、本発明に従うアラインメントは、コンピュータープログラムに使用して行われる。ＢＷＴアプローチを実装する１つの例示のアラインメントプログラムは、Ｇｅｅｋｎｅｔ（Ｆａｉｒｆａｘ，Ｖａ．）により維持されるＳｏｕｒｃｅＦｏｒｇｅウェブサイトから入手可能なバローズ−ホイーラーアライナー（ＢＷＡ）である。ＢＷＴは、典型的に、１ヌクレオチド当たり２ビットのメモリを占有し、典型的なデスクトップまたはラップトップコンピュータを用いて、長さが４Ｇ塩基対のヌクレオチド配列をインデックス付することを可能にする。前処理は、ＢＷＴの構築（すなわち、参照をインデックス付する）および支持する補助データ構造を含む。ＢＷＡは、２つの異なるアルゴリズムを含み、ともにＢＷＴに基づく。ＢＷＡによるアラインメントは、誤差率の低い（３％未満）最大約２００ｂｐの短いクエリに対して設計されたアルゴリズムｂｗａ−ｓｈｏｒｔを使用して進めることができる（ＬｉＨ．ａｎｄＤｕｒｂｉｎＲ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２５：１７５４〜６０（２００９））。第２のアルゴリズムであるＢＷＡ−ＳＷは、より多くの誤差を含む長い読み出し値に対して設計されている（ＬｉＨ．ａｎｄＤｕｒｂｉｎＲ．（２０１０）．Ｆａｓｔａｎｄａｃｃｕｒａｔｅｌｏｎｇ−ｒｅａｄａｌｉｇｎｍｅｎｔｗｉｔｈＢｕｒｒｏｗｓ−ＷｈｅｅｌｅｒＴｒａｎｓｆｏｒｍ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｅｐｕｂ．）。当業者であれば、ｂｗａ−ｓｗが、時として「ｂｗａ−ｌｏｎｇ」、「ｂｗａｌｏｎｇアルゴリズム」または同様に称されることを認識するであろう。

スミス−ウォーターマンアルゴリズムのバージョンを実現するアラインメントプログラムは、Ｇｅｅｋｎｅｔ（Ｆａｉｒｆａｘ，Ｖａ．）により維持されるＳｏｕｒｃｅＦｏｒｇｅウェブサイトから入手可能なＭＵＭｍｅｒである。ＭＵＭｍｅｒは、完全形態であってもドラフト形態であっても、全体ゲノムを速やかに整列させるためのシステムである（Ｋｕｒｔｚ，Ｓ．，ｅｔａｌ．，ＧｅｎｏｍｅＢｉｏｌｏｇｙ，５：Ｒ１２（２００４）、Ｄｅｌｃｈｅｒ，Ａ．Ｌ．，ｅｔａｌ．，Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．，２７：１１（１９９９））。例えば、ＭＵＭｍｅｒ３．０は、２．４ＧＨｚＬｉｎｕｘデスクトップコンピューター上で７８ＭＢのメモリを使用し、１３．７秒以内に５−メガベースゲノムの対の間の全２０−塩基対以上の正確なマッチを見出すことができる。ＭＵＭｍｅｒは、不完全なゲノムを整列することもでき、ショットガン配列決定プロジェクトからの何百または何千のコンティグを容易に扱うことができ、システムとともに含まれるＮＵＣｍｅｒプログラムを使用して、それらを別のコンティグの群またはゲノムに整列させる。

アラインメントプログラムの他の非限定的な例としては、ＫｅｎｔＩｎｆｏｒｍａｔｉｃｓ（ＳａｎｔａＣｒｕｚ，Ｃａｌｉｆ．）からのＢＬＡＴ（Ｋｅｎｔ，Ｗ．Ｊ．，ＧｅｎｏｍｅＲｅｓｅａｒｃｈ４：６５６〜６６４（２００２））、ＢｅｉｊｉｎｇＧｅｎｏｍｉｃｓｉｎｓｔｉｔｕｔｅ（Ｂｅｉｊｉｎｇ，ＣＮ）またはＢＧＩＡｍｅｒｉｃａｓＣｏｒｐｏｒａｔｉｏｎ（Ｃａｍｂｒｉｄｇｅ，Ｍａｓｓ．）からのＳＯＡＰ２、Ｂｏｗｔｉｅ（Ｌａｎｇｍｅａｄ，ｅｔａｌ．，ＧｅｎｏｍｅＢｉｏｌｏｇｙ，１０：Ｒ２５（２００９））、配列および異型のコンセンサスアセスメント（ＣＡＳＡＶＡ）ソフトウェアのヌクレオチドデータベースの効率的大規模アラインメント（ＥＬＡＮＤ）またはＥＬＡＮＤｖ２成分（Ｉｌｌｉｍｕｎａ，ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）、ＲｅａｌＴｉｍｅＧｅｎｏｍｉｃｓ，Ｉｎｃ．（ＳａｎＦｒａｎｃｉｓｃｏ，Ｃａｌｉｆ．）からのＲＴＧＩｎｖｅｓｔｉｇａｔｏｒ、Ｎｏｖｏｃｒａｆｔ（Ｓｅｌａｎｇｏｒ，Ｍａｌａｙｓｉａ）からのＮｏｖｏａｌｉｇｎ、ＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅ（Ｈｉｎｘｔｏｎ，ＵＫ）からのＥｘｏｎｅｒａｔｅ（Ｓｌａｔｅｒ，Ｇ．，ａｎｄＢｉｒｎｅｙ，Ｅ．，ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ６：３１（２００５））、ＵｎｉｖｅｒｓｉｔｙＣｏｌｌｅｇｅＤｕｂｌｉｎ（Ｄｕｂｌｉｎ，Ｉｒｅｌａｎｄ）からのＣｌｕｓｔａｌＯｍｅｇａ（ＳｉｅｖｅｒｓＦ．，ｅｔａｌ．，ＭｏｌＳｙｓｔＢｉｏｌ７，ａｒｔｉｃｌｅ５３９（２０１１））、ＵｎｉｖｅｒｓｉｔｙＣｏｌｌｅｇｅＤｕｂｌｉｎ（Ｄｕｂｌｉｎ，Ｉｒｅｌａｎｄ）からのＣｌｕｓｔａｌＷまたはＣｌｕｓｔａｌＸ（ＬａｒｋｉｎＭ．Ａ．，ｅｔａｌ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２３，２９４７〜２９４８（２００７））、およびＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅ（Ｈｉｎｘｔｏｎ，ＵＫ）からのＦＡＳＴＡ（ＰｅａｒｓｏｎＷ．Ｒ．，ｅｔａｌ，ＰＮＡＳ８５（８）：２４４４〜８（１９８８）、Ｌｉｐｍａｎ，Ｄ．Ｊ．，Ｓｃｉｅｎｃｅ２２７（４６９３）：１４３５〜４１（１９８５））が挙げられる。

いくつかの実施形態において、本発明のステップのうちのいずれか、または全ては自動化される。例えば、Ｐｅｒｌスクリプトまたはシェルスクリプトを、上述の様々なプログラムのいずれかを起動するように書くことができる（例えば、Ｔｉｓｄａｌｌ，ＭａｓｔｅｒｉｎｇＰｅｒｌｆｏｒＢｉｏｉｎｆｏｒｍａｔｉｃｓ，Ｏ′Ｒｅｉｌｌｙ＆Ａｓｓｏｃｉａｔｅｓ，Ｉｎｃ．，Ｓｅｂａｓｔｏｐｏｌ，Ｃａｌｉｆ．２００３、Ｍｉｃｈａｅｌ，Ｒ．，ＭａｓｔｅｒｉｎｇＵｎｉｘＳｈｅｌｌＳｃｒｉｐｔｉｎｇ，ＷｉｌｅｙＰｕｂｌｉｓｈｉｎｇ，Ｉｎｃ．，Ｉｎｄｉａｎａｐｏｌｉｓ，Ｉｎｄ．２００３を参照）。代替として、本発明の方法は、１つ以上の専用プログラムにおいて全体的または部分的に具現化され得、例えば、それぞれが任意にＣ＋＋等のコンパイル言語で書かれた後、バイナリとして編集および配布される。本発明の方法は、既存の配列分析プラットフォーム内で、またはその中で機能性を起動することにより、モジュールとして全体的または部分的に実現され得る。ある実施形態において、本発明の方法は、全て単一の開始キュー（例えば、ヒトの活動、別のコンピュータープログラム、またはマシン）からもたらされる引き金となるイベントの１つまたは組み合わせに応答して自動的に起動される、多くのステップを含む。したがって、本発明は、それらのステップのうちのいずれか、またはそれらのステップの任意の組み合わせがキューに応答して自動的に起こり得る方法を提供する。出力は、コンピューターファイルのフォーマットで提供され得る。ある実施形態において、出力は、参照ゲノムの配列に整列された核酸の配列等の配列データを含有するＦＡＳＴＡファイル、ＶＣＦファイル、テキストファイル、またはＸＭＬファイルである。他の実施形態において、出力は、参照ゲノムに対して対象の核酸における１つ以上の突然変異を説明する座標または文字列を含有する。当該技術分野において既知のアラインメント文字列としては、ＳｉｍｐｌｅＵｎＧａｐｐｅｄＡｌｉｇｎｍｅｎｔＲｅｐｏｒｔ（ＳＵＧＡＲ）、ＶｅｒｂｏｓｅＵｓｅｆｕｌＬａｂｅｌｅｄＧａｐｐｅｄＡｌｉｇｎｍｅｎｔＲｅｐｏｒｔ（ＶＵＬＧＡＲ）、およびＣｏｍｐａｃｔＩｄｉｏｓｙｎｃｒａｔｉｃＧａｐｐｅｄＡｌｉｇｎｍｅｎｔＲｅｐｏｒｔ（ＣＩＧＡＲ）（Ｎｉｎｇ，Ｚ．，ｅｔａｌ．，ＧｅｎｏｍｅＲｅｓｅａｒｃｈ１１（１０）：１７２５〜９（２００１））が挙げられる。いくつかの実施形態において、出力は、配列アラインメント、例えば、ＣＩＧＡＲ文字列を含む配列アラインメントマップ（ＳＡＭ）またはバイナリアラインメントマップ（ＢＡＭ）ファイルである（ＳＡＭフォーマットは、例えば、Ｌｉ，ｅｔａｌ．，ＴｈｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ／ＭａｐｆｏｒｍａｔａｎｄＳＡＭｔｏｏｌｓ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５（１６）：２０７８〜９に記載されている）。いくつかの実施形態において、ＣＩＧＡＲは、１ライン当たり１つのギャップトアラインメントを表示するか、または含む。ＣＩＧＡＲは、圧縮された対合アラインメントフォーマットでレポートされたＣＩＧＡＲ文字列である。

いくつかの実施形態において、クラスタからのＲ１配列は、複数の異なる標的ポリヌクレオチドからの配列Ｇを含み、クラスタからのＲ２配列は、配列Ｂを含み、配列Ｂは、増幅した二本鎖のクラスタを生成するために使用されるプローブ配列である。それぞれの配列Ｂが、特定の標的ポリヌクレオチドを標的するように選択されるとき、参照配列（例えば、参照ゲノム）内のその配列および位置は一般に知られており、同じクラスタからのＲ１配列は、予想されるヌクレオチド距離内にあると予期され得る。予想されるヌクレオチド距離は、断片化試料ポリヌクレオチドを含む試料の断片長の平均もしくは中央値、またはそのような中央値もしくは平均断片長に基づいてあり得ない断片長を表す上閾値距離に基づき得る。したがって、いくつかの実施形態において、同じクラスタからのＲ２配列から閾値距離よりさらに離れた位置に整列するＲ１配列は、誤りである得るため破棄される。いくつかの実施形態において、それを上回るクラスタの配列読み出し値が破棄される、同じクラスタからの整列されたＲ１配列とＲ２配列との間の参照配列に沿った上限閾値距離は、約１０００、２５００、５０００、７５００、１００００、１２５００、１５０００、２００００塩基対、もしくはそれより多いか、またはそれ以上である。いくつかの実施形態において、参照配列（例えば、参照ゲノム）の非固有領域に対するＲ１配列のアラインメントは破棄され、その配列は、参照配列内の固有の配列のより小さなサブセットに再整列される。

典型的に、塩基品質スコアは、配列決定結果において、それぞれのヌクレオチドに対して決定され、特定の塩基呼び出しが誤りである確率に関する。塩基品質スコアの例は、Ｐｈｒｅｄ品質スコアＱ、Ｑ＝−１０ｌｏｇ_１０Ｐであり、式中、Ｐは、対応する塩基呼び出しが正しくない確率を表す。いくつかの実施形態において、塩基品質スコアは、例えば、複数のアラインメントのそれぞれのに対してマッピング品質スコアを決定することにより、参照配列に対する配列決定読み出し値のアラインメントを評価するために使用される。マッピング品質スコアを計算するための方法は、当該技術分野において既知である。例えば、閾値を下回る品質スコアを有するアラインメントは、破棄されるか、再整列されるか、またはより高いスコアを有する代替アラインメントと置き換えられ得る。いくつかの実施形態において、閾値を下回るマッピング品質スコアを持ち、複数の最適アリアンメントを有するアラインメントは、参照配列内の配列のサブセット、例えば、標的ポリヌクレオチドを含有する参照ゲノムの領域のみに再整列される。いくつかの実施形態において、閾値マッピング品質スコアは、約１００、７５、５０、２５、２０、１０、５、４、３、２、１、もしくは０、またはそれ未満である。

いくつかの実施形態において、重複する可能性が高い配列決定読み出し値は、最初のアラインメントに続いて除去される。配列決定読み出し値がマップされるとき、重複読み出し値は、アラインメントアルゴリズムにより重複としてマークされ得る。例えば、アラインメントアルゴリズム内のマーク重複サブルーチンは、整列された配列のファイル（例えば、^＊．ＢＡＭファイル）内のレコードの全てを審査し、どの読み出し値が他の読み出し値の重複であるかを決定する。一般的に言えば、２種類の重複が存在する：典型的に一次解析ソフトウェアにおける欠陥により引き起こされる光学的重複、および重複ＰＣＲ反応により引き起こされるＰＣＲ重複。しかしながら、計算の観点から、光学的重複とＰＣＲ重複は区別できない。２つの読み出し値が重複であるか否かを決定する１つの方法は、塩基配列を比較することであり、２つの重複読み出し値は、重複塩基配列を有するはずである。しかしながら、配列決定エラーに起因して、それは２つの重複読み出し値が配列決定される場合であり得、１つの読み出し値の配列決定エラーが、その塩基配列を他の読み出し値とは著しく異なるようにする。したがって、塩基配列を比較して２つの読み出し値が重複するかどうかを決定するのではなく、代わりに、それらのアラインメント比較することができる。２つの読み出し値が重複である場合、次に、両方の読み出し値のアラインメントの群全体は、全体的に同じである。いくつかの実施形態において、重複は、アラインメントアルゴリズムとは別個の１つ以上のアルゴリズムを使用して除去および／または破棄されるようにマークされる。一般に、バーコード配列が使用されるとき、配列決定読み出し値は、同じバーコード配列分類内で発生するときに単に削除される。

いくつかの実施形態において、第２のアルゴリズムを使用する第２のアラインメントは、第１のアルゴリズムを使用する第１のアラインメントの後に行われる。第２のアラインメントは、第１のアラインメントと同じ参照配列に関して、第１のアラインメントにおいて使用されるか、または参照配列を使用しないものとは異なる参照配列であり得る（例えば、全ての配列決定が重なるとき、特定の領域が互いに整列される）。例えば、第１の参照配列に関して挿入および／または欠失（インデル）を含有する可能性が高いと第１のアラインメントにおいて特定された配列は、標的ポリヌクレオチドに含有される挿入および／または欠失に対して単一のコンセンサス配列を生成するように局所的に整列され得る。第１のアラインメントは、個別の配列を参照配列に独立して整列し得る。場合によっては、真のインデルを持つ配列決定読み出し値は、複数のミスマッチを持つアラインメントモデルが、インデル含有アラインメントより高いスコアであるとき、インデルではなく複数のミスマッチと整列され得る。典型的に、複数の配列が、単一のヌクレオチド位置と重なるように（例えば、タイル状に）整列される。予測される量を超える配列変異を含有する重なる領域（例えば、ヒト対象のゲノム中の固有の遺伝子座に対する２つより多くの対立遺伝子）は、高い可能性のインデルの存在を示し得る。特定の参照配列に対するいくつかのインデルの位置は既知であり得、既知のインデルの位置と重なる配列は、その配列がインデルを含有する可能性が高いと特定するようになる。インデルを含む可能性は、１つ以上のそのような因子に基づいて、例えば、少なくとも約６０％、７０％、８０％、９０％、９５％、９９％、もしくはそれより高い可能性のように、数値で表され得る。いくつかの実施形態において、原因となる遺伝的変異体のような関心領域に重なり、また任意にインデルを含むか、または含む可能性がある全ての配列は、関心領域に対して単一のコンセンサス配列を生成するために、第２のアルゴリズムを使用して局所的に整列される。関心領域は、任意の好適なサイズ、例えば、約５、１０、１５、２０、２５、５０、１００、２５０、５００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド長であり得る。第２のアラインメントは、１つ以上のヌクレオチド位置に重なる全ての配列決定読み出し値の局所的複数配列アラインメントであり得る。いくつかの実施形態において、第２のアラインメントは、ある位置での全ての配列決定のアラインメントを最適化することにより、単一のコンセンサス配列を特定する。いくつかの実施形態において、第２のアラインメントにより生成されたコンセンサス配列は、参照配列に関して、コンセンサス配列を生成するために再整列された配列の１つ以上より少なくとも１、２、３、４、５、６、７、８、９、１０、１５、２０、または２５より少ないヌクレオチドミスマッチを含有する。いくつかの実施形態において、第２のアラインメントを行うために使用されるアルゴリズムは、参照配列と比較して、約１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、もしくはそれより多いか、またはそれ以上のヌクレオチドの挿入および／または欠失を、約８０％、８５％、９０％、９５％、９７％、９９％、もしくはそれより高いか、またはそれ以上の精度で特定することができる。

典型的に、第２のアルゴリズムは、第１のアルゴリズムとは異なり、第２のアルゴリズムは、同じ数のアラインメントを行うために、アルゴリズムを実行するシステム（例えば、コンピューターシステム）のより多くの資源を必要とし得る。例えば、第１のアルゴリズムを使用するシステムを用いて第１のアラインメントを行うことは、そのシステムが第２のアルゴリズムを使用して、全てのＲ１読み出し値の第１のアラインメントを行う場合にかかる時間よりも短い時間で全てのＲ１読み出し値を整列し得る。いくつかの実施形態において、第１のアルゴリズムを用いて第１のアラインメントを行うことは、第２のアルゴリズムを使用して同じシステムにより第１のアラインメントを行うためにかかる時間より約９０％、８０％、７０％、６０％、５０％、４０％、３０％、２５％、２０％、１５％、１０％、５％、もしくはそれより短いか、またはそれ以下の時間がかかる。さらなる例として、第１のアルゴリズムを使用するシステムを用いて第１のアラインメントを行うことは、このシステムが第２のアルゴリズムを使用して全てのＲ１読み出し値の第１のアラインメントを行う場合に使用されるよりも少ないシステムメモリを使用して、全てのＲ１読み出し値を整列することができる。いくつかの実施形態において、第１のアルゴリズムを用いて第１のアラインメントを行うことは、第２のアルゴリズムを使用して第１のアラインメントを行うために同じシステムにより使用されるよりも約９０％、８０％、７０％、６０％、５０％、４０％、３０％、２５％、２０％、１５％、１０％、５％、もしくはそれより少ないか、またはそれ以下のメモリを使用する。第１のアルゴリズムは、経験則を使用して第１のアラインメントを行うことができる。いくつかの実施形態において、第１のアルゴリズムは、バローズ−ホイーラー変換、例えば、バローズ−ホイーラーアライナーに基づく。

いくつかの実施形態において、試料からの１つ以上の標的ポリヌクレオチドから誘導される増幅配列（例えば、全てのクラスタの少なくとも７５％、８０％、８５％、９０％、９５％、または１００％からの配列Ｇ）は、１ヌクレオチド長から約１０、２５、５０、１００、２５０、５００、１０００、２０００、５０００、もしくはそれより多いか、それ未満、またはそれ以上のヌクレオチド長である。一般に、クラスタの標的ポリヌクレオチドから誘導された増幅配列（例えば、配列Ｇ）が、増幅配列（「読み出し値長」とも称される）を配列決定する際に行われるヌクレオチド伸長のサイクル数より短い場合、その配列決定読み出し値に戻された配列データは、最初に増幅配列（例えば、ＢまたはＢ′）を捕捉するために使用される第１のオリゴヌクレオチドの配列を含有する可能性が高い。配列ＢまたはＢ′が参照配列（例えば、参照ゲノム）に存在するとき、配列は正しく整列し得るが、標的ポリヌクレオチド中の任意の真の突然変異は、マスクされ得るか、またはより低い信頼度で推測され得る。Ｒ１配列に含有される第１のオリゴヌクレオチド配列の負の効果を避けるために、クラスタの配列ＢまたはＢ′に対応する可能性のある塩基呼び出しは、欠失され得る。クラスタの配列ＢまたはＢ′は、例えば、Ｒ２配列を生成する別個の配列決定反応において特定され得る。次に、Ｒ１配列は、同じクラスタのＲ２配列と比較され、Ｒ１の１つ以上のヌクレオチドが配列ＢまたはＢ′に対応するか否かを決定し得る。クラスタについてＲ２配列（または任意の配列Ｂを含むＲ２配列）が得られない場合、第１のオリゴヌクレオチド配列を欠失することは、欠失されるＲ１配列の一部分が任意の配列Ｂ′の少なくとも一部分と同一であり（例えば、任意のクラスタにおいて見出されるか、または標的ポリヌクレオチドを増幅するために使用される任意の配列Ｂに対応する任意のＢ′）、この部分が、Ｒ１の５′または３′ヌクレオチドのいずれかを含み、（ｉ）いかなるＲ２配列もクラスタに対して生成されなかったか、または（ｉｉ）生成されたＲ２配列が任意の配列Ｂと同一でないかのいずれかであるとき、クラスタのＲ１配列の一部分を欠失することを含み得る。一般に、Ｒ１配列の内部に見出される配列ＢまたはＢ′を含むヌクレオチド配列（つまり、配列決定読み出し値の５′または３′末端を含まない）は、増幅した配列が、さらに離れた配列Ｂを使用して捕捉されたことを示す。

いくつかの実施形態において、本発明の方法により検出された遺伝的変異を使用して、複数の確率を計算する。それぞれの確率は、疾患または形質を有するか、または発症する対象または対象の現在もしくは将来の子孫の確率であり得る。いくつかの実施形態において、それぞれの確率は、対象のＲ１配列に基づき、１つ以上のそのような確率は、分析結果のレポートに含まれ得る。一般に、試験された対象が疾患または形質を有するか、または発症する確率の計算は、１つ以上の試験された原因となる遺伝的変異体、非対象配列、および／またはＡＩＭと関連付けられた危険性のレベルに基づく。例えば、２つの原因となる遺伝的変異体が、付加的に疾患を発症する危険性に寄与する場合、対象における両方の原因となる遺伝的変異体の存在は、対象におけるその疾患の危険性が、それぞれと関連付けられる危険性を付加することから得られる値だけ増加することを示す。一般に、対象の子孫が疾患または形質を有する確率の計算は、１つ以上の試験された原因となる遺伝的変異体および／またはＡＩＭ、および子孫がその原因となる遺伝的変異体および／またはＡＩＭを受け継ぐ可能性と関連付けられた危険性のレベルに基づく。危険性計算は、１つ以上のデータベースに維持される危険性相関に基づき得、そのデータベースは、試験された対象の遺伝子型決定結果および関連表現型に関する外部レポートおよび／または記録に基づいて更新され得る。いくつかの実施形態において、計算は、コンピューター可読媒体に含まれる命令に従い、コンピューターにより行われる。いくつかの実施形態において、対象または対象の子孫が疾患または形質を有するか、または発症する確率の統計的信頼度は、少なくとも約７０％、８０％、８５％、９０％、９５％、９７．５％、９９％、もしくはそれより高い。信頼度は、配列決定精度における信頼度、試験される関連遺伝的変異体の数、およびそれぞれの遺伝的変異体との危険性関連における信頼度等の多数の因子に基づき得る。確率を計算するための例示の方法は、米国公開第２０１０００２２４０６号に記載される。

本発明の任意の態様のいくつかの実施形態において、コンピューターシステムを使用して、記載される方法の１つ以上のステップを実行する。図８は、本発明の方法において有用なコンピューターシステムの非限定的な例を示す。いくつかの実施形態において、コンピューターシステムは、液体ハンドラー、架橋増幅システム（例えば、ＩｌｌｕｍｉｎａｃＢｏｔ）、および／または配列決定システム（例えば、Ｉｌｌｕｍｉｎａゲノム分析器、ＨｉＳｅｑ、またはＭｉＳｅｑシステム）等の分析システムに統合され、その一部である。いくつかの実施形態において、コンピューターシステムは、分析システムに接続されるか、または移植される。いくつかの実施形態において、コンピューターシステムは、ネットワーク接続により分析システムに接続される。コンピューターシステム（またはデジタルデバイス）は、結果を受信および記憶し、その結果を分析し、および／または結果および分析のレポートを生成するために使用され得る。コンピューターシステムは、媒体（例えば、ソフトウェア）および／またはネットワークポート（例えば、インターネットから）からの命令を読み出すことができる論理装置として理解され得、任意に固定媒体を有するサーバーに接続され得る。コンピューターシステムは、ＣＰＵ、ディスクドライブ、キーボードおよび／またはマウス等の入力デバイス、およびディスプレイ（例えば、モニター）のうちの１つ以上を含み得る。データ通信、例えば、命令またはレポートの伝達は、ローカルまたはリモート位置にあるサーバーに対して通信媒体を通じて達成され得る。通信媒体は、データを伝達および／または受信する任意の手段を含み得る。例えば、通信媒体は、ネットワーク接続、ワイヤレス接続、またはインターネット接続であり得る。そのような接続は、ワールドワイドウェブ上の通信を提供することができる。本発明に関するデータは、受信のため、および／または受信者によるレビューのために、そのようなネットワークまたは接続（あるいは情報を伝達するための任意の他の好適な手段、プリントアウト等の物理的レポートを郵送することを含むが、これに限定されない）上で伝達され得ることが想定される）。受信者は、限定されないが、個人、ヘルスケア提供者、ヘルスケア管理者、または電子システム（例えば、１つ以上のコンピューター、および／または１つ以上のサーバー）であり得る。いくつかの実施形態において、コンピューター可読媒体は、生物学的試料の分析の結果の伝達に好適な媒体を含む。この媒体は、個人の遺伝子プロファイルの分析に関する結果を含むことができ、そのような結果は、本明細書に記載される方法を使用して誘導される。データおよび／または結果は、モニター等のディスプレイ上にいつでも表示され得、遺伝的レポートの形態で記憶または印刷され得る。

表現型と関連付けられる原因となる遺伝的変異体は、化学的文献から得られ、対象からの試料の配列結果との比較のためにコンピューターシステムに送信され得る。原因となる遺伝的変異体の遺伝子型および生物学的試料からの結果は、コンピューターシステム（または他のデジタルデバイス）に送信され、記憶され、分析され得、ゲノムデータの結果および分析のレポートを生成する。これらの結果および分析は、ヘルスケア提供者のような受信者により、オンラインポータルまたはウェブサイトを介してオンラインでアクセスされ得る。これらの結果および分析は、オンラインで見られるか、受信者のコンピューターに保存されるか、印刷されるか、または受信者に郵送され得る。結果は、例えば、医師または他の医療従事者の指示において、個人向け健康管理に使用され得る。例えば、対象は、遺伝カウンセリングを受けるように遺伝カウンセラーに照会または接触され得る。

データベースは、例えば、本発明の方法により生成された配列決定結果についてより多くの情報を提供する、様々な任意の構成要素のうちの１つ以上を有し得る。いくつかの実施形態において、コンピューターが特定された原因となる遺伝的変異体と関連付けられた機能を実行するための命令を含む、コンピューターで実行可能なソフトウェアでコードされたコンピューター可読媒体が提供される。そのようなコンピューターシステムは、遂行されることが所望される評価の種類に応じて、そのようなコードまたはコンピューターで実行可能なソフトウェアの任意の組み合わせを含み得る。コンピューターシステムは、配列（例えば、原因となる遺伝的変異体の遺伝子型）のそれぞれを少なくとも１つの表現型、例えば、医学的状態（その表現型を有するか、または発症する危険性が挙げられるが、それに限定されない）等の状態に関連付けるためのコードも有し得る。それぞれの医学的状態を、次いで医療専門家による少なくとも１つの推奨およびその推奨を含むレポートを生成するためのコードに関連付けることができる。このシステムは、レポートを生成するためのコードも有し得る。異なる種類のレポート、例えば、受信者が希望するか、または支払った詳細レベルに基づくレポートが生成され得る。例えば、受信者は、状態のような単一表現型に対する分析を注文した可能性があり、したがってレポートは、条件等のその単一表現型の結果を含み得る。別の受信者は、パネルまたは器官系の遺伝子プロファイルを要求した可能性、または別の個人は、全ての臨床的に関連する原因となる遺伝的変異体の分析を含む包括的な遺伝子プロファイルを要求した可能性がある。レポートは、対象の情報（例えば、氏名、生年月日、民族グループ、試料の種類、試料採取日、および／または試料受領日）；分析方法（複数可）の説明；試験された全ての原因となる遺伝的変異体の結果；試験された全ての疾患または形質の結果；陽性スコアを有する疾患または形質の結果（例えば、閾値レベルを上回る危険性、例えば、約１／５００００、１／２５０００、１／１００００、１／５０００、１／２５００、１／１０００、１／５００、１／１００、１／５０、１／１０、もしくはそれより高いか、またはそれ以上）；陽性スコアを有する疾患または形質と関連付けられる原因となる遺伝的変異体の結果；２人以上の個人の結果（例えば、親であるか、または子供を持つことを計画している個人）；疾患または形質を有するか、または発症する危険性；現在または将来の子が、疾患または形質を有するか、または発症する危険性；胎児が疾患または形質を有するか、または発症する危険性；危険性計算の方法；さらなる措置についての推奨のうちの１つ以上を含み得る。

生成されたレポートは、遺伝カウンセラーおよび／または他の医療専門家、例えば、管理医師もしくは有資格の医師、または他の第３者によりレビューされ、さらに分析され得る。遺伝カウンセラーもしくは医療専門家、または両者、あるいは他の第３者は個人と面会して、その結果、分析、および遺伝レポートについて話し合うことができる。話し合いは、原因となる遺伝的変異体（複数可）、例えば、試験された原因となる遺伝的変異体（複数可）（存在、非存在、および／または遺伝子型）、その原因となる遺伝的変異体（複数可）が、どのように遺伝または伝達され得るか（例えば、質問票から生成された家系図を使用する）、原因となる遺伝的変異体（複数可）の保有率；関連表現型の保有率または発生率；および関連表現型についての情報（例えば、医学的または臨床的に関連する状態等の特定の状態または形質）、例えば、その表現型がどのように個人に影響し得るか、および講じられ得る予防策についての情報を含む。遺伝カウンセラーまたは医療専門家は、他の遺伝情報またはそれの分析における質問票および個人との話し合いからの情報等の他の情報を組み込むことができる。条件または形質等の表現型についての情報は、個人の医師または他のヘルスケア提供者のためのさらなる遺伝カウンセリング等のフォローアップ提案等の推奨、予測医療の推奨、または予防医療の推奨を含み得る。スクリーニング情報、例えば、乳癌スクリーニングの方法は、例えば、個人が、より高い乳癌の危険性にあることが見出された場合に話し合われ得る。話し合われ得る他のトピックとしては、ライフスタイルの修正および薬物治療が挙げられる。例えば、ライフスタイルの修正が提案され得、例えば、食事変化および特定の食事計画が推奨され得るか、運動計画が提案され得、特定の運動施設またはトレーナーが個人に照会され得る。一般的な誤解が含まれることもあるが、個人が、それが機能するか、または有用であると思っているかもしれないが、公開された文献において有益でないか、または実際に有害であることが示された予防措置または他の介入に気付くのを可能にする。代替療法、例えば、栄養補助食品等の代替医療、または鍼療法もしくはヨガ等の代替療法が含まれ得る。家族計画のオプションとともに、表現型の存在または表現型の進行を検出するか、または監視を助けることができるスクリーニング審査または研究室試験等のモニタリングオプションが含まれ得る。表現型、例えば、個人が素因を持っている疾患を予防することができ、その発症を制限するか、またはその進行を遅延し得る医薬、または高い効能と低い副作用を持つ医薬、あるいは有害反応（複数可）の可能性に起因して個人が避ける必要がある医薬または医薬群が個人に提案され得る。例えば、医療従事者は、代謝、効能、および／または安全性を含む、可能性の高い個人の薬物反応の評価を行うことができる。医療従事者は、個人の遺伝プロファイルからの情報のみに基づいて、または個人の環境要因（例えば、ライフスタイル、習慣、診断された病状、現在の薬物治療、およびその他）についての情報と併せて、処置の潜在的な必要性または処置の効果について、予防的処置およびモニタリング（例えば、診察および検査、放射線検査、自己検査、または研究室試験）等の治療処置を話し合うこともできる。追加の資源が列挙され得、例えば、個人または個人の医師もしくは他のヘルスケア専門家が、表現型、原因となる遺伝的変異体（複数可）、または両方についての追加の情報、例えば、表現型に関する情報を含むウェブサイトへのリンク、例えば、その表現型の全国組織等の遺伝レポートまたは外部ウェブサイトを生成する企業からの内部ウェブサイトを得ることを含む。追加の資源は、個人が表現型、原因となる遺伝的変異体（複数可）、または両方についてより多くの情報を得るために求め得る電話番号、書籍、または人々への照会も含み得る。

一態様において、本発明は、第１のサービスと、任意に第２のサービスを提供することを含む方法を提供し、ａ）第１のサービスは、夫婦の子が、原因となる遺伝的変異体により引き起こされた複数の形質のそれぞれを有する可能性を予測することを含み、この予測は、その夫婦の２人の個人のそれぞれの遺伝子型に基づき、ｂ）第２のサービスは、複数の形質に対してその夫婦の子の可能性のある表現型を予測することを含み、この可能性は、それぞれの表現型および／またはその夫婦の個人の家族歴に基づいて決定される。一実施形態において、少なくとも１つの予測は、さらに個人のそれぞれの遺伝的に推測される祖先に基づく。別の実施形態において、第１のサービスは、有料サービスとして提供され、第２のサービスは、無料サービスとして提供される。

一態様において、本発明は、ａ）夫婦のそれぞれのメンバーから得た家族歴情報を記憶するように構成されたコンピューター可読媒体と、ｂ）その夫婦のそれぞれのメンバーについての遺伝情報を含むデータを記憶するように構成されたコンピューター可読媒体と、ｃ）実行されると、ｉ）遺伝情報において特定された対立遺伝子により引き起こされた形質に関して、それぞれの個人の保因状態を予測するか、またはｉｉ）家族歴および／または遺伝情報により決定され可能な夫婦の子の可能性のある形質を予測する、コンピューターコードを含むコンピューター可読媒体と、ｄ）ｉ）その夫婦の少なくとも１人のメンバーの保因状態、またはｉｉ）その子の可能性のある形質を表示するディスプレイと、を備えるシステムを提供する。いくつかの実施形態において、システムは、ｅ）ＤＮＡ試験キットを購入する申し出を受け入れるように構成されたウェブページをさらに備える。いくつかの実施形態において、ディスプレイは、電子的であり、例えば、ウェブページである。いくつかの実施形態において、システムは、ｅ）遺伝情報に基づいて遺伝カウンセラーおよび／または他の医療従事者（例えば、遺伝医学者または産科医／産婦人科医）への照会を表示するディスプレイをさらに備える。

インターネットおよびワールドワイドウェブは、情報へのアクセスおよび配布を提供する。いくつかの実施形態において、ウェブサイトは、顧客が遺伝子検査を購入し、遺伝子検査の結果を受け取るのを許容するために様々な機能性を効率良く提供するのに特に適切であり得る。システムは、典型的に、ウェブサイトが存在するサーバーを含む。ユーザーは、コンピューターモニターまたは電話スクリーン等のサーバーに接続されたインターフェースを使用して、情報をポップアップ表示するか、またはユーザーを別のウェブページに導くリンクをクリックまたはロールオーバーすることにより、ウェブサイトとインタラクトする。ウェブサイトは、典型的に双方向性であり、ユーザーがインターフェース上に情報またはクエリを入力し、応答を得るのを許容する。

システムおよびビジネス方法のいくつかの実施形態において、ウェブサイトは、顧客が遺伝子検査の結果を購入、管理、および見ることとともに、将来の子孫が疾患または形質を発症する確率についてより広く学ぶのを許容することができる。例えば、顧客は、彼らの子孫がメンデル病を発症する危険性があるかどうかを学ぼうとする、これから親になる夫婦であり得る。顧客には、（ｉ）顧客の保因状態、（ｉｉ）顧客が１つ以上の疾患または形質を発症する可能性、および（ｉｉｉ）顧客の子孫が１つ以上の疾患または形質を発症する確率のうちの１つ以上を、顧客のＤＮＡにおいて特定された原因となる遺伝的変異体に基づいて決定するための遺伝子検査を購入する申し出が提示され得る。

顧客が遺伝子検査を購入することを選ぶ場合、次に顧客は、遺伝子検査、その会社の製品に関する遺伝カウンセラーとの直接電話相談、および／または遺伝カウンセラーおよび／もしくは他の関連医療従事者への照会と引き換えに、例えば、オンラインクレジットカード取引を通じて料金を支払い得る。遺伝子検査および照会は、購入時に料金を支払うことができるか、または初回ユーザー登録料に含めることができる。いくつかの実施形態において、サービスは無料であり、収益は、他の製品を特定の製品と併せて宣伝することによりその会社により生成される。例えば、顧客がオンライン注文をした後、その注文は処理するためにサーバーに送られる。支払いが確認されると、注文処理サーバーは、電子通知を出荷ベンダーに送信し、ＤＮＡ採取キットを顧客に郵送することができる。一実施形態において、ＤＮＡ採取キットは、遺伝子検査サービスとは別個であるか、あるいはユーザーもしくは顧客が既にＤＮＡ採取キットを有しているか、または別の供給源から入手している。注文確認および注文に関する更新および出荷状態を含む通知を、定期的に顧客に電子的送信することもできる。本発明のビジネス方法のいくつかの実施形態において、顧客は、試料を採取キットに投入することができる。当業者に明らかな任意の試料を、採取キット中または上に投入することができる。試料は、分析される核酸を含有する任意の材料であり得、唾液または血液のような体液のように当業者に明らかである。次に、採取キットは、遺伝子型決定研究室に送るために会社に戻され得るか、または処理するために遺伝子型決定研究室に直接戻され得る。会社内ある、会社と協働するように契約している、またはその会社外にある遺伝子型決定研究室は、顧客のＤＮＡを提供された試料から単離することができる。ＤＮＡが試料から単離された後、遺伝子型決定デバイス（例えば、本明細書に記載される装置）を使用して、（ｉ）祖先情報提供マーカー、（ｉｉ）原因となる遺伝的変異体、および（ｉｉｉ）非対象配列（それらのうちの１つ以上は、本明細書において未加工の遺伝子型情報とも称される）のうちの１つ以上の存在についてＤＮＡを検査することができる。いくつかの実施形態において、ＤＮＡは、未加工の遺伝子型情報の存在についてＤＮＡを検査するために、試料から単離される必要はない。

未加工の遺伝子型情報は、記憶および処理のためにサーバーに電子的送信され得る。サーバー上のコンピューターコードが、未加工の遺伝子型情報に対して実行され、顧客の祖先を推測する、および／または存在する場合は原因となる遺伝的変異体および／または非対象配列の存在を確認することができる。次に、処理された遺伝子型情報は、サーバーに電子的に送信されることができ、サーバー上のコンピューターコードが、処理された遺伝子型情報に対して実行され、顧客の子孫が、顧客の処理された遺伝子型情報に存在することが見出された原因となる遺伝的変異体により引き起こされた複数の形質のうちのそれぞれを有する可能性を予測することができる。次に、結果は、記憶するためにサーバーに電子的に伝送され得る。

一例において、通知が、結果の入手可能性を顧客に警告するために顧客に送信され得る。この通知は、電子的であり得、その非限定的な例としては、テキストメッセージ、Ｅメール、または他のデータパケットが挙げられ、または通知は非電子的であってもよく、その非限定的な例としては、遺伝カウンセラーからの電話または郵送されるレポート等の印刷通信物が挙げられる。顧客に提供される結果は、１つ以上の疾患または形質について、顧客の保因状態、および／または顧客もしくは顧客の将来の子孫が１つ以上の疾患もしくは形質を発症する可能性を顧客に知らせることができる。顧客が結果および照会を受け取った後、顧客の注文は満たされたと見なすことができ、結果および照会は、オンラインウェブサイトアカウントを通じて顧客にアクセス可能のままであり得る。次に、顧客がさらにオフラインで照会を購入することを望むが、ウェブサイトの権限外にある場合、顧客はそうするように選択することができる。

一態様において、本発明は、上記の方法において使用され得る組成物を提供する。本発明の組成物は、本明細書に記載される要素のうちのいずれか１つ以上を含むことができる。例えば、組成物は、結合されるオリゴヌクレオチドを含む１つ以上の固体支持体、固体支持体への結合のための１つ以上のオリゴヌクレオチド、１つ以上のアダプターオリゴヌクレオチド、１つ以上の増幅プライマー、第１の結合パートナーを含む１つ以上のオリゴヌクレオチドプライマー、第２の結合パートナーを含む１つ以上の固体表面（例えば、ビーズ）、１つ以上の配列決定プライマー、これらのいずれのいずれかを利用するための試薬、これらのうちのいずれかを含む反応混合物、およびこれらのうちのいずれかを使用するための指示のうちの１つ以上を含み得る。

一態様において、本発明は、上記の方法および組成物において開示される要素のうちのいずれか１つ以上を含有するキットを提供する。いくつかの実施形態において、キットは、１つ以上の容器に本発明の組成物を含む。例えば、キットは、それに結合されるオリゴヌクレオチドを含む１つ以上の固体支持体、固体支持体への結合のための１つ以上のオリゴヌクレオチド、１つ以上のアダプターオリゴヌクレオチド、１つ以上の増幅プライマー、第１の結合パートナーを含む１つ以上のオリゴヌクレオチドプライマー、第２の結合パートナーを含む１つ以上の固体表面（例えば、ビーズ）、１つ以上の配列決定プライマー、これらのいずれのいずれかを利用するための試薬、これらのうちのいずれかを含む反応混合物、およびこれらのうちのいずれかを使用するための使用説明書のうちの１つ以上を含み得る。いくつかの実施形態において、このキットは、（ａ）ＤＮＡリガーゼ、（ｂ）ＤＮＡ依存性ＤＮＡポリメラーゼ、（ｃ）ＲＮＡ依存性ＤＮＡポリメラーゼ、（ｄ）ランダムプライマー、（ｅ）少なくとも４つのチミジンを３′末端に持つプライマー、（ｆ）ＤＮＡエンドヌクレアーゼ、（ｇ）３′〜５′エキソヌクレアーゼ活性を有するＤＮＡ依存性ＤＮＡポリメラーゼ、（ｈ）それぞれのプライマーが複数の選択された配列のうちの１つを有する複数のプライマー、（ｉ）ＤＮＡキナーゼ、（ｊ）ＤＮＡエキソヌクレアーゼ、（ｋ）磁性ビーズ、および（１）キットに含まれる要素のうちの１つ以上に好適な１つ以上の緩衝液のうちの１つ以上をさらに含む。アダプター、プライマー、他のオリゴヌクレオチド、および試薬は、限定されないが、本明細書に記載されるもののいずれかであり得る。キットの要素はさらに、限定されないが、任意の量および／または組み合わせで（例えば、同じキットまたは同じ容器で）提供され得る。キットは、本発明の方法に従って使用するための追加の薬剤をさらに含み得る。キット要素は、任意の好適な容器中に提供され得、容器には、試験管、バイアル瓶、フラスコ、ボトル、アンプル、シリンジ等が挙げられるが、これらに限定されない。薬剤は、本発明の方法において直接使用され得る形態、または使用前に調製を必要とする形態、例えば、凍結乾燥した薬剤の再構成で提供され得る。薬剤は、単回使用のためのアリコート、または複数使用、例えば多数の反応において得られ得るストックとして提供され得る。

以下の例は、本発明の様々な実施形態を説明する目的で示され、本発明をいかなる方法においても制限するものではない。本実施例は、本明細書に記載される方法とともに、現在の好ましい実施形態を代表し、例示的であって、本発明に対する制限として意図されない。特許請求の範囲により定義される本発明の趣旨に包含されるそこでの変化および他の使用は、当業者であれば思い付くであろう。

実施例１：試料調製および配列決定プロセス
ゲノムＤＮＡ（ｇＤＮＡ）を、９６−ウェルフォーマットに抽出し、ウェルＡ１、Ｇ１２、およびＨ１２は空のまま残す（後に、それぞれ無テンプレート対照、試験された全ての原因となる遺伝的変異体を欠失するＣｏｒｉｅｌｌ試料ＮＡ１２８７８ゲノムＤＮＡを含有する汎用陰性標準、および複数の既知の原因となる遺伝的変異体のうちの１つを含む試料を含有する）。それぞれのウェルから５０μＬを、吸光度プレートの対応するウェルに移す。２６０ｎｍでの吸光度を、ＤＮＡ量を計算するために、ＴｅｃａｎＭ２００プレートリーダーを使用して測定する。５０μＬのｇＤＮＡを、吸光度プレートからＥｐｐｅｎｄｏｒｆｔｗｉｎ．ｔｅｃプレートに移す。対照試料を、このｔｗｉｎ．ｔｅｃプレート上のそれらそれぞれの位置に付加する。ｇＤＮＡおよび対照を、以下のプロトコルに従い、１０℃でＳｏｎｉｃＭａｎ（Ｍａｔｒｉｃａｌ，ＳｐｏｋａｎｅＷＡ）超音波破砕機内で断片化する：前冷却１８０秒、サイクル１００、超音波破砕３．０秒、パワー３５％、蓋冷却１．０秒、プレート冷却０、後冷却０。２μＬの試料を、ＦｒａｇｍｅｎｔＡｎａｌｙｚｅｒ（ＡｄｖａｎｃｅｄＡｎａｌｙｔｉｃａｌＴｅｃｈｎｏｌｏｇｉｅｓ，ＡｍｅｓＩＡ）を使用して、断片化サイズ分布について分析する。少なくとも２００塩基対および１０００ｂｐを超えない断片サイズの中央値を有する試料が、さらなる処理に供される。２００ｂｐを下回る断片サイズの中央値を持つ試料は破棄され、抽出されたｇＤＮＡから再処理される。１０００ｂｐを上回る断片サイズの中央値を持つ試料は、所望のサイズ範囲に達するようにさらなる超音波破砕に供されるか、または破棄され、抽出されたｇＤＮＡから再処理されるかのいずれかである。

超音波破砕したｇＤＮＡを、ＢｅｃｋｍａｎＢｉｏｍｅｋＦＸＰと併用するために、丸底試料プレートに移す。Ｂｉｏｍｅｋは、末端修復の処理、アデニンオーバーハングの付加、およびアダプターライゲーションを自動化する。Ｂｉｏｍｅｋシステムは、ＡｇｅｎｃｏｕｒｔＳＰＲＩＰｌａｔｅ超磁石プレート、マルチチャネル分注器およびＳｐａｎ−８分注器を備えるＢｉｏｍｅｋＦＸＰ双腕システム（ポンプ制御モジュール、コンピューターおよびモニター、ペルチェコントローラー、２つの廃棄容器、および２つの水容器を備える）、およびＢｉｏＭｅｋＦＸＰ制御ソフトウェアを含む。このプロセスは、末端修復緩衝液および酵素、ａ−テーリング緩衝液および酵素、ライゲーション緩衝液および酵素、ならびにＡｇｅｎｃｏｕｒｔＡＭＰｕｒｅＸＰビーズを含有するＳＰＲＩｗｏｒｋｓＨＴ断片化ライブラリーキットを利用する。それぞれの反応後、処理されたｇＤＮＡを、磁性ビーズ分離を使用して清浄する。アダプターライゲーションに続いて、ＴｅｃａｎＭ２００により測定される２６０ｎｍでの吸光度を使用して、処理された試料中のＤＭＡを定量化する。９００ｎｇ未満の試料は、さらに処理されないが、代わりに元の抽出された試料から再処理される。吸光度の読み取り後、試料プレートを、ＰＣＲ増幅のためにＢｉｏｍｅｋＦＸＰに戻す。第１のステップは、３８４−ウェルプレート上でそれぞれの試料を４つの別個の試料に分割することであり、それぞれの試料供給源に対する増幅が４重複で行われるようにする。増幅プライマーは、配列の試料供給源の特定を可能にするバーコード配列を含む。ＰＣＲは、二重３８４−ウェルブロック、１．５ｍＬ管ラック、２４−チャネル２００μＬマルチチャネル分注器、および９６−ウェルアルミニウムプレートホルダーを備えるＡＢＩＧｅｎｅＡｍｐＰＣＲシステム９７００の使用を含む。試料を、以下のプロトコルに従い自動的に熱サイクル処理する：９５℃で５分間、９８℃で２０秒間の２７サイクル、６５Ｃで１５秒間、７２Ｃで１分間。増幅が完了した後、それぞれの試料供給源からの４つの副試料を、９６−ウェルプレートの単一ウェルに再度合わせる。

増幅ポリヌクレオチドを、磁性ビーズ分離により精製する。１．８試料量の磁性ビーズを、それぞれの試料に付加し、室温で約５分間静置する。スラリーが完全に清浄され、全てのビーズがそれぞれのウェルの側方に回収されるまで、このプレートを、磁性分離器上に約２分間置く。次に、緩衝溶液を吸引し、２００μＬの７０％エタノールを付加する。エタノールを、吸引される前に室温で約３０秒間静置する。次に、このプレートを磁石から除去し、ＤＮＡを約４０μＬの溶出緩衝液中に溶出する（ＥＢ；１０ｍＭトリス−ＨＣｌ、ｐＨ８．５）。このプレートを磁石に戻し、ビーズがウェルの側方に回収されるまで、室温で約２分間静置する。次に、それぞれのウェルから４０μＬの試料を、新たな吸光度定量プレートの対応するウェルに移す。それぞれのウェル中のＤＮＡ量を、上記のように２６０ｎｍでの吸光度を測定することによりチェックする。少なくとも５００ｎｇ／μＬの濃度を有する試料を、配列決定のためにさらに処理する。より低い濃度を持つウェルは失敗とし、対応する試料を再増幅する。

増幅試料を９６−ウェルプレートの列にわたってプールして、１２試料のプールを生成し、それぞれの試料の増幅ポリヌクレオチドは、プール中の１２試料の中でその試料に一意のバーコードを含む。プールに付加されるそれぞれの試料の量は、配列決定のために提出される試料中のＤＮＡの総量が約１１．２５μｇであるように計算される。それぞれのプールを、上記のように、３８．５μＬＥＢ中の溶出液を用いて磁性ビーズ上のクリーンアップにより濃縮する。１μＬのそれぞれのプールを使用して、ＮａｎｏＤｒｏｐマシン（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ，ＷｉｌｍｉｎｇｔｏｎＤＥ）上で総ＤＮＡを定量化する。１０μｇを下回る試料は失敗とし、プーリングおよびクリーンアップを反復する。少なくとも１０μｇを有する試料を、配列決定のためにさらに処理する。

それぞれのプール中のポリヌクレオチドが結合され、架橋増幅され、配列決定される前に、ｃＢｏｔ試薬プレートを調製する。試薬プレートを、市販のＨＦ緩衝液を含むＰｈｕｓｉｏｎＨｉｇｈ−ＦｉｄｅｌｉｔｙＰＣＲマスターミックス（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）、洗浄剤フリーＰｈｕｓｉｏｎＨＦ緩衝液パック（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）、０．１ＮＮａＯＨ、ＨＴ１緩衝液（５×ＳＳＣ＋０．０５％Ｔｗｅｅｎ２０）、およびＨＴ２緩衝液（０．３×ＳＳＣ＋０．０５％Ｔｗｅｅｎ２０）を使用して、１０枚一度に調製する。５つのＮｏｖａＢｉｏｓｔｏｒａｇｅ８−管ストリップを、１０個の別個のＮｏｖａＢｉｏｓｔｏｒａｇｅＲｏＢｏラックの位置１、２、３、７、および１０に配置する。１．２５ｍＬのＰｈｕｓｉｏｎマスターミックスを１５ｍＬ管に付加し、続いて１．２５ｍＬのＲＮａｓｅ−およびＤＮａｓｅを含まない水を付加し、１０秒間攪拌して、１×Ｐｈｕｓｉｏｎマスターミックスを生成する。４４０μＬの５×ＰｈｕｓｉｏｎＨＦ緩衝液を、「ＨＦ」と標識された別の１５ｍＬ管に付加し、続いて１７６０μＬのＲＮａｓｅ−およびＤＮａｓｅを含まない水を付加し、混合して１×ＨＦ緩衝液を生成する。試薬を以下のように試薬プレートの列に分注する：列１−７２０μＬＨＴ１緩衝液；列２−２３０μＬＰｈｕｓｉｏｎマスターミックス；列３−２００μＬ１×ＨＦ緩衝液；列７−３００μＬＨＴ２緩衝液；および列１０−２１５μＬ０．１ＮＮａＯＨ。次に、それぞれの管ストリップをＮｏｖａＢｉｏｓｔａｇｅ管キャップでカバーし、必要になるまで全てのプレートを冷凍する。

次に、それぞれの試料プールを、配列決定のためにフローセルへの結合により調製する。結合および架橋増幅のためのシステムは、ｃＢｏｔシステム、ＮａｎｏＤｒｏｐ吸光度分光計、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓＶｅｒｉｔｉ９６−ウェル熱サイクル装置（０．２ｍＬ）、Ｖｅｒｉｔｉ熱サイクル装置プログラム、ならびにｃＢｏｔ結合および架橋増幅プログラム、を備える。試料を、９５℃に５分間加熱する。１２．５μＬの４×ハイブリダイゼーション緩衝液（１０×ＳＳＣ＋０．２％Ｔｗｅｅｎ−２０）をそれぞれの試料に付加し、ＩｌｌｕｍｉｎａｃＢｏｔマシン上に載せるまで氷上に置く。次に、シッパーコーム、フローセル、試薬プレート、および試料管をｃＢｏｔ上に載せる。それぞれの試料プールに対し、チャネルの表面に結合されたオリゴヌクレオチドの伸長により、ポリヌクレオチドをフローセルのチャネルに結合する（図１の「標的捕捉」ステップ）。結合したオリゴヌクレオチドは、選択された原因となる遺伝的変異体の上流に位置する約５０００の異なる取り調べ位置の集合のメンバーに特異的にハイブリダイズする異なるオリゴヌクレオチドの集合を含む。次に、架橋増幅配列のクラスタが、標準手順を使用してｃＢｏｔ上で生成される。

クラスタを、ゲノム分析器ＩＩｘ（ＧＡＩＩｘ；Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏＣＡ）を使用して配列決定する。配列決定システムは、ゲノム分析器ＩＩｘ、対合末端モジュール、配列決定制御ソフトウェア、ＧＡＩＩｘプログラム（配列決定、前洗浄、プライム、後洗浄）、５００ｍＬ容量プラスチックビーカー、大きな正方形の氷バケツ、および０．１ｇ公差のスケールを備える。配列決定を２回行う。第１回目に、配列決定データを、バーコードの下流（伸長した鎖に沿って３′）および標的ゲノム配列に隣接してハイブリダイズする第１のプライマーから生成し、それにより、原因となる遺伝的変異体を含む標的ｇＤＮＡ領域に対する配列決定データを生成する。第２回目に、配列決定データを、バーコード配列の上流（伸長した鎖に沿って５′）でハイブリダイズする第２のプライマーから生成し、バーコード配列データがそれぞれのクラスタに対して生成されるようにする。これらの配列決定反応の順序は逆にすることができる。次に、それぞれのクラスタのバーコードを、それらの対応するｇＤＮＡ配列にマッチさせて、それぞれのｇＤＮＡ配列の試料供給源が特定できるようにする。ＧＡＩＩｘからの未加工データを、標準Ｉｌｌｕｍｉｎａソフトウェアを使用して、それぞれが品質スコアを持つ個別の読み出し値に組み入れる。読み出し値を、バローズ−ホイーラーアライナーを使用して参照ゲノムに整列させ、ゲノム分析ツールキットＧＡＴＫを使用して、このアラインメントから変異体を見出す。ＧＡＴＫ一覧表からの出力ファイルは全て、配列決定読み出し値間の矛盾を見出し、次に、参照アセンブリを使用して、遺伝子型レポートを生成し、試料を提供した患者と相談するために、要求した医師に安全に送信される。

実施例２：増幅および配列決定プロセス
複数の異なる標的ポリヌクレオチドの増幅のための例示のプロセスが、図２および５に示され、それらは主に図２の固相精製ステップの包含において異なる。図７も例示の増幅プロセスを示し、アダプター連結後の代わりに、主にオリゴヌクレオチドプライマー伸長がアダプター連結前に行われるという点で図２に示されるプロセスとは異なる。増幅は、固相精製ステップを含んでも含まなくてもよい。図６は、図５と同様に増幅プロセスを示すとともに、例示の架橋増幅および配列決定プロセスも示す。図６に示される増幅プロセスは、任意の架橋増幅方法および関連する配列決定方法と併用され得る。

第１に、部分的一本鎖アダプターが、断片化ポリヌクレオチドにライゲーションされる。部分的一本鎖アダプターは、一端に二本鎖領域（相補性配列Ｕ′にハイブリダイズされた配列Ｕ）および使用されるハイブリダーゼーションおよび伸長条件下で標的ポリヌクレオチドにハイブリダイズしない一本鎖配列Ｙを有する。ライゲーションは、配列Ｙを標的ポリヌクレオチドの両方の５′末端に付加する。次に、それぞれが３′末端に異なる標的特異的配列Ｗを有する複数の異なるオリゴヌクレオチドプライマーが、それらそれぞれの標的ポリヌクレオチドにハイブリダイズされ、伸長されて３′末端に配列Ｙ′（Ｙの相補体）を持つ伸長されたオリゴヌクレオチドを生成する。伸長は、例えば、図７に示されるように、アダプターライゲーション前に行われ得る。オリゴヌクレオチドプライマーは、図５におけるように第１の結合パートナーを欠き得るか、または図２および図７の小さな突出する円のように第１の結合パートナーを含み得る。伸長されたオリゴヌクレオチドが結合パートナーを含む場合、それらは、図２のビーズ（より大きな円）のように、第１の結合パートナーに結合する第２の結合パートナーを含む固体表面に選択的に結合することにより精製され得る。結合および伸長されたオリゴヌクレオチドは、例えば、反応溶液を除去し、ビーズを洗浄し、新たな反応溶液を付加する間、磁場の存在下で磁気応答性ビーズ上に固定することにより精製され得る（例えば、さらなる増幅反応の成分）。次に、精製されるか、または精製されない伸長されたオリゴヌクレオチドは、増幅プライマーの対を用いて増幅する。１つの増幅プライマーは、配列Ｘおよび配列Ｙを含み、配列Ｙ′へのハイブリダイゼーションのために３′末端に配列Ｙ′を持つ。Ｘ−Ｙプライマーは、伸長されたオリゴヌクレオチドに沿って伸長され、配列Ｘ、Ｙ、Ｗ′、およびＺ′を含む複数の伸長されたＸ−Ｙオリゴヌクレオチドを生成する（５′から３′；Ｗ′はＷの相補体であり、Ｚ′はＺの相補体である）。別の増幅プライマーは、配列ＶおよびＺを含み、伸長されたＸ−Ｙプライマーの配列Ｚ′へのハイブリダイゼーションのために３′末端にＺを持つ。Ｖ−Ｚプライマーは、伸長されたＸ−Ｙプライマーに沿って伸長され、Ｖ、Ｚ、Ｙ′、およびＸ′を含む複数の配列を生成し（５′から３′；Ｘ′はＸの相補体である）、次に、増幅プロセスにおけるそれぞれの連続するプライマー伸長反応に対して、それらはさらなるＸ−Ｙプライマーの伸長のためのテンプレートとして機能し得、次に、それらはさらなるＶ−Ｚプライマーの伸長のためのテンプレートとして機能し得る。主要な増幅配列は、複数の異なる標的ポリヌクレオチドを含み、それぞれが、配列Ｖ、Ｚ、Ｗ、Ｙ′、およびＸ′（５′から３′）を含む１つの鎖と、配列Ｘ、Ｙ、Ｗ′、Ｚ′、およびＶ′（５′から３′）を含む別の鎖と、を含むポリヌクレオチド中に、Ｚ／Ｙ′の間およびＺ′／Ｙの間に位置する標的ポリヌクレオチド配列とともに含有される。次に、これらの増幅ポリヌクレオチドは、配列決定に供され得る。

配列決定は、図６の下半分に示されるプロセスに従い得る。第１の結合オリゴヌクレオチドは、典型的に、指数関数的増幅ステップ中に付加された配列に対する相補性により、増幅ポリヌクレオチドの付近または３′末端にある配列にハイブリダイズされる（それにより、指数関数的に増幅した生成物を、特異的に増幅する、および最終的に配列決定する）。それぞれの第１の結合オリゴヌクレオチドの伸長は、同じ配列を持つ二本鎖架橋ポリヌクレオチドのクラスタを生成するように、架橋増幅のための核形成点を提供する。第１の結合オリゴヌクレオチドの伸長生成物は、ハイブリダイズされたテンプレートを除去するように変性される。次に、伸長された第１の結合オリゴヌクレオチドは、典型的に、３′末端またはその付近にある配列に相補性であり、指数関数的増幅ステップ中に付加された配列から誘導される第２の結合オリゴヌクレオチドにハイブリダイズする。次に、伸長された第２の結合オリゴヌクレオチドは、さらなる第１のオリゴヌクレオチドの伸長のためのテンプレートとして機能し得、次に、それらはさらなる第２のオリゴヌクレオチドの伸長のためのテンプレートとして機能し得る。ここで、いくつかまたは全ての第１のオリゴヌクレオチドは、架橋増幅プロセスを完了した後に切断される切断部位を含む。次に、結合されたポリヌクレオチドは、加熱（例えば、約９５℃）のような変性条件に供されるか、または化学的に変性され、複数の結合された架橋ポリヌクレオチドの１つの鎖を除去する。次に、残りの結合された鎖は、図６において上に「第１の読み出し値」と示される、配列決定プライマーを用いるハイブリダイゼーションのために使用される。次に、配列決定データが、ヌクレオチド伸長および検出の連続ステップにより生成され、配列決定プライマーを伸長する。次に、伸長された第１の配列決定プライマーは、第１の配列決定プライマーとは異なる第２の配列決定プライマーから配列決定プロセスを反復するために、変性され、テンプレートから除去され得る。バーコード配列を特定するのに十分な配列決定データを生成するためだけに１つの配列決定プライマーが使用される場合、その配列決定反応は、他の配列決定反応より著しく短くあり得る（例えば、約３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、またはそれより多いヌクレオチド付加サイクルより短い）。図６は、単一標的ポリヌクレオチドの架橋増幅および配列決定を示すに過ぎないが、架橋増幅および配列決定は、典型的に、以前の増幅ステップにおいて増幅した複数の異なる標的ポリヌクレオチドが関与し、それらの全ては、並行して架橋増幅および配列決定される。

実施例３：非対象配列の特定
ポリヌクレオチド（例えば、ＤＮＡおよび／またはＲＮＡ）が、当該技術分野において既知の標準方法を使用して、ウイルスおよび／または細菌ポリヌクレオチドを含有することが疑われる対象からの試料から抽出される。試料ポリヌクレオチドを、実施例１のように、断片化、末端修復、およびＡ−テーリングする。次に、配列Ｄを含むアダプターオリゴヌクレオチドを、試料ポリヌクレオチドに連結し、次に、配列Ｃ、配列Ｄ、およびバーコードを含む増幅プライマーを使用して増幅する。増幅標的ポリヌクレオチドを、固体表面に結合された複数の異なる第１のオリゴヌクレオチドにハイブリダイズする。それぞれの第１のオリゴヌクレオチドは、配列Ａおよび配列Ｂを含み、配列Ｂは、それぞれの異なる第１のオリゴヌクレオチドに対して異なり、それぞれの第１のオリゴヌクレオチドの３′末端にあり、非対象配列を含む配列、または非対象配列の２００ヌクレオチド以内にある配列に相補性である。具体的に、第１のオリゴヌクレオチドは、対象のゲノムの外側に高い深さを有する配列、例えば、特定の群、順序、族、属、種、または他の分類群のウイルスまたは細菌に固有のウイルスまたは細菌配列を増幅するように選択される。増幅した配列は、１６ｓｒＲＮＡ配列を含み得る。健常な対照からのポリヌクレオチドを同時に処理する。次に、標的ポリヌクレオチドを、本発明の方法に従い架橋増幅して、配列決定する。非対象配列から生成された配列決定データを、感染因子を特定するために使用することができる。非対象配列に対して生成された配列決定データは、細菌の異なる分類群の相対レベル（例えば、１つ以上の分類群と１つ以上の他の分類群との比）、またはこれらの推移を検出するために使用され得る。次に、細菌または感染因子の識別子または相対レベルは、医学的推奨を作成するか、または医療行為を行うための基礎として使用される。

実施例４：遺伝的変異を検出するための核酸配列のアラインメント
この例示の配列操作およびアラインメント手順（「パイプライン」）は、ゲノム分析器ＩＩｘ（ＧＡＩＩｘ）またはＨｉＳｅｑシーケンサー（Ｉｌｌｕｍｉｎａ；ＳａｎＤｉｅｇｏ，ＣＡ）からの未加工データで開始し、遺伝子型を推測し、患者試料からのメトリックスを計算する。配列決定データは、本発明の方法に従い、１フローセルレーン当たり１２×多重化構成のバーコード化試料の実行から生成される。シーケンサーの未加工データは、塩基呼び出し（ＢＣＬファイル）および様々な品質制御および較正メトリックスを含む。未加工塩基呼び出しおよびメトリックスは、最初にＱＳＥＱファイルに編集され、次に試料特異的ＦＡＳＴＱファイルにフィルタリング、マージ、および逆多重化される（バーコード配列に基づいて）。ＦＡＳＴＱ読み出し値は、ＨＧ１９ゲノムに整列され、初期ＢＡＭファイルを作成する。このＢＡＭファイルは、いくつかの変換を経てアラインメントをフィルタリング、クリップ、および精錬し、品質メトリックスを再較正する。最終ＢＡＭファイルを、既知の変異体の遺伝子型を推測し、新規の遺伝子型を発見するために使用し、呼び出しセットを生成する。次に、呼び出しセット（ＶＣＦファイル）を、様々な呼び出しメトリックスを使用してフィルタリングし、１試料当たり高信頼度（例えば、約８０％、８５％、９０％、９５％、９９％、もしくはそれ以上、またはそれを超える信頼度）の変異体呼び出しの最終群を作成する。最後に、様々なメトリックスを、１試料、１レーン、および１バッチ当たりで計算し、メトリックスを、可視化、レビュー、および最終レポート生成のために実験室情報管理システムにロードする。パイプラインは、ローカルに（全体または一部が）および／またはＡｍａｚｏｎクラウドのようなクラウドコンピューティングを使用して実行することができる。ユーザーは、任意の好適な通信機構を使用して、パイプラインと対話することができる。例えば、対話は、Ｄｊａｎｇｏ管理コマンド（ＤｊａｎｇｏＳｏｆｔｗａｒｅＦｏｕｎｄａｔｉｏｎ，Ｌａｗｒｅｎｃｅ，ＫＳ）、パイプラインのそれぞれのステップを実行するためのシェルスクリプト、または好適なプログラミング言語（例えば、ＰＨＰ、ＲｕｂｙｏｎＲａｉｌｓ、Ｄｊａｎｇｏ、またはＡｍａｚｏｎＥＣ２等のインターフェース）で書き込まれたアプリケーションプログラミングインターフェースを介し得る。この例示のパイプラインの操作に関する概要が、図１０および１１に示される。

配列決定は、８レーンを持つフローセル上で起こる。それぞれのレーンは、１２（またはそれ以上のＨｉＳｅｑを持つ）試料を有し、それぞれが固有の６〜７ヌクレオチドバーコード配列を持つ。それぞれのレーンは、いくつかのタイルに細分される（ＧＡＩＩｘの場合１２０、ＨｉＳｅｑの場合４８）。シーケンサーは、１フローセルクラスタ当たり３つの読み出し値を出力する。読み出し値１（Ｒ１）は、第１のプライマーの伸長により生成されたｇＤＮＡ断片の一端の配列（５９ｂｐ）である。読み出し値２は、第３のプライマーの伸長により生成されたバーコード配列（６ｂｐ）である。読み出し値３（Ｒ２）は、第２のプライマーの伸長により生成されたプローブ配列（１５ｂｐ）の一部である。

パイプラインの第１のステップ（ＦＡＳＴＱファイルを作成する）において処理される未加工配列決定データは、典型的に、大きい（例えば、約１００ＧＢ、１５０ＧＢ、２００ＧＢ、２５０ＧＢ、３００ＧＢ、４００ＧＢ、５００ＧＢ、１０００ＧＢ、もしくはそれ以上、またはそれを超える）。したがって、分析ステップのいくつかまたは全てにクラウドコンピューティングを利用することが有利であり得る。この例において、第１のステップは、ローカルに実行され、得られるＦＡＳＴＱファイルは、ＡｍａｚｏｎＳ３（Ａｍａｚｏｎ（Ｓｅａｔｔｌｅ，ＷＡ）により提供されるオンライン記憶ウェブサービス）にアップロードされ、ＡｍａｚｏｎＥＣ２インスタンス（Ａｍａｚｏｎ（Ｓｅａｔｔｌｅ，ＷＡ）により提供されるクラウドコンピューティングウェブサービス）を使用して処理される。Ａｍａｚｏｎのシンプルキューサービス（ＳＱＳ）を使用してタスクを割り当てる。次に、最終呼び出しおよびメトリックスがダウンロードされ、ローカルデータベースにロードされる。ＥＣ２インスタンスは、タスクおよびＦＡＱＳＴＱファイルをそれぞれＳＱＳおよびＳ３からプルし、それらを処理して、結果をＳ３にアップロードする。インスタンスは、手動で開始および／または終了され得るか、または部分的もしくは完全に自動化され得る。

図１０は、利用される一時およびアーカイブ記憶空間、ならびにＩｌｌｕｍｉｎａＧＡＩＩｘ配列決定データ上のパイプラインに対する処理ランタイムの例を示す。ＢＣＬ２ＦＡＳＴＱステップは、全体バッチ上で実行され、後次ステップは１試料当たりで実行される。処理時間を低減するために、ＢＣＬ２ＱＳＥＱはローカルに実行され、その後、残りのステップは、１試料当たり１つの９６ＡｍａｚｏｎＥＣ２インスタンス上で実行される。クラウドを使用するパイプラインを実行することは、バッチ収率に依存して７〜１０時間かかる。ステップを処理するデータのうちの１つ以上に対するクラウドコンピューティングの使用は、約１０％、２５％、５０％、７５％、９０％、もしくはそれより高い割合で、試料の最終アラインメントを生成するために必要な総時間を低減し得る。

図１１は、例示の配列決定データ操作プロセスを示す。ＢＣＬ２ＦＡＳＴＱプロセスは、未加工塩基呼び出しをフィルタリング、マージ、および逆多重化された読み出し値に変換し、ｂｃｌ２ｑｓｅｑおよびｐｒｏｃｅｓｓ＿ｌａｎｅステップを含む。ｂｃ１２ｑｓｅｑに対する入力は、配列決定バッチの未加工データディレクトリであり、Ｉｌｌｕｍｉｎａツールを使用してＱＳＥＱファイル（１タイルおよび読み出し番号当たり１つ）に変換され、これは全体バッチ上でローカルに実行される。ＱＳＥＱファイルは、ｐｒｏｃｅｓｓ＿ｌａｎｅにおいて処理され、不良な読み出し値をフィルタリングし（Ｉｌｌｕｍｉｎａ「清純（ｃｈａｓｔｉｔｙ）フィルター」を使用する）、異なるタイルからの読み出し値をマージし、読み出し値２中のバーコードを使用して、読み出し値１および読み出し値３を試料特異的ＦＡＳＴＱファイルに逆多重化する。それぞれのレーンは、並行してｍｎであり得る。

ＦＡＳＴＱ２ＢＡＭプロセスは、読み出し値をゲノムに対して整列し、そのアラインメントをさらに処理する。必要に応じて、フォーマット変更、ソート、およびインデックス付を行う。全てのステップは、個別の試料に対してファイル上で実行され、バッチに表される全ての試料は、異なるマシン上で並行して実行され得る。ＦＡＳＴＱ２ＢＡＭ中のステップは、ａｌｉｇｎ＿ｂｗａ、ｆｉｘ＿ａｌｉｇｎ、ｍａｒｋ＿ｄｕｐｌｉｃａｔｅｓ、ｒｅａｌｉｇｎ＿ｂａｍ、ｒｅｃａｌｉｂｒａｔｅ＿ｂａｍ、およびｃｌｉｐ＿ａｌｉｇｎｍｅｎｔを含む。ａｌｉｇｎ＿ｂｗａステップにおいて、ＦＡＳＴＱファイル中の読み出し値は、ＢＷＡアライナーを使用して参照ゲノムに対して整列される。このステップは、２回呼び出しがなされ、１回は読み出し値１を参照ゲノムに整列するため、１回は読み出し値３を、標的ポリヌクレオチドを増幅するために使用されるプローブ配列の集合に整列するためである。出力配列アラインメント／マップ（ＳＡＭ）ファイルを、インデルの検出を改善するために、バイナリアラインメント／マップ（ＢＡＭ）ファイルに変換した後、ソートおよびインデックス化し、デフォルトＢＷＡパラメータを以下のように修飾する：シード長を１６に減少する；アラインメント中の許容されるギャップの数を３に増加する；ギャップオープンおよび伸長ペナルティをそれぞれ６および２に減少する；許容されるギャップ伸長の数を２０に増加する（より大きな変異体の場合、カスタムコンティグは、それらの存在を推測するためにゲノムに付加され得る）。次に、ｆｉｘ＿ａｌｉｇｎｍｅｎｔステップは、アラインメントのいくつかを修正して、それらの精度を改善し、誤りである可能性が高いアラインメントを除去する。読み出し値３は、このシナリオにおいて読み出し値１から可変距離にプローブから誘導された配列を含むため、アライナーにより作製された統計的仮定（例えば、読み出し値間の予想距離）のいくつかに適合せず、慣習的な対合末端マッピングは効率が悪い。アラインメント精度を改善するために、読み出し値１および読み出し値３は、独立して整列され（一般に、対合末端マッピングより速い）、次いで固定アラインメントステップは、結果を処理して、読み出し値１および読み出し値３が異なる鎖上にあるか、または互いから１００００塩基対より多く離れて位置付けられる（読み出し値１は、読み出し値３がマップされない場合はフィルタリングされない）任意の読み出し値を破棄し、複数の最良スコアリング位置を持つ読み出し値を関心領域のみからなるゲノムのサブセットにリマップする（ＲＯＩ；例えば、原因となる遺伝的変異体、非対象配列、またはＡＩＭを含有する領域、典型的にプローブ配列付近）。図１２Ａおよび１２Ｂは、示される配列パイルアップ中の人工ギャップを閉じる、それぞれｆｉｘ−ａｌｉｇｎ前および後の非固有領域を持つＣＦＴＲエクソン中の読み出し値の例示のアラインメントを示す。

ｍａｒｋ＿ｄｕｐｌｉｃａｔｅｓステップは、Ｐｉｃａｒｄツールセットからのツールを使用して、ＰＧＴおよび光学的重複を特定およびタグ付する（ＢＡＭフォーマットで配列決定データを処理するためのｊａｖａベースのコマンド−ラインユーティリティ；Ｇｅｅｋｎｅｔ（Ｆａｉｒｆａｘ，Ｖａ．）により維持されるＳｏｕｒｃｅＦｏｒｇｅウェブサイトから入手可能）。重複を破棄しないと、参照と代替対立遺伝子との間の非均一ＰＣＲ効率性は、対立遺伝子バイアスにつながる可能性があり、変異体の参照および代替対立遺伝子の数は、ＰＣＲによりバイアスされ得る。追加の情報なしに、同じ位置にマップする試料からの２つの読み出し値は重複であり、したがって１つを除いて全てが重複としてマークされ、後次分析から除外されると予期される。カバーの深さは、同じ試料中に異なるバーコードを持つプライマーを使用することにより増加され得、それぞれのクラスタから関連付けられたバーコードが異なる場合、別のものと同じ配列を有する追加の読み出し値は破棄されない。

ｒｅａｌｉｇｎ＿ｂａｍステップは、複数の配列のスミス−ウォーターマンアラインメントをインデルの周りで行い、典型的に、真のインデルをより良く特定するか、または偽陽性ＳＮＰの数を低減もしくは排除する効果を有する。最初のアライナー（ＢＷＡまたは任意の同様のツール）は、それぞれの読み出し値を独立して推測的に整列する。真のＩＮＤＥＬを持つ読み出し値は、そのアラインメントモデルが、使用されるパラメータの群および経験則を考慮すると、ＩＮＤＥＬを持つものより良好にスコアするため、ＳＮＰのクラスタを持つ読み出し値として整列し得る。同じ読み出し値の複数の配列アラインメントにおいて、アライナーは、全ての読み出し値のアラインメントモデルのスコアを最適化しようとし（参照に対して、および互いに対して）、したがって、ＳＮＰの同じクラスタが全ての読み出し値を整列することができない限りは、真のアラインメントは、典型的により高いスコアとなる。リアラインメントステップは、ＲＯＩに見出される任意のＩＮＤＥＬの周りで複数の配列正確なリアラインメントを行う。図１３Ａおよび１３Ｂは、ローカルリアラインメントの前および後の同じ読み出し値を示す。リアラインメントは、ＲＯＩ中の任意のインデルの周りで行われ得る。代替または追加として、リアラインメントは、既知のインデルの周り、例えば、インデルの１つ以上の参照群（例えば、Ｍｉｌｌｓｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．（２０１１）Ｊｕｎｅ；２１（６）：８３０〜８３９、Ｄｕｒｂｉｎｅｔａｌ，Ｎａｔｕｒｅ（２０１０）Ｏｃｔｏｂｅｒ２８；４６７（７３１９）：１０６１〜１０７３、およびＢｈａｎｇａｌｅｅｔａｌ．，ＮａｔｕｒｅＧｅｎｅｔｉｃｓ（２００６）３８，１４５７〜１４６２において報告される群）中のインデルの周りで行われ得る。

ｒｅｃａｌｉｂｒａｔｅ＿ｂａｍステップは、経験的バッチデータを使用して塩基品質を再較正し、Ｉｌｌｕｍｉｎａソフトウェアは、配列決定化学反応の単純モデルを使用して様々な品質制御メトリックスを使用し、それぞれの塩基の品質値を推定する。特定のエラーモードは考慮に入れない。このステップにおいて、高スコアリングアラインメントを使用するＧＡＴＫツールを使用して、経験的塩基品質を決定し、配列決定された塩基の多くの特徴（報告された品質、周囲の塩基、読み出し位置等）の間の経験的品質の共変動を分析し、共変動モデルを使用して全ての品質を再較正する。このステップは、より正確な塩基品質を提供し、より正確な呼び出し統計につながる。

ｃｌｉｐ＿アラインメントステップは、対応するクラスタからのプローブ配列を含む整列した読み出し値から塩基を除去する。読み出し値の長さより短い対象からの増幅配列の場合、読み出し値１は、典型的に、対応するプローブからの配列を含有する。プローブ配列が参照ゲノムから誘導されるとき、これらの読み出し値は、ゲノムに対して整列するが、任意の真のＳＮＰをマスクするため、参照配列に向かって対立遺伝子バイアスを導入する。このステップは、読み出し値がそれ自体のプローブと重なるときに特定され、その重なる塩基を読み出し値から選択的に除去する。読み出し値１および読み出し値３の両方がマップし、読み出し値１がプローブと重なる全ての読み出し値の場合、読み出し値１の重なる塩基は、アラインメントから除去される（「クリップされる」）。読み出し値の読み出し値３はマップせず、次に読み出し値１は、それが任意のプローブと重なる場合にクリップされるが、その重なりが読み出し値のいずれかの末端で起こる場合に限られる（末端塩基を含まないプローブ配列は、読み出し値がそのプローブから生成されなかったことを示す）。いずれかの場合、クリッピングは、クリップされた塩基に「Ｓ」操作を含めるように、ＣＩＧＡＲアラインメント文字列を修飾することにより行われ、開始位置を更新し、クリップされた塩基の塩基品質を０に設定する。したがって、配列は依然として存在するが、アラインメントは、クリップされた塩基を除外するように修飾される。

ＢＡＭ２ＶＣＦプロセスは、最終アラインメント（ＦＡＳＴＱ２ＢＡＭプロセスからのＢＡＭファイル）を使用して、配列決定データおよび以前の知識を考慮して変異体の確率を計算するベイジアン方法を使用し、遺伝子型を決定する。全てのステップは、個別の試料のファイル上で実行され、並行して異なるマシン上で実行され得る。変異体特定のための戦略（「呼び出し」）は、感度を最大化し、次いで呼び出しメトリックスおよび他の基準に基づいてそれをフィルタリングするように非常に寛大な閾値を使用して、特定された変異体の初期セット（「呼び出しセット」）を作成することである。ＢＡＭ２ＶＣＦプロセスにおけるステップは、ｇｅｎｏｍｅ＿ｗｈｉｔｅｌｉｓｔ、ｇｅｎｏｔｙｐｅ＿ｎｏｖｅｌ、およびｈａｒｄ＿ｆｉｌｔｅｒ＿ｖｃｆステップを含む。ｇｅｎｏｍｅ＿ｗｈｉｔｅｌｉｓｔステップは、既知の変異体位置およびそれらの位置での対立遺伝子の所与の参照一覧表との比較に基づいて、入力ＢＡＭファイルの遺伝子型を推測する。このステップにおいて、変異体を特定するようにプログラム化されたコンピューターアルゴリズム（「呼び出し元」）は、全ての変異体を出力し、任意の信頼度に基づくフィルタリングをスキップするように構成される。このステップの出力は、変異体呼び出しフォーマット（ＶＣＦ）ファイルであり、追加のステップにおいてさらに処理される。

遺伝子型新規ステップは、参照ゲノムとは異なるＲＯＩ内の変異体部位を特定し、それらの部位での遺伝子型を推測する。このステップにおいて、呼び出し元は、以前のステップにおいて使用される既知の変異体の参照一覧表に含まれない遺伝子型のみを出力し、任意の信頼度に基づくフィルタリングをスキップするように構成される。ｇｅｎｏｔｙｐｅ＿ｎｏｖｅｌステップからの呼び出しは、多くの偽陽性を含み得る。ｈａｒｄ＿ｆｉｌｔｅｒ＿ｖｃｆステップは、いくつかの呼び出しメトリックスを使用して、遺伝子型決定をフィルタリングする。これらのメトリックスは、２つの広いカテゴリーに分類される：（１）塩基呼び出し、マッピング、変異体、または遺伝子型決定の信頼度を定量化するもの、および（２）鎖バイアス、位置バイアス、またはＩｌｌｕｍｉｎａ化学誤差を引き起こすことが知られているホモポリマー実行等の配列特徴の存在等の共通の誤差原因の可能性を定量化するもの。修飾された閾値は、ゲノム分析ツールキット（ＧＡＴＫ）による推奨に基づき得る。代替または追加として、所望の感度および特異性のための閾値を特定するように、マシン学習アプローチが使用されてもよい。

この実施例におけるプロセスの評価を支援するために、それぞれの試料の記録は、対応するバーコードを持つ読み出し値、ゲノムにマップされる読み出し値、ｆｉｘ＿ａｌｉｇｎステプ後の読み出し値、ＰＣＲ／光学的重複を除外した後の読み出し値、読み出し値１および読み出し値３が１００００ｂｐ超離れてマップする読み出し値、ｆｉｘ＿ａｌｉｇｎステップがリマップを試行する非固有領域における読み出し値、成功裏にリマップされた読み出し値、クリップされ、対応する読み出し値３を有する読み出し値、クリップされ、対応する読み出し値３を有しない読み出し値、ＸおよびＹ染色体における読み出し値（性別を推測するために使用され得る）、および参照ゲノム中のＳＮＰ同一性にマッチするＳＮＰ呼び出しの数からなる。これらのメトリックスのいずれか１つ、または組み合わせに関する閾値は、その閾値を下回る任意の試料の結果が破棄されるように設定され得る。これらのメトリックスのうちのいずれか１つ、または組み合わせは、１レーン当たりの読み出し値の総数および初期フィルターを通過する読み出し値の数に加えて、全体配列決定レーンに対して集約され得る。配列決定レーンメトリックスのいずれか１つ、または組み合わせに関する閾値が、閾値（複数可）を通過するのに失敗したレーンから生じるデータの除外のために設定され得る。任意の２つの呼び出しセット間の一致および不一致は、検証研究のため、または今後の試料分析のための閾値を設定するために分析され得る。

特定された任意のゲノム変異体に対して、任意の変異体呼び出しの基礎となる全ての読み出し値のアラインメントを示す、パイルアップ画像が生成され得る。パイルアップ画像は、ＩｍｔｅｇｒａｔｉｖｅＧｅｎｏｍｉｃｓＶｉｅｗｅｒ（ＩＧＶ；ＢｒｏａｄＩｎｓｔｉｔｕｔｅ，Ｃａｍｂｒｉｄｇｅ，ＭＡにより提供される）等のゲノミクスデータの可視化装置を使用して生成され得る。これを行うために、（１）ゲノムおよびＢＡＭファイルをロードし、（２）それぞれの変異体位置を通じて繰り返し、パイルアップのスナップショットＰＮＧを出力する、ＩＧＶスクリプトが生成される。ＩＧＶは、仮想フレームバッファー（例えば、ｘｖｆｂ）の下で実行され、得られるＰＮＧファイルは、ＩＧＶクロームを除去するように（コマンドラインＩｍａｇｉｃｋツールを使用して）クロップされる。

実施例５：プローブ配列を選択する
増幅および配列決定のための標的配列の初期捕捉のための最適なプローブ配列を選択するプロセス（「プローブ設計」とも称されるプロセス）において、アルゴリズムが用いられる。次に、プローブ配列は、オリゴヌクレオチドプライマーまたは固体支持体に結合された第１のオリゴヌクレオチドの集合の生成において使用され得る。プローブ設計プロセスは、変異体および配列決定される対応する標的配列の一覧表に追加を組み込むように反復され得る。したがって、アルゴリズムは、以前に設計されたＲＯＩにより既にカバーされている領域が再設計されないように、以前に設計された関心領域およびプローブの付加を可能にする。

プローブ設計の最初の単位は、関心領域（ＲＯＩ）であり、遺伝子のエクソン、単一ゲノム塩基、非コーディングである領域もしくは点、または重なる可能性があり得るこれらの組み合わせの一覧表であり得る。このプロセスにおける第１のステップは、プローブが設計される異なる領域の全てをロードした後に調整することである。「設計エンジン」クラスは、考慮される全てのＲＯＩ、および後にそれぞれのＲＯＩに対して設計されたプローブの全てを追跡する。点突然変異として最初に入力された変異体等の小さなＲＯＩは、さらに処理される前に１００ｂｐの長さにパッドされる。次に、全ての重なるＲＯＩは、重複プローブが設計されないように、単一ＲＯＩに組み入れられる。

２つのＲＯＩは、それらが合わされたＲＯＩをカバーするＲＯＩタイルの数を低減する場合にのみマージされる。２つの別個の領域をカバーするタイルの数は、仮定的に連結されたＲＯＩをカバーするタイルの数と一緒に計算される。最も少ないタイルを必要とする場合は、プローブ設計の後次ステップに使用される。アルゴリズムは、所与のゲノム領域をカバーするタイルの数を決定するために使用される。

ＲＯＩがパッドされ、マージされると、全てのＲＯＩは少なくとも１００ｂｐ長であり、どれも重ならない。得られるＲＯＩは長いか（例えば、特定されたタイル長より長い）または短い（例えば、特定されたタイル長より短いか、またはそれに等しい）。長いＲＯＩは、ＲＯＩタイルに細分され、それらはプローブが設計される配列の単位長である。タイル長より短いか、またはそれに等しい短いＲＯＩは細分されない。それぞれの可能性のあるＲＯＩタイルは、それから設計されたプローブがどれ程良好に動作するかについて評価される。タイルの最大数は、この計算の上限としても計算される。可能性のあるタイルの最小値と最大値との間の全てのタイル数は、タイルの最小数から最大数の順に考慮される。これらのタイル数は、どの数が計算されるかに応じて、分割されるＲＯＩにおける塩基の数の上限をＲＯＩの最小または最大長さで割ったものに等しい。これらの数は、ＲＯＩ＿ＴＩＬＥ（２５０塩基）およびＭＡＸ＿ＲＯＩ＿ＴＩＬＥであり、ＭＡＸ＿ＲＯＩ＿ＴＩＬＥ＝（ＴＩＬＥ＿ＳＩＺＥ）−（ＲＥＡＤ＿ＬＥＮＧＴＨ）−（ＲＥＣＥＳＳ）である。ＴＩＬＥ＿ＳＩＺＥは、３００〜４４０塩基長である。ＲＥＡＤ＿ＬＥＮＧＴＨは、４０〜６０塩基長であり、ＲＥＣＥＳＳは、１０塩基長に設定される。プローブ設計が全ての有効なプローブを生じる多数のタイルが見出されると、繰り返しは終了する。これは事実上、ある領域をカバーするために必要とされるタイルの数を最小化すると同時に、最良のプローブが以下の基準に従い選択されることを保証する。

プローブ設計アルゴリズムは、他のＲＯＩタイルからの単離において、所与のＲＯＩタイル上で作用するため、ＲＯＩタイルは、このプローブ設計プロセスの基本単位として考慮することができる。それぞれのＲＯＩタイルは、そのために設計された前方向および逆方向タイルを有し、全ての塩基が配列決定時にいずれかの鎖から証明され得るようにする。プローブ設計アルゴリズムは、それぞれのＲＯＩタイルに対して計算される「プローブ設計ウィンドウ」内の全てのＲＥＡＤ＿ＬＥＮＧＴＨタイルに対する前方向および逆方向プライマーを考慮することにより機能する。次に、このウィンドウ内のそれぞれのプローブは、以下に記載される基準に基づいてスコア付され、最も重要なスコアから最も重要でないスコアの群を作成し、全てのスコアに対して低いスコアほど良い。したがって、最良のプローブは、単にプローブスコア群の複数フィールド昇順ソートにおいて最初に出現するものである。それぞれのＲＯＩタイル分配は、プローブ設計アルゴリズムを可能性のあるＲＯＩタイルのそれぞれに対して実行させる。繰り返しは、最も少ないＲＯＩタイルの条件で開始し、そのような分配が有効なプローブを生じない場合（その条件は以下に記載される）、ＲＯＩタイルの数が増加し、分配が再度行われる。

プローブウィンドウは、以下のように定義される：（１）プローブウィンドウの長さは、（ＴＩＬＥ＿ＳＩＺＥ）−（現在のＲＯＩタイルの長さ）−（ＲＥＣＥＳＳ）として定義される；（２）次に、開始座標は、ＲＯＩ自体の末端からＲＥＣＥＳＳｂｐ離れたものとして定義され、停止座標は、上記のプローブウィンドウの長さをＲＥＣＥＳＳ座標に加算することにより計算される；および（３）次に、この範囲内の全ての４０ｍｅｒは、評価のためのプローブとして考慮される。図１９は、このステップにおいて考慮される配列領域の位置関係の図を提供する。

それぞれのプローブを評価するために使用される基準は、考慮される順に、「ニア２４−ｍｅｒ」の固有性、ニア２４−ｍｅｒ中の任意の共通ＳＮＰとの重なり、全体４０ｍｅｒのマップ可能性、ＮｔＢｓｐＱＩの重なり、反復マスキング、全体４０ｍｅｒ中の任意の共通ＳＮＰとの重なり、疾患変異体とのニア２４ｍｅｒの重なり、疾患変異体との４０ｍｅｒの重なり、ＧＣ％、およびＲＯＩまでの距離を含む。理想的なプローブは、ゲノム全体で固有であるが、時として任意の部位の付近にそのような位置を見出すことは不可能である。相殺するために、「ニア２４−ｍｅｒ」（プローブ配列またはその相補体を含むオリゴヌクレオチドの最も３′側の２４塩基として定義される）は、可能な限り固有であるように選択される。捕捉されたゲノム種の伸長は、５′から３′で起こるため、二本鎖と一本鎖の連結の最も近くにある塩基対結合部位の品質は、捕捉の効率性に大きな影響を及ぼし、より強い結合は、捕捉された配列が伸長される可能性を高める。結合品質を測定するために、カリフォルニア大学サンタクルーズ２４ｍｅｒマップ可能性追跡（ＵＣＳＣゲノムブラウザを通じて入手可能）が使用され、これがゲノム中のそれぞれの塩基に対して、その塩基で開始する２４ｍｅｒのマッピングスコアを付与する。このスコアは、１／Ｎとして付与され、Ｎは、ゲノム中の２４ｍｅｒに対するマッチの数である。この試験から２つの結果のみが考慮される：スコアが１に等しいかどうか（すなわち、固有である）、または１未満であるかどうか（すなわち、複数の結合部位を有する）。最初の場合が好ましい。

ニア２４−ｍｅｒ中の共通のＳＮＰとの重なりは望ましくない。捕捉プローブ結合部位におけるいかなるミスマッチも、結合効率を低減する。近くのＳＮＰは、多くの場合、連鎖不均衡であるため、この結合効率の差は、大量の対立遺伝子バイアスを導入する。したがって、見出される任意の対立遺伝子が、その遺伝子中の他の対立遺伝子と同じプローブ結合部位を有することができる最大の機会を有することが望ましい。ＵＣＳＣ共通ＳＮＰ追跡が、この計算を行うために使用される。重なりがないもの、および１つ以上の重なりがあるものという２つのカテゴリーがある。前者が非常に好ましい。

全体４０ｍｅｒのマップ可能性は、２４ｍｅｒのマップ可能性と同じカテゴリーを用いるが、２４ｍｅｒ追跡の代わりにＵＣＳＣ４０ｍｅｒマップ可能性追跡を使用して、同じスコアを決定する。この新たな追跡は、４０ｍｅｒマップ可能性のみが２４ｍｅｒのマップ可能性の代わりに考慮される。

酵素ＮｔＢｓｐＱＩは、オリゴヌクレオチド合成または操作において有用であり得る。したがって、プローブと酵素の認識部位との間の重なりの塩基数がスコア付される。

反復マスキングを評価する際に、ＵＣＳＣ反復マスク追跡（注釈反復）を使用して、それぞれ４０ｍｅｒを構成する塩基に対する値の加重平均を計算する。反復マスク追跡は、それがマスクされるか否かに依存して、値０または１をそれぞれの塩基に割り当てる。したがって、スコアが高いほど、それはより多くマスクされる。マスクされた塩基に対するプローブを設計することは望ましくないため、より低い、理想的には０スコアがより良い。これらのスコアは、四分位に分割されるため、マスクされる最大２５％はある群を含み（０としてスコア付される）、最大５０％は別の群を含み、７５％および１００％も同様である。

プローブのニア２４ｍｅｒの任意の共通ＳＮＰとの重なりが評価されるように、全体４０ｍｅｒプローブ配列の任意の共通ＳＮＰとの重なりも評価およびスコア付される。

ニア２４ｍｅｒが疾患変異体と重なるか否かも評価される。この試験は、ニア２４ｍｅｒが配列決定される任意の原因となる遺伝的変異体との重なりについて評価されることを除いて、共通ＳＮＰ重なり試験と同様である。スコア０は、重なりがない場合に付与され、スコア１は、重なりが存在する場合に付与される。次に、同様の分析は、全体４０−ｍｅｒに対して行われる。

プローブ配列のＧＣ％は、２０〜８０％のＧＣ％には０、この範囲外には１の２つのスコアのうちの１つを受ける。最後に、ＲＯＩまでの距離が評価される。他の全てが等しい場合、ＲＯＩに最も近いプローブが好ましい。ＲＯＩ距離に対するスコアは、プローブの末端とそれが標的とするＲＯＩの開始との間の塩基対の数に等しい。

有効なプローブは、以下の基準の全てを満たし、ＲＯＩのプローブ設計のさらなる繰り返しが必要とされないプローブである：（１）１／３．５以上のニア２４ｍｅｒのマップ可能性、（２）１／３．５以上の全体４０ｍｅｒのマップ可能性、（３）０．２５以下の反復分率、（４）ニア２４ｍｅｒ中に共通ＳＮＰとの重なりがない、プローブ配列中のＮｔＢｓｐＱＩ認識部位がない。

実施例６：試料収集および分析
ユーザーが希な遺伝的疾患の保因者である確率を配信する例示のプロセスが、図１４〜１７に示される。図１４〜１５は、それぞれウェブおよび医療顧客の注文履行のためのパイプラインを示す。注文は、医師または顧客により発注され得る。注文は、単一検査または夫婦もしくは家族のためになされ得る。この注文は、ウェブサイトを通じて受け入れられ得る。注文システムは、連絡先情報、人口統計学的詳細、および請求情報を受け入れることができる。連絡先情報は、限定されないが、氏名、住所、電話番号、およびＥメールアドレスが挙げられ得る。人口統計学的情報としては、限定されないが、性別、生年月日、および自己報告された民族性が挙げられ得る。注文確認通知は、提供された連絡先情報を使用して送信され得る。受け入れ可能な注文は、データベースに追加され、これらの注文の状態は、状態マシンにより後次に維持され得る。

次に、試料採取キットがユーザーに送信される。任意のヒト組織または液体である試料が採取される。試料は、ヒトから単離されたＤＮＡでもあり得る。この実施例に有用な試料の例としては、唾液、血液、尿、口腔細胞、羊水、細胞剥離物、および細胞培養物が挙げられるが、これらに限定されない。次に、試料は、本明細書に記載されるデバイスを使用して遺伝子型決定する。表現型勧誘、例えば、ユーザーの表現型形質の自己特定を引き出すことは、試料処理と並行して行われ得る。

試料採取は、自宅、診療所、または特別な採集場所で行われ得る。試料採取および返却は、注文追跡状態マシンの状態を進行させることにより追跡され得る。受け入れ施設により受領された試料は、状態マシンにおけるそれらの状態を進行させることによりデータベースシステムに登録され得る。受け入れ施設での受け入れ後、試料は遺伝子型決定施設に配送され得る。遺伝子型決定施設は、保護ファイル転送プロトコルにより保護データストレージに未加工ゲノムデータを戻すことができる。ファイルアップロードは、状態マシンの進行をトリガすることができる。この進行は、データストレージサーバーから未加工ゲノムデータとともに、遺伝子型呼び出しを行うように構成されたサーバーをトリガして、その注文と関連付けられた任意の表現型データを検索することができる。遺伝子型決定アルゴリズムは、完全に確率的な遺伝子型呼び出しを生成することができる。

図１６〜１７は、それぞれ高レベルの試料処理パイプラインおよび詳細な計算パイプラインを示す。試料のバッチは、品質制御の目的で受領され、測定される（バッチはＱＣを通過する）。家族歴、性別、または自己報告された祖先等の情報は、それぞれの試料に対する呼び出しの独立した検査として機能するように使用される（バッチ試料に対して検索された表現型データ）。このプロセスと並行して、この予測を含むレポートが定期的に更新される。第１の検査前危険性計算が、表現型に基づいて配送される（例えば、家族歴およびオンライン質問票に対する他の回答）。遺伝子型試料が受領および処理されると、検査後計算が付与される。次に、レポートが生成され、図１６に示されるように、研究室スタッフおよび医師の承認を得るためにパイプラインの最終段階に送信される。

品質制御メトリックスが、呼び出しプロセスから生成され得る。例示の品質制御メトリックは、少なくとも１つの遺伝子型が閾値より高い事後確率を有する確率的遺伝子型呼び出しのパーセンテージである。試料のバッチが一緒に処理される。バッチとして処理されると、個別の確率的遺伝子型呼び出しを使用して、バッチレベル品質制御統計を生成することができる。確率的遺伝子型呼び出しが、データベースに記憶され得る。良好な遺伝子型呼び出しは、注文状態の進行をトリガすることができる。夫婦または家族からの注文の場合、状態マシンは、注文全体の完了のために保持することができ、他の単一注文は次の状態に移行され得る。表現型データが、危険性計算に必要とされる場合、状態マシンは、全ての表現型データが収集されるまで処理を遅延させることができる。状態マシンは、表現型が必要とされるという患者への通知をトリガすることもできる。全ての遺伝子型および表現型データの用意ができた場合、状態マシンは進行し、危険性計算サーバーをトリガして危険性計算を行うことができる。危険性計算の結果は、連載され、結果報告システムに転送され得る。これは、結果のマシン可読フォーマットである。状態マシンは、転送が完了したときに注文を進めることができる。結果報告サーバーは、確率的危険性計算と適切なテキストおよびフォーマット設定を組み合わせて、ヒト可読レポートを生成することができる。このヒト可読レポートは、ウェブサイト上で表示するためにさらにフォーマット設定され得る。このヒト可読レポートは、印刷するためにＰＤＦファイル等の他の媒体に対してフォーマット設定され得る。最終結果報告は、自己検証システムを使用して自動的に発表され得る。ヒトは、発表するために報告をレビューすることができる。確認者は、臨床検査科学者および医師であり得る。結果は、結果のビューおよび品質制御メトリックスの要約にリンクする、ウェブポータルを介してアクセスされる。臨床検査科学者によりレポートが受け入れられると、結果を医師に発表する。医師は、同様のポータルで結果をレビューし、結果の最終発表を承認することができる。

図１８は、２人の仮想の親：母親Ｈｅｎおよび父親Ｈｅｎに対するレポート生成のための例示の入出力ステップを示す。父母の遺伝子型、父母の表現型、ならびに相対遺伝子型および表現型を組み込む子の予測が生成される。これらの変数のいずれか、または全ては、欠損値であり得、人口統計学的に類似する個体から（およびこれが既知でない場合は世界人口から）初期化されたデフォルトを含む。得られる子の予測は、疾患または形質の危険性だけでなく、身長および体重等の他の変数も含み得る。子の予測における異なる変数は、異なる重量の遺伝子型および表現型を使用する。

本発明の好ましい実施形態が本明細書に図示および説明されたが、そのような実施形態が単なる例として提供されることは、当業者に明らかとなるであろう。ここで当業者は、多くの変動、変化、および置換は、本発明から逸脱することなく思い付くであろう。本明細書に記載される本発明の実施形態に対する様々な代替が、本発明を実施する際に用いられ得ることを理解されたい。以下の特許請求の範囲は、本発明の範囲を定義すること、それらの特許請求の範囲内の方法および構造、ならびにそれらの相当物がそれにより網羅されることが意図される。

Claims

複数の標的ポリヌクレオチドを配列決定するための装置を生成する方法であって、
（ａ）反応表面を有する固体支持体を提供することと、
（ｂ）前記固体支持体に複数のオリゴヌクレオチドを結合することと、を含み、前記複数のオリゴヌクレオチドが、
（ｉ）複数の異なる第１のオリゴヌクレオチドであって、配列Ａおよび配列Ｂを含み、配列Ａが、全ての第１のオリゴヌクレオチドの中で共通であり、さらに配列Ｂが、それぞれの異なる第１のオリゴヌクレオチドに対して異なり、それぞれの第１のオリゴヌクレオチドの３′末端に存在し、原因となる遺伝的変異体を含む配列または原因となる遺伝的変異体の２００ヌクレオチド以内にある配列に相補性である、複数の異なる第１のオリゴヌクレオチドと、
（ｉｉ）配列Ａをそれぞれの３′末端に含む、複数の第２のオリゴヌクレオチドと、
（ｉｉｉ）配列Ｃをそれぞれの３′末端に含み、配列Ｃが、複数の異なる標的ポリヌクレオチドにより共有される配列と同じである、複数の第３のオリゴヌクレオチドと、を含み、
配列Ａ、Ｂ、およびＣが、異なる配列であり、それぞれ５個以上のヌクレオチドを含み、
ここで、１つ以上の前記複数のオリゴヌクレオチドが、１つ以上の保護基を含むものであり、
前記原因となる遺伝的変異体が、疾患または形質と関連する統計的、生物学的、および／または機能的証明が存在する遺伝的変異体である、前記方法。
配列Ａ、Ｂ、およびＣが、互いに９０％未満の配列同一性を有する、請求項１に記載の方法。
前記複数のオリゴヌクレオチドが、反応部分を含み、その結果、前記反応表面と前記反応部分との間の反応が、前記複数のオリゴヌクレオチドを前記固体支持体に結合するようになる、請求項１に記載の方法。
前記複数の第１のオリゴヌクレオチドが、それぞれが異なる配列Ｂを含む、少なくとも約１００個の異なる第１のオリゴヌクレオチドを含む、請求項１に記載の方法。
前記固体支持体が、フローセルのチャネルである、請求項１に記載の方法。
前記複数の第２のオリゴヌクレオチドの量が、前記複数の第１のオリゴヌクレオチドの量より少なくとも１，０００倍高く、前記複数の第２のオリゴヌクレオチドの量および前記複数の第３のオリゴヌクレオチドの量が、１対１の比である、請求項１に記載の方法。
前記複数の第２のオリゴヌクレオチドの量が、前記複数の第１のオリゴヌクレオチドの量より少なくとも１０，０００倍高い、請求項６に記載の方法。
前記複数の異なる第１のオリゴヌクレオチドが、配列Ａおよび配列Ｂを含む追加の第１のオリゴヌクレオチドをさらに含み、配列Ｂが、それぞれの異なる追加の第１のオリゴヌクレオチドに対して異なり、それぞれの追加の第１のオリゴヌクレオチドの３′末端にあり、非対象配列を含む配列、または非対象配列の２００ヌクレオチド以内にある配列に相補性である、請求項１に記載の方法。
複数の標的ポリヌクレオチドを配列決定する方法であって、請求項１の方法に従い生成された装置を標的ポリヌクレオチドおよび非標的ポリヌクレオチドを含む試料に曝露することを含み、配列決定データが、配列決定非標的ゲノム配列と比べて標的ゲノム配列に対して配列決定強化される、方法。