JP2018514207A

JP2018514207A - 特異的分子インデックス（ｕｍｉ）を有する冗長リードを用いたシーケンシングｄｎａ断片におけるエラーの抑制

Info

Publication number: JP2018514207A
Application number: JP2017555568A
Authority: JP
Inventors: グネーレサンテ; ジンビョウンソック; コステムエムラ; アラバニスアレックス; ソーアレックス; カイシュウ; ジャンジホン
Original assignee: イラミーナインコーポレーテッド
Priority date: 2015-04-28
Filing date: 2016-04-20
Publication date: 2018-06-07
Anticipated expiration: 2036-04-20
Also published as: CN108138227A; IL285319B; DK3289097T3; FI3736341T3; MX2017013775A; DK3289097T4; FI3289097T4; RU2017137401A; US10844428B2; AU2016256351A1; EP3736341B1; EP3736341A1; WO2016176091A8; ES2799074T5; CN113832139A; RU2704286C2; ES2961338T3; AU2016256351B2; US20240084376A1; SG11201708859XA

Abstract

開示する実施形態は、対立遺伝子頻度が低く、配列長の長い配列を含む、個別ポリヌクレオチド断片と特異的に関連づけられる特異的分子インデックス（ＵＭＩ）配列を用いて、対象の配列を決定するための方法、装置、システム、およびコンピュータプログラム製品に関する。一部の実施態様では、ＵＭＩは、例えばＹ型アダプターを用いて導入されるような物理的（外因性）ＵＭＩ、および、シーケンシングされるＤＮＡ断片に存在する仮想（内因性）ＵＭＩの両方を含む。一部の実施態様では、特異的分子インデック配列は非ランダム配列を含む。開示する方法を実行して対象の配列を決定するためのシステム、装置、およびコンピュータプログラム製品も提供する。【選択図】図３Ｂ

Description

関連出願の相互参照

本出願は、米国特許法第１１９条（ｅ）の定めにより、２０１５年４月２８日出願の米国仮特許出願第６２／１５３６９９号、代理人整理番号ＩＬＭＮＰ００８Ｐ、２０１５年７月１６日出願の米国仮特許出願第６２／１９３４６９号、代理人整理番号ＩＬＭＮＰ００８Ｐ２、および２０１５年１２月１８日出願の米国仮特許出願第６２／２６９４８５号、代理人整理番号ＩＬＭＮＰ００８Ｐ３の利益を主張し、これらは参照によりその全体が本明細書に組み込まれる。

〔配列表〕
本出願はＡＳＣＩＩフォーマットで電子的に提出される配列表を含み、その全体が参照により本明細書に組み込まれる。ＡＳＣＩＩコピーは２０１６年４月２０日に作成されたもので、ＩＬＭＮＰ００８ＷＯ＿ＳＴ２５．ｔｘｔと名付けられ、大きさは１１６４バイトである。

次世代シーケンシング技術は、ますます高速なシーケンシングを提供し、より深いシーケンシング深度を可能にしている。しかしながら、シーケンシングの正確性と感度は、種々の原因、例えば、サンプルの欠陥、ライブラリ調製時のＰＣＲ、濃縮化、クラスタ化、およびシーケンシングに起因するエラーおよびノイズにより影響を受けるため、シーケンシング深度を深くするだけでは、母体血漿における胎児セルフリーＤＮＡ（ｃｆＤＮＡ）、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）、病原体におけるサブクローナル突然変異などにおける、対立遺伝子頻度の非常に低い配列を確実に検出することはできない。そのため、種々のエラーソースが原因のシーケンシングの不正確性を抑制しつつ、少量および／または対立遺伝子頻度の低いＤＮＡ分子の配列を決定する方法を開発することが望ましい。

開示する実施態様は、特異的分子インデックス（ＵＭＩ）を用いて核酸断片配列を決定するための方法、装置、システム、およびコンピュータプログラム製品に関する。種々の実施態様において、シーケンシング方法は、核酸断片の両鎖から該核酸断片の配列を決定する。一部の実施態様において、方法は、シーケンシングアダプターの一方または両方の鎖に位置する物理的ＵＭＩを利用する。一部の実施態様において、方法はまた、核酸断片の一方または両方の鎖に位置する仮想ＵＭＩを利用する。

本開示の一態様は、特異的分子インデックス（ＵＭＩ）を用いてサンプルの核酸分子をシーケンシングする方法に関する。各特異的分子インデックス（ＵＭＩ）とはオリゴヌクレオチド配列であり、これを用いてサンプル中の二本鎖ＤＮＡ断片の個々の分子を特定することが可能である。方法は、（ａ）アダプターを前記サンプル中の二本鎖ＤＮＡ断片の両末端に適用することによりＤＮＡ−アダプター産物を得るステップであって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および該アダプターの一方の鎖または各鎖に物理的ＵＭＩを含む、ステップと；（ｂ）前記ＤＮＡ−アダプター産物の両鎖を増幅させて複数の増幅ポリヌクレオチドを得るステップと；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、それぞれ物理的ＵＭＩと関連する複数のリードを得るステップと；（ｄ）前記複数のリードと関連する複数の物理的ＵＭＩを特定するステップと；（ｅ）前記複数のリードと関連する複数の仮想ＵＭＩを特定するステップであって、各仮想ＵＭＩは、前記サンプル中のＤＮＡ断片に見られる配列である、ステップと；（ｆ）前記サンプル中の二本鎖ＤＮＡ断片の配列を、ステップ（ｃ）で得られた複数のリード、ステップ（ｄ）で特定された複数の物理的ＵＭＩ、およびステップ（ｅ）で特定された複数の仮想ＵＭＩを用いて決定するステップとを含む。一部の実施態様では、方法は操作（ｆ）を含み、それは、（ｉ）サンプル中の１つまたは複数の二本鎖ＤＮＡ断片のそれぞれについて、（１）第１物理的ＵＭＩおよび少なくとも１つの仮想ＵＭＩを５’から３’の方向で有するリードと、（２）第２物理的ＵＭＩおよび前記少なくとも１つの仮想ＵＭＩを５’から３’の方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと；（ｉｉ）サンプル中の１つまたは複数の二本鎖ＤＮＡ断片のそれぞれについて、コンセンサスヌクレオチド配列を用いて配列を決定するステップとを含む。

一部の実施態様では、複数の物理的ＵＭＩはランダムＵＭＩを含む。一部の実施態様では、複数の物理的ＵＭＩは非ランダムＵＭＩを含む。一部の実施態様では、どの非ランダムＵＭＩも、該非ランダムＵＭＩの対応する配列位置において、少なくとも２つのヌクレオチド分、アダプターの他のどの非ランダムＵＭＩとも異なる。一部の実施態様では、複数の物理的ＵＭＩは、約１０，０００個以下、約１，０００個以下、約５００個以下、または約１００個以下の特異的な非ランダムＵＭＩを含む。一部の実施態様では、複数の物理的ＵＭＩは約９６個の特異的な非ランダムＵＭＩを含む。

上記方法の一部の実施態様において、二本鎖ＤＮＡ断片の両末端にアダプターを適用するステップには、二本鎖ＤＮＡ断片の両末端にアダプターをライゲーションすることが含まれる。一部の実施態様では、操作（ｆ）には、共通の物理的ＵＭＩと共通の仮想ＵＭＩとを共有するリードを用いてサンプルのＤＮＡ断片の配列を決定することが含まれる。

上記方法の一部の実施態様において、複数の物理的ＵＭＩは１２個未満のヌクレオチドを含む。一部の実施態様では、複数のＵＭＩは６個以下のヌクレオチドを含む。一部の実施態様では、複数のＵＭＩは４個以下のヌクレオチドを含む。

一部の実施態様では、アダプターはそれぞれ、二本鎖ハイブリッド領域のアダプターの各鎖において物理的ＵＭＩを含む。一部の実施態様では、物理的ＵＭＩは、３’アームまたは５’アームの向かい側にある二本鎖ハイブリッド領域の末端にあるか、または、二本鎖ハイブリッド領域の末端から１ヌクレオチド離れている。一部の実施態様において、アダプターはそれぞれ、物理的ＵＭＩに隣接する二本鎖ハイブリッド領域において５’−ＴＧＧ−３’トリヌクレオチドまたは３’−ＡＣＣ−５’トリヌクレオチドを含む。一部の実施態様では、アダプターはそれぞれ、二本鎖ハイブリッド領域の各鎖においてリードプライマー配列を含む。

一部の実施態様では、アダプターはそれぞれ、一本鎖５’アームまたは一本鎖３’アームのアダプターの一方の鎖においてのみ物理的ＵＭＩを含む。これらの実施態様の一部において、（ｆ）は、（ｉ）同一の第１物理的ＵＭＩを有するリードを折りたたんで第１グループにして、第１コンセンサスヌクレオチド配列を得るステップと；（ｉｉ）同一の第２物理的ＵＭＩを有するリードを折りたたんで第２グループにして、第２コンセンサスヌクレオチド配列を得るステップと；（ｉｉｉ）第１コンセンサスヌクレオチド配列および第２コンセンサスヌクレオチド配列を用いて、サンプル中の二本鎖ＤＮＡ断片の１つの配列を決定するステップとを含む。一部の実施態様において、（ｉｉｉ）は：（１）第１コンセンサスヌクレオチド配列および第２コンセンサスヌクレオチド配列の位置測定情報および配列情報を用いて、第３コンセンサスヌクレオチド配列を得るステップと、（２）第３コンセンサスヌクレオチド配列を用いて、二本鎖ＤＮＡ断片の１つの配列を決定するステップとを含む。一部の実施態様では、操作（ｅ）は、複数の仮想ＵＭＩを特定するステップを含み、一方、アダプターはそれぞれ、一本鎖５’アーム領域または一本鎖３’アーム領域のアダプターの一方の鎖においてのみ物理的ＵＭＩを含む。一部の実施態様において、（ｆ）は、（ｉ）第１物理的ＵＭＩおよび少なくとも１つの仮想ＵＭＩを５’から３’の方向で有するリードと、第２物理的ＵＭＩおよび前記少なくとも１つの仮想ＵＭＩを５’から３’の方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと；（ｉｉ）サンプル中の二本鎖ＤＮＡ断片の１つの配列を、コンセンサスヌクレオチド配列を用いて決定するステップとを含む。

一部の実施態様では、アダプターはそれぞれ、アダプターの二本鎖領域のアダプターの各鎖において物理的ＵＭＩを含み、一方の鎖における物理的ＵＭＩは、もう一方の鎖の物理的ＵＭＩに対し相補的である。一部の実施態様において、操作（ｆ）は、（ｉ）第１物理的ＵＭＩ、少なくとも１つの仮想ＵＭＩ、および第２物理的ＵＭＩを５’から３’の方向で有するリードと、前記第２物理的ＵＭＩ、前記少なくとも１つの仮想ＵＭＩ、および前記第１物理的ＵＭＩを５’から３’の方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと；（ｉｉ）サンプル中の二本鎖ＤＮＡ断片の１つの配列を、コンセンサスヌクレオチド配列を用いて決定するステップとを含む。

一部の実施態様では、アダプターはそれぞれ、アダプターの３’アームにおいて第１物理的ＵＭＩを、アダプターの５’アームにおいて第２物理的ＵＭＩを含み、第１物理的ＵＭＩおよび第２物理的ＵＭＩは互いに相補的ではない。このような実施態様の一部において、（ｆ）は、（ｉ）第１物理的ＵＭＩ、少なくとも１つの仮想ＵＭＩ、および第２物理的ＵＭＩを５’から３’の方向で有するリードと、第３物理的ＵＭＩ、前記少なくとも１つの仮想ＵＭＩ、および第４物理的ＵＭＩを５’から３’の方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと；（ｉｉ）サンプル中の二本鎖ＤＮＡ断片の１つの配列を、コンセンサスヌクレオチド配列を用いて決定するステップとを含む。

一部の実施態様において、仮想ＵＭＩの少なくとも一部は、サンプル中の二本鎖ＤＮＡ断片の末端またはその近くのサブ配列に由来する。

一部の実施態様では、１つもしくは複数の物理的ＵＭＩおよび／または１つもしくは複数の仮想ＵＭＩはサンプル中の二本鎖ＤＮＡ断片と特異的に関連する。

一部の実施態様では、サンプル中の二本鎖ＤＮＡ断片には約１，０００個超のＤＮＡ断片が含まれる。

一部の実施態様では、複数の仮想ＵＭＩには、約６ｂｐ〜約２４ｂｐのＵＭＩが含まれる。一部の実施態様では、複数の仮想ＵＭＩには、約６ｂｐ〜約１０ｂｐのＵＭＩが含まれる。

上記方法の一部の実施態様において、操作ステップ（ｃ）において複数のリードを得るステップには、増幅ポリヌクレオチドのそれぞれから２つのペアエンドリードを得るステップであって、前記２つのペアエンドリードには長リードと短リードが含まれ、長リードは短リードよりも長い、ステップが含まれる。これらの実施態様の一部では、操作（ｆ）は、第１物理的ＵＭＩと関連するリードペアを第１グループにまとめ、第２物理的ＵＭＩと関連するリードペアを第２グループにまとめるステップであって、前記第１物理的ＵＭＩおよび前記第２物理的ＵＭＩはサンプル中の二本鎖断片と特異的に関連する、ステップと；サンプル中の二本鎖断片の配列を、第１グループの長リードの配列情報および第２グループの長リードの配列情報を用いて決定するステップとを含む。一部の実施形態では、長リードのリード長は約５００ｂｐ以上である。一部の実施形態では、短リードのリード長は約５０ｂｐ以下である。

一部の実施形態では、本方法は、以下の操作：ＰＣＲ、ライブラリ調製、クラスタ化、およびシーケンシングのうち１つまたは複数で起きるエラーを抑制する。

一部の実施態様では、増幅ポリヌクレオチドには、対立遺伝子頻度が約１％より低い対立遺伝子が含まれる。

一部の実施態様では、増幅ポリヌクレオチドには、腫瘍に由来するセルフリーＤＮＡ分子が含まれ、対立遺伝子は腫瘍を示唆する。

一部の実施態様では、複数の増幅ポリヌクレオチドをシーケンシングすることには、少なくとも約１００ｂｐを有するリードを得ることが含まれる。

本開示の別の態様は、サンプル由来の核酸分子をシーケンシングする方法に関し、該方法は、（ａ）アダプターをサンプル中の二本鎖ＤＮＡ断片の両末端に結合させるステップであって、前記アダプターはそれぞれ二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および前記一本鎖５’アームまたは一本鎖３’アームにおいて物理的な特異的分子インデックス（ＵＭＩ）を含む、ステップと；（ｂ）（ａ）のライゲーション産物の両鎖を増幅することにより、複数の一本鎖増幅ポリヌクレオチドを得るステップと；（ｃ）複数の増幅ポリヌクレオチドをシーケンシングすることにより、物理的ＵＭＩとそれぞれ関連する複数のリードを得るステップと；（ｄ）複数のリードと関連する複数の物理的ＵＭＩを特定するステップと；（ｅ）前記サンプル中の二本鎖ＤＮＡ断片の配列を、（ｃ）で得た前記複数の配列および（ｄ）で特定した前記複数の物理的ＵＭＩを用いて決定するステップとを含む。

本開示の追加の態様は、サンプルに由来する核酸分子をシーケンシングする方法に関する。方法は：（ａ）アダプターをサンプル中の二本鎖ＤＮＡ断片の両末端に結合させるステップであって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、およびアダプターの一方の鎖または各鎖において１２ヌクレオチドより短い物理的な特異的分子インデックス（ＵＭＩ）を含む、ステップと；（ｂ）（ａ）のライゲーション産物の両鎖を増幅することにより、それぞれ物理的ＵＭＩを含む複数の一本鎖増幅ポリヌクレオチドを得るステップと；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、物理的ＵＭＩとそれぞれ関連する複数のリードを得るステップと；（ｄ）前記複数のリードと関連する複数の物理的ＵＭＩを特定するステップと；（ｅ）サンプル中の二本鎖ＤＮＡ断片の配列を、（ｃ）で得た前記複数のリードおよび（ｄ）で特定した前記複数の物理的ＵＭＩを用いて決定するステップとを含む。

本開示の別の態様は、各鎖において物理的ＵＭＩを有する、二重シーケンシングアダプターを作成する方法に関する。本方法は：二本鎖ハイブリッド領域と、２つの一本鎖アームと、二本鎖ハイブリッド領域の末端において、前記２つの一本鎖アームからさらに離れて５’−ＣＣＡＮＮＮＮＡＮＮＮＮＴＧＧ−３’を含むオーバーハングとを含む予備シーケンシングアダプターを提供するステップと；前記二本鎖ハイブリッド領域の一方の鎖を、オーバーハングを鋳型として用いて伸長させることにより、伸長産物を生成するステップと；制限酵素Ｘｃｍ１を適用して前記伸長産物の二本鎖末端を消化することにより、物理的ＵＭＩを各鎖に有する二重シーケンシングアダプターを生成するステップとを含む。一部の実施態様では、予備シーケンシングアダプターの各鎖にはリードプライマー配列が含まれる。

本開示のさらなる態様は、プログラムコードを記憶している非一時的な機械可読媒体を含むコンピュータプログラム製品に関し、これは、コンピュータシステムの１つまたは複数のプロセッサにより実行された場合、特異的分子インデックス（ＵＭＩ）を用いてサンプル中の対象配列の配列情報を決定する方法をコンピュータシステムに実行させる。プログラムコードは：（ａ）複数の増幅ポリヌクレオチドのリードを得るためのコードであって、前記複数の増幅ポリヌクレオチドは、対象の配列を含むサンプル中の二本鎖ＤＮＡ断片を増幅させ、二本鎖ＤＮＡ断片にアダプターを結合させることにより得られる、コードと；（ｂ）複数の増幅ポリヌクレオチドのリードにおける複数の物理的ＵＭＩを特定するためのコードであって、各物理的ＵＭＩは二本鎖ＤＮＡ断片の１つに結合したアダプターにおいて見られる、コードと；（ｃ）受け取った複数の増幅ポリヌクレオチドのリードにおける複数の仮想ＵＭＩを特定するためのコードであって、各仮想ＵＭＩは二本鎖ＤＮＡ断片の１つの個々の分子に見られる、コードと；（ｃ）二本鎖ＤＮＡ断片の配列を、前記複数の増幅ポリヌクレオチドのリード、前記複数の物理的ＵＭＩ、および前記複数の仮想ＵＭＩを用いて決定することにより、二本鎖ＤＮＡ断片の決定配列におけるエラーを減少させるコードとを含む。一部の実施態様において、アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、およびアダプターの一方の鎖または各鎖において物理的な特異的分子インデックス（ＵＭＩ）を含む。

一部の実施態様では、二本鎖ＤＮＡ断片の配列を決定するためのコードは：（ｉ）同一の第１物理的ＵＭＩを有するリードを折りたたんで第１グループにして、第１コンセンサスヌクレオチド配列を得るためのコードと；（ｉｉ）同一の第２物理的ＵＭＩを有するリードを折りたたんで第２グループにして、第２コンセンサスヌクレオチド配列を得るためのコードと；（ｉｉｉ）第１コンセンサスヌクレオチド配列および第２コンセンサスヌクレオチド配列を用いて、サンプル中の二本鎖ＤＮＡ断片の１つの配列を決定するコードとを含む。

一部の実施態様では、二本鎖ＤＮＡ断片の配列を決定するためのコードは：（ｉ）第１物理的ＵＭＩ、少なくとも１つの仮想ＵＭＩ、および第２物理的ＵＭＩを５’から３’の方向で有する配列リードと、前記第２物理的ＵＭＩ、前記少なくとも１つの仮想ＵＭＩ、および前記第１物理的ＵＭＩを５’から３’の方向で有する配列リードとを組み合わせて、コンセンサスヌクレオチド配列を決定するためのコードと；（ｉｉ）サンプル中の二本鎖ＤＮＡ断片の１つの配列を、コンセンサスヌクレオチド配列を用いて決定するためのコードとを含む。

本開示の追加の態様は、１つまたは複数のプロセッサ；システムメモリ；および１つまたは複数のコンピュータ可読記憶媒体を含む、コンピュータシステムに関する。媒体はその中にコンピュータ実行可能な指示を記憶しており、これがコンピュータシステムに、サンプル中の対象配列の配列情報を、サンプル中の二本鎖ＤＮＡ断片の個々の分子を特定するのに用いることが可能なオリゴヌクレオチド配列である、特異的分子インデックス（ＵＭＩ）を用いて決定する方法を実行させる。指示には：（ａ）複数の増幅ポリヌクレオチドのリードを受け取る指示であって、前記複数の増幅ポリヌクレオチドは、対象の配列を含むサンプル中の二本鎖ＤＮＡ断片を増幅させ、前記二本鎖ＤＮＡ断片にアダプターを結合させることにより得られる、指示と；（ｂ）受け取った前記複数の増幅ポリヌクレオチドのリードにおける複数の物理的ＵＭＩを特定する指示であって、各物理的ＵＭＩは二本鎖ＤＮＡ断片の１つに結合したアダプターにおいて見られる、指示と；（ｃ）受け取った前記複数の増幅ポリヌクレオチドのリードにおける複数の仮想ＵＭＩを特定する指示であって、各仮想ＵＭＩは二本鎖ＤＮＡ断片の１つの個々の分子に見られる、指示と；（ｄ）前記二本鎖ＤＮＡ断片の配列を、前記複数の増幅ポリヌクレオチドの配列、前記複数の物理的ＵＭＩ、および前記複数の仮想ＵＭＩを用いて決定することにより、前記二本鎖ＤＮＡ断片の決定配列におけるエラーを減少させる、指示とを含む。

一部の実施態様では、二本鎖ＤＮＡ断片の配列を決定する指示は：（ｉ）同一の第１物理的ＵＭＩを有するリードを折りたたんで第１グループにして、第１コンセンサスヌクレオチド配列を得る指示と；（ｉｉ）同一の第２物理的ＵＭＩを有するリードを折りたたんで第２グループにして、第２コンセンサスヌクレオチド配列を得る指示と；（ｉｉｉ）第１コンセンサスヌクレオチド配列および第２コンセンサスヌクレオチド配列を用いて、二本鎖ＤＮＡ断片の１つの配列を決定する指示とを含む。

一部の実施態様において、二本鎖ＤＮＡ断片の配列を決定する指示は：（ｉ）第１物理的ＵＭＩ、少なくとも１つの仮想ＵＭＩ、および第２物理的ＵＭＩを５’から３’の方向で有するリードと、前記第２物理的ＵＭＩ、前記少なくとも１つの仮想ＵＭＩ、および前記第１物理的ＵＭＩを５’から３’の方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定する指示と；（ｉｉ）二本鎖ＤＮＡ断片の１つの配列を、コンセンサスヌクレオチド配列を用いて決定する指示とを含む。

本開示の一態様は、非ランダムな特異的分子インデックス（ＵＭＩ）を用いてサンプル由来の核酸分子をシーケンシングする方法を提供する。方法は：（ａ）アダプターを前記サンプル中のＤＮＡ断片の両末端に適用することによって、ＤＮＡ−アダプター産物を得るステップであって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および該アダプターの一方の鎖または各鎖に非ランダムな特異的分子インデックス（ＵＭＩ）を含む、ステップと；（ｂ）前記ＤＮＡ−アダプター産物を増幅させて複数の増幅ポリヌクレオチドを得るステップと；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、複数の非ランダムＵＭＩと関連する複数のリードを得るステップと；（ｄ）前記複数のリードから、共通の非ランダムＵＭＩを共有するリードを特定するステップと；（ｅ）前記共通の非ランダムＵＭＩを共有する特定されたリードより、共通の非ランダムＵＭＩ付き適用アダプターを有する、前記サンプルに由来するＤＮＡ断片の少なくとも一部の配列を決定するステップとを含む。

一部の実施態様において、方法はさらに：共通の非ランダムＵＭＩを共有するリードより、共通の非ランダムＵＭＩと共通のリード位置の両方を共有するリードを選択するステップを含み、（ｅ）においてＤＮＡ断片の配列を決定するステップでは、共通の非ランダムＵＭＩおよび共通の参照配列におけるリード位置の両方を共有するリードのみを用いる。一部の実施態様では、どの非ランダムＵＭＩも、該非ランダムＵＭＩの対応する配列位置において、少なくとも２つのヌクレオチド分、他のどの非ランダムＵＭＩとも異なる。

本開示の別の態様は、非ランダムの特異的分子インデックス（ＵＭＩ）を用いてサンプル由来の核酸分子をシーケンシングする方法に関する。一部の実施態様において、方法は：（ａ）アダプターをサンプル中の二本鎖ＤＮＡ断片の両末端に適用することにより、ＤＮＡ−アダプター産物を得るステップであって、アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および該アダプターの一方の鎖または各鎖において非ランダムな特異的分子インデックス（ＵＭＩ）を含み、前記非ランダムＵＭＩは、他の情報と組み合わせて前記二本鎖ＤＮＡ断片の個々の分子を特異的に特定することが可能である、ステップと；（ｂ）前記ＤＮＡ−アダプター産物の両鎖を増幅させて複数の増幅ポリヌクレオチドを得るステップと；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、それぞれが非ランダムＵＭＩと関連する複数のリードを得るステップと；（ｄ）前記複数のリードと関連する複数の非ランダムＵＭＩを特定するステップと；（ｅ）前記複数のリードと前記複数の非ランダムＵＭＩを用いて、前記サンプル中の二本鎖ＤＮＡ断片の配列を決定するステップとを含む。

一部の実施態様において、複数のリードと複数の非ランダムＵＭＩを用いてサンプル中の二本鎖ＤＮＡ断片の配列を決定するステップは：共通の非ランダムＵＭＩを共有するリードを特定し、特定されたリードを用いて、サンプル中のＤＮＡ断片の配列を決定するステップを含む。一部の実施態様において、複数のリードと複数の非ランダムＵＭＩを用いてサンプル中の二本鎖ＤＮＡ断片の配列を決定するステップは：共通の非ランダムＵＭＩと共通のリード位置を共有するリードを特定し、前記特定されたリードを用いてサンプル中のＤＮＡ断片の配列を決定するステップを含む。

一部の実施態様において、複数のリードと複数の非ランダムＵＭＩを用いてサンプル中の二本鎖ＤＮＡ断片の配列を決定するステップは：共通の非ランダムＵＭＩと共通の仮想ＵＭＩを共有するリードを特定するステップであって、共通の仮想ＵＭＩはサンプル中のＤＮＡ断片において見られる、ステップと；前記特定されたリードを用いてサンプル中のＤＮＡ断片の配列を決定するステップとを含む。

一部の実施態様において、複数のリードと複数の非ランダムＵＭＩを用いてサンプル中の二本鎖ＤＮＡ断片の配列を決定するステップは：共通の非ランダムＵＭＩ、共通のリード位置、および共通の仮想ＵＭＩを共有するリードを特定するステップであって、前記共通の仮想ＵＭＩはサンプル中のＤＮＡ断片において見られる、ステップと；特定されたリードを用いてサンプル中のＤＮＡ断片の配列を決定するステップとを含む。

一部の実施態様では、どの非ランダムＵＭＩも、該非ランダムＵＭＩの対応する配列位置において、少なくとも２つのヌクレオチド分、アダプターの他のどの非ランダムＵＭＩとも異なる。一部の実施態様では、アダプターはそれぞれ、二本鎖ハイブリッド領域のアダプターの各鎖において物理的ＵＭＩを含む。一部の実施態様では、複数の非ランダムＵＭＩには、約１０，０００個以下、約１，０００個以下、または約１００個以下の特異的な非ランダムＵＭＩが含まれる。一部の実施態様では、複数の非ランダムＵＭＩには約９６個の特異的な非ランダムＵＭＩが含まれる。

一部の実施態様では、複数のリードそれぞれに非ランダムＵＭＩが含まれる。一部の実施態様では、複数のリードそれぞれに非ランダムＵＭＩが含まれるか、または、ペアエンドリードを介して非ランダムＵＭＩと関連する。一部の実施態様では、複数の増幅ポリヌクレオチドはそれぞれ一方の末端に非ランダムＵＭＩを有するか、または、第１末端に第１非ランダムＵＭＩを、第２末端に第２非ランダムＵＭＩを有する。

システム、装置、およびコンピュータプログラム製品も、開示する方法を実行してＤＮＡ断片配列を決定するために提供する。

本開示の一態様は、プログラムコードを記憶している非一時的な機械可読媒体を含むコンピュータプログラム製品を提供し、これは、コンピュータシステムの１つまたは複数のプロセッサにより実行された場合、特異的分子インデックス（ＵＭＩ）を用いてサンプル中の対象配列の配列情報を決定する方法をコンピュータシステムに実行させる。プログラムコードは上記方法を実行するための指示を含む。

本明細書の例はヒトに関係し、言葉は主にヒトの問題に向けられているが、本明細書に記載の概念は、任意のウイルス、植物、動物、または他の生物の核酸およびその集団（メタゲノム、ウイルス集団など）にも適用可能である。本開示のこれらの特徴および他の特徴は、図面および添付の特許請求の範囲を参照しながら、以下の記載より、より完全に明らかになるか、または、以下に記載する本開示の実施により知ることができる。

〔参照による組み入れ〕
本明細書で言及する全ての特許、特許出願、および他の刊行物は、これらの参考文献内で開示される全ての配列を含め、個々の各刊行物、特許、または特許出願が参照により組み込まれることを具体的かつ個々に示されているのと同じ程度に、参照により本明細書に明示的に組み込まれる。関連部分において引用されるすべての文書は、本明細書におけるそれらの引用の文脈によって示される目的のために、参照によりそれらの全体として本明細書に組み入れられる。しかしながら、いかなる文書の引用も、それが本開示に対する先行技術であるという承認として解釈されるべきではない。

ＵＭＩを用いて核酸断片をシーケンシングするワークフロー例を示すフローチャートである。図１Ａで示すワークフローの最初のステップで用いるＤＮＡ断片／分子およびアダプターを示す図である。種々の実施態様で採用することができる５つの異なるアダプター設計を図式的に示す図である。２つの物理的ＵＭＩを２つのアームに有するアダプターが関係するＰＣＲ反応においてＵＭＩジャンピングが起きるという、仮定のプロセスを示す図である。二本鎖領域のアダプターの両鎖においてＵＭＩを有するアダプターを作成するプロセスを示す図であり、プロセスは、１５−ｍｅｒ配列（ＳＥＱＩＤＮＯ：１）を制限酵素Ｘｃｍ１用の認識配列として用いる。Ｐ７アーム上鎖（ＳＥＱＩＤＮＯ：２）およびＰ５アーム下鎖（ＳＥＱＩＤＮＯ：３）を有するアダプターの図である。シーケンシングプロセス中にＵＭＩ配列中で起きるエラーを検出するメカニズムを提供する、非ランダムＵＭＩ設計を図式的に示す図である。本明細書に開示するいくつかの方法に従って、二本鎖断片にアダプターをライゲーションする物質および反応産物を示す図である。本明細書に開示するいくつかの方法に従って、二本鎖断片にアダプターをライゲーションする物質および反応産物を示す図である。本明細書に開示の方法が、二本鎖ＤＮＡ断片の配列を決定する際の種々のエラーソースを如何に抑制し得るかを示す図である。本明細書に開示の方法が、二本鎖ＤＮＡ断片の配列を決定する際の種々のエラーソースを如何に抑制し得るかを示す図である。本明細書に開示の方法が、二本鎖ＤＮＡ断片の配列を決定する際の種々のエラーソースを如何に抑制し得るかを示す図である。本明細書に開示の方法が、二本鎖ＤＮＡ断片の配列を決定する際の種々のエラーソースを如何に抑制し得るかを示す図である。本明細書に開示の方法が、二本鎖ＤＮＡ断片の配列を決定する際の種々のエラーソースを如何に抑制し得るかを示す図である。物理的ＵＭＩおよび仮想ＵＭＩを適用して、効率的に長いペアエンドリードを得ることを図式的に示す図である。テストサンプルを処理するための分散システムのブロック図である。本明細書に開示する方法を用いたエラー抑制の効率性を示す実験データを示す図である。本明細書に開示する方法を用いたエラー抑制の効率性を示す実験データを示す図である。位置情報のみを用いてリードを折りたたむことは、実際には異なるソース分子に由来するリードを折りたたむ傾向があることを示すデータの図である。非ランダムＵＭＩと位置情報を用いてリードを折りたたむと、位置情報のみを用いるより正確な断片推定が提供され得ることを示す、実験データをプロットする図である。ランダムＵＭＩで処理した３つのサンプルで異なるエラーが生じることを表形式で示す図である。２つの異なるツール：ＶａｒＳｃａｎおよびＤｅｎｏｖｏを用いた、２つの折りたたみ法を使用してｇＤＮＡサンプルにおける体細胞突然変異およびＣＮＶをコールする感度および選択性を示す図である。２つの異なるツール：ＶａｒＳｃａｎおよびＤｅｎｏｖｏを用いた、２つの折りたたみ法を使用して、サンプルインプットを増加させた３つのｃｆＤＮＡサンプルにおいて体細胞突然変異およびＣＮＶをコールする選択性（つまり、偽陽性率）を示す図である。２つの異なるツール：ＶａｒＳｃａｎおよびＤｅｎｏｖｏを用いた、２つの折りたたみ法を使用して、サンプルインプットを増加させた３つのｃｆＤＮＡサンプルにおいて体細胞突然変異およびＣＮＶをコールする選択性（つまり、偽陽性率）を示す図である。２つの異なるツール：ＶａｒＳｃａｎおよびＤｅｎｏｖｏを用いた、２つの折りたたみ法を使用して、サンプルインプットを増加させた３つのｃｆＤＮＡサンプルにおいて体細胞突然変異およびＣＮＶをコールする選択性（つまり、偽陽性率）を示す図である。

本開示は、核酸、特に、母体血漿中の胎児ｃｆＤＮＡまたはがん患者の血液中の循環腫瘍ＤＮＡ（ｃｔＤＮＡ）など量の限られたまたは濃度の低い核酸をシーケンシングするための方法、装置、システム、およびコンピュータプログラム製品に関する。

別段の指示がない限り、本明細書で開示する方法およびシステムの実践には、当技術分野の技能の範囲内にある、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質およびＤＮＡのシーケンシング、ならびに組換えＤＮＡの分野において一般的に用いられる従来の技法および装置が関係する。このような技法および装置は当業者に既知であり、非常に多くのテキストおよび参考資料に記載されている（例えば、Ｓａｍｂｒｏｏｋｅｔａｌ．，“ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，”ＴｈｉｒｄＥｄｉｔｉｏｎ（ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ），［２００１］を参照）。

数値範囲は、該範囲を定義する数字を含む。本明細書全体にわたって示される全ての最大数値限界は、より小さい数値限界が本明細書に明示的に記載されているかのように、そのより小さい数値限界全てを含むことを意図する。本明細書全体にわたって示される全ての最小数値限界は、より大きい数値限界が本明細書に明示的に記載されているかのように、そのより低い数値限界全てを含むことを意図する。本明細書全体にわたって示される全ての数値範囲は、そのより広い数値範囲に含まれる、より狭い数値範囲が全て本明細書に明示的に記載されているかのように、そのより狭い数値範囲を含むだろう。

本明細書で提供する見出しは、本開示を限定することを意図するものではない。

別途定義がない限り、本明細書で使用する全ての専門用語および科学技術用語は当業者により一般的に理解されるのと同じ意味を有する。本明細書に含まれる用語を含む種々の科学辞典は当業者にとって周知であり、利用可能である。本明細書に記載するものと同様または同等の任意の方法および材料を、本明細書で開示する実施形態の実践または試験に用いることが可能であるが、一部の方法および材料を記載する。

すぐ下で定義する用語は、本明細書全体を参照してより完全に記載される。本開示は、記載する特定の方法論、プロトコル、および試薬に限定されるべきではない。それは、これらが、当業者により用いられる文脈に応じて変化し得るからである。

定義
本明細書で用いる場合、単数形「１つ（ａ）」、「１つ（ａｎ）」、および「その（ｔｈｅ）」には、文脈が明らかに他を意味する場合を除き、複数の指示対象が含まれる。

別段の指示がない限り、それぞれ、核酸は左から右に５’から３’の方向で記載し、アミノ酸配列は左から右にアミノからカルボキシの方向で記載する。

特異的分子インデックス（ＵＭＩ）は、ＤＮＡ分子に適用されるかまたはＤＮＡ分子で特定されるヌクレオチド配列であり、これを用いて個々のＤＮＡ分子を互いに識別することができる。ＵＭＩを用いてＤＮＡ分子を特定することから、ＵＭＩは特異的分子識別子とも呼ばれる。例えば、Ｋｉｖｉｏｊａ，ＮａｔｕｒｅＭｅｔｈｏｄｓ９，７２-７４（２０１２）を参照。ＵＭＩはそれと関連するＤＮＡ分子に沿って配列して、リード配列が、あるソースＤＮＡ分子のものなのか、または別のものなのかを決定する。用語「ＵＭＩ」は、本明細書では、ポリヌクレオチドの配列情報と物理的ポリヌクレオチド自体の両方を指すために用いる。

一般的に、単一ソース分子の多数の例をシーケンシングする。Ｉｌｌｕｍｉｎａ社のシーケンシング技術を用いたシーケンシング・バイ・シンセシス（ｓｅｑｕｅｎｃｉｎｇｂｙｓｙｎｔｈｅｓｉｓ）の場合、ソース分子は、フローセルに送達する前にＰＣＲ増幅され得る。ＰＣＲ増幅するか否かに関わりなく、フローセルに適用した個々のＤＮＡ分子は、ブリッジ増幅またはＥｘＡｍｐ増幅されてクラスタを生成する。クラスタ内の各分子は同一ソースのＤＮＡ分子に由来するが、別々にシーケンシングされる。エラーの補正および他の目的のために、単一クラスタからの全てのリードが、同一ソースの分子由来であることが特定されると判断することが重要になり得る。ＵＭＩはこのグルーピングを可能にする。多数のＤＮＡ分子例を生成するために増幅または別のやり方でコピーされるＤＮＡ分子を、ソースＤＮＡ分子という。

ＵＭＩはバーコードと似ており、これは一般的に、あるサンプルのリードを他のサンプルのリードと区別するために用いられるが、多くのＤＮＡ分子を一緒にシーケンシングする場合は、むしろ、ＵＭＩはあるソースＤＮＡ分子と他を区別するのに用いられる。シーケンシングランにおいて、サンプルよりもはるかに多くのＤＮＡ分子が一サンプル中にあることから、典型的には、シーケンシングランにおいて別個のバーコードよりもはるかに多くの別個のＵＭＩが存在する。

述べたように、ＵＭＩは個々のＤＮＡ分子に適用されるか、または個々のＤＮＡ分子で特定され得る。一部の実施態様では、ＵＭＩをＤＮＡ分子に物理的に連結されるかまたは結合させる方法により、例えば、ポリメラーゼ、エンドヌクレアーゼ、トランスポザーゼなどを介したライゲーションまたは転移により、ＵＭＩをＤＮＡに適用することができる、これらの「適用された」ＵＭＩは、そのため、物理的ＵＭＩともいう。一部の文脈では、該ＵＭＩは外因性ＵＭＩとも言える。ソースＤＮＡ分子内で特定されるＵＭＩは、仮想ＵＭＩという。一部の文脈では、仮想ＵＭＩは内因性ＵＭＩとも言える。

物理的ＵＭＩは様々に定義することができる。例えば、物理的ＵＭＩは、アダプターに挿入されるか、さもなければシーケンシングされるソースＤＮＡ分子に組み込まれる、ランダムな、疑似ランダムな、もしくは部分的にランダムな、または非ランダムなヌクレオチド配列とすることができる。一部の実施態様では、物理的ＵＭＩは大変特異的であり得るため、それぞれがサンプル中に存在する任意の所与のソースＤＮＡ分子を特異的に特定することが期待される。それぞれが物理的ＵＭＩを有するアダプターの集合を生成し、そのアダプターをシーケンシングする断片または他のソースＤＮＡ分子に結合させ、個々のシーケンシングした分子はそれぞれ、該分子を他の全ての断片から区別するのに役立つＵＭＩを有する。このような実施態様では、非常に多数の異なる物理的ＵＭＩ（例えば、数千〜数百万）を用いて、サンプル中のＤＮＡ断片を特異的に特定することができる。

当然、物理的ＵＭＩは、どのソースＤＮＡ分子に対する特異性も確保するため、十分な長さでなければならない。一部の実施態様では、より少ない特異的分子識別子を他の特定技法と組み合わせて用いて、シーケンシングプロセス中に各ソースＤＮＡ分子を確実に特異的に特定することが可能である。このような実施態様では、多数の断片またはアダプターが同一の物理的ＵＭＩを有し得る。アライメント場所または仮想ＵＭＩなどの他の情報を物理的ＵＭＩと組み合わせて、リードが単一のソースＤＮＡ分子／断片に由来するものであることを特異的に特定することができる。一部の実施態様では、アダプターには、比較的少数の非ランダム配列、例えば、９６個の非ランダム配列に限定される物理的ＵＭＩが含まれる。このような物理的ＵＭＩのことを、非ランダムＵＭＩともいう。一部の実施態様では、非ランダムＵＭＩを配列位置情報および／または仮想ＵＭＩと組み合わせて、同一ソースのＤＮＡ分子に起因するリードを特定することができる。本明細書で記載するように、特定されたリードを折りたたんでソースＤＮＡ分子配列を反映するコンセンサス配列を得ることができる。

「仮想特異的分子インデックス」または「仮想ＵＭＩ」は、ソースＤＮＡ分子における特異的なサブ配列である。一部の実施態様では、仮想ＵＭＩはソースＤＮＡ分子の末端または末端近くに位置する。１つまたは複数の斯かる特異的末端位置は、単独で、または他の情報と組み合わせて、ソースＤＮＡ分子を特異的に特定することができる。別個のソースＤＮＡ分子の数および仮想ＵＭＩにおけるヌクレオチドの数により、１つまたは複数の仮想ＵＭＩは、サンプル中のソースＤＮＡ分子を特異的に特定することが可能である。一部の場合、２つの仮想特異的分子識別子の組み合わせが、ソースＤＮＡ分子を特定するのに必要である。このような組み合わせは極めて珍しく、サンプル中に１つだけ見られる場合もある。一部の場合、１つまたは複数の物理的ＵＭＩと組み合わせた１つまたは複数の仮想ＵＭＩは、一緒になって、ソースＤＮＡ分子を特異的に特定することができる。

「ランダムＵＭＩ」は、１つまたは複数の配列長を与えられた全ての可能性ある異なるオリゴヌクレオチド配列からなるＵＭＩの組から、交換されたまたは交換されていないランダムなサンプルとして選択された、物理的ＵＭＩであると考えることができる。例えば、ＵＭＩの組の各ＵＭＩが、ｎ個のヌクレオチドを有する場合、該組には、互いに異なる配列を有する、４＾ｎ個のＵＭＩが含まれる。４＾ｎ個のＵＭＩから選択されるランダムサンプルが、ランダムＵＭＩを構成する。

逆に、本明細書で用いる場合、「非ランダムＵＭＩ」は、ランダムＵＭＩではない物理的ＵＭＩを指す。一部の実施形態では、利用可能な非ランダムＵＭＩは、特定の実験またはアプリケーション用に予め定義される。ある実施形態では、ルールを用いて、組用の配列を生成するか、または、該組からサンプルを選択して非ランダムＵＭＩを得る。例えば、ある組の配列は、該配列が特定のあるパターンまたは複数のパターンを有するように生成することができる。一部の実施態様では、各配列は特定の数（例えば、２個、３個、または４個の）ヌクレオチド分、組中の他のどの配列とも異なる。つまり、非ランダムＵＭＩ配列を、特定の数より少ないヌクレオチドを交換することにより任意の他の利用可能な非ランダムＵＭＩ配列に変更することはできない。一部の実施態様では、非ランダムＵＭＩは、特定の配列長を与えられた全ての可能性あるＵＭＩより少ないＵＭＩを含む組から選択される。例えば、６個のヌクレオチドを有する非ランダムＵＭＩは、総計９６個の異なる配列（総計４＾６＝４０９６個の可能性ある異なる配列ではなく）から選択することができる。他の実施態様では、配列は組からランダムに選択されるわけではない。その代わりに、一部の配列は、他の配列よりも高い確率で選択される。

非ランダムＵＭＩを、全ての可能性ある異なる配列よりも少ない配列を有する組から選択する全ての一部の実施態様では、非ランダムＵＭＩの数は、ソースＤＮＡ分子の数より少なく、時には著しく少ない。このような実施態様では、非ランダムＵＭＩ情報を、仮想ＵＭＩおよび／または配列情報などの他の情報と組み合わせて、同一ソースのＤＮＡ分子に由来する配列リードを特定することができる。

用語「ペアエンドリード」は、核断片の各末端から１つのリードを得る、ペアエンドシーケンシングより得られるリードを指す。ペアエンドシーケンシングは、ＤＮＡをインサートと呼ばれる配列に断片化することを伴う。Ｉｌｌｕｍｉｎａ社で用いられるような一部のプロトコルでは、より短いインサート（例えば、数十〜数百ｂｐのオーダーの上にある）に由来するリードを、短インサートペアエンドリードまたは単にペアエンドリードという。対照的に、より長いインサート（例えば、数千ｂｐのオーダーの上にある）に由来するリードを、メイトペアリードという。本開示では、短インサートペアエンドリードおよび長インサートメイトペアリードの両方を用いることができ、ＤＮＡ断片の配列を決定するプロセスに関しては区別されない。そのため、用語「ペアエンドリード」は短インサートペアエンドリードと長インサートメイトペアリードの両方を指し得、これらについては以下でさらに記載する。一部の実施形態では、ペアエンドリードには、約２０ｂｐ〜１０００ｂｐのリードが含まれる。一部の実施形態では、ペアエンドリードには、約５０ｂｐ〜５００ｂｐ、約８０ｂｐ〜約１５０ｂｐ、または約１００ｂｐのリードが含まれる。

本明細書で用いる場合、用語「アライメント」および「アライニング」は、リードを参照配列と比較し、それにより参照配列がリード配列を含有するか否かを決定するプロセスを指す。アライメントプロセスは、リードを参照配列にマッピングできるか否か判断することを試みるものだが、常に参照配列にアライメントされるリードがもたらされるわけではない。参照配列がリードを含有する場合、リードを参照配列か、または、ある実施形態では、参照配列の特定の場所にマッピングすることができる。一部の場合、アライメントは単に、リードが特定の参照配列のメンバーであるか否か（つまり、リードが参照配列中に存在するか否か）を教えるだけである。例えば、リードをヒト染色体１３の参照配列にアライメントすることは、該リードが染色体１３の参照配列に存在するか否かを教えるだろう。この情報を提供するツールは、セットメンバーシップテスター（ｓｅｔｍｅｍｂｅｒｓｈｉｐｔｅｓｔｅｒ）と呼ばれ得る。一部の場合、アライメントは、さらに、リードがマッピングされる参照配列中の場所を示す。例えば、参照配列が全ヒトゲノム配列である場合、アライメントは、リードが染色体１３に存在することを示し得、さらに、該リードが染色体１３の特定の鎖および／または部位にあることを示し得る。一部のシナリオでは、アライメントツールは、ａ）正しいアライメントが全て発見されるわけではない点、およびｂ）一部の得られたアライメントは正しくないという点で不完全である。これは、種々の理由、例えば、リードがエラーを含有する場合があるために起き、シーケンシングされたリードは、ハロタイプの違いにより参照ゲノムとは異なる場合がある。一部のアプリケーションでは、アライメントツールは内蔵ミスマッチトレランスを備え、これは、塩基対のミスマッチをある程度許容し、さらに、リードを参照配列に整列させることを可能にする。これは、そうでなければ見逃されていたであろう、正しいリードアライメントを特定するのに役立ち得る。

整列リードとは、参照ゲノムなど既知の参照配列に対する核酸分子の順序という点で一致すると特定された、１つまたは複数の配列である。整列リードおよびその求められた参照配列上の場所が、配列タグを構成する。アライメントは、本明細書で開示する方法を実行するには妥当な時間でリードを整列させることは不可能であることから、典型的にはコンピュータアルゴリズムにより実行されるが、手動で行うことも可能である。配列を整列させることに由来するアルゴリズム一例は、ＩｌｌｕｍｉｎａＧｅｎｏｍｉｃｓＡｎａｌｙｓｉｓｐｉｐｅｌｉｎｅの一部として配布されるＥｆｆｉｃｉｅｎｔＬｏｃａｌＡｌｉｇｎｍｅｎｔｏｆＮｕｃｌｅｏｔｉｄｅＤａｔａ（ＥＬＡＮＤ）コンピュータプログラムである。あるいは、ブルームフィルタまたは類似のセットメンバーシップテスターを利用して、リードを参照ゲノムに整列させることができる。２０１４年４月２５日出願の米国特許出願公開第１４／３５４５２８号明細書を参照（これはその全体が参照により本明細書に組み込まれる）。アライニングにおける配列リードのマッチングは、１００％配列マッチか、または１００％未満（つまり、不完全なマッチ）であり得る。

本明細書で用いる場合、用語「マッピング」は、リード配列をより大きい配列、例えば参照ゲノムに、アライメントにより割り当てることを指す。

用語「ポリヌクレオチド」、「核酸」、および「核酸分子」は区別なく用いられ、あるヌクレオチドのペントースの３’位置が次のペントースの５’位置にホスホジエステル基により結合した、共有結合したヌクレオチド配列（つまり、ＲＮＡのリボヌクレオチドおよびＤＮＡのデオキシリボヌクレオチド）を指す。ヌクレオチドには、任意の形の核酸の配列が含まれ、限定するわけではないが、ＲＮＡおよびセルフリーＤＮＡ（ｃｆＤＮＡ）分子などのＤＮＡが含まれる。用語「ポリヌクレオチド」には、限定するわけではないが、一本鎖および二本鎖のポリヌクレオチドが含まれる。

用語「テストサンプル」は、本明細書では、典型的には生体液、細胞、組織、臓器、または生物に由来するサンプルを指し、これには、少なくとも１つの核酸配列を有する核酸または核酸混合物が含まれ、これは、コピー数変異および他の遺伝子変異、例えば、限定するわけではないが、一塩基多型、挿入、欠失、および構造変異についてスクリーニングされる。ある実施形態では、サンプルは少なくとも１つの核酸配列を有し、そのコピー数は変異していると考えられる。このようなサンプルには、限定するわけではないが、唾液／口腔液、羊水、血液、血液分画、または微細ニードル生検サンプル、尿、腹膜液、および胸膜液などが含まれる。サンプルはしばしばヒト対象（例えば、患者）から採取されるが、アッセイは、限定するわけではないが、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含む任意の哺乳動物、および野生の微生物集団または患者のウイルス集団のような混合集団からのサンプルに、用いることが可能である。サンプルは、生物学的ソースから得て直ぐに、または、サンプルの特徴を修正するための予備処置後に、用いることができる。例えば、このような予備処置には、また、血液から血漿を調製すること、および粘性液を希釈することなどが含まれ得る。予備処置の方法には、限定するわけではないが、濾過、沈殿、希釈、蒸留、混合、遠心分離、凝固、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の非活性化、試薬の追加、溶解などが含まれ得る。このような予備処置法をサンプルに関し用いる場合、このような予備処置法は、典型的には、対象の核酸をテストサンプルに残し、時に、未処置のテストサンプル（例えば、つまり、このような予備処置法のいずれにも供していないサンプル）の濃度に比例した濃度にする。このような「処置した」または「処理した」サンプルもなお、本明細書に記載の方法に関し、生物学的な「テスト」サンプルであると考える。

本明細書の用語「次世代シーケンシング（ＮＧＳ）」は、クローン的に増幅した分子および単一核酸分子を、大量に平行してシーケンシングすることを可能にするシーケンシング法を指す。ＮＧＳの非限定的例としては、可逆性ダイターミネータを用いるシーケンシング・バイ・シンセシスおよびシーケンシング・バイ・ライゲーションが挙げられる。

用語「リード」は、核酸サンプルの一部に由来する配列リードを指す。必ずというわけではないが、典型的には、リードはサンプル中の隣接した塩基対の短い配列を表す。リードは、塩基の正確性についての確率推定値（クオリティスコア）と共に、Ａ、Ｔ、Ｃ、およびＧを用いたサンプルの一部分の塩基対配列により記号的に表され得る。リードは記憶装置に保存され、適切に処理されてそれが参照配列とマッチするか、または他の基準に適合するかを判断する。リードは、シーケンシング装置から直接的に、または、サンプルに関し保存された配列情報から間接的に得ることができる。一部の場合、リードは、十分な長さ（例えば、少なくとも２０ｂｐ）のＤＮＡ配列であり、該リードを用いて、より大きい配列または領域を特定すること、例えば、該リードを染色体、ゲノム領域、または遺伝子に整列させ、マッピングすることが可能である。

用語「部位」および「アライメント場所」は、参照ゲノム上の特異的な位置（つまり、染色体ＩＤ、染色体位置、および染色体の方向）を指すために区別なく用いられる。一部の実施形態では、部位は、参照配列上の残基の位置、配列タグの位置、またはセグメントの位置であり得る。

本明細書で用いる場合、用語「参照ゲノム」または「参照配列」は、任意の生物またはウイルスの、部分的または完全な、任意の特定の既知であるゲノム配列を指し、これを用いて、対象の特定された配列を参照することができる。例えば、ヒト対象および他の多くの生物に対し用いられる参照ゲノムは、ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖのＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎで見つけられる。「ゲノム」は、核酸配列に発現する、生物またはウイルスの完全な遺伝情報を指す。しかしながら、代表的な参照ゲノムでさえ空白およびエラーを含むと予想されることから、「完全な」は相対概念であると理解されたい。

種々の実施形態において、参照配列は、それに整列させるードよりも著しく大きい。例えば、参照配列は、少なくとも約１００倍、または少なくとも約１，０００倍、少なくとも約１０，０００倍、少なくとも約１０^５倍、少なくとも約１０^６倍、または少なくとも約１０^７倍大きい場合がある。

ある例では、参照配列は、完全長ヒトゲノムの配列である。このような配列は、ゲノム参照配列ということができる。別の例では、参照配列は、染色体１３などの特定のヒト染色体に限定される。一部の実施形態では、参照Ｙ染色体は、ヒトゲノムバージョンｈｇ１９に由来するＹ染色体配列である。このような配列は、染色体参照配列ということができる。参照配列の他の例としては、他の種のゲノム、および、任意の種の染色体、（鎖などの）サブ染色体領域などが挙げられる。

一部の実施形態では、アライメント用参照配列の配列長は、リード長の約１〜約１００倍であり得る。このような実施形態では、アライメントおよびシーケンシングは、全ゲノムのアライメントまたはシーケンシングではなく、標的化アライメントまたはシーケンシングだと考えられる。これらの実施形態では、参照配列には、典型的には、対象の遺伝子配列および／または他の制約付き配列が含まれる。

種々の実施形態において、参照配列は多数の固体に由来するコンセンサス配列または他の組み合わせである。しかしながら、ある用途では、参照配列は特定の固体から採取され得る。

用語「由来する」は、本明細書において、核酸または核酸混合物の文脈で用いる場合、核酸がその起源となるソースから得られる手段を指す。例えば、一実施形態において、２つの異なるゲノムに由来する核酸の混合物は、該核酸、例えばｃｆＤＮＡが、ネクローシスまたはアポトーシスなどの天然に存在する過程を通じて、細胞によって天然に放出されたことを意味する。別の実施形態では、２つの異なるゲノムに由来する核酸の混合物は、該核酸が、対象由来の２つの異なるタイプの細胞から抽出されたことを意味する。

用語「生体液」は、本明細書では、生物学的ソースから採取された液体を指し、例えば血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、および唾液などが挙げられる。本明細書で用いる場合、用語「血液」、「血漿」、および「血清」は、それらの画分又は処理した部分も明示的に包含する。同様に、サンプルを生検、スワブ、スメア等から採取する場合、「サンプル」は生検、スワブ、スメア等に由来する処理した画分または部分を明示的に包含する。

本明細書で用いる場合、用語「染色体」は、ＤＮＡおよびタンパク質成分（特にヒストン）を含むクロマチン鎖に由来する、生細胞の遺伝性を担う遺伝子キャリアを指す。本明細書においては、国際的に認められた従来的な個体ヒトゲノム染色体付番システムを採用する。

本明細書で用いる場合、用語「ポリヌクレオチド長」は、配列または参照ゲノムの領域における、核酸分子（ヌクレオチド）の絶対数を指す。用語「染色体長」は、例えばワールド・ワイド・ウェブの｜ｇｅｎｏｍｅ｜．｜ｕｃｓｃ｜．｜ｅｄｕ／ｃｇｉ−ｂｉｎ／ｈｇＴｒａｃｋｓ？ｈｇｓｉｄ＝１６７１５５６１３＆ｃｈｒｏｍＩｎｆｏＰａｇｅ＝で見られるヒト染色体についてのＮＣＢＩ３６／ｈｇ１８アセンブリで提供される、塩基対で与えられる染色体の既知の長さを指す。

本明細書で用いる場合、用語「プライマー」は、伸長産物の合成を誘導する条件下に置かれた場合に、合成の開始点として作用し得る単離オリゴヌクレオチドを指す（例えば、該条件には、ヌクレオチド、ＤＮＡポリメラーゼなどの誘導剤、必要なイオンおよび分子、ならびに適切な温度およびｐＨが含まれる）。プライマーは、増幅の最大効率のために好ましくは一本鎖であるが、代替的に二本鎖でもよい。二本鎖の場合、プライマーは、伸長産物を調製するために用いられる前に、その鎖を分離するようにまず処理される。プライマーはオリゴデオキシリボヌクレオチドであり得る。プライマーは、誘導剤の存在下で伸長産物の合成を刺激するのに十分に長い。プライマーの正確な長さは、温度、プライマーのソース、方法の使用、およびプライマー設計に用いられるパラメーターを含む多くの因子に依存しよう。

導入および文脈
次世代シーケンシング（ＮＧＳ）技術は急速に発展しており、先端研究および科学に新しいツールをもたらすと同時に、遺伝子および関連の生体情報に依拠する医療サービスも提供する。ＮＧＳ法は、大規模並列的なやり方で実行され、生物分子の配列情報決定のますますの高速化をもたらす。しかしながら、ＮＧＳ法の多くおよび関連のサンプル操作技術はエラーを発生させ、その結果、結果として生じる配列は比較的エラー率が高く、数百塩基対に１エラーから数千塩基対に１エラーに及ぶ。このようなエラー率は、生殖細胞系列変異などの遺伝性の遺伝子情報を決定する場合には、斯かる情報が、テストサンプルにおいて同じゲノムの多数のコピーを提供する大部分の体細胞全体で一致することから、時に許容される。配列の１コピーを読み取ることから生じるエラーの影響は、同じ配列の多数のコピーをエラーなしで読み取る場合は軽微または除去可能である。例えば、配列の１コピーからの誤ったリードを参照配列に適切にアライメントすることができない場合、それはただ分析から除かれるだけである。同じ配列の他のコピーからのエラーなしリードがなお、正当な分析に十分な情報を提供し得る。あるいは、同じ配列の他のリードとは異なる塩基対を有するリードを除く代わりに、既知のまたは未知のエラーソースから生じた異なる塩基対を無視することが可能である。

しかしながら、このようなエラー補正アプローチは、腫瘍組織の核酸、循環腫瘍ＤＮＡ、母体血漿中の低濃度胎児ｃｆＤＮＡ、薬剤抵抗性の病原体変異体で見られるサブクローン体細胞突然変異など、対立遺伝子頻度が低い配列を検出する場合、上手く機能しない。これらの例では、１つのＤＮＡ断片がある配列部位において対象の体細胞変異を含み得る一方、同じ配列部位にある多くの他の断片は対象の変異を有さない。このようなシナリオでは、変異したＤＮＡ断片からの配列リードまたは塩基対は、従来のシーケンシングでは用いられないか、誤って解釈される可能性があるため、対象の突然変異を検出するための情報が失われる。

これらの種々のエラーソースにより、シーケンシングの深度を深くするだけでは対立遺伝子頻度が非常に低い（例えば＜１％）体細胞変異を確実に検出することはできない。本明細書に開示する一部の実施態様は、対立遺伝子頻度が低いサンプルなど、対象の正当な配列のシグナルが低い状況でエラーを効率的に抑制する、二重（ｄｕｐｌｅｘ）シーケンシング法を提供する。該方法は、仮想特異的分子インデックス（ＵＭＩ）を、ＩｌｌｕｍｉｎａＴｒｕＳｅｑ（登録商標）アダプターなどのシーケンシングアダプターの一方のアームまたは両アームに位置する、短い物理的な特異的分子インデックスと組み合わせて用いる。これらの実施態様は、アダプター配列上の物理的ＵＭＩと、サンプルＤＮＡ断片配列上の仮想ＵＭＩを用いるという戦略に基づく。一部の実施態様では、リードのアライメント位置も、エラーを抑制するのに用いる。例えば、多数のリード（またはリード対）が物理的ＵＭＩを共有し、参照上で同じ間隔（強制的な位置範囲）内で整列する場合、該リードは単一のＤＮＡ断片に由来することが予測される。リードと関連する物理的ＵＭＩ、仮想ＵＭＩ、およびアライメント位置は、単独で、または組み合わせで、サンプルに由来する特定の二本鎖ＤＮＡ断片と特異的に関連する「インデックス」を提供する。これらのインデックスを用いて、同一のゲノム部位からの多数の断片のたった１つであり得る単一のＤＮＡ断片（単一分子）に由来する、多数のリードを特定することができる。単一のＤＮＡ分子に由来する多数のリードを用いて、エラー補正を効果的に行うことが可能である。例えば、このシーケンシング方法論は、同一のＤＮＡ断片に由来する多数のリードからコンセンサスヌクレオチド配列（以後、「コンセンサス配列」という）を得ることができ、その補正は、このＤＮＡ断片の正当な配列情報を排除するわけではない。

アダプター設計は物理的ＵＭＩを提供し、これは、ＤＮＡ断片のどの鎖にリードが由来するかを決定することを可能にする。一部の実施形態ではこれを利用して、ＤＮＡ断片の一本の鎖に由来するリードの第１コンセンサス配列と、相補的な鎖の第２コンセンサス配列を決定する。多くの実施形態において、コンセンサス配列には、リードの全てまたは大部分で検出される塩基対が含まれる一方、数リードに現れる塩基対は除外される。コンセンサスの異なる基準が満たされ得る。ＵＭＩまたはアライメント場所に基づきリードを組み合わせてコンセンサス配列を得るプロセスのことを、リードの「折りたたみ」ともいう。物理的ＵＭＩ、仮想ＵＭＩ、および／またはアライメント場所を用いて、第１コンセンサス配列および第２コンセンサス配列が同じ二本鎖断片に由来することを決定することが可能である。そのため、一部の実施形態では、同じＤＮＡ分子／断片向けに得られた第１コンセンサス配列および第２コンセンサス配列を用いて、第３のコンセンサス配列を決定し、該第３のコンセンサス配列は、第１コンセンサス配列および第２コンセンサス配列に共通の塩基対を含む一方、その２つの間で矛盾しているものは除外される。代わりの実施態様では、同じ断片の両鎖から得られる２つのコンセンサス配列を比較するのではなく、該２つの鎖に由来する全てのリードを折りたたむことにより、コンセンサス配列を１つのみ、直接得ることができる。最後に、断片の配列は、断片の両鎖に由来するリードで一致した塩基対を含む、第３のコンセンサス配列または１つのみのコンセンサス配列より求めることができる。

種々の実施態様では、ＤＮＡ断片の２つの鎖のリードを組み合わせてエラーを抑制する。しかしながら、一部の実施形態では、本方法は、物理的ＵＭＩおよび仮想ＵＭＩを一本鎖核酸（例えば、ＤＮＡまたはＲＮＡ）断片に適用し、同じ物理的ＵＭＩおよび仮想ＵＭＩを共有するリードを組み合わせてエラーを抑制する。種々の実施形態を利用して、サンプル中の一本鎖核酸断片を捕捉することができる。

一部の実施形態では、本方法は異なるタイプのインデックスを組み合わせて、リードが由来するソースポリヌクレオチドを決定する。例えば、本方法は、物理的ＵＭＩと仮想ＵＭＩの両方を用いて、単一ＤＮＡ分子に由来するリードを特定することができる。物理的ＵＭＩに加え第２形態のＵＭＩを用いることにより、ソースポリヌクレオチドを決定するのに物理的ＵＭＩのみを用いる場合より、物理的ＵＭＩは短くてよい。このアプローチはライブラリ調製の実行に最小限の影響しか与えず、追加のシーケンシングリード長を必要としない。

本開示の方法のアプリケーションには、
・体細胞突然変異の検出のためのエラー抑制（例えば、対立遺伝子頻度が０．１％未満の突然変異の検出は、循環腫瘍ＤＮＡのリキッドバイオプシーでは非常に肝要である）、
・高品質の長いリード（例えば、１ｘ１０００ｂｐ）を得るための、ｐｒｅｐｈａｓｉｎｇ、ｐｈａｓｉｎｇ、および他のシーケンシングエラーの補正、
・固定されたリード長に対するサイクル時間の減少、ならびに本方法による増加したｐｈａｓｉｎｇおよびｐｒｅｐｈａｓｉｎｇの補正、
・断片の両側にあるＵＭＩを用いた、仮想の長いペアエンドリードの作成（例えば、複製において５００＋５０を行うことにより、２ｘ５００リードをステッチする）を含む。

ＵＭＩを用いて核酸断片をシーケンシングするためのワークフロー例
図１Ａは、ＵＭＩを用いて核酸断片をシーケンシングするワークフロー例１００を示すフローチャートである。操作１０２は、二本鎖ＤＮＡの断片を提供する。ＤＮＡ断片は、例えば、ゲノムＤＮＡを断片化する、自然に断片化されたＤＮＡ（例えば、ｃｆＤＮＡまたはｃｔＤＮＡ）を集める、または、ＲＮＡからＤＮＡ断片を合成することによって得ることができる。一部の実施態様では、ＲＮＡからＤＮＡ断片を合成するために、メッセンジャーＲＮＡをまず、ｐｏｌｙＡ選択を用いるか、またはリボソーマルＲＮＡを減少させて精製し、次に選択したｍＲＮＡを化学的に断片化し、ランダムなヘキサマープライミングを用いて一本鎖ｃＤＮＡに変換する。ｃＤＮＡの相補鎖を生成して、ライブラリ構築向けに準備の整った二本鎖ｃＤＮＡを作成する。二本鎖ＤＮＡ断片をゲノムＤＮＡ（ｇＤＮＡ）から得るには、インプットｇＤＮＡを、例えば流体力学的剪断、噴霧化、酵素的断片化などにより断片化して、適切な長さ、例えば約１０００ｂｐ、８００ｂｐ、５００ｂｐ、または２００ｂｐの断片を生成する。例えば、噴霧化は短時間でＤＮＡを粉砕し、８００ｂｐ未満のピースにすることが可能である。このプロセスは、３’および／または５’のオーバーハングを含有する二本鎖ＤＮＡ断片を生成する。

図１Ｂは、図１Ａのワークフロー１００の最初のステップで用いるＤＮＡ断片／分子およびアダプターを示す。１個の二本鎖断片のみが図１Ｂに示されているが、数千〜数百万のサンプル断片をワークフローにおいて同時に調製することが可能である。物理的な方法によるＤＮＡの断片化は、３’オーバーハング、５’オーバーハング、および平滑末端の混合物を含む、異種末端を生成する。オーバーハングの長さは様々であり、末端はリン酸化されている場合もされていない場合もある。操作１０２のゲノムＤＮＡの断片化により得られる二本鎖ＤＮＡ断片の例を、図１Ｂでは断片１２３として示す。

断片１２３は左端の３’オーバーハングと右端に示される５’オーバーハングの両方を有し、仮想ＵＭＩとして用いることができる断片の２つの配列を示すρおよびφの印がついており、これを、単独でまたは断片にライゲーションされるアダプターの物理的ＵＭＩと組み合わせて用いた場合、断片を特異的に特定することが可能である。ＵＭＩは、ソースポリヌクレオチドとその相補的鎖を含むサンプルにおいて、単一のＤＮＡ断片と特異的に関連する。物理的ＵＭＩは、ソースポリヌクレオチド、その相補的鎖、またはソースポリヌクレオチドに由来するポリヌクレオチドに結合するオリゴヌクレオチド配列である。仮想ＵＭＩは、ソースポリヌクレオチド、その相補的鎖、またはソースポリヌクレオチドに由来するポリヌクレオチド内のオリゴヌクレオチド配列である。このスキームでは、物理的ＵＭＩを非固有ＵＭＩと、仮想ＵＭＩを固有ＵＭＩということもできる。

２つの配列ρおよびφは実際にはそれぞれ、同じゲノム部位の２つの相補的配列を指すが、単純化するため、該２つの配列は、本明細書に示す二本鎖断片の一部の１つの鎖においてのみ示す。ρおよびφなどの仮想ＵＭＩをワークフローの後のステップで用いて、単一ＤＮＡソース断片の一方の鎖または両方の鎖から生じるリードの特定を容易にすることが可能である。そのように特定したリードを用いて、該リードを折りたたんでコンセンサス配列を得ることが可能である。

ＤＮＡ断片を物理的方法を用いて生成する場合、ワークフロー１００は進行して、５’−リン酸化末端を有する平滑末端断片を生成する、エンドリペア操作１０４を実行する。一部の実施態様では、このステップは断片化により生じたオーバーハングをＴ４ＤＮＡポリメラーゼおよびクレノウ酵素を用いて平滑末端に変える。これらの酵素の３’から５’のエキソヌクレアーゼ活性は３’オーバーハングを取り除き、５’から３’のポリメラーゼ活性は５’オーバーハングを埋める。加えて、この反応においてＴ４ポリヌクレオチドキナーゼが、ＤＮＡ断片の５’末端をリン酸化する。図１Ｂの断片１２５は、エンドリペアされた平滑末端産物の例である。

エンドリペア後、ワークフロー１００は、断片の３’末端をアデニル化する操作１０６に進むが、これは、単一ｄＡＴＰを平滑断片の３’末端に加えて断片がアダプターライゲーション反応中に互いにライゲーションすることを防ぐことから、Ａ−テーリングまたはｄＡ−テーリングともいう。図１Ｂの二本鎖分子１２７は、３’−ｄＡオーバーハングおよび５’−リン酸末端付きの平滑末端を有するＡ−テール化断片を示す。図１Ｂの項目１２９で見られる、２つのシーケンシングアダプターそれぞれの３’末端にある単一「Ｔ」ヌクレオチドは、２つのアダプターをインサートにライゲーションするために、インサートの各末端の３’−ｄＡオーバーハングに対し相補的なオーバーハングを提供する。

３’末端のアデニル化後、ワークフロー１００は、断片の両末端に部分的に二本鎖アダプターをライゲーションする操作１０８に進む。一部の実施態様では、反応に用いるアダプターには互いに全て異なるオリゴヌクレオチドが含まれ、該オリゴヌクレオチドは、配列リードを単一ソースポリヌクレオチドに関連させるための物理的ＵＭＩを提供し、これは一本鎖または二本鎖のＤＮＡ断片であり得る。全ての物理的ＵＭＩオリゴヌクレオチドが異なるため、特定の断片の２つの末端にライゲーションした２つのＵＭＩオリゴヌクレオチドは互いに異なる。さらに、特定の断片の２つの物理的ＵＭＩは、他のどの断片の物理的ＵＭＩとも異なる。これに関し、２つの物理的ＵＭＩは特定の断片に特異的に関連する。

図１Ｂの項目１２９は、断片の末端近くに２つの仮想ＵＭＩρおよびφを含む二本鎖断片にライゲーションする、２つのアダプターを示す。種々の実施態様がＩｌｌｕｍｉｎａ社のＮＧＳプラットフォームを用いてリードを得て、対象の配列を検出するため、これらのアダプターは、Ｉｌｌｕｍｉｎａプラットフォームのシーケンシングアダプターに基づき示す。左に示すアダプターはそのＰ５アームに物理的ＵＭＩαを含む一方、右のアダプターはそのＰ５アームに物理的ＵＭＩβを含む。５’変性末端を有する鎖において、５’から３’の方向で、アダプターはＰ５配列、物理的ＵＭＩ（αまたはβ）、およびリード２プライマー配列を有する。３’変性末端を有する鎖において、３’から５’の方向で、アダプターはＰ７’配列、インデックス配列、およびリード１プライマー配列を有する。Ｐ５オリゴヌクレオチドおよびＰ７’オリゴヌクレオチドは、Ｉｌｌｕｍｉｎａ社のシーケンシングプラットフォームのフローセルの表面に結合した増幅プライマーに対し相補的である。一部の実施態様では、インデックス配列はサンプルのソースのトラックを保持する手段を提供し、それによりシーケンシングプラットフォームにおいて多数のサンプルの多重化が可能になる。アダプターおよびシーケンシングプラットフォームの他の設計を種々の実施態様において用いることができる。アダプターおよびシーケンシング技術について、以下のセクションでさらに記載する。図１Ｂに描く反応は、ゲノム断片の各鎖の５’末端および３’末端に別箇の配列を加える。前述の同一断片に由来するライゲーション産物１３１を図１Ｂに示す。このライゲーション産物１３１は、その上部鎖において、５’−３’の方向で、物理的ＵＭＩα、仮想ＵＭＩρ、および仮想ＵＭＩφを有する。ライゲーション産物は、また、その下部鎖において、５’−３’の方向で、物理的ＵＭＩβ、仮想ＵＭＩφ、および仮想ＵＭＩρを有する。ライゲーション産物ならびに１３２で示すライゲーション産物に含有される物理的ＵＭＩおよび仮想ＵＭＩは、図３Ａの上半分のものに似ている。この開示は、Ｉｌｌｕｍｉｎａ社により提供される以外のシーケンシング技術およびアダプターを用いた方法を具体化する。

一部の実施態様では、このライゲーション反応の産物はアガロースゲル電気泳動または磁性ビーズにより精製および／またはサイズ選択される。サイズ選択したＤＮＡを次にＰＣＲ増幅して、両末端にアダプターを有する断片を濃縮する。ブロック１１０を参照されたい。図３Ａの下半分は、ライゲーション産物の両鎖がＰＣＲ増幅を受け、異なる物理的ＵＭＩ（αおよびβ）を有する断片の２つのファミリーをもたらすことを示す。２つのファミリーはそれぞれ物理的ＵＭＩを１つのみ有する。２つのファミリーは両方とも仮想ＵＭＩρおよびφを有するが、物理ＵＭＩを基準とした仮想ＵＭＩの順は、α−ρ−φに対しβ−φ−ρと異なる。一部の実施態様はＰＣＲ産物を精製し、後続のクラスタ精製に適したサイズ幅の鋳型を選択する。

次に、ワークフロー１００は、Ｉｌｌｕｍｉｎａ社のプラットフォームにおけるＰＣＲ産物のクラスタ増幅に進む。操作１１２を参照されたい。ＰＣＲ産物をクラスタ化することにより、アダプターの異なるインデックス配列を用いて、例えばレーン当たり最大１２サンプルで多重化のためにライブラリをプールして、異なるサンプルのトラックを保持することが可能である。

クラスタ増幅後、Ｉｌｌｕｍｉｎａ社のプラットフォームにおけるシーケンシング・バイ・シンセシスを介してシーケンシングリードを得ることが可能である。操作１１４を参照されたい。本明細書に記載するアダプターおよびシーケンシングプロセスはＩｌｌｕｍｉｎａ社のプラットフォームに基づくが、他のシーケンシング技術、特にＮＧＳ法をＩｌｌｕｍｉｎａ社のプラットフォームの代わりに、またはそれに加えて用いることができる。

図１Ｂおよび３Ａに示すセグメントに由来するシーケンシングリードはまた、ＵＭＩα−ρ−φまたはＵＭＩβ−φ−ρを含むと予期される。ワークフロー１００はこの特徴を用いて、同一の物理的ＵＭＩおよび／または同じ仮想ＵＭＩを有するリードを折りたたんで１つまたは複数のグループにすることにより、１つまたは複数のコンセンサス配列を得る。操作１１６を参照されたい。コンセンサス配列には、一致したヌクレオチド塩基か、または、折りたたんだグループのリードのコンセンサス基準を満たすヌクレオチド塩基が含まれる。操作１１６に示すように、物理的ＵＭＩ、仮想ＵＭＩ、および位置情報を様々な方法で組み合わせてリードを折りたたんで、断片の配列または少なくともその一部を決定するためのコンセンサス配列を得ることができる。一部の実施態様では、物理的ＵＭＩを仮想ＵＭＩと組み合わせてリードを折りたたむ。他の実施態様では、物理的ＵＭＩをリード位置と組み合わせてリードを折りたたむ。リードの位置情報は、異なる位置測定、例えば、リードのゲノム座標、参照配列上の位置、または染色体の位置を用いた種々の技法により得ることができる。さらなる実施態様では、物理的ＵＭＩ、仮想ＵＭＩ、およびリード位置を組み合わせてリードを折りたたむ。

最後に、ワークフロー１００は１つまたは複数のコンセンサス配列を用いて、サンプル由来の核酸断片の配列を決定する。操作１１８を参照されたい。これには、核酸断片の配列が第３のコンセンサス配列または前述の単一コンセンサス配列であると判断するステップが含まれ得る。

操作１０８〜１１９に類似した操作を含む特定の実施態様では、非ランダムＵＭＩを用いてサンプルから核酸分子をシーケンシングする方法は、以下の、（ａ）アダプターをサンプル中のＤＮＡ断片の両末端に適用することによって、ＤＮＡ−アダプター産物を得るステップであって、アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および非ランダムＵＭＩを含む、ステップと；（ｂ）前記ＤＮＡ−アダプター産物を増幅させて複数の増幅ポリヌクレオチドを得るステップと；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、複数の非ランダムＵＭＩと関連する複数のリードを得るステップと；（ｄ）前記複数のリードから、共通の非ランダムＵＭＩと共通のリード位置を共有するリードを特定するステップと；（ｅ）前記特定されたリードより、ＤＮＡ断片の少なくとも一部の配列を決定するステップとを含む。

種々の実施態様では、得られた配列リードは物理的ＵＭＩ（例えば、ランダムＵＭＩまたは非ランダムＵＭＩ）と関連する。このような実施態様では、ＵＭＩはリード配列の一部か、または異なるリード配列の一部であり、異なるリードおよび問題のリードが、例えばペアエンドリードまたは位置特異的情報により、同じ断片に由来していることが分かる。仮想ＵＭＩなど。

一部の実施態様では、配列リードはペアエンドリードである。各リードは、非ランダムＵＭＩを含むか、または、ペアエンドリードを介して非ランダムＵＭＩと関連する。一部の実施態様では、リード長はＤＮＡ断片よりも短いか、または、断片長の２分の１より短い。このような場合、全断片の完全配列は決定されない場合がある。むしろ、断片の２つの末端が決定される。例えば、ＤＮＡ断片は５００ｂｐ長とすることができ、２つの１００ｂｐのペアエンドリードを該ＤＮＡ断片から得ることができる。この例では、断片の各末端の１００塩基を決定することが可能であり、断片中央の３００ｂｐは他のリードの情報を用いることがなければ決定することができない。一部の実施態様では、２つのペアエンドリードが重なるほど十分に長ければ、全断片の完全配列を２つのリードより決定することができる。例えば、図５に関連して記載する例を参照されたい。

一部の実施態様では、どの非ランダムＵＭＩも、該非ランダムＵＭＩが対応する配列位置において少なくとも２ヌクレオチド分、他のどの非ランダムＵＭＩとも異なる。種々の実施態様では、複数の非ランダムＵＭＩには、約１０，０００個以下、約１，０００個以下、または約１００個以下の特異的な非ランダムＵＭＩが含まれる。一部の実施態様では、複数の非ランダムＵＭＩには９６個の特異的な非ランダムＵＭＩが含まれる。

一部の実施態様では、アダプターは該アダプターの二本鎖領域において二重非ランダムＵＭＩを有し、各リードには、一方の末端に第１非ランダムＵＭＩが、もう一方の末端に第２非ランダムＵＭＩが含まれる。

アダプターおよびＵＭＩ
アダプター
前述のワークフロー例で記載したアダプター設計に加え、他のアダプター設計を本明細書で開示する方法およびシステムの種々の実施態様において用いることができる。図２Ａは、種々の実施態様で採用することができる、ＵＭＩを有する異なる５つのアダプター設計を図式的に示す。

図２Ａ（ｉ）は、標準的なＩｌｌｕｍｉｎａ社のＴｒｕＳｅｑ（登録商標）デュアルインデックスアダプターを示す。アダプターは部分的に二本鎖であり、該アダプターは２本の鎖に対応する２つのオリゴヌクレオチドをアニールすることにより形成される。２本の鎖は、２つのオリゴヌクレオチドを、ｄｓＤＮＡ断片とライゲーションする末端でアニールすることを可能にする、いくつかの相補的な塩基対（例えば、１２〜１７ｂｐ）を有する。ペアエンドリードの両末端でライゲーションされるｄｓＤＮＡ断片は、インサートともいう。他の塩基対は２本の鎖において相補的ではなく、２つの柔軟なオーバーハングを有する分岐型のアダプターを生じさせる。図２Ａ（ｉ）の例では、相補的塩基対はリード２プライマー配列およびリード１プライマー配列の一部である。リード２プライマー配列の下流は単一ヌクレオチド３’−Ｔオーバーハングであり、これはシーケンシングされるｄｓＤＮＡ断片の単一ヌクレオチド３’−Ａオーバーハングに対し相補的なオーバーハングを提供し、これは該２つのオーバーハングのハイブリッド化を容易にし得る。リード１プライマー配列は相補的鎖の５’末端にあり、これにリン酸基が結合する。リン酸基は、リード１プライマー配列の５’末端の、ＤＮＡ断片の３’−Ａオーバーハングへのライゲーションを容易にする。柔軟な５’オーバーハングを有する鎖（上部鎖）では、５’から３’の方向で、アダプターはＰ５配列、ｉ５インデックス配列、およびリード２プライマー配列を有する。柔軟な３’オーバーハングを有する鎖では、３’から５’の方向で、アダプターはＰ７’配列、ｉ７インデックス配列、およびリード１プライマー配列を有する。Ｐ５オリゴヌクレオチドおよびＰ７’オリゴヌクレオチドは、Ｉｌｌｕｍｉｎａ社のシーケンシングプラットフォームのフローセルの表面に結合した増幅プライマーに対し相補的である。一部の実施態様では、インデックス配列はサンプルのソースのトラックを保持する手段を提供し、それによりシーケンシングプラットフォームにおいて多数のサンプルの多重化が可能になる。

図２Ａ（ｉｉ）は、図２Ａ（ｉ）に示す標準的なデュアルインデックスアダプターのｉ７インデックスの代わりに単一の物理的ＵＭＩを有するアダプターを示す。このアダプター設計は、図１Ｂに関連して前述したワークフロー例に示したものを反映している。ある実施形態では、物理的ＵＭＩαおよびβは、二本鎖アダプターの５’アームのみにあるよう設計され、各鎖に物理的ＵＭＩを１つのみ有するライゲーション産物を生じさせる。比較すると、アダプターの両鎖に組み込まれた物理的ＵＭＩは、核鎖に２つの物理的ＵＭＩを有するライゲーション産物を生じさせ、物理的ＵＭＩのシーケンシングにかかる時間とコストを倍加させる。しかしながら、本開示は、図２Ａ（ｉｉｉ）〜２Ａ（ｖｉ）に描くように、アダプターの両鎖において物理的ＵＭＩを利用する方法を具現化し、これは、異なるリードを折りたたんでコンセンサス配列を得るのに利用することができる追加の情報を提供する。

一部の実施態様において、アダプターの物理的ＵＭＩにはランダムＵＭＩが含まれる。一部の実施態様において、アダプターの物理的ＵＭＩには非ランダムＵＭＩが含まれる。

図２Ａ（ｉｉｉ）は、２つの物理的ＵＭＩが標準的デュアルインデックスアダプターに加えられたアダプターを示す。本明細書で示す物理的ＵＭＩはランダムＵＭＩか、または非ランダムＵＭＩであり得る。第１物理的ＵＭＩは、ｉ７インデックス配列の上流にあり、第２物理的ＵＭＩはｉ５インデックス配列の上流にある。図２Ａ（ｉｖ）は、２つの物理的ＵＭＩが標準的デュアルインデックスアダプターに加えられたアダプターを示す。第１物理的ＵＭＩは、ｉ７インデックス配列の下流にあり、第２物理的ＵＭＩはｉ５インデックス配列の下流にある。同様に、２つの物理的ＵＭＩは、ランダムＵＭＩか、または非ランダムＵＭＩであり得る。

２Ａ（ｉｉｉ）および２Ａ（ｉｖ）に示すような、一本鎖領域の２つのアームに２つの物理的ＵＭＩを有するアダプターは、２つの非相補的物理的ＵＭＩに関連する演繹的または機能的な情報が既知である場合、二本鎖ＤＮＡ断片の２つの鎖に結合させることができる。例えば、研究者は、ＵＭＩ１およびＵＭＩ２の配列を知った後に、それらを図２Ａ（ｉｖ）で示すように設計されたのと同じアダプターに統合することができる。この関連情報を用いて、ＵＭＩ１およびＵＭＩ２を有するリードが、アダプターをライゲーションしたＤＮＡ断片の２本の鎖に由来すると推測することができる。そのため、同じ物理的ＵＭＩを有するリードだけでなく、２つの非相補的な物理的ＵＭＩの何れかを有するリードも折りたたむことができる。興味深いことに、下記に述べるように、「ＵＭＩジャンピング」と呼ばれる現象は、アダプターの一本鎖領域上の物理的ＵＭＩ間の関連の推測を難しくし得る。

図２Ａ（ｉｉｉ）および図２Ａ（ｉｖ）のアダプターの２本の鎖にある２つの物理的ＵＭＩは、同じ部位に位置することも、互いに相補的であることもない。しかしながら、本開示は、アダプターの２本の鎖の同じ部位にある、および／または、互いに相補的である物理的ＵＭＩを利用する方法を具現化する。図２Ａ（ｖ）は、アダプターの末端またはその近くの二本鎖領域において２つの物理的ＵＭＩが相補的である、二重アダプターを示す。一部の実施態様では、アダプターの末端近くの物理的ＵＭＩは、アダプターの二本鎖領域の末端から１ヌクレオチド、２ヌクレオチド、３ヌクレオチド、４ヌクレオチド、５ヌクレオチド、または約１０ヌクレオチド離れ、該末端はアダプターの分岐化領域とは反対の位置にある。２つの物理的ＵＭＩは、ランダムＵＭＩか、または非ランダムＵＭＩであり得る。図２Ａ（ｖｉ）は、図２Ａ（ｖ）のアダプターと似ているが、より短いアダプターを示すが、それには、インデックス配列も、フローセル表面増幅プライマーに対し相補的なＰ５配列およびＰ７’配列も含まれない。同様に、２つの物理的ＵＭＩは、ランダムＵＭＩか、または非ランダムＵＭＩであり得る。

一本鎖アームにおいて１つまたは複数の一本鎖物理的ＵＭＩを有するアダプターと比較し、二本鎖領域に二本鎖物理的ＵＭＩを有するアダプターは、図２Ａ（ｖ）および図２Ａ（ｖｉ）に示すように、アダプターがライゲーションする二本鎖ＤＮＡ断片の二本の鎖の間に直接的な結合を提供し得る。二本鎖物理的ＵＭＩの２本の鎖は互いに相補的であることから、二本鎖ＵＭＩの２本の鎖の間の関連は、相補的な配列により本質的に反映され、該関連は演繹的または帰納的な情報の何れも必要とせずに定められる。この情報を用いて、アダプターの二本鎖物理的ＵＭＩの２つの相補的配列を有するリードが、アダプターがライゲーションしたＤＮＡ断片と同じＤＮＡ断片に由来すると推測することができるが、物理的ＵＭＩの２つの相補的配列は、ＤＮＡ断片の一方の鎖の３’末端およびもう一方の鎖の５’末端にライゲーションする。そのため、２つの末端に同じ順番で２つの物理的ＵＭＩ配列を有するリードだけでなく、２つの末端に逆の順番で２つの相補的配列を有するリードも折りたたむことができる。

一部の実施形態では、短い物理的ＵＭＩはアダプターに組み込むことが容易であることから、比較的短い物理的ＵＭＩを利用することが有利であり得る。さらに、より短いＵＭＩは、増幅断片においてシーケンシングすることがより速く、より容易である。しかしながら、物理的ＵＭＩが非常に短くなると、異なる物理的ＵＭＩの総数が、サンプル処理に必要なアダプター分子の数よりも少なくなる可能性がある。十分なアダプターを提供するには、同一のＵＭＩを２つ以上のアダプター分子で繰り返さなければならないだろう。このようなシナリオでは、同一の物理的ＵＭＩを有するアダプターが、多数のソースＤＮＡ分子にライゲーションされる場合がある。しかしながら、これらの短い物理的ＵＭＩは、仮想ＵＭＩおよび／またはリードのアライメント場所などの他の情報と組み合わせた場合に十分な情報を提供して、リードが特定のソースポリヌクレオチドまたはサンプルのＤＮＡ断片に由来すると特異的に特定することができる。これは、同一の物理的ＵＭＩが２つの異なる断片にライゲーションされる場合があるとしても、２つの異なる断片が同じアライメント位置をたまたま有すること、または、仮想ＵＭＩとして機能する同じマッチングサブ配列を有するは考えられないからである。そのため、２つのリードが同じ短い物理的ＵＭＩおよび同じアライメント場所（または同じ仮想ＵＭＩ）を有する場合は、２つのリードは同じＤＮＡ断片に由来する可能性がある。

さらに、一部の実施態様では、リードの折りたたみはインサートの２つの末端の２つの物理的ＵＭＩに基づく。このような実施態様では、２つの非常に短い物理的ＵＭＩ（例えば、４ｂｐ）を組み合わせてＤＮＡ断片のソースを決定し、２つの物理的ＵＭＩの組み合わせた長さは、異なる断片を区別するのに十分な情報を提供する。

種々の実施態様では、物理的ＵＭＩは約１２塩基対以下、約１１塩基対以下、約１０塩基対以下、約９塩基対以下、約８塩基対以下、約７塩基対以下、約６塩基対以下、約５塩基対以下、約４塩基対以下、または約３塩基対以下である。物理的ＵＭＩが非ランダムＵＭＩである一部の実施態様では、ＵＭＩは約１２塩基対以下、約１１塩基対以下、約１０塩基対以下、約９塩基対以下、約８塩基対以下、約７塩基対以下、または約６塩基対である。

ＵＭＩジャンピングは、図２Ａ（ｉｉ）〜（ｉｖ）のアダプターのように、アダプターの一方のアームまたは両方のアームの物理的ＵＭＩ間の関連の推測に影響を与え得る。これらのアダプターをＤＮＡ断片に適用する場合、増幅産物は、サンプル中の実際の断片数よりも多くの特異的な物理的ＵＭＩを有する断片を含み得ることが観察されてきた。

さらに、両アームに物理的ＵＭＩを有するアダプターを適用する場合、共通の物理的ＵＭＩを一方の末端に有する増幅断片は、もう一方の末端に別の共通の物理的ＵＭＩを有すると考えられる。しかしながら、時にそうではない場合がある。例えば、一増幅反応の反応産物において、一部の断片がその２つの末端に第１物理的ＵＭＩと第２物理的ＵＭＩを有し；他の断片が第２物理的ＵＭＩと第３物理的ＵＭＩを有し；さらに他の断片が第１物理的ＵＭＩと第３物理的ＵＭＩを有し；さら他の断片が第３物理的ＵＭＩと第４物理的ＵＭＩを有する場合などがある。この例では、これらの増幅断片のソース断片を確認するのは難しい場合がある。外見上、増幅プロセス中、物理的ＵＭＩは別の物理的ＵＭＩにより「スワップアウト」させられた場合もある。

このＵＭＩジャンピング問題に対処するための考えられる１つのアプローチでは、両方のＵＭＩを共有する断片のみが同じソース分子に由来すると考える一方、ＵＭＩを１つのみ共有する断片は分析から除外されるだろう。しかしながら、物理的ＵＭＩを１つのみ共有するこれらの断片の一部は、実際には、両方の物理的ＵＭＩを共有する断片と同じ分子に由来する場合がある。物理的ＵＭＩを１つのみ共有する断片を考察から除外することにより、有用な情報が失われる場合がある。考えられる別のアプローチでは、１つの共通の物理的ＵＭＩを有する任意の断片を同じソース分子に由来すると考える。しかし、このアプローチでは、断片の２つの末端にある２つの物理的ＵＭＩを下流の分析のために組み合わせることはできない。さらに、上記の例では、いずれのアプローチ下でも、第１物理的ＵＭＩおよび第２物理的ＵＭＩを共有する断片は、第３物理的ＵＭＩおよび第４物理的ＵＭＩを共有する断片と同じソース分子に由来するとは考えられないだろう。これは正しい場合もそうでない場合もある。第３のアプローチは、図２Ａ（ｖ）〜（ｖｉ）のアダプターのような、一本鎖領域の両鎖に物理的ＵＭＩを有するアダプターを用いることにより、ＵＭＩジャンピング問題に対処することができる。第３アプローチについては、ＵＭＩジャンピングの背後にある仮定のメカニズムについて記載した後で、以下で説明する。

図２Ｂは、２つの物理的ＵＭＩを２つのアームに有するアダプターが関係するＰＣＲ反応においてＵＭＩジャンピングが起きるという、仮定のプロセスを示す。２つの物理的ＵＭＩは、ランダムＵＭＩか、または非ランダムＵＭＩであり得る。ＵＭＩジャンピングの背後にある実際のメカニズムおよび本明細書に記載する仮定のプロセスは、本明細書に開示するアダプターおよび方法の有用性に影響を与えない。ＰＣＲ反応は、少なくとも１つの二本鎖ソースＤＮＡ断片２０２ならびにアダプター２０４および２０６を提供することにより始まる。アダプター２０４および２０６は、図２Ａ（ｉｉｉ）〜（ｉｖ）に示すアダプターに類似している。アダプター２０４は、その５’アームにＰ５アダプター配列とα１物理的ＵＭＩを有する。アダプター２０４は、また、その３’アームにＰ７’アダプター配列とα２物理的ＵＭＩを有する。アダプター２０６は、その５’アームにＰ５アダプター配列とβ２物理的ＵＭＩを有し、その３’アームにＰ７’アダプター配列とβ１物理的ＵＭＩを有する。プロセスは、アダプター２０４およびアダプター２０６を断片２０２にライゲーションし、ライゲーション産物２０８を得ることにより進行する。プロセスは、ライゲーション産物２０８を変性し、一本鎖変性断片２１２を生じさせることにより進行する。一方、反応混合物にはしばしば、この段階では残基アダプターが含まれる。プロセスにすでに、ＳＰＲＩ（ＳｏｌｉｄＰｈａｓｅＲｅｖｅｒｓｉｂｌｅＩｍｍｏｂｉｌｉｚａｔｉｏｎ）ビーズを用いるなどして過剰なアダプターを取り除くことが含まれているとしても、一部のアダプターは反応混合物になお残るためである。このような残りのアダプターはアダプター２１０として描かれ、これは、アダプター２１０がその３’アームおよび７’アームそれぞれに物理的ＵＭＩγ１およびγ２を有することを除き、アダプター２０６に似ている。変性断片２１２を生成する変性条件は、また、そのＰ７’アダプター配列の近くに物理的ＵＭＩγ１を有する変性アダプターオリゴヌクレオチド２１６を生成する。

ＰＣＲ反応には、変性断片２１２にＰＣＲプライマー２１４をプライミングすることと、プライマー２１４を伸長することにより二本鎖断片を形成し、これを次に変性して、断片２１２に対し相補的な一本鎖の中間体断片２２０を形成することが含まれる。ＰＣＲプロセスには、また、変性オリゴヌクレオチド２１６にＰＣＲプライマー２１８をプライミングすることと、プライマー２１８を伸長させることにより二本鎖断片を形成し、これを次に変性して、断片２１２に対し相補的な一本鎖の中間体アダプターオリゴヌクレオチド２２２を形成することが含まれる。中間体アダプターオリゴヌクレオチド２２２を、ＰＣＲ増幅の次のサイクルの前に、Ｐ７’末端近くおよび物理的ＵＭＩβ１の下流で断片２２０にハイブリダイズする。ハイブリダイズ領域は、アダプター２０６とアダプター２１０の一本鎖領域に対応する。これは、これらの一本鎖領域が同じ配列を共有するからである。

中間体断片２２０および中間体アダプターオリゴヌクレオチド２２２のハイブリダイズ産物は鋳型を提供し、これは次にオリゴヌクレオチド２２２の５’末端のＰ７’ＰＣＲプライマー２２４によりプライミングし、伸長させることが可能である。伸長中、中間体アダプターオリゴヌクレオチド２２２が終了した場合、伸長鋳型は中間体断片２２０にスイッチ（ｓｗｉｔｃｈ）する。スイッチ鋳型は、ＵＭＩジャンピングについて想定されるメカニズムを提供する。伸長と変性の後、一本鎖断片２２６が生成され、これは中間体断片２２０と相補的だが、中間体断片２２０の物理的ＵＭＩβ１の代わりに物理的ＵＭＩγ１を有する。同様に、一本鎖断片２２６は、物理的ＵＭＩβ１の代わりに物理的ＵＭＩγ１を有することを除いては、断片２１２と同じである。

本開示の一部の実施態様では、図２Ａ（ｖ）〜（ｖｉ）のアダプターなど、アダプターの二本鎖領域の両鎖において物理的ＵＭＩを有するアダプターを用いることにより、ＵＭＩジャンピングを防ぐまたは減少させることができる。これは、二本鎖領域の１つのアダプター上の物理的ＵＭＩが、他の全てのアダプターの物理的ＵＭＩとは異なる事実に起因するものであり得る。これは、中間体アダプターオリゴヌクレオチドと中間体断片の間の相補性を低減させることにより、中間体オリゴヌクレオチド２２２と中間体断片２２０で見られるようなハイブリダイズを回避し、それによりＵＭＩジャンピングを低減させるまたは防ぐことに役立つ。

ランダムな物理的ＵＭＩおよび非ランダムな物理的ＵＭＩ
前述のアダプターの一部の実施態様において、アダプターの物理的ＵＭＩにはランダムＵＭＩが含まれる。一部の実施態様では、各ランダムＵＭＩは、ＤＮＡ断片に適用される他のどのランダムＵＭＩと異なる。言い換えると、ランダムＵＭＩは、配列長を与えられた全ての可能性ある異なるＵＭＩを含むＵＭＩの組から交換なしにランダムに選択される。他の実施態様では、ランダムＵＭＩは交換ありでランダムに選択される。これらの実施態様では、２つのアダプターは偶然により同じＵＭＩを有する場合がある。

一部の実施態様において、アダプターの物理的ＵＭＩには非ランダムＵＭＩが含まれる。一部の実施態様では、多数のアダプターに同じ非ランダムＵＭＩ配列が含まれる。例えば、９６個の異なる非ランダムＵＭＩの組は、サンプルの１００，０００個の別個の分子／断片に適用され得る。一部の実施態様では、組の各非ランダムＵＭＩは、該組の他のどのＵＭＩとも２ヌクレオチド分異なる。言い換えると、各非ランダムＵＭＩは、そのヌクレオチドの少なくとも２つを、シーケンシングにおいて用いる任意の他の非ランダムＵＭＩの配列とマッチングさせる前に交換する必要がある。他の実施態様では、組の各非ランダムＵＭＩは、該組の他のどのＵＭＩとも３ヌクレオチド以上異なる。

図２Ｃは、二本鎖領域のアダプターの両鎖においてランダムＵＭＩを有するアダプターを作成するプロセスを示し、２本の鎖の２つのアダプターは互いに相補的である。プロセスは、ハイブリッド二本鎖領域および２つの一本鎖アームを有するシーケンシングアダプター２３０を提供することにより始まる。結果として生じるアダプターは、図２Ａ（ｖ）に示すものに似ている。本明細書で示す例では、Ｄ７ＸＸ配列は、図２Ａ（ｖ）のｉ７インデックス配列に相当し；ＳＢＳ１２’配列は、図２Ａ（ｖ）のリード１プライマー配列に相当し；Ｄ５０Ｘは、図２Ａ（ｖ）のｉ５インデックス配列に相当し；ＳＢＳ３は図２（ｖ）のリード２プライマー配列に相当する。シーケンシングアダプター２３２のＳＢＳ１２’リードプライマー配列の上流の二本鎖ハイブリッド領域の末端には、１５−ｍｅｒオーバーハングＣＣＡＮＮＮＮＡＮＮＮＮＴＧＧ（ＳＥＱＩＤＮＯ：１）が含まれる。文字Ｎはランダムヌクレオチドを表し、ＡとＴＧＧの間の４つのＮは、ＳＢＳ１２’鎖の５’末端に物理的ＵＭＩを提供するために用いられるだろう。１５−ｍｅｒオーバーハングは、制限酵素Ｘｃｍ１により認識される。これは、Ｘｃｍ１が、５’末端にＣＣＡを、３’末端にＴＧＧを有する１５−ｍｅｒを認識するためである。プロセス２３０は次に、伸長鋳型として１５−ｍｅｒを用いてＳＰＳ３鎖の３’末端を伸長することにより、伸長産物２３４を生成することに進む。伸長産物２３４は、ＳＢＳ１２’鎖のアデノシンに相当するＳＢＳ３鎖の１５−ｍｅｒの中心点でチロシンを有する。チロシン残基は、プロセス２３０のアダプター末端産物の二本鎖領域の３’末端の残基になろう。チロシン残基は、インサートの３’Ａ−テールのアデノシン残基にハイブリダイズすることが可能である。

プロセス２３０は、制限酵素Ｘｃｍ１を適用して、伸長産物２３４の新たに伸長させた末端を消化することにより進む。Ｘｃｍ１は、５’末端にＣＣＡを、３’末端にＴＧＧを有する１５−ｍｅｒを認識する制限エンドヌクレアーゼであり、そのホスホジエステラーゼの活性は、ＣＡＡ５’末端から数えて８番目と９番目のヌクレオチドの間をホスホジエステル結合を切断することにより核酸鎖を消化する。この消化メカニズムは、ＳＢＳ１２’のアデノシン残基のすぐ下流およびＳＢＳ３鎖のチロシン残基の下流の伸長産物２３４の二本鎖末端を消化する。消化は、ＳＢＳ１２’配列の上流の二本鎖領域の５’末端において４つのランダムヌクレオチドを有するアダプター２３６を生じさせる。アダプター２３６は、また、ＳＢＳ３配列の下流の二本鎖領域の３’末端にチロシンオーバーハングと４つのランダムヌクレオチドを有する。各鎖の４つのランダムヌクレオチドは物理的ＵＭＩを提供し、２本の鎖の２つの物理的ＵＭＩは互いに相補的である。

図２Ｄは、ＳＢＳ１３アーム上部鎖（ＳＥＱＩＤＮＯ：２）とＳＢＳ３アーム下部鎖（ＳＥＱＩＤＮＯ：３）を有するアダプターの図を示し、アダプターのヌクレオチドを示す。アダプターは、図２Ｃのアダプター２３６に似ているが、それはＸｃｍ１という認識部位とアダプターのリード配列の間に４つの塩基対を有する。また、図２Ｄに示すアダプターは、アダプターのＰ７／Ｐ５およびインデックス配列を排除したアダプター２３６の短縮バージョンであり、これはアダプターの安定性を高める。５’末端から始まる、アダプターの二本鎖領域の上部鎖（ＳＥＱＩＤＮＯ：２）では、アダプターは、物理的ＵＭＩの４つのランダムヌクレオチド、次に制限酵素Ｘｃｍ１用の認識部位であるＴＧＧ、次にリード配列の上流にＴＣＧＣを有する。ＴＣＧＣヌクレオチドは、アダプターに安定性をもたらすために組み込む。それらは一部の実施態様ではオプションである。

ヌクレオチドを追加して、アダプター産生、サンプル調製、および処理に安定性をもたらすことができる。初期のアダプター鋳型を作成する上部オリゴおよび下部オリゴのアニーリングの効率性が、室温でも追加のＴＣＧＣ塩基を追加すると高まることが観察されている。アダプター産生中のクレノウ伸長およびＸｃｍ１消化は、高温（それぞれ３０℃および３７℃）で実行されるためＴＣＧＣの追加はアダプターの安定性を高め得る。ＴＣＧＣに加えて、異なる配列または様々なヌクレオチド長を用いてアダプターの安定性を高めることが可能である。

一部の実施態様では、ＤＮＡ断片に特異的なインデックスを提供するというアダプターの機能に影響を与えることなく、配列を安定させる以外の他の目的のために追加の配列をアダプターに組み込むことができる。二本鎖領域のアダプターの下部鎖（ＳＥＱＩＤＮＯ：３）は、それが３’末端でＴオーバーハングを含むことを除き、上部鎖に対し相補的である。下部鎖の４つのランダムヌクレオチドは、第２物理的ＵＭＩを提供する。

図２Ｃおよび２Ｄに示すようなランダムＵＭＩは、同じ配列長の非ランダムＵＭＩよりも多くの特異的ＵＭＩを提供する。言い換えれば、ランダムＵＭＩは、非ランダムＵＭＩより特異的である可能性が高い。しかしながら、一部の実施態様では、非ランダムＵＭＩは製造するのがより容易であるか、または、変換効率がより高い。非ランダムＵＭＩを配列位置などの他の情報および仮想ＵＭＩと組み合わせる場合、非ランダムＵＭＩは、ＤＮＡ断片のソース分子にインデックスを付ける効率的なメカニズムを提供し得る。

種々の実施態様では、非ランダムＵＭＩは、限定するわけではないが、ＵＭＩ配列内のエラーを検出する手段、変換効率、アッセイ適合性、ＧＣ含量、ホモポリマー、および製造配慮事項を含む種々の要素を考慮して特定される。

例えば、非ランダムＵＭＩは、エラー検出を容易にするメカニズムを提供するように設計することができる。図２Ｅは、配列決定プロセス中にＵＭＩ配列中で起きるエラーを検出するメカニズムを提供する、非ランダムＵＭＩ設計を図式的に示す。この設計によると、非ランダムＵＭＩはそれぞれ６個のヌクレオチドを有し、他のどのＵＭＩとも少なくとも２ヌクレオチド分異なる。図２Ｅに示すように、非ランダムＵＭＩ２４４は、下線を引いたＵＭＩ２４４のヌクレオチドＴおよびＧならびにＵＭＩ２４２のヌクレオチドＡおよびＣに示されるように、左から最初の２ヌクレオチドにおいて、非ランダムＵＭＩ２４２とは異なる。ＵＭＩ２４６は、リードの一部として特定される配列であり、それはプロセスにおいて提供される他の全てのアダプターのＵＭＩとは異なる。リードのＵＭＩ配列は、アダプターのＵＭＩにおそらく由来するため、エラーは、増幅またはシーケンシングの間など、シーケンシングプロセス中に起きた可能性が高い。ＵＭＩ２４２およびＵＭＩ２４４は、リード中のＵＭＩ２４６に最も似た２つのＵＭＩとして描かれる。ＵＭＩ２４６は左から最初のヌクレオチドがＡではなくＴであり、１ヌクレオチド分ＵＭＩ２４２とは異なることが分かる。さらに、ＵＭＩ２４６はまた、左から２番目のヌクレオチドもＧではなくＣであり、１ヌクレオチド分ＵＭＩ２４４とは異なる。リードのＵＭＩ２４６はＵＭＩ２４２とＵＭＩ２４４の両方と１ヌクレオチド分異なるため、例示の情報からでは、ＵＭＩ２４６がＵＭＩ２４２またはＵＭＩ２４４に由来するか否かを決定することはできない。しかしながら、他の多くのシナリオでは、リード中のＵＭＩエラーは、２つの最も似たＵＭＩと等しく異なるわけではない。ＵＭＩ２４８の例で示されるように、ＵＭＩ２４２およびＵＭＩ２４４はまた、ＵＭＩ２４８に最も似た２つのＵＭＩである。ＵＭＩ２４８は、左から３番目のヌクレオチドがＴではなくＡであり、１ヌクレオチド分ＵＭＩ２４２とは異なることが分かる。対照的に、ＵＭＩ２４８はＵＭＩ２４４と３ヌクレオチド分異なる。そのため、ＵＭＩ２４８がＵＭＩ２４４ではなくＵＭＩ２４２に由来し、エラーは左から３番目のヌクレオチドで起きた可能性が高いと判断することはできない。

仮想ＵＭＩ
仮想ＵＭＩを見ると、ソースＤＮＡ分子の末端位置で、またはソースＤＮＡ分子の末端位置に関して定義される仮想ＵＭＩは、末端位置の場所が一部の断片および天然に存在するｃｆＤＮＡと同様に遺伝子的にランダムである場合、特異的またはほぼ特異的に個別のソースＤＮＡ分子を定義することが可能である。サンプルが比較的少ないソースＤＮＡ分子を含有する場合、仮想ＵＭＩ自体で個々のソースＤＮＡ分子を特定することが可能である。それぞれがソースＤＮＡ分子の異なる末端に関連する２つの仮想ＵＭＩの組み合わせを用いると、仮想ＵＭＩだけでソースＤＮＡ分子を特異的に特定できる可能性が高まる。当然、１つまたは２つの仮想ＵＭＩだけではソースＤＮＡ分子を特異的に特定することができない場合であっても、このような仮想ＵＭＩと１つまたは複数の物理的ＵＭＩの組み合わせは成功する場合がある。

２つのリードが同じＤＮＡ断片に由来する場合、同じ塩基対を有する２つのサブ配列のリードにおける相対的場所も同じであろう。対称的に、２つのリードが２つの異なるＤＮＡ断片に由来する場合、同じ塩基対を有する２つのサブ配列のリードにおける相対的場所が厳密に同じである可能性は低い。そのため、２つ以上のリードに由来する２つ以上のサブ配列が同じ塩基対を有し、その２つ以上のリードにおける相対的場所が同じである場合、その２つ以上のリードが同じ断片に由来すると推測することが可能である。

一部の実施態様では、ＤＮＡ断片の末端またはその近くのサブ配列を、仮想ＵＭＩとして用いる。この設計選択にはいくつかの実用面での利点がある。まず、リードにおけるこれらのサブ配列の相対的場所は、それがリードの始端かまたはその近くにあり、システムが仮想ＵＭＩを見つけるのにオフセットを用いる必要がないことから、簡単に確認される。さらに、断片の末端の塩基対を最初にシーケンシングするため、その塩基対はリードが比較的短くても利用可能である。さらに、長いリードにおいて先に求められる塩基対は、後で求める塩基対よりもシーケンシングエラー率が低い。しかしながら、他の実施態様では、リードの末端から離れて位置するサブ配列を仮想ＵＭＩとして用いることが可能だが、リードが同じ断片から得られたと推測するには、そのリードにおける相対位置を確かめる必要がある場合がある。

リードの１つまたは複数のサブ配列を仮想ＵＭＩとして用いることができる。一部の実施態様では、ソースＤＮＡ分子の異なる末端からそれぞれ追跡される２つのサブ配列を仮想ＵＭＩとして用いる。種々の実施態様では、仮想ＵＭＩは約２４塩基対以下、約２０塩基対以下、約１５塩基対以下、約１０塩基対以下、約９塩基対以下、約８塩基対以下、約７塩基対以下、または約６塩基対以下である。一部の実施態様では、仮想ＵＭＩは約６〜１０塩基対である。他の実施態様では、仮想ＵＭＩは約６〜２４塩基対である。

リードの折りたたみとコンセンサス配列の獲得
ＵＭＩを用いる種々の実施態様では、同じＵＭＩを有する多数の配列リードを折りたたんで１つまたは複数のコンセンサス配列を得て、これを次に、ソースＤＮＡ分子の配列を決定するために用いる。多数の別個のリードは、同じソースＤＮＡ分子の別個の事例から生成させることができ、これらのリードを比較して、本明細書に記載のコンセンサス配列を作る。事例は、シーケンシング前にソースＤＮＡ分子を増幅することにより生成することができ、その結果、それぞれがソースＤＮＡ分子の配列を共有する別個の増幅産物において別個のシーケンシング操作が実行される。当然、増幅はエラーを引き起こし得、その結果別個の増幅産物の配列に差が生じる。Ｉｌｌｕｍｉｎａ社のシーケンシング・バイ・シンセシスなどの一部のシーケンシング技術の文脈では、ソースＤＮＡ分子またはその増幅産物は、フローセル領域に結合したＤＮＡ分子のクラスタを形成する。クラスタの分子は集合体としてリードを提供する。典型的には、少なくとも２つのリードがコンセンサス配列を提供するのに必要である。１００、１０００、および１０，０００というシーケンシング深度が、低い対立遺伝子頻度（例えば、約１％以下）向けにコンセンサスリードを作成する開示の実施形態において有用な、シーケンシング深度の例である。

一部の実施態様では、ＵＭＩまたはＵＭＩの組み合わせを共有しているリードの１００％で一致しているヌクレオチドが、コンセンサス配列に含まれる。他の実施態様では、コンセンサスの基準は１００％未満であり得る。例えば、９０％コンセンサス基準を用いることができるが、これは、グループのリードの９０％以上に存在する塩基対が、コンセンサス配列に含まれることを意味する。種々の実施態様では、コンセンサス基準は、約３０％、約４０％、約５０％、約６０％、約７０％、約８０％、約９０％、約９５％、約１００％に設定することができる。

物理的ＵＭＩおよび仮想ＵＭＩによる折りたたみ
多数の技法を用いて、多数のＵＭＩを含むリードを折りたたむことができる。一部の実施態様では、共通の物理的ＵＭＩを共有するリードを折りたたんで、コンセンサス配列を得ることが可能である。一部の実施態様では、共通の物理的ＵＭＩがランダムＵＭＩである場合、該ランダムＵＭＩは、サンプル中のＤＮＡ断片の特定のソース分子を特定するのに十分なほど特異的であり得る。他の実施態様では、共通の物理的ＵＭＩが非ランダムＵＭＩである場合、該ＵＭＩはそれだけで特定のソース分子を特定するのに十分なほど特異的ではない場合がある。何れの場合でも、物理的ＵＭＩを仮想ＵＭＩと組み合わせてソース分子のインデックスを提供することができる。

図１Ｂ、図３Ａ、および図４に描く前述のワークフロー例では、一部のリードにα−ρ−φＵＭＩが含まれる一方、他のリードにはβ−φ−ρＵＭＩを含む。物理的ＵＭＩαはαを有するリードを生成する。ワークフローで用いられる全てのアダプターが異なる物理的ＵＭＩ（例えば、異なるランダムＵＭＩ）を有する場合、アダプター領域にαを有するリードは全て、ＤＮＡ断片の同じ鎖に由来する可能性が高い。同様に、物理的ＵＭＩβはβを有するリードを生成し、これは全て、ＤＮＡ断片の同じ相補的鎖に由来する可能性が高い。そのため、αを含む全てのリードを折りたたんで１つのコンセンサス配列を得ることと、βを含む全てのリードを折りたたんで別のコンセンサス配列を得ることが有用である。これを、図４Ｂ〜４Ｃにおいて第１レベル折りたたみとして図示する。グループの全てのリードがサンプルの同じソースポリヌクレオチドに由来するため、コンセンサス配列に含まれる塩基対は、ソースポリヌクレオチドの真の配列を反映する可能性が高い一方、コンセンサス配列から除外される塩基対は、ワークフローで生じた変異またはエラーを反映する可能性が高い。

加えて、仮想ＵＭＩρおよびφは、一方または両方の仮想ＵＭＩを含むリードが同じソースＤＮＡ断片に由来していると判断するための情報を提供し得る。仮想ＵＭＩρおよびφはソースＤＮＡ断片に内在することから、仮想ＵＭＩの利用は、実際には、調製またはシーケンシングに諸経費を追加することはない。物理的ＵＭＩの配列をリードから得た後、リードの１つまたは複数のサブ配列を仮想ＵＭＩと決めることができる。仮想ＵＭＩには十分な塩基対が含まれ、該仮想ＵＭＩのリード上の相対的場所が同じである場合、該仮想ＵＭＩにより、リードがソースＤＮＡ断片に由来していると特異的に特定することが可能である。そのため、仮想ＵＭＩρおよびφの一方または両方を有するリードを折りたたんで、コンセンサス配列を得ることができる。図３Ａおよび図４Ａ〜４Ｃに示すように、物理的ＵＭＩが１つのみ各鎖の第１レベルのコンセンサス配列に割り当てられている場合、仮想ＵＭＩおよび物理的ＵＭＩの組み合わせが、第２レベル折りたたみを導く情報を提供し得る。しかしながら、一部の実施形態では、この仮想ＵＭＩを用いた第２レベル折りたたみは、インプットＤＮＡ分子が過剰にあるか、または断片化がランダムでない場合、難しい場合がある。

代替の実施形態では、図３Ｂ、図４Ｄ、および図４Ｅで示すように、両末端に２つの物理的ＵＭＩを有するリードは、物理的ＵＭＩと仮想ＵＭＩの組み合わせに基づき、第２レベル折りたたみにおいて折りたたむことができる。これは特に、物理的ＵＭＩが短すぎて、仮想ＵＭＩなしではソースＤＮＡ断片を特異的に特定できない場合に有用である。これらの実施形態において、第２レベル折りたたみは、図３Ｂに示すように物理的な二重ＵＭＩを用いて、同じＤＮＡ分子に由来するα−ρ−φ−βコンセンサスリードと、β−φ−ρ−αコンセンサスリードを折りたたむことにより、全リード間で一致しているヌクレオチドを含むコンセンサス配列を得ることにより、実行することができる。

本明細書に記載のＵＭＩおよび折りたたみスキームを用いると、種々の実施形態は、断片に対立遺伝子頻度が非常に低い対立遺伝子が含まれるとしても、断片の決定配列に影響を与える種々のエラーソースを抑制し得る。同じＵＭＩ（物理的および／または仮想）を共有するリードは、一緒にグループ化される。グループ化されたリードを折りたたむことにより、ＰＣＲ、ライブラリ調製、クラスタ化、およびシーケンシングエラーが原因のバリアント（ＳＮＶおよび小インデル）を排除することが可能である。図４Ａ〜４Ｅは、ワークフロー例で開示する方法が、二本鎖ＤＮＡ断片の配列を決定する際の種々のエラーソースを如何に抑制するかを示す。図示するリードには、図３Ａおよび図４Ａ〜４Ｃではα−ρ−φＵＭＩまたはβ−φ−ρＵＭＩが含まれ、図３Ｂ、図４Ｄ、および図４Ｅではα−ρ−φ−βまたはβ−φ−ρ−αＵＭＩが含まれる。αＵＭＩおよびβＵＭＩは、図３Ａおよび図４Ａ〜４Ｃでは一重物理的ＵＭＩである。αＵＭＩおよびβＵＭＩは図３Ｂ、図４Ｄ、および図４Ｅでは二重ＵＭＩである。仮想ＵＭＩρおよびφは、ＤＮＡ断片の末端に位置する。

図４Ａ〜４Ｃに示すような一重物理的ＵＭＩを用いる方法は、まず、第１レベル折りたたみとして図示される、同じ物理的ＵＭＩαまたはＵＭＩβを有するリードを折りたたむステップを含む。第１レベル折りたたみでは、物理的ＵＭＩαを有するリードであって、二本鎖断片の一方の鎖に由来するリードの場合は、αコンセンサス配列を得る。第１レベル折りたたみでは、また、物理的ＵＭＩβを有するリードであって、二本鎖断片の別の鎖に由来するリードの場合は、βコンセンサス配列を得る。前記方法は、第２レベル折りたたみにおいて、αコンセンサス配列およびβコンセンサス配列から第３コンセンサス配列を得る。第３コンセンサス配列は、同一の二重仮想ＵＭＩρおよびφを有するリードであって、ソース断片の２本の相補的鎖に由来するリードのコンセンサス塩基対を反映する。最後に、二本鎖ＤＮＡ断片の配列を、第３コンセンサス配列として決定する。

図４Ｄ〜４Ｅに示すような二重物理的ＵＭＩを用いる方法は、まず、第１レベル折りたたみとして図示される、ＵＭＩαおよびＵＭＩβを５’−３’の方向にα→βの順で有するリードを折りたたむステップを含む。第１レベル折りたたみでは、物理的ＵＭＩαおよびＵＭＩβを有するリードであって、二本鎖断片の第１鎖に由来するリードの場合は、α−βコンセンサス配列を得る。第１レベル折りたたみでは、また、物理的ＵＭＩβおよび物理的ＵＭＩαを５’−３’の方向にβ→αの順で有するリードであって、二本鎖断片の第１鎖に相補的な第２鎖に由来するリードの場合は、β−αコンセンサス配列を得る。第２レベル折りたたみで、前記方法は、α−βコンセンサス配列およびβ−αコンセンサス配列から第３コンセンサス配列を得る。第３コンセンサス配列は、同一の二重仮想ＵＭＩρおよびφを有するリードであって、断片の２本の鎖に由来するリードのコンセンサス塩基対を反映する。最後に、二本鎖ＤＮＡ断片の配列を、第３コンセンサス配列として決定する。

図４Ａは、第１レベル折りたたみが如何にシーケンシングエラーを抑制し得るかを示す。シーケンシングエラーはサンプルおよびライブラリの調製（例えば、ＰＣＲ増幅）後に、シーケンシングプラットフォームで起きる。シーケンシングエラーは、種々の誤った塩基を種々のリードに導入する場合がある。真陽性塩基を正体文字で示し、一方、偽陽性塩基を斜体で示す。α−ρ−φファミリーの異なるリードの誤ったポジティブヌクレオチドは、αコンセンサス配列から除外されている。α−ρ−φファミリーリードの左末端に示す真陽性ヌクレオチド「Ａ」は、αコンセンサス配列では維持される。同様に、β−φ−ρファミリーの異なるリードの偽陽性ヌクレオチドは、正しいポジティブヌクレオチド「Ａ」を維持するβコンセンサス配列からは除外される。本明細書で示すように、第１レベル折りたたみは、シーケンシングエラーを効果的に取り除くことが可能である。図４Ａは、また、仮想ＵＭＩρおよびφに依存する、オプションの第２レベル折りたたみを示す。この第２レベル折りたたみは、さらに、上記で説明したようにエラーを抑制し得るが、このようなエラーは図４Ａには示さない。

ＰＣＲエラーは、クラスタ化増幅の前に起きる。そのため、ＰＣＲプロセスにより一本鎖ＤＮＡに導入された１つの誤った塩基対は、クラスタ化増幅中に増幅され得ることにより多数のクラスタおよびリードに現れる。図４Ｂおよび図４Ｄに示すように、ＰＣＲエラーにより導入された偽陽性塩基対は、多くのリードに現れ得る。α−ρ−φ（図４Ｂ）またはα−β（図４Ｄ）のファミリーリードの「Ｔ」塩基およびβ−φ−ρ（図４Ｂ）またはβ−α（図４Ｄ）のファミリーリードの「Ｃ」塩基が、このようなＰＣＲエラーである。対称的に、図４Ａに示すシーケンシングエラーは、同じファミリーの１つまたは少数のリードに現れる。ＰＣＲシーケンシングエラーは、ファミリーの多くのリードに現れることから、鎖のリードの第１レベル折りたたみでは、該第１レベル折りたたみによりシーケンシングエラーが取り除かれるとしても、ＰＣＲエラーは取り除かれない。（例えば、ＧおよびＡは図４Ｂではα−ρ−φファミリーから、図４Ｄではα−βファミリーから取り除かれる）。しかしながら、ＰＣＲエラーは一本鎖ＤＮＡでは挿入されないため、ソース断片の相補的鎖およびそれに由来するリードは、通常、同じＰＣＲエラーは有さない。そのため、ソース断片の２本の鎖に由来するリードに基づく第２レベル折りたたみにより、図４Ｂおよび４Ｄの下部に示すように、ＰＣＲエラーを効果的に取り除くことが可能である。

一部のシーケンシングプラットフォームでは、ホモポリマーエラーが生じて、小インデルエラーが、単一ヌクレオチドを繰り返すホモポリマーに導入される。図４Ｃおよび図４Ｅは、本明細書に記載の方法を用いたホモポリマーエラーの補正を示す。α−ρ−φ（図４Ｃ）またはα−ρ−φ−β（図４Ｅ）のファミリーリードでは、２つの「Ｔ」ヌクレオチドが上から２つ目のリードから欠失しており、１つの「Ｔ」ヌクレオチドが上から３つ目のリードから欠失している。β−φ−ρ（図４Ｃ）またはβ−φ−ρ−α（図４Ｅ）のファミリーリードでは、１つの「Ａ」ヌクレオチドが上から１つ目のリードに挿入されている。図４Ａに示すシーケンシングエラーのように、ホモポリマーエラーはＰＣＲ増幅後に起きるため、異なるリードが異なるホモポリマーエラーを有する。結果として、第１レベル折りたたみは、効果的にインデルエラーを取り除くことが可能である。

コンセンサス配列は、１つまたは複数の共通の非ランダムＵＭＩと１つまたは複数の共通の仮想ＵＭＩを有するリードを折りたたむことによって得ることができる。さらに、位置情報も、以下に述べるようにコンセンサス配列を得るのに用いることができる。

位置による折りたたみ
一部の実施態様では、リードを処理して参照配列に整列させ、参照配列におけるリードのアライメント位置を決める（位置測定）。しかしながら、上記に示さない一部の実施態様では、位置測定は、ｋ−ｍｅｒ類似性分析およびリード−リードアライメントにより達成される。この第２実施態様には２つの利点がある：第１に、それはハロタイプの違いまたは転座が原因で参照にマッチしないリードも折りたたむことが可能であること（エラー補正）、第２に、アライナアルゴリズムに依存しないことにより、アライナが引き起こす人工物（アライナにおけるエラー）の可能性が取り除かれることである。一部の実施態様では、同じ位置測定情報を共有するリードを折りたたんで、ソースＤＮＡ断片の配列を決定するためのコンセンサス配列を得ることができる。一部の文脈では、アライメントプロセスはマッピングプロセスともいう。配列リードをアライメントプロセスにかけて、参照配列にマッピングする。種々のアライメントツールおよびアルゴリズムを用いて、本開示のどこか他で記載するように、リードを参照配列に整列させることができる。通常のように、アライメントアルゴリズムにおいて、一部のリードは上手く参照配列に整列する一方、他は参照配列に上手く整列しない、または参照配列への整列が不完全である場合がある。参照配列に上手く整列するリードは、参照配列の部位に関連する。整列させたリードおよびその関連部位は、配列タグともいう。多数の繰り返しを含有する一部の配列リードは、参照配列に整列させることがより難しい傾向がある。リードを、ある基準を超える数のミスマッチ塩基を有する参照配列に整列させる場合、リードは上手く整列しないと考えられる。種々の実施形態では、リードが少なくとも約１、２、３、４、５、６、７、８、９、または１０個のミスマッチと整列させる場合、該リードは上手く整列しないと考えられる。他の実施形態では、リードを少なくとも約５％のミスマッチと整列させる場合、該リードは上手く整列しないと考えられる。他の実施形態では、リードを少なくとも約１０％、１５％、または２０％のミスマッチ塩基と整列させる場合、該リードは上手く整列しないと考えられる。

一部の実施態様において、開示する方法は、位置情報と物理的ＵＭＩ情報を組み合わせて、ＤＮＡ断片のソース分子にインデックスを付ける。同一のリード位置および同一の非ランダムまたはランダムな物理的ＵＭＩを共有する配列リードを折りたたんで、断片配列またはその一部を決定するためのコンセンサス配列を得る。一部の実施態様では、同一のリード位置、同一の非ランダム物理的ＵＭＩ、およびランダム物理的ＵＭＩを共有するリードを折りたたんで、コンセンサス配列を得ることが可能である。このような実施態様では、アダプターは、非ランダム物理的ＵＭＩとランダム物理的ＵＭＩの両方を含み得る。一部の実施態様では、同一のリード位置および同一の仮想ＵＭＩを共有するリードを折りたたんで、コンセンサス配列を得ることが可能である。

リードの位置情報は、様々な技法によって得ることができる。例えば、一部の実施態様では、ゲノム座標を用いてリード位置情報を提供することができる。一部の実施態様では、リードが整列する参照配列上の位置を用いて、リード位置情報を提供することができる。例えば、染色体におけるリードの開始位置および停止位置を用いて、リード位置情報を提供することができる。一部の実施態様では、リード位置は、それが同一の位置情報を有する場合、同じだと考えられる。一部の実施態様では、リード位置は、位置情報の違いが定義した基準よりも小さい場合、同じだと考えられる。例えば、開始ゲノム位置が２、３、４、または５個未満の塩基対分、異なる２つのリードは、同じリード位置を有するリードだと考えることが可能である。他の実施態様では、リード位置は、その位置情報を変換して、特定の位置間隔でマッチさせることが可能である場合、同じだと考えられる。参照配列はシーケンシングの前に提供することができ―例えば、それは周知で広く用いられているヒトゲノム配列であってよく―、または、参照配列は、サンプルをシーケンシングする間に得られるリードから得ることができる。

特定のシーケンシングプラットフォームおよびプロトコルに関係なく、サンプルに含有される核酸の少なくとも一部をシーケンシングして、数万、数十万、または数百万の配列リード、例えば１００ｂｐリードを生成する。一部の実施形態では、配列リードには、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、約３５ｂｐ、約３６ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約９０ｂｐ、約９５ｂｐ、約１００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、約５００ｂｐ、約８００ｂｐ、約１０００ｂｐ、または約２０００ｂｐが含まれる。

一部の実施形態では、リードは参照ゲノム、例えばｈｇ１９に整列させる。他の実施形態では、リードは参照ゲノムの一部、例えば染色体または染色体セグメントに整列させる。参照ゲノムに特異的にマッピングされるリードは、配列タグとして知られる。一実施形態では、少なくとも約３×１０^６の適格配列タグ、少なくとも約５×１０^６の適格配列タグ、少なくとも約８×１０^６の適格配列タグ、少なくとも約１０×１０^６の適格配列タグ、少なくとも約１５×１０^６の適格配列タグ、少なくとも約２０×１０^６の適格配列タグ、少なくとも約３０×１０^６の適格配列タグ、少なくとも約４０×１０^６の適格配列タグ、または少なくとも約５０×１０^６の適格配列タグが、参照ゲノムに特異的にマッピングされるリードから得られる。

アプリケーション
種々のアプリケーションでは、本明細書で開示するエラー補正戦略は、以下の利点のうち１つまたは複数を提供し得る：（ｉ）対立遺伝子頻度が非常に低い体細胞変異体を検出する、（ｉｉ）ｐｈａｓｉｎｇ／ｐｒｅｐｈａｓｉｎｇエラーを減少させることによりサイクル時間を減少させる、および／または、（ｉｉｉ）リードの後部におけるベースコールの質を増強することによりリード長を長くするなどである。対立遺伝子頻度の低い体細胞変異体の検出に関わるアプリケーションおよび基本原理は前述してある。

ある実施形態では、本明細書に記載の技法は、頻度が約２％以下、約１％以下、または約０．５％以下である対立遺伝子の信頼性の高いコールを可能にし得る。このような低頻度は、がん患者の腫瘍細胞に由来するｃｆＤＮＡに共通する。一部の実施形態では、本明細書に記載の技法は、メタゲノムサンプルの稀有な鎖の特定、および、例えば、患者が多数のウイルス株に感染している、および／または、治療を受けている場合、ウイルス集団または他の集団における稀有なバリアントの検出を可能にし得る。

ある実施形態では、本明細書に記載の技法は、シーケンシングケミストリーのサイクル時間をより短くし得る。短くなったサイクル時間はシーケンシングエラーを増やすが、これは前述の方法を用いて補正することが可能である。

ＵＭＩを伴う一部の実施態様では、長いリードを、セグメントの２つの末端に由来するペアエンド（ＰＥ）リードとして非対称のリード長を用いたペアエンドシーケンシングより得ることができる。例えば、あるペアエンドリードで５０ｂｐを有するリード対と、別のペアエンドリードで５００ｂｐを有するリード対は、共に別のリード対に「ステッチ（ｓｔｉｃｈ）」して、１０００ｂｐの長リードを生成することができる。これらの実施態様は、対立遺伝子頻度の低い長い断片を決定するシーケンシングスピードをより速くし得る。

図５は、物理的ＵＭＩおよび仮想ＵＭＩを適用することによりこの種のアプリケーションにおいて長いペアエンドリードを効率的に得る例を、図式的に示す図である。同じＤＮＡ断片の両鎖に由来するライブラリをフローセル上でクラスタ化する。ライブラリのインサートサイズは１Ｋｂより長い。シーケンシングを、非対称のリード長（例えば、リード１＝５００ｂｐ、リード２＝５０ｂｐ）を用いて行い、長い５００ｂｐリードの質を確保する。２本の鎖をステッチして、１０００ｂｐの長いＰＥリードを５００＋５０ｂｐシーケンシングのみで作成することが可能である。

サンプル
ＤＮＡ断片配列の決定に用いるサンプルには、核酸を含む任意の細胞、液体、組織、または臓器から採取したサンプルが含まれ得、ここで対象の配列を決定することができる。がんの診断を含む一部の実施形態では、循環腫瘍ＤＮＡは、対象の体液、例えば血液または血漿から得ることができる。胎児の診断を含む一部の実施形態では、セルフリー核酸、例えばセルフリーＤＮＡ（ｃｆＤＮＡ）は母体体液から得るのが好都合である。セルフリーＤＮＡを含むセルフリー核酸は、当技術分野で既知の種々の方法により、限定するわけではないが、血漿、血清、尿を含む生物学的サンプルから得ることが可能である（例えば、Ｆａｎｅｔａｌ．，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ１０５：１６２６６−１６２７１［２００８］；Ｋｏｉｄｅｅｔａｌ．，ＰｒｅｎａｔａｌＤｉａｇｎｏｓｉｓ２５：６０４−６０７［２００５］；Ｃｈｅｎｅｔａｌ．，ＮａｔｕｒｅＭｅｄ．２：１０３３−１０３５［１９９６］；Ｌｏｅｔａｌ．，Ｌａｎｃｅｔ３５０：４８５−４８７［１９９７］；Ｂｏｔｅｚａｔｕｅｔａｌ．，ＣｌｉｎＣｈｅｍ．４６：１０７８−１０８４，２０００；ａｎｄＳｕｅｔａｌ．，ＪＭｏｌ．Ｄｉａｇｎ．６：１０１−１０７［２００４］参照）。

種々の実施形態では、サンプルに存在する核酸（例えば、ＤＮＡまたはＲＮＡ）は、特異的にまたは非特異的に、使用前（例えば、シーケンシングライブラリを調製する前）に濃縮することが可能である。サンプルＤＮＡの非特異的濃縮はサンプルのゲノムＤＮＡ断片の全ゲノム増幅を指し、これを用いて、ｃｆＤＮＡシーケンシングライブラリを調製する前にサンプルＤＮＡのレベルを高めることが可能である。全ゲノム増幅法は当技術分野で既知である。ＤＯＰ（ｄｅｇｅｎｅｒａｔｅｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅ−ｐｒｉｍｅｄ）・ＰＣＲ、ＰＥＰ（ｐｒｉｍｅｒｅｘｔｅｎｓｉｏｎＰＣＲｔｅｃｈｎｉｑｕｅ）、およびＭＤＡ（ｍｕｌｔｉｐｌｅｄｉｓｐｌａｃｅｍｅｎｔａｍｐｌｉｆｉｃａｔｉｏｎ）が全ゲノム増幅法の例である。一部の実施形態では、サンプルはＤＮＡについて濃縮されない。

本明細書に記載の方法を適用する核酸を含むサンプルとしては、典型的には、前述のように生物学的サンプル（「テストサンプル」）が挙げられる。一部の実施形態では、配列決定する核酸は、いくつかの周知の方法の何れかにより精製または単離する。

したがって、ある実施形態では、サンプルは、精製または単離したポリヌクレオチドを含むか、本質的に精製または単離したポリヌクレオチドからなり、または、サンプルには組織サンプル、生体液サンプル、および細胞サンプルなどのサンプルが含まれ得る。適切な生体液サンプルとしては、限定するわけではないが、血液、血漿、血清、汗、涙、唾液、尿、唾液、内耳液、リンパ液、唾液、脳脊髄液、破出液、骨髄懸濁物、膣液、経頸管洗浄液、脳液、腹水、母乳、呼吸器官、腸管及び泌尿生殖器管の分泌物、羊水、母乳、および白血球除去サンプルが挙げられる。一部の実施形態では、サンプルは非侵襲的な手順により容易に得ることができるサンプルであり、例えば、血液、血漿、血清、汗、涙、唾液、尿、便、内耳液、唾液、または排泄物である。ある実施形態では、サンプルは末梢血サンプルまたは末梢血サンプルの血漿および／もしくは血清分画である。他の実施形態では、生物学的サンプルは、スワブもしくはスメア、生検材料、または細胞培養物である。別の実施形態では、サンプルは２種以上の生物学的サンプルの混合物であり、例えば、生物学的サンプルには、生体液サンプル、組織サンプル、および細胞培養サンプルのうち２つ以上が含まれ得る。本明細書で用いる場合、用語「血液」、「血漿」、および「血清」は、それらの画分または処理した部分も明示的に包含する。同様に、サンプルを生検、スワブ、スメア等から採取する場合、「サンプル」は生検、スワブ、スメア等に由来する処理した画分または部分を明示的に包含する。

ある実施形態では、サンプルは、限定するわけではないが、異なる個体に由来するサンプル、異なる発達段階の同一または異なる個体に由来するサンプル、異なる疾患の個体（例えば、遺伝性疾患を有することが疑われる個体）に由来するサンプル、正常個体、異なる疾患段階の個体において得られたサンプル、異なる疾患治療を受けた個体から得られたサンプル、異なる環境因子にさらされた個体に由来するサンプル、病理学的素因を有する個体に由来するサンプル、および感染性病原体にさらされたサンプル個体などを含むソースから得ることが可能である。

１つの例示的だが非限定的な実施形態では、サンプルは妊娠した雌体、例えば妊娠した女性から得られる母体サンプルとする。この場合、サンプルを本明細書に記載する方法を用いて分析して、胎児の潜在的な染色体異常についての出生前診断を行うことが可能である。母体サンプルは組織サンプル、生体液サンプル、または細胞サンプルとすることが可能である。生体液としては、限定するわけではないが、血液、血漿、血清、汗、涙、唾液、尿、唾液、内耳液、リンパ液、唾液、脳脊髄液、破出液、骨髄懸濁物、膣液、経頸管洗浄液、脳液、腹水、母乳、呼吸器官、腸管及び泌尿生殖器管の分泌物、および白血球除去サンプルが挙げられる。

ある実施形態では、サンプルは、また、ｉｎｖｉｔｒｏで培養した組織、細胞、または他のポリヌクレオチドを含有するソースから得ることも可能である。培養したサンプルは、限定するわけではないが、異なる培地および条件（例えば、ｐＨ、圧力、もしくは温度）で維持した培養物（例えば、組織または細胞）、異なる長さの期間にわたり維持した培養物（例えば、組織もしくは細胞）、異なる因子もしくは試薬（例えば、薬剤候補もしくは調節因子）で処理した培養物（例えば、組織もしくは細胞）、または、異なるタイプの組織および／もしくは細胞の培養物を含むソースから採取することが可能である。

生物学的ソースから核酸を単離する方法は周知であり、ソースの性質に応じて異なるだろう。当業者であれば、本明細書に記載の方法での必要に応じて、ソースから核酸を単離することが可能である。一部の例では、核酸サンプルにおいて核酸分子を断片化するのは有利であり得る。断片化はランダムとするか、または、例えば制限エンドヌクレアーゼ消化を用いて達成されるような、特別なものとすることが可能である。ランダム断片化の方法は当技術分野で周知であり、例えば、限定ＤＮＡｓｅ消化、アルカリ処理、および物理的せん断が挙げられる。

シーケンシングライブラリの調製
種々の実施形態において、シーケンシングは、シーケンシングライブラリの調製を必要とする種々のシーケンシングプラットフォームにおいて実行することができる。調製には、典型的には、ＤＮＡの断片化（音波処理、噴霧化、またはせん断）に続き、ＤＮＡ修復および末端ポリッシング（平滑末端はまたはＡオーバーハング）、ならびにプラットフォーム特異的アダプターライゲーションが含まれる。一実施形態では、本明細書に記載の方法は次世代シーケンシング技法（ＮＧＳ）を利用することが可能であり、これにより、多数のサンプルを単一のシーケンシングランで、ゲノム分子として個別にシーケンシングするか（つまり、一重シーケンシング）、または、インデックスを付けたゲノム分子を含むプールされたサンプルとしてシーケンシングする（つまり、多重シーケンシング）ことが可能になる。これらの方法は、最大数億個のＤＮＡ配列リードを生成することが可能である。種々の実施形態では、ゲノム核酸および／またはインデックス付きゲノム核酸の配列を、例えば、本明細書に記載する次世代シーケンシング技法（ＮＧＳ）を用いて決定することが可能である。種々の実施形態では、ＮＧＳを用いて得られた大量の配列データの解析は、本明細書に記載の１つまたは複数のプロセッサを用いて実行することが可能である。

種々々の実施形態では、このようなシーケンシング技法の使用は、シーケンシングライブラリの調製を伴わない。

しかしながら、ある実施形態では、本明細書で考察するシーケンシング法は、シーケンシングライブラリの調製を伴う。ある例示的なアプローチでは、シーケンシングライブラリの調製は、シーケンシングされる準備のできたアダプター修正ＤＮＡ断片（例えば、ポリヌクレオチド）のランダム収集物の生成を伴う。ポリヌクレオチドのシーケンシングライブラリは、ＤＮＡまたはｃＤＮＡの何れかの同等物、アナログ、例えば、相補的なＤＮＡもしくはｃＤＮＡ、またはＲＮＡ鋳型より生成されるコピーＤＮＡを含む、ＤＮＡまたはＲＮＡから、逆転写酵素の作用により調製することが可能である。ポリヌクレオチドは二本鎖形態（例えば、ゲノムＤＮＡ断片などのｄｓＤＮＡ、ｃＤＮＡ、およびＰＣＲ増幅産物など）で生じるか、または、ある実施形態では、ポリヌクレオチドは一本鎖形態（例えば、ｓｓＤＮＡ、ＲＮＡなど）で生じ得、ｄｓＤＮＡ形態に変換されている。例示として、ある実施形態では、一本鎖ｍＲＮＡ分子は、シーケンシングライブラリを調製する際に用いるのに適した二本鎖ｃＤＮＡにコピーされ得る。主なポリヌクレオチド分子の正確な配列は、概して、ライブラリ調製方法にとって重要ではなく、既知または未知であってよい。一実施形態では、ポリヌクレオチド分子はＤＮＡ分子である。具体的には、ある実施形態において、ポリヌクレオチド分子は生物の全遺伝的相補体を表すか、または、生物の全遺伝的相補体を実質的に表し、該ポリヌクレオチド分子はゲノムＤＮＡ分子（例えば、細胞ＤＮＡ、セルフリーＤＮＡ（ｃｆＤＮＡ）など）であり、これには、典型的には、イントロン配列およびエクソン配列（コーディング配列）の両方、ならびに、プロモータなどの非コーディング調節配列およびエンハンサー配列が含まれる。ある実施形態では、主なポリヌクレオチド分子には、ヒトゲノムＤＮＡ分子、例えば、妊娠した対象の末梢血に存在するｃｆＤＮＡ分子が含まれる。

一部のＮＧＳ配列決定プラットフォーム用のシーケンシングライブラリの調製は、特定の範囲の断片サイズを含むポリヌクレオチドの使用によって容易になる。このようなライブラリの調製には、典型的には、所望のサイズ幅のポリヌクレオチドを得るために、大きいポリヌクレオチド（例えば、細胞ゲノムＤＮＡ）の断片が含まれる。

ペアエンドリードを、本明細書に開示するシーケンシング法およびシーケンシングシステムに用いることができる。断片またはインサート長はリード長より長く、時に２つのリードの長さの合計より長い場合がある。

一部の例示的実施形態では、サンプル核酸はゲノムＤＮＡとして得られ、これを断片化して、ＮＧＳ方法を容易に適用することが可能な、約５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、または５０００塩基対よりも長い断片にする。一部の実施形態では、ペアエンドリードは約１００〜５０００ｂｐのインサートから得られる。一部の実施形態では、インサートは約１００〜１０００ｂｐ長である。これらは時に、通常の短インサートペアエンドリードとして実現される。一部の実施形態では、インサートは約１０００〜５０００ｂｐ長である。これらは時に、前述の長インサートメイトペアリードとして実現される。

一部の実施態様では、長インサートは非常に長い配列を評価するために設計される。一部の実施態様では、メイトペアリードを適用して、数千の塩基対分、間隔を置いたリードを得ることができる。これらの実施態様では、インサートまたは断片は、インサートの２つの末端に２つのビオチン連結点アダプターを有し、数百〜数千塩基対に及ぶ。次にビオチン連結点アダプターは、インサートの２つの末端を結び付けて環状分子を形成し、これを次にさらに断片化する。ビオチン連結点アダプターおよび元のインサートの２末端を含むサブ断片は、より短い断片をシーケンシングするように設計されたプラットフォームにおいてシーケンシング用に選択される。

断片化は、当業者に既知のいくつかの方法の何れかにより達成することが可能である。例えば、断片化は、限定するわけではないが、噴霧化、音波処理、およびハイドロシェアを含む機械的手段により達成することが可能である。しかしながら、機械的断片化は、典型的には、ＤＮＡ骨格をＣ−Ｏ、Ｐ−Ｏ、およびＣ−Ｃ結合で切断し、末端ならびに破壊されたＣ−Ｏ、Ｐ−Ｏ、および／Ｃ−Ｃ結合を有する３’−および５’−オーバーハング末端の異種混合物を生じさせ（例えば、ＡｌｎｅｍｒｉａｎｄＬｉｗａｃｋ，ＪＢｉｏｌ．Ｃｈｅｍ２６５：１７３２３−１７３３３［１９９０］；ＲｉｃｈａｒｄｓａｎｄＢｏｙｅｒ，ＪＭｏｌＢｉｏｌ１１：３２７−２４０［１９６５］参照）、これは、シーケンシング用のＤＮＡを調製するのに必要な後続の酵素反応に必須の５’−リン酸を欠くことから、修復が必要な場合がある。

対称的に、ｃｆＤＮＡは典型的には約３００塩基対未満の断片として存在し、その結果、断片化は、典型的には、ｃｆＤＮＡサンプルを用いたシーケンシングライブラリの生成に必要ではない。

典型的には、ポリヌクレオチドが強制的に断片されている（例えば、ｉｎｖｉｔｒｏで断片化されている）か、天然に断片として存在しているかに関わらず、ポリヌクレオチドは５’−リン酸および３’−ヒドロキシルを有する平滑末端ＤＮＡに変換される。標準的なプロトコル、例えば、図１Ａおよび図１Ｂに関連する、前述のワーフクロー例で記載したＩｌｌｕｍｉｎａ社のプラットフォームなどを用いてシーケンシングするプロトコルは、ユーザに、サンプルＤＮＡを末端修復して末端修復産物を精製してから３’末端をアデニル化またはｄＡ−テーリングし、ｄＡテール化産物を精製してからライブラリ調製のアダプターライゲーションステップに移ることを指示する。

本明細書に記載する配列ライブラリ調製の方法の種々の実施形態は、標準プロトコルでは典型的には強制される、ＮＧＳによりシーケンシング可能な修正ＤＮＡ産物を得るための１つまたは複数のステップを実行する必要をなくす。ＡＢＢ法（ａｂｂｒｅｖｉａｔｅｄｍｅｔｈｏｄ）、１ステップ法、および２ステップ法がシーケンシングライブラリの調製法の例であり、これは２０１２年７月２０日に出願された特許出願１３／５５５０３７号明細書に見ることができ、これは参照によりその全体が組み込まれる。

シーケンシング法
本明細書に記載する方法および装置は、次世代シーケンシング技法（ＮＧＳ）を用いることが可能であり、これは大規模並列シーケンシングを可能にする。ある実施形態では、クローン的に増幅したＤＮＡ鋳型または単一ＤＮＡ分子を（例えばＶｏｌｋｅｒｄｉｎｇｅｔａｌ．ＣｌｉｎＣｈｅｍ５５：６４１−６５８［２００９］；ＭｅｔｚｋｅｒＭＮａｔｕｒｅＲｅｖ１１：３１−４６［２０１０］に記載されているように）フローセル内で大規模並列的な方法でシーケンシングする。ＮＧＳのシーケンシング技法としては、限定するわけではないが、パイロシーケンシング、可逆性ダイターミネータを用いたシーケンシング・バイ・シンセシス、オリゴヌクレオチドプローブライゲーションによるシーケンシング、およびイオン半導体シーケンシングが挙げられる。個別サンプルに由来するＤＮＡは、個別にシーケンシングするか（つまり、一重シーケンシング）、または、多数のサンプルに由来するＤＮＡをプールしてインデックス付きゲノム分子として単一シーケンシングランでシーケンシングし（つまり、多重シーケンシング）、最大数億のＤＮＡ配列リードを生成することが可能である。本方法に従って配列情報を得るのに用いることが可能なシーケンシング技法の例について、さらに本明細書で記載する。

一部のシーケンシング技法は、例えば、下記に記載するＡｆｆｙｍｅｔｒｉｘＩｎｃ．（カリフォルニア州サニーベール）のシーケンシング・バイ・ハイブリダイゼーションプラットフォーム、４５４ＬｉｆｅＳｃｉｅｎｃｅｓ（コネチカット州ブランホード）、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘａ（カリフォルニア州ヘイワード）、およびＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓ（マサチューセッツ州ケンブリッジ）のシーケンシング・バイ・シンセシス、ならびにＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（カリフォルニア州フォスターシティ）のシーケンシング・バイ・ライゲーションプラットフォームなどが、商業的に利用可能である。ＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓのシーケンシング・バイ・シンセシスを用いて実行される単一分子のシーケンシングに加え、他の単一分子シーケンシング技法としては、限定するわけではないが、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓのＳＭＲＴ（商標）技術、ＩＯＮＴＯＲＲＥＮＴ（商標）技術、および例えばＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓにより開発されたナノポアシーケンシングが挙げられる。

自動化サンガー法は「第１世代」技術として考えられているが、自動化サンガーシーケンシングを含むサンガーシーケンシングも、本明細書に記載の方法で利用することが可能である。追加の適切なシーケンシング法としては、限定するわけではないが、核酸イメージング技術、例えば、原子間力顕微鏡（ＡＦＭ）または透過型電子顕微鏡（ＴＥＭ）が挙げられる。例示的なシーケンシング技術について、以下でさらに詳細に記載する。

一部の実施形態では、開示の方法には、Ｉｌｌｕｍｉｎａ社のシーケンシング・バイ・シンセシスおよび可逆性ターミネータに基づくシーケンシングケミストリー（例えば、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ６：５３−５９［２００９］に記載されている）を用いて数百万のＤＮＡ断片を大規模並列的にシーケンシングすることにより、テストサンプルにおける核酸の配列情報を得ることが含まれる。鋳型ＤＮＡはゲノムＤＮＡ、例えば細胞ＤＮＡまたはｃｆＤＮＡであり得る。一部の実施形態では、単離細胞に由来するゲノム細胞を鋳型として用い、該ゲノム細胞は断片化して数百塩基対の長さにする。他の実施形態では、ｃｆＤＮＡまたは循環腫瘍ＤＮＡ（ｃｆＤＮＡ）を鋳型として用い、ｃｆＤＮＡまたはｃｔＤＮＡが短い断片として存在することから断片化は必要ではない。例えば、胎児ｃｆＤＮＡは、長さ約１７０塩基対（ｂｐ）の断片として血流中を循環し（Ｆａｎｅｔａｌ．，ＣｌｉｎＣｈｅｍ５６：１２７９−１２８６［２０１０］）、シーケンシング前にＤＮＡの断片化は必要ではない。Ｉｌｌｕｍｉｎａ社のシーケンシング技術は、断片化ゲノムＤＮＡを、オリゴヌクレオチドアンカーが結合する平坦で光学的に透明な表面に付着させることに依拠する。鋳型ＤＮＡを末端修復して５’−リン酸化平滑末端を生成し、クレノウ断片のポリメラーゼ活性を用いて単一のＡ塩基を平滑リン酸化ＤＮＡ断片の３’末端に付加する。この付加により、オリゴヌクレオチドアダプターへのライゲーション用のＤＮＡ断片を調製し、該ＤＮＡ断片はライゲーションの効率を高めるためその３’末端に単一のＴ塩基のオーバーハングを有する。アダプターオリゴヌクレオチドは、フローセルのアンカーオリゴに対し相補的である。限界希釈条件下において、アダプター修正一本鎖鋳型ＤＮＡをフローセルに加え、ハイブリダイゼーションによりアンカーオリゴに固定する。付着させたＤＮＡ断片を伸長し、ブリッジ増幅して、それぞれが同じ鋳型の約１０００個のコピーを含むクラスタを数億個有する超高密度シーケンシングフローセルを作成する。一実施形態では、ランダムに断片化したゲノムＤＮＡをＰＣＲを用いて増幅してからそれをクラスタ増幅にかける。あるいは、増幅不要ゲノムライブラリ調製を用い、ランダムに断片化したゲノムＤＮＡをクラスタ増幅のみを用いて濃縮する（Ｋｏｚａｒｅｗａｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ６：２９１−２９５［２００９］）。一部のアプリケーションでは、鋳型を、除去可能な蛍光色素を有する可逆性ターミネータを利用する堅牢な４色ＤＮＡのシーケンシング・バイ・シンセシスを用いてシーケンシングする。高感度蛍光検出は、レーザ励起および全内部反射光学を用いて達成される。約数十〜数百個の塩基対の短配列を参照ゲノムに対して整列させ、参照ゲノムに対する短配列リードの特異的なマッピングは、特別に開発されたデータ解析パイプラインソフトウェアを用いて特定する。第１リードの完成後、鋳型をその場で再生成して、断片の反対側の末端からの第２リードを可能にすることができる。したがって、ＤＮＡ断片の単一末端またはペアエンド末端の何れかを用いることが可能である。

本開示の種々の実施形態は、ペアエンドシーケンシングを可能にするシーケンシング・バイ・シンセシスを用いることができる。一部の実施形態では、Ｉｌｌｕｍｉｎａ社のシーケンシング・バイ・シンセシスのプラットフォームは断片のクラスタ化を伴う。クラスタ化は、各断片分子が等温で増幅されるプロセスである。一部の実施形態では、本明細書に記載の例として、断片は該断片の２つの末端に付着した２つの異なるアダプターを有し、該アダプターは、フローセルレーンの表面において断片を２つの異なるオリゴとハイブリダイズすることを可能にする。断片はさらに、断片の２つの末端において２つのインデックス配列を含むか、またはそれに連結し、該インデックス配列は、多重シーケンシングにおいて異なるサンプルを特定するための標識を提供する。一部のシーケンシングプラットフォームでは、両末端からシーケンシングされる断片を、インサートという。

一部の実施態様では、Ｉｌｌｕｍｉｎａ社のプラットフォームにおけるクラスタ化用のフローセルは、レーン付きのスライドガラスである。各レーンは、２つのタイプのオリゴ（例えば、Ｐ５オリゴおよびＰ７’オリゴ）のローンでコーティングされたガラスチャネルである。ハイブリダイズは表面の２つのタイプのオリゴの第１オリゴにより可能になる。このオリゴは、断片の一方の末端にある第１アダプターに対し相補的である。ポリメラーゼは、ハイブリダイズした断片の相補的鎖を作成する。二本鎖分子は変性し、元の鋳型鎖は洗い流される。残存鎖は、他の多くの残存鎖と並行して、ブリッジ増幅を介してクローン的に増幅される。

ブリッジ増幅およびクラスタ化を伴う他のシーケンシング法では、鎖は何度も折り重なり、鎖の第２末端の第２アダプター領域が、フローセル表面の第２タイプのオリゴとハイブリダイズする。ポリメラーゼは、相補的な鎖を生成し、二本鎖ブリッジ分子を形成する。この二本鎖分子は変性し、２つの異なるオリゴを介してフローセルに係留した２つの一本鎖分子をもたらす。プロセスは次に何度も繰り返され、数百万のクラスタについて同時に起こり、全断片のクローン的増幅をもたらす。ブリッジ増幅後、逆鎖を切断して洗い流し、フォワード鎖のみを残す。３’末端をブロックし、不所望のプライミングを防ぐ。

クラスタ化後、シーケンシングを、第１リードを生成する第１シーケンシングプライマーを伸長させることで開始する。各サイクルで、蛍光的にタグ付けしたヌクレオチドは成長鎖への付加を競う。１つのみが鋳型配列に基づき組み込まれる。各ヌクレオチドの付加後、クラスタを光源により励起し、特徴的な蛍光シグナルが放出される。サイクル数がリードの長さを決定する。発光波長およびシグナル強度がベースコールを決定する。所与のクラスタでは、全ての同一鎖が同時に読み取られる。数億個のクラスタが大規模並列的な方法でシーケンシングされる。第１リードの完了時、リード産物は洗い流される。

２つのインデックスプライマーを含むプロトコルの次のステップでは、インデックス１プライマーを鋳型のインデックス１領域に導入してハイブリダイズさせる。インデックス領域は断片の特定を提供し、これは、多重シーケンシングプロセスにおいてサンプルを逆多重化するのに有用である。インデックス１リードは、第１リードと同様に生成される。インデックス１リードのリード完了後、リード産物は洗い流し、鎖の３’末端を脱保護する。鋳型鎖は次に何度も折り重なり、フローセルの第２オリゴに結合する。インデックス２配列をインデックス１と同様に読み取る。次にインデックス２リード産物をステップの完了時に洗い流す。

２つのインデックスを読み取った後、リード２は、第２フローセルオリゴを伸長させ二本鎖ブリッジを形成するポリメラーゼを用いることにより始まる。この二本鎖ＤＮＡは変性し、３’末端はブロックされる。元のフォワード鎖は切断され、洗い流され、逆鎖を残す。リード２は、リード２シーケンシングプライマーの導入で始まる。リード１と同様に、所望の長さが達成されるまでシーケンシングステップが繰り返される。リード２産物は洗い流される。この全プロセスにより全断片を表す数百万のリードが生成される。プールされたサンプルライブラリからの配列は、サンプル調製中に導入された特異的なインデックスに基づき分離させられる。各サンプルで、同様のベースコールの広がりについてのリードが局所的にクラスタ化される。フォワードリードおよびリバースリードを対にして連続した配列を作成する。これらの連続配列をバリアントの特定のために参照ゲノムに整列させる。

前述のシーケンシング・バイ・シンセシス例はペアエンドリードを要し、これは開示の方法の実施形態の多くで用いる。ペアエンドシーケンシングは、断片の２つの末端に由来する２つのリードを要する。ペアエンドリードを用いて、あいまいなアライメントを分解する。ペアエンドシーケンシングは、ユーザがインサートの長さ（またはシーケンシングする断片）を選択し、インサートの何れかの末端をシーケンシングし、整列させることが可能な高品質の配列データを生成することを可能にする。各ペアリード間の距離は既知であるため、アライメントアルゴリズムはこの情報を用いて、より正確に、反復領域にわたってリードをマッピングすることが可能である。これは、特に、シーケンシングするのが難しいゲノムの反復領域にわたって、リードのより良いアライメントをもたらす。ペアエンドシーケンシングは、挿入および欠失（インデル）ならびに逆位を含む再配置を検出することが可能である。

ペアエンドリードは異なる長さ（つまり、シーケンシングされる断片サイズが異なる）のインサートを用いることができる。本開示の規定の意味として、ペアエンドリードは種々のインサート長から得られたリードを指すために用いる。一部の例では、短インサートペアエンドリードと長インサートペアエンドリードを識別するため、後者を特にメイトペアリードという。メイトペアリードを含む一部の実施形態では、２つのビオチン連結点アダプターをまず比較的長いインサート（例えば、数ｋｂ）の２つの末端に付着させる。次にビオチン連結点アダプターは、インサートの２つの末端を結び付けて環状分子を形成する。次に、環状分子をさらに断片化することによりビオチン連結点アダプタを包含するサブ断片を得ることが可能である。次に、反対の配列順で元の断片の２つの末端を含むサブ断片を、前述の短インサートペアエンドシーケンシングと同様の手順によりシーケンシングすることが可能である。Ｉｌｌｕｍｉｎａ社のプラットフォームを用いたメイトペアシーケンシングのさらなる詳細は、以下のアドレスのオンライ刊行物に示されており、これはその全体が参照により組み込まれる：ｒｅｓ．ｉｌｌｕｍｉｎａ．ｃｏｍ／ｄｏｃｕｍｅｎｔｓ／ｐｒｏｄｕｃｔｓ／ｔｅｃｈｎｏｔｅｓ／ｔｅｃｈｎｏｔｅ＿ｎｅｘｔｅｒａ＿ｍａｔｅｐａｉｒ＿ｄａｔａ＿ｐｒｏｃｅｓｓｉｎｇ．ｐｄｆ

ＤＮＡ断片のシーケンシング後、所定の長さ、例えば１００ｂｐの配列リードを、既知の参照ゲノムにマッピング（アライメント）することにより配置する。マッピングしたリードおよびその対応する参照配列上での場所は、タグともいう。手順の別の実施形態では、位置測定は、ｋ−ｍｅｒ共有およびリード−リードアライメントにより実現される。本明細書で開示する多くの実施形態の解析では、整列させたリード（タグ）と同様に、上手く整列しない、または整列させることができないリードを利用する。一実施形態では、参照ゲノム配列はＮＣＢＩ３６／ｈｇ１８配列であり、これはＷｏｒｌｄＷｉｄｅＷｅｂのｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕ／ｃｇｉ−ｂｉｎ／ｈｇＧａｔｅｗａｙ？ｏｒｇ＝Ｈｕｍａｎ＆ｄｂ＝ｈｇ１８＆ｈｇｓｉｄ＝１６６２６０１０５）で利用可能である。代わりに、参照ゲノム配列はＧＲＣｈ３７／ｈｇ１９またはＧＲＣｈ３８であり、これはＷｏｒｌｄＷｉｄｅＷｅｂのｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕ／ｃｇｉ−ｂｉｎ／ｈｇＧａｔｅｗａｙで利用可能である。他の公的な配列情報ソースとしては、ＧｅｎＢａｎｋ、ｄｂＥＳＴ、ｄｂＳＴＳ、ＥＭＢＬ（ｔｈｅＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＬａｂｏｒａｔｏｒｙ）、およびＤＤＢＪ（ｔｈｅＤＮＡＤａｔａｂａｎｋｏｆＪａｐａｎ）が挙げられる。いくつかのコンピュータアルゴリズムが配列の整列に利用可能であり、限定するわけではないが、ＢＬＡＳＴ（Ａｌｔｓｃｈｕｌｅｔａｌ．，１９９０）、ＢＬＩＴＺ（ＭＰｓｒｃｈ）（Ｓｔｕｒｒｏｃｋ＆Ｃｏｌｌｉｎｓ，１９９３）、ＦＡＳＴＡ（Ｐｅｒｓｏｎ＆Ｌｉｐｍａｎ，１９８８）、ＢＯＷＴＩＥ（Ｌａｎｇｍｅａｄｅｔａｌ．，ＧｅｎｏｍｅＢｉｏｌｏｇｙ１０：Ｒ２５．１−Ｒ２５．１０［２００９］）、またはＥＬＡＮＤ（アメリカ合衆国、カリフォルニア州サンディエゴ、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．）が挙げられる。一実施形態では、クローン的に拡大させた血漿ｃｆＤＮＡ分子のコピーの１つの末端をシーケンシングし、ＥｆｆｉｃｉｅｎｔＬａｒｇｅ−ＳｃａｌｅＡｌｉｇｎｍｅｎｔｏｆＮｕｃｌｅｏｔｉｄｅＤａｔａｂａｓｅｓ（ＥＬＡＮＤ）ソフトウェアを用いる、Ｉｌｌｕｍｉｎａ社のＧｅｎｏｍｅＡｎａｌｙｚｅｒ向けのバイオインフォマティクスアライメント解析により処理する。

例示的だが非限定的な一実施形態では、本明細書に記載の方法には、（例えば、ＨａｒｒｉｓＴ．Ｄ．ｅｔａｌ．，Ｓｃｉｅｎｃｅ３２０：１０６−１０９［２００８］）に記載される）ＨｅｌｉｃｏｓＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ（ｔＳＭＳ）技法という単一分子シーケンシング技法を用いて、テストサンプルの核酸の配列情報を得ることが含まれる。ｔＳＭＳ技法では、ＤＮＡサンプルを約１００〜２００ヌクレオチドの鎖に切断し、ｐｏｌｙＡ配列を各ＤＮＡ鎖の３’末端に付加する。蛍光標識したアデノシンヌクレオチドの付加により、各鎖を標識化する。次にＤＮＡ鎖をフローセル表面に固定された数百万のオリゴ−Ｔ捕捉部位を含有するフローセルにハイブリダイズする。ある実施形態では、鋳型は１億鋳型／ｃｍ^２の密度とすることが可能である。次にフローセルを機器、例えばＨｅｌｉＳｃｏｐｅ（登録商標）シーケンサーに搭載しレーザをフローセルの表面に当て、各鋳型の位置を明らかにする。ＣＣＤカメラにより、フローセル表面における鋳型の位置をマッピングすることが可能である。次に鋳型の蛍光標識を切断し、洗い流す。シーケンシング反応は、ＤＮＡポリメラーゼおよび蛍光標識ヌクレオチドを導入することにより始まる。オリゴ−Ｔ核酸はプライマーとして機能する。ポリメラーゼは、標識化ヌクレオチドを鋳型標的法でプライマーに組み込む。ポリメラーゼおよび組み込まれなかったヌクレオチドは取り除かれる。蛍光標識ヌクレオチドの直接的な組み込みのある鋳型は、フローセルを画像化することによって見分けられる。画像化後、切断ステップにより蛍光標識を取り除き、このプロセスを所望のリード長が達成されるまで他の蛍光標識ヌクレオチドについて繰り返す。配列情報は、各ヌクレオチド付加ステップで収集される。単一分子配列決定技術による全ゲノムシーケンシングは、シーケンシングライブラリの調製においてＰＣＲベースの増幅を排除するか、または、典型的には不要にし、該方法は、サンプルのコピーの測定ではなく、直接的なサンプル測定を可能にする。

別の例示的だが非限定的な実施形態では、本明細書に記載の方法には、４５４シーケンシング（Ｒｏｃｈｅ）（例えば、Ｍａｒｇｕｌｉｅｓ，Ｍ．ｅｔａｌ．Ｎａｔｕｒｅ４３７：３７６−３８０［２００５］に記載されている）を用いて、テストサンプルの核酸の配列情報を得ることが含まれる。４５４シーケンシングには、２つのステップが含まれる。第１ステップでは、ＤＮＡを約３００〜８００塩基対の断片にせん断し、該断片は平滑末端化する。次に、オリゴヌクレオチドアダプターを断片の末端にライゲーションする。アダプターは、断片の増幅およびシーケンシングのためのプライマーとして機能する。断片は、ＤＮＡ捕捉ビーズ、例えば、ストレプトアビジン被膜ビーズに、例えば５’−ビオチンタグを含有するアダプターＢを用いて付着し得る。ビーズに付着した断片を、油−水エマルジョンの液滴内でＰＣＲ増幅する。結果として、各ビーズ上にクローン増幅したＤＮＡ断片の多数のコピーが生じる。第２ステップでは、ビーズをウェル（例えば、ピコリットルサイズのウェル）に捕捉する。パイロシーケンシングを各ＤＮＡ断片において並行して実行する。１つまたは複数のヌクレオチドの付加により光シグナルを発生させ、これをシーケンシング機器のＣＣＤカメラにより記録する。シグナル強度は、組み込まれたヌクレオチドの数に比例する。パイロシーケンシングは、ヌクレオチド付加の際に放出されるピロリン酸（ＰＰｉ）を利用する。ＰＰｉはアデノシン５’リン酸の存在下でＡＴＰスルフリラーゼによってＡＴＰに変換される。ルシフェラーゼは、ＡＴＰを用いてルシフェリンをオキシルシフェリンに変換し、この反応により光を発生させ、この光を測定および解析する。

別の例示的だが非限定的な実施形態において、本明細書に記載の方法には、ＳＯＬｉｄ（商標）技術（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）を用いて、テストサンプルの核酸の配列情報を得ることが含まれる。ＳＯＬｉＤ（商標）シーケンシング・バイ・ライゲーションでは、ゲノムＤＮＡを断片にせん断し、アダプターを断片の５’末端および３’末端に付着させて断片ライブラリを生成する。代わりに、アダプターを断片の５’末端および３’末端にライゲーションし、断片を環状化し、該環状化断片を消化して内部アダプターを生成し、結果として生じる断片の５’末端および３’末端にアダプターを付着させてメイトペアライブラリを生成することによって、内部アダプタを導入することが可能である。次に、クローン化ビーズ集団を、ビーズ、プライマー、鋳型、およびＰＣＲ成分を含有するマイクロリアクターで調製する。ＰＣＲ後、鋳型は変性し、ビーズは濃縮されて、該ビーズは伸長された鋳型を用いて分離する。選択したビーズ上の鋳型を３’修飾に供し、これによりスライドガラスへの結合を可能にする。配列は、連続的ハイブリダイゼーションおよび特異的なフルオロフォアによって特定される中央決定塩基（または塩基対）を用いた部分的にランダムなオリゴヌクレオチドのライゲーションにより、決定することが可能である。色が記録された後、ライゲーションしたオリゴヌクレオチドを切断し、取り除き、それからこのプロセスを繰り返す。

別の例示的だが非限定的な実施形態では、本明細書に記載の方法には、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ社の単一分子リアルタイム（ＳＭＲＴ（商標））シーケンシング技術を用いて、テストサンプルにおける核酸の配列情報を得ることが含まれる。ＳＭＲＴシーケンシングでは、色素標識ヌクレオチドの連続的組み込みをＤＮＡ合成中に画像化する。単一ＤＮＡポリメラーゼ分子は、ホスホ結合されたヌクレオチドが延長中のプライマー鎖に組み込まれている間に配列情報を得る、個々のゼロモード波長検出器（ＺＭＷ検出器）の底表面に付着する。ＺＭＷ検出器は閉じ込め構造を備え、これにより、ＤＮＡポリメラーゼによる単一ヌクレオチドの組み込みを、ＺＭＷを高速で（ミリ秒単位で）出入りしながら核酸する蛍光ヌクレオチドを背景として観察することが可能になる。ヌクレオチドを成長鎖に組み込むには、典型的には数ミリ秒かかる。この時間中、蛍光標識は励起されて蛍光シグナルを生成し、蛍光タグが切断される。色素の対応する蛍光の測定は、どの塩基が組み込まれたかを示す。このプロセスを繰り返して配列を提供する。

別の例示的だが非限定的な実施形態では、本明細書に記載の方法には、ナノポアシーケンシング（例えば、ＳｏｎｉＧＶａｎｄＭｅｌｌｅｒＡ．ＣｌｉｎＣｈｅｍ５３：１９９６−２００１［２００７］に記載されている）を用いて、テストサンプルにおける核酸の配列情報を得ることが含まれる。ナノポアシーケンシングＤＮＡ解析技法は、例えばＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ（英国オックスフォード）、Ｓｅｑｕｅｎｏｍ、およびＮＡＢｓｙｓなどを含むいくつかの会社により開発されている。ナノポアシーケンシングは単一分子シーケンシング技術であり、これによりＤＮＡの単一分子を、それがナノポアを通過する際に直接シーケンシングする。ナノポアは、典型的には、桁が直径１ナノメートルの細孔である。ナノポアを同電流内に浸漬し、それに電位差（電圧）を印加することによって、ナノポアを通るイオンの伝導に起因するわずかな電流を生じさせる。流れる電流量は、ナノポアのサイズおよび形の影響を受ける。ＤＮＡ分子がナノポアを通過する際、ＤＮＡ分子における各ヌクレオチドはナノポアを異なる程度で遮り、ナノポアに流れる電流の大きさを異なる程度で変える。したがって、ＤＮＡ分子がナノポアを通過する際のこの電流の変化が、ＤＮＡ配列のリードを表す。

別の例示的だが非限定的な実施形態では、本明細書に記載の方法には、化学的感受性電界効果トランジスタ（ｃｈｅｍＦＥＴ）アレイ（例えば、米国特許出願公開第２００９／００２６０８２号明細書に記載される）を用いて、テストサンプルにおける核酸の配列情報を得ることが含まれる。この技術の一例では、ＤＮＡ分子は反応チャンバ内に置かれ得、鋳型分子をポリメラーゼに結合したシーケンシングプライマーにハイブリダイズさせることが可能である。シーケンシングプライマーの３’末端における新たな核酸鎖への１つまたは複数の三リン酸の組み込みは、ｃｈｅｍＦＥＴにより、電流の変化として認識され得る。アレイは多数のｃｈｅｍＦＥＴセンサを有し得る。別の例では、単一核酸をビーズに付着させ、該核酸をビーズ上で増幅し、個々のビーズをｃｈｅｍＦＥＴアレイ上の、それぞれがｃｈｅｍＦＥＴセンサを有する個々の反応チャンバに移送して、核酸をシーケンシングすることが可能である。

別の実施形態では、ＤＮＡシーケンシング技術はＩｏｎＴｏｒｒｅｎｔ社の単一分子シーケンシングであり、これは、半導体技術と単一シーケンシング化学を組み合わせて、コードされた情報（Ａ、Ｃ、Ｇ、Ｔ）を半導体チップにおいてデジタル情報（０、１）に化学的に直接翻訳する。実際は、ヌクレオチドがポリメラーゼによりＤＮＡ鎖に組み込まれる際、水素イオンが副産物として放出される。ＩｏｎＴｏｒｒｅｎｔ社は微細加工ウェルの高密度アレイを用いて、この生化学的プロセスを大規模並列的に行う。各ウェルは、異なるＤＮＡ分子を保持する。ウェルの下はイオン感受性層であり、その下はイオンセンサである。ヌクレオチド、例えばＣがＤＮＡ鋳型に付加され、次にＤＮＡの鎖に組み込まれる場合、水素イオンが放出される。そのイオンからの電荷は溶液のｐＨを変化させ、これがＩｏｎＴｏｒｒｅｎｔ社のイオンセンサによって検出され得る。シーケンサー―基本的に世界最小のソリッドステートｐＨメータ―がベースコールを行い、化学的情報からデジタル情報へ直接移行させる。次に、ＩｏｎｐｅｒｓｏｎａｌＧｅｎｏｍｅＭａｃｈｉｎｅ（ＰＧＭ（商標））シーケンサーは、順次、チップを１ヌクレオチドで満たす。チップを満たす次のヌクレオチドがマッチしない場合、電圧変化は記録されず、ベースコールは行われない。ＤＮＡ鎖に２つの同一の塩基が存在する場合、電圧は倍加し、チップはコールされた２つの同一の塩基を記録する。直接検出により、ヌクレオチドの組み込みを数秒で記録することが可能になる。

別の実施形態では、本方法には、ハイブリダイゼーションによるシーケンシングを用いて、テストサンプルにおける核酸の配列情報を得ることが含まれる。ハイブリダイゼーションによるシーケンシングには、複数のポリヌクレオチド配列を複数のポリヌクレオチオプローブに接触させることが含まれ、該複数のポリヌクレオチドプローブはそれぞれ、オプションとして基板に係留することが可能である。基板は既知のヌクレオチド配列のアレイを含む平坦表面とすることができる。アレイに対するハイブリダイゼーションのパターンを用いて、サンプルに存在するポリヌクレオチド配列を決定することが可能である。他の実施形態では、各プローブをビーズ、例えば磁気ビーズなどに係留する。ビーズに対するハイブリダイゼーションを求め、これを用いてサンプル内の複数のポリヌクレオチド配列を特定することが可能である。

本明細書に記載の方法の一部の実施形態では、配列リードは、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、約３５ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約９０ｂｐ、約９５ｂｐ、約１００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、または約５００ｂｐである。技術的な利点により、５００ｂｐを超える単一末端リードを可能になり、ペアエンドリードが生成される場合は約１０００ｂｐを超えるリードを可能になることが期待される。一部の実施形態では、ペアエンドリードを用いて対象の配列を決定し、これには、約２０ｂｐ〜１０００ｂｐ、約５０ｂｐ〜５００ｂｐ、または８０ｂｐ〜１５０ｂｐの配列リードが含まれる。種々の実施形態では、ペアエンドリードを用いて対象の配列を評価する。対象の配列はリードより長い。一部の実施形態では、対象の配列は、約１００ｂｐ、５００ｂｐ、１０００ｂｐ、または４０００ｂｐより長い。配列リードのマッピングは、リードの配列を参照配列と比較して、シーケンシングする核酸分子の染色体起源を決定することにより達成され、特別な遺伝子配列情報は必要ではない。わずかなミスマッチ（リード当たり０〜２ミスマッチ）は、参照ゲノムと混合サンプルにおけるゲノムとの間に存在し得る少数の多型の原因となり得る。一部の実施形態では、参照配列に整列させたリードをアンカーリードとして用い、アンカーリードとは対であるが参照には整列できないまたは上手く整列できないリードをアンカー付きリードとして用いる。一部の実施形態では、上手く整列しないリードは、リード当たりのミスマッチ率が比較的大きく、例えば、リード当たり少なくとも約５％、少なくとも約１０％、少なくとも約１５％、または少なくとも約２０％のミスマッチである。

複数の配列タグ（つまり、参照配列に整列したリード）は典型的にはサンプルごとに得られる。一部の実施形態では、例えば１００ｂｐの、少なくとも約３ｘ１０^６個の配列タグ、少なくとも約５ｘ１０^６個の配列タグ、少なくとも約８ｘ１０^６個の配列タグ、少なくとも約１０ｘ１０^６個の配列タグ、少なくとも約１５ｘ１０^６個の配列タグ、少なくとも約２０ｘ１０^６個の配列タグ、少なくとも約３０ｘ１０^６個の配列タグ、少なくとも約４０ｘ１０^６個の配列タグ、または少なくとも約５０ｘ１０^６個の配列タグを、サンプルごとにリードを参照ゲノムへマッピングすることにより得る。一実施形態では、全ての配列リードを参照ゲノムの全領域にマッピングして、ゲノム全般のリードを提供する。他の実施形態では、リードを対象の配列にマッピングする。

ＵＭＩを用いたシーケンシング用の装置およびシステム
シーケンシングデータの解析およびそれに由来する診断は、典型的には、アルゴリズムおよびプログラムを実行する種々のコンピュータを用いて実行する。そのため、ある実施形態は、１つまたは複数のコンピュータシステムまたは他の処理システムに保存されるまたは転送されるデータを含むプロセスを利用する。本明細書に開示する実施形態は、また、これらの操作を実行するための装置にも関する。この装置は、必要な目的のために特別に構築されるか、または、該装置は、コンピュータプログラムおよび／またはコンピュータに保存されたデータ構造により選択的に作動するまたは再構成される汎用コンピュータ（またはコンピュータ群）とすることができる。一部の実施形態では、プロセッサ群は、言及した解析操作の一部またはすべてを共同的に（例えば、ネットワークまたはクラウドコンピューティングを介して）および／または並行して実行する。本明細書に記載の方法を実行するプロセッサまたはプロセッサ群は、プログラム可能な装置のようなマイクロコントローラおよびマイクロプロセッサ（例えば、ＣＰＬＤおよびＦＰＧＡ）ならびにゲートアレイＡＳＩＣなどのプラグラム固定式装置、または汎用マイクロプロセッサを含む種々のタイプとすることができる。

一実施態様は、核酸を含むテストサンプルにおいて、対立遺伝子頻度の低い配列を決定する際に用いるシステムを提供し、該システムは、核酸サンプルを受け取り、サンプルからの核酸配列情報を提供するシーケンサー；プロセッサ；およびプロセッサで実行するための指示を保存した機械可読記憶媒体を備え、テストサンプルにおける対象配列を、（ａ）複数の増幅ポリヌクレオチドの配列を受け取るステップであって、前記複数の増幅ポリヌクレオチドは、対象の配列を含むサンプル中の二本鎖ＤＮＡ断片を増幅させ、二本鎖ＤＮＡ断片にアダプターを結合させることにより得られる、ステップと；（ｂ）前記複数の増幅ポリヌクレオチドの１つにそれぞれ見られる複数の物理的ＭＩを特定するステップであって、各物理的ＵＭＩは二本鎖ＤＮＡ断片の１つに結合したアダプターに由来する、ステップと；（ｃ）前記複数の増幅ポリヌクレオチドの１つのそれぞれ見られる複数の仮想ＵＭＩを特定するステップであって、各仮想ＵＭＩは、二本鎖ＤＮＡ断片の１つの個々の分子に由来する、ステップと；（ｄ）前記二本鎖ＤＮＡ断片の配列を、前記複数の増幅ポリヌクレオチド、前記複数の物理的ＵＭＩ、および前記複数の仮想ＵＭＩの配列を用いて決定することにより、前記二本鎖ＤＮＡ断片の決定配列におけるエラーを減少させる、ステップとにより決定する。

別の実施態様は、核酸サンプルを受け取り、サンプルからの核酸配列情報を提供するシーケンサー；プロセッサ；および、プロセッサで実行するための指示を保存した機械可読記憶媒体を備えて、テストサンプルにおける対象配列を決定するシステムを提供する。指示には：（ａ）アダプターを前記サンプル中のＤＮＡ断片の両末端に適用することによって、ＤＮＡ−アダプター産物を得る指示であって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および該アダプターの一方の鎖または各鎖に非ランダムな特異的分子インデックス（ＵＭＩ）を含む、指示と；（ｂ）前記ＤＮＡ−アダプター産物を増幅させて複数の増幅ポリヌクレオチドを得る指示と；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、複数の非ランダムＵＭＩと関連する複数のリードを得る指示と；（ｄ）前記複数のリードから、共通の非ランダムＵＭＩを共有するリードを特定する指示と；（ｅ）前記共通の非ランダムＵＭＩを共有する特定されたリードより、共通の非ランダムＵＭＩ付き適用アダプターを有する、前記サンプルに由来するＤＮＡ断片の少なくとも一部の配列を決定する指示とを含む。一部の実施態様において、指示にはさらに：共通の非ランダムＵＭＩを共有するリードより、共通の非ランダムＵＭＩと共通のリード位置の両方を共有するリードを選択する指示が含まれ、（ｅ）においてＤＮＡ断片の配列を決定する指示では、共通の非ランダムＵＭＩおよび共通の参照配列におけるリード位置の両方を共有するリードのみを用いる。

別の実施態様では、指示は：（ａ）アダプターをサンプル中の二本鎖ＤＮＡ断片の両末端に適用することにより、ＤＮＡ−アダプター産物を得る指示であって、アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および該アダプターの一方の鎖または各鎖において非ランダムな特異的分子インデックス（ＵＭＩ）を含み、前記非ランダムＵＭＩは、他の情報と組み合わせて前記二本鎖ＤＮＡ断片の個々の分子を特異的に特定することが可能である、指示と；（ｂ）前記ＤＮＡ−アダプター産物の両鎖を増幅させて複数の増幅ポリヌクレオチドを得る指示と；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、それぞれが非ランダムＵＭＩと関連する複数のリードを得る指示と；（ｄ）前記複数のリードと関連する複数の非ランダムＵＭＩを特定する指示と；（ｅ）前記複数のリードと前記複数の非ランダムＵＭＩを用いて、前記サンプル中の二本鎖ＤＮＡ断片の配列を決定する指示とを含む。

本明細書に提供するシステムの何れかの一部の実施形態では、シーケンサーは、次世代シーケンシング（ＮＧＳ）を実行するように構成する。一部の実施形態では、シーケンサーは、可逆性ダイターミネータを用いたシーケンシング・バイ・シンセシスを用いて、大規模並列シーケンシングを行うように構成する。他の実施形態では、シーケンサーは、シーケンシング・バイ・ライゲーションを実行するように構成する。さらに他の実施形態では、シーケンサーは、単一分子シーケンシングを実行するように構成する。

加えて、ある実施形態は、種々のコンピュータによって実施される操作を実行するためのプログラム指示および／またはデータ（データ構造を含む）を含む、有形および／または非一過性のコンピュータ可読媒体またはコンピュータプログラム製品に関連する。コンピュータ可読媒体の例としては、限定するわけではないが、半導体メモリデバイス、ディスクドライブなどの磁気媒体、磁気テープ、ＣＤなどの光学媒体、光磁気媒体、ならびに、読み取り専用メモリデバイス（ＲＯＭ）およびランダムアクセスメモリ（ＲＭＡ）などの、プログラム指示を保存し実行するように特別に構成されたハードウェアデバイスが挙げられる。コンピュータ可読媒体はエンドユーザによって直接制御され得、または、媒体はエンドユーザにもって間接的に制御され得る。直接制御される媒体の例としては、ユーザファシリティに配置された媒体および／または他のエンティティと共有されない媒体が挙げられる。間接的に制御される媒体の例としては、外部ネットワークを介しておよび／または「クラウド」などのサービス提供共有リソースを介してユーザに間接的にアクセス可能な媒体が挙げられる。プログラム指示の例としては、コンパイラによって作成されるような機械コードと、インタープリタを用いるコンピュータによって実行され得るより高いレベルのコードを含むファイルの両方が挙げられる。

種々の実施形態では、本明細書に開示する方法および装置で利用するデータまたは情報を、電子フォーマットで提供する。このようなデータまたは情報には核酸サンプルに由来するリードおよびタグ、配列（多型のみまたは主に多型を提供する参照配列を含む）、がん診断コールなどのコール、カウンセリング勧告、および診断などが含まれる。本明細書で用いる場合、電子フォーマットで提供されるデータまたは他の情報は、機械における保存および機械間の転送向けに利用可能である。従来、電子フォーマットのデータはデジタル方式で提供され、該データは種々のデータ構造、リスト、データベースなどにおいて、ビットおよび／またはバイトとして保存され得る。データは、電子的、光学的等で具現される。

一実施形態は、テストサンプルにおける対象のＤＮＡ断片の配列を示すアウトプットを生成するためのコンピュータプログラム製品を提供する。コンピュータ製品は、対象の配列を決定する前述の方法の１つまたは複数を実行するための指示を含有し得る。説明したように、コンピュータ製品は、対象の配列を決定するためのプロセッサを作動させるために、コンピュータ実行可能なまたはコンピュータに準拠したロジック（例えば指示）が記録された非一過性および／または有形のコンピュータ可読媒体を備え得る。一例では、コンピュータ製品は、体調を診断するまたは対象の核酸配列を決定するためのプロセッサを作動させるために、コンピュータ実行可能なまたはコンピュータに準拠したロジック（例えば指示）が記録された非一過性および／または有形のコンピュータ可読媒体を備え得る。

援助のない人が、本明細書に開示する方法の計算操作を実行することは現実的ではないか、または多くの場合で実現可能ですらないということを理解されたい。例えば、１サンプルに由来する単一の３０ｂｐリードをヒト染色体の何れか１つにマッピングするには、計算装置の補助なしでは数年の労力を要し得る。もちろん、対立遺伝子頻度の低い変異体の確かなコールには、概して数千（例えば、少なくとも約１０，０００）または数百万のリードをも１つまたは複数の染色体にマッピングすることが必要であるため、問題は複雑である。

本明細書に開示の方法は、テストサンプルにおける対象サンプルを決定するためのシステムを用いて実行することが可能である。システムは：（ａ）テストサンプルに由来する核酸を受け取り、サンプルに由来する核酸配列情報を提供するシーケンサーと；（ｂ）プロセッサと；（ｃ）テストサンプルにおける対象配列を決定するためのプロセッサで実行する指示を記録した１つまたは複数のコンピュータ可読記録媒体とを備える。一実施形態では、本方法は、対象配列を決定する方法を実行するためのコンピュータ可読指示を記憶したコンピュータ可読媒体により指示される。したがって、一態様は、プログラムコードを記憶した非一過性機械可読媒体を備えるコンピュータプログラム製品を提供し、これは、コンピュータシステムの１つまたは複数のプロセッサにより実行される場合、コンピュータシステムに、テストサンプルの核酸断片の配列を決定する方法を実行させる。プログラムコードには：（ａ）複数の増幅ポリヌクレオチドの配列を受け取るためのコードであって、前記複数の増幅ポリヌクレオチドは、対象の配列を含む前記サンプル中の二本鎖ＤＮＡ断片を増幅し、前記二本鎖ＤＮＡ断片にアダプターを結合させることにより得られる、コードと；（ｂ）それぞれが前記複数の増幅ポリヌクレオチドの１つに見られる複数の物理的ＵＭＩを特定するためのコードであって、各物理的ＵＭＩは前記二本鎖ＤＮＡ断片の１つに結合したアダプターに由来する、コードと；（ｃ）それぞれが前記複数の増幅ポリヌクレオチドの１つに見られる複数の仮想ＵＭＩを特定するためのコードであって、各仮想ＵＭＩは前記二本鎖ＤＮＡ断片の１つの個々の分子に由来する、コードと；（ｄ）前記二本鎖ＤＮＡ断片の配列を、前記複数の増幅ポリヌクレオチドの配列、前記複数の物理的ＵＭＩ、および前記複数の仮想ＵＭＩを用いて決定することにより、前記二本鎖ＤＮＡの決定配列におけるエラーを減少させるコードとが含まれる。

一部の実施態様では、物理的ＵＭＩには非ランダムＵＭＩが含まれる。他の実施態様では、物理的ＵＭＩにはランダムＵＭＩが含まれる。

別の実施態様は、プログラムコードを記憶した非一過性機械可読媒体を備えるコンピュータプログラム製品を提供し、これは、コンピュータシステムの１つまたは複数のプロセッサにより実行される場合、コンピュータシステムに、テストサンプルの核酸断片の配列を決定する方法を実行させる。プログラムコードには：（ａ）アダプターをサンプル中のＤＮＡ断片の両末端に適用することによって、ＤＮＡ−アダプター産物を得るコードであって、アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および前記アダプターの一方の鎖または各鎖に非ランダムな特異的分子インデックス（ＵＭＩ）を含む、コードと；（ｂ）前記ＤＮＡ−アダプター産物を増幅して複数の増幅ポリヌクレオチドを得るためのコードと；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、複数の非ランダムＵＭＩと関連する複数のリードを得るためのコードと；（ｄ）前記複数のリードから、共通の非ランダムＵＭＩを共有するリードを特定するためのコードと；（ｅ）前記共通の非ランダムＵＭＩを有する特定されたリードより、前記共通の非ランダムＵＭＩ付きの適用アダプターを有する、前記サンプルに由来するＤＮＡ断片の少なくとも一部の配列を決定するためのコードとが含まれる。

別の実施態様では、プログラムコードは：（ａ）アダプターをサンプル中の二本鎖ＤＮＡ断片の両末端に適用することによって、ＤＮＡ−アダプター産物を得るためのコードであって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および該アダプターの一方の鎖または各鎖において非ランダムな特異的分子インデックス（ＵＭＩ）を含み、前記非ランダムＵＭＩを他の情報と組み合わせて前記二本鎖ＤＮＡ断片の個々の分子を特異的に特定することが可能である、コードと；（ｂ）前記ＤＮＡ−アダプター産物の両鎖を増幅して複数の増幅ポリヌクレオチドを得るためのコードと；（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、それぞれが非ランダムＵＭＩと関連する複数のリードを得るためのコードと；（ｄ）前記複数のリードと関連する複数の非ランダムＵＭＩを特定するためのコードと；（ｅ）前記複数のリードと前記複数の非ランダムＵＭＩを用いて、前記サンプル中の二本鎖ＤＮＡ断片の配列を決定するためのコードとを含む。

一部の実施形態では、指示にはさらに、本方法に関係する機械的に記録された情報が含まれ得る。患者の医療記録は、例えば、研究所、医師の事務室、病院、健康維持機構、保険会社、または個人の健康記録ウェブサイトに維持され得る。さらに、プロセッサが実行した解析の結果に基づき、本方法はさらに、テストサンプルを採取したヒト対象の治療を指示し、開始し、および／または変更することを伴い得る。これは、対象から採取した追加のサンプルについて１つまたは複数の追加のテストまたは解析を実行することを含み得る。

開示の方法は、また、対象の配列を決定する方法を実行するように適合されたまたは構成されたコンピュータ処理システムを用いて実行することが可能である。一実施形態は、本明細書に記載の方法を実行するように適合されたまたは構成されたコンピュータ処理システムを提供する。一実施形態では、装置は、本明細書の他で記載した配列情報のタイプを得るためにサンプルの核酸分子の少なくとも一部をシーケンシングするように適合されたまたは構成されたシーケンシングデバイスを備える。装置は、また、サンプルを処理するための構成部分を備え得る。このような構成部分については、本明細書の他で記載する。

配列または他のデータは、直接的または間接的に、コンピュータにインプットするまたはコンピュータ可読媒体に保存することが可能である。一実施形態では、コンピュータシステムは、サンプル由来の核酸配列を読み取りおよび／または解析するシーケンシングデバイスに直接結合する。このようなツールからの配列または他の情報は、コンピュータシステムのインターフェースを介して提供される。あるいは、システムにより処理された配列は、データベースまたは他のリポジトリなどの配列記憶ソースより提供される。いったん処理装置にとって入手可能になれば、メモリデバイスまたは大容量記憶デバイスは、少なくとも一時的に核酸の配列をバッファリングするかまたは記憶する。加えて、メモリデバイスは、種々の染色体またはゲノムなどのタグカウントを記憶し得る。メモリは、また、表示された配列またはマッピングされたデータの配列を解析するための種々のルーチンおよび／またはプログラムを記憶し得る。このようなプログラム／ルーチンには、統計解析などを実行するためのプログラムが含まれ得る。

一例では、ユーザはサンプルをシーケンシング装置に提供する。データはコンピュータに連結されたシーケンシング装置により収集されおよび／または解析される。コンピュータのソフトウェアにより、コンピュータはデータ収集および／またはデータ解析が可能になる。データは保存され、表示され（モニタまたは他の同様のデバイスを介し）、および／または他の場所に送られる。コンピュータはインターネットに接続され得、これを用いてデータを遠隔ユーザ（例えば、医師、科学者、または分析家）に利用されるハンドヘルドデバイスに転送する。データは転送の前に保存されおよび／または解析され得ることを理解されたい。一部の実施形態では、生データを収集し、データを解析および／または保存する遠隔のユーザまたは装置に送る。転送はインターネットを介して起き得るが、衛星または他の接続を介しても起き得る。代わりに、データはコンピュータ可読媒体に記憶され、媒体はエンドユーザに（例えば、メールを介して）送られる。遠隔ユーザは、限定するわけではないが、建物、市、州、国、または大陸を含む、同じまたは異なる地理的位置にいる可能性がある。

一部の実施形態では、本方法は、また、複数のポリヌクレオチド配列（例えば、リード、タグ、および／または参照染色体配列）に関するデータを収集するステップおよびデータをコンピュータまたは他のコンピュータシステムに送るステップを含む。例えば、コンピュータは、研究所の機器、例えば、サンプル収集装置、ヌクレオチド増幅装置、ヌクレオチドシーケンシング装置、またはハイブリダイゼーション装置に連結し得る。コンピュータは、次に、研究所のデバイスにより集められた適用可能なデータを収集し得る。データは任意のステップ、例えば、収集される間のリアルタイムで、送信前、送信中、送信と同時、または送信後に、コンピュータに記憶され得る。データは、コンピュータ可読媒体に記憶され得、これはコンピュータから取り出すことが可能である。収集または記憶されたデータは、コンピュータから遠隔の場所へ、例えばローカルネットワークまたはインターネットなどの広域ネットワークを介して転送することが可能である。遠隔場所では、下記のように種々の操作を転送データに対し実行することが可能である。

記憶、転送、解析、ならびに／または、本明細書に開示するシステム、装置、および方法で操作される電子フォーマット化されたデータのタイプには、以下のものがある：
テストサンプルの核酸をシーケンシングすることによって得られるリード
リードを参照ゲノムまたは他の参照配列に整列させることによって得られるタグ
参照ゲノムまたは参照配列
テストサンプルを影響あり、影響なし、またはコールなしと判断するための閾値
対象の配列に関連する健康状態についての実際のコール
診断（コールと関連する病態）
判断および／または診断より導き出されたさらなる検査の勧告
判断および／もしくは診断より導き出された治療ならびに／またはモニタリング計画。

これらのタイプのデータは、別の装置を用いて、１つまたは複数の場所で、得られ、保存され、転送され、解析され、および／または操作され得る。処理オプションは広範囲に及ぶ。範囲の一方の側では、この情報の全てまたは多くは、テストサンプルを処理する場所、例えば、医師の事務室または他の臨床現場で保存され、用いられる。その一方で、サンプルはある場所で得られ、それは別の場所で処理され、オプションとしてシーケンシングされ、リードを整列し、コールは１つまたは複数の異なる場所で行われ、診断、勧告、および／または計画は、さらに別の場所（サンプルを得た場所である場合もある）で準備される。

種々の実施形態では、リードをシーケンシング装置を用いて生成し、次に遠隔地に転送し、そこで処理して対象の配列を決定する。この遠隔場所では、例として、リードを参照配列に整列させて、アンカーおよびアンカーリードを生成する。遠隔場所で利用することができる処理操作には、以下のものがある：
サンプル収集
シーケンシングの準備としてのサンプル処理
シーケンシング
配列データの解析および医療コールの導出
診断
患者または医療供給者への診断および／またはコールの報告
さらなる治療、テスト、および／またはモニタリングの計画の作成
計画の実行
カウンセリング。

これらの操作の任意の１つまたは複数は、本明細書の他で記載するように自動化することができる。典型的には、シーケンシングおよび配列データの解析および医療コールの導出は、コンピュータで実行されよう。他の操作は手動または自動で実行することができる。

図６は、テストサンプルからコールまたは診断を生成するための分散システムの１つの実施態様を示す。サンプル収集の場所０１は、患者からテストサンプルを得るために用いる。サンプルは次に、処理およびシーケンシングの場所０３に提供され、ここでテストサンプルは上述のように処理され、シーケンシングされ得る。場所０３には、サンプルを処理するための装置および処理したサンプルをシーケンシングするための装置が含まれる。本明細書の他で記載するように、シーケンシングの結果はリードの集合であり、これは典型的には電子フォーマットで提供され、インターネットなどのネットワークに提供され、これは、図６の参照番号０５に示される。

配列データは遠隔場所０７に提供され、ここで解析およびコール生成を実行する。この場所には、コンピュータまたはプロセッサなどの、１つまたは複数の強力なコンピュータデバイスが含まれ得る。場所０７でのコンピュータリソースが解析を完了し、受け取った配列情報から判断を行った後、判断はネットワーク０５に中継される。一部の実施態様では、コールが場所０７でなされるだけでなく、関連する診断も生成される。コールおよび／または診断は、次に、ネットワークに転送され、図６に描くようにサンプル集合場所０１に戻される。説明したように、これは単に、判断または診断の生成に関連する種々の操作を、種々の場所に如何に割り振られるかについての多くのバリエーションのうちの単なる１つである。ある共通のバリアントには、単一場所において、サンプル収集の提供、ならびに処理およびシーケンシングが含まれる。別のバリエーションでは、解析およびコール生成と同じ場所で、処理およびシーケンシングが提供される。

実験
実施例１
ランダム物理的ＵＭＩおよび仮想ＵＭＩを用いてエラー抑制
図７Ａおよび図７Ｂは、本明細書に開示する方法を用いたエラー抑制の効率性を示す実験データを示す図である。実験者らはせん断されたＮＡ１２８７８のｇＤＮＡを用いた。該実験者らは、ＴｒｕＳｅｑライブラリ調製およびカスタムパネルを用いた濃縮を使用した（〜１３０Ｋｂ）。シーケンシングは２ｘ１５０ｂｐで、ＨｉＳｅｑ（登録商標）２５００の高速モードを用いて実行し、平均ターゲットカバレッジは〜１０，０００Ｘだった。図７Ａは、標準的な方法を用いた高品質塩基（＞Ｑ３０）のエラー率プロファイル（２番目に高い塩基の対立遺伝子頻度）を示す（平均エラー率は０．０４％である）。図７Ｂは折りたたみ／ＵＭＩパイプラインのエラー率のプロファイルを示す（平均エラー率は０．００７％である）。これらの結果はプロトタイプコードに基づき、さらにエラー率の低減は、改良された方法によって達成し得ることに注意されたい。

実施例２
非ランダムな物理的ＵＭＩおよび位置を用いたエラー抑制
図８は、位置情報のみを用いてリードを折りたたむことは、実際には異なるソース分子に由来するリードを折りたたみがちであることを示すデータを示す。この現象は、リードの不一致ともいう。結果として、本方法は、サンプル中の断片数を過小評価する傾向がある。図８のＹ軸に示すのは、位置情報のみを用いてリードを折りたたむことによって観察される断片の数である。図８のＸ軸に示すのは、異なるＳＮＰなどの異なる遺伝子型および他の遺伝子型に関する差異を考慮した推定断片数である。図に示すように、観察された断片数は、遺伝子型調整断片数よりも少なく、これは、位置情報のみを用いてリードを折りたたみ、断片を特定する際の、過小評価とリードの不一致を示す。

図９は、非ランダムＵＭＩと位置情報を用いてリードを折りたたむと、位置情報のみを用いるより正確な断片推定が提供され得ることを示す、実験データをプロットする。非ランダムＵＭＩは、アダプターの二本鎖末端に位置する６ｂｐの二重ＵＭＩ、９６個の異なるＵＭＩの１つから選択された非ランダムＵＭＩである。Ｙ軸にプロットするのは、各棒のペアの左については、ポジションをベースにした折りたたみ法を用いた平均折りたたみ断片数であり、各棒のペアの右については、ＵＭＩおよび位置をベースにした折りたたみ法を用いた平均折りたたみ断片数である。左の３つの棒のペアは、インプットを３度増加させたセルフリーＤＮＡサンプルについてのデータを示す。右の３つの棒のペアは、３つのせん断したゲノムＤＮＡサンプルについてのデータを示す。２つの折りたたみ法のペアの比較は、ＵＭＩと位置をベースにした折りたたみが、折りたたみに位置のみを用いるよりも、より大きい推定断片数を提供することを示す。２つの折りたたみ法の比較は、４つのゲノムＤＮＡサンプルよりもセルフリーＤＮＡサンプルで差がより大きいことを示す。さらに、セルフリーＤＮＡサンプルでの差は、サンプルインプットが増加するにつれ大きくなる。このデータは、非ランダムＵＭＩと位置情報の両方を用いて折りたたむと、リードの不一致と断片の過小評価を、特にセルフリーＤＮＡの場合に補正し得ることを示唆する。

図１０は、表形式で、ランダムＵＭＩで処理した３つのサンプルで異なるエラーが起きることを示す。データの最初の３つの行は、４３個のサンプルにおける異なる種類のエラー率を示す。最後の行は、サンプル全体で平均したエラー率を示す。表に示すように、９７．５８％のＵＭＩはエラーを含まず、１．０７％のＵＭＩは１つの回復可能なエラーを含む。全ＵＭＩの９８．６５％超が、個別ＤＮＡ断片にインデックスを付けるのに使用可能である。残りの多くは、文脈上の情報と組み合わせる場合、まだ使用可能である。

図１１Ａは、２つの異なるツール：ＶａｒＳｃａｎおよびＤｅｎｏｖｏを用いた２つの折りたたみ法を用いた、ｇＤＮＡサンプルにおける体細胞突然変異およびＣＮＶをコールする感度および選択性を示す。ＶａｒＳｃａｎツールを適用した場合、ＵＭＩと位置情報の両方を用いた折りたたみは、ＵＭＩを位置と共に用いた場合にＲＯＣ曲線が左上にシフトすることにより示されるように、わずかに高い感度と著しく良好な選択性（偽陽性率がより低い）を提供する。Ｄｅｎｏｖｏツールを適用した場合、ＵＭＩと位置情報の両方を用いた折りたたみは、著しく高い選択性を提供する。

図１１Ｂ〜Ｃは、選択性２つの異なるツール：ＶａｒＳｃａｎおよびＤｅｎｏｖｏを用いた２つの折りたたみ法を使用した、サンプルインプットを増やした３つのｃｆＤＮＡサンプルにおける体細胞突然変異およびＣＮＶをコールする選択性（つまり、偽陽性率）を示す。ＶａｒＳｃａｎツールと共に適用した場合、ＵＭＩと位置情報の両方を用いた折りたたみは、３つのサンプル全てについて著しく良好な選択性（偽陽性率がより低い）を提供する。Ｄｅｎｏｖｏツールと共に適用した場合、ＵＭＩと位置情報の両方を用いた折りたたみは、インプットが最も大きいサンプルにおいてのみ、良好な選択性（偽陽性率がより低い）を提供する。

本開示は、その趣旨または本質的特徴から離れることなく、他の特定の形態で実施することができる。記載する実施形態は、あらゆる点において単なる例示に過ぎず、限定的に解釈してはならない。そのため、本開示の範囲は、上記の記載ではなく添付の特許請求により示される。特許請求の範囲の均等範囲に属する変更は全て、本発明の範囲内のものである。

Claims

特異的分子インデックス（ＵＭＩ）を用いてサンプルの核酸分子をシーケンシングする方法であって、各特異的分子インデックス（ＵＭＩ）は、前記サンプル中の二本鎖ＤＮＡ断片の個々の分子を特定するために用いることが可能なオリゴヌクレオチド配列であり：
（ａ）アダプターを前記サンプル中の二本鎖ＤＮＡ断片の両末端に適用することによりＤＮＡ−アダプター産物を得るステップであって、前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および該アダプターの一方の鎖または各鎖に物理的ＵＭＩを含む、ステップと；
（ｂ）前記ＤＮＡ−アダプター産物の両鎖を増幅させて複数の増幅ポリヌクレオチドを得るステップと；
（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、それぞれ物理的ＵＭＩと関連する複数のリードを得るステップと；
（ｄ）前記複数のリードと関連する複数の物理的ＵＭＩを特定するステップと；
（ｅ）前記複数のリードと関連する複数の仮想ＵＭＩを特定するステップであって、各仮想ＵＭＩは、前記サンプル中のＤＮＡ断片に見られる配列である、ステップと；
（ｆ）前記サンプル中の二本鎖ＤＮＡ断片の配列を、ステップ（ｃ）で得られた複数のリード、ステップ（ｄ）で特定された複数の物理的ＵＭＩ、およびステップ（ｅ）で特定された複数の仮想ＵＭＩを用いて決定するステップとを含む、方法。
前記ステップ（ｆ）は：
前記サンプル中の１つまたは複数の二本鎖ＤＮＡ断片のそれぞれについて、（ｉ）第１物理的ＵＭＩおよび少なくとも１つの仮想ＵＭＩを有するリードと、（ｉｉ）第２物理的ＵＭＩおよび前記少なくとも１つの仮想ＵＭＩを有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと；
前記サンプル中の１つまたは複数の二本鎖ＤＮＡ断片のそれぞれについて、前記コンセンサスヌクレオチド配列を用いて配列を決定するステップとを含む、
請求項１に記載の方法。
前記複数の物理的ＵＭＩはランダムＵＭＩを含む、請求項１に記載の方法。
前記複数の物理的ＵＭＩは非ランダムＵＭＩを含む、請求項１に記載の方法。
どの非ランダムＵＭＩも、該非ランダムＵＭＩの対応する配列位置において、少なくとも２ヌクレオチド分、前記アダプターの他のどの非ランダムＵＭＩとも異なる、請求項４に記載の方法。
前記複数の物理的ＵＭＩは約１０，０００個以下の特異的な非ランダムＵＭＩを含む、請求項５に記載の方法。
前記複数の物理的ＵＭＩは約１，０００個以下の特異的な非ランダムＵＭＩを含む、請求項６に記載の方法。
前記複数の物理的ＵＭＩは約５００個以下の特異的な非ランダムＵＭＩを含む、請求項７に記載の方法。
前記複数の物理的ＵＭＩは約１００個以下の特異的な非ランダムＵＭＩを含む、請求項８に記載の方法。
前記複数の物理的ＵＭＩは約９６個の特異的な非ランダムＵＭＩを含む、請求項９に記載の方法。
二本鎖ＤＮＡ断片の両末端にアダプターを適用するステップは、前記二本鎖ＤＮＡ断片の両末端に前記アダプターをライゲーションするステップを含む、請求項１に記載の方法。
前記ステップ（ｆ）は、共通の物理的ＵＭＩと共通の仮想ＵＭＩとを共有するリードを用いて前記サンプルのＤＮＡ断片の配列を決定するステップを含む、請求項１に記載の方法。
前記複数の物理的ＵＭＩは１２個未満のヌクレオチドを含む、請求項１に記載の方法。
前記複数のＵＭＩは６個以下のヌクレオチドを含む、請求項１３に記載の方法。
前記複数のＵＭＩは４個以下のヌクレオチドを含む、請求項１３に記載の方法。
前記アダプターはそれぞれ、前記二本鎖ハイブリッド領域のアダプターの各鎖において物理的ＵＭＩを含む、請求項１に記載の方法。
前記物理的ＵＭＩは前記３’アームまたは前記５’アームの向かい側にある前記二本鎖ハイブリッド領域の末端またはその近くにある、請求項１６に記載の方法。
前記物理的ＵＭＩは前記二本鎖ハイブリッド領域の末端にあるか、または、前記二本鎖ハイブリッド領域の末端から１ヌクレオチド離れている、請求項１７に記載の方法。
前記アダプターはそれぞれ、物理的ＵＭＩに隣接する前記二本鎖ハイブリッド領域において５’−ＴＧＧ−３’トリヌクレオチドまたは３’−ＡＣＣ−５’トリヌクレオチドを含む、請求項１８に記載の方法。
前記アダプターはそれぞれ、前記二本鎖ハイブリッド領域の各鎖においてリードプライマー配列を含む、請求項１９に記載の方法。
前記アダプターはそれぞれ、前記一本鎖５’アームまたは前記一本鎖３’アームのアダプターの一方の鎖においてのみ物理的ＵＭＩを含む、請求項１に記載の方法。
前記ステップ（ｆ）は：
（ｉ）同一の第１物理的ＵＭＩを有するリードを折りたたんで第１グループにして、第１コンセンサスヌクレオチド配列を得るステップと；
（ｉｉ）同一の第２物理的ＵＭＩを有するリードを折りたたんで第２グループにして、第２コンセンサスヌクレオチド配列を得るステップと；
（ｉｉｉ）前記第１コンセンサスヌクレオチド配列および前記第２コンセンサスヌクレオチド配列を用いて、前記サンプル中の二本鎖ＤＮＡ断片の１つの配列を決定するステップとを含む、請求項２１に記載の方法。
前記ステップ（ｉｉｉ）は：（１）前記第１コンセンサスヌクレオチド配列および前記第２コンセンサスヌクレオチド配列の位置測定情報および配列情報を用いて、第３コンセンサスヌクレオチド配列を得るステップと、（２）前記第３コンセンサスヌクレオチド配列を用いて、前記二本鎖ＤＮＡ断片の１つの配列を決定するステップとを含む、請求項２２に記載の方法。
前記ステップ（ｅ）は、前記複数の仮想ＵＭＩを特定するステップを含み、一方、前記アダプターはそれぞれ、前記一本鎖５’アームまたは前記一本鎖３’アームにおいてのみ前記物理的ＵＭＩを含む、請求項２１に記載の方法。
前記ステップ（ｆ）は：
（ｉ）第１物理的ＵＭＩおよび少なくとも１つの仮想ＵＭＩをリード方向で有するリードと、第２物理的ＵＭＩおよび前記少なくとも１つの仮想ＵＭＩを前記リード方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと；
（ｉｉ）前記サンプル中の二本鎖ＤＮＡ断片の１つの配列を、前記コンセンサスヌクレオチド配列を用いて決定するステップとを含む、請求項２４に記載の方法。
前記アダプターはそれぞれ、前記アダプターの二本鎖領域のアダプターの各鎖において物理的ＵＭＩを含み、一方の鎖における前記物理的ＵＭＩは、もう一方の鎖の前記物理的ＵＭＩに対し相補的である、請求項１に記載の方法。
前記ステップ（ｆ）は：
（ｉ）第１物理的ＵＭＩ、少なくとも１つの仮想ＵＭＩ、および第２物理的ＵＭＩを５’から３’の方向で有するリードと、前記第２物理的ＵＭＩ、前記少なくとも１つの仮想ＵＭＩ、および前記第１物理的ＵＭＩを５’から３’の方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと；
（ｉｉ）前記サンプル中の二本鎖ＤＮＡ断片の１つの配列を、前記コンセンサスヌクレオチド配列を用いて決定するステップとを含む、請求項２６に記載の方法。
前記アダプターはそれぞれ、前記アダプターの３’アームにおいて第１物理的ＵＭＩを、前記アダプターの５’アームにおいて第２物理的ＵＭＩを含み、前記第１物理的ＵＭＩおよび前記第２物理的ＵＭＩは互いに相補的ではない、請求項１に記載の方法。
ステップ（ｆ）は：
（ｉ）第１物理的ＵＭＩ、少なくとも１つの仮想ＵＭＩ、および第２物理的ＵＭＩを５’から３’の方向で有するリードと、第３物理的ＵＭＩ、前記少なくとも１つの仮想ＵＭＩ、および第４物理的ＵＭＩを５’から３’の方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定するステップと；
（ｉｉ）前記サンプル中の二本鎖ＤＮＡ断片の１つの配列を、前記コンセンサスヌクレオチド配列を用いて決定するステップとを含む、請求項２８に記載の方法。
前記仮想ＵＭＩの少なくとも一部は、前記サンプル中の二本鎖ＤＮＡ断片の末端またはその近くのサブ配列に由来する、請求項１に記載の方法。
１つもしくは複数の物理的ＵＭＩおよび／または１つもしくは複数の仮想ＵＭＩは、前記サンプル中の二本鎖ＤＮＡ断片と特異的に関連する、請求項１に記載の方法。
前記サンプル中の二本鎖ＤＮＡ断片は約１，０００個超のＤＮＡ断片を含む、請求項１に記載の方法。
前記複数の仮想ＵＭＩは約６ｂｐ〜約２４ｂｐのＵＭＩを含む、請求項１に記載の方法。
前記複数の仮想ＵＭＩは約６ｂｐ〜約１０ｂｐのＵＭＩを含む、請求項３３に記載の方法。
操作ステップ（ｃ）において前記複数のリードを得るステップは：前記増幅ポリヌクレオチドのそれぞれから２つのペアエンドリードを得るステップであって、前記２つのペアエンドリードは長リードと短リードを含み、前記長リードは前記短リードよりも長い、ステップを含む、請求項１に記載の方法。
ステップ（ｆ）は：
第１物理的ＵＭＩと関連するリードペアを第１グループにまとめ、第２物理的ＵＭＩと関連するリードペアを第２グループにまとめるステップであって、前記第１物理的ＵＭＩおよび前記第２物理的ＵＭＩは前記サンプル中の二本鎖断片と特異的に関連する、ステップと；
前記サンプル中の二本鎖断片の配列を、前記第１グループの長リードの配列情報および前記第２グループの長リードの配列情報を用いて決定するステップとを含む、請求項３５に記載の方法。
前記長リードのリード長は約５００ｂｐ以上である、請求項３５に記載の方法。
前記短リードのリード長は約５０ｂｐ以下である、請求項３５に記載の方法。
以下の操作：ＰＣＲ、ライブラリ調製、クラスタ化、およびシーケンシングのうち１つまたは複数で起きるエラーを抑制する、請求項１に記載の方法。
前記増幅ポリヌクレオチドは、対立遺伝子頻度が約１％より低い対立遺伝子を含む、請求項１に記載の方法。
前記増幅ポリヌクレオチドは腫瘍に由来するセルフリーＤＮＡ分子を含み、前記対立遺伝子は腫瘍を示唆する、請求項４０に記載の方法。
前記複数の増幅ポリヌクレオチドをシーケンシングするステップは、少なくとも約１００ｂｐを有するリードを得るステップを含む、請求項１に記載の方法。
各鎖に物理的ＵＭＩを有する二重シーケンシングアダプターを作成する方法であって：
二本鎖ハイブリッド領域と、２つの一本鎖アームと、二本鎖ハイブリッド領域の末端において、前記２つの一本鎖アームからさらに離れて５’−ＣＣＡＮＮＮＮＡＮＮＮＮＴＧＧ−３’を含むオーバーハングとを含む予備シーケンシングアダプターを提供するステップと；
前記二本鎖ハイブリッド領域の一方の鎖を、前記オーバーハングを鋳型として用いて伸長させることにより、伸長産物を生成するステップと；
制限酵素Ｘｃｍ１を適用して前記伸長産物の二本鎖末端を消化することにより、物理的ＵＭＩを各鎖に有する二重シーケンシングアダプターを生成するステップとを含む、方法。
前記予備シーケンシングアダプターは各鎖においてリードプライマー配列を含む、請求項４３に記載の方法。
コンピュータシステムの１つまたは複数のプロセッサにより実行された場合、サンプル中の対象配列の配列情報を、前記サンプル中の二本鎖ＤＮＡ断片の個々の分子を特定するために用いることが可能なオリゴヌクレオチド配列である特異的分子インデックス（ＵＭＩ）を用いて決定する方法を前記コンピュータシステムに実行させるプログラムコードを記憶している非一時的な機械可読媒体を含むコンピュータプログラム製品であって、前記プログラムコードは：
複数の増幅ポリヌクレオチドのリードを得るためのコードであって、前記複数の増幅ポリヌクレオチドは、対象の配列を含む前記サンプル中の二本鎖ＤＮＡ断片を増幅させ、前記二本鎖ＤＮＡ断片にアダプターを結合させることにより得られる、コードと；
前記複数の増幅ポリヌクレオチドのリードにおける複数の物理的ＵＭＩを特定するためのコードであって、各物理的ＵＭＩは前記二本鎖ＤＮＡ断片の１つに結合したアダプターにおいて見られる、コードと；
前記複数の増幅ポリヌクレオチドのリードにおける複数の仮想ＵＭＩを特定するためのコードであって、各仮想ＵＭＩは前記二本鎖ＤＮＡ断片の１つの個々の分子に見られる、コードと；
前記二本鎖ＤＮＡ断片の配列を、前記複数の増幅ポリヌクレオチドのリード、前記複数の物理的ＵＭＩ、および前記複数の仮想ＵＭＩを用いて決定することにより、前記二本鎖ＤＮＡ断片の決定配列におけるエラーを減少させるコードとを含む、コンピュータプログラム製品。
前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および該アダプターの一方の鎖または各鎖において物理的な特異的分子インデックス（ＵＭＩ）を含む、請求項４５に記載のコンピュータプログラム製品。
前記二本鎖ＤＮＡ断片の配列を決定するためのコードは：
（ｉ）同一の第１物理的ＵＭＩを有するリードを折りたたんで第１グループにして、第１コンセンサスヌクレオチド配列を得るためのコードと；
（ｉｉ）同一の第２物理的ＵＭＩを有するリードを折りたたんで第２グループにして、第２コンセンサスヌクレオチド配列を得るためのコードと；
（ｉｉｉ）前記第１コンセンサスヌクレオチド配列および前記第２コンセンサスヌクレオチド配列を用いて、前記サンプル中の二本鎖ＤＮＡ断片の１つの配列を決定するコードとを含む、請求項４５に記載のコンピュータプログラム製品。
前記二本鎖ＤＮＡ断片の配列を決定するためのコードは：
（ｉ）第１物理的ＵＭＩ、少なくとも１つの仮想ＵＭＩ、および第２物理的ＵＭＩを５’から３’の方向で有する配列リードと、前記第２物理的ＵＭＩ、前記少なくとも１つの仮想ＵＭＩ、および前記第１物理的ＵＭＩを５’から３’の方向で有する配列リードとを組み合わせて、コンセンサスヌクレオチド配列を決定するためのコードと；
（ｉｉ）前記サンプル中の二本鎖ＤＮＡ断片の１つの配列を、前記コンセンサスヌクレオチド配列を用いて決定するためのコードとを含む、請求項４５に記載のコンピュータプログラム製品。
１つまたは複数のプロセッサと；
システムメモリと；
１つまたは複数のコンピュータ可読記憶媒体とを含む、コンピュータシステムであって、
前記コンピュータ可読記憶媒体はその中に、サンプル中の対象配列の配列情報を、前記サンプル中の二本鎖ＤＮＡ断片の個々の分子を特定するのに用いることが可能なオリゴヌクレオチド配列である特異的分子インデックス（ＵＭＩ）を用いて決定する方法を前記コンピュータシステムに実行させる、コンピュータ実行可能な指示を記憶しており、
前記指示は：
複数の増幅ポリヌクレオチドのリードを受け取る指示であって、前記複数の増幅ポリヌクレオチドは、対象の配列を含む前記サンプル中の二本鎖ＤＮＡ断片を増幅させ、前記二本鎖ＤＮＡ断片にアダプターを結合させることにより得られる、指示と；
受け取った前記複数の増幅ポリヌクレオチドのリードの複数の物理的ＵＭＩを特定する指示であって、各物理的ＵＭＩは前記二本鎖ＤＮＡ断片の１つに結合したアダプターにおいて見られる、指示と；
受け取った前記複数の増幅ポリヌクレオチドのリードの複数の仮想ＵＭＩを特定する指示であって、各仮想ＵＭＩは前記二本鎖ＤＮＡ断片の１つの個々の分子に見られる、指示と；
前記二本鎖ＤＮＡ断片の配列を、前記複数の増幅ポリヌクレオチドの配列、前記複数の物理的ＵＭＩ、および前記複数の仮想ＵＭＩを用いて決定することにより、前記二本鎖ＤＮＡ断片の決定配列におけるエラーを減少させる、指示とを含む、コンピュータシステム。
前記二本鎖ＤＮＡ断片の配列を決定する指示は：
（ｉ）同一の第１物理的ＵＭＩを有するリードを折りたたんで第１グループにして、第１コンセンサスヌクレオチド配列を得る指示と；
（ｉｉ）同一の第２物理的ＵＭＩを有するリードを折りたたんで第２グループにして、第２コンセンサスヌクレオチド配列を得る指示と；
（ｉｉｉ）前記第１コンセンサスヌクレオチド配列および前記第２コンセンサスヌクレオチド配列を用いて、前記二本鎖ＤＮＡ断片の１つの配列を決定する指示とを含む、請求項４９に記載のコンピュータシステム。
前記二本鎖ＤＮＡ断片の配列を決定する指示は：
（ｉ）第１物理的ＵＭＩ、少なくとも１つの仮想ＵＭＩ、および第２物理的ＵＭＩを５’から３’の方向で有するリードと、前記第２物理的ＵＭＩ、前記少なくとも１つの仮想ＵＭＩ、および前記第１物理的ＵＭＩを５’から３’の方向で有するリードとを組み合わせて、コンセンサスヌクレオチド配列を決定する指示と；
（ｉｉ）前記二本鎖ＤＮＡ断片の１つの配列を、前記コンセンサスヌクレオチド配列を用いて決定する指示とを含む、請求項４９に記載のコンピュータシステム。
サンプル由来の核酸分子をシーケンシングする方法であって：
（ａ）アダプターを前記サンプル中の二本鎖ＤＮＡ断片の両末端に結合させるステップであって、
前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および前記一本鎖５’アームまたは前記一本鎖３’アームに物理的な特異的分子インデックス（ＵＭＩ）を含み、
ＵＭＩは、前記サンプル中の二本鎖ＤＮＡ断片の個々の分子を特定するために用いることが可能なオリゴヌクレオチド配列である、ステップと；
（ｂ）（ａ）のライゲーション産物の両鎖を増幅することにより、複数の一本鎖増幅ポリヌクレオチドを得るステップと；
（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、物理的ＵＭＩとそれぞれ関連する複数のリードを得るステップと；
（ｄ）前記複数のリードと関連する複数の物理的ＵＭＩを特定するステップと；
（ｅ）前記サンプル中の二本鎖ＤＮＡ断片の配列を、（ｃ）で得た複数の配列および（ｄ）で特定した複数の物理的ＵＭＩを用いて決定するステップとを含む、方法。
サンプルに由来する核酸分子をシーケンシングする方法であって：
（ａ）アダプターを前記サンプル中の二本鎖ＤＮＡ断片の両末端に結合させるステップであって、
前記アダプターはそれぞれ、二本鎖ハイブリッド領域、一本鎖５’アーム、一本鎖３’アーム、および前記アダプターの一方の鎖または各鎖において１２ヌクレオチドより短い物理的な特異的分子インデックス（ＵＭＩ）を含み、
ＵＭＩは、前記サンプル中の二本鎖ＤＮＡ断片の個々の分子を特定するために用いることが可能なオリゴヌクレオチド配列である、ステップと；
（ｂ）（ａ）のライゲーション産物の両鎖を増幅することにより、それぞれ物理的ＵＭＩを含む、複数の一本鎖増幅ポリヌクレオチドを得るステップと；
（ｃ）前記複数の増幅ポリヌクレオチドをシーケンシングすることにより、物理的ＵＭＩとそれぞれ関連する複数のリードを得るステップと；
（ｄ）前記複数のリードと関連する複数の物理的ＵＭＩを特定するステップと；
（ｅ）前記サンプル中の二本鎖ＤＮＡ断片の配列を、（ｃ）で得た複数のリードおよび（ｄ）で特定した複数の物理的ＵＭＩを用いて決定するステップとを含む、方法。