JP2019506871A

JP2019506871A - ゲノムアセンブリのためのフェージングされたリードセットの生成とハプロタイプフェージング

Info

Publication number: JP2019506871A
Application number: JP2018543207A
Authority: JP
Inventors: イー．，ジュニアグリーン，リチャード; エス．ロクザー，ダニエル; ハートレー，ポール; ブランシェット，マルコ
Original assignee: ダブテイルゲノミクスエルエルシー
Priority date: 2016-02-23
Filing date: 2017-02-23
Publication date: 2019-03-14
Anticipated expiration: 2037-02-23
Also published as: WO2017147279A1; US20190241933A1; CN109072298A; IL261180A; US10975417B2; EP3420108A1; EP3420108A4; JP2022068171A; CN109072298B; AU2017223600A1; JP7441003B2; AU2017223600B2; SG11201807117WA; CA3014911A1; KR20180116377A; US20220064701A1; IL261180B

Abstract

個々の分子のフェーズまたは物理的な結合情報を保存するような手法で核酸分子の分割と再配列によってゲノム配列データなどの配列データの正確なフェージングを促す方法、組成物、およびシステムが本明細書で開示される。これは、ホスホジエステル骨格とは無関係に分子を結合し、分子を切断し、ライゲートし、少なくとも１つを超えるセグメントに及ぶセグメント配列情報を回復するためのロングリード配列決定技術によって、分子を配列決定することによって様々に達成される。【選択図】図７

Description

本出願は、全体として参照により本明細書に明確に組み込まれる２０１６年２月２３日に出願された米国仮出願第６２／２９８，９０６号の利益を主張するものであり、本出願はさらに、全体として参照により本明細書に明確に組み込まれる２０１６年２月２３日に出願された米国仮出願第６２／２９８，９６６号の利益を主張し、および、本出願はさらに、全体として参照により本明細書に明確に組み込まれる２０１６年３月９日に出願された米国仮出願第６２／３０５，９５７号の利益を主張するものである。

二倍体または倍数体のゲノムを有するもの、あるいは相当な量の反復配列または同一の配列を含むものなどの複雑なＤＮＡサンプルのハプロタイプのフェーズ情報を決定することは、理論上も実際にも困難なままである。困難さは、高反復領域あるいは同一の配列の長いストレッチによって分離されている所望の遺伝子座から生じ、リード情報の標準的なアセンブリが遺伝子座の対立遺伝子にフェーズ情報を割り当てるのに不十分なほどである。

染色体などの分節上に再配列された核酸分子の生成とロングリード配列決定などの配列決定を介する核酸配列データの正確なフェージングに関連する方法、組成物、およびシステムが本明細書に開示されている。

第１のＤＮＡ分子から長距離フェーズ情報を生成する方法が本明細書で開示され、該方法は、ａ）第１のセグメントと第２のセグメントとを有する第１のＤＮＡ分子を提供する工程であって、第１のセグメントと第２のセグメントが第１のＤＮＡ分子上で隣接しない、工程と、ｂ）第１のセグメントと第２のセグメントが、第１のＤＮＡ分子の共通のホスホジエステル骨格とは無関係にＤＮＡ結合部分に結合するように、ＤＮＡ結合部分に第１のＤＮＡ分子を接触させる工程と、ｃ）第１のセグメントと第２のセグメントが共通のホスホジエステル骨格によって結合されないように、第１のＤＮＡ分子を切断する工程と、ｄ）再アセンブルされた第１のＤＮＡ分子を形成するためにホスホジエステル結合によって第２のセグメントに第１のセグメントを取り付ける工程と、ｅ）単一の配列決定リードの第１のセグメントと第２のセグメントとの間の接合部を含む再アセンブルされた第１のＤＮＡ分子の少なくとも４ｋｂの連続する配列を配列決定する工程であって、第１のセグメント配列と第２のセグメント配列が第１のＤＮＡ分子からの長距離フェーズ情報を表す、工程を含む。いくつかの態様では、ＤＮＡ結合部分は、ＤＮＡ結合タンパク質などの複数のＤＮＡ結合分子を含む。いくつかの態様では、ＤＮＡ結合タンパク質の集団は、核タンパク、広範にはヌクレオソームを含み、あるいは場合によっては、より具体的にヒストンを含む。いくつかの態様では、複数のＤＮＡ結合部分へ第１のＤＮＡ分子を接触させる工程は、ＤＮＡ結合ナノ粒子の集団に接触させることを含む。しばしば、第１のＤＮＡ分子は、第１のＤＮＡ分子上で第１のセグメントあるいは第２のセグメントに隣接していない第３のセグメントを有し、（ｂ）の接触させる工程は、第３のセグメントが第１のＤＮＡ分子の共通のホスホジエステル骨格とは無関係に、ＤＮＡ結合部分に結合されるように行われ、（ｃ）の切断する工程は、第３のセグメントが共通のホスホジエステル骨格によって第１のセグメントと第２のセグメントに結合されないように行われ、取り付ける工程は、再アセンブルされた第１のＤＮＡ分子を形成するためにホスホジエステル結合によって第２のセグメントに第３のセグメントを取り付けることを含み、（ｅ）の配列決定された連続する配列は、単一の配列決定リードの第２のセグメントと第３のセグメントとの間に接合部を含む。該方法は、ホルムアルデヒドなどの架橋剤へ第１のＤＮＡ分子を接触させる工程をしばしば含む。いくつかの態様では、ＤＮＡ結合部分は、複数のＤＮＡ結合部分を含む表面に結合される。いくつかの態様では、ＤＮＡ結合部分は、ビーズを含む固体のフレームワークに結合される。いくつかの態様では、第１のＤＮＡ分子を切断する工程は、非特異的なエンドヌクレアーゼ、タグメンテーション酵素、あるいはトランスポサーゼなどの制限エンドヌクレアーゼに接触させることを含む。いくつかの態様では、第１のＤＮＡ分子を切断する工程は、第１の分子を剪断することを含む。随意に、該方法は、少なくとも１つの露出した末端にタグを加える工程を含む。典型的なタグは標識された塩基、メチル化された塩基、ビオチン化された塩基、ウリジン、あるいは他の非標準の塩基を含む。いくつかの態様では、タグは平滑末端を有する露出した末端を生成する。いくつかの態様では、該方法は、第１のセグメントの粘着末端のくぼんだ鎖に少なくとも１つの塩基を加える工程を含む。いくつかの態様では、該方法は、第１のセグメントの粘着末端にアニール化されるオーバーハングを含むリンカーオリゴを加える工程を含む。いくつかの態様では、リンカーオリゴは、第１のセグメントの粘着末端にアニール化されるオーバーハングと、第２のセグメントの粘着末端にアニール化されるオーバーハングとを含む。いくつかの態様では、リンカーオリゴは２つの５’リン酸塩部分を含まない。いくつかの態様では、取り付ける工程はライゲートする工程を含む。いくつかの態様では、取り付ける工程はＤＮＡ一本鎖ニック修復を含む。いくつかの態様では、第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１０ｋｂ離される。いくつかの態様では、第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１５ｋｂ離される。いくつかの態様では、第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも３０ｋｂ離される。いくつかの態様では、第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも５０ｋｂ離される。いくつかの態様では、第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１００ｋｂ離される。いくつかの態様では、配列決定は、単一分子のロングリード配列決定を含む。いくつかの態様では、ロングリード配列決定は、少なくとも５ｋｂのリードを含む。いくつかの態様では、ロングリード配列決定は、少なくとも１０ｋｂのリードを含む。いくつかの態様では、第１の再アセンブルされたＤＮＡ分子は、第１のＤＮＡ分子の一方の末端で、５’末端〜３’末端を結合するヘアピン部分を含む。いくつかの態様では、該方法は、第１のＤＮＡ分子の第２の再アセンブルされたバージョンを配列決定する工程を含む。いくつかの態様では、第１のセグメントと第２のセグメントは各々少なくとも５００ｂｐである。いくつかの態様では、第１のセグメント、第２のセグメント、および第３のセグメントは、各々少なくとも５００ｂｐである。

ゲノムアセンブリの方法が本明細書で開示され、該方法は、ａ）ある構造に複合体化された第１のＤＮＡ分子を得る工程と、ｂ）第１の露出した末端と第２の露出した末端を形成するために第１のＤＮＡ分子を切断する工程であって、第１の露出した末端と第２の露出した末端が上記切断前に分子上で隣接していなかった、工程と、ｃ）第３の露出した末端と第４の露出した末端を形成するために第１のＤＮＡ分子を切断する工程であって、第３の露出した末端と第４の露出した末端が上記切断前に分子上で隣接していなかった、工程と、ｄ）第１の接合部を形成するために、上記第１の露出した末端と上記第２の露出した末端を取り付ける工程と、ｅ）第２の接合部を形成するために、上記第３の露出した末端と上記第４の露出した末端を取り付ける工程と、ｆ）単一の配列決定リード中で上記第１の接合部と上記第２の接合部にわたって配列決定する工程と、ｇ）複数のコンティグの第１のコンティグに、上記第１の接合部の第１の側の配列をマッピングする工程と、ｈ）複数のコンティグの第２のコンティグに、上記第１の接合部の第２の側の配列をマッピングする工程と、ｉ）複数のコンティグの第２のコンティグに、上記第２の接合部の第１の側の配列をマッピングする工程と、ｊ）複数のコンティグの第３のコンティグに、上記第２の接合部の第２の側の配列をマッピングする工程と、ｋ）ゲノムアセンブリの共通のフェーズに、上記第１のコンティグ、上記第２のコンティグ、および上記第３のコンティグを割り当てる工程とを含む。いくつかの態様では、上記複数のコンティグはショットガン配列データから生成される。いくつかの態様では、上記複数のコンティグは単一分子のロングリードデータから生成される。いくつかの態様では、上記単一分子のロングリードデータは上記複数のコンティグを含む。いくつかの態様では、上記複数のコンティグは、上記第１の接合部と上記第２の接合部での配列決定によって同時に得られる。いくつかの態様では、上記マーカーオリゴでの配列決定は少なくとも１０ｋｂの配列決定を含む。いくつかの態様では、上記構造は、再構成されたクロマチンを形成するために、第１のＤＮＡ分子に結合されたＤＮＡ結合部分の集団を含む。いくつかの態様において、上記の再構成されたクロマチンは橋架剤に接触させる。いくつかの態様では、上記橋架剤はホルムアルデヒドを含む。いくつかの態様では、ＤＮＡ結合部分の上記集団はヒストンを含む。いくつかの態様では、ＤＮＡ結合部分の上記集団はナノ粒子を含む。いくつかの態様では、上記構造は天然のクロマチンを含む。いくつかの態様では、第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１０ｋｂ離される。いくつかの態様では、第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１５ｋｂ離される。いくつかの態様では、第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも３０ｋｂ離される。いくつかの態様では、第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも５０ｋｂ離される。いくつかの態様では、第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１００ｋｂ離される。いくつかの態様では、該方法は、第１のＤＮＡ分子の第２のコピーを配列決定する工程を含む。

ａ）第１のセグメント、ｂ）第２のセグメント、および、ｃ）第３のセグメントを含む少なくとも５ｋｂの再配列された核酸分子が本明細書で開示され、上記第１のセグメントと上記第２のセグメントは第１の接合部で結合され、および、上記第２のセグメントと上記第３のセグメントは第２の接合部で結合され、上記第１のセグメント、上記第２のセグメント、および上記第３のセグメントは、再配列されていない核酸分子において少なくとも１０ｋｂ離れたフェーズに存在し、および、上記再配列された核酸分子の少なくとも７０％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、第１のセグメント、第２のセグメント、および第３のセグメントは、ゲノムの共通の核酸分子からの別々のゲノム核酸配列を含む。いくつかの態様では、第１のセグメント、第２のセグメント、および第３のセグメントは、再配列された核酸において再配置される順序でゲノム中の共通の分子に存在する。いくつかの態様では、上記核酸分子は少なくとも３０ｋｂの長さである。いくつかの態様では、上記核酸は、二本鎖の終端でヘアーピンループを含み、その結果、分子は、３０ｋｂの逆方向反復を含む一本鎖を含んでいる。いくつかの態様では、上記核酸は、二本鎖の環状分子である。いくつかの態様では、上記再配列された核酸分子の少なくとも８０％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子の少なくとも８５％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子の少なくとも９０％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子の少なくとも９５％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子の少なくとも９９％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも８０％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも８５％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも９０％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも９５％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも９９％は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、再配列された核酸は本明細書に開示された方法のいずれかの工程によって生成される。

サンプル核酸分子のフェージングされた配列を生成する方法が本明細書で開示され、該方法は、ａ）サンプル核酸分子から本明細書に開示されるような第１の再配列された核酸分子を生成する工程と、ｂ）サンプル核酸分子から本明細書に開示されるような第２の再配列された核酸分子を生成する工程と、および、ｃ）第１の再配列された核酸分子と第２の再配列された核酸分子を配列決定する工程を含み、第１の再配列された核酸分子と第２の再配列された核酸分子は独立して生成される。

サンプル核酸分子のフェージングされた配列を生成する方法が本明細書に開示され、該方法は、ａ）サンプル核酸分子から本明細書に開示されるような第１の再配列された核酸分子を配列決定する工程と、ｂ）サンプル核酸分子から本明細書に開示されるような第２の再配列された核酸分子を配列決定する工程であって、第１の再配列された核酸分子と第２の再配列された核酸分子が独立して生成される、工程と、ｃ）本明細書に開示されるような第１の再配列された核酸分子と、本明細書に開示されるような第２の再配列された核酸分子の配列を組み立てる工程であって、組み立てられた配列がサンプル核酸分子の再配列されていないフェージングされた配列である、工程とを含む。いくつかの態様では、第１の再配列された核酸分子を配列決定する工程は、少なくとも１ｋｂの配列リードを生成することを含む。いくつかの態様では、第１の再配列された核酸分子を配列決定する工程は、少なくとも２ｋｂの配列リードを生成することを含む。いくつかの態様では、第１の再配列された核酸分子を配列決定する工程は、少なくとも５ｋｂの配列リードを生成することを含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第１の再配列された分子の少なくとも７０％を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第２の再配列された分子の少なくとも７０％を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第１の再配列された分子の少なくとも８０％を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第２の再配列された分子の少なくとも８０％を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第１の再配列された分子の少なくとも９０％を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第２の再配列された分子の少なくとも９０％を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第１の再配列された分子の少なくとも９５％を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第２の再配列された分子の少なくとも９５％を割り当てる工程を含む。

ロングリード配列データをフェージングする方法が本明細書に開示され、該方法は、ａ）本明細書に開示された任意の核酸サンプルから配列データを得る工程と、ｂ）本明細書に開示されるような任意の再配列された核酸からロングリード配列データを得る工程と、ｃ）再配列された核酸からのロングリード配列データを、核酸サンプルからの配列データにマッピングする工程と、ｄ）再配列された核酸からのロングリード配列データによってマッピングされた核酸サンプルからの配列データを、共通のフェーズに割り当てる工程とを含む。

ＤＮＡ配列決定技術によって核酸サンプルから生成された核酸データセットにフェーズ情報を提供する方法が本明細書に開示され、該方法は、ａ）ＤＮＡ配列決定技術のリード長よりも大きな距離だけ離れた第１のセグメントと第２のセグメントを有する上記核酸サンプルの核酸を得る工程と、ｂ）第１のセグメントと第２のセグメントがＤＮＡ配列決定技術のリード長未満の距離離れるように、核酸を組み換える工程と、；ｃ）第１のセグメントと第２のセグメントがＤＮＡ配列決定技術の単一のリードに現われるように、ＤＮＡ配列決定技術を使用して、組み換えられた核酸を配列決定する工程と、ｄ）第１のセグメント配列を含むデータセットの配列リードと、第２のセグメント配列を含むデータセットの配列リードを、共通のフェーズに割り当てる工程とを含む。いくつかの態様では、ＤＮＡ配列決定技術は、少なくとも１０ｋｂのリード長を有するリードを生成する。いくつかの態様では、組み換える工程は、本明細書に開示された任意の方法の工程を行うことを含む。いくつかの態様では、第１のセグメントと第２のセグメントは、セグメント末端を示すリンカーオリゴによって分離される。

本明細書に開示されるような複数の分子から得られた配列情報を含む核酸配列データベースが本明細書に開示され、ここで、共通の足場へマッピングされるそのセグメントの７０％未満を有する分子に対応する配列情報は、少なくとも１つの分析から除外される。

本明細書に開示されるような複数の分子から得られた配列情報を含む核酸配列データベースが本明細書に開示され、ここで、共通の足場へマッピングされるその配列情報の７０％未満を有する分子に対応する配列情報は、少なくとも１つの分析から除外される。

ロングリード配列データをフェージングする方法が本明細書に開示され、該方法は、ａ）本明細書に開示された任意の核酸サンプルから配列データを得る工程と、ｂ）本明細書に開示される任意の再配列された核酸の再配列された核酸からロングリード配列データを得る工程と、ｃ）再配列された核酸の第１のセグメント、第２のセグメント、および第３のセグメントを、核酸サンプルからの配列データ〜核酸サンプル配列データにマッピングする工程と、ｄ）少なくとも２つのセグメントが共通の足場へマッピングされるとき、共通のフェーズに上記セグメントの配列変異を割り当てる工程を含む。いくつかの態様では、第１のセグメントは、核酸サンプルからの配列データに関連して一塩基多型を含む。いくつかの態様では、第１のセグメントは、核酸サンプルからの配列データに関連して挿入を含む。いくつかの態様では、第１のセグメントは、核酸サンプルからの配列データに関連して欠失を含む。いくつかの態様では、該方法は、第１の共通の足場にマッピングされるセグメントの第１のセットを、第１の共通の足場の共通のフェーズに割り当てる工程と、第２の共通の足場にマッピングされるセグメントの第２のセットを、第２の共通の足場の共通のフェーズに割り当てる工程を含む。

核酸サンプルの核酸配列ライブラリーが本明細書に開示され、上記核酸配列ライブラリーは、平均リード長を有する核酸配列リードの集団を含み、上記リードの少なくとも１つは、第１の核酸セグメントの少なくとも５００のベースと、第２の核酸セグメントの少なくとも５００のベースを含み、上記第１の核酸セグメントと上記第２の核酸セグメントは、上記核酸サンプルの共通の分子上の上記平均リード長よりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記第１の核酸セグメントと上記第２の核酸セグメントは、１０ｋｂよりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記第１の核酸セグメントと上記第２の核酸セグメントは、２０ｋｂよりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記第１の核酸セグメントと上記第２の核酸セグメントは、５０ｋｂよりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記第１の核酸セグメントと上記第２の核酸セグメントは、１００ｋｂよりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記リードの少なくとも１つは第１の核酸セグメントの少なくとも１ｋｂを含む。いくつかの態様では、上記リードの少なくとも１つは第１の核酸セグメントの少なくとも５ｋｂを含む。いくつかの態様では、上記リードの少なくとも１つは第１の核酸セグメントの少なくとも１０ｋｂを含む。いくつかの態様では、上記リードの少なくとも１つは第１の核酸セグメントの少なくとも２０ｋｂを含む。いくつかの態様では、上記リードの少なくとも１つは第１の核酸セグメントの少なくとも５０ｋｂを含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも８０％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも８５％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも９０％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも９５％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも９９％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも９９．９％を含む。

核酸サンプルの核酸配列ライブラリーが本明細書に開示され、上記核酸配列ライブラリーは、少なくとも１ｋｂの平均長さを有する核酸配列リードの集団を含み、上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの配列の少なくとも３００のベースを含み、上記２つの別々のフェーズ内領域は、核酸サンプル中で１０ｋｂよりも大きな距離離れている。いくつかの態様では、上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの配列の少なくとも５００のベースを含む。いくつかの態様では、上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの少なくとも１ｋｂの配列を含む。いくつかの態様では、上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの少なくとも２ｋｂの配列を含む。いくつかの態様では、上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの少なくとも５ｋｂの配列を含む。いくつかの態様では、上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの少なくとも１０ｋｂの配列を含む。いくつかの態様では、上記２つの別々のフェーズ内領域は、核酸サンプル中で２０ｋｂよりも大きな距離だけ離れている。いくつかの態様では、上記２つの別々のフェーズ内領域は、核酸サンプル中で３０ｋｂよりも大きな距離だけ離れている。いくつかの態様では、上記２つの別々のフェーズ内領域は、リードの少なくとも１％において核酸サンプル中で５０ｋｂよりも大きな距離だけ離れている。いくつかの態様では、上記２つの別々のフェーズ内領域は、リードの少なくとも１％において核酸サンプル中で１００ｋｂよりも大きな距離だけ離れている。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも８０％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも８５％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも９０％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも９５％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも９９％を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも９９．９％を含む。

核酸サンプルから生成された核酸ライブラリーが本明細書に開示され、ここで、核酸サンプルの核酸配列の少なくとも８０％は、核酸ライブラリーで表され、核酸サンプルのフェーズ内配列セグメントは、核酸サンプルのフェーズ内セグメントの離れた位置にある少なくとも１つのペアが単一の配列リードで読まれるように、再配列され、上記ライブラリーの配列決定が、核酸サンプルの少なくとも８０％にまたがるコンティグ情報と、上記核酸サンプルのフェージングされた配列を生成するために、上記コンティグ情報を順序付けて配向するのに十分なフェーズ情報を同時に生成する。いくつかの態様では、核酸サンプルの核酸配列の少なくとも９０％は、核酸ライブラリーで表される。いくつかの態様では、核酸サンプルの核酸配列の少なくとも９５％は、核酸ライブラリーで表される。いくつかの態様では、核酸サンプルの核酸配列の少なくとも９９％は、核酸ライブラリーで表される。いくつかの態様では、核酸サンプルの核酸配列の上記８０％は、せいぜい１００，０００のライブラリー構成要素から得られる。いくつかの態様では、核酸サンプルの核酸配列の上記８０％は、せいぜい１０，０００のライブラリー構成要素から得られる。いくつかの態様では、核酸サンプルの核酸配列の上記８０％は、せいぜい１，０００のライブラリー構成要素から得られる。いくつかの態様では、核酸サンプルの核酸配列の上記８０％は、せいぜい５００のライブラリー構成要素から得られる。いくつかの態様では、サンプルはゲノムサンプルである。いくつかの態様では、サンプルは真核生物のゲノムサンプルである。いくつかの態様では、サンプルは植物のゲノムサンプルである。いくつかの態様では、サンプルは動物のゲノムサンプルである。いくつかの態様では、サンプルは哺乳動物のゲノムサンプルである。いくつかの態様では、サンプルは真核単細胞生物のゲノムサンプルである。いくつかの態様では、サンプルはヒトゲノムサンプルである。いくつかの態様では、核酸ライブラリーはフェーズ情報を保護するためにバーコード化されない。いくつかの態様では、上記ライブラリーのリードは、第１の領域からの少なくとも１ｋｂの配列と、第１の領域とインフェーズ（ｉｎｐｈａｓｅ）であり、かつ、サンプル中の第１の領域から５０ｋｂを超えて離れている第２の領域からの少なくとも１００ベースの配列とを含む。

配列決定デバイス上で配列決定するための核酸分子を構成する方法が本明細書に開示され、核酸分子は少なくとも１００ｋｂの配列を含み、上記少なくとも１００ｋｂの配列は、配列決定デバイスのリード長より大きな長さによって離れた第１のセグメントと第２のセグメントを含み、該方法は、第１のセグメントと第２のセグメントが配列決定デバイスのリード長未満だけ離れるように、核酸分子の第２のセグメントに対する第１のセグメントの相対位置を変更する工程を含み、第１のセグメントと第２のセグメントのためのフェーズ情報は維持され、核酸分子のせいぜい１０％が除去される。いくつかの態様では、該方法は、第１のセグメントと第２のセグメントの少なくとも一部にまたがるリードを生成する工程を含む。いくつかの態様では、該方法は、核酸分子の配列の共通のフェーズに、第１のセグメントと第２のセグメントを割り当てる工程を含む。いくつかの態様では、核酸分子のせいぜい５％が除去される。いくつかの態様では、核酸分子のせいぜい１％が除去される。いくつかの態様では、第１のセグメントと第２のセグメントは、構成前に核酸分子中で少なくとも１０ｋｂ離れている。いくつかの態様では、第１のセグメントと第２のセグメントは、構成前に核酸分子中で少なくとも５０ｋｂ離れている。いくつかの態様では、第１のセグメントと第２のセグメントは、上記構成後に、接合部マーカーによって分離される。いくつかの態様では、該方法は、核酸の末端にステムループを取り付ける工程を含み、それによって、分子を一本鎖に変換する。いくつかの態様では、該方法は、核酸分子を環状化させる工程を含む。いくつかの態様では、該方法は、ＤＮＡポリメラーゼに核酸分子を取り付ける工程を含む。いくつかの態様では、該方法は、第１のセグメントと第２のセグメントがホスホジエステル骨格とは無関係に一緒に保持されるように、核酸分子を結合する工程と、少なくとも２つの位置で第１のセグメントと第２のセグメントとの間のホスホジエステル骨格を切断する工程と、第１のセグメントと第２のセグメントが配列決定デバイスのリード長未満だけ離れるように、第１のセグメントを第２のセグメントへ再度取り付ける工程とを含む。いくつかの態様では、上記の切断する工程と上記の再度取り付ける工程は、上記核酸分子からの配列情報の喪失を引き起こさない。

第１の核酸分子からの長距離フェーズ情報を生成する方法が本明細書に開示され、該方法は、ａ）第１のセグメント、第２のセグメント、および第３のセグメントを有する第１の核酸分子を含むサンプルを提供する工程であって、第１のセグメント、第２のセグメント、および第３のセグメントのいずれも第１の核酸分子上では隣接しておらず、第１のセグメント、第２のセグメント、および第３のセグメントが第１の核酸分子の共通のホスホジエステル骨格とは無関係にフレームワークに結合するように、第１の核酸分子はフレームワークに接触する、工程と、ｂ）第１のセグメント、第２のセグメント、および第３のセグメントが共通のホスホジエステル骨格によって結合されないように、第１の核酸分子を切断する工程と、ｃ）第１のセグメントを第２のセグメントに接続し、第２のセグメントを第３のセグメントに接続する工程と、ｄ）第１のセグメント、第２のセグメント、および第３のセグメントを含む第１の核酸分子の第１の部分を配列決定する工程であって、それによって、第１のセグメント配列情報、第２のセグメント配列情報、および第３のセグメント配列情報を生成し、ここで、第１のセグメント配列情報、第２のセグメント配列情報、および第３のセグメント配列情報が、第１の核酸分子に関する長距離フェーズ情報を提供する、工程を含む。いくつかの態様では、フレームワークは再構成されたクロマチンを含む。いくつかの態様では、フレームワークは天然のクロマチンを含む。いくつかの態様では、切断する工程は制限酵素を用いて行われる。いくつかの態様では、切断する工程はフラグメンターゼを用いて行われる。いくつかの態様では、該方法は、配列決定の前に、多くても２つのセグメントを含む第１の核酸分子の第２の部分をサンプルから取り除く工程を含む。いくつかの態様では、該方法は、第１のセグメント配列情報、第２のセグメント配列情報、および第３のセグメント配列情報を使用して、第１の核酸分子の配列を組み立てる工程を含む。

核酸分子を配列決定する方法が本明細書に開示され、該方法は、ａ）共通のホスホジエステル骨格を共有する第１のセグメント、第２のセグメント、および第３のセグメントを含む第１の核酸分子を得る工程であって、上記第１のセグメント、第２のセグメント、および第３のセグメントのいずれも上記第１の核酸分子上では隣接していない、工程と、ｂ）第１のセグメント、第２のセグメント、および第３のセグメントがその共通のホスホジエステル骨格とは無関係に関連付けられるように、上記核酸分子を分割する工程と、ｃ）第１のセグメント、第２のセグメント、および第３のセグメントを結合する連続的なホスホジエステル骨格がないように、フラグメントを生成するために核酸分子を切断する工程と、ｄ）上記第１のセグメント、第２のセグメント、および第３のセグメントが共通のホスホジエステル骨格を共有する再配列された核酸分子上で連続的になるように、上記フラグメントをライゲートする工程と、ｅ）上記再配列された核酸分子の少なくとも５，０００のベースが単一リード中で配列決定されるように、上記再配列された核酸分子の少なくとも一部を配列決定する工程を含む。いくつかの態様では、分割する工程は、上記第１のセグメント、第２のセグメント、および第３のセグメントがその共通のホスホジエステル骨格とは無関係に共通の複合体中で結合するように、上記核酸分子を結合部分へ接触させる工程を含む。いくつかの態様では、複数のＤＮＡ結合分子へ第１の核酸分子を接触させる工程は、ＤＮＡ結合タンパク質の集団に接触させることを含む。いくつかの態様では、ＤＮＡ結合タンパク質の集団は核タンパクを含む。いくつかの態様では、ＤＮＡ結合タンパク質の集団はナノ粒子を含む。いくつかの態様では、ＤＮＡ結合タンパク質の集団はヒストンを含む。いくつかの態様では、複数のＤＮＡ結合部分へ核酸分子を接触させる工程は、ＤＮＡ結合ナノ粒子の集団に接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、制限エンドヌクレアーゼに接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、非特異的なエンドヌクレアーゼに接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、タグメンテーション酵素に接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、トランスポサーゼに接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、第１の分子を剪断することを含む。いくつかの態様では、分割する工程は、サンプルの他の核酸分子から上記核酸分子を分離することを含む。いくつかの態様では、分割する工程は、上記核酸サンプルを希釈することを含む。いくつかの態様では、分割する工程は、上記核酸分子をエマルジョンの微小液滴へ分布させることを含む。

生物のゲノムのゲノムフェーズ情報を表す核酸分子が本明細書に開示され、上記核酸分子は単一のゲノム分子にマッピングされる少なくとも２０ｋｂの核酸配列情報を含み、上記配列情報はゲノム分子中のその位置に対して再配列されたセグメントを含み、上記生物のゲノムに独自にマッピングされる配列情報の少なくとも７０％は、単一のゲノム分子にマッピングされる。いくつかの態様では、核酸分子は、少なくとも２０のセグメントを含む。いくつかの態様では、上記セグメントは上記生物のゲノムにおいて隣接しない。

少なくとも２０ｋｂの少なくとも１００の核酸分子成分を含む核酸ライブラリーが本明細書に開示され、成分は、生物のゲノムの再配列されたセグメントを含み、ライブラリー構成要素からの独自にマッピングするセグメントの少なくとも７０％は、共通のゲノム分子にマッピングされ、成分は、核酸結合部分に結合されない。

少なくとも２０ｋｂの少なくとも１００の核酸分子成分に対応する配列を含む核酸データセットが本明細書に開示され、成分は、生物のゲノムの少なくとも５つの再配列されたセグメントを含み、上記再配列されたセグメントの７０％未満が共通の足場へマッピングされる成分は、下流の分析から除外される。

少なくとも２０ｋｂの少なくとも１００の核酸分子成分に対応する配列を含む核酸データセットが本明細書に開示され、成分は、生物のゲノムの少なくとも５つの再配列されたセグメントを含み、上記配列の７０％未満が共通の足場へマッピングされる成分は、下流の分析から除外される。

本開示の新規な特徴は、とりわけ、本明細書に記載の添付の請求項と要約と発明を実施するための形態で説明される。本開示の特徴と利点についてのよりよい理解は、本開示の原則が用いられている例示的な実施形態を説明する以下の詳細な記載と添付の図面を参照することによって得られる。
他のすべての自由端と適合するハイブリダイゼーションである、一本鎖オーバーハングを備えた多くの自由端を有する消化された再構成されたクロマチン凝集体を描く。１つの塩基が埋められ、個々の一本鎖オーバーハングを再アニーリングと再ライゲーションに適合しないようにした、図１の消化された再構成されたクロマチン凝集体を描く。再構成された凝集体の修飾された自由端と適合する終点オリゴヌクレオチドでライゲートされた、図２の部分的に埋められた消化された再構成されたクロマチン凝集体を描く。図３のライゲーション反応と、その後のＤＮＡ結合タンパク質からの放出に起因する中断されたＤＮＡ分子を描く。ゲノムのセグメントはそれぞれ、その既知の配列によって識別可能な終点オリゴヌクレオチドによって表現されている。ゲノムのセグメントはすべて、その再構成された出発クロマチン凝集体の中のインプット分子のある領域を表す。したがって、このセット中のリードは調整されたハプロタイプフェージング解析され、アセンブリまたはハプロタイプのフェーズ再構成に使用することができる。Ｃｈｉｃａｇｏペアのコンカテマー生成を描く。上部のパネルでは、Ｃｈｉｃａｇｏリードペアは、消化された再構成されたクロマチン凝集体のビオチン化された末端（ライゲーション後にビオチン化され切断された場合の図１の末端など）をまとめてライゲートすることにより生成される。これらの分子はストレプトアビジンでコーティングされたビーズ上で捕えられる。その後、増幅アダプターが加えられる。すべての分子はバルク増幅され、ストレプトアビジンビーズ上清から集められる。最後に、これらの分子はまとめてバルクライゲート（ｂｕｌｋｌｉｇａｔｅｄ）、ロングリード配列決定技術を使用して読み取り可能な長鎖分子を生成するためにまとめてライゲートされたバルクである。埋め込まれたリードペアは増幅アダプターによって識別可能である。図４に描かれた分子あるいは図５で生成された長鎖分子などの中断された分子にバーコード化する様子を描く。最初に、バーコードと、終点オリゴヌクレオチドとは逆の補体とからなるバーコード化されるオリゴヌクレオチドの送達が行われる。その後、これらのバーコード化されたオリゴヌクレオチドは、その生成物がバーコード、終点配列、およびいくつかのゲノム配列を含むように、拡張される。ライゲーション工程の前（「ＢＦ」）、およびライゲーション工程の後（「ＡＦ」）の２つのサンプルのゲル電気泳動分析を描いており、長い再配列された分子を形成するための成功に終わったライゲーションを実証している。再配列されたゲノムライブラリーから得られたデータを提示する。１０ｋｂのビンへ分離されたリードの及ぶ距離の度数分布を描く。１ｋｂのビンへ分離されたリードの及ぶ距離の度数分布を描く。本開示の実施のためのコンピュータシステムを描く。

ロングリードあるいはショートリードの配列決定技術を使用して、ゲノムアセンブリとハプロタイプフェージングを含む用途のための、フェージング解析されたリードセットを含むリードセットを生成する方法が本明細書に開示される。核酸分子は結合可能であり（例えば、クロマチン構造内で）、内部末端を露出するために切断可能であり、接合部で他の露出した末端へ再度取付可能であり、結合から解放可能であり、および配列決定可能である。この技術は、複数の配列セグメントを含む核酸分子を生成することができる。核酸分子内の複数の配列セグメントは保存されたフェーズ情報を有することができ、その一方で、天然のまたは出発位置および配向に対して再配列可能である。接合部の一方の側にある配列セグメントは、サンプル核酸分子の同じフェーズから来るものと確信することができる。

高分子量ＤＮＡを含む核酸分子は、少なくとも１つの核酸結合部分上で結合または固定化可能である。例えば、インビトロのクロマチン凝集体へ組み立てられ、および、ホルムアルデヒド処理で固定されたＤＮＡは、本明細書に記載される方法と一致している。核酸結合あるいは固定化のアプローチとしては、限定されないが、インビトロか再構成されたクロマチンアセンブリ、天然のクロマチン、ＤＮＡ結合タンパク質凝集体、ナノ粒子、ＤＮＡ結合ビーズ、またはＤＮＡ結合物質を使用してコーティングされたビーズ、ポリマー、合成ＤＮＡ結合分子、あるいは他の固体または実質的に固体の親和性分子が挙げられる。場合によっては、ビーズは、固体相の可逆的な固定（ＳＰＲＩ）ビーズ（例えば、Ｂｅｃｋｍａｎ−ＣｏｕｌｔｅｒＡｇｅｎｃｏｕｒｔＡＭＰｕｒｅＸＰビーズなどの負に帯電したカルボキシル基を有するビーズ）である。

配列決定デバイス上でリード距離よりも大きな距離だけ核酸分子上で離れている（例えば、１０ｋｂ、５０ｋｂ、１００ｋｂ、またはそれ以上）第１のセグメントと第２のセグメントを有する核酸分子が、それらの共通のホスホジエステル結合とは無関係に一緒に結合されるように、本明細書に記載されたものなどの核酸結合部分に結合された核酸は保持可能である。こうした結合された核酸分子の切断に際して、第１のセグメントと第２のセグメントの露出された末端を互いにライゲートしてもよい。場合によっては、固体表面上の結合された核酸分子間にオーバーラップがほとんどないか、あるいはまったくないような濃度で核酸分子は結合され、そうすることで、切断された分子の露出した内部末端が再度ライゲートされるか、切断の前に共通の核酸ソース上でインフェーズであった他のセグメントからの露出した末端にのみ再度取り付けられるようになる。結果的に、ＤＮＡ分子は切断可能であり、切断されて露出された内部末端は、フェーズ情報を喪失することなく、例えばランダムに再度ライゲート可能である。

結合された核酸分子は、酵素および非酵素的なアプローチの任意の数のうちの１つによって内部末端を露出するために切断可能である。例えば、核酸分子は、一本鎖のオーバーハングを残す制限エンドヌクレアーゼなどの制限酵素を使用して消化することができる。他の制限エンドヌクレアーゼも企図されるが、例えば、ＭｂｏＩ消化はこの目的に適している。制限エンドヌクレアーゼのリストは、例えば、ほとんどの分子生物学生成物のカタログで入手可能である。核酸切断用の他の非限定的な技術は、トランスポサーゼ、タグメンテーション酵素複合体、トポイソメラーゼ、非特異的なエンドヌクレアーゼ、ＤＮＡ修復酵素、ＲＮＡガイドヌクレアーゼ、フラグメンターゼ、あるいは代替的な酵素を使用することを含む。トランスポサーゼは、例えば、結合していない左右の境界と組み合わせて使用されることで、トランスポサーゼにより送達されたオリゴヌクレオチド配列を取り付けることによって特徴づけられる核酸の配列の依存しない切断部を作ることができる。機械的な手段（例えば、超音波処理、剪断）、加熱手段（例えば、温度変化）、あるいは電磁気手段（例えば、紫外線照射などの照射）を含む物理的手段も使用して切断を生成することができる。

この段階の核酸の固定は、当初の分子のフェーズ情報が保存されるように、切断された核酸分子フラグメントを物理的非常に近接した状態に保つことができる。１つの核酸結合部分から結果として生じる典型的なクロマチン凝集体が図１に概略的に示される。例えば、クロマチン凝集体への固定化の利点は、共通の核酸分子の別々の領域を、ホスホジエステル骨格とは無関係に一緒に維持することができ、そうすることで、フェーズ情報がホスホジエステル骨格の切断時に失われないということである。この利点も、切断の前に核酸分子が取り付けられる代替的な足場を介して伝えられる。

随意に、一本鎖の「粘着」末端のオーバーハングを修飾することで、再アニーリングと再ライゲーションを防ぐ。例えば、粘着末端は、１つのヌクレオチドとポリメラーゼを加えるなどすることで、部分的に埋められる（図２）。このように、一本鎖末端全体を埋めることはできないが、末端を修飾することで、以前は相補的な末端による再ライゲーションが防がれる。５’ＧＡＴＣ５プライムオーバーハングを残すＭｂｏＩ消化の例では、グアノシンヌクレオチド三リン酸塩だけが加えられる。これは第１の相補的塩基（「Ｃ」）の「Ｇ」のみの埋め込みをもたらし、５’ＧＡＴオーバーハングをもたらす。この工程により、遊離した粘着末端は互いに再ライゲーションに適合しなくなるが、下流での適用のために粘着末端が保存される。代替的に、平滑末端は、オーバーハングでの完全な埋め込み、平滑末端生成酵素による制限消化、一本鎖ＤＮＡエキソヌクレアーゼを用いる処理、あるいは非特異的な切断によって生成される。場合によっては、トランスポサーゼを用いて、ＤＮＡ分子の露出した内部末端へ、平滑末端または粘着末端を有するアダプター末端を取り付ける。

随意に、「終点オリゴヌクレオチド」が導入される（図３）。この終点オリゴヌクレオチドは切断／再ライゲーション部位をマークする。いくつかの終点オリゴヌクレオチドは両末端上に一本鎖オーバーハングを有し、これは、露出した核酸サンプルの内部末端上で生成された部分的に埋められたオーバーハングと適合する。終点オリゴヌクレオチドの一例が以下に示される。場合によっては、一本鎖オーバーハングを有する二本鎖オリゴヌクレオチドは、その５’末端での５’リン酸塩の除去などによって修飾され、その結果、ライゲーション中にコンカテマーを形成することができない。代替的に、平滑終点オリゴヌクレオチドが使用されるか、あるいは、切断部位は明確な終点オリゴヌクレオチドを使用してマークされない。トランスポサーゼが使用されるときなどのいくつかのシステムでは、終点は、トランスポソーム（ｔｒａｎｓｐｏｓｏｓｏｍｅ）境界配列の追加と、その後の、境界配列の互いに対する、あるいは終点オリゴへのライゲーションによって、達成される。典型的な終点オリゴが以下に提示される。しかしながら、代替的な終点オリゴは、本明細書に記載される開示と一致しており、配列、長さ、オーバーハングの存在または不在、あるいは５’脱リン酸化などの修飾で異なる。

場合によっては、終点オリゴヌクレオチドの二本鎖の領域は変動する。終点オリゴヌクレオチドの関連する特徴はそのオーバーハングの配列であり、核酸サンプルに対するライゲーションを可能にするが、自動ライゲーションあるいはコンカテマー形成を除いて随意に修飾される。終点オリゴヌクレオチドは、下流の配列反応で容易に識別されるように、標的核酸分子で生じないか、あるいは、生じる可能性が低い配列を含むことがしばしば好ましい。終点オリゴは、例えば、既知のバーコード配列、あるいはランダムに生成された独自の識別子配列を用いて、随意にバーコード化される。独自の識別子配列は、核酸分子中の、あるいはサンプル中の複数の接合部が同じ独自の識別子でバーコード化されることのないように設計することが可能である。

切断された末端は、直接、あるいは、オリゴ（例えば終点オリゴ）を介して、例えば、リガーゼまたは同様の酵素を使用して、互いに取り付けることができる。固定化された高分子量核酸分子の遊離した一本鎖末端が直接、あるいは終点オリゴヌクレオチド（図３）にライゲートされるように、ライゲーションは進行可能である。利用時、終点オリゴヌクレオチドは、２つのライゲート可能な末端を有し得ることから、このライゲーションは高分子量核酸分子の領域を一緒に効果的に鎖でつなぐことができる。終点のない２つの露出した末端を直接接続するためのアプローチのように、２つの露出した末端間の中断配列または分子の付着をもたらす代替的なアプローチも使用することができる。

その後、核酸を核酸結合部分から遊離することができる。インビトロのクロマチン凝集体の場合、これは、架橋を逆にするか、あるいはタンパク成分を消化するか、あるいは、架橋を逆にして、かつ、タンパク成分を消化する両方によって、達成することが可能である。多くの代替物も企図されるが、適切な手法はプロテイナーゼＫを用いる複合体の処理である。他の結合技術については、リンカー分子の切断あるいは基質の分解などの適切な方法を使用することができる。

こうした技術に起因する核酸分子は様々な関連する特徴を有し得る。核酸分子内の配列セグメントは、その天然または出発の位置および配向に対して再配列可能であるが、フェーズ情報は保存される。結果的に、接合部の一方の側の配列セグメントは共通のサンプル分子の共通のフェーズに確信的に割り当てることができる。したがって、各セグメントの一部または全体が単一の分子配列決定デバイスを一回実行するだけで配列決定され、決定的なフェーズの割り当てが可能となるように、分子上で互いから遠く離れたセグメントを、上記のような技術を駆使して、一緒に集めることができるか、あるいは、近くに集めることができる。代替的に、場合によっては、もともと隣接していたセグメントは、結果として生じた核酸の１つから分離するようになり得る。場合によっては、再ライゲーションの少なくとも約５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％、９９．９９９％、あるいは１００％が切断前に共通する核酸ソース上でインフェーズであったセグメント間にあるように、核酸分子を再度ライゲートすることができる。

結果として生じた分子の他の関連する特徴は、場合によっては、もともとの分子の配列は、最後の中断されたあるいは再配列された分子において、恐らくは再配列されるが保存されるということである。例えば、場合によっては、結果として生じた分子を生成する際に、もとの分子のわずか１％、２％、３％、４％、５％、１０％、１５％、あるいは２０％しか失われない。結果的に、相決定因子として有用なことに加えて、結果として生じた分子がもとの分子配列の実質的な割合を保持することから、結果として生じた分子を随意に用いて、デノボ配列決定で有用な、あるいは、以前に生成されたコンティグ情報の独立した立証として、コンティグ情報などの配列情報を同時に生成する。

いくつかの結果として生じた分子のライブラリーの別の特徴は、切断接合部が結果として生じた分子の集団の複数のメンバーに共通ではないということである。すなわち、同じ開始核酸分子のその異なるコピーは、様々なパターンの接合と再配列で終わることになる。ランダムな切断接合部は、非特異的な切断分子によって、あるいは制限エンドヌクレアーゼの選択または消化パラメータの変動を介して生成可能である。

分子に特異的な切断部位を有する結果は、場合によっては、終点オリゴヌクレオチドが、悪影響がない程度までの「終点分子」の再組み換えと再ライゲーションをもたらすプロセスから随意に除外されるということである。３つ以上の再組み換えられた分子のセグメントを整列させることによって、当業者は、切断部位がライブラリーの大部分の他のメンバー中に存在していないため容易に識別されることがわかる。すなわち、３つ以上の再組み換えられた分子が局所的に整列されると、セグメントは分子のすべてに共通することがわかるが、セグメントの縁は分子の間で変動することがある。セグメントの局所的な配列の類似性が終わる場所を明記することによって、当業者は「中断されていない」再配列された核酸分子中で切断接合部をマッピングすることができる。

結果として生じる核酸分子（例えば、図４を参照）は、例えば、ロングリードシーケンサー上で配列決定可能である。結果として生じる配列リードは、もともとのインプット分子から、使用されている場合には終点オリゴの配列から、核酸配列の間で交互に起こるセグメントを含んでいる。これらのリードは、終点オリゴヌクレオチド配列を使用して、各リードから配列データを分割するためにコンピューターによって処理可能であるか、あるいは接合部を同定するために他の方法で処理される。各リード内の配列セグメントは単一のインプット高分子量ＤＮＡ分子からのセグメントであり得る。もともとの核酸分子は、染色体などのゲノム配列またはその分画を含むことができる。セグメントリードのセットは、もとの核酸分子では不連続であり得るが、長距離のハプロタイプフェージングされたデータを明らかにすることがある。これらのデータはデノボゲノムアセンブリと、入力ゲノム中のヘテロ接合位置のフェージングに使用することができる。接合部間の配列は源の核酸サンプル中の近接する核酸配列を示し、その一方で、接合部にわたる配列は、核酸サンプル中でインフェーズであるが配置された足場では隣接するセグメントから遠く離れることもある核酸セグメントを示す。

接合部は様々なアプローチによって特定することができる。終点オリゴが使用される場合、接合部は終点オリゴ配列を含むリードで特定可能である。代替的に、接合部は、以前に生成されたコンティグ配列データセットなどの核酸分子のための第２の配列源（および、好ましくは第３の配列源）、あるいは、独立して導き出された接合部を有する第２の独立して生成されたＤＮＡ鎖状分子との比較によって特定可能である。配列が整列されると、例えば、特定の位置への配列の品質または信頼は、１つのセグメントがどこで終わり、別のセグメントがどこで始まるかを示すことができる。制限酵素が切断を生成するために使用される場合、制限酵素認識部位を含む配列は、潜在的に接合部を含むかどうかについて評価可能である。例えば、核酸が支持部に結合していた間、いくつかの制限酵素認識部位が酵素によっては物理的にアクセス可能ではなかったことがあるように、すべての制限酵素認識部位が接合部を含むとは限らないこともあることに留意する。統計的な情報も接合部を特定する際に使用することができ、例えば、接合部間の長さセグメントは、特定の平均値であるか、あるいは特定の分布に従うと予測されることもある。

本明細書に記載の操作の利点は、隣接していない分子の領域を近接させながら分子のフェーズ情報を保護することができるため、ロングリードなどの単一リード中で配列決定するのに適切な距離で単一の核酸分子に含まれるようになる。したがって、単一のロングリード操作の距離（例えば、１０ｋｂ、１５ｋｂ、２０ｋｂ、３０ｋｂ、５０ｋｂ、１００ｋｂ、あるいはそれ以上）よりも大きな距離だけ出発サンプル中で分離される領域は局所的に近接され、該領域は長距離の配列決定反応の単一のリードによってカバーされる距離の範囲内にある。したがって、もともとのサンプル中の単一のリードに関する配列決定技術の範囲を越えて分離される領域は、フェーズで保存された再配列された分子中の単一反応で読み取られる。

結果として生じた再配列された分子は配列決定可能であり、その配列情報は、独立してあるいは同時に生成された配列リードまたはコンティグ情報に、あるいは、既知の基準ゲノム配列（例えば、ヒトゲノムの既知の配列）にマッピング可能である。結果として生じた再配列された分子リード上で隣接するセグメントはインフェーズであると推定される。これに応じて、こうしたセグメントが異種のコンティグにまたは長距離の配列リードにマッピングされる場合、リードは、配列アセンブリ中の共通の分子の共通のフェーズに割り当てられる。

代替的に、複数の独立して生成された結果として生じた再配列された分子が同時に配列決定される場合、フェージングされたサンプルデータはこれらの分子から随意に生成され、そうすることで、接合部によって分離されたセグメント配列はインフェーズであると推論され、その一方で、接合部によって分離されていない配列は、サンプルそれ自体において近接している核酸の伸張を表し、かつ、フェーズの決定に役立つのと同様に、例えば、デノボ配列の決定に役立つ。しかしながら、追加的に、あるいは代替物として、同時に配列決定された複数の独立して生成された結果として生じた再配列された分子は、依然として、独立して生成された足場あるいはコンティグ情報と比較可能である。

本明細書に提示される方法と組成物は、とりわけ、配列決定技術におけるリード長さ（例えば、１０ｋｂ、２０ｋｂ、５０ｋｂ、１００ｋｂ、５００ｋｂ以上、）よりも大きな距離だけ分離した分子セグメントについて、長距離のフェーズ情報を保存することができ、一方で、セグメントが単一リードによってカバーされるのに十分なほど隣接または近接している場合に、再配列されたあるいはしばしば「中断された」分子で隣接していないセグメントを提供する。

いくつかの例では、結果として生じた再配列された分子は配列決定のために天然の分子と組み合わされる。使用される場合、天然の分子は、終点配列の欠如により情報学的に認識および利用可能である。天然の分子はショートまたはロングリード技術を使用して配列決定され、そのアセンブリは、再配列された分子またはライブラリーの配列決定によって生成されたフェーズ情報とセグメント配列情報によってガイドされる。

核酸抽出
本明細書中の開示と共に使用するのに適している核酸の抽出および精製の方法は、当該技術分野で周知である。例えば、核酸は、フェノール、フェノール／クロロホルム／イソアミルアルコール、あるいはＴＲＩｚｏｌおよびＴｒｉＲｅａｇｅｎｔを含む同様の製剤での有機抽出により精製される。抽出技術の他の限定されない例は、以下を含む：（１）自動核酸抽出器、例えばＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（ＦｏｓｔｅｒＣｉｔｙ，Ｃａｌｉｆ．）から入手可能なＭｏｄｅｌ３４１ＤＮＡＥｘｔｒａｃｔｏｒの使用を伴うまたは伴わない、例えばフェノール／クロロホルムの有機試薬（Ａｕｓｕｂｅｌｅｔａｌ．，１９９３）を使用する、エタノール沈殿が後続する有機抽出；（２）固定相吸着法（米国特許第５，２３４，８０９号；Ｗａｌｓｈｅｔａｌ．，１９９１）；および（３）典型的に「塩析」方法と称される沈澱法などの、塩で誘導された核酸沈澱法（Ｍｉｌｌｅｒｅｔａｌ．，（１９８８））。核酸の単離および／または精製の別の例は磁性粒子の使用を含み、核酸は特異的または非特異的に磁性粒子に結合し、その後磁石を使用してビーズを単離し、洗浄し、そしてビーズから核酸を溶出することができる（例えば米国特許第５，７０５，６２８号を参照）。幾つかの実施形態において、上記の単離方法は、サンプルから不要なタンパク質を取り除くのに役立つ酵素消化工程、例えばプロテイナーゼＫまたは他のプロテアーゼによる消化より始められてもよい。例えば米国特許第７，００１，７２４号を参照。望ましい場合、ＲＮａｓｅ阻害剤を、溶解緩衝液に添加することができる。特定の細胞またはサンプル型について、前記プロトコルにタンパク質変性／消化の工程を加えることが望ましい場合もある。精製方法は、ＤＮＡ、ＲＮＡ、またはその両方を単離することを目的とし得る。抽出手順の間またはその後にＤＮＡとＲＮＡの両方が一緒に単離されると、更なる工程を利用して、一方または両方を他とは別々に精製することができる。抽出した核酸の細分画を生成することもでき、例えば、サイズ、配列、または他の物理的若しくは化学的特性による精製が行われる。最初の核酸単離工程に加えて、過剰または不要な試薬、反応物、または産物を除去するなどのために、本開示の方法における工程の後に核酸の精製を実施することができる。

核酸の鋳型分子は、例えば２００３年１０月９日に公開された米国特許出願公開第２００２／０１９０６６３号Ａ１に記載の通り得ることができる。通常、核酸は、Ｍａｎｉａｔｉｓ，ｅｔａｌ．，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．，ｐｐ．２８０−２８１（１９８２，その全体において引用により本明細書に組み込まれる）に記載されるものなどの様々な技術によって生体サンプルから抽出される。場合によっては、核酸は、最初に生体サンプルから抽出され、次いでインビトロで架橋され得る。場合によっては、天然の会合タンパク質（例えばヒストン）を、核酸から更に除去することができる。幾つかの実施形態において、本開示は、例えば、組織、細胞培養物、体液、動物組織、植物、細菌、真菌、またはウイルスから単離されるＤＮＡを含めた、高分子量二本鎖ＤＮＡへと容易に適用される。

幾つかの実施形態において、核酸の鋳型分子（例えばＤＮＡまたはＲＮＡ）は、タンパク質、脂質、および非鋳型核酸などの、様々な他の成分を含有する生体サンプルから単離することができる。核酸の鋳型分子は、動物、植物、細菌、真菌、または他の細胞生物、あるいはウイルスから得られる任意の細胞材料から得られ、あるいは、人工的に合成される場合もある。本開示での使用のための生体サンプルは、ウイルスの粒子または調製物を含む。核酸の鋳型分子は、生物から直接、あるいは、生物から得た生体サンプル、例えば血液、尿、脳脊髄液、精液、唾液、痰、便、および組織から得ることができる。任意の組織または体液の標本が、本開示の核酸のためのソースであってもよい。核酸の鋳型分子はまた、初代細胞培養物または細胞株などの培養細胞から単離され得る。鋳型核酸が得られる細胞または組織は、ウイルスまたは他の細胞内病原体に感染され得る。サンプルはまた、生体標本、ｃＤＮＡライブラリ、ウイルスＤＮＡ、またはゲノムＤＮＡから抽出された総体的なＲＮＡであり得る。サンプルはまた、細胞構造がない起源から単離されたＤＮＡ、例えば冷凍装置から増幅／単離されたＤＮＡを含んでもよい。

高分子量ＤＮＡを含む核酸分子は、核酸結合部分上で結合されまたは固定され得る。例えば、インビトロのクロマチン凝集体へとアセンブリされ且つホルムアルデヒド処置で固定されたＤＮＡは、本明細書の方法に一貫している。核酸を結合または固定する方法は、限定されないが、インビトロのまたは再構成クロマチンのアセンブリ、天然のクロマチン、ＤＮＡ結合タンパク質凝集体、ナノ粒子、ＤＮＡ結合物質を使用して被覆されたＤＮＡ結合ビーズ、ポリマー、合成ＤＮＡ結合分子、または他の固体あるいはほぼ固体の親和性分子を含む。場合によっては、ビーズは、固相可逆的固定化（ＳＰＲＩ）ビーズである（例えば、Ｂｅｃｋｍａｎ−ＣｏｕｌｔｅｒＡｇｅｎｃｏｕｒｔＡＭＰｕｒｅＸＰビーズなどの負に帯電したカルボキシル基を含むビーズ）。

本明細書に記載されるものなどの核酸結合部分に結合されるものといった核酸は、配列決定デバイス上でのリード距離よりも長い距離（例えば、１０ｋｂ、５０ｋｂ、１００ｋｂ以上）だけ核酸分子上で分離された第１のセグメントおよび第２のセグメントを持つ核酸分子が、それらの共通のホスホジエステル結合とは独立して共に結合されるように保持され得る。そのような結合された核酸分子の切断に際し、第１のセグメントおよび第２のセグメントの露出した末端は、互いに対しライゲートし得る。場合によっては、核酸分子は、固体表面上で結合された核酸分子間に重なりがほとんどあるいは全くないような濃度で結合され、それにより、切断された分子の晒された内部端は恐らく再びライゲートして、切断の前に共通の核酸源上でインフェーズであった他のセグメントから露出した末端にのみ再び結合するようになる。結果的に、ＤＮＡ分子は切断され、切断され晒された内部端は、フェーズ情報の損失無しに、例えば無作為に再びライゲートされ得る。場合によっては、核酸分子は、再ライゲーションのうち少なくとも約５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％、９９．９９９％、または１００％が、切断の前に共通の核酸源上でインフェーズであるように、再びライゲートされ得る。

場合によっては、表面上の結合された核酸の表面密度は、結合のために利用可能にされた表面積の量を通じて制御される。例えば、核酸を結合するために使用されるビーズの大きさの選択は、核酸間の距離、または結合された核酸の平均表面密度に影響を及ぼし、あるいはこれを制御する場合がある。より大きなビーズ表面は、結合された核酸間のより大きな距離を結果としてもたらす場合がある。この結果、核酸または核酸複合体の間の分子間でのライゲーション事象の速度の減少がもたらされ得る。使用されるビーズは、直径が約１００ナノメートル（ｎｍ）、約２００ｎｍ、３００ｎｍ、４００ｎｍ、５００ｎｍ、６００ｎｍ、７００ｎｍ、８００ｎｍ、９００ｎｍ、１マイクロメートル（μｍ）、１．１μｍ、１．２μｍ、１．３μｍ、１．４μｍ、１．５μｍ、１．６μｍ、１．７μｍ、１．８μｍ、１．９μｍ、２μｍ、３μｍ、４μｍ、５μｍ、６μｍ、７μｍ、８μｍ、９μｍ、１０μｍ、１１μｍ、１２μｍ、１３μｍ、１４μｍ、１５μｍ、１６μｍ、１７μｍ、１８μｍ、１９μｍ、２０μｍ、２１μｍ、２２μｍ、２３μｍ、２４μｍ、２５μｍ、２６μｍ、２７μｍ、２８μｍ、２９μｍ、３０μｍ、３１μｍ、３２μｍ、３３μｍ、３４μｍ、３５μｍ、３６μｍ、３７μｍ、３８μｍ、３９μｍ、４０μｍ、４１μｍ、４２μｍ、４３μｍ、４４μｍ、４５μｍ、４６μｍ、４７μｍ、４８μｍ、４９μｍ、５０μｍ、５５μｍ、６０μｍ、６５μｍ、７０μｍ、７５μｍ、８０μｍ、８５μｍ、９０μｍ、９５μｍ、１００μｍ、２００μｍ、３００μｍ、４００μｍ、５００μｍ、６００μｍ、７００μｍ、８００μｍ、９００μｍ、または１ミリメートル（ｍｍ）であり得る。使用されるビーズは、直径が少なくとも約１００ナノメートル（ｎｍ）、約２００ｎｍ、３００ｎｍ、４００ｎｍ、５００ｎｍ、６００ｎｍ、７００ｎｍ、８００ｎｍ、９００ｎｍ、１マイクロメートル（μｍｍ）、１．１μｍ、１．２μｍ、１．３μｍ、１．４μｍ、１．５μｍ、１．６μｍ、１．７μｍ、１．８μｍ、１．９μｍ、２μｍ、３μｍ、４μｍ、５μｍ、６μｍ、７μｍ、８μｍ、９μｍ、１０μｍ、１１μｍ、１２μｍ、１３μｍ、１４μｍ、１５μｍ、１６μｍ、１７μｍ、１８μｍ、１９μｍ、２０μｍ、２１μｍ、２２μｍ、２３μｍ、２４μｍ、２５μｍ、２６μｍ、２７μｍ、２８μｍ、２９μｍ、３０μｍ、３１μｍ、３２μｍ、３３μｍ、３４μｍ、３５μｍ、３６μｍ、３７μｍ、３８μｍ、３９μｍ、４０μｍ、４１μｍ、４２μｍ、４３μｍ、４４μｍ、４５μｍ、４６μｍ、４７μｍ、４８μｍ、４９μｍ、５０μｍ、５５μｍ、６０μｍ、６５μｍ、７０μｍ、７５μｍ、８０μｍ、８５μｍ、９０μｍ、９５μｍ、１００μｍ、２００μｍ、３００μｍ、４００μｍ、５００μｍ、６００μｍ、７００μｍ、８００μｍ、９００μｍ、または１ミリメートル（ｍｍ）であり得る。使用されるビーズは、直径が多くとも約１００ナノメートル（ｎｍ）、約２００ｎｍ、３００ｎｍ、４００ｎｍ、５００ｎｍ、６００ｎｍ、７００ｎｍ、８００ｎｍ、９００ｎｍ、１マイクロメートル（μｍｍｍ）、１．１μｍ、１．２μｍ、１．３μｍ、１．４μｍ、１．５μｍ、１．６μｍ、１．７μｍ、１．８μｍ、１．９μｍ、２μｍ、３μｍ、４μｍ、５μｍ、６μｍ、７μｍ、８μｍ、９μｍ、１０μｍ、１１μｍ、１２μｍ、１３μｍ、１４μｍ、１５μｍ、１６μｍ、１７μｍ、１８μｍ、１９μｍ、２０μｍ、２１μｍ、２２μｍ、２３μｍ、２４μｍ、２５μｍ、２６μｍ、２７μｍ、２８μｍ、２９μｍ、３０μｍ、３１μｍ、３２μｍ、３３μｍ、３４μｍ、３５μｍ、３６μｍ、３７μｍ、３８μｍ、３９μｍ、４０μｍ、４１μｍ、４２μｍ、４３μｍ、４４μｍ、４５μｍ、４６μｍ、４７μｍ、４８μｍ、４９μｍ、５０μｍ、５５μｍ、６０μｍ、６５μｍ、７０μｍ、７５μｍ、８０μｍ、８５μｍ、９０μｍ、９５μｍ、１００μｍ、２００μｍ、３００μｍ、４００μｍ、５００μｍ、６００μｍ、７００μｍ、８００μｍ、９００μｍ、または１ミリメートル（ｍｍ）であり得る。

核酸結合部分の複合体形成
核酸は、核酸分子の切断後にフェーズ情報を維持するために核酸結合部分に結合され得る。多くの核酸結合部分は、本明細書中の開示と一致する足場を形成する。本明細書中の開示に適切なものの一部は、フェーズ情報が核酸分子の切断および再ライゲーション後に失われないように複数の点で核酸に結合する。

場合によっては、核酸結合部分は、クロマチンを形成するヒストンなどのタンパク質の分類であるか、またはそれを含む。クロマチンは、再構成クロマチンまたは天然のクロマチンであり得る。場合によっては、核酸結合分子は、マイクロアレイ、スライド、チップ、マイクロウェル、カラム、チューブ、粒子、またはビーズなどの固形支持体上に分配される。幾つかの例において、固形支持体は、ストレプトアビジンおよび／またはアビジンで覆われる。他の例において、固形支持体は抗体で覆われ得る。更に、固体支持体は、ガラス、金属、セラミック、または高分子材料を付加的または代替的に含み得る。幾つかの実施形態において、固形支持体は核酸マイクロアレイ（例えばＤＮＡマイクロアレイ）である。他の実施形態において、固形支持体は常磁性ビーズであり得る。

場合によっては、ＤＮＡサンプルは複数の会合分子（ａｓｓｏｃｉａｔｉｏｎｍｏｌｅｃｕｌｅ）に架橋される。様々な場合、会合分子はアミノ酸を含む。多くの場合、会合分子はペプチドまたはタンパク質を含む。更なる場合、会合分子はヒストンを含む。他の場合、会合分子はナノ粒子を含む。場合によっては、ナノ粒子は白金ベースのナノ粒子である。他の場合、ナノ粒子はＤＮＡ介入物、またはその任意の誘導体である。更なる場合、ナノ粒子はビス介入物（ｂｉｓｉｎｔｅｒｃａｌａｔｏｒ）、またはその任意の誘導体である。特定の場合、会合分子は、第１のＤＮＡ分子とは異なるソースに由来する。架橋は、本明細書に開示されるようなプロトコルの一部として実行され、あるいは以前に実行されている。例えば、以前に固定されたサンプル（例えば、ホルマリン固定／パラフィン包埋（ＦＦＰＥ））は、本開示の技術で処理され且つ分析され得る。

構造を形成する核酸結合部分の一例は、再構成クロマチンである。再構成クロマチンは、様々な特徴にわたり細胞／生物内に形成されたクロマチンから分化されている。最初に、再構成クロマチンは、場合によっては分離された裸のＤＮＡから生成される。多くのサンプルについて、裸のＤＮＡサンプルの収集は、体液を集めること、頬または直腸の領域を拭き取ること、上皮サンプルを得ることなど、様々な非侵襲的なものから侵襲的な方法の何れか１つを使用することによって、達成される。これら方法は一般的に、天然のクロマチンの単離よりも容易であり、迅速であり、且つ高価ではない。

第２に、クロマチンの再構成は、ゲノムアセンブリおよびハプロタイプフェージングのための人工物を生成する、染色体間のおよび他の長い範囲の相互作用の形成を実質的に少なくする。場合によっては、サンプルには、本開示の方法および組成物に従い、約３０、２９、２８、２７、２６、２５、２４、２３、２２、２１、２０、１９、１８、１７、１６、１５、１４、１３、１２、１１、１０、９、８、７、６、５、４、３、２、１、０．５、０．４、０．３、０．２、０．１、０．０１、０．００１％、またはそれより下未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約３０％未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約２５％未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約２０％未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約１５％未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約１０％未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約５％未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約３％未満の染色体間または分子間の架橋がある場合がある。更なる例において、サンプルには、約１％未満の染色体間または分子間の架橋がある場合がある。染色体間の相互作用は、インフェーズではない分子部分間の相互作用を表わすので、それらの減少または除去は、本開示の幾つかの目標、即ち、フェージングされた核酸情報の効果的で迅速なアセンブリに有益である。

第３に、架橋が可能な部位の頻度、従ってポリヌクレオチド内の分子内架橋の頻度は、調整可能である。例えば、ＤＮＡ対ヒストンの比率は変わる場合があり、それにより、ヌクレオソーム密度を望ましい値に調整することができる。場合によっては、ヌクレオソーム密度は、生理的レベルより下に減らされる。従って、架橋の分布は、より長い範囲の相互作用を支持するように変更することができる。幾つかの実施形態において、架橋密度が変動するサブサンプルが、短いおよび長い範囲両方の会合を覆うように調製され得る。

例えば、架橋条件は、架橋の少なくとも約１％、約２％、約３％、約４％、約５％、約６％、約７％、約８％、約９％、約１０％、約１１％、約１２％、約１３％、約１４％、約１５％、約１６％、約１７％、約１８％、約１９％、約２０％、約２５％、約３０％、約４０％、約４５％、約５０％、約６０％、約７０％、約８０％、約９０％、約９５％、または約１００％が、サンプルＤＮＡ分子上で少なくとも約５０ｋｂ、約６０ｋｂ、約７０ｋｂ、約８０ｋｂ、約９０ｋｂ、約１００ｋｂ、約１１０ｋｂ、約１２０ｋｂ、約１３０ｋｂ、約１４０ｋｂ、約１５０ｋｂ、約１６０ｋｂ、約１８０ｋｂ、約２００ｋｂ、約２５０ｋｂ、約３００ｋｂ、約３５０ｋｂ、約４００ｋｂ、約４５０ｋｂ、または約５００ｋｂ離れているＤＮＡセグメントに結合するように、調整され得る。

再構成クロマチンなどの核酸結合部分の足場の重要な利益は、それらのホスホジエステル結合から独立してその構成要素の核酸の物理的結合情報を維持するということである。従って、安定性を維持するように随意に架橋された、再構成クロマチンによって共に保持される核酸は、内部標識化において生じ得るため、ホスホジエステル結合が壊れた場合であっても、それらの近接性を維持する。再構成クロマチンが原因で、断片は、たとえ切断されたとしても付近に残り、それにより内部標識化プロセス中にフェーズまたは物理的結合の情報を維持する。故に、露出した末端は、再びライゲートされると、共通の分子の共通のフェーズに由来するセグメントへとライゲートする。

再構成クロマチンのアセンブリ
核酸分子の切断および再配列中のフェーズ情報の維持のための核酸結合部分上への核酸の組み込みは、場合によっては核酸サンプル上への再構成クロマチンの組み込みを介して遂行される。本明細書で使用されるような再構成クロマチンは、核酸上への天然のクロマチン構成要素のアセンブリから、非生物粒子への核酸の結合まで、広く使用される。

従来の感覚で再構成クロマチンに言及すると、コアヒストンおよびＤＮＡのヌクレオソームへの組み込みは、シャペロンタンパク質および関連するアセンブリ因子により媒介される。これら因子のほぼ全ては、コアヒストン結合タンパク質である。ヌクレオソームアセンブリタンパク質−１（ＮＡＰ−１）などのヒストンシャペロンの一部は、ヒストンＨ３およびＨ４に結合する嗜好性を示す。新しく合成されたヒストンがアセチル化され、次にクロマチンへのアセンブリ後に引き続き脱アセチル化されることも観察された。それ故、ヒストンのアセチル化または脱アセチルを媒介する因子は、クロマチンアセンブリプロセスにおいて重要な役割を果たす。

一般に、２つのインビトロの方法がクロマチンを再構成またはアセンブルするために開発されているが、これら方法に対する変形が考慮される。方法の１つのセットはＡＴＰから独立したアセンブリを含むが、別のセットはＡＴＰに依存している。

クロマチンを再構成するためのＡＴＰから独立した方法は、ヒストンシャペロンとして作用するようにタンパク質様ＮＡＰ−１または塩を加えたＤＮＡまたはコアヒストンを含んでいる。この方法の結果、細胞中の天然のコアヌクレオソーム粒子を正確に模倣しないＤＮＡ上にヒストンの無作為な配置がもたらされる。これらの粒子は、規則的に順序づけられ、拡張されたヌクレオソームアレイではなく、使用されるＤＮＡ配列が通常は２５０ｂｐよりも長くないので、頻繁にモノヌクレオソームと呼ばれる（Ｋｕｎｄｕ，Ｔ．Ｋ．ｅｔａｌ．，Ｍｏｌ．Ｃｅｌｌ６：５５１−５６１，２０００）。より大きな長さのＤＮＡ配列上の順序づけられたヌクレオソームの拡張アレイを生成するために、ＡＴＰ依存性のプロセスを通じてクロマチンをアセンブリしなければならない。

過ヨウ素酸ヌクレオソームアレイのＡＴＰ依存性のアセンブリは、天然のクロマチンに見られるものと同様であり、ＤＮＡ配列、コアヒストン粒子、シャペロンタンパク質、およびＡＴＰを利用するクロマチンアセンブリ因子を必要とする。ＡＣＦ（ＡＴＰを利用するクロマチンのアセンブリ因子およびリモデリング因子）またはＲＳＦ（リモデリングとスペーシングの因子）は、インビトロでクロマチンへのヌクレオソームの拡張され順序づけられたアレイを生成するために使用される、２つの広く研究されたアセンブリ因子である。

代替的なアセンブリ方法、例えば再構成クロマチンを構成するためにヒストンに依存しない方法も、考慮される。広く定義された幾つかのタイプの再構成クロマチンを形成するために、ＤＮＡ結合部分を核酸に加えることができる。

幾つかの実施形態において、非天然のクロマチンアナログが考慮される。核酸結合を容易にするために正に覆われた外面、または核酸への架橋のために活性化可能な表面、あるいは核酸結合を容易にするために正に覆われた外面と核酸への架橋のために活性化可能な表面の両方をもつナノ粒子などのナノ粒子が、本明細書で考慮される。幾つかの実施形態において、ナノ粒子はシリコンを含む。

場合によっては、本明細書に開示される方法は、ナノ粒子に関連付けられたＤＮＡと共に使用される。幾つかの例において、ナノ粒子は正に帯電される。例えば、ナノ粒子は、アミン基、および／またはアミン含有分子で覆われる。ＤＮＡとナノ粒子は、天然のまたは再構成のクロマチンと同様に凝集且つ凝縮する。更に、ナノ粒子に結合されたＤＮＡは、生物学的ヌクレオソーム（即ちクロマチン）の順序付けたアレイを模倣する様式で凝集体に誘導される。ナノ粒子に基づく方法は、あまり高価ではなく、迅速にアセンブルすることが可能となり、再構成クロマチンを使用するよりも優れた回収速度をもたらし、および／またはＤＮＡ入力要件の減少を可能にする。

因子の数は、溶液中のナノ粒子の濃度、ナノ粒子対ＤＮＡの比率、および使用されるナノ粒子の大きさを含む、縮合の程度および形態に影響を及ぼすように変更され得る。場合によっては、ナノ粒子は、約１ｎｇ／ｍＬ、２ｎｇ／ｍＬ、３ｎｇ／ｍＬ、４ｎｇ／ｍＬ、５ｎｇ／ｍＬ、６ｎｇ／ｍＬ、７ｎｇ／ｍＬ、８ｎｇ／ｍＬ、９ｎｇ／ｍＬ、１０ｎｇ／ｍＬ、１５ｎｇ／ｍＬ、２０ｎｇ／ｍＬ、２５ｎｇ／ｍＬ、３０ｎｇ／ｍＬ、４０ｎｇ／ｍＬ、５０ｎｇ／ｍＬ、６０ｎｇ／ｍＬ、７０ｎｇ／ｍＬ、８０ｎｇ／ｍＬ、９０ｎｇ／ｍＬ、１００ｎｇ／ｍＬ、１２０ｎｇ／ｍＬ、１４０ｎｇ／ｍＬ、１６０ｎｇ／ｍＬ、１８０ｎｇ／ｍＬ、２００ｎｇ／ｍＬ、２５０ｎｇ／ｍＬ、３００ｎｇ／ｍＬ、４００ｎｇ／ｍＬ、５００ｎｇ／ｍＬ、６００ｎｇ／ｍＬ、７００ｎｇ／ｍＬ、８００ｎｇ／ｍＬ、９００ｎｇ／ｍＬ、１μｇ／ｍＬ、２μｇ／ｍＬ、３μｇ／ｍＬ、４μｇ／ｍＬ、５μｇ／ｍＬ、６μｇ／ｍＬ、７μｇ／ｍＬ、８μｇ／ｍＬ、９μｇ／ｍＬ、１０μｇ／ｍＬ、１５μｇ／ｍＬ、２０μｇ／ｍＬ、２５μｇ／ｍＬ、３０μｇ／ｍＬ、４０μｇ／ｍＬ、５０μｇ／ｍＬ、６０μｇ／ｍＬ、７０μｇ／ｍＬ、８０μｇ／ｍＬ、９０μｇ／ｍＬ、１００μｇ／ｍＬ、１２０μｇ／ｍＬ、１４０μｇ／ｍＬ、１６０μｇ／ｍＬ、１８０μｇ／ｍＬ、２００μｇ／ｍＬ、２５０μｇ／ｍＬ、３００μｇ／ｍＬ、４００μｇ／ｍＬ、５００μｇ／ｍＬ、６００μｇ／ｍＬ、７００μｇ／ｍＬ、８００μｇ／ｍＬ、９００μｇ／ｍＬ、１ｍｇ／ｍＬ、２ｍｇ／ｍＬ、３ｍｇ／ｍＬ、４ｍｇ／ｍＬ、５ｍｇ／ｍＬ、６ｍｇ／ｍＬ、７ｍｇ／ｍＬ、８ｍｇ／ｍＬ、９ｍｇ／ｍＬ、１０ｍｇ／ｍＬ、１５ｍｇ／ｍＬ、２０ｍｇ／ｍＬ、２５ｍｇ／ｍＬ、３０ｍｇ／ｍＬ、４０ｍｇ／ｍＬ、５０ｍｇ／ｍＬ、６０ｍｇ／ｍＬ、７０ｍｇ／ｍＬ、８０ｍｇ／ｍＬ、９０ｍｇ／ｍＬ、または１００ｍｇ／ｍＬより大きな濃度でＤＮＡに加えられる。場合によっては、ナノ粒子は、約１ｎｇ／ｍＬ、２ｎｇ／ｍＬ、３ｎｇ／ｍＬ、４ｎｇ／ｍＬ、５ｎｇ／ｍＬ、６ｎｇ／ｍＬ、７ｎｇ／ｍＬ、８ｎｇ／ｍＬ、９ｎｇ／ｍＬ、１０ｎｇ／ｍＬ、１５ｎｇ／ｍＬ、２０ｎｇ／ｍＬ、２５ｎｇ／ｍＬ、３０ｎｇ／ｍＬ、４０ｎｇ／ｍＬ、５０ｎｇ／ｍＬ、６０ｎｇ／ｍＬ、７０ｎｇ／ｍＬ、８０ｎｇ／ｍＬ、９０ｎｇ／ｍＬ、１００ｎｇ／ｍＬ、１２０ｎｇ／ｍＬ、１４０ｎｇ／ｍＬ、１６０ｎｇ／ｍＬ、１８０ｎｇ／ｍＬ、２００ｎｇ／ｍＬ、２５０ｎｇ／ｍＬ、３００ｎｇ／ｍＬ、４００ｎｇ／ｍＬ、５００ｎｇ／ｍＬ、６００ｎｇ／ｍＬ、７００ｎｇ／ｍＬ、８００ｎｇ／ｍＬ、９００ｎｇ／ｍＬ、１μｇ／ｍＬ、２μｇ／ｍＬ、３μｇ／ｍＬ、４μｇ／ｍＬ、５μｇ／ｍＬ、６μｇ／ｍＬ、７μｇ／ｍＬ、８μｇ／ｍＬ、９μｇ／ｍＬ、１０μｇ／ｍＬ、１５μｇ／ｍＬ、２０μｇ／ｍＬ、２５μｇ／ｍＬ、３０μｇ／ｍＬ、４０μｇ／ｍＬ、５０μｇ／ｍＬ、６０μｇ／ｍＬ、７０μｇ／ｍＬ、８０μｇ／ｍＬ、９０μｇ／ｍＬ、１００μｇ／ｍＬ、１２０μｇ／ｍＬ、１４０μｇ／ｍＬ、１６０μｇ／ｍＬ、１８０μｇ／ｍＬ、２００μｇ／ｍＬ、２５０μｇ／ｍＬ、３００μｇ／ｍＬ、４００μｇ／ｍＬ、５００μｇ／ｍＬ、６００μｇ／ｍＬ、７００μｇ／ｍＬ、８００μｇ／ｍＬ、９００μｇ／ｍＬ、１ｍｇ／ｍＬ、２ｍｇ／ｍＬ、３ｍｇ／ｍＬ、４ｍｇ／ｍＬ、５ｍｇ／ｍＬ、６ｍｇ／ｍＬ、７ｍｇ／ｍＬ、８ｍｇ／ｍＬ、９ｍｇ／ｍＬ、１０ｍｇ／ｍＬ、１５ｍｇ／ｍＬ、２０ｍｇ／ｍＬ、２５ｍｇ／ｍＬ、３０ｍｇ／ｍＬ、４０ｍｇ／ｍＬ、５０ｍｇ／ｍＬ、６０ｍｇ／ｍＬ、７０ｍｇ／ｍＬ、８０ｍｇ／ｍＬ、９０ｍｇ／ｍＬ、または１００ｍｇ／ｍＬ未満の濃度でＤＮＡに加えられる。場合によっては、ナノ粒子は、約１：１００００、１：５０００、１：２０００、１：１０００、１：５００、１：２００、１：１００、１：５０、１：２０、１：１０、１：５、１：２、１：１、２：１、５：１、１０：１、２０：１、５０：１、１００：１、２００：１、５００：１、１０００：１、２０００：１、５０００：１、または１００００：１よりも大きな重量対重量（ｗ／ｗ）の比率でＤＮＡに加えられる。場合によっては、ナノ粒子は、約１：１００００、１：５０００、１：２０００、１：１０００、１：５００、１：２００、１：１００、１：５０、１：２０、１：１０、１：５、１：２、１：１、２：１、５：１、１０：１、２０：１、５０：１、１００：１、２００：１、５００：１、１０００：１、２０００：１、５０００：１、または１００００：１未満の重量対重量（ｗ／ｗ）の比率でＤＮＡに加えられる。場合によっては、ナノ粒子は、約１ｎｍ、１ｎｍ、２ｎｍ、３ｎｍ、４ｎｍ、５ｎｍ、６ｎｍ、７ｎｍ、８ｎｍ、９ｎｍ、１０ｎｍ、１５ｎｍ、２０ｎｍ、２５ｎｍ、３０ｎｍ、４０ｎｍ、５０ｎｍ、６０ｎｍ、７０ｎｍ、８０ｎｍ、９０ｎｍ、１００ｎｍ、１２０ｎｍ、１４０ｎｍ、１６０ｎｍ、１８０ｎｍ、２００ｎｍ、２５０ｎｍ、３００ｎｍ、４００ｎｍ、５００ｎｍ、６００ｎｍ、７００ｎｍ、８００ｎｍ、９００ｎｍ、１μｍ、２μｍ、３μｍ、４μｍ、５μｍ、６μｍ、７μｍ、８μｍ、９μｍ、１０μｍ、１５μｍ、２０μｍ、２５μｍ、３０μｍ、４０μｍ、５０μｍ、６０μｍ、７０μｍ、８０μｍ、９０μｍ、または１００μｍより大きな直径を持つ。場合によっては、ナノ粒子は、約１ｎｍ、１ｎｍ、２ｎｍ、３ｎｍ、４ｎｍ、５ｎｍ、６ｎｍ、７ｎｍ、８ｎｍ、９ｎｍ、１０ｎｍ、１５ｎｍ、２０ｎｍ、２５ｎｍ、３０ｎｍ、４０ｎｍ、５０ｎｍ、６０ｎｍ、７０ｎｍ、８０ｎｍ、９０ｎｍ、１００ｎｍ、１２０ｎｍ、１４０ｎｍ、１６０ｎｍ、１８０ｎｍ、２００ｎｍ、２５０ｎｍ、３００ｎｍ、４００ｎｍ、５００ｎｍ、６００ｎｍ、７００ｎｍ、８００ｎｍ、９００ｎｍ、１μｍ、２μｍ、３μｍ、４μｍ、５μｍ、６μｍ、７μｍ、８μｍ、９μｍ、１０μｍ、１５μｍ、２０μｍ、２５μｍ、３０μｍ、４０μｍ、５０μｍ、６０μｍ、７０μｍ、８０μｍ、９０μｍ、または１００μｍ未満の直径を持つ。

更に、ナノ粒子は、磁界（常磁性のナノ粒子の場合の）の適用により、または共有結合（例えば、ポリ−リジンで被覆された基材への架橋による）により、固形基板（例えばビーズ、スライド、またはチューブの壁）に固定されてもよい。ナノ粒子の固定は、ライゲーションの効率を改善し、それにより、望ましくない産物（ノイズ）に対する望ましい産物（シグナル）の数を増大させ得る。

再構成クロマチンは、ＤＮＡクロマチン複合体を更に安定させるためにホルムアルデヒドなどの架橋剤と随意に接触させられる。

核酸の切断
結合された核酸は、内部の二本鎖末端を晒すために処理され得る。切断は、制限エンドヌクレアーゼなどの制限酵素で処理され得る。代替的な切断方法は、本明細書における開示とも一致している。例えば、トランスポサーゼは、トランスポサーゼが送達されたオリゴ核酸分子の結合によって印付けられる核酸中の配列から独立した破壊を作り出すように、結合されていない左および右の境界オリゴ核酸分子と組み合わせて随意に使用される。オリゴ核酸分子は、場合によっては、終点に適合可能な（ｐｕｎｃｔｕａｔｉｏｎ−ｃｏｍｐａｔｉｂｌｅ）オーバーハングを含むように、あるいは互いに適合可能となるように合成され、それにより、オリゴ核酸分子は、互いにライゲートされ、且つ終点分子として機能する。この種の代替的な方法の利益は、切断が配列に依存せず、従って、２つの核酸分子の配列が局所的に同一であっても、核酸の１つのコピーと別のコピーまでおそらく変動するということである。

場合によっては、晒された核酸末端は、例えば制限エンドヌクレアーゼへの接触による結果として、望ましくは粘着末端である。場合によっては、制限エンドヌクレアーゼは、予測可能なオーバーハングを切断するために使用され、その後、ＤＮＡ断片上で予測可能なオーバーハングに相補的なオーバーハングを含む核酸末端（終点オリゴヌクレオチド）のライゲーションを行う。幾つかの実施形態において、制限エンドヌクレアーゼが生成されたオーバーハングの５’および／または３’の末端が部分的に埋められる。場合によっては、オーバーハングは単一のヌクレオチドで埋められる。

幾つかの例において、オーバーハングを持つＤＮＡ断片は、ライゲーション反応などにおいて、相補的なオーバーハングを持つ終点オリゴヌクレオチド、オリゴヌクレオチド、アダプターオリゴヌクレオチド、またはポリヌクレオチドなどの１以上の核酸に結合され得る。例えば、単一のアデニンは、鋳型の独立したポリメラーゼを使用して末端が修復されたＤＮＡ断片の３’末端に加えられ、その後、３’末端で各々がチミンを持つ１以上の終点オリゴヌクレオチドへのライゲーションが行われ得る。幾つかの実施形態において、オリゴヌクレオチドまたはポリヌクレオチドなどの核酸は、１以上のヌクレオチドでの３’末端の伸長、その後の５’リン酸化により修飾された平滑末端のニ本鎖ＤＮＡ分子に結合される。場合によっては、３’末端の伸長は、マグネシウムを含む適切な緩衝液中の１以上のｄＮＴＰの存在下で、Ｋｌｅｎｏｗポリメラーゼまたは本明細書で提供される適切なポリメラーゼのうち何れかといったポリメラーゼにより、あるいは、末端のデオキシヌクレオチドトランスフェラーゼの使用により、実行される。幾つかの実施形態において、平滑末端を持つ標的ポリヌクレオチドは、平滑末端を含む１以上のアダプターに結合される。ＤＮＡ断片の分子の５’末端のリン酸化は、例えば、ＡＴＰおよびマグネシウムを含有する適切な緩衝液においてＴ４ポリヌクレオチドキナーゼにより実行され得る。断片化ＤＮＡ分子は随意に、例えばホスファターゼなどの当該技術で既知の酵素の使用により、５’末端または３’末端を脱リン酸化するために処理され得る。

終点オリゴヌクレオチド
場合によっては、終点オリゴヌクレオチドが、晒された切断末端を接続する際に使用され得る。終点オリゴヌクレオチドは、フェーズを維持する再配列を受けるサンプル分子の２つの切断された内部末端を架橋するように、標的ポリヌクレオチドに結合され得るオリゴヌクレオチドを含んでいる。終点オリゴヌクレオチドは、ＤＮＡ、ＲＮＡ、ヌクレオチドアナログ、非標準のヌクレオチド、標識化ヌクレオチド、修飾されたヌクレオチド、またはそれらの組み合わせを含み得る。多くの例において、二本鎖終点オリゴヌクレオチドは、互いにハイブリダイズされる２つの別個のオリゴヌクレオチド（「オリゴヌクレオチドデュプレックス」とも称される）を含み、ハイブリダイゼーションは、１つ以上の平滑末端、１つ以上の３’オーバーハング、１つ以上の５’オーバーハング、不適正および／または非対合のヌクレオチドから結果として生じる１つ以上のバルジ、またはこれらの任意の組み合わせを残し得る。幾つかの例において、異なる終点オリゴヌクレオチドが、連続的な反応においてまたは同時に、ポリヌクレオチドを標的とするために結合される。例えば、第１および第２の終点オリゴヌクレオチドが同じ反応に加えられ得る。代替的に、終点オリゴの集団は場合によっては均一である。

終点オリゴヌクレオチドを、標的ポリヌクレオチドと組み合わせる前に取り扱うことができる。例えば、末端リン酸塩が除去され得る。そのような修飾は、サンプル分子の切断された内部末端ではなく、互いに対する終点オリゴの位置を排除する。

終点オリゴヌクレオチドは、様々な配列因子のうち１つ以上を含んでおり、限定されないが、配列またはその補体をアニールする１つ以上の増幅プライマー、配列またはその補体をアニールする１つ以上の配列決定プライマー、１つ以上のバーコード配列、多数の異なる終点オリゴヌクレオチドまたは異なる終点オリゴヌクレオチドの亜群の中で共有される１つ以上の共通配列、１つ以上の制限酵素認識部位、１つ以上の標的ポリヌクレオチドオーバーハングに相補的な１つ以上のオーバーハング、１つ以上のプローブ結合部位、１つ以上のランダムまたはほぼランダムな配列、およびそれらの組み合わせが挙げられる。幾つかの例において、２つ以上の配列因子は、互いに隣接しておらず（例えば、１つ以上のヌクレオチドにより分離される）、あるいは、部分的または完全に重なって互いに隣接している。例えば、配列をアニールする増幅プライマーはまた、配列をアニールする配列決定プライマーとして役立つ。特定の例において、配列因子は、３’末端またはその付近に、５’末端またはその付近に、あるいは終点オリゴヌクレオチドの内部に位置付けられる。

代替的な実施形態において、終点オリゴは、配列決定反応において占められる配列情報の量を最小化するように二本鎖分子の完全性を維持するための塩基の最小の補体を含み、あるいは、ライゲーションのための最適な数の塩基を含み、または終点オリゴの長さは恣意的に決定される。

幾つかの実施形態において、終点オリゴヌクレオチドは、１つ以上の標的ポリヌクレオチドに相補的である、５’オーバーハング、３’オーバーハング、またはその両方を含む。特定の例において、相補的なオーバーハングは、長さが１以上のヌクレオチドであり、限定されないが、長さが１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５以上のヌクレオチドが挙げられる。例えば、相補的なオーバーハングは、長さが約１、２、３、４、５、または６のヌクレオチドである。幾つかの実施形態において、終点オリゴヌクレオチドのオーバーハングは、制限エンドヌクレアーゼ消化または他のＤＮＡ切断方法によって生成された標的ポリヌクレオチドのオーバーハングに相補的である。

終点オリゴヌクレオチドは、少なくともそれらが構成される１つ以上の配列因子を収容するのに十分な、任意の適切な長さを持つ場合がある。幾つかの実施形態において、終点オリゴヌクレオチドは、長さが約４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、２００以上の、それら未満の、あるいはそれらより上のヌクレオチドである。幾つかの例において、終点オリゴヌクレオチドは、長さが５〜１５のヌクレオチドである。更なる例において、終点オリゴヌクレオチドは長さが約２０〜約４０ヌクレオチドである。

好ましくは、終点オリゴヌクレオチドは、例えば５’リン酸塩の切除（アルカリフォスファターゼ処理を介して、またはそのような部分が無い状態で合成によりデノボで）によって修飾され、その結果、多量体を形成するために互いにライゲートしない。３’ＯＨ（ヒドロキシル）部分は、切断された核酸上で５’リン酸塩にライゲートすることができ、それにより第１または第２の核酸セグメントに対するライゲーションを支持する。

アダプターオリゴヌクレオチド
アダプターは、標的ポリヌクレオチドに結合され得る配列を持つ任意のオリゴヌクレオチドを含んでいる。終点粘着体オリゴヌクレオチドは、ＤＮＡ、ＲＮＡ、ヌクレオチドアナログ、非標準のヌクレオチド、標識化ヌクレオチド、修飾されたヌクレオチド、またはそれらの組み合わせを含み得る。幾つかの例において、アダプターオリゴヌクレオチドは、一本鎖、二本鎖、または部分的に二重である。一般に、部分的に二重のアダプターオリゴヌクレオチドは、１つ以上の一本鎖領域および１つ以上の二本鎖領域を含む。二本鎖アダプターオリゴヌクレオチドは、互いにハイブリダイズされる２つの別個のオリゴヌクレオチド（「オリゴヌクレオチドデュプレックス」とも称される）を含み、ハイブリダイゼーションは、１つ以上の平滑末端、１つ以上の３’オーバーハング、１つ以上の５’オーバーハング、不適正および／または非対合のヌクレオチドから結果として生じる１つ以上のバルジ、またはこれらの任意の組み合わせを残し得る。幾つかの実施形態において、一本鎖アダプターオリゴヌクレオチドは、互いとハイブリダイズすることができる２つ以上の配列を含む。２つのそのようなハイブリダイズ可能な配列が一本鎖アダプターに含まれていると、ハイブリダイゼーションはヘアピン構造（ヘアピンアダプター）を産出する。アダプターオリゴヌクレオチドの２つのハイブリダイズされた領域がハイブリダイズされていない領域によって互いに分離されと、「バブル」構造が結果として生じる。バブル構造を含むアダプターオリゴヌクレオチドは、内部のハイブリダイゼーションを含む単一のアダプターオリゴヌクレオチドから成るか、あるいは互いにハイブリダイズされた２つ以上のアダプターオリゴヌクレオチドを含む。アダプターオリゴヌクレオチドにおける２つのハイブリダイズ可能な配列間などでの内部配列ハイブリダイゼーションは、幾つかの例において、一本鎖アダプターオリゴヌクレオチド中に二本鎖構造を生成する。幾つかの例において、ヘアピンアダプターおよび二本鎖アダプター、または異なる配列のなどの、異なる種類のアダプターオリゴヌクレオチドは、組み合わせで使用される。特定の場合、ヘアピンアダプター中のハイブリダイズ可能な配列は、オリゴヌクレオチドの末端の一方または両方を含んでいる。どの末端もハイブリダイズ可能な配列に含まれない時、両末端は「自由（ｆｒｅｅ）」または「オーバーハング」である。一端のみがアダプター中で別の配列にハイブリダイズされる時、他端は３’オーバーハングまたは５’オーバーハングなどのオーバーハングを形成する。５’−末端ヌクレオチドおよび３’−末端ヌクレオチドの両方が互いにハイブリダイズ可能な配列に含まれ、それにより５’−末端ヌクレオチドおよび３’−末端ヌクレオチドが相補的になり且つ互いとハイブリダイズする時、末端は「平滑」と称される。場合によっては、異なるアダプターオリゴヌクレオチドは、連続的な反応においてまたは同時に、ポリヌクレオチドを標的とするために結合される。例えば、第１および第２のアダプターオリゴヌクレオチドが同じ反応に加えられる。幾つかの例において、アダプターオリゴヌクレオチドは標的ポリヌクレオチドと組み合わせる前に取り扱われる。例えば、末端リン酸塩が追加または除去され得る。

アダプターオリゴヌクレオチドは、様々な配列因子のうち１つ以上を含み、限定されないが、配列またはその補体をアニールする１つ以上の増幅プライマー、配列またはその補体をアニールする１つ以上の配列決定プライマー、１つ以上のバーコード配列、多数の異なるアダプターまたは異なるアダプターの亜群の中で共有される１つ以上の共通配列、１つ以上の制限酵素認識部位、１つ以上の標的ポリヌクレオチドオーバーハングに相補的な１つ以上のオーバーハング、１つ以上のプローブ結合部位（例えば、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．により開発されたものなど、大規模並列配列決定のためのフローセルなどの配列決定プラットフォームへの結合のためのもの）、１つ以上のランダムまたはほぼランダムな配列（例えば、１つ以上の位置で２つ以上の異なるヌクレオチドのセットから無作為に選択された１つ以上のヌクレオチドであり、異なるヌクレオチドの各々はランダム配列を含むアダプターのプールの中で表わされる１つ以上の位置で選択される）、およびそれらの組み合わせが挙げられる。多くの例において、２つ以上の配列因子は、互いに隣接しておらず（例えば、１つ以上のヌクレオチドにより分離される）、あるいは、部分的または完全に重なって互いに隣接し得る。例えば、配列をアニールする増幅プライマーはまた、配列をアニールする配列決定プライマーとして役立つ。配列因子は、３’末端またはその付近に、５’末端またはその付近に、あるいはアダプターオリゴヌクレオチドの内部に位置付けられる。アダプターオリゴヌクレオチドがヘアピンなどの二次構造を形成することができる時、配列因子は、二次構造の外部に部分的または完全に、二次構造の内部に部分的または完全に、あるいは二次構造に関与する配列間に位置付けることができる。例えば、アダプターオリゴヌクレオチドがヘアピン構造を含む時、配列因子は、ハイブリダイズ可能な配列（「ループ」）間の配列の中を含む、ハイブリダイズ可能な配列（「ステム」）の内部または外部に部分的または完全に位置付けることができる。幾つかの実施形態において、異なるバーコード配列を持つ複数の第１のアダプターオリゴヌクレオチドにおける第１のアダプターオリゴヌクレオチドは、複数における全ての第１のアダプターオリゴヌクレオチド中で共通の配列因子を含む。幾つかの実施形態において、全ての第２のアダプターオリゴヌクレオチドは、第１のアダプターオリゴヌクレオチドにより共有される共通配列要素とは異なる、全ての第２のアダプターオリゴヌクレオチドに共通の配列因子を含む。配列因子の差異は、異なるアダプターの少なくとも一部が、例えば、配列長さの変化、１つ以上のヌクレオチドの欠失または挿入、あるいは１つ以上のヌクレオチド位置でのヌクレオチド組成の変化（塩基の変化または塩基の修飾など）が原因で完全には整列しないようなものであり得る。幾つかの実施形態において、アダプターオリゴヌクレオチドは、１つ以上の標的ポリヌクレオチドに相補的である、５’オーバーハング、３’オーバーハング、またはその両方を含む。相補的なオーバーハングは、長さが１以上のヌクレオチドであり、限定されないが、長さが１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５以上のヌクレオチドが挙げられる。例えば、相補的なオーバーハングは、長さが約１、２、３、４、５、または６のヌクレオチドであり得る。相補的なオーバーハングは固定配列を含み得る。相補的なオーバーハングは、１つ以上のヌクレオチドのランダム配列を付加的または代替的に含んでもよく、その結果、１つ以上のヌクレオチドが１つ以上の位置で２つ以上の異なるヌクレオチドのセットから無作為に選択され、異なるヌクレオチドの各々は、ランダム配列を含む相補的なオーバーハングを備えたアダプターオリゴヌクレオチドのプールの中で表わされる１つ以上の位置にて選択される。幾つかの実施形態において、アダプターオリゴヌクレオチドのオーバーハングは、制限エンドヌクレアーゼ消化の切断方法によって生成された標的ポリヌクレオチドのオーバーハングに相補的である。幾つかの実施形態において、アダプターオリゴヌクレオチドのオーバーハングはアデニンまたはチミンから成る。

アダプターオリゴヌクレオチドは、少なくともそれらが構成される１つ以上の配列因子を収容するのに十分な、任意の適切な長さを持つ場合がある。幾つかの実施形態において、アダプターオリゴヌクレオチドは、長さが約４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、９０、１００、２００以上の、それら未満の、あるいはそれらより上のヌクレオチドである。幾つかの例において、アダプターオリゴヌクレオチドは、長さが５〜１５のヌクレオチドである。更なる例において、アダプターオリゴヌクレオチドは長さが約２０〜約４０ヌクレオチドである。

好ましくは、アダプターオリゴヌクレオチドは、例えば５’リン酸塩の切除（アルカリフォスファターゼ処理を介して、またはそのような部分が無い状態で合成によりデノボで）によって修飾され、その結果、多量体を形成するために互いにライゲートしない。３’ＯＨ（ヒドロキシル）部分は、切断された核酸上で５’リン酸塩にライゲートすることができ、それにより第１または第２の核酸セグメントに対するライゲーションを支持する。

核酸サンプルのフェーズ情報の判定
核酸サンプルのフェーズ情報を測定ために、核酸は、例えば本明細書で議論される抽出法によって最初に獲得される。多くの場合、核酸はその後、核酸分子の切断の後にフェーズ情報を維持するように固体表面に結合される。好ましくは、核酸分子は、再構成クロマチンを生成するために核酸結合タンパク質と共にインビトロでアセンブリされるが、他の適切な固体表面は、核酸結合タンパク質凝集体、ナノ粒子、核酸結合ビーズ、または、核酸結合物質、ポリマー、合成核酸結合分子、あるいは他の固体またはほぼ固体の親和性分子で覆われたビーズを含む。核酸サンプルはまた、天然のクロマチンの場合のように固体表面に既に結合された状態で得ることができる。天然のクロマチンは、ホルマリン固定／パラフィン包埋（ＦＦＰＥ）されたまたは同様に維持されたサンプルの形態などで既に固定されている状態で得ることができる。

核酸結合部分への結合の後、結合された核酸分子は切断され得る。切断は、あらゆる酵素方法および非酵素方法を含む任意の適切な核酸切断実体で実行される。好ましくは、ＤＮＡ切断は、制限エンドヌクレアーゼ、フラグメンターゼ（ｆｒａｇｍｅｎｔａｓｅ）、またはトランスポサーゼで実行される。代替的または付加的に、核酸切断は、他の制限酵素、トポイソメラーゼ、非特異的エンドヌクレアーゼ、核酸修復酵素、ＲＮＡで誘導されたヌクレアーゼ、または代替的な酵素で達成される。切断を生成するために、機械的手段（例えば音波処理、剪断）、熱手段（例えば温度変化）、または電磁気手段（例えば紫外線照射などの照射）を含む物理的手段も使用することができる。核酸切断は、使用される切断方法に依存して、「粘着」オーバーハングまたは平滑末端の何れかを持つ自由核酸末端を産生する。粘着オーバーハング末端が生成されると、粘着末端は随意に、再ライゲーションを妨げるために部分的に埋められる。代替的に、オーバーハングは、平滑末端を産生するために完全に埋められる。

多くの場合、オーバーハング末端は、ｄＮＴＰで部分的にまたは完全に埋められ、これは随意に標識される。そのような場合、ｄＮＴＰは、ビオチン化され、硫酸化され、フルオロフォアに結合され、脱リン酸化され、または他のあらゆるヌクレオチド修飾を受ける場合があり得る。ヌクレオチド修飾はまた、メチル化（例えば５−ｍＣ、５−ｈｍＣ、５−ｆＣ、５−ｃａＣ、４−ｍＣ、６−ｍＡ、８−ｏｘｏＧ、８−ｏｘｏＡ）などの後成的修飾を含み得る。標識または修飾は、ナノポア配列決定によって検知可能な後成的修飾などの、配列決定中に検知可能なものから選択することができ；このように、ライゲーション結合の位置は配列決定中に検出することができる。これらの標識または修飾はまた、結合または富化のために標的とされ得；例えば、メチル−シトシンを標的とする抗体は、メチル−シントンで埋められた平滑末端を捕捉し、標的化し、結合し、または標識するために使用され得る。非天然ヌクレオチド、非標準ヌクレオチド、または修飾されたヌクレオチド、および核酸アナログも、平滑末端の充填の位置を標識するために使用され得る。非標準ヌクレオチドまたは修飾されたヌクレオチドは、プソイドウリジン（Ψ）、ジヒドロウリジン（Ｄ）、イノシン（Ｉ）、７−メチルグアノシン（ｍ７Ｇ）、キサンチン、ヒポキサンチン、プリン、２，６−ジアミノプリン、および６，８−ジアミノプリンを含み得る。核酸アナログは、ペプチド核酸（ＰＮＡ）、モルホリノおよびロックド核酸（ＬＮＡ）、グリコール核酸（ＧＮＡ）、およびトレオース核酸（ＴＮＡ）を含み得る。場合によっては、オーバーハングは、ビオチンの無いｄＮＴＰなどの、標識化されていないｄＮＴＰで埋められる。場合によっては、トランスポゾンでの切断など、充填を必要としない平滑末端が生成される。トランスポサーゼが２つの結合されていない終点オリゴヌクレオチドを挿入する場合、これら自由平滑末端が生成される。しかし、終点オリゴヌクレオチドは、望ましいものとして粘着末端または平滑末端を持つように合成される。ヒストンなどの試料サンプルに関連付けられるタンパク質も、修飾され得る。例えば、ヒストンは、アセチル化（例えばリジン残基にて）および／またはメチル化（例えばリジンとアルギニン残基にて）され得る。

次に、切断された核酸分子は未だに固体表面に結合されている一方、自由核酸末端は共に結合される。結合は、場合によっては、ライゲーションを通じて、自由末端間で、あるいはオリゴヌクレオチドなどの別個の実体で生じる。場合によっては、オリゴヌクレオチドは終点オリゴヌクレオチドである。そのような場合、終点分子末端は、切断された核酸分子の自由末端と互換性をもつ。多くの場合、終点分子はオリゴヌクレオチドのコンカテマー化（ｃｏｎｃａｔｅｍｅｒｉｚａｔｉｏｎ）を防ぐために脱リン酸化される。大半の場合、終点分子は、切断された核酸分子の自由核酸末端へと各末端の上でライゲートされる。多くの場合、このライゲーション工程の結果、切断された核酸分子の再配列がもたらされ、その結果、出発核酸分子において互いに本来隣接していなかった２つの自由末端はここで、ペアエンドにおいて結合される。

切断された核酸分子の自由末端の結合の後、再配列された核酸サンプルは、あらゆる標準の酵素方法および非酵素方法を使用して核酸結合実体から放たれる。例えば、インビトロの再構成クロマチンの場合、再配列された核酸分子は、核酸結合タンパク質を変性または分解することによって放たれる。他の例において、架橋は逆転される。また他の例において、親和性相互作用は逆転されまたは遮断される。放たれた核酸分子は、入力核酸分子と比べて再配列される。終点分子が使用される場合、結果として生じる再配列された分子は、再配列された核酸分子の全体にわたって散在する終点オリゴヌクレオチドにより、終点化された分子（ｐｕｎｃｔｕａｔｅｄｍｏｌｅｃｕｌｅ）と称される。これらの場合、終点に隣接する核酸セグメントはペアエンドを構築する。

本明細書に開示される方法の切断および結合の工程中に、核酸分子がこれらプロセスの全体にわたって固体表面に結合されるので、フェーズ情報が維持される。これにより、一塩基変異多型（ＳＮＰ）などの他のマーカーからの情報に依存することなく、フェーズ情報の分析が可能とされ得る。本明細書に開示される方法および組成物を使用して、場合によっては、核酸分子内の２つの核酸セグメントは、元々の核酸分子上に存在していたよりも近くにあるように、再配列される。多くの例において、出発核酸サンプルにおける２つの核酸セグメントの元々の分離距離は、標準配列決定技術の平均のリード長よりも長い。例えば、入力核酸サンプル内の２つの核酸セグメント間の出発分離距離は、約１０ｋｂ、１２．５ｋｂ、１５ｋｂ、１７．５ｋｂ、２０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、４５ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、１２５ｋｂ、１５０ｋｂ、２００ｋｂ、３００ｋｂ、４００ｋｂ、５００ｋｂ、６００ｋｂ、７００ｋｂ、８００ｋｂ、９００ｋｂ、１Ｍｂ、またはそれ以上である。好ましい例において、再配列された２つのＤＮＡセグメント間の分離距離は、標準配列決定技術の平均のリード長未満である。例えば、再配列されたＤＮＡ分子内の２つの再配列されたＤＮＡセグメントを分離する距離は、約５０ｋｂ、４０ｋｂ、３０ｋｂ、２５ｋｂ、２０ｋｂ、１７ｋｂ、１５ｋｂ、１４ｋｂ、１３ｋｂ、１２ｋｂ、１１ｋｂ、１０ｋｂ、９ｋｂ、８ｋｂ、７ｋｂ、６ｋｂ、５ｋｂ、またはそれ以下である。好ましい場合、分離距離は、ロングリード配列決定機械の平均のリード長のもの未満である。これらの場合、再配列されたＤＮＡサンプルが核酸結合部分から放たれ、配列決定されると、フェーズ情報が判定され、デノボの配列足場を生成するのに十分な配列情報が生成される。

再配列された核酸分子のバーコーディング
幾つかの例において、本明細書に記載される、放たれて再配列された核酸分子は、配列決定前に更に処理される。例えば、再配列された核酸分子内に含まれる核酸セグメントは、バーコード化され得る。バーコーディングは、配列のリードのより容易なグルーピングを可能にし得る。例えば、バーコードは、同じ再配列された核酸分子から生じる配列を識別するために使用され得る。バーコードはまた、個々の結合を一意に識別するために使用され得る。例えば、各結合は、結合を一意に識別することができる固有の（例えば、無作為に生成された）バーコードで印をつけられ得る。同じ再配列された核酸分子から生じる配列を識別するための第１のバーコード、および個々の結合を一意に識別するための第２のバーコードなど、複数のバーコードを共に使用することができる。

バーコーディングは、多数の技術を介して達成され得る。場合によっては、バーコードは、終点オリゴ内の配列として含稀得る。他の場合、放たれて再配列された核酸分子は、少なくとも２つのセグメントを含むオリゴヌクレオチドに接触させることができ：１つのセグメントはバーコードを含み、別のセグメントは終点配列に相補的な配列を含む。終点配列へとアニールした後、バーコード化されたオリゴヌクレオチドは、ポリメラーゼで拡張されて、同じ終点化された核酸分子からバーコード化された分子を産出する。終点化された核酸分子は、中でフェーズ情報が維持されている入力核酸分子の再配列されたバージョンであるため、生成されたバーコード化された分子はまた、同じ入力核酸分子から由来する。これらバーコード化された分子は、バーコード配列、終点相補的配列、およびゲノム配列を含む。

終点を含むまたは含まない再配列された核酸分子について、分子は他の手段によってバーコード化され得る。例えば、再配列された核酸分子は、再配列された核酸分子からの配列を組み込むために拡張され得る、バーコード化されたオリゴヌクレオチドに接触され得る。バーコードは、終点配列に、制限酵素認識部位に、対象の部位（例えばゲノム関心領域）に、またはランダム部位（例えばバーコードオリゴヌクレオチド上の無作為のｎ−量体配列による）に、ハイブリダイズすることができる。再配列された核酸分子は、サンプル中の他の再配列された核酸分子から適切な濃縮および／または分離（例えば空間的または時間的な分離）を使用してバーコードに接触させることができ、その結果、複数の再配列された核酸分子は、同じバーコード配列において得られない。例えば、再配列された核酸分子を含む溶液は、１つの再配列された核酸分子のみが、バーコードまたは与えられたバーコード配列を含むバーコードの群に接触させられるような濃度に希釈され得る。バーコードは、自由溶液中で、流体区分中で（例えば液滴またはウェル）、あるいはアレイ上で（例えば特定のアレイスポットにて）、再配列された核酸分子に接触され得る。

バーコード化された核酸分子（例えば拡張産物）は、例えば、ショートリード配列決定機械上で配列決定することができ、フェーズ情報は、共通のフェーズへの同じバーコードを持つ配列のリードのグループ化によって判定される。代替的に、配列決定の前に、バーコード化された産物は、例えばロングリード配列決定技術を使用して配列決定される長い分子を生成するために、例えばバルクライゲーション（ｂｕｌｋｌｉｇａｔｉｏｎ）を介して共に結合され得る。これらの場合、埋め込まれたリードペアは、増幅アダプターおよび終点配列を介して識別可能である。更なるフェーズ情報は、リードペアのバーコード配列から得られる。

ペアエンドでのフェーズ情報の判定
本明細書には更に、ペアエンドからフェーズ情報を判定するための方法および組成物が提供される。ペアエンドは、開示された方法の何れかまたは提供された実施例に更に例示されるものによって生成され得る。例えば、後に切断される固体表面に結合される核酸分子の場合、自由末端の再ライゲーションの後、再びライゲートされた核酸セグメントは、例えば制限消化によって固相が結合した核酸分子から放たれる。この放出の結果、複数のペアエンドがもたらされる。場合によっては、ペアエンドは、増幅アダプターにライゲートされ、増幅され、且つ短距離技術で配列決定される。これらの場合、多数の異なる核酸結合部分に結合した核酸分子からのペアエンドは、配列決定されたサンプル内にある。しかし、ペアエンドの結合の何れかの側について、結合隣接配列は共通の分子の共通のフェーズから由来することが、確信的に結論付けられる。ペアエンドが終点オリゴヌクレオチドに結合される時、配列決定のリードにおけるペアエンドの結合は、終点オリゴヌクレオチド配列によって識別される。他の場合、ペアエンドは修飾されたヌクレオチドによって結合され、これは、使用される修飾されたヌクレオチドの配列に基づいて識別され得る。

代替的に、ペアエンドの放出後、自由のペアエンドは、増幅アダプターにライゲートされ、増幅され得る。これらの場合、複数のペアエンドはその後、ロングリード配列決定技術を使用して読み取られる長い分子を生成するために、共にバルクライゲートされる。他の例において、放出されたペアエンドは、増幅工程を介入させることなく互いにバルクライゲートされる。いずれの場合も、埋め込まれたリードペアは、終点配列または修飾されたヌクレオチドなどの、結合配列に隣接している天然ＤＮＡ配列を介して識別可能である。連結されたペアエンドは、長い配列デバイス上で読み取られ、多数の結合のための配列情報が得られる。ペアエンドは複数の異なる核酸結合部分に結合したＤＮＡ分子から由来するので、増幅アダプター配列に隣接するものなどの２つの個々のペアエンドに及ぶ配列は、多数の異なるＤＮＡ分子にマッピングされると見出される。しかし、ペアエンドの結合の何れかの側について、結合隣接配列は共通の分子の共通のフェーズから由来することが、確信的に結論付けられる。例えば、終点化された分子から由来するペアエンドの場合、終点配列に隣接する配列は、共通のＤＮＡ分子へと確信的に割り当てられる。好ましい場合、本明細書に開示される方法および組成物を使用して個々のペアエンドが連結されるので、単一のリードにおいて複数のペアエンドを配列決定することができる。

配列決定方法
本明細書に開示される方法および組成物は、インプットＤＮＡサンプルと比べて再配列されたセグメントを含む長いＤＮＡ分子を生成するために使用され得る。これら分子は、あらゆる配列決定技術を使用して配列決定される。好ましくは、長い分子は、標準のロングリード配列決定技術を使用して配列決定される。付加的または代替的に、、精製された長い分子は、ショートリード配列決定技術と互換性を持たせるために、本明細書に開示されるように修飾され得る。

典型的なロングリード配列決定技術は、ナノポア配列決定技術、およびＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳｉｎｇｌｅＭｏｌｅｃｕｌｅＲｅａｌＴｉｍｅ（ＳＭＲＴ）配列決定などの他のロングリード配列決定技術を含むが、これらに限定されない。ナノポア配列決定技術は、Ｏｘｆｏｒｄのナノポア配列決定技術（例えばＧｒｉｄＩＯＮ，ＭｉｎＩＯＮ）およびＧｅｎｉａの配列決定技術を含むが、これらに限定されない。

配列のリード長は、少なくとも約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、２ｋｂ、３ｋｂ、４ｋｂ、５ｋｂ、６ｋｂ、７ｋｂ、８ｋｂ、９ｋｂ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、２００ｋｂ、３００ｋｂ、４００ｋｂ、５００ｋｂ、６００ｋｂ、７００ｋｂ、８００ｋｂ、９００ｋｂ、１Ｍｂ、２Ｍｂ、３Ｍｂ、４Ｍｂ、５Ｍｂ、６Ｍｂ、７Ｍｂ、８Ｍｂ、９Ｍｂ、または１０Ｍｂであり得る。配列のリード長は、約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、２ｋｂ、３ｋｂ、４ｋｂ、５ｋｂ、６ｋｂ、７ｋｂ、８ｋｂ、９ｋｂ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、２００ｋｂ、３００ｋｂ、４００ｋｂ、５００ｋｂ、６００ｋｂ、７００ｋｂ、８００ｋｂ、９００ｋｂ、１Ｍｂ、２Ｍｂ、３Ｍｂ、４Ｍｂ、５Ｍｂ、６Ｍｂ、７Ｍｂ、８Ｍｂ、９Ｍｂ、または１０Ｍｂであり得る。場合によっては、配列のリード長は少なくとも約５ｋｂである。場合によっては、配列のリード長は約５ｋｂである。

幾つかの例において、本明細書に開示される方法および組成物を使用するので生成される、長い再配列されたＤＮＡ分子は、配列決定アダプターの一端の上でライゲートされる。好ましい例において、配列決定アダプターはヘアピンアダプターであり、その結果、逆方向反復を持つ自己アニーリング単鎖分子がもたらされる。これらの場合、分子は配列決定酵素を通じて供給され、逆方向反復の各側の完全長の配列が得られる。ほとんどの場合、結果として生じる配列のリードは、各々がフェーズ情報を運ぶ再配列されたセグメントを持つ終点化されたＤＮＡ分子などのＤＮＡ分子の２倍のカバレッジに相当する。好ましい例において、核酸サンプルのデノボ足場を独立して生成するのに十分な配列が生成される。

代替的に、本明細書に開示される方法および組成物を使用して生成される、長い再配列されたＤＮＡ分子は、望ましい長さの二本鎖分子の集団を形成するために切断される。これらの場合、これら分子は一本鎖アダプターに対し各末端の上でライゲートされる。結果は、両末端でヘアーピンループによってキャッピングされる二本鎖ＤＮＡ鋳型である。環状分子は連続的な配列決定技術によって配列決定される。長い二本鎖セグメントを含む分子の連続的なロングリード配列決定の結果、各分子の単一の連続的なリードが生じる。短い二本鎖セグメントを含む分子の連続的な配列決定の結果、分子の複数のリードが生じ、これは、単独で、あるいは分子のコンセンサス配列を確認するための連続的なロングリード配列情報と共に使用される。ほとんどの場合、終点オリゴヌクレオチドによって印付けられたゲノムセグメントの境界が識別され、終点境界に隣接している配列はインフェーズであると結論付けられる。好ましい場合、核酸サンプルのデノボ足場を独立して生成するのに十分な配列が生成される。

場合によっては、再配列された核酸分子は、長さに基づく配列決定のために選択される。長さに基づく選択は、より多くの再配列されたセグメントを含む再配列された核酸分子のために選択するように使用され得、その結果、ほんの少数の再配列されたセグメントを含む、より短い再配列された核酸分子は、配列決定されず、あるいはより少数の数で配列決定される。より多くの再配列されたセグメントを含む、再配列された核酸分子は、より少数の再配列されたセグメントを含む分子よりも多くのフェーズ情報を提供することができる。再配列された核酸は、少なくとも１、２、３、４、５、６、７、８、９、１０、またはそれ以上の再配列されたセグメントを含むもののために選択され得る。例えば、再配列された核酸分子は、少なくとも１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、２ｋｂ、３ｋｂ、４ｋｂ、５ｋｂ、６ｋｂ、７ｋｂ、８ｋｂ、９ｋｂ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、２００ｋｂ、３００ｋｂ、４００ｋｂ、５００ｋｂ、６００ｋｂ、７００ｋｂ、８００ｋｂ、９００ｋｂ、１Ｍｂ、２Ｍｂ、３Ｍｂ、４Ｍｂ、５Ｍｂ、６Ｍｂ、７Ｍｂ、８Ｍｂ、９Ｍｂ、１０Ｍｂ、またはそれ以上の長さのために選択され得る。長さに基づく選択は、選ばれた長さよりも下の再配列された核酸分子の１００％を除いて、確固たる除外（ｆｉｒｍｅｘｃｌｕｓｉｏｎ）であり得る。代替的に、長さに基づく選択は、選択された長さより下の再配列された核酸分子の少なくとも９９．９９９％、９９．９９％、９９．９％、９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８５％、８０％、７５％、７０％、６５％、６０％、５５％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、５％、４％、３％、２％、または１％を除く、より長い分子のための富化であり得る。核酸の長さの選択は様々な技術によって実行することができ、限定されないが、電気泳動法（例えばゲルまたはキャピラリー）、濾過、ビーズ結合（例えばＳＰＲＩビーズのサイズ選択）、および流れに基づく方法が挙げられる。

フェージングされた配列アセンブリ
本明細書に記載される方法および組成物を使用して生成された配列決定データは、好ましい実施形態において、フェージングされたデノボ配列アセンブリを生成するために使用される。

幾つかの例において、複数の再配列された（および随意に終点化された）ＤＮＡ分子が、本明細書に開示されるように生成され、続いて、ロングリード配列決定技術を使用して配列決定される。複数の再配列された（および随意に終点化された）ＤＮＡ分子からの配列が比較され、多くの場合、第１の再配列された（および随意に終点化された）分子がその構成要素セグメントのためのフェーズ情報を判定するために使用され、一方で、第２の（および付加的な）再配列された（および随意に終点化された）ＤＮＡ分子の再配列されなかった（および随意に終点化された）領域との比較が、第１の終点化された分子のセグメントを順序付けるために使用される。このプロセスを相互に繰り返すと、フェーズおよび順序の情報が、複数の再配列された分子の各々における多数のセグメントについて判定される。好ましい場合、結果として生じるアセンブリされた配列は、再配列が生じる前のインプットＤＮＡ分子のフェージングされた配列であり、核酸サンプルのデノボのフェージングされたアセンブリを表す。

代替的に、本明細書に開示される方法および組成物を使用して生成されるような再配列されたＤＮＡ分子は、ロングリード配列決定技術を使用して配列決定され、平行して、インプットＤＮＡは標準のショートリードショットガン配列決定技術を使用して配列決定される。これらの場合、サンプルからのショットガン配列は、再配列されたＤＮＡ分子から精製されたロングリードデータにマッピングされ、および／または、再配列された分子からのフェージングされたゲノム配列のリードは、同時に生成されたショートリード配列決定から得られた配列決定データにマッピングされる。場合によっては、ショートリード一部は、ロングリードが生成された配列にマッピングされる。そのような場合、この重なりは、短い配列のリードが、再配列されたＤＮＡ分子の長い配列のリードから生成されたゲノム配列と同じフェーズに割り当てられることを可能にする。

フェージングされた配列アセンブリの生成と関連性がない情報は廃棄することができる。一例において、本明細書で議論されるような再配列されたＤＮＡ分子が生成され且つ配列決定される。再配列されたＤＮＡ分子は、染色体Ａにマッピングされるセグメント、および染色体Ｂにマッピングされるセグメントを含むと見出される。場合によっては、染色体Ｂにマッピングされるセグメントの配列リード情報が廃棄されるかあるいは使用されず、染色体Ａにマッピングされるセグメントのみがフェージングされた配列情報を生成するために使用される。他の場合、染色体Ａにマッピングされるセグメントの配列のリード情報が染色体Ａに関するフェージングされた配列情報を生成するために使用され、一方で染色体Ｂにマッピングされるセグメントの配列のリード情報は染色体Ｂに関するフェージングされた配列情報を生成するために使用されるが、染色体Ａセグメントと染色体Ｂセグメントとの間の結合に関する情報は未使用のままか、あるいは廃棄される。

サンプルは、染色体間の近接性または結合の情報を減らすまたは除去するために取り扱うことができる。例えば、細胞サンプルは、本明細書に記載されるような再配列および配列決定の前に有糸分裂で凍結され得、それにより、細胞中の染色体の通常の三次元構造を妨害する。これにより、染色体間のライゲーションを減らすまたは排除することができる。別の例において、ヒストン翻訳後修飾が、分析の前に除去され得る。

核酸配列ライブラリー
本明細書にはまた、核酸配列ライブラリーの生成のための方法および組成物が開示される。再配列された分子が配列決定され、配列リードが分析される。与えられたリードに関して、配列セグメントが観察され、複数の再配列されたセグメントへとパースされ得る。句切りオリゴが利用される場合、句切り要素によって局所的に中断されてない配列セグメントが観察され得る。配列セグメントにおける配列情報は、インフェーズであると推定され、局所的に正確に順序付けられ、方向付けられる。接合部のどちらの側のセグメントも、一般的なサンプル核酸分子上で互いにインフェーズであると推論されるが、必ずしも、再配列された核酸分子上で互いに対して正確に順序付けられ、方向付けられないと推論される。再配列の恩恵は、互いから遠く離れて位置付けられたセグメントが、時に近位に移され、その結果、サンプル分子において、同一の、フェージングするのが困難な配列の大きな距離だけ離されていたとしても、共通のリードにおいて読み取られ、共通のフェーズに確信的に割り当てられるということである。別の恩恵は、セグメント配列自体が、元のサンプル配列のほとんど、略すべて、またはすべてを含み、その結果、フェーズ情報に加えて、幾つかの場合において、コンティグ情報が、幾つかの場合におけるデノボ配列アセンブリを実行するのに十分であると決定されるということである。このデノボ配列は、新規の足場またはコンティグのセットを生成するか、あるいは前にまたは独立して生成されたコンティグまたは足場配列のセットを増大させるために随意に使用される。

配列決定ライブラリーなどにおける再配列された分子は、少なくとも２、３、４、５、６、７、８、９、１０、またはそれ以上のセグメントを含むことができ、ここで、セグメントは、元のインプット核酸分子（例えば、インプットゲノムＤＮＡ）上の他のセグメントに隣接していない。幾つかの場合では、与えられた再配列された分子上のセグメントの少なくとも約５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％、９９．９９９％、または１００％は、共通の足場にマッピングする。幾つかの場合では、平均で配列決定ライブラリーなどの再配列された分子の集団にわたって、与えられた再配列された分子上のセグメントの少なくとも約５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％９９．９９９％、また１００％が、共通の足場にマッピングする。

セグメントは、長さが約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、１．１ｋｂ、１．２ｋｂ、１．３ｋｂ、１．４ｋｂ、１．５ｋｂ、２．０ｋｂ、２．５ｋｂ、３．０ｋｂ、３．５ｋｂ、４．０ｋｂ、４．５ｋｂ、５．０ｋｂ、５．５ｋｂ、６．０ｋｂ、６．５ｋｂ、７．０ｋｂ、７．５ｋｂ、８．０ｋｂ、８．５ｋｂ、９．０ｋｂ、９．５ｋｂ、１０．０ｋｂ、またはそれ以上であり得る。セグメントは、長さが少なくとも約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、１．１ｋｂ、１．２ｋｂ、１．３ｋｂ、１．４ｋｂ、１．５ｋｂ、２．０ｋｂ、２．５ｋｂ、３．０ｋｂ、３．５ｋｂ、４．０ｋｂ、４．５ｋｂ、５．０ｋｂ、５．５ｋｂ、６．０ｋｂ、６．５ｋｂ、７．０ｋｂ、７．５ｋｂ、８．０ｋｂ、８．５ｋｂ、９．０ｋｂ、９．５ｋｂ、１０．０ｋｂ、またはそれ以上であり得る。セグメントは、長さが最大で約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、１．１ｋｂ、１．２ｋｂ、１．３ｋｂ、１．４ｋｂ、１．５ｋｂ、２．０ｋｂ、２．５ｋｂ、３．０ｋｂ、３．５ｋｂ、４．０ｋｂ、４．５ｋｂ、５．０ｋｂ、５．５ｋｂ、６．０ｋｂ、６．５ｋｂ、７．０ｋｂ、７．５ｋｂ、８．０ｋｂ、８．５ｋｂ、９．０ｋｂ、９．５ｋｂ、１０．０ｋｂ、またはそれ以上であり得る。

再配列された分子は、長さが少なくとも約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、１．１ｋｂ、１．２ｋｂ、１．３ｋｂ、１．４ｋｂ、１．５ｋｂ、２．０ｋｂ、２．５ｋｂ、３．０ｋｂ、３．５ｋｂ、４．０ｋｂ、４．５ｋｂ、５．０ｋｂ、５．５ｋｂ、６．０ｋｂ、６．５ｋｂ、７．０ｋｂ、７．５ｋｂ、８．０ｋｂ、８．５ｋｂ、９．０ｋｂ、９．５ｋｂ、１０．０ｋｂ、またはそれ以上である、少なくとも２、３、４、５、６、７、８、９、１０、またはそれ以上のセグメントを有することができる。幾つかの場合では、再配列された分子は、長さが少なくとも５００ｂｐである少なくとも３つのセグメントを有する。幾つかの場合では、再配列された分子は、長さが少なくとも５００ｂｐである少なくとも４つのセグメントを有する。幾つかの場合では、再配列された分子は、長さが少なくとも５００ｂｐである少なくとも５つのセグメントを有する。幾つかの場合では、再配列された分子は、長さが少なくとも５００ｂｐである少なくとも６つのセグメントを有する。

再配列された分子は、再配列された分子におけるすべてのセグメントにわたって合計されたときに、１つの元の核酸分子から（例えば、１つの染色体から）、少なくとも１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、１．１ｋｂ、１．２ｋｂ、１．３ｋｂ、１．４ｋｂ、１．５ｋｂ、２．０ｋｂ、２．５ｋｂ、３．０ｋｂ、３．５ｋｂ、４．０ｋｂ、４．５ｋｂ、５．０ｋｂ、５．５ｋｂ、６．０ｋｂ、６．５ｋｂ、７．０ｋｂ、７．５ｋｂ、８．０ｋｂ、８．５ｋｂ、９．０ｋｂ、９．５ｋｂ、または１０．０ｋｂを含むことができる。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、１つの元の核酸分子から（例えば、１つの染色体から）少なくとも１０００ｂｐを含む。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、１つの元の核酸分子から（例えば、１つの染色体から）少なくとも２０００ｂｐを含む。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、１つの元の核酸分子から（例えば、１つの染色体から）少なくとも３０００ｂｐを含む。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、１つの元の核酸分子から（例えば、１つの染色体から）少なくとも４０００ｂｐを含む。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、１つの元の核酸分子から（例えば、１つの染色体から）少なくとも５０００ｂｐを含む。

幾つかの場合では、マッピングは、特有のマッピングが強制されて実行され得る。幾つかの場合では、セグメントの約５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、５％、４％、３％、２％、１％、０．１％、０．０１％、または０．００１％未満が、漠然とマッピングする（例えば、複数の特定にマッピングする）。

配列決定ライブラリーは、少なくとも約１０、１００、１０００、１０，０００、１００，０００、１００万、１１０万、１２０万、１３０万、１４０万、１５０万、１６０万、１７０万、１８０万、１９０万、２００万、３００万、４００万、５００万、６００万、７００万、８００万、９００万、１０００万、２０００万、３０００万、４０００万、５０００万、６０００万、７０００万、８０００万、９０００万、１億、２億、３億、４億、５億、６億、７億、８億、９億、１０億、２０億、３０億、４０億、５０億、６０億、７０億、８０億、９０億、１００億、１０００億、２０００億、３０００億、４０００億、５０００億、６０００億、７０００億、８０００億、９０００億、または１兆の再配列された分子を含むことができる。

配列決定ライブラリーにおける再配列された分子は、特定の認識配列、ハイブリダイゼーション配列、ヘアピン（例えば、ＳＭＲＴｂｅｌｌのための）、タグ（例えば、ＮａｎｏＴａｇｓ）、ラベル、色素、またはバーコードなどの、配列決定のための必要なアダプター、ラベル、または他のコンポーネントを含むことができる。

幾つかの場合では、複数の再配列されたＤＮＡ分子が本明細書に開示されるように生成され、続けてロングリードの配列決定技術を使用して配列決定される。再配列された分子はそれぞれ、配列決定され、配列リードが分析される。好ましい例では、配列リードは、平均すると配列反応に対して少なくとも約５ｋｂまたは少なくとも約１０ｋｂとなる。他の例では、配列リードは、平均すると少なくとも約５ｋｂ、６ｋｂ、７ｋｂ、８ｋｂ、９ｋｂ、１０ｋｂ、１１ｋｂ、１２ｋｂ、１３ｋｂ、１４ｋｂ、１５ｋｂ、１６ｋｂ、１７ｋｂ、１８ｋｂ、１９ｋｂ、２０ｋｂ、２１ｋｂ、２２ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、またはそれ以上となる。好ましい例では、第１のセグメントの少なくとも５００ベースおよび第２のセグメントの５００ベースを含む配列リードが特定され、第１および第２のセグメントは、元のサンプルインプット核酸上で隣接していない。セグメントは、句切りオリゴ配列によって結合され得る。他の例では、配列リードは、第１のＤＮＡセグメントの少なくとも約１００ベース、２００ベース、３００ベース、４００ベース、５００ベース、６００ベース、７００ベース、８００ベース、９００ベース、１０００ベース、またはそれ以上、および第２のＤＮＡセグメントの少なくとも約１００ベース、２００ベース、３００ベース、４００ベース、５００ベース、６００ベース、７００ベース、８００ベース、９００ベース、１０００ベース、またはそれ以上を含む。幾つかの例では、第１および第２のセグメント配列は、足場ゲノムにマッピングされ、少なくとも１００ｋｂだけ離されているコンティグにマッピングすることがわかる。他の例では、分離距離は、少なくとも約８ｋｂ、９ｋｂ、１０ｋｂ、１２．５ｋｂ、１５ｋｂ、１７．５ｋｂ、２０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、４５ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、１２５ｋｂ、１５０ｋｂ、２００ｋｂ、３００ｋｂ、４００ｋｂ、５００ｋｂ、６００ｋｂ、７００ｋｂ、８００ｋｂ、９００ｋｂ、１Ｍｂ、またはそれ以上である。ほとんどの場合、第１のコンティグおよび第２のコンティグはそれぞれ、単一のヘテロ接合位置を含み、そのフェーズは足場において決定されていない。好ましい例では、第１のコンティグのヘテロ接合位置は、ロングリードの第１のセグメントにおよび、第２のコンティグのヘテロ接合位置は、ロングリードの第２のセグメントに及ぶ。そのような場合、リードは各々、それらのコンティグのそれぞれのヘテロ接合領域におよび、リードセグメントの配列は、第１のコンティグの第１の対立遺伝子および第２のコンティグの第１の対立遺伝子がインフェーズであることを示唆している。第１および第２の核酸セグメントからの配列が、単一の長い配列リードにおいて検出される場合、第１および第２の核酸セグメントが、インプットＤＮＡサンプル中の同じＤＮＡ分子上に含まれることが断定される。これらの好ましい実施形態では、本明細書に開示される方法および組成物によって生成された核酸配列ライブラリーは、ゲノム足場上で互いから遠く離れて位置付けられているコンティグに対するフェーズ情報を提供する。

代替的に、複数のペアエンドの分子が、本明細書に記載されるように生成され、続いて、ロングリード配列決定技術を使用して配列決定される。幾つかの場合では、ライブラリーに対する平均のリード長さは、約１ｋｂであると決定される。他の場合では、ライブラリーに対する平均のリード長さは、約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、１．１ｋｂ、１．２ｋｂ、１．３ｋｂ、１．４ｋｂ、１．５ｋｂ、２．０ｋｂ、２．５ｋｂ、３．０ｋｂ、３．５ｋｂ、４．０ｋｂ、４．５ｋｂ、５．０ｋｂ、５．５ｋｂ、６．０ｋｂ、６．５ｋｂ、７．０ｋｂ、７．５ｋｂ、８．０ｋｂ、８．５ｋｂ、９．０ｋｂ、９．５ｋｂ、１０．０ｋｂ、またはそれ以上である。多くの例では、ペアエンドの分子は、インプットＤＮＡサンプル内で、インフェーズであり、１０ｋｂを超える距離だけ離されている、第１のＤＮＡセグメントおよび第２のＤＮＡセグメントを含む。幾つかの例では、２つのそのようなＤＮＡセグメント間の分離距離は、約５ｋｂ、６ｋｂ、７ｋｂ、８ｋｂ、９ｋｂ、１０ｋｂ、１１ｋｂ、１２ｋｂ、１３ｋｂ、１４ｋｂ、１５ｋｂ、２０ｋｂ、２３ｋｂ、２５ｋｂ、３０ｋｂ、３２ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、２００ｋｂ、３００ｋｂ、４００ｋｂ、５００ｋｂ、７５０ｋｂ、１Ｍｂより長いか、またはそれ以上である。ほとんどの場合、配列リードは、ペアエンドの分子から生成され、それらのうちの幾つかは、第１の核酸セグメントからの配列の少なくとも３００ベースおよび第２の核酸セグメントからの配列の少なくとも３００ベースを含む。他の例では、配列リードは、第１のＤＮＡセグメントの少なくとも約５０ベース、１００ベース、１５０ベース、２００ベース、２５０ベース、３００ベース、３５０ベース、４００ベース、４５０ベース、５００ベース、５５０ベース、６００ベース、６５０ベース、７００ベース、７５０ベース、８００ベース、またはそれ以上、および第２のＤＮＡセグメントの少なくとも約５０ベース、１００ベース、１５０ベース、２００ベース、２５０ベース、３００ベース、３５０ベース、４００ベース、４５０ベース、５００ベース、５５０ベース、６００ベース、６５０ベース、７００ベース、７５０ベース、８００ベース、またはそれ以上を含む。第１および第２の核酸セグメントからの配列が、単一の配列リードにおいて検出される場合、第１および第２の核酸セグメントが、インプットＤＮＡサンプル中の同じＤＮＡ分子上のインフェーズであることが断定され得る。そのような場合、生成された配列ライブラリーは、ＤＮＡセグメントに対するフェーズ情報を作成し、該ＤＮＡセグメントは、それらを配列決定するために使用される配列決定技術のリード長を超える長さだけ核酸サンプルにおいて離されている。

代替的に、複数の配列リードが、本明細書に開示されるように再配列されたＤＮＡ核酸配列ライブラリーから生成される。幾つかの場合では、本明細書に開示されるようにおよび提供される実施例に記載されるように、ライブラリーはフェーズ情報を伝達し、その結果、セグメント接合部のいずれの側のセグメントも単一の分子上でインフェーズであると決定される。幾つかの例では、生成された配列リードは、インプットＤＮＡサンプルの核酸配列の少なくとも８０％を表わす。他の例では、生成された配列リードは、インプットＤＮＡサンプルの核酸配列の少なくとも約４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、または１００％を表わす。好ましい例では、配列リードは、インプットＤＮＡサンプルの少なくとも８０％に及ぶデノボのコンティグ情報を生成するために使用される。他の例では、配列リードは、インプットＤＮＡサンプルの少なくとも約４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、または１００％に及ぶデノボのコンティグ情報を生成するために使用される。ほとんどの場合、配列リードは、フェーズ情報を決定するために使用され、該フェーズ情報は、随意に、インプットＤＮＡサンプルのフェージングされた配列アセンブリを生成するためにコンティグを互いに対して順序付け、方向付けるように続けて使用される。好ましい実施形態では、再配列されたＤＮＡ分子から生成された核酸配列ライブラリーは、フェーズ情報を伝達し、好ましくは、合計の核酸配列の大部分を含む配列情報も包含し、その結果、デノボの配列アセンブリが同時に生成される。

再配列された分子のライブラリーの配列決定は、少なくとも約１Ｘ、２Ｘ、３Ｘ、４Ｘ、５Ｘ、６Ｘ、７Ｘ、８Ｘ、９Ｘ、１０、１１Ｘ、１２Ｘ、１３Ｘ、１４Ｘ、１５Ｘ、１６Ｘ、１７Ｘ、１８Ｘ、１９Ｘ、２０Ｘ、２１Ｘ、２２Ｘ、２３Ｘ、２４Ｘ、２５Ｘ、２６Ｘ、２７Ｘ、２８Ｘ、２９Ｘ、３０Ｘ、３１Ｘ、３２Ｘ、３３Ｘ、３４Ｘ、３５Ｘ、３３６Ｘ、３７Ｘ、３８Ｘ、３９Ｘ、４０Ｘ、４１Ｘ、４２Ｘ、４３Ｘ、４４Ｘ、４５Ｘ、４６Ｘ、４７Ｘ、４８Ｘ、４９Ｘ、５０Ｘ、５５Ｘ、６０Ｘ、６５Ｘ、７０Ｘ、７５Ｘ、８０Ｘ、８５Ｘ、９０Ｘ、９５Ｘ、１００Ｘ、またはそれ以上の配列包括度を達成するために実行され得る。

保存されたＤＮＡ分子フェージング
さらに、本明細書には、好ましい実施形態において、ほぼ全体のインプット核酸分子を含む核酸配列をフェージングするおよびデノボアセンブルするための方法および組成物が開示される。

本開示の技術は、限定されないが、一塩基多型（ＳＮＰ）、挿入または欠失（ＩＮＤＥＬ）、および構造変異体（ＳＶ）を含む、様々なマーカーをフェージングするために使用され得る。例えば、再配列されたＤＮＡ分子上で一緒の２つ以上のセグメントの存在は、セグメントの配列がインフェーズであると推論するために使用され得る。これは、マーカーの既知のフェージングに依存しないフェージングを可能にする。幾つかの場合では、ＳＮＰはフェージングされる。幾つかの場合では、ＩＮＤＥＬはフェージングされる。幾つかの場合では、ＳＶはフェージングされる。フェージングは、１つ以上のマーカーに関連して確認され得る。幾つかの場合では、フェージングは、ＳＮＰに関連して確認される。幾つかの場合では、フェージングは、ＳＮＰに関係なく確認される。幾つかの場合では、フェージングは、ＩＮＤＥＬに関連して確認される。幾つかの場合では、フェージングは、ＩＮＤＥＬに関係なく確認される。幾つかの場合では、フェージングは、ＳＶに関連して確認される。幾つかの場合では、フェージングは、ＳＶに関係なく確認される。幾つかの例では、当該技術分野で既知の標準方法を使用して、高分子量（ＨＭＷ）の核酸サンプルが抽出される。ほとんどの場合、これらのＨＭＷ核酸サンプルは、長さが少なくとも１００ｋｂである少なくとも幾つかの核酸分子を含む。１００ｋｂの核酸分子の１つ以上は、標準の配列決定技術の平均のリード長より長い距離だけ離れている第１の核酸セグメントおよび第２の核酸セグメントを含む。他の例では、核酸サンプルは、長さが少なくとも約３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、１１０ｋｂ、１２０ｋｂ、１３０ｋｂ、１４０ｋｂ、１５０ｋｂ、またはそれ以上である、少なくとも幾つかの核酸分子を含み、それらの１つ以上は、本明細書に記載される技術などの標準の配列決定技術の平均のリード長より長い距離だけ離れている、少なくとも第１の核酸セグメントおよび第２の核酸セグメントを含む。

フェーズ情報がそのような例であることを決定するために、第１および第２の核酸セグメントは、単一の配列決定リード内で検出される必要がある。それ故、第１および第２の核酸セグメントの相対位置は、第１および第２のＤＮＡセグメントが、標準の配列決定技術の平均のリード長未満である距離だけ離れているように、変更されなければならない。望ましいフェーズ情報を生成するために、この再配列は、結果としてフェーズ情報の損失につながるべきではない。好ましい例では、この再配列は、本明細書に開示されるおよび提供される実施例内に記載されるような方法および組成物によって達成される。好ましい例では、フェーズを維持する再配列の間、開始核酸分子の１０％以下が欠失される。すなわち、第１のセグメントおよび第２のセグメントは、単純に介在配列を欠失することによっては近位に移されない。むしろ、セグメントは、大多数の介在配列の欠失なしで互いに相対的に再配列される。他の例では、開始核酸分子の約２％、５％、７％、１０％、１２％、１３％、１４％、１５％、２０％、２３％、２５％、３０％、３５％、４０％、５０％、５５％、６０％、７０％、８０％、９０％、または９５％が欠失される。好ましい例では、配列決定に従って、ほぼ全体のインプット核酸分子が保存されているため、生成された配列リードは、ほぼ全体のインプット核酸分子が配列決定され、アセンブルされ、フェージングされるように、デノボ生成されたコンティグをアセンブルし、順序付け、および方向付けるために使用される。

用途
本開示の技術は、限定されないが、デノボ配列アセンブリ（フェージングされた配列アセンブリを含む）の生成、リードの足場へのマッピング（フェージング情報を含む）、フェージング情報の決定、および構造変異体の同定を含む、様々な遺伝学およびゲノミクスの用途に使用することができる。

本明細書に開示される技術は、限定しない例として、法医学、農業、環境学、再生可能エネルギー、疫学または疾患の集団発生、および種の保存を含む、多くの分野に有用である。

本開示の技術は、癌などの疾患状態を診断するために使用することができる。本開示の技術は、臨床的に重要な領域のフェージング、構造変異体の解析、偽遺伝子（例えばＳＴＲＣ）の分解、癌における新薬の開発につながるような構造変異体に対して標的とされたパネル、および他の用途のために使用することができる。例えば、直線的に遠く離れたまたは別々の染色体上にあるゲノムの領域間の過剰な近接ライゲーション事象は、癌のような疾患を暗示し得る。

罹患しているまたは罹患している疑いのある組織からの天然クロマチンは、本開示の技術を使用して分析され得る。そのような組織サンプル内のゲノムの三次元アーキテクチャは、例えば、組織容積内の異なる特定からの幾つかのサンプルを分析することによって解析され得る。

デノボゲノムアセンブリなどに関する幾つかの場合では、生物学的または病理学的なシグナルは、これらのデータから削除され得る。例えば、近接ライゲーションに先立って三次元アーキテクチャ中にロックする定着剤を加える前に、有糸分裂停止を引き起こすか、またはヘテロクロマチンまたはゲノムアーキテクチャの他の局所的特徴を破壊する試薬によって、細胞を処置することができる。そのような場合、結果として生じるデータは、診断的有用性を欠くが、ゲノムアセンブリに最大限に有用であり得る。

本明細書に開示されるように生成された分子およびライブラリーは、二倍体生物のゲノムアセンブリにおける起源の具体的な分子または起源の姉妹染色分体に配列情報を割り当てるために行われるなどの、ゲノムアセンブリおよびコンティグまたは他の配列情報のフェージングに関連する用途などの、多くの用途に使用される。

分子が配列決定され、隣接するセグメントが、共通のコンティグまたは足場の連続する塩基へのマッピングとして特定される。セグメント間の接合部は、塩基が共通のコンティグまたは足場の連続する塩基へのマッピングを止める領域として特定される。幾つかの場合では、ゲノムの複数の領域にマッピングする核酸配列（反復配列など）は廃棄される。代替的に、特に反復配列の一端または両端が共通の足場にマッピングする、および反復配列の末端で一意にマッピングする配列のための配列位置間の差が、足場に含まれている反復領域と一致している場合、反復領域は、その隣接したユニーク配列を有する共通セグメントに割り当てられる。

好ましい実施形態では、本明細書に開示されるような分子またはライブラリーの構成要素の隣接セグメントは、ゲノムの共通の分子の共通のフェーズに割り当てられる。すなわち、セグメントがマッピングするコンティグは、共通のフェーズに割り当てられ、１つまたは両方のセグメントによって示される一塩基多型、挿入、欠失、トランスバージョン、転座または他の核酸特徴は、共通の分子に割り当てられる。

しばしば、セグメントのすべてまたは大多数は、共通の足場またはコンティグにマッピングし、それによって、ライブラリーの単一の分子上のそれらの共存は、１つまたは両方のセグメントによって示される一塩基多型、挿入、欠失、トランスバージョン、転座または他の核酸特徴が、共通の分子に割り当てられることを示唆している。幾つかの場合では、セグメントの少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、または９９％以上、あるいはセグメント配列の少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、または９９％以上は、共通の足場にマッピングする。

幾つかの場合では、セグメントが物理的結合またはフェーズ情報を反映するようにライゲートする可能性を確かなものとするかまたはそれを増大させるために、あるいはライゲートされたセグメントが、起源の共通の物理的な分子から生じるように、分子の生成を増強することは有益である。多くのアプローチがこの目的を達成する。

本明細書に議論されるように、幾つかの場合では、ライブラリーは、クロマチンまたは他の核酸結合部分がアセンブルされた単離された核酸分子の切断および再ライゲーションによって生成される。分子を単離することによって、例えば、それらを核酸結合タンパク質または他の天然クロマチン構成要素から分離することによって、個々の分子を互いに分離させることが可能になる。別々のセグメントがそれらの共通のホスホジエステル骨格とは無関係に一緒に保持されるように、単離された核酸分子を結合することよって、起源の分子のセグメントに共通のフェーズ情報は、切断されたセグメントが、２つのセグメントに共通の起源の分子に由来する第２のセグメントに再結合するように、切断および再ライゲーションのプロセスの間に保存される。この頻度は、例えば、クロマチンアセンブリの前に分子を希釈することによって、あるいは別々の分子からのセグメントがライゲートする傾向にある密度を下回る密度の共通の表面上の異なる位置に核酸分子を付けることによってなどの、任意数のアプローチによって増加される。消化およびアセンブリのために分子を固定するためにＳＰＲＩビーズなどのビーズが使用されるときに、より大きな表面積を有しているビーズを選択すること、または結合に利用可能な合計の表面積全体を増大させるようにより多くのビーズを加えることによって、幾つかの場合において、分子間のライゲーション事象の機会が減少する。

代替的に、幾つかの場合では、細胞が固定剤を使用して処置されるときなどに生じる、天然クロマチンによって結合される核酸分子の中での分子間相互作用を低減するための工程が実施される。そのような工程の例は、分子間相互作用が最小限にされるように、細胞をそれらの細胞周期における時点で活発に標的とする工程を含む。これは、幾つかの場合において、染色体が、分子間のライゲーション事象につながり得るサブ核構造へとアセンブルされそうにないときに、細胞を、それらのヌクレイン酸に選択的にアクセスするように有糸分裂中に凍結または固定することによって達成される。代替的にまたは組み合わせて、三次元のマッピング情報を削除し、同時に、単一の分子からのセグメントが配列決定／フェージング情報のためのライブラリー生成において互いにライゲートする確率を高めるために、細胞、核、または細胞から単離されたクロマチンは、ヒストンの翻訳後修飾を除去するように処置される。

再配列されたライブラリー形成における分子間のライゲーション事象を減少させるための生化学的または「ウェットラボ（ｗｅｔ−ｌａｂ）」のアプローチに加えて、フェーズ決定に対する分子間のライゲーション事象の影響を低減するための計算上のアプローチも利用可能である。例えば、幾つかの場合では、個々の分子は、ライゲートされた再配列された分子における一意にマッピングするセグメントのマッピング分布を評価することによってスクリーニングされる。閾値を超える恐らく異なる分子にマッピングするセグメントを含む分子は除外される。すなわち、幾つかの場合では、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％未満、または最大９９％まで、あるいはそれ以上で共通の足場に一意にマッピングするセグメントを含む分子のための配列情報は、さらなる分析から除外される。典型的な場合では、この閾値は、７０％または約７０％、８０％または約８０％、あるいは９０％または約９０％である。これらの場合では、第１の共通の足場以外の場所にマッピングするセグメントのパーセンテージを含む分子の配列は、分析から除外される。

同様に、幾つかの場合では、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％未満、または最大９９％まで、あるいはそれ以上で共通の足場にマッピングする凝集した（ａｇｇｒｅｇａｔｅ）一意にマッピングする配列を含む分子のための配列情報は、さらなる分析から除外される。典型的な場合では、この閾値は、７０％または約７０％、８０％または約８０％、あるいは９０％または約９０％である。
これらの場合では、第１の共通の足場以外の場所にマッピングする一意にマッピングする配列のパーセンテージを含む分子の配列は、分析から除外される。

代替的にまたは組み合わせて、１つを超える足場に一意にマッピングするセグメントを含む分子の配列は、ＳＮＰデータ、挿入データ、欠失データ、反転データ、または配列決定されたセグメントにおいて捕捉され得る他のゲノム再配列情報などの配列情報を失うことなく、フェーズ結論（ｐｈａｓｅｃｏｎｃｌｕｓｉｏｎｓ）に対する影響を最小限にするなどのように、さらに処理される。例えば、（優性にまたは排他的に）２つの足場に一意にマッピングするセグメントを含む分子配列に関して、第１の足場にマッピングするセグメントが、その足場の共通のフェーズに割り当てられる一方で、第２の足場にマッピングするセグメントは、第２の足場の共通のフェーズに割り当てられる。すなわち、第１の共通の足場にマッピングするセグメントが、その足場上の共通のフェーズに割り当てられる一方で、第２の共通の足場にマッピングするセグメントは、第２の足場のための共通のフェーズ情報に有益であると判定されるが、第１の足場にマッピングする（一意にマッピングするなど）セグメントは、第２の足場にマッピングするセグメントに対するフェーズ情報に関しては有益であると判定されない。

代替的に、幾つかの場合では、第１の足場に一意にマッピングするセグメントの第１の集団および第２の足場に一意にマッピングするセグメントの第２の集団を含む、複数の独立した分子配列が得られる。これらの場合では、第１の足場および第２の足場が、例えば、分析中のサンプルゲノムにおける転座が原因で、実際に核酸サンプルにおけるインフェーズであることが随意に推論される。

これらのアプローチは、再配列されたライブラリー、および再配列されたライブラリーの配列データが導き出される基礎分子のフェーズに関して有益であろう分子配列のための選択的な富化を可能にする。

幾つかの場合では、配列情報およびフェーズ情報を得るために、ライブラリー生成および配列分析が併用して使用される。幾つかのそのような場合において、例えば、ロングリード配列決定技術と適合性のあるおよびそのような技術のリードにおいて容易に特定される、修飾されたヌクレオチド塩基を使用して、ライゲーション接合部が標識される。実施例がここで提供される。

そのような接合部マーカーを使用して、オンは特定することができる、セグメント配列とは無関係の高い信頼度を有するセグメント接合部を特定することができる。結果的に、ライブラリー建築における配列の再配列は、サンプル中で生じる「再配列事象」と容易に区別され、サンプル核酸配列またはアーキテクチャを反映している。そのような事象は、例えば、挿入、欠失、反転、トランスバージョンまたは転座を含む。そのような事象が、修飾された核酸などの接合部マーカーによってタグ付けされていないときの、セグメント中のそのような事象の観察は、事象が基礎となるサンプル配列を反映することを示唆している。

代替的にまたは組み合わせて、分子構造に関する幾らかの信頼度を提供するために、ライブラリーのカバレッジの深さに依存してもよい。すなわち、複数の独立して生成されたライブラリー構成要素を配列決定する際に、共通の再配列プロフィルを共有している複数の、独立して生成されたセグメントが発見され得る。そのようなプロフィルが、複数の独立して由来するライブラリー構成要素に共通の「再配列事象」を含む場合、ライブラリー構成要素が示唆し得る「再配列事象」が、ライブラリー生成プロセスの産物であることよりもむしろ基礎的なサンプル配列を反映していると推論され得る。

広く多様なライブラリー構成要素は、本開示と一致している。ライブラリー構成要素は、配列決定技術がライブラリーを配列決定することに最も効率的に使用されるように、一般的なロングリード配列決定技術の単一のリードよりも平均で長いことが好ましい。しかしながら、これは絶対的な要件ではなく、長距離の配列決定作業（ｌｏｎｇｒａｎｇｅｓｅｑｕｅｎｃｉｎｇｒｕｎ）の長さより短い構成要素を含む、優性に含む、またはそれらから成るライブラリーは、本開示と一致している。

本明細書に開示されるライブラリーは、ライブラリーにおいて表わされたサンプル全体のそれらの分画、平均または中央値の再配列された分子サイズ、セグメントサイズ、および１分子当たりのセグメントの数が様々であり得る。多くの実施形態では、ライブラリーは、単一のロングリードがライブラリーの分子構成要素の３つのセグメントの少なくとも一部に及ぶように構成される。多くの実施形態では、フェーズ内にあるがゲノムサンプル全体にわたって分散されたセグメントが、共通の分子の共通のフェーズへのそれらの割り当てを促進するために、隣接するまたはそうでなければ単一の長距離の配列リードに含まれるように再構成されるように、ライブラリーは構成される。

＜コンピューターシステムおよびそれらの動作の改善＞
本明細書に記載されるような方法は、幾つかの場合において、例えば、メモリ（１０１０）、または電子記憶装置（１０１５）などの、サーバー（１００１）の電子記憶位置に保存された、マシン（またはコンピュータープロセッサ）実行可能コード（またはソフトウェア）によって実施される。使用中に、コードはプロセッサ（１００５）によって実行され得る。幾つかの場合では、コードは、電子記憶装置（１０１５）から取得され、プロセッサ（１００５）による容易なアクセスのためのメモリ（１０１０）上に保存することができる。幾つかの状況において、電子記憶装置（１１５）は除外することができ、マシン実行可能命令がメモリ（１０１０）に保存される。代替的に、コードは、第２のコンピューターシステム（１０４０）上で実行することができる。

サーバー（１００１）などの本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化され得る。技術の様々な態様は、典型的にマシン（またはプロセッサ）実行可能コードおよび／または一種のマシン可読媒体において具体化される関連データの形態で「産物」または「製品」として考えられ得る。マシン実行可能コードは、電子記憶装置、そのようなメモリ（例えば、リードオンリーメモリメモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスクに保存することができる。「記憶」型の媒体は、ソフトウェアプログラミングに関するいかなる時にも非一時的な記憶を提供し得る、様々な半導体メモリ、テープドライブ、ディスクドライブなどの、コンピューター、プロセッサなどの有形メモリ、またはそれらの関連するモジュールのいずれかまたはすべてを含むことができる。ソフトウェアのすべてまたは一部は、インターネットまたは様々な他の通信ネットワークを介して時々通信される。そのような通信は、例えば、１つのコンピューターまたはプロセッサから別のコンピューターまたはプロセッサへの、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を有し得る別のタイプの媒体は、有線および光地上通信のネットワークおよび様々なエアリンクを介した、ローカル装置間の物理インターフェースにわたって使用されるものなどの含む、光波、電波、および電磁波を含む。有線または無線のリンク、光リンクなどの、そのような波を運ぶ物理要素は、ソフトウェアを有する媒体としても考えられ得る。本明細書で使用されるように、非一時的な、有形の「記憶」媒体に制限されない限り、コンピューターまたはマシン「可読媒体」などの用語、実行のためにプロセッサに命令を提供することに関与する媒体を指すことができる。

したがって、コンピューター実行可能コードなどのマシン可読媒体は、限定されないが、有形記憶媒体、搬送波媒体、または物理的な送信媒体を含む、多くの形態をとり得る。不揮発性記憶装置媒体は、例えば、システムを実施するために使用され得るものなどの、コンピューターなどにおける記憶デバイスのいずれかなどの、光ディスクまたは磁気ディスクを含むことができる。有形送信媒体は以下を含むことができる：同軸ケーブル、銅線、およびファイバーオプティクス（コンピューターシステム内にバスを含むワイヤーを含む）。搬送波送信媒体は、無線周波（ＲＦ）および赤外線（ＩＲ）データ通信中に生成されたものなどの、電気信号または電磁気信号、あるいは音波または光波の形態をとり得る。それ故、コンピューター可読媒体の共通の形態は、例えば、以下を含む：フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤ、ＤＶＤ−ＲＯＭ、他の光学媒体、パンチカード、紙テープ（ｐａｐｅｒｔａｍｅ）、穴のパターンを有する他の物理的な記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、他のメモリチップまたはカートリッジ、データまたは命令を輸送する搬送波、ケーブル、またはそのような搬送波を輸送するリンク、あるいはコンピューターがプログラミングコードおよび／またはデータを読み取り得る他の媒体。コンピューター可読媒体のこれらの形態の多くは、実行のためにプロセッサに１つ以上の命令の１つ以上の配列を運ぶことに関係し得る。

コンピューターシステムは、例えば、サンプル収集、サンプル処理、配列生成および配列分析を含む、本明細書に記載される方法における１つ以上の工程を実施するために使用されてもよい。

クライアントサーバーおよび／またはリレーショナルデータベースのアーキテクチャは、本明細書に記載された方法のいずれかにおいて使用することができる。一般に、クライアントサーバーアーキテクチャは、ネットワーク上のコンピューターまたはプロセスがそれぞれ、クライアントまたはサーバーのいずれかである、ネットワークアーキテクチャである。サーバーコンピューターは、ディスクドライブ（ファイルサーバー）、プリンター（プリントサーバー）、またはネットワークトラフィック（ネットワークサーバー）の管理に対する専用の高性能コンピューターであり得る。クライアントコンピューターは、ＰＣ（パーソナルコンピューター）またはユーザーがアプリケーションを実行するワークステーションの他に、本明細書に開示されるような例となる出力デバイスを含むことができる。クライアントコンピューターは、ファイル、デバイス、およびさらに処理パワーなどのリソースのためのサーバーコンピューターに依存し得る。サーバーコンピューターは、データベース機能性のすべてを処理する。クライアントコンピューターは、フロントエンドのデータ管理を処理するソフトウェアを有することができ、ユーザーからデータ入力を受信することができる。

計算を実行した後に、プロセッサは、出力を、計算などから、例えば、入力デバイスまたは記憶装置に、同じまたは異なるコンピューターシステムの別の記憶装置に、または出力デバイスに戻すことができる。プロセッサからの出力は、データディスプレイ、例えば、ディスプレイスクリーン（例えば、デジタルデバイス上のモニターまたはスクリーン）、プリントアウト、データ信号（例えばパケット）、グラフィカルユーザーインターフェース（例えばウェブページ）、アラーム（例えば、フラッシングライトまたはサウンド）、または上記のいずれかの組み合わせによって表示され得る。一実施形態では、出力は、ネットワーク（例えば無線ネットワーク）を通して出力デバイスに伝送される。出力デバイスは、ユーザーによってデータ処理コンピューターシステムから出力を受信するために使用され得る。出力がユーザーによって受信された後、ユーザーは、ユーザーが医療関係者である場合の医学的処置などの、行動指針を決定することができるか、または実行することができる。幾つかの実施形態では、出力デバイスは入力デバイスと同じデバイスである。典型的な出力デバイスは、限定されないが、電話、無線電話、携帯電話、ＰＤＡ、フラッシュメモリドライブ、光源、音波発生装置、ファックス、コンピューター、コンピューターモニター、プリンター、ｉＰｏｄ（登録商標）、およびウェブページを含む。ユーザーステーションは、サーバーによって処理された情報を出力するためにプリンターまたはディスプレイモニターと通信し得る。そのようなディスプレイ、出力デバイス、およびユーザーステーションは、被験体またはその介護者に警告を送信するために使用され得る。

本開示に関連するデータは、受信者による受信および／またはレビューのためにネットワークまたは接続を介して送信することができる。受信者は、限定されないが、レポートが属する被験体；またはその介護者、例えば、医療従事者、管理者、他の医療専門家、または他の介護人；および／または遺伝子型決定分析を実行したまたは命令した人または実体；遺伝子カウンセラーであり得る。受信者はまた、そのようなレポートを保存するためのローカルシステムまたはリモートシステム（例えば、サーバーまたは「クラウドコンピューティング」アーキテクチャの他のシステム）であり得る。一実施形態では、コンピューター可読媒体は、生体サンプルの分析の結果の送信に適した媒体を含む。

本明細書に開示されるようなデータセットおよび配列ライブラリーは、ヘテロ接合の二倍性の真核生物ゲノムの配列決定によって得られるものなどの、核酸配列情報のコンピュータベースのフェーズ割り当てと一致している。そのようなデータを分析するコンピューターは、リードを足場へと割り当て、幾つかの場合では、サンプルゲノムに対する「エンド・ツー・エンド（ｅｎｄ−ｔｏ−ｅｎｄ）」の染色体地図全体を含む地図を生成し得る。しかしながら、ほとんどのアプローチは、ヘテロ接合配列が配列決定技術のリード長よりも長い長さだけ離されるときに、共通のフェーズにヘテロ接合配列を割り当てることができない。したがって、ヘテロ接合の遺伝子座は、大抵のコンピュータベースのゲノムアセンブリのアプローチの使用では共通のフェーズに正確にマッピングされない。

ヘテロ接合の遺伝子座が、単一のロングリードによって生成された配列距離を超える距離だけ離されているときでさえ、本明細書に開示される方法、データベースおよびシステムは、共通のフェーズへのヘテロ接合の配列情報の割り当てを可能にする。そのため、本明細書に開示される方法、データベース、およびシステムは、ゲノム配列決定およびゲノム配列アセンブリに関連するコンピューターシステムの性能の改善を提供する。例えば、本開示の技術は、計算速度の改善を可能にすることができ、それによって、計算時間または計算の負担を低減する。これらの技術はまた、一時的メモリおよび非一時的データ記憶装置の要件を含む、メモリ要件の低減を可能にする。幾つかの場合では、本開示の技術は、以前に計算不可能であった計算を可能にする。

詳細な説明は、以下の付番された実施形態に関連してさらに補足される。
１．第１のＤＮＡ分子から長距離フェーズ情報を生成する方法であって、上記方法は、ａ）第１のセグメントと第２のセグメントとを有する第１のＤＮＡ分子を提供する工程であって、第１のセグメントと第２のセグメントが第１のＤＮＡ分子上で隣接しない、工程と、ｂ）第１のセグメントと第２のセグメントが、第１のＤＮＡ分子の共通のホスホジエステル骨格とは無関係にＤＮＡ結合部分に結合するように、ＤＮＡ結合部分に第１のＤＮＡ分子を接触させる工程と、ｃ）第１のセグメントと第２のセグメントが共通のホスホジエステル骨格によって結合されないように、第１のＤＮＡ分子を切断する工程と、ｄ）再アセンブルされた第１のＤＮＡ分子を形成するためにホスホジエステル結合によって第２のセグメントに第１のセグメントを取り付ける工程と、ｅ）単一の配列決定リードの第１のセグメントと第２のセグメントとの間の接合部を含む再アセンブルされた第１のＤＮＡ分子の少なくとも４ｋｂの連続する配列を配列決定する工程を含み、第１のセグメント配列と第２のセグメント配列が第１のＤＮＡ分子からの長距離フェーズ情報を表す、方法。
２．ＤＮＡ結合部分は複数のＤＮＡ結合分子を含む、付番された実施形態１の方法。
３．複数のＤＮＡ結合部分へ第１のＤＮＡ分子を接触させる工程は、ＤＮＡ結合タンパク質の集団に接触させることを含む、付番された実施形態１または２の方法。
４．ＤＮＡ結合タンパク質の集団は核タンパク質を含む、付番された実施形態１−３のいずれか１つの方法。
５．ＤＮＡ結合タンパク質の集団はヌクレオソームを含む、付番された実施形態１−４のいずれか１つの方法。
６．ＤＮＡ結合タンパク質の集団はヒストンを含む、付番された実施形態１−５のいずれか１つの方法。
７．複数のＤＮＡ結合部分へ第１のＤＮＡ分子を接触させる工程は、ＤＮＡ結合ナノ粒子の集団に接触させることを含む、付番された実施形態１−６のいずれか１つの方法。
８．第１のＤＮＡ分子は、第１のＤＮＡ分子上で第１のセグメントあるいは第２のセグメントに隣接していない第３のセグメントを有し、（ｂ）の接触させる工程は、第３のセグメントが第１のＤＮＡ分子の共通のホスホジエステル骨格とは無関係に、ＤＮＡ結合部分に結合されるように行われ、（ｃ）の切断する工程は、第３のセグメントが共通のホスホジエステル骨格によって第１のセグメントと第２のセグメントに結合されないように行われ、取り付ける工程は、再アセンブルされた第１のＤＮＡ分子を形成するためにホスホジエステル結合によって第２のセグメントに第３のセグメントを取り付けることを含み、（ｅ）の配列決定された連続する配列は、単一の配列決定リードの第２のセグメントと第３のセグメントとの間に接合部を含む、付番された実施形態１−７のいずれか１つの方法。
９．第１のＤＮＡ分子を架橋剤へ接触させる工程を含む、付番された実施形態１−９のいずれか１つの方法。
１０．第１のＤＮＡ分子を架橋剤へ接触させる工程を含む、付番された実施形態１−９のいずれか１つの方法。
１１．架橋剤はホルムアルデヒドである、付番された実施形態１−１０のいずれか１つの方法。
１２．架橋剤はホルムアルデヒドである、付番された実施形態１−１１のいずれか１つの方法。
１３．ＤＮＡ結合部分は、複数のＤＮＡ結合部分を含む表面に結合される、付番された実施形態１−１２のいずれか１つの方法。
１４．ＤＮＡ結合部分は、ビーズを含む固体のフレームワークに結合される、付番された実施形態１−１３のいずれか１つの方法。
１５．第１のＤＮＡ分子を切断する工程は、制限エンドヌクレアーゼに接触させることを含む、付番された実施形態１−１４のいずれか１つの方法。
１６．第１のＤＮＡ分子を切断する工程は、非特異的なエンドヌクレアーゼに接触させることを含む、付番された実施形態１−１５のいずれか１つの方法。
１７．第１のＤＮＡ分子を切断する工程は、タグメンテーション酵素に接触させることを含む、付番された実施形態１−１６のいずれか１つの方法。
１８．第１のＤＮＡ分子を切断する工程は、トランスポサーゼに接触させることを含む、付番された実施形態１−１７のいずれか１つの方法。
１９．第１のＤＮＡ分子を切断する工程は、第１の分子を剪断することを含む、付番された実施形態１−１８のいずれか１つの方法。
２０．少なくとも１つの露出した末端にタグを加える工程を含む、付番された実施形態１−１９のいずれか１つの方法。
２１．タグは標識された塩基を含む、付番された実施形態１−２０のいずれか１つの方法。
２２．タグはメチル化された塩基を含む、付番された実施形態１−２１のいずれか１つの方法。
２３．タグはビオチン化された塩基を含む、付番された実施形態１−２２のいずれか１つの方法。
２４．タグはウリジンを含む、付番された実施形態１−２３のいずれか１つの方法。
２５．タグは非標準の塩基を含む、付番された実施形態１−２４のいずれか１つの方法。
２６．タグは平滑末端を有する露出した末端を生成する、付番された実施形態１−２５のいずれか１つの方法。
２７．第１のセグメントの粘着末端のくぼんだ鎖に少なくとも１つの塩基を加える工程を含む、付番された実施形態１−２６のいずれか１つの方法。
２８．第１のセグメントの粘着末端にアニール化されるオーバーハングを含むリンカーオリゴを加える工程を含む、付番された実施形態１−２７のいずれか１つの方法。
２９．リンカーオリゴは、第１のセグメントの粘着末端にアニール化されるオーバーハングと、第２のセグメントの粘着末端にアニール化されるオーバーハングとを含む、付番された実施形態１−２８のいずれか１つの方法。
３０．リンカーオリゴは２つの５’リン酸塩部分を含まない、付番された実施形態１−２９のいずれか１つの方法。
３１．取り付ける工程はライゲートする工程を含む、付番された実施形態１−３０のいずれか１つの方法。
３２．取り付ける工程はＤＮＡ一本鎖ニック修復を含む、付番された実施形態１−３１のいずれか１つの方法。
３３．第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１０ｋｂ離される、付番された実施形態１−３２のいずれか１つの方法。
３４．第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１５ｋｂ離される、付番された実施形態１−３３のいずれか１つの方法。
３５．第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも３０ｋｂ離される、付番された実施形態１−３４のいずれか１つの方法。
３６．第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも５０ｋｂ離される、付番された実施形態１−３５のいずれか１つの方法。
３７．第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１００ｋｂ離される、付番された実施形態１−３６のいずれか１つの方法。
３８．配列決定する工程は、単一分子のロングリード配列決定を含む、付番された実施形態１−３７のいずれか１つの方法。
３９．ロングリード配列決定は、少なくとも５ｋｂのリードを含む、付番された実施形態１−３８のいずれか１つの方法。
４０．ロングリード配列決定は、少なくとも１０ｋｂのリードを含む、付番された実施形態１−３９のいずれか１つの方法。
４１．第１の再アセンブルされたＤＮＡ分子は、第１のＤＮＡ分子の一方の末端で、５’末端〜３’末端を結合するヘアピン部分を含む、付番された実施形態１−４０のいずれか１つの方法。
４２．第１のＤＮＡ分子の第２の再アセンブルされたバージョンを配列決定する工程を含む、付番された実施形態１−４２のいずれか１つの方法。
４３．第１のセグメントと第２のセグメントは各々少なくとも５００ｂｐである、付番された実施形態１−４２のいずれか１つの方法。
４４．第１のセグメント、第２のセグメント、および第３のセグメントは、各々少なくとも５００ｂｐである、付番された実施形態１−４３のいずれか１つの方法。
４５．ゲノムアセンブリの方法であって、該方法は、ａ）ある構造に複合体化された第１のＤＮＡ分子を得る工程と、ｂ）第１の露出した末端と第２の露出した末端を形成するために第１のＤＮＡ分子を切断する工程であって、第１の露出した末端と第２の露出した末端が上記切断前に分子上で隣接していなかった、工程と、ｃ）第３の露出した末端と第４の露出した末端を形成するために第１のＤＮＡ分子を切断する工程であって、第３の露出した末端と第４の露出した末端が上記切断前に分子上で隣接していなかった、工程と、ｄ）第１の接合部を形成するために、上記第１の露出した末端と上記第２の露出した末端を取り付ける工程と、ｅ）第２の接合部を形成するために、上記第３の露出した末端と上記第４の露出した末端を取り付ける工程と、ｆ）単一の配列決定リード中で上記第１の接合部と上記第２の接合部にわたって配列決定する工程と、ｇ）複数のコンティグの第１のコンティグに、上記第１の接合部の第１の側の配列をマッピングする工程と、ｈ）複数のコンティグの第２のコンティグに、上記第１の接合部の第２の側の配列をマッピングする工程と、ｉ）複数のコンティグの第２のコンティグに、上記第２の接合部の第１の側の配列をマッピングする工程と、ｊ）複数のコンティグの第３のコンティグに、上記第２の接合部の第２の側の配列をマッピングする工程と、ｋ）ゲノムアセンブリの共通のフェーズに、上記第１のコンティグ、上記第２のコンティグ、および上記第３のコンティグを割り当てる工程とを含む、方法。
４６．上記複数のコンティグはショットガン配列データから生成される、付番された実施形態４５の方法。
４７．上記複数のコンティグは単一分子のロングリードデータから生成される、付番された実施形態４５または４６の方法。
４８．上記単一分子のロングリードデータは上記複数のコンティグを含む、付番された実施形態４５−４７のいずれか１つの方法。
４９．上記複数のコンティグは、上記第１の接合部と上記第２の接合部での配列決定によって同時に得られる、付番された実施形態４５−４８のいずれか１つの方法。
５０．上記マーカーオリゴでの配列決定は少なくとも１０ｋｂの配列決定を含む、付番された実施形態４５−４９のいずれか１つの方法。
５１．上記構造は、再構成されたクロマチンを形成するために、第１のＤＮＡ分子に結合されたＤＮＡ結合部分の集団を含む、付番された実施形態４５−５０のいずれか１つの方法。
５２．上記の再構成されたクロマチンは橋架剤に接触させる、付番された実施形態４５−５のいずれか１つの方法。
５３．上記橋架剤はホルムアルデヒドを含む、付番された実施形態４５−５２のいずれか１つの方法。
５４．ＤＮＡ結合部分の上記集団はヒストンを含む、付番された実施形態４５−５３のいずれか１つの方法。
５５．ＤＮＡ結合部分の上記集団はナノ粒子を含む、付番された実施形態４５−５４のいずれか１つの方法。
５６．上記構造は天然のクロマチンを含む、付番された実施形態４５−５５のいずれか１つの方法。
５７．第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１０ｋｂ離される、付番された実施形態４５−５６のいずれか１つの方法。
５８．第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１５ｋｂ離される、付番された実施形態４５−５７のいずれか１つの方法。
５９．第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも３０ｋｂ離される、付番された実施形態４５−５８のいずれか１つの方法。
６０．第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも５０ｋｂ離される、付番された実施形態４５−５９のいずれか１つの方法。
６１．第１の露出した末端と第２の露出した末端は、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１００ｋｂ離される、付番された実施形態４５−６０のいずれか１つの方法。
６２．第１のＤＮＡ分子の第２のコピーを配列決定する工程を含む、付番された実施形態４５−６１のいずれか１つの方法。
６３．ａ）第１のセグメント、ｂ）第２のセグメント、および、ｃ）第３のセグメントを含む少なくとも５ｋｂの再配列された核酸分子であって、ｄ）上記第１のセグメントと上記第２のセグメントは第１の接合部で結合され、および、ｅ）上記第２のセグメントと上記第３のセグメントは第２の接合部で結合され、上記第１のセグメント、上記第２のセグメント、および上記第３のセグメントは、再配列されていない核酸分子において少なくとも１０ｋｂ離れたフェーズに存在し、および、上記再配列された核酸分子の少なくとも７０％は、上記共通の再配列されていない核酸分子にマッピングされる、再配列された核酸分子。
６４．第１のセグメント、第２のセグメント、および第３のセグメントは、ゲノムの共通の核酸分子からの別々のゲノム核酸配列を含む、付番された実施形態６３の再配列された核酸。
６５．第１のセグメント、第２のセグメント、および第３のセグメントは、再配列された核酸において再配置される順序でゲノム中の共通の分子に存在する、付番された実施形態６３または６４の１つの再配列された核酸。
６６．上記核酸分子は少なくとも３０ｋｂの長さである、付番された実施形態６３−６５のいずれか１つの再配列された核酸。
６７．上記核酸は、二本鎖の終端でヘアーピンループを含み、その結果、分子は、３０ｋｂの逆方向反復を含む一本鎖を含んでいる、付番された実施形態６３−６６のいずれか１つの再配列された核酸。
６８．上記核酸は、二本鎖の環状分子である、付番された実施形態６３−６７のいずれか１つの再配列された核酸。
６９．上記再配列された核酸分子の少なくとも８０％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−６８のいずれか１つの再配列された核酸。
７０．上記再配列された核酸分子の少なくとも８５％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−６９のいずれか１つの再配列された核酸。
７１．上記再配列された核酸分子の少なくとも９０％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−７０のいずれか１つの再配列された核酸。
７２．上記再配列された核酸分子の少なくとも９５％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−７１のいずれか１つの再配列された核酸。
７３．上記再配列された核酸分子の少なくとも９９％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−７２のいずれか１つの再配列された核酸。
７４．上記再配列された核酸分子のセグメントの少なくとも８０％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−７３のいずれか１つの再配列された核酸。
７５．上記再配列された核酸分子のセグメントの少なくとも８５％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−７４のいずれか１つの再配列された核酸。
７６．上記再配列された核酸分子のセグメントの少なくとも９０％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−７５のいずれか１つの再配列された核酸。
７７．上記再配列された核酸分子のセグメントの少なくとも９５％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−７６のいずれか１つの再配列された核酸。
７８．上記再配列された核酸分子のセグメントの少なくとも９９％は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態６３−７７のいずれか１つの再配列された核酸。
７９．再配列された核酸は付番された実施形態１−６２のいずれか１つ以上の方法の工程によって生成される、付番された実施形態６３−７８のいずれか１つの再配列された核酸。
８０．サンプル核酸分子のフェージングされた配列を生成する方法であって、該方法は、ａ）サンプル核酸分子から付番された実施形態６３−７８のいずれか１つの第１の再配列された核酸分子を生成する工程と、ｂ）サンプル核酸分子から付番された実施形態６３−７８のいずれか１つの第２の再配列された核酸分子を生成する工程と、および、ｃ）第１の再配列された核酸分子と第２の再配列された核酸分子を配列決定する工程を含み、第１の再配列された核酸分子と第２の再配列された核酸分子は独立して生成される、方法。
８１．サンプル核酸分子のフェージングされた配列を生成する方法であって、該方法は、ａ）サンプル核酸分子から付番された実施形態６３−７８のいずれか１つの第１の再配列された核酸分子を配列決定する工程と、ｂ）サンプル核酸分子から付番された実施形態６３−７８のいずれか１つの第２の再配列された核酸分子を配列決定する工程であって、第１の再配列された核酸分子と第２の再配列された核酸分子が独立して生成される、工程と、ｃ）付番された実施形態６３−７８のいずれか１つの第１の再配列された核酸分子と、付番された実施形態６３−７８のいずれか１つの第２の再配列された核酸分子の配列を組み立てる工程であって、組み立てられた配列がサンプル核酸分子の再配列されていないフェージングされた配列である、工程とを含む、方法。
８２．第１の再配列された核酸分子を配列決定する工程は、少なくとも１ｋｂの配列リードを生成することを含む、付番された実施形態８０または８１の方法。
８３．第１の再配列された核酸分子を配列決定する工程は、少なくとも２ｋｂの配列リードを生成することを含む、付番された実施形態８０−８２のいずれか１つの方法。
８４．第１の再配列された核酸分子を配列決定する工程は、少なくとも５ｋｂの配列リードを生成することを含む、付番された実施形態８０−８３のいずれか１つの方法。
８５．単一のゲノム分子の共通のフェーズに、上記第１の再配列された分子の少なくとも７０％を割り当てる工程を含む、付番された実施形態８０−８４のいずれか１つの方法。
８６．単一のゲノム分子の共通のフェーズに、上記第２の再配列された分子の少なくとも７０％を割り当てる工程を含む、付番された実施形態８０−８５のいずれか１つの方法。
８７．単一のゲノム分子の共通のフェーズに、上記第１の再配列された分子の少なくとも８０％を割り当てる工程を含む、付番された実施形態８０−８６のいずれか１つの方法。
８８．単一のゲノム分子の共通のフェーズに、上記第２の再配列された分子の少なくとも８０％を割り当てる工程を含む、付番された実施形態８０−８７のいずれか１つの方法。
８９．単一のゲノム分子の共通のフェーズに、上記第１の再配列された分子の少なくとも９０％を割り当てる工程を含む、付番された実施形態８０−８８のいずれか１つの方法。
９０．単一のゲノム分子の共通のフェーズに、上記第２の再配列された分子の少なくとも９０％を割り当てる工程を含む、付番された実施形態８０−８９のいずれか１つの方法。
９１．単一のゲノム分子の共通のフェーズに、上記第１の再配列された分子の少なくとも９５％を割り当てる工程を含む、付番された実施形態８０−９０のいずれか１つの方法。
９２．単一のゲノム分子の共通のフェーズに、上記第２の再配列された分子の少なくとも９５％を割り当てる工程を含む、付番された実施形態８０−９１のいずれか１つの方法。
９３．ロングリード配列データをフェージングする方法であって、該方法は、ａ）付番された実施形態６３−７８のいずれか１つの酸サンプルから配列データを得る工程と、ｂ）付番された実施形態６３−７８のいずれか１つの再配列された核酸からロングリード配列データを得る工程と、ｃ）付番された実施形態６３−７８のいずれか１つの再配列された核酸からのロングリード配列データを、核酸サンプルからの配列データにマッピングする工程と、ｄ）付番された実施形態６３−７８のいずれか１つの再配列された核酸からのロングリード配列データによってマッピングされた核酸サンプルからの配列データを、共通のフェーズに割り当てる工程とを含む、方法。
９４．ＤＮＡ配列決定技術によって核酸サンプルから生成された核酸データセットにフェーズ情報を提供する方法であって、該方法は、ａ）ＤＮＡ配列決定技術のリード長よりも大きな距離だけ離れた第１のセグメントと第２のセグメントを有する上記核酸サンプルの核酸を得る工程と、ｂ）第１のセグメントと第２のセグメントがＤＮＡ配列決定技術のリード長未満の距離離れるように、核酸を組み換える工程と、；ｃ）第１のセグメントと第２のセグメントがＤＮＡ配列決定技術の単一のリードに現われるように、ＤＮＡ配列決定技術を使用して、組み換えられた核酸を配列決定する工程と、ｄ）第１のセグメント配列を含むデータセットの配列リードと、第２のセグメント配列を含むデータセットの配列リードを、共通のフェーズに割り当てる工程とを含む、方法。
９５．ＤＮＡ配列決定技術は、少なくとも１０ｋｂのリード長を有するリードを生成する、付番された実施形態９４の方法。
９６．組み換える工程は、本明細書に開示された任意の方法の工程を行うことを含む、付番された実施形態９４−９４のいずれか１つの方法。
９７．第１のセグメントと第２のセグメントは、セグメント末端を示すリンカーオリゴによって分離される、付番された実施形態９４−９４のいずれか１つの方法。
９８．付番された実施形態６３−７８のいずれか１つの複数の分子から得られた配列情報を含む核酸配列データベースであって、ここで、共通の足場へマッピングされるそのセグメントの７０％未満を有する分子に対応する配列情報は、少なくとも１つの分析から除外される、核酸配列データベース。
９９．付番された実施形態６３−７８のいずれか１つの複数の分子から得られた配列情報を含む核酸配列データベースであって、ここで、共通の足場へマッピングされるその配列情報の７０％未満を有する分子に対応する配列情報は、少なくとも１つの分析から除外される，核酸配列データベース。
１００．ロングリード配列データをフェージングする方法であって、該方法は、ａ）付番された実施形態６３−７８のいずれか１つの核酸サンプルから配列データを得る工程と、ｂ）付番された実施形態６３−７８のいずれか１つの再配列された核酸の再配列された核酸からロングリード配列データを得る工程と、ｃ）付番された実施形態６３−７８のいずれか１つの再配列された核酸の第１のセグメント、第２のセグメント、および第３のセグメントを、核酸サンプルからの配列データ〜核酸サンプル配列データにマッピングする工程と、ｄ）少なくとも２つのセグメントが共通の足場へマッピングされるとき、共通のフェーズに上記セグメントの配列変異を割り当てる工程を含む、方法。
１０１．第１のセグメントは、核酸サンプルからの配列データに関連して一塩基多型を含む、付番された実施形態１００の方法。
１０２．第１のセグメントは、核酸サンプルからの配列データに関連して挿入を含む、付番された実施形態１００または１０１の方法。
１０３．第１のセグメントは、核酸サンプルからの配列データに関連して欠失を含む、付番された実施形態１００−１０２のいずれか１つの方法。
１０４．第１の共通の足場にマッピングされるセグメントの第１のセットを、第１の共通の足場の共通のフェーズに割り当てる工程と、第２の共通の足場にマッピングされるセグメントの第２のセットを、第２の共通の足場の共通のフェーズに割り当てる工程を含む、付番された実施形態１００−１０３のいずれか１つの方法。
１０５．核酸サンプルの核酸配列ライブラリーであって、上記核酸配列ライブラリーは、平均リード長を有する核酸配列リードの集団を含み、上記リードの少なくとも１つは、第１の核酸セグメントの少なくとも５００ベースと、第２の核酸セグメントの少なくとも５００ベースを含み、上記第１の核酸セグメントと上記第２の核酸セグメントは、上記核酸サンプルの共通の分子上の上記平均リード長よりも大きな距離だけ離れたフェーズ内で見られる、核酸配列ライブラリー。
１０６．上記第１の核酸セグメントと上記第２の核酸セグメントは、１０ｋｂよりも大きな距離だけ離れたフェーズ内で見られる、付番された実施形態１０５の核酸配列ライブラリー。
１０７．上記第１の核酸セグメントと上記第２の核酸セグメントは、２０ｋｂよりも大きな距離だけ離れたフェーズ内で見られる、付番された実施形態１０５または１０６の核酸配列ライブラリー。
１０８．上記第１の核酸セグメントと上記第２の核酸セグメントは、５０ｋｂよりも大きな距離だけ離れたフェーズ内で見られる、付番された実施形態１０５−１０７のいずれか１つの核酸配列ライブラリー。
１０９．上記第１の核酸セグメントと上記第２の核酸セグメントは、１００ｋｂよりも大きな距離だけ離れたフェーズ内で見られる、付番された実施形態１０５−１０８のいずれか１つの核酸配列ライブラリー。
１１０．上記リードの少なくとも１つは第１の核酸セグメントの少なくとも１ｋｂを含むことを特徴とする、付番された実施形態１０５−１０９のいずれか１つの核酸配列ライブラリー。
１１１．上記リードの少なくとも１つは第１の核酸セグメントの少なくとも５ｋｂを含むことを特徴とする、付番された実施形態１０５−１１０のいずれか１つの核酸配列ライブラリー。
１１２．上記リードの少なくとも１つは第１の核酸セグメントの少なくとも１０ｋｂを含むことを特徴とする、付番された実施形態１０５−１１１のいずれか１つの核酸配列ライブラリー。
１１３．上記リードの少なくとも１つは第１の核酸セグメントの少なくとも２０ｋｂを含むことを特徴とする、付番された実施形態１０５−１１２のいずれか１つの核酸配列ライブラリー。
１１４．上記リードの少なくとも１つは第１の核酸セグメントの少なくとも５０ｋｂを含むことを特徴とする、付番された実施形態１０５−１１３のいずれか１つの核酸配列ライブラリー。
１１５．核酸配列ライブラリーは、上記核酸サンプルの少なくとも８０％を含むことを特徴とする、付番された実施形態１０５−１１４のいずれか１つの核酸配列ライブラリー。
１１６．核酸配列ライブラリーは、上記核酸サンプルの少なくとも８５％を含むことを特徴とする、付番された実施形態１０５−１１５のいずれか１つの核酸配列ライブラリー。
１１７．核酸配列ライブラリーは、上記核酸サンプルの少なくとも９０％を含むことを特徴とする、付番された実施形態１０５−１１６のいずれか１つの核酸配列ライブラリー。
１１８．核酸配列ライブラリーは、上記核酸サンプルの少なくとも９５％を含むことを特徴とする、付番された実施形態１０５−１１７のいずれか１つの核酸配列ライブラリー。
１１９．核酸配列ライブラリーは、上記核酸サンプルの少なくとも９９％を含むことを特徴とする、付番された実施形態１０５−１１８のいずれか１つの核酸配列ライブラリー。
１２０．核酸配列ライブラリーは、上記核酸サンプルの少なくとも９９．９％を含むことを特徴とする、付番された実施形態１０５−１１９のいずれか１つの核酸配列ライブラリー。
１２１．上記核酸配列ライブラリーは、少なくとも１ｋｂの平均長さを有する核酸配列リードの集団を含み、上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの配列の少なくとも３００塩基を含み、上記２つの別々のフェーズ内領域は、核酸サンプル中で１０ｋｂよりも大きな距離離れている、核酸配列ライブラリー。
１２２．上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの配列の少なくとも５００塩基を含むことを特徴とする、付番された実施形態１２１の核酸配列ライブラリー。
１２３．上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの少なくとも１ｋｂの配列を含むことを特徴とする、付番された実施形態１２１または１２２のいずれか１つの核酸配列ライブラリー。
１２４．上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの少なくとも２ｋｂの配列を含むことを特徴とする、付番された実施形態１２１から１２３のいずれか１つの核酸配列ライブラリー。
１２５．上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの少なくとも５ｋｂの配列を含むことを特徴とする、付番された実施形態１２１から１２４のいずれか１つの核酸配列ライブラリー。
１２６．上記リードは独立して、核酸サンプルの２つの別々のフェーズ内領域からの少なくとも１０ｋｂの配列を含むことを特徴とする、付番された実施形態１２１から１２５のいずれか１つの核酸配列ライブラリー。
１２７．上記２つの別々のフェーズ内領域は、核酸サンプル中で２０ｋｂよりも大きな距離だけ離れていることを特徴とする、付番された実施形態１２１から１２６のいずれか１つの核酸配列ライブラリー。
１２８．上記２つの別々のフェーズ内領域は、核酸サンプル中で３０ｋｂよりも大きな距離だけ離れていることを特徴とする、付番された実施形態１２１から１２７のいずれか１つの核酸配列ライブラリー。
１２９．上記２つの別々のフェーズ内領域は、リードの少なくとも１％において核酸サンプル中で５０ｋｂよりも大きな距離だけ離れていることを特徴とする、付番された実施形態１２１から１２８のいずれか１つの核酸配列ライブラリー。
１３０．上記２つの別々のフェーズ内領域は、リードの少なくとも１％において核酸サンプル中で１００ｋｂよりも大きな距離だけ離れていることを特徴とする、付番された実施形態１２１から１２９のいずれか１つの核酸配列ライブラリー。
１３１．核酸配列ライブラリーは、上記核酸サンプルの少なくとも８０％を含むことを特徴とする、付番された実施形態１２１−１３０のいずれか１つの核酸配列ライブラリー。
１３２．核酸配列ライブラリーは、上記核酸サンプルの少なくとも８５％を含むことを特徴とする、付番された実施形態１２１−１３１のいずれか１つの核酸配列ライブラリー。
１３３．核酸配列ライブラリーは、上記核酸サンプルの少なくとも９０％を含むことを特徴とする、付番された実施形態１２１−１３２のいずれか１つの核酸配列ライブラリー。
１３４．核酸配列ライブラリーは、上記核酸サンプルの少なくとも９５％を含むことを特徴とする、付番された実施形態１２１−１３３のいずれか１つの核酸配列ライブラリー。
１３５．核酸配列ライブラリーは、上記核酸サンプルの少なくとも９９％を含むことを特徴とする、付番された実施形態１２１−１３４のいずれか１つの核酸配列ライブラリー。
１３６．核酸配列ライブラリーは、上記核酸サンプルの少なくとも９９．９％を含むことを特徴とする、付番された実施形態１２１−１３５のいずれか１つの核酸配列ライブラリー。
１３７．核酸サンプルから生成される核酸ライブラリーであって、核酸サンプルの核酸配列の少なくとも８０％は、核酸ライブラリーで表され、核酸サンプルのフェーズ内配列セグメントは、核酸サンプルのフェーズ内セグメントの離れた位置にある少なくとも１つのペアが単一の配列リードで読まれるように、再配列され、上記ライブラリーの配列決定が、核酸サンプルの少なくとも８０％にまたがるコンティグ情報と、上記核酸サンプルのフェージングされた配列を生成するために、上記コンティグ情報を順序付けて配向するのに十分なフェーズ情報を同時に生成する、ことを特徴とする核酸ライブラリー。
１３８．核酸サンプルの核酸配列の少なくとも９０％は、核酸ライブラリーで表わされることを特徴とする、付番された実施形態１３７の核酸ライブラリー。
１３９．核酸サンプルの核酸配列の少なくとも９５％は、核酸ライブラリーで表わされることを特徴とする、付番された実施形態１３７から１３８のいずれか１つの核酸ライブラリー。
１４０．核酸サンプルの核酸配列の少なくとも９９％は、核酸ライブラリーで表わされることを特徴とする、付番された実施形態１３７から１３９のいずれか１つの核酸ライブラリー。
１４１．核酸サンプルの核酸配列の上記８０％は、せいぜい１００，０００のライブラリー成分から得られることを特徴とする、付番された実施形態１３７から１４０のいずれか１つの核酸ライブラリー。
１４２．核酸サンプルの核酸配列の上記８０％は、せいぜい１０，０００のライブラリー成分から得られることを特徴とする、付番された実施形態１３７から１４１のいずれか１つの核酸ライブラリー。
１４３．核酸サンプルの核酸配列の上記８０％は、せいぜい１，０００のライブラリー成分から得られることを特徴とする、付番された実施形態１３７から１４２のいずれか１つの核酸ライブラリー。
１４４．上核酸サンプルの核酸配列の上記８０％は、せいぜい５００のライブラリー成分から得られることを特徴とする、付番された実施形態１３７から１４３のいずれか１つの核酸ライブラリー。
１４５．サンプルはゲノムサンプルであることを特徴とする、付番された実施形態１３７から１４４のいずれか１つの核酸ライブラリー。
１４６．サンプルは真核生物のゲノムサンプルであることを特徴とする、付番された実施形態１３７から１４５のいずれか１つの核酸ライブラリー。
１４７．サンプルは植物のゲノムサンプルであることを特徴とする、付番された実施形態１３７から１４６のいずれか１つの核酸ライブラリー。
１４８．サンプルは動物のゲノムサンプルであることを特徴とする、付番された実施形態１３７から１４７のいずれか１つの核酸ライブラリー。
１４９．サンプルは哺乳動物のゲノムサンプルであることを特徴とする、付番された実施形態１３７から１４８のいずれか１つの核酸ライブラリー。
１５０．サンプルは真核単核生物のゲノムサンプルであることを特徴とする、付番された実施形態１３７から１４９のいずれか１つの核酸ライブラリー。
１５１．サンプルはヒトゲノムサンプルであることを特徴とする、付番された実施形態１３７から１５０のいずれか１つの核酸ライブラリー。
１５２．核酸ライブラリーはフェーズ情報を保護するためにバーコード化されないことを特徴とする、付番された実施形態１３７から１５１のいずれか１つの核酸ライブラリー。
１５３．上記ライブラリーのリードは、第１の領域からの少なくとも１ｋｂの配列と、第１の領域とフェーズ内にありかつサンプル中の第１の領域から５０ｋｂを超えて離れている第２の領域からの少なくとも１００塩基の配列を含む、ことを特徴とする、付番された実施形態１３７から１５２のいずれか１つの核酸ライブラリー。
１５４．配列決定デバイス上で配列決定するために核酸分子を構成する方法であって、核酸分子は少なくとも１００ｋｂの配列を含み、上記少なくとも１００ｋｂの配列は、配列決定デバイスのリード長より大きな長さによって離れた第１のセグメントと第２のセグメントを含み、該方法は、第１のセグメントと第２のセグメントが配列決定デバイスのリード長未満だけ離れるように、核酸分子の第２のセグメントに対する第１のセグメントの相対位置を変更する工程を含み、第１のセグメントと第２のセグメントのためのフェーズ情報は維持され、核酸分子のせいぜい１０％が欠失する、方法。
１５５．第１のセグメントと第２のセグメントの少なくとも一部にまたがるリードを生成する工程を含む、付番された実施形態１５４の方法。
１５６．核酸分子の配列の共通のフェーズに、第１のセグメントと第２のセグメントを割り当てる工程を含む、付番された実施形態１５４−１５５のいずれか１つの方法。
１５７．核酸分子のせいぜい５％が欠失することを特徴とする、付番された実施形態１５４から１５６のいずれか１つの方法。
１５８．核酸分子のせいぜい１％以下が欠失することを特徴とする、付番された実施形態１５４から１５７のいずれか１つの方法。
１５９．第１のセグメントと第２のセグメントとは、構成前に核酸分子中で少なくとも１０ｋｂ離れていることを特徴とする、付番された実施形態１５４から１５８のいずれか１つの方法。
１６０．第１のセグメントと第２のセグメントは、構成前に核酸分子中で少なくとも５０ｋｂ離れていることを特徴とする、付番された実施形態１５４から１５９のいずれか１つの方法。
１６１．第１のセグメントと第２のセグメントは、上記構成後に、接合部マーカーによって分離されることを特徴とする、付番された実施形態１５４から１６０のいずれか１つの方法。
１６２．核酸の末端にステムループを取り付ける工程を含み、それによって、分子を一本鎖に変換する工程を含む、付番された実施形態１５４から１６１のいずれか１つの方法。
１６３．核酸分子を環状化する工程を含む、付番された実施形態１５４から１６２のいずれか１つの方法。
１６４．ＤＮＡポリメラーゼに核酸分子を取り付ける工程を含む、付番された実施形態１５４から１６３のいずれか１つの方法。
１６５．第１のセグメントと第２のセグメントがホスホジエステル骨格とは無関係に一緒に保持されるように、核酸分子を結合する工程と、少なくとも２つの位置で第１のセグメントと第２のセグメントとの間のホスホジエステル骨格を切断する工程と、第１のセグメントと第２のセグメントが配列決定デバイスのリード長未満だけ離れるように、第１のセグメントを第２のセグメントへ再度取り付ける工程とを含む、付番された実施形態１５４から１６４のいずれか１つの方法。
１６６．上記の切断する工程と上記の再度取り付ける工程は、上記核酸分子からの配列情報の喪失を引き起こさない、付番された実施形態１５４から１６５のいずれか１つの方法。
１６７．第１の核酸分子からの長距離フェーズ情報を生成する方法であって、該方法は：ａ）第１のセグメント、第２のセグメント、および第３のセグメントを有する第１の核酸分子を含むサンプルを提供する工程であって、第１のセグメント、第２のセグメント、および第３のセグメントのいずれも第１の核酸分子上では隣接しておらず、第１のセグメント、第２のセグメント、および第３のセグメントが第１の核酸分子の共通のホスホジエステル骨格とは無関係にフレームワークに結合するように、第１の核酸分子はフレームワークに接触する、工程と、ｂ）第１のセグメント、第２のセグメント、および第３のセグメントが共通のホスホジエステル骨格によって結合されないように、第１の核酸分子を切断する工程と、ｃ）第１のセグメントを第２のセグメントに接続し、第２のセグメントを第３のセグメントに接続する工程と、ｄ）第１のセグメント、第２のセグメント、および第３のセグメントを含む第１の核酸分子の第１の部分を配列決定する工程であって、それによって、第１のセグメント配列情報、第２のセグメント配列情報、および第３のセグメント配列情報を生成し、ここで、第１のセグメント配列情報、第２のセグメント配列情報、および第３のセグメント配列情報が、第１の核酸分子に関する長距離フェーズ情報を提供する、工程と、を含む方法。
１６８．フレームワークは再構成されたクロマチンを含むことを特徴とする、付番された実施形態１６７の方法。
１６９．フレームワークは天然のクロマチンを含むことを特徴とする、付番された実施形態１６７から１６８のいずれか１つの方法。
１７０．切断する工程は制限酵素を用いて行われることを特徴とする、付番された実施形態１６７から１６９のいずれか１つの方法。
１７１．切断する工程はフラグメンターゼ（ｆｒａｇｍｅｎｔａｓｅ）を用いて行われることを特徴とする、付番された実施形態１６７から１７０のいずれか１つの方法。
１７２．配列決定の前に、多くとも２つのセグメントを含む第１の核酸分子の第２の部分をサンプルから取り除く工程をさらに含む、付番された実施形態１６７から１７１のいずれか１つの方法。
１７３．第１のセグメント配列情報、第２のセグメント配列情報および第３のセグメント配列情報を用いて第１の核酸分子の配列をアセンブルする工程をさらに含む、付番された実施形態１６７から１７２のいずれか１つの方法。
１７４．核酸分子を配列決定する方法であって、該方法は：共通のホスホジエステル骨格を共有する、第１のセグメント、第２のセグメントおよび第３のセグメントを含む第１の核酸分子を得る工程であって、第１のセグメント、第２のセグメントおよび第３のセグメントのいずれも、上記第１の核酸分子上では隣接していない、工程と；第１のセグメント、第２のセグメント、および第３のセグメントがその共通のホスホジエステル骨格とは無関係に関連付けられるように、上記核酸分子を分割する工程と；第１のセグメント、第２のセグメント、および第３のセグメントを結合する連続的なホスホジエステル骨格がないように、フラグメントを生成するために核酸分子を切断する工程と；記第１のセグメント、第２のセグメント、および第３のセグメントが共通のホスホジエステル骨格を共有する再配列された核酸分子上で連続的になるように、上記フラグメントをライゲートする工程と；上記再配列された核酸分子の少なくとも５，０００のベースが単一リード中で配列決定されるように、上記再配列された核酸分子の少なくとも一部を配列決定する工程と、を含む方法。
１７５．分割は、上記第１のセグメント、第２のセグメントおよび第３のセグメントが、その共通のホスホジエステル骨格から独立した共通の複合体中で結合するように、上記核酸分子を結合部分に接触させる工程を含むことを特徴とする、付番された実施形態１７４の方法。
１７６．核酸分子を複数のＤＮＡ結合分子に接触させる工程は、ＤＮＡ結合タンパク質の集団に接触させる工程を含む、付番された実施形態１７４から１７５のいずれか１つの方法。
１７７．ＤＮＡ結合タンパク質の集団は、核タンパク質を含むことを特徴とする、付番された実施形態１７４から１７６のいずれか１つの方法。
１７８．ＤＮＡ結合タンパク質の集団は、ヌクレオソームを含むことを特徴とする、付番された実施形態１７４から１７７のいずれか１つの方法。
１７９．ＤＮＡ結合タンパク質の集団は、ヒストンを含むことを特徴とする、付番された実施形態１７４から１７８のいずれか１つの方法。
１８０．複数のＤＮＡ結合部分へ核酸分子を接触させる工程は、ＤＮＡ結合ナノ粒子の集団に接触させることを含むことを特徴とする、付番された実施形態１７４から１７９のいずれか１つの方法。
１８１．核酸分子を切断する工程は、制限エンドヌクレアーゼに接触させることを含むことを特徴とする、付番された実施形態１７４から１８０のいずれか１つの方法。
１８２．核酸分子を切断する工程は、非特異的なエンドヌクレアーゼに接触させることを含むことを特徴とする、付番された実施形態１７４から１８１のいずれか１つの方法。
１８３．核酸分子を切断する工程は、タグメンテーション酵素に接触させることを含むことを特徴とする、付番された実施形態１７４から１８２のいずれか１つの方法。
１８４．核酸分子を切断する工程は、トランスポサーゼに接触させることを含むことを特徴とする、付番された実施形態１７４から１８３のいずれか１つの方法。
１８５．核酸分子を切断する工程は、第１の分子を剪断することを含むことを特徴とする、付番された実施形態１７４から１８４のいずれか１つの方法。
１８６．分割する工程は、サンプルの他の核酸分子から上記核酸分子を分離することを含むことを特徴とする、付番された実施形態１７４から１８５のいずれか１つの方法。
１８７．分割する工程は、上記核酸サンプルを希釈することを特徴とする、付番された実施形態１７４から１８６のいずれか１つの方法。
１８８．割する工程は、上記核酸分子をエマルジョンの微小液滴へ分布させることを含むことを特徴とする、付番された実施形態１７４から１８７のいずれか１つの方法。
１８９．生物のゲノムのゲノムフェーズ情報を表す核酸分子であって、上記核酸分子は単一のゲノム分子にマッピングされる少なくとも２０ｋｂの核酸配列情報を含み、上記配列情報はゲノム分子中のその位置に対して再配列されたセグメントを含み、上記生物のゲノムに独自にマッピングされる配列情報の少なくとも７０％は、単一のゲノム分子にマッピングされることを特徴とする、核酸分子。
１９０．核酸分子は、少なくとも２０のセグメントを含むことを特徴とする、付番された実施形態１８９の核酸分子。
１９１．上記セグメントは上記生物のゲノムにおいて隣接しないことを特徴とする、付番された実施形態１８９から１９０のいずれか１つの核酸分子。
１９２．少なくとも２０ｋｂの少なくとも１００の核酸分子成分を含む核酸ライブラリーであって、成分は、生物のゲノムの再配列されたセグメントを含み；ライブラリー成分の一意にマッピングされるセグメントの少なくとも７０％は、共通のゲノム分子にマッピングされ；成分は核酸結合部分に結合されないことを特徴とする、核酸ライブラリー。
１９３．少なくとも２０ｋｂの少なくとも１００の核酸分子成分に対応する配列を含む核酸データセットであって、成分は、生物のゲノムの少なくとも５つの再配列されたセグメントを含み、上記再配列されたセグメントの７０％未満が共通の足場へマッピングされる成分は、下流の分析から除外されることを特徴とする、核酸データセット。
１９４．少なくとも２０ｋｂの少なくとも１００の核酸分子成分に対応する配列を含む核酸データセットであって、成分は、生物のゲノムの少なくとも５つの再配列されたセグメントを含み、上記配列の７０％未満が共通の足場へマッピングされる成分は、下流の分析から除外されることを特徴とする、核酸データセット。

図を参照すると、本明細書に記載された特定の実施形態の実例が見られる。図１では、句切られ、再配列されたフェーズを保存する核酸分子を構成するプロセスにおける中間体が見られる。単一の核酸分子を、再構成されたクロマチン複合体などの核酸結合部分に結合させ、および、複合体と架橋するためにホルムアルデヒドに接触させた。複合体は、核酸分子の内部ループのみがクラスターから突き出るように、まとめて再構成されたクロマチンと呼ばれる核酸結合成分とクラスターを形成する単一の核酸開始分子（ｎｕｃｌｅｉｃａｃｉｄｓｔａｒｔｉｎｇｍｏｌｅｃｕｌｅ）を含む。図１に描写されるように、突き出るループは、制限エンドヌクレアーゼＭｂｏＩを使用して切断されて粘着末端を生成する。

代替的な実施形態では、核酸分子は、ＳＰＲＩ被覆ビーズまたは他の核酸結合剤被覆ビーズなどの、ビーズまたは表面に結合される。核酸サンプルは、ビーズあたり１つの核酸分子のみが結合するような条件下、または結合した核酸が切断後にクロスライゲート（ｃｒｏｓｓ−ｌｉｇａｔｅ）しないような条件下で結合される。また、切断は、他の制限エンドヌクレアーゼ、トランスポサーゼ、タグメンテーション酵素、非特異的エンドヌクレアーゼ、トポイソメラーゼまたはエンドヌクレアーゼ活性を有する他の薬剤を用いて、交互に達成される。

図２では、図１の切断された核酸複合体が、オーバーハングの単一の位置を埋めるように、核酸ポリメラーゼおよびｄＧＴＰの単一の集団を用いて処理されているのが見られる。埋め込み工程は、後の工程で複合体の粘着末端がクロスアニーリングおよびライゲートするのを防止する。場合によっては、該工程は除外され、複合体は句切りオリゴ（ｐｕｎｃｔｕａｔｉｏｎｏｌｉｇｏ）なしでクロスライゲートすることができる。交互に、平滑末端が生成されるか、または制限エンドヌクレアーゼではなくトランスポザーゼの作用を介してタグメンテーションアダプターが付加される。

図３は、複合体の露出した末端に句切りオリゴをアニーリングおよびライゲートした後の図１および図２の複合体を示す。句切りオリゴは核酸塩基配列としてではなく細い実線として描写されている。句切りオリゴは、例えば、５’リン酸基を除去することにより、コンカテマー化（ｃｏｎｃａｔｅｍｅｒｉｚａｔｉｏｎ）を防止するように随意に修飾される。句切りオリゴは、図２において修飾されたように、自由粘着末端と適合するように随意に設計される。他の実施形態では、切断された核酸末端は、介在する句切りオリゴなしで、互いに直接ライゲートされうる。

図４は、プロテイナーゼＫを用いた処理を通じて、再構成されたクロマチンからの架橋および遊離を逆転させた後の放出された句切られた核酸分子を示す。最終産物の句切られた核酸（ｅｎｄ−ｐｒｏｄｕｃｔｐｕｎｃｔｕａｔｅｄｎｕｃｌｅｉｃａｃｉｄ）は、句切りオリゴ（４０１）の分だけ離されたセグメント（４００）を含む。セグメントは、元の核酸分子のフェーズ情報を保存するが、開始分子に対してランダムに順序付けられ方向付けられる。句切られた分子を配列決定すると、デノボコンティグを生成するのに十分な配列情報が生成されるように、実質的にすべての元の核酸分子の配列は句切られた分子の中に存在する。

ロングリード配列決定デバイスを使用して句切られた核酸を配列決定する際、局所的な順序および方向、ならびにフェーズ情報が導き出される、切断されていないセグメントに対応する配列の伸張が観察される。句切りオリゴ配列に及ぶ長い配列リードの領域もまた観察される。句切りオリゴのいずれかの側のこれらの配列セグメントは、互いとフェーズ内にある（および、句切られた分子上の他のセグメントとフェーズ内にある）ことが知られているが、正しい順序および方向になる可能性は低い。再配列プロセスの利点は、サンプル分子上で互いに非常に離れたセグメントが、単一のリードに及ぶように近接させられるということである。別の利点は、元のサンプル分子の配列情報は、デノボコンティグ情報が同時に生成されるように、大部分は保存されるということである。

図５は、本開示の代替的な実施形態を示す。一連の短いペアエンド（５００）は、それぞれ対で結合された配列がフェーズ内にあることを示し、（例えば、増幅アダプター（５０１）を用いて）アダプタータグ付けされ、連鎖状のペアエンドマルチマー（５０２）を形成するためにライゲートされる。個々のペア、または、それらが一意にマッピングされるコンティグは、共通のフェーズに確信的に割り当てられる。増幅アダプタの一方のリードペアユニットは、コンカテマーアセンブリで追加の措置がとられなければ、互いに順序、方向、またはフェーズ関係を有するとは推論されない。

図５の連鎖状の分子の利点は、複数のペアエンドのリードは、より多数のショートランリードにおいてではなく、単一またはより少数のロングリード反応において配列決定される単一の分子にアセンブルされる、ということである。しかしながら、個々のペアエンドのセグメントの長さはより短いため、開始サンプルの全体的な配列は、連鎖状の分子に保存されない可能性があり、デノボ配列決定を複雑にする。

図６は代替的なシナリオを示し、それによって、句切られた核酸分子（６００）は、短リード配列決定のための鋳型を生成するために使用される。句切られた核酸分子は、句切り配列にアニーリングし、かつ、ビン特異的オリゴヌクレオチドバーコード（６０２）を含む、プライマー（６０１）の集団に接触する。次いで、プライマーを伸長させて、例えば、句切られた核酸分子に相補的な配列（６０３）を組み込むことができる。このアプローチを通じて、フェーズ情報がバーコード情報から導き出される。利点は、ショートリードの配列決定が促進されるということである。

図７は、ライゲーション工程（「ＢＦ」）前およびライゲーション工程（「ＡＦ」）後の、２つのサンプルのゲル電気泳動分析を示す。左端のレーンは、上から下へ４８５００、１５０００、７０００、４０００、３０００、２５００、２０００、１５００、１２００、９００、６００、４００、２５０および１００ｂｐであるサイズのＤＮＡラダーを包含している。左から２つ目および３つ目のレーンは、ライゲーション前後のサンプル１をそれぞれ包含している。左から４つ目および５つ目のレーンは、ライゲーション前後のサンプル２をそれぞれ包含している。ライゲートされたサンプル１およびサンプル２の両方が、７０００〜４８５００ｂｐの範囲でＤＮＡの暗いバンドを示し、これはいずれかのライゲーション前のレーンのバンドよりもはるかに大きい。サンプル１は、合計約２００ｎｇのＤＮＡを有する、マイクロリットルあたり約７ナノグラム（ｎｇ／μＬ）のＤＮＡを含み、サンプル２は、合計約３．４μｇのＤＮＡを有する、約１１５ｎｇ／μＬのＤＮＡを含む。

図８は、サンプルについての配列決定情報に関する代表的な情報を示す。１，０００，０００以上の循環的なコンセンサス配列（ＣＳＳ）のリードが生成され、３００，０００のリード（２５％）はマッピングされない。１，５００，０００のマッピングされたセグメント（−ｑ１）および１，３５０，０００のマッピングされたセグメント（−ｑ２０）がある。１つのマッピングされたセグメントでのリードについては、ｎ＝５００，０００；２つのマッピングされたセグメントでのリードについては、ｎ＝１７５，０００；３つのマッピングされたセグメントでのリードについては、ｎ＝７５，０００；４つのマッピングされたセグメントでのリードについては、ｎ＝３０，０００；５つのマッピングされたセグメントについてのリードについては、ｎ＝１５，０００；６つのマッピングされたセグメントでのリードについては、ｎ＝７，０００；表１は、Ｘ個のマッピングセグメントの最大数でのリードからのクローンカバレッジ（ｃｌｏｎｅｃｏｖｅｒａｇｅ）を示す。

図９Ａおよび図９Ｂは、１０ｋｂのビン（図９Ａ）および１Ｋｂのビン（図９Ｂ）で、１サンプルにつきＸ個のマッピングされたセグメントでのリードが及ぶ距離の度数分布を示す。ｙ軸は、ＰａｃＢｉｏＣＣＳリードの数を示す（軸は下から上に：１、１０、１００、１０００、１００００）。ｘ軸は、リードが及ぶ距離を示す（軸は左から右に：図９Ａ：０、２０００００、４０００００、６０００００、８０００００、１００００００；図９Ｂ：０、２００００、４００００、６００００、８００００、１０００００）。度数分布は、１つのマッピングされたセグメント（９０１、９１１）、２つのマッピングされたセグメント（９０２、９１２）、３つのマッピングされたセグメント（９０３、９１３）、４つのマッピングされたセグメント（９０４、９１４）および５つのマッピングされたセグメント（９０５、９１５）でのリードのために示される。

図１０は、本明細書に記載される方法を実施するために適合される典型的なコンピュータシステム（１０００）を表す。システム（１０００）は、本明細書に記述された典型的な方法を実施するようにプログラムされた中央コンピュータサーバー（１００１）を含む。サーバー（１００１）は、シングルコアプロセッサ、マルチコアプロセッサ、または並列処理のための複数のプロセッサでありうる、中央処理装置（ＣＰＵまたは「プロセッサ」）（１００５）を含む。サーバー（１００１）はまた、メモリ（１０１０）（例えばランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ）と；電子記憶装置（１０１５）（例えばハードディスク）と；１つ以上の他のシステムと通信するための通信インターフェース（１０２０）（例えばネットワークアダプタ）と；キャッシュ、他のメモリ、データストレージ、および／または電子ディスプレイアダプタ、を含みうる周辺機器（１０２５）と、を含む。メモリ（１０１０）、記憶装置（１０１５）、インターフェース（１０２０）、および周辺機器（１０２５）は、マザーボードなどの通信バス（実線）を介してプロセッサ（１００５）と通信する。記憶装置（１０１５）は、データを保存するためのデータ記憶装置であってもよい。サーバー（１００１）は、通信インタフェース（１０２０）を用いてコンピュータネットワーク（「ネットワーク」）（１０３０）に作動可能に連結される。ネットワーク（１０３０）は、インターネット、イントラネット、および／または、エクストラネット、インターネットと通信しているイントラネットおよび／またはエクストラネット、遠距離通信、またはデータネットワークであってもよい。ネットワーク（１０３０）は、場合によっては、サーバー（１００１）を用いて、サーバー（１００１）に連結されたデバイスがクライアントまたはサーバーとして動作することを可能にしうるピアツーピアネットワークを実施することができる。

記憶装置（１０１５）は、被験体の報告、および／または世話人との通信、配列データ、個体に関するデータ、または本発明に関連するデータの任意の態様などのファイルを保存することができる。

サーバーは、ネットワーク（１０３０）を通じて１つ以上のリモートコンピュータシステムと通信することができる。１つ以上のリモートコンピュータシステムは、例えばパソコン、ラップトップ、タブレット、電話、スマートフォンまたは携帯情報端末であってもよい。

いくつかの状況では、システム（１０００）は単一のサーバー（１００１）を含んでいる。他の状況では、システムは、イントラネット、エクストラネットおよび／またはインターネットを介して互いに通信する複数のサーバーを含む。

サーバー（１００１）は、例えば、多型、突然変異、病歴、家族歴、人口統計データ、および／または潜在的に関連しうる他の情報などの、測定データ、被験体由来の患者情報を保存するように適合させることができる。このような情報は、記憶装置（１０１５）またはサーバー（１００１）上に保存することができ、このようなデータはネットワークを通じて送信することができる。

本明細書に使用されるように、核酸セグメントは、それらがフェーズ内にある場合、少なくとも部分的に単一のリード内にある場合に、「近接して」いる。

＜実施例＞
実施例１．いくつかのロングリードの配列決定アプローチは、二倍体ＤＮＡサンプルにおいていくつかの突然変異をフェーズできない
特定のヒト疾患の処置は、機能的な遺伝子産物の存在に依存する。この遺伝子産物がある状態では、治療的分子が代謝されて有効な代謝産物を産出する。遺伝子産物がない状態で、治療的分子は蓄積し、患者に有害となる。

患者のゲノムはショットガン配列決定され、２つの点突然変異が処置の有効性に必要な遺伝子産物をコードする遺伝子座にマッピングされることが判定される。２つの点突然変異は、アセンブルされたショットガン足場において３０ｋｂ離される。２つの点突然変異についてのフェーズ情報は利用不可能であり、したがって、実務者は、患者が野生型対立遺伝子および二重変異対立遺伝子を保有しているかどうか、または代替的に、患者が、一方は遺伝子座の５’末端に、もう１つは遺伝子座の３’末端にある２つの単一変異ヌル対立遺伝子を独立して保有しているかどうかを判定することができない。

ＤＮＡは患者から抽出され、サンプルはロングリード配列決定マシン上で配列決定される。平均的な単一のロングリードの限界は１０−１５ｋｂである。リードは、患者は、第１および第２の突然変異の両方についてヘテロ接合性であることを確認する。しかしながら、患者のゲノムにおける突然変異は３０ｋｂ離れていると仮定すると、生成された配列情報を使用してフェーズ情報を得ることができない。結果として、実務者は、患者が野生型対立遺伝子および二重変異ヌル対立遺伝子を保有しており、したがって治療的分子を用いた治療に適格であるかどうか、または、患者は２つの単一突然変異ヌル対立遺伝子を保有し、したがって治療的分子を代謝することができないかどうかを判定することができない。患者は処置を拒否され、症状に苦しみ続ける。

この実施例は、特に突然変異がホモ接合型ＤＮＡの長い伸長の分だけ離れている場合、ショットガンリードと組み合わせて使用される長距離配列決定アプローチは正確に段階的に突然変異を行わないことを実証する。さらに、この実施例は、フェーズ情報をゲノム配列に正確に割り当てることができないと、患者の健康に影響を及ぼすことを例証する。

実施例２．二倍体ＤＮＡサンプルにおける突然変異の成功したフェージング
実施例１の患者由来のＤＮＡを、本明細書に開示されるアプローチを使用してフェーズ解析に供する。

ＤＮＡは実施例１に記載の患者から抽出される。句切られた挿入シャッフル分子のライブラリーが、フェーズ情報が保存され、一方で配列セグメントの相対的な位置が再配列されるように生成される。

抽出されたＤＮＡは、再構成されたクロマチンへとインビトロでアセンブルされる。再構成されたクロマチンは、制限酵素ＭｂｏＩで切断される。結果として生じる粘着末端は、制限酵素に生成されたオーバーハングの再ライゲーションを防止するために、単一の塩基を用いて部分的に埋められる。消化されたＤＮＡサンプルのオーバーハングに部分的に埋められた５’末端および３’末端を有する句切りオリゴヌクレオチドを、ＤＮＡリガーゼとともにＤＮＡサンプルに添加する。オリゴヌクレオチドのコンカテマー化を回避するために、句切りオリゴヌクレオチドは、５’リン酸基を欠いている。このライゲーション工程は、もともとは互いに隣接していない末端がライゲーション後に互いに隣接するために、ＤＮＡセグメントの再編成をもたらす。このプロセス中にＤＮＡ分子が架橋され再構成されたクロマチン足場に結合するので、フェーズ情報は維持される。

完全なゲノム情報を、フェーズ判定とは無関係なショットガン配列工程を使用せずに得られるように、十分な配列情報が判定される。患者は、対象の遺伝子における第１および第２のヌル突然変異についてヘテロ接合性であると判定される。

さらに、２つの突然変異を含む第１および第２のＤＮＡセグメントがフェーズ情報の損失なしに再配列され、１５ｋｂ未満の配列がそれらを離しているようなライブラリー分子が観察される。再配列された領域にわたるリードが生成され、第１および第２のヌル突然変異を含むことがわかった。再配列されたＤＮＡサンプル中の第１および第２のＤＮＡセグメントが、１５ｋｂ未満離れているので、２つの突然変異は、両方とも単一の配列決定リードで検出されることができ、フェージング情報をもたらす。このフェージング情報は、患者が二重突然変異対立遺伝子を有することを判定するために使用される。異なる接合点を有するが、遺伝子座の第１および第２のヘテロ接合領域におよぶ第１および第２のセグメントも有する、第２のリードが観察される。再配列された分子における第１の領域および第２の領域は、両方とも野生型配列をコードすることが観察される。

フェーズを保存する再配列を含む追加の分子が配列決定される。追加の分子は、互いに関する様々な位置で句切り挿入物（ｐｕｎｃｔｕａｔｉｏｎｉｎｓｅｒｔｓ）を有することがわかった。再配列された分子のいずれも、単一のヌル突然変異および単一の野生型対立遺伝子を保有しない。代わりに、両方のヘテロ接合領域に及ぶ配列リードの全てが、両方の遺伝子座に野生型対立遺伝子を、または、両方の遺伝子座にヌル変異を含む。

患者のゲノムが二重変異ヌル対立遺伝子および野生型対立遺伝子を含むことが判定される。処置は効果的である可能性が高いと結論付けられる。患者は治療的分子を投与され、患者の状態は治療的分子の有益な活性によって緩和される。

この実施例は、本明細書に開示される方法および組成物が、単一鋳型ライブラリーからのデノボ配列の生成およびフェージングを同時に可能にすることを例示する。個別のショットガン配列決定ライブラリーおよびフェーズ判定ライブラリーは必要ではなく、それにより、実質的に配列決定のコストを低減する。

この実施例はまた、本明細書に開示される方法および組成物は、分子の大部分が同一であったとしても正確かつ重複して分子をフェージングさせ、および、ヘテロ接合位置は、使用される配列決定技術におけるリードの長さの２倍超である同一領域の分だけ離れていることを例示する。

実施例３．いくつかのロングリードの配列決定のアプローチはトランスポゾンが豊富な作物ＤＮＡサンプルのフェージングの失敗
トウモロコシゲノムのおよそ９０％がトランスポゾンなどの転移因子であると推測される。いくつかのトランスポゾンの反復の性質のために、対立遺伝子のフェージングは困難である。改良された収量および改良された栄養成分を有するトウモロコシ株を生産するために、トウモロコシ二重変異系統が望まれている。両方の突然変異が優勢であり、染色体の対向する末端に見出される。高収量のトウモロコシ株を高カロテノイドレベルのトウモロコシ株に交配させてヘテロ接合性の系統を産生させ、次いで自家交配させて分離子孫を生成する。

子孫のいくつかは収量の向上と栄養成分の増加を実証することが観察されている。プロジェクトの次の工程は、高収量かつ高栄養含有株の１つを、胴枯れ病耐性（ｂｌｉｇｈｔｒｅｓｉｓｔａｎｃｅ）を示す株と交配することである。胴枯れ病耐性突然変異は、高収量突然変異または改良された栄養含有量突然変異のいずれかと同じＤＮＡ分子に含まれている場合、効力を失うことが知られている。タイムリーかつ高価な下流配列決定および表現型決定実験を最小化するために、同じＤＮＡ分子上に高収量および高栄養含有量の突然変異を含む親株と胴枯れ病耐性株との交配を実施することが望ましい。

最初の交配由来の２つの親系統はほぼ同質遺伝子系統であり、そのゲノムの変異が最小になるように育種される。その結果、フェーズ判定を容易にするために利用できるマーカーはごくわずかしかない。配列決定のために数千の得られた苗からＤＮＡを抽出して、同じＤＮＡ分子上のフェーズ内の収量および栄養の突然変異を含むものを判定する。収量遺伝子およびカロテノイド遺伝子は、反復性の高度に保存された転移因子によって離されるため、かつ、これらの突然変異とは別の系統間にはほとんど変化がないので、ショートリードの配列決定マシンはフェージング情報を提供できない。収量遺伝子の突然変異およびカロテノイド遺伝子の突然変異は染色体の対向する末端で見出されるので、両方の突然変異はロングリードの配列決定技術による単一のロングリード上で検出することができない。その結果、何千もの実生のうちのいずれかが、単一の染色体のフェーズ内に高収量の突然変異と高栄養の突然変異との所望の組み合わせを有するかどうかは知られていない。プロジェクトは予算内にとどまることができないことがわかったため、プロジェクトは中止される。

実施例４．トランスポゾンが豊富な作物ＤＮＡサンプルのフェージングの成功
実施例３の実生のトウモロコシ由来のＤＮＡサンプルが抽出され、セグメントがシャッフルされたフェーズを保存する配列決定ライブラリーを生成するために修飾される。結果として生じる再配列されたＤＮＡ分子は、ロングリードの配列決定マシン上で配列決定される。１つ以上の句切りオリゴヌクレオチドによって離された、収量の突然変異の遺伝子座および栄養の突然変異の遺伝子座に及ぶ単一の配列リードが得られる。２つの良性変異が単一の分子上のフェーズ内にあることを示すリードが、実生のサンプルのうちのいくつかについて観察される。開発途上国で必要とされる増大した栄養をもたらす強力なトウモロコシ株を生産するために、確認されたフェーズ内の高収量および改善された栄養成分含有株の１つが選択され、胴枯れ病耐性株と交配される。

この実施例は、本明細書に開示される方法および組成物が、複数の反復因子を有する複雑なゲノムについてのフェーズ情報を判定するためにどのように使用されるかを実証する。この技術は、関連する作物種などの複雑なゲノムにおいても、正確で迅速なフェーズ判定を可能にする。

実施例５．判別不能なフェーズを備えた突然変異を妨げる核酸
二倍体生物は、遺伝物質の各染色体の２つのコピーを含む。少なくとも３０ｋｂの同一の配列の分だけ離れている２つの突然変異が、二倍体ゲノムの単一の染色体上に存在する。ＤＮＡサンプルを、平均リード長が１５ｋｂであるロングリードの配列決定マシンで配列決定する。２つの突然変異が同一または異なる核酸分子に含まれているかどうかを判定することは不可能である。

実施例６．核酸サンプルのフェーズ情報の判定
ＤＮＡを実施例５の生物から抽出する。ＤＮＡを、再構成されたクロマチンを生成するためにＤＮＡ結合タンパク質でインビトロでアセンブルする。再構成されたクロマチンは粘着末端を生産するために切断され、これは再ライゲーションを防止するために部分的に埋められる。部分的に埋められた粘着末端に適合する末端を有する句切りオリゴヌクレオチドを、ＤＮＡリガーゼと共にクロマチンサンプルに加える。いくつかの例では、オリゴヌクレオチドのコンカテマー化を回避するために、句切りオリゴヌクレオチドは、脱リン酸化されている。再ライゲートされたクロマチンサンプルのＤＮＡセグメントは、開始ＤＮＡサンプルと比較して再配列されるが、分子が句切りプロセスを通じてクロマチンタンパク質に結合されるのでフェーズ情報は維持される。いくつかの例では、ゲノム内の２つの突然変異は１５ｋｂ未満だけ離れるように再配列される。この場合、離れている距離は、ロングリード配列決定機器の平均のリード長未満である。再配列されたＤＮＡサンプルがクロマチンタンパク質から放たれ、配列決定される時、フェーズ情報が判定され、および、デノボ配列足場を生成するのに十分な配列情報が生成される。

実施例７．核酸サンプルのフェーズ情報の判定 − 平滑ライゲーション
ＤＮＡを実施例５の生物から抽出し、インビトロでＤＮＡ結合タンパク質を用いて再アセンブルして、再構成されたクロマチンを生成する。ＤＮＡを平滑末端を生産するために切断する。平滑末端を有する句切りオリゴヌクレオチドは、切断されたＤＮＡサンプルの平滑末端にライゲートされる。オリゴヌクレオチドのコンカテマー化を回避するために、句切りオリゴヌクレオチドは、脱リン酸化されている。実施例６でのように、再配列されたＤＮＡサンプルをクロマチンタンパク質から放ち、配列決定する。再配列されたＤＮＡサンプルがクロマチンタンパク質から放たれ、配列決定される時、フェーズ情報が判定され、および、デノボ配列足場を生成するのに十分な配列情報が生成される。

実施例８．句切り分子のバーコード化 − ショートリード
実施例６−７のいずれかで記述されるように、句切りオリゴヌクレオチドを含むＤＮＡサンプルが生成される。ＤＮＡ結合タンパク質からの放出後、句切られたＤＮＡ分子と呼ばれる自由ＤＮＡサンプルを少なくとも２つのセグメントを含むオリゴヌクレオチドに接触させる。１つのセグメントはバーコードを含み、第２のセグメントは句切り配列に補足的な配列を含む。句切り配列にアニーリングした後、バーコード化されたオリゴヌクレオチドをポリメラーゼで拡張して、同じＤＮＡ分子からのバーコード化された分子を産出する。これらのバーコード化された分子は、バーコード配列、句切り相補配列およびゲノムの配列を含む。拡張産物をショートリードの配列決定マシンで配列決定し、および、同じバーコードを有する配列リードを共通のフェーズへとグループ化することにより、フェーズ情報を判定する。

実施例９．句切り分子のバーコード化 − ロングリード
実施例８でのように、ＤＮＡサンプルを抽出し、句切り、バーコード化する。拡張後、バーコード化された産物を一緒にバルクライゲートして、ロングリード配列決定技術を用いて読み取られる長い分子を生成する。埋められたリードペアは、増幅アダプタおよび句切り配列を介して識別可能である。さらに詳しいフェーズ情報はリードペアのバーコード配列から得られる。

実施例１０．トランスポゾン句切りを用いたフェーズ情報の判定
実施例５のＤＮＡサンプルを抽出し、インビトロでＤＮＡ結合タンパク質を用いて再アセンブルして、再構成されたクロマチンを生成する。２つの結合していない句切りオリゴヌクレオチドに結合したトランスポサーゼをＤＮＡサンプルに加える。トランスポサーゼは露出したＤＮＡセグメントを切断し、ＤＮＡに２つの句切りオリゴヌクレオチドを挿入する。所与のトランスポサーゼの句切りオリゴヌクレオチドは結合されないため、この挿入は２つの自由ＤＮＡ末端を結果としてもたらし、各々が２つの句切りオリゴヌクレオチドのうちの１つによって終結し、かつ、各々が再構成されたクロマチンに繋ぎ止められてフェーズ情報を保存する。ＤＮＡリガーゼをサンプルに添加して、平滑ＤＮＡ末端を一緒に連結し、ＤＮＡセグメントの再配列をもたらすが、ＤＮＡ分子がこのプロセス全体を通じてクロマチンタンパク質に結合されるのでフェーズ情報は維持される。実施例６でのように、再配列されたＤＮＡサンプルをクロマチンタンパク質から放出し、配列決定して、フェーズ情報を判定する。

実施例１１．トランスポゾン句切りを用いたフェーズ情報の判定 − ショートリード
実施例１０に記載の通り、ＤＮＡサンプルを抽出し、再構成されたクロマチンへとインビトロで再アセンブルし、トランスポサーゼで句切った。平滑末端の再ライゲーションに続いて、再ライゲートされたＤＮＡセグメントを、制限消化によってタンパク質ＤＮＡ複合体から放出し、複数のペアエンドを結果としてもたらし、これらを続いて増幅アダプタにライゲートする。増幅に続いて、ペアエンドを短い範囲技術（ｓｈｏｒｔｒｅａｃｈｔｅｃｈｎｏｌｏｇｙ）で配列決定する。句切り接合部のいずれの側についても、句切りに隣接する配列は、共通の分子の共通のフェーズに由来すると確信的に結論付けられる。

実施例１２．トランスポゾン句切りを用いたフェーズ情報の決定 − ロングリード
実施例１０に記載の通り、ＤＮＡサンプルを抽出し、再構成されたクロマチンへとインビトロで再アセンブルし、トランスポサーゼで句切った。平滑末端の再ライゲーションに続いて、再ライゲートされたＤＮＡセグメントを、制限消化によってタンパク質ＤＮＡ複合体から放出し、複数のペアエンドを結果としてもたらし、これらを続いて増幅アダプタにライゲートする。増幅後、複数のペアエンドを一緒にバルクライゲートして、ロングリードの配列決定技術を用いて読み取られる長い分子を生成する。埋められたリードペアは、トランスポサーゼ句切り配列に隣接する天然のＤＮＡ配列を介して識別可能である。連鎖状の句切られた接合部は、長い配列デバイス上で読み取られ、かつ、複数の接合部についての配列情報が得られる。接合部は複数の異なる染色体にマッピングされることが分かる。しかしながら、句切り接合部のいずれの側についても、句切りに隣接する配列は、共通の分子の共通のフェーズに由来すると確信的に結論付けられる。

実施例１３．Ｃｈｉｃａｇｏペア（Ｃｈｉｃａｇｏｐａｉｒｓ）のコンカテマー生成
ＤＮＡサンプルを抽出し、インビトロでＤＮＡ結合タンパク質を用いて再アセンブルして、再構成されたクロマチンを生成する。ＤＮＡを粘着末端を生産するために切断する。粘着末端は、ビオチン化ヌクレオチドで埋められ、続いて、Ｃｈｉｃａｇｏペアと呼ばれるＤＮＡセグメントペアを生成するために、埋められた末端の平滑ライゲーションが行われる。これらの再シャッフルされた核酸は、クロマチンタンパク質から放出され、切断されストレプトアビジン結合ライゲーション接合部が単離される。増幅アダプタはＣｈｉｃａｇｏペアの自由端に加えられる。増幅に続いて、Ｃｈｉｃａｇｏペアは、ロングリードの配列技術を使用して読まれる長い分子を生成するために、一緒にバルクライゲートされる。埋められたリードペアは、増幅アダプタを介して識別可能である。ビオチン化塩基を導入するために使用される「埋め込みプロセス（ｆｉｌｌ−ｉｎｐｒｏｃｅｓｓ）」中で生成された配列反復も、フェーズ内配列内で接続する接合部を識別するために使用される。

ライゲートされたコンカテマーは、ロングリードの配列決定デバイスの単一のリードにおいて配列決定される。個々の接合部が連鎖状であるので、１回のリードで複数の接合部を配列決定することができる。

実施例１４．ヘアピンＤＮＡ分子のフェージング
実施例６、７、９、１０、または１２のいずれかで生成されたような、長い句切られたＤＮＡ分子が、一方の末端でヘアピンアダプターにライゲートされ、逆方向反復を有する自己アニーリング一本鎖分子を生じる。分子は配列決定酵素を介して供給され、逆方向反復の各側の全長配列が得られる。結果として生じた配列のリードは、それぞれがフェーズ情報を伝達する、複数の再配列されたセグメントを有する句切られたＤＮＡ分子の２ｘカバレッジに対応する。核酸サンプルのデノボ足場を独立して生成するために十分な配列が生成される。

実施例１５．環状化ＤＮＡ分子のフェージング
実施例６、７、９、１０、または１２のいずれかにおいて生成されたような長い、句切られたＤＮＡ分子が、所望の長さの二本鎖分子の集団を形成するために切断される。これらの分子は各末端で一本鎖アダプタにライゲートされる。成果は、両端のヘアピンループによってキャップされた二本鎖ＤＮＡ鋳型である。環状の分子は連続的な配列決定技術によって配列決定される。長い二重鎖セグメントを含む分子の連続的なロングリードの配列決定は、各分子の単一の近接しているリードをもたらす。短い二重鎖セグメントを含む分子の連続的な配列決定は、分子の複数のリードをもたらし、これは分子のコンセンサス配列を確認するために、単独で、または連続的なロングリード配列情報と共に、使用される。句切りオリゴでマークされたゲノムセグメント境界が識別され、句切り境界に隣接する配列がフェーズ内にあると結論付けられる。核酸サンプルのデノボ足場を独立して生成するために十分な配列が生成される。

実施例１６．複数の句切られたＤＮＡ分子を用いたフェージングされた配列アセンブリ
複数の句切られたＤＮＡ分子が、実施例６、７、９、１０、または１２のいずれかにおいて記載されたように生成され、続いて、ロングリードの配列決定技術を使用して配列決定される。複数の句切られたＤＮＡ分子からの配列を比較する。上記複数のＤＮＡ分子の２つの分子は共通する配列を共有しているが、独立して由来し、異なる句切りオリゴを有していることが観察される。第１の分子の所与の句切りオリゴについては、配列は句切りオリゴの各々の一方上で判定され、句切りオリゴのいずれかの側の配列セグメントは、共通の分子上でフェーズ内にあることが結論付けられる。しかしながら、フェーズ内セグメントの相対的な位置は明らかではない。

第１の句切られたＤＮＡ分子の１つのセグメントが、第２の句切られたＤＮＡ分子の配列と比較される。第１の分子の句切りオリゴの近くのセグメント末端が、第２の句切られたＤＮＡ分子のセグメントの内部にマッピングされることが分かる。第１の句切られたＤＮＡ分子の句切りオリゴを超えて整列する第２の句切られたオリゴのセグメントの配列は、第１の句切りＤＮＡ分子にマッピングされ、遠位のセグメントが同定される。ガイドとして第２のＤＮＡ分子セグメントを使用すると、第１の句切られたＤＮＡ分子の２つのセグメントが、元の核酸サンプルにおいて互いに隣接して位置づけられていたことが判定される。

すなわち、第１の句切られた分子は、その構成セグメントのフェーズ情報を判定するために使用され、一方で、第２の（および付加的な）句切られたＤＮＡ分子の句切られていない領域との比較を使用して、第１の句切られた分子のセグメントを順序付ける。このプロセスを相互に繰り返して、フェーズ情報および順序情報が、複数の句切りオリゴのそれぞれにおける大多数のセグメントについて判定される。

結果として生じたアセンブルされた配列は、再配列が起こる前のインプットＤＮＡ分子のフェージングされた配列であり、核酸サンプルのデノボなフェージングされたアセンブリを表す。

実施例１７．ロングリードの配列データでのショートリード配列決定データのフェージング
句切られたＤＮＡ分子が実施例６、７、９、１０、または１２のいずれかにおいて記述されたように生成され、続いて、ロングリードの配列決定技術を使用して配列決定される。平行して、インプットＤＮＡは標準的なショートリードのショットガン配列決定技術を使用して配列決定される。サンプルからのショットガン配列は、再配列されたＤＮＡ分子から生成されたロングリードのデータにマッピングされる。句切られた分子のフェージングされたゲノムの配列は、同時に生成されたショートリード配列決定から得られた配列決定データにマッピングされる。ショートリードのうちのいくつかはロングリードの生成された配列にマッピングされる。このオーバーラップは、短い配列のリードを、句切られたＤＮＡ分子の長い配列決定リードから生成されたゲノム配列と同じフェーズに割り当てることを可能にする。

実施例１８．核酸配列ライブラリー−ロングリード
複数の句切られたＤＮＡ分子が実施例６、７、９、１０、または１２のいずれかにおいて記述されたように生成し、続いて、ロングリードの配列決定技術を使用して配列決定した。句切られた分子をそれぞれ配列決定し、配列リードが分析する。配列リードは配列反応につき平均１０ｋｂである。少なくとも第１のセグメントの５００塩基および第２のセグメントの５００塩基を含む配列リードが識別され、句切りオリゴ配列によって接合される。第１および第２のセグメント配列は足場ゲノムにマッピングされ、少なくとも１００ｋｂ離れているコンティグにマッピングされるとわかる。

第１のコンティグおよび第２のコンティグはそれぞれ、単一のヘテロ接合の位置を含み、そのフェーズは足場においては判定されない。第１のコンティグのヘテロ接合の位置はロングリードの第１のセグメントにわたり、第２のコンティグのヘテロ接合の位置は、ロングリードの第２のセグメントの５００塩基にわたる。

リードは各々そのコンティグのそれぞれのヘテロ接合の領域にまたがる。リードセグメントの配列は、第１のコンティグの第１の対立遺伝子および第２のコンティグの第１の対立遺伝子がフェーズ内にあることを示す。第１および第２の核酸セグメントからの配列が単一の長い配列リード中で検出されるので、第１および第２の核酸セグメントがインプットＤＮＡサンプル中の同じＤＮＡ分子上に含まれることが判定される。

この実施例は、句切り分子からのロングリードが、ゲノム足場上で互いから離れて位置づけられるコンティグについてのフェーズ情報を提供することを示している。この実施例は、句切りオリゴに隣接する各セグメントのサイズは、正確なマッピングを容易にするのに十分に大きく、ヘテロ接合位置に及ぶ可能性を高めるので、マッピングが高い信頼度で行われることも示している。

実施例１９．核酸配列ライブラリー−ショートリード
実施例８または１１のいずれかに記載のように、複数のペアエンド分子が生成され、続いてロングリード配列決定技術を用いて配列決定される。ライブラリーについての平均のリード長は１ｋｂであると判定された。ペアエンド分子は、インプットＤＮＡ試料内でフェーズ内にあり、かつ１０ｋｂを超える距離ほど離している第１のＤＮＡセグメントおよび第２のＤＮＡセグメントを含む。配列リードはペアエンド分子から生成され、これらのうちのいくつかは、第１の核酸セグメントからの配列の少なくとも３００塩基、および第２の核酸セグメントからの配列の少なくとも３００塩基を含む。第１および第２の核酸セグメントからの配列が単一の配列リードにおいて検出されるので、第１および第２の核酸セグメントが、インプットＤＮＡサンプル中の同じＤＮＡ分子の上のフェーズ内にあることが判定される。

この実施例は、本明細書に教示されるような再配列され句切られた分子を使用すると、配列決定に使用される配列決定技術のリード長よりも長く核酸サンプル中で離れているＤＮＡセグメントについてのフェーズ情報を産出する配列ライブラリーを生成する、ということを示している。

実施例２０．核酸配列ライブラリー−同時フェージングされたＤＮＡアセンブリ
複数の配列リードが句切られたＤＮＡライブラリーから生成される。ライブラリーは、句切り事象のいずれかの側のセグメントが単一の分子上でフェーズ内にあると判定されるように、実施例１８または１９に記載されているとおりフェーズ情報を伝える。加えて、生成された配列リードは、インプットＤＮＡサンプルの核酸配列の少なくとも８０％を表す。配列リードはインプットＤＮＡサンプルの少なくとも８０％に及ぶデノボコンティグ情報を生成するために使用される。さらに、配列リードはフェーズ情報を判定するために使用され、これは、続いて、インプットＤＮＡサンプルのフェージングされた配列アセンブリを生成するために互いに関するコンティグを順序付けおよび方向付けるために使用される。

この実施例は、句切られたＤＮＡ分子がフェーズ情報を伝達し、場合によっては全核酸配列の実質的な部分を含む配列情報を含み、結果、デノボ配列アセンブリが同時に生成されるということを示す。

実施例２１．ＤＮＡ分子フェージング
少なくとも１００ｋｂの長さのすくなくともいくつかのＤＮＡ分子を含む高分子量（ＨＭＷ）のＤＮＡサンプルを抽出する。１００ｋｂのＤＮＡ分子のうちの１つは、標準的な配列決定技術の平均のリード長より長い距離だけ離れている第１のＤＮＡセグメントおよび第２のＤＮＡセグメントを含む。核酸サンプルは二倍体であるが、配列が同一の大きな領域を含み、フェーズ判定を複雑にしている。

確信的なフェーズ判定のためには、第１および第２のＤＮＡセグメントを単一の配列決定リード内で検出する必要がある。したがって、第１および第２のＤＮＡセグメントが標準的な配列決定技術の平均のリード長未満の距離だけ離れているように、第１および第２のＤＮＡセグメントの相対的位置は変更されなければならない。この再配列はフェーズ情報の損失をもたらしてはならない。この再配列は、本明細書に開示された方法によって、かつ、実施例６、７、または１０のいずれかに記載されたとおりに達成される。フェーズを維持する再配列のあいだ、開始ＨＭＷＤＮＡ分子の多くとも１０％が欠失する。すなわち、第１のセグメントおよび第２のセグメントは単に介在する配列の除去によってのみでは近接しない。もっと正確に言えば、セグメントは、介在する配列の大部分を除去すること無く互いに関して再配列される。配列決定に続いて、インプットＤＮＡ分子全体が保存されているため、生成された配列のリードを新規に生成されたコンティグをアセンブルし、順序付け、および方向付けるために使用して、ほとんど全てのインプットＤＮＡ分子が配列決定され、アセンブルされ、フェージングされる。

実施例２２．哺乳類細胞の培養の分析
哺乳類細胞の培養のサンプルは本明細書に記述された技術を使用して分析される。簡潔に言うと、哺乳動物細胞の細胞培養物を成長させる。細胞を架橋させ、架橋を停止させ、細胞ペレットを−２０℃で保存する。細胞をホモジナイズし、核を溶解緩衝液中に回収する。ホモジネート中の核をＳＰＲＩビーズに結合し、ＤｐｎＩＩ制限酵素を使用して消化する。末端をビオチン−１１−ｄＣＴＰなしで充填し、平滑末端をライゲートする。架橋結合を逆にし、ＤＮＡを配列決定のために回収し、浄化（ｃｌｅａｎｕｐ）し、調製する。配列決定は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＳＭＲＴのロングリードの配列決定を用いて実施する。場合によっては、ＤＮＡは、配列決定の前に、少なくとも約６ｋｂの長さの分子についてサイズの選択をすることができる。

ライゲーションが適切に行われることを確実にするために２つのサンプルを試験する。図７は、別々のサンプルにおける成功したライゲーションを示す結果の代表例である。各サンプルについて、ライゲーションは、実質的により高分子量の核酸へのシフトを導いたことが確認される。

図８では、このようなライブラリー生成プロセスの結果が見られる。１，０００，０００以上の循環的なコンセンサス配列（ＣＳＳ）のリードのうち、３００，０００のみがマッピングされない。１，５００，０００のマッピングされたセグメント（−ｑ１）および１，３５０，０００のマッピングされたセグメント（−ｑ２０）がある。１つのマッピングされたセグメントでのリードについては、ｎ＝５００，０００；２つのマッピングされたセグメントでのリードについては、ｎ＝１７５，０００；３つのマッピングされたセグメントでのリードについては、ｎ＝７５，０００；４つのマッピングされたセグメントでのリードについては、ｎ＝３０，０００；５つのマッピングされたセグメントについてのリードについては、ｎ＝１５，０００；６つのマッピングされたセグメントでのリードについては、ｎ＝７，０００；これは、セグメントが容易に同定され、および、ライブラリー生成プロトコルを配列決定することで、複数の再配列されたセグメントにわたるリードが生成されることを実証する。

表１は、示された数のマッピングセグメントを有するリードからのクローンカバレッジを示す。本明細書に示されるように、ライブラリー生成プロトコルは、２以上のマッピングセグメントを有するクローンの数によって示されるような貴重なフェージング情報をもたらしながら、全体のセグメント配列において実質的に全体のゲノムカバレッジをもたらす。多くのゲノムは反復配列を有しているために、一意的にマッピングされたセグメントの数は、再構成されたライブラリー成分の分子中のセグメントの総数の過小な見積となる。

図９Ａおよび図９Ｂは、１０ｋｂのビン（図９Ａ）および１Ｋｂのビン（図９Ｂ）へとソートされる、１サンプルにつきＸ個のマッピングされたセグメントでのリードが及ぶ距離の度数分布を示す。この図中のデータは、ゲノム配列情報（しばしば多型を含む）とフェーズ情報との両方を提供するために、本明細書に開示されるライブラリー生成プロトコルが、認識可能な接合部にライゲートされた一意にマッピングされる複数のセグメントを有するリードをもたらし、その結果、たとえ多形がサンプルのゲノム中で配列の長さより長い距離で生じ、ヘテロ接合性のマーカーを有さない配列によって離れていたとしても、これらの多型を互いに対してフェージングすることができる、という結論を再確認する。

Claims

第１のＤＮＡ分子から長距離フェーズ情報を生成する方法であって、
前記方法は、
ａ）第１のセグメントと第２のセグメントとを有する第１のＤＮＡ分子を提供する工程であって、第１のセグメントと第２のセグメントが第１のＤＮＡ分子上で隣接しない、工程と、
ｂ）第１のセグメントと第２のセグメントが、第１のＤＮＡ分子の共通のホスホジエステル骨格とは無関係にＤＮＡ結合部分に結合するように、ＤＮＡ結合部分に第１のＤＮＡ分子を接触させる工程と、
ｃ）第１のセグメントと第２のセグメントが共通のホスホジエステル骨格によって結合されないように、第１のＤＮＡ分子を切断する工程と、
ｄ）再アセンブルされた第１のＤＮＡ分子を形成するためにホスホジエステル結合によって第２のセグメントに第１のセグメントを取り付ける工程と、
ｅ）単一の配列決定リードの第１のセグメントと第２のセグメントとの間の接合部を含む再アセンブルされた第１のＤＮＡ分子の少なくとも４ｋｂの連続する配列を配列決定する工程を含み、
第１のセグメント配列と第２のセグメント配列が第１のＤＮＡ分子からの長距離フェーズ情報を表す、方法。
ＤＮＡ結合部分は複数のＤＮＡ結合分子を含む、請求項１に記載の方法。
複数のＤＮＡ結合部分へ第１のＤＮＡ分子を接触させる工程は、ＤＮＡ結合タンパク質の集団に接触させることを含む、請求項２に記載の方法。
ＤＮＡ結合タンパク質の集団は核タンパク質を含む、請求項３に記載の方法。
ＤＮＡ結合タンパク質の集団はヌクレオソームを含む、請求項３に記載の方法。
ＤＮＡ結合タンパク質の集団はヒストンを含む、請求項３に記載の方法。
複数のＤＮＡ結合部分へ第１のＤＮＡ分子を接触させる工程は、ＤＮＡ結合ナノ粒子の集団に接触させることを含む、請求項２に記載の方法。
第１のＤＮＡ分子は、第１のＤＮＡ分子上で第１のセグメントあるいは第２のセグメントに隣接していない第３のセグメントを有し、
（ｂ）の接触させる工程は、第３のセグメントが第１のＤＮＡ分子の共通のホスホジエステル骨格とは無関係に、ＤＮＡ結合部分に結合されるように行われ、
（ｃ）の切断する工程は、第３のセグメントが共通のホスホジエステル骨格によって第１のセグメントと第２のセグメントに結合されないように行われ、
取り付ける工程は、再アセンブルされた第１のＤＮＡ分子を形成するためにホスホジエステル結合によって第２のセグメントに第３のセグメントを取り付けることを含み、
（ｅ）の配列決定された連続する配列は、単一の配列決定リードの第２のセグメントと第３のセグメントとの間に接合部を含む、請求項１に記載の方法。
第１のＤＮＡ分子を架橋剤へ接触させる工程を含む、請求項１に記載の方法。
第１のＤＮＡ分子を架橋剤へ接触させる工程を含む、請求項１−７のいずれか１つに記載の方法。
架橋剤はホルムアルデヒドである、請求項９に記載の方法。
架橋剤はホルムアルデヒドである、請求項１０に記載の方法。
ＤＮＡ結合部分は、複数のＤＮＡ結合部分を含む表面に結合される、請求項１に記載の方法。
ＤＮＡ結合部分は、ビーズを含む固体のフレームワークに結合される、請求項１に記載の方法。
第１のＤＮＡ分子を切断する工程は、制限エンドヌクレアーゼに接触させることを含む、請求項１に記載の方法。
第１のＤＮＡ分子を切断する工程は、非特異的なエンドヌクレアーゼに接触させることを含む、請求項１に記載の方法。
第１のＤＮＡ分子を切断する工程は、タグメンテーション酵素に接触させることを含む、請求項１に記載の方法。
第１のＤＮＡ分子を切断する工程は、トランスポサーゼに接触させることを含む、請求項１に記載の方法。
第１のＤＮＡ分子を切断する工程は、第１の分子を剪断することを含む、請求項１に記載の方法。
少なくとも１つの露出した末端にタグを加える工程を含む、請求項１に記載の方法。
タグは標識された塩基を含む、請求項２０に記載の方法。
タグはメチル化された塩基を含む、請求項２０に記載の方法。
タグはビオチン化された塩基を含む、請求項２０に記載の方法。
タグはウリジンを含む、請求項２０に記載の方法。
タグは非標準の塩基を含む、請求項２０に記載の方法。
タグは平滑末端を有する露出した末端を生成する、請求項２０に記載の方法。
第１のセグメントの粘着末端のくぼんだ鎖に少なくとも１つの塩基を加える工程を含む、請求項１に記載の方法。
第１のセグメントの粘着末端にアニール化されるオーバーハングを含むリンカーオリゴを加える工程を含む、請求項１−２０のいずれか１つに記載の方法。
リンカーオリゴは、第１のセグメントの粘着末端にアニール化されるオーバーハングと、第２のセグメントの粘着末端にアニール化されるオーバーハングとを含む、請求項１−２０のいずれか１つに記載の方法。
リンカーオリゴは２つの５’リン酸塩部分を含まない、請求項１−２９のいずれか１つに記載の方法。
取り付ける工程はライゲートする工程を含む、請求項１に記載の方法。
取り付ける工程はＤＮＡ一本鎖ニック修復を含む、請求項１に記載の方法。
第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１０ｋｂ離される、請求項１に記載の方法。
第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１５ｋｂ離される、請求項１に記載の方法。
第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも３０ｋｂ離される、請求項１に記載の方法。
第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも５０ｋｂ離される、請求項１に記載の方法。
第１のセグメントと第２のセグメントは、第１のＤＮＡ分子を切断する前に、第１のＤＮＡ分子上で少なくとも１００ｋｂ離される、請求項１に記載の方法。
配列決定する工程は、単一分子のロングリード配列決定を含む、請求項１に記載の方法。
ロングリード配列決定は、少なくとも５ｋｂのリードを含む、請求項３８に記載の方法。
ロングリード配列決定は、少なくとも１０ｋｂのリードを含む、請求項３８に記載の方法。
第１の再アセンブルされたＤＮＡ分子は、第１のＤＮＡ分子の一方の末端で、５’末端〜３’末端を結合するヘアピン部分を含む、請求項１に記載の方法。
第１のＤＮＡ分子の第２の再アセンブルされたバージョンを配列決定する工程を含む、請求項１に記載の方法。
第１のセグメントと第２のセグメントは各々少なくとも５００ｂｐである、請求項１に記載の方法。
第１のセグメント、第２のセグメント、および第３のセグメントは、各々少なくとも５００ｂｐである、請求項２に記載の方法。