JP2018509928A

JP2018509928A - 環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法

Info

Publication number: JP2018509928A
Application number: JP2017551708A
Authority: JP
Inventors: ルアン，イジュン
Original assignee: Jackson Laboratory
Current assignee: Jackson Laboratory
Priority date: 2015-04-02
Filing date: 2016-04-01
Publication date: 2018-04-12
Also published as: CN107889508A; SG11201707909YA; HK1250171A1; WO2016161236A1; SG10201909182WA; AU2016242953A1; EP3277840A1; CA2980769A1; IL254713A0; KR20170133420A; US20180135120A1

Abstract

本発明は、本明細書において、単一のアッセイにおいて、一塩基多型（ＳＮＰ）；小さい挿入または欠失（インデル）；タンデム塩基突然変異（ＴＢＭ）；コピー数変異（ＣＮＶ）；構造変異（ＳＶ）；およびその組み合わせを含む、広範囲のゲノム変異の検出を可能にする包括的ゲノム分析のための方法および系を提供する。該方法は、場合によってトランスポザーゼでのタグメント化（tagmentation）によって、連結されたタグ配列とともにゲノムＤＮＡ断片を環状化し、ショットガン断片化によって断片化し、そしてメイトペア断片およびショットガン断片両方を配列決定し、そしてショットガンおよびメイトペア断片両方に基づいて、ゲノム変異を決定する工程を使用する。本発明を用いて、例えば自閉症スペクトラム障害（ＡＳＤ）、癌、アルツハイマー病、および他の神経学的障害などの疾患および状態における、根底の複雑なゲノム欠陥を分析することも可能である。【選択図】なし

Description

関連出願に対する言及
本国際特許出願は、２０１５年４月２日出願の米国仮特許出願第６２／１４２，０８８号の出願日の優先権を請求し、その全内容は、本明細書に援用される。

遺伝子変異は、ヒト集団において、単一ヌクレオチド置換から大規模な構造変異までのすべてのレベルで起こることが知られる。ゲノム変異の多くは、多様なヒト特質の正常な表現型変異に相当するが、ある変異は疾患に関連する。しかし、疾患関連遺伝子変異の検出および特徴付けは、技術的に困難なものであり、特に自閉症を含む複雑な疾患においては困難であった。

自閉症スペクトラム障害（ＡＳＤ）は、コミュニケーションおよび社会的相互作用における困難または欠陥によって特徴付けられる神経発生学的疾患である。ＣＤＣによれば、ＡＳＤ診断率は、２０００年の小児およそ１５０人に１人から、２０１４年の６８人に１人まで、急激に上昇している。診断基準は、行動および障害の重症度を含め、広い範囲の症状を含み、そして患者はしばしば、他の神経精神学的障害、例えばてんかんの診断も受ける。最近まで、ＡＳＤのほぼすべての症例に関して、根底にある疾患経路は不明であった。

最近の研究は、ＡＳＤおよび関連障害が、巨大染色体改変または単一ヌクレオチド変異体（ＳＮＶ）のいずれかの形を取る、デノボまたは稀な遺伝子変異と関連しうることを示してきている（CarterおよびScherer, Clin. Gen., 83:399-407, 2013; Jiangら, Am. J. Hum. Gen., 93:249-263, 2013; Pintoら, Am. J. Hum. Gen. 94:677-694, 2014; Rostiら, Dev. Med. and Child Neurol., 56:12-18, 2014）。現在の診断ツールには、患者ＤＮＡにおけるコピー数変異（ＣＮＶ）、染色体欠失および重複を同定するアレイ比較ゲノムハイブリダイゼーション（ａＣＧＨ）が含まれる。より最近、ＡＳＤに関連する約５０の異なる遺伝子において、特定の単一ヌクレオチド変異（ＳＮＶ）および小さい挿入および欠失（インデル）を同定するためのアッセイが開発されてきている（遺伝子パネル試験）。

しかし、ａＣＧＨおよび遺伝子パネル試験は、異なる、そして適合しない技術（例えばＤＮＡハイブリダイゼーション対ＤＮＡ配列決定）を別個に用いて実行する必要がある。さらに、現存する遺伝子パネル試験は、特定の遺伝子および関心対象の疾患または状態（例えばＡＳＤ）の間の既知のまたは潜在的な関連によって制限され、そして必ずしも関心対象の疾患または状態に対する既知のまたはまだ知られていない関連を持つすべての関連遺伝子において、こうした小さい突然変異を同定可能な、包括的でそしてバイアスがないアプローチには相当しない。

例えば、ＡＳＤおよび大頭症の小児は、ＰＴＥＮ遺伝子に突然変異を宿しうることが最近発見された。ＰＴＥＮにおける突然変異はまた、甲状腺、乳房および皮膚を含む多様なタイプの癌のリスクの劇的な増加も導く。したがって、ＰＴＥＮにおいて突然変異を所持すると同定された小児は、小児期初期に始まる癌スクリーニングを必要とし、これは、腫瘍の迅速な同定が、予後の改善に必須であるためである。他の自閉症リスク遺伝子、例えばＰＯＬＧにおける突然変異は、バルプロ酸などの薬剤による毒性に関するリスクに影響を及ぼす。実際、リスクがあるものの同定は、この集団において、不都合な反応を最小限にするために非常に重要である。

さらに、さらにより多くの遺伝子が、ＡＳＤに関連付けられてきているが、現在提供される遺伝子配列決定パネルには、いまだに取り込まれていない。例えば、ＫＣＮＱ２における突然変異（Jiangら、2013）は自閉症と関連付けられ、そして最終的には、将来の個別化治療の１つのターゲットとして働く可能性があることが示されたばかりであり、このことは、Ｋｖ７チャネルオープナーが最終的に、自閉症の将来の個別化治療の１つのターゲットとして働く可能性があることを示唆する（RundfeldtおよびNetzer、2000）。しかし、この遺伝子は、現在利用可能ないかなる遺伝子パネル試験上にもない。

ハイスループットＤＮＡ配列決定技術の最近の進歩は、ＡＳＤおよび他の患者に関する全ゲノム分析に適応可能である。ありうる戦略は、全ゲノムショットガンまたはエクソーム配列決定を行って、すべてのＳＮＰを同定し、そして長鎖断片対形成端タグ配列決定を行って、患者ゲノムのすべてのＳＶを同定することである。これらのアプローチの組み合わせは、すべての遺伝子変異を同定可能であろう。しかし、これは多数の実験および分析パイプラインを伴い、これは時間および供給源を消費するであろう。

理想的な戦略は、１つの患者試料から単一のＤＮＡライブラリーを構築し、そして１つのデータ分析パイプラインにおいて、単一の配列決定実行を行って、遺伝子ＳＮＰコール（現在遺伝子パネル配列決定によって行われる）、ＣＮＶ（現在ａＣＧＨによって行われる）およびＳＶ（現在巨大断片ＰＥＴ配列決定によって行われる）同定を行うことであろう。

CarterおよびScherer, Clin. Gen., 83:399-407, 2013 Jiangら, Am. J. Hum. Gen., 93:249-263, 2013 Pintoら, Am. J. Hum. Gen. 94:677-694, 2014 Rostiら, Dev. Med. and Child Neurol., 56:12-18, 2014 RundfeldtおよびNetzer、2000

したがって、ａＣＧＨまたは配列決定によってＣＮＶを同定する能力と、限定されたターゲティング化配列決定プラットホームの能力を、より効率的で（時間的にもコスト的にも）、そして包括的である、単一のアッセイに組み合わせた新規技術は、ＡＳＤ分子診断の新規標準治療になりうる。

本明細書記載の本発明の方法および試薬は、単一アッセイにおいて、宿主ゲノム（限定されるわけではないが、ヒトＡＳＤ患者を含む）における広範囲のゲノム変異の検出を可能にする、全ゲノム分析技術を提供する。

本発明の方法は、ＳＮＶ、マイクロインデル、ＣＮＶ、および他の大規模ゲノム構造変異（ＳＶ）、例えば反転、タンデム複製、トランスバージョンおよび転位置を含む、小さいおよび大きいゲノム変異を、すべて１つの一体化されたアッセイにおいて同定する。これらの大きいゲノム構造変異は、ａＣＧＨまたはターゲティング化配列決定パネルによっては同定不能であるが、これらは、労働集約的なさらに他の古典的細胞遺伝学的バンディング技術によって検出可能である可能性もある。

本明細書記載の本発明の臨床的有用性は、伝統的ａＣＧＨおよび遺伝子パネル試験を置換し、そしてＡＳＤ、癌、および任意の多くの遺伝性遺伝子障害などの遺伝的疾患の分子診断のための新規標準治療の出現を促進する潜在能力を有する。さらに、本発明の方法は、患者ならびに翻訳研究に対する有用性を有するであろう、はるかにより豊富なデータセットを生じる。

例えば、本発明の方法を用いて得られる臨床的および遺伝的データを用いて、リスクがある小児を同定し、臨床転帰を予測し、そしてＡＳＤおよび癌などの疾患および状態に対する新規療法措置を開発することも可能である。臨床的患者データ、ならびに本発明の方法から生じるデータはまた、電子および／またはオンラインデータベース中に保存可能であり、これらは、関連する臨床および遺伝子情報の、併合された、包括的で検索可能なレポジトリーとして働きうる。こうしたデータベースには、さらに、限定されるわけではないが、人口統計情報、患者および家族歴、併存症の存在、および異形性の特徴を含む関連する身体所見等を含む、患者のベースライン情報が含まれることも可能である。マイクロアレイおよび任意の他の遺伝的または代謝試験データの結果をまた、機能的および行動的評価、ならびに入手可能／適用可能であるならば、ＭＲＩおよびＥＥＧの結果とともに、データベースに付加することも可能である。ユニークな患者識別子を、マッチング基準として用いて、外部分析の結果を研究データベース内に含めることを可能にすることも可能である。

データベースのデータ管理は、ＨＩＰＡＡ遵守登録データベース、ならびに試料および関連品質管理（ＱＣ）データを追跡するClarity LIMS（Genologics、ブリティッシュコロンビア州バンクーバー）、ならびに自動化バイオインフォマティクスワークフローを立ち上げる能力によって容易になりうる。

したがって、１つの側面において、本発明は、生物のゲノムにおいて、ゲノム変異を検出するための方法であって：（１）生物のゲノムＤＮＡを断片化して、複数のゲノムＤＮＡ断片を生成し；（２）ゲノムＤＮＡ断片の末端にタグ配列をタグ付けし；（３）平滑端分子内連結を促進する条件下で、ゲノムＤＮＡ断片のタグ化末端を連結して、連結されたタグ配列を含む、複数の環状化ゲノムＤＮＡ断片を生成し；（４）ショットガン断片化によって、複数の環状ゲノムＤＮＡ断片を断片化して：（ａ）隣接ゲノムＤＮＡが隣接した、連結されたタグ配列を各々含む、複数のメイトペア（ＭＰ）断片；および、（ｂ）複数のショットガン（ＳＧ）断片を生成し；（５）ＭＰ断片およびＳＧ断片の配列を決定し；そして（６）ＳＧ断片の配列およびＭＰ断片の配列の両方に基づいて、生物ゲノムにおける前記ゲノム変異を同定する工程を含む、前記方法を提供する。

特定の態様において、ゲノム変異は：一塩基多型（ＳＮＰ）；小さい挿入または欠失（インデル）；タンデム塩基突然変異（ＴＢＭ）；コピー数変異（ＣＮＶ）；構造変異（ＳＶ）；およびその組み合わせの１またはそれより多くを含む。

特定の態様において、工程（１）および（２）を同時に行う。
特定の態様において、工程（１）および（２）をトランスポゾン仲介性タグメント化（tagmentation）によって達成する。例えば、トランスポゾン仲介性タグメント化をＴｎ５トランスポザーゼによって行う。

特定の態様において、複数のゲノムＤＮＡ断片を工程（３）の前にサイズ選択する。特定の態様において、約４〜１０ｋｂ、または約６〜８ｋｂのゲノムＤＮＡ断片をサイズ選択する。

特定の態様において、工程（４）〜（６）の前に、ＤＮＡエキソヌクレアーゼ消化によって、非環状化または直鎖ゲノムＤＮＡ断片を除去する。
特定の態様において、ＭＰ断片およびＳＧ断片の配列を、別個にまたは同時に決定する。

特定の態様において、ＳＧ断片は、約４００ｂｐ、４５０ｂｐ、または５００ｂｐの平均サイズを有する。特定の態様において、ＭＰ断片は、約４００ｂｐ、４５０ｂｐ、または５００ｂｐの平均サイズを有する。

特定の態様において、ＭＰ断片およびＳＧ断片を、工程（５）の前に互いに単離する。
特定の態様において、ＭＰ断片およびＳＧ断片を、工程（５）の前に互いに単離しない。

特定の態様において、工程（３）の前に、ゲノムＤＮＡ断片のタグ化端を修復して、平滑端連結を促進する。
特定の態様において、工程（６）が、生物のゲノム配列に対して、隣接ゲノムＤＮＡの配列およびショットガン断片の配列をマッピングする工程を含む。

特定の態様において、ゲノムＤＮＡの配列を、ハイスループット配列決定によって決定する。例えば、ハイスループット配列決定を：単一分子リアルタイム配列決定；イオン半導体（イオン流）配列決定；ピロ配列決定（４５４）；合成による配列決定（Illumina）；連結による配列決定（ＳＯＬｉＤ配列決定）；ポロニー配列決定；超並列シグネチャー配列決定（ＭＰＳＳ）；ＤＮＡナノボール配列決定；単一分子ナノ孔配列決定装置；およびＨｅｌｉｓｃｏｐｅ単一分子配列決定からなる群より選択することも可能である。

特定の態様において、ハイスループット配列決定は、隣接ゲノムＤＮＡおよび／またはショットガン断片に関して、３０倍、４０倍、５０倍、６０倍、７０倍、８０倍、９０倍、１００倍またはそれより多いカバレッジを生じる。

特定の態様において、生物は、ヒト、非ヒト霊長類、哺乳動物、齧歯類（ラット、マウス、ハムスター、ウサギ）、家畜動物（ウシ、ブタ、ウマ、ヒツジ、ヤギ）、鳥類（ニワトリ）、爬虫類、両生類（ゼノパス属（Xenopus））、魚類（ゼブラフィッシュ（Danio rerio）、フグ（Puffer fish））、昆虫（ショウジョウバエ属（Drosophila）、蚊）、線虫、寄生虫、真菌（酵母、例えばＳ．セレビシエ（S. cerevisae）またはＳ．ポンベ（S. pombe））、植物、細菌、またはウイルスである。

特定の態様において、生物は：自閉症（自閉症スペクトラム障害（ＡＳＤ））、癌、または遺伝性疾患からなる群より選択される疾患または状態を有するヒトである。
本明細書記載のいかなる態様も、実施例セクションにしか記載されないもの、または本発明の１つの側面のもとにしかないものを含めて、特に放棄されるかまたは別の意味で不適切でない限り、任意の１またはそれより多い他の態様と組み合わせることも可能である。

図１Ａおよび１Ｂは、本発明の方法を用いて、ＳＮＰおよび小さいインデルを検出した代表的な結果を示す。図１Ａおよび１Ｂは、本発明の方法を用いて、ＳＮＰおよび小さいインデルを検出した代表的な結果を示す。図２は、本発明の方法を用いて、患者試料Ｐ４６１０７において、ホモ接合性欠失（ＣＮＶ）を検出した代表的な結果を示す。図３は、本発明の方法を用いて、患者試料Ｐ４６１０７において、ヘテロ接合性欠失（ＣＮＶ）を検出した代表的な結果を示す。図４は、本発明の方法を用いて、反転および染色体内直接順方向挿入（どちらもＳＶ）の検出を例示する模式図を示す。図５は、本発明の方法を用いて、ＭＰ配列データのみにより、反転（ＳＶ）を検出した代表的な結果を示す。図６は、本発明の方法を用いて、染色体内転位置（ＳＶ）を検出した代表的な結果を示す。図７は、本発明の方法を用いて、染色体間転位置（ＳＶ）を検出した代表的な結果を示す。図８は、染色体１７上の複雑な領域におけるＳＶの検出を示す。図８は、染色体１７上の複雑な領域におけるＳＶの検出を示す。図８は、染色体１７上の複雑な領域におけるＳＶの検出を示す。

１．概説
本明細書に記載する本発明は、ユニークに生成されたゲノムＤＮＡライブラリーを配列決定することを通じて、患者由来の１つのＤＮＡ試料から、すべてのタイプの遺伝子変異を同定する、迅速でそして効率的な手段を提供する。

したがって、１つの側面において、本発明は、生物のゲノムにおいて、ゲノム変異を検出するための方法であって：（１）生物のゲノムＤＮＡを断片化して、複数のゲノムＤＮＡ断片を生成し；（２）ゲノムＤＮＡ断片の末端にタグ配列をタグ付けし；（３）平滑端分子内連結を促進する条件下で、ゲノムＤＮＡ断片のタグ化末端を連結して、連結されたタグ配列を含む、複数の環状化ゲノムＤＮＡ断片を生成し；（４）ショットガン断片化によって、複数の環状化ゲノムＤＮＡ断片を断片化して：（ａ）隣接ゲノムＤＮＡが隣接した、連結されたタグ配列を各々含む、複数のメイトペア（ＭＰ）断片；および、（ｂ）複数のショットガン（ＳＧ）断片を生成し；（５）ＭＰ断片およびＳＧ断片の配列を決定し；そして（６）ＳＧ断片の配列およびＭＰ断片の配列の両方に基づいて、生物ゲノムにおける前記ゲノム変異を同定する工程を含む、前記方法を提供する。

上に引用する工程は、上に列挙する正確な順序で実行する必要はないことに注目されたい。その代わり、例えば、工程（１）および（２）を、１つの工程において、同時に実行することも可能である。

本発明の方法を用いて、任意の生物、好ましくは、完全なまたは実質的に完全なゲノム配列を持つものにおいて、遺伝子変異を検出することが可能であり、これには、多数の古細菌または真正細菌、原生生物、真菌（例えばＳ．セレビシエまたはＳ．ポンベ）、植物、動物ゲノムが含まれる。例えば、ヒト、マウスならびに多くの他の哺乳動物および非哺乳動物種のゲノム配列が、現在、パブリックドメインにおいて容易に入手可能である。例えば、Venterら, “The Sequence of the Human Genome,” Science, 291(5507):1304-1351, 2001を参照されたい。他の限定されない既知のゲノムには、多くの非ヒト霊長類、哺乳動物、齧歯類（ラット、マウス、ハムスター、ウサギ）、家畜動物（ウシ、ブタ、ウマ、ヒツジ、ヤギ）、鳥類（ニワトリ）、爬虫類、両生類（ゼノパス属）、魚類（ゼブラフィッシュ、フグ）、昆虫（ショウジョウバエ属、蚊）、線虫、寄生虫、真菌（酵母、例えばＳ．セレビシエまたはＳ．ポンベ）、多様な植物、ウイルス（宿主ゲノム内に組み込まれているものなど）等のものが含まれる。

特定の態様において、生物は：自閉症（自閉症スペクトラム障害（ＡＳＤ））、癌、アルツハイマー病、他の神経学的障害、あるいは遺伝性疾患または状態からなる群より選択される疾患または状態を有するヒトである。

本発明の方法を用いて、限定されるわけではないが：一塩基多型（ＳＮＰ）；小さい挿入または欠失（インデル）；タンデム塩基突然変異（ＴＢＭ）；コピー数変異（ＣＮＶ）；構造変異（ＳＶ）；またはその組み合わせを含む、多数のタイプの遺伝子変異を検出することも可能である。これらの遺伝子変異は、伝統的に、異なる技術の１より多いタイプを用いて同定される必要があり、ほぼ一定して、患者由来の多数の試料、または異なる検出法の何回かの実行を支持するために十分な大量の試料を必要とする。

本明細書において、一塩基多型（ＳＮＰ）は、ゲノム（または他の共有される配列）中の単一ヌクレオチド、Ａ、Ｔ、Ｃ、またはＧが、生物学的種のメンバーまたは対形成染色体の間で異なる、集団内で一般的に生じるＤＮＡ配列変異を指す。

特定の態様において、ＳＮＰは、遺伝子の非コード領域（例えば転写エンハンサー、サプレッサー、プロモーター）中にある。別の態様において、ＳＮＰは、遺伝子のコード領域（例えばオープンリーディングフレーム）中にある。さらに別の態様において、ＳＮＰは、２つの隣接遺伝子間の遺伝子間領域中にある。特定の態様において、ＳＮＰはエクソン中にある。特定の態様において、ＳＮＰはイントロン中にある。特定の態様において、ＳＮＰはコード領域中にあり、そしてコードされるアミノ酸を変化させないサイレント突然変異に相当する（同義ＳＮＰ）。関連する態様において、ＳＮＰはコード領域中にあり、そしてミスセンスまたはナンセンス突然変異と関連する（非同義ＳＮＰ）。特定の態様において、ＳＮＰは、種の選択された集団（例えばヒトの特定の人種、民族群、宗教または信仰群、あるいは特定の地理的位置に限局された集団）中で起こる。特定の態様において、ＳＮＰは、特定の疾患または状態（例えば鎌形細胞貧血、βサラセミア、アルツハイマー病、癌、下顎骨異形成、早老症候群、または嚢胞性線維症）に関連付けられるか、あるいは疾患または状態に関する高いリスク要因の指標である。特定の態様において、ＳＮＰは、異なる薬剤の代謝と関連付けられる。特定の態様において、ＳＮＰは、タンパク質コード領域中にはなく、そして遺伝子スプライシング、転写因子結合、メッセンジャーＲＮＡ分解、または非コードＲＮＡ（ｎｃＲＮＡ）の配列に影響を及ぼす。ＳＮＰは、影響を受ける遺伝子の上流または下流であってもよい。特定の態様において、ＳＮＰは、２対立遺伝子性（biallelic）である。特定の態様において、ＳＮＰは、３またはそれより多いアレル変異を有する多対立遺伝子性（multi-allelic）である。特定の態様において、ＳＮＰは、ＮＣＢＩのｄｂＳＮＰ（２０１４年１０月には、１億１２００万を超えるヒトＳＮＰ）に列挙されるＳＮＰのいずれか１つである。特定の態様において、ＳＮＰは、所定の集団（例えば全ヒト集団、国内または地理的位置内のヒト集団、あるいは人種、民族群等）の５０％、４０％、３０％、２０％、１０％、５％、２％、１％、０．５％、０．２％、０．１％、０．０５％、０．０１％で生じる。

本明細書において、インデルは、生物のＤＮＡ中の塩基の挿入および／または欠失、特にわずか数塩基（例えば１、２、３、４、５、６、７、８、９、１０、２０、２５、３０、３５、４０、４５、５０等）の挿入および／または欠失を指す。特定の態様において、インデルはコード領域中のフレームシフト突然変異を生じない。特定の態様において、インデルは、フレームシフト突然変異または未成熟停止コドンを生成するか、あるいは天然停止コドンを除去する。

本明細書において、タンデム塩基突然変異（ＴＢＭ）は、隣接するヌクレオチドでの置換、例えば２つの隣接するヌクレオチドでの置換、または３つの隣接するヌクレオチドでの置換等を指す。

本明細書において、コピー数変異（ＣＮＶ）は、ＤＮＡの１またはそれより多いセクションのコピー数の、異常なまたは特定の遺伝子に関しては正常な変異を有する細胞を生じる、ゲノムのＤＮＡ中の構造変異の形を指す。ＣＮＶは、通常、特定の染色体上で、欠失されている（通常の数より少ない）または複製されている／多数倍にされている（例えば２の通常のコピー数より多い）ゲノムの比較的広い領域に対応する。特定の態様において、ＣＮＶは、遺伝子のコピー数を増加させる。別の態様において、ＣＮＶは、遺伝子のコピー数を減少させる。特定の態様において、ＣＮＶに関与するゲノム領域は、少なくとも約１ｋｂ、２ｋｂ、５ｋｂ、１０ｋｂ、２０ｋｂ、５０ｋｂ、１００ｋｂ、２００ｋｂ、５００ｋｂ、７５０ｋｂ、１ｍｂ、２ｍｂ、５ｍｂまたはそれより多い。特定の態様において、ＣＮＶは、遺伝される遺伝子欠陥である。別の態様において、ＣＮＶは個体においてデノボ生成される。特定の態様において、ＣＮＶは、蛍光ｉｎｓｉｔｕハイブリダイゼーション（ＦＩＳＨ）、比較ゲノムハイブリダイゼーション、アレイ比較ゲノムハイブリダイゼーション（ａＣＧＨ）などの細胞遺伝学的技術によって、そしてＳＮＰアレイでの実質的な核型決定によって、検出可能である。特定の態様において、ＣＮＶは単一遺伝子に影響を及ぼす。別の態様において、ＣＮＶは２またはそれより多い遺伝子に影響を及ぼす。特定の態様において、ＣＮＶは、疾患または状態（例えば癌、例えばＮＳＣＬ癌、ＳＬＥ、関節リウマチ、炎症性自己免疫障害、自閉症、統合失調症、または特発性学習障害）に対する感受性または耐性と関連付けられてきている。

本明細書において、構造変異（ＳＶ、またはゲノム構造変異）は、生物の染色体構造の変異を指す。広い意味では、ＳＶは、１つの種のゲノムにおける多くの種類の変異からなり、そして通常、顕微鏡的および超顕微鏡的タイプ、例えば欠失、複製（例えばタンデム複製）、コピー数変異体、挿入（例えば新規配列挿入および可動要素挿入（ＭＥＩ））、反転、非対反転、および転位置（例えば孤立型対平衡転位置）を含む。特定の態様において、ＳＶにはＣＮＶは含まれず、またはＳＶはコピー数中立である。特定の態様において、ＳＶには、反転、挿入（例えば染色体間直接挿入；染色体間反転挿入；染色体内直接順方向挿入；染色体内直接逆方向挿入；染色体内反転順方向挿入；染色体内反転逆方向挿入）、転位置、染色体再編成、環状染色体等、またはその組み合わせ（例えば欠失に加えて染色体内直接順方向挿入；欠失に加えて染色体内反転順方向挿入）が含まれる。

特定の態様において、ＳＶは、約１ｋｂ〜３Ｍｂの配列長に影響を及ぼし、これはＳＮＰより大きく、そして染色体異常より小さい。構造変異の定義が、頻度または表現型的影響に関しては何も暗示しないことに注目されたい。特定の態様において、構造変異は、遺伝的疾患または状態に関連する。他の態様において、構造変異は、いかなる既知の遺伝的疾患または状態とも関連付けられていない。特定の態様において、ＳＶは、光学顕微鏡で検出可能な顕微鏡的ＳＶ、例えば異数性、マーカー染色体、巨大再編成、および染色体数の変異である。特定の態様において、ＳＶは、反転、潜在性転位置、またはセグメント片親性二倍体（ＵＰＤ）である。特定の態様において、ＳＶは、ゲノムまたはバイオインフォマティクスデータベースに列挙される。

特定の態様において、ゲノム変異は、反復配列が豊富な領域中にあるか、その近傍にあるか、または該領域を含む。
特定の態様において、ターゲットＤＮＡは、細胞または生物の全ゲノムを含むかまたは全ゲノムからなる。いくつかの態様において、ターゲットＤＮＡは、環境試料中に存在する多数の生物（例えば同じ種の多数の生物、または生物の代表的なコレクション）由来のゲノムおよび／または二本鎖ｃＤＮＡを含むかまたはこれらからなる。いくつかの態様において、ターゲットＤＮＡは、生物の特定の組織または臓器（例えば疾患または障害に罹患したもの）由来のゲノムおよび／または二本鎖ｃＤＮＡを含むかまたはこれらからなる。

特定の態様において、方法の工程（１）および（２）は、別個に実行可能である。例えば、多くの伝統的な技術のいずれかを用いて、工程（１）において、ゲノムＤＮＡを断片化することも可能である。１つの態様において、物理的手段、例えば超音波剪断、超音波処理、または水力学的剪断によって、ＤＮＡ断片化を達成することも可能である。次いで、任意の望ましいタグ配列を、断片の末端に連結することも可能である。場合によって、まずＤＮＡポリメラーゼおよび／またはエキソヌクレアーゼを用いて、断片の末端を修復して、平滑端連結に適した平滑端を生成することも可能である。

本明細書において、「タグ」または「タグ配列」は、連結された核酸断片にアドレス付けする手段を提供する、非ターゲット核酸、一般的にはＤＮＡを指す。例えば、いくつかの態様において、タグは、タグが付着したＤＮＡの同定、認識および／または分子的または生化学的操作を可能にするヌクレオチド配列を含む（例えばオリゴヌクレオチド、例えばＤＮＡポリメラーゼによる伸長のためのプライマー、あるいは捕捉のためまたは連結反応のためのオリゴヌクレオチドをアニーリングさせる部位を提供することによって）。ＤＮＡ分子にタグを連結させるプロセスは、本明細書において、ときに、「タグ化」と称され、そしてタグ化を経るかまたはタグを含有するＤＮＡは、「タグ化された」と称される（例えば「タグ化されたＤＮＡ」）。

超音波剪断および超音波処理は、ＤＮＡを剪断するために用いられる主な物理的方法であり、そして商業的に入手可能な装置を用いて実行可能である。例えば、ＣＯＶＡＲＩＳ（登録商標）装置（マサチューセッツ州ウォバーン）は、ＤＮＡを１００ｂｐ〜５ｋｂサイズ範囲に断片化可能な超音波デバイスである。Ｃｏｖａｒｉｓはまた、対象のメイトペアライブラリーのため、試料を６〜２０ｋｂにプロセシングするために使用可能なチューブ（ｇＴｕｂｅ）も製造する。BIORUPTOR（登録商標）（ニュージャージー州デンビル）は、クロマチンおよびＤＮＡを剪断して、最長長さ１ｋｂのゲノム断片を産生するために適した超音波デバイスである。Digilab（マサチューセッツ州マールボロ）のHydroshearは、水力学的力を用いてＤＮＡを剪断する。ネブライザー（Life Tech、ニューヨーク州グランドアイランド）を用いて、圧縮空気を用い、液体を微粒化させて、ＤＮＡを数秒で１００ｂｐ〜３ｋｂ断片に剪断することも可能である。

特定の態様において、ゲノムＤＮＡ断片化を、酵素的手段、例えばＤＮアーゼまたは他の制限エンドヌクレアーゼまたは非特異的ヌクレアーゼによって、あるいはトランスポザーゼによって、達成する。ＤＮＡを小片に剪断する酵素的方法には、ＤＮアーゼＩ、マルトース結合タンパク質（ＭＢＰ）−Ｔ７エンドＩおよび非特異的ヌクレアーゼ、ビブリオ・バルニフィカス（Vibrio vulnificus）（Ｖｖｎ）の組み合わせ、ＮＥＢ（マサチューセッツ州イプスウィッチ）のフラグメンターゼおよびNexteraタグメント化技術（Illumina、カリフォルニア州サンディエゴ）が含まれる。非特異的ヌクレアーゼおよびＴ７エンドの組み合わせは、相乗的に作用して、非特異的ニックおよびカウンター・ニックを産生し、ニック部位から８ヌクレオチドまたはそれ未満を解離させる断片を生成する。

一方、タグメント化は、トランスポザーゼを用い、断片化すると同時に、トランスポゾン端、またはトランスファーされる鎖（例えばタグ配列またはアダプター）を含むトランスポゾン端組成物を、ｄｓＤＮＡ、例えばゲノムＤＮＡ上に挿入し、こうして、方法の工程（１）および（２）を単一工程で同時に実行する。例えば、ＷＯ２０１０−０４８６０５Ａ１（全内容が本明細書に援用される）を参照されたい。

本明細書において、「トランスポザーゼ」は、トランスポゾン端含有組成物（例えばトランスポゾン、トランスポゾン端、トランスポゾン端組成物）を含む機能的複合体を形成し、そしてトランスポゾン端含有組成物の、ｉｎｖｉｔｒｏ転位反応中でともにインキュベーションされている二本鎖ターゲットＤＮＡ内への挿入または転位を触媒することが可能な酵素である。

「トランスポゾン端」は、ｉｎｖｉｔｒｏ転位反応において機能性であるトランスポザーゼまたはインテグラーゼ酵素と複合体を形成するために必要なヌクレオチド配列（「トランスポゾン端配列」）のみを示す二本鎖ＤＮＡを指す。トランスポゾン端は、トランスポゾン端を認識しそして結合するトランスポザーゼまたはインテグラーゼと、「複合体」または「シナプス複合体」または「トランスポソーム複合体」または「トランスポソーム組成物」を形成し、そしてこの複合体は、トランスポゾン端を、ｉｎｖｉｔｒｏ転位反応中でともにインキュベーションされているターゲットＤＮＡ内に、挿入するかまたは転位させることが可能である。トランスポゾン端は、「トランスファーされるトランスポゾン端配列」または「トランスファー鎖」および「トランスファーされないトランスポゾン端配列」または「非トランスファー鎖」からなる２つの相補配列を示す。例えば、ｉｎｖｉｔｒｏ転位反応において活性である、高反応性Ｔｎ５トランスポザーゼ（例えばＥＺ−Ｔｎ５^ＴＭトランスポザーゼ、EPICENTRE Biotechnologies、米国ウィスコンシン州マディソン）と複合体を形成する１つのトランスポゾン端は、「トランスファーされるトランスポゾン端配列」（本明細書に援用されるＷＯ２０１００４８６０５の配列番号１を参照されたい）を示すトランスファー鎖、および「トランスファーされないトランスポゾン端配列」（例えば、本明細書に援用されるＷＯ２０１００４８６０５の配列番号２を参照されたい）を示す非トランスファー鎖を含む。

トランスファー鎖の３’端は、ｉｎｖｉｔｒｏ転位反応において、ターゲットＤＮＡに連結されるかまたはトランスファーされる。トランスファーされるトランスポゾン端配列に相補的であるトランスポゾン端配列を示す非トランスファー鎖は、ｉｎｖｉｔｒｏ転位反応において、ターゲットＤＮＡに連結されず、またトランスファーされない。

いくつかの態様において、トランスファー鎖および非トランスファー鎖は共有連結される。例えば、いくつかの態様において、トランスファーおよび非トランスファー鎖配列は、例えばヘアピン立体配置において、単一オリゴヌクレオチド上に提供される。こうしたものとして、非トランスファー鎖の未結合端は、転位反応によって、直接ターゲットＤＮＡに連結されることはないが、非トランスファー鎖は、間接的にＤＮＡ断片に付着するようになり、これは、非トランスファー鎖が、ヘアピン構造のループによって、トランスファー鎖に連結されているためである。

「トランスポゾン端組成物」は、トランスポゾン端（すなわちトランスポザーゼとともに作用して、転位反応を経ることが可能な最少二本鎖ＤＮＡセグメント）を、場合によって、トランスファーされるトランスポゾン端配列の５’および／またはトランスファーされないトランスポゾン端配列の３’の、さらなる単数または複数の配列とともに含む組成物を意味する。例えば、タグに付着したトランスポゾン端は、「トランスポゾン端組成物」である。いくつかの態様において、トランスポゾン端組成物は、「トランスファーされるトランスポゾン端オリゴヌクレオチド」または「トランスファー鎖」、および「トランスファーされない鎖端オリゴヌクレオチド」または「非トランスファー鎖」からなる２つのトランスポゾン端オリゴヌクレオチドを含むかまたはこれらからなり、これらは組み合わせて、トランスポゾン端の配列を示し、そしてこの中で、一方または両方の鎖はさらなる配列を含む。

用語「トランスファーされるトランスポゾン端オリゴヌクレオチド」および「トランスファー鎖」は交換可能に用いられ、そして「トランスポゾン端」および「トランスポゾン端組成物」両方のトランスファーされる部分を指し、すなわちトランスポゾン端がタグまたは他の部分に付着しているかどうかとは関わりがない。同様に、用語「トランスファーされないトランスポゾン端オリゴヌクレオチド」および「非トランスファー鎖」は、交換可能に用いられ、そして「トランスポゾン端」および「トランスポゾン端組成物」の両方の非トランスファー部分を指す。

いくつかの態様において、トランスポソームは、Ｔｎ５トランスポザーゼ、ＭｕＡトランスポザーゼ、Sleeping Beautyトランスポザーゼ、Marinerトランスポザーゼ、Ｔｎ７トランスポザーゼ、Ｔｎ１０トランスポザーゼ、Ｔｙ１トランスポザーゼ、およびＴｎ５５２トランスポザーゼより選択されるトランスポザーゼの野生型または高反応性突然変異体、および転位反応において活性である複合体をトランスポザーゼがともに形成するトランスポゾン端の複合体である。

いくつかの態様において、トランスポザーゼは、Ｍｕトランスポゾン端を含むトランスポゾン端を利用する、Ｍｕトランスポザーゼである（例えばＨＹＰＥＲＭＵ^ＴＭＭｕＡトランスポザーゼ、EPICENTRE Biotechnologies、ウィスコンシン州マディソン）。いくつかの態様において、トランスファー鎖の３’部分は、Ｍｕトランスポゾン端由来の配列を含み、そしてここで、トランスファー端の５’部分は、Ｍｕトランスポゾン由来ではない。

いくつかの態様において、トランスポザーゼは、Ｔｎ５トランスポゾン端を含むトランスポゾン端を利用する、Ｔｎ５トランスポザーゼである（例えば野生型または突然変異体Ｔｎ５トランスポザーゼ、例えばＥＺ−Ｔｎ５^ＴＭトランスポザーゼ、EPICENTRE Biotechnologies、ウィスコンシン州マディソン）。いくつかの態様において、トランスファー鎖の３’部分は、Ｔｎ５トランスポゾン端由来の配列を含み、そしてここで、トランスファー鎖の５’部分は、Ｔｎ５トランスポゾン由来ではない。

タグメント化は、ターゲットｄｓＤＮＡ（例えばゲノムＤＮＡ）が断片化されて複数のターゲットｄｓＤＮＡ断片、および複数のターゲットｄｓＤＮＡ断片各々の５’端に連結されたトランスポゾン端のトランスファー鎖またはトランスポゾン端組成物を生成するように、トランスポソームがランダムで小さい未結合ＤＮＡ鎖（トランスポゾン端または５’部分にタグドメインを有するトランスファーされる鎖を含むトランスポゾン端組成物）を挿入し、そして複数の５’タグ化ターゲットＤＮＡ断片を産生する事実を利用する修飾転位反応である。特定の態様において、方法は、５’タグ化ターゲットＤＮＡ断片と、核酸修飾酵素を、３’タグが５’タグ化ターゲットＤＮＡ断片の３’端に連結されて、二タグ化ターゲットＤＮＡ断片を生じるような条件下で、インキュベーションする工程をさらに含んでもよい。方法は、いかなる特定の核酸修飾酵素の使用にも限定されない。例えば、核酸修飾酵素は、ポリメラーゼ、ヌクレアーゼ、リガーゼ等を含むことも可能である。いくつかの態様において、核酸修飾酵素は、ＤＮＡポリメラーゼを含み、そして３’タグは、５’タグ化ターゲットＤＮＡ断片の３’の伸長によって形成される。

言い換えると、タグメント化は、ターゲットｄｓＤＮＡを有効に断片化する一方、同時に、例えばＰＣＲプライマー部位、配列決定プライマー部位、および／またはタグ化ゲノムＤＮＡの単離または精製を容易にしうる他の部分を含むことも可能な、タグ／アダプター／リンカー配列を付加する。

いくつかの態様において、タグ配列は、制限部位ドメイン、捕捉タグドメイン、配列決定タグドメイン、増幅タグドメイン、検出タグドメイン、アドレスタグドメイン、および／または転写プロモータードメインの１またはそれより多くを含む。

本明細書において、「捕捉タグドメイン」または「捕捉タグ」は、タグドメインが連結されたＤＮＡ断片の捕捉を容易にする目的のための配列を示すタグドメインを意味する（例えば、ビーズまたは他の表面上に、タグ化ＤＮＡ断片を捕捉するためのアニーリング部位またはアフィニティタグを提供するため、例えばここで、タグドメイン配列のアニーリング部位は、表面上にある特定の配列、例えばビーズ上またはマイクロチップまたはマイクロアレイ上の、あるいは配列決定ビーズ上のプローブにアニーリングすることによって、捕捉を可能にする）。いくつかの態様において、捕捉タグドメインは、アフィニティ結合分子を含むかまたは該分子からなる化学基または部分に連結された、トランスファー鎖の５’部分を含む（例えばここで、トランスファー鎖の５’部分は、第一のアフィニティ結合分子、例えばビオチン、ストレプトアビジン、抗原、または抗原に結合する抗体であって、第一のアフィニティ結合分子と特異的結合対を形成する第二のアフィニティ結合分子が付着した表面上へのタグ化ＤＮＡ断片の捕捉を可能にする、前記抗体に連結される）。

例えば、トランスポソームによって用いられるタグ配列は、ストレプトアビジンビーズを用いてタグ化ゲノム断片を単離可能であるように、ビオチン化連結アダプターを含むことも可能である。

本明細書において、「配列決定タグドメイン」または「配列決定タグ」は、タグが連結されたＤＮＡ断片の配列決定を容易にする目的のための配列を示すタグドメインを意味する（例えば、合成による配列決定のためのプライミング部位を提供するか、または連結による配列決定のためのアニーリング部位を提供するか、またはハイブリダイゼーションによる配列決定のためのアニーリング部位を提供する）。

いくつかの態様において、配列決定タグドメインは、Ｒｏｃｈｅ４５４Ａおよび４５４Ｂ配列決定タグ、ＩＬＬＵＭＩＮＡ^ＴＭＳＯＬＥＸＡ^ＴＭ配列決定タグ、Applied BiosystemsのＳＯＬＩＤ^ＴＭ配列決定タグ、Pacific BiosciencesのＳＭＲＴ^ＴＭ配列決定タグ、Pollonator Polony配列決定タグ、またはComplete Genomics配列決定タグより選択される配列決定タグを含むかまたはこれらからなる。

本明細書において、「増幅タグドメイン」は、前記タグが付加されている核酸の増幅を容易にする目的のための配列を示すタグドメインを意味する。例えば、いくつかの態様において、増幅タグドメインは、ＤＮＡポリメラーゼを用いた核酸増幅反応（例えばＰＣＲ増幅反応または鎖置換増幅反応、またはローリングサークル増幅反応）のためのプライミング部位、または核酸増幅反応（例えば連結連鎖反応）においてテンプレート依存性リガーゼを用いたプローブの連結のための連結テンプレートを提供する。

いくつかの態様において、方法は、１またはそれより多いタグ化ターゲットＤＮＡ断片および／または二タグ化ターゲットＤＮＡ断片を増幅する工程をさらに含む。いくつかの態様において、増幅は、ＰＣＲ増幅反応、鎖置換増幅反応、ローリングサークル増幅反応、リガーゼ連鎖反応、転写仲介増幅反応、またはループ仲介増幅反応の１またはそれより多くの使用を含む。特定の態様において、増幅は、ＤＮＡ断片ライブラリーのタグ化ターゲットＤＮＡ断片またはＤＮＡ断片ライブラリーの二タグ化ターゲットＤＮＡ断片を非選択的に増幅する工程を含む。

本明細書において、「アドレスタグドメイン」または「アドレスタグ」は、特定の試料の同定を可能にする配列を示すタグドメインを意味する（例えばトランスファー鎖は、各試料に関して異なる配列を示す異なるアドレスタグドメインを有する）。

各々、ＰＣＲ／配列決定部位を含む２つの小さい未結合ＤＮＡ端の一方を所持する２つのトランスポソームを等モル比で混合してもよい。すなわち、いくつかの態様において、方法は、ターゲットＤＮＡを、第一のトランスポザーゼおよび第一のトランスポゾン端オリゴヌクレオチド、ならびに第二のトランスポザーゼおよび第二のトランスポゾン端オリゴヌクレオチドの両方と、同じ反応混合物中で同時にインキュベーションする工程を含む。いくつかの他の態様において、ターゲットＤＮＡを第一のトランスポザーゼおよび第一のトランスポゾン端オリゴヌクレオチドとまずインキュベーションし、そして次いで、反応由来の産物を、第二のトランスポザーゼおよび第二のトランスポゾン端オリゴヌクレオチドとインキュベーションすることによって、方法を連続的に行う。方法を連続的に行う態様のいくつかにおいて、ターゲットＤＮＡと第一のトランスポザーゼおよび第一のトランスポゾン端オリゴヌクレオチドの反応由来の産物を、第二のトランスポザーゼおよび第二のトランスポゾン端オリゴヌクレオチドでの産物とインキュベーションする前に、精製する。

いくつかの態様において、断片またはライブラリーをタグ化する際に用いるトランスポゾン端組成物は、核酸配列が少なくとも１ヌクレオチド異なる複数のトランスファー鎖を含み、そして増幅は、５’端タグまたはタグドメインの核酸配列に基づいて、二タグ化ＤＮＡ断片を選択的に増幅する工程を含む。他の態様において、増幅は、二タグ化ターゲットＤＮＡ断片の３’タグに相補的な単一オリゴヌクレオチドプライマーを用いたＰＣＲを含む。

いくつかの態様において、増幅は、単一オリゴヌクレオチドプライマーを用いた鎖置換増幅反応を含み、この中で、オリゴヌクレオチドプライマーは、リボヌクレオチドのみからなるか、またはプリンリボヌクレオチドのみおよびピリミジン２’−Ｆ−２’−デオキシリボヌクレオチドのみからなり、そして鎖置換増幅反応は、鎖置換ＤＮＡポリメラーゼおよびリボヌクレアーゼＨを含む。

いくつかの態様において、増幅は、各々３’端部分を含む第一および第二のオリゴヌクレオチドプライマーを用いたポリメラーゼ連鎖反応を含み、ここで、第一のＰＣＲプライマーの少なくとも３’端部分は、二タグ化ターゲットＤＮＡ断片の３’タグに相補的であり、そして第二のＰＣＲプライマーの少なくとも３’端部分は、二タグ化ターゲットＤＮＡ断片の５’タグまたはタグドメインの少なくとも部分の配列を示す。特定の態様において、第一または第二のオリゴヌクレオチドプライマーは、５’端部分を含み、ここで第一のプライマーの少なくとも５’端部分は、二タグ化ターゲットＤＮＡ断片の３’タグに相補的ではなく、または第二のプライマーの５’部分は、二タグ化ターゲットＤＮＡ断片の５’タグまたはタグドメインの少なくとも部分の配列を示さない。特定の態様において、第一および第二のオリゴヌクレオチドプライマーは、各々５’端部分を含み、ここで、第一のＰＣＲプライマーの少なくとも５’端部分は、二タグ化ターゲットＤＮＡ断片の３’タグに相補的ではなく、そして／または第二のＰＣＲプライマーの５’端部分は、二タグ化ターゲットＤＮＡ断片の５’タグドメインの少なくとも部分の配列を示さない。

いくつかの態様において、本発明の断片およびライブラリーを増幅することが有用である。したがって、いくつかの態様において、増幅は、各々、タグ化ＤＮＡ断片または二タグ化ＤＮＡ断片のトランスファー鎖の１つの配列の少なくとも部分に相補的な３’端部分を含む、第一および第二のオリゴヌクレオチドプライマーを用いたポリメラーゼ連鎖反応を含む。

各トランスポソームは、１回のタグメント化しか可能ではないため、断片の平均サイズは、主に、トランスポソームに対するインプットゲノムＤＮＡの比によって決定される。
したがって、特定の態様において、インプットゲノムＤＮＡの量は、例えば、試料中のｄｓＤＮＡの量を特異的に定量化する方法、あるいは試料中の混入ＲＮＡ、ｓｓＤＮＡ、または分解されたＤＮＡの検出を回避する方法を用いることによって、正確に決定される。商業的産物、例えばＱＵＢＩＴ（登録商標）アッセイ（Life Technologies、Thermo Fisher Scientific, Inc．）をこの目的のために用いてもよく、そして結果をＱＵＢＩＴ（登録商標）蛍光測定装置で読み取ってもよい。

特定の態様において、タグメント化ゲノムＤＮＡの平均サイズは約４、５、６、７、８、９、１０、１１、１２、１３、１４、または１５ｋｂである。特定の態様において、タグメント化ゲノムＤＮＡの平均サイズは、約４〜１０ｋｂ、または約６〜８ｋｂである。

特定の態様において、断片化およびタグ化ＤＮＡ断片の末端は、一本鎖領域を有し、これは好ましくは、次の工程の前に充填されるかまたは修復される。すなわち、特定の態様において、工程（３）の前に、ゲノムＤＮＡ断片のタグ化端を修復して、平滑端連結を促進する。これは、トランスポソーム仲介タグメント化を用いて生成される断片に関しては必要である可能性があり、これは、タグメント化工程が、タグメント化ＤＮＡ中に短い一本鎖配列ギャップを残すためである。こうした態様において、ポリメラーゼ仲介鎖置換反応を用いて、タグメント化工程によって生成されたギャップを充填して、すべての断片が平坦であることを確実にすることも可能である。

いくつかの態様において、充填および連結工程は、タグ化ＤＮＡ断片と１またはそれより多いサイズのランダム配列オリゴヌクレオチドおよびテンプレート依存性リガーゼを、ランダム配列オリゴヌクレオチドがアニーリングし、そして一本鎖ギャップを充填し、そして互いにまたはタグ化ＤＮＡ断片の隣接端と連結される条件下で、インキュベーションする工程を含む。

特定の態様において、断片化またはタグメント化ＤＮＡを、工程（３）の前にサイズ選択する。特定の態様において、１つのあらかじめ決定されたサイズの断片化またはタグメント化ＤＮＡを、続く工程、例えばサイズ選択したＤＮＡの環状化において使用するために、サイズ選択する。特定の態様において、断片化またはタグメント化ＤＮＡの２またはそれより多い異なるあらかじめ決定されたサイズをサイズ選択し、選択されたＤＮＡの各サイズを環状化し、そしてともに、さらなるショットガン断片化工程に用いる。１より多いサイズを選択する場合、各サイズは、例えば末端タグ化ゲノムＤＮＡ断片を生成するために用いた異なるタグ配列を通じて、他のものから区別することも可能である。

当該技術分野に認識される多くの方法のいずれを、ＤＮＡサイズ選択に用いてもよい。１つの態様において、サイズ選択を、ＰＥＧ（ポリエチレングリコール）仲介ＤＮＡ沈殿によって行う。例えば、LisおよびSchleif, “Size Fractionation of Double-Stranded DNA by Precipitation with Polyethylene Glycol,” Nuc. Acid Res., 2(3):383-389(1975)を参照されたい。全内容は本明細書に援用される。特に、より低いＰＥＧ濃度では、大きなｄｓＤＮＡは、より小さいｄｓＤＮＡ（例えば＜１５００ｂｐのもの）よりもよりよく沈殿する。この方法を用いて、約１５０ｂｐ〜５０ｋｂのサイズ範囲のＤＮＡに関して、サイズ分画が達成可能であると報告された。特定の態様において、ＰＥＧ仲介サイズ選択は、ＰＥＧ濃度、ＤＮＡ濃度、ＮａＣｌ濃度、ｐＨ、二価イオン、沈殿時間、および／または遠心力を変化させることによって、制御される。

ＰＥＧ沈殿に基づくサイズ選択を容易にするため、商業的製品が容易に入手可能であり、例えばAgencourt AMPure XPビーズ（ＢＤ、例えば製品番号Ａ６３８８０を参照されたい）またはSPRIselectビーズ（ＢＤ、例えば製品番号Ｂ２３３１７を参照されたい）がある。より大きいＤＮＡ断片は、これらのビーズに結合される一方、より小さい断片（例えば＜１５００ｂｐのもの）は溶液中に留まり、そして容易に除去される。

別の態様において、アガロースゲル電気泳動によってサイズ選択を行う。例えば、Pippin DNAサイズ選択系（Sage Science）は、ＤＮＡ試料の明記されるサイズ範囲を選択可能な、自動化調製用アガロースゲル電気泳動系である。製造者によれば、ＢＬＵＥＰＩＰＰＩＮ^ＴＭ系を用いて、９０ｂｐ〜５０ｋｂの間の範囲の、狭い分布サイズ内のＤＮＡを収集することが可能である。同様に、ＰＩＰＰＩＮＰＲＥＰ^ＴＭ系を用いて、９０ｂｐ〜８ｋｂのＤＮＡ断片を収集することが可能である。特定の態様において、ＢＬＵＥＰＩＰＰＩＮ^ＴＭ型系において、約０．７５％アガロースを用いて、１〜５０ｋｂ、例えば６〜８ｋｂまたは４〜１０ｋｂの間の平均サイズのＤＮＡ断片がサイズ選択される。特定の態様において、ＰＩＰＰＩＮＰＲＥＰ^ＴＭ型系を用いて、約０．７５％アガロースを用いて、２〜８ｋｂの間の平均サイズのＤＮＡ断片がサイズ選択される。特定の態様において、収集されるＤＮＡは、±３ｋｂ、２ｋｂ、１ｋｂ、または０．５ｋｂの狭い分布範囲を有する。

特定の態様において、Pippin DNAサイズ選択系を伴わずに標準アガロースゲル電気泳動を用いることもまた可能であり、これには特に、１回の実行からいくつかのサイズ範囲を選択しようとする際に使用可能である。当該技術分野に認識される任意の方法を用いて、サイズ選択ＤＮＡ断片をゲルから回収するかまたは精製することも可能である。１つの態様において、スピンカラムに基づくＤＮＡ回収試薬、例えば商業的に入手可能なＺＹＭＯＣＬＥＡＮ^ＴＭ巨大断片ＤＮＡ回収キット（Zymo Research）によって、ＤＮＡを回収する。

特定の態様において、１またはそれより多い上述のサイズ選択法を組み合わせて用いてもよく、例えばＰＥＧ沈殿に基づくサイズ選択、その後、アガロースゲル電気泳動に基づくサイズ選択を行ってもよい。

好ましくはあらかじめ決定されたサイズ範囲内の、タグ化ＤＮＡ断片を得たら、断片の末端を、平滑端分子内連結を促進するかまたは支持する条件下で連結して、複数の環状化ゲノムＤＮＡ断片を生成する。特定の態様において、条件は、比較的大きい体積および低い濃度、例えば６〜８ｋｂのサイズ選択ＤＮＡの０．０５〜０．２ｎｇ／μＬ（例えば約０．１ｎｇ／μＬ）、または１．５〜３ｎｇ／μＬ（例えば約２ｎｇ／μＬ）で、ＤＮＡ断片を連結することを含む。連結を、ＤＮＡリガーゼの最適温度（例えば３０℃）で一晩（例えば１２〜１６時間）行ってもよい。

いくつかの態様において、方法は、タグ化環状ＤＮＡ断片を、直鎖ＤＮＡ、非連結ランダム配列オリゴヌクレオチド、および／またはターゲットＤＮＡに連結されていないトランスポゾン端組成物から分離する工程をさらに含む。

特定の態様において、非連結直鎖ＤＮＡをＤＮＡエキソヌクレアーゼによって除去する。例えば、いくつかの態様において、タグ化環状ＤＮＡ断片を含有する反応混合物を、Ｔ５エキソヌクレアーゼで処理して、直鎖ＤＮＡ、例えば非連結断片およびランダム配列オリゴヌクレオチドを除去する。

特定の態様において、環状化ゲノムＤＮＡ断片を、ショットガン断片化によって、再び断片化して、複数のより小さい断片を生成し、これは一般的に、配列決定に適したサイズ範囲にある。例えば、任意の当該技術分野に認識される配列決定法、例えば多くの次世代配列決定（ＮＧＳ）法の１つのために、約３００〜１０００ｂｐ（例えば４００、４５０、または５００ｂｐ）の断片を生成することも可能である。

ショットガン断片化のため、同じ超音波剪断および超音波法を用いてもよい。例えば、ＣＯＶＡＲＩＳ（登録商標）装置（マサチューセッツ州ウォバーン）を用いて、約３００〜１０００ｂｐ（例えば４００、４５０、または５００ｂｐ）のＤＮＡ断片を生成してもよい。あるいは、別の態様において、ネブライザーを用いたショットガン断片化を行って、約３００〜１０００ｂｐの断片を産生する。

特定の態様において、ゲノムＤＮＡを断片化し、そしてトランスポソーム仲介タグメント化を用いてタグ化し、そしてタグメント化に用いるタグ配列は、タグ配列の単離または精製を容易にしうる部分を含む。例えば、タグ配列は、ビオチン化連結アダプターであってもよく、これをＳＡビーズによって単離してもよい。ＳＡビーズに付着した断片は、メイトペア（ＭＰ）断片ライブラリーを形成し、この中で、短いゲノムＤＮＡ断片は、少なくとも１つの（通常両方の）タグ配列を含有する。すなわち、短いゲノムＤＮＡ断片の大部分は、ゲノム中では何ｋｂも離れている（メイトペアライブラリーの平均サイズに応じる）２つのゲノムＤＮＡ断片が隣接した、２つの連結された結合アダプター（タグ配列）である。当該技術分野に認識される配列決定法、例えば、以下に記載する多くのＮＧＳ法の１つを用いて、ＭＰ断片ライブラリー中の個々の断片の配列を決定して、ＭＰ断片配列決定データを生じることも可能である。

ショットガン断片化によって生成され、そしてＳＡビーズに結合されていない断片を、廃棄する代わりに、やはり収集して、そして同様に、例えばＮＧＳによって配列決定して、ショットガン断片配列決定データを産生することも可能である。タグ配列を含まないこうした断片もまた、ショットガン（ＳＧ）断片と称される。特定の態様において、ＳＧ断片にはまた、部分的タグ配列を、通常こうした断片の一方の端に有する断片も含まれる。

特定の態様において、ＭＰ断片およびＳＧ断片を、さらなる処理の前に分離する。ここでＭＰ断片中にのみ存在しＳＧ断片には存在しない、タグ配列中の任意のアフィニティタグを用いて、分離を達成することも可能である。

他の態様において、ＭＰ断片およびＳＧ断片を、ともに配列決定することを含めて、ともにプロセシングする。ＭＰ断片からの配列決定データは、ＭＰ断片中のタグ配列の存在（対不在）によって、ＳＧ断片のものから区別可能である。この態様において、ＭＰ断片およびＳＧ断片の分離を容易にするタグ配列を用いる必要はない。

ＭＰおよびＳＧ断片はどちらも、平滑端を生成するため、ショットガン断片化の結果である、５’または３’オーバーハングを充填するかまたは除去することによって、場合によって修復可能である。例えば、３’から５’エキソヌクレアーゼ活性を用いて、３’オーバーハングを除去してもよく、そしてポリメラーゼ活性は５’オーバーハングを充填可能である。

特定の態様において、単一アデニンヌクレオチドを平滑断片の３’端に付加して、これらが、さらなるアダプター連結反応中に、互いに連結されることを防止する。アダプターの３’端上の、対応する単一チミジンヌクレオチドが、断片へのアダプターの連結のための相補的オーバーハングを提供する。この戦略は、低率のキメラ（連鎖状テンプレート）形成を確実にする。

特定の態様において、アダプター連結を実行して、任意の望ましいアダプターをＤＮＡ断片の平滑端に連結して、例えば将来のＰＣＲ増幅に備える。
ＳＧおよびＭＰＤＮＡ断片を、ＤＮＡ配列決定法（例えばＮＧＳ）または配列決定前の増幅反応におけるテンプレートとして用いてもよい。いくつかの態様において、本発明の方法は、例えばＰＣＲ増幅反応、鎖置換増幅反応、ローリングサークル増幅反応、リガーゼ連鎖反応、転写仲介増幅反応、またはループ仲介増幅反応の１またはそれより多くを用いることによって、ＭＰ／ＳＧＤＮＡ断片を増幅する工程を含む。いくつかの態様において、増幅は、各々、３’端部分を含む、第一および第二のオリゴヌクレオチドプライマーを用いたポリメラーゼ連鎖反応を含み、ここで、第一のＰＣＲプライマーの少なくとも３’端部分は、タグドメインの少なくとも部分に相補的であり、そして第二のＰＣＲプライマーの少なくとも３’端部分は、タグドメインの少なくとも部分の配列を示す。いくつかの態様において、第一および第二のオリゴヌクレオチドプライマーは、各々、５’端部分を含み、ここで第一のＰＣＲプライマーの５’端部分は、タグ配列に相補的ではなく、そして第二のＰＣＲプライマーの５’端部分は、タグドメインの配列を示さない。

上述の任意のＰＣＲ増幅の好ましい態様は、第一および／または第二のＰＣＲプライマーの５’端部分がタグドメインを示す増幅を含む。さらにさらなる態様において、タグドメインは、制限部位ドメイン、捕捉タグドメイン、配列決定タグドメイン、増幅タグドメイン、検出タグドメイン、アドレスタグドメイン、および転写プロモータードメインの１またはそれより多くを含む。

いくつかの態様において、タグドメインは、Ｒｏｃｈｅ４５４Ａおよび４５４Ｂ配列決定タグ、ＩＬＬＵＭＩＮＡ^ＴＭＳＯＬＥＸＡ^ＴＭ配列決定タグ、Applied BiosystemsのＳＯＬＩＤ^ＴＭ配列決定タグ、Pacific BioscienceｓのＳＭＲＴ^ＴＭ配列決定タグ、Pollonator Polony配列決定タグ、またはComplete Genomics配列決定タグより選択される配列決定タグを含むかまたはこれらからなる、配列決定タグドメインである。

特定の要件に応じて、ＰＣＲ条件を調整することも可能である。サーマルサイクラー中の典型的なＰＣＲ条件には：９８℃３０秒間；９８℃１０秒間、６０℃３０秒間、および７２℃３０秒間の１０〜１５サイクルのＰＣＲ；７２℃５分間、および４℃での保持が含まれうる。

特定の態様において、ゲノムＤＮＡの配列をハイスループット配列決定によって決定する。「配列決定」は、生体ポリマー、この場合、核酸における構成要素の順序を決定するために用いる多様な方法を指す。

本発明で使用可能な、適切な配列決定技術には、伝統的な鎖終結サンガー法、ならびに多くの商業的供給源から入手可能であるいわゆる次世代（ハイスループット）配列決定（ＮＧＳ）が含まれ、これには、例えば、超並列シグネチャー配列決定（またはＭＰＳＳ、Lynx Therapeutics／Solexa／Illuminaによる）、ポロニー配列決定（Life Technologies）、ピロ配列決定または「４５４配列決定」（454 Life Sciences／Roche Diagnostics）、連結による配列決定（ＳＯＬｉＤ配列決定、Applied Biosystems／Life Technologiesによる）、合成による配列決定（Solexa／Illuminaによる）、ＤＮＡナノボール配列決定、ヘリスコープ配列決定（Helicos Biosciences）、イオン半導体またはイオン流配列決定（Ion Torrent Systems Inc./Life Technologies）、および単一分子リアルタイム（ＳＭＲＴ）配列決定（Pacific Bio）等が含まれる。多くの他のハイスループット配列決定法が、なお開発中または完成途上であり、これらはまた、本発明のＭＰまたはＳＧ断片の配列決定にも使用可能であり、これには、ナノ孔ＤＮＡ配列決定、ハイブリダイゼーションによる配列決定、質量分析による配列決定、微量流体サンガー配列決定、透過型電子顕微鏡ＤＮＡ配列決定、ＲＮＡＰ配列決定、およびｉｎｖｉｔｒｏウイルスハイスループット配列決定等がある。

特定の態様において、ハイスループット配列決定を：単一分子リアルタイム配列決定；イオン半導体（イオン流）配列決定；ピロ配列決定（４５４）；合成による配列決定（Illumina）；連結による配列決定（ＳＯＬｉＤ配列決定）；ポロニー配列決定；超並列シグネチャー配列決定（ＭＰＳＳ）；ＤＮＡナノボール配列決定；単一分子ナノ孔配列決定装置；およびＨｅｌｉｓｃｏｐｅ単一分子配列決定からなる群より選択することも可能である。

特定の態様において、ハイスループット配列決定は、隣接ゲノムＤＮＡおよび／またはショットガン断片に関して、１０倍、１５倍、２０倍、２５倍、３０倍、４０倍、５０倍、６０倍、７０倍、８０倍、９０倍、１００倍またはそれより多いカバレッジを生じる。

特定の態様において、配列決定法は、対象のタグ化ゲノムＤＮＡ断片の両端由来のタグ配列の配列決定が可能であり、したがって、対形成端タグ情報を提供する。特定の態様において、配列決定法は、多様な長さの長いＤＮＡ断片に対して読み取りを行うことが可能である。

次いで、ＭＰ断片配列決定データおよびＳＧ断片配列決定データの両方を、本発明の方法において用いて、以下に詳述するように、すべての遺伝子変異を決定することも可能である。特定の態様において、すべての配列データをマッチング参照ゲノムにマッピングする。本明細書において、「（ゲノムに配列を）マッピングする」には、ゲノムにおける配列のゲノム位置の同定が含まれる。

すなわち、本発明の方法は、ＭＰ断片（長いゲノムＤＮＡ断片各々の２つの端の配列に相当する）およびタグ配列を含まないＳＧ断片（２つの端の間の配列に相当する）の両方に由来する配列決定データに頼り、ここで、ＭＰ断片およびショットガン断片は、複数の環状化ゲノムＤＮＡ断片の同じライブラリーに由来する。

例えば、サイズ約１０ｋｂの環状化ゲノムＤＮＡに関しては、ショットガン断片化がサイズ約５００ｂｐの断片を産生する場合、５００ｂｐ断片の１つは、１０ｋｂ断片の各端に由来する、２つの〜２００ｂｐ配列が隣接するタグ配列を含む、メイトペア断片であると期待される。一方、５００ｂｐ断片の１９は、タグ配列を含まないショットガン断片であると期待され、これは、２つの端の間の９．５ｋｂ配列に相当する。したがって、平均して、ＭＰ断片からの１回の配列決定読み取りは、ショットガン断片読み取り由来の約１９の配列決定読み取りに相当する。この１：１９の期待される比は、部分的に、環状化ゲノムＤＮＡ断片の平均サイズ（例えば１０ｋｂ）に依存し、そして部分的に、ショットガン断片化によって生成されるＭＰおよびＳＧ断片の平均サイズ（例えば５００ｂｐ）に依存する。

同様に、ＣＮＶ型ゲノム変異に関しては、ゲノム中にホモ接合性欠失がある場合、ＭＰ断片配列決定データおよびＳＧ断片配列決定データの両方は、すべての配列読み取りが、生物のゲノムにマッピングされた際、配列カバレッジマップ上のギャップを明らかにするであろう。

一方で、ゲノムにおけるヘテロ接合性欠失に関しては、ＭＰ断片配列決定データおよびＳＧ断片配列決定データの両方は、欠失を伴わないゲノムの他の領域に比較した際、約半量の欠失領域を示すであろう。

本発明を一般的に上に記載したが、本発明の特定の特異的側面を以下にさらに記載する。
本発明のいかなる１つの態様も、不適切であるか、適用不能であるか、または特に否定されない限り、本発明の任意の１またはそれより多い他の態様と組み合わせ可能である。

２．次世代配列決定（ＮＧＳ）
当該技術分野に認識される任意の方法を用いて、ＭＰ断片および／またはＳＧ断片の配列決定を行うことも可能である。特定の態様において、いわゆる次世代配列決定（ＮＧＳ）ハイスループット配列決定を用いて、配列決定を行う。

本発明の方法で使用可能な次世代配列決定プラットホームには（限定されるわけではないが）、４５４ＦＬＸ^ＴＭまたは４５４ＴＩＴＡＮＩＵＭ^ＴＭ（Roche）、ＳＯＬＥＸＡ^ＴＭゲノム分析装置（Illumina）、ＨＥＬＩＳＣＯＰＥ^ＴＭ単一分子配列決定装置（Helicos Biosciences）、およびＳＯＬＩＤ^ＴＭＤＮＡ配列決定装置（Life Technologies／Applied Biosystems）、ならびにIntelligent BiosystemsおよびPacific Biosystems等の企業によってなお開発中である他のプラットホームが含まれる。

配列情報を生成する化学反応は、異なる次世代配列決定プラットホームで多様であるが、これらはすべて、非常に多数の配列決定テンプレートから配列データを生成する共通の特徴を共有し、この上で、配列決定を同時に実行する。一般的に、これらの配列決定反応すべてに由来するデータを、スキャナを用いて収集し、そして次いで組み立て、そしてコンピュータおよび強力なバイオインフォマティクスプログラムを用いて分析する。「超並列」または「多重」様式で、配列決定反応を実行し、読み取り、組み立て、そして分析する。これらの装置の超並列性は、どのような種類の配列決定テンプレートが必要であるか、そしてこれらの強力な装置から、ありうる最大量の配列決定データを得るために、どのようにこれらを生成するかに関して変化を生じてきている。

特に、ＮＧＳ配列決定法は、ｉｎｖｉｔｒｏで生成され、そして試料中のターゲットＤＮＡから生成されたＤＮＡ断片のコレクションまたは集団を含む、ＤＮＡ断片ライブラリーを利用し、ここでコレクションまたは集団中のすべてのＤＮＡ断片の組み合わせが、ＤＮＡ断片を生成したターゲットＤＮＡの配列を定性的、そして／または定量的に代表する配列を示す。実際、配列決定する各断片の供給源の同定を可能にするため、多数のゲノムＤＮＡ断片ライブラリー、例えばＭＰ断片ライブラリーおよびＳＧ断片ライブラリーからなるＤＮＡ断片ライブラリーは、各々異なるアドレスタグまたはバーコードで標識されている（例えばタグ配列または連結アダプターを含むまたは含まない）。

一般的に、これらのＮＧＳ法は、ゲノムＤＮＡをより小さいｓｓＤＮＡ断片に断片化し、そしてタグ配列（または短く「タグ」）をｓｓＤＮＡ断片の少なくとも１つの鎖または好ましくは両方の鎖に付加する必要がある。いくつかの方法において、タグは、ＤＮＡポリメラーゼを用いたＤＮＡ配列決定のためのプライミング部位を提供する。いくつかの方法において、タグはまた、表面、例えばビーズ上に断片を捕捉する（例えばこれらの方法のいくつかに関してはエマルジョンＰＣＲ増幅前に；例えば米国特許第７，３２３，３０５号等に記載するような方法を用いて）。大部分の場合、ＮＧＳのテンプレートとして用いられるＤＮＡ断片ライブラリーは、５’および３’タグ化ＤＮＡ断片または「二タグ化ＤＮＡ断片」を含む。一般的に、ＮＧＳ用のＤＮＡ断片ライブラリーを生成するための現存する方法は、配列決定しようとするターゲットＤＮＡ（例えばゲノムＤＮＡを含むターゲットＤＮＡ）を、超音波装置、ネブライザー、またはヌクレアーゼを用いて断片化し、そして断片の５’および３’端にアダプターまたはタグからなるオリゴヌクレオチドをつなぐ（例えば連結によって）工程を含む。

ＮＧＳ法のいくつかは、その配列決定プロセスにおいて、環状ｓｓＤＮＡ基質を用いる。例えば、各々本明細書に援用される、Drmanacらの米国特許出願第２００９−００１１９４３号；第２００９−０００５２５２号；第２００８−０３１８７９６号；第２００８−０２３４１３６号；第２００８−０２１３７７１号；第２００７−００９９２０８号；および第２００７−００７２２０８号は、超並列ＤＮＡ配列決定用の環状ｓｓＤＮＡテンプレートの生成を開示する。GundersonおよびSteemersの米国特許出願第２００８−０２４２５６０号は：デジタルＤＮＡボール（例えば米国特許出願第２００８−０２４２５６０号の図８を参照されたい）の作製；および／または増幅核酸アレイ（例えばＩＬＬＵＭＩＮＡＢｅａｄＡｒｒａｙｓ^ＴＭ；ＩＬＬＵＭＩＮＡ、米国カリフォルニア州サンディエゴ）を生成するための、多数置換増幅または全ゲノム増幅（例えば該文書の図１７）による、あるいは超分岐ＲＣＡ（例えば該文書の図１８）による、ＤＮＡ、例えばゲノムＤＮＡの遺伝子座特異的切断および増幅を含む方法を開示する。

増幅、例えば全ゲノム増幅を伴うさらなるＮＧＳ法はまた、ゲノムＤＮＡの断片化およびタグ化も必要とする。これらの方法のいくつかは：本明細書に援用されるWhole Genome Amplification, S. HughsおよびR. Lasken監修, 2005, Scion Publishing Ltd.（scionpublishing.comで、ウェブ上に）に概説される。これらのＮＧＳ法もまた、本発明の方法において使用可能である。

３．配列決定データ分析およびゲノム変異の検出
例えば多くの適用可能なＮＧＳ法のいずれかを用いたハイスループット配列決定を通じて、配列情報をＳＧ断片およびＭＰ断片から得たならば、本発明の方法は、被験体ゲノムにおける多様なゲノム変異を決定する配列データ分析を提供する。

１つの態様において、ショットガン断片化の産物のＮＧＳに基づいて、ＳＧ断片およびＭＰ断片の配列を同時に得る。ＭＰ断片に属する配列は、一般的に、ゲノムＤＮＡ配列が隣接する連結されたタグ配列（例えばタグメント化に用いる１９塩基対タグ配列の２つの連結されたタンデムリピート）の存在に基づいて、ＳＧ断片のものとは区別可能である。生配列データからタグ配列を取り除いて、ＭＰ断片中のゲノム配列のみを保持してもよい。さらに、ＭＰ断片由来のゲノム配列を、ＳＧ断片に関するものとは別個のデータファイル用データベース中で、別個に保管し、保存するか、または操作することも可能である。

次いで、ＳＧ断片およびＭＰ断片の配列を、マッチング参照ゲノムにマッピングすることも可能である。例えば、よく特徴付けられたヒトゲノム配列を、ヒト被験体由来の任意のヒト試料に関する参照ゲノムとして用いることも可能である。他のモデル生物参照ゲノムが、当該技術分野において容易に入手可能である。

１つの態様において、本発明の方法で使用するため、ＳＧ断片配列をマッチング参照ゲノムにマッピングして、第一のマッピングファイルを生成し、そしてＭＰ断片配列を同じマッチング参照ゲノムにマッピングして、第二のマッピングファイルを生成する。多くの当該技術分野に認識されそして公的に利用可能である任意のマッピングソフトウェア、例えばBroad InstituteのHeng Liによって開発されたBurrows-Wheeler整列プログラム（ＢＷＡ）を用いて、これらのマッピングファイルを生成してもよい。その全内容が本明細書に援用される、Henry Li, Aligning New-sequencing Reads by BWA(2010)を参照されたい。

一般的に、これらの配列整列ソフトウェアは、配列決定反復および配列決定エラーによって引き起こされる効率および多義性などの困難を克服しつつ、変異発見のために、既知の参照配列に対して配列決定読み取り（例えばＮＧＳ法からの読み取り）を整列させる。ＢＬＡＴ、ＳＳＡＨＡ２、およびＢＷＡ−ＳＷを含めて、長い配列読み取り（例えば約２００ｂｐを超える読み取り）のための多くの配列整列プログラムが利用可能である。多くの短い読み取り（約１００ｂｐまたはそれ未満の配列用）の整列プログラムもまた利用可能であり、これらには、限定されるわけではないが：Ｂｆａｓｔ、ＢｉｏＳｃｏｐｅ、ＢＷＡ、ＣＬＣｂｉｏ、ＣｌｏｕｄＢｕｒｓｔ、Ｅｌａｎｄ／Ｅｌａｎｄ２、ＧｅｎｏｍｅＭａｐｐｅｒ、ＧｎｕＭａｐ、Ｋａｒｍａ、ＭＡＱ、ＭＯＭ、Ｍｏｓａｉｋ、ＭｒＦＡＳＴ／ＭｒｓＦＡＳＴ、ＮｏｖｏＡｌｉｇｎ、ＰＡＳＳ、ＰｅｒＭ、ＲａｚｅｒＳ、ＲＭＡＰ、ＳＳＡＨＡ２、Ｓｅｇｅｍｅｈｌ、ＳｅｑＭａｐ、ＳＨＲｉＭＰ、Ｓｌｉｄｅｒ／ＳｌｉｄｅｒＩＩ、ＳＯＡＰ／ＳＯＡＰ２、Ｓｒｐｒｉｓｍ、Ｓｔａｍｐｙ、ｖｍａｔｃｈ、およびＺＯＯＭ等が含まれる。これらの方法は、性能、例えば整列速度、記憶要件、および全体の正確さが非常に異なる可能性があり、そしてＢＷＡは、性能および正確さの間の優れたバランスを達成するよう設計されている。

ＢＷＡ整列アルゴリズムは、ＦＭ−インデックス（Burrows-Wheeler変換に加えて補助的データ構造）に基づき、これにより、迅速で正確な配列マッチングが可能になる。その短鎖読み取りアルゴリズムを、参照に正確にマッチするように読み取り配列を改変するよう設計する。長鎖読み取りアルゴリズム（ＢＷＡ−ＳＷ）は、試料参照下位配列を取り、そして下位配列および読み取りの間で、Smith-Waterman整列を行う。ＢＷＡは、ＩｌｌｕｍｉｎａおよびＳＯＬｉＤ単一端（ＳＥ）および対形成端（ＰＥ）読み取りに関して働く：ＢＷＡ−ＳＷは、４５４／ＳａｎｇｅｒＳＥ読み取りに関して働く。

結果として、ＢＷＡは、迅速であるが、中程度のメモリフットプリント（一般的に４Ｇｂ未満）しか必要とせず；デフォルトでＳＡＭアウトプットを用い；ＳＥおよびＰＥ読み取り両方に関してギャップ整列を有し；有効な対形成（最適以下のヒットもまた、対形成において考慮される）を用いて高整列正確性を達成する。これは、０のマッピング品質で、ランダムに配置することによって、非ユニーク読み取りを処理し、そして簡潔な形式ですべてのヒットをアウトプットすることも可能である。大部分の短鎖読み取り（長さ３０ヌクレオチドのものさえ）は、ヒトゲノム上にユニークに配置される（Rozowskyら, Biotechnol., 27:66-75, 2009を参照されたい）が、読み取り配置は、反復領域またはセグメント複製領域から生じる読み取りに関しては困難でありうる。これらの読み取りは、等しい（またはほぼ等しい）スコアで、ゲノムにおける多数の位置に整列されうる。こうしたマッピング不能ゲノム領域を考慮から単に排除する代わりに、ＢＷＡは、こうした読み取りを、読み取りが類似のスコアで整列される多くのうち、マッピング品質０で、ランダムな位置に置く。

ＢＷＡはまた、シード領域（デフォルトにより、最初は３２ｂｐ）においてκ相違を見出すことも保証されている。ＢＷＡのデフォルト配置は、大部分の典型的な配列インプットに関して働く。さらに、ＢＷＡは、読み取り長およびエラー率に基づいてパラメータを自動的に調整し、そしてフライ上の挿入サイズ分布を概算する。

ＢＷＡ整列プログラムの実行を、以下に簡潔に要約可能である。まず、ｒｅｆ．ｆａ、ｒｅａｄ１．ｆｑ．ｇｚ、ｒｅａｄ２．ｆｑ．ｇｚ、またはｌｏｎｇ−ｒｅａｄ．ｆｑ．ｇｚの形式のインプットを、プログラムに供給する。次いで、工程１において：参照ゲノムをインデックス化する（例えばヒトゲノムをインデックス化するためには、約３ＣＰＵ時間かかる）。次いで、工程２ａは、末尾（suffix）アレイ座標で整列を生じる。読み取りの３’端で品質が劣っている場合、改善のため、オプション「−ｑ１５」を適用してもよい。次いで、工程３ａは、ＳＡＭ形式で整列を生成する。最後に、工程４ａは、多数のヒットを得る。あるいは、工程２ｂは、長鎖読み取り用にＢＷＡ−ＳＷを用いる。

ＢＷＡマッピングファイルのアウトプットは、一般的に知られるｂａｍファイルであり、これを以下に記載する他の配列決定分析ソフトウェアで使用して、多様なゲノム変異を同定することが可能である。

ＳＧ断片配列およびＭＰ断片配列に関するｂａｍファイルが別個に生成されたら、本発明の方法は、これらのｂａｍファイル（例えばＳＧｂａｍファイルおよびＭＰｂａｍファイル）を多様なソフトウェアパッケージとともに利用して、遺伝子変異を同定する。

例えば、本発明の方法で用いて、小さい遺伝子変異、例えばＳＮＰおよびインデルを優先的に同定可能な、１つのソフトウェアパッケージは、Broad Instituteによって開発された、公的に入手可能な「ゲノム分析ツールキット」（またはＧＡＴＫ）パッケージである。McKennaら, “The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data,” Genome Res., 20:1297-1303, 2010; DePristoら, “A framework for variation discovery and genotyping using next-generation DNA sequencing data,” Nat. Gen., 43:491-498, 2011；およびVan der Auweraら, “From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline,” Curr. Prot. Bioinfo., 43:11.10.1-11.10.33, 2013（すべて本明細書に援用される）を参照されたい。

ＧＡＴＫは、ハイスループット配列決定データを分析するために有用な非常に多様なツールを提供する。共通の構造および強力なエンジンを利用して、該ツールをスクリプトされたワークフローに連結して、単純なものから複雑な「読み取りから結果まで」分析を実行することも可能である。

ＧＡＴＫの主な焦点は、変異体発見および遺伝子型決定にあり、データ品質保証が強く強調される。２０１０年以来、高インパクトの科学雑誌に公表された１５０を超える研究論文が、ＧＡＴＫを成功裡に利用して、多様な研究上の疑問が解決されてきている。ＧＡＴＫは下位集団に特異的な突然変異を同定するための産業標準になってきている。ソフトウェアパッケージは、読み取り、品質スコア、整列、およびメタデータ（例えば配列決定レーン、起源の中心、試料名等）に関するＢＷＡのｂａｍファイルを含めて、多様な異なる配列決定技術とともに使用可能である。ＧＡＴＫはまた、任意の生物（ヒトを含む）および任意のレベルの倍数性（例えば多倍体の植物ゲノム）のもの由来のゲノムデータを取り扱うことが可能である。

１つの態様において、本発明の方法は、ＧＡＴＫの変異体発見ツールの１つ、HaplotypeCallerを用いて、インプットｂａｍファイル、例えばＳＧ断片ｂａｍファイルまたはＭＰ断片ｂａｍファイルのＳＮＰおよびインデルを同定する。１つの態様において、インプットｂａｍファイルは、少なくとも２０〜３０倍の配列カバレッジ、例えば少なくとも約２０倍、２５倍、３０倍、３５倍、４０倍、４５倍、または約５０倍カバレッジを有するＳＧ断片ｂａｍファイルである。特定の態様において、ＳＮＰおよびインデルを同定するためにＳＧｂａｍファイルのみを用いる。特定の態様において、ＳＮＰおよびインデルを同定するためにＭＰｂａｍファイルのみを用いる。特定の態様において、ＳＮＰおよびインデルを同定するためにＳＧおよびＭＰｂａｍファイルの両方を用いる。

HaplotypeCallerツールは、活性領域における、ハプロタイプの局所再組み立てを通じて、ＳＮＰおよびインデルを同時にコールする。これは、コールを行うインプットｂａｍファイル（単数または複数）を利用して、そして生のフィルタリングされていないＳＮＰおよびインデルコールを含むアウトプットＶＣＦファイルを生じる。次いで、これらを、下流分析に使用する前に、変異体再較正（最適）またはハードフィルタリングのいずれかによって、フィルタリングすることも可能である。HaplotypeCallerの基本的な作動は、以下のように進行する：
１．活性領域を定義する
プログラムは、変異の有意な証拠の存在に基づいて、作動する必要があるゲノム領域を決定する。

２．活性領域の再組み立てによって、ハプロタイプを決定する
各活性領域に関して、プログラムは、De Bruijin様グラフを構築して、活性領域を再組み立てし、そしてデータ中に存在するありうるハプロタイプは何かを同定する。次いで、プログラムは、潜在的な変異体部位を同定するため、Smith-Watermanアルゴリズムを用いて、参照ハプロタイプに対して、各ハプロタイプを再整列する。

３．読み取りデータを所与として、ハプロタイプの尤度を決定する
各活性領域に関して、プログラムは、ＰａｉｒＨＭＭアルゴリズムを用いて、各ハプロタイプに対して各読み取りの対整列を実行する。これは、読み取りデータを所与として、ハプロタイプの尤度のマトリックスを生じる。次いで、これらの尤度を除外して、読み取りデータを所与として、潜在的な変異体部位各々に関するアレルの尤度を得る。

４．試料遺伝子型を割り当てる
潜在的な変異体部位各々に関して、プログラムは、読み取りデータを所与としたアレルの尤度を用いて、ベイズ規則を適用して、その試料に関して観察される読み取りデータを所与として、試料あたりの各遺伝子型の尤度を計算する。次いで、最もありうる遺伝子型を試料に割り当てる。

関連する態様において、本発明の方法は、ＧＡＴＫの別の変異体発見ツール、UnifiedGenotyperを用いて、インプットｂａｍファイル、例えばＳＧ断片ｂａｍファイルまたはＭＰ断片ｂａｍファイルのＳＮＰおよびインデルを同定する。１つの態様において、インプットｂａｍファイルは、少なくとも２０〜３０倍の配列カバレッジ、例えば少なくとも約２０倍、２５倍、３０倍、３５倍、４０倍、４５倍、または約５０倍カバレッジを有するＳＧ断片ｂａｍファイルである。特定の態様において、ＳＮＰおよびインデルを同定するためにＳＧｂａｍファイルのみを用いる。特定の態様において、ＳＮＰおよびインデルを同定するためにＭＰｂａｍファイルのみを用いる。特定の態様において、ＳＮＰおよびインデルを同定するためにＳＧおよびＭＰｂａｍファイルの両方を用いる。

UnifiedGenotyperは、いくつかの別個のコーラ−のアプローチを統一する変異体コーラーであり、そして単一試料および多数試料データに関して働く。データインプットは、とりわけ、ｂａｍファイルであることが可能である。アウトプットは、ＶＣＦ形式の、生のフィルタリングされていない非常に高感度のコールセットである。特定の態様において、コーリング後フィルター（例えば変異体品質スコア再較正）を用いて、特定の偽陽性コールを排除する。特定の態様において、一般化倍数性モデルを用いて、非二倍体またはプール試料を取り扱う。

特定の態様において、UnifiedGenotyperを用いて、ＳＮＰを同定する。特定の態様において、HaplotypeCallerを用いて、インデルを同定する。
より小さいゲノム変異、例えばＳＮＰに比較して、ＳＶ／ＣＮＶの正確な検出、遺伝子型決定および理解は、ＳＶ／ＣＮＶ検出および分析に関連するはるかにより大きい分析上の困難のため、立ち後れている。ハイスループット配列決定および異なる分析アプローチ、例えばイェール大学で開発されたものを用いて、ＳＶおよびＣＮＶを分析し、そして検出することも可能である。例えばｖｃｆ２二倍体は、個体の変異体を参照ゲノムに含めることによって、個体の二倍体ゲノム配列を構築するために使用可能な個体ゲノム構築プログラムである。Rozowskyら, “AlleleSeq: analysis of allele-specific expression and binding in a network framework,” Mol. Syst. Biol., 7:522. doi: 10.1038/msb.2011.54（２０１１、本明細書に援用される）を参照されたい。ＣＮＶｎａｔｏｒは、読み取りマッピングの深度からの、ＣＮＶ発見および遺伝子型決定のためのツールである。Millsら, “Mapping copy number variation by population-scale genome sequencing,” Nature, 470(7332):59-65. doi: 10.1038/nature09708(2011)；およびAbyzovら, “CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing,” Genome Res., 21(6):974-84. doi: 10.1101/gr.114876.110(2011)（どちらも本明細書に援用される）を参照されたい。ＡＧＥは、ＳＶを含む配列の最適な整列のためのアルゴリズムを実行するツールである。AbyzovおよびGerstein, “AGE: defining breakpoints of genomic structural variants at single-nucleotide resolution, through optimal alignments with gap excision,” Bioinformatics, 27(5):595-603. doi:10.1093/bioinformatics/ btq713(2011)（本明細書に援用される）を参照されたい。ＢｒｅａｋＳｅｑは、単一ヌクレオチド解像度でのＳＶの解釈、分類および分析のためのパイプラインである。Lamら, “Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpoint library,” Nat. Biotechnol., 28(1):47-55. doi: 10.1038/nbt.1600(2010)（本明細書に援用される）を参照されたい。ＰＥＭｅｒは、対形成端読み取りマッピングによって、ＳＶを発見するための計算およびシミュレーションフレームワークである。Korbelら, “PEMer: a computational framework with simulation-based error models for inferring genomic structural variants from massive paired-end sequencing data,” Genome Biol., 10(2):R23. doi: 10.1186/gb-2009-10-2-r23(2009);およびKorbelら, “Paired-end mapping reveals extensive structural variation in the human genome,” Science, 318(5849):420-6(2007)（どちらも本明細書に援用される）を参照されたい。

特定の態様において、ＳＧおよび／またはＭＰｂａｍファイルを用い、次世代配列決定プラットホームからの短い読み取りのマッピング密度の統計分析、すなわち読み取り深度分析（ＲＤ）からＣＮＶを検出する公的に入手可能なＣＮＶｎａｔｏｒパッケージ（http://sv.gersteinlab.org/cnvnator/で、自由に入手可能であり、そして多様なヒトおよび非ヒトゲノムに適用可能である）を用いて、ＣＮＶを同定する。劣った切断点（ｂｒｅａｋｐｏｉｎｔ）解像度を伴い、大きなＣＮＶのみの発見用であり、ゲノムのユニークな領域のみに限定されていた、以前のＲＤに基づくアプローチとは対照的に、ＣＮＶｎａｔｏｒは、全ゲノムにおいて、長さ数百塩基からメガ塩基の大きなサイズ範囲でＣＶＮを発見することが可能である。より具体的には、ＲＤシグナルの計算のため、ＣＮＶｎａｔｏｒは、全ゲノムを等しいサイズの重複しないビンに分割し、そしてＲＤシグナルとして各ビン内のマッピングされた読み取りのカウントを用いる。次いで、生成されたシグナルを、根底におそらく異なるコピー数を持つセグメントに分配する。セグメントに統計有意性試験を適用することによって、推定上のＣＮＶを予測する。分配は、画像プロセシングのためのコンピュータ科学において元来開発された平均シフト技術に基づく。

具体的には、任意の適切な配列決定法、例えば限定されるわけではないが、Illumina／Solexa、Roche／４５４、およびLife Technologies／ＳＯＬｉＤ配列決定技術プラットホームを含む任意のＮＧＳを用いて、ＳＧおよび／またはＭＰ断片の配列決定データを得ることも可能である。次いで、こうした配列決定データを用いて、ＳＧ／ＭＰｂａｍファイルを生成する。次いで、ＣＮＶｎａｔｏｒソフトウェアパッケージを用いて、ＳＧｂａｍファイル、ＭＰｂａｍファイル、または両方に基づいて、ＣＮＶをコール／同定する。

ＳＧおよび／またはＭＰｂａｍファイルを用い、Yaoら, “Long Span DNA Paired-End-Tag (DNA-PET) Sequencing Strategy for the Interrogation of Genomic Structural Mutations and Fusion-Point-Guided Reconstruction of Amplicons,” PLOS One, 7(9):e46152(2012)（本明細書に援用される）に記載されるものと実質的に同一の方法を用いて、こうしたゲノム変異に関してコーリングすることによって、本発明の方法を用いて、コピー数中立（非ＣＮＶ）ＳＶを含むＳＶを同定することも可能である。この方法は、ＤＮＡ断片の厳しいサイズ選択および小さい染色体内再編成に関するより高い感度と関連する、小挿入物サイズライブラリー（例えばキロ塩基未満の範囲）を持つＳＶを同定可能である。該方法はまた、ゲノムのより高い物理的カバレッジと関連するより大きい挿入物サイズのライブラリー（例えばキロ塩基から数十キロ塩基の範囲）もまた同定可能であり、切断点領域の正確な位置決定がより正確でない欠点がある可能性がある。すなわち、より大きい挿入物サイズは、より高い物理的カバレッジを有し、そして反復領域に渡るスパンを可能にし、したがって、クローンカバレッジを最大にし、そして配列努力を減少させながら、可能な限り多くの再編成切断点として検出する傾向がある。一方、より小さい挿入物サイズは、より優れた位置決定情報を提供し、５ｋｂ未満のスパンで欠失を同定する際に好適であり、そしてより正確なサイズ選択およびそれによる挿入物サイズ分布のより小さい標準偏差のため、より多数の欠失を同定する傾向がある。さらに、いくつかの挿入物サイズの組み合わせライブラリーとともに用いた際、組み合わせライブラリーで切断点を検出する可能性は、ライブラリー中に１つのタイプの挿入物サイズしか用いないものよりもより高い。

大きいおよび小さい挿入物サイズのライブラリーは、切断点を位置決定する際に、匹敵する正確さを有するが、大きい挿入物サイズはまた、融合点ガイド連結アルゴリズムに基づいて、反復配列内のＳＶのより優れた同定も可能にした。

したがって、１つの態様において、サイズ選択を用いて、比較的より小さいサイズ（例えば１、２、３、４、５ｋｂ等）の環状ゲノム断片を構築することが可能である。他の態様において、サイズ選択を用いて、比較的より大きいサイズ（例えば５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０ｋｂまたはそれより多く等）の環状ゲノム断片を構築することも可能である。特定の態様において、異なる／多数のサイズ範囲の環状ゲノム断片を、本発明の方法で用いる。

上述の方法を用いて、ＳＶおよびＭＰ断片の配列決定データを、以下に記載するＳＶ検出法で使用するため、ＳＧおよびＭＰｂａｍファイルにコンパイルする。
特定の態様において、ＭＰｂａｍファイルを本発明の方法で用いてＳＶを検出する。ゲノムＤＮＡ配列に隣接するタグ配列はまた、ＰＥＴ（対形成端タグ）とも称される。配列読み取りのマッピングパターンに基づいて、ＰＥＴを一致ＰＥＴ（ｃＰＥＴ）および不一致ＰＥＴ（ｄＰＥＴ）として区別することも可能である。ｃＰＥＴは、両方のタグが、正しい５’から３’の順序付けで、そして予期されるスパン範囲（例えば１ｋｂライブラリーに関しては３ｋｂ、１０ｋｂライブラリーに関しては２０ｋｂ、そして２０ｋｂライブラリーに関しては４０ｋｂ等）内で、同じ染色体、同じ鎖にマッピングされるＰＥＴと定義される。ｃＰＥＴ基準によって拒絶されるＰＥＴは、ｄＰＥＴと分類される。ライブラリー構築プロセスの連結エラーのため、キメラｄＰＥＴが生成される可能性もある。これらを除くため、同じ融合点に渡るｄＰＥＴは、クラスターを形成することが要求される。融合点周囲にともにクラスター形成するｄＰＥＴの数は、クラスターサイズまたはクラスターカウントによって表される。クラスターの５’タグによってカバーされるゲノム領域は、５’アンカーと同定され、そしてクラスターの３’タグによってカバーされるゲノム領域は、３’アンカーと定義される。

ＳＶを同定するため、１つの再編成点を持つＳＶを単一ｄＰＥＴクラスターによって同定することが可能であり、例えば、５’マッピングアンカー領域が３’マッピングアンカー領域から遠く離れている場合は欠失、マッピング順序が通常の５’から３’の代わりに３’から５’である場合はタンデム複製、マッピング配向が反転している（異なる鎖上）場合は非対反転、ならびに５’および３’アンカーが異なる染色体上にマッピングされる場合は孤立型転位置である。反転、挿入および平衡転位置は、２つの近傍に位置するｄＰＥＴクラスターによって同定される。

孤立型およびより複雑でないＳＶから複雑な領域の切断点を分離するため、切断点に基づく相互接続ネットワークを確立してもよい。ライブラリーの最大挿入物サイズによる、各ｄＰＥＴクラスターアンカー領域の開始点および終了点からの伸長を検索ウィンドウとして生成して、切断点の近隣を決定する。近隣クラスターのウィンドウが互いに重複している場合、ｄＰＥＴクラスターをスーパークラスターとグループ分けする。ともに連結されてスーパークラスターになりうるｄＰＥＴクラスターの数は、スーパークラスターサイズまたはスーパークラスターカウントによって示される。

特定の態様において、異なるサイズ選択挿入物サイズを用いる。これらの態様において、異なる挿入物サイズのライブラリーに渡るｄＰＥＴクラスターは、個々のライブラリー挿入物サイズによって伸長された５’および３’アンカー領域の重複に基づいて実行可能である。例えば、１０ｋｂおよび２０ｋｂ挿入物サイズライブラリーに渡って、ｄＰＥＴクラスターを比較するため、クラスターの５’および３’アンカー領域を、切断点に向かって、ライブラリーの最大長によって延長して、検索ウィンドウを生成する。同じＳＶタイプに属する、他の挿入物サイズライブラリーからのｄＰＥＴクラスターの５’および３’アンカー領域が、検索ウィンドウに入る場合、クラスターは共通ＳＶとグループ分けされるであろう。検索ウィンドウ中に他のクラスターが見られない場合、クラスターはその挿入物サイズのライブラリーに特異的なＳＶと分類されるであろう。

特定の態様において、本発明の方法は、同定されたＳＶを検証するため、またはＳＶを細胞遺伝学的背景に置くため、蛍光ｉｎｓｉｔｕハイブリダイゼーション（ＦＩＳＨ）を用いる工程をさらに含む。

特定の態様において、本発明の方法は、例えばゲノムＰＣＲおよびＳａｎｇｅｒ配列決定によって、同定されたＳＶの切断点を検証する工程をさらに含む。
特定の態様において、本発明の方法は、融合点ガイド連結アルゴリズムを用いることによって、全ゲノム再編成または同定されたＳＶを再構築する工程をさらに含む。特に、ｄＰＥＴクラスターによって同定された切断点に基づいて、そして物理的ｃＰＥＴカバレッジを伴わないさらなる切断点を同定することによって、参照ゲノムのコンティグへのセグメント化を組み立てる。次いで、参照ゲノム上で連続するコンティグを、連結ｃＰＥＴの存在下で、参照エッジによって連結する。それに応じて、ｄＰＥＴクラスターによって連結されたコンティグは、ｄＰＥＴエッジによって示され、エッジはクラスターサイズによって加重される。次いで、以下の方式で、局所増幅領域を同定する：まず、最高加重のｄＰＥＴエッジを選択し、そしてこのエッジに隣接するコンティグをアンプリコングラフに付加する。次いで、グラフ中の各コンティグに関して、その隣のものが増幅されると見なされる限り（２より大きいｃＰＥＴ概算コピー数）、隣のものもまた、参照およびｄＰＥＴ連結の両方を用いて付加する。この方式で、さらなるコンティグが付加不能になるまで、アンプリコングラフを成長させる。次いで、残ったものがなくなるまで、未使用のｄＰＥＴエッジに対してこのプロセスを反復し、局所アンプリコングラフセットを生じ、そして２より多いコンティグを含むグラフのみをさらに検討する。

４．疾患および障害におけるゲノム変異の検出
本発明の方法を用いて、任意の生物由来の単一アッセイにおいて、ゲノム変異のすべてのタイプを検出可能である。本発明の方法は、根底にある複雑なゲノム欠陥を有することが知られる、特定のヒト疾患または障害において、こうしたゲノム変異を同定する際に特に有用である。

特定の態様において、本発明の方法を用いて、自閉症スペクトラム障害（ＡＳＤ）患者、あるいはＡＳＤを有すると推測されるかまたはＡＳＤを発展させる高いリスクを有する患者を検出することも可能である。

ＡＳＤは、社会的相互作用およびコミュニケーションの異常、限定された興味、および反復行動によって特徴付けられる関連発展障害のコレクションとしてますます多く診断されている。古典的な自閉症または自閉症性障害に加えて、米国精神医学会（ＡＰＡ）の精神疾患の分類と診断の手引、第５版（ＤＳＭ−５）は、アスペルガー症候群、小児期崩壊性障害、および特定不能広汎性発達障害（ＰＤＤ−ＮＯＳ）をＡＳＤと認識する。

統合失調症同様、１００を超える異なる遺伝子座における突然変異がＡＳＤで発見されてきており、本発明の方法は、ＡＳＤの任意の個々の患者における複雑な根底にある遺伝的欠陥を解明するために特に適したものとなっている。

ＡＳＤは、神経発達障害（ＮＤＤ）の１つのタイプであり、後者には、脆弱Ｘ染色体症候群（ＦＸＳ）、アンジェルマン症候群、結節性硬化症候群、フェラン・マクダーミド症候群、レット症候群、ＣＤＫＬ５突然変異（レット症候群およびＸ連鎖乳児痙攣障害にも関連する）等もまた含まれる。すべてではないが多くのＮＤＤは、遺伝子突然変異によって引き起こされる。ＮＤＤを有する患者のある程度は、自閉症の行動および症状を示す。したがって、本発明の方法はまた、これらのＮＤＤにおいても使用可能である。

特定の態様において、本発明の方法を用いて、多数の遺伝子、または遺伝子および環境の間の相互作用から生じる、他の複雑な疾患において、ゲノム変異を検出することも可能である。こうした複雑な疾患には、限定なしに、アルツハイマー病、喘息、パーキンソン病、糖尿病、肥満、心臓異常、癌、高血圧、心臓および循環系の他のよくある疾患、精神疾病、例えば統合失調症および抑鬱、炎症性自己免疫疾患、例えば関節炎およびクローン病、多発性硬化症等が含まれうる。

実施例１
本発明の方法を用いて、自閉症患者Ｐ４６１０７において、多様なゲノム変異を同定し、そして特徴付けられたゲノム変異を以下の表にサイズに基づいて表化する。「ＤＮＡ−ＰＥＴ」は、ＭＰ配列決定データを表す。

具体的には、病院から患者試料を得て、そして配列決定および分析前に、試料を匿名化した。製造者の指示にしたがって、ＡｌｌＰｒｅｐＤＮＡ／ＲＮＡミニキット（Qiagen）を用いて、試料からゲノムＤＮＡを抽出した。上述のように、本発明の方法を用いて、ＤＮＡ配列決定ライブラリーを調製した。簡潔には、Illumina配合メイトペアトランスポソームを用いて、ゲノムＤＮＡ試料を断片化し、そして同時に連結アダプターでタグ化した。タグメント化後、ポリメラーゼを用いて、鎖置換反応によって、タグメント化ＤＮＡにおける短い一本鎖配列ギャップを充填した。６〜８ｋｂの間のゲノムＤＮＡ断片をSage Pippin Prepによって選択した。次いで、サイズ選択断片を、環状分子を形成するであろう断片の数を最大化するように最適化した一晩インキュベーションで、平滑端分子内連結で環状化した。次いで、環状化ＤＮＡ断片をおよそ４００〜５００ｂｐ平均サイズ断片に物理的に剪断した。Illumina TruSeqアダプターを断片化ＤＮＡに連結する前に、剪断断片に対して、末端修復およびＡテール化反応を行った。製造者の推奨にしたがって、Illumina Hi-Seq 2500によって、２ｘ１５０ｂｐにより、断片化ＤＮＡを行った。

配列中の連結アダプターを用いて、配列分析に基づいて、ＭＰおよびＳＧ断片配列を別個にソーティングした。次いで、ＭＰおよびＳＧ配列を、それぞれ、参照ヒトゲノムにマッピングして、２つのｂａｍファイルを生成した。次いで、マッピングされたＳＧおよび／またはＭＰｂａｍファイルを、上述のように、すべての遺伝子変異検出に用いた。試料から検出されたゲノム変異を、以下の表に分類し、そして要約する。

ＭＰ配列決定データが、より大きなサイズの欠失（例えば５ｋｂおよびそれより多く）を検出するために最も適している一方、ＳＧ配列決定データは、より小さいサイズの欠失（５ｋｂまたはそれ未満）を同定するためにより適していることが明らかである。いくつかの変異はまた、ＳＧおよびＭＰ配列決定データ両方によって検出可能である。これは、規模が大きいおよび小さい場合の両方で、すべてのタイプのゲノム変異が、１人の患者試料からの単一の配列決定実行を用いて、本発明の方法によって効率的に検出可能であることを示唆する。

実施例２
本発明の方法を用いて、５人の自閉症患者において、多様なゲノム変異を同定し、そして結果を、アレイＣＧＨおよびエクソン配列決定に基づく現在の標準的アッセイを用いて、同じ患者から同定したものに比較した。

比較は、伝統的なａＣＧＨアッセイによって同定される各ＣＮＶ構造変異に関して、本発明の方法によって同定される完全なマッチがあることを示した。しかし、本発明の方法は、ａＣＧＨによって同定されないはるかにより多くのゲノム変異を同定し、したがって本発明の方法を用いて、より多くの新規変異体を同定する機会を示した。

例えば、患者ＤＢＳ０００５（自閉症スペクトラム障害）に関して、Transgenomic（登録商標）出生後高密度ＳＮＰアレイ試験は、遺伝子ＬＹＲＭ７およびＨＩＮＴ１を含む５ｑ２３．３の染色体領域において３８３．４ｋｂ欠失があることを明らかにした。本発明の方法を用いて、同じ染色体領域（染色体５：１３０１４０６７３−１３０５２０３６５）中の３８３．５９１ｂｐ欠失が同定された。

別の例において、患者ＤＢＳ００１０（自閉症、言語遅延）に関して、全ゲノムアレイＣＧＨ＋ＳＮＰ分析のGeneDx GenomeDx Reportは、患者が細胞遺伝学的バンド１２ｑ２４．３３内の領域の少なくとも３０２ｋｂの複製を所持し、複製された区間は７つの既知の遺伝子を含有することを明らかにした。本発明の方法を用いて、同じ染色体１２領域（１３３０９１６３１−１３３３９３１６７）中の３１２，７１７ｂｐのタンデム複製が同定された。

本発明の方法はまた、伝統的な方法、ａＣＧＨでは同定されない、以下の患者の特定の欠失も同定した。本発明の方法が、はるかにより多くのゲノム変異を同定可能である理由の一部は、ａＣＧＨが、有意な解像度限界を有するためであり、ａＣＧＨが２００ｋｂより大きい欠失しか信頼性を持って検出できない一方、本発明の方法は、数百塩基対から数百ｋｂまで、はるかにより高い解像度で欠失を検出可能である。

＊患者１〜５は、それぞれＤＢＳ０００５、０００７、０００８、００１０、および００１１である。
全部で＞１０ｋｂの２７３欠失；および＞２０ｋｂの２９欠失がある。

同様に、ＳＮＰに関しては、伝統的なエクソン配列決定によって報告された５１のうち、４９が本発明の方法によっても同定され、９６％マッチであった。実際、２つのＳＮＰ相違に関しては、これらがエクソン配列決定法による偽陽性同定のためであるのか、または本発明の方法による偽陰性同定のためであるのかは不確かである。

具体的に、Ｃｏｕｒｔａｇｅｎ遺伝子パネルＳＮＰデータを、本発明の方法によって同定されたＳＮＰに比較し、そして５人の患者における結果を以下に要約する。

より具体的には、患者ＤＢＳ０００５において、以下の遺伝子中の以下のＳＮＰがCourtagenおよび本発明の方法によって同定された：

患者ＤＢＳ０００７において、以下の遺伝子中の以下のＳＮＰがCourtagenおよび本発明の方法によって同定された：

患者ＤＢＳ０００８において、以下の遺伝子中の以下のＳＮＰがCourtagenおよび本発明の方法によって同定された：

患者ＤＢＳ００１０において、以下の遺伝子中の以下のＳＮＰがCourtagenおよび本発明の方法によって同定された：

患者ＤＢＳ００１１において、以下の遺伝子中の以下のＳＮＰがCourtageｎおよび本発明の方法によって同定された：

簡潔には、これらの５つの患者データセットに基づいて、本発明の方法は、非常によく働き、そしてすべてのゲノム変異を同定するための新規標準として、多数の現存する標準アッセイを置換する、大きな潜在能力を示した。

Claims

生物のゲノムにおいて、ゲノム変異を検出するための方法であって：
（１）生物のゲノムＤＮＡを断片化して、複数のゲノムＤＮＡ断片を生成し；
（２）ゲノムＤＮＡ断片の末端にタグ配列をタグ付けし；
（３）平滑端分子内連結を促進する条件下で、ゲノムＤＮＡ断片のタグ化末端を連結して、連結されたタグ配列を含む、複数の環状化ゲノムＤＮＡ断片を生成し；
（４）ショットガン断片化によって、複数の環状化ゲノムＤＮＡ断片を断片化して：
（ａ）隣接ゲノムＤＮＡが隣接した、連結されたタグ配列を各々含む、複数のメイトペア（ＭＰ）断片；および、
（ｂ）複数のショットガン（ＳＧ）断片；
を生成し；
（５）ＭＰ断片およびＳＧ断片の配列を決定し；そして
（６）ＳＧ断片の配列およびＭＰ断片の配列の両方に基づいて、生物ゲノムにおける前記ゲノム変異を同定する；
工程を含む、前記方法。
前記ゲノム変異が：
一塩基多型（ＳＮＰ）；小さい挿入または欠失（インデル）；タンデム塩基突然変異（ＴＢＭ）；コピー数変異（ＣＮＶ）；構造変異（ＳＶ）；およびその組み合わせ；
の１またはそれより多くを含む、請求項１の方法。
工程（１）および（２）を同時に行う、請求項１の方法。
工程（１）および（２）をトランスポゾン仲介性タグメント化（tagmentation）によって達成する、請求項３の方法。
トランスポゾン仲介性タグメント化をＴｎ５トランスポザーゼによって行う、請求項４の方法。
複数のゲノムＤＮＡ断片を工程（３）の前にサイズ選択する、請求項１の方法。
約４〜１０ｋｂ、または約６〜８ｋｂのゲノムＤＮＡ断片をサイズ選択する、請求項６の方法。
工程（４）〜（６）の前に、ＤＮＡエキソヌクレアーゼ消化によって、非環状化または直鎖ゲノムＤＮＡ断片を除去する、請求項１の方法。
ＭＰ断片およびＳＧ断片の配列を、別個にまたは同時に決定する、請求項１の方法。
ＳＧ断片が、約４００ｂｐ、４５０ｂｐ、または５００ｂｐの平均サイズを有する、請求項１の方法。
ＭＰ断片が、約４００ｂｐ、４５０ｂｐ、または５００ｂｐの平均サイズを有する、請求項１の方法。
ＭＰ断片およびＳＧ断片を、工程（５）の前に互いに単離する、請求項１の方法。
ＭＰ断片およびＳＧ断片を、工程（５）の前に互いに単離しない、請求項１の方法。
工程（３）の前に、ゲノムＤＮＡ断片のタグ化端を修復して、平滑端連結を促進する、請求項１の方法。
工程（６）が、生物のゲノム配列に対して、隣接ゲノムＤＮＡの配列およびショットガン断片の配列をマッピングする工程を含む、請求項１の方法。
ゲノムＤＮＡの配列を、ハイスループット配列決定によって決定する、請求項１の方法。
ハイスループット配列決定が：単一分子リアルタイム配列決定；イオン半導体（イオン流）配列決定；ピロ配列決定（４５４）；合成による配列決定（Ｉｌｌｕｍｉｎａ）；連結による配列決定（ＳＯＬｉＤ配列決定）；ポロニー配列決定；超並列シグネチャー配列決定（ＭＰＳＳ）；ＤＮＡナノボール配列決定；単一分子ナノ孔配列決定装置；およびＨｅｌｉｓｃｏｐｅ単一分子配列決定からなる群より選択される、請求項１６の方法。
ハイスループット配列決定が、隣接ゲノムＤＮＡおよび／またはショットガン断片に関して、３０倍、４０倍、５０倍、６０倍、７０倍、８０倍、９０倍、１００倍またはそれより多いカバレッジを生じる、請求項１６の方法。
生物が、ヒト、非ヒト霊長類、哺乳動物、齧歯類（ラット、マウス、ハムスター、ウサギ）、家畜動物（ウシ、ブタ、ウマ、ヒツジ、ヤギ）、鳥類（ニワトリ）、爬虫類、両生類（ゼノパス属（Xenopus））、魚類（ゼブラフィッシュ（Danio rerio）、フグ（Puffer fish））、昆虫（ショウジョウバエ属（Drosophila）、蚊）、線虫、寄生虫、真菌（酵母、例えばＳ．セレビシエ（S. cerevisae）またはＳ．ポンベ（S. pombe））、植物、細菌、またはウイルスである、請求項１の方法。
生物が：自閉症（自閉症スペクトラム障害（ＡＳＤ））、癌、または遺伝性疾患からなる群より選択される疾患または状態を有するヒトである、請求項１の方法。