JP2016000046A

JP2016000046A - 遺伝マーカーを評価するための方法および組成物

Info

Publication number: JP2016000046A
Application number: JP2015164811A
Authority: JP
Inventors: ポレカグレゴリー; Porreca Gregory; レーザーソンユリ; Laserson Uri; チンビリーリー; Jin Billy Li; ロバートワスマンイー．; Robert Wassman E
Original assignee: Good Start Genetics Inc
Current assignee: Good Start Genetics Inc
Priority date: 2009-04-30
Filing date: 2015-08-24
Publication date: 2016-01-07
Also published as: AU2010242073B2; JP2012525147A; CA2760439A1; IL216054A; WO2010126614A2; EP2425240A2; AU2010242073A1; US11840730B1; EP2425240A4; AU2010242073C1; IL216054A0; WO2010126614A3

Abstract

【課題】遺伝マーカーを評価するための方法および組成物の提供。【解決手段】本発明の局面は、遺伝子座の多重分析のバイアスを減少させるためおよび遺伝子座の多重分析の再現性を高めるために有用な方法および組成物に関する。いくつかの形態では、所定の調製工程および／または核酸配列分析法が、複数のサンプル中の複数の遺伝子座に対する多重分析において用いられる。一局面において、複数の遺伝子座を分析する方法が提供され、該方法は：複数の標的核酸の各々をプローブセットと接触させる工程、複数の核酸を単離する工程、ならびに該単離された核酸を分析する工程を包含する。【選択図】図１

Description

関連出願
この出願は、米国特許法§１１９（ｅ）の下、２００９年４月３０日に出願された米国仮出願第６１／１７４，４７０号、２００９年５月１５日に出願された米国仮出願第６１／１７８，９２３号、２００９年５月１８日に出願された米国仮出願第６１／１７９，３５８号および２００９年５月２８日に出願された米国仮出願第６１／１８２，０８９号（各々の全体の内容は、参考として本明細書に援用される）の利益を主張する。

発明の背景
本発明は、患者サンプル中の遺伝子型を決定するための方法および組成物に関する。

発明の背景
被験体の遺伝子型に関する情報は、多くの疾患、障害および生理学的特徴に対する遺伝的根拠がさらに解明されるにつれて、一連の健康管理の判断にとってますます重要になり、かつそのような判断に直接関係してくる。医学的な助言は、次第に個人向けになってきており、個別の判断および勧告は、特定の遺伝情報に基づく。１つ以上の遺伝子座における対立遺伝子の型および数に関する情報は、健康管理について考慮すべき他の事柄の中でも疾患リスク、予後、治療法の選択肢および遺伝カウンセリングに影響を及ぼす。

費用効果が高く、かつ信頼できる医学的カウンセリングおよび生殖カウンセリングを大規模に行うためには、多くの被験体の多くの異なる遺伝子座についての対立遺伝子の状態を正確かつ明白に同定できることが重要である。

生物学的サンプルから核酸配列を検出するためおよび分析するために、数多くの技術が開発されている。これらの技術を用いることにより、被験体の遺伝子タイピングを行うことおよび目的の任意の遺伝子座の対立遺伝子の状態を決定することができる。しかしながら、多数の患者の多くの遺伝子座の信頼できるハイスループット分析にむけてスケールアップするには、それらの技術は、十分に頑強ではなく、費用効果の高いものではない。現在の技術は、不正確またはあいまいなコール（ｃａｌｌ）の頻度が高すぎて、不確かさを解消するためおよびアウトプット情報の信頼性を提供するために高価かつ時間のかかる工程を要さずに多数の患者サンプルを管理することはできない。

発明の要旨
本発明の局面は、遺伝子型を評価するため、特に、被験体の１つ以上の遺伝子座の対立遺伝子の同一性（または二倍体生物における同一性）を決定するための、調製および分析の方法および組成物に関する。

本発明の局面は、遺伝分析におけるあいまいさおよびエラーの種々の起源の同定に部分的に基づき、また、遺伝分析の種々の段階におけるこれらのエラーおよびあいまいさを回避するため、減少させるため、認識するため、および／または解消するための１つ以上のアプローチの同定に部分的に基づく。

本発明の局面によると、ある特定のタイプの遺伝情報は、調製段階（例えば、捕捉、増幅など）、決定段階（例えば、対立遺伝子特異的検出、配列決定など）、データ解釈段階（例えば、アッセイ情報が被験体をホモ接合またはヘテロ接合と同定するのに十分であるか否かを決定する段階）および／または他の段階のいずれかにおける、確率的変動と系統誤差（ｓｙｓｔｅｍａｔｉｃｂｉａｓ）との組み合わせに起因して、遺伝分析において提示不足であり得るかまたは提示過剰であり得る。

本発明の局面によると、エラーまたはあいまいさは、遺伝分析において明らかであり得るが、追加のサンプリングまたはより高価なアッセイを行わずに容易に解決されることはない（例えば、アレイベースのアッセイは、ノイズの多いシグナル／低レベルのシグナルに起因してコールなし（ｎｏ−ｃａｌｌ）を報告し得る）。本発明のさらなる局面によると、エラーまたはあいまいさは、遺伝分析において説明されないかもしれず、不正確なベースコール（ｂａｓｅｃａｌｌ）は、それらについての証拠が限られているときおよび／または統計学的に有意でないときでさえ、生じ得る（例えば、次世代シークエンシング技術は、それらについての証拠が統計学的に有意でない場合でさえ、ベースコールを報告し得る）。本発明のさらなる局面によると、エラーまたはあいまいさは、明らかであるが、分析の１つ以上の工程では容易に解決されず、また、分析の他の工程では明らかでないかまたは説明されないので、多段階の遺伝分析にとって問題となり得る。

いくつかの実施形態において、１つ以上の工程におけるエラーおよびあいまいさの起源は、生成される遺伝情報の複雑度および／または忠実度に影響を及ぼし得る任意の系統誤差または確率的影響を克服するように設計された重複プローブの１つ以上のセットを用いて目的の各標的遺伝子座を捕捉することおよび／または調べることによって対処され得る。

いくつかの実施形態において、１つ以上の工程におけるエラーおよびあいまいさの起源は、少なくとも１セットのプローブを用いて目的の各標的遺伝子座を捕捉することおよび／または調べることによって対処され得、ここで、種々のプローブは、アッセイ反応を追跡するため、および生成される情報においてある特定のタイプの遺伝情報が提示不足であるかまたは提示過剰であるかを決定するために使用され得る種々の識別子で標識されている。

いくつかの実施形態において、多数の配列リピートを含む領域の分析に関連するエラーおよびあいまいさは、アッセイの特定の段階（例えば、捕捉、シークエンシングまたは検出の段階）においてある特定の核酸の出現頻度を体系的に分析することによって対処される。そのような手法は、多くの異なる遺伝子座を、各遺伝子座に対して異なるアッセイ手順を必要とすることなく並行して評価できるように設計された標準化プロトコルにおいて特に有用であり得ることが認識されるだろう。いくつかの実施形態において、複数のタイプの遺伝子病変（例えば、点変異、挿入／欠失、長さの多型）をアッセイするために単一の検出様式（例えば、シークエンシング）を使用することは、臨床の状況において都合がよい。本発明のいくつかの実施形態において、並行した複数のサンプル調製工程の使用を促進する方法が提供され、その方法には、配列検出の後に複数の分析プロセスが連結される。よって、本発明のいくつかの実施形態において、複数の患者の複数の遺伝子座にわたって種々のタイプの遺伝子病変を同時にアッセイするときのエラーおよび不確かさを減少させる改善されたワークフローが提供される。

いくつかの実施形態において、本発明の局面は、２つ以上の手法（各々が、異なるバイアス（ｂｉａｓ）（例えば、１つ以上のタイプの配列の提示不足または提示過剰に向かう公知のバイアス）を有する）を組み合わせ、そして得られたデータを用いることにより、より高い信頼性で被験体に対する遺伝的コール（ｇｅｎｅｔｉｃｃａｌｌ）を決定することによって、調製および／または分析のバイアスを克服するための方法を提供する。

いくつかの実施形態において、本発明の局面は、多重診断方法（ｍｕｌｔｉｐｌｅｘｄｉａｇｎｏｓｔｉｃｍｅｔｈｏｄ）に関することが認識されるだろう。いくつかの実施形態において、多重診断方法は、複数の遺伝子座（例えば、表１からの１つ以上の遺伝子座）を並行して捕捉する工程を包含する。いくつかの実施形態において、それらの遺伝子座は、１つ以上の多型（例えば、表２からの１つ以上の多型）を有し、その遺伝子型は、疾患を引き起こす対立遺伝子に対応する。したがって、いくつかの実施形態において、本開示は、複数の遺伝性障害を並行して評価するための方法を提供する。いくつかの実施形態において、着床前、出生前、出生時または出生後の段階において複数の遺伝性障害を並行して診断するための方法が提供される。いくつかの実施形態において、本開示は、患者サンプル（例えば、血液、着床前胚、絨毛または羊水サンプル）から、または本発明の局面はこの点に限定されないので、他のサンプル（例えば、他の生体液または組織サンプル、例えば、生検サンプル）から複数の遺伝子座（例えば、表１から選択される複数の標的核酸）を分析するための方法を提供する。

他のサンプルとしては、腫瘍組織または循環腫瘍細胞が挙げられ得る。いくつかの実施形態において、患者サンプル（例えば、腫瘍組織サンプルまたは腫瘍細胞サンプル）は、目的の１つ以上の変異に対する寄せ集めであるので、生殖細胞系列における変異の分析に必要な感度よりも高い感度を必要とし得る。いくつかの実施形態において、サンプルは、宿主生物に由来しない細胞（例えば、ヒト被験体内の細菌感染物またはウイルス感染物）または環境モニタリング用のサンプル（例えば、土壌、水または大気サンプルの細菌、ウイルス、真菌の組成物）を含む。

したがって、いくつかの実施形態において、本明細書中に開示される方法の局面は、標的核酸の多型の遺伝子タイピングに関する。いくつかの実施形態において、遺伝子タイピングは、標的核酸の１つ以上の対立遺伝子がヘテロ接合であるかまたはホモ接合であるかを決定することを包含し得る。さらなる実施形態において、遺伝子タイピングは、多型の配列を決定すること、およびその配列を、疾患リスクを示唆するコントロール配列と比較することを包含し得る。いくつかの実施形態において、多型は、表１または表２における遺伝子座から選択される。しかしながら、目的の疾患または状態に関連する任意の遺伝子座が使用され得ることが認識されるだろう。

いくつかの実施形態において、被験体の１つ以上の遺伝子座において決定された遺伝子型に基づいて（例えば、被験体から得られた生物学的サンプルの分析に基づいて）、診断、予後または疾患リスクの評価が、その被験体に対して提供される。いくつかの実施形態において、１つ以上の遺伝子座における夫婦のそれぞれの遺伝子型に基づいて、ある疾患または状態に関連する遺伝子型（例えば、ある疾患または状態に関連するホモ接合またはヘテロ接合の遺伝子型）を有する１人以上の小児を有するリスクに関する評価がその夫婦に提供される。いくつかの実施形態において、被験体または夫婦は、本発明の実施形態に従って決定された遺伝子型に関連して遺伝カウンセリングまたは生殖カウンセリングを求め得る。いくつかの実施形態において、腫瘍または循環腫瘍細胞からの遺伝情報は、予後を決定するためおよび適切な薬物／処置の選択を導くために使用される。

本明細書中に記載される任意の方法または組成物は、本明細書中に記載されるような１つ以上の遺伝子座に関連する任意の医学的評価と組み合わせて使用され得ることが認識されるだろう。

いくつかの実施形態において、本発明の局面は、多重的なゲノムの捕捉および／または分析（配列決定分析を含む）における系統誤差（バイアス）および／または確率的影響に関連する課題を克服するために有効な方法を提供する。いくつかの実施形態において、本発明の局面は、１つ以上のサンプリング工程および／または分析工程におけるばらつきを回避するため、減少させるためおよび／または説明するために有用である。例えば、いくつかの実施形態において、標的核酸の提示のばらつきおよび捕捉された標的核酸プール内のヘテロ接合性対立遺伝子の不均等なサンプリングが、克服され得る。

したがって、いくつかの実施形態において、本開示は、多重捕捉方法における標的核酸の検出においてばらつきを減少させる方法を提供する。他の実施形態において、その方法は、捕捉プールにおける対立遺伝子の提示を改善し、ゆえに、相違する検出結果を改善する。ある特定の実施形態において、本開示は、従来技術の方法と比べて、捕捉プール内の標的核酸（例えば、遺伝子座）のより均一な提示を達成するための、標的核酸の重複領域を捕捉する複数のプローブ（例えば、分子反転プローブ（ｍｏｌｅｃｕｌａｒｉｎｖｅｒｓｉｏｎｐｒｏｂｅｓ）ＭＩＰｓ）の種々のセットの使用を含む、標的核酸を捕捉するための調製方法を提供する。他の実施形態において、その方法は、例えば、診断目的での、遺伝子座の大規模な並行捕捉に関連するバイアスまたはバイアスのリスクを低下させる。他の実施形態において、複数の遺伝子座の並行検出の再現性を高めるための（例えば、標的核酸の捕捉に対する多型の影響を低下させることによって）方法が提供される。さらなる実施形態において、複数の遺伝子座の並行した分析に対する、プローブ合成および／またはプローブ増幅のばらつきの影響を減少させるための方法が提供される。

いくつかの局面によると、複数の遺伝子座を分析する方法が提供される。いくつかの実施形態において、その方法は、複数の標的核酸の各々をプローブセットと接触させる工程（ここで、各プローブセットは、複数の異なるプローブを含み、各プローブは、標的核酸の複数の部分領域のうちの１つの同じ鎖に隣接する核酸と相補的な５’領域および３’領域に隣接する中央領域を有し、ここで、その標的核酸の部分領域は、異なり、各部分領域は、少なくとも１つの他の部分領域と重複する）、複数の核酸（各々、複数の標的核酸の各々に関して異なる部分領域の核酸配列を有する）を単離する工程、ならびに単離された核酸を分析する工程を包含する。

他の実施形態において、方法は、複数の標的核酸の各々をプローブセットと接触させる工程（ここで、各プローブセットは、複数の異なるプローブを含み、各プローブは、標的核酸の複数の部分領域のうちの１つの同じ鎖に隣接する核酸と相補的な５’領域および３’領域に隣接する中央領域を有し、ここで、その標的核酸の部分領域は、異なり、プローブの５’領域の一部および３’領域の一部は、それぞれ、異なるプローブの５’領域の配列および３’領域の配列を有する）、複数の核酸（各々、複数の標的核酸の各々に関して異なる部分領域の核酸配列を有する）を単離する工程、ならびに単離された核酸を分析する工程を包含する。

本開示の局面は、ゲノムの捕捉、増幅およびシークエンシングの方法における系統誤差および偶然誤差（バイアス）、すなわち、核酸の捕捉および増幅、ならびにシークエンシングライブラリー内のヘテロ接合対立遺伝子の不均衡な提示における大きなばらつきに関連する問題を克服するための方法の発見に部分的に基づく。したがって、いくつかの実施形態において、本開示は、核酸の捕捉および増幅におけるばらつきに関連するエラーを減少させる方法を提供する。他の実施形態において、その方法は、シークエンシングライブラリー内の対立遺伝子の提示を改善し、ゆえに、相違する検出結果を改善する。ある特定の実施形態において、本開示は、個別の核酸分子を独特にタグ化する識別タグ配列（ｄｉｆｆｅｒｅｎｔｉａｔｏｒｔａｇｓｅｑｕｅｎｃｅ）の使用を含む、標的核酸（例えば、遺伝子座）を捕捉するための調製方法を提供する。いくつかの実施形態において、その識別タグ配列のおかげで、シークエンシング反応において観察される識別タグ配列と標的配列との組み合わせの出現に基づいたバイアスの検出が可能になる。他の実施形態において、その方法は、例えば、診断目的での、遺伝子座の捕捉、増幅およびシークエンシングに関連するバイアスによって引き起こされるエラー、またはバイアスのリスクを減少させる。

本発明の局面は、アッセイにおいて同定された標的核酸配列が独立して単離された標的核酸に由来するかまたは複数のコピー数の同じ標的核酸分子に由来するかを決定する（例えば、調製工程、例えば、増幅におけるバイアスに起因して）ために有用である配列タグ（識別タグと呼ばれる）を提供することに関する。この情報は、信頼できる配列情報を得るために、生物学的サンプルから独立して単離された閾値数（ｔｈｒｅｓｈｏｌｄｎｕｍｂｅｒ）の標的核酸の分析を助けるために使用され得、また、所望の程度の信頼度で遺伝子型の結論（例えば、コール）をもたらすために使用され得る。この情報は、１つ以上の核酸調製工程におけるバイアスを検出するためにも使用され得る。

いくつかの実施形態において、本明細書中に開示される方法は、例えば、ゲノムの単離、増幅、シークエンシングに関連する、バイアスを減少させることが重要な任意の用途にとって有用である。例えば、不均一な組織サンプルにおける癌変異の検出、母体に循環する胎児ＤＮＡにおける変異の検出、および着床前遺伝子診断法において単離された細胞における変異の検出。

したがって、いくつかの局面において、被験体の遺伝子タイピングを行う方法が提供される。いくつかの実施形態において、その方法は、独立して単離された少なくとも閾値数の核酸の配列を決定する工程を包含し、ここで、単離された各核酸の配列は、標的核酸配列および識別タグ配列を含み、閾値数は、標的核酸配列と識別タグ配列との独特の組み合わせの数であり、単離された核酸は、標的核酸配列と識別タグ配列との独特の組み合わせを含む場合、独立して単離されたと同定され、ここで、標的核酸配列は、被験体のゲノム遺伝子座の配列である。

いくつかの実施形態において、単離された核酸は、環状化選択（ｃｉｒｃｕｌａｒｉｚａｔｉｏｎｓｅｌｅｃｔｉｏｎ）ベースの調製方法の産物、例えば、分子反転プローブによる捕捉産物である。他の実施形態において、単離された核酸は、増幅ベースの調製方法の産物である。他の実施形態において、単離された核酸は、ハイブリダイゼーションベースの調製方法の産物である。

環状化選択ベースの調製方法は、目的の領域（標的核酸）を共有結合的に閉じた環状分子に選択的に変換し、次いでその環状分子を、代表的には、任意の環状化されていない直鎖状核酸の除去（通常、例えばエキソヌクレアーゼを用いた、酵素的な除去）によって単離する。目的の領域（標的核酸）に隣接する末端および必要に応じてプライマー部位、例えば、シークエンシングプライマー部位を有するオリゴヌクレオチドプローブ（例えば、分子反転プローブ）を設計する。それらのプローブは、ゲノム標的にハイブリダイズすることができ、酵素を用いることにより、第１に（必要に応じて）プローブの末端間の任意のギャップが埋められ、第２に、プローブが閉じてライゲートされる。環状化の後、代表的には、任意の残りの（非標的）直鎖状核酸が除去され、標的核酸が単離（捕捉）される。環状化選択ベースの調製方法には、分子反転プローブによる捕捉反応および「セレクター（ｓｅｌｅｃｔｏｒ）」による捕捉反応が含まれる。いくつかの実施形態において、分子反転プローブによる標的核酸の捕捉は、標的核酸における多型の存在を示す。

増幅ベース（例えば、ＰＣＲベースまたはＬＣＲベースなど）の調製方法において、ゲノム遺伝子座（標的核酸）は、１つ以上のオリゴヌクレオチドプライマーを用いて各遺伝子座を選択的に増幅するポリメラーゼ連鎖反応またはリガーゼ連鎖反応（または他の増幅方法）を用いて直接単離される。プライマーは、標的核酸とハイブリダイズするのに十分かつ標的核酸の増幅をプライミングするのに十分、標的配列と相補的であることが理解されるべきである。様々な分野において公知の方法のいずれか１つが、プライマーの設計および合成のために利用され得る。１つ以上のプライマーが、標的配列と完全に相補的であり得る。縮重プライマーもまた使用され得る。プライマーは、標的配列と相補的でないが下流の用途を容易にする追加の核酸（例えば、制限酵素認識部位および識別タグ配列を含む）も含み得る。増幅ベースの方法は、単一標的核酸の増幅および多重増幅（複数の標的核酸の並行した増幅）を含む。

ハイブリダイゼーションベースの調製方法は、さらなる操作のために標的核酸を選択的に固定化する工程を包含し得る。識別タグ配列を含み、かつ１５〜１７０ヌクレオチド長であり得る１つ以上のオリゴヌクレオチド（固定化オリゴヌクレオチド）が使用され、そのオリゴヌクレオチドが、遺伝子座の標的領域にわたってハイブリダイズすることにより、その標的領域が固定化されることが理解されるべきである。いくつかの実施形態において、固定化オリゴヌクレオチドは、ハイブリダイゼーションが行われる前に固定化されるか（例えば、Ｒｏｃｈｅ／Ｎｉｍｂｌｅｇｅｎ「配列捕捉」）、または例えば、ストレプトアビジンでコーティングされたマイクロビーズに結合することによってハイブリダイゼーションの後に標的核酸を選択的に固定化するために使用され得る部分（例えば、ビオチン）を含むように調製される（例えば、Ａｇｉｌｅｎｔ「ＳｕｒｅＳｅｌｅｃｔ」）。

本明細書中に記載される環状化、増幅および／またはハイブリダイゼーションベースの方法のいずれかが、本明細書中に記載されるタイリング（ｔｉｌｉｎｇ）／スタガリング（ｓｔａｇｇｅｒｉｎｇ）、タギング、サイズ検出および／または感度増強アルゴリズムのうちの１つ以上に関連して使用され得ることが認識されるだろう。

いくつかの実施形態において、本明細書中に開示される方法は、分子反転プローブによる捕捉産物（各捕捉産物は、分子反転プローブおよび標的核酸を含む）の配列を決定する工程（ここで、その分子反転プローブの配列は、識別タグ配列および必要に応じてプライマー配列を含み、標的核酸は、被験体の捕捉されるゲノム遺伝子座である）および分子反転プローブによる捕捉産物の標的核酸配列と識別タグ配列との少なくとも閾値数の独特の組み合わせの配列に基づいて、捕捉されたゲノム遺伝子座において被験体の遺伝子タイピングを行う工程を包含する。

いくつかの実施形態において、本明細書中に開示される方法は、分子反転プローブによる捕捉産物（各捕捉産物は、分子反転プローブおよび標的核酸を含む）を得る工程（ここで、その分子反転プローブの配列は、識別タグ配列および必要に応じてプライマー配列を含み、ここで、標的核酸は、被験体の捕捉されるゲノム遺伝子座である）、分子反転プローブによる捕捉産物を増幅する工程、ならびに各標的核酸について、分子反転プローブによる捕捉産物の標的核酸配列と識別タグ配列との少なくとも閾値数の独特の組み合わせの配列を決定することによって被験体の遺伝子タイピングを行う工程を包含する。ある特定の実施形態において、上記の得る工程は、分子反転プローブ（各々が独特の識別タグ配列を含む）を用いて被験体のゲノムサンプルから標的核酸を捕捉する工程を包含する。特定の実施形態において、捕捉工程は、標的配列と識別タグ配列との同一の組み合わせを用いて２つ以上の分子反転プローブによる捕捉産物が得られる尤度が所定の値と等しいかまたはそれ未満であり、必要に応じてその所定の値が約０．０５である条件下で行われる。

１つの実施形態において、特定の標的核酸配列に対する閾値数は、その遺伝子型に対する所望の統計学的信頼度に基づいて選択される。いくつかの実施形態において、上記方法は、標的核酸配列と識別タグ配列との独特の組み合わせの数に基づいて、遺伝子型に対する統計学的信頼度を決定する工程をさらに包含する。

いくつかの局面によると、複数の遺伝子座を分析する方法が提供される。いくつかの実施形態において、その方法は、分子反転プローブによる複数の捕捉産物（各々、分子反転プローブおよび標的核酸を含む）を得る工程（ここで、その分子反転プローブの配列は、識別タグ配列および必要に応じてプライマー配列（例えば、シークエンシング用または他の伸長反応用のプライマーとして使用される核酸の配列と相補的である配列）を含む）、その分子反転プローブによる複数の捕捉産物を増幅する工程、増幅された複数のものにおける、分子反転プローブによる捕捉産物の標的核酸配列と識別タグ配列との組み合わせの出現数を測定する工程、ならびに標的核酸配列と識別タグ配列との特定の組み合わせの出現数が、所定の値を超える場合、その特定の組み合わせを含む分子反転プローブの増幅におけるバイアスを検出する工程を包含する。いくつかの実施形態において、その方法は、その複数のものにおける標的配列の遺伝子タイピングを行う工程をさらに包含し、ここで、その遺伝子タイピングは、バイアスが検出された場合にそのバイアスを補正する工程を包含する。

いくつかの実施形態において、標的核酸は、表１から選択される遺伝子（またはその一部）である。いくつかの実施形態において、遺伝子タイピングは、被験体のゲノム（二倍体ゲノム）の１つ以上（両方）の対立遺伝子における標的核酸（例えば、多型配列）の配列を決定することを含む。ある特定の実施形態において、遺伝子タイピングは、被験体の二倍体ゲノムの両方の対立遺伝子における標的核酸の配列を決定することを含み、ここで、その標的核酸は、表１、表２の配列または他の目的の遺伝子座を含むか、またはそれらからなる。

いくつかの実施形態において、本発明の局面は、目的のゲノム領域のヌクレオチド配列を決定することなく、これらの領域における核酸の挿入または欠失を同定するための方法および組成物を提供する。本発明の局面は、核酸配列リピート（例えば、ジヌクレオチドリピートまたはトリヌクレオチドリピート）を含むゲノム領域において核酸の挿入または欠失を検出するために特に有用である。しかしながら、本発明は、核酸リピートを分析することに限定されず、任意の目的の標的核酸における挿入または欠失を検出するためにも使用され得る。本発明の局面は、多重アッセイにおいて複数の遺伝子座を分析するために特に有用である。

いくつかの実施形態において、本発明の局面は、ゲノム捕捉アッセイにおいて捕捉される標的核酸の量が、予想よりも多いまたは少ないことを決定することに関する。いくつかの実施形態において、予想される量からの統計学的に有意な偏差（例えば、多いまたは少ない）は、目的のゲノム領域における核酸の挿入または欠失の存在を示す。いくつかの実施形態において、その量は、捕捉される核酸分子の数である。いくつかの実施形態において、その量は、サンプル中の独立して捕捉された核酸分子の数である。捕捉される核酸は、サンプルから文字通り捕捉されてもよいし、それらの配列は、サンプル中の元の核酸を実際に捕捉することなく捕捉されてもよいことが認識されるだろう。例えば、核酸配列は、サンプル中の、目的の領域を有する鋳型ベースの核酸伸長を含むアッセイにおいて捕捉され得る。

本発明の局面は、ある特定の捕捉手法の効率が、捕捉される核酸の長さに影響されるという認識に基づく。したがって、標的核酸の長さが長くなることまたは短くなること（例えば、反復配列の挿入または欠失に起因して）によって、その核酸の捕捉効率が変化し得る。いくつかの実施形態において、標的核酸の捕捉効率の差（例えば、捕捉効率の統計学的に有意な差）は、標的核酸における挿入または欠失を示唆する。標的核酸に対する捕捉効率は、コントロールの量に対する（例えば、捕捉されたコントロール核酸の量に基づく）、捕捉された核酸の量（例えば、捕捉された核酸分子の数）に基づいて評価され得ることが認識されるだろう。しかしながら、本発明は、この点に限定されず、捕捉効率を評価するための他の手法を使用してもよい。

本発明の局面によると、リピート領域全体の配列を決定することに対立するものとして捕捉効率を評価することは、リピート領域のシークエンシングに関連するエラーを減少させる。リピート配列は、種々の条件下において複数のシークエンシング反応を行うことなくおよび結果を慎重に分析することなく標的領域内のリピートの数を正確に決定することを困難にするスタッター（ｓｔｕｔｔｅｒ）またはスキップをシークエンシング反応において引き起こすことが多い。そのような手順は、煩わしく、標的核酸のハイスループット分析と一致する様式として容易に拡張できない。いくつかの実施形態において、リピート領域は、個別の配列リード（ｒｅａｄ）の長さよりも長いことがあり、単一のリードに基づいた長さの決定を不可能にする。例えば、次世代シークエンシングを用いるとき、リピート領域は、個別の配列リードの長さよりも長いことがあり、単一のリードに基づいた長さの決定を不可能にする。したがって、本発明の局面は、標的領域、特に、反復配列を含む標的領域における挿入または欠失を検出する感度を高めるために有用である。

いくつかの実施形態において、本発明の局面は、分子反転プローブ（例えば、ＭＩＰまたはパドロックプローブ）法を用いてゲノム核酸配列を捕捉すること、および捕捉された配列の量（例えば、数）が予想よりも多いまたは少ないことを決定することに関する。いくつかの実施形態において、捕捉された配列の量（例えば、数）は、コントロールアッセイにおいて捕捉された配列の量（例えば、数）と比較される。そのコントロールアッセイは、既知の配列長（例えば、既知の核酸リピート数）を有する同じ遺伝子座由来の核酸を含むコントロールサンプルを分析することを含み得る。しかしながら、コントロールは、いかなる挿入または欠失も含むと予想されない第２の（例えば、異なる）遺伝子座を分析することを含み得る。その第２の遺伝子座は、調べられている遺伝子座と同じサンプルまたはその長さが予め測定されている異なるサンプルにおいて分析され得る。その第２の遺伝子座は、核酸リピートの存在を特徴としない（ゆえに、リピート配列の挿入または欠失を含むと予想されない）遺伝子座であり得る。

いくつかの実施形態において、評価されている標的核酸領域は、標的領域（またはその配列）を捕捉するために設計されたプローブの標的化アーム（ｔａｒｇｅｔｉｎｇａｒｍ）の同一性によって決定され得る。例えば、ＭＩＰプローブの標的化アームは、挿入または欠失を含むと疑われる標的領域に隣接するゲノム領域に対して相補的（例えば、選択的なハイブリダイゼーションおよび／／またはポリメラーゼ伸長および／またはライゲーションにとって十分に相補的）であるように設計され得る。２つの標的化アームが、ゲノム核酸の一方の鎖において配列リピートの領域のすぐ隣（例えば、それぞれすぐ５’および３’）である２つの隣接領域に対して相補的（例えば、選択的なハイブリダイゼーションおよび／またはポリメラーゼ伸長および／またはライゲーションにとって十分に相補的）であるように設計され得ることが認識されるだろう。しかしながら、一方または両方の標的化アームは、捕捉される配列が、リピート領域の片側または両側に独特のゲノム配列の領域を含むように、リピート領域から数塩基（例えば、１〜５、５〜１０、１０〜２５、２５〜５０またはそれ以上）上流または下流とハイブリダイズするように設計され得る。次いで、この独特の領域を用いることにより、捕捉された標的を同定することができる（例えば、配列情報またはハイブリダイゼーション情報に基づいて）。

いくつかの実施形態において、２つ以上（例えば、２、３、４、５、６、７、８、９、１０個またはそれ以上）の異なる遺伝子座が、単一アッセイ（例えば、多重アッセイ）において並行して調べられ得る。いくつかの実施形態において、各遺伝子座に対する捕捉された核酸の比を用いることにより、核酸の挿入または欠失が、他の遺伝子座と比べて１つの遺伝子座に存在するか否かが決定され得る。例えば、その比は、コントロール配列（例えば、正常である配列またはそれらの遺伝子座について健常表現型に関連すると知られている配列）と比べて挿入または欠失を有しないときの２つの遺伝子座を代表するコントロール比と比較され得る。しかしながら、捕捉された核酸の量は、本明細書中で述べられるような任意の適当なコントロールと比較されてもよい。

捕捉された配列の遺伝子座は、欠失または挿入を含むと疑われる標的核酸内のリピート領域に対して５’および／または３’の独特の配列の一部を決定することによって同定され得る。これは、捕捉されたリピート領域自体のシークエンシングを必要としない。しかしながら、本発明の局面は、この点に限定されないので、リピート領域の一部または全部が配列決定され得る。

本発明の局面は、１つ以上の配列ベースのアッセイ（例えば、ＳＮＰ検出アッセイ）と組み合わせる（例えば多重形式で）ことにより、被験体の１つ以上の領域の遺伝子型を決定し得る。

いくつかの実施形態において、生物学的サンプル中の核酸において多型を検出する方法が提供される。いくつかの実施形態において、その方法は、１つ以上の遺伝子座における捕捉の効率を評価する工程、ならびにその遺伝子座における一方または両方の対立遺伝子がコントロール遺伝子座（例えば、健常表現型に関連するリピート配列の長さを示す遺伝子座）と比べて挿入または欠失を含むか否かを決定する工程を包含する。

したがって、本発明の局面は、被験体由来の生物学的サンプル中の標的核酸の捕捉効率を評価することによって、標的核酸が異常な長さを有するか否かを決定するための方法に関し、ここで、基準となる捕捉効率と異なる捕捉効率は、生物学的サンプル中の異常な長さを有する標的核酸の存在を示す。用語「異常な」は、「正常な」長さとの比較に基づく相対的な用語であることが認識されるだろう。いくつかの実施形態において、正常な長さは、正常（例えば、健常者または非保因者の表現型）に関連する長さである。したがって、異常な長さは、正常な長さよりも短いかまたは長い長さである。いくつかの実施形態において、異常な長さの存在は、その遺伝子座が疾患または疾患保因者表現型に関連する高いリスクを示唆する。いくつかの実施形態において、異常な長さは、その被験体が、ある疾患もしくは状態を有するか、またはある疾患もしくは状態（例えば、その遺伝子座に関連するもの）の保因者であることを示唆する。しかしながら、異常な長さの存在を検出することに関する実施形態の記載は、予想される長さまたはコントロールの長さと異なる長さの存在を検出することも支持することが認識されるだろう。

いくつかの実施形態において、本発明の局面は、標的核酸（例えば、標的核酸内のサブターゲット（ｓｕｂ−ｔａｒｇｅｔ）領域）の長さを推定することに関する。いくつかの実施形態において、本発明の局面は、標的核酸に対する検出プローブのハイブリダイゼーションを可能にする条件下で複数の検出プローブと標的核酸を接触させること（ここで、各検出プローブは、標的核酸の第１の領域にハイブリダイズする第１のアームおよび標的核酸の第２の領域にハイブリダイズする第２のアームを含むポリヌクレオチドであり、ここで、第１の領域および第２の領域は、標的核酸の共通の鎖に存在し、第１の領域の５’末端と第２の領域の３’末端との間の標的のヌクレオチド配列は、サブターゲット核酸のヌクレオチド配列である）；および複数の検出プローブとハイブリダイズした複数のサブターゲット核酸を捕捉すること；および複数のサブターゲット核酸におけるあるサブターゲット核酸の出現頻度を測定すること（ここで、複数のサブターゲット核酸におけるあるサブターゲット核酸の出現頻度は、サブターゲット核酸の長さを示す）によって、標的核酸の長さを推定するための方法に関する。核酸の長さを推定するための方法は、標的核酸領域が、既知のコントロール長よりも短いか、中間であるか、または長いかを決定するために、既知の核酸の長さに対する２つ以上の基準となる効率と、標的核酸領域に対する捕捉効率を比較する工程を包含し得ることが認識されるだろう。いくつかの実施形態において、異なる既知の長さの一連の核酸を用いることにより、目的の標的核酸領域の長さを評価するための検量線が提供され得る。

いくつかの実施形態において、欠失または挿入を有すると疑われる標的領域の捕捉効率は、その捕捉効率を、正常の捕捉効率を示す参照と比較することによって測定される。いくつかの実施形態において、捕捉効率は、基準となる捕捉効率よりも低い。いくつかの実施形態において、被験体は、標的領域に挿入を有すると同定される。いくつかの実施形態において、捕捉効率は、基準となる捕捉効率よりも高い。いくつかの実施形態において、被験体は、標的領域に欠失を有すると同定される。いくつかの実施形態において、被験体は、挿入についてヘテロ接合であると同定される。いくつかの実施形態において、被験体は、欠失についてヘテロ接合であると同定される。

本明細書中に記載される方法（例えば、タイリング／スタガリング、タギング、サイズ検出および／または感度増強）のいずれかのいくつかの実施形態において、本発明の局面は、サブターゲット核酸（またはサブターゲット核酸の配列）を捕捉することに関する。いくつかの実施形態において、分子反転プローブの手法が用いられる。いくつかの実施形態において、分子反転プローブは、その５’末端に第１の標的化アームを含み、その３’末端に第２の標的化アームを含む核酸の直鎖状の一本鎖であり、ここで、その第１の標的化アームは、サブターゲット核酸の一方の末端に隣接する第１の領域と特異的にハイブリダイズすることができ、第２の標的化アームは、標的核酸の同じ鎖におけるサブターゲット核酸の他方の末端に隣接する第２の領域と特異的にハイブリダイズすることができる。いくつかの実施形態において、第１および第２の標的化アームは、約１０〜約１００ヌクレオチド長である。いくつかの実施形態において、第１および第２の標的化アームは、約１０〜２０、２０〜３０、３０〜４０または４０〜５０ヌクレオチド長である。いくつかの実施形態において、第１および第２の標的化アームは、約２０ヌクレオチド長である。いくつかの実施形態において、第１および第２の標的化アームは、同じ長さを有する。いくつかの実施形態において、第１および第２の標的化アームは、異なる長さを有する。いくつかの実施形態において、プローブセットにおける第１の標的化アームと第２の標的化アームとの各対は、同じ長さを有する。したがって、一方の標的化アームのほうが長い場合、他方は、対応してより短い。これにより、いくつかの実施形態における精度管理工程が、捕捉されたすべてのプローブ／標的配列産物が多重化された複数の捕捉反応の後に同じ長さを有することを保証することが可能になる。いくつかの実施形態において、介在領域が、第１および第２の標的化アームの一方または両方の長さの任意の差異を吸収する（ａｃｃｏｍｍｏｄａｔｅ）ように変更される場合、プローブセットは、同じ長さを有するように設計され得る。

いくつかの実施形態において、第１および第２の標的化アームのハイブリダイゼーションＴｍは、同様のものである。いくつかの実施形態において、第１および第２の標的化アームのハイブリダイゼーションＴｍは、互いの２〜５℃以内である。いくつかの実施形態において、第１および第２の標的化アームのハイブリダイゼーションＴｍは、同一である。いくつかの実施形態において、第１および第２の標的化アームのハイブリダイゼーションＴｍは、経験的に決定される最適条件に近いが、必ずしも同一でない。

いくつかの実施形態において、分子反転プローブの第１および第２の標的化アームは、異なるＴｍを有する。例えば、第１の標的化アーム（分子反転プローブの５’末端におけるもの）のＴｍは、第２の標的化アーム（分子反転プローブの３’末端におけるもの）のＴｍよりも高いことがある。本発明の局面によると、理論に拘束するつもりはないが、第１の標的化アームに対するＴｍが相対的に高いことにより、第１の標的化アームが、第２の標的化アームの３’末端の伸長産物によってハイブリダイゼーション後に置き換えられることを回避するかまたは防ぐのが助けられ得る。本明細書中で使用されるような標的化アームのＴｍに対する参照は、相補的配列（例えば、標的化アームの配列と相補的である配列を有する標的核酸の領域）を有する核酸に対する標的化アームのハイブリダイゼーションＴｍに関するものであることが認識されるだろう。また、本明細書中に記載される標的化アームのＴｍは、任意の適切な方法を用いて計算され得ることも認識されるだろう。例えば、いくつかの実施形態において、ある実験方法（例えば、ゲルシフトアッセイ、ハイブリダイゼーションアッセイ、融解曲線分析法、例えば、インターカレート色素（例えば、二本鎖ＤＮＡに結合した色素など）からのシグナルレベルをモニタリングしつつ温度勾配（ｔｅｍｐｅｒａｔｕｒｅｒａｍｐ）を行うことによるＳＹＢＲ色素を用いるＰＣＲ機器における融解曲線分析法）を用いることにより、１つ以上のＴｍが経験的に測定され得る。いくつかの実施形態において、最適なＴｍは、形成された産物の数を評価すること（例えば、複数のＭＩＰプローブの各々について）、および最適なＴｍを、すべての標的化アームに対するＴｍのヒストグラムにおける中心点として決定することによって、決定され得る。いくつかの実施形態において、予測アルゴリズムを用いることにより、Ｔｍが理論的に決定され得る。いくつかの実施形態において、配列がその標的とハイブリダイズするときのＧ／ＣおよびＡ／Ｔ塩基対の数ならびに／またはハイブリダイズ産物の長さに基づいた比較的単純な予測アルゴリズムが用いられ得る（例えば、例えば、６４．９＋４１^＊（［Ｇ＋Ｃ］−１６．４）／（Ａ＋Ｔ＋Ｇ＋Ｃ）、例えば、Ｗａｌｌａｃｅ，Ｒ．Ｂ．，Ｓｈａｆｆｅｒ，Ｊ．，Ｍｕｒｐｈｙ，Ｒ．Ｆ．，Ｂｏｎｎｅｒ，Ｊ．，Ｈｉｒｏｓｅ，Ｔ．，ａｎｄＩｔａｋｕｒａ，Ｋ．（１９７９）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ６：３５４３−３５５７を参照のこと）。いくつかの実施形態において、より複雑なアルゴリズムを用いることにより、塩基のスタッキングのエントロピーおよびエンタルピー、イオン濃度ならびにプライマー濃度の作用が説明され得る（例えば、ＳａｎｔａＬｕｃｉａＪ（１９９８），ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ，９５：１４６０−５を参照のこと）。いくつかの実施形態において、アルゴリズムは、改変パラメータ（例えば、塩基対のエントロピー／エンタルピー値に対する最近接パラメータ）を使用し得る。本発明の局面は、この点に限定されないので、任意の適当なアルゴリズムを使用してもよいことが認識されるだろう。しかしながら、種々の方法によって、同じ配列に対して異なるＴｍの計算値または予測値がもたらされ得ることも認識されるだろう。したがって、いくつかの実施形態において、異なるＴｍについて所定の類似度または差異を有するプローブのセットを設計するとき、Ｔｍの決定または予測における任意の体系的な差異の負の影響を回避するように、プローブセットに対する種々の配列のＴｍを決定するために同じ経験的な方法および／または理論的な方法が用いられる。

いくつかの実施形態において、第１の標的化アームのＴｍは、第２の標的化アームのＴｍよりも約１℃、約２℃、約３℃、約４℃、約５℃高いかまたは約５℃超高いことがある。いくつかの実施形態において、複数のプローブにおける各プローブ（例えば、５〜１０個の異なるプローブのセットにおける各プローブ、少なくとも１０個の異なるプローブのセットにおける各プローブ、１０〜５０個の異なるプローブのセットにおける各プローブ、５０〜１００個の異なるプローブのセットにおける各プローブ、１００〜５００個の異なるプローブのセットにおける各プローブ、５００〜１，０００個の異なるプローブのセットにおける各プローブ、１，０００〜１，５００個の異なるプローブのセットにおける各プローブ、１，５００〜２，０００個の異なるプローブのセットにおける各プローブ、２，０００〜３，０００個の異なるプローブのセットにおける各プローブ、３，０００〜５，０００個の異なるプローブのセットにおける各プローブ、５，０００〜１０，０００個の異なるプローブのセットにおける各プローブまたは少なくとも５，０００個の異なるプローブのセットにおける各プローブ）は、独特の第１の標的化アーム（例えば、それらすべてが異なる配列を有する）および独特の第２の標的化アーム（例えば、それらすべてが異なる配列を有する）を有する。いくつかの実施形態において、プローブの少なくとも１０％（例えば、プローブの少なくとも２５％、２５％〜５０％、５０％〜７５％、７５％〜９０％、９０％〜９５％もしくは９５％超またはすべて）について、第１の標的化アームは、第２の標的化アームの相補的配列に対する第２の標的化アームのＴｍよりも高い（例えば、約１℃、約２℃、約３℃、約４℃、約５℃高いかまたは約５℃超高い）第１の標的化アームの相補的配列に対するＴｍを有する。いくつかの実施形態において、第１の標的化アームの各々は、それらのそれぞれの相補的配列に対する同様または同一のＴｍを有し、第２の標的化アームの各々は、それらのそれぞれの相補的配列に対する同様または同一のＴｍを有する（そして、第１の標的化アームは、第２の標的化アームよりも高いＴｍを有する）。例えば、いくつかの実施形態において、第１のアームのＴｍは、約５８℃であり得、第２のアームのＴｍは、約５６℃であり得る。いくつかの実施形態において、第１のアームのＴｍは、約６８℃であり得、第２のアームのＴｍは、約６５℃であり得る。いくつかの実施形態において、異なる標的化アームに対するＴｍの類似度（例えば、１℃、２℃、３℃、４℃、５℃の範囲内）または同一性は、各アームに対して経験的なデータに基づくべきであるか、または各アームに対して同じ予測アルゴリズム（例えば、Ｗａｌｌａｃｅ，Ｒ．Ｂ．，Ｓｈａｆｆｅｒ，Ｊ．，Ｍｕｒｐｈｙ，Ｒ．Ｆ．，Ｂｏｎｎｅｒ，Ｊ．，Ｈｉｒｏｓｅ，Ｔ．，ａｎｄＩｔａｋｕｒａ，Ｋ．（１９７９）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ６：３５４３−３５５７，ＳａｎｔａＬｕｃｉａＪ（１９９８），ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ，９５：１４６０−５または他のアルゴリズム）に基づくべきであることが認識されるだろう。

いくつかの実施形態において、分子反転プローブの第１の標的化アーム（分子反転プローブの５’末端におけるもの）のＴｍは、標的核酸におけるその相補的配列からの第１の標的化アームの置き換えを防ぐのに十分に安定であるように選択される。いくつかの実施形態において、第１の標的化アームのＴｍは、５０〜５５℃、少なくとも５５℃、５５〜６０℃、少なくとも６０℃、６０〜６５℃、少なくとも６５℃、少なくとも７０℃、少なくとも７５℃または少なくとも８０℃である。上で考察されたように、特定の標的化アームが経験的または理論的に決定され得ることが認識されるだろう。種々の理論モデルを用いることにより、Ｔｍが決定され得、また、特定の配列に対して予想されるＴｍは、その予測に使用されるアルゴリズムに応じて異なり得ることが認識されるだろう。いくつかの実施形態において、複数のプローブ中の各プローブ（例えば、５〜１０個の異なるプローブのセットにおける各プローブ、少なくとも１０個の異なるプローブのセットにおける各プローブ、１０〜５０個の異なるプローブのセットにおける各プローブ、５０〜１００個のセット異なるプローブにおける各プローブ、１００〜５００個の異なるプローブのセットにおける各プローブ、または少なくとも５００個の異なるプローブのセットにおける各プローブ）は、異なる第１の標的化アーム（例えば、異なる配列）を有するが、異なる第１の標的化アームの各々は、標的核酸におけるその相補的配列に対する同様または同一のＴｍを有する。いくつかの実施形態において、異なる標的化アームに対するＴｍの類似度（例えば、１℃、２℃、３℃、４℃、５℃の範囲内）または同一性は、各アームに対して経験的なデータに基づくべきであるか、または各アームに対して同じ予測アルゴリズム（例えば、Ｗａｌｌａｃｅ，Ｒ．Ｂ．，Ｓｈａｆｆｅｒ，Ｊ．，Ｍｕｒｐｈｙ，Ｒ．Ｆ．，Ｂｏｎｎｅｒ，Ｊ．，Ｈｉｒｏｓｅ，Ｔ．，ａｎｄＩｔａｋｕｒａ，Ｋ．（１９７９）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ６：３５４３−３５５７，ＳａｎｔａＬｕｃｉａ
Ｊ（１９９８），ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ，９５：１４６０−５または他のアルゴリズム）に基づくべきであることが認識されるだろう。

いくつかの実施形態において、サブターゲット核酸は、核酸リピートを含む。いくつかの実施形態において、核酸リピートは、ジヌクレオチドまたはトリヌクレオチドリピートである。いくつかの実施形態において、サブターゲット核酸は、核酸リピートの異常な増加または減少の非存在下において１０〜１００コピーの核酸リピートを含む。いくつかの実施形態において、サブターゲット核酸は、核酸リピートを含む脆弱Ｘ遺伝子座の領域である。いくつかの実施形態において、一方または両方の標的化アームは、核酸リピートの領域のすぐ隣の標的核酸における領域とハイブリダイズする。いくつかの実施形態において、一方または両方の標的化アームは、任意の核酸リピートを含まない領域によって核酸リピートの領域から分離された標的核酸における領域とハイブリダイズする。いくつかの実施形態において、分子反転プローブは、捕捉されるサブターゲット核酸ならびに必要に応じて第１の標的化アームおよび／または第２の標的化アームを配列決定するために使用され得るプライマー結合領域をさらに含む。

いくつかの実施形態において、本発明の局面は、生物学的サンプル中の複数の異なる標的核酸の長さを評価することに関する。いくつかの実施形態において、その複数の標的核酸は、複数の異なる分子反転プローブを用いて分析される。いくつかの実施形態において、異なる分子反転プローブの各々は、３’および５’末端の各々に第１の標的化アームと第２の標的化アームとの異なる対を含む。いくつかの実施形態において、異なる分子反転プローブの各々は、同じプライマー結合配列を含む。

いくつかの実施形態において、本発明の局面は、被験体から得られた生物学的サンプル由来の核酸を分析することに関する。いくつかの実施形態において、その生物学的サンプルは、血液サンプルである。いくつかの実施形態において、その生物学的サンプルは、組織サンプル、特定の細胞集団、腫瘍サンプル、循環腫瘍細胞または環境サンプルである。いくつかの実施形態において、生物学的サンプルは、単一の細胞である。いくつかの実施形態において、核酸は、複数の異なる被験体から得られた生物学的サンプルにおいて分析される。いくつかの実施形態において、生物学的サンプル由来の核酸は、多重反応において分析される。生物学的サンプルは、サンプル中の複数の細胞から得られた複数のコピー数のゲノムを含むことが認識されるだろう。したがって、サンプルは、複数の独立したコピー数の目的の標的核酸領域を含み得、その標的核酸領域の捕捉効率は、本明細書中に記載されるようにそのサイズを評価するために使用され得る。

いくつかの実施形態において、本発明の局面は、捕捉された標的核酸の量（例えば、捕捉されたサブターゲット核酸配列の量）を測定することによって核酸の捕捉効率を評価することに関する。いくつかの実施形態において、捕捉された標的核酸の量は、独立して捕捉された標的核酸分子の数（例えば、サブターゲット領域の配列を有する独立して捕捉された分子の量）を測定することによって測定される。いくつかの実施形態において、捕捉された標的核酸の量は、捕捉された核酸の基準となる量と比較される。いくつかの実施形態において、基準となる量は、基準となる核酸の独立して捕捉された分子の数を測定することによって測定される。いくつかの実施形態において、基準となる核酸は、欠失または挿入を含むと疑われない生物学的サンプル中の異なる遺伝子座の核酸である。いくつかの実施形態において、基準となる核酸は、捕捉反応に加えられる、既知サイズおよび既知量の核酸である。本明細書中に記載されるように、独立して捕捉された核酸配列の数は、核酸サンプルをプローブの調製物（例えば、本明細書中に記載されるようなＭＩＰプローブ）と接触させることによって測定され得る。その調製物は、複数のコピー数の同じプローブを含み得、よって、複数の独立したコピー数の標的領域が、異なるプローブ分子によって捕捉され得ることが認識されるだろう。配列を実際に捕捉するプローブ分子の数は、捕捉された分子の量または数を、任意の適当な手法を用いて測定することによって評価され得る。この数は、サンプル中の標的分子の数と、それらの標的分子の捕捉効率の両方を反映するものであり、それは、本明細書中に記載されるような標的分子のサイズに関する。したがって、捕捉効率は、標的核酸の存在量について照らし合わせることによって、例えば、捕捉された標的分子の数または量を適切なコントロール（例えば、コントロール核酸の既知のサイズおよび量、または生物学的サンプル中に同じ量で存在するはずであり、いずれの挿入もしくは欠失も含まないと予想される、異なる遺伝子座）と比較することによって、評価され得る。他の因子（例えば、領域の配列、ＧＣ含有量、二次構造の存在など）も、特定の標的核酸領域の捕捉効率に影響し得ることが認識されるだろう。しかしながら、これらの因子は、適切なコントロール（例えば、同様の特性を有する公知の配列、同じ配列、同じ頻度で生物学的サンプル中に存在すると予想される他のゲノム配列など、またはそれらの任意の組み合わせ）を用いることによっても説明され得る。

いくつかの実施形態において、本発明の局面は、ある遺伝子座に対する捕捉効率が、基準となる捕捉効率と統計学的に有意に異なる場合に、その遺伝子座の１つ以上の対立遺伝子に挿入または欠失を有すると被験体を同定することに関する。

本明細書中に記載される捕捉手法のいずれか（例えば、ＭＩＰによる捕捉手法）のために用いられるハイブリダイゼーション条件は、公知のハイブリダイゼーション緩衝液およびハイブリダイゼーション条件に基づき得ることが認識されるだろう。

いくつかの実施形態において、本明細書中に開示される方法は、欠失または挿入の検出が重要である任意の用途にとって有用である。

いくつかの実施形態において、本発明の局面は、核酸配列の分析を、サンプリングされる核酸のタイプで異なる系統誤差を有する２つ以上の異なる核酸調製手法からの結果に基づかせることに関する。本発明によると、体系的であり、かつ単純に核酸の捕捉中または増幅中の確率的影響に起因しない、種々の配列バイアスを種々の手法は有する。したがって、核酸調製における変動を克服するために必要な過剰サンプリングの程度は、そのバイアスを克服するのに十分であること（例えば、２〜５倍、５〜１０倍、５〜１５倍、１５〜２０倍、２０〜３０倍、３０〜５０倍またはその中間からそれより高い倍数の過剰サンプリング）が必要である。

いくつかの実施形態によると、種々の手法は、種々の特徴的なバイアスまたは系統誤差を有する。例えば、１つの手法は、サンプル分析を目的の遺伝子座における１つの特定の対立遺伝子に偏らせ得るのに対し、別の手法は、サンプル分析を同じ遺伝子座の別の対立遺伝子に偏らせ得る。したがって、同じサンプルが、配列分析にむけて核酸を調製するために使用される手法のタイプに応じて、異なると同定され得る。各手法が、目的の多型配列に対して異なる相対的な感度を有するので、これは、感度の限界を効率的に表す。

本発明の局面によると、核酸分析の感度は、異なる核酸調製工程からの配列を組み合わせ、組み合わされた配列情報を診断アッセイのために（例えば、被験体が目的の遺伝子座においてホモ接合であるかまたはヘテロ接合であるかに関するコールを生成するために）用いることによって、高められ得る。

いくつかの実施形態において、本発明は、生物学的サンプルに対して第１の調製方法を用いて標的核酸の第１の調製物を得て、生物学的サンプルに対して第２の調製方法を用いて標的核酸の第２の調製物を得て、第１の核酸調製物と第２の核酸調製物との両方において得られた配列をアッセイして、そして第１の核酸調製物と第２の核酸調製物との両方からの配列情報を用いることにより、生物学的サンプル中の標的核酸の遺伝子型を決定することによって、核酸検出アッセイの感度を高める方法を提供し、ここで、その第１の調製方法および第２の調製方法は、異なる体系的な配列バイアスを有する。いくつかの実施形態において、第１の核酸調製物および第２の核酸調製物は、配列アッセイを行う前に組み合わされる。いくつかの実施形態において、別個の配列アッセイが、第１の核酸調製物および第２の核酸調製物において行われ、両方のアッセイからの配列情報が、組み合わされることにより、生物学的サンプル中の標的核酸の遺伝子型が決定される。いくつかの実施形態において、第１の調製方法は、増幅ベース、ハイブリダイゼーションベース、または環状プローブベースの調製方法である。いくつかの実施形態において、第２の方法は、増幅ベース、ハイブリダイゼーションベース、または環状プローブベースの調製方法である。いくつかの実施形態において、第１および第２の方法は、異なるタイプの方法である（例えば、それらのうちの一方だけが、増幅ベース、ハイブリダイゼーションベース、または環状プローブベースの調製方法であり、他方の方法は、他の２つのタイプの方法のうちの１つである）。したがって、いくつかの実施形態において、第２の調製方法は、増幅ベース、ハイブリダイゼーションベース、または環状プローブベースの調製方法であるが、但し、第２の方法は、第１の方法と異なる。しかしながら、いくつかの実施形態において、両方の方法が、異なる方法であるならば（例えば、両方ともが、増幅ベースまたはハイブリダイゼーションベースの方法であるが、異なるタイプの増幅方法またはハイブリダイゼーション方法、例えば、異なる相対的なバイアスを有する方法であるならば）、それらの両方の方法は、同じタイプの方法であってもよい。

増幅ベース（例えば、ＰＣＲベースまたはＬＣＲベースなど）の調製方法において、ゲノム遺伝子座（標的核酸）は、オリゴヌクレオチドプライマー対を用いて各遺伝子座を選択的に増幅するポリメラーゼ連鎖反応またはリガーゼ連鎖反応（または他の増幅方法）を用いて直接単離される。プライマーは、標的核酸とハイブリダイズするのに十分、および標的核酸の増幅をプライミングするのに十分、標的配列と相補的であることが理解されるべきである。様々な分野において公知の方法のいずれか１つが、プライマーの設計および合成のために利用され得る。プライマーの一方または両方が、標的配列と完全に相補的であり得る。縮重プライマーも使用され得る。プライマーは、標的配列と相補的でないが下流の用途を容易にする追加の核酸（例えば、制限酵素認識部位および識別配列（例えば、ソース配列）を含む）も含み得る。ＰＣＲベースの方法には、単一の標的核酸の増幅および多重増幅（複数の標的核酸の並行した増幅）が含まれ得る。

ハイブリダイゼーションベースの調製方法は、さらなる操作のために標的核酸を選択的に固定化する工程を包含し得る。いくつかの実施形態において１０〜２００ヌクレオチド長であり得る１つ以上のオリゴヌクレオチド（固定化オリゴヌクレオチド）が使用され、そのオリゴヌクレオチドは、遺伝子座の標的領域にわたってハイブリダイズすることにより、その標的領域が固定化されることが理解されるべきである。いくつかの実施形態において、固定化オリゴヌクレオチドは、ハイブリダイゼーションが行われる前に固定化されるか（例えば、Ｒｏｃｈｅ／Ｎｉｍｂｌｅｇｅｎ「配列捕捉」）、または例えば、ストレプトアビジンでコーティングされたマイクロビーズに結合することによってハイブリダイゼーションの後に標的核酸を選択的に固定化するために使用され得る部分（例えば、ビオチン）を含むように調製される（例えば、Ａｇｉｌｅｎｔ「ＳｕｒｅＳｅｌｅｃｔ」）。

環状化選択ベースの調製方法は、目的の各領域を共有結合的に閉じた環状分子に選択的に変換し、次いで、その環状分子は、任意の環状化されていない直鎖状核酸を除去すること（通常、例えばエキソヌクレアーゼを用いた、酵素的な除去）によって単離される。目的の領域に隣接する末端を有するオリゴヌクレオチドプローブが設計される。それらのプローブは、ゲノム標的へのハイブリダイズを可能にし、酵素を用いることにより、第１に（必要に応じて）、プローブ末端間の任意のギャップを埋め、第２に、閉じたプローブをライゲートする。いくつかの実施形態において、環状化の後、任意の残りの（非標的）直鎖状核酸が除去されることにより、標的核酸の単離（捕捉）が生じ得る。環状化選択ベースの調製方法は、分子反転プローブによる捕捉反応および「セレクター」による捕捉反応を含む。しかしながら、本発明の局面は、この点に限定されないので、他の手法を使用してもよい。いくつかの実施形態において、標的核酸の分子反転プローブによる捕捉は、標的核酸における多型の存在を示す。

各調製手法のバイアスプロファイルを評価するためおよび比較するために、様々な方法が使用され得る。次世代シークエンシングを用いることにより、ある特定の調製方法から得られた単離された各標的核酸の存在量が定量的に測定され得る。この存在量は、コントロール存在量の値（例えば、標的核酸の既知の出発存在量）および／または代替の調製方法を使用することによって測定された存在量と比較され得る。例えば、標的核酸のセットは、３つの調製方法のうちの１つ以上によって単離され得る；その標的核酸は、増幅法を用いてｘ回、ハイブリダイゼーション濃縮（ｈｙｂｒｉｄｉｚａｔｉｏｎｅｎｒｉｃｈｍｅｎｔ）法を用いてｙ回、および環状化選択法を用いてｚ回、観察され得る。ペアワイズ相関係数（ｐａｉｒｗｉｓｅｃｏｒｒｅｌａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ）は、各存在量の値の間（例えば、ｘとｙ、ｘとｚおよびｙとｚとの間）についてコンピュータで計算されることにより、調製方法の対の間の核酸単離におけるバイアスが評価され得る。単離のメカニズムが各アプローチにおいて異なるので、存在量は、通常、互いに異なるものであり、大部分は互いに相関関係がない。

いくつかの実施形態において、本発明は、生物学的サンプル中の標的核酸を代表する核酸調製物を得る方法を提供し、その方法は、生物学的サンプルに対して第１の調製方法を用いて標的核酸の第１調製物を得て、生物学的サンプルに対して第２の調製方法を用いて標的核酸の第２の調製物を得て、そしてその第１の核酸調製物および第２の核酸調製物を混合することにより、その生物学的サンプル中の標的核酸を代表する混合された調製物を得ることによる、方法である。

本明細書中に記載されるいずれかの方法のいくつかの実施形態において、標的核酸の第３の調製物が、第１の調製方法および第２の調製方法とは異なる第３の調製方法を用いて得られ、ここで、第１、第２および第３の調製方法のすべてが、異なる体系的な配列バイアスを有する。本明細書中に記載されるいずれかの方法のいくつかの実施形態において、異なる調製方法が、多重核酸分析の感度を高めるために生物学的サンプル中の複数の異なる遺伝子座に対して用いられる。いくつかの実施形態において、標的核酸は、表１から選択される遺伝子の配列を有する。

しかしながら、本発明の遺伝子タイピング方法は、いくつかの工程を含み得、それらの各々は、独立して、本明細書中に記載される１つ以上の異なる調製手法を含み得ることが認識されるだろう。いくつかの実施形態において、核酸調製物は、本明細書中に記載される１つ以上の（例えば、２、３、４、５つまたはそれ以上の）異なる手法（例えば、増幅、ハイブリダイゼーションによる捕捉、環状プローブによる捕捉など、またはそれらの任意の組み合わせ）を用いて得られ得、その核酸調製物は、最初の調製物に対して用いられた手法とは独立して選択される１つ以上の異なる手法（例えば、増幅、ハイブリダイゼーションによる捕捉、環状プローブによる捕捉など、またはそれらの任意の組み合わせ）を用いて分析され得る。

いくつかの実施形態において、本発明の局面は、核酸アッセイの感度を高めるための組成物、キット、デバイスおよび分析方法も提供する。本発明の局面は、遺伝子タイピング分析の信頼水準を高めるために特に有用である。しかしながら、本発明の局面は、任意の適当な核酸分析（例えば、２つ以上の配列バリアントがサンプル中に存在するか否かを決定するように設計された核酸分析であるがこれに限定されない）において使用され得る。

いくつかの実施形態において、本発明の局面は、複数の核酸プローブ（例えば、１０〜５０個、５０〜１００個、１００〜２５０個、２５０〜５００個、５００〜１，０００個、１，０００〜２，０００個、２，０００〜５，０００個、５，０００〜７，５００個、７，５００〜１０，０００個またはそれより少ないか、それより多いか、もしくは中間の数の異なるプローブ）に関する。いくつかの実施形態において、各プローブ、またはプローブの各サブセット（例えば、１０〜２５％、２５〜５０％、５０〜７５％、７５〜９０％または９０〜９９％）は、異なる第１の標的化アームを有する。いくつかの実施形態において、各プローブ、またはプローブのサブセットの各プローブ（例えば、１０〜２５％、２５〜５０％、５０〜７５％、７５〜９０％または９０〜９９％）は、異なる第２の標的化アームを有する。いくつかの実施形態において、第１および第２の標的化アームは、同じ介在配列によって分断される。いくつかの実施形態において、第１および第２の標的化アームは、それぞれの標的核酸（例えば、ゲノム遺伝子座）において同じ長さまたは類似の長さ（例えば、核酸の数、例えば、０〜２５、２５〜５０、５０〜１００、１００〜２５０、２５０〜５００、５００〜１，０００、１，０００〜２，５００またはそれより長いかもしくは中間の数のヌクレオチド）によって分断される標的核酸配列と相補的である。いくつかの実施形態において、各プローブ、またはプローブのサブセット（例えば、１０〜２５％、２５〜５０％、５０〜７５％、７５〜９０％または９０〜９９％）は、第１のプライマー結合配列を含む。いくつかの実施形態において、そのプライマー結合配列は、同じである（例えば、それは、シークエンシング反応または他の伸長反応をプライミングするために使用され得る）。いくつかの実施形態において、各プローブ、またはプローブのサブセット（例えば、１０〜２５％、２５〜５０％、５０〜７５％、７５〜９０％または９０〜９９％）は、独特の識別配列タグ（例えば、予め決められており、各プローブを識別するために使用することができる、識別配列タグ）を含む。

いくつかの実施形態において、本明細書中に開示される方法は、感度が重要な任意の用途にとって有用である。例えば、不均一な組織サンプルにおける癌変異の検出、母体に循環する胎児ＤＮＡにおける変異の検出、および着床前遺伝子診断法において単離された細胞における変異の検出。

本発明のいくつかの局面によると、生物学的サンプル中の核酸における多型を検出する方法が提供される。いくつかの実施形態において、その方法は、生物学的サンプルに対してある調製方法（例えば、本明細書中に開示される調製方法のいずれか）を用いて核酸調製物を得る工程、ならびにその核酸調製物に対して分子反転プローブ捕捉反応を行う工程を包含し、ここで、その核酸調製物の標的核酸の分子反転プローブによる捕捉（例えば、変異検出ＭＩＰを用いる捕捉）は、標的核酸における変異（多型）の存在を示唆し、ここで、必要に応じてその多型は、表２から選択される。

本発明のいくつかの局面によると、生物学的サンプル中の核酸の遺伝子タイピングを行う方法が提供される。いくつかの実施形態において、その方法は、生物学的サンプルに対してある調製方法を用いて核酸調製物を得る工程、その核酸調製物の標的核酸をシークエンシングする工程、ならびに生物学的サンプルに対して分子反転プローブによる捕捉反応を行う工程（ここで、生物学的サンプル中の標的核酸の分子反転プローブによる捕捉は、標的核酸における多型の存在を示す）、そのシークエンシング反応および捕捉反応の結果に基づいて標的核酸の遺伝子タイピングを行う工程を包含する。

本明細書中に開示される方法のいくつかの実施形態において、標的核酸は、表１から選択される遺伝子の配列を有する。

本明細書中に記載される任意の１つ以上の実施形態は、複数の遺伝マーカーを並行して評価するために使用され得ることが認識されるだろう。したがって、いくつかの実施形態において、本発明の局面は、複数の異なる遺伝子座における１つ以上のマーカー（例えば、１つ以上の対立遺伝子）の存在を並行して決定することに関する。したがって、複数の遺伝性障害のリスクまたは存在が、並行して評価され得る。いくつかの実施形態において、１つ以上の遺伝性障害を有する出生児を有するリスクが評価され得る。いくつかの実施形態において、親または子の生物学的サンプル（例えば、着床前、出生前、出生時または出生後の段階におけるサンプル）に対して評価が行われ得る。いくつかの実施形態において、本開示は、患者サンプル（例えば、血液、着床前胚、絨毛または羊水サンプル）から複数の遺伝子座（例えば、表１または２から選択される複数の標的核酸）を分析するための方法を提供する。患者または被験体は、ヒトであり得る。しかしながら、本発明の局面がこの点に限定されないので、本発明の局面は、ヒトに限定されず、他の種（例えば、哺乳動物、鳥類、爬虫類、他の脊椎動物または無脊椎動物）にも適用され得る。被験体または患者は、男性（雄）または女性（雌）であり得る。いくつかの実施形態において、生殖遺伝カウンセリングに関連して、夫婦の男性メンバーおよび女性メンバー由来のサンプルが分析され得る。いくつかの実施形態において、例えば、動物育種プログラムに関連して、適合する繁殖パートナーもしくは最適な繁殖パートナーを決定するためか、または特定の形質に対するストラテジーを決定するため、あるいは１つ以上の疾患または状態を回避するために、複数の雄および雌の被験体由来のサンプルが分析され得る。したがって、１つ以上の本発明の実施形態から得られた情報に基づいて、生殖リスクが決定され得、そして／または生殖に関するアドバイスが提供され得る。

しかしながら、本発明の局面は、目的の遺伝子座における１つ以上の対立遺伝子の存在が医学的判断（例えば、疾患のリスクまたは検出、疾患の予後、治療の選択、治療のモニタリングなど）と関連がある任意の医学的評価に関連して使用され得ることが認識されるだろう。本発明のさらなる局面は、腫瘍組織もしくは循環腫瘍細胞における、癌を引き起こす細胞経路内もしくは処置レジメンの有効性を予測する細胞経路内の変異の検出、または環境内もしくは被験体、例えば、ヒト被験体から得られたサンプル中の病原生物の検出および同定に関連して使用され得る。
本発明の好ましい実施形態では、例えば以下が提供される：
（項目１）
複数の遺伝子座を分析する方法であって、該方法は：
複数の標的核酸の各々をプローブセットと接触させる工程であって、
ここで、各プローブセットは、複数の異なるプローブを含み、各プローブは、該標的核酸の複数の部分領域のうちの１つの同じ鎖に隣接する核酸と相補的である、５’領域および３’領域に隣接する中央領域を有し、ここで、該標的核酸の部分領域は、異なるものであり、各部分領域は、少なくとも１つの他の部分領域と重複している、工程、
複数の核酸を単離する工程であって、該複数の核酸の各々は、該複数の標的核酸の各々に関して異なる部分領域の核酸配列を有する、工程、ならびに
該単離された核酸を分析する工程
を包含する、方法。
（項目２）
少なくとも１つの部分領域が、少なくとも１つの他の部分領域と完全に重複する、項目１に記載の方法。
（項目３）
各プローブの前記５’領域および前記３’領域の配列が、それぞれ、他の各プローブの５’領域および３’領域の配列と重複していない、項目１に記載の方法。
（項目４）
各プローブの前記５’領域および前記３’領域の配列が、それぞれ、他の各プローブの５’領域および３’領域の配列と異なる、項目１に記載の方法。
（項目５）
複数の遺伝子座を分析する方法であって、該方法は：
複数の標的核酸の各々をプローブセットと接触させる工程であって、
ここで、各プローブセットは、複数の異なるプローブを含み、各プローブは、該標的核酸の複数の部分領域のうちの１つの同じ鎖に隣接する核酸と相補的である、５’領域および３’領域に隣接する中央領域を有し、ここで、該標的核酸の部分領域は、異なるものであり、プローブの該５’領域の一部および該３’領域の一部は、それぞれ、異なるプローブの５’領域および３’領域の配列を有する、工程、
複数の核酸を単離する工程であって、該複数の核酸の各々は、該複数の標的核酸の各々に関して異なる部分領域の核酸配列を有する、工程、ならびに
該単離された核酸を分析する工程
を包含する、方法。
（項目６）
前記標的核酸が、表１から選択される、項目１または５に記載の方法。
（項目７）
前記分析工程が、前記標的核酸の多型の遺伝子タイピングを行う工程を包含する、項目１または５に記載の方法。
（項目８）
前記多型が、表２から選択される、項目７に記載の方法。
（項目９）
被験体の遺伝子タイピングを行う方法であって、該方法は：
独立して単離された少なくとも閾値数の核酸の配列を決定する工程を包含し、ここで、単離された核酸の各々の配列は、標的核酸配列および識別タグ配列を含み、
ここで、該閾値数は、標的核酸配列と識別タグ配列との独特の組み合わせの数であり、ここで、該単離された核酸は、標的核酸配列と識別タグ配列との独特の組み合わせを含む場合、独立して単離されたと同定され、ここで、該標的核酸配列は、被験体のゲノム遺伝子座の配列である、方法。
（項目１０）
前記単離された核酸が、分子反転プローブによる捕捉産物である、項目９に記載の方法。
（項目１１）
被験体の遺伝子タイピングを行う方法であって、該方法は：
分子反転プローブによる捕捉産物の配列を決定する工程であって、該分子反転プローブによる捕捉産物の各々は、分子反転プローブおよび標的核酸を含み、該分子反転プローブの配列は、識別タグ配列および必要に応じてプライマー配列を含み、該標的核酸は、被験体の捕捉されたゲノム遺伝子座である、工程、ならびに
分子反転プローブによる捕捉産物の標的核酸配列と識別タグ配列との少なくとも閾値数の独特の組み合わせの配列に基づいて、該捕捉されたゲノム遺伝子座について該被験体の遺伝子タイピングを行う工程
を包含する、方法。
（項目１２）
被験体の遺伝子タイピングを行う方法であって、該方法は：
分子反転プローブによる捕捉産物を得る工程であって、各捕捉産物は、分子反転プローブおよび標的核酸を含み、ここで、該分子反転プローブの配列は、識別タグ配列および必要に応じてプライマー配列を含み、ここで、該標的核酸は、該被験体の捕捉されるゲノム遺伝子座である、工程、
該分子反転プローブによる捕捉産物を増幅する工程、ならびに
各標的核酸について、分子反転プローブによる捕捉産物の標的核酸配列と識別タグ配列との少なくとも閾値数の独特の組み合わせの配列を決定することによって該被験体の遺伝子タイピングを行う工程を包含する、方法。
（項目１３）
前記得る工程は、分子反転プローブを用いて前記被験体のゲノムサンプルから標的核酸を捕捉する工程を包含し、該分子反転プローブの各々は、独特の識別タグ配列を含む、項目１２に記載の方法。
（項目１４）
前記捕捉工程が、標的と識別タグ配列との同一の組み合わせを用いて２つ以上の分子反転プローブによる捕捉産物を得る尤度が所定の値と等しいかまたはそれ未満である条件下で行われ、必要に応じて該所定の値が約０．０５である、項目１２または１３に記載の方法。
（項目１５）
特定の標的核酸配列に対する前記閾値数が、遺伝子型に対する所望の統計学的信頼度に基づいて選択される、項目１２〜１４のいずれか１項に記載の方法。
（項目１６）
標的核酸配列と識別タグ配列との独特の組み合わせの数に基づいて、遺伝子型に対する統計学的信頼度を決定する工程をさらに包含する、項目１２〜１４のいずれか１項に記載の方法。
（項目１７）
複数の遺伝子座を分析する方法であって、該方法は：
分子反転プローブによる複数の捕捉産物を得る工程であって、該複数の捕捉産物の各々は、分子反転プローブおよび標的核酸を含み、ここで、該分子反転プローブの配列は、識別タグ配列および必要に応じてプライマー配列を含む、工程、
該分子反転プローブによる複数の捕捉産物を増幅する工程、
増幅された複数のものにおける、分子反転プローブによる捕捉産物の標的核酸配列と識別タグ配列との組み合わせの出現数を測定する工程、ならびに
標的核酸配列と識別タグ配列との特定の組み合わせの出現数が、所定の値を超える場合、該特定の組み合わせを含む該分子反転プローブの増幅におけるバイアスを検出する工程
を包含する、方法。
（項目１８）
前記複数のものにおける標的配列の遺伝子タイピングを行う工程をさらに包含し、ここで、該遺伝子タイピング工程は、バイアスが検出された場合に該バイアスを補正する工程を包含する、項目１７に記載の方法。
（項目１９）
前記標的核酸配列が、表１から選択される遺伝子の配列である、項目９〜１８のいずれかに記載の方法。
（項目２０）
標的核酸が異常な長さを有するか否かを決定するための方法であって、該方法は、被験体由来の生物学的サンプル中の標的核酸の捕捉効率を評価する工程を包含し、ここで、基準となる捕捉効率と異なる捕捉効率は、該生物学的サンプル中の異常な長さを有する標的核酸の存在を示す、方法。
（項目２１）
欠失または挿入を有すると疑われる標的領域の捕捉効率を測定する工程、ならびに該捕捉効率を、正常な捕捉効率を示す参照と比較する工程を包含する、項目２０に記載の方法。
（項目２２）
前記捕捉効率が、前記基準となる捕捉効率よりも低い、項目２０〜２１に記載の方法。
（項目２３）
前記被験体が、前記標的領域に挿入を有すると同定される、項目２２に記載の方法。
（項目２４）
前記捕捉効率が、前記基準となる捕捉効率よりも高い、項目２０〜２１に記載の方法。
（項目２５）
前記被験体が、前記標的領域に欠失を有すると同定される、項目２４に記載の方法。
（項目２６）
前記被験体が、前記挿入についてヘテロ接合であると同定される、項目２３に記載の方法。
（項目２７）
前記被験体が、前記欠失についてヘテロ接合であると同定される、項目２５に記載の方法。
（項目２８）
サブターゲット核酸が、分子反転プローブを用いて前記標的核酸から捕捉される、前述のいずれかの項目に記載の方法。
（項目２９）
前記分子反転プローブが、その５’末端に第１の標的化アームを含み、その３’末端に第２の標的化アームを含み、ここで、該第１の標的化アームは、前記サブターゲット核酸の一方の末端に隣接する第１の領域と特異的にハイブリダイズすることができ、該第２の標的化アームは、該標的核酸の同じ鎖における該サブターゲット核酸の他方の末端に隣接する第２の領域と特異的にハイブリダイズすることができる、項目２８に記載の方法。
（項目３０）
前記第１の標的化アームおよび前記第２の標的化アームが、約１０から約１００ヌクレオチド長である、項目２９に記載の方法。
（項目３１）
前記第１の標的化アームおよび前記第２の標的化アームが、約１０〜２０、２０〜３０、３０〜４０または４０〜５０ヌクレオチド長である、項目３０に記載の方法。
（項目３２）
前記第１の標的化アームおよび前記第２の標的化アームが、約２０ヌクレオチド長である、項目３１に記載の方法。
（項目３３）
前記第１の標的化アームおよび前記第２の標的化アームが、同じ長さを有する、項目２９〜３１のいずれか１項に記載の方法。
（項目３４）
前記第１の標的化アームおよび前記第２の標的化アームのハイブリダイゼーションＴｍが、同様のものである、項目２９〜３３のいずれか１項に記載の方法。
（項目３５）
前記第１の標的化アームおよび前記第２の標的化アームのハイブリダイゼーションＴｍが、互いの２〜５℃以内である、項目３４に記載の方法。
（項目３６）
前記第１の標的化アームおよび前記第２の標的化アームのハイブリダイゼーションＴｍが、同一である、項目３４に記載の方法。
（項目３７）
前記サブターゲット核酸が、核酸リピートを含む、項目２８〜３６のいずれか１項に記載の方法。
（項目３８）
前記核酸リピートが、ジヌクレオチドリピートまたはトリヌクレオチドリピートである、項目３７に記載の方法。
（項目３９）
前記サブターゲット核酸が、核酸リピートの異常な増加または減少の非存在下において、１０〜１００コピーの前記核酸リピートを含む、項目３７に記載の方法。
（項目４０）
前記サブターゲット核酸が、核酸リピートを含む脆弱Ｘ遺伝子座の領域である、項目３７に記載の方法。
（項目４１）
一方または両方の標的化アームが、核酸リピートの領域のすぐ隣である、前記標的核酸における領域とハイブリダイズする、項目２９〜３６のいずれか１項に記載の方法。
（項目４２）
一方または両方の標的化アームが、任意の核酸リピートを含まない領域によって核酸リピートの領域から分離された前記標的核酸における領域とハイブリダイズする、項目２９〜３６のいずれか１項に記載の方法。
（項目４３）
前記分子反転プローブが、捕捉された前記サブターゲット核酸ならびに必要に応じて前記第１の標的化アームおよび／または前記第２の標的化アームを配列決定するために使用され得るプライマー結合領域をさらに含む、項目２９〜３６のいずれか１項に記載の方法。
（項目４４）
生物学的サンプル中の複数の異なる標的核酸が分析される、前述の項目のいずれかに記載の方法。
（項目４５）
前記複数の標的核酸が、複数の異なる分子反転プローブを用いて分析される、項目４４に記載の方法。
（項目４６）
異なる分子反転プローブの各々が、３’および５’末端の各々に第１の標的化アームと第２の標的化アームとの異なる対を含む、項目４５に記載の方法。
（項目４７）
異なる分子反転プローブの各々が、同じプライマー結合配列を含む、項目４６に記載の方法。
（項目４８）
前記生物学的サンプルが、血液サンプルである、前述のいずれかの項目に記載の方法。
（項目４９）
前記生物学的サンプルが、組織サンプルである、前述のいずれかの項目に記載の方法。
（項目５０）
前記捕捉効率が、捕捉された標的核酸の量を測定することによって評価される、前述のいずれかの項目に記載の方法。
（項目５１）
捕捉された標的核酸の前記量が、独立して捕捉された標的核酸分子の数を測定することによって測定される、項目５０に記載の方法。
（項目５２）
捕捉された標的核酸の前記量が、捕捉された核酸の基準となる量と比較される、項目５０〜５１に記載の方法。
（項目５３）
前記基準となる量が、独立して捕捉された基準となる核酸の分子の数を測定することによって測定される、項目５２に記載の方法。
（項目５４）
前記基準となる核酸が、欠失または挿入を含むとは疑われない生物学的サンプル中の異なる遺伝子座の核酸である、項目５３に記載の方法。
（項目５５）
前記基準となる核酸が、捕捉反応に加えられる、既知サイズおよび既知量の核酸である、項目５３に記載の方法。
（項目５６）
前記捕捉効率が、前記基準となる捕捉効率と統計学的に有意に異なる場合、被験体は、前記遺伝子座の１つ以上の対立遺伝子に挿入または欠失を有すると同定される、前述のいずれかの項目に記載の方法。
（項目５７）
標的核酸の長さを推定するための方法であって、該方法は：
（ｉ）該標的核酸に対する検出プローブのハイブリダイゼーションを可能にする条件下で複数の該検出プローブと該標的核酸を接触させる工程であって、
ここで、各検出プローブは、該標的核酸の第１の領域にハイブリダイズする第１のアームおよび該標的核酸の第２の領域にハイブリダイズする第２のアームを含むポリヌクレオチドであり、
ここで、該第１の領域および該第２の領域は、該標的核酸の共通の鎖に存在し、
ここで、該第１の領域の５’末端と該第２の領域の３’末端との間のヌクレオチド配列は、サブターゲット核酸のヌクレオチド配列である、工程；ならびに
（ｉｉ）複数の該検出プローブとハイブリダイズした複数のサブターゲット核酸を捕捉する工程；ならびに
（ｉｉｉ）該複数のサブターゲット核酸におけるあるサブターゲット核酸の出現頻度を測定する工程であって、ここで、該複数のサブターゲット核酸における該サブターゲット核酸の出現頻度は、該サブターゲット核酸の長さを示す、工程
を包含する、方法。
（項目５８）
核酸検出アッセイの感度を高める方法であって、該方法は：
生物学的サンプルに対して第１の調製方法を用いて標的核酸の第１の調製物を得る工程、該生物学的サンプルに対して第２の調製方法を用いて標的核酸の第２の調製物を得る工程、
第１の核酸調製物と第２の核酸調製物との両方において得られた配列をアッセイする工程、
第１の核酸調製物と第２の核酸調製物との両方からの配列情報を用いることにより、該生物学的サンプル中の該標的核酸の遺伝子型を決定する工程
を包含し、ここで、該第１の調製方法および該第２の調製方法は、異なる体系的な配列バイアスを有する、方法。
（項目５９）
前記第１の核酸調製物および前記第２の核酸調製物が、配列アッセイを行う前に混合される、項目５８に記載の方法。
（項目６０）
別個の配列アッセイが、前記第１の核酸調製物および前記第２の核酸調製物において行われ、両方のアッセイからの配列情報が、組み合わされることにより、前記生物学的サンプル中の前記標的核酸の遺伝子型が決定される、項目５８に記載の方法。
（項目６１）
前記第１の調製方法が、ＰＣＲベース、ハイブリダイゼーションベースまたは環状プローブベースの調製方法である、項目５８に記載の方法。
（項目６２）
前記第２の調製方法は、ＰＣＲベース、ハイブリダイゼーションベースまたは環状プローブベースの調製方法であるが、但し、該第２の調製方法は、前記第１の方法と異なる、項目６１に記載の方法。
（項目６３）
生物学的サンプル中の核酸を代表する核酸調製物を得る方法であって、該方法は、
生物学的サンプルに対して第１の調製方法を用いて第１の標的核酸調製物を得る工程、
該生物学的サンプルに対して第２の調製方法を用いて第２の核酸調製物を得る工程、ならびに
該第１の核酸調製物および該第２の核酸調製物を混合することにより、該生物学的サンプル中の核酸を代表する混合された調製物を得る工程
を包含する、方法。
（項目６４）
第１の調製方法および第２の調製方法と異なる第３の調製方法を用いて第３の核酸調製を行う工程をさらに包含し、ここで、該第１の調製方法、該第２の調製方法および該第３の調製方法のすべてが、異なる体系的な配列バイアスを有する、項目１または６に記載の方法。
（項目６５）
前記異なる調製方法が、前記生物学的サンプル中の複数の異なる遺伝子座に対して用いられることにより、多重核酸分析の感度が高められる、前述の項目のいずれかの項目に記載の方法。
（項目６６）
生物学的サンプル中の核酸の遺伝子タイピングを行う方法であって、該方法は：
生物学的サンプルに対してある調製方法を用いて核酸調製物を得る工程、
該核酸調製物の標的核酸をシークエンシングする工程、ならびに
該生物学的サンプルに対して分子反転プローブによる捕捉反応を行う工程であって、ここで、該生物学的サンプル中の該標的核酸の分子反転プローブによる捕捉は、該標的核酸における多型の存在を示す、工程、
該シークエンシングおよび該捕捉反応の結果に基づいて該標的核酸を遺伝子タイピングする工程
を包含する、方法。
（項目６７）
前記標的核酸が、表１から選択される遺伝子の配列を有する、前述の項目のいずれかに記載の方法。

これらおよび他の本発明の局面は、以下の説明ならびに非限定的な実施例および図面においてより詳細に説明される。

図１は、タイリングプローブのレイアウトの非限定的な実施形態を図示している。図２は、ずらされた（ｓｔａｇｇｅｒｅｄ）プローブのレイアウトの非限定的な実施形態を図示している。図３は、交互にずらされた（ａｌｔｅｒｎａｔｉｎｇｓｔａｇｇｅｒｅｄ）プローブのレイアウトの非限定的な実施形態を図示している。図４Ａ、ＢおよびＣは、識別タグ配列と標的配列とを組み合わせるための様々な非限定的な方法を表している（ＮＮＮＮは、識別タグ配列を表している）。図５は、標的配列および識別タグ配列に基づいて遺伝子タイピングするための非限定的な方法を表している。図６は、ＭＩＰ捕捉反応のシミュレーションの非限定的な結果を表している。図７は、シークエンシングカバレッジ（ｓｅｑｕｅｎｃｉｎｇｃｏｖｅｒａｇｅ）の非限定的なグラフを表している。図８は、ＭＩＰを用いるとき、短い配列が長い配列よりも高効率で捕捉されることを図示している。図９は、反復領域（太い波線）と、隣接する独特の配列（太い直線（ｓｔｒａｉｔｌｉｎｅ））との両方を含む領域のパドロック（ＭＩＰ）捕捉の非限定的なスキームを図示している。図１０は、標的ギャップサイズと反復領域のリードの相対数との間の非限定的な仮説上の関係性を図示している。図１１Ａは、二倍体ゲノム由来のＦＭＲ１リピート領域のＭＩＰ捕捉を表している。図１１Ｂは、ＭＩＰ捕捉プローブおよび独特の識別タグを用いた、二倍体ゲノムにおけるＦＭＲ１リピート領域の長さの二対立遺伝子の分離のための調製方法を表している。図１１Ｃは、二倍体ゲノムにおけるＦＭＲ１リピート領域の長さの分析を表している。図１２は、本発明のアルゴリズムの実施形態の概略図である。図１３は、ＭＩＰ捕捉を用いた、標的１つあたりの存在量のグラフの非限定的な例を図示している；そして図１４は、２つのＭＩＰ捕捉反応の相関関係の非限定的なグラフを示している。

詳細な説明
本発明の局面は、遺伝子型を評価するため、特に、被験体の１つ以上の遺伝子座の対立遺伝子の同一性（または二倍体生物の同一性）を決定するための、調製および分析の方法および組成物に関する。本発明の局面は、遺伝分析におけるあいまいさおよびエラーの種々の起源の特定に部分的に基づき、また、遺伝分析の種々の段階におけるこれらのエラーおよびあいまいさを回避するため、減少させるため、認識するため、および／または解決するための１つ以上のアプローチの特定に部分的に基づく。本発明の局面は、核酸評価技術の１つ以上の調製工程および／または分析工程に関連するバイアスおよび／または確率的変動に対処するための方法および組成物に関する。いくつかの実施形態において、調製方法は、遺伝分析の結果を歪めるバイアスのリスクを回避するかまたは減少させるように適合され得る。いくつかの実施形態において、分析方法は、誤解釈を引き起こし得るデータの変動（例えば、不正確なコール（例えば、被験体が実際にはヘテロ接合であるときのホモ接合のコールまたは被験体が実際にはホモ接合であるときのヘテロ接合のコール））を認識するようにおよび補正するように適合され得る。本発明の方法は、任意のタイプの変異、例えば、一塩基の変更（例えば、挿入、欠失、トランスバージョンまたはトランジションなど）、複数の塩基の挿入、欠失、重複、逆位および／もしくは他の任意の変更、またはそれらの組み合わせに対して使用され得る。

いくつかの実施形態において、代表的なシークエンシングリードよりもコア配列のリピートの長さが長く、それにより、１つ以上のコア配列単位の欠失または重複が生じているか否かをもっぱら配列リードに基づいて決定することが困難である場合、さらなる手法または代替の手法を用いて、そのコア配列の複数のリピートを特徴とする遺伝子座が扱われ得る。

いくつかの実施形態において、アッセイ結果の高い信頼度は、ｉ）異なるバイアスを有する（例えば、異なるバイアスを有すると知られている）２つ以上の異なる調製手法および／もしくは分析手法を選択すること、ｉｉ）２つ以上の異なる手法を用いて患者サンプルを評価すること、ｉｉｉ）２つ以上の異なる手法からの結果を比較すること、ならびに／またはｉｖ）それらの結果がその２つ以上の異なる手法に対して矛盾がないか否かを決定することによって得られ得る。いくつかの実施形態において、工程（ｉｖ）における決定が、それらの結果に矛盾がない（例えば、同じである）ことを示唆する場合、そのアッセイ結果の高い信頼度が得られる。他の実施形態において、工程（ｉｖ）における決定が、それらの結果に矛盾がある（例えば、それらの結果があいまいである）ことを示唆する場合、工程（ｉ）において選択された２つ以上の異なる調製手法および／または分析手法と比べて異なるバイアスを有する（例えば、異なるバイアスを有すると知られている）１つ以上のさらなる調製手法および／または分析手法を用いることにより患者サンプルが評価され、そしてその１つ以上のさらなる調製手法および／または分析手法の結果を、工程（ｉｉ）からの結果と比較することにより、矛盾が解消される。

いくつかの実施形態において、２つ以上の独立したサンプルが、被験体から得られ得、独立して分析され得る。いくつかの実施形態において、２つ以上の独立したサンプルは、ほぼ同時に得られる。いくつかの実施形態において、２つ以上の独立したサンプルは、複数の異なる時点において得られる。いくつかの実施形態において、２つ以上の独立したサンプルを使用することにより、確率的な測定ノイズの排除、正規化および／または定量化が促進される。２つ以上の独立したサンプルが、本明細書中に開示される方法のいずれか（例えば、ヒトまたは他の動物被験体における病原体のプロファイリング、腫瘍の進行／後退のモニタリング、循環腫瘍細胞の分析、母体循環系中の胎児細胞の分析、および環境内の病原体の分析／モニタリング／プロファイリングのための方法を含む）に関して得られ得ることが認識されるべきである。

いくつかの実施形態において、本明細書中に記載される手法の１つ以上が、複数の患者サンプルを並行して評価するために単一のアッセイプロトコルにおいて組み合わされ得る。

本発明の局面は、複数の患者サンプルの、費用効果は高いが信頼できるハイスループットの遺伝子タイピング（例えば、並行して行われるもの、例えば、多重反応におけるもの）にとって有用であることが認識されるだろう。いくつかの実施形態において、本発明の局面は、多重分析におけるエラーの頻度を低下させるために有用である。ある特定の実施形態は、複数の反応（例えば、複数の遺伝子座および／または複数の患者サンプル）が処理されている場合に、特に有用であり得る。例えば、１０〜２５、２５〜５０、５０〜７５、７５〜１００個またはそれ以上の遺伝子座が、並行して処理され得る任意の数の被験体サンプル（例えば、１〜２５、２５〜５０、５０〜１００、１００〜５００、５００〜１，０００、１，０００〜２，５００、２，５００〜５，０００個またはそれ以上もしくは中間の数の患者サンプル）から、各被験体に対して評価され得る。本発明の種々の実施形態は、２つ以上の標的捕捉反応および／または２つ以上の患者サンプル分析を単一の多重反応において並行して行うことを含み得ることが認識されるだろう。例えば、いくつかの実施形態において、複数の捕捉反応（例えば、異なる標的遺伝子座に対して異なる捕捉プローブを用いる反応）が、単一の患者サンプルに対する単一の多重反応において行われ得る。いくつかの実施形態において、複数の患者サンプルのうちの各１つから捕捉された複数の核酸が、単一の多重分析反応において組み合わされ得る。いくつかの実施形態において、異なる被験体からのサンプルは、被験体特異的（例えば、患者特異的）タグ（例えば、独特の配列タグ）でタグ化され、各産物からの情報は、同定された被験体に対して割り当てられ得る。いくつかの実施形態において、各患者サンプルに対して用いられる異なる捕捉プローブの各々は、共通の患者特異的タグを有する。いくつかの実施形態において、捕捉プローブは、患者特異的タグを有しないが、各被験体からの捕捉された産物は、患者特異的タグで標識された１つの増幅プライマーまたは増幅プライマーの対を用いて増幅され得る。本発明の局面は、この点に限定されないので、単一の患者サンプルからの捕捉された産物と患者特異的タグを関連づけるための他の手法を使用してもよい。本明細書中で使用される患者特異的タグは、特定のアッセイにおいて、同定された患者に割り当てられる独特のタグのことを指し得ることが認識されるだろう。同じタグが、異なる患者サンプルセット（例えば、異なる患者からのサンプル）（その各々は、それらのタグのうちの１つに割り当てられる）を用いた別個の多重分析において使用され得る。いくつかの実施形態において、１つのアッセイから次のアッセイへの汚染のリスクを低下させるため、および特定のアッセイに存在すると予想されないタグの存在に基づいて汚染の検出を可能にするために、独特のタグの種々のセットが、連続的な（例えば、交互の）多重反応において使用され得る。

本発明の実施形態は、いくつかの異なる状況：生殖の状況、疾患スクリーニング、癌を有する被験体の同定、ある疾患に対して高リスクを有する被験体の同定、いくつかの因子の１つ以上に従う被験体の集団の層別化、例えば、特定の薬物に対する応答性、特定の薬物に対する有害反応（または、ゆえにリスク）を欠くかもしくは欠かないこと、および／または医学的記録のための情報の提供（例えば、１つ以上の遺伝子座におけるホモ接合性、ヘテロ接合性）のいずれかに対して使用され得る。本発明は、患者サンプルのゲノム分析に限定されないことが認識されるだろう。例えば、本発明の局面は、病原体を検出するための環境サンプルのハイスループット遺伝分析にとって有用であり得る。

いくつかの実施形態において、本明細書中に開示される方法は、１つ以上の遺伝性障害の診断にとって有用である。いくつかの実施形態において、本明細書中に開示される方法を用いて診断され得る遺伝性障害は、ＡｓｈｋｅｎａｚｉＪｅｗｉｓｈ集団に蔓延している遺伝性障害である。いくつかの実施形態において、それらの遺伝性障害は：２１−ヒドロキシラーゼ欠損の（Ｄｅｆｉｏｃｉｅｎｔ）先天性副腎過形成；ＡＢＣＣ８関連の高インスリン症；アルファ−サラセミア（ＣｏｎｓｔａｎｔＳｐｒｉｎｇおよびＭＲ関連を含む）；アリールスルファターゼＡ欠損の異染性白質ジストロフィ（ＭｅｔｙａｃｈｒｏｍａｔｉｃＬｅｕｋｏｄｙｓｔｒｏｐｈｙ）；ビオチニダーゼ欠損症−ホロカルボキシラーゼ合成酵素欠損症；ブルーム症候群；カナバン病；ＣＦＴＲ関連障害−嚢胞性線維症；シトルリン血症Ｉ型；複合ＭＭＡ＆ホモシスチン尿症−ｄｂｌＣ；ジストロフィン異常症（ＤＭＤ＆ＢＭＤ）；家族性自律神経障害；ファンコニー貧血−ＦＡＮＣＣ；古典的ガラクトース血症：ガラクトキナーゼ欠損症（Ｄｅｆｉｅｎｃｙ）およびガラクトースエピメラーゼ欠損症；ゴーシェ病；ＧＪＢ２関連ＤＦＮＢ１非症候性難聴および聴覚消失；グルタル酸血症１型；異常ヘモグロビン症ベータ鎖障害；糖原病ＩＡ型；メープルシロップ尿症；ＩＡ、ＩＢ、２、３型；中鎖アシル−コエンザイムＡ；デヒドロゲナーゼ欠損−ＭＣＡＤＤ；メチルマロン酸血症；ムコリピドーシスＩＶ；ネマリンミオパシー；ニーマン・ピック（Ｎｉｅｍａｎ−Ｐｉｃｋ）Ａ型−酸性スフィンゴミエリナーゼ欠損症；非ケトーシス型高グリシン血症−グリシン脳症；オルニチントランスカルバミラーゼ欠損症；ＰＫＵフェニルアラニンヒドロキシラーゼ欠損症；プロピオン酸血症；短鎖アシル−ＣｏＡデヒドロゲナーゼ欠損症−ＳＣＡＤＤ；スミス・レムリ・オピッツ症候群；脊髄性筋萎縮症（ＳＭＮ１）−ＳＭＡ；テイ・サックス−ＨｅｘＡ欠損症；アッシャー症候群（ＵｓｈｅｒＳｙｎｂｄｒｏｍｅ）Ｉ型（ＩＢ型、ＩＣ型、ＩＤ型、ＩＦ型、ＩＧ型）；Ｘ連鎖精神遅滞ＡＲＸ関連障害；小脳形成不全（ＣｅｒｅｂｅｌｌａｒＣｙｐｏｐｌａｓｉａ）および特有の（ｓｉｓｔｉｎｃｔｉｖｅ）顔貌を伴うＸ連鎖精神遅滞；Ｘ連鎖精神遅滞；９、２１、３０、４６、５８、６３、８８、８９を含む；Ｘ連鎖精神遅滞：ＦＭ１関連障害−ＦＲＸＡ、脆弱ＸＭＲ；Ｘ連鎖ＳＭＲ：レンペニング症候群１；ＺｅｌｌｗｅｇｅｒＳｐｅｃｔｒｕｍ障害−Ｚｅｌｌｗｅｇｅｒ、ＮＡＬＤおよび／または乳児レフサム病を含むペルオキシソームの二機能性酵素欠損症から選択される。しかしながら、これらのすべて、これらのサブセット、他の遺伝子またはそれらの組み合わせが、使用され得る。

いくつかの局面によると、本開示は、多重診断方法に関する。いくつかの実施形態において、多重診断方法は、複数の遺伝子座（例えば、表１の遺伝子座）を並行して捕捉する工程を包含する。いくつかの実施形態において、遺伝子座は、１つ以上の多型（例えば、表２の多型）を有し、それらの遺伝子型は、疾患を引き起こす対立遺伝子に対応する。したがって、いくつかの実施形態において、本開示は、複数の遺伝性障害を並行して評価するための方法を提供する。

いくつかの実施形態において、着床前、出生前、出生時または出生後の段階において複数の遺伝性障害を並行して診断するための方法が提供される。いくつかの実施形態において、本開示は、患者サンプル（例えば、血液、着床前胚、絨毛または羊水サンプル）から複数の遺伝子座（例えば、表１から選択される複数の標的核酸）を分析するための方法を提供する。患者または被験体は、ヒトであり得る。しかしながら、本発明の局面は、この点に限定されないので、本発明の局面は、ヒトに限定されず、他の種（例えば、哺乳動物、鳥類、爬虫類、他の脊椎動物または無脊椎動物）にも適用され得る。被験体または患者は、男性（雄）または女性（雌）であり得る。いくつかの実施形態において、生殖遺伝カウンセリングに関連して、夫婦の男性メンバーおよび女性メンバー由来のサンプルが分析され得る。いくつかの実施形態において、例えば、動物育種プログラムに関連して、適合する繁殖パートナーもしくは最適な繁殖パートナーを決定するためか、または特定の形質に対するストラテジーを決定するため、あるいは１つ以上の疾患または状態を回避するために、複数の雄および雌の被験体由来のサンプルが分析され得る。

しかしながら、他の任意の疾患、および／または疾患もしくは障害（アレルギー、処置に対する応答性、処置および予後に対する癌腫瘍のプロファイリング、患者の感染のモニタリングおよび同定、ならびに環境内の病原体のモニタリングが挙げられるがこれらに限定されない）に対する危険因子も研究され得ることが認識されるだろう。

１．多重増幅反応における提示のバイアスの減少：
いくつかの実施形態において、本発明の局面は、例えば診断目的での、遺伝子座の多重検出において、バイアスを減少させる方法および再現性を高める方法に関する。

潜在的に複雑な混合物中の特定の核酸配列を検出するためまたは増幅するために、分子反転プローブ技術が使用される。分子反転プローブの使用は、単一ヌクレオチド多型の検出（Ｈａｒｄｅｎｂｏｌら、２００５ＧｅｎｏｍｅＲｅｓ１５：２６９−７５）およびエキソンの大きなセットの調製増幅（Ｐｏｒｒｅｃａら、２００７ＮａｔＭｅｔｈｏｄｓ４：９３１−６，Ｋｒｉｓｈｎａｋｕｍａｒら、２００８ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１０５：９２９６−３０１）について証明されている。一般に数千の標的が、数千のプローブを含む単一反応において捕捉され得るので、上記方法の主要な利点の１つは、高い多重化の程度に対して能力がある点である。しかしながら、例えば、増幅効率に関連する課題（例えば、ＴｕｒｎｅｒＥＨら、ＮａｔＭｅｔｈｏｄｓ．２００９Ａｐｒ６：１−２を参照のこと）のせいで、研究および診断における上記方法の実際の有用性は限定されている。

本開示の局面は、多重的なゲノム捕捉方法およびシークエンシング方法における系統誤差（バイアス）、すなわち、標的核酸の提示の大きなばらつき、および捕捉された標的核酸（例えば、生物学的サンプルから単離された標的核酸）のプール内のヘテロ接合性対立遺伝子の不均等なサンプリングに関連する課題を克服するための有効な方法の発見に部分的に基づく。したがって、いくつかの実施形態において、本開示は、多重捕捉方法における標的核酸の検出におけるばらつきを減少させる方法を提供する。他の実施形態において、方法は、捕捉プールにおける対立遺伝子の提示を改善し、ゆえに、相違する検出結果を改善する。ある特定の実施形態において、本開示は、標的核酸（例えば、遺伝子座）を捕捉するための調製方法を提供し、その方法は、標的核酸の重複した領域を捕捉する複数のプローブ（例えば、分子反転プローブＭＩＰ）の種々のセットの使用を含み、従来技術の方法と比べて、捕捉プール内の標的核酸のより均一な提示を達成する。他の実施形態において、方法は、例えば、診断目的での、遺伝子座の大規模な並行捕捉に関連するバイアスまたはバイアスのリスクを低下させる。他の実施形態において、複数の遺伝子座の並行した検出の再現性を高めるための（例えば、標的核酸の捕捉に対する多型の影響を減少させることによって）方法が提供される。さらなる実施形態において、複数の遺伝子座の並行した分析に対する、プローブの合成および／またはプローブの増幅のばらつきの影響を減少させるための方法が提供される。

いくつかの局面において、本開示は、複数の異なるプローブを含むプローブセットを提供する。本明細書中で使用されるとき、「プローブ」は、標的核酸またはその部分領域の同じ鎖に隣接する核酸と相補的である５’領域および３’領域に隣接した中央領域を有する核酸である。例示的なプローブは、分子反転プローブ（ＭＩＰ）である。「標的核酸」は、遺伝子座であり得る。例示的な遺伝子座は、本明細書中の表１（ＲｅｆＳｅｑ遺伝子の欄）に開示されている。

プローブは、代表的には、捕捉効率／増幅効率に部分的に影響すると知られているある特定の制約（例えば、融解温度、Ｇ／Ｃ含有量など）を満たすように設計されているが（Ｂａｌｌら（２００９）ＮａｔＢｉｏｔｅｃｈ２７：３６１−８およびＤｅｎｇら（２００９）ＮａｔＢｉｏｔｅｃｈ２７：３５３−６０）、広く均一であるかまたは高度に再現性のある捕捉効率／増幅効率を確実にするのに十分な制約のセットは、以前に得られていない。本明細書中に開示されるように、均一性および再現性は、標的内の各塩基が２つ以上のプローブによって捕捉されるように標的１つあたり複数のプローブを設計することによって高められ得る。いくつかの実施形態において、本開示は、捕捉される標的１つあたり複数のＭＩＰを提供し、ここで、所与の標的核酸に対して設計されるセット内の各ＭＩＰは、中央領域、ならびに標的核酸内の（少なくとも部分的に）異なる核酸にハイブリダイズする５’領域および３’領域（「標的化アーム」）（標的核酸の部分領域とすぐ隣接する）を有する。よって、種々の標的化アームと充填（ｆｉｌｌ−ｉｎ）配列との間の効率の差は、単一の標的に対して複数のＭＩＰにわたって平均され得、より均一かつ再現性のある捕捉効率がもたらされる。

いくつかの実施形態において、上記方法は、各標的に対して単一のプローブを設計する工程を包含する（標的は、一塩基ほど小さいか、またはキロベースもしくはそれより大きい連続した配列ほど大きいことがある）。

場合によっては、１〜２００ｂｐの範囲内の長さを有する分子（例えば、標的核酸またはその部分領域）を捕捉するプローブを設計することが好ましいことがある（本明細書中で使用されるとき、ｂｐとは、二本鎖核酸における塩基対のことを指すが、しかしながら、長さがｂｐで示される場合、塩基対とは対照的に、同じ数の塩基長を有する一本鎖核酸も本発明によって企図されることが認識されるだろう）。しかしながら、プローブの設計は、そのように限定されない。例えば、プローブは、場合によっては、最大１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、１０００ｂｐまたはそれ以上のｂｐの範囲の長さを有する標的を捕捉するように設計され得る。

捕捉分子（例えば、標的核酸またはその部分領域）の長さは、複数の考慮すべき事柄に基づいて選択されることが認識されるべきである。例えば、標的の分析が、シークエンシング、例えば、次世代の配列決定装置を用いたシークエンシングを含む場合、その標的の長さは、ショットガンライブラリーの構築が必要ないように、代表的にはシークエンシングのリード長とマッチするべきである。しかしながら、本発明の局面は、この点に限定されないので、捕捉された核酸は、任意の適当なシークエンシング手法を用いて配列決定され得ることが認識されるだろう。

いくつかの標的核酸は、１つのプローブで捕捉されるには大きすぎることも認識されるべきである。その結果として、標的全体を分析するために、標的核酸の複数の部分領域を捕捉することが必要な場合がある。

いくつかの実施形態において、標的核酸の部分領域は、少なくとも１ｂｐである。他の実施形態において、標的核酸の部分領域は、少なくとも１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００ｂｐまたはそれ以上である。他の実施形態において、標的核酸の部分領域は、標的核酸長の最大１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％またはそれ以上のパーセントである長さを有する。

当業者はまた、ＭＩＰの設計において、プローブの長さと標的の長さとの関係性が考慮されることも認識するだろう。いくつかの実施形態において、ＭＩＰは、対応する標的（例えば、標的核酸の部分領域、標的核酸）よりも数百塩基対（例えば、最大１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００ｂｐまたはそれ以上）長いように設計される。

いくつかの実施形態において、標的核酸の部分領域の長さは、異なってよい。例えば、標的核酸が、プローブハイブリダイゼーションが不可能であるかまたは非効率的である領域を含む場合、問題のある核酸とのハイブリダイゼーションを回避するため、および完全な標的核酸を含む核酸を捕捉するために、１つ以上の異なる長さの部分領域を捕捉するプローブを使用することが必要であり得る。

本発明の局面は、各標的核酸を増幅するために、複数のプローブ、例えば、ＭＩＰを使用することを含む。いくつかの実施形態において、所与の標的に対するプローブのセットが、標的全体にわたって「タイル張り」するように設計され得、一連のより短いサブターゲットとして標的が捕捉される。いくつかの実施形態において、所与の標的に対するプローブのセットが、その標的全体にわたって「タイル張り」するように設計される場合、そのセット内のいくつかのプローブは、隣接する非標的配列を捕捉する。あるいは、そのセットは、標的に隣接するハイブリダイゼーション領域の正確な位置を「ずらす」ように設計され得、種々の標的化アームを有する複数のプローブによって標的全体が捕捉され（および場合によっては、隣接する非標的配列が捕捉され）、タイリングの必要性がなくなる。選択される特定のアプローチは、標的セットの性質に左右され得る。例えば、小さい領域が捕捉される場合、末端がずらされたアプローチが、適切であり得る一方、より長い領域が望まれる場合は、タイリングが選択され得る。すべての場合において、病理学的遺伝子座を標的にするプローブに対するバイアス許容度の量は、所与の分子を捕捉するために使用される種々のＭＩＰの数を変更することによって調節（「調整」）され得る。

いくつかの実施形態において、「カバー率（ｃｏｖｅｒａｇｅｆａｃｔｏｒ）」すなわち、１つの分子において１つの塩基対を捕捉するために使用されるプローブの数は、条件を指定するための重要なパラメータである。タイリングアプローチ（例えば、図１を参照のこと）を用いるかまたはずらしアプローチ（ｓｔａｇｇｅｒｅｄａｐｐｒｏａｃｈ）の１つ（例えば、図２または３を参照のこと）を用いるかに応じて、標的１つあたりのプローブの種々の数が示される。

図１は、単一の標的にわたってタイリングされている１０個の捕捉されたサブターゲットを示しているタイリングプローブのレイアウトの非限定的な実施形態を図示している。標的内の各位置は、３つのサブターゲットによってカバーされており、１塩基対あたりのＭＩＰの性能は、３つのプローブに対して平均される。

図２は、３つのＭＩＰのセットによって捕捉されている標的を示している、ずらされたプローブのレイアウトの非限定的な実施形態を図示している。各ＭＩＰは、黒色で示されている標的全体に加えて、（場合によっては）灰色で示されている追加的な標的外の配列を捕捉し、各ＭＩＰの標的化アームは、異なる配列に当たっている。標的内の各位置は、３つのサブターゲットによってカバーされており、１塩基対あたりのＭＩＰの性能は、３つのプローブに対して平均される。標的化アームは、示される黒色または灰色の領域のすぐ隣を捕らえる。いくつかの実施形態において、標的化アーム（図示せず）は、互いと重複しないように設計され得ることが認識されるだろう。

図３は、３つのＭＩＰのセットによって捕捉されている標的を示している、交互にずらされたプローブのレイアウトの非限定的な実施形態を図示している。各ＭＩＰは、黒色で示されている標的全体に加えて、（場合によっては）灰色で示されている追加的な標的外の配列を捕捉し、各ＭＩＰの標的化アームは、異なる配列に当たっている。標的内の各位置は、３つのサブターゲットによってカバーされており、１塩基対あたりのＭＩＰの性能は、３つのプローブに対して平均される。標的化アームは、示される黒色または灰色の領域のすぐ隣を捕らえる。

任意のレイアウトに対して、隣接するタイリングプローブまたはずらしプローブにおける標的化アームは、重複するように、重複しないように、またはプローブのサブセットだけに対して重複するように、設計され得ることが認識されるだろう。

任意のレイアウトに対するある特定の実施形態において、約３〜約１０というカバー率が使用される。しかしながら、これらの方法はそのように限定されず、最大２、３、４、５、６、７、８、９、１０、２０またはそれ以上のカバー率が使用され得る。選択されるカバー率は、使用されるプローブのレイアウトに依存し得ることが認識されるべきである。例えば、タイリングアプローチでは、所望のカバー率のために、標的１つあたりのプローブの数は、代表的には、標的の長さ、サブターゲットの長さおよび隣接するサブターゲットの開始位置との間隔（刻み幅）の関数である。例えば、３という所望のカバー率の場合、２０ｂｐという開始部位の隔たりおよび６０ｂｐというサブターゲットの長さによって、２００ｂｐの標的が１２個のＭＩＰでカバーされ得る（図１）。よって、標的核酸１つあたりのプローブの数および捕捉される分子の長さを変更することによって、特定のカバー率が達成され得る。ずらしアプローチでは、一定の長さの標的核酸が、いくつかの部分領域または「超標的（ｓｕｐｅｒ−ｔａｒｇｅｔ）」として捕捉される（それらは、標的核酸および追加の隣接する核酸を含む分子であり、それらは、様々な長さであり得る）。例えば、５０ｂｐの標的は、「ずらされた」配置（図２）または「交互にずらされた」配置（図３）において３つのプローブを用いて３というカバー率で捕捉され得る。

カバー率は、検出バイアスが容認できる程度に動かされ得る。一部の例では、バイアス許容度が小さい場合、おそらくはより高いカバー率を用いて、標的核酸のより多くの部分領域を標的にすることが望ましいことがある。いくつかの実施形態において、カバー率は、最大２、３、４、５、６、７、８、９、１０またはそれ以上である。

いくつかの実施形態において、タイリングプローブのレイアウトが用いられ、標的の長さが１ｂｐより長く、かつ刻み幅（標的の５’末端と、隣接する標的の５’末端との間の距離）が標的またはその部分領域の長さより短いとき、プローブ数＝Ｔ／（Ｓ／Ｃ）＋（Ｃ−１）であるような標的の長さ（Ｔ）、サブターゲットの長さ（Ｓ）およびカバー率（Ｃ）に基づいて特定の標的に対するプローブの数をコンピュータで計算することが可能である。

いくつかの局面において、本開示は、複数の分子が並行して増幅されるときの増幅効率の均一性を高める方法；増幅効率の再現性を高める方法；増幅効率に対する、標的とするプローブのばらつきの関与を低減させる方法；所与の標的核酸に対する、プローブハイブリダイゼーション領域内の多型の影響を減少させる方法；および／またはＭＩＰによる多重増幅が核酸シークエンシングによる分析用の調製工程として使用されるときに下流のワークフローを単純化する方法を提供する。

標的に隣接する領域下の標的核酸内の多型は、ハイブリダイゼーション、ポリメラーゼによる充填および／またはライゲーションを干渉し得る。さらに、これは、ただ１つの対立遺伝子に対して生じ得、対立遺伝子の脱落をもたらし、最終的には下流のシークエンシングの正確度を低下させる。いくつかの実施形態において、任意の所与の標的を捕捉するための複数のハイブリダイゼーション部位を有するＭＩＰのセットを用いるとき、ＭＩＰのセット内のすべての標的化アームが変異の位置をカバーするわけではないので、多型が原因の損失の確率は、実質的に低下する。

多数の配列が必要とされるので、ＭＩＰ捕捉反応用のプローブは、プログラム可能なマイクロアレイにおいて合成され得る。これらの方法の合成収量は少ないので、ＭＩＰ増幅反応用の十分なプローブを生成するために、その後、増幅工程が必要である。多重オリゴヌクレオチド合成とプールされたものの増幅との組み合わせにより、一様でない合成エラー率および提示のバイアスがもたらされる。所与の標的に対するすべてのプローブが同じエラー率およびバイアスを有するわけではないので、各標的に対して複数のプローブを合成することによって、これらの起源による変動が平均され得る。

本明細書中に開示される多重増幅ストラテジーは、ＳＮＰの検出におけるように分析的に用いられ得るか、またはしばしば、次世代シークエンシングもしくは他のシークエンシング手法に対して調製的に用いられ得る。調製的な状況において、増幅反応のアウトプットは、通常、ショットガンライブラリープロトコルへのインプットであり、それはその後、シークエンシングプラットフォームへのインプットになる。次世代シークエンシングは、エキソンなどのアンプリコンよりも著しく短いリードをもたらすので、ショットガンライブラリーが部分的に必要である。本明細書中に記載されるマルチタイリング（ｍｕｌｔｉ−ｔｉｌｅｄ）アプローチによってもたらされるバイアスの減少に加えて、タイリングは、ショットガンライブラリーの調製に対する必要性もなくす。プローブ、例えば、ＭＩＰを設計するとき、捕捉分子の長さを指定することができるので、その捕捉分子は、配列決定装置のリード長にマッチするように選択することができる。このように、リードは、エキソンに対するプローブセット内の各捕捉分子の開始位置のおかげでそのエキソンに沿って「歩く」ことができる。

２．核酸調製におけるバイアスに関連する分析のエラーの減少：
いくつかの実施形態において、本発明の局面は、バイアスを減少させ、かつ下流の定量的用途の信頼度および正確度を高める、ＤＮＡシークエンシング関連技術における調製工程に関する。

現在、次世代（ポロニー（ｐｏｌｏｎｙ）ベースの）シークエンシング（とりわけ、ゲノムリシークエンシング、遺伝子発現についてのＲＮＡ−ｓｅｑ、メチル化についての亜硫酸水素塩シークエンシングおよびＩｍｍｕｎｅ−ｓｅｑを含む）を利用してデータを生成する多くのゲノミクスアッセイが存在する。定量的測定（遺伝子型コールを含む）を行うために、これらの方法は、核酸の元のサンプルにおける配列の提示に対する代理として、所与のゲノム遺伝子座のシークエンシングリードの数を利用する。これらの手法の大部分は、目的のサンプルを代表するＤＮＡ分子の高複雑度ライブラリーを構築する調製工程を必要とする。これには、ＤＮＡの化学的または生化学的な処理（例えば、亜硫酸水素塩処理）、ゲノムの特定のサブセットの捕捉（例えば、パドロックプローブによる捕捉、溶液ハイブリダイゼーション）および様々な増幅法（例えば、ポリメラーゼ連鎖反応、全ゲノム増幅、ローリングサークル増幅）が含まれ得る。

系統誤差および偶然誤差は、ゲノム増幅法およびシークエンシングライブラリー構築法に関連する共通の問題である。例えば、ゲノムシークエンシングライブラリーは、ライブラリー構築プロセスのエラー（バイアス）の結果として、起源ゲノム由来の特定の配列の提示過剰または提示不足を含み得る。そのようなバイアスが、シークエンシングライブラリー内に存在しないゲノム由来の標的配列またはシークエンシングライブラリー内の検出不可能なゲノム由来の標的配列に生じるとき、特に問題であり得る。例えば、シークエンシングライブラリー内のゲノム由来の特定の対立遺伝子の配列（例えば、ヘテロ接合の対立遺伝子）の提示不足は、シークエンシングライブラリーにおいて明らかなホモ接合の提示をもたらし得る。最も下流のシークエンシングライブラリーの定量化手法は、確率論的なカウントプロセスに左右されるので、これらの問題は、代表的には、統計学的に有意な判断を行うために必要な最小数の観察結果を得るのに十分なサンプリング（過剰サンプリング）によって対処されている。しかしながら、過剰サンプリングというストラテジーは、通常、低カウントポアソンノイズ（ｌｏｗ−ｃｏｕｎｔＰｏｉｓｓｏｎｎｏｉｓｅ）の排除に限定され、そのアプローチは、リソースをむだにし、そのような実験を行うために必要とされる費用を高める。さらに、過剰サンプリングは、そのデータに基づくある特定の結論（例えば、診断コール）における統計学的信頼度の低下をもたらし得る。したがって、シークエンシングライブラリー調製方法におけるバイアスを克服するための新しいアプローチが必要とされている。

本開示の局面は、ゲノムの捕捉、増幅およびシークエンシングの方法における系統誤差および偶然誤差（バイアス）に関連する問題、すなわち、核酸の捕捉および増幅における大きなばらつきならびにシークエンシングライブラリーにおけるヘテロ接合対立遺伝子の不均衡な提示に関連する問題を克服するための方法の発見に部分的に基づく。したがって、いくつかの実施形態において、本開示は、核酸の捕捉および増幅におけるばらつきを減少させる方法を提供する。他の実施形態において、その方法は、シークエンシングライブラリーにおける対立遺伝子の提示を改善し、ゆえに、相違する検出結果を改善する。ある特定の実施形態において、本開示は、個別の核酸分子を独特にタグ化する識別タグ配列の使用を含む、標的核酸（例えば、遺伝子座）を捕捉するための調製方法を提供する。いくつかの実施形態において、その識別タグ配列のおかげで、識別タグ配列と標的配列との対がシークエンシング反応において観察される頻度に基づいたバイアスの検出が可能になる。他の実施形態において、その方法は、例えば診断目的での、遺伝子座の捕捉、増幅およびシークエンシングに関連する、バイアスによって引き起こされるエラー、またはバイアスのリスクを減少させる。

本発明の局面は、独立して捕捉されたおよび／または分析された（例えば、増幅の前、またはバイアスを導入し得る他のプロセスの前に）個別の標的分子と、独特の配列タグ（識別タグ配列と呼ばれる）を関連づけることに関する。これらのタグは、独立した標的分子を互いと識別するために有用であり、それによって、既知数の個別の標的分子に基づいた分析が可能になる。例えば、アッセイにおいて得られた複数の標的分子配列の各々が、異なる識別タグと関連する場合、それらの標的配列は、互いから独立していると考えられ得、遺伝子型の尤度は、この情報に基づいて決定され得る。対照的に、アッセイにおいて得られる複数の標的分子配列の各々が、同じ識別タグと関連する場合、それらの標的分子配列のおそらくすべてが、そのアッセイにおけるこの標的分子の提示過剰に起因して（例えば、偏った増幅に起因して）、同じ標的分子を起源とするものだろう。これは、各核酸が異なる識別タグに関連した状況よりも少ない情報しか提供しない。いくつかの実施形態において、独立して単離された閾値数の分子（例えば、識別タグと標的配列との独特の組み合わせ）が分析されることにより、被験体の遺伝子型が決定される。

いくつかの実施形態において、本発明は、調製核酸のプール（ライブラリー）を含む組成物に関し、そのプール内の調製核酸の各々は、バイアスの影響を検出するためおよび減少させるため、ならびに標的核酸配列の遺伝子タイピングを行うための「識別タグ配列」を含む。本明細書中で使用されるとき、「識別タグ配列」は、核酸（調製核酸）の配列であり、それは、複数の異なる単離された核酸の状況において、独立して単離された独特の核酸を同定するものである。代表的には、識別タグ配列は、核酸調製方法の１つ以上の段階において標的核酸の起源を同定するために使用される。例えば、多重核酸捕捉反応において、識別タグ配列は、複数の独立した標的核酸捕捉事象を識別するための根拠を提供する。また、多重核酸増幅反応において、識別タグ配列は、例えば、標的核酸の複数の独立した主要なアンプリコンを識別するための根拠を提供する。よって、ある調製方法に関する単離された核酸の標的核酸配列と識別タグ配列との組み合わせ（標的：識別タグ配列）は、独立して単離された独特の標的核酸を同定するための根拠を提供する。図４Ａ〜Ｃは、識別タグ配列と標的配列とを組み合わせるための方法の様々な非限定的な例を表している。

識別タグが、当該分野で公知のいくつかの異なる方法のうちのいずれか１つを用いて合成され得ることは、当業者に明らかだろう。例えば、識別タグは、ランダムなヌクレオチド付加によって合成され得る。識別タグ配列は、代表的には、あらかじめ定義された長さであり、それは、調製反応（例えば、増幅ベースの反応、環状化選択ベースの反応、例えば、ＭＩＰ反応）において独特の標的：識別タグ配列を生成する尤度を制御するために選択される。識別タグ配列は、最大５、最大６、最大７最大８、最大９、最大１０、最大１１、最大１２、最大１３、最大１４、最大１５、最大１６、最大１７、最大１８、最大１９、最大２０、最大２１、最大２２、最大２３、最大２４、最大２５またはそれ以上のヌクレオチド長であり得る。遺伝子タイピングの目的のために、単離された核酸が、標的核酸配列と識別タグ配列との独特の組み合わせを含み、標的核酸配列と識別タグ配列との閾値数の独特の組み合わせの観察結果（ｏｂｓｅｒｖａｎｃｅ）が、その遺伝子型におけるある特定の統計学的信頼度を提供する場合、その単離された核酸は、独立して単離されたと同定される。

ライブラリー調製プロセスにおいて、各核酸分子は、独特の識別タグ配列が目的の標的核酸配列（ライブラリーを調製するための核酸配列、例えば、多型配列）とともに配列決定されることを可能にする配置において、その識別タグ配列でタグ化され得る。特定の工程において識別タグ配列を含む核酸を組み込むことによって、そのプロトコルの後の工程においてバイアスの検出および補正が可能になる。

独特の識別タグ配列の大きなライブラリーは、規定の長さの縮重ランダム配列ポリヌクレオチドを用いることによって作製され得る。それらのポリヌクレオチドの識別タグ配列は、シークエンシングの最後の段階において解読され得る。識別タグ配列の観察結果を用いることにより、ライブラリーの最後のシークエンシングの読出しにおいてバイアスが検出され得、補正され得る。例えば、ランダムに生成され得る識別タグ配列の可能な総数は、４^Ｎであり、ここで、Ｎは、識別タグ配列の長さである。よって、識別タグ配列の長さは、独特の識別タグ配列を有するＭＩＰの集団のサイズが、ＭＩＰ捕捉産物のライブラリーを生成するのに十分であるように調整され得る（ここで、標的核酸配列と識別タグ配列との独立した同一の組み合わせは稀である）ことが理解されるべきである。本明細書中で使用されるとき、標的核酸配列と識別タグ配列との組み合わせは、「標的：識別タグ配列」とも呼ばれ得る。

シークエンシングプロセスの最後の読出しにおいて、各リードは、追加的な独特の識別タグ配列を有し得る。いくつかの実施形態において、識別タグ配列が、ライブラリー内にランダムに分配されているとき、その独特の識別タグ配列のすべてが、ほぼ同じ回数で観察される。したがって、識別タグ配列の出現回数は、ポアソン分布に従い得る。

いくつかの実施形態において、調製核酸（例えば、増幅されたＭＩＰ捕捉産物）のプールにおける標的：識別タグ配列の過剰提示は、調製プロセスにおけるバイアス（例えば、増幅プロセスにおけるバイアス）を示唆する。例えば、統計学的に過剰提示される標的：識別タグ配列の組み合わせは、そのプロトコルの、ＭＩＰへの識別タグ配列の組み込みとＭＩＰ捕捉産物の実際のシークエンシングとの間の１つ以上の工程におけるバイアスを示唆する。

所与の標的：識別タグ配列のリードの数は、起源サンプル中に存在する標的配列の量を示唆し得る（代理として働き得る）。いくつかの実施形態において、起源サンプルにおける配列の出現回数は、目的の数である。例えば、本明細書中に開示される方法を用いるとき、ＭＩＰのプール内の識別タグ配列の出現率は、あらかじめ決められ得る（例えば、すべての識別タグ配列に対して同じであり得る）。したがって、増幅後およびシークエンシング後の識別タグ配列の出現率の変化は、そのプロトコルにおけるバイアスを示唆し得る。バイアスが補正されることにより、例えば診断目的のために、元のＭＩＰプールの組成の正確な提示が提供され得る。

いくつかの局面によると、調製核酸分子（例えば、独特の識別タグ配列を有するライブラリー内の各核酸であるＭＩＰ）のライブラリーは、そのライブラリー内の核酸分子の数が、そのライブラリーを用いて捕捉される標的核酸分子の予定数よりも著しく多くなるように構築され得る。このことにより、調製方法の産物が、独特の標的：識別タグ配列だけを含むことが確実になり；例えば、ＭＩＰ反応において、捕捉工程は、ＭＩＰライブラリー内の独特の識別タグ配列の集団全体をより少なくサンプリングし得る。例えば、１μｇのゲノムＤＮＡを利用した実験は、約〜１５０，０００コピーの二倍体ゲノムを含み得る。ライブラリー内の各ＭＩＰが、ランダムに生成された１２−ｍｅｒの識別タグ配列を含むＭＩＰライブラリー（約１６０万個の独特の識別タグ配列が存在し得る）の場合、１ゲノムコピーあたり１００を超える独特の識別タグ配列が存在し得る。ライブラリー内の各ＭＩＰが、ランダムに生成された１５−ｍｅｒの識別タグ配列を含むＭＩＰライブラリー（約１０億個の独特の識別タグ配列が存在し得る）の場合、１ゲノムコピーあたり７０００を超える独特の識別タグ配列が存在し得る。ゆえに、同じ識別タグ配列が複数回組み込まれる確率は、途方もなく小さい。よって、識別タグ配列の長さは、ＭＩＰ捕捉反応における標的配列の量、および標的：識別タグ配列の組み合わせが独立して複数出現することに対する所望の確率に基づいて選択されるべきであることが認識されるだろう。

図５は、標的配列および識別タグ配列に基づいて遺伝子タイピングを行うための非限定的な方法を表している。標的配列および識別タグ配列のシークエンシングリードは、二倍体の遺伝子型コールを行うためにつぶされる。図６は、ＭＩＰ捕捉反応のシミュレーションの非限定的な結果を表しており、ここで、ＭＩＰプローブ（各々、１５ヌクレオチドの識別タグ配列を有する）は、１００００コピーの標的配列（例えば、ゲノム等価物）と組み合わされている。このシミュレートされた反応では、同じ識別タグ配列を有する１コピー以上の標的配列を捕捉する確率は、０．０５である。Ｙ軸は、観察結果の数を反映している。Ｘ軸は、標的：識別タグ組み合わせの独立した出現数を反映している。図７は、シークエンシングカバレッジの非限定的なグラフを表しており、これは、対立遺伝子が十分な深度でサンプリングされることを確実にするのを助け得る（例えば、１０００個の標的を仮定したときの対立遺伝子１つあたり１０×または２０×最小サンプリング）。この非限定的な例では、Ｘ軸は、標的１つあたりの必要とされる総カバレッジであり、Ｙ軸は、所与の総カバレッジが各対立遺伝子に対して少なくとも１０×または２０×カバレッジをもたらす確率である。

ＭＩＰライブラリー調製プロセスの一部として、アダプターが、目的の分子の末端にライゲートされ得ることを当業者は認識するだろう。アダプターは、しばしば、ＰＣＲプライマー部位（増幅用またはエマルジョンＰＣＲ用）および／またはシークエンシングプライマー部位を含む。さらに、例えば、一緒に混合され得る個別のサンプル（例えば、患者サンプル）を一義的に同定するために、バーコードが含められ得る（例えば、ＵＳＰＴＯ
ＰｕｂｌｉｃａｔｉｏｎＮｕｍｂｅｒＵＳ２００７／００２０６４０Ａ１（ＭｃＣｌｏｓｋｅｙら）を参照のこと）。

ランダムな識別タグ配列の実際の組み込みは、当該分野で公知の様々な方法によって行われ得る。例えば、識別タグ配列を含む核酸が、ライゲーションによって組み込まれ得る。これは、識別タグ配列を有する分子を任意の平滑末端核酸にライゲートすることができるので、融通の利く方法である。上記シークエンシングプライマーが識別タグ配列と標的配列の両方を配列決定するように、それらのシークエンシングプライマーを後で組み込まれなければならない。あるいは、ただ１回のライゲーションだけを行えばよいように、シークエンシングアダプターが、その３’末端の（縮重塩基として）ランダムな識別タグ配列とともに合成され得る。別の方法は、プライマー構造が、共通のアダプター配列の後にランダムな識別タグ配列、その後にＰＣＲプライミング配列で（５’から３’への順序で）配置されるように、識別タグ配列をＰＣＲプライマーに組み込む方法である。識別タグ配列およびアダプター配列（シークエンシングプライマー部位を含み得る）は、タグとして組み込まれる。識別タグ配列を組み込む別の方法は、遺伝子捕捉反応を行う前に、パドロックプローブ中に識別タグ配列を合成することである。識別タグ配列は、標的化アームに対して３’に組み込まれるが、そのプロトコルの下流で使用され得る増幅プライマーに対しては５’に組み込まれる。識別タグ配列を組み込む別の方法は、遺伝子特異的プライマーまたはポリ−ｄＴ逆転写プライマーにおけるタグとしてである。これにより、識別タグ配列をｃＤＮＡレベルで直接組み込むことが可能になる。

いくつかの実施形態において、組み込み工程における識別タグ配列の分布は、均一であると仮定され得る。この場合は、そのプロトコルの任意の部分におけるバイアスは、この分布の均一性を変化させ得、それは、シークエンシングの後に観察され得る。このことにより、最終的なアウトプットが多くの分子の並行したシークエンシングである任意の調製プロセスにおいて識別タグ配列を使用することが認められる。

識別タグ配列は、チップ上で並行して合成されるとき、複数のプローブ（例えば、ＭＩＰ）に組み込まれ得、その組み込まれるヌクレオチドの縮重は、複数のプローブにおけるほぼ均一な分布を確実にするのに十分である。独特の識別タグ配列のプールの増幅自体が最初のプール内にバイアスを導入し得ることが認識されるべきである。しかしながら、ほとんどの実際の場合では、合成（例えば、カラム合成、チップベースの合成によるものなど）のスケールが十分大きいので識別タグ配列の最初のプールの増幅は必要でない。独特の識別タグ配列のプールに対する増幅工程または選択工程を回避することによって、潜在的なバイアスが最小にされ得る。

識別タグ配列の使用の１つの例は、ゲノムリシークエンシングにおけるものである。ほとんどの次世代シークエンシング機器の未処理の（ｒａｗ）正確度が比較的低いことを考慮すると、目的のゲノム遺伝子座を過剰サンプリングすることは非常に重要である。さらに、すべての遺伝子座には２つの対立遺伝子が存在するので、サンプルがホモ接合であるかまたはヘテロ接合であるかを十分な程度の統計学的信頼度で決定するのに十分な回数、両方の対立遺伝子が観察されることを確実にするのに十分、サンプリングすることが重要である。実際は、シークエンシングを行うことにより、起源サンプル中の分子の組成物がサンプリングされる。しかしながら、複数のリードが、所与の遺伝子座に対して集められた後では、バイアス（例えば、ＰＣＲ増幅工程によって引き起こされるバイアス）に起因して、それらのリードの大部分が単一の起源分子から得られたものである可能性がある。これは、観察された標的配列の集団を歪め得、遺伝子型コールの結果に影響し得る。例えば、ヘテロ接合である遺伝子座が、ホモ接合とコールされる可能性がある。なぜなら、その遺伝子座の多くの観察結果のうち第２の対立遺伝子の観察結果がほんのわずかにしか存在しないからである。しかしながら、提示過剰の対立遺伝子は、提示過剰の識別タグ配列を有するとも見られ得る（すなわち、提示過剰の識別タグ配列を有する配列のすべてが同じ単一分子に由来し得る）ので、識別タグ配列に対する情報が入手可能である場合、この状況は、防がれ得る。ゆえに、それらの配列および識別タグ配列の対応する分布が、遺伝子型をコールするアルゴリズムへの追加のインプットとして使用されることにより、遺伝子型コールの正確度および信頼度が著しく改善され得る。

いくつかの局面において、本開示は、遺伝子座または遺伝子座の一部（例えば、表１の遺伝子座）である複数の標的配列を分析するための方法を提供する。それらの遺伝子座は、１つ以上の多型（例えば、ＳＮＰ）における遺伝子型を得るためにシークエンシングすることによって分析され得る。例示的な多型は、表２に開示される。当業者は、他の多型も当該分野で公知であり、例えば、ＥｎｔｒｅｚＳｉｎｇｌｅＮｕｃｌｅｏｔｉｄｅ
Ｐｏｌｙｍｏｒｐｈｉｓｍデータベースを照会することによって、例えば、表１の遺伝子ＩＤを用いて検索することによって、同定され得ることを認識するだろう。

表２に列挙される変異は、いくつかの疾患関連遺伝子において立証されている多型である（ＣＦＴＲは、嚢胞性線維症において変異しており、ＧＢＡは、ゴーシェ病において変異しており、ＡＳＰＡは、カナバン病において変異しており、ＨＥＸＡは、テイ・サックス病において変異している）。これらの多型は、いくつかのタイプ：挿入／欠失の長さが３ｂｐの倍数でない場合にフレームシフトを引き起こし得る（およびゆえに通常、タンパク質機能を妨害し得る）挿入／欠失多型、およびタンパク質のアミノ酸配列を変更し得、場合によっては、終止コドンの導入による完全な不活性化を引き起こし得る置換である。

３．核酸標的の長さの評価：
いくつかの実施形態において、本発明の局面は、核酸リピート配列を含む領域における核酸の欠失または挿入を検出するための方法に関する。

核酸リピート配列を含むゲノム領域は、リピート配列の数の増幅または縮小（例えば、１単位以上の反復配列の挿入または欠失）に起因する遺伝的不安定性の部位であることが多い。多数のリピート配列を含むゲノム領域の長さの不安定性は、いくつかの遺伝性および非遺伝性の疾患および状態に関連している。

例えば、「脆弱Ｘ症候群」、すなわちマーチン・ベル症候群は、徴候が重篤から軽度にわたる一連の特徴的な物理的、知的、情緒的および行動的な特色をもたらす遺伝的症候群である。この症候群は、Ｘ染色体上の単一のトリヌクレオチド遺伝子配列（ＣＧＧ）の拡大に関連するものであり、正常な神経発生に必要なＦＭＲ−１タンパク質が発現できなくなる。脆弱Ｘ症候群には、繰り返しＣＧＧ配列の長さに関して一般に認められている形態が４つある；正常（２９〜３１個のＣＧＧリピート）、前変異（５５〜２００個のＣＧＧリピート）、完全変異（２００個を超えるＣＧＧリピート）および中間またはグレーゾーンの対立遺伝子（４０〜６０個のリピート）。

他の例としては、１つ以上のマイクロサテライト遺伝子座（例えば、ＢＡＴ−２５および／またはＢＡＴ−２６）における核酸リピートのゲノムコピー数の増加または減少を含むマイクロサテライト不安定性（ＭＳＩ）に関連している癌が挙げられる。現在、特定の遺伝子座における核酸リピート配列の数を決定するためおよび核酸の挿入または欠失の存在を同定するためのシークエンシングベースのアッセイが多く存在する。しかしながら、そのような手法は、ある領域の全長を配列決定しないことがあるハイスループット多重分析では有用でない。

対照的に、いくつかの実施形態において、本発明の局面は、遺伝子座を配列決定する必要なく（または、遺伝子座全体を配列決定する必要なく）、そのゲノム遺伝子座における挿入または欠失の存在を検出することに関する。本発明の局面は、高レベルのリピート配列を含む核酸領域における挿入または欠失を検出するために特に有用である。ある遺伝子座におけるリピート配列の存在は、ある集団において、その遺伝子座におけるリピート配列の１つ以上の挿入または欠失に起因する比較的高レベルの多型に関連することが多い。それらの多型は、疾患または疾患に対する素因に関連し得る（例えば、ある特定の多型の対立遺伝子は、疾患または状態に関連する劣性の対立遺伝子である）。しかしながら、その遺伝子座における正確な配列およびリピートの数を決定するためにシークエンシング手法を用いるとき、リピート配列の存在は、しばしば、遺伝子座の分析を複雑にし、エラーのリスクを高める。

いくつかの実施形態において、本発明の局面は、核酸捕捉法（例えば、分子反転プローブ技術に基づく核酸配列の捕捉法）を用いて、挿入または欠失を含むと疑われる（例えば、リピート配列の存在に起因して）遺伝子座の一部の捕捉頻度を評価することによって、遺伝子座のサイズを決定することに関する。本発明の局面によると、異なる生物学的サンプル（例えば、異なる被験体由来のサンプル）における目的の遺伝子座に対する捕捉効率の統計学的に有意な差は、それらのサンプルにおける相対的な長さが異なることを示唆する。その長さの差は、その遺伝子座の一方または両方の対立遺伝子におけるものであり得ることが認識されるだろう。したがって、本発明の局面は、生物学的サンプルがその多型に対してヘテロ接合において調べられているのかまたはホモ接合において調べられているのかに関係なく、多型を同定するために使用され得る。本発明の局面によると、挿入または欠失を有する１つ以上の遺伝子座を含む被験体は、適切なコントロール（例えば、既知の核酸サイズに対する捕捉効率、生物学的サンプル中の挿入または欠失を含むと疑われない他の領域に対する捕捉効率）もしくは所定の参照捕捉効率またはそれらの任意の組み合わせを用いて、１つ以上の生物学的サンプルから得られた核酸についての捕捉効率を分析することによって同定され得る。しかしながら、本発明の局面は、コントロールの性質または存在によって限定されないことが認識されるだろう。いくつかの実施形態において、捕捉効率の統計学的に有意な変動が検出される場合、被験体は、その遺伝子座における挿入または欠失に関連する疾患または状態に対してリスクがあると同定され得る。いくつかの実施形態において、挿入または欠失の正確な性質を決定するため、および被験体が１つ以上の挿入または欠失に対してヘテロ接合であるかまたはホモ接合であるかを決定するために、被験体は、より詳細に分析され得る。例えば、遺伝子座の増幅（例えば、ＰＣＲ）産物のゲル電気泳動もしくはサザンブロッティング、またはそれらの任意の組み合わせが、遺伝子座の長さを実証する直交性アプローチとして用いられ得る。いくつかの実施形態において、挿入および欠失の数およびタイプを同定するために、遺伝子座のより網羅的かつ詳細な配列分析が行われ得る。しかしながら、本発明の局面にしたがって異常な長さを有すると同定された遺伝子座をさらに分析するために、他の手法も用いられ得る。

したがって、本発明の局面は、目的のゲノム領域における異常な核酸の長さを検出することに関する。いくつかの実施形態において、本発明は、反復エレメントなどのアクセスしづらいゲノム領域のサイズを推定することを目標とする。しかしながら、本発明の方法は、正確な長さを推定することを要求しないことが認識されるだろう。いくつかの実施形態では、異常な長さを有する１つ以上の対立遺伝子が目的の遺伝子座に存在することを決定することで十分である（例えば、異常な捕捉効率の検出に基づいて）。

非限定的な例において、本発明の局面を例証するために、トリヌクレオチドリピート（遺伝子型）のサイズが症状（表現型）と関係がある脆弱Ｘが用いられ得る。しかしながら、脆弱Ｘは、非限定的な例であり、同様の分析が、他の遺伝子座に対して行われ得る（例えば、独立して、または多重分析において同時に）ことが認識されるだろう。

分子反転プローブ（ＭＩＰ）の使用は、単一ヌクレオチド多型の検出（Ｈａｒｄｅｎｂｏｌら、２００５ＧｅｎｏｍｅＲｅｓ１５：２６９−７５）およびエキソンの大きなセットの調製的増幅（Ｐｏｒｒｅｃａら、２００７ＮａｔＭｅｔｈｏｄｓ４：９３１−６，Ｋｒｉｓｈｎａｋｕｍａｒら、２００８ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１０５：９２９６−３０１）について証明されている。どちらの場合においても、増幅される遺伝子座の上流および下流とハイブリダイズする末端（「標的化アーム」）を有するオリゴヌクレオチドプローブが設計される。

いくつかの実施形態において、本発明の局面は、プローブ捕捉効率に対する長さの影響をアッセイ（例えば、ハイスループットアッセイおよび／または多重アッセイ）に用いることにより、評価される領域全体のシークエンシングを必要とせずに配列の長さを決定することができるという認識に基づく。これは、サイズが変化しやすいリピート領域にとって特に有用である。Ｄｅｎｇら、ＮａｔｕｒｅＢｉｏｔｅｃｈ．２７：３５３−６０（Ｄｅｎｇらの補足図１Ｇを参照のこと）から再現された図８に図示されるように、ＭＩＰを用いるとき、短い配列が長い配列よりも高効率で捕捉されることが図示されている。統計パッケージＲおよびそのエフェクト（ｅｆｆｅｃｔ）モジュールをこの分析のために用いた。線形モデルを使用し、個別の因子は独立していると仮定した。破線は、９５％信頼区間を表している。より短い標的配列が、長い標的配列よりも高い効率で捕捉された（ｐ＜２×１０^−１６）。しかしながら、配列の長さの体系的分析にこの差次的な捕捉効率を使用することは、以前は認識されていなかった。

いくつかの実施形態において、プローブハイブリダイゼーションの後に、ポリメラーゼ充填反応およびライゲーション反応を行うことにより、ハイブリダイズされたプローブが、所望の標的を含む共有結合的に閉じた環状分子に変換される。ＰＣＲまたはローリングサークル増幅に加えて、環状化されていない材料のエキソヌクレアーゼ消化を行うことにより、出発核酸プールから環状の標的が単離され、増幅される。この方法の主要な利点のうちの１つは、高度の多重化に対する能力であるので、一般に、数千の標的が、数千のプローブを含む単一反応において捕捉される。

本発明の局面によると、反復領域は、独特の非反復配列に取り囲まれており、その非反復配列を使用することにより、例えば、ＰＣＲまたはパドロック（ＭΙＰ）ベースの方法を用いて、リピート含有領域を増幅することができる。

反復領域に加えて、プローブ（例えば、ＭＩＰまたはパドロックプローブ）は、ゲノム（または標的プール）において一義的に同定されるのに十分な少なくとも１つの配列を含むように設計され得る。図９に図示されるように、プローブが環状化され、増幅された後、独特の配列が同定されて、反復領域の「代表」として働き得るように、アンプリコンの末端が配列決定され得る。図９は、反復領域（太い波線）と隣接する独特の配列（太い直線）の両方を含む領域のパドロック（ＭＩＰ）捕捉の非限定的なスキームを図示している。これらのプローブの領域は、領域「１」および「３」として示される標的化アームとともに示されている。シークエンシングプライマー結合部位であり得るかまたはシークエンシングプライマー結合部位を含む介在領域は、「２」と示されている。パドロックが環状化され、増幅された後、末端を配列決定することにより、目的の反復領域に相当する独特の配列の配列を得ることができる。捕捉効率は、全体的に見て、標的の長さと逆の相関関係があるが、種々のプローブ配列は、独特の特性を有し得る。ゆえに、およそ０〜１５０ｂｐ、１５０〜６００ｂｐおよびそれ以上の反復サイズ（これらはそれぞれ、脆弱Ｘ症候群の正常、前変異および完全変異を表す）を識別するのに十分感度の高い最適なプローブが選択されるように、複数のプローブが、設計され得、試験され得る。しかしながら、ある範囲のリピート領域サイズの差（例えば、約３〜３０塩基、約３０〜６０塩基、約６０〜９０塩基、約９０〜１２０塩基、約１２０〜１５０塩基、約１５０〜３００塩基、約３００〜６００塩基、約６００〜９００塩基という長さの差、または任意の中間もしくはそれより長い長さの差）を識別するように、他のプローブのサイズおよび配列が設計され得、必要に応じて、最適化され得ることが認識されるだろう。長さの差は、サイズの増加またはサイズの減少であり得ることが認識されるだろう。

いくつかの実施形態において、予想外の捕捉頻度の最初の決定は、サイズの差の存在を示す。いくつかの実施形態において、捕捉頻度の増加は、欠失を示唆する。いくつかの実施形態において、捕捉頻度の減少は、挿入を示唆する。しかしながら、捕捉プローブの特定の配列パラメータおよび相対的サイズ、標的領域ならびに欠失または挿入に応じて、捕捉頻度の変化は、標的領域の長さの増加または減少に関連し得ることが認識されるだろう。いくつかの実施形態において、その変化の正確な性質は、本明細書中に記載されるような１つ以上の追加の手法を用いて測定され得る。

したがって、いくつかの局面において、ＭＩＰプローブは、２つのハイブリダイゼーション配列または標的化アーム（一方は直鎖状プローブの各端に位置する）を含む直鎖状の核酸鎖を含み、ここで、ハイブリダイゼーション配列の各々は、標的核酸の同じ鎖における別個の配列に相補的であり、標的核酸におけるこれらの配列は、目的の標的核酸配列の２つの末端に隣接する。ハイブリダイゼーションの際、プローブの５’末端と３’末端の両方が同じ鎖にハイブリダイズすることにより、標的領域に隣接する領域を分断するという意味において、プローブの２つの末端は互いに対して反転している（例えば、図９に図示されるように）ことが認識されるだろう。

いくつかの実施形態において、ハイブリダイゼーション配列は、約１０〜１００ヌクレオチド長、例えば、約１０〜３０、約３０〜６０、約６０〜９０または約２０、約３０、約４０もしくは約５０ヌクレオチド長である。しかしながら、用途に応じて、他の長さを使用してもよい。いくつかの実施形態において、プローブの両方の標的化アームのハイブリダイゼーションＴｍは、同様であるように設計されるかまたは選択される。いくつかの実施形態において、異なる標的領域を捕捉するために設計された複数のプローブの標的化アームのハイブリダイゼーションＴｍは、同様であるように選択されるかまたは設計され、その結果、それらは多重反応において共に使用することができる。したがって、充填前のＭＩＰプローブの代表的なサイズは、約６０〜８０ヌクレオチド長である。しかしながら、標的化アームのサイズおよびＭＩＰプローブに存在する他の任意の配列（例えば、プライマー結合配列またはタグ配列）のサイズに応じて、他のサイズを使用してもよい。いくつかの実施形態において、ＭＩＰプローブは、配列依存的な二次構造を回避するように設計される。いくつかの実施形態において、ＭＩＰプローブは、標的化アームが、公知の多型の領域と重複しないように設計される。いくつかの実施形態において、脆弱Ｘ遺伝子座のリピート領域を捕捉するために使用され得る標的化アームは、捕捉される鎖に応じて、以下の配列を有し得るかまたはこれらの配列と相補的な配列を有し得る。
左：ＣＴＣＣＧＴＴＴＣＧＧＴＴＴＣＡＣＴＴＣ（配列番号１８１）
右：ＡＴＣＴＴＣＴＣＴＴＣＡＧＣＣＣＴＧＣＴ（配列番号１８２）。

これらの標的化アームを用いて捕捉される代表的なサイズは、約１００ヌクレオチド長（例えば、トリヌクレオチドリピートの約３０リピート）である。

いくつかの実施形態において、反復領域の「代表」に対して得られるリードの数は、得られるリードの総数に依存するので、そのリードの数は、標的の長さを推定する情報価値がない。これを克服するために、集団の中で多型が存在しないかまたは多型が最小である他の「コントロール」領域を標的にする１つ以上のプローブを含めることが有用である。捕捉効率が体系的に一貫するので（例えば、図９を参照のこと）、反復領域の「代表」に対して得られたリードと、コントロール領域に対して得られたリードとの比は、規定数のリピートを有するＤＮＡを用いて調整され得る。最終的には、その比は、図１０に図示されるように、リピートの長さの基準として働き得る。図１０は、「コントロール」領域のリードに対するリピートの「代表」のリードの比によって測定される、標的のギャップサイズと反復領域のリードの相対数との非限定的な仮定的関係性を図示している。ｙ軸の単位は、任意である。

いくつかの実施形態において、同様のサイズ範囲を有する標的をより上手く見分けるために、ショットガンライブラリーを作製することによって（例えば、捕捉された配列（例えば、ＭＩＰプローブを用いて捕捉された配列）からショットガンライブラリーを作製することによって）反復領域全体が配列決定され得る。リピートが長いほど、リピートの短いリードが多く得られ得る。ゆえに、標的の長さは、「反復」リードの相対数に対して２倍寄与し得、それにより、区別している標的のよりよい分離がもたらされ得る。いくつかの実施形態において、任意の所与のリピートからのリードの数は、存在するリピートの数の一次関数であり得るということが期待される。しかしながら、いくつかの実施形態において、ポアソンサンプリングによって誘導される広がりは、考慮される必要があり得、いくつかの実施形態において、その分離を限定するのに十分に大きい場合がある。

二倍体サンプル由来の両方の対立遺伝子の長さの正確な測定が望まれるとき、さらなる操作が必要になり得る。これは、測定される捕捉効率が、実際にはその２つの対立遺伝子の平均効率であり得るからである。各対立遺伝子に対する別個の測定を効率的に達成するために、後に続く（個別のゲノム遺伝子座からの）個別の捕捉事象の効率化を可能にするバーコード（例えば、配列タグ）が使用され得る。図１１Ａ〜Ｃは、上記のアプローチを示している。反応物中に同じ識別タグ配列を有する２つの任意のＭＩＰが存在する確率が低くなるように、所与の遺伝子座に対して、それらの骨格に多数の識別タグのうちの１つを含むＭＩＰを合成する。ＭＩＰ捕捉をそのサンプルに対して行う；その反応は、より短い標的の長さに偏り、ゆえに、その反応産物は、「長い」環よりも「短い」環を多く含み得る。各環は、独特の識別タグ配列を有するはずである。次いで、直鎖ＲＣＡ（ｌＲＣＡ）をそれらの環に対して行う。ｌＲＣＡ反応において、環は、それら自体の長い直鎖状のコンカテマーに変換される。そのコンカテマーが「一定の」長さ（そのポリメラーゼの処理能力／エラー率に基づいて）に達したら、所与の環に対するｌＲＣＡ反応を停止する。ゆえに、より小さい環から得られたコンカテマーは、より多いコピー数の識別タグを含み得、より大きい環から得られたコンカテマーは、より少ないコピー数の識別タグを含み得る。各識別タグ配列の数は、例えば、次世代シークエンシングによって、計数される。出現数を識別タグＩＤに対してプロットすると、データは当然、二倍体サンプルにおける２つの対立遺伝子の長さを反映する２つの群にクラスター化する。ゆえに、既知の標準を用いて長さの絶対較正が行われた後、対立遺伝子の長さは、このグラフから直接読み取ることができる。いくつかの実施形態において、シークエンシング法（例えば、次世代シークエンシング法）を用いることにより、１つ以上の捕捉された標的（例えば、またはそのアンプリコン）の一部が配列決定され、それらの配列を用いることにより、存在する種々のバーコードの数が計数される。したがって、いくつかの実施形態において、本発明の局面は、高度に多重化されたｑＰＣＲ反応に関する。

挿入もしくは欠失またはリピート配列が疾患または状態に関連し得る遺伝子座の他の非限定的な例が、表３および４に提供される。これらの遺伝子座のいずれか１つ以上における異常な長さの存在は、本発明の局面にしたがって評価され得ることが認識されるだろう。いくつかの実施形態において、これらの遺伝子座または他の遺伝子座の２つ以上は、同じ反応条件下において生物学的サンプル中の異なる標的核酸とハイブリダイズするように設計された種々のプローブを用いる単一の多重反応において評価され得る。

以下の実施例は、本発明の局面および実施形態を例証するものであり、限定または制限を意図しない。本明細書を検討すれば、本発明の多くのバリエーションが当業者に明らかになるだろう。本発明の全範囲は、等価物の全範囲に加えて請求項、および上記のようなバリエーションに加えて明細書を参照することにより、決定されるべきである。

４．検出感度の上昇：
いくつかの実施形態において、本発明の局面は、核酸検出アッセイの感度を高めるための方法に関する。

現在、次世代（ポロニーベースの）シークエンシング（とりわけ、ゲノムリシークエンシング、遺伝子発現についてのＲＮＡ−ｓｅｑ、メチル化についての亜硫酸水素塩シークエンシングおよびＩｍｍｕｎｅ−ｓｅｑを含む）を利用してデータを生成する多くのゲノミクスアッセイが存在する。定量的測定（遺伝子型コールを含む）を行うために、これらの方法は、核酸の元のサンプルにおけるその配列の提示に対する代理として所与のゲノム遺伝子座のシークエンシングリードの数を利用する。これらの手法の大部分は、目的のサンプルを代表するＤＮＡ分子の高複雑度ライブラリーを構築する調製工程を必要とする。現在のアッセイは、いくつかの代替の核酸調製法（例えば、増幅、例えば、ＰＣＲベースの増幅；配列特異的捕捉、例えば、固定化された捕捉プローブを用いるもの；または環状化されたプローブへの標的捕捉の後の配列分析工程）のうちの１つを使用する。核酸単離手法および配列分析手法の予測不能性（確率的性質）に関連するエラーを減少させるために、現在の方法は、元の核酸サンプル中に存在するすべての配列が最終的な配列データにおいて提示される尤度を高めるために、標的核酸調製物の過剰サンプリングを伴う。例えば、ゲノムシークエンシングライブラリーは、そのライブラリーの構築プロセスにおける確率的変動の結果として、ソース核酸サンプル（例えば、ゲノム調製物）由来の特定の配列の提示過剰または提示不足を含み得る。そのような変動は、シークエンシングライブラリー内に存在しないゲノム由来の標的配列またはシークエンシングライブラリー内の検出不可能なゲノム由来の標的配列に生じるとき、特に問題であり得る。例えば、シークエンシングライブラリー内のゲノム由来の特定の対立遺伝子の配列（例えば、ヘテロ接合の対立遺伝子）の提示不足は、シークエンシングライブラリーにおいて明らかなホモ接合の提示をもたらし得る。

対照的に、本発明の局面は、標的核酸を単に過剰サンプリングするのではなく、核酸配列の分析を、サンプリングされる核酸のタイプで異なる系統誤差を有する２つ以上の異なる核酸調製手法からの結果に基づかせることに関する。いくつかの実施形態によると、異なる手法は、体系的でありかつ単純に核酸の捕捉中または増幅中の確率的影響に起因しない異なる配列バイアスを有する。したがって、いくつかの実施形態において、核酸調製における変動を克服するために必要な過剰サンプリングの程度は、バイアスを克服するのに十分である必要がある。いくつかの実施形態において、本発明は、異なるバイアスを有する２つ以上の異なる核酸調製手法から得られた核酸および／または配列の結果を組み合わせることによって、過剰サンプリングの必要性を低下させる方法を提供する。

本発明によると、異なる手法は、異なる特徴的なバイアスまたは系統誤差を有する。例えば、１つの手法は、サンプル分析を目的の遺伝子座における１つの特定の対立遺伝子に偏らせ得るのに対し、別の手法は、サンプル分析を同じ遺伝子座の別の対立遺伝子に偏らせ得る。したがって、同じサンプルが、配列分析にむけて核酸を調製するために使用される手法のタイプに応じて、異なると同定され得る。各手法が、目的の多型配列に対して異なる相対的な感度を有するので、これは、感度の問題を効率的に表す。

現在、ＤＮＡシークエンシングが変異を検出する能力は、上流のサンプル単離方法（例えば、増幅、固定化濃縮、環状化捕捉などによる方法）が目的の遺伝子座を、信頼性をもって単離する能力によって限定されている。二倍体ゲノム（例えば、分子診断用シークエンシングのために提供されるヒトサンプル）についてヘテロ接合のベースコールを生成したい場合、いくつかの実施形態では、その単離方法がほぼ均一または完全に均一（目的の遺伝子座に対してヘテロ接合体またはホモ接合体と明確に「コール」されるのに少なくとも十分均一）の量の２つの配列決定された対立遺伝子を生成することが重要である。

サンプル調製方法は、３つのクラス：１）単一またはいくつかの標的の増幅（例えば、一重（ｕｎｉｐｌｅｘ）ＰＣＲ、「多重」ＰＣＲ）、２）多標的（ｍｕｌｔｉ−ｔａｒｇｅｔ）ハイブリダイゼーション濃縮（例えば、ＡｇｉｌｅｎｔＳｕｒｅＳｅｌｅｃｔ「ハイブリッド」捕捉［Ｇｎｉｒｋｅら、２００９，Ｎａｔｕｒｅｍｅｔｈｏｄｓ２７：１８２−９］、Ｒｏｃｈｅ／Ｎｉｍｂｌｅｇｅｎ「配列捕捉」［Ｈｏｄｇｅｓら、２００７，Ｎａｔｕｒｅｇｅｎｅｔｉｃｓ３９：１５２２−７］、および３）多標的環状化選択（例えば、分子反転プローブまたはパドロックプローブ［Ｐｏｒｒｅｃａら、２００７，Ｎａｔｕｒｅｍｅｔｈｏｄｓ４：９３１−６、Ｔｕｒｎｅｒら、２００９，Ｎａｔｕｒｅｍｅｔｈｏｄｓ６：３１５−６］、「セレクター」［Ｄａｈｌら、２００５，Ｎｕｃｌｅｉｃａｃｉｄｓｒｅｓｅａｒｃｈ３３：ｅ７１］）に分けられ得る。これらの方法の各々は、インプットの存在量の分布を適切に表さない単離された産物のプールを生じ得る。例えば、ヘテロ接合の位置における２つの対立遺伝子は、インプットの５０：５０という比から下流のシークエンシングにおいてベースコールを見落とす比に歪められ得る。例えば、その比が５０：５０から１０：９０に歪められ、かつそのサンプルが１０×平均カバレッジに配列決定される場合、２つの対立遺伝子のうちの１つが１０個のシークエンシングリードにおいて１回も観察されない確率が高い。これにより、ヘテロ接合の位置がホモ接合に変換されることによってシークエンシング方法の感度が低下し得る（もしかすると「変異」対立遺伝子は、観察されない対立遺伝子であるかもしれない）。いくつかの実施形態において、歪められた比は、不均一な腫瘍組織に存在する変異を検出する感度を低下させる特定の問題である。例えば、不均一なサンプルにおいて分析される細胞のわずか１０％しか、ヘテロ接合性の変異を有していない場合、その変異は、配列リードの５０％ではなく５％に存在すると予想され得る。このシナリオでは、ロバストな高感度の検出の必要性がなおも重大であり得る。

本明細書中に開示される方法は、ある特定のクラスの単離方法が種々の様式のバイアスを有するという発見に部分的に基づく。本開示は、１つのサンプルに対して複数の単離方法の組み合わせ（例えば、本明細書中に開示されるクラスのうちの少なくとも２つから１つ以上）を用いることによって下流のシークエンシングの感度を高めるための方法を提供する。これは、疾患関連変異を「見落とす」可能性を最小にするために高感度が要求される分子診断法において特に重要である。例えば、環状化選択後のシークエンシングに対して１×１０^−３という名目上の偽陰性のエラー率およびハイブリダイゼーション濃縮後のシークエンシングに対して１×１０^−３という偽陰性のエラー率が与えられるとき、そのサンプルに対して両方の手法を行うことによって、１×１０^−６という最終的な偽陰性の割合が達成され得る（各方法における失敗は完全に独立していると仮定する）。単一の完全浸透の変異対立遺伝子によって引き起こされる保因者の頻度が０．１の劣性の疾患の場合、見落とされる保因者診断の数は、試験された１００万人の患者あたり１０００人から試験された１００万人の患者あたり１人にまで減少し得る。さらに、この試験が、出生前保因者スクリーニングにおいて使用される場合、一方の親において保因者であるというコールを見落とす結果として生まれる罹患小児の数は、出生児１００万人あたり２５人から１０億人あたり２５人にまで減少し得る。

さらに、本開示は、疾患関連対立遺伝子を含む領域におけるシークエンシングカバレッジを効率的に上げる調製方法の組み合わせを提供する。ヘテロ接合体のエラー率は、５０：５０の対立遺伝子提示からの偏差と、次世代ＤＮＡシークエンシングの場合の平均存在量からの偏差との両方に広く関係しているので（単離されたより少ない標的は、一方または両方の対立遺伝子においてより少なくサンプリングされる可能性が高い）、これらの領域におけるカバレッジを選択的に上げることにより、感度も選択的に上がり得る。さらに、特定の公知の疾患関連変異の存在または非存在を検出するＭＩＰを用いることにより、感度を選択的に高めることができる。いくつかの実施形態において、これらのＭＩＰは、最も３’側の領域が、予想される変異と相補的であり、かつ０ｂｐまたはそれ以上のｂｐの充填長を有する、標的化アームを有し得る。よって、変異が存在する場合のみ、ＭＩＰは形成し、その存在は、シークエンシングによって検出され得る。

さらに、本明細書中に開示されるアルゴリズムを用いることにより、様々なレベルのストリンジェンシーで、所与の位置が任意の公知の疾患関連対立遺伝子を有するか否かに応じた塩基同一性の決定が行われ得る。ストリンジェンシーは、コンセンサスベースコールを生成するために必要な観察される変異リードの最小数を減少させることによって、そのような位置において低下され得る。これは、特異性の低下を犠牲にして変異対立遺伝子の検出に対する感度を効率的に高め得る。

本発明の実施形態は、例えば、標的核酸における多型の存在を検出するために、ＭＩＰと、ハイブリダイゼーション濃縮と、必要に応じて一般的な疾患に関連する公知の特定の遺伝子座を標的にした別のＭＩＰとを組み合わせる。非限定的な例が、例えば、標的核酸における多型の存在を検出するために、ＭＩＰと、ハイブリダイゼーション濃縮と、必要に応じて一般的な疾患に関連する公知の特定の遺伝子座を標的にした別のＭＩＰとを用いた概略図を図示している図１２に例証されている。

図１３および１４は、ＭＩＰベースの捕捉に対する種々の捕捉効率を図示している。図１３は、ＭＩＰ捕捉による標的１つあたりの存在量のグラフを示している。このグラフでは、ここに多く存在しない標的は、両方の対立遺伝子を適切にサンプリングするためにシークエンシングにおいて十分な深度でカバーされる可能性が低いので、バイアスが、ヘテロ接合体のエラー率を大きく動かす。これは、Ｔｕｒｎｅｒら、２００９，Ｎａｔｕｒｅ
ｍｅｔｈｏｄｓ６：３１５−６からのものである。ハイブリダイゼーション濃縮は、定性的に類似の存在量の分布をもたらすが、所与の標的の存在量は、おそらく、２つの方法の間で相関しない。図１４は、Ｂａｌｌら、２００９，Ｎａｔｕｒｅｂｉｏｔｅｃｈｎｏｌｏｇｙ２７：３６１−８からの２つのＭＩＰ捕捉反応の相関関係のグラフを示している。各点は、複製物１および複製物２における標的の存在量を表している。ピアソン相関ｒ＝０．９５６。これは、ＭＩＰ捕捉が、標的を特定の存在量に再現性よく偏らせることを示唆する。ハイブリダイゼーション濃縮は、同様に１つの捕捉から次の捕捉へと相関する。

本発明の局面によると、そのようなバイアスは、複数の被験体サンプル中の複数の遺伝子座を調べるアッセイにおいて種々の捕捉手法および／または分析手法を体系的に組み合わせることによって、検出され得るかまたは克服され得る。

したがって、本明細書中に記載される実施形態のいずれか（例えば、タイリング／スタガリング、タギング、サイズ検出、感度増強アルゴリズムまたはそれらの任意の組み合わせ）において、本発明の局面は、ゲノム核酸を調製すること、および／またはそれらを１つ以上の異なるプローブ（例えば、捕捉プローブ、ハイブリダイゼーションプローブ、ＭＩＰなど）と接触させることを含むことが認識されるだろう。いくつかの実施形態において、１被験体あたり使用されるゲノム核酸の量は、１ｎｇ〜１０マイクログラム（例えば、５００ｎｇ〜５マイクログラム）の範囲である。しかしながら、それよりも多い量または少ない量（例えば、１ｎｇ未満、１０マイクログラム超、１０〜５０マイクログラム、５０〜１００マイクログラムまたはそれ以上）も使用され得る。いくつかの実施形態において、目的の各遺伝子座について、１アッセイあたり使用されるプローブの量は、特定の用途に対して最適化され得る。いくつかの実施形態において、プローブとゲノム等価物（例えば、半数体または二倍体のゲノム等価物、例えば、核酸標的または目的の遺伝子座の各対立遺伝子または両方の対立遺伝子に対して）との比（モル比、例えば、濃度比として測定される比）は、１／１００、１／１０、１／１、１０／１、１００／１、１０００／１とさまざまである。しかしながら、それより低い比、高い比または中間の比を使用してもよい。

いくつかの実施形態において、各反応に使用される標的核酸およびプローブの量は、正規化されることにより、濃度または比が異なることによって引き起こされる、観察される任意の差が回避される。いくつかの実施形態において、ゲノムＤＮＡおよびプローブを正規化するために、ゲノムＤＮＡの濃度が、標準的な分光光度計または蛍光を用いて（例えば、蛍光インターカレート色素を用いて）読まれる。プローブ濃度は、実験によって、またはプローブ製造者が明記する情報を用いて、決定され得る。

同様に、いったん遺伝子座が捕捉されると（例えば、ＭＩＰもしくは他のプローブ上に、または別の形態で）、その遺伝子座は、１つ以上のプライマーが関わる反応において増幅され得、そして／または配列決定され得る。各反応に対して加えられるプライマーの量は、０．１ｐｍｏｌ〜１ｎｍｏｌ、０．１５ｐｍｏｌ〜１．５ｎｍｏｌの範囲（例えば、およそ１．５ｐｍｏｌ）であり得る。しかしながら、他の量（例えば、それより少ない量、多い量または中間の量）を使用してもよい。

いくつかの実施形態において、１つ以上の介在配列（例えば、ＭＩＰ捕捉プローブ上の第１標的化アームと第２の標的化アームとの間の配列）、識別配列もしくはタグ配列、または標的配列（例えば、ゲノム標的配列）にハイブリダイズするように設計されていない他のプローブ配列は、標的配列または生物学的サンプル中に存在し得る他の配列（例えば、他のゲノム配列）に対する過度の相補性を回避するように（クロス−ハイブリダイゼーションを回避するように）設計されるべきであることが認識されるだろう。例えば、これらの配列は、任意のゲノム配列と十分な数のミスマッチ（例えば、３０塩基のうち少なくとも５、１０、１５またはそれ以上のミスマッチ）を有するように、またはハイブリダイゼーション反応温度よりも低い（例えば、少なくとも５、１０、１５、２０℃またはそれ以上低い）Ｔｍ（例えば、ミスマッチＴｍ）を有するように、設計され得る。

分析される核酸がＤＮＡ（例えば、ゲノムＤＮＡ）である場合、本明細書中で使用される標的化アームは、目的の遺伝子座のいずれかの鎖にハイブリダイズする（例えば、相補的である）ように設計され得ることが認識されるだろう。しかしながら、ＭＩＰプローブにおいては、一方の標的化アームに対して選択されるどちらかの鎖が他方の標的化アームに対しても用いられ得る。しかしながら、ＲＮＡ分析においては、標的化アームは、転写されたＲＮＡにハイブリダイズするように設計されるべきであることが認識されるだろう。標的配列を「捕捉する」と本明細書中で言及されるＭＩＰプローブは、実際のところ、実際の標的分子の捕捉によってではなく鋳型に基づいた合成によって標的配列を捕捉することも認識されるだろう（例えば、アームが、標的分子にハイブリダイズする最初の段階以外、または標的分子が変性されるまでもしくは別途除去されるまで、伸長されたＭＩＰ産物に標的分子が結合したままであり得るという意味において）。

いくつかの実施形態において、標的化アームは、１つの対立遺伝子または変異（例えば、ＳＮＰまたは他の多型、変異など）と相補的な配列を含み得、その結果、プローブは、その対立遺伝子または変異を有する標的核酸を優先的にハイブリダイズする（および捕捉する）ことが認識されるだろう。しかしながら、多くの実施形態において、各標的化アームは、評価されている集団の被験体において多型でない配列にハイブリダイズする（例えば、相補的である）ように設計される。これにより、すべての対立遺伝子に対して標的配列が捕捉されることおよび／または配列決定されることが可能になり、被験体間（例えば、１つ以上の遺伝子座に対するヘテロ接合またはホモ接合のコール間）の差は、本明細書中に記載されるような配列情報および／または頻度に基づき得る。

配列タグ（バーコードとも呼ばれる）は、プローブ内またはプローブのファミリー内の他の位置に出現しないという点において独特であるように設計され得、また、それらは、標的にされている配列内にも出現しないことが認識されるだろう。ゆえに、それらを用いることにより、他の特徴を有する（例えば、特定の被験体および／または特定の遺伝子座に対して）特定のプローブを一義的に同定することができる（例えば、シークエンシングまたはハイブリダイゼーション特性によって）。

いくつかの実施形態において、プローブもしくはプローブの領域または他の核酸は、ある特定の配列または配列の特徴（例えば、長さ、他の特性など）を含む（ｃｏｍｐｒｉｓｉｎｇ）かまたは含む（ｉｎｃｌｕｄｉｎｇ）と本明細書中に記載されることも認識されるだろう。しかしながら、いくつかの実施形態では、それらの実施形態のいずれかの文脈において、プローブもしくはプローブの領域または他の核酸のいずれもが、それらの領域（例えば、アーム、中央領域、タグ、プライマー部位など、またはそれらの任意の組み合わせ）からなるか、またはそれらの配列からなるか、または本明細書中に記載されるような１つ以上の特徴（例えば、長さまたは他の特性など）からなる特徴を有する配列を有する（例えば、タイリングプローブもしくはずらされたプローブ、タグ化されたプローブ、長さの検出、感度増強アルゴリズムまたはそれらの任意の組み合わせについて）ことが認識されるだろう。

本明細書中で設計されるかまたは使用されるプローブ、プライマーおよび他の核酸は、合成のもの、天然のものまたはそれらの組み合わせであり得ることが認識されるだろう。したがって、本明細書中で使用されるとき、用語「核酸」とは、複数の連結されたヌクレオチド（すなわち、ピリミジン（例えば、シトシン（Ｃ）、チミジン（Ｔ）またはウラシル（Ｕ））またはプリン（例えば、アデニン（Ａ）またはグアニン（Ｇ））である交換可能な有機塩基に連結された糖（例えば、リボースまたはデオキシリボース）を含む分子）のことを指す。「核酸」および「核酸分子」は、交換可能に使用され得、それらは、オリゴリボヌクレオチドならびにオリゴデオキシリボヌクレオチドのことを指す。これらの用語は、ポリヌクレオシド（すなわち、ポリヌクレオチドからリン酸を引いたもの）および他の任意の有機塩基を含む核酸も含むものとする。それらの有機塩基には、アデニン、ウラシル、グアニン、チミン、シトシンおよびイノシンが含まれる。別段述べられない限り、核酸は、一本鎖または二本鎖であり得る。その核酸は、天然に存在するものまたは天然に存在しないものであり得る。核酸は、自然源から得ることができるか、または核酸合成装置を用いて合成され得る（すなわち、合成のものであり得る）。核酸の回収および単離は、当該分野において通例のとおり行われ、適当な方法は、標準的な分子生物学の教科書に見られる（例えば、Ｍａｎｉａｔｉｓ’ ＨａｎｄｂｏｏｋｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙを参照のこと）。核酸は、ＤＮＡまたはＲＮＡ（例えば、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、ｍＲＮＡ、ｃＤＮＡ、ｒＲＮＡ、ｍｉＲＮＡまたはそれらの組み合わせ）であり得る。天然に存在しない核酸（例えば、細菌人工染色体（ＢＡＣ）および酵母人工染色体（ＹＡＣ））も使用され得る。

本発明は、核酸誘導体の使用も企図する。本明細書中に記載されるように、ある特定の核酸誘導体の使用は、特にそれらがヌクレアーゼを含み得る生物学的サンプルに曝露されたときの、それらの消化を防ぐことによって、本発明の核酸の安定性を高め得る。本明細書中で使用されるとき、核酸誘導体は、天然に存在しない核酸またはその単位である。核酸誘導体は、天然に存在しないエレメント（例えば、天然に存在しないヌクレオチドおよび天然に存在しない骨格結合（ｂａｃｋｂｏｎｅｌｉｎｋａｇｅｓ））を含み得る。

核酸誘導体は、骨格修飾（例えば、ホスホロチオエート結合、ホスホジエステル修飾された核酸、ホスホロチオレート修飾、ホスホジエステル核酸とホスホロチオエート核酸との組み合わせ、メチルホスホネート、アルキルホスホネート、リン酸エステル、アルキルホスホノチオエート、ホスホルアミデート、カルバメート、カーボネート、リン酸トリエステル、アセトアミデート、カルボキシメチルエステル、メチルホスホロチオエート、ホスホロジチオエート、ｐ−エトキシおよびそれらの組み合わせであるがこれらに限定されない）を含み得る。核酸の骨格の組成は、均一または不均一であり得る。

核酸誘導体は、糖および／または塩基における置換または修飾を含み得る。例えば、核酸誘導体は、３’位にヒドロキシル基以外および５’位にリン酸基以外の低分子量の有機基に共有結合した骨格の糖（例えば、２’−Ｏ−アルキル化されたリボース基）を有する核酸を含む。核酸誘導体は、アラビノースなどの非リボース糖を含み得る。核酸誘導体は、置換プリンおよび置換ピリミジン（例えば、Ｃ−５プロピンで修飾された塩基、５−メチルシトシン、２−アミノプリン、２−アミノ−６−クロロプリン、２，６−ジアミノプリン、ヒポキサンチン、２−チオウラシルおよびシュードイソシトシン（ｐｓｅｕｄｏｉｓｏｃｙｔｏｓｉｎｅ））を含み得る。いくつかの実施形態において、置換は、糖／塩基、塩基に結合した基（ビオチン、蛍光基（フルオレセイン、シアニン、ローダミンなど）、化学的に反応性の基（カルボキシル、ＮＨＳ、チオールなどを含む）を含む）またはそれらの任意の組み合わせにおける１つ以上の置換／修飾を含み得る。

核酸は、ペプチド核酸（ＰＮＡ）、ロックト（ｌｏｃｋｅｄ）核酸（ＬＮＡ）、ＤＮＡ、ＲＮＡまたはそれらの共核酸（ｃｏ−ｎｕｃｌｅｉｃａｃｉｄｓ）（例えば、ＤＮＡ−ＬＮＡ共核酸）であり得る。ＰＮＡは、グリシンアミノ窒素およびメチレンカルボニルリンカーを介してヌクレオチド塩基に連結された２−アミノエチルグリシン残基で置き換えられたリン酸骨格を有するＤＮＡアナログである。ＰＮＡは、ワトソン−クリック塩基対形成によってＤＮＡ標的とＲＮＡ標的の両方に結合し得、その際、場合によっては、ＤＮＡまたはＲＮＡに基づくオリゴヌクレオチドを用いて形成され得るハイブリッドよりも強いハイブリッドを形成し得る。

ＰＮＡは、ペプチド結合によって接続されるモノマーから合成される（Ｎｉｅｌｓｅｎ，Ｐ．Ｅ．ら、ＰｅｐｔｉｄｅＮｕｃｌｅｉｃＡｃｉｄｓ，ＰｒｏｔｏｃｏｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，Ｎｏｒｆｏｌｋ：ＨｏｒｉｚｏｎＳｃｉｅｎｔｉｆｉｃＰｒｅｓｓ，ｐ．１−１９（１９９９））。それらのモノマーは、標準的な固相ペプチド合成法を用いて作製され得る。ＰＮＡの化学および合成によって、ＰＮＡの設計においてアミノ酸およびポリペプチド配列を含めることが可能になる。例えば、リジン残基を用いることにより、ＰＮＡ骨格に正電荷が導入され得る。アミノ酸側鎖の修飾のために利用可能なすべての化学的アプローチが、ＰＮＡに対して直接、適用可能である。いくつかのタイプのＰＮＡのデザインが存在し、これらには、一本鎖ＰＮＡ（ｓｓＰＮＡ）、ｂｉｓＰＮＡおよび偽相補（ｐｓｅｕｄｏｃｏｍｐｌｅｍｅｎｔａｒｙ）ＰＮＡ（ｐｃＰＮＡ）が含まれる。

ＰＮＡ／ＤＮＡ複合体の構造は、特定のＰＮＡおよびその配列に依存する。ｓｓＰＮＡは、好ましくは、逆平行の向きで（すなわち、ｓｓＰＮＡのＮ末端がｓｓＤＮＡの３’末端と整列するように）、かつワトソン−クリック対形成によって、一本鎖ＤＮＡ（ｓｓＤＮＡ）に結合する。ＰＮＡはまた、フーグスティーン塩基対形成によってＤＮＡに結合し得、それにより、二本鎖ＤＮＡ（ｄｓＤＮＡ）と三重鎖を形成し得る（Ｗｉｔｔｕｎｇ，Ｐ．ら、Ｂｉｏｃｈｅｍｉｓｔｒｙ３６：７９７３（１９９７））。

ロックト核酸（ＬＮＡ）は、改変されたＲＮＡヌクレオチドである。ＬＮＡは、ＤＮＡとハイブリッドを形成し、そのハイブリッドは、ＰＮＡ／ＤＮＡハイブリッドと少なくとも同程度に安定である（Ｂｒａａｓｃｈ，Ｄ．Ａ．ら、Ｃｈｅｍ＆Ｂｉｏｌ．８（１）：１−７（２００１））。それゆえ、ＬＮＡは、ＰＮＡ分子であり得るように使用され得る。ＬＮＡの結合効率は、正電荷をＬＮＡに付加することによって、いくつかの実施形態において高まり得る。ＬＮＡは、本質的に高い結合親和性を有すると報告されている。

市販の核酸合成装置および標準的なホスホルアミダイト化学を用いることにより、ＬＮＡが作製される。それゆえ、混合性のＬＮＡ／ＤＮＡ配列の作製は、混合性のＰＮＡ／ペプチド配列の作製と同程度に簡便である。ＬＮＡモノマーの安定化の効果は、相加効果ではない。ＬＮＡモノマーは、隣接するデオキシヌクレオチドの糖環のコンフォメーションに影響し、その隣接するデオキシヌクレオチドの糖環をより安定な配置に変える（Ｎｉｅｌｓｅｎ，Ｐ．Ｅ．ら、ＰｅｐｔｉｄｅＮｕｃｌｅｉｃＡｃｉｄｓ，ＰｒｏｔｏｃｏｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，Ｎｏｒｆｏｌｋ：ＨｏｒｉｚｏｎＳｃｉｅｎｔｉｆｉｃＰｒｅｓｓ，ｐ．１−１９（１９９９））。また、配列内のＬＮＡ残基がより少ないことにより、合成の正確度は劇的に改善される。核酸を結合体化するための生化学的なアプローチのほとんどが、ＬＮＡ／ＤＮＡ構築物に適用可能である。

これらおよび他の本発明の局面は、以下の非限定的な例によって例証される。

以下の実施例は、本発明の非限定的な実施形態を例証するものである。

実施例１：ヒト標的エキソン用の捕捉プローブセットの設計
すべての標的が、部分的に重複するサブターゲットのセットとして捕捉される。例えば、タイリングアプローチにおいて、２００ｂｐの標的エキソンは、１２個のサブターゲット（各々６０ｂｐ長）のセットとして捕捉され得る（図１）。各サブターゲットは、他の２または３つの標的と部分的に重複するように選択される。

いくつかの実施形態において、すべてのプローブが、３つの領域：１）サブターゲットからすぐ上流とハイブリダイズする配列を含む２０ｂｐの「標的化アーム」、２）増幅プライミング部位の対として使用される配列を含む３０ｂｐの「定常領域」、および３）サブターゲットからすぐ下流とハイブリダイズする配列を含む第２の２０ｂｐの「標的化アーム」から構成される。標的化アームの配列は、セット内の捕捉プローブごとに異なるが、定常領域の配列は、そのセット内のすべてのプローブについて同じであることから、すべての捕捉された標的を単一のプライマーセットで増幅することが可能である。標的化アームの配列は、２０ｂｐ配列の任意の所与の対が標的ゲノム内で独特であるように（望まれない部位の偽の捕捉を防止するように）設計されるべきである。さらに、融解温度は、ハイブリダイゼーション効率が一定温度（例えば、６０℃）においてすべてのプローブについて均一になるように、そのセット内のすべてのプローブに対して一致させるべきである。ゲノム標的と塩基対形成する能力を損ない得る強い二次構造を形成しないことを確実にするために、標的化アームの配列は、計算的にスクリーニングされるべきである。

ヒトゲノムサンプルへの捕捉プローブのハイブリダイズ
ハイブリダイゼーション反応物を組み立てる：
・１．０μｌの捕捉プローブ混合物（約２．５ｐｍｏｌ）
・２．０μｌの１０×Ａｍｐｌｉｇａｓｅ緩衝液（Ｅｐｉｃｅｎｔｒｅ）
・６．０μｌの５００ｎｇ／μｌヒトゲノムＤＮＡ（約１６．７ｆｍｏｌ）
・１１μｌのｄＨ２Ｏ。

サーマルサイクラーにおいて、ゲノムＤＮＡを変性するために９５℃にて５分間の加熱反応を行い、次いで、６０℃に冷却する。６０℃にて４０時間インキュベートする。

ハイブリダイズされたプローブを、サブターゲットを含む共有結合的に閉じた環状産物に変換する
充填／ライゲーション反応混合物を調製する：
・０．２５μｌの２ｍＭｄＮＴＰ混合物（Ｉｎｖｉｔｒｏｇｅｎ）
・２．５μｌの１０×Ａｍｐｌｉｇａｓｅ緩衝液（Ｅｐｉｃｅｎｔｒｅ）
・５．０μｌの５Ｕ／μｌＴａｑＳｔｏｆｆｅｌフラグメント（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）
・１２．５μｌの５Ｕ／μｌＡｍｐｌｉｇａｓｅ（Ｅｐｉｃｅｎｔｒｅ）
・４．７５μｌのｄＨ２Ｏ。

１．０μｌのこの混合物をハイブリダイズされたプローブ反応物に加え、６０℃で１０時間インキュベートする。

環状化されたプローブ／サブターゲット産物を未反応のプローブおよびゲノムＤＮＡから精製する
エキソヌクレアーゼ反応混合物を調製する：
・２１μｌの充填／ライゲーション反応産物
・２．０μｌの１０×エキソヌクレアーゼＩ緩衝液（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）
・２．０μｌの２０Ｕ／μｌエキソヌクレアーゼＩ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）
・２．０μｌの１００Ｕ／μｌエキソヌクレアーゼＩＩＩ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）。

３７℃で６０分間インキュベート（Ｉｎｃｕｂｔｅ）し、次いで、８０℃で１５分間インキュベートすることによって熱失活させる。貯蔵のために、直ちに４℃に冷却する。

プローブの「定常領域」に特異的なプライマーを用いてＰＣＲによって環状材料を増幅する
ＰＣＲ混合物を調製する：
・５．０μｌの１０×Ａｃｃｕｐｒｉｍｅ反応緩衝液（Ｉｎｖｉｔｒｏｇｅｎ）
・１．５μｌの１０μＭＣＰ−２−ＦＡ（５’−ＧＣＡＣＧＡＴＣＣＧＡＣＧＧＴＡＧＴＧＴ−３’）（配列番号１８３）
・１．５μｌの１０μＭＣＰ−２−ＲＡ（５’−ＣＣＧＴＡＡＴＣＧＧＧＡＡＧＣＴＧＡＡＧ−３’）（配列番号１８４）
・０．４μｌの２５ｍＭｄＮＴＰ混合物（Ｉｎｖｉｔｒｏｇｅｎ）
・２．０μｌの熱失活したエキソヌクレアーゼ反応混合物
・１．５μｌの１０×ＳｙｂｒＧｒｅｅｎ（Ｉｎｖｉｔｒｏｇｅｎ）
・０．４μｌの２．５Ｕ／μｌＡｃｃｕｐｒｉｍｅＰｆｘポリメラーゼ（Ｉｎｖｉｔｒｏｇｅｎ）
・３７．７μｌのｄＨ２Ｏ。

以下のプロトコルに従ってリアルタイムサーマルサイクラーにおいて熱サイクル反応を行うが、増幅の収量がプラトーに達する前にサイクル反応を停止する（通常、８〜１２サイクル）：
１．９５℃で５分間
２．９５℃で３０秒間
３．５８℃で６０秒間
４．７２℃で６０秒間
５．２に戻り、さらにＮ回。

分析にむけて、ショットガン次世代シークエンシングライブラリーを調製する。
・ゲル抽出によって、所望のアンプリコン集団を非特異的な増幅産物から精製する。
・アンプリコンを、剪断に適した高分子量産物にコンカテマー化（Ｃｏｎｃａｔｅｍｅｒｉｚｅ）する。
・噴霧器、ＢｉｏＲｕｐｔｏｒ、Ｈｙｄｒｏｓｈｅａｒ、Ｃｏｖａｒｉｓまたは類似の装置を用いて機械的に剪断する。ＤＮＡは、数百塩基対の長さのフラグメントに剪断されるだろう。
・使用されるシークエンシングプラットフォームによる増幅に必要なアダプターをライゲートする。必要であれば、ライゲートされた産物をライゲートされていない産物およびアダプターから精製する。

実施例２：エキソン標的セットのＭＩＰ捕捉反応においてバイアスを検出するためおよび補正するための識別タグ配列の使用
検出／補正を行う際の第１工程は、所与のサンプルについてどれだけ多くの識別タグ配列が必要であるかを決定することである。この実施例では、１０００個のエキソンに対応する１０００個のゲノム標的を捕捉した。識別タグ配列は、プローブの一部であるので、１番最初のプロトコル工程から生じるバイアスを測定／報告する。また、識別タグ配列は、骨格に位置するので、別個のプライミング部位から容易に配列決定され得、ゆえに、標的の配列決定に対する達成可能な総リード長に影響を及ぼさない。ＭＩＰプローブは、かなり多数の販売業者（例えば、ＩＤＴ）によって、標準的なカラムベースのオリゴヌクレオチド合成法を用いて合成され、識別タグ配列は、その骨格内の「縮重」位置として導入される。各縮重位置は、合成される識別タグ配列の総数を４倍増加させるので、１０ｎｔの縮重領域は、約ｌｅ６種という識別タグ配列の複雑度を意味する。

捕捉プローブをヒトゲノムサンプルにハイブリダイズする
ハイブリダイゼーション反応物を組み立てる：
・１．０μｌの捕捉プローブ混合物（約２．５ｐｍｏｌ）
・２．０μｌの１０×Ａｍｐｌｉｇａｓｅ緩衝液（Ｅｐｉｃｅｎｔｒｅ）
・６．０μｌの５００ｎｇ／μｌヒトゲノムＤＮＡ（約１６．７ｆｍｏｌ）
・１１μｌのｄＨ２Ｏ。

ハイブリダイズされたプローブを、サブターゲットを含む共有結合的に閉じた環状産物に変換する。

充填／ライゲーション反応混合物を調製する：
・０．２５μｌの２ｍＭｄＮＴＰ混合物（Ｉｎｖｉｔｒｏｇｅｎ）
・２．５μｌの１０×Ａｍｐｌｉｇａｓｅ緩衝液（Ｅｐｉｃｅｎｔｒｅ）
・５．０μｌの５Ｕ／μｌＴａｑＳｔｏｆｆｅｌフラグメント（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）
・１２．５μｌの５Ｕ／μｌＡｍｐｌｉｇａｓｅ（Ｅｐｉｃｅｎｔｒｅ）
・４．７５μｌのｄＨ２Ｏ。

３７℃で６０分間インキュベートし、次いで、８０℃で１５分間インキュベートすることによって熱失活させる。貯蔵のために、直ちに４℃に冷却する。

以下のプロトコルに従ってリアルタイムサーマルサイクラーにおいて熱サイクル反応を行うが、増幅の収量がプラトーに達する前にサイクル反応を停止する（通常、８〜１２サイクル）：
６．９５℃で５分間
７．９５℃で３０秒間
８．５８℃で６０秒間
９．７２℃で６０秒間
１０．２に戻り、さらにＮ回。

分析にむけて、ショットガン次世代シークエンシングライブラリーを調製する。
・ゲル抽出によって、所望のアンプリコン集団を非特異的な増幅産物から精製する。
・アンプリコンを、剪断に適した高分子量産物にコンカテマー化する。
・噴霧器、ＢｉｏＲｕｐｔｏｒ、Ｈｙｄｒｏｓｈｅａｒ、Ｃｏｖａｒｉｓまたは類似の装置を用いて機械的に剪断する。ＤＮＡは、数百塩基対の長さ（ｌｅｎｔｈ）のフラグメントに剪断されるだろう。
・使用されるシークエンシングプラットフォームによる増幅に必要なアダプターをライゲートする。必要であれば、ライゲートされた産物をライゲートされていない産物およびアダプターから精製する。

製造者の説明書（例えば、Ｉｌｌｕｍｉｎａ、ＡＢＩなど）に従ってライブラリーのシークエンシングを行い、標的配列と識別タグ配列の両方を読み取る
識別タグ配列の存在量を定量化することによって検出される任意のバイアスについて補正することによってデータを分析する
リードデータから標的：識別タグの存在量の表を構築する、例えば：

任意の特定の標的：識別タグのマッピングは、偶然に２回以上起きないので、すべての「カウント」の記載は、「１」であるはずであり、ゆえに、その２回以上のマッピングは、バイアスがサンプル調製プロセスのどこかに存在する場合にのみ観察される。２回以上観察された任意の標的：識別タグの組み合わせについては、そのようなリードのすべてが、コンセンサスベースコールが決定される前に単一の読み取りに「つぶされる」。これによって、コンセンサスベースコールの正確度に対するバイアスの影響が取り消される。図５は、リピート標的：識別タグの組み合わせがつぶされている二倍体遺伝子型のコールを生成するための方法を表している。

実施例３：ＭＩＰ捕捉反応用の識別タグ配列の設計
ある標的のセットに対して、ある特定の識別タグ配列がある特定の標的配列との組み合わせにおいて２回以上偶然に観察されないと信頼できる（いくつかの統計的限界内で）ために必要な識別タグ配列の数を決定した。ある特定の長さの識別タグ配列に対する独特の識別タグ配列の総数は、４^{（識別タグ配列のヌクレオチドの長さ）}と決定される。識別タグ配列を有するＭＩＰプローブを用いる分子反転プローブ捕捉反応に対しては、捕捉反応を行い、同じ識別タグ配列を有する１以上のコピー数の標的配列を捕捉する確率は：ｐ＝１−［Ｎ！／（Ｎ−Ｍ）！］／［Ｎ＾Ｍ］として計算され、式中、Ｎは、存在し得る独特の識別タグ配列の総数であり、Ｍは、捕捉反応における標的配列コピーの数である。よって、識別タグ配列の長さを変化させることによって、同じ識別タグ配列を有する１以上のコピー数の標的配列を捕捉する確率が所定の確率の値に設定されたＭＩＰ捕捉反応を行うことが可能である。

例えば、１５ヌクレオチド長の識別タグ配列に対しては、１，０７３，７４１，８２４個の識別タグ配列が存在し得る。各々が１５ヌクレオチドの識別タグ配列を有するＭＩＰプローブが１００００コピーの標的配列（例えば、ゲノム等価物）と組み合わされるＭＩＰ捕捉反応において、同じ識別タグ配列を有する１以上のコピー数の標的配列を捕捉する確率は、０．０５である。この例では、ＭＩＰ反応は、複数コピーが同じ識別タグ配列でタグ化された標的をほとんど生成しない（通常０個であるが、たまに１個またはそれ以上）。図６は、１５ヌクレオチドの識別タグ配列を有する１０００００個の捕捉反応および１００００個の標的配列に対するシミュレーションの結果を示している。

実施例４：シークエンシングカバレッジの関数としての、複数の独立した遺伝子座において正確なベースコールを行うのに十分なシークエンシングリードを得るための確率の評価
シークエンシングカバレッジの必要条件を決定するために、モンテカルロシミュレーションを行った。このシミュレーションは、所与の遺伝子座（標的）の１００００ゲノムコピー（半数が母系対立遺伝子であり、半数が父系対立遺伝子である）を仮定する。このシミュレーションは、さらに、ＭＩＰ反応について１％の捕捉効率を仮定する。このシミュレーションは、ある捕捉混合物から１００回、非復元抽出することにより、１００個の捕捉産物のセットを得る。次いで、このシミュレーションは、その１００個の捕捉産物のセットから復元抽出することにより（偏りのない増幅と仮定して）、母系または父系から「リード」を生成する。標本抽出されるリードの数は、カバレッジに依存する。次いで、高精度のベースコールを行うために必要な母系と父系の両方からの独立したリードの数（１０または２０リードと仮定される）を測定した。このプロセスを各カバレッジレベルについて１０００回繰り返し、両方の親からの十分なリードが首尾よく得られる回数の割合を測定した。成功したベースコールを得るはずの１０００個の独立した遺伝子座を有すると仮定して、この割合を１０００乗し、プロットした（図７を参照のこと）。結果は、＞０．９５の確率で各対立遺伝子を＞＝１０×捕捉するためにはおよそ５０×カバレッジが必要であるということを示している。

実施例５：「標的」遺伝子座および「コントロール」遺伝子座のＭＩＰ捕捉
いくつかの実施形態において、標的遺伝子座の捕捉効率を正確に定量化するために、様々な長さの標的遺伝子座に対する代理として働くと経験的に示されている少なくとも３セットのコントロール遺伝子座を並行して捕捉する。例えば、標的遺伝子座が、５０〜１０００ｂｐの長さを有すると予想される場合、５０、２５０および１０００ｂｐの長さを有するコントロール遺伝子座のセットが捕捉され得（例えば、１セットあたり２０個の遺伝子座が外れ値からの妥当な保護をもたらすはずである）、それらの存在量がシークエンシングによってデジタル方式で測定され得る。これらの遺伝子座は、サンプル間の効率の変動および同じサンプルの複数のランにおける効率の変動が最小であることが観察されるように（ゆえに、「一定の効率」であるように）、選択されるべきである。これらは、存在量−対−長さの曲線の形状を定義する「参照」点として働き得る。次いで、標的の長さを決定することは、単に、検量線上の適切な点から長さを「読む」ことである。

いくつかの実施形態において、この方法からの標的の長さの推定における統計学的信頼度は、主として３つの因子：１）検量線を作成するために使用される存在量データの再現性／変動；２）「コントロール」データポイントに対する回帰の適合度；３）測定されている標的遺伝子座に対する存在量データの再現性によって動かされる。１）および２）における統計的限度は、アッセイを構築する際に測定されているので、あらかじめ判明している。さらに、適切な集団のサンプリングおよび技術的な再現性の測定がアッセイの構築に含まれているはずであるので、３）における統計的限度も、通常あらかじめ判明している。これらの３つの測定を、標的存在量の任意の所与の実験に基づく測定に対する単一のＰ値に統合するために標準的な統計学的方法が用いられるべきである。

いくつかの実施形態において、較正の観察結果のセットおよびそのデータに対する線形回帰の当てはめが与えられる場合、回帰を用いることにより、長さが不明の標的遺伝子座のｎ回の観察結果に対して長さの値を予測することができる。まず、長さの推定値の信頼区間に対する許容可能な範囲を選択する。例えば、脆弱Ｘの「正常」症例（８７〜９３ｂｐ）を「前変異」（１６５〜６００ｂｐ）の潜在的な症例と識別する場合、目標は、９３ｂｐを１６５ｂｐと識別するのに十分な精度で長さを測定することである。ｎ回の観察結果が回帰直線（ｒｅｇｒｅｓｓｅｄｌｉｎｅ）に対する方程式に代入されたときにコンピュータで計算される反応の予測値は、任意精度を有し得る。しかしながら、例えば、９５％信頼水準が望まれる場合、９５％信頼区間は、「正常」の長さの範囲と「前変異」の長さの範囲の両方と重複しない程度に十分短くなければならない。例を続けると、較正データからの回帰に基づいてｎ＝４００のＭＩＰ観察結果から１９０という長さが計算される場合、９５％信頼区間は、１９０＋／−２０ｂｐであり、そのサンプルが９５％の確実性で「前変異」の長さを表すと結論づけられ得る。逆に、較正データがそれほどロバストでない場合、その回帰のエラー推定値はより高いことがあり、予測される反応値に対してより広い信頼区間がもたらされる。いくつかの実施形態において、９５％ＣＩが、ｎ＝４００から１９０＋／−１００ｂｐと計算される場合、予測される反応値が「正常」の長さに対応するかまたは「前変異」の長さに対応するかを決定できない可能性がある。

いくつかの実施形態において、予測される反応に対する信頼区間は、以下のとおり計算される：
反応に対する推定値

は、その反応の平均値に対する推定値と同一である：

。予測値に対する信頼区間は、

によって与えられ、ここで、

は、ｘ^＊に対応する当てはめ値である。ｔ^＊値は、ｔ（ｎ−２）分布に対する大きい方の（１−Ｃ）／２棄却値である。

いくつかの実施形態において、目的の遺伝子座を分析するための手法は、以下の工程を含み得る。

プローブの「定常領域」に特異的なプライマーを用いてＰＣＲによって環状材料を増幅する
ＰＣＲ混合物を調製する：
・５．０μｌの１０×Ａｃｃｕｐｒｉｍｅ反応緩衝液（Ｉｎｖｉｔｒｏｇｅｎ）
・１．５μｌの１０μＭＣＰ−２−ＦＡ−Ｉｌｍｎ（プラットフォーム特異的増幅配列＋「環定常領域」特異的配列）
・１．５μｌの１０μＭＣＰ−２−ＲＡ−Ｉｌｍｎ（プラットフォーム特異的増幅配列＋「環定常領域」特異的配列）
・０．４μｌの２５ｍＭｄＮＴＰ混合物（Ｉｎｖｉｔｒｏｇｅｎ）
・２．０μｌの熱失活したエキソヌクレアーゼ反応混合物
・１．５μｌの１０×ＳｙｂｒＧｒｅｅｎ（Ｉｎｖｉｔｒｏｇｅｎ）
・０．４μｌの２．５Ｕ／μｌＡｃｃｕｐｒｉｍｅＰｆｘポリメラーゼ（Ｉｎｖｉｔｒｏｇｅｎ）
・３７．７μｌのｄＨ２Ｏ。

以下のプロトコルに従ってリアルタイムサーマルサイクラーにおいて熱サイクル反応を行うが、増幅の収量がプラトーに達する前にサイクル反応を停止する（通常、８〜１２サイクル）：
１１．９５℃で５分間
１２．９５℃で３０秒間
１３．５８℃で６０秒間
１４．７２℃で６０秒間
１５．２に戻り、さらにＮ回。

製造者の指示書（例えば、Ｉｌｌｕｍｉｎａ、ＡＢＩ）に従ってデジタル定量化用のサンプルにおいてシークエンシング（例えば、次世代シークエンシング）を行う。

実施例６：エキソン標的核酸セットのＭＩＰ捕捉反応
ＭＩＰプローブは、かなり多数の販売業者（例えば、ＩＤＴ）によって、標準的なカラムベースのオリゴヌクレオチド合成法を用いて合成される。

ハイブリダイズされたプローブを、標的核酸を含む共有結合的に閉じた環状産物に変換する。

環状化されたプローブ／標的核酸産物を未反応のプローブおよびゲノムＤＮＡから精製する
エキソヌクレアーゼ反応混合物を調製する：
・２１μｌの充填／ライゲーション反応産物
・２．０μｌの１０×エキソヌクレアーゼＩ緩衝液（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）
・２．０μｌの２０Ｕ／μｌエキソヌクレアーゼＩ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）
・２．０μｌの１００Ｕ／μｌエキソヌクレアーゼＩＩＩ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ）。

以下のプロトコルに従ってリアルタイムサーマルサイクラーにおいて熱サイクル反応を行うが、増幅の収量がプラトーに達する前にサイクル反応を停止する（通常、８〜１２サイクル）：
１６．９５℃で５分間
１７．９５℃で３０秒間
１８．５８℃で６０秒間
１９．７２℃で６０秒間
２０．２に戻り、さらにＮ回。

分析にむけて、ショットガン次世代シークエンシングライブラリーを調製する
・ゲル抽出によって、所望のアンプリコン集団を非特異的な増幅産物から精製する。
・アンプリコンを、剪断に適した高分子量産物にコンカテマー化する。
・噴霧器、ＢｉｏＲｕｐｔｏｒ、Ｈｙｄｒｏｓｈｅａｒ、Ｃｏｖａｒｉｓまたは類似の装置を用いて機械的に剪断する。ＤＮＡは、数百塩基対の長さのフラグメントに剪断されるだろう。
・使用されるシークエンシングプラットフォームによる増幅に必要なアダプターをライゲートする。必要であれば、ライゲートされた産物をライゲートされていない産物およびアダプターから精製する。

製造者の説明書（例えば、Ｉｌｌｕｍｉｎａ、ＡＢＩなど）に従ってライブラリーのシークエンシングを行い、標的配列を読み取ることにより、標的核酸の存在量を測定する。

実施例７：１０００個の標的のセットの遺伝子タイピングを行うためのＭＩＰ、ハイブリダイゼーションおよび変異検出ＭＩＰの使用
ＭＩＰ、ハイブリダイゼーションおよび変異検出ＭＩＰを用いることにより、１０００個の標的のセットの遺伝子タイピングを行う。このプロトコルによって、５０個の特定の公知の点変異のうちのいずれかの検出が可能になる。

まず、ＭＩＰ、ハイブリダイゼーションおよび変異検出ＭＩＰの別個の反応を生物学的サンプルにおいて行う。ＭＩＰ捕捉反応は、本質的にはＴｕｒｎｅｒら、２００９，Ｎａｔｕｒｅｍｅｔｈｏｄｓ６：３１５−６に記載されているように行う。ＭＩＰのセットは、そのセット内の各プローブが１０００個の標的のうちの１つと隣接するように設計される。別個に、ハイブリダイゼーション濃縮反応は、ＡｇｉｌｅｎｔＳｕｒｅＳｅｌｅｃｔ手順を用いて行われる。選択の前に、Ｉｌｌｕｍｉｎａの「ＦｒａｇｍｅｎｔＬｉｂｒａｒｙ」キットおよびプロトコルを用いて、濃縮されるゲノムＤＮＡをショットガンシークエンシングライブラリーに変換する。Ａｇｉｌｅｎｔのウェブインターフェースを用いることにより、標的核酸にハイブリダイズし得るプローブのセットを設計する。別個に、変異（例えば、特定の多型）が存在する場合のみＭＩＰを形成し得るプローブのセットを設計する（変異検出ＭＩＰ）。各変異検出ＭＩＰは、単一の公知の変異に特異的な最も３’側の塩基の同一性を有する。この変異検出ＭＩＰのセットを用いた反応を行うことにより、任意の変異対立遺伝子の存在が選択的に検出される。

３つすべての反応が行われたら、２つのＭＩＰ反応物を、単一のチューブに混合し（例えば、変異検出の感度をさらに高めるために潜在的に等モルでない比で）、１つのサンプルとして次世代ＤＮＡシークエンシング機器にかける。そのハイブリダイゼーション濃縮反応物を別個のサンプルとして次世代ＤＮＡシークエンシング機器にかける。各位置における総カバレッジ、その総カバレッジでの各リードの起源、各個別のリードの質のスコア、およびその領域と重複する変異特異的ＭＩＰから得られた任意のリードの存在（または非存在）を評価することによって標的セット内の各位置においてコンセンサス二倍体遺伝子型を形成するソフトウェアアルゴリズムによって、各「サンプル」からのリードを統合する。

前出の実施例は、非限定的なものであり、本発明の局面は、当業者（ｏｎｅｏｒｏｒｄｉｎａｒｙｓｋｉｌｌｉｎｔｈｅａｒｔ）にとって利用可能な代替の手法および／またはプロトコルを用いて、本明細書中に記載されるように実行され得ることが認識されるだろう。

前述の説明および実施例に詳しく記載されているもの以外の方法が実施され得ることは明らかである。上記の教示に鑑みて、本開示の数多くの改変およびバリエーションが存在し得、ゆえに、それらは請求項の範囲内である。本開示の各局面の好ましい特徴は、必要な変更を加えた他の各局面と同様のものである。本明細書中で言及される特許、特許出願、学術論文または他の開示を含む書面は、それらの全体が本明細書によって参考として援用される。矛盾が生じる場合には、明らかな誤りの場合を除いて本願の開示が支配する。

Claims

明細書に記載された発明。