JP7361774B2

JP7361774B2 - シーケンスリードの独立したアラインメントおよびペアリングによって高度に相同なシーケンスにおける遺伝的変異を検出するための方法

Info

Publication number: JP7361774B2
Application number: JP2021527023A
Authority: JP
Inventors: グローマン，ピーター; グールド，ジュヌビエーブ; マジー，デール
Original assignee: ミリアド・ウィメンズ・ヘルス・インコーポレーテッド
Priority date: 2018-07-27
Filing date: 2019-07-26
Publication date: 2023-10-16
Anticipated expiration: 2039-07-26
Also published as: JP2021532826A; EP3830828A1; US20220284985A1; WO2021021243A1; EP3830828A4; US20210225456A1; WO2020023882A1; JP2024001120A

Description

関連出願の相互参照
[0001]本出願は、２０１８年７月２７日に出願された米国仮出願第６２／７１１，４５４号、および２０１８年９月１２日に出願された米国仮出願第６２／７３０，４７９号に対する優先権を主張し、これらはそれぞれ、すべての表、図面、および請求項を含む全体が本明細書に組み込まれる。

[0002]以下の開示は、全体として、遺伝的変異を決定すること、より詳細には、ゲノムにおける目的物の高度に相同な領域において、例えば、遺伝子および偽遺伝子を含むゲノム領域において、遺伝的変異を決定することに関する。

[0003]生殖系列を通じて遺伝した個々のゲノムバリアントは、がんのおよそ５％から１０％のパーセントを占める［１～３］。この遺伝性成分は、ある範囲の組織［４、５］（例えば、乳房、結腸直腸、膵臓、および前立腺）にわたって、悪性腫瘍のリスクを増加させ得、１００を超える遺伝子において病原体バリアントと関連している［６］。このようながんに関する患者のリスクを評価するために、遺伝性がんスクリーニング（ＨＳＣ）は、典型的には、ターゲット次世代シーケンシング（ＮＧＳ）を使用し、コード領域において関連バリアントを検出し、多重遺伝子試験パネルにおける非コード領域を選択する。

[0004]ＨＳＣパネルによって調査されたほとんどのゲノム領域では、高い感度および特異性を得るのにＮＧＳ単独で十分であり［７、８］、試験の結果は、患者に、患者の臨床管理の決定を変更するよう促すので、ＨＳＣにとって、高い精度は重要である［９、１０］。しかし、少数の領域では、短いＤＮＡ断片を捕捉およびシーケンシングするためにハイブリダイゼーションを使用する標準ＮＧＳ戦略は、遺伝子型を不正確にしか特定することができなかった。特定の課題を有する遺伝子は、遺伝子それ自体と一緒に捕捉およびシーケンシングされるゲノムの他の箇所に相同なシーケンス（例えば、偽遺伝子）を有することが多く、アラインメントおよび遺伝子に特異的なバリアントの特定を複雑にする。

[0005]よって、ゲノムの相同な領域における遺伝的変異を検出する改善された方法が依然として必要とされる。

[0006]高度に相同な遺伝子および対応するホモログに関する遺伝子型の決定を可能にする現在の技術は、時間と労力を要し、ならびに費用もかかり、広範な臨床的使用に不適当となっている。

[0007]本開示の方法は、費用が手ごろでハイスループットな方式で実践することができる。よって、かなりの時間、労力および費用の節約となる。さらに、本方法は、遺伝子またはそれらのホモログに対するＮＧＳリードのユニークアラインメントが損なわれる領域における構造／コピー数／遺伝子型を解明するという課題を克服する。

[0008]一態様では、目的物の遺伝子に関する個体のゲノム構造（すなわち、遺伝子型）を決定するための方法であって、目的物の遺伝子が、高度に相同なホモログ、例えば、偽遺伝子を有する、方法が本明細書において提供される。

[0009]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第１の領域および第２の領域を含み、方法が、（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメント（ｔｏｐｐａｉｒｅｄａｌｉｇｎｍｅｎｔ）を生じるステップと、（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。別の実施形態では、本方法は、ステップ（ｂ）の前に、基準ゲノムに対して第１のリードおよび第２のリードをアラインするステップであって、アライナーが、第１のリードおよび第２のリードの各ペアについて、目的物の第１の領域または第２の領域に対して最良の可能なペアエンドアラインメント発し、かつ目的物の第１の領域または第２の領域に対するトップアラインメントスコアに関連するペアエンドリードのみが、ステップ（ｂ）において別々にアラインされる、ステップを含む。一実施形態では、基準ゲノムは、目的物の第１の相同な領域または第２の相同な領域のマスク部分または改変部分を含まない。一実施形態では、本方法は、コンピュータにより実装される。

[0010]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが、目的物の高度に相同な第１の領域および第２の領域を含み、方法が、目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含み、シーケンスリードが、目的物の多数の部位のダイレクトターゲットシーケンシング（ＤＳＴ）によって得られ、および第１のリードがゲノムシーケンスを含み、かつ第２のリードが目的物の部位に関連したプローブシーケンスリードを含む、ステップを含む、方法が提供される。

[0011]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第１の領域および第２の領域を含み、方法が、（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、シーケンスリードは、Ｂｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＡｌｉｇｎｅｒ（ＢＷＡ）アルゴリズムを使用してアラインされる。一実施形態では、アライナーは、目的物の第１の領域および第２の領域に対する最小アラインメントスコアを満たすアラインメントのみを発する。一実施形態では、第１のリードおよび第２のリードがペアリングされ、目的物の第１の領域に対する第１のリードおよび第２のリードのアラインメントが、互いに一定数の塩基の範囲内にある場合にのみ、トップペアアラインメントを生じる。一実施形態では、第１のリードおよび第２のリードがペアリングされ、目的物の第１の領域に対する第１のリードおよび第２のリードのアラインメントが、約１００ｂｐ、約２００ｂｐ、約２００ｂｐ、約３００ｂｐ、約４００ｂｐ、約５００ｂｐ、約６００ｂｐ、約７００ｂｐ、約８００ｂｐ、約９００ｂｐ、約１０００ｂｐ、約１１００ｂｐ、約１２００ｂｐ、約１３００ｂｐ、約１４００ｂｐ、約１５００ｂｐ、または１５００ｂｐ超の範囲内の場合にのみ、トップペアアラインメントを生じる。

[0012]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第１の領域および第２の領域を含み、方法が、（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、本方法は、ステップ（ｄ）において、多数のペアアラインメントを生じるステップと、多数のペアアラインメントのそれぞれについてアラインメントスコアを計算するステップと、最も高いアラインメントスコアを有するトップペアアラインメントを特定するステップとを含む。一実施形態では、ステップ（ｄ）におけるトップペアアラインメントは、最も小さな鋳型長を有するものとして選択される。

[0013]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第１の領域および第２の領域を含み、方法が、（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、遺伝的変異は、ＳＮＰ、インデル、逆位、および／またはＣＮＶを含む。一実施形態では、ステップ（ｅ）における検出するステップは、ＳＮＰ、インデル、逆位、および／またはＣＮＶをコールするステップを含む。一実施形態では、ステップ（ｅ）における検出するステップは、コピー数を決定するための隠れマルコフモデル（ＨＭＭ）コーラーを使用するステップを含む。一実施形態では、ステップ（ｅ）における検出するステップは、２という予測倍数性に基づく。一実施形態では、ステップ（ｅ）における検出するステップは、４という予測倍数性に基づく。一実施形態では、遺伝的変異がステップ（ｅ）において検出される場合、対象のゲノムの一部がロングレンジＰＣＲによって増幅され、マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）によってアッセイされる。一実施形態では、遺伝的変異がステップ（ｅ）において検出される場合、目的物の第１の領域の一部がロングレンジＰＣＲによって増幅され、産物またはその部分がサンガーシーケンシングまたはＮＧＳによってシーケンシングされる。一実施形態では、遺伝的変異がステップ（ｅ）において検出される場合、対象のゲノムＤＮＡは、マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）によってアッセイされる。

[0014]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第１の領域および第２の領域を含み、方法が、（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、シーケンスリードは、３０～５０ｂｐまたは１００～２００ｂｐの長さである。一実施形態では、目的物の高度に相同な第１の領域および第２の領域は、少なくとも８０％、少なくとも８１％、少なくとも８２％、少なくとも８３％、少なくとも８４％、少なくとも８５％、少なくとも８６％、少なくとも８７％、少なくとも８８％、少なくとも８９％、少なくとも９０％、少なくとも９１％、少なくとも９２％、少なくとも９３％、少なくとも９４％、少なくとも９５％、少なくとも９６％、少なくとも９７％、少なくとも９８％、少なくとも９９％、または９９％より高いパーセンテージで同一である。一実施形態では、シーケンスリードは、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンから得られる。一実施形態では、シーケンスリードは、目的物の第１の領域および／または第２の領域内の１つまたは複数のイントロンから得られる。一実施形態では、シーケンスリードは、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンおよびイントロンから得られる。一実施形態では、シーケンスリードは、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンおよびイントロンから得られ、イントロンは、エクソンの付近に存在する。一実施形態では、シーケンスリードは、目的物の第１の領域および／または第２の領域と関連した１つまたは複数の臨床的に取り扱うことが可能な領域から得られる。一実施形態では、目的物の第１の領域は遺伝子を含み、目的物の第２の領域は偽遺伝子を含む。一実施形態では、目的物の第１の領域は偽遺伝子を含み、目的物の第２の領域は遺伝子を含む。一実施形態では、目的物の第１の領域は、２つの対立遺伝子を含む。一実施形態では、目的物の第２の領域は、２つの対立遺伝子を含む。一実施形態では、遺伝子は、ＰＭＳ２である。一実施形態では、偽遺伝子は、ＰＭＳ２ＣＬである。一実施形態では、目的物の多数の部位は、対象のゲノムのＰＭＳ２のエクソンおよび別の部分のエクソン内に存在する。一実施形態では、目的物の多数の部位は、ＰＭＳ２のエクソンおよびＰＭＳ２ＣＬのエクソン内に存在する。一実施形態では、目的物の多数の部位は、ＰＭＳ２のエクソン１１、１２、１３、１４、および／または１５ならびにＰＭＳ２ＣＬのエクソン２、３、４、５、および／または６内に存在する。一実施形態では、対象はヒトであり、シーケンスリードはヒト基準ゲノムに対してアラインされる。

[0015]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な第１の領域および第２の領域を含み、方法が、（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む、方法が提供される。一実施形態では、本明細書に記載の方法を実行するためのコンピュータ実行可能命令を含む非一時的なコンピュータ可読記憶媒体が提供される。一実施形態では、（ａ）１つまたは複数のプロセッサー、（ｂ）メモリ、および（ｃ）１つまたは複数のプログラムを含むシステムであって、１つまたは複数のプログラムが、メモリに記憶され、１つまたは複数のプロセッサーによって実行されるよう構成され、１つまたは複数のプログラムは、本明細書に記載の方法を実行するための命令を含む、システムが提供される。

[0016]一実施形態では、本明細書に記載の方法を実行するための命令を実行するよう構成されたコンピュータシステムが提供される。

[0017]本発明の他の目的、特徴および利点は、以下の詳細な説明から明らかとなるであろう。しかしながら、詳細な説明および具体的実施例は、本発明の好ましい実施形態を示すが、本発明の範囲および趣旨の範囲内での様々な変更および修正が、この詳細な説明から当業者にとって明らかとなることから、例示のために与えられるに過ぎないことが理解されるべきである。

[0018]図１Ａ～１Ｄは、ＰＭＳ２およびＰＭＳ２ＣＬにおける天然の遺伝的変異のデータセットを構築するためのＬＲ－ＰＣＲ戦略を示す。図１Ａ：遺伝子（青色）および偽遺伝子（赤色）を起源とするＮＧＳハイブリッド－捕捉データからのショートリードが高い相同性に起因して遺伝子と偽遺伝子の両方に対してアラインする。図１Ａ～１Ｄは、ＰＭＳ２およびＰＭＳ２ＣＬにおける天然の遺伝的変異のデータセットを構築するためのＬＲ－ＰＣＲ戦略を示す。図１Ｂ：遺伝子または偽遺伝子に対して特異的であるＬＲ－ＰＣＲ、それに続いて断片化およびバーコーディングを使用して（図１Ｂ）、得られたＮＧＳショートリードが、遺伝子または偽遺伝子に対してアサインされ得る（図１Ｃ）。図１Ａ～１Ｄは、ＰＭＳ２およびＰＭＳ２ＣＬにおける天然の遺伝的変異のデータセットを構築するためのＬＲ－ＰＣＲ戦略を示す。図１Ｃ：遺伝子または偽遺伝子に対して特異的であるＬＲ－ＰＣＲ、それに続いて断片化およびバーコーディングを使用して（図１Ｂ）、得られたＮＧＳショートリードが、遺伝子または偽遺伝子に対してアサインされ得る（図１Ｃ）。図１Ａ～１Ｄは、ＰＭＳ２およびＰＭＳ２ＣＬにおける天然の遺伝的変異のデータセットを構築するためのＬＲ－ＰＣＲ戦略を示す。図１Ｄ：ｈｇ１９基準ゲノム（灰色）に基づき、ＬＲ－ＰＣＲ試料（黒色）から得た天然の遺伝的変異を考慮に入れた後の、ＰＭＳ２エクソン１１～１５に関する遺伝子と偽遺伝子の間のパーセント同一性。 [0019]図２Ａ～２Ｂは、ＰＭＳ２の最終エクソンにおけるバリアント特定のためのリフレックスワークフロー（ｒｅｆｌｅｘｗｏｒｋｆｌｏｗ）を示す。図２Ａ：ＰＭＳ２の５つの最終エクソンに関するシーケンシングおよび分析ワークフローの概要。色付けした節点は、図２Ｂのボックスに対応する。図２Ａ～２Ｂは、ＰＭＳ２の最終エクソンにおけるバリアント特定のためのリフレックスワークフローを示す。図２Ｂ：図２Ａのワークフローのステップに対応する詳細；各ボックスの詳細は、方法および結果に記載される。「報告なし」は、バリアントが患者の報告に現れないことを意味する。「リフレックス」は、試料がＬＲ－ＰＣＲに基づく曖昧性除去に送られ、バリアントが遺伝子または偽遺伝子に局在化するかどうかを決定することを意味する。 [0020]図３Ａ～３Ｃは、ハイブリッド－捕捉およびＬＲ－ＰＣＲが、ＳＮＶおよびインデルに対応していることを示す。図３Ａ：ハイブリッド捕捉とＬＲ－ＰＣＲデータの比較のための対応表を記載する仮想例。すべての例は、基準塩基がＡであり、代替（「ａｌｔ」）塩基がＴであると仮定する。（ｉ）ａｌｔ対立遺伝子がＰＭＳ２ＣＬに存在する真の陽性（濃青色）の例。（ｉｉ）ＰＭＳ２ＣＬがａｌｔ対立遺伝子に対してホモ接合性であるが、ハイブリッド捕捉が２つの代わりに１つのａｌｔ対立遺伝子しかコールしない、許容されるドーセッジの誤差（淡青色）の例。（ｉｉｉ）ハイブリッド捕捉のみがａｌｔ対立遺伝子を検出した、偽陽性（淡橙色）の例。（ｉｖ）ＰＭＳ２ＣＬにおけるａｌｔ対立遺伝子がハイブリッド捕捉によって捉えられなかった、偽陰性（濃橙色）の例。右の影付きの行列は、真の陽性、許容されるドーセッジの誤差、偽陽性および偽陰性を表す細胞を示す。軸の数は、ハイブリッド捕捉データまたはＰＭＳ２／ＰＭＳ２ＣＬＬＲ－ＰＣＲデータのいずれかにおけるａｌｔ対立遺伝子の総数を示す。図３Ａ～３Ｃは、ハイブリッド－捕捉およびＬＲ－ＰＣＲが、ＳＮＶおよびインデルに対応していることを示す。図３Ｂ：二倍体のＳＮＶおよびインデルは、ＰＭＳ２のエクソン１１に対応する。軸の数は、０が０／０に等しく、１が０／１に等しく、かつ２が１／１に等しいａｌｔ対立遺伝子の数を示す。括弧内は９５％信頼区間。図３Ａ～３Ｃは、ハイブリッド－捕捉およびＬＲ－ＰＣＲが、ＳＮＶおよびインデルに対応していることを示す。図３Ｃ：４つのコピーのＳＮＶおよびインデルは、図３Ａにおいて説明したように、ＰＭＳ２／ＰＭＳ２ＣＬのエクソン１２～１５に対応する。 [0021]図４Ａ～４Ｂは、シミュレーションされたインデルが、インデル感度における信頼性を増加させることを示す。図４Ａ：２つの二倍体の試料からのシーケンシングデータを合わせることによって、四倍体のインデルをシミュレーションする概略図。図４Ａ～４Ｂは、シミュレーションされたインデルが、インデル感度における信頼性を増加させることを示す。図４Ｂ：図３Ａと同じ形式での四倍体のインデルのシミュレーション結果。 [0022]図５Ａ～５Ｄは、ハイブリッド捕捉、ＬＲ－ＰＣＲ、およびＭＬＰＡがＣＮＶに対応することを示す。図５Ａ：ハイブリッド捕捉データおよび対応する直交する確認データにおいてコールされたすべてのＣＮＶ。図５Ａ～５Ｄは、ハイブリッド捕捉、ＬＲ－ＰＣＲ、およびＭＬＰＡがＣＮＶに対応することを示す。図５Ｂ：エクソン１３～１４が欠失した患者試料に関するハイブリッド捕捉データは、遺伝子座（ビン）にわたるコピー数の推定値を示す。灰色の領域は、ＰＭＳ２の４つの最終エクソンを示す。白色の領域は、イントロンを示す。黄色のボックスは、ＣＮＶコールの領域を示す。図５Ａ～５Ｄは、ハイブリッド捕捉、ＬＲ－ＰＣＲ、およびＭＬＰＡがＣＮＶに対応することを示す。図５Ｃ：エクソン１３～１４が欠失した患者試料に関するＭＬＰＡデータ。ＰＭＳ２に特異的なＭＬＰＡプローブ（青色の塗りつぶし）、ＰＭＳ２ＣＬに特異的なＭＬＰＡプローブ（赤色の塗りつぶし）、およびＰＭＳ２／ＰＭＳ２ＣＬが変性したＭＬＰＡプローブ（青色と赤色のストライプ）は、ＰＭＳ２ＣＬのエクソン１３～１４において欠失を示す。図５Ａ～５Ｄは、ハイブリッド捕捉、ＬＲ－ＰＣＲ、およびＭＬＰＡがＣＮＶに対応することを示す。図５Ｄ：ＰＭＳ２（青色、上）およびＰＭＳ２ＣＬ（赤色、下）に関する遺伝子座（ビン）にわたるコピー数の推定値を示すエクソン１３～１４欠失試料に関するＬＲ－ＰＣＲデータ。灰色の領域はＰＭＳ２のエクソン１１～１５を示し、白色の領域は図５Ｂにおけるようなイントロンを示す。 [0023]図６は、ハイブリッド捕捉アッセイを構築するために使用される直交するデータセットを示す。示されているように、図６は、ＰＭＳ２の５つの最終エクソンに関するハイブリッド捕捉アッセイを構築するために使用されるアッセイ、データセット、アルゴリズム、および分析を実証する図である。Ｃｏｒｉｅｌｌ試料（１ｂ）は、受託番号ＰＲＪＥＢ２７９４８において提供されるＬＲ－ＰＣＲを繰り返すことなく、他の研究者らによって使用され得る。ゲノムＤＮＡ（ｇＤＮＡ）。 [0024]図７Ａ～７Ｃは、ＰＭＳ２のエクソン１１～１５基準遺伝子型（ＰｏｌａｒｉｓおよびＧＩＡＢからの）は、ＰＭＳ２ＬＲ－ＰＣＲと一致しないことを示す。図７Ａ：ＬＲ－ＰＣＲバリアントコールとＰｏｌａｒｉｓバリアント細胞の間の一致。図７Ｂ：ＬＲ－ＰＣＲバリアント細胞と５つのＧＩＡＢ試料すべてに対するＧＩＡＢ複数試料のコールセット（高い信頼性とフィルタリングされたバリアント細胞を含む）の間の一致。図７Ｃ：ＬＲ－ＰＣＲバリアントコールと４つのＧＩＡＢ試料に対して利用可能な１０×Ｇｅｎｏｍｉｃｓハプロタイプのコールセットの間の一致。 [0025]図８Ａ～８Ｂは、ＲＮＡデータが、ハイブリッド捕捉およびＬＲ－ＰＣＲデータを裏付けることを示す。図８Ａ：ハイブリッド捕捉データとＰＭＳ２およびＰＭＳ２ＣＬに関するＲＴ－ＰＣＲの間の一致。図８Ａ～８Ｂは、ＲＮＡデータが、ハイブリッド捕捉およびＬＲ－ＰＣＲデータを裏付けることを示す。図８Ｂ：ハイブリッド捕捉データとＰＭＳ２およびＰＭＳ２ＣＬに関するＬＲ－ＰＣＲの間の一致。 [0026]図９は、目的物の領域からの第１のＤＴＳリードおよび第２のＤＴＳリードの「曖昧なアラインメント」を含む、本明細書に記載の方法の実施形態を示すチャートである。 [0027]図１０は、本発明の様々な実施形態が動作し得る例示的なシステムおよび環境を例示する図である。 [0028]図１１は、例示的な計算システムを例示する図である。

[0029]この特許のファイルは、少なくとも１つのカラーの図面を含む。カラーの図面を有するこの特許または特許公報のコピーは、申請および必要な手数料の支払いに際し、特許庁より提供されるであろう。

[0030]本発明は、ここで、以下の定義および例を使用することによって、参照としてのみ詳細に記載される。本明細書において言及される、このような特許および公報内に開示されるすべてのシーケンスを含む、すべての特許および公報は、参照によって明示的に組み込まれる。

[0031]その他の点で本明細書に定義されていなければ、本明細書において使用されるすべての技術用語および科学用語は、この発明が属する技術分野の当業者によって通常理解されるものと同じ意味を有する。Ｓｉｎｇｌｅｔｏｎら、ＤｉｃｔｉｏｎａｒｙｏｆＭｉｃｒｏｂｉｏｌｏｇｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ、第２版、ＪｏｈｎＷｉｌｅｙａｎｄＳｏｎｓ、ＮｅｗＹｏｒｋ（１９９４）、ならびにＨａｌｅおよびＭａｒｈａｍ、ＴｈｅＨａｒｐｅｒＣｏｌｌｉｎｓＤｉｃｔｉｏｎａｒｙｏｆＢｉｏｌｏｇｙ、ＨａｒｐｅｒＰｅｒｅｎｎｉａｌ、ＮＹ（１９９１）は、当業者に、本発明において使用される用語の多くについての一般的辞書を提供する。本明細書に記載のものに類似するかまたは等しいいずれの方法および材料も、本発明の実践または試験において使用することができるが、好ましい方法および材料について記載されている。特に、専門家は、当技術分野の定義および用語について、Ｓａｍｂｒｏｏｋら、１９８９、およびＡｕｓｕｂｅｌＦＭら、１９９３に注意を向ける。記載された特定の方法論、プロトコール、および試薬は、変化し得るため、本発明は、これらに限定されないことが理解されるべきである。

[0032]数値範囲は、範囲を定義する数値を含む。用語「約（ａｂｏｕｔ）」は、値のプラスまたはマイナス１０パーセント（１０％）を意味するために本明細書において使用される。例えば、「約１００」は、９０から１１０の間の任意の数値を指す。

[0033]他に示されていなければ、それぞれ、核酸は、左から右へ、５’から３’の方向に書かれ、アミノ酸シーケンスは、左から右へ、アミノからカルボキシの方向へ書かれる。

[0034]本明細書において提供される見出しは、本明細書を全体として参照して有され得る、本発明の様々な態様または実施形態の限定ではない。したがって、すぐ下に定義される用語は、本明細書を全体として参照してより十分に定義される。
[0035]参照される任意の表（例えば、表Ｓ１、表Ｓ２など）を含む補充データは、申請すれば入手可能となるであろう。本特許出願に関する科学論文のバージョンは、本出願と共に添付文書として提供される。

Ｉ．定義
[0036]本明細書で使用される場合、「精製された」およびその派生語は、分子が、分子が含有される試料の、少なくとも９０重量％、９５重量％、または少なくとも９８重量％の濃度で試料中に存在することを意味する。

[0037]用語「単離された」およびその派生語は、本明細書で使用される場合、通常、例えば、自然環境で付随している少なくとも１つの他の分子から分離されている分子を指す。単離された核酸分子は、通常その核酸分子を発現する細胞内に元々含有されている核酸分子を含むが、その核酸分子は、染色体外またはその本来の染色体位置とは異なる染色体位置に存在する。

[0038]用語「％同一性」およびその派生語は、本明細書において、シーケンスアラインメントプログラムを使用して、例えば、ＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌアルゴリズムを使用して、シーケンスがアラインされる、別の核酸シーケンスまたは任意の他のポリペプチド、またはポリペプチドのアミノ酸シーケンスの間の核酸またはアミノ酸シーケンスの同一性のレベルを指すために、用語「％相同性」およびその派生語と交換可能に使用される。核酸の場合には、この用語は、イントロン領域および／または遺伝子間領域にも適用する。

[0039]例えば、本明細書で使用される場合、８０％相同性は、定義されたアルゴリズムによって決定される８０％シーケンス同一性と同じことを意味し、したがって、所与のシーケンスのホモログまたは高度に相同なシーケンスは、所与のシーケンスの長さに対して８０％より高いパーセンテージのシーケンス同一性を有する。シーケンス同一性の例示的なレベルは、以下に限定されないが、所与のシーケンス、例えば、記載されたように、本発明のポリペプチドのいずれか１つに対するコードシーケンスに対して、８０、８５、９０、９５、９８％またはそれより高いパーセンテージのシーケンス同一性を含む。

[0040]本明細書で使用される場合、「高度に相同な」およびその派生語は、少なくとも２つの異なるヌクレオチドシーケンスの間の％相同性または％同一性が７０％を超えることを意味する。シーケンスは、それらのシーケンス同一性が同等の長さに対して７０％を超える場合に、「高度に相同な」と言及される。

[0041]２つのシーケンス間の同一性を決定するために使用することができる例示的なコンピュータプログラムとしては、以下に限定されないが、一連のＢＬＡＳＴプログラム、例えば、ＢＬＡＳＴＮ、ＢＬＡＳＴＸ、およびＴＢＬＡＳＴＸ、ＢＬＡＳＴＰおよびＴＢＬＡＳＴＮ、ならびにインターネットで公に利用可能なＢＬＡＳＴが挙げられる。Ａｌｔｓｃｈｕｌら、１９９０およびＡｌｔｓｃｈｕｌら、１９９７も参照されたい。

[0042]シーケンス検索は、典型的には、ＧｅｎＢａｎｋのＤＮＡシーケンスおよび他の公のデータベースにおける核酸シーケンスに対して、所与の核酸シーケンスを評価する場合に、ＢＬＡＳＴＮプログラムを使用して実行される。ＢＬＡＳＴＸプログラムは、ＧｅｎＢａｎｋのタンパク質シーケンスおよび他の公のデータベースにおけるアミノ酸シーケンスに対して、すべてのリーディングフレームで翻訳された核酸シーケンスを検索するために好ましい。ＢＬＡＳＴＮとＢＬＡＳＴＸは両方、オープンギャップペナルティが１１．０、および伸長ギャップペナルティが１．０のデフォルトパラメーターを使用して実行され、ＢＬＯＳＵＭ－６２行列を利用する。（例えば、Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．ら、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２５：３３８９～３４０２頁、１９９７を参照されたい）。

[0043]２つ以上のシーケンス間の「％同一性」を決定するための、選択されたシーケンスの好ましいアラインメントは、例えば、ＭａｃＶｅｃｔｏｒバージョン１３．０．７においてＣＬＵＳＴＡＬ－Ｗプログラムを使用して実施され、オープンギャップペナルティが１０．０、伸長ギャップペナルティが０．１、およびＢＬＯＳＵＭ３０類似性行列を含む、デフォルトパラメーターを用いて操作される。

[0044]「シーケンスリード」およびその派生語は、ヌクレオチドシーケンス内で、３０ｎｔから４００ｎｔ、５０ｎｔから２５０ｎｔ、５０ｎｔから１５０ｎｔ、または１００ｎｔから２００ｎｔの範囲である。

[0045]用語「突然変異」は、本明細書で使用される場合、以下に限定されないが、個体間の変化、または個体のシーケンスと基準シーケンスの間の変化を含む、自然なシーケンスの変化と遺伝によるシーケンスの変化の両方を指す。例示的な突然変異としては、以下に限定されないが、ＳＮＰ、インデル（挿入または欠失バリアント）、コピー数のバリアント、逆位、転座、染色体融合などが挙げられる。

[0046]用語「小ヌクレオチド多型」または「ＳＮＰ」およびその派生語は、単一ヌクレオチドバリアント（ＳＮＶ）、マルチヌクレオチドバリアント（ＭＮＶ）、または約１００塩基ペア以下のインデルバリアントを指す。

[0047]用語「ホモログ」およびその派生語は、本明細書で使用される場合、対象のゲノムの他の箇所に位置するヌクレオチドシーケンスと同一であるかまたはほぼ同一であるヌクレオチドシーケンスを指す。ホモログは、対象のゲノムの他の箇所に位置するヌクレオチドシーケンスに対して高度に相同である。ホモログは、別の遺伝子である「偽遺伝子」または遺伝子の一部ではないシーケンスのセグメントのいずれかであってもよい。

[0048]「偽遺伝子」およびその派生語は、本明細書で使用される場合、ＤＮＡシーケンスにおける遺伝子に非常に似ているが、遺伝子を機能不全にする少なくとも１つの変化を有するＤＮＡシーケンスである。変化は、単一の残基の突然変異であってもよい。変化は、スプライスバリアントを生じてもよい。変化は、翻訳の早期終了をもたらしてもよい。偽遺伝子は、機能性遺伝子に対して機能不全である。偽遺伝子は、公知の遺伝子（すなわち、目的物の遺伝子）に対する相同性と非機能性の組合せによって特徴付けられる。

[0049]遺伝子に対する偽遺伝子の数は、本明細書において数え上げたものに限定されない。偽遺伝子は、ますます認識されている。したがって、当業者は、シーケンス相同性に基づき、または例えば、ＧｅｎｅＣａｒｄｓ（ｇｅｎｅｃａｒｄｓ．ｏｒｇ）、ｐｓｅｕｄｏｇｅｎｅｓ．ｏｒｇなどのような精選されたデータベースを参照して、シーケンスが偽遺伝子であるかどうかを決定することができる。

[0050]本明細書で使用される場合、「目的の遺伝子」およびその派生語は、遺伝子型を決定することが望ましい遺伝子である。全体として、目的の遺伝子は、それぞれが目的の遺伝子のコピーを有する２つの染色体により、２つの機能性コピーを有する。用語「目的の遺伝子」および「遺伝子」は、本明細書において交換可能に使用することができる。

[0051]本明細書で使用される場合、「目的の領域」およびその派生語は、対象のゲノム内の任意の領域であってもよい。本明細書で使用される場合、目的の領域は、全体として、対象のゲノムにおいて高度に相同なシーケンスである。

ＩＩ．プロセス
[0052]本明細書に記載の方法によってポリヌクレオチドが分析される試料は、同じ個体からの多数の試料、異なる個体からの多数の試料、またはそれらの組合せに由来し得る。一部の実施形態では、試料は、単一の個体からの複数のポリヌクレオチドを含む。一部の実施形態では、試料は、２つ以上の個体からの複数のポリヌクレオチドを含む。例えば、試料は、妊婦に由来し、妊婦およびその胎児からのポリヌクレオチドを含む。個体は、ポリヌクレオチドが由来し得る任意の生物またはその部分であり、その非限定的な例として、植物、動物、真菌、原生生物、モネラ界の生物、ウイルス、ミトコンドリア、およびクロロプラストが挙げられる。試料ポリヌクレオチドは、対象、例えば、培養細胞株、生検、血液試料、頬スワブ、細胞を含有する流体試料（例えば、唾液）を含む、細胞試料、組織試料、流体試料、またはそれらに由来する器官試料（またはこれらのいずれかに由来する細胞培養物）などから単離され得る。対象は、以下に限定されないが、ウシ、ブタ、マウス、ラット、ニワトリ、ネコ、イヌなどを含む動物であってもよく、通常、哺乳動物、例えば、ヒトである。試料は、化学合成によってなど、人工的に由来してもよい。一部の実施形態では、試料は、ＤＮＡを含む。一部の実施形態では、試料は、対象の血漿から抽出された無細胞ＤＮＡを含む。一部の実施形態では、試料は、ゲノムＤＮＡを含む。一部の実施形態では、試料は、ミトコンドリアＤＮＡ、クロロプラストＤＮＡ、プラスミドＤＮＡ、細菌の人工染色体、酵母の人工染色体、オリゴヌクレオチドタグ、試料が得られる対象以外の生物（例えば、細菌、ウイルス、または真菌）からのポリヌクレオチドまたはそれらの組合せを含む。一部の実施形態では、抽出された核酸は、妊婦の母体血漿からの無細胞ＤＮＡを含む。

[0053]核酸の抽出および精製のための方法は、当技術分野で周知である。例えば、核酸は、ＴＲＩｚｏｌおよびＴｒｉＲｅａｇｅｎｔを含む、フェノール、フェノール／クロロホルム／イソアミルアルコール、または同様の製剤を含む有機抽出物によって精製することができる。抽出技法の他の非限定的な例は、（１）有機抽出に続く、自動核酸抽出器、例えば、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから入手可能なＭｏｄｅｌ３４１ＤＮＡＥｘｔｒａｃｔｏｒ（ＦｏｓｔｅｒＣｉｔｙ、Ｃａｌｉｆ．）を使用してまたは使用せずに、例えば、フェノール／クロロホルム有機試薬（Ａｕｓｕｂｅｌら、１９９３）を使用するエタノール沈殿；（２）固定相吸着法（米国特許第５，２３４，８０９号；Ｗａｌｓｈら、１９９１）；および（３）典型的には、「塩析」方法と称される沈澱法などの、塩で誘導された核酸沈澱法（Ｍｉｌｌｅｒら、（１９８８））が挙げられる。核酸の単離および／または精製の別の例は、磁性粒子の使用を含み、核酸は特異的または非特異的に磁性粒子に結合し、その後、磁石を使用してビーズを単離し、洗浄し、ビーズから核酸を溶出することができる（例えば、米国特許第５，７０５，６２８号を参照されたい）。一部の実施形態では、上記の単離方法は、試料から不要なタンパク質を取り除くのに役立つ酵素消化ステップ、例えば、プロテイナーゼＫ、または他の類似のプロテアーゼによる消化によって進められてもよい。例えば、米国特許第７，００１，７２４号を参照されたい。好ましい実施形態では、抽出されたＤＮＡは、対象のゲノムを含む。

[0054]一部の実施形態では、複数の核酸分子を含むライブラリー（例えば、ＤＮＡライブラリー）は、抽出された核酸から調製される。一部の実施形態では、複数の核酸分子中の核酸は、分子バーコードおよび／または１つもしくは複数のアダプターオリゴヌクレオチド（「アダプター」とも称される）を含む場合のある、組み込まれたオリゴヌクレオチドを含む。

[0055]一部の実施形態では、抽出された核酸の一部は、例えば、以下に限定されないが、ポリメラーゼ連鎖反応（ＰＣＲ）、逆転写、およびそれらの組合せを含む、プライマーとＤＮＡポリメラーゼの任意の好適な組合せを使用するプライマー伸長反応によって増幅される。プライマー伸長反応に関する鋳型がＲＮＡである場合、逆転写産物は、相補的ＤＮＡ（ｃＤＮＡ）と称される。プライマー伸長反応において有用なプライマーは、１つまたは複数の標的に特異的なシーケンス、ランダムシーケンス、部分的にランダムなシーケンス、およびそれらの組合せを含んでもよい。プライマー伸長反応に好適な反応条件は、当技術分野で公知である。一部の実施形態では、抽出されたＤＮＡは、特異的プライマー、例えば、遺伝子特異的プライマーを使用するロングレンジＰＣＲ（ＬＲ－ＰＣＲ）によって増幅される。

[0056]抽出された核酸はシーケンシングされる。核酸をシーケンシングするための方法は、当技術分野で周知である。一実施形態では、抽出された核酸は、サンガーシーケンシングによってシーケンシングされる。抽出された核酸は、好ましくは、ハイスループット次世代シーケンシング（ＮＧＳ）を使用してシーケンシングされる。原則として、任意のペアエンドシーケンシング法が、抽出されたＤＮＡをシーケンシングするために使用され得る。好ましい実施形態では、ダイレクトターゲットシーケンシング（ＤＴＳ）が用いられ、ここで、可能な場合には、捕捉およびシーケンシングされた断片が、ターゲットシーケンスを他の捕捉されたシーケンスから識別する少なくとも１つのシーケンスを含有するように設計されているハイブリッド－捕捉プローブまたはＰＣＲプライマーを用いて、目的物の領域からのシーケンスが濃縮される。一部の実施形態では、目的物の１つまたは多数の部位のＤＴＳによって得られたペアエンドリードは、ゲノムリードを含む第１のシーケンスリードおよび対象のゲノムにおいて、目的物の部位と関連したプローブリードを含む第２のシーケンスリードを含む。一部の実施形態では、シーケンシングリードは、３０～５０ｂｐである。他の実施形態では、シーケンシングリードは、１００～２００ｂｐの長さである。好ましい実施形態では、シーケンスリードは、約４０ｂｐである。一部の実施形態では、ＤＴＳは、参照によりその全体が本明細書に組み込まれる、米国特許第９，０９２，４０１号に記載されているように使用される。

[0057]例えば、ハイブリッド－捕捉プローブは、目的物の異なる部位間で異なる少数の塩基（「ｄｉｆｆ塩基」）に隣接してアニールするように設計されてもよい。このような識別シーケンスが稀である場合、多数のプローブを使用して、識別可能な断片を捕捉し、それぞれ特定のプローブのシーケンスに固有の傾向の作用を減らしてもよい。

[0058]核酸シーケンスは、遺伝的変異を検出するために、基準ゲノムに対してアラインされてもよい。好ましい実施形態では、対象はヒトであり、シーケンスリードはヒト基準ゲノムに対してアラインされる。例えば、シーケンス操作およびアラインメントの手順（「パイプライン」）は、ゲノム分析器、例えば、ＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩｘ（ＧＡＩＩｘ）またはＨｉＳｅｑシーケンサー（Ｉｌｌｕｍｉｎａ；ＳａｎＤｉｅｇｏ、Ｃａｌｉｆ．）からの生データで始まり、患者試料から遺伝子型を推定し、メトリックスを計算してもよい。目的物の領域からのシーケンシングデータは、本発明の方法に従って、フローセルレーンごとの多重化（例えば、１２×）構造におけるバーコード付加試料の多数回の実行から得ることができる。シーケンサーの生データは、ベースコール（ＢＣＬファイル）ならびに様々な品質管理および較正のメトリックスを含み得る。生のベースコールおよびメトリックスは、最初にＱＳＥＱファイルにコンパイルされ、次いでフィルタリングされ、マージされ、かつ試料特異的なＦＡＳＴＱファイルに（バーコードシーケンスに基づき）脱多重化され得る。ＦＡＳＴＱリードは、基準ゲノム、例えば、ＨＧ１９ゲノムにアラインされ、初期ＢＡＭファイルを作成することができる。一部の場合には、各ペアエンドＦＡＳＴＱファイルは、基準ゲノムに対してアラインされ得る。他の場合には、各シングルエンドＦＡＳＴＱファイルはゲノムに対して別々にアラインし、「曖昧なアラインメント」、および各リードに対するいくつかのトップアラインメントの報告を可能にし得る。さらに他の実施形態では、全体的なアラインメントプロセスは、フォワードおよびリバースペアエンドＮＧＳリードの単一アラインメントを含んでもよく、ならびに／またはフォワードおよびリバースシングルエンドＮＧＳリード（例えば、「曖昧なアラインメント」）のアラインメントもしくはリアラインメントを分離してもよい。得られるＢＡＭファイルは、いくつかの変換を受けて、アラインメントをフィルタリング、クリップ、およびリファインすることができ、かつ品質のメトリックスを再較正することができる。最終のＢＡＭファイルを使用して、公知のバリアントに関する遺伝子型を推定し、コールセットを生じる新規のバリアントを発見することができる。次いで、コールセット（ＶＣＦファイル）は、様々なコールメトリックスを使用してフィルタリングされ、試料ごとに信頼性の高い（例えば、約８０％、８５％、９０％、９５％、９９％、もしくはそれより高いパーセンテージの信頼度または約８０％、８５％、９０％、９５％、９９％、もしくはそれより高いパーセンテージを超える信頼度）バリアントコールの最終セットを生じ得る。最終的に、様々なメトリックスを試料、レーン、およびバッチごとに計算することができ、可視化、再調査、および最終報告の作成のために、コールおよびメトリックスが実験室情報管理システム（ＨＭＳ）中にロードされる。パイプラインは、局所的におよび／またはアマゾンクラウドにおけるようなクラウドコンピューティングを使用して実行され得る（全体的または部分的に）。ユーザーは、任意の好適な通信機構を使用してパイプラインと相互作用することができる。例えば、相互作用は、Ｄｊａｎｇｏの管理コマンド（ＤｊａｎｇｏＳｏｆｔｗａｒｅＦｏｕｎｄａｔｉｏｎ、Ｌａｗｒｅｎｃｅ、Ｋａｎｓ．）、パイプラインの各ステップを実行するためのシェルスクリプト、または好適なプログラミング言語で書かれたアプリケーションプログラミングインターフェース（例えば、ＰＨＰ、ＲｕｂｙｏｎＲａｉｌｓ、Ｄｊａｎｇｏ、またはＡｍａｚｏｎＥＣ２のようなインターフェース）を介するものであってもよい。この例のパイプラインの操作の概要は、参照によりその全体が本明細書に組み込まれる、米国特許第９，０９２，４０１号の図１０および１１に示されている。

[0059]一部の実施形態では、本発明によるアラインメントは、コンピュータプログラムを使用して実施される。ＢＷＴアプローチを実装する１つの例示的なアラインメントプログラムは、Ｇｅｅｋｎｅｔ（Ｆａｉｒｆａｘ、Ｖａ．）によって維持されるＳｏｕｒｃｅＦｏｒｇｅウェブサイトから入手可能なＢｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＡｌｉｇｎｅｒ（ＢＷＡ）である。アラインメントの質は、アラインメントスコアを計算することによって評価および／または比較され得る。例えば、アラインメントの質は、ＨｅｎｇＬｉ（２０１３）「Ａｌｉｇｎｉｎｇｓｅｑｕｅｎｃｅｒｅａｄｓ，ｃｌｏｎｅｓｅｑｕｅｎｃｅｓａｎｄａｓｓｅｍｂｌｙｃｏｎｔｉｇｓｗｉｔｈＢＷＡ－ＭＥＭ」（ａｒＸｉｖ：１３０３．３９９７ｖ２［ｑ－ｂｉｏ．ＧＮ］）に記載されているアラインメントスコアを計算することによって、評価および／または比較され得る。各リードまたはリードのペアに関するアラインメントスコアを使用して、シングルエンドリードまたはペアエンドリードのコレクションに関する単一のトップアラインメントまたは多数のトップアラインメントを特定することができる。一部の場合には、アライナーは、目的物の領域、例えば、第１、第２、またはそれ以降の目的物の領域に関する最小アラインメントスコアを満たすアラインメントを発するに過ぎない。

[0060]本明細書において提供されるのは、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の高度に相同な領域を含み、検出された遺伝的変異が目的物の高度に相同な領域のうちの１つまたは複数内にある、方法である。一部の実施形態では、高度に相同な領域は、７０％、７１％、７２％、７３％、７４％、７５％、７６％、７７％、７８％、７９％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％、または９９％を超えるシーケンス同一性を有する。一部の場合には、本方法は、ゲノム内の２つ以上の高度に相同な領域の間の遺伝的変異を検出するのに有効である。高度に相同な領域は、高度に類似する任意の２つ以上の領域を含んでもよい。相同な領域は、高度に類似する２つ以上の遺伝子を含んでもよい。一部の場合には、相同な領域は、１つまたは複数の遺伝子およびその遺伝子の１つまたは複数のホモログを含んでもよい。例えば、ホモログは、１つまたは複数の偽遺伝子を含んでもよい。各高度に相同な領域内の短いＤＮＡ断片を捕捉およびシーケンシングするためにハイブリダイゼーションを使用する標準的なターゲットＮＧＳ戦略を用いる高度に相同な領域などの遺伝子型判定は、領域間の比較的短いリード長および高い相同性により、シーケンスリードが特異的領域に対して明確にアラインされ得ないという事実によって複雑化されている。例えば、ＰＭＳ２は、通常、リンチ症候群との関連により、ＨＣＳパネルに含まれる［１１～１５］。その近くの偽遺伝子であるＰＭＳ２ＣＬは、ＰＭＳ２の３’末端におけるエクソン１１から１５における正確なＮＧＳリードアラインメントおよびバリアントの特定を複雑化し（図１Ａ）：コードシーケンスは、ＰＭＳ２ＣＬと９８％のシーケンス同一性を共有することが以前に報告された［１６］。さらに、２つの領域間のシーケンス交換および遺伝子変換は十分に頻度が高く、基準ゲノム（ｈｇ１９）における数少ない非同一塩基さえも、遺伝子または偽遺伝子に確実に帰属することができない［１７、１８］。エクソン１０における遺伝子特異的プライマーを使用するロングレンジＰＣＲ（ＬＲ－ＰＣＲ）は、ＰＭＳ２を特異的に増幅し（図１Ｂ）、次いで、ＰＭＳ２の末端の５つのエクソンにおけるバリアントは、サンガーシーケンシング［１９～２１］またはＮＧＳ［２２］によって特定され得る（図１Ｃ）。ＰＭＳ２のコピー数バリアント（ＣＮＶ）の特定は、ＬＲ－ＰＣＲおよびサンガーシーケンシングから可能であるが、それは簡単ではなく、大きな欠失および重複を検出するために、マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）の並行使用の動機付けとなった［１９～２４］。

[0061]ゲノム、例えば、ＰＭＳ２における高度に相同な領域に対して、高い感度および特異性を達成することができる多数の試験戦略が存在するが（［１８～２０、２２、２５、２６］、それぞれは品質管理のモニタリングを必要とする。例えば、ＰＭＳ２の５つの最終エクソンでは、スクリーニングされた各試料における、ＬＲ－ＰＣＲ、ＭＬＰＡ、およびハイブリッド－捕捉ＮＧＳは、小さなコホートについて以前に発表されたが［２２］、より大きな患者集団にこの組合せを適用することは、リソース集約的かつ複雑なワークフローロジスティクスとなる。Ｈｅｒｍａｎら［２６］は、ＰＭＳ２またはＰＭＳ２ＣＬの末端のエクソンにおけるＣＮＶ（ＳＮＶまたはインデルではないが）を特定するための方法を近年提示した［２６］。この方法は、ＬＲ－ＰＣＲ試験を追跡するための試料を特定し、最終的に、遺伝子または偽遺伝子にＣＮＶを局在化させた。著者は、ＣＮＶ偽陽性率が６．８％であることを指摘した。このことは、ＣＮＶ陰性試料のかなりの部分が、不必要に追跡試験を受けることを意味する。

[0062]ショートリードＮＧＳ試験後の高いリフレックス率（例えば、１０％を超える）は、患者の報告の正確さのためには許容されるが、試験機関において管理不能なロジスティクスオーバーヘッドを生じ得る。リフレックスレートは、それぞれ異なるソースと制約を有する２つのコンポーネント、つまり、１つの生物学的コンポーネントおよび１つの技術的コンポーネントを有する。生物学的コンポーネントは、リフレックスレートの床としての役割を果たし、アッセイが十分な分析特異性（すなわち、ゼロ偽陽性）および臨床精度（すなわち、ＶＵＳを含まない正確な分類）を有した場合、次いで、それにもかかわらず、ＰＭＳ２のエクソン１２～１５および曖昧性除去を必要とする対応するＰＭＳ２ＣＬ領域における病原体バリアントの存在により、リフレックスレートがゼロにはならない。したがって、この生物学的コンポーネントは、曖昧領域にわたる病原体バリアントの累積集団頻度を主に反映する。リフレックスレートの技術的コンポーネントは、対照的に、バリアント病原性の不十分な分析特異性および不完全な知識から生じる。実施例１ではより高い（９９．７％）が、ＣＮＶに対する分析特異性は、Ｈｅｒｍａｎらでは９３．７％であり［２６］、このことは、この研究におけるリフレックスレートの技術的コンポーネントは、少なくとも６．３％であった（技術的コンポーネントの変化し得る性質を強調している）ことを意味した。また、本明細書に記載のワークフローにおけるＶＵＳによる技術的リフレックスは、試料の４％において必要とされ、これは、ＰＭＳ２のさらなるスクリーニング、およびその結果得られる、ＶＵＳを再分類する能力により下降することが予測される占有率である。

[0063]したがって、ゲノムにおける相同な領域間の変化を検出するためのリフレックス方法が本明細書において開示される。本方法の目的物は、ＰＭＳ２バリアントの検出を最大限にするのに十分高感度であり、リフレックス負荷を最小限にするのに十分特異的である、ワークフローの最初の試験相（すなわち、リフレックスの上流）を有することである。一実施形態では、本方法は、ハイブリッド－捕捉ＮＧＳをすべての試料に、かつリフレックスアッセイとしてＬＲ－ＰＣＲ／ＭＬＰＡのみを適用する。一部の実施形態では、本明細書に記載のワークフローは、高い分析精度を有する（すなわち、特異的領域におけるシーケンスバリアントを検出することが可能である）が、試料の１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、または１％未満に対してのみリフレックス試験を必要とする。一実施形態では、本明細書に記載のワークフローは、高い分析精度を有するが、試料の約８％に対してのみリフレックス試験を必要とする。ＰＭＳ２の５つの最終エクソンにおけるＳＮＶ、インデル、およびＣＮＶの検出のための方法の例示的な実施形態は、実施例１において記載される。

[0064]一実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の第１の高度に相同な領域および第２の高度に相同な領域を含む、方法は、（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む。好ましい実施形態では、リードは基準ゲノムに対してアラインされ、基準ゲノムは、目的物の第１の相同な領域または第２の相同な領域のマスク部分または改変部分を含まず、目的物の第１の相同な領域および／または第２の相同な領域は、本明細書に記載の遺伝的変異を検出するために分析される。ステップ（ｂ）のアラインメントは、各シングルエンドシーケンスリードが基準ゲノムに対して別々にアラインされ、多数のリードのアラインメントが（ｃ）において特定されるため、「曖昧なアラインメント」と称される。「曖昧なアラインメント」プロセスによる本方法の実装例は、図９に示される。

[0065]別の実施形態では、対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが目的物の第１の高度に相同な領域および第２の高度に相同な領域を含む、方法は、（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、（ｂ）基準ゲノムに対して第１のリードおよび第２のリードをアラインするステップであって、アライナーが第１のリードおよび第２のリードの各ペアについて、目的物の第１の領域または第２の領域に対して最良の可能なペアエンドアラインメント発し、かつ目的物の第１の領域または第２の領域に対するトップアラインメントスコアに関連するペアエンドリードのみが、ステップ（ｃ）において別々にアラインされる、ステップと、（ｃ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、（ｄ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、（ｅ）ステップ（ｄ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、（ｆ）ステップ（ｅ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップとを含む。好ましい実施形態では、リードは基準ゲノムに対してアラインされ、基準ゲノムは、目的物の第１の相同な領域または第２の相同な領域のマスク部分または改変部分を含まず、目的物の第１の相同な領域および／または第２の相同な領域は、本明細書に記載の遺伝的変異を検出するために分析される。よって、一部の実施形態では、標準的ペアエンドアラインメントは、目的物の領域に対してアラインするリードを選択するために最初に実施され、典型的には、トップアラインメントスコアを有するペアエンドリードのみが選択される。次に、選択されたペアエンドリードはパーティショニングされ、基準ゲノムに対して別々にアラインされ、各リード（例えば、「曖昧なアラインメント」）に対する多数のトップシングルエンドアラインメントを特定することができる。

[0066]各リードについて、アライナーによって発せられた多数のトップシングルエンドアラインメントは、個々にペアリングされて、トップペアアラインメントを生じる。例えば、トップペアエンドリードは、例えば、ｓａｍｔｏｏｌ［２８］を使用してＢＡＭファイルにパーティショニングされ、ＢＡＭファイルは、例えば、Ｐｉｃａｒｄ（ＢｒｏａｄＩｎｓｔｉｔｕｔｅ）を使用して２つのアラインされていないＦＡＳＴＱファイル（２つのファイルのうちの１つに構文解析されたリードペアの各数）に変換され、各シングルエンドＦＡＳＴＱファイルは基準ゲノムに対して別々にリアラインされ、「曖昧なアラインメント」、および各リードに対するいくつかのトップアラインメントの報告を可能にする。このようなトップアラインメントをペアリングステップにおいて使用して、トップペアアラインメントを特定することができる。

[0067]「曖昧なアラインメント」から選択されたシングルエンドリードを使用して、選択ステップを通じてトップペアエンドアラインメントを生じ得る。シングルエンドアラインメントを使用して、以下の場合にトップペアエンドアラインメントを生じ得る：１）両方のシングルエンドリードが同じリード名を有する、２）両方のシングルエンドリードが、上記のように「曖昧なアラインメント」によってシングルエンドリードを特定するために使用される、目的物の領域にわたる領域に対してマッピングされる、および／または３）両方のシングルエンドリードが互いに一定数の塩基の範囲内にアラインする。好ましい実施形態では、ペアリング基準（１）～（３）のすべてを満たすリードのみがペアリングされる。一部の実施形態では、上記のように「曖昧なアラインメント」によってシングルエンドリードを特定するために使用される、目的物の領域における第１のリードおよび第２のリードのアラインメントが、約１００ｂｐ、約２００ｂｐ、約２００ｂｐ、約３００ｂｐ、約４００ｂｐ、約５００ｂｐ、約６００ｂｐ、約７００ｂｐ、約８００ｂｐ、約９００ｂｐ、約１０００ｂｐ、約１１００ｂｐ、約１２００ｂｐ、約１３００ｂｐ、約１４００ｂｐ、約１５００ｂｐ、または１５００ｂｐ超の範囲内の場合にのみ、リードがペアリングされる。一部の場合には、多数の推定上のペアが、所与のリード名に関する上記条件を満たす場合、最も高いアラインメントスコアを有するペアが選択される。一部の場合には、トップペアエンドアラインメントは、最も小さな鋳型長を有するものとして選択される。上記のように適当なペアを形成することができないリードは破棄される。得られるペアエンドＢＡＭファイルは、「曖昧なアラインメント」によってシングルエンドリードを特定するために使用される目的物の領域に対してマッピングされた、目的物の両方の相同な領域を起源とするリードを含有する。トップペアエンドアラインメントは、分析されて、目的物の１つまたは複数の相同な領域におけるバリアントを特定またはコールすることができる。

[0068]例えば、ＰＭＳ２について、得られるシングルエンドアラインメントが使用され、以下の基準を満たす場合に、ペアエンドアラインメントを生じ得る：１）両方のシングルエンドリードが同じリード名を有する、２）両方のシングルエンドリードが、ＰＭＳ２のエクソン１２～１５にわたる領域に対してマッピングされる、３）両方のシングルエンドリードが互いに１０００ｂｐの範囲内にアラインする、４）多数の推定上のペアが、所与のリード名に関する上記条件を満たす場合、最も高いアラインメントスコアを有するペアが選択される、および５）上記のように適当なペアを形成することができないリードは破棄される。得られるペアエンドＢＡＭファイルは、ＰＭＳ２シーケンスに対してマッピングされた、ＰＭＳ２リードとＰＭＳ２ＣＬリードの両方を起源とするリードを含有する。

[0069]一実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、１つまたは複数のＳＮＰを含む。別の実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、１つまたは複数のＣＮＶを含む。別の実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、１つまたは複数のインデルを含む。別の実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、１つまたは複数の逆位を含む。別の実施形態では、相同なシーケンスにおいて検出された遺伝的変異は、ＳＮＰ、インデル、逆位、および／またはＣＮＶの組合せを含む。

[0070]一実施形態では、本明細書に記載されている対象のゲノムにおける遺伝的変異を検出するために、ゲノムは、目的物の第１の領域および第２の領域を含む高度に相同な領域を含み、シーケンスリードは、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンから得られる。シーケンスリードは、目的物の第１の領域および／または第２の領域内の１つまたは複数のイントロンから得ることができる。シーケンスリードは、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンおよびイントロンから得ることができる。シーケンスリードは、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンおよびイントロンから得ることができ、イントロンはエクソンの付近に存在する。エクソンの付近に存在するイントロンは、エクソンの＋／－１～１００ｎｔ、例えば、＋／－２０ｎｔ内に存在し得る。シーケンスリードは、目的物の第１の領域および／または第２の領域と関連した１つまたは複数の臨床的に取り扱うことが可能な領域から得ることができる。目的物の第１の領域および／または第２の領域と関連したこのような領域は、ゲノムの任意の領域を含んでもよい。例えば、臨床的に取り扱うことが可能な領域は、プロモーター、エンハンサー、および／または非翻訳領域を含んでもよい。一部の場合には、目的物の第１の領域は遺伝子を含み、目的物の第２の領域は偽遺伝子を含む。他の場合には、目的物の第１の領域は偽遺伝子を含んでもよく、目的物の第２の領域は遺伝子を含む。目的物の第１の領域は、２つの対立遺伝子を含んでもよい。目的物の第２の領域は、２つの対立遺伝子を含んでもよい。

[0071]一実施形態では、遺伝的変異が本明細書に記載の方法によって対象のゲノムにおける目的物の高度に相同な領域において検出される場合、対象のゲノムの一部は、ロングレンジＰＣＲによって増幅され、マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）によってアッセイされる。別の実施形態では、遺伝的変異が本明細書に記載の方法によって対象のゲノムにおける目的物の高度に相同な領域において検出される場合、目的物の第１の領域の一部は、ロングレンジＰＣＲによって増幅され、産物またはその部分はサンガーシーケンシングによってシーケンシングされる。別の実施形態では、遺伝的変異が本明細書に記載の方法によって対象のゲノムにおける目的物の高度に相同な領域において検出される場合、目的物の第１の領域の一部はロングレンジＰＣＲによって増幅され、産物またはその部分はＮＧＳによってシーケンシングされる。別の実施形態では、遺伝的変異が本明細書に記載の方法によって対象のゲノムにおける目的物の高度に相同な領域において検出される場合、対象のゲノムＤＮＡはマルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）によってアッセイされる。

[0072]一実施形態では、遺伝子はＰＭＳ２であり、偽遺伝子はＰＭＳ２ＣＬまたはＰＭＳ２に関するいくつかの他の偽遺伝子のうちの１つである。ＰＭＳ２のエクソン９および１１～１５に関する偽遺伝子は、以下に限定されないが、ＰＭＳ２ＣＬから選択されてもよい。ＰＭＳ２のすべて、特にＰＭＳ２のエクソン１～５に関する偽遺伝子は、以下に限定されないが、１５またはそれより多い／それより少ない偽遺伝子から選択されてもよい。実施形態では、変更されたコピー数の存在ならびに／または遺伝子および偽遺伝子の方向を変更する逆位（例えば、偽遺伝子の一部を遺伝子と融合させ、よって、遺伝子の機能を損なうもの）は、対象が、疾患であるリンチ症候群に対するリスクを増加させたことを示し得る。

[0073]一実施形態では、ペアエンドリードが得られる高度に相同な領域における目的物の多数の部位は、ＰＭＳ２のエクソンおよび対象のゲノムの別の部分のエクソン内に存在する。別の実施形態では、目的物の多数の部位は、ＰＭＳ２のエクソンおよびＰＭＳ２ＣＬのエクソン内に存在する。別の実施形態では、目的物の多数の部位は、ＰＭＳ２のエクソン１１、１２、１３、１４、および／または１５ならびにＰＭＳ２ＣＬのエクソン２、３、４、５、および／または６内に存在する。

[0074]一実施形態では、遺伝子はＳＭＮ１であり、偽遺伝子はＳＭＮ２である。実施形態では、ＳＭＮ１の変更されたコピー数の存在は、対象が、疾患である脊髄性筋萎縮症（ＳＭＡ）に対するキャリアであり得ることを示す。

[0075]別の実施形態では、遺伝子はＣＹＰ２１Ａ２であり、偽遺伝子はＣＹＰ２１Ａ１Ｐである。実施形態では、ＣＹＰ２１Ａ２の変更されたコピー数の存在は、対象が、疾患である先天性副腎過形成（ＣＡＨ）に対するキャリアであり得ることを示す。

[0076]実施形態では、遺伝子はＨＢＡ１であり、ホモログはＨＢＡ２である（または逆もまた同様である）。実施形態では、ＨＢＡ１またはＨＢＡ２のいずれかの変更されたコピー数の存在は、対象が、疾患であるアルファサラセミアに対するキャリアであり得ることを示す。

[0077]さらなる実施形態では、遺伝子はＧＢＡであり、偽遺伝子はＧＢＡＰである。実施形態では、ＧＢＡの変更されたコピー数の存在は、対象が、疾患であるゴーシェ病に対するキャリアであり得ることを示す。

[0078]実施形態では、遺伝子はＣＨＥＫ２であり、いくつかの偽遺伝子を有する。２０１４年１２月現在、７つの偽遺伝子が存在した。偽遺伝子は、以下に限定されないが、精選されたデータベースにおいて列挙されるＣＨＥＫ２偽遺伝子から選択されてもよい。実施形態では、その偽遺伝子との組換えから生じる突然変異、例えば、偽遺伝子に由来するフレームシフト突然変異の存在は、対象が、他の疾患の中でもとりわけ、疾患である乳がんに対するリスクを増加させたことを示し得る。７つの偽遺伝子のうちの１つだけが命名されたこと、およびリスクが１つの突然変異、すなわち１１００ｄｅｌＣに主に関連していることは、当技術分野で周知である。しかし、他の突然変異は、疾患のリスクにも寄与する。患者は、リー・フラウメニ症候群および他の遺伝性がんに対するリスクを有する。

[0079]実施形態では、遺伝子はＳＤＨＡであり、偽遺伝子は、その偽遺伝子のいずれか１つ、例えば、ＳＤＨＡＰ１、ＳＤＨＡＰ２、ＳＤＨＡＰ３である。

ＩＩＩ．バリアントコール
[0080]一部の実施形態では、バリアントは、コンピュータにより実装されるコーラーアルゴリズムで検出される。原則として、例えば、ＳＮＰ、インデル、逆位、およびＣＮＶを検出するために、任意のバリアントコーラーが利用され得る。一部の場合には、遺伝的変異、例えば、欠失が検出される場合に、ブレークポイントを検出／解明することが可能であるコーラーが使用される。例えば、コーラーは、Ｔａｔｔｉｎｉ，Ｌ．ら、ＦｒｏｎｔＢｉｏｅｎｇＢｉｏｔｅｃｈｎｏｌ．２０１５；３：９２頁に記載されたコーラーから選択することができる。一部の場合には、バリアントは、０～７、または０～８という予測倍数性に基づいて特定される。一部の場合には、バリアントは、２という予測倍数性に基づいて特定される。他の場合には、バリアントは、６という予測倍数性に基づいて特定される。他の場合には、バリアントは、４という予測倍数性に基づいて特定される。例えば、ＳＮＶおよびインデルは、４に設定された（例えば、四倍体ＰＭＳ２のエクソン１２～１５領域に対して）試料－倍数性オプションを有するＧＡＴＫ４．０ＨａｐｌｏｔｙｐｅＣａｌｌｅｒ［２９］を使用して特定され得る。他の場合には、ＳＮＶおよび短いインデルは、２に設定された（例えば、二倍体ＰＭＳ２のエクソン１１領域に対して）試料－倍数性オプションを有するＧＡＴＫ１．６［３０］およびＦｒｅｅＢａｙｅｓ［３１］を使用して特定され得る。ＬＲ－ＰＣＲデータにおける二倍体ＳＮＶコーリングでは、ＧＡＴＫ１．６が同様に使用され得る。

[0081]好ましい実施形態では、隠れマルコフモデル（ＨＭＭ）コーラーが使用され、コピー数を決定する。コピー数を決定するために使用される好ましいコーラーは、参照によりその全体が本明細書に組み込まれる、米国仮特許出願第６２／６８１，５１７号に記載されたＨＭＭコーラーである。一部の実施形態では、好ましいＨＭＭコーラーは、２という予測倍数性に設定される。他の実施形態では、好ましいＨＭＭコーラーは、４という予測倍数性に設定される。他の実施形態では、好ましいＨＭＭコーラーは、６という予測倍数性に設定される。

[0082]一部の実施形態では、コピー数バリアントモデルの試料特異的性能を評価する方法、目的物の領域内の調査されたセグメントのコピー数を決定するための方法、および目的物の領域内のコピー数バリアント異常を決定するための方法が、参照によりその全体が本明細書に組み込まれる、米国仮特許出願第６２／６８１，５１７号に記載されているように利用される。

[0083]一部の実施形態では、コピー数バリアントモデルを含むコピー数バリアントコーラーの試料特異的性能を評価する方法であって、試験試料からの、目的物の領域内のセグメントに対してマッピングされた実際の数のシーケンシングリードに基づき、コピー数バリアントモデルをパラメーター化し、１つまたは複数のコピー数バリアントモデルパラメーターを決定するステップと、複数の合成コピー数バリアントを生成するステップであって、各合成コピー数バリアントが、セグメントの１つまたは複数の合成コピー数を含み、各合成コピー数が、試験試料からの対応するセグメントに関する実際の数のシーケンシングリードに基づき、合成のシーケンシングリード数によって表される、ステップと、コピー数バリアントモデルを使用して、合成コピー数バリアントに関する１つまたは複数のセグメントのコピー数、および１つまたは複数の決定されたコピー数バリアントモデルパラメーターをコーリングするステップと、コーリングされたコピー数と合成コピー数バリアントにおける合成コピー数の間の差に基づき、コピー数バリアントコーラーに関する試料特異的性能統計値を決定するステップと、試料特異的性能統計値に基づき、コピー数バリアントコーラーの試料特異的性能を評価するステップとを含む方法が利用される。

[0084]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、１つまたは複数のセグメントに関する合成のシーケンシングリード数は、１つまたは複数のセグメントの所定数のコピーに比例して、試験試料からの対応するセグメントに関する実際のシーケンシングリード数を増加させるか、減少させるか、または維持することによって得られる。一部の実施形態では、所定数のコピーは、整数のコピーである。一部の実施形態では、所定数のコピーは、整数ではないコピーである。

[0085]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、合成のシーケンシングリード数は、ｍ／ｘに等しい成功確率と試験試料からの対応するセグメントにおける実際のシーケンシングリード数と等しい試験数とに関する二項分布をサンプリングするステップであって、ｍが、合成コピー数バリアントにおけるセグメントの合成コピー数であり、かつｘが、試験試料からの対応するセグメントの仮定コピー数である、ステップによって得られる。

[0086]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、合成のシーケンシングリード数は、ｍ／ｘに等しい成功確率と試験試料からの対応するセグメントにおける実際のシーケンシングリード数と等しい成功数とに関するネガティブ二項分布として、シーケンシングリードの数をサンプリングするステップであって、ｍが、合成コピー数バリアントにおけるセグメントの合成コピー数であり、かつｘが、試験試料からの対応するセグメントの仮定コピー数である、ステップと、サンプリングされたシーケンシングリード数を試験試料からの対応するセグメントに関する実際のシーケンシングリード数に付加するステップとによって得られる。一部の実施形態では、合成のシーケンシングリード数は、ネガティブ二項分布の予想として、シーケンシングリード数をサンプリングすることによって得られる。

[0087]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルは、隠れマルコフモデルである。一部の実施形態では、隠れマルコフモデルは：（ｉ）調査されたセグメントまたは調査されたセグメント内の複数の下位セグメントに対応するコピー数を含む１つまたは複数の隠れ状態、（ｉｉ）調査されたセグメントに関する実際のシーケンシングリード数または合成のシーケンシングリード数を含む観察状態、（ｉｉｉ）調査されたセグメントに関する実際のシーケンシングリードまたは合成シーケンシングリードの予測数に基づくコピー数尤度モデルを含む。一部の実施形態では、本方法は、コピー数尤度モデルを決定するステップを含む。一部の実施形態では、隠れマルコフモデルをパラメーター化するステップは、コピー数尤度モデルを調整して、試験試料からの、調査されたセグメントに対してマッピングされたシーケンシングリードの実際の数に適合させるステップを含む。一部の実施形態では、コピー数尤度モデルは、２つ以上のコピー数の状態に対する分布を含む。一部の実施形態では、コピー数尤度モデルは、ネガティブ二項分布を含み、ここで、ネガティブ二項分布はポアソン分布ではない。一部の実施形態では、実際のシーケンシングリードまたは合成シーケンシングリードの予測数は、複数の試料にわたって調査されたセグメントに対応するセグメントにおいてマッピングされたシーケンシングリードの平均数、および試験試料内のセグメントにわたってマッピングされたシーケンシングリードの平均数に基づき、複数の試料にわたって調査されたセグメントに対応するセグメントにおいてマッピングされたシーケンシングリードの平均数または試験試料内の複数のセグメントにわたってマッピングされたシーケンシングリードの平均数は正規化された平均である。一部の実施形態では、コピー数尤度モデルは、ＧＣ含量の偏りの存在を考慮に入れるよう調整される。一部の実施形態では、隠れマルコフモデルは、空間的に近接するセグメントの所与のコピー数に関して調査されたセグメントのコピー数の遷移確率を含む。一部の実施形態では、隠れマルコフモデルは、空間的に近接する下位セグメントの所与のコピー数に関して調査されたセグメント内の複数の下位セグメントにおける下位セグメントのコピー数の複数の遷移確率を含む。一部の実施形態では、遷移確率は、コピー数バリアントの平均長を考慮に入れる。一部の実施形態では、遷移確率は、調査されたセグメントまたは空間的に近接するセグメントにおけるコピー数バリアントの以前の確率を考慮に入れる。一部の実施形態では、コピー数バリアントの平均長または調査されたセグメントにおけるコピー数バリアントの確率は、ヒト集団における観察に基づいて決定される。

[0088]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルをパラメーター化するステップは、１つまたは複数の偽捕捉プローブを考慮に入れるステップを含む。一部の実施形態では、１つまたは複数の偽捕捉プローブを考慮に入れるステップは、偽捕捉プローブインジケーターを含む複数の観察状態において、１つまたは複数の観察状態を重み付けるステップを含む。一部の実施形態では、偽捕捉プローブインジケーターは、ベルヌーイのプロセスを使用して決定される。一部の実施形態では、偽の捕捉プローブのうちの１つまたは複数を考慮に入れるステップは、期待値最大化を使用するステップを含む。一部の実施形態では、捕捉プローブが偽であると決定される場合、その捕捉プローブからのシーケンシングリードは、コピー数バリアントモデルにおいて無視される。

[0089]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルをパラメーター化するステップは、マッピングされたシーケンシングリード数のノイズを考慮に入れるステップを含む。

[0090]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルは、第１の誘導体の解析的勾配および１つまたは複数のコピー数バリアントモデルパラメーターの第２の誘導体のヘッセ行列を使用してパラメーター化される。

[0091]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルは、信頼領域ニュートン共役勾配アルゴリズムを解明することによってパラメーター化される。

[0092]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、コピー数バリアントモデルは、期待値最大化を使用して反復的にパラメーター化される。

[0093]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、本方法は、試験試料からの実際のシーケンシングリードを目的物の領域内のセグメントに対してマッピングするステップと、セグメントに対してマッピングされたシーケンシングリードの実際の数を決定するステップとを含む。

[0094]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、試験試料は、１つまたは複数のダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される。

[0095]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、本方法は、１つまたは複数のセグメントのコピー数を試験試料に対してコーリングするステップを含む。

[0096]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、セグメントは、空間的に近接するセグメントを含む。

[0097]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、試料特異的性能統計値は、検出、感度、特異性、正確さ、リコール、精度、陽性適中率、または陰性適中率の限界である。

[0098]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、試料特異的性能統計値は、感度または精度である。

[0099]コピー数バリアントコーラーの試料特異的性能を評価する方法の一部の実施形態では、本方法は、コピー数バリアントモデルの試料特異的性能が所望の性能閾値未満である場合、試験試料を不合格とするステップを含む。

[0100]目的物の領域内で調査されたセグメントのコピー数を決定するための方法であって、（ａ）試験シーケンシングライブラリーから生じた複数のシーケンシングリードを調査されたセグメントに対してマッピングするステップであって、試験シーケンシングライブラリーが１つまたは複数のダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、（ｂ）調査されたセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、（ｃ）調査されたセグメントに対してマッピングされたシーケンシングリードの予測数に基づき、コピー数尤度モデルを決定するステップと、（ｄ）（ｉ）調査されたセグメントまたは調査されたセグメント内の複数の下位セグメントに対応するコピー数を含む１つまたは複数の隠れ状態、（ｉｉ）調査されたセグメントに対してマッピングされたシーケンシングリードの数を含む観察状態、および（ｉｉｉ）コピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、（ｅ）コピー数尤度モデルを調整して、調査されたセグメントに対してマッピングされたシーケンシングリードの所定数に適合させることによって隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第１の誘導体の解析的勾配およびコピー数尤度モデルにおける１つまたは複数のパラメーターの第２の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、（ｆ）パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップとを含む方法も本明細書において記載される。

[0101]目的物の領域内で調査されたセグメントのコピー数を決定するための方法であって、（ａ）試験シーケンシングライブラリーから生じた複数のシーケンシングリードを複数の空間的に近接するセグメントに対してマッピングするステップであって、複数の空間的に近接するセグメントが調査されたセグメントを含み、試験シーケンシングライブラリーが複数の空間的に近接するダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、（ｂ）各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、（ｃ）空間的に近接するセグメントにおいてマッピングされたシーケンシングリードの予測数に基づき、各空間的に近接するセグメントに関するコピー数尤度モデルを決定するステップと、（ｄ）（ｉ）空間的に近接するセグメントのそれぞれまたは空間的に近接するセグメントのそれぞれの内における複数の下位セグメントのそれぞれに関するコピー数を含む複数の隠れ状態、（ｉｉ）各空間的に近接するセグメント対してマッピングされたシーケンシングリードの数を含む複数の観察状態、および（ｉｉｉ）各空間的に近接するセグメントに関するコピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、（ｅ）各コピー数尤度モデルを調整して、各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの所定数に適合させることを含む隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第１の誘導体の解析的勾配およびコピー数尤度モデルにおける１つまたは複数のパラメーターの第２の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、（ｆ）パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップとを含む方法が本明細書においてさらに記載される。

[0102]目的物の領域内のコピー数バリアント異常を決定するための方法であって、（ａ）試験シーケンシングライブラリーから生じた複数のシーケンシングリードを目的物の領域内の調査されたセグメントに対してマッピングするステップであって、試験シーケンシングライブラリーが１つまたは複数のダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、（ｂ）調査されたセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、（ｃ）調査されたセグメントに対してマッピングされたシーケンシングリードの予測数に基づき、コピー数尤度モデルを決定するステップと、（ｄ）（ｉ）調査されたセグメントまたは調査されたセグメント内の複数の下位セグメントに対応するコピー数を含む１つまたは複数の隠れ状態、（ｉｉ）調査されたセグメントに対してマッピングされたシーケンシングリードの数を含む観察状態、および（ｉｉｉ）コピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、（ｅ）コピー数尤度モデルを調整して、調査されたセグメントに対してマッピングされたシーケンシングリードの所定数に適合させることによって隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第１の誘導体の解析的勾配およびコピー数尤度モデルにおける１つまたは複数のパラメーターの第２の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、（ｆ）パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップと、（ｇ）調査されたセグメントの最も可能なコピー数に基づき、コピー数バリアント異常を決定するステップとを含む方法も本明細書において記載される。

[0103]目的物の領域内のコピー数バリアント異常を決定するための方法であって、（ａ）試験シーケンシングライブラリーから生じた複数のシーケンシングリードを複数の空間的に近接するセグメントに対してマッピングするステップであって、複数の空間的に近接するセグメントが調査されたセグメントを含み、試験シーケンシングライブラリーが複数の空間的に近接するダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、（ｂ）各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、（ｃ）空間的に近接するセグメントにおいてマッピングされたシーケンシングリードの予測数に基づき、各空間的に近接するセグメントに関するコピー数尤度モデルを決定するステップと、（ｄ）（ｉ）空間的に近接するセグメントのそれぞれまたは空間的に近接するセグメントのそれぞれの内における複数の下位セグメントのそれぞれに関するコピー数を含む複数の隠れ状態、（ｉｉ）各空間的に近接するセグメント対してマッピングされたシーケンシングリードの数を含む複数の観察状態、および（ｉｉｉ）各空間的に近接するセグメントに関するコピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、（ｅ）各コピー数尤度モデルを調整して、各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの所定数に適合させることを含む隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第１の誘導体の解析的勾配およびコピー数尤度モデルにおける１つまたは複数のパラメーターの第２の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、（ｆ）パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップと、（ｇ）調査されたセグメントの最も可能なコピー数に基づき、コピー数バリアント異常を決定するステップとを含む方法が本明細書においてさらに記載される。

[0104]目的物の領域内で調査されたセグメントのコピー数を決定するための方法であって、（ａ）試験シーケンシングライブラリーから生じた複数のシーケンシングリードを調査されたセグメントに対してマッピングするステップであって、試験シーケンシングライブラリーが１つまたは複数の捕捉プローブを使用して濃縮される、ステップと、（ｂ）調査されたセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、（ｃ）調査されたセグメントに対してマッピングされたシーケンシングリードの予測数に基づき、コピー数尤度モデルを決定するステップと、（ｄ）（ｉ）調査されたセグメントまたは調査されたセグメント内の複数の下位セグメントに対応するコピー数を含む１つまたは複数の隠れ状態、（ｉｉ）調査されたセグメントに対してマッピングされたシーケンシングリードの数を含む観察状態、および（ｉｉｉ）コピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、（ｅ）コピー数尤度モデルを調整し、調査されたセグメントに対してマッピングされたシーケンシングリードの所定数に適合させること、および１つまたは複数の偽捕捉プローブを考慮に入れることによって隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第１の誘導体の解析的勾配およびコピー数尤度モデルにおける１つまたは複数のパラメーターの第２の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、（ｆ）パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップとを含む方法も本明細書において記載される。

[0105]目的物の領域内で調査されたセグメントのコピー数を決定するための方法であって、（ａ）試験シーケンシングライブラリーから生じた複数のシーケンシングリードを複数の空間的に近接するセグメントに対してマッピングするステップであって、複数の空間的に近接するセグメントが調査されたセグメントを含み、試験シーケンシングライブラリーが複数の空間的に近接するダイレクトターゲットシーケンシング捕捉プローブを使用して濃縮される、ステップと、（ｂ）各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの数を決定するステップと、（ｃ）空間的に近接するセグメントにおいてマッピングされたシーケンシングリードの予測数に基づき、各空間的に近接するセグメントに関するコピー数尤度モデルを決定するステップと、（ｄ）（ｉ）空間的に近接するセグメントのそれぞれまたは空間的に近接するセグメントのそれぞれの内における複数の下位セグメントのそれぞれに関するコピー数を含む複数の隠れ状態、（ｉｉ）各空間的に近接するセグメント対してマッピングされたシーケンシングリードの数を含む複数の観察状態、および（ｉｉｉ）各空間的に近接するセグメントに関するコピー数尤度モデルを含む隠れマルコフモデルを構築するステップと、（ｅ）各コピー数尤度モデルを調整して、各空間的に近接するセグメントに対してマッピングされたシーケンシングリードの所定数に適合させること、および１つまたは複数の偽捕捉プローブを考慮に入れることを含む隠れマルコフモデルをパラメーター化するステップであって、隠れマルコフモデルが、第１の誘導体の解析的勾配およびコピー数尤度モデルにおける１つまたは複数のパラメーターの第２の誘導体のヘッセ行列を使用してパラメーター化される、ステップと、（ｆ）パラメーター化された隠れマルコフモデルに基づき、調査されたセグメントの最も可能なコピー数を決定するステップとを含む方法が本明細書においてさらに記載される。

[0106]上記方法の一部の実施形態では、コピー数尤度モデルの１つまたは複数のパラメーターは、セグメントに対するいくつかのマッピングされたシーケンシングリードの分散（ｄ_ｉ）、セグメントに対するマッピングされたシーケンシングリードの平均数（μ_ｉ）、試験シーケンシングライブラリー内のセグメントに対するいくつかのマッピングされたシーケンシングリードの分散（ｄ_ｊ）、または試験シーケンシングライブラリー内のセグメントに対するマッピングされたシーケンシングリードの平均数（μ_ｊ）を含む。

[0107]上記方法の一部の実施形態では、本方法は、目的物の領域内のセクションの最も可能なコピー数を決定するステップであって、セクションが、調査されたセグメントを含む複数の空間的に近接するセグメントを含む、ステップをさらに含む。

[0108]上記方法の一部の実施形態では、コピー数尤度モデルは、２つ以上のコピー数状態に対する分布を含む。

[0109]上記方法の一部の実施形態では、コピー数尤度モデルは、ポアソン分布ではないネガティブ二項分布を含む。

[0110]上記方法の一部の実施形態では、シーケンシングリードの予測数は、正規化された平均である、複数のシーケンシングライブラリーにわたる対応するセグメントにおいてマッピングされたシーケンシングリードの平均数および試験シーケンシングライブラリー内の目的物の複数のセグメントにわたるマッピングされたシーケンシングリードの平均数に基づく。

[0111]上記方法の一部の実施形態では、コピー数尤度モデルは、ＧＣ含量の偏りの存在を考慮に入れるよう調整される。一部の実施形態では、調整は、調査されたセグメントに対応する捕捉プローブのＧＣ含量または調査されたセグメントのＧＣ含量に応じて変わる。

[0112]上記方法の一部の実施形態では、隠れマルコフモデルは、空間的に近接するセグメントの所与のコピー数に対する調査されたセグメントのコピー数の遷移確率を含む。一部の実施形態では、遷移確率は、コピー数バリアントの平均長を考慮に入れる。一部の実施形態では、遷移確率は、調査されたセグメントまたは空間的に近接するセグメントにおけるコピー数バリアントの以前の確率を考慮に入れる。一部の実施形態では、コピー数バリアントの平均長または調査されたセグメントにおけるコピー数バリアントの確率は、ヒト集団における観察に基づいて決定される。

[0113]上記方法の一部の実施形態では、隠れマルコフモデルは、空間的に近接する下位セグメントの所与のコピー数に対する調査されたセグメント内の複数の下位セグメントにおける下位セグメントのコピー数の複数の遷移確率を含む。一部の実施形態では、遷移確率は、コピー数バリアントの平均長を考慮に入れる。一部の実施形態では、遷移確率は、調査されたセグメントまたは空間的に近接するセグメントにおけるコピー数バリアントの以前の確率を考慮に入れる。一部の実施形態では、コピー数バリアントの平均長または調査されたセグメントにおけるコピー数バリアントの確率は、ヒト集団における観察に基づいて決定される。

[0114]上記方法の一部の実施形態では、隠れマルコフモデルをパラメーター化するステップは、１つまたは複数の偽捕捉プローブを考慮に入れるステップを含む。一部の実施形態では、１つまたは複数の偽捕捉プローブを考慮に入れるステップは、偽捕捉プローブインジケーターを含む複数の観察状態において、１つまたは複数の観察状態を重み付けるステップを含む。一部の実施形態では、偽捕捉プローブインジケーターは、ベルヌーイのプロセスを使用して決定される。一部の実施形態では、偽の捕捉プローブのうちの１つまたは複数を考慮に入れるステップは、期待値最大化を使用するステップを含む。一部の実施形態では、捕捉プローブが偽であると決定される場合、その捕捉プローブからの尤度情報は、コピー数尤度モデルにおいて無視される。

[0115]上記方法の一部の実施形態では、隠れマルコフモデルをパラメーター化するステップは、マッピングされたシーケンシングリード数のノイズを考慮に入れるステップを含む。

[0116]上記方法の一部の実施形態では、マッピングされたシーケンシングリード数のノイズを考慮に入れるステップは、コピー数尤度モデルを調整するステップを含む。一部の実施形態では、コピー数尤度モデルを調整してノイズを考慮に入れるステップは、期待値最大化ステップを含む。一部の実施形態では、期待値最大化ステップは、試験シーケンシングライブラリーからのマッピングされたシーケンシングリード数のノイズのレベルを重み付けするステップを含む。一部の実施形態では、調査されたセグメントの最も可能なコピー数は、マッピングされたシーケンシングリード数のノイズが所定の閾値を超えている場合にはコールされない。

[0117]上記方法の一部の実施形態では、重複する捕捉プローブからのシーケンシングリードはマージされる。

[0118]上記方法の一部の実施形態では、ビタビアルゴリズム、準ニュートンソルバー、またはマルコフ連鎖モンテカルロ法を使用して、調査されたセグメントの最も可能なコピー数を決定する。

[0119]上記方法の一部の実施形態では、本方法は、セグメントの最も可能なコピー数の信頼性を決定するステップをさらに含む。

[0120]上記方法の一部の実施形態では、コピー数尤度モデルの１つまたは複数のパラメーターは、セグメントに対するいくつかのマッピングされたシーケンシングリードの分散（ｄ_ｉ）、セグメントに対するマッピングされたシーケンシングリードの平均数（μ_ｉ）、試験シーケンシングライブラリー内のセグメントに対するいくつかのマッピングされたシーケンシングリードの分散（ｄ_ｊ）、または試験シーケンシングライブラリー内のセグメントに対するマッピングされたシーケンシングリードの平均数（μ_ｊ）を含む。

[0121]上記方法の一部の実施形態では、第１の誘導体の解析的勾配およびコピー数尤度モデルにおける１つまたは複数のパラメーターの第２の誘導体の解析的ヘッセ行列は、信頼領域ニュートン共役勾配アルゴリズムを使用して解決される。

[0122]上記方法のいずれか１つを実行するための命令を含むコンピュータ可読媒体を含むコンピュータシステムも本明細書において記載される。

ＩＶ．例示的アーキテクチャおよび処理環境
[0123]好ましい実施形態では、本明細書に記載の方法の一部は、コンピュータにより実装される。本明細書に記載のシステムおよびプロセスのある特定の態様および例が動作し得る例示的環境およびシステム。図１０に示されるように、一部の例では、システムは、クライアントサーバーモデルに従って実装可能である。システムは、ユーザーデバイス１０２上で実行されるクライアントサイドの部分と、サーバーシステム１１０上で実行されるサーバーサイド部分とを含み得る。ユーザーデバイス１０２は、任意の電子デバイス、例えば、デスクトップ型コンピュータ、ラップトップ型コンピュータ、タブレット型コンピュータ、ＰＤＡ、携帯電話（例えば、スマートホン）などを含み得る。

[0124]ユーザーデバイス１０２は、インターネット、イントラネット、または任意の他の有線もしくは無線のパブリックネットワークもしくはプライベートネットワークを含み得る、１つまたは複数のネットワーク１０８を通じて、サーバーシステム１１０と通信し得る。ユーザーデバイス１０２上の例示的システムのクライアントサイド部分は、クライアントサイドの機能性、例えば、ユーザー対面入力および出力処理ならびにサーバーシステム１１０との通信を提供することができる。サーバーシステム１１０は、それぞれのユーザーデバイス１０２上に常駐する任意の数のクライアントのためにサーバーサイドの機能性を提供することができる。さらに、サーバーシステム１１０は、クライアント対面Ｉ／Ｏインターフェース１２２、１つまたは複数の処理モジュール１１８、データおよびモデル記憶装置１２０、ならびに外部サービスに対するＩ／Ｏインターフェース１１６を含み得る１つ以上のコーラーサーバー１１４を含むことができる。クライアント対面Ｉ／Ｏインターフェース１２２は、コーラーサーバー１１４のためのクライアント対面入力および出力処理を容易にすることができる。１つまたは複数の処理モジュール１１８は、本明細書に記載されている様々な問題および候補のスコアリングモデルを含むことができる。一部の例では、コーラーサーバー１１４は、タスク完了または情報取得のためのネットワーク１０８を通じて、外部サービス１２４、例えば、テキストデータベース、加入サービス、政府記録サービスなどと通信することができる。外部サービスに対するＩ／Ｏインターフェース１１６は、このような通信を容易にすることができる。

[0125]サーバーシステム１１０は、１つまたは複数のスタンドアロンデータ処理デバイスまたは分散型コンピュータネットワーク上で実装可能である。一部の例では、サーバーシステム１１０は、第３者サービスプロバイダ（例えば、第３者クラウドサービスプロバイダー）の様々な仮想デバイスおよび／またはサービスを用いて、サーバーシステム１１０の基本的な計算リソースおよび／またはインフラストラクチャリソースを提供することができる。

[0126]コーラーサーバー１１４の機能性は、クライアントサイド部分とサーバーサイド部分の両方を含むものとして図１０に示されているが、一部の例では、本明細書に記載の特定の機能（例えば、ユーザーインターフェースフィーチャおよびグラフィック要素に関する）を、ユーザーデバイス上にインストールされたスタンドアロンアプリケーションとして実装することができる。さらに、システムのクライアントおよびサーバー部分の間の機能性の分割は、異なる例において変動し得る。例えば、一部の例では、ユーザーデバイス１０２上で実行されるクライアントは、ユーザー対面入力および出力処理機能のみを提供し、システムの他の機能性をすべてバックエンドサーバーに委託するシンクライアントであってもよい。

[0127]サーバーシステム１１０およびクライアント１０２がさらに、例えば、処理ユニット、メモリ（本明細書に記載の機能の一部またはすべてを行なうための論理またはソフトウェアを含み得る）、および通信インターフェース、ならびに他の従来のコンピュータコンポーネント（例えば、キーボード／タッチスクリーンなどの入力デバイス、およびディスプレーなどの出力デバイス）を有する様々なタイプのコンピュータデバイスのうちのいずれか１つを含み得ることに留意されたい。さらに、サーバーシステム１１０およびクライアント１０２の一方または両方は、概して、論理（例えば、ｈｔｔｐウェブサーバー論理）を含むかまたはローカルもしくはリモートデータベースもしくは他のデータソースおよびコンテンツソースからアクセスされてデータをフォーマティングするようにプログラミングされている。この目的物で、サーバーシステム１１０は、情報を提示し、クライアント１０２からの入力を受信するため、共通ゲートウェイインターフェース（ＣＧＩ）プロトコールおよび付随するアプリケーション（または「スクリプト」）、Ｊａｖａ（登録商標）「サーブレット」、すなわちサーバーシステム１１０上で実行するＪａｖａ（登録商標）のアプリケーションなどの様々なウェブデータインターフェース技法を利用し得る。サーバーシステム１１０は、本明細書において単数で記載されているものの、実際には、本明細書に記載の機能の一部またはすべてを実施するために（有線および／または無線で）通信し協働する複数のコンピュータ、デバイス、データベース、付随するバックエンドデバイスなどを含んでもよい。サーバーシステム１１０はさらに、アカウントサーバー（例えば、Ｅメールサーバー）、モバイルサーバー、メディアサーバーなどを含むかまたはこれらと通信してもよい。

[0128]さらに、本明細書に記載の例示的方法およびシステムは、様々な機能を実施するための別々のサーバーおよびデータベースシステムの使用を説明しているが、説明されている機能性が実施される限り、設計上の選択の問題として単一のデバイスまたは多数のデバイスの任意の組合せによって、説明された機能をひき起こすように動作するソフトウェアまたはプログラミングを記憶することによって、他の実施形態を実装することが可能である、ということに留意されたい。同様に、説明されたデータベースシステムを、単一のデータベース、分散型データベース、分散型データベースのコレクション、冗長なオンラインもしくはオフラインバックアップまたは他の冗長性を伴うデータベースなどとして実装することも可能であり、分散型データベースまたは記憶装置ネットワークおよび付随するプロセッシングインテリジェンスを含むことができる。図には示されていないが、サーバーシステム１１０（および本明細書に記載の他のサーバーおよびサービス）は概して、以下に限定されないが、プロセッサー、ＲＡＭ、ＲＯＭ、クロック、ハードウェアドライバ、付随する記憶装置などを含めた、サーバーシステム内に通常見出されるような当技術分野において認識されるコンポーネントを含む（例えば、以下で論述する図１１を参照されたい）。さらに、説明されている機能および論理を、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組合せの中に含み入れてもよい。

[0129]図１１は、様々なコールおよびスコアリングモデルを含む、上記プロセスのうちのいずれか１つを実施するように構成された例示的計算システム１４００を示す。この状況において、計算システム１４００は、例えば、プロセッサー、メモリ、記憶装置、および入力／出力デバイス（例えば、モニター、キーボード、ディスクドライブ、インターネット接続など）を含んでもよい。しかしながら、計算システム１４００は、プロセスの一部のまたはすべての態様を実行するための回路または他の専用ハードウェアを含み得る。一部の動作環境内では、計算システム１４００は、各々がソフトウェア、ハードウェア、またはそれらのいくつかの組合せのいずれかにおいてプロセスの一部の態様を実行するように構成されている、１つまたは複数のユニットを含むシステムとして構成され得る。

[0130]図１１は、上記プロセスを実施するために使用され得るいくつかのコンポーネントを伴う計算システム１４００を示す。主要システム１４０２は、入力／出力（「Ｉ／Ｏ」）セクション１４０６、１つまたは複数の中央処理ユニット（「ＣＰＵ」）１４０８、およびそれに関連したフラッシュメモリカード１４１２を有し得るメモリセクション１４１０を有するマザーボード１４０４を含む。Ｉ／Ｏセクション１４０６は、ディスプレー１４２４、キーボード１４１４、ディスク記憶ユニット１４１６、およびメディアドライブユニット１４１８に接続されている。メディアドライブユニット１４１８は、プログラム１４２２および／またはデータを格納することができるコンピュータ可読媒体１４２０の読出し／書込みを行なうことができる。

[0131]上記プロセスの結果に基づく少なくともいくつかの値は、その後の使用のために保存可能である。さらに、コンピュータによって上記プロセスのうちのいずれか１つを実施するための１つまたは複数のコンピュータプログラムを記憶（例えば、明白に具体化する）ために、非一時的なコンピュータ可読記憶媒体を使用することができる。コンピュータプログラムは、例えば、汎用プログラミング言語（例えば、Ｐａｓｃａｌ、Ｃ、Ｃ＋＋、Ｐｙｔｈｏｎ、Ｊａｖａ）または一部の専用アプリケーション特化言語で書き込まれ得る。

[0132]様々な例示的実施形態が本明細書において記載される。非限定的な意味でこれらの実施例が参照される。これらは、開示された技術のより広く応用可能な態様を例示するために提供されている。様々な変更を加えてよく、様々な実施形態の真の趣旨および範囲から逸脱することなく、均等物を代用してもよい。さらに、特定の状況、材料、物質の組成、プロセス、目標へのプロセス行為またはステップ、様々な実施形態の趣旨または範囲を適応させるために、多くの修正が行なわれ得る。さらに、当業者であれば認識するように、本明細書において記載および例示された個別の変形形態のそれぞれは、様々な実施形態の範囲または趣旨から逸脱することなく、他のいくつかの実施形態のいずれかの実施形態の特徴から容易に分離され得るか、またはこれらの特徴と組み合わされ得る個別の構成要素および特徴を有する。このような修正はすべて、本開示に関連する請求項の範囲内にあることが意図される。

[0133]本発明は、請求されている本発明の範囲をいかなる形であれ限定するように意図されていない以下の実施例の中で、さらに詳述される。添付図は、本発明の仕様および説明の不可欠な部分とみなされることを意味する。引用されているすべての参考文献は、その中に記載されているすべてについて参照により本明細書に具体的に組み込まれる。以下の実施例は、請求対象の発明を限定するものではなく、例示するために提供される。

実施例１
ＰＭＳ２の３’エクソンにおいて臨床的に取り扱うことが可能なバリアントの検出
[0134]この実施例は、ＰＭＳ２の３’エクソンにおけるＳＮＶ、インデル、およびＣＮＶの検出のための戦略を示す。この研究は、西部治験審査委員会（ＷｅｓｔｅｒｎＩｎｓｔｉｔｕｔｉｏｎａｌＲｅｖｉｅｗＢｏａｒｄ）による免除として検討および指定され、医療保険の携行と責任に関する法律（ＨｅａｌｔｈＩｎｓｕｒａｎｃｅＰｏｒｔａｂｉｌｉｔｙａｎｄＡｃｃｏｕｎｔａｂｉｌｉｔｙＡｃｔ）（ＨＩＰＡＡ）に従った。

材料および方法
研究試料：
[0135]付属の表Ｓ１は、いずれの試料セットを特定のアッセイおよび分析のために使用したかを示す。細胞株ＤＮＡは、ＣｏｒｉｅｌｌＣｅｌｌＲｅｐｏｓｉｔｏｒｉｅｓ（Ｃａｍｄｅｎ、ＮＪ）（付属の表Ｓ２）から購入した。患者試料ＤＮＡは、匿名化された血液または唾液試料から抽出した。既知陽性を有するＤＮＡ試料は、ＩｎｖｉｔａｅＣｏｒｐｏｒａｔｉｏｎからの寄贈であった。

ＬＲ－ＰＣＲ：
[0136]ＤＮＡを抽出し、１×ＳＰＲＩビーズとのインキュベーションによりさらに精製し、続いて、８０％エタノールで洗浄し、ＴＥ（１０ｍＭのＴｒｉｓ－ＨＣｌ、１ｍＭのＥＤＴＡ、ｐＨ８．０）中に溶出した。およそ３００ｎｇの溶出したＤＮＡは、以下の最終濃度を有する別々の遺伝子および偽遺伝子特異的ＬＲ－ＰＣＲ反応における鋳型としての役割を果たした：１ｘＬｏｎｇＡｍｐＴａｑＲｅａｃｔｉｏｎＢｕｆｆｅｒ（ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ、ＮＥＢ）、０．３ｍＭｄＮＴＰｓ、１μＭの遺伝子または偽遺伝子特異的フォワードプライマー、１μＭの共通リバースプライマーＬＲＰＣＲ＿Ｕｎｖ＿Ｒ（付属の表Ｓ３におけるすべてのプライマーシーケンス）、０．２５％のホルムアミド、および５ユニットのＬｏｎｇＡｍｐＨｏｔＳｔａｒｔＴａｑＤＮＡＰｏｌｙｍｅｒａｓｅ（ＮＥＢ）。遺伝子特異的フォワードプライマーＰＭＳ２＿ＬＲＰＣＲ＿Ｆを含む反応により、ＰＭＳ２のエクソン１１～１５にわたる約１７ｋｂのアンプリコンが得られ（フォワードプライマー標的エクソン１０）、一方、偽遺伝子特異的フォワードプライマーＰＭＳ２ＣＬ＿Ｆの使用によって、ＰＭＳ２ＣＬ（エクソン６からＰＭＳ２ＣＬの上流の領域にわたる）から約１８ｋｂを増幅させた。サーマルサイクリングは、９４℃で５分、続いて９４℃で３０秒間および６５℃で１８．５分の３０サイクルの初期変性を含んだ。最終伸長は、６５℃で１８．５分であり、続いて４℃で保持した。ＬＲ－ＰＣＲアンプリコンの質は、０．５％アガロースゲル電気泳動を使用して評価し、広範囲Ｑｕｂｉｔアッセイキット（ＴｈｅｒｍｏＦｉｓｈｅｒ）により定量した。

[0137]２つの異なるライブラリーｐｒｅｐ戦略を使用して、ＮＧＳに関するＬＲ－ＰＣＲアンプリコンを調製した。第一に、患者試料に適用するために、ＬＲ－ＰＣＲアンプリコンを２μＬのＮＥＢＮｅｘｔｄｓＤＮＡＦｒａｇｍｅｎｔａｓｅおよびＮＥＢＮｅｘｔｄｓＤＮＡＦｒａｇｍｅｎｔａｓｅＲｅａｃｔｉｏｎＢｕｆｆｅｒｖ２（１×最終、ＮＥＢ）を残りのＬＲ－ＰＣＲ反応体積に添加することによって断片化し、次いで、３７℃で２５分間インキュベートした。１００ｍＭのＥＤＴＡの添加により反応を停止させ、１．５×ＳＰＲＩビーズを用いて精製し、続いて、８０％エタノールで洗浄し、ＴＥ中に溶出した。断片化の質をＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤＮＡキットを用いてＢｉｏａｎａｌｙｚｅｒ（Ａｇｉｌｅｎｔ）によって評価した。ＮＧＳライブラリーｐｒｅｐには、末端修復、Ａテイル化、およびアダプターライゲーションが含まれた。以下のサーマルサイクリングにより、バーコード付加プライマーを含むＫＡＰＡＨｉＦｉＨｏｔＳｔａｒｔＰＣＲＫｉｔ（ＫａｐａＢｉｏｓｙｓｔｅｍｓ）を用いて８～１０サイクル試料をＰＣＲ増幅させた：９５℃で５分間、続いて、９８℃で２０秒間、６０℃で３０秒間、および７２℃で３０秒間のサイクルの初期変性。最終伸長は、７２℃で５分間であり、続いて４℃で保持した。ライブラリーの質は、ＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤＮＡキットを用いてＢｉｏａｎａｌｙｚｅｒによって評価し、濃度は、マイクロプレートリーダー（ＴｅｃａｎＩｎｆｉｎｉｔｅＭ２００ＰＲＯ）により吸光度で測定した。

[0138]ＮＧＳのためにＬＲ－ＰＣＲアンプリコンを調製するための第２のアプローチは、１５５種の細胞株の試料に適用され、タグメンテーションにより、アダプターをＬＲ－ＰＣＲアンプリコンへと断片化および挿入することを伴った。２つの二本鎖アダプターを、一本鎖オリゴヌクレオチドをアニーリングすることによって作製した：一方の二本鎖アダプターは、ＯｌｉｇｏＡにアニーリングしたＵｎｖ＿Ｔｎ５＿オリゴ（表Ｓ３におけるすべてのプライマーシーケンス）を有し；他方の二本鎖アダプターは、ＯｌｉｇｏＢにアニーリングしたＵｎｖ＿Ｔｎ５＿オリゴを有した。２つの別々のアニーリングミックスは、二本鎖と１×アニーリング緩衝液（１０ｍＭのＴｒｉｓ－ＨＣｌ、５０ｍＭのＮａＣｌ、１ｍＭのＥＤＴＡ、ｐＨ８．０）中にそれぞれ２５μＭのオリゴヌクレオチドを含んだ。反応物を９５℃で２分間変性させ、８０℃で６０分間インキュベートし、２０℃に到達するまで１分ごとに１度温度を下降させ、次いで、４℃に保った。０．１５ユニットのＲｏｂｕｓｔＴｎ５Ｔｒａｎｓｐｏｓａｓｅ（ＣｒｅａｔｉｖｅＢｉｏｇｅｎｅからのキット）、１．２５μＭの各アダプター、および１×ＴＰＳ緩衝液を用いて、アダプターを３７℃で３０分のインキュベーションの間にＴｎ５酵素中にロードした。ＬＲ－ＰＣＲアンプリコンをＴｎ５アダプター構築物とのタグメンテーションに供した。各ＬＲ－ＰＣＲ反応からの０．５μＬのロードしたＴｎ５および１～２ｎｇのＤＮＡを用い、タグメンテーション反応を、１×ＬＭ緩衝液中５６℃で１０分間タグメンテーション反応を生じさせた。インキュベートした後、ＳＤＳ（最終０．０２％）を各反応物に添加し、５分間インキュベートして、Ｔｎ５をＤＮＡから分離した。１×ＳＰＲＩビーズとのタグメンテーション精製により、分子バーコード付加およびＰＣＲによる増幅が進行し、ＮＧＳライブラリーを作成した。ＰＣＲ反応は、１ユニットのＫａｐａＨｉＦｉＰｏｌｙｍｅｒａｓｅ（ＫａｐａＢｉｏｓｙｓｔｅｍｓ）、１×ＨｉＦｉ緩衝液、３７５μＭのｄＮＴＰ、０．５μＭの各プライマー、および精製タグメンテーションされた試料を含んだ。サイクリングは７２℃で３分間のギャップ充填により開始し、続いて、９８℃で３０秒の変性、６３℃で３０秒のアニーリング、および７２℃で３分間の伸長を１０サイクル行った。ＮＧＳライブラリーの精製は、１×ＳＰＲＩビーズを用いて実施した。

[0139]患者試料について、ＨｉＳｅｑ２５００（Ｉｌｌｕｍｉｎａ）の急速実行モード（ペアエンド、それぞれ１５０サイクル）で、ＬＲ－ＰＣＲライブラリーをシーケンシングした。細胞株試料について、ＬＲ－ＰＣＲライブラリーをＮｅｘｔＳｅｑ５５０（Ｉｌｌｕｍｉｎａ）で５００リードの最小深度までシーケンシングした（シングルエンド、１５０サイクル）。

ハイブリッド捕捉およびシーケンシング：
[0140]以前に記載されたように、ターゲットＮＧＳを実施した［７、８］。簡潔には、患者の血液または唾液試料からＤＮＡを単離し、色素ベースの蛍光アッセイによって定量し、次いで、超音波処理によって２００～１０００ｂｐに断片化した。断片化されたＤＮＡを末端修飾、Ａテイル化、およびアダプターライゲーションによってＮＧＳライブラリーに変換した。次いで、試料をバーコード付加プライマーを用いるＰＣＲによって増幅させ、多重化させ、ＰＭＳ２とＰＭＳ２ＣＬの間に共通の領域に相補的な４０マーのオリゴヌクレオチド（ＩｎｔｅｇｒａｔｅｄＤＮＡＴｅｃｈｎｏｌｏｇｉｅｓ）を用いて、ハイブリッド捕捉に基づく濃縮に供した。全パネルについて平均シーケンシング深度が約５００×のＨｉＳｅｑ２５００（ＰＭＳ２における被覆率は約１０００×）で、ＮＧＳを実施した。すべての標的ヌクレオチドは、２０リードの最小深度で被覆される必要がある。

リードアラインメント：
[0141]ハイブリッド捕捉データでは、基準ゲノムのＰＭＳ２遺伝子座におけるＰＭＳ２およびＰＭＳ２ＣＬを起源とするリードを集計するために、ペアエンドＮＧＳリードをＢＷＡ－ＭＥＭ［２７］を使用して、ｈｇ１９ヒト基準ゲノムに対して最初にアラインさせた。ＰＭＳ２のエクソン１１におけるアラインメントを遺伝子と偽遺伝子の間の既知の差の部位で重複するリードのみを含むようにフィルタリングした。ＰＭＳ２のエクソン１２～１５に対してアラインしたリードおよびＰＭＳ２ＣＬのエクソン３～６に対してアラインしたリードをｓａｍｔｏｏｌ［２８］を使用してＢＡＭファイル中にパーティショニングした。ＢＡＭファイルをＰｉｃａｒｄ（ＢｒｏａｄＩｎｓｔｉｔｕｔｅ）を使用して、２つのアラインされていないＦＡＳＴＱファイル（２つのファイルのうちの１つに構文解析されたリードペアの各数）に変換した。各シングルエンドＦＡＳＴＱファイルはｈｇ１９ゲノムに対して別々にリアラインされ、曖昧なアラインメント、および各リードに対するいくつかのトップアラインメントの報告を可能にした。得られたシングルエンドアラインメントを使用して、以下の方式でペアエンドアラインメントを生じさせた：１）両方のシングルエンドリードは同じリード名を有した、２）両方のシングルエンドリードが、ＰＭＳ２のエクソン１２～１５にわたる領域に対してマッピングされた、３）両方のシングルエンドリードが互いに１０００ｂｐの範囲内にアラインされた、および４）多数の推定上のペアが、所与のリード名に関する上記条件を満たし、最も高いアラインメントスコアを有するペアが選択された。上記のように適当なペアを形成することができないリードは破棄された。得られたペアエンドＢＡＭファイルは、ＰＭＳ２シーケンスに対してマッピングされたＰＭＳ２とＰＭＳ２ＣＬの両方に起源するリードを含有した。

[0142]ＲＴ－ＰＣＲデータ（以下に記載される）およびＬＲ－ＰＣＲデータについて、ＮＧＳリードをＰＭＳ２ＣＬシーケンスが除去されたｈｇ１９ゲノムシーケンスに対してアラインし、それによって、ＰＭＳ２における遺伝子リードおよび偽遺伝子リードを集計した。

ＳＮＶおよびインデルのコール：
[0143]ＰＭＳ２とＰＭＳ２ＣＬからのリードがマッピングされた（上記を参照されたい）ＰＭＳ２領域では、ＳＮＶおよび短いインデルを４に設定し、ｍａｘ－ｒｅａｄｓ－ｐｅｒ－ａｌｉｇｎｍｅｎｔ－ｓｔａｒｔオプションをオフにし、およびｍｉｎ－ｐｒｕｎｉｎｇオプションを１に設定した試料倍数性オプションを有するＧＡＴＫ４．０ＨａｐｌｏｔｙｐｅＣａｌｌｅｒ［２９］を使用して特定した。二倍体ＰＭＳ２のエクソン１１領域では、ＧＡＴＫ１．６［３０］およびＦｒｅｅＢａｙｅｓ［３１］を使用して、ＳＮＶおよび短いインデルを特定した。ＬＲ－ＰＣＲデータにおける二倍体ＳＮＶコールでは、ＧＡＴＫ１．６を同様に使用した。本発明者らが対立遺伝子のドロップアウトを疑ったＬＲ－ＰＣＲ試料では（Ｄｉｓｃｕｓｓｉｏｎを参照されたい）、ＩｎｔｅｇｒａｔｉｖｅＧｅｎｏｍｉｃｓＶｉｅｗｅｒにおけるＮＧＳデータの目視検査によってＡＢを決定した［３２］。

ＣＮＶのコール：
[0144]ハイブリッド捕捉断片のショートリードＮＧＳでは、ＰＭＳ２のエクソン１１におけるＣＮＶは、以前に記載したアルゴリズム［７］を使用して、ターゲット位置における相対的ＮＧＳリード深度を測定することによって決定した。ＰＭＳ２およびＰＭＳ２ＣＬに起源するリードがＰＭＳ２シーケンスに位置するＢＡＭファイルから、ＰＭＳ２のエクソン１２～１５におけるＣＮＶをコールするために（上記「リードアラインメント」を参照されたい）、ＣＮＶコールアルゴリズムに対する２つの改変がなされた：１）予測した野生型コピー数を２から４のコピーに変更した、および２）どの程度の可能性でＨＭＭが野生型からＣＮＶ状態に遷移するかを決定するパラメーターであるＰ_ＣＮＶを０．０１に設定し、経験的データから高いＣＮＶ感度および特異性を得た。

[0145]ＬＲ－ＰＣＲデータからのＣＮＶのコールとして、リード深度をアンプリコンを並べる等しいサイズのビン（５０ｂｐ）で計数した。各試料に対するビンの計数を試料のビン深度のメジアンで正規化し、次に、各ビンの値をビンのメジアンで正規化した。同じビンをＰＭＳ２とＰＭＳ２ＣＬの対応する領域に対して使用した。得られたビン化および正規化したデータを以前に記載したアルゴリズム［７］を使用してＣＮＶに関して検索した。ＣＮＶのコールがないものは手動で再調査し、陽性または陰性として状態を解明した。

ＣＮＶのシミュレーション：
[0146]単一コピーの複製および欠失を、以前に記載したように［３３］、試料の所与のバッチのＣＮＶ陰性試料のうちの１つにおいて観察されたリード数を改変することによって導入した。ベースラインコピー数が４であったＰＭＳ２のエクソン１２～１５では、単一コピーの欠失および複製を、それぞれ、リードを７５％までサブサンプリングするかまたはリード数を１２５％で増加させることによって導入した。ＰＭＳ２の４つの最終エクソンにおけるすべての可能なエクソンの連続する組合せについて、シミュレートしたＣＮＶを作成した。各ＣＮＶのサイズおよび位置について、２１８６個の試料をシミュレートし、ＣＮＶコールアルゴリズムによって試験し、感度を、正確に検出された合成ＣＮＶのパーセンテージとして計算した。偽遺伝子リードは遺伝子シーケンスからフィルタリングされるため、ＣＮＶを、２というベースラインコピー数を有したＰＭＳ２のエクソン１１において別々にシミュレートした。

四倍体インデルのシミュレーション：
[0147]四倍体バックグラウンド（遺伝子および偽遺伝子を起源とするリードが再度マッピングされた、ＰＭＳ２のエクソン１２～１５に関連する）におけるインデルをシミュレーションして、ＧＡＴＫ４を使用してインデルコールの感度をよりよく試験した。２つの二倍体アルゴリズムであって、そのうちの少なくとも１つが、インデルを含有することがＣｏｕｎｓｙｌＲｅｌｉａｎｔＨＣＳパネルによって以前に決定された、２つの二倍体アルゴリズムをマージして、四倍体アラインメントを作成した。試料のうちの１つがインデルの中央に位置する１００ｂｐの領域において、他の試料よりも多くのリードを有する場合、各マージされた二倍体試料がアラインされたリードとおよそ同じ数を有するように、リードを二項式によりダウンサンプリングした。次いで、上記セクションＳＮＶおよびインデルのコールにおいて記載したように、ＧＡＴＫ４を使用して、これらの合成四倍体アラインメントからインデルをコールした。

バリアントの精選
[0148]ＰＭＳ２の５つの最終エクソンにおけるすべてのバリアントについて、５段階分類カテゴリーシステム（良性、良性である可能性が高い、病的意義が不明なバリアント、病原性である可能性が高い、病原性）［３４］を使用するＡｍｅｒｉｃａｎＣｏｌｌｅｇｅｏｆＭｅｄｉｃａｌＧｅｎｅｔｉｃｓａｎｄＧｅｎｏｍｉｃｓ（ＡＣＭＧ）基準に従って、バリアント解釈を実施した。公開された文献および公的に利用可能なデータベースにおいて入手可能なエビデンスを使用して分類を行った。集団データベースにおけるＰＭＳ２バリアントの特定は不正確な可能性があるため、対立遺伝子頻度に基づく規則は使用しなかった。バリアントの分類は、委員会が認定した検査室統括責任者らによって再調査および承認された。

ＭＬＰＡ：
[0149]製造業者のプロトコールに従って、ＭＬＰＡを実施した（ＭＲＣＨｏｌｌａｎｄ、１２／１１／１７に発行されたｐｒｏｂｅｍｉｘＰ００８－Ｃ１ＰＭＳ２プロトコールおよび３／２３／１８に発行されたＭＬＰＡＧｅｎｅｒａｌＰｒｏｔｏｃｏｌ）。全体として、ゲノムＤＮＡをミネラルオイルで被覆して、ハイブリダイゼーションおよびライゲーションの間の蒸発を低減させ、次に、ＤＮＡを９８℃で５分間変性させ、次いで２５℃に保持した。ハイブリダイゼーション試薬およびプローブミックスを試料に添加し、９５℃で１分間、次いで、６０℃で１６～２０時間インキュベートした。近接する位置にあるターゲットＤＮＡに結合するプローブペアを５４℃で１５分間ライゲーションし、次いで、ＰＣＲにより３５サイクル増幅させた。増幅したプローブをＲＯＸラダーおよびホルムアミドと混合し、次いで、キャピラリー電気泳動機器で分離した。Ｃｏｆｆａｌｙｓｅｒｓｏｆｔｗａｒｅ（ＭＲＣＨｏｌｌａｎｄ）により、ＰＭＳ２プローブの強度を基準プローブの強度に対して、最初は各試料内で、次いで試料間で正規化した。各試料の正規化したプローブ強度を基準試料の平均強度と比較し、Ｃｏｆｆａｌｙｓｅｒはその領域でＣＮＶコールを発した。

リフレックスレートの評価：
[0150]ＬＲ－ＰＣＲデータおよびハイブリッド捕捉データからＳＮＶ、インデル、およびＣＮＶ特異的リフレックスレートを使用し、次に、ｐｙｍｃ［３５］を用いるＭａｒｋｏｖＣｈａｉｎＭｏｎｔｅＣａｒｌｏシミュレーションを使用して、大きなコホートサイズまで外挿し、リフレックスレートを推定した。

塩基分析の識別：
[0151]ＰＭＳ２およびＰＭＳ２ＣＬ由来のＬＲ－ＰＣＲアンプリコンからのＮＧＳリードをＰＭＳ２に対してアラインし、ＧＡＴＫＵｎｉｖｅｒｓａｌＧｅｎｏｔｙｐｅｒを用いてバリアントをコールした。バリアントが、試料の１００％において、ＰＭＳ２特異的アンプリコンにおける基準対立遺伝子に対してホモ接合性であり、かつＰＭＳ２ＣＬ特異的アンプリコンにおける（ＰＭＳ２に対してアラインされたように）代替の対立遺伝子に対してホモ接合性である場合に、部位を信頼性ありとみなした。

ＲＮＡ試験：
ＲＮＡ抽出および逆転写：
[0152]製造業者の説明書に従い、４００μＬの全血から、ＡｇｅｎｃｏｕｒｔＲＮＡｄｖａｎｃｅＢｌｏｏｄキット（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ）を用いて、３３種の試料からＲＮＡを抽出した。採血を実施した後の７日以内に、ＲＮＡを血液チューブから抽出した。抽出の質をＲＮＡ６０００Ｎａｎｏキット（Ａｇｉｌｅｎｔ）により評価した。ＱｕｂｉｔＨＳＲＮＡＡｓｓａｙキット（ＴｈｅｒｍｏＦｉｓｈｅｒ）によりＲＮＡを定量した。

[0153]プライマーとしてオリゴ－ｄＴとランダムヘキサマーを用いてＳｕｐｅｒｓｃｒｉｐｔＩＩＲｅｖｅｒｓｅＴｒａｎｓｃｒｉｐｔａｓｅを使用して、ＲＮＡを逆転写した（ＴｈｅｒｍｏＦｉｓｈｅｒからのキット）。反応は以下のように実施した：全体で０．１～１．０μｇのＲＮＡ、ランダムヘキサマーとオリゴｄＴプライマーの両方で１．２５μＭ、０．８ｍＭのｄＮＴＰ、および水で、最終体積を１２μＬとした。反応物を６５℃で５分間加熱し、次いで、氷上で５分間冷やした。１×ファーストストランド緩衝液および０．０１ＭのＤＴＴを各反応物に添加し、４２℃で２分間インキュベートした。１０Ｕ／μＬのＳｕｐｅｒｓｃｒｉｐｔＩＩＲｅｖｅｒｓｅＴｒａｎｓｃｒｉｐｔａｓｅを各反応物に添加し、４２℃で５０分間インキュベートし、次いで、７２℃で１５分間、熱失活させた。プールしたｍＲＮＡ（Ｓｔｒａｔａｇｅｎｅ、カタログ番号７５０５００－４１）の陽性対照を各逆転写反応で使用した。

[0154]逆転写後、１ＮのＮａＯＨ２μＬでＲＮＡを加水分解し、９５℃で５分間加熱した。１ＭのＴｒｉｓ－ＨＣＬ（ｐＨ７．５）４μＬを使用して、下流での処理のために反応物を中和した。ＱｕｂｉｔｓｓＤＮＡＡｓｓａｙキット（ＴｈｅｒｍｏＦｉｓｈｅｒ）を使用して、ｃＤＮＡを定量した。

ＰＣＲ：
[0155]各試料について、２つの反応物を設定した：１）フォワードプライマーＰＭＳ２＿ＲＮＡ＿ＦおよびリバースプライマーＲＮＡ＿Ｕｎｖ＿ＲはｃＤＮＡから１．５ｋｂのＰＭＳ２を増幅させた、および２）フォワードプライマーＰＭＳ２ＣＬ＿ＦおよびリバースプライマーＲＮＡ＿Ｕｎｖ＿ＲはｃＤＮＡ（付属の表Ｓ３におけるプライマーシーケンス）から１．５ｋｂのＰＭＳ２ＣＬを増幅させた。ＰＣＲ反応は、１ｘＬｏｎｇＡｍｐＴａｑＲｅａｃｔｉｏｎＢｕｆｆｅｒ（ＮＥＢ）、０．３ｍＭのｄＮＴＰ、フォワードプライマーとリバースプライマーをそれぞれ１μＭ、２０～７０ｎｇのｃＤＮＡ、０．１Ｕ／μＬのＬｏｎｇＡｍｐＴａｑＤＮＡポリメラーゼ（ＮＥＢ）を含有し、水で２５μＬとした。サーマルサイクリングは以下の通りであった：９４℃で５分間、９４℃で３０秒間を３０サイクル、ＰＭＳ２については５２℃で、ＰＭＳ２ＣＬについては５５℃でアニーリング、６５℃で２分間、続いて、６５℃で１０分間最終伸長、次いで、４℃で保持。ＰＣＲ産物を１．２×ＳＰＲＩビーズで精製した。２％アガロースゲルまたはＤＮＡ７５００キット（Ａｇｉｌｅｎｔ）でアンプリコンを可視化した。

シーケンシング：
[0156]各アンプリコン５０～１００ｎｇをＢｉｏｒｕｐｔｏｒ（Ｄｉａｇｅｎｏｄｅ）を用い、３０秒オンおよび９０秒オフの１２サイクルで５０μＬ体積に断片化した。断片化は、ＨｉｇｈＳｅｎｓｉｔｉｖｉｔｙＤＮＡキット（Ａｇｉｌｅｎｔ）で可視化した。すべての断片化材料をライブラリー調製の入力に使用した。ＫＡＰＡＨｙｐｅｒＰｒｅｐキット（ＫａｐａＢｉｏｓｙｓｔｅｍｓ）をライブラリー調製に使用し、製造業者の説明書に従った。アダプターをＰＭＳ２については１５μＭおよびＰＭＳ２ＣＬについては３μＭに希釈した。濃縮ＰＣＲを９サイクル実施した。吸光度測定（ＴｅｃａｎＭ２００）を使用して試料を定量し、１０ｎＭに正規化し、１つの反応物に統一した。ＫＡＰＡＬｉｂｒａｒｙＱｕａｎｔｉｆｉｃａｔｉｏｎＫｉｔ（ＫａｐａＢｉｏｓｙｓｔｅｍｓ）を使用するｑＰＣＲで最終ライブラリーを定量し、二重インデックスを有するシングルリードをＮｅｘｔＳｅｑ５５０Ｓｙｓｔｅｍ（Ｉｌｌｕｍｉｎａ）で７５サイクルシーケンシングした。

アラインメント：
[0157]ベースコールファイルをｂｃｌ２ｆａｓｔｑ（Ｉｌｌｕｍｉｎａ）を使用してＦＡＳＴＱファイルに変換した。ＦＡＳＴＱファイルをＳＴＡＲ［３６］を使用してアラインした。

分析メトリックス：
[0158]メトリックスを以下のように定義した：感度＝ＴＰ／（ＴＰ＋ＦＮ）；特異性＝ＴＮ／（ＴＮ＋ＦＰ）。ＣｌｏｐｐｅｒおよびＰｅａｒｓｏｎ［３７］の方法によってＣＩを計算した。ＳＮＶおよびインデルでは、真の陰性を、使用したコホートにおいて多型であると判明した部位（本発明者らが、少なくとも１つの試料において非基準塩基を観察した位置）で観察された一致した陰性結果と定義した。

結果
ゼロヌクレオチドは、ＰＭＳ２のエクソン１２～１５をＰＭＳ２ＣＬと確実に識別することができる：
[0159]短いＤＮＡ断片のＮＧＳは、断片自体が遺伝子または偽遺伝子に対して明確にアラインされ得る場合にのみ、５つの最終エクソンにおけるＰＭＳ２特異的バリアントを特定することができるであろう。偽遺伝子の妨害を克服するために、ユニークマッピングは、ＰＭＳ２とＰＭＳ２ＣＬの間で異なる塩基に依拠することになる。ｈｇ１９基準ゲノムでは、これらの識別塩基は稀であり（図１Ｄ、左のバー）：ＰＭＳ２（２０ｎｔのイントロンシーケンスで埋められた）の５つの最終エクソンのそれぞれにおけるシーケンス同一性は９７％を超え、差は、それぞれ、エクソン１１から１５において２６、０、１、１、および０個の塩基を含むに過ぎない。さらに、以前の報告では、自然変異は、基準ゲノムにおいて表されるこれらの識別塩基の信頼性を抑制し得る［１７、１８］。

[0160]基準ゲノムの信頼性を試験するために、ＰＭＳ２のエクソン１１～１５およびＰＭＳ２ＣＬにおける対応する領域における一連の自然変異をアセンブルした。様々な自己申告された民族的帰属（付属の表Ｓ４）を有する使用されたコホート（表１）の７０７個の患者試料に関する遺伝子および偽遺伝子特異的ＬＲ－ＰＣＲアンプリコンに関して、ＮＧＳを実施した。ＰＭＳ２のエクソン１１における２６の予測された位置のうちの７つは、遺伝子および偽遺伝子に別個の対立遺伝子を有し、それらを信頼性の高い識別塩基としたことが見出された。対照的に、エクソン１１における１９の位置およびエクソン１２～１５における２つの位置について、ｈｇ１９からの表面上ＰＭＳ２に特異的な対立遺伝子が、ＰＭＳ２ＣＬＬＲ－ＰＣＲデータにおいて少なくとも１回観察され、逆もまた同様であった（対立遺伝子頻度に関する付属の表Ｓ４を参照されたい）。したがって、遺伝子および偽遺伝子における自然変異を考慮に入れた後、ＰＭＳ２のエクソン１２～１５には信頼性の高い識別塩基は存在せず（すなわち、１００％のシーケンス同一性）、エクソン１１には７つの識別塩基が存在する（図１Ｄ、濃いバー）。まとめると、これらのデータは、ショートリードのＮＧＳ単独によるバリアントの特定は、エクソン１１では十分であるが、エクソン１２～１５では異なるアプローチが必要とされることを示唆する。

ショートリードＮＧＳで発見された曖昧性除去バリアントに対するリフレックスワークフロー：
[0161]その根拠としてショートリードＮＧＳを使用し、臨床的に必要とされる場合にのみ、バリアントが遺伝子起源であるか偽遺伝子起源であるかを明確にするための直交アッセイを含むリフレックス試験を実施する、ＰＭＳ２の３’エクソンに関するワークフローの妥当性を評価した（図２Ａ）。試験のショートリードＮＧＳ段階では、分子アプローチは、ＰＭＳ２の５つの最終エクソンにわたり一致する。患者試料からのＬＲ－ＰＣＲデータにおいて、ＰＭＳ２とＰＭＳ２ＣＬの間で変化することが示された位置を特異的に回避する捕捉プローブを設計することによって、それらが遺伝子起源であるか偽遺伝子起源であるかが曖昧な方式で、ＤＮＡ断片を捕捉する（図２Ｂ、紫色のボックス）。

[0162]ワークフローは、ＰＭＳ２のエクソン１１およびエクソン１２～１５の群に関して、様々なバイオインフォマティクス戦略を用いる（図２Ｂ、青色のボックス）。エクソン１１では、ＰＭＳ２特異的バリアントを、遺伝子および偽遺伝子識別塩基に基づいて、ＰＭＳ２またはＰＭＳ２ＣＬ対するリードをパーティショニングするためのリード－アラインメントソフトウェアを調整することによって特定する。対照的に、ＰＭＳ２のエクソン１２～１５では、各リードがその最良の遺伝子位置およびその最良の偽遺伝子位置に対してアラインするように、許容される設定でリードがアラインされる（方法を参照されたい）。ＰＭＳ２およびＰＭＳ２ＣＬについてそれぞれ２つのコピーを有する典型的な試料では、このアプローチは、４つのコピーに対応する、各位置におけるリード深度を効果的にもたらす。ＳＮＶ、インデル、およびＣＮＶを特定するために、バリアントコールソフトウェアを、エクソン１１において２つおよびエクソン１２～１５において４つのベースライン倍数性が予期されるように調整する（図２Ｂ、青色と緑色のボックス）。

[0163]リフレックス試験による曖昧性除去は、それらのタイプおよび臨床的解釈に基づき、バリアントのサブセットに対して必要とされるに過ぎない（図２Ｂ、橙色のボックス）。このように、バリアント解釈は、リフレックス試験の前に実施される。良性バリアントは、リフレックス試験されないかまたは患者に報告されない。病原性、病原性である可能性が高い、または病的意義が不明なバリアント（ＶＵＳ）と分類されるＰＭＳ２の５つの最終エクソンのいずれかにおいてＣＮＶを有する試料は、曖昧性除去のためにリフレックス試験を受ける。エクソン１２～１５において非良性ＳＮＶまたはインデルを含む試料は、曖昧性除去のためにリフレックス試験されるが、エクソン１１においてこのようなバリアントを有する試料は、そのエクソン内のユニークリードマッピングによって、リフレックスなしに報告されるだけである。ＳＮＶ、インデル、およびＣＮＶに関する曖昧性除去試験は、ＬＲ－ＰＣＲ、続いて、バリアントがＰＭＳ２に由来するかまたはＰＭＳ２ＣＬに由来するかを決定するためのシーケンシングによって実施され得る；ＭＬＰＡは、ＣＮＶの分解を補助することができる［２０］。

[0164]提案されたワークフローを実行することによって、ショートリードＮＧＳのみを用いる大多数の試料に関して、ＰＭＳ２の５つの最終エクソンに関連するがんリスクが解明される。ＬＲ－ＰＣＲを受けた７０７個の患者試料のそれぞれについて（表１）、その結果に関してバリアント分類を実施し、ほぼ９３％がリフレックス試験を受けなくてもよいことが判明した。残りの約７％は、確信できるＰＭＳ２のスクリーニング結果を得るために、次の試験を必要とした（図２Ａ）。このリフレックスレートのＳＮＶおよびインデル特異的コンポーネントは４１／７０７（５．８％）であり、ＣＮＶコールおよびコールなしによるリフレックスレートは、それぞれ２／７０７（０．３％）および１／１４４（０．７％）であった。シミュレーションを使用して（方法を参照されたい）、１３，０００名の患者の大きなコホートに関するリフレックスレートを７．７％（９５％ＣＩ：５．４～１０．７％）と推定した。ＣＮＶコールなしの試料からのリフレックスレートに対して０．７％の寄与は上界推定値であると予測され、これは、このような試料をショートリードＮＧＳに関して少なくとも１回再試験するという標準的な実践で確信できる陰性コールが得られ（データは示さず）、それによってリフレックス試験は回避されるためである。したがって、提案されたワークフローの全体的リフレックスレート（図６を参照されたい）は、８％未満であると期待される。

ショートリードＮＧＳは、ＳＮＶおよびインデルに関するリフレックス試験を必要とする試料を正確に特定した：
[0165]本明細書に記載のリフレックスワークフローは、ショートリードＮＧＳ試験（図２）が（１）ＰＭＳ２のエクソン１１におけるバリアントを特定する、および（２）ＰＭＳ２／ＰＭＳ２ＣＬ起源の曖昧性を有するエクソン１２～１５においてバリアントに関するリフレックス試験を必要とする試料を知らせる、高い分析感度および特異性を有する場合にのみ、臨床的に実行可能である。ＳＮＶおよびインデルに関するショートリードＮＧＳ試験の精度を評価するために、その結果を１４４個の患者試料および１５５種の細胞株に関するＬＲ－ＰＣＲで観察されたものと比較した（図３）。エクソン１２～１５における遺伝子型一致を測定することによって不規則な混同行列が必要され、これは、ショートリードＮＧＳ遺伝子型が四倍体であると報告され（方法を参照されたい）、一方、ＬＲ－ＰＣＲは、遺伝子と偽遺伝子の両方に関する二倍体遺伝子型コールを返すためである（図３Ａはいくつかの例を強調する）。行列は、代替対立遺伝子の存在が適当に検出されるが、代替対立遺伝子の数が一致しない「許容されるドーセッジの誤差」を含む；このような誤差は、ショートリードＮＧＳにおける代替対立遺伝子の存在がリフレックス試験を誘発し、訂正されるのに十分であるため、許容されると考えられる。真の集合としてＬＲ－ＰＣＲ用いる１，６７８部位において比較した場合、ショートリードＮＧＳ試験は、エクソン１１において１００％の分析感度と１００％の分析特異性を有し（図３Ｂ）、エクソン１２～１５において９９．９％の分析感度と１００％の分析特異性を有した（図３Ｃ）。

[0166]使用した患者コホートおよび細胞株（全体で１７）におけるインデルコールの不足は、臨床的ゲノム適用のために四倍体－バックグラウンドモードのバリアントコールソフトウェアの稀な使用とも相まって、ＰＭＳ２のエクソン１２～１５におけるインデルコール効率のより深い調査の動機付けとなった。予測されるＮＧＳデータを、異なる対立遺伝子ドーセッジ（１、２、３、または４コピー）のインデルが集まった四倍体ゲノムバックグラウンドを有する試料についてシミュレーションした。このような試料を構築するために、ＰＭＳ２以外で使用されるＨＣＳ試験の領域における２つの試料（少なくとも１つはインデルを含有する）から、二倍体ＮＧＳデータをマージした（図４Ａ、方法を参照されたい）。２つの試料のそれぞれの遺伝子型は、マージされた試料の予測された遺伝子型をもたらし、例えば、ホモ接合性の代替試料（２つのインデル対立遺伝子）とヘテロ接合性試料（１つのインデル対立遺伝子）を組み合わせることは、予測される、３のインデルドーセッジを与えることになる。図４Ｂは、シミュレーションされた四倍体バックグラウンドにおけるインデルについて９９．６％の感度を示し、これは、使用されるリードアラインメントとバリアントコール戦略によって四倍体バックグラウンドがもたらされるＰＭＳ２のエクソン１２～１５では感度が比較的高いことを示唆する。図３Ｃの経験的データは、エクソン１２～１５におけるインデルに関して１００％の特異性を実証するため、特異性は、シミュレーションにおいてさらに評価されなかった。

[0167]まとめると、ＬＲ－ＰＣＲとショートリードＮＧＳの間のＳＮＶコールとインデルコールの比較は、本明細書に記載の提案されたワークフローのプレリフレックスステップが臨床用途として考えられる十分な分析感度と特異性を実現することを示唆する。

ＣＮＶリフレックス試験を必要とする試料のショートリードＮＧＳに関する正確な検出
[0168]ＰＭＳ２の５つの最終エクソンにおけるＣＮＶに関するショートリードＮＧＳの感度および特異性を評価するために、患者試料、細胞株、既知陽性、およびシミュレーションした陽性を有する試料を試験した。ＳＮＶおよびインデルと同様に、上記ＣＮＶ検出アルゴリズムを、ＰＭＳ２のエクソン１１について２つおよびエクソン１２～１５において４つのコピー数ベースラインを使用するために、適応させた（図２Ｂ、青色のボックス；方法を参照されたい）。５つの最終エクソンにおいてＣＮＶを有する３つの既知陽性試料を予測されたエクソンを包含するＣＮＶを有するとして正確に特定した（図５Ａ）。細胞株のうちの４つおよび臨床試料のうちの１つにおけるエクソン１３～１４の欠失をさらに観察した；臨床試料では、ショートリードＮＧＳは、四倍体バックグラウンドからのシグナル低下を特定し（図５Ｂ）、ＭＬＰＡは、同様の欠失の存在を確認し（図５Ｃ）、かつＬＲ－ＰＣＲアンプリコンにおけるＮＧＳは、欠失は、ＰＭＳ２よりもむしろＰＭＳ２ＣＬにおいて存在することを明らかにした（図５Ｄ）。興味深いことに、この領域の２つのコピーのうちの１つだけがＰＭＳ２ＣＬにおいて欠失するが、ＬＲ－ＰＣＲプロファイルは、欠失した領域において７５％のシグナル低下を示す。ＬＲ－ＰＣＲの間、これは、より短い欠失を保有する対立遺伝子の優先的増幅から生じることが推測される。したがって、ＬＲ－ＰＣＲデータは、曖昧性除去をもたらす点で特有であったが、ショートリードＮＧＳおよびＭＬＰＡデータは、解釈可能なコピー数値をより容易に有した。

[0169]大きな一連のＣＮＶ陽性試料の非存在により、ショートリードＮＧＳに関するＰＭＳ２ＣＮＶコールの感度の完全かつ直接的な特徴付けは、数千の試料の盲検試験を必要とすることになる。代わりに、多数のＣＮＶ陰性患者からのシーケンシングデータを、所与の長さおよび位置のＣＮＶを導入するシミュレーションにおけるサブストレートとして使用した（方法を参照されたい）。２１８６個のシミュレーションした試料に関して、上記のＣＮＶ検出アルゴリズムを実行することによって、１から５エクソン長の範囲のＣＮＶに関する分析感度を測定した（表２；付属の表Ｓ６における細胞株試料に関するシミュレーションデータ）。多数のエクソンの欠失に関する感度は、全体として、９９．２％を超え、単一エクソンの欠失に関する感度は、約８９％であった。ＰＭＳ２の５つの最終エクソンにおけるＣＮＶ長の観察された頻度分布によってシミュレーションされた感度を重み付けることによって［２１、２３、２４］、この複雑なゲノム領域におけるＣＮＶ感度の総計は、９６．７％であると推定される。

[0170]ＣＮＶに関する高感度は、低特異性という犠牲を伴ってはらない。このことは、使用された大きなコホートのＣＮＶ偽陽性率の測定の契機となる。３０２個の試料の３０２のハイブリッド捕捉コホートでは、コールなしが１つ存在し、これは、偽陽性として処理される。したがって、試料－レベル特異性は、９９．７％（９５％ＣＩ：９８．２～１００％）である。

[0171]これらの分析に基づいて、ショートリードＮＧＳ（説明されたワークフローにおいて最適化された）は、ＰＭＳ２の５つの末端エクソンにおいてＣＮＶを含む試料を検出するための＞９６％の感度および＞９９％の特異性を達成し得ると結論付けられた。
共通の細胞株に関する遺伝子および偽遺伝子特異的バリアント情報：

[0172]既知の遺伝子型を有する基準細胞株は、新規分子診断方法の開発および評価を容易にするが、ＰＭＳ２領域における高品質遺伝子型を有する試料は、概して領域の複雑な性質により利用不能である。上記で特徴付けられたワークフローの開発および試験の過程では、高品質のゲノムシーケンスが約３０×深度を有する全ゲノムシーケンシング（ＩｌｌｕｍｉｎａＰｏｌａｒｉｓ１ＤｉｖｅｒｓｉｔｙＰａｎｅｌ）またはＢｏｔｔｌｅ（ＧＩＡＢ）ＣｏｎｓｏｒｔｉｕｍにおけるＧｅｎｏｍｅ［３８，３９］からアセンブルされた細胞株におけるハイブリッド捕捉断片とＬＲ－ＰＣＲアンプリコンの両方について、ＮＧＳを実施した。重要なことに、図７は、観察された遺伝子特異的遺伝子型が、ＰｏｌａｒｉｓおよびＧＩＡＢデータと異なったことを示す（ＧＩＡＢ試料に関する位相データを含む；図７Ｃ）。原則として、このような差は、例えば、生物学的夾雑、非特異的増幅、非特異的シーケンスアラインメント、または選択された遺伝子型決定ソフトウェアによる技術的処理エラーにより、部分的に、いずれかのデータセットにおけるエラーによって生じ得る。直交ハイブリッド捕捉とＬＲ－ＰＣＲアッセイの間の一致は、本発明において報告された遺伝子型は正しいことを示唆するが、第３の直交方法として、ＬＲ－ＰＣＲ試料のうちの３３個から抽出されたＲＮＡから、ＰＭＳ２およびＰＭＳ２ＣＬの遺伝子型決定を行った（方法を参照されたい）。ＲＮＡ由来の遺伝子型は、ＬＲ－ＰＣＲデータと一致し（図８）、本発明者らが、正確な遺伝子および偽遺伝子特異的遺伝子型を明確にしたことを強く示唆した。ＰＭＳ２およびそのリンチ症候群における役割についての科学的研究および臨床開発を補助するために、遺伝子および偽遺伝子特異的バリアント情報が共有される。患者試料では、患者の同意およびＰＨＩコンプライアンスに留意しながら、有価値データを共有するために、バリアント頻度が与えられる（付属の表Ｓ４）。細胞株に関しては、バリアント頻度ならびにＰＭＳ２およびＰＭＳ２ＣＬの５つの最終エクソンにわたるＬＲ－ＰＣＲアンプリコンに関するＢＡＭおよびＶＣＦファイルが共有される（付属の表Ｓ５およびＥＮＡ受託番号ＰＲＪＥＢ２７９４８）。

例示的な実施形態
[0173]以下の実施形態は例示的であり、本発明を限定することを意図しない。

[0174]実施形態１．対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが、目的物の高度に相同な第１の領域および第２の領域を含み、方法が、
（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、ステップと、
（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発する、ステップと、
（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、
（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードをペアリングし、それによってトップペアアラインメントを生じるステップと、
（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップと
を含む、方法。

[0175]実施形態２．ステップ（ｂ）の前に、基準ゲノムに対して第１のリードおよび第２のリードをアラインするステップであって、アライナーが、第１のリードおよび第２のリードの各ペアについて、目的物の第１の領域または第２の領域に対して最良の可能なペアエンドアラインメント発し、かつ目的物の第１の領域または第２の領域に対するトップアラインメントスコアに関連するペアエンドリードのみが、ステップ（ｂ）において別々にアラインされる、ステップを含む、実施形態１に記載の方法。

[0176]実施形態３．シーケンスリードが、目的物の多数の部位のダイレクトターゲットシーケンシング（ＤＴＳ）によって得られ、第１のリードがゲノムシーケンスリードを含み、第２のリードが目的物の部位と関連したプローブシーケンスリードを含む、実施形態１に記載の方法。

[0177]実施形態４．ステップ（ｂ）において、シーケンスリードが、Ｂｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＡｌｉｇｎｅｒ（ＢＷＡ）アルゴリズムを使用してアラインされる、実施形態１に記載の方法。

[0178]実施形態５．ステップ（ｂ）において、アライナーが、目的物の第１の領域および第２の領域に関する最小のアラインメントスコアを満たすアラインメントのみを発する、実施形態１に記載の方法。

[0179]実施形態６．目的物の第１の領域に対する第１のリードおよび第２のリードのアラインメントが、互いに一定数の塩基の範囲内にある場合にのみ、第１のリードおよび第２のリードが、ステップ（ｄ）においてペアリングされる、実施形態１に記載の方法。

[0180]実施形態７．目的物の第１の領域に対する第１のリードおよび第２のリードのアラインメントが、約１００ｂｐ、約２００ｂｐ、約２００ｂｐ、約３００ｂｐ、約４００ｂｐ、約５００ｂｐ、約６００ｂｐ、約７００ｂｐ、約８００ｂｐ、約９００ｂｐ、約１０００ｂｐ、約１１００ｂｐ、約１２００ｂｐ、約１３００ｂｐ、約１４００ｂｐ、約１５００ｂｐ、または１５００ｂｐ超の範囲内の場合にのみ、第１のリードおよび第２のリードが、ステップ（ｄ）においてペアリングされる、実施形態１に記載の方法。

[0181]実施形態８．ステップ（ｄ）において、多数のペアアラインメントを生じるステップと、多数のペアアラインメントのそれぞれについてアラインメントスコアを計算するステップと、最も高いアラインメントスコアを有するトップペアアラインメントを特定するステップとを含む、実施形態１に記載の方法。

[0182]実施形態９．ステップ（ｄ）におけるトップペアアラインメントが、最も小さな鋳型長を有するものとして選択される、実施形態１に記載の方法。

[0183]実施形態１０．遺伝的変異が、ＳＮＰ、インデル、逆位、および／またはＣＮＶを含む、実施形態１に記載の方法。

[0184]実施形態１１．ステップ（ｅ）における検出するステップが、ＳＮＰ、インデル、逆位、および／またはＣＮＶをコールするステップを含む、実施形態１に記載の方法。

[0185]実施形態１２．ステップ（ｅ）における検出するステップが、コピー数を決定するための隠れマルコフモデル（ＨＭＭ）コーラーを使用するステップを含む、実施形態１に記載の方法。

[0186]実施形態１３．ステップ（ｅ）における検出するステップが、２という予測倍数性に基づく、実施形態１に記載の方法。

[0187]実施形態１４．ステップ（ｅ）における検出するステップが、４という予測倍数性に基づく、実施形態１に記載の方法。

[0188]実施形態１５．遺伝的変異がステップ（ｅ）において検出される場合、対象のゲノムの一部がロングレンジＰＣＲによって増幅され、マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）によってアッセイされる、実施形態１に記載の方法。

[0189]実施形態１６．遺伝的変異がステップ（ｅ）において検出される場合、目的物の第１の領域の一部がロングレンジＰＣＲによって増幅され、産物またはその部分がサンガーシーケンシングまたはＮＧＳによってシーケンシングされる、実施形態１に記載の方法。

[0190]実施形態１７．遺伝的変異がステップ（ｅ）において検出される場合、対象のゲノムＤＮＡは、マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）によってアッセイされる、実施形態１に記載の方法。

[0191]実施形態１８．シーケンスリードが、３０～５０ｂｐまたは１００～２００ｂｐの長さである、実施形態１に記載の方法。

[0192]実施形態１９．目的物の高度に相同な第１の領域および第２の領域が、少なくとも８０％、少なくとも８１％、少なくとも８２％、少なくとも８３％、少なくとも８４％、少なくとも８５％、少なくとも８６％、少なくとも８７％、少なくとも８８％、少なくとも８９％、少なくとも９０％、少なくとも９１％、少なくとも９２％、少なくとも９３％、少なくとも９４％、少なくとも９５％、少なくとも９６％、少なくとも９７％、少なくとも９８％、少なくとも９９％、または９９％より高いパーセンテージで同一である、実施形態１に記載の方法。

[0193]実施形態２０．シーケンスリードが、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンから得られる、実施形態１に記載の方法。

[0194]実施形態２１．シーケンスリードが、目的物の第１の領域および／または第２の領域内の１つまたは複数のイントロンから得られる、実施形態１に記載の方法。

[0195]実施形態２２．シーケンスリードが、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンおよびイントロンから得られる、実施形態１に記載の方法。

[0196]実施形態２３．シーケンスリードが、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンおよびイントロンから得られ、イントロンが、エクソンの付近に存在する、実施形態１に記載の方法。

[0197]実施形態２４．シーケンスリードが、目的物の第１の領域および／または第２の領域と関連した１つまたは複数の臨床的に取り扱うことが可能な領域から得られる、実施形態１に記載の方法。

[0198]実施形態２５．目的物の第１の領域が遺伝子を含み、目的物の第２の領域が偽遺伝子を含む、実施形態１に記載の方法。

[0199]実施形態２６．目的物の第１の領域が偽遺伝子を含み、目的物の第２の領域が遺伝子を含む、実施形態１に記載の方法。

[0200]実施形態２７．目的物の第１の領域が、２つの対立遺伝子を含む、実施形態１に記載の方法。

[0201]実施形態２８．目的物の第２の領域が、２つの対立遺伝子を含む、実施形態１に記載の方法。

[0202]実施形態２９．遺伝子が、ＰＭＳ２である、実施形態２５～２８のいずれか１つに記載の方法。

[0203]実施形態３０．偽遺伝子が、ＰＭＳ２ＣＬである、実施形態２５～２８のいずれか１つに記載の方法。

[0204]実施形態３１．目的物の多数の部位が、対象のゲノムのＰＭＳ２のエクソンおよび別の部分のエクソン内に存在する、実施形態１に記載の方法。

[0205]実施形態３２．目的物の多数の部位は、ＰＭＳ２のエクソンおよびＰＭＳ２ＣＬのエクソン内に存在する、実施形態１に記載の方法。

[0206]実施形態３３．目的物の多数の部位が、ＰＭＳ２のエクソン１１、１２、１３、１４、および／または１５ならびにＰＭＳ２ＣＬのエクソン２、３、４、５、および／または６内に存在する、実施形態１に記載の方法。

[0207]実施形態３４．対象はヒトであり、シーケンスリードはヒト基準ゲノムに対してアラインされる、実施形態１に記載の方法。

[0208]実施形態３５．コンピュータにより実装される、実施形態１に記載の方法。

[0209]実施形態３６．基準ゲノムが、目的物の第１の相同な領域または第２の相同な領域のマスク部分または改変部分を含まない、実施形態１に記載の方法。

[0210]実施形態３７．実施形態１を実施するためのコンピュータ実行可能命令を含む非一時的なコンピュータ可読記憶媒体。

[0211]実施形態３８．
（ａ）１つまたは複数のプロセッサー、
（ｂ）メモリ、および
（ｃ）１つまたは複数のプログラム
を含むシステムであって、１つまたは複数のプログラムが、メモリに記憶され、１つまたは複数のプロセッサーによって実行されるよう構成され、１つまたは複数のプログラムは、実施形態１を実行するための命令を含む、システム。

[0212]参照文献
1. Nagy R, Sweet K, Eng C. Highly penetrant hereditary cancer syndromes. Oncogene. 2004;23: 6445-6470.
2. Lu KH, Wood ME, Daniels M, Burke C, Ford J, Kauff ND, et al. American Society of Clinical Oncology Expert Statement: collection and use of a cancer family history for oncology providers. J Clin Oncol. 2014;32: 833-840.
3. Mucci LA, Hjelmborg JB, Harris JR, Czene K, Havelick DJ, Scheike T, et al. Familial Risk and Heritability of Cancer Among Twins in Nordic Countries. JAMA. 2016;315: 68-76.
4. Foulkes WD. Inherited Susceptibility to Common Cancers. N Engl J Med. 2008;359: 2143-2153.
5. Garber JE, Offit K. Hereditary cancer predisposition syndromes. J Clin Oncol. 2005;23: 276-292.
6. Vogelstein B, Papadopoulos N, Velculescu VE, Zhou S, Diaz LA, Kinzler KW. Cancer Genome Landscapes. Science. 2013;339: 1546-1558.
7. Vysotskaia VS, Hogan GJ, Gould GM, Wang X, Robertson AD, Haas KR, et al. Development and validation of a 36-gene sequencing assay for hereditary cancer risk assessment. PeerJ. 2017;5: e3046.
8. Kang HP, Maguire JR, Chu CS, Haque IS, Lai H, Mar-Heyming R, et al. Design and validation of a next generation sequencing assay for hereditary BRCA1 and BRCA2 mutation testing. PeerJ. 2016;4: e2162.
9. Bunnell AE, Garby CA, Pearson EJ, Walker SA, Panos LE, Blum JL. The Clinical Utility of Next Generation Sequencing Results in a Community-Based Hereditary Cancer Risk Program. J Genet Couns. 2017;26: 105-112.
10. Desmond A, Kurian AW, Gabree M, Mills MA, Anderson MJ, Kobayashi Y, et al. Clinical Actionability of Multigene Panel Testing for Hereditary Breast and Ovarian Cancer Risk Assessment. JAMA Oncol. 2015;1: 943-951.
11. Lynch HT, Smyrk T, Lynch J, Fitzgibbons R Jr, Lanspa S, McGinn T. Update on the differential diagnosis, surveillance and management of hereditary non-polyposis colorectal cancer. Eur J Cancer. 1995;31A: 1039-1046.
12. Blount J, Prakash A. The changing landscape of Lynch syndrome due to PMS2 mutations. Clin Genet. 2018;94: 61-69.
13. Sijmons RH, Hofstra RMW. Review: Clinical aspects of hereditary DNA Mismatch repair gene mutations. DNA Repair . 2016;38: 155-162.
14. Tiwari AK, Roy HK, Lynch HT. Lynch syndrome in the 21st century: clinical perspectives. QJM. 2016;109: 151-158.
15. Lynch HT, Fusaro RM, Lynch JF. Cancer Genetics in the New Era of Molecular Biology. Ann N Y Acad Sci. 1997;833: 1-28.
16. De Vos M, Hayward BE, Picton S, Sheridan E, Bonthron DT. Novel PMS2 pseudogenes can conceal recessive mutations causing a distinctive childhood cancer syndrome. Am J Hum Genet. 2004;74: 954-964.
17. Hayward BE, De Vos M, Valleley EMA, Charlton RS, Taylor GR, Sheridan E, et al. Extensive gene conversion at the PMS2 DNA mismatch repair locus. Hum Mutat. 2007;28: 424-430.
18. van der Klift HM, Tops CMJ, Bik EC, Boogaard MW, Borgstein A-M, Hansson KBM, et al. Quantification of sequence exchange events between PMS2 and PMS2CL provides a basis for improved mutation scanning of Lynch syndrome patients. Hum Mutat. 2010;31: 578-587.
19. Vaughn CP, Robles J, Swensen JJ, Miller CE, Lyon E, Mao R, et al. Clinical analysis of PMS2: mutation detection and avoidance of pseudogenes. Hum Mutat. 2010;31: 588-593.
20. Vaughn CP, Hart KJ, Samowitz WS, Swensen JJ. Avoidance of pseudogene interference in the detection of 3' deletions in PMS2. Hum Mutat. 2011;32: 1063-1071.
21. van der Klift HM, Mensenkamp AR, Drost M, Bik EC, Vos YJ, Gille HJJP, et al. Comprehensive Mutation Analysis of PMS2 in a Large Cohort of Probands Suspected of Lynch Syndrome or Constitutional Mismatch Repair Deficiency Syndrome. Hum Mutat. 2016;37: 1162-1179.
22. Li J, Dai H, Feng Y, Tang J, Chen S, Tian X, et al. A Comprehensive Strategy for Accurate Mutation Detection of the Highly Homologous PMS2. J Mol Diagn. 2015;17: 545-553.
23. Vaughn CP, Baker CL, Samowitz WS, Swensen JJ. The frequency of previously undetectable deletions involving 3’ Exons of the PMS2 gene. Genes Chromosomes Cancer. 2013;52: 107-112.
24. Espenschied CR, LaDuca H, Li S, McFarland R, Gau C-L, Hampel H. Multigene Panel Testing Provides a New Perspective on Lynch Syndrome. J Clin Oncol. 2017;35: 2568-2575.
25. Etzler J, Peyrl A, Zatkova A, Schildhaus H-U, Ficek A, Merkelbach-Bruse S, et al. RNA-based mutation analysis identifies an unusual MSH6 splicing defect and circumvents PMS2 pseudogene interference. Hum Mutat. 2008;29: 299-305.
26. Herman DS, Smith C, Liu C, Vaughn CP, Palaniappan S, Pritchard CC, et al. Efficient Detection of Copy Number Mutations in PMS2 Exons with a Close Homolog. J Mol Diagn. 2018;20: 512-521.
27. Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM [Internet]. 2013. Available: arxiv.org/abs/1303.3997
28. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009;25: 2078-2079.
29. Poplin R, Ruano-Rubio V, DePristo MA, Fennell TJ, Carneiro MO, Van der Auwera GA, et al. Scaling accurate genetic variant discovery to tens of thousands of samples [Internet]. 2017. doi:10.1101/201178
30. Garrison E, Marth G. Haplotype-based variant detection from short-read sequencing [Internet]. arXiv [q-bio.GN]. 2012. Available: arxiv.org/abs/1207.3907
31. McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res. 2010;20: 1297-1303.
32. Home | Integrative Genomics Viewer [Internet]. [cited 7 Sep 2018]. Available: www.broadinstitute.org/igv
33. Hogan GJ, Vysotskaia VS, Beauchamp KA, Seisenberger S, Grauman PV, Haas KR, et al. Validation of an Expanded Carrier Screen that Optimizes Sensitivity via Full-Exon Sequencing and Panel-wide Copy Number Variant Identification. Clin Chem. 2018;64: 1063-1073.
34. Richards S, Aziz N, Bale S, Bick D, Das S, Gastier-Foster J, et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 2015;17: 405-424.
35. Salvatier J, Wiecki TV, Fonnesbeck C. Probabilistic programming in Python using PyMC3. PeerJ Comput Sci. PeerJ Inc.; 2016;2: e55.
36. Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29: 15-21.
37. Clopper CJ, Pearson ES. The Use of Confidence or Fiducial Limits Illustrated in the Case of the Binomial. Biometrika. 1934;26: 404.
38. Zook JM, Catoe D, McDaniel J, Vang L, Spies N, Sidow A, et al. Extensive sequencing of seven human genomes to characterize benchmark reference materials. Sci Data. 2016;3: 160025.
39. Zook JM, Chapman B, Wang J, Mittelman D, Hofmann O, Hide W, et al. Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls. Nat Biotechnol. 2014;32: 246-251.
[0213]本明細書に記載の実施例および実施形態は、例示のみを目的物とし、それらを考慮した様々な修正または変化は、当技術分野の当業者に示唆されることになり、本出願の趣旨および範囲ならびに添付の特許請求の範囲の範囲内に含まれるべきであることが理解される。本明細書で引用されたすべての刊行物、特許、および特許出願は、参照によりすべての目的物のためにその全体が本明細書に組み込まれる。

Claims

対象のゲノムにおける遺伝的変異を検出するための方法であって、ゲノムが、目的物の高度に相同な第１の領域および第２の領域を含み、前記方法が、
（ａ）目的物の第１の領域および第２の領域における目的物の多数の部位からペアエンドシーケンシングによってシーケンスリードを得るステップであって、シーケンスリードが、目的物の各部位で得られた第１のリードおよび第２のリードを含む、前記ステップと、
（ｂ）基準ゲノムに対してシーケンスリードをアラインするステップであって、第１のリードおよび第２のリードが基準ゲノムに対して別々にアラインされ、アライナーが第１のリードおよび第２のリードのそれぞれについて多数の可能なアラインメントを発し、ここで、基準ゲノムが、目的物の第１の相同な領域または第２の相同な領域のマスク部分または改変部分を含まない、前記ステップと、
（ｃ）目的物の第１の領域に対してアラインする第１のリードおよび第２のリードを特定するステップと、
（ｄ）ステップ（ｃ）において特定されたリードから第１のリードおよび第２のリードのトップペアアラインメントを生じるステップと、
（ｅ）ステップ（ｄ）で生じたトップペアアラインメントにおける遺伝的変異を検出するステップと
を含む、前記方法。
ステップ（ｂ）の前に、基準ゲノムに対して第１のリードおよび第２のリードをアラインするステップであって、アライナーが、第１のリードおよび第２のリードの各ペアについて、目的物の第１の領域または第２の領域に対して最良のペアエンドアラインメントを発し、かつ目的物の第１の領域または第２の領域に対する最も高いトップアラインメントスコアに関連するペアエンドリードのみが、ステップ（ｂ）において別々にアラインされる前記ステップを含む、請求項１に記載の方法。
シーケンスリードが、目的物の多数の部位のダイレクトターゲットシーケンシング（ＤＴＳ）によって得られ、第１のリードがゲノムシーケンスリードを含み、第２のリードが目的物の部位と関連したプローブシーケンスリードを含む、請求項１または２に記載の方法。
ステップ（ｂ）において、シーケンスリードが、Ｂｕｒｒｏｗｓ－ＷｈｅｅｌｅｒＡｌｉｇｎｅｒ（ＢＷＡ）アルゴリズムを使用してアラインされる、請求項１～３のいずれか１項に記載の方法。
ステップ（ｂ）において、アライナーが、目的物の第１の領域および第２の領域に関する最小のアラインメントスコアを満たすアラインメントのみを発する、請求項１～４のいずれか１項に記載の方法。
目的物の第１の領域に対する第１のリードおよび第２のリードのアラインメントが、互いに一定数の塩基の範囲内にある場合にのみ、第１のリードおよび第２のリードが、ステップ（ｄ）においてペアリングされる、請求項１～５のいずれか１項に記載の方法。
目的物の第１の領域に対する第１のリードおよび第２のリードのアラインメントが、約１００ｂｐ、約２００ｂｐ、約２００ｂｐ、約３００ｂｐ、約４００ｂｐ、約５００ｂｐ、約６００ｂｐ、約７００ｂｐ、約８００ｂｐ、約９００ｂｐ、約１０００ｂｐ、約１１００ｂｐ、約１２００ｂｐ、約１３００ｂｐ、約１４００ｂｐ、約１５００ｂｐ、または１５００ｂｐ超の範囲内の場合にのみ、第１のリードおよび第２のリードが、ステップ（ｄ）においてペアリングされる、請求項１～６のいずれか１項に記載の方法。
ステップ（ｄ）において、多数のペアアラインメントを生じるステップと、多数のペアアラインメントのそれぞれについてアラインメントスコアを計算するステップと、最も高いアラインメントスコアを有するものとしてトップペアアラインメントを特定するステップとを含む、請求項１～７のいずれか１項に記載の方法。
ステップ（ｄ）におけるトップペアアラインメントが、多数のペアアラインメントと比較して最も小さな鋳型長を有するものとして選択される、請求項１～８のいずれか１項に記載の方法。
遺伝的変異が、ＳＮＰ、インデル、逆位、および／またはＣＮＶを含む、請求項１～９のいずれか１項に記載の方法。
ステップ（ｅ）における検出するステップが、ＳＮＰ、インデル、逆位、および／またはＣＮＶをコールするステップを含む、請求項１～１０のいずれか１項に記載の方法。
ステップ（ｅ）における検出するステップが、コピー数を決定するための隠れマルコフモデル（ＨＭＭ）コーラーを使用するステップを含む、請求項１～１１のいずれか１項に記載の方法。
ステップ（ｅ）における検出するステップが、２という予測倍数性に基づく、請求項１～１２のいずれか１項に記載の方法。
ステップ（ｅ）における検出するステップが、４という予測倍数性に基づく、請求項１～１２のいずれか１項に記載の方法。
遺伝的変異がステップ（ｅ）において検出される場合、対象のゲノムの一部がロングレンジＰＣＲによって増幅され、マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）によってアッセイされる、請求項１～１４のいずれか１項に記載の方法。
遺伝的変異がステップ（ｅ）において検出される場合、目的物の第１の領域の一部がロングレンジＰＣＲによって増幅され、産物またはその部分がサンガーシーケンシングまたはＮＧＳによってシーケンシングされる、請求項１～１４のいずれか１項に記載の方法。
遺伝的変異がステップ（ｅ）において検出される場合、対象のゲノムＤＮＡは、マルチプレックスライゲーション依存性プローブ増幅（ＭＬＰＡ）によってアッセイされる、請求項１～１４のいずれか１項に記載の方法。
シーケンスリードが、３０～５０ｂｐまたは１００～２００ｂｐの長さである、請求項１～１７のいずれか１項に記載の方法。
目的物の高度に相同な第１の領域および第２の領域が、少なくとも８０％、少なくとも８１％、少なくとも８２％、少なくとも８３％、少なくとも８４％、少なくとも８５％、少なくとも８６％、少なくとも８７％、少なくとも８８％、少なくとも８９％、少なくとも９０％、少なくとも９１％、少なくとも９２％、少なくとも９３％、少なくとも９４％、少なくとも９５％、少なくとも９６％、少なくとも９７％、少なくとも９８％、少なくとも９９％、または９９％より高いパーセンテージで同一である、請求項１～１８のいずれか１項に記載の方法。
シーケンスリードが、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンから得られる、請求項１～１９のいずれか１項に記載の方法。
シーケンスリードが、目的物の第１の領域および／または第２の領域内の１つまたは複数のイントロンから得られる、請求項１～１９のいずれか１項に記載の方法。
シーケンスリードが、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンおよびイントロンから得られる、請求項１～１９のいずれか１項に記載の方法。
シーケンスリードが、目的物の第１の領域および／または第２の領域内の１つまたは複数のエクソンおよびイントロンから得られ、イントロンが、エクソンの付近に存在する、請求項１～１９のいずれか１項に記載の方法。
シーケンスリードが、目的物の第１の領域および／または第２の領域と関連した１つまたは複数の臨床的に取り扱うことが可能な領域から得られる、請求項１～１９のいずれか１項に記載の方法。
目的物の第１の領域が遺伝子を含み、目的物の第２の領域が偽遺伝子を含む、請求項１～２４のいずれか１項に記載の方法。
目的物の第１の領域が偽遺伝子を含み、目的物の第２の領域が遺伝子を含む、請求項１～２４のいずれか１項に記載の方法。
目的物の第１の領域が、２つの対立遺伝子を含む、請求項１～２４のいずれか１項に記載の方法。
目的物の第２の領域が、２つの対立遺伝子を含む、請求項１～２４のいずれか１項に記載の方法。
遺伝子が、ＰＭＳ２である、請求項２５～２８のいずれか一項に記載の方法。
偽遺伝子が、ＰＭＳ２ＣＬである、請求項２５～２８のいずれか一項に記載の方法。
目的物の多数の部位が、対象のゲノムのＰＭＳ２のエクソンおよび別の部分のエクソン内に存在する、請求項１～３０のいずれか１項に記載の方法。
目的物の多数の部位は、ＰＭＳ２のエクソンおよびＰＭＳ２ＣＬのエクソン内に存在する、請求項１～３０のいずれか１項に記載の方法。
目的物の多数の部位が、ＰＭＳ２のエクソン１１、１２、１３、１４、および／または１５ならびにＰＭＳ２ＣＬのエクソン２、３、４、５、および／または６内に存在する、請求項１～３０のいずれか１項に記載の方法。
対象はヒトであり、シーケンスリードはヒト基準ゲノムに対してアラインされる、請求項１～３３のいずれか１項に記載の方法。
コンピュータにより実装される、請求項１～３４のいずれか１項に記載の方法。
請求項１～３５のいずれか１項に記載の方法を実施するためのコンピュータ実行可能命令を含む非一時的なコンピュータ可読記憶媒体。
（ａ）１つまたは複数のプロセッサー、
（ｂ）メモリ、および
（ｃ）１つまたは複数のプログラム
を含むシステムであって、１つまたは複数のプログラムが、メモリに記憶され、１つまたは複数のプロセッサーによって実行されるよう構成され、１つまたは複数のプログラムは、請求項１～３５のいずれか１項に記載の方法を実行するための命令を含む、前記システム。