JP2018502602A

JP2018502602A - 相同性の高い領域において遺伝子型を決定する方法

Info

Publication number: JP2018502602A
Application number: JP2017553050A
Authority: JP
Inventors: マジー，デール・エドワード; ロバートソン，アレクサンダー・デ・ジョン; エヴァンス，エリック・アンドリュー; マグワイア，ジャレッド・ロバート
Original assignee: カウンシル，インコーポレーテッド
Priority date: 2014-12-29
Filing date: 2015-12-28
Publication date: 2018-02-01
Also published as: US20210012859A1; AU2015374344A1; CA2970345A1; EP3289502A4; EP3289502A1; WO2016109364A1; CN107111693A; HK1243204A1; US20160188793A1; IL252793A0

Abstract

本明細書中に記載されているのは、対象のキャリア状態または遺伝子型を決定するための方法である。本明細書中に記載されているのは、ゲノム内の他の配列に対する相同性が極めて高い配列を有するゲノム遺伝子座の構造（例えば遺伝子型）を解明するために実験アプローチ及び計算アプローチを組合せた方法である。詳細には、対象におけるキャリア状態及び／または遺伝子のコピー数の決定には次世代シーケンシングが利用され、ここでこの遺伝子は対応する相同性の高い相同体、例えば遺伝子または偽遺伝子を有している。本明細書中に同様に記載されているのは、このような決定のためのコンピュータ援用方法である。【選択図】図１

Description

以下の開示は、概して、遺伝子型の決定、より具体的には、対応する相同性の高い相同体を有する１つの遺伝子と結びつけられる遺伝子型の決定に関する。

多くの疾病が、突然変異により不活性にされた遺伝子の結果としてもたらされる。したがって、このような突然変異を同定することが、臨床遺伝医学の基本的な最終目的である。多くの遺伝子について、これらの突然変異は、次世代シーケンシング（ＮＧＳ）データから比較的容易に発見できる。しかしながら、いくつかの重要かつ流行している疾患の対象である遺伝子サブセットについては、不活性化された遺伝子がゲノムの他の相同性部分により効果的に隠されていることから、これらの遺伝子を同定しその数を計数するのは、困難である。

他の（典型的に機能不全の）領域との相同性が高いゲノム領域の構造及び内容を解明するのは、たとえ高度なＮＧＳツールを用いても、並外れて困難なことである。残念なことに、これらの技術的障害は、これらの困難な領域の多くに疾病が関与していることから、極めて、解決がむずかしい。実際、これらの領域は機能不全領域と高い相同性を有することから、遺伝子の機能的コピーの数に影響を及ぼし得る遺伝子と相同体との間の頻繁な再配置が導かれる。

したがって、相同な相同体を有する１つの遺伝子に関する対象の遺伝子型及び／またはキャリア状態を検出し決定する必要性がなおも存在する。

相同性が極めて高い遺伝子及び相応する相同体についての遺伝子型の決定を可能にする現行の技術は、時間及び労働集約的でかつコストが高く、そのため、広範な臨床的用途のためには好適でない。

ここで開示される方法は、手頃でかつ高スループットで実践することができる。したがって、時間、労働及び費用の有意な節約をすることができる。さらに、この方法は、遺伝子またはその相同体に対するＮＧＳリードの一意的アライメントが難しくなっている領域内の構造／コピー数／遺伝子型を解明するという問題を克服するものである。重要なことに、これらの難しくなっている「非常に相同性の高い」領域は、（１）所与の実験におけるＮＧＳリードの長さ、及び（２）例えばＢＷＡなどのアライメントソフトウェアにより可能にされる不整合量という２つの特徴に基づくものである。

一態様において、本明細書中では、非常に相同性が高い相同体を有する問題の遺伝子に関して一個体のゲノム構造（すなわち遺伝子型）を決定するための方法が提供される。

一実施形態において、問題の遺伝子及びその相同体についての配列情報は、エクソンに向けられたプライマを用いている。一部の実施形態において、配列情報は、問題の遺伝子及び／または相同体のイントロンからである。一部の実施形態において、配列情報は、遺伝子間領域からである。

さらなる実施形態において、配列情報は次世代シーケンシング（ＮＧＳ）によって生成される。一部の実施形態において、ＮＧＳは、高深度全ゲノムショットガンシーケンシング（すなわち濃縮のためのプローブの使用無し）である。他の実施形態において、ＮＧＳは、ターゲットシーケンシング、例えばハイブリッド捕捉技術、マルチプレックスアンプリコン濃縮、またはシーケンシング反応のためにゲノムの特異的領域を濃縮する他の任意の手段である。一部の実施形態において、シーケンシングは、多重検定において行なわれる。

一実施形態において、遺伝子はＳＭＮ１であり、偽遺伝子はＳＭＮ２である。一実施形態において、ＳＭＮ１の改変されたコピー数の存在は、対象が脊髄性筋委縮症（ＳＭＡ）のキャリアであり得ることを標示している。

別の実施形態において、遺伝子はＣＹＰ２１Ａ２であり、偽遺伝子はＣＹＰ２１Ａ１Ｐである。一実施形態において、ＣＹＰ２１Ａ２の改変されたコピー数の存在は、対象が先天性副腎皮質過形成（ＣＡＨ）のキャリアであり得ることを標示している。

一実施形態において、遺伝子はＨＢＡ１であり、相同体はＨＢＡ２（またはその逆）である。一実施形態において、ＨＢＡ１またはＨＢＡ２のいずれかの改変されたコピー数の存在は、対象がアルファ地中海貧血のキャリアであり得ることを標示している。

さらなる実施形態において、遺伝子はＧＢＡであり、偽遺伝子はＧＢＡＰである。一実施形態において、ＧＢＡの改変されたコピー数の存在は、対象がゴーシェ病のキャリアであり得ることを標示している。

一実施形態において、遺伝子はＰＭＳ２であり、偽遺伝子はＰＭＳ２ＣＬかまたは複数の他の偽遺伝子のうちの１つかのいずれかである。２０１５年１２月の時点で１５個の偽遺伝子が存在していた。偽遺伝子は、ＰＭＳ２ＣＬとして公知の１３個の偽遺伝子から選択され得るが、これらに限定されず、１３個の偽遺伝子のうちの他の１２個は、ＰＭＳ２Ｐ１からＰＭＳ２Ｐ１２まで付番される。一実施形態において、改変されたコピー数及び／または遺伝子及び偽遺伝子の配向を改変する逆位（例えば遺伝子と偽遺伝子の部分を融合しこうして遺伝子の機能を脅かす逆位）の存在は、対象のリンチ症候群のリスクが増大していることを標示し得る。

一実施形態において、遺伝子は、複数の偽遺伝子を有するＣＨＥＫ２である。２０１４年１２月の時点で、７個の偽遺伝子が存在していた。偽遺伝子は、キュレーテッドデータベース内で列挙されたＣＨＥＫ２偽遺伝子から選択され得るが、これらに限定されない。一実施形態において、偽遺伝子との組換えから発生する突然変異、例えば偽遺伝子由来のフレームシフト突然変異の存在は、対象において、なかでも乳癌のリスクが増大していることを標示し得る。当該技術分野においては、７つの偽遺伝子のうちの１つだけが命名されていること、そしてリスクが主として１つの突然変異、１１００ｄｅｌＣと結びつけられるものであることは周知である。しかしながら、他の突然変異も同様に、疾病のリスクに寄与する。患者には、リーフラウメニ症候群及び他の遺伝性癌のリスクがある。

一態様においては、本明細書中に記載されている方法を実施するための命令を実行するように構成されたコンピュータシステムが提供されている。

本発明の他の目的、特徴及び利点は、以下の詳細な説明から明らかになる。ただし、この詳細な説明から当業者には本発明の範囲及び精神の枠内に入るさまざまな変更及び修正が明らかになるものであるため、詳細な説明及び具体的実施例は、本発明の好ましい実施形態を標示しているものの、単に例示のために提供されているにすぎないということを理解すべきである。

遺伝子及びその相同体（例えば偽遺伝子の場合の機能不全相同体）のさまざまなゲノム構造を例示する。「正常な」試料中には、各々遺伝子及びその相同体の２つのコピーが存在する。相同体を伴う多くの遺伝子について（実際、ゴーシェ病、脊髄性筋萎縮症（「ＳＭＡ」）、先天性副腎皮質過形成（「ＣＡＨ」）、及びアルファ地中海貧血の基礎にある遺伝子ならびにさまざまな癌に関係づけられる複数の遺伝子について）、遺伝子と相同体は、染色体上で互いに比較的近傍にある。遺伝子及び／または相同体の「欠失または複製」を受けた染色体のいくつかの例が示されている。遺伝子と相同体の間の組換えは、一部「遺伝子」であり一部「相同体」である「融合」遺伝子を生み出すことができる。最終的に、遺伝子と相同体の間の配列の「相互交換」が比較的頻繁に起こる。本明細書中に記載の方法の流れ図である。本発明のさまざまな実施形態が動作し得る例示的システム及び環境を示す。例示的計算システムを示す。ＳＭＮ１とＳＭＮ２のコピー数（「ＣＮ」）のグラフである。１０，０００個の試料について、我々は、本明細書中に記載のシーケンシングデータ及びＣＮ解析を使用して、ＳＭＮ１及びＳＭＮ２の試料のＣＮを計算し、次にこれらの値を散布図内でそれぞれｘ及びｙ座標として使用した。ＣＮ（ＳＭＮ１）、すなわち各試料のＳＭＮ１のコピー数は、直交ｑＰＣＲベースの検定によって立証された。すなわち、この検定により１、２または３つのコピーを有すると決定された試料は、それぞれ円、三角形及び正方形で標示される。ＣＮ（ＳＭＮ１）＝１及びＣＮ（ＳＭＮ１）＝２を伴う点の間のシーケンシングデータ内に非常に明確な分離が存在することに留意されたい。実際、ＣＮ（ＳＭＮ１）のカットオフ＝１．４を用いてＳＭＮ１のコピーを１つまたは２つのいずれかの数を有するものとして試料を分類した場合、我々のシーケンシングベースのＣＮ解析は、いかなる偽陽性も偽陰性も生み出さない。他の特筆すべき特徴またはプロットとしては、以下のものが含まれる：（１）最高の点密度は、遺伝子座の正常な配置である（２，２）近くにある：（２）しかしながら、多くの試料が（２，２）から遠く離れており、これはＳＭＮ１とＳＭＮ２の間の高頻度の変換／欠失／複製と一致する。ＧＢＡ及びＧＢＡＰについての２つのコピー数グラフを示す。２つの単一の患者の試料について、ＧＢＡ及びその相同体／偽遺伝子ＧＢＡＰのＣＮ値が、５’から３’まで（左から右へ）配置された９個の異なる部位においてプロットされている。上の試料（Ａ）は、ＧＢＡ及びＧＢＡＰの両方の２つのコピーを有することから正常である。しかしながら、下の試料（Ｂ）は、「相互交換」事象を受け、ここで１つのＧＢＡＰコピーの３’末端は、ＧＢＡ由来の配列を獲得している。ＨＢＡ１及びＨＢＡ２についてのコピー数グラフである。プロットは、ＨＢＡ２及びＨＢＡ１を取り囲みこれらを含む部域内の、４８個の患者試料についてのＣＮ値を示す。太線は、図の右側のほぼ全体にわたるその信号降下のため、単一の染色体の大きなセグメントが欠失している単一の試料を示す。予期した通り、大部分の試料は、ＣＮ＝２を有する。３つの試料は、Ｚ１領域とＺ２領域の間に発生する短い欠失を有する。ＣＹＰ２１Ａ２遺伝子とその相同体ＣＹＰ２１Ａ１Ｐ内で使用される各プローブについてのコピー数を示すグラフである。プロットは、（ＣＡＨに影響を及ぼす）遺伝子ＣＹＰ２１Ａ２（Ａ；左）及びその偽遺伝子ＣＹＰ２１Ａ１Ｐ（Ｂ；右）内における、４８個の患者試料についてのＣＮ値を示す。ｘ軸上の各位置は、５’から３’まで配置された遺伝子内の異なる部位である。３つの太いトレースは、左側の遺伝子プロット内の約１及び約０というそれらのＣＮ値のため、遺伝子のコピーの１つを切除する融合事象を受けたことが分かっている試料である。ＣＹＰ２１Ａ２及びＣＹＰ２１Ａ１Ｐは、推移全体を通して多大な相互交換／融合／複製を受けており、このような理由から、上述のプロットにおけるそれらのトレースは、ゴーシェ病（図６）及びアルファ地中海貧血（図７）についての先行図におけるＣＮトレースに比べてさらにギザギザになっている。本明細書中に記載のＣＮ解析方法の主要な最終目的の１つが、機能的遺伝子コピー（すなわちこの場合はＣＹＰ２１Ａ２）の数を決定したい、ということにあるという点に留意されたい。したがって、我々は、第１に５’末端の近傍の部位を検査し、ＣＮ（ＣＹＰ２１Ａ２）を解明するためにその平均値を使用する。次に、我々は、どんなタイプの再構成が発生したかを判定するためにトレース全体（すなわち３’末端を含む）を考慮する。試料データがどのようにして、生のリード計数値からコピー数シフトについて解釈され得る値へと処理された状態となるのかを例示する図である。ここで示されているのは、本明細書中で以下に説明されている６個のステップ及び５個の例示的表（ａ、ｂ、ｃ、ｄ及びｅと呼称される）である。本特許の複製には少なくとも１つのカラー図面が入っている。

カラー図面（複数可）を伴う本特許または特許公報のファイルは、要請を行い必要な費用を支払った時点で特許庁から入手可能である。

本発明についてここで、以下の定義及び実施例を用いて、単なる参考として詳述する。本明細書中で言及されている特許及び特許公報中で開示される全ての配列を含めて、全ての特許及び特許公報は、明示的に参照により組込まれる。

本明細書中に別段の定義のない限り、本明細書中で使用される全ての技術的及び科学的用語は、本発明が属する技術分野の当業者により一般に理解されるものと同じ意味を有する。Ｓｉｎｇｌｅｔｏｎら、ＤｉｃｔｉｏｎａｒｙｏｆＭｉｃｒｏｂｉｏｌｏｇｙａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ、第２版、ＪｏｈｎＷｉｌｅｙａｎｄＳｏｎｓ、ＮｅｗＹｏｒｋ（１９９４）、およびＨａｌｅ＆Ｍａｒｈａｍ、ＴｈｅＨａｒｐｅｒＣｏｌｌｉｎｓＤｉｃｔｉｏｎａｒｙｏｆＢｉｏｌｏｇｙ、ＨａｒｐｅｒＰｅｒｅｎｎｉａｌ、ＮＹ（１９９１）は、当業者に対し、本発明において使用される用語の多くの一般的辞書を提供している。本明細書中に記載のものと同様のまたは同等のあらゆる方法及び材料を本発明の実践または試験において使用することができるが、好ましい方法及び材料が説明されている。実施者らは、当該技術分野の定義または用語について、特にＳａｍｂｒｏｏｋら、１９８９、およびＡｕｓｕｂｅｌＦＭら、１９９３を参照されたい。記載されている特定の方法、プロトコル及び試薬は変動し得ることから、本発明はこれらに限定されないということを理解すべきである。

数値範囲は、その範囲を定義する数字を包括するものである。「約」なる用語は、本明細書において、１つの値のプラスマイナス１０パーセント（１０％）を意味するものとして使用される。例えば、「約１００」というのは、９０〜１１０の間の任意の数を意味する。

別段の指示がない限り、核酸は、５’から３’の配向で左から右に記され、アミノ酸配列は、それぞれアミノからカルボキシへの配向で左から右へ記される。

本明細書中で提供されている見出しは、明細書全体を参照することにより得ることのできる本発明のさまざまな態様または実施形態の限定ではない。したがって、直下で定義する用語は、明細書全体を参照することによって、より完全に定義づけされる。

定義
本明細書中で使用される「精製された」なる用語は、１つの分子が、当該分子を含有する試料の重量の少なくとも９５％または少なくとも９８％の濃度でこの試料中に存在することを意味する。

「単離された」分子とは、例えば天然の環境内で元来結びつけられている少なくとも１つの他の分子から分離されている核酸分子のことである。単離された核酸分子は、通常該核酸分子を発現する細胞が格納する核酸分子を含むが、核酸分子は染色体外に存在するか、またはその染色体位置とは異なる染色体位置に存在する。

「相同性％」なる用語は、本明細書において、「同一性％」なる用語と互換的に使用され、配列アライメントプログラムを用いて整列された場合に、発明力あるポリペプチドのいずれか１つをコードする核酸配列または発明力あるポリペプチドのアミノ酸配列の間の核酸またはアミノ酸配列の同一性のレベルを意味する。核酸の場合、この用語は同様に、イントロン及び／または遺伝子間領域にも適用される。

例えば、本明細書中で使用される通り、８０％の相同性は、明確なアルゴリズムによって決定される８０％の配列同一性と同じことを意味し、したがって、所与の配列の相同体は、所与の配列の長さ全体にわたり８０％超の配列同一性を有する。配列同一性の例示的レベルは、所与の配列、例えば本明細書中に記載されている発明力あるポリペプチドのいずれか１つについてのコーディング配列に対する、８０、８５、９０、９５、９８％またはそれ以上の配列同一性を含むが、これらに限定されない。

２つの配列間の同一性を決定するために使用可能な例示的コンピュータプログラムとしては、一連のＢＬＡＳＴプログラム、例えばインターネット上で公的に入手可能なＢＬＡＳＴＮ、ＢＬＡＳＴＸ、及びＴＢＬＡＳＴＸ、ＢＬＡＳＴＰ及びＴＢＬＡＳＴＮ、及びＢＬＡＴが含まれるが、これに限定されない。Ａｌｔｓｃｈｕｌら、１９９０及びＡｌｔｓｃｈｕｌら、１９９７も同様に参照のこと。

ＧｅｎＢａｎｋＤＮＡＳｅｑｕｅｎｃｅｓ及び他の公開データベース内の核酸配列に関連する所与の核酸配列を評価する場合、配列検索は、典型的にＢＬＡＳＴＮプログラムを用いて実施される。ＢＬＡＳＴＸプログラムは、ＧｅｎＢａｎｋＰｒｏｔｅｉｎＳｅｑｕｅｎｃｅｓ及び他の公開データベース内のアミノ酸配列に対して全てのリード枠内で翻訳された核酸配列を検索するために、選好される。ＢＬＡＳＴＮ及びＢＬＡＳＴＸは両方共、１１．０のオープンギャップペナルティ及び１．０の拡張ギャップペナルティのデフォルトパラメータを用いて実行され、ＢＬＯＳＵＭ−６２マトリクスを利用する（例えばＡｌｔｓｃｈｕｌ、Ｓ．Ｆ．ら、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２５：３３８９〜３４０２、１９９７）を参照のこと）。

２つ以上の配列間の「同一性％」を決定するための選択された配列の好ましいアライメントは、例えば１０．０のオープンギャップペナルティ、０．１の拡張ギャップペナルティ及びＢＬＯＳＵＭ３０類似性マトリクスを含めたデフォルトパラメータで動作させられるＭａｃＶｅｃｔｏｒバージョン１３．０．７内のＣＬＵＳＴＡＬ−Ｗプログラムなどを用いて行なわれる。

本明細書中で使用される「極めて相同性の高い」なる用語は、遺伝子と対応する相同体との間の相同性が、ＮＧＳリード長に対応する長さをもつ領域全体にわたって９０％超であることを意味する。したがって、遺伝子及びその相同体は、遺伝子内の任意の領域が相同体に対して極めて高い相同性を有する場合、「極めて相同性の高い」ものとして言及される。ＮＧＳリード長は、３０ｎｔ〜４００ｎｔ、５０ｎｔ〜２５０ｎｔ、５０ｎｔ〜１５０ｎｔ、または１００ｎｔ〜２００ｎｔの範囲内にあり得る。重要なことに、１つの遺伝子が相同体を有すると称されるためには、遺伝子の配列全体が「極めて相同性の高い」ものである必要はなく、その遺伝子内の１つの領域が極めて相同性の高いものであることしか求められない。

本明細書中で使用される「相同体」なる用語は、対象のゲノム内の他の場所にある問題の遺伝子と同一であるかまたはほぼ同一であるＤＮＡ配列を意味する。相同体は、別の遺伝子、「偽遺伝子」または遺伝子の一部ではない配列セグメントのいずれかであり得る。

本明細書中で使用される「突然変異」なる用語は、個体間、または個体の配列と基準配列との間の変異を非限定的に含めた、自然変異及び遺伝性配列変異の両方を意味する。例示的突然変異には、ＳＮＰ、インデル、コピー数変異体、逆位、転座、染色体融合などが含まれるが、これに限定されない。

本明細書中で使用される偽遺伝子とは、ＤＮＡ配列内の１つの遺伝子に酷似するものの、それを機能不全にする少なくとも１つの変化を有するＤＮＡ配列である。この変化は、単一の残基突然変異であり得る。この変化は、スプライス変異体を結果としてもたらし得る。この変化は、翻訳の早期終結を結果としてもたらし得る。偽遺伝子は、機能的遺伝子の機能不全相対物である。偽遺伝子は、公知の遺伝子（すなわち問題の遺伝子）に対する相同性と非機能性の組合せによって特徴づけられる。

遺伝子についての偽遺伝子の数は、本明細書中で列挙されたものに限定されない。偽遺伝子は増々認知されている。したがって、当業者であれば、１つの配列が偽遺伝子であるか否かを、配列の相同性に基づいてまたは例えばＧｅｎｅＣａｒｄｓ（ｇｅｎｅｃａｒｄｓ．ｏｒｇ）、ｐｓｅｕｄｏｇｅｎｅｓ．ｏｒｇなどのキュレーテッドデータベースを参照することによって決定することができると考えられる。

本明細書中で使用されている「問題の遺伝子」とは、機能的コピーの数を決定することが望まれている遺伝子のことである。概して、問題の遺伝子は、問題の遺伝子のコピーを各々有する２つの染色体に起因して２つの機能的コピーを有する。「問題の遺伝子」及び「遺伝子」なる用語は、本明細書において互換的に使用されてよい。

プロセス
問題の領域に由来する配列は、可能な場合、ハイブリッド捕捉プローブまたはＰＣＲプライマを用いて濃縮されており、これらのプローブまたはプライマは、捕捉されシーケンシングされたフラグメントが、遺伝子をその相同体（複数可）と識別する少なくとも１つの配列を格納するような形で設計されなければならない。例えば、ハイブリッド捕捉プローブは、遺伝子と相同体（複数可）／偽遺伝子（複数可）の間で異なるものであるいくつかの塩基（「ｄｉｆｆ塩基」）に隣接してアニーリングするように設計され得る。このような識別配列が希少である場合、各々の特定のプローブの配列に固有のバイアス効果を削減するために、識別可能なフラグメントを捕捉するのに多数のプローブを使用しなければならない。ターゲットシーケンシングを達成するための手段としてのハイブリッド捕捉の代替として、アンプリコンシーケンシングを使用することができる。ターゲットシーケンシングの代替として、高深度全ゲノムシーケンシングを使用することができる。ＮＧＳ、マイクロアレイまたは他の任意の高スループットの定量的分子生物学技術のいずれであれ、特定のゲノム領域の用量を反映する任意の高スループット定量的データを使用してよい。

遺伝子または相同体由来の塩基を担持するＮＧＳ配列リードの存在度は、正常（ＣＮ＝２）と突然変異体個体（ＣＮ≠２）との間の識別を可能にする。しかしながら、２つの同一の遺伝子の正常な組合せＣＮが４であり、いずれの遺伝子内の欠失も３以下の集合的ＣＮを導く場合、ＨＢＡ１及びＨＢＡ２の場合と同様、遺伝子を相同体と識別できない配列リードからでさえ、追加の有用な情報に到達することができる。原則として、本明細書中に記載のＣＮ解析は、高深度全ゲノムショットガンシーケンシングにも適用可能であると考えられる（すなわち濃縮のためのプローブの使用無し）。

大まかに言うと、一実施例において、１領域についてのコールを生成するために、図２中でプロセス１０として例示されている以下のプロセスが行なわれる。最初に、１２において、問題の配列を得る。例えばコールの領域と（または決定的にはその相同体（複数可）の領域（複数可）において）重複するＢａｍファイルから、リードを収集することができる。これらのリードを次に、それらに結びつけられたソフトクリッピング情報を用いて、クリップすることができる。アライナーからの捕足情報、例えば塩基−塩基アライメント情報を次に廃棄することができ、リードは単に塩基の配列となる。（一部の実施例においては、マッピング品質に基づくフィルタリングを任意に行なうことができる）。

識別を行なう塩基（複数可）の存在に基づく遺伝子または相同体（複数可）にリードをパーティショニングする。このパーティショニングプロセスにおいて活用される識別塩基（複数可）は、特定の問題の遺伝子によって左右される。さらに、パーティショニングは、ここでも特定の利用分野に基づいて、所与のリードにおいて識別塩基のサブセットのみを使用し得る。ハイブリッド捕捉プローブ配列自体がシーケンシングされたフラグメントの一部となる一実施形態において、ハイブリッド捕捉プローブは、識別塩基が対合末端リードの１つの末端の終端またはその近くに来るように設計される。例えば、このような場合には、ハイブリッド捕捉プローブは例えば３９塩基の長さを有するが、シーケンサーは捕捉されたフラグメントから４０個の塩基を読み取る。プローブは、４０番目の塩基が識別塩基であり、こうして全リード（すなわち対合末端リードの両方の末端）を４０位の塩基に基づいて遺伝子または相同体（複数可）にパーティショニングすることが可能になる。上述の実施例における精確な数字（すなわち３９及び４０）は、変化し得、かつ類似の結果を生み出すことができる。原則として、プローブは、１０ｂｐという短いものでも、または１０００ｂｐといった長いものでもあり得るが、２０ｂｐ〜１００ｂｐの範囲内の長さが最も一般的である。以上のもののようにプローブがシーケンシングされたフラグメントの一部となっている実施形態においては、シーケンサーは、少なくとも１ｂｐだけプローブの長さを超えて読み取らなければならない。しかしながら、捕捉されたフラグメントが単独で、リードを遺伝子または相同体に適切にパーティショニングするのに充分な識別塩基を格納している実施形態においては、シーケンシングは必ずしもプローブの長さを超えて拡張する必要はない。

実験データの例示的処理が、図９に示されている。ここで示されているのは、（１つのイルミナフローセルを用いた）単一の実験に由来するデータを伴う表からの抜粋である。各行は１つの試料である。典型的に、単一の実験において４８または９６個の試料が処理される（すなわち試験される）（すなわち、「Ｓａｍｐｌｅｘ」＝「Ｓａｍｐｌｅ９６」）が、解析は、より多くのまたは少ない試料についても有効である。解析は、特に疾患に結びつけられる遺伝子において、コピー数の突然変異が比較的稀であるという事実を、強力に活用する。こうして、大部分の試料は、各部位において野生型コピー数（「ＣＮ」）（すなわちＣＮ＝２）を有することが予期される。

図９、表ａに示されている通り、部位は、試験部位（例えば、「ＴＳ１」、「ＴＳ２」など）と対照部位（例えば「ＣＳ１」、「ＣＳ２」など）にパーティショニングされ得る。試験部位（ＴＳ）対対照部位（ＣＳ）の構文解析は、検定に左右される。例えば、ゴーシェ病の検定においては、ＴＳ’は、ＧＢＡまたはＧＢＡＰ内の部位であり、ＣＳ’は、ＧＢＡでもＧＢＡＰでもないデータがあるゲノム内の任意の部位を含む。別の実施例として、ＳＭＡ試験の場合、２つのＴＳ部位（ＳＭＮ１についてのものとＳＭＮ２についてのもの）しか存在しない。典型的には、各実験について数百のＣＳ’が存在する。ＣＮ解析が孤立して行なわれる場合、少なくとも１０個のＣＳ’を使用しなければならず、５０個以上が好ましい（基本的に、図９、表ｂで見ていくように、中央値のロバストな測定を得るために充分な部位が必要である）。

次のステップは、図９、表ｂに描かれており、ここでは、ＣＳ生リードについての中央値が計算されている。表中の各セルが、整数値の生リードかまたは、リード数の調整がＧＣコンテンツに起因するシーケンシングバイアスなどの要因を考慮する場合には調整されたリードの浮動点数、のいずれかを格納し得る、という点に留意されたい。これらの値がＣＮ＝２を有するというのが我々の当初の仮定であることから、これがＣＳ’を関与させることにすぎないということに留意されたい。この時点でＴＳ’を含み入れることで、行の試料がＣＮ突然変異を有し、ＴＳ’がＣＳ’の数を上回る場合、所与の行の中央値は歪曲され得る。算術平均（ａｖｅｒａｇｅ）を表わすために平均（ｍｅａｎ）を使用することとは異なり、中央値は、シーケンシングデータ内に広く存在する異常リードに対しロバストである。しかしながら、中央値の優れた表現を得るためには少なくとも１０個のＣＳ’を有していなければならない。このステップは、以下の等式によって効率的に行なわれる。
式中、ｒ_ｉ、ｊは、部位ｊにおける試料ｉ内の生リードの数である。中央値は、ＣＳ部位のセット内にある全ての部位ｊにわたり評価される。ｘ_ｉ、ｊは、部位ｊにおける試料ｉについての「試料正規化深度値」であり、ｘ_ｉ、ｊは、ＣＳ及びＴＳの両方において全ての部位ｊについて計算される。

図９中に提供されている通り、表ａ中の各セルについての値は、表ｂ中のセルの列についての対応する値により除され、商は表ｃに書込まれる。ここで一つの行を横断する算術平均値は約１である。しかしながら、我々のデータ解釈に間違いを発生させ得るデータ収集における部位特異的バイアスが存在することから、さらなる正規化が必要とされる。例えば、ＴＳｘ列内の値がＴＳ１またはＴＳ２内の値よりもいかに系統的に低いものであるかに留意されたい。ＴＳｘにおけるこの降下が全ての試料のＣＮ変化を反映しているということは信じ難いことであるため（特に、ＣＮ変動が稀であり、したがってこのような変動が全ての試料内にあるとは思えないと予期されることから）、この系統的バイアスを除去するために、さらなる正規化が行なわれる（図９、表ｂ中）。

正規化は、各列を下方に中央値を計算することで始まる。これは、図９、表ｄに示されているように、ＴＳ及びＣＳの両方の列について行なわれる。その後、図９、表ｅに示されている通り、表ｃ中の各セルについての値を、表ｄ中のセルの列についての対応する値で除し、次に、商に２を乗じ、最後に積を表ｅに書込む。算術平均による除算は１前後を中心にする正規化値を提供することから、商を２でスケーリングするが、この正規化値は、生物学的に正常な２というＣＮに対応することが分かっている。このステップは、以下の等式により効率良く行なわれる：
式中、ｘ_ｉ、ｊは、以上からの「試料正規化深度値」である。中央値は、部位ｊについて全ての試料にわたり計算される。ＣＮ_ｉ、ｊは、試料ｉ内の部位ｊのコピー数の十進近似である。ゲノム中の配列のコピー数は、整数値であることから、各ＣＮ_ｉ、ｊをその最も近い整数値に四捨五入することができ、コールの信頼性を、本明細書中に記載の通りに計算することができる。

直ぐ上の等式で表わされた最終正規化ステップは、ＣＮが極めて可変的である（すなわち小さい多数派の、さらには少数派の試料でさえＣＮ＝２を有する）ＴＳ’のために修正可能であるという点に留意されたい。例えば、図８の右側プロットにおいて、大部分の試料は、ＴＳ’「ＷＬ５、Ｂ０８」及び「ＷＬ５、Ｂ０９」について（ＣＮ＝２ではなく）ＣＮ＝０を有する。我々は、ＳＭＡ（図５）及びＣＡＨ（図８）の解析において、このようなＴＳ’に遭遇した。これらの困難なＴＳ’におけるＣＮ値は、経験的に観察されたデータに対して（経験的に予期される整数ＣＮ値、例えば０、１、２及び３でのモードを用いて）マルチモーダルガウス分布の最良の最小二乗偏差適合を発見することによって決定され得る。このとき、各試料についてのＣＮ値は、最良適合分布の整数モードまでの最短距離を発見することによって決定することができる。

最終ステップは、データの解釈である。各疾病（先天性副腎皮質過形成（ＣＡＨ）、脊髄性筋萎縮症（ＳＭＡ）、ゴーシェ病及びアルファ地中海貧血）について、我々は、ＣＮ信号が２から偏向する隣接するＴＳ’を探している。図９中の「試料１」が、２を中心とするＣＮ値を有する他の試料と異なり、１前後でほとんど変わらないＣＮ値を有する、という点に留意されたい。これらのデータは、ＣＮをＴＳ’において２から１へと低下させたＣＮ突然変異を試料１が有していることを示唆している。ＣＳ’における試料１のＣＮ値が約２であり、解析が妥当であった（すなわち信じがたいことであるが、試料がゲノムの至る所でＣＮ突然変異を有するという主張を行なっていない）ことを示唆しているのを知るのは、心強いものである。

本明細書中に記載のＣＮ解析が、相同体を伴う遺伝子内の臨床的に関連性のある他のタイプの突然変異を発見するための重要な上流側ステップであることは、注目に値する。例えば、ＣＮ変異体（図１に図示）に加えて、単一ヌクレオチド多型（ＳＮＰ）も同様に、遺伝子を破壊し、機能不全にし得る。ＳＮＰを認識するための標準的ソフトウェアは、パラメータとしてＣＮを使用し、ここで、ＳＮＰを担持するリードの予期される分数は１／ＣＮである。ゲノムの大部分はＣＮ＝２を有することから、ＳＮＰ発見ソフトウェアは、リードの２分の１が１つの塩基（例えばＣ）を格納し、もう一方の２分の１が異なる塩基（例えばＴ）を有する場合、デフォルトでＳＮＰとして部位を同定する。しかしながら、ＣＮ変動を伴う領域については、ＳＮＰを担持するリードの予期された分数は、ＣＮ＝１について１、ＣＮ＝３については１／３等々であり得る。危ういことに、本明細書中に記載のもののようなＣＮ解析の不在下では、ＳＮＰとＣＮ＝３の両方を有する対象は、データ内のその表現（すなわち１／３）が単純に予期される分数（すなわち１／２）より小さいことから、同定されたＳＮＰを有さない可能性がある。したがって、本明細書中で我々が説明しているアプローチは、ＣＮに関して遺伝子型を解明するためのみならず、ＳＮＰ及び短かい挿入／欠失（「インデル」）などの他の突然変異を発見するという観点からも重要である。

我々は、所与の試験のために多数のＴＳ’を典型的に有していることから、Ｚスコアを用いて、我々のＣＮ決定における信頼性を査定することができる。使用し得るステップは以下の通りである：
ａ．各々のＴＳ列について四分位範囲（「ＩＱＲ」）を計算する。ＩＱＲは、７５番目と２５番目のパーセンタイル値の間の差である。正規分布統計を仮定して、約１．３３で除することによって、ＩＱＲを標準偏差（「ＳＤ」）に変換する。ＩＱＲは異常値に対する感応性をもたず、一方ＳＤは異常値と共に激しくシフトし得ることから、ＳＤの発見までの中間ステップとしてＩＱＲを使用する。異常値に対するこの注意は、ＣＮ突然変異を伴う希少な試料が事実上各列内の異常値であることから、特に重要である。
ｂ．各々のＴＳ列についてＳＤを入手した状態で、次に、仮説（すなわちＣＮ＝１、ＣＮ＝２など）を列挙し、各々の仮説について、我々の観察したＣＮ値が仮説的ＣＮ値からＳＤ’何個分だけ離れているかを決定する（仮定された算術平均値からのこのＳＤ’値は、ｚスコアである）。次にｚスコアを確率に変換することができ、これにより我々はデータを考慮して仮説の尤度を査定することができる。各部位を独立した観察として処理して、各ＴＳについての確率の積として、多くのＴＳ’を横断した確率を計算する。我々の信頼性スコアは、事実上、対数オッズスコアであり、ここで最高確率仮説の確率を２番目に高い確率仮説の確率で除し、その後この商のｌｏｇ１０を取る。

当業者であれば、異常値に感応せずデータの標準偏差の近似を生み出す他の統計的アプローチを使用してもよいということを認識するものである。類似のコピー数の範囲（例えば大きな欠失と一貫性あるＣＮ＝１を伴う一連の隣接する部位）は、監視された形で（例えば目で、または公知のまたは仮説上の組換え部位に対するマッチングによって）、または無監視下で（例えば隠れマルコフモデルを用いて）同定可能である。

例示的アーキテクチャ及び処理環境
本明細書中に記載のシステム及びプロセスの一部の態様及び実施例が動作し得る例示的環境及びシステム。図３に示されているように、一部の実施例において、システムは、クライアントサーバーモデルにしたがって実装可能である。システムは、ユーザーデバイス１０２上で実行されるクライアントサイドの部分と、サーバーシステム１１０上で実行されるサーバーサイド部分とを含むことができる。ユーザーデバイス１０２は、任意の電子デバイス、例えばデスクトップ型コンピュータ、ラップトップ型コンピュータ、タブレット型コンピュータ、ＰＤＡ、携帯電話（例えばスマートホン）などを含むことができる。

ユーザーデバイス１０２は、インターネット、イントラネットまたは他の任意の有線または無線のパブリックネットワークまたはプライベートネットワークを含むことのできる、１つ以上のネットワーク１０８を通して、サーバーシステム１１０と通信できる。ユーザーデバイス１０２上の例示的システムのクライアントサイド部分は、クライアントサイドの機能性、例えばユーザー対面入力及び出力処理及びサーバーシステム１１０との通信を提供する。サーバーシステム１１０は、それぞれのユーザーデバイス１０２上に常駐する任意の数のクライアントのためにサーバーサイドの機能性を提供できる。さらに、サーバーシステム１１０は、クライアント対面Ｉ／Ｏインターフェース１２２、１つ以上の処理モジュール１１８、データ及びモデル記憶装置１２０、及び外部サービスに対するＩ／Ｏインターフェース１１６を含み得る１つ以上の発信者サーバー１１４を含むことができる。クライアント対面Ｉ／Ｏインターフェース１２２は、発信者サーバー１１４のためのクライアント対面入力及び出力処理を容易にすることができる。１つ以上の処理モジュール１１８は、本明細書中に記載の通りのさまざまな問題及び候補のスコアリングモデルを含むことができる。一部の実施例では、発信者サーバー１１４は、タスク完了または情報取得のためのネットワーク（複数可）１０８を通してテキスト・データベース、加入サービス、政府記録サービスなどの外部サービス１２４と通信することができる。外部サービス１１６のためのＩ／Ｏインターフェースは、このような通信を容易にすることができる。

サーバーシステム１１０は、１つ以上の独立型データ処理デバイスまたは分散型コンピュータネットワーク上で実装可能である。一部の実施例において、サーバーシステム１１０は、第３者サービスプロバイダ（例えば第３者クラウドサービスプロバイダ）のさまざまな仮想デバイス及び／またはサービスを利用して、サーバーシステム１１０の基本的な計算リソース及び／またはインフラストラクチャリソースを提供することができる。

発信者サーバー１１４の機能性は、クライアントサイド部分とサーバーサイド部分の両方を含むものとして図３に示されているが、一部の実施例においては、本明細書中に記載の或る種の機能（例えば、ユーザーインターフェースフィーチャ及びグラフィック要素に関するもの）を、ユーザーデバイス上にインストールされた独立型アプリケーションとして実装することができる。さらに、システムのクライアント及びサーバー部分の間の機能性の分割は、異なる実施例において変動し得る。例えば、一部の実施例において、ユーザーデバイス１０２上で実行されるクライアントは、ユーザー対面入力及び出力処理機能のみを提供しシステムの他の機能性を全てバックエンドサーバーに委託するシン・クライアントである。

サーバーシステム１１０及びクライアント１０２がさらに、例えば処理ユニット、メモリ（本明細書中に記載の機能の一部または全てを行なうための論理またはソフトウェアを含み得る）、及び通信インターフェースならびに他の従来のコンピュータコンポーネント（例えばキーボード／タッチスクリーンなどの入力デバイス及びディスプレーなどの出力デバイス）を有するさまざまなタイプのコンピュータデバイスのうちのいずれか１つを含み得るという点を指摘しておかなければならない。さらに、サーバーシステム１１０及びクライアント１０２の一方または両方は、概して、論理（例えばｈｔｔｐウェブサーバー論理）を含むかまたは、ローカルもしくはリモートデータベースまたは他のデータ及びコンテンツソースからアクセスされてデータをフォーマティングするようにプログラミングされている。この目的で、サーバーシステム１１０は、情報を提示しクライアント１０２からの入力を受信するため、共通ゲートウェイインターフェース（ＣＧＩ）プロトコル及び付随するアプリケーション（または「スクリプト」）、Ｊａｖａ（登録商標）「サーブレット」、すなわちサーバーシステム１１０上で実行するＪａｖａ（登録商標）のアプリケーションなどのさまざまなウェブデータインターフェース技術を利用し得る。サーバーシステム１１０は、本明細書中では単数で記載されているものの、実際には、本明細書中に記載の機能の一部または全てを行なうために（有線及び／または無線で）通信し協働する複数のコンピュータ、デバイス、データベース、付随するバックエンドデバイスなどを含んでいてよい。サーバーシステム１１０はさらに、アカウントサーバー（例えばＥメールサーバー）、モバイルサーバー、メディアサーバーなどを含むかまたはこれらと通信してもよい。

さらに、本明細書中に記載の例示的方法及びシステムは、さまざまな機能を行なうための別個のサーバー及びデータベースシステムの使用を説明しているが、説明されている機能性が行なわれる限り、設計上の選択の問題として単一のデバイスまたは多数のデバイスを任意に組合せることによって、説明された機能をひき起こすように動作するソフトウェアまたはプログラミングを記憶することによって、他の実施形態を実装することが可能である、ということを指摘しておかなければならない。同様にして、説明されたデータベースシステムを、単一のデータベース、分散型データベース、分散型データベースのコレクション、オンラインもしくはオフラインバックアップまたは他の冗長性を伴うデータベースなどとして実装することも可能であり、分散型データベースまたは記憶装置ネットワーク及び付随するプロセッシングインテリジェントを含むことができる。図には描かれていないものの、サーバーシステム１１０（及び本明細書中に記載されている他のサーバー及びサービス）は概して、非限定的にプロセッサ、ＲＡＭ、ＲＯＭ、クロック、ハードウェアドライバ、付随する記憶装置などを含めた、サーバーシステム内に通常見出されるような当該技術分野において承認されている構成要素を含む（例えば、以下で論述する図４を参照のこと）。さらに、説明されている機能及び論理を、ソフトウェア、ハードウェア、ファームウェアまたはそれらの組合せの中に含み入れてもよい。

図４は、さまざまなコール及びスコアリングモデルを含め、上述のプロセスのいずれか１つを行なうように構成された例示的計算システム６００を描いている。この状況において、システム６００は、例えば、プロセッサ、メモリ、記憶装置及び入出力デバイス（例えばモニター、キーボード、ディスクドライブ、インターネット接続など）を含んでいてよい。しかしながら、計算システム６００は、プロセスの一部のまたは全ての態様を実施するための回路または他の専用ハードウェアを含み得る。一部の動作環境内では、計算システム６００は、各々がソフトウェア、ハードウェアまたはそれらのいくつかの組合せのいずれかにおいてプロセスの一部の態様を実施するように構成されている、１つ以上のユニットを含むシステムとして構成され得る。

図４は、上述のプロセスを行なうために使用されてよい一定数の構成要素を伴う計算システム６００を描いている。主要システム１４０２は、入出力（「Ｉ／Ｏ」）セクション１４０６、１つ以上の中央処理ユニット（「ＣＰＵ」）１４０８、及び関連したフラッシュメモリカード１４１２を有し得るメモリセクション１４１０を有するマザーボード１４０４を含む。Ｉ／Ｏセクション１４０６は、ディスプレー１４２４、キーボード１４１４、ディスク記憶ユニット１４１６、及びメディアドライブユニット１４１８に接続されている。メディアドライブユニット１４１８は、プログラム１４２２及び／またはデータを格納できるコンピュータ可読媒体１４２０の読出し／書込みを行なうことができる。

上述のプロセスの結果として得られた少なくともいくつかの値は、その後の使用のために保存可能である。さらに、コンピュータを用いて上述のプロセスのうちのいずれか１つを行なうための１つ以上のコンピュータプログラムを記憶（例えば明白に具体化する）ために、非一時的コンピュータ可読媒体を使用することができる。コンピュータプログラムは、例えば汎用プログラミング言語（例えばＰａｓｃａｌ、Ｃ、Ｃ＋＋、Ｐｙｔｈｏｎ、Ｊａｖａ）または一部の専用アプリケーション特化言語で書込まれ得る。

本明細書では、さまざまな例示的実施形態が説明されている。これらの実施例に対する参照が、非限定的な意味合いで指示される。これらの実施例は、開示された技術のより広く応用可能な態様を例示するために提供されている。さまざまな変更を加えてよく、さまざまな実施形態の真の精神及び範囲から逸脱することなく、等価物を代用してもよい。さらに、特定の状況、材料、物質の組成、プロセス、目標（複数可）へのプロセス行為（複数可）またはステップ（複数可）、さまざまな実施形態の精神または範囲を適応させるために、多くの修正が行なわれ得る。さらに、当業者であれば認識するように、本明細書中に記載され例示された個別の変形形態の各々は、さまざまな実施形態の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの実施形態の特徴から容易に分離され得るまたはこれらの特徴と組合わされ得る離散的な構成要素及び特徴を有する。このような修正は全て、本開示に結びつけられたクレームの範囲内に入るものとして意図されている。

本発明は、請求されている本発明の範囲をいかなる形であれ限定するように意図されていない以下の実施例の中で、さらに詳述される。添付図は、本発明の仕様及び説明の一部を成すものとしてみなされるよう意図されている。引用されている参考文献は全て、その中に記載されている全てのものについて参照により本明細書に特定的に組込まれている。以下の実施例は、請求対象の発明を限定するのではなく例示するために提供されるものである。

実施例１
遺伝子／相同体のコピー数のコール
この実施例は、遺伝子／相同体のコピー数を決定するための方法を例示しており、図９で図式化されている。

この方法は、以下のステップを含む。
１．遺伝子または相同体（複数可）に対してＢＷＡ（ＮＧＳリードを基準ゲノムに整列させるオープン・ソース・コンピュータ・ソフトウェア・プログラム）が割当てた全てのリードをプールする。
２．リードの配列に基づいて、それぞれ（例えばＳＭＮ１とＳＭＮ２を識別するイントロン位置において）遺伝子及び相同体についての深度（すなわち整列されたリードの数）を計数する（任意には、ＧＣバイアスを考慮に入れるためリード深度を調整する）
３．５０の他の対照部位（図９中の「ＣＳ」）の近くで深度を集計する。
４．試料の５０の対照深度の中央値により、各試料の遺伝子及び相同体深度を正規化する。
５．各部位の中央値による正規化によりデータをさらに調整して、十進法コピー数値（例えば１．２１）を生み出す。
６．統計的信頼性査定に基づいて、コピー数コールを行なう（すなわち先行ステップからの十進値を整数値にマッピングする）。

さまざまな遺伝子／相同体の決定結果が、図５〜８に示されている。

実施例２
ハイブリッド捕捉プローブを用いたコピー数解析
この実施例は、遺伝子と相同体（複数可）または偽遺伝子（複数可）の間で異なるものである塩基に隣接してアニーリングするプローブを用いて、特定の遺伝子についての遺伝子／相同体コピー数を決定する方法を例示する。

ハイブリッド捕捉プローブは、ＣＹＰ２１Ａ２とＣＹＰ２１Ａ１Ｐの間で異なるいくつかの塩基（「ｄｉｆｆ塩基」）に隣接してアニーリングするように設計されている。捕捉されたフラグメントの対合末端ＮＧＳは、ｄｉｆｆ塩基に基づいた遺伝子または偽遺伝子由来のものとしてのリードの指定を可能にする。ＣＡＨ変異体を、ＳＮＰベースのコール及びコピー数解析という２つの戦略を用いて同定した。所与の位置におけるＳＮＰベースのコールは、問題の位置から遠位の遺伝子由来のｄｉｆｆ塩基を伴うリードで構成されたパイルアップの中の有害な及び／または偽遺伝子由来の塩基を検索した。対照的に、コピー数解析は、各変異体の相対存在度を計算するために、ｄｉｆｆ塩基のリード深度を使用し、偽遺伝子由来の配列のコピー数の余剰（換言すると、遺伝子由来の配列のコピー数の激減）を伴うものとして有害な変異体を同定した。有効性確認研究において、変異体を確認するために、長距離ＰＣＲ及びサンガーシーケンシングを使用した。

試験は、罹患患者からの陽性−対照試料の遺伝子型を正しく同定し、我々はそれ以降、ほぼ１５０，０００個の臨床試料に対する有効なＣＡＨ試験を行なった。観察された変異体頻度は、罹患患者においてＣＹＰ２１Ａ２をシーケンシングした先行研究と整合性を有するものである。遺伝子及び偽遺伝子のコピー数には大きな相違点が存在する。すなわち３８％の患者が、単純に各々のコピー１つを有していない少なくとも１つのハプロタイプを有する。遺伝子と偽遺伝子の間の組換えの証拠はどこにでも存在し、少なくとも８３％が、偽遺伝子由来の塩基を含むＣＹＰ２１Ａ２ハプロタイプを有する。最後に、試験は、特定の希少なハプロタイプと一致する複合変異体、例えば、（１）１つがＱ３１９Ｘ突然変異を有するＣＹＰ２１Ａ２の３つのコピー及び（２）アシュケナージ系ユダヤ人患者においては濃縮されたハプロタイプである、ＣＹＰ２１Ａ１Ｐの２つのコピーを伴い、シスにＶ２８２Ｌ突然変異を有するＣＹＰ２１Ａ２、を同定する。

本明細書中に記載の実施例及び実施形態は、単に例示を目的としたものにすぎないこと、そしてそれに照らしたさまざまな修正または変更が当業者に示唆されており、本出願の精神及び範囲及び添付クレームの範囲内に含み入れられるべきであることが理解される。本明細書中に引用されている全ての公報、特許及び特許出願は、その全体があらゆる目的のために参照により本明細書に組込まれている。

Claims

基準ゲノム配列に関するゲノム試料からの実験的シーケンシングデータから極めて相同性の高いゲノム領域の特性（例えばコピー数、向き、融合遺伝子状態及び配列）を推論するためのコンピュータ実装型方法において、
ａ．ターゲットＤＮＡシーケンシング（例えば、遺伝子または相同体のいずれかに一意的なリードを生み出すように特異的に設計されたプローブまたはプライマをそれぞれに使用するハイブリッド捕捉技術またはアンプリコンシーケンシングを用いる）または高深度非ターゲットシーケンシング（例えば全ゲノムショットガンシーケンシング）のいずれかを用いて、遺伝子及びその相同体（複数可）の両方から実験的にＮＧＳ配列のリードを獲得することと；
ｂ．前記ヒト基準ゲノムに対するそれらのアライメントに基づいて、遺伝子または相同体（複数可）のいずれかに対するコンピュータによるリードをパーティショニングすることと；
ｃ．問題の部位（例えば前記遺伝子と相同体（複数可）の両方を横断してタイル表示された部位）及び≧１０（そして好ましくは≧５０）の対照部位の両方においてリード数（「深度」）を計数することと；
ｄ．一連の正規化計算及び統計的信頼性解析を介して生リード深度を解釈可能なコピー数コールへと変換するコピー数解析を行なうことと；
ｅ．突然変異を同定することと；
を含み、コピー数を確認し遺伝子由来のリードを分離する能力が、これらの変異体の適正な同定のための極めて重要なパラメータである、方法。
ステップ（ｂ）が、
ｂ．前記ヒト基準ゲノムに対するそのアライメント及び遺伝子を相同体（複数可）と識別する特異的塩基（複数可）の存在の両方に基づいて、遺伝子または相同体のいずれかに対するコンピュータによるリードをパーティショニングすること、
を含む、請求項１に記載の方法。
ステップ（ｅ）が、
ｅ．コピー数変異体、配向を改変する逆位、遺伝子融合及び／または短配列変異体（例えばＳＮＰ及びインデル）であり得る突然変異を同定すること、
を含む、請求項１に記載の方法。
前記遺伝子がＳＭＮ１であり、偽遺伝子がＳＭＮ２である、請求項１に記載の方法。
前記遺伝子がＣＹＰ２１Ａ２であり、前記偽遺伝子がＣＹＰ２１Ａ１Ｐである、請求項１に記載の方法。
前記遺伝子がＨＢＡ１であり、前記偽遺伝子がＨＢＡ２である、請求項１に記載の方法。
前記遺伝子がＧＢＡであり、前記偽遺伝子がＧＢＡＰである、請求項１に記載の方法。
前記遺伝子がＣＨＥＫ２であり、前記偽遺伝子がその偽遺伝子の少なくとも１つである、請求項１に記載の方法。
前記遺伝子がＰＭＳ２であり、前記偽遺伝子がＰＭＳ２ＣＬ及びＰＭＳ２ＣＬの他の偽遺伝子から選択される、請求項１に記載の方法。
請求項１を実施するためのコンピュータ実行可能命令を含む非一時的コンピュータ可読記憶媒体。
ａ．１つ以上のプロセッサと；
ｂ．メモリと；
ｃ．前記メモリ内に記憶され、前記１つ以上のプロセッサにより実行されるように構成され、請求項１を実施するための命令を含む、１つ以上のプログラムと、
を含むシステム。