JP2021019586A

JP2021019586A - 異常な核型の検出のための方法

Info

Publication number: JP2021019586A
Application number: JP2020154436A
Authority: JP
Inventors: マックスウェル、エバン; Maxwell Evan; ハベガー、ルーカス; HABEGGER Lukas; リード、ジェフリー; Reid Jeffrey
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2016-02-12
Filing date: 2020-09-15
Publication date: 2021-02-18
Anticipated expiration: 2037-02-13
Also published as: KR102341129B1; EP3414691A1; IL261216B; CN109074426A; AU2017218149B2; AU2017218149A1; CN115273970A; JP2019512122A; SG11201806812SA; JP7144493B2; US20170233806A1; AU2020244451B2; WO2017139801A1; CA3014292A1; NZ745249A; KR20180116309A; KR102465122B1; JP6765433B2; KR20210154877A; IL287595A

Abstract

【課題】異常な核型を検出するための方法およびシステムを提供すること。【解決手段】方法の１例は、リード・カバレッジ・データ、ヘテロ接合ＳＮＰの対立遺伝子バランス分布、およびヘテロ接合性の観測されない染色体のセグメントを決定することを含むことができる。次いで、この方法およびシステムは、異常な核型を標示し得る１つまたは複数の指標を決定することができる。【選択図】図１

Description

異常な核型の検出のための方法およびシステムに関する。

ヒトゲノム試料の正確な医療的解釈には、根本にある核型に関する知識が必要である。
コピー数多型（ＣＮＶ）などの異常な核型を特定するための方法は、比較ゲノムハイブリ
ダイゼーション（ＣＧＨ）におけるＤＮＡマイクロアレイの使用、例えば、蛍光ｉｎｓ
ｉｔｕハイブリダイゼーション（ＦＩＳＨ）、クローンおよびＰＣＲ産物のアッセイ、オ
リゴヌクレオチドアレイ、ジェノタイピングアレイの使用を含む（ＣａｒｔｅｒＮＰ，
ＮａｔｕｒｅＧｅｎｅｔｉｃｓ２００７；３９Ｓ１６−２１））。しかし、アレイ
技術の不利な点は、推定上のＣＮＶを規定する（呼び出す）のが難しい場合があることで
ある。

次世代シークエンシングデータから染色体異常を検出するための方法は僅かである。あ
る特定の次世代シークエンシング全ゲノムコピー数多型法などが利用されており、例えば
リードペア法、分割リード法、リード深度法およびアセンブリベース法などがある（Ｐｉ
ｒｏｏｚｎｉａ，ｅｔａｌ．，Ｆｒｏｎｔ．Ｇｅｎｅｔ．２０１５；６；１３８）。し
かし、既存のアプリケーションは、非侵襲的な出生前検査（ＮＩＰＴ）を目的として、異
数体性細胞を含まない胎児ＤＮＡの割合を検出するために、母体血漿試料由来の非常に軽
度な走り読みによる全ゲノムシークエンシング（ＷＧＳ）データを解析することに焦点が
当てられている。次世代シークエンシングは、がんのゲノミクスではある程度まで探究さ
れているが、これらの解析は一般に、体細胞の染色体異常におけるクローン性のモザイク
現象の程度を正確に測定するのに必要なカバレッジの深度を所与とする、ＳＮＰアレイに
基づく。

集団規模の全エクソームシークエンシング（ＷＥＳ）データから異常な核型を検出する
目的で、開発されている既存の方法はない。本願の開示では、これらのおよび他の欠点を
取り上げる。

ＮａｔｕｒｅＧｅｎｅｔｉｃｓ２００７；３９Ｓ１６−２１Ｐｉｒｏｏｚｎｉａ，ｅｔａｌ．，Ｆｒｏｎｔ．Ｇｅｎｅｔ．２０１５；６；１３８

以下の一般記載および以下の詳細な記載のどちらも、例示的であり説明的であるに過ぎ
ず、制限的ではないことが理解されよう。異常な核型を検出するための方法およびシステ
ムが開示される。方法の１例は、複数の試料中の各染色体について、リード・カバレッジ
・データ、ヘテロ接合ＳＮＰの対立遺伝子バランス分布、およびヘテロ接合性が観測され
ない染色体のセグメントを決定することであって、各染色体が複数のゲノム領域を含むこ
と；複数の試料中の各染色体について、期待リード・カバレッジ・データを決定すること
；複数の試料中の少なくとも１つの染色体について、リード・カバレッジ・データと期待
リード・カバレッジ・データとの間の偏差を決定すること：複数の試料中の少なくとも１
つの染色体について、複数の２対立遺伝子のＳＮＰの期待比１：１から、対立遺伝子バラ
ンス分布における偏差を決定すること；複数の試料中の少なくとも１つの染色体について
、全体量のリード・カバレッジおよび対立遺伝子バランスのデータを使用し、偏差が染色
体全体にわたって発生するのか、または特定される染色体の一部にのみ発生するのかを決
定して、特定される偏差をさらに洗練させて正当性を立証すること；ならびに異常な核型
として少なくとも１つの染色体を特定することを含むことができる。

追加の利点は、以降続くかまたは実践によって習得され得る記載に一部が定義されるこ
とになろう。利点は、添付の特許請求の範囲において特に指摘されている要素および組合
せによって、理解および達成されよう。

この明細書に組み込まれてその一部を構成する付随の図面は、実施形態を図説し、記載
と併せて本方法および本システムの原理を説明するのに役立つ。
図１は、異常な核型の検出方法の１例を図説するフローチャートである。図２は、線形回帰モデルの１例を図説するグラフである。図３は、異常な核型が大きな残差を示すことを図説するグラフである。図４は、異常な核型の検出方法の１例を図説する別のフローチャートである。図５は、ＧＣ含量とカバレッジとの関係を図説するグラフである。図６は、特定された異常な核型および外れ値を図説するグラフである。図７Ａ、７Ｂ、７Ｃ、７Ｄ、７Ｅ、および７Ｆは、１試料について９番、１３番、および２０番染色体上の変則性を示す、対立遺伝子バランスのプロットである。サブプロットの番号は染色体番号である。影付きバー（７０１）は、ヘテロ接合ＳＮＰの対立遺伝子バランス０．５に期待される変動性の正常な範囲を示す。実線（７０２）は、全染色体の対立遺伝子バランスの中央値を示す。破線（７０３）は、およそ２０個のＳＮＰのローリングウィンドウにおける対立遺伝子バランスの局所中央値を示す。線（７０４）は、ホモ接合性連続領域（ｒｕｎｓ−ｏｆ−ｈｏｍｏｚｙｇｏｓｉｔｙ）を示す。同上。同上。同上。同上。同上。図８は、図７Ａ〜Ｆと同じ試料についてのリード・カバレッジのプロットである。図９Ａ、９Ｂ、９Ｃ、９Ｄ、９Ｅ、および９Ｆは、１試料中の２１番染色体上の変則性と、Ｘ染色体全てに及ぶホモ接合性連続領域とを示す、対立遺伝子バランスのプロットであり、Ｘ染色体を１つのみ持つ核型上は正常な雄の試料であることを示す。影付きバー（９０１）は、ヘテロ接合ＳＮＰの対立遺伝子バランス０．５に期待される変動性の正常な範囲を示す。実線（９０２）は、全染色体の対立遺伝子バランスの中央値を示す。破線（９０３）は、およそ２０個のＳＮＰのローリングウィンドウにおける対立遺伝子バランスの局所中央値を示す。線（９０４）は、ホモ接合性連続領域を示す。同上。同上。同上。同上。同上。図１０は、図９Ａ〜Ｆと同じ試料についてのリード・カバレッジのプロットである。図１１は、異常な核型の検出方法の１例を図説するフローチャートである。図１２は、４番染色体に関する１試料の対立遺伝子バランスのプロットの１例であり、そこでは、長いホモ接合性連続領域が検出され（１２０２）、その領域では、変則的な領域中のホモ接合ＳＮＰ間に非ゼロの対立遺伝子バランスが僅かに存在するために、ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔ（１２０４）がオーバーラップしている。図１３Ａは、全試料についてのＸ染色体とＹ染色体とのカバレッジ比のプロットであり、雄（１３０２）および雌（１３０４）の試料を決定するための閾値が実線１３０６により示されている。さらに、Ｙ染色体の重複を持つ雄試料は、Ｙ染色体のカバレッジ比の閾値（破線１３０８）を用いて特定することができる。図１３Ｂは、期待される染色体ワイドなヘテロ接合ＳＮＰの対立遺伝子バランスの中央値（ＣｈｒｏｍＨｅｔＡＢ）が、特定のリード深度の閾値（例えば、５０×カバレッジ、「ＰＣＴＴＡＲＧＥＴＢＡＳＥＳ５０Ｘ」ＱＣ指標）以上でカバーされている塩基の割合に対して増加していることを実証する、２１番染色体に関するプロットの１例である。「段」の格付けは、カバレッジ指標に基づく観測ＣｈｒｏｍＨｅｔＡＢと期待ＣｈｒｏｍＨｅｔＡＢとの偏差の有意性に基づき割り付けることができる。図１４は、ＣｈｒｏｍＨｅｔＡＢ値の計算に含まれるＳＮＰの数（推定ヘテロ接合ＳＮＰ；ｙ軸）に対する、Ｘ染色体に関する全ての雄の試料のＣｈｒｏｍＨｅｔＡＢ値（ｘ軸）のプロットである。線は、数多くのＳＮＰによって支持される高い非ゼロのＣｈｒｏｍＨｅｔＡＢ値に基づき、Ｘ染色体に関し重複を有する雄の試料を区別するための閾値を標示する。図１５は、事象に含まれるヘテロ接合ＳＮＰの数（ｙ軸）に対する全ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔ、すなわち黒色および灰色の点（閾値の１例、すなわち垂直線よりも大きな区域を有する）のプロットであり、段の格付けの閾値の例を示す斜線が付されている。灰色の点は、オーバーラップするＲＯＨ事象を有する事象を標示する。図１６は、開示される方法を実施するための例示的なオペレーティング環境を図説するブロック図である。

本願の方法およびシステムが開示および記載される前に、この方法およびシステムが、
特定の方法、特定の構成要件、または具体的な実装に限定されないことが理解されよう。
また、本明細書に使用される用語が、具体的な実施形態を記載することのみを目的とし、
限定することを意図されないことが理解されよう。

本明細書および添付の特許請求の範囲に使用される際に、単数形「ａ」、「ａｎ」、お
よび「ｔｈｅ」は、特段にその文脈が明確に指示しない限り、複数の指示対象を含む。範
囲は、「約」１つの具体的な値から、および／または「約」別の具体的な値までとして、
本明細書に表現されることがある。そのような範囲が表現される際に、別の実施形態は、
一方の具体的な値からおよび／または他方の具体的な値までを含む。同様に、値が、先行
する「約」の使用により概算として表現される際に、具体的な値が別の実施形態を形成す
ることが理解されよう。各範囲の終点は、他方の終点と関連して、および他方の終点とは
独立しての両方で、重要であることがさらに理解されよう。

「任意選択の」または「任意選択で」とは、それに続いて記載される事象または状況が
起こることも起こらないこともあること、その記載は、前記事象または状況が起こる場合
およびそれがない場合を含むことを意味する。

この明細書の記載および特許請求の範囲を通じて、語「含む（ｃｏｍｐｒｉｓｅ）」お
よびこの語の変形、例えば「含む（ｃｏｍｐｒｉｓｉｎｇ）」や「含む（ｃｏｍｐｒｉｓ
ｅｓ）」などは、「以下に限定されないが含む、」を意味し、例えば、他の構成要素、整
数、またはステップを除外することを意図するものではない。「例示的な」とは、「〜の
１例」を意味し、好適なまたは理想的な実施形態の含意を伝えることを意図するものでは
ない。「など（ｓｕｃｈａｓ）」は、制限的な意味合いで使用されないが、説明の目的
で使用される。

開示される方法および組成物は、これらが変わり得るように記載される具体的な方法論
、プロトコール、および試薬に限定されないことが理解されよう。また、本明細書に使用
される用語は、具体的な実施形態を記載することのみを目的とし、添付の特許請求の範囲
によってのみ限定されることになる本願の方法およびシステムの範囲に限定することを意
図するものではないことが理解される。

特段に定義されない限り、本明細書に使用される技術用語および科学用語は全て、開示
される方法および組成物の属する当業者が共通に理解するのと同じ意味を有する。本明細
書に記載されるものと同様または同等の任意の方法および材料が、本願の方法および組成
物の実践および試験に使用することができるとはいえ、具体的に有用な方法、デバイス、
および材料は、記載される通りである。本明細書に引用される刊行物、およびそれらが引
用される理由である材料は、ここに参照により特に組み込まれる。先行発明のために本願
の発明がそのような開示に先行する権利を与えられないことを自認するものと解釈される
ことになるものは、本明細書にはない。何らかの参考文献が先行技術を構成することの自
認はない。参考文献に関する議論は、それらの著者が主張している事柄を述べており、出
願人は、引用された文書の正確性および適切性に挑む権利を保持している。複数の刊行物
が本明細書に参照されているものの、そのような参考文献は、これらの文書のいずれかが
当技術分野の一般常識の一部を形成することの自認を構成しないことが、明確に理解され
よう。

開示されるのは、開示される方法およびシステムを実施するのに使用できるコンポーネ
ントである。これらのおよび他のコンポーネントが本明細書に開示されるため、これらの
コンポーネントの組合せ、サブセット、相互影響、群などが開示される際に、これらの様
々な個々のおよび集合的な組合せのおよび並べ替えのそれぞれに関する特定の言及が明示
的に開示されないことがある一方で、それぞれは、あらゆる方法およびシステムのために
、本明細書に特に想定および記載されることが理解される。これは、このアプリケーショ
ンの全ての態様に適用され、そのようなアプリケーションとしては、以下に限定されない
が、開示される方法のステップが挙げられる。そのため、実施できる種々の追加のステッ
プがある場合に、これらの追加のステップのそれぞれを、開示される方法の任意の特定の
実施形態または実施形態の組合せを用いて実施できることが理解される。

本願の方法およびシステムは、以下の好適な実施形態の詳細な記載およびその中に含ま
れる実施例と、図ならびにそれらの既出のおよび以下の記載とを参照することによって、
さらに容易に理解されることがある。

当業者がいずれ理解するように、この方法およびシステムは、全体がハードウェアであ
る実施形態、全体がソフトウェアである実施形態、またはソフトウェアおよびハードウェ
アの態様を組み合わせた実施形態の形態をとることがある。さらに、この方法およびシス
テムは、記憶媒体に組み入れられたコンピュータ読み取り可能なプログラム命令（例えば
、コンピュータ・ソフトウェア）を有するコンピュータ読み取り可能な記憶媒体上のコン
ピュータ・プログラム製品の形態をとることがある。さらに具体的には、本願の方法およ
びシステムは、ウェブ実装されたコンピュータ・ソフトウェアの形態をとることがある。
任意の適したコンピュータ読み取り可能な記憶媒体が利用されることがあり、そのような
媒体としては、ハードディスク、ＣＤ−ＲＯＭ、光学記憶デバイス、または磁気記憶デバ
イスが挙げられる。

この方法およびシステムの実施形態は、方法、システム、装置、およびコンピュータ・
プログラム製品のブロック図およびフローチャート図解を参照して、下記に記載される。
ブロック図およびフローチャート図解の各ブロック、ならびにブロック図およびフローチ
ャート図解中のブロックの組合せは、それぞれ、コンピュータ・プログラム命令によって
実装できることが理解されよう。これらのコンピュータ・プログラム命令を、汎用コンピ
ュータ、特殊用途コンピュータ、または他のプログラム可能なデータ処理装置上にロード
してマシンを生産してもよく、その結果、このコンピュータまたは他のプログラム可能な
データ処理装置上で実行する命令によって、１つまたは複数のフローチャート・ブロック
中に指定されている機能を実装するための手段が作り出される。

また、これらのコンピュータ・プログラム命令は、コンピュータまたは他のプログラム
可能なデータ処理装置を具体的な方式で機能させるように仕向けることのできる、コンピ
ュータ読み取り可能なメモリに記憶されてもよく、それによって、そのコンピュータ読み
取り可能なメモリに記憶された命令は、１つまたは複数のフローチャート・ブロックに指
定されている機能を実装するためのコンピュータ読み取り可能な命令を含む製造品を生産
する。また、コンピュータ・プログラム命令を、コンピュータまたは他のプログラム可能
なデータ処理装置上にロードして、コンピュータまたは他のプログラム可能な装置上で実
施されてコンピュータ実装プロセスを生じる一連のオペレーション・ステップを引き起こ
してもよく、それによって、そのコンピュータまたは他のプログラム可能な装置上で実行
される命令は、１つまたは複数のフローチャート・ブロックに指定されている機能を実装
するためのステップを提供する。

したがって、ブロック図およびフローチャート図解のブロックは、指定されている機能
を実施するための手段の組合せ、指定されている機能を実施するためのステップの組合せ
、および指定されている機能を実施するためのプログラム命令手段を支援する。また、ブ
ロック図およびフローチャート図解の各ブロック、ならびにブロック図およびフローチャ
ート図解中のブロックの組合せは、特殊用途ハードウェアおよびコンピュータ命令の指定
されている機能もしくはステップまたは組合せを実施する、特殊用途ハードウェアベース
のコンピュータシステムによって、実装することができることが理解されよう。

一態様では、開示されるのは、集団規模の全エクソームシークエンシングデータから、
異常な核型を有する試料を検出するための方法であり、ＫａｒｙｏＳｃａｎとも称する。
異常な核型は、染色体中にわたるリード深度分布を介して検出することができるが、複数
の要因が、真の染色体の変則性をノイズから区別する能力を攪乱する。ＰＣＲ増幅は、Ｇ
Ｃ含量および実験条件によってバイアスがかけられ、しばしば結果として、不均一なＤＮ
Ａ断片の増幅をゲノム中にわたって生じる。さらに、エクソーム捕捉の手法は、均一な標
的カバレッジを産生しない。このように、いかなる具体的な染色体または染色体領域の期
待カバレッジも、複数の要因に依存しており、それらの中には測定可能なものもあればそ
うでないものもある。

開示される方法である図１に図説される方法例１００は、１０２で、各染色体に対して
、個々の試料についてのリード・カバレッジ・プロファイルを演算することができる。リ
ード・カバレッジ中のバイアスを低減するために、５０％に近いＧＣ含量と高いマッピン
グ可能性とを有する領域で変動が最も小さい際に、代表的なＧＣ含量およびマッピング可
能性指標を、エクソン領域について１０４で決定することができる。各染色体ｉについて
、堅牢なリード・カバレッジ・プロファイルｒ_ｉを、ある範囲（例えば、４５〜５５％）
内のＧＣ含量を伴いかつある閾値を超えるマッピング可能性を有するエクソーム領域中に
わたるリード深度の和として、決定することができる。この指標は、染色体タグ密度の中
央値とは対照的に、サブ染色体の分解能をもたらす。

次いで、染色体のリード・カバレッジ・プロファイルを、１０６で正規化して、他の常
染色体に対する各染色体についてのリード・カバレッジのエクソームワイドな比を表すこ
とができる。染色体ｉのエクソームワイドなカバレッジ比γ_ｉは、

として表現することができ、上式で、（Ａ−ｉ）は、染色体ｉを除外する常染色体のセッ
トであり、γ_ｉは、全ての常染色体およびＸ染色体について決定される（Ｙ染色体は独立
して考慮することができる）。染色体ｉのカバレッジ比は、それゆえ、他の全ての常染色
体と比べた際の染色体ｉに関するリードの比である。

染色体異常は、期待由来のγ_ｉの偏差に現れる。しかし、γ_ｉの期待値は、正常な（２
倍体の）核型の試料の間ですら一定ではなく、実験条件に依存する。１０８では、線形回
帰モデルを使用して、γ_ｉの期待値

を各染色体に関して各個体について予想することができる。線形回帰をフィッティングし
た後の２２番染色体についての観測値（γ_ｉ）値および期待値

の１例を、図２に示す。リード深度の変動に相関するＰｉｃａｒｄによるシークエンシン
グ品質管理（ＱＣ）指標を、このモデルの共変量として使用することができる。ＱＣ指標
は、例えば、ＧＣＤＲＯＰＯＵＴ、ＡＴＤＲＯＰＯＵＴ、ＭＥＡＮＩＮＳＥＲＴＳＩＺＥ
、ＯＮＢＡＩＴＶＳＳＥＬＥＣＴＥＤ、ＰＣＴＰＦＵＱＲＥＡＤＳ、ＰＣＴＴＡＲＧＥＴ
ＢＡＳＥＳ１０Ｘ、ＰＣＴＴＡＲＧＥＴＢＡＳＥＳ５０Ｘ、および／またはなどのうち１
つまたは複数を含むことができる。

これらのＱＣ指標が、リード・カバレッジに観測される変動のかなりの部分を表現する
ことができる一方で、測定不能な追加のバイアスは、既知の方法を用いて得られる結果に
反映され得る。これらのバイアスは、同様のエクソ−ムＧＣ含量分布を有する染色体間で
相関することから、類似の染色体のγ_ｉ値を追加の共変量として含むことで、許容可能な
レベルにまで分散を低減することができる。一態様では、このことがモデルの特殊性に有
益である一方で、欠点の１つは、これらの他の染色体自体が核型上は異常となる可能性が
あることであり、それによって、標的染色体に関して偽陽性のコールを結果として生じ得
る。本明細書の本発明の方法によってもたらされる利点は、他の染色体由来の共変量の数
を制限することによって、標的染色体に関する偽陽性のコールを最小にすることである。
例えば、他の染色体由来の共変量の数を、２つに制限することができる。

それゆえ、線形モデルを、全ｎ試料セットにわたる各染色体について

により回帰させることができる。上式で、染色体ｊ，ｋは、染色体ｉのＧＣ含量分布に対
して最小Ｄ統計量を有する、２つの常染色体として定義される。態様によっては、性別（
Ｙ染色体のカバレッジの閾値によって定義されるような）を、Ｘ染色体についての追加の
共変量として使用することができる。

異常な核型の検出は、１１０で、残差によって規定される、具体的な試料についての期
待値

由来のγ_ｉの偏差を検出することに基づくものとすることができる。しかし、元来ＱＣ指
標空間の極限にある試料について推定することは、より高い分散を伴う平均推定値を生じ
かねず、その結果、生の残差の解釈を全試料にわたって均一であるものと想定することが
できないものとなる。１１２では、開示される方法は、共変量ｘを有する個々の試料につ
いての平均推定値

の標準誤差に対して、残差をＺスコア正規化することができる（図６を参照）。

［上式で、

は、残差の標準誤差であり、ｎは、モデルをフィッティングするのに使用される試料の数
である］、および：

Ｚスコアに基づくｐ値を、１１４で各染色体について決定して、染色体ｉについての異
常な核型を表す、有意に大きな残差を特定することができる。一態様では、ｐ＜０．０５
およびｑ＜０．０５（ＦＤＲ調整ｐ）のｐ値のカットオフを使用して、有意に大きな残差
を特定することができる。線形回帰をフィッティングした後の観測値（γ_ｉ）および期待
値

が示されている図３を参照されたい。別の態様では、最大０．１のｐ値を使用することが
できる。

大きな残差は、目的の染色体についての真の異常な核型、ならびに異常な共変量値（Ｑ
Ｃ指標空間における外れ値、または共変量染色体のうちの１つに関する異常な核型の、ど
ちらかに起因する）の両方の結果であることがある。１１６では、各染色体についての上
記線形モデル上で、極端なレバレッジ（多くの場合はｈ_ｉ，と表示され、１／ｎ＜ｈ_ｉ＜
１である）を有する試料に目印を付けることによって、並外れた共変量に起因して、外れ
値を検出することができる。レバレッジは、試料のｘ値（共変量）が上記モデルにどれほ
ど影響するかを定量する。レバレッジを使用して、目的の染色体に関して真の異常な核型
を表さない外れ値に、目印を付けることができる。レバレッジと標準誤差とは相関してい
るため、高いレバレッジ値は、高い（有意でない）ｐ値を有するはずである。レバレッジ
は、ｎおよびｐの関数：

として報告することができ、上式で、ｐは、上記モデルにおける共変量の数である。一態
様では、閾値よりも大きなｈ_ｉ（ｎ，ｐ）値を有する試料に、目印を付けることができる
。例えば、閾値を約３から約５までとすることができる。これを、最適なフィッティング
を促進するために一般に適用することができる。より控えめな閾値を使用して、最も極端
な値、例えば、９９．５番目および９９．９番目のパーセンタイル（約１０および約２６
）に対応する値に目印を付けることができる。場合によっては、高いレバレッジの試料を
除去してモデルを再フィッティングし、それによって、高いレバレッジを持つ試料につい
ての標準誤差を低減し、推定ｐ値を改善（低減）することが有用である。

図４は、異常な核型を検出するための方法の１例４００を図説するフローチャートであ
る。ステップ４０２では、複数の試料中の各染色体についてのリード・カバレッジ・デー
タを決定することができる。一態様では、各染色体は、複数のゲノム領域を含むことがあ
る。複数の試料中の各染色体についてリード・カバレッジ・データを決定することは、あ
る範囲内のＧＣ含量およびある閾値を超えるマッピング可能性スコアを有するエクソーム
領域中にわたって、リード深度の和を決定することを含むことがある。

方法４００は、リード・カバレッジ・データをフィルタリングすることをさらに含むこ
とがある。リード・カバレッジ・データをフィルタリングすることは、複数のゲノム領域
のうちの１つまたは複数のゲノム領域中のグアニン−シトシン（ＧＣ）含量のレベルに基
づいて、リード・カバレッジ・データをフィルタリングすることを含むことがある。複数
のゲノム領域のうちの１つまたは複数のゲノム領域中のグアニン−シトシン（ＧＣ）含量
のレベルに基づいて、リード・カバレッジ・データをフィルタリングすることは、複数の
ゲノム領域のそれぞれについてＧＣ含量のレベルを決定すること、およびある範囲外のＧ
Ｃ含量のレベルを有する複数のゲノム領域のうちの１つまたは複数のゲノム領域を除外す
ることを含むことがある。

一態様では、本願の方法は、極端なＧＣ含量を有する１つまたは複数のゲノム領域をフ
ィルタリングすることができる。ＧＣの増幅バイアスは、そのバイアスが任意の具体的な
ＧＣ含量のレベルでほぼ一貫している場合に、補正することができる。しかし、ＧＣ含量
が非常に低いかまたは高い際には、確率論的なカバレッジの変動率が、劇的に増加するこ
とがあり、有効に正規化することが困難になる。したがって、本願の方法は、ＧＣの割合
が構成変更の可能な（例えば、または所定の）範囲外または閾値外である、１つまたは複
数のゲノム領域をフィルタリングすることができる。図解のように、構成変更の可能な範
囲は、図５に示されるように［０．３，０．７］を含むことができる。しかし、他の範
囲（例えば閾値）を適切であるものとして利用できることを認識すべきである。図５は、
ＧＣ含量とカバレッジとの関係を図説するグラフを示す。例えば、カバレッジの変動の係
数（例えば、平均値によって除される標準偏差）がｙ軸上に示され、ＧＣ含量がｘ軸に示
される。このグラフは、５０試料（例えば、見易くするための小刻みに進む点）を示す。
構成変更の可能な範囲のデフォルト上限（例えば、ＧＣ＝０．７）を超えたところでは、
カバレッジ分散は、平均値に対して非常に高いことがある。構成変更の可能な範囲のデフ
ォルト下限（例えば、ＧＣ含量＝０．３）より下では、追加の問題が生じる。例えば、カ
バレッジ自体の分散が、試料間で高度に可変性であることがある。この分散があるために
、各参照パネル試料のカバレッジ値が、異なる分布由来の観測値である際に、具体的なウ
ィンドウで具体的な試料について、カバレッジの期待分散を正確に推定することが困難と
なる。

方法４００でリード・カバレッジ・データをフィルタリングすることは、複数のゲノム
領域のうちの１つまたは複数のゲノム領域のマッピング可能性スコアに基づいて、複数の
ゲノム領域のうちの１つまたは複数のゲノム領域をフィルタリングすることを含むことが
ある。複数のゲノム領域のうちの１つまたは複数のゲノム領域のマッピング可能性スコア
に基づいて、複数のゲノム領域のうちの１つまたは複数のゲノム領域をフィルタリングす
ることは、上記複数のゲノム領域の各ゲノム領域についてマッピング可能性スコアを決定
すること、および複数のゲノム領域のうちの上記１つまたは複数のゲノム領域のマッピン
グ可能性スコアが、所定の閾値を下回る場合に、複数のゲノムのうち１つまたは複数のゲ
ノム領域を除外することを含むことがある。

例えば、本願の方法およびシステムは、あるウィンドウ中の各塩基で始まるｋ−ｍｅｒ
（デフォルトｋ＝７５）についての平均マッピング可能性スコアが０．７５未満である際
に、複数のゲノム領域のうちの１つまたは複数のゲノム領域をフィルタリングすることが
できる。上記複数のゲノム領域の各ゲノム領域についてマッピング可能性スコアを決定す
ることは、最初の塩基が複数のゲノム領域のうちのゲノム領域にオーバーラップする、ｋ
−ｍｅｒの逆参照ゲノム頻度の平均を決定することを含むことがある。

一態様では、方法４００は、リード・カバレッジ・データを正規化することをさらに含
むことがある。リード・カバレッジ・データを正規化することは、他の常染色体に対する
各染色体についてのリード・カバレッジのエクソームワイドな比を決定することを含むこ
とがある。エクソームワイドな比（γ）を、各染色体（ｉ）について：

によって決定することができ、上式で、Αは常染色体のセットであり、ｒはリード・カバ
レッジである。

ステップ４０４では、複数の試料中の各染色体についての期待リード・カバレッジ・デ
ータを決定することができる。複数の試料中の各染色体についての期待リード・カバレッ
ジ・データを決定することは、線形回帰モデルを適用して、各染色体についてエクソーム
ワイドな期待比を決定することを含むことがあり、その際に、複数の指標が、共変量とし
て使用される。この複数の指標は、シークエンシング品質管理指標（ＱＣ指標）を含むこ
とがある。シークエンシング条件の変動性ゆえに生じる体系的なカバレッジのバイアスは
、一般には「バッチ効果」と称される。一態様では、本願の方法およびシステムを、バッ
チ効果を補正するために構成することができる。例えば、リード・カバレッジ・プロファ
イル―高次元空間―に基づいてリード・カバレッジ・データを比較する代わりに、本願の
方法およびシステムを、シークエンシング品質管理（ＱＣ）指標に基づいて、低次元の指
標空間を考慮するように構成することができる。例えば、シークエンシングＱＣ指標は、
７つのシークエンシングＱＣ指標を含むことがある。シークエンシングＱＣ指標は、Ｐｉ
ｃａｒｄなどのシークエンシングツール由来のシークエンシングＱＣ指標を含むことがあ
る。この低次元空間で作業することによって、拡張性の向上が可能になる。例えば、試料
を前もって標示付けすることができる（例えば、任意の適切な標示付けおよび／または探
索アルゴリズムを使用して）。

一態様では、エクソームワイドな期待比

を、各染色体（ｉ）について

によって決定することができ、染色体ｊ，ｋは、染色体ｉのＧＣ含量分布に対して最小Ｄ
統計量を有する、２つの常染色体として定義され、ε_ｉは、

とγ_ｊ，γ_ｋとの間の線形関係の無作為な成分である。

ステップ４０６では、複数の試料中の少なくとも１つの染色体についてのリード・カバ
レッジ・データと期待リード・カバレッジ・データとの間の偏差を決定することができる
。複数の試料中の少なくとも１つの染色体についてリード・カバレッジ・データと期待リ
ード・カバレッジ・データとの間の偏差を決定することは、複数の試料中の各染色体につ
いて、リード・カバレッジ・データと期待リード・カバレッジ・データとの間の差を決定
して、複数の残差を生成すること、および共変量ｘを有する複数の試料の個々の試料につ
いての平均推定値の標準誤差

に対して、上記複数の残差をＺスコア正規化すること：

［上式で、

は、残差の標準誤差である］および：

を含むことがある。線形回帰モデルを用いて得られた結果を図示する図６を参照されたい
。ここでは、共変量は、ＱＣ指標および染色体を含み、線形回帰をフィッティングした後
の観測値（γ_ｉ）および期待値

が示される６。別の態様では、異なる標準誤差の推定量を使用することができ、例えば、
生の残差の標準誤差（モデル全体に対し１つの値）か、または異分散性に整合的な標準誤
差を使用して行う。

方法４００は、各染色体についてのＺスコアに基づきｐ値を決定して、染色体ｉについ
ての異常な核型を表す有意に大きな残差を特定することをさらに含むことがある。有意に
大きな残差は、０．０５未満のｐ値を有する残差を含むことがある。図６を参照されたい
。

ステップ４０８では、少なくとも１つの染色体を、異常な核型として特定することがで
きる。特定される異常な核型を出力することができる。例えば、特定される異常な核型を
、ユーザに（例えば、ユーザ・インターフェースを介して）出力することができる。特定
される異常な核型を、ネットワークを介して遠隔地に伝送することができる。特定される
異常な核型を、入力として別の実行可能なプログラムに提供することができる。特定され
る異常な核型を、データベースや他のファイル・フォーマットなどの記憶場所に記憶する
ことができる。出力の例は、図７〜図１０に示されている。

図７Ａ〜Ｆは、９番、１３番、および２０番染色体についての部分的な染色体の対立遺
伝子バランスの事象を示す、対立遺伝子バランスのプロットである。サブプロットの番号
は、染色体番号である。影付きバー７０１は、ヘテロ接合ＳＮＰの対立遺伝子バランス０
．５に期待される変動性の正常な範囲を示す。線７０２は、全染色体の対立遺伝子バラン
スの中央値を示す。破線７０３は、およそ２０個のＳＮＰのローリングウィンドウにおけ
る対立遺伝子バランスの局所中央値を示す。線７０４は、ホモ接合性連続領域を示す。図
８は、同じ試料について１３番および２０番染色体についてのリードの有意な提示不足を
示す、リード・カバレッジのプロットである。

図９Ａ〜Ｆは、トリソミー２１の試料（ダウン症）の対立遺伝子バランスのプロットで
ある。この対立遺伝子バランスのプロットは、ある試料中の２１番染色体上の変則性と、
Ｘ染色体全てに及ぶホモ接合性連続領域とを示し、Ｘ染色体を１つのみ持つ核型上は正常
な雄の試料であることを示す。影付きバー（９０１）は、ヘテロ接合ＳＮＰの対立遺伝子
バランス０．５に期待される変動性の正常な範囲を示す。実線（９０２）は、全染色体の
対立遺伝子バランスの中央値を示す。破線（９０３）は、およそ２０個のＳＮＰのローリ
ングウィンドウにおける対立遺伝子バランスの局所中央値を示す。線（９０４）は、ホモ
接合性連続領域を示す。図１０は、同じ試料についてのリード・カバレッジのプロットで
ある。

本明細書に開示される方法を用いて得られる情報を、例えば、自閉症や自閉症スペクト
ラム状態などの既存の診断にさらに別の臨床上の見解を提供するために、施療者が患者に
報告することができる。

また、本明細書に開示される方法を用いて得られる情報を、施療者は、例えば性染色体
異常を有する患者における、公知または未知の妊孕性の課題を明確に持つ患者に提供する
ために、使用することができる。

本明細書に開示される方法を使用して、がんの検出および進展をモニターすることもで
きる。
本明細書に開示される方法を使用して、ＤＮＡ試料が２個体由来のＤＮＡを含有するか
否かを決定することもでき、そのようなＤＮＡは例えば、１個体由来のＤＮＡ試料が別の
個体由来のＤＮＡで汚染されている場合に起こる。ＤＮＡは、双生仔の死亡／ヒトのキメ
ラの事象、つまり多胎妊娠が起こった際にも、すなわち胎仔全てが生き延びずに、死亡し
た双生仔のＤＮＡが生き延びた胎仔のＤＮＡ内に取り込まれるようになった際にも、２個
体に由来することがある。そのような状況では、結果は、双生仔のＤＮＡが一致しないゲ
ノムの全ての領域について、偏った多モードの対立遺伝子バランスとなり、それは、二卵
性双生仔のゲノムの約７５％である。ＤＮＡは、ある個体由来の血液または組織が別の個
体内に移植された際にも、２個体に由来することがある。ＤＮＡは、非侵襲的な出生前検
査の試料を得る際に母体−胎児ＤＮＡが混合される時にも、２個体に由来することがある
。

図４に戻ると、方法４００は、１つまたは複数の外れ値を検出すること、および異常な
核型として特定するための考慮からその１つまたは複数の外れ値を除去することを、さら
に含むことがある。１つまたは複数の外れ値を検出することは、各染色体について線形回
帰モデル上で、ある閾値を超えるレバレッジ（ｈ_ｉ、ここで１／ｎ＜ｈ_ｉ＜１）を有する
、複数の試料のうちの１つまたは複数に目印を付けることを含むことがあり、その際に、
レバレッジは、ｎおよびｐの関数：

として決定され、上式で、ｐは、上記モデルにおける共変量の数であり、ｘ_ｉは、試料ｉ
についての共変量のベクトルを表し、

は、試料の母集団にわたる平均共変量のベクトルである。閾値は、約３から約５までとす
ることができる。

リード・カバレッジ・データは、ゲノムアラインメントされたシークエンスリードから
演算されることがあり、このシークエンスリードは、個々の試料について一塩基多型（Ｓ
ＮＰ）、挿入、および欠失（インデル）を検出することを目的として、本明細書のＫａｒ
ｙｏＳｃａｎ法の前に生成される。観測される対立遺伝子を２つのみ有するＳＮＰ（また
は、ある観測されるホモ接合対立遺伝子であって、この具体的な試料のシークエンスリー
ド中に観測されない参照ゲノムによって定義される第２の対立遺伝子とは異なるもの）は
、２対立遺伝子ＳＮＰと称する。２対立遺伝子ＳＮＰに焦点を合わせることによって、ゲ
ノム中の具体的な部位の対立遺伝子バランスを計算することができる。

さらに別の一態様では、対立遺伝子バランス解析を使用して、１つまたは複数の核型を
特定することができる。対立遺伝子バランスは、いくつのシークエンスリードが各対立遺
伝子を支持するかに関する測定量である。例えば、ヘテロ接合ＳＮＰが１００シークエン
スリードによってカバーされ、かつ試料がこのゲノム領域中で２倍体である場合、５０リ
ードの一方の対立遺伝子と５０リードの他方の対立遺伝子とを期待することができ、それ
により０．５／０．５の対立遺伝子バランスが生じる。両対立遺伝子の対立遺伝子バラン
スは、合算すると１となり、約０．５の対称性があることから、焦点は、より少数派の対
立遺伝子バランス（例えば、２つの対立遺伝子がカバレッジの点で厳密に同等である場合
に、より少ないリードを持つ対立遺伝子か、または無作為に選択された対立遺伝子）に当
てられる。実践では、観測される対立遺伝子バランスは、厳密に５０％であることは稀で
あるが、真の比率ｐを与えるサイズＮ（Ｎ＝アラインメントされたシークエンスリードの
数）の試料にわたって各対立遺伝子のリードがいくつ発生するかを反映する確率分布には
従うものとなる。理想的には、２倍体試料中のヘテロ接合ＳＮＰがｐ＝０．５を有するこ
とから、期待値０．５の２項分布を用いて、対立遺伝子バランスをモデル化することがで
きよう。

非２倍体領域（例えばトリソミー２１）を有する試料では、非２倍体領域中の２対立遺
伝子のヘテロ接合ＳＮＰは、期待される対立遺伝子バランス０．５を有さないものとなる
。一方の染色体が重複している場合、例えばトリソミー２１などでは、２／３の２１番染
色体のコピーが一方の対立遺伝子を有することになり、１／３の２１番染色体のコピーが
他方を有することになり、期待される対立遺伝子バランス約０．３３３を生じる。それゆ
え、中心傾向の測定量を用いて染色体全体にわたる対立遺伝子バランス分布をモデリング
することによって、対応の対立遺伝子バランスがおおよそ０．３３３に収束するのを確実
にすることで、リード深度モデルから得られるトリソミー２１のコールの正当性を立証す
ることができる。染色体中にわたる推定対立遺伝子バランスの中央値などの指標を使用し
てもよい。同様に、モノソミーの染色体については、対立遺伝子が１つのみ存在すること
ができ、特定されるヘテロ接合ＳＮＰはないものとなる。それゆえ、対立遺伝子バランス
は０または全く観測されないものとなり、ホモ接合ＳＮＰ（ヘミ接合性）のみ特定するこ
とができる。これらの領域は、ホモ接合性連続領域を介して特定することができる。

これらの例のどちらも、染色体全体の重複または欠失を前提とする。しかし、部分的な
染色体の重複および欠失もまた、対立遺伝子バランス分布に観測することができる。部分
的な染色体の事象を区別するため、中心傾向の局所推定を使用し、残りの染色体からこの
局所推定における偏差を特定することができる。実践では、対立遺伝子バランス中の分散
は、ＳＮＰをカバーするリードの数に比例するため、局所推定は、充分に多数の部位にわ
たって平滑化されて、個々の部位のもたらす総分散を低減するはずである。この平滑化を
達成するため、２０個のヘテロ接合２対立遺伝子のＳＮＰのウィンドウ中にわたるローリ
ング中央値を演算することができる。深いシークエンシングであるほど、試料サイズの増
加に起因して具体的な各部位で低い分散を有することから、このウィンドウのサイズは、
シークエンシング深度に応じて増加することも減少させることもできる。同様に、染色体
の一部にのみ広がるホモ接合性連続領域を特定することができる。

部分的な染色体事象に加えて、モザイク事象（全体または部分染色体）も、対立遺伝子
バランス分布の偏差に反映されるものとなる。モザイク事象は、シークエンシングされた
試料用にＤＮＡを提供した細胞集団のサブセットに起こる事象である。モザイク現象は、
体細胞の変異（がんにおけるものなど）の結果であるか、または初期の生殖系列の細胞分
裂におけるエラーを結果として生じることがある。例えば、全染色体の欠失が、シークエ
ンシングされた細胞の５０％にのみ起こる場合、欠失染色体由来のヘテロ接合ＳＮＰは、
２５％の期待される対立遺伝子バランスを、２５％のリード・カバレッジの欠乏に加えて
有するものとなる。そのため、対立遺伝子バランスを使用して、モザイク事象を区別する
こともできる。

全ての異常な核型が、異なる染色体数を結果として生じる訳ではない。片親ダイソミー
（ＵＰＤ）は、例えば、染色体が同一親由来の２コピーを有し、かつ他方の親由来のコピ
ーがない際に起こる。これらの事象は、リード・カバレッジの偏差に検出されることはな
いが、ヘテロ接合の対立遺伝子バランス（事象がモザイクである場合）から、またはホモ
接合性連続領域（事象がモザイクでない場合）から特定することができる。

染色体のカバレッジの変則性が、対立遺伝子バランスの変則性に起因せずに起こること
もある。例えば、染色体が４コピー（テトラソミー）に重複している場合、結果として得
られる核型は、各親を起源とする２つの染色体を有し、正常な対立遺伝子バランス約５０
％を生じることがある。このことは、モザイク事象と非モザイク事象の両方で同じ効果を
もたらすことになる。

図１１は、リード・カバレッジおよび対立遺伝子バランスの解析を組み込んだ、異常な
核型を検出するための方法の１例１１００を図説するフローチャートである。方法１１０
０は、便宜上ここに記載され、かつ方法フローの記載中に参照される、１つまたは複数の
指標を決定することができる。方法１１００は、バリアント対立遺伝子バランスを決定す
ることができ、この対立遺伝子バランスを、最小（代替の対立遺伝子リードの＃，参照の
対立遺伝子リードの＃）／総リード＃を計算することによって決定されるバリアント特異
的な指標とすることができる。一態様では、方法１１００は、１つまたは複数のＶＣＦフ
ァイル由来の「ＡＤ」（対立遺伝子深度）タグおよび「ＤＰ」（リード深度）タグを利用
して、バリアント対立遺伝子バランスを決定することがある。

方法１１００は、呼び出し可能な染色体長を決定することができ、この染色体長は、染
色体上のフィルタリングされていない最初と最後のエクソンの間の複数の塩基対の＃−オ
ーバーラップするセントロメア塩基の＃を計算することによって決定される、染色体特異
的な指標となり得る。セントロメア塩基について調整する際には、リード・カバレッジが
存在しないセントロメアに広がる一見大きな事象を考慮する。実践では、ゲノムのセント
ロメアの境界を、最も近いエクソン境界に調整することができる。同様に、フィルタリン
グされていない最初と最後のエクソンに制限する際には、エクソン・カバレッジのない長
いテロメア領域を、ならびにエクソン・カバレッジを欠いた腕全体を有する染色体（例え
ば、多くの末端動原体染色体）を考慮する。

方法１１００は、染色体ワイドなヘテロ接合の対立遺伝子バランス（ＣｈｒｏｍＨｅｔ
ＡＢと称する）を決定することができ、この対立遺伝子バランスは、推定上のヘテロ接合
ＳＮＰについてフィルタリングすることを可能にする染色体特異的な指標であり、それに
よって、バリアント対立遺伝子バランス＞０．０２（シークエンシング深度に応じて、閾
値を調整して０に近付けることも遠ざけることもできる）となる。ＣｈｒｏｍＨｅｔＡＢ
は、染色体内のフィルタリングされていない全てのバリアント間の染色体ワイドなヘテロ
接合ＳＮＰの対立遺伝子バランスを表す要約統計量（例えば中央値）となり得る。例えば
、ＣｈｒｏｍＨｅｔＡＢは、染色体内のフィルタリングされていない全てのバリアントに
ついての中央値（バリアント対立遺伝子バランス）を計算することによって、決定され得
る。特定のＳＮＰに関してＣｈｒｏｍＨｅｔＡＢを参照することによって、ＬｏｃａｌＨ
ｅｔＡＢＥｖｅｎｔまたはＲＯＨＥｖｅｎｔは、そのＳＮＰまたは事象が起こる染色
体についてＣｈｒｏｍＨｅｔＡＢ値を参照することができる。ＣｈｒｏｍＨｅｔＡＢは、
染色体内のフィルタリングされていない全てのバリアント間の染色体ワイドなヘテロ接合
ＳＮＰの対立遺伝子バランスを表す要約統計量（例えば中央値）となり得る。

方法１１００は、ヘテロ接合の対立遺伝子バランスの局所中央値（ＬｏｃａｌＨｅｔＡ
Ｂと称する）を決定することができ、その対立遺伝子バランスは、あり得るヘテロ接合Ｓ
ＮＰについてフィルタリングすることを可能にする、バリアント特異的な指標であり、そ
れによって、バリアント対立遺伝子バランス＞０．０２（シークエンシング深度に応じて
、閾値を調整して０に近付けることも遠ざけることもできる）となる。ＬｏｃａｌＨｅｔ
ＡＢは、２０個のＳＮＰのウィンドウおよび一定の末端を用いて、染色体全体にわたって
バリアント対立遺伝子バランスの移動中央値を計算することによって決定することができ
る。一態様では、ＬｏｃａｌＨｅｔＡＢを決定することは、染色体上のフィルタリングさ
れていない全てのバリアントにわたって、試料のヘテロ接合ＳＮＰの対立遺伝子バランス
の、平滑化されたサブ染色体スケールの（例えば局所的な）要約統計量（例えば移動中央
値）を決定することを含むことがある。

方法１１００は、ＬｏｃａｌＨｅｔＡＢ＜ＣｈｒｏｍＨｅｔＡＢをその全てが有する２
つ以上のＳＮＰの連続する領域（ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔと称する）を決定す
ることができる。方法１１００は、ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔ内の最初と最後の
ＳＮＰによって、座標（最初と最後の染色体位置）を定義することができる。染色体当た
りゼロから複数のＬｏｃａｌＨｅｔＡＢＥｖｅｎｔがあり得る。方法１１００は、Ｌｏ
ｃａｌＨｅｔＡＢＥｖｅｎｔについて正規化された「曲線下の面積」を計算することに
よって、ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔＡｒｅａを決定することができる。例えば
、ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔ内の隣接ＳＮＰの対について、ＰａｉｒｗｉｓｅＡ
ｒｅａ＝［ＣｈｒｏｍＨｅｔＡＢ−平均（ＬｏｃａｌＨｅｔＡＢ（ＳＮＰ１），Ｌｏｃａ
ｌＨｅｔＡＢ（ＳＮＰ２））］＊（ＳＮＰ２位置−ＳＮＰ１位置−オーバーラップするセ
ントロメア塩基対の＃）を決定する。最も小さな形態では、ＬｏｃａｌＨｅｔＡＢＥｖ
ｅｎｔは、厳密には２つの隣接ＳＮＰを有することがある。２つを超えるＳＮＰを伴うＬ
ｏｃａｌＨｅｔＡＢ事象は、Ｎ−１隣接ＳＮＰ対の鎖として見ることができ、ここでは、
Ｎ＝その事象でのＳＮＰの＃である。２つ以上のＳＮＰを伴うＬｏｃａｌＨｅｔＡＢ事象
を、和（ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔ中の全てのＮ−１隣接ＳＮＰ対についてのＰ
ａｉｒｗｉｓｅＡｒｅａ）／（呼び出し可能な染色体長＊ＣｈｒｏｍＨｅｔＡＢ）を計算
することによって決定することができる。

方法１１００は、最小値（ＬｏｃａｌＨｅｔＡＢ、ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔ
中の全てのＳＮＰに対する）を決定することによって、ＬｏｃａｌＨｅｔＡＢＥｖｅｎ
ｔについての要約対立遺伝子バランス（ＡＢ）統計量（ＬｏｃａｌＨｅｔＡＢＥｖｅｎ
ｔＡＢと称する）を決定することができる。ＬｏｃａｌＨｅｔＡＢは、対立遺伝子バラ
ンスの平滑化された（移動中央値）推定値であることから、上記の最小値は、事象全体に
ついての良い推定値である。しかし、代替の指標（例えば、平均値、中央値、第１の四分
位数など）が、他のアプリケーション（例えば、より大きなＳＮＰウィンドウサイズ、よ
り深いシークエンシング、全ゲノムのシークエンシングなど）にさらに良好に適すること
もある。

方法１１００は、ヘテロ接合性が殆どまたは全く観測されない染色体領域についてのバ
リアント特異的な指標である、ホモ接合性連続領域（ＲＯＨと称する）を決定することが
できる。ＲＯＨは、バリアント毎の二元（あり／なし）の目印であるが、支持となる指標
（例えば信頼スコア）を持たないことがある。一態様では、ＲＯＨを決定することは、参
照により本明細書にその全体を組み込まれるＮａｒａｓｉｍｈａｎ，Ｖ．，ｅｔａｌ．
（２０１６）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，３２（１１），１７４９−１７５１）によ
って記載される、ＢＣＦｔｏｏｌｓ／ＲｏＨ法の使用を含むことができる。ＲＯＨ決定の
選択肢の例としては、以下に限定されないが、Ａｕｔｏｚｙｇｏｕｓ−ｔｏ−Ｈａｒｄｙ
Ｗｅｉｎｂｅｒｇ推移確率（−ａ選択肢）＝６．６ｅ−０９、ＨａｒｄｙＷｅｉｎｂ
ｅｒｇ−ｔｏ−Ａｕｔｏｚｙｇｏｕｓ推移確率（−Ｈ選択肢）＝５．０ｅ−１０、インデ
ルを無視する（−Ｉ選択肢）、エクソン内のＳＮＰに制限する（すなわち側面に位置する
領域ＳＮＰがない）、および内部ＲＧＣ（ＥＶＥ）バリアント頻度を利用する、が挙げら
れる。一態様では、１つまたは複数の代替の方法を使用することができよう。例えば、参
照により本明細書にその全体を組み込まれるＰｕｒｃｅｌｌＳ，ＮｅａｌｅＢ，Ｔｏ
ｄｄ−ＢｒｏｗｎＫ，ｅｔａｌ．ＰＬＩＮＫ：ＡＴｏｏｌＳｅｔｆｏｒＷｈ
ｏｌｅ−ＧｅｎｏｍｅＡｓｓｏｃｉａｔｉｏｎａｎｄＰｏｐｕｌａｔｉｏｎ−Ｂａ
ｓｅｄＬｉｎｋａｇｅＡｎａｌｙｓｅｓ．ＡｍｅｒｉｃａｎＪｏｕｒｎａｌｏｆ
ＨｕｍａｎＧｅｎｅｔｉｃｓ．２００７；８１（３）：５５９−５７５によって記載
されるようなＰｌｉｎｋである。

方法１１００は、ＲＯＨとして予想される１つまたは複数のＳＮＰの連続する領域（Ｒ
ＯＨＥｖｅｎｔと称する）を決定することができる。事象の座標は、ＲＯＨＥｖｅｎ
ｔ内の最初と最後のＳＮＰの染色体位置として定義することができる。

図１１に戻ると、全試料のデータを、ブロック１１０２で品質管理（ＱＣ）フィルタリ
ングに供することができる。このデータは、例えば、ＶＣＦファイル（例えば、試料当た
り１つのＶＣＦファイル）、カバレッジの深度のファイル、および／または外部の品質管
理指標（例えば、ＢＡＭリード−マッピングファイルから演算されるＰｉｃａｒｄ指標）
を含むことがある。ＶＣＦファイルは、遺伝子配列のバリエーションについてマーカーお
よびジェノタイプデータを含むことがある。カバレッジの深度のファイルは、所与のヌク
レオチドまたはヌクレオチドの配列を含む複数のリードの標示を含むことがある。ＱＣフ
ィルタリングは、カバレッジの深度のファイル、ＶＣＦファイル、および／または外部の
品質管理指標に１つまたは複数の試料フィルタリング基準を適用することを含むことがあ
る。この１つまたは複数の試料フィルタリング基準は、例えば、標準的なコンタミネーシ
ョンフィルター（高いヘテロ接合対ホモ接合ＳＮＰコール比など）、低い配列カバレッジ
に基づくフィルタリング（２０Ｘカバレッジ以上で塩基の＜７５％）、および／または低
いＤＮＡ品質に基づくフィルタリング、それらの組合せなどを含むことがある。一態様で
は、ＱＣフィルタリングは、ＶＣＦファイルへ１つまたは複数のバリアントのフィルタリ
ング基準を適用することを含むことがある。１つまたは複数のバリアントのフィルタリン
グ基準は、例えば、２対立遺伝子のＳＮＰのみを解析すること（多対立遺伝子の部位およ
びインデルを除去する）、最小バリアント品質に基づくフィルタリング［ＱＤ＞５、ＧＴ
＞３０、ＶＱＳＲフィルター（バリアント品質スコアの再較正）をパスする］、最小リー
ド深度に基づくフィルタリング（ＤＰ＞＝２０）、および／または遺伝子座の品質に基づ
くフィルタリング［１．マッピング可能性＞９０％のエクソンのみとする、２．＞２コピ
ーが共通しているエクソンを除外する（例えば、多コピーのＣＮＶ遺伝子座）、３．マッ
ピング可能性の問題を持つ他の領域を除外する（例えばＨＬＡ遺伝子）］、それらの組合
せなどを含むことがある。

ブロック１１０４では、ブロック１１０２でＱＣフィルタリングをパスした試料に関連
するデータ上で、性別の割り当てを実施することができる。性別の割り当ては、最小のＹ
染色体リード・カバレッジ比（Ｘ染色体リード・カバレッジ比に比べて）を決定して、試
料が雄である（閾値を超える）か雌である（閾値を下回る）か決定することを含むことが
ある。図１３Ａは、全試料についてのＸ染色体対Ｙ染色体のカバレッジ比のプロットであ
り、雄（１３０２）および雌（１３０４）の試料を決定するため閾値が実線１３０６によ
って示されている。さらに、Ｙ染色体の重複を持つ雄の試料を、Ｙ染色体カバレッジ比の
閾値（破線１３０８）を用いて特定することができる。試料の性別が既知であるか、また
は試料について報告されていれば、既存の割り当てを使用して、適切な閾値を決定する一
助とすることができる。ブロック１１０４で性別が割り当てられた後、試料由来の各染色
体を、方法１１００の１つまたは複数の残りのブロックを介して処理することができる。

試料を雄とみなす場合、方法１１００は、ブロック１１０６に進むことになる。ブロッ
ク１１０６では、方法１１００は、Ｙ染色体のカバレッジが閾値よりも大きいか、例えば
０．００１５か否かを決定することができる。Ｙ染色体のカバレッジが閾値よりも大きい
場合、方法１１００は、Ｙ染色体の重複があることをブロック１１０８で決定することが
でき、Ｙ染色体を他の染色体とは独立に処理できる際にはブロック１１３８に進むことが
できる。Ｙ染色体のカバレッジが閾値よりも低い場合、方法１１００は、その試料が雄の
試料の正常なＹ染色体リードの遺伝子量を有し、それゆえＹ染色体上に起こる変則性が検
出されないことを、ブロック１１０８で決定することができる。

ブロック１１０４に戻ると、性別の割り当ては、試料が有すると期待されるＸ染色体が
１つであるか２つであるか（雄か雌か）を決定することを含むことがあり、その場合に、
方法１１００は、ブロック１１１０に進み、その試料についてＸ染色体を処理することに
なる。ブロック１１１０では、方法１１００は、データが雄に由来するか否かを決定する
ことができる。ブロック１１１０で、データが雄に由来することが決定される場合、方法
１１００は、ブロック１１１２および１１１４に進むことになる。ブロック１１１０で、
データが雄に由来しないことが決定される場合、方法１１００は、ブロック１１１２、１
１１４、１１１６、および１１１８に進むことになる。ブロック１１０４に戻ると、性別
の割り当ては、データが常染色体を含むことを決定することを含むことがあり、その場合
に、方法１１００は、ブロック１１１２、１１１４、１１１６、および１１１８に進むこ
とになる。

ブロック１１１２で、方法１１００は、リード・カバレッジの変則性を検出することが
できる。図１および／または図４の１つまたは複数の部分に関して、ブロック１１１２を
、本明細書に記載されるように実施することができる。ブロック１１１４では、方法１１
００は、ＣｈｒｏｍＨｅｔＡＢの変則性を検出することができる。ブロック１１１６では
、方法１１００は、ＲＯＨの変則性を検出することができる。ブロック１１１８では、方
法１１００は、ＬｏｃａｌＨｅｔＡＢの変則性を検出することができる。

ブロック１１１４、１１１６、および１１１８は、３つの対立遺伝子バランス指標（
それぞれＣｈｒｏｍＨｅｔＡＢ、ＲＯＨ、およびＬｏｃａｌＨｅｔＡＢ）の決定に関連し
た。これら３つの対立遺伝子バランス指標を、異なるタイプの変則性を検出するために使
用することができるが、オーバーラップする形跡を結果として生じることがある。例えば
、構成上の染色体の欠失（全体または部分染色体）を特定するため、これらの領域にヘテ
ロ接合性が観測されるはずがない際に、ＲＯＨを使用することができる。同様に、ＲＯＨ
は、大きな片親ダイソミー（ＵＰＤ）事象（コピーニュートラル、全体または部分染色体
）を特定することができるが、重複を特定するためには有用ではない。しかし、Ｌｏｃａ
ｌＨｅｔＡＢ指標およびＣｈｒｏｍＨｅｔＡＢ指標もまた、０に近いバリアント対立遺伝
子バランス値を有する推定上のヘテロ接合性に類似した、少しのノイズ（シークエンシン
グ・エラーなどの技術的なアーチファクトに起因する）を特定することによって、ＲＯＨ
事象内に変則的なシグナルを生じることがある。そして、これらのシグナルを、ＲＯＨの
変則性の代わりに無視することができる（図１２を参照、オーバーラップするＬｏｃａｌ
ＨｅｔＡＢ事象を用いてＲＯＨ事象を表す）。図１２は、４番染色体に関する試料の対立
遺伝子バランスのプロットの１例であり、ここでは、長いホモ接合性連続領域が検出され
（１２０２）、この連続領域は、変則的な領域中のホモ接合ＳＮＰ間に少しの非ゼロの対
立遺伝子バランスがあるために、オーバーラップするＬｏｃａｌＨｅｔＡＢＥｖｅｎｔ
（（１２０４）を有する。全染色体の重複または他のモザイクの全染色体の事象の場合、
ＣｈｒｏｍＨｅｔＡＢは、最も妥当な指標となり得る。そして、それは、トリソミーにつ
いてはおおよそ１／３、あるいはコピー数を表す割合およびモザイク事象の細胞の割合に
等しいはずである。部分染色体の事象については、ＬｏｃａｌＨｅｔＡＢは、事象の開始
および終了の座標を検出することになる際に、最も妥当な指標となり得る。しかし、大き
な部分染色体の事象は、染色体ワイドなＣｈｒｏｍＨｅｔＡＢ指標に影響を与え、Ｌｏｃ
ａｌＨｅｔＡＢ事象によってさらに良好に捕捉される変則的なシグナルを作り出すことが
ある。

そのため、各指標によって与えられる形跡をバランスさせること（およびそれぞれをリ
ード・カバレッジの変則性のシグナルに対して解釈すること）を、染色体の変則性の検出
および特徴付けを自動化するコンポーネントとすることができる。感度、特異性、規模、
および背景に差異があるこれらのシグナルの一元化を扱うために、推定上変則的な３段の
シグナルを各指標について定義することができ、そこでは、段１のシグナルが最も重要で
あり、段３は最も重要ではない。段の格付けを使用して、これらの不均一な指標を標準化
および一元化し、どのシグナルが最も妥当であるかという決定を簡便にすることができる
。他の数の段を使用および規定することができる。

ブロック１１１２に戻ると、リード・カバレッジの変則性の検出は、以下の段の定義を
利用することができる。段１は、リード・カバレッジのｐ値＜閾値、例えば０．０５／（
供試された染色体／試料対の＃）などを含み得る。Ｂｏｎｆｅｒｒｏｎｉの補正を、ファ
ミリーワイズ・エラー率＝５％を用いて適用することができる。段２は、段１および染色
体特異的なＦＤＲ補正されたｐ値（ｑ値）＜閾値、例えば０．０５などをパスしないこと
を含み得る。Ｂｅｎｊａｍｉｎｉ−ＨｏｃｈｂｅｒｇのＦＤＲ補正を、染色体当たりの偽
発見率＝５％を用いて適用することができる。段３は、段１または段２およびリード・カ
バレッジのｐ値＜閾値、例えば０．０５などをパスしないことを含み得る。１つまたは複
数の例外を、Ｘ染色体解析に適用することができる。例えば、推定される染色体遺伝子量
の割合の絶対値（大きさ）が＞５％である場合に、Ｘ染色体に関する段３シグナルを、段
２に昇格させることができる。

ブロック１１１４に戻ると、バリアント対立遺伝子バランス指標は、より少ないリード
を持つ２対立遺伝子ＳＮＰの対立遺伝子由来のリードの割合を常に反映することから、所
与の染色体に関する核型上は正常な２倍体の試料についての期待ＣｈｒｏｍＨｅｔＡＢ値
は、厳密には５０％となりそうにないが、シークエンシング深度の増加につれて５０％に
近付く。それゆえ、線形回帰を、所与の染色体（Ｘ染色体については雌のみ）に関して全
試料についてのＣｈｒｏｍＨｅｔＡＢ値に、ＰＣＴＴＡＲＧＥＴＢＡＳＥＳ５０Ｘ品質管
理指標（Ｐｉｃａｒｄを用いて試料当たり計算される）に対してフィッティングすること
ができる［図１３Ｂ、ＰＣＴＴＡＲＧＥＴＢＡＳＥＳ５０Ｘ値の増加に対して、核型上は
正常な試料間でＣｈｒｏｍＨｅｔＡＢ値が増加すること、および変則的なシグナル（着色
された点）を有意性の異なる段で特定することを示す］。ひとたび線形回帰モデルがフィ
ッティングされていれば、試料毎のＣｈｒｏｍＨｅｔＡＢ値（観測ＣｈｒｏｍＨｅｔＡＢ
−上記回帰によって規定されるような期待ＣｈｒｏｍＨｅｔＡＢ）の残差について、Ｚス
コアを計算することができる。このＺスコアを、Ｚ＝（試料の残差）／（回帰モデルの残
差の標準偏差）として計算することができる。このＺスコアを、ｐ値に変換することがで
きる。

ブロック１１１４では、ＣｈｒｏｍＨｅｔＡＢの変則性の検出は、以下の段の定義を利
用することができる。段１は、ＣｈｒｏｍＨｅｔＡＢの残差のｐ値＜閾値、例えば０．０
５／（供試された染色体／試料対の＃）などを含み得る。Ｂｏｎｆｅｒｒｏｎｉの補正を
、ファミリーワイズ・エラー率＝５％を用いて適用することができる。段２は、段１をパ
スしないこと、および染色体特異的なＦＤＲ補正されたｐ値（ｑ値）＜閾値、例えば０．
０５などをパスすることを含み得る。Ｂｅｎｊａｍｉｎｉ−Ｈｏｃｈｂｅｒｇを、染色体
当たりＦＤＲ補正偽発見率＝５％を用いて適用することができる。段３は、段１または段
２およびＣｈｒｏｍＨｅｔＡＢの残差のｐ値＜閾値、例えば０．０５などをパスしないこ
とを含み得る。１つまたは複数の例外を、Ｘ染色体解析に適用することができる。試料が
雄である場合、指標の計算に＞７５ＳＮＰが含まれず、かつＣｈｒｏｍＨｅｔＡＢ＞０
．１５でない限り、ＣｈｒｏｍＨｅｔＡＢを無視し、かつ試験しないことがある。これら
のフィルターは、核型上は正常な雄試料に由来するノイズを除去するとともに、期待され
る（すなわち単一のＸ染色体についてはゼロ）よりもはるかに大きなＣｈｒｏｍＨｅｔＡ
Ｂ値を雄でのＸ染色体の重複が有する場合に、それら重複を含めること、および信頼を以
てＣｈｒｏｍＨｅｔＡＢ値を呼び出すのに使用される充分な数のＳＮＰを有することを可
能にする（図１４、雄の試料についてＸ染色体に関する供試されたＣｈｒｏｍＨｅｔＡＢ
値および推定上のヘテロ接合ＳＮＰの数を示し、実線によって標示される最小閾値を伴う
）。この背景下では、雄の試料を規定することは、核型上正常な状態を想定して１つのＸ
と１つのＹ染色体の期待値を持つように、割り当て（ＸおよびＹのリード・カバレッジに
基づいて）を差し向けることができる。これらのフィルターをパスするＸ染色体由来の任
意の雄ＣｈｒｏｍＨｅｔＡＢシグナルを、段１に割り当てることができる（ｐ値に関わら
ず）。一態様では、ＣｈｒｏｍＨｅｔＡＢの変則性を検出することは、核型上は正常な試
料に期待されるＣｈｒｏｍＨｅｔＡＢ値（または値の範囲）よりも有意に小さなＣｈｒｏ
ｍＨｅｔＡＢ値を持つ試料を特定することを含むことがある。

ブロック１１１６に戻ると、ＲＯＨの変則性を検出することができる。小さなＲＯＨ事
象は、核型上は正常な試料に比較的共通し、例えば、同族の試料間で特に頻度が高いこと
がある。それゆえ、ＲＯＨ事象についての最小サイズの閾値が、大きな染色体規模の事象
のみを捕捉するように規定されることがある。真にホモ接合なバリアントが、技術的なア
ーチファクトに起因して、非ゼロのバリアント対立遺伝子バランスを有する際に、ＲＯＨ
事象の検出は難題となることがある。その結果、いくつかの大きなＲＯＨ事象は、２つ以
上のＲＯＨ事象に断片化する（図１２）。そのため、染色体内の独立したＲＯＨ事象は、
組合せで考慮される。ＲＯＨの変則性の検出は、以下の段の定義を利用することができる
。長さ（オーバーラップするセントロメア塩基を除外する）＜５，０００，０００ｂｐを
有するＲＯＨ事象は、フィルタリングされることがある。段１は、フィルタリングされて
いないＲＯＨ事象＞＝２０，０００，０００に由来する非セントロメアＲＯＨ塩基の総（
ゲノムワイドな）数を含み得る。２は、段１をパスしないフィルタリングされていないＲ
ＯＨ事象を含み得る。段１つまたは複数の例外が、Ｘ染色体解析に適用されることがある
。Ｘ染色体に関する雄の試料についての全てのＲＯＨシグナルは、無視することができる
。この背景下では、雄の試料を規定することは、核型上正常な状態を想定して、１つのＸ
と１つのＹ染色体の期待値を持つように、割り当て（ＸおよびＹのリード・カバレッジに
基づいて）を差し向けることができる。

ブロック１１１８に戻ると、ＬｏｃａｌＨｅｔＡＢの変則性を検出することができる。
質的には、有意なＬｏｃａｌＨｅｔＡＢＥｖｅｎｔの変則性は、大きなＬｏｃａｌＨｅ
ｔＡＢＥｖｅｎｔＡｒｅａ指標を有し、含まれる数多くのＳＮＰによって支持されて
いるはずである。線形関数は、ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔＡｒｅａおよびＬｏ
ｃａｌＨｅｔＡＢＥｖｅｎｔに含まれるＳＮＰの＃（「ＳＮＰの＃」）に関連するエク
ソームデータセットに、経験的にフィッティングするように定義することができ、その際
に、同じ傾き係数（例えば、具体的なＬｏｃａｌＨｅｔＡＢＥｖｅｎｔＡｒｅａを有
する事象に必要なＳＮＰの最小＃）に異なる切片を用いて、段の定義を規定する。面積＞
０．０２（垂直線）を持つ全てのＬｏｃａｌＨｅｔＡＢ事象（点）、および斜線間の領域
に基づく段へのそれらの分離（赤点は、オーバーラップするＲＯＨ事象の存在を標示し、
ＬｏｃａｌＨｅｔＡＢ事象が変則性を検出しているという形跡を支持することを示す）を
示す、図１５を参照されたい。ＬｏｃａｌＨｅｔＡＢの変則性の検出は、以下の段の定義
を利用することができる。ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔＡｒｅａ＜０．０２であ
る事象を、フィルタリングすることができる。段１は、ＳＮＰの＃＋（ＬｏｃａｌＨｅｔ
ＡＢＥｖｅｎｔＡｒｅａ＊第１の量、例えば３０００など）＞＝第２の量、例えば２
３０などを含み得る。段２は、ＳＮＰの＃＋（ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔＡｒ
ｅａ＊第１の量、例えば３０００など）＞＝第２の量、例えば１７０などを含み得る。段
３は、ＳＮＰの＃＋（ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔＡｒｅａ＊第１の量、例えば
３０００など）＞＝第２の量、例えば１１０などを含み得る。１つまたは複数の例外が、
Ｘ染色体解析に適用されることがある。Ｘ染色体に関する雄の試料についての全てのＬｏ
ｃａｌＨｅｔＡＢシグナルは、無視される。この背景下では、雄の試料を規定することは
、核型上正常な状態を想定して、１つのＸと１つのＹ染色体の期待値を持つように、割り
当て（ＸおよびＹのリード・カバレッジに基づいて）を差し向けることができる。一態様
では、ＬｏｃａｌＨｅｔＡＢの変則性を検出することは、ＬｏｃａｌＨｅｔＡＢ値が染色
体領域中にわたる対応のＣｈｒｏｍＨｅｔＡＢ値を下回る（例えば、有意に下回る）際に
、部分染色体の変則性の可能性を標示することを含むことがある。

開示される指標についてブロック１１１２、１１１４、１１１６、および１１１８で実
施される解析は、染色体の変則性の予測に寄与する。しかし、これらの指標は、ブロック
１１３８の核型の予測の前に、段の格付けと共にアノテートされ、非変則的な指標を除去
するためにフィルタリングされ、ブロック１１３６で統合されることがある。ブロック１
１２０では、方法１１００は、ブロック１１１２、１１１４、１１１６、および１１１８
から得た各指標によって特定される変則的な事象を報告し、各事象を段（例えば、段１、
段２、段３など）にスコア付けすることができ、この段は、指標間でスケーリングを標準
化し、異常な核型（染色体の変則性）の評価のための統合を単純なものとする。一態様で
は、方法１１００は、使用される１つまたは複数の段（例えば、段１、段２、段３など）
のそれぞれについて、事象を報告および／またはスコア付けすることができる。ブロック
１１１２では、リード・カバレッジの変則性の指標を、染色体の遺伝子量を評価するため
に使用することができ、残りの３つを使用して、対立遺伝子バランスおよび接合性（Ｃｈ
ｒｏｍＭｅｄＡＢ、ＲＯＨ、およびＬｏｃａｌＨｅｔＡＢの事象）を評価することができ
る。

ブロック１１２２では、方法１１００は、事象がコピー獲得、コピー欠損を反映するの
か、コピーニュートラルなのかを決定することができる。この評価を、リード・カバレッ
ジの変則性の存在または不在に主に基づいて作製することができるが、対立遺伝子バラン
ス関連指標から得られる補足的な情報も、考慮することができる。例えば、全ての段１の
リード・カバレッジの変則性は、独立して獲得または欠損として予想されることがあるが
、段２および／または段３のリード・カバレッジの変則性は、支持となる対立遺伝子バラ
ンスの変則性も同じ染色体上に検出される場合に、獲得または欠損とみなされるのみであ
ることがある。獲得または欠損を呼び出すために検出されるリード・カバレッジの変則性
がない場合に、その事象は、コピーニュートラルであるものと想定され、低い品質リード
・カバレッジの変則性が検出されるもののフィルタリングされるか否かが不明確であるも
のとして、さらに目印を付けられることがある。

ブロック１１２２で、事象がコピー獲得を反映することを決定する場合に、方法１１０
０は、ブロック１１２４に進んで、染色体上の変則的なＬｏｃａｌＨｅｔＡＢ事象とＣｈ
ｒｏｍＨｅｔＡＢ事象との比較に基づいて、基となる染色体が全染色体か部分染色体かを
決定することができる。例えば、ＬｏｃａｌＨｅｔＡＢ事象が、オーバーラップするＣｈ
ｒｏｍＨｅｔＡＢ事象よりも低い段の格付け（例えば、より有意な）を有する場合（また
は、報告されているＣｈｒｏｍＨｅｔＡＢ事象がない場合）、この事象は、ＬｏｃａｌＨ
ｅｔＡＢ事象がより有意であることを前提として、部分染色体として予想されることがあ
る。逆に、より低い段のＣｈｒｏｍＨｅｔＡＢ事象は、全染色体の事象がその場合である
可能性が高いことを示唆するものとなろう。両方の事象が、同じ段の格付けで起こる場合
、方法は、その変則性を不明確であるものと報告することがある、および／または一方の
事象をより重い重みづけのあるものとして偏重する（例えば、ＬｏｃａｌＨｅｔＡＢを偏
重し、部分染色体の事象として呼び出す）ことがある。さらに、方法は、リード・カバレ
ッジ１１から演算された染色体の割合の獲得の推定値を、各対立遺伝子バランスの変則性
から得られる同様の推定値に比較することもあり、それらの推定値がリード・カバレッジ
由来の推定値にどれほど密に適合するかによって、対立遺伝子バランス事象を重み付けす
ることがある。基となる染色体の変則性が予想されるのが、全染色体（ＣｈｒｏｍＨｅｔ
ＡＢ）であろうと部分染色体（ＬｏｃａｌＨｅｔＡＢ）であろうと、方法１１００は、ブ
ロック１１２６に進み、それぞれの対立遺伝子バランス指標を利用して、コピー獲得がモ
ザイク事象であるか否かを、ヘテロ接合の対立遺伝子バランスの推定値がどれほど１／Ｎ
に近いかを決定することによって［ここで、Ｎは、予想される染色体のコピーの数である
（例えば、単コピーの常染色体の獲得については１／３である）］決定することができる
。この期待レート（例えば１／３±０．０２）付近のエラー閾値を適用して、モザイク現
象について二元（ありまたはなし）の分類を作ることがある。オーバーラップするＬｏｃ
ａｌＨｅｔＡＢ事象もＣｈｒｏｍＨｅｔＡＢ事象も報告されていない場合、染色体および
モザイクの割合の推定値を不明確であるものと割り当てることがある、および／またはデ
フォルト値を設定することがある。

ブロック１１２２で、その事象がコピー欠損を反映することが決定される場合、方法１
１００は、ブロック１１２８に進み、そのコピー欠損がモザイク事象であるか否かを、Ｒ
ＯＨを利用することによって決定することができる。コピー欠損がモザイクではない（例
えば、ＲＯＨ事象が検出されている）場合、方法１１００は、ＲＯＨを利用し、どの呼び
出し可能な染色体の比率がＲＯＨ事象によってカバーされるかを評価することによって、
基となる染色体の変則性が全体であるか部分であるかを決定することができる。コピー欠
損がモザイクである（例えば、報告されているＲＯＨ事象がない）場合、方法１１００は
、報告されたＣｈｒｏｍＨｅｔＡＢ事象およびＬｏｃａｌＨｅｔＡＢ事象から得られた段
の格付けを利用および比較して、基となる染色体が全体であるか部分であるかを決定する
ことができる。この評価は、コピー獲得のそれと同様であり（ブロック１１２４）、その
際に、より有意なＬｏｃａｌＨｅｔＡＢ事象が、部分染色体の事象を標示することがあり
、より有意なＣｈｒｏｍＨｅｔＡＢ事象が、全染色体の事象を標示することがあり、対立
遺伝子バランスに基づく染色体の割合の推定値は、リード・カバレッジ事象の染色体の割
合の推定値に比較することができる。

ブロック１１２２で、その事象がコピーニュートラルであることが決定される場合、方
法１１００は、ブロック１１２８に進み、そのコピーニュートラルな事象がモザイクであ
るか否かを、ＲＯＨを利用して決定することができる。コピーニュートラルな事象がモザ
イクではない（例えば、ＲＯＨ事象が報告されている）場合、方法１１００は、ＲＯＨを
利用して、基となる染色体が全体であるか部分であるかを決定することができる。コピー
ニュートラルな事象がモザイクである場合、方法１１００は、ＣｈｒｏｍＨｅｔＡＢおよ
びＬｏｃａｌＨｅｔＡＢを利用して、基となる染色体が全体であるか部分であるかを決定
することができる。

ブロック１１２６、１１３０、および１１３４の出力は、ブロック１１３６に流れ、こ
こでは、どの変則性も、１）コピーニュートラル、コピー獲得、またはコピー欠損の予測
；２）全染色体または部分染色体の事象の予測；３）モザイクであるかモザイクでないか
の予測；４）最後の段の格付けであって、染色体に関して報告された全事象についての最
小の（最も有意な）段の格付けに等しいものとできるか、またはそれらが複数の中段の事
象を有する場合に、追加的に、上位のもしくは下位の重みの変則性に改変することができ
る（例えば、支持となる段２のＬｏｃａｌＨｅｔＡＢ事象を伴う段２のリード・カバレッ
ジ事象は、段１とみなされることがある）もの；および５）染色体、それらの段の格付け
、およびそれらが主要なまたは支持となる事象として選ばれたか否か（例えば、非モザイ
ク、段１のリード・カバレッジを持つ全染色体の欠損、ＲＯＨ、およびＣｈｒｏｍＨｅｔ
ＡＢ事象について、リード・カバレッジおよびＲＯＨは、主要な事象であるが、Ｃｈｒｏ
ｍＨｅｔＡＢは、オーバーラップするＲＯＨの事象によって出し抜かれたことを考えると
、段１であるとはいえ支持となる事象である）について報告される事象のいくつかまたは
全ての要約；のうち１つまたは複数と共に報告することができる。ブロック１１３６は、
ゼロまたは複数の染色体に由来する変則性を受信し、それらを試料について統合し、次い
で、ブロック１１３８に進んで、最終的な核型の予測を行う。

ブロック１１３８の出力は、核型の予想を表し、その際、いくつかまたは全ての染色体
の変則性は、試料について統合されており、期待される核型に対して解釈されている（ブ
ロック１１０４から得られる性別の割り当てを想定して）。これは、従来の核型コーディ
ング（例えば、「４７、ＸＸＹ」）ならびに／または変則性およびそれらの支持となる情
報の一覧として表されることがある。自動化された核型予測の不明確性と、ある特定の複
雑な核型（例えば同腕染色体）が自動的に容易に解釈されないユニークなパターンを有す
るという事実とを考慮して、支持となるリード・カバレッジおよび対立遺伝子バランスの
診断用プロットを、試料毎にブロック１１３８によって演算することができ、それによっ
て、予想される染色体の変則性およびそれらの支持となる形跡を手動で精査することが可
能になる。一態様では、最終的な変則的な核型のコールは、試料；染色体；開始／終了座
標；遺伝子量の変化ｖｓコピーニュートラルの予測（獲得、欠損、ニュートラル、不明）
；全染色体ｖｓ部分染色体の事象の予測（全体、部分、不明）；予想されるモザイク事象
（あり、なし、不明）；リード・カバレッジから得られる推定割合（すなわち、染色体の
割合＊モザイク割合、ここで、単コピーかつ非モザイクの染色体の獲得＝１、または欠損
＝−１）；対立遺伝子バランスから得られる推定割合（２つ以上存在する場合に最も妥当
であるものとみなされる、変則的な対立遺伝子バランスの指標に基づく）；この試料／染
色体対についての全ての段３以上の変則的なシグナルの要約；最終的な一元化される段の
格付け；支持となるリード・カバレッジおよび対立遺伝子バランスの診断用プロット（図
２、図３、図５、図６、図７、図８、図９、および／または図１０に図説されたタイプな
ど）であって、核型を手動で精査および分類することを可能にするもの；それらの組合せ
など；のうち１つまたは複数を含むことができる。

例示的な一態様では、方法およびシステムを、図１７に図説されるようにおよび下記に
記載されるように、コンピュータ１７０１上に実装することができる。同様に、開示され
る方法およびシステムは、１つまたは複数のコンピュータを利用して、１つまたは複数の
場所にある１つまたは複数の機能を実施することができる。図１７は、開示される方法を
実施するための例示的なオペレーティング環境を図説するブロック図である。この例示的
なオペレーティング環境は、オペレーティング環境の１例に過ぎず、オペレーティング環
境アーキテクチャの使用または機能性の範囲への何らかの限定を示唆することを意図する
ものではない。上記例示的なオペレーティング環境に図説されるコンポーネントのいずれ
か１つまたは組合せに関連して何らかの依存性または要求を有するものと解釈されるべき
オペレーティング環境はない。

本願の方法およびシステムを、非常に数多くの他の汎用または特殊用途のコンピューテ
ィングシステム環境または構成を用いて、稼働可能とすることができる。このシステムお
よび方法を用いた使用に適するものとし得る周知のコンピューティングシステム、環境、
および／または構成の例としては、以下に限定されないが、パーソナル・コンピュータ、
サーバ・コンピュータ、ラップトップ・デバイス、およびマルチプロセッサ・システムが
挙げられる。追加の例としては、セット・トップ・ボックス、プログラム可能な家庭用電
子製品、ネットワークＰＣ、ミニコンピュータ、メインフレーム・コンピュータ、上記の
システムまたはデバイスのいずれかを含む分散コンピューティング環境などが挙げられる
。

開示される方法およびシステムの処理は、ソフトウェア・コンポーネントによって実施
することができる。開示されるシステムおよび方法は、プログラム・モジュールなど、１
つまたは複数のコンピュータまたは他のデバイスによって実行されるコンピュータ実行可
能な命令の一般的な文脈で記載することができる。一般に、プログラム・モジュールは、
具体的なタスクを実施するかまたは具体的な抽象データ・タイプを実装する、コンピュー
タ・コード、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを
含む。開示される方法は、グリッドベースおよび分散型のコンピューティング環境で実践
することもでき、そこでは、通信ネットワークを通じて連結されている遠隔処理デバイス
によって、タスクが実施される。分散コンピューティング環境では、プログラム・モジュ
ールは、メモリ記憶デバイスを含めた、局所と遠隔の両方でのコンピュータ記憶媒体に位
置することができる。

さらに、当業者は、本明細書に開示されるシステムおよび方法を、コンピュータ１７０
１の形態の汎用コンピューティング・デバイスを介して実装できることを認識することに
なる。コンピュータ１７０１のコンポーネントとしては、以下に限定されないが、１つま
たは複数のプロセッサ１７０３、システム・メモリ１７１２、および１つまたは複数のプ
ロセッサ１７０３を含む様々なシステム・コンポーネントをシステム・メモリ１７１２に
連結するシステム・バス１７１３を挙げることができる。このシステムは、並列演算を利
用することができる。

システム・バス１７１３は、可能な複数のタイプのバス構造のうちの１つまたは複数を
表し、そのようなものとしては、メモリ・バスまたはメモリ・コントローラ、周辺装置用
バス、高速グラフィックス・ポート、または種々のバス・アーキテクチャのいずれかを使
用したローカル・バスが挙げられる。バス１７１３およびこの記載に指定された全てのバ
スはまた、有線または無線のネットワーク接続中にわたって実装することもでき、１つま
たは複数のプロセッサ１７０３、大量記憶デバイス１７０４、オペレーティング・システ
ム１７０５、ＫａｒｙｏＳｃａｎソフトウェア１７０６、ＫａｒｙｏＳｃａｎデータ１７
０７、ネットワーク・アダプタ１７０８、システム・メモリ１７１２、入力／出力インタ
ーフェース１７１０、ディスプレイ・アダプタ１７０９、ディスプレイ・デバイス１７１
１、およびヒト機械インターフェース１７０２を含むサブシステムのそれぞれは、物理的
に隔てられた場所で１つまたは複数の遠隔コンピューティング・デバイス１７１４ａ、ｂ
、ｃ内に含有されることがあり、それらのデバイスは、完全に分散しているシステムを事
実上実装するこの形態のバスを通じて接続されている。

コンピュータ１７０１は、典型的には、種々のコンピュータ読み取り可能な媒体を含む
。例示的な読み取り可能な媒体は、コンピュータ１７０１がアクセス可能な任意の利用可
能な媒体とすることができ、例えば、以下に限定することを意味しないが、揮発性および
非揮発性の両方の媒体、取り外し可能なおよび取り外し不可能な媒体を含む。システム・
メモリ１７１２は、コンピュータ読み取り可能な媒体を、ランダム・アクセス・メモリ（
ＲＡＭ）などの揮発性メモリ、および／またはリード・オンリ・メモリ（ＲＯＭ）などの
非揮発性のメモリの形態で含む。システム・メモリ１７１２は、典型的には、Ｋａｒｙｏ
Ｓｃａｎデータ１７０７などのデータ、および／またはオペレーティング・システム１７
０５などのプログラム・モジュール、ならびに１つまたは複数のプロセッサ１７０３に直
ちにアクセス可能なおよび／もしくはそのプロセッサによって現在稼働しているＫａｒｙ
ｏＳｃａｎソフトウェア１７０６を含有する。ＫａｒｙｏＳｃａｎデータ１７０７は、リ
ード・カバレッジ・データおよび／または期待リード・カバレッジ・データを含むことが
できる。

別の態様では、コンピュータ１７０１はまた、他の取り外し可能な／取り外し不可能な
、揮発性の／非揮発性のコンピュータ記憶媒体を含むことができる。例として、図１７は
、コンピュータ・コードの非揮発性の記憶装置、コンピュータ読み取り可能な命令、デー
タ構造、プログラム・モジュール、およびコンピュータ１７０１についての他のデータを
提供することができる、大量記憶デバイス１７０４を図説する。例えば、以下に限定する
ことを意味しないが、大量記憶デバイス１７０４を、ハードディスク、取り外し可能な磁
気ディスク、取り外し可能な光学ディスク、磁気カセットまたは他の磁気記憶デバイス、
フラッシュメモリ・カード、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他
の光学記憶装置、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（Ｒ
ＯＭ）、電子的に消去可能なプログラム可能なリード・オンリ・メモリ（ＥＥＰＲＯＭ）
などとすることができる。

任意選択で、任意の数のプログラム・モジュールを、例としてオペレーティング・シス
テム１７０５およびＫａｒｙｏＳｃａｎソフトウェア１７０６を含む大量記憶デバイス１
７０４上に記憶することができる。オペレーティング・システム１７０５およびＫａｒｙ
ｏＳｃａｎソフトウェア１７０６（またはそれらのいくつかの組合せ）のそれぞれは、プ
ログラミングおよびＫａｒｙｏＳｃａｎソフトウェア１７０６のエレメントを含むことが
ある。ＫａｒｙｏＳｃａｎデータ１７０７も、大量記憶デバイス１７０４に記憶すること
ができる。ＫａｒｙｏＳｃａｎデータ１７０７を、当技術分野に公知の１つまたは複数の
データベースのいずれかに記憶することができる。そのようなデータベースの例としては
、ＤＢ２（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ａｃｃｅｓｓ、Ｍｉｃｒｏｓｏ
ｆｔ（登録商標）ＳＱＬＳｅｒｖｅｒ、Ｏｒａｃｌｅ（登録商標）、ｍｙＳＱＬ、Ｐｏ
ｓｔｇｒｅＳＱＬなどが挙げられる。データベースを、複数のシステムにわたって集約化
または分散させることができる。

別の態様では、ユーザは、入力デバイス（示さず）を介して、コンピュータ１７０１内
にコマンドおよび情報を入力することができる。そのような入力デバイスの例としては、
以下に限定されないが、キーボード、指示デバイス（例えば「マウス」）、マイクロホン
、ジョイスティック、スキャナー、グローブなどの触覚入力デバイス、および他の身体被
覆物などが挙げられる。これらのおよび他の入力デバイスは、システム・バス１７１３に
連結されているヒト機械インターフェース１７０２を介して、１つまたは複数のプロセッ
サ１７０３に接続することができるが、パラレル・ポート、ゲーム・ポート、ＩＥＥＥ
１３９４Ｐｏｒｔ（Ｆｉｒｅｗｉｒｅポートとしても知られる）、シリアル・ポートや
ユニバーサル・シリアル・バス（ＵＳＢ）などの他のインターフェースおよびバス構造に
よって接続することができる。

さらに別の態様では、ディスプレイ・デバイス１７１１は、ディスプレイ・アダプタ１
７０９などのインターフェースを介して、システム・バス１７１３に接続することもでき
る。コンピュータ１７０１は、２つ以上のディスプレイ・アダプタ１７０９を有すること
ができ、コンピュータ１７０１は、２つ以上のディスプレイ・デバイス１７１１を有する
ことができるものと考えられる。例えば、ディスプレイ・デバイスを、モニター、ＬＣＤ
（液晶ディスプレイ）、またはプロジェクタとすることができる。ディスプレイ・デバイ
ス１７１１に加えて、他の出力周辺装置デバイスは、入力／出力インターフェース１７１
０を介してコンピュータ１７０１に接続できる、スピーカー（示さず）やプリンタ（示さ
ず）などのコンポーネントを含むことができる。任意の方法のステップおよび／または結
果は、任意の形態で出力デバイスに出力することができる。そのような出力は、任意の形
態の視覚的な表示とすることができ、そのようなものとしては、以下に限定されないが、
本文による、図に拠る、アニメーションの、音声の、触覚に拠るなどのものが挙げられる
。ディスプレイ１７１１およびコンピュータ１７０１は、１つのデバイスの一部、または
別々のデバイスとすることができる。

コンピュータ１７０１は、１つまたは複数の遠隔コンピューティング・デバイス１７１
４ａ、ｂ、ｃとの論理接続を用いて、ネットワーク化環境で稼働することができる。例と
して、遠隔コンピューティング・デバイスを、パーソナル・コンピュータ、ポータブル・
コンピュータ、スマートフォン、サーバ、ルータ、ネットワーク・コンピュータ、ピア・
デバイス、または他の共通ネットワーク・ノードなどとすることができる。コンピュータ
１７０１と遠隔コンピューティング・デバイス１７１４ａ、ｂ、ｃとの間の論理接続は、
ローカル・エリア・ネットワーク（ＬＡＮ）および／または一般ワイド・エリア・ネット
ワーク（ＷＡＮ）などのネットワーク１７１５を介して作ることができる。そのようなネ
ットワーク接続は、ネットワーク・アダプタ１７０８を通じるものとすることができる。
ネットワーク・アダプタ１７０８は、有線および無線の両方の環境に実装することができ
る。そのようなネットワーキング環境は、住宅、職場、企業全体のコンピュータネットワ
ーク、イントラネット、およびインターネットでは、従来からあるありふれたものである
。

図解の目的で、アプリケーション・プログラム、およびオペレーティング・システム１
７０５などの他の実行可能なプログラムのコンポーネントが、別々のブロックとして本明
細書に図説されているが、もっとも、そのようなプログラムおよびコンポーネントは、コ
ンピューティング・デバイス１７０１の異なる記憶コンポーネントに様々な時点で存在し
、コンピュータの１つまたは複数のプロセッサ１７０３によって実行されることが認識さ
れよう。一態様では、ＫａｒｙｏＳｃａｎソフトウェア１７０６および／またはＫａｒｙ
ｏＳｃａｎデータ１７０７の少なくとも一部は、コンピューティング・デバイス１７０１
、遠隔コンピューティング・デバイス１７１４ａ、ｂ、ｃ、および／またはそれらの組合
せのうちの１つまたは複数上に、記憶されるおよび／または実行されることがある。それ
ゆえ、ＫａｒｙｏＳｃａｎソフトウェア１７０６および／またはＫａｒｙｏＳｃａｎデー
タ１７０７は、クラウド・コンピューティング環境内で稼働可能とすることができ、それ
によって、ＫａｒｙｏＳｃａｎソフトウェア１７０６および／またはＫａｒｙｏＳｃａｎ
データ１７０７へのアクセスを、ネットワーク１７１５（例えばインターネット）中にわ
たって実施することができる。さらに、一態様では、ＫａｒｙｏＳｃａｎデータ１７０７
を、コンピューティング・デバイス１７０１、遠隔コンピューティング・デバイス１７１
４ａ、ｂ、ｃ、および／またはそれらの組合せのうちの１つまたは複数にわたって、同調
させることができる。

ＫａｒｙｏＳｃａｎソフトウェア１７０６の実装を、いくつかの形態のコンピュータ読
み取り可能な媒体に記憶するかまたはそれらの媒体にわたって伝送することができる。開
示される方法のいずれも、コンピュータ読み取り可能な媒体上に組み入れられたコンピュ
ータ読み取り可能な命令によって実施することができる。コンピュータ読み取り可能な媒
体は、コンピュータがアクセスできる任意の利用可能な媒体とすることができる。例とし
て、そして以下に限定することを意味しないが、コンピュータ読み取り可能な媒体は、「
コンピュータ記憶媒体」および「通信媒体」を含むことができる。「コンピュータ記憶媒
体」としては、揮発性のおよび非揮発性の、取り外し可能なおよび取り外し不可能な媒体
が挙げられ、これらは、コンピュータ読み取り可能な命令、データ構造、プログラム・モ
ジュールや他のデータなどの情報の記憶のために、任意の方法または技術に実装される。
例示的なコンピュータ記憶媒体としては、以下に限定されないが、ＲＡＭ、ＲＯＭ、ＥＥ
ＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途デ
ィスク（ＤＶＤ）もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク
記憶装置もしくは他の磁気記憶デバイス、または所望の情報を記憶するのに使用でき、か
つコンピュータがアクセスできる任意の他の媒体が挙げられる。

方法およびシステムは、機械学習や反復学習などの人工知能手法を採用することができ
る。そのような手法の例としては、以下に限定されないが、エキスパート・システム、事
例ベース推論、ベイジアン・ネットワーク、行動ベースＡＩ、ニューラル・ネットワーク
、ファジーシステム、進化的計算（例えば遺伝アルゴリズム）、群知能（例えばアント・
アルゴリズム）、およびハイブリッド知能システム（例えば、ニューラル・ネットワーク
を通じて生成されるエキスパート推論ルール、または統計的学習から得られるプロダクシ
ョン・ルール）が挙げられる。

本明細書のＫａｒｙｏＳｃａｎ法は、染色体を評価する新規の共正規化手法を、それら
のＧＣ含量およびシークエンシング性能の背景下で使用し、その結果、より正確なカバレ
ッジの正規化を達成することができる。これは、より小さなゲノムの変化の検出を標的と
する方法とは、それらが局所的なＧＣ含量バイアスに完全に依存することから、異なるも
のである。より小さな変化を標的とする方法論が、より大きな事象の一部を時々検出する
ことがあるのに対して、より大きな事象の背景下で高分解能のコピー数の変化を理解する
ためにルーチンに使用される平滑化関数（例えば隠れＭａｒｋｏｖモデル）は、染色体腕
の規模で分析する。さらに、対立遺伝子頻度のデータをＫａｒｙｏＳｃａｎコールへ一元
化することによって、カバレッジ空間に何のシグナルも示さないバランスされたゲノムの
変化を検出することを含めて、ユニークな特徴がもたらされるが、その特徴は、遺伝子の
バリエーションを失うことに起因して、有意な影響を表すことがある。

体細胞のがん変異やモザイク事象（すなわち、体内の細胞のあるサブセットの中のみの
）などのＣＮＶの割合について整数値のコールを押し付けるかまたは与える方法とは対照
的に、本明細書のＫａｒｙｏＳｃａｎ法は、割合の推定値を与える。

以下の例は、本明細書に請求される化合物、組成物、物品、デバイス、および／または
方法がどのようになされて評価されたのかに関して、当業者に完全な開示および記載を提
供するように示されており、単に例示的であることを意図されており、この方法およびシ
ステムの範囲を限定することを意図されていない。数量（例えば量など）に関する正確性
を確保するために取り組みがなされているが、いくらかの誤りおよび逸脱が考慮されるべ
きである。

開示される方法が、ＲｅｇｅｎｅｒｏｎＧｅｎｅｔｉｃｓＣｅｎｔｅｒのヒトエク
ソーム・バリアント・データベース由来の約１００，０００試料に適用された。合計で３
，１５０試料が、供試された少なくとも１つの染色体上で最も高いストリンジェンシーの
レベルで、核型上は異常として目印を付され、４７２個が獲得または欠損であった（コピ
ーニュートラルではない）。２００試料超が、性染色体の変則性（Ｘ染色体またはＹ染色
体）を有するものとして目印を付され、そのようなものとしては、極めて稀な核型（４８
、ＸＸＸＸ）および（４８、ＸＸＸＹ）が挙げられる。

この方法およびシステムが、好適な実施形態および特定の例に関連して記載されている
一方で、本明細書の実施形態が、あらゆる点で、制限的というより説明的であることが意
図されていることから、本範囲は、規定された具体的な実施形態に限定されることは意図
されていない。

特段に明白に述べられない限り、本明細書に規定されるいかなる方法も、そのステップ
を特定の順番で実施することを要求するものと解釈されることは、決して意図されていな
い。したがって、方法の請求項が、そのステップの従うことになる順番を実際に記載して
いないか、またはその他特に、そのステップが特定の順番に限定されることが、請求項ま
たは記載に述べられない場合、いかなる点でも順番が推察されることは決して意図されな
い。このことは、解釈のためのあり得る任意の不明確な基準に対して保たれ、そのような
基準としては、ステップまたはオペレーションの流れの配置に関する論理事項；文法構成
または句読点に由来する単純な意味；本明細書に記載される実施形態の数またはタイプが
挙げられる。

様々な改変および変形が、範囲または趣旨から逸脱することなく成され得ることが、当
業者に明らかになろう。他の実施形態は、本明細書に開示される明細書および実践を考慮
することにより、当業者に明らかになろう。真の範囲および趣旨は以下の特許請求の範囲
によって示され、明細書および実施例は例示的であるに過ぎないものと考えられることが
意図されている。

Claims

複数の試料中の各染色体についてリード・カバレッジ・データを決定することであって
、
各染色体が複数のゲノム領域を含むこと；
前記複数の試料中の各染色体について、期待リード・カバレッジ・データを決定するこ
と；
前記複数の試料中の少なくとも１つの染色体について、前記リード・カバレッジ・デー
タと前記期待リード・カバレッジ・データとの間の偏差を決定すること；および
異常な核型として前記少なくとも１つの染色体を特定すること、を含む方法。
複数の試料中の各染色体についてリード・カバレッジ・データを決定することが、ある
範囲内のＧＣ含量とある閾値を超えるマッピング可能性スコアとを有するエクソーム領域
中にわたるリード深度の和を決定することを含み、各染色体が、複数のゲノム領域を含む
、請求項１に記載の方法。
前記リード・カバレッジ・データをフィルタリングすることをさらに含む、請求項１に
記載の方法。
前記リード・カバレッジ・データをフィルタリングすることが、前記複数のゲノム領域
のうちの１つまたは複数のゲノム領域中のグアニン−シトシン（ＧＣ）含量のレベルに基
づく前記リード・カバレッジ・データをフィルタリングすることを含む、請求項３に記載
の方法。
前記複数のゲノム領域のうちの１つまたは複数のゲノム領域中のグアニン−シトシン（
ＧＣ）含量のレベルに基づいて前記リード・カバレッジ・データをフィルタリングするこ
とが、
前記複数のゲノム領域のそれぞれについてＧＣ含量のレベルを決定すること；および
ある範囲外のＧＣ含量のレベルを有する前記複数のゲノム領域のうちの１つまたは複数
のゲノム領域を除外することを含む、請求項４に記載の方法。
前記リード・カバレッジ・データをフィルタリングすることが、前記複数のゲノム領域
のうちの１つまたは複数のゲノム領域のマッピング可能性スコアに基づいて、前記複数の
ゲノム領域のうちの前記１つまたは複数のゲノム領域をフィルタリングすることを含む、
請求項３に記載の方法。
前記複数のゲノム領域のうちの１つまたは複数のゲノム領域のマッピング可能性スコア
に基づいて、前記複数のゲノム領域のうちの前記１つまたは複数のゲノム領域をフィルタ
リングすることが、
前記複数のゲノム領域の各ゲノム領域についてマッピング可能性スコアを決定すること
；および
前記複数のゲノム領域のうちの１つまたは複数のゲノム領域のマッピング可能性スコア
が、所定の閾値を下回る場合に、前記複数のゲノムのうちの前記１つまたは複数のゲノム
領域を除外することを含む、請求項６に記載の方法。
前記リード・カバレッジ・データを正規化することをさらに含む、請求項１に記載の方
法。
前記リード・カバレッジ・データを正規化することが、他の常染色体に対する各染色体
についてのリード・カバレッジのエクソームワイドな比を決定することを含む、請求項８
に記載の方法。
前記エクソームワイドな比（γ）が、各染色体（ｉ）について：
によって決定され、Αが前記常染色体のセットであり、ｒがリード・カバレッジである、
請求項９に記載の方法。
前記複数の試料中の各染色体について、期待リード・カバレッジ・データを決定するこ
とが、線形回帰モデルを適用して、各染色体についてエクソームワイドな期待比を決定す
ることを含み、複数の指標が、共変量として使用される、請求項１に記載の方法。
前記複数の指標が、シークエンシング品質管理指標（ＱＣ指標）を含み、前記エクソー
ムワイドな期待比
が、各染色体（ｉ）について：
によって決定され、染色体ｊ，ｋが、染色体ｉのＧＣ含量分布に対して最小Ｄ統計量を有
する２つの常染色体として規定される、請求項１１に記載の方法。
前記複数の試料中の少なくとも１つの染色体について、前記リード・カバレッジ・デー
タと前記期待リード・カバレッジ・データとの間の偏差を決定することが、
前記複数の試料中の各染色体について、前記リード・カバレッジ・データと前記期待リ
ード・カバレッジ・データとの間の差を決定して、複数の残差を生成すること；および
共変量ｘを有する前記複数の試料の個々の試料についての平均推定値
の標準誤差に対して、前記複数の残差をＺスコア正規化すること：
［上式で、
は、前記残差の標準誤差である］および：
を含む、請求項１１に記載の方法。
各染色体についての前記Ｚスコアに基づきｐ値を決定して、染色体ｉについての異常な
核型を表す有意に大きな残差を特定することをさらに含む、請求項１３に記載の方法。
有意に大きな残差が、０．０５未満のｐ値を有する残差を含む、請求項１４に記載の方
法。
１つまたは複数の外れ値を検出すること；および
異常な核型として特定するための考慮から前記１つまたは複数の外れ値を除去すること
、をさらに含む、請求項１４に記載の方法。
１つまたは複数の外れ値を検出することは、各染色体について前記線形回帰モデル上で
、ある閾値を超えるレバレッジ（ｈ_ｉ、ここで１／ｎ＜ｈ_ｉ＜１）を有する、前記複数の
試料のうちの１つまたは複数に目印を付けることを含み、レバレッジは、ｎおよびｐの関
数：
として決定され、上式で、ｐは、前記モデルにおける共変量の数であり、ｎは、モデルと
された試料の数であり、x_iは、試料ｉについての共変量のベクトルを表し、
は、前記試料の母集団にわたる平均共変量のベクトルである、請求項１６に記載の方法。
前記閾値が、約３から約５までである、請求項１７に記載の方法。
複数の試料中の各染色体についてリード・カバレッジ・データを受信することであって
、各染色体が、複数のゲノム領域を含むこと；
前記複数の試料中の各染色体について変動データを受信すること；
各染色体について、染色体が常染色体であるかまたは性染色体であるかを決定すること
；
染色体が常染色体である場合に、
リード・カバレッジの変則性を検出すること；
染色体ワイドなヘテロ接合の対立遺伝子バランス（ＣｈｒｏｍＨｅｔＡＢ）を決定す
ること；
ホモ接合性連続領域（ＲＯＨ）を決定すること；および
ヘテロ接合の対立遺伝子バランスの局所中央値（ＬｏｃａｌＨｅｔＡＢ）を決定する
こと；
染色体が性染色体であり、前記試料が雄に関連する場合に、
リード・カバレッジの変則性を検出すること；および
ＣｈｒｏｍＨｅｔＡＢを決定すること；および
前記リード・カバレッジの変則性、ＣｈｒｏｍＨｅｔＡＢの変則性、ＲＯＨの変則性、
またはＬｏｃａｌＨｅｔＡＢの変則性のうち１つまたは複数に基づいて、異常な核型とし
て前記常染色体または前記性染色体を特定すること、を含む方法。
前記リード・カバレッジ・データおよび前記変動データをフィルタリングすることをさ
らに含む、請求項１９に記載の方法。
前記試料が雄に関連することを決定することが、全試料についてＸ染色体とＹ染色体と
のカバレッジの比のプロットを生成すること、ならびに雄としてのある閾値を超える発生
および雌としての前記閾値を下回る発生を特定することを含む、請求項１９に記載の方法
。
前記カバレッジ・リードの変則性を検出することが、
各染色体について、リード・カバレッジ・データを決定すること；
各染色体について、期待リード・カバレッジ・データを決定すること；および
各染色体について、前記リード・カバレッジ・データと前記期待リード・カバレッジ・
データとの間の偏差を決定すること、を含む、請求項１９に記載の方法。
ある染色体に関するある試料について前記ＣｈｒｏｍＨｅｔＡＢを決定することが、あ
る染色体内のフィルタリングされていない全てのバリアント間の前記染色体ワイドなヘテ
ロ接合ＳＮＰの対立遺伝子バランスを表す、要約統計量を決定することを含む、請求項１
９に記載の方法。
前記要約統計量が中央値である、請求項２３に記載の方法。
ＣｈｒｏｍＨｅｔＡＢの変則性を検出することをさらに含み、試料のＣｈｒｏｍＨｅｔ
ＡＢ値が、核型上は正常な試料について期待されるＣｈｒｏｍＨｅｔＡＢ値よりも有意に
小さい、請求項２３に記載の方法。
前記ＣｈｒｏｍＨｅｔＡＢの変則性を検出することが、
品質管理指標に対する、所与の染色体に関する全試料についての前記ＣｈｒｏｍＨｅｔ
ＡＢに、線形回帰をフィットさせること；
各試料のＣｈｒｏｍＨｅｔＡＢの残差についてＺスコアを計算すること；
前記Ｚスコアをｐ値に変換すること；および
ＣｈｒｏｍＨｅｔＡＢの変則性として、閾値よりも小さなｐ値のいかなる発生も特定す
ること、を含む、請求項２５に記載の方法。
前記ＬｏｃａｌＨｅｔＡＢを決定することが、ある染色体上のフィルタリングされてい
ない全てのバリアントにわたる試料のヘテロ接合ＳＮＰの対立遺伝子バランスの、平滑化
されたサブ染色体スケールの要約統計量を決定することを含む、請求項２５に記載の方法
。
前記平滑化されたサブ染色体スケールの要約統計量が、移動中央値を含む、請求項２７
に記載の方法。
ＬｏｃａｌＨｅｔＡＢの変則性を検出することをさらに含み、前記ＬｏｃａｌＨｅｔＡ
Ｂ値が、染色体領域中にわたる対応のＣｈｒｏｍＨｅｔＡＢ値を下回り、このことが、部
分的な染色体の変則性の可能性を標示する、請求項２７に記載の方法。
前記ＬｏｃａｌＨｅｔＡＢの変則性を検出することが、
ＬｏｃａｌＨｅｔＡＢ＜ＣｈｒｏｍＨｅｔＡＢをその全てが有する２つ以上のＳＮＰが
連続する領域を含む、ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔを決定すること；
前記染色体上のフィルタリングされていない最初と最後のエクソンの間の複数の塩基対
―複数のオーバーラップするセントロメア塩基を含む、呼び出し可能な染色体長を決定す
ること；
和（ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔ中の全てのＮ−１隣接ＳＮＰ対についてのＰａ
ｉｒｗｉｓｅＡｒｅａ）／（呼び出し可能な染色体長＊ＣｈｒｏｍＨｅｔＡＢ）を計算す
ることによって、ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔＡｒｅａを決定すること；
ＬｏｃａｌＨｅｔＡＢＥｖｅｎｔＡｒｅａおよび前記ＬｏｃａｌＨｅｔＡＢＥｖ
ｅｎｔに含まれるＳＮＰの数に関連する、前記変動データに経験的にフィットされた線形
関数を定義すること；および
ＬｏｃａｌＨｅｔＡＢの変則性として、ＳＮＰの数＋（ＬｏｃａｌＨｅｔＡＢＥｖｅ
ｎｔＡｒｅａ＊第１の量）＞＝第２の量のいかなる発生も特定すること、を含む、請求
項２９に記載の方法。