JP2017527257A

JP2017527257A - 染色体提示の決定

Info

Publication number: JP2017527257A
Application number: JP2016569065A
Authority: JP
Inventors: チェンザオ，; コスミンデチウ，
Original assignee: セクエノム，インコーポレイテッド
Priority date: 2014-05-30
Filing date: 2015-05-27
Publication date: 2017-09-21
Anticipated expiration: 2035-05-27
Also published as: EP3149640B1; EP3598452A1; US20150347676A1; WO2015183872A9; CA2950731C; CA2950731A1; JP2021035393A; JP2023153924A; EP3149640A1; EP3598452B1; AU2015267190B2; AU2024201168A1; US20180282801A1; WO2015183872A1; AU2021200008B2; AU2021200008A1; CA3191504A1; JP7182353B2; AU2015267190A1; AU2022205239B2

Abstract

本明細書中に記載される技術は、配列決定プロセスによって生成される配列リードを利用する診断テストに部分的に関する。いくつかの実施形態において、染色体提示を生成するために使用される構成要素は、参照ゲノムにアラインメントされない配列リードのカウントに基づき得る。ある特定の診断テストは、配列リードの処理を含む。配列リードは、テストサンプル核酸を配列決定プロセスに供することによって生成される比較的短い部分配列（例えば、約２０〜約４０塩基対長）である。

Description

関連特許出願
本特許出願は、２０１４年５月３０日に出願された、「ＣＨＲＯＭＯＳＯＭＥＲＥＰＲＥＳＥＮＴＡＴＩＯＮＤＥＴＥＲＭＩＮＡＴＩＯＮＳ」との名称であり、ＣｈｅｎＺｈａｏおよびＣｏｓｍｉｎＤｅｃｉｕを発明者として記載し、そして、代理人管理番号ＳＥＱ−６０８０−ＰＶによって指定される、米国仮特許出願第６２／００５，８１１号の利益を主張する。前述の出願の内容全体は、全てのテキスト、表および図面を含めて、本明細書に参考として援用される。

分野
本明細書中に記載される技術は、配列決定プロセスによって生成された配列リードを利用する診断テストに部分的に関する。いくつかの実施形態において、染色体提示（ｃｈｒｏｍｏｓｏｍｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を生成するために使用される構成要素は、参照ゲノムにアラインメントされない配列リードのカウントに基づき得る。

背景
生命体（例えば、動物、植物および微生物）および遺伝情報を複製する他の形態（例えば、ウイルス）の遺伝情報は、デオキシリボ核酸（ＤＮＡ）またはリボ核酸（ＲＮＡ）にコードされている。遺伝情報は、化学的核酸または仮説的核酸の１次構造に相当するひと続きのヌクレオチドまたは修飾ヌクレオチドである。ヒトの全ゲノムは、二十四（２４）本の染色体上に位置づけられた約３０，０００種の遺伝子を含んでいる（ＴｈｅＨｕｍａｎＧｅｎｏｍｅ，Ｔ．Ｓｔｒａｃｈａｎ，ＢＩＯＳＳｃｉｅｎｔｉｆｉｃＰｕｂｌｉｓｈｅｒｓ，１９９２を参照のこと）。各遺伝子は、特定のタンパク質をコードしており、そのタンパク質は、転写および翻訳を介した発現の後、生細胞内で特定の生化学的機能を果たす。

多くの医学的症状が、１つまたはそれを超える遺伝的変異によって引き起こされる。ある特定の遺伝的変異は、例えば、血友病、サラセミア、デュシェンヌ型筋ジストロフィー（ＤＭＤ）、ハンチントン病（ＨＤ）、アルツハイマー病および嚢胞性線維症（ＣＦ）をはじめとした医学的症状を引き起こす（ＨｕｍａｎＧｅｎｏｍｅＭｕｔａｔｉｏｎｓ，Ｄ．Ｎ．ＣｏｏｐｅｒａｎｄＭ．Ｋｒａｗｃｚａｋ，ＢＩＯＳＰｕｂｌｉｓｈｅｒｓ，１９９３）。そのような遺伝性疾患は、特定の遺伝子のＤＮＡにおける単一ヌクレオチドの付加、置換または欠失によって生じ得る。ある特定の出生時欠損は、異数性、例えば、トリソミー２１（ダウン症候群）、トリソミー１３（パトー症候群）、トリソミー１８（エドワーズ症候群）、モノソミーＸ（ターナー症候群）、およびある特定の性染色体異数性、例えば、クラインフェルター症候群（ＸＸＹ）とも称される染色体異常によって引き起こされる。別の遺伝的変異は、性染色体ＸおよびＹに基づいて判定され得ることが多い胎児の性別である。いくつかの遺伝的変異は、個体をいくつかの疾患（例えば、糖尿病、動脈硬化症、肥満症、様々な自己免疫疾患および癌（例えば、直腸結腸癌、乳癌、卵巣癌、肺癌））のいずれかにさせ得るか、またはそれらを引き起こし得る。

１つまたはそれを超える遺伝的変異（例えば、コピー数変異）または遺伝分散が特定されると、特定の医学的症状を診断することができるか、または特定の医学的症状に対する素因を判定することができる。遺伝分散が特定されると、医学的決断を促すことができ、および／または有益な医学的手技を用いることができる。ある特定の実施形態において、１つまたはそれを超える遺伝的変異または遺伝分散の特定には、無細胞ＤＮＡの解析が必要である。無細胞ＤＮＡ（ＣＦ−ＤＮＡ）は、細胞死に由来し、末梢血の中を循環しているＤＮＡフラグメントから構成されている。高濃度のＣＦ−ＤＮＡは、ある特定の臨床症状、例えば、癌、外傷、熱傷、心筋梗塞、脳卒中、敗血症、感染症および他の疾病を示唆することができる。さらに、無細胞胎児ＤＮＡ（ＣＦＦ−ＤＮＡ）は、母体の血流中で検出され得、様々な非侵襲的出生前診断に使用され得る。

ＴｈｅＨｕｍａｎＧｅｎｏｍｅ，Ｔ．Ｓｔｒａｃｈａｎ，ＢＩＯＳＳｃｉｅｎｔｉｆｉｃＰｕｂｌｉｓｈｅｒｓ，１９９２ＨｕｍａｎＧｅｎｏｍｅＭｕｔａｔｉｏｎｓ，Ｄ．Ｎ．ＣｏｏｐｅｒａｎｄＭ．Ｋｒａｗｃｚａｋ，ＢＩＯＳＰｕｂｌｉｓｈｅｒｓ，１９９３

要旨
ある特定の態様において、診断テストのためにゲノムセグメントの配列リードカウント提示を確定するための方法が、本明細書中に提供され、その方法は、（ａ）あるゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、そのセグメントに対するカウントＡを提供する工程であって、その配列リードは、そのゲノムを有する被験体由来のテストサンプルからの核酸のリードである、工程；（ｂ）そのゲノムまたはそのゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、そのゲノムまたはそのゲノムのサブセットに対するカウントＢを提供する工程であって、ここで、カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、工程；および（ｃ）カウントＡとカウントＢとの比率として、そのセグメントに対するカウント提示を確定する工程を含む。

本技術のある特定の態様は、以下の説明、実施例、請求項および図面においてさらに説明される。

図面は、本技術の実施形態を例証するものであって、限定するものではない。例証を明確にするためおよび平易にするために、図面は、一定尺度で拡大縮小して作成されておらず、場合によっては、特定の実施形態の理解を促すために、様々な態様が誇張されてまたは拡大されて示されていることがある。

図１は、リードの総数（アラインメント前）とｃｈａｓｔｉｔｙフィルターを通過するリードの総数（アラインメント前）との比較を示している。

図２は、ｃｈａｓｔｉｔｙフィルターを通過するリードの総数（アラインメントの前）とすべての常染色体にアラインメントされたリードの総数との比較を示している。

図３Ａ、図３Ｂおよび図３Ｃは、２１、１３および１８番染色体に対してＳＰＣＡ正規化を用いたときの、常染色体を用いて算出された染色体提示およびｃｈａｓｔｉｔｙフィルターを通過するアラインメント前のリードを用いて算出された染色体提示から導かれたｚ得点の比較を示している。

図４は、特定の標的染色体に対するカウント提示を生成するためにポリヌクレオチドのサブリストを使用する非限定的な例を示している。

図５は、本技術のある特定の実施形態が履行され得るシステムの例証的な実施形態を示している。

詳細な説明
ある特定の診断テストは、配列リードの処理を含む。配列リードは、テストサンプル核酸を配列決定プロセスに供することによって生成される比較的短い部分配列（例えば、約２０〜約４０塩基対長）である。いくつかの診断テストが、染色体カウント提示を確定することを必要とし、その染色体カウント提示は、試験染色体に帰されるカウント数の正規化されたバージョンである。染色体カウント提示は、（ｉ）試験染色体に帰される配列リードの数（Ｎｔｅｓｔ）と、（ｉｉ）ゲノム（例えば、ヒト常染色体ならびに性染色体ＸおよびＹ）、または染色体（例えば、常染色体）より大きいゲノムのサブセットに対する配列リードの数（ＮｒｅｆまたはＮｔｏｔ）との比率として表現されるときがある。そのＮｔｅｓｔおよびＮｒｅｆ値は、染色体カウント提示を確定するとき、参照ゲノムに対してアラインメントされたかまたはマッピングされたリードの数をカウントすることによって決定されるときがある。

本明細書の以後にさらに詳細に記載されるように、Ｎｔｅｓｔおよび／またはＮｒｅｆ（それぞれカウントＡおよびカウントＢとも称される）は、配列リードを参照ゲノムとアラインメントせずに決定され得ることが明らかになった。さらに、本明細書中に記載される方法は、ゲノムセグメントに対するカウント提示を生成するために広く使用することができ、ここで、そのセグメントは、標的染色体よりも小さいかもしくは大きいか、または標的染色体と同じサイズおよび配列を有する。

したがって、ある特定の実施形態において、診断テストのためにゲノムセグメント（すなわち、標的セグメント）の配列リードカウント提示を確定するための方法が提供され、その方法は、（ａ）ゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、そのセグメントに対するカウントＡを提供する工程であって、その配列リードは、そのゲノムを有する被験体由来のテストサンプルからの核酸のリードである、工程；（ｂ）そのゲノムまたはそのゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、そのゲノムまたはそのゲノムのサブセットに対するカウントＢを提供する工程であって、ここで、そのカウントＡは、参照ゲノムにアラインメントされない配列リードのカウントであり、かつ／またはそのカウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、工程；および（ｃ）カウントＡとカウントＢとの比率として、そのセグメントに対するカウント提示を確定する工程を含む。

任意の好適なサンプルが、本明細書中に記載される方法のために使用され得る。サンプルは、任意の好適な被験体（例えば、ヒト、類人猿、有蹄動物、ウシ、ヒツジ、ウマ、ヤギ、イヌ、ネコ、鳥類、爬虫類、家畜動物など）に由来し得る。サンプルは、任意の妊娠段階（例えば、ヒト被験体の場合、妊娠第１期、第２期または第３期）の、胎児を有する妊婦被験体に由来するときもあるし、出生後の被験体に由来するときもある。サンプルは、すべての染色体が正倍数性の胎児を有する妊娠中の被験体に由来するときもあるし、染色体異数性（例えば、１、３（すなわち、トリソミー（例えば、Ｔ２１、Ｔ１８、Ｔ１３））または４コピーの染色体）または他の遺伝的変異を有する胎児を有する妊娠中の被験体に由来するときもある。サンプルは、細胞増殖の症状（ｃｅｌｌｐｒｏｌｉｆｅｒａｔｉｖｅｃｏｎｄｉｔｉｏｎ）を有する被験体であるときもあるし、細胞増殖の症状を有しない被験体に由来するときもある。細胞増殖の症状の非限定的な例としては、肝臓細胞（例えば、肝細胞）、肺細胞、脾臓細胞、膵臓細胞、結腸細胞、皮膚細胞、膀胱細胞、眼細胞、脳細胞、食道細胞、頭部の細胞、頸部の細胞、卵巣の細胞、精巣の細胞、前立腺細胞、胎盤細胞、上皮細胞、内皮細胞、脂肪細胞、腎臓／腎細胞、心臓細胞、筋細胞、血液細胞（例えば、白血球）、中枢神経系（ＣＮＳ）細胞などおよび前述の細胞の組み合わせの癌、腫瘍および制御されてない（ｄｉｓ−ｒｅｇｕｌａｔｅｄ）細胞増殖の症状が挙げられる。解析される核酸は、好適なサンプル（例えば、頬側細胞、生検組織または生検細胞、胎児の細胞）から単離された細胞の核酸であるときがある。解析される核酸は、好適なサンプル（例えば、血清、血漿、尿または他の体液）から単離された循環無細胞（ｃｃｆ）核酸であるときがある。核酸単離プロセスは、当該分野において利用可能であり、公知である。

診断テストのために核酸を配列決定するのに適したプロセスは、当該分野で公知であり、大規模並列処理配列決定（ＭＰＳ）プロセスが用いられるときがある。配列決定プロセスの非限定的な例としては、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘ／ＨｉＳｅｑ（例えば、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒ；ＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩ；ＨＩＳＥＱ２０００；ＨＩＳＥＱ）、ＳＯＬｉＤ、Ｒｏｃｈｅ／４５４、ＰＡＣＢＩＯおよび／またはＳＭＲＴ、ＨｅｌｉｃｏｓＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ、ＩｏｎＴｏｒｒｅｎｔおよびＩｏｎ半導体ベースの配列決定、ＷｉｌｄＦｉｒｅ、５５００、５５００ｘｌＷおよび／または５５００ｘｌＷＧｅｎｅｔｉｃＡｎａｌｙｚｅｒベースの技術；ポロニーシーケンシング、パイロシーケンシング、大規模並列処理シグネチャ配列決定（ＭａｓｓｉｖｅｌｙＰａｒａｌｌｅｌＳｉｇｎａｔｕｒｅＳｅｑｕｅｎｃｉｎｇ）（ＭＰＳＳ）、ＲＮＡポリメラーゼ（ＲＮＡＰ）配列決定、ＬａｓｅｒＧｅｎシステムおよび方法、ナノポアベースのプラットフォーム、化学感応性電界効果トランジスタ（ＣＨＥＭＦＥＴ）アレイ、電子顕微鏡法ベースの配列決定（例えば、ＺＳＧｅｎｅｔｉｃｓ、ＨａｌｃｙｏｎＭｏｌｅｃｕｌａｒ）ならびにナノボールシーケンシングが挙げられる。ある特定の配列決定プロセスは、１つまたはそれを超える核酸増幅プロセスと組み合わせて履行され、その核酸増幅プロセスの非限定的な例としては、ポリメラーゼ連鎖反応（ＰＣＲ；ＡＦＬＰ−ＰＣＲ、対立遺伝子特異的ＰＣＲ、Ａｌｕ−ＰＣＲ、非対称ＰＣＲ、コロニーＰＣＲ、ホットスタートＰＣＲ、インバースＰＣＲ（ＩＰＣＲ）、インサイチュＰＣＲ（ＩＳＨ）、配列間特異的ＰＣＲ（Ｉｎｔｅｒｓｅｑｕｅｎｃｅ−ｓｐｅｃｉｆｉｃＰＣＲ）（ＩＳＳＲ−ＰＣＲ）、ロングＰＣＲ、マルチプレックスＰＣＲ、ネステッドＰＣＲ、定量的ＰＣＲ、逆転写酵素ＰＣＲ（ＲＴ−ＰＣＲ）、リアルタイムＰＣＲ、単一細胞ＰＣＲ、固相ＰＣＲ）；ライゲーション増幅（またはリガーゼ連鎖反応（ＬＣＲ））；Ｑ−ベータレプリカーゼまたは鋳型依存性ポリメラーゼの使用に基づく増幅方法；ヘリカーゼ依存性等温増幅；鎖置換増幅（ＳＤＡ）；好熱性ＳＤＡ核酸配列ベースの増幅（３ＳＲまたはＮＡＳＢＡ）；転写関連増幅（ｔｒａｎｓｃｒｉｐｔｉｏｎ−ａｓｓｏｃｉａｔｅｄａｍｐｌｉｆｉｃａｔｉｏｎ）（ＴＡＡ）；などおよびそれらの組み合わせが挙げられる。診断テストに対して十分なカバレッジデプス（ｄｅｐｔｈｏｆｃｏｖｅｒａｇｅ）を提供する配列決定プロセスが通常使用され、その配列決定プロセスは、サンプルに対して約０．１倍〜約６０倍のカバレッジ（ｃｏｖｅｒａｇｅ）（例えば、約０．２５倍、０．５倍、０．７５倍、１倍、２倍、５倍、１０倍、１２倍、１５倍、２０倍、２５倍、３０倍、３５倍、４０倍、４５倍、５０倍、５５倍のカバレッジ）を提供するときがある。ある１つのサンプルに対して１回またはそれを超える配列決定ラン（例えば、１、２、３、４または５回のラン）を用いて配列決定プロセスが行われ得る。

配列リードは、一般にポリヌクレオチドの提示である。例えば、ポリヌクレオチドにおける配列のＡＴＧＣ描写を含むリードにおいて、「Ａ」は、アデニンヌクレオチドを表し、「Ｔ」は、チミンヌクレオチドを表し、「Ｇ」は、グアニンヌクレオチドを表し、「Ｃ」は、シトシンヌクレオチドを表す。配列リードは、ペアエンド（ｐａｉｒｅｄ−ｅｎｄ）リードであるときもあるし、シングルエンド（ｓｉｎｇｌｅ−ｅｎｄ）リードであるときもある。シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値、長さの中央値または絶対的な長さは、約１５個連続したヌクレオチド〜約５０個またはそれより多く連続したヌクレオチド、約１５個連続したヌクレオチド〜約４０個連続したヌクレオチドであるときもあるし、約１５個連続したヌクレオチド〜約３６個連続したヌクレオチドであるときもある。シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値、長さの中央値または絶対的な長さは、約２０〜約３０塩基長または約２４〜約２８塩基長であるときもあるし、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または絶対的な長さは、約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２１、２２、２３、２４、２５、２６、２７、２８もしくは約２９塩基長またはそれを超える長さであるときもある。ペアエンドリードの名目上の長さ、平均の長さ、長さの平均値または絶対的な長さは、約１０個連続したヌクレオチド〜約２５個連続したヌクレオチドまたはそれを超えるヌクレオチド（例えば、約１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４または２５ヌクレオチド長またはそれを超える長さ）、約１５個連続したヌクレオチド〜約２０個連続したヌクレオチドであるときもあるし、約１７個連続したヌクレオチドまたは約１８個連続したヌクレオチドであるときもある。配列リードに関する情報は、好適な形式を有する１つまたはそれを超えるコンピュータ可読ファイルに含められ得、そのコンピュータ可読ファイルの非限定的な例は、ＢＡＭ、ＳＡＭ、ＳＲＦ、ＦＡＳＴＱ、Ｇｚｉｐなどおよびそれらの組み合わせを含む、バイナリー形式および／またはテキスト形式である。

カウントＡは、配列リードを参照ゲノムにアラインメントする工程を含まないプロセスによって決定されるときがあり、カウントＢは、配列リードを参照ゲノムにアラインメントする工程を含まないプロセスによって決定されることが多い。診断テストは、カウントＢが決定された後に、および／または時折、カウントＡが決定された後に、配列リードを参照ゲノムにアラインメントする工程を含み得る。配列リードを参照ゲノムにアラインメントする（例えば、マッピングする）のに適したプロセスは、公知であり、それらのプロセスとしては、ＢＬＡＳＴ、ＢＬＩＴＺ、ＦＡＳＴＡ、ＢＯＷＴＩＥ１、ＢＯＷＴＩＥ２、ＥＬＡＮＤ、ＭＡＱ、ＰＲＯＢＥＭＡＴＣＨ、ＳＯＡＰまたはＳＥＱＭＡＰ、ＤＲＡＧＥＮなどまたはそれらの変法もしくは組み合わせが挙げられるが、これらに限定されない。参照ゲノムは、当該分野で公知のとおり入手することができ、例えば、ＧｅｎＢａｎｋ、ｄｂＥＳＴ、ｄｂＳＴＳ、ＥＭＢＬ（ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＬａｂｏｒａｔｏｒｙ）およびＤＤＢＪ（ＤＮＡＤａｔａｂａｎｋｏｆＪａｐａｎ）データベースにおいて入手することができる。配列リードと参照ゲノムとのアラインメントは、１００％の配列マッチであり得る。配列リードのアラインメントは、１００％未満の配列マッチ（すなわち、不完全なマッチ、部分的なマッチ、部分的なアラインメント）に対応するときがあり、約９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８９％、８８％、８７％、８６％、８５％、８４％、８３％、８２％、８１％、８０％、７９％、７８％、７７％、７６％または７５％のマッチであるときがある。したがって、配列リードのアラインメントは、ミスマッチに対応するときがあり、１、２、３、４または５個のミスマッチに対応するときがある。アラインメントプロセスは、配列リードがアラインメントする参照ゲノムの場所（例えば、リードがアラインメントする染色体番号；リードがアラインメントする染色体位置）に関する情報を含むかまたは追跡することが多く、そのような情報は、アラインメントが完了した後に１つまたはそれを超えるコンピュータ可読ファイルに格納され得る。

配列リード（例えば、アラインメントされたリードまたはアラインメントされないリード）は、当該分野で公知の任意の好適なカウント法によってカウントされ得る。カウントＢは、核酸配列決定プロセスによって生成された全リードであるときがあるか、または核酸配列決定プロセスによって生成された全リードの一部であるときがある。本明細書中で述べられるように、カウントＢは、（ｉ）それらのリードの特徴に従ってフィルタリングされたリードを除く、または（ｉｉ）それらのリードの特徴に従って重み付けされた、全リードまたは全リードの一部のカウントであるときがある。それらのリードの特徴は、フィルタリングまたは重み付けに対する任意の好適な特徴であり得、その特徴の非限定的な例としては、リードの品質およびリードの塩基含有量が挙げられる。リードの塩基含有量は、リードのヌクレオチド塩基の組成および／またはリードのヌクレオチド塩基の複雑さであるときがある。また、本明細書中で述べられるとき、カウントＡおよび／またはカウントＢは、ある辞書の中のポリヌクレオチドとマッチするリードのカウントであるときがあり、そのような辞書は、本明細書中でポリヌクレオチドのリストまたはサブリストとも称される。カウントＡおよび／またはカウントＢは、ある特定の実施形態において、アラインメントされたリードが不釣合に低いカバレッジもしくは不釣合に高いカバレッジを有すると確認された、参照ゲノムの１つもしくはそれを超える領域とアラインメントされたリードを除去するフィルターに従ってフィルタリングされた、全リードまたは全リードの一部のカウントである。

いくつかの実施形態において、カウントＢは、（ｉ）テストサンプルからの核酸を配列決定するために使用される核酸配列決定プロセスによって生成された全リードのカウント；（ｉｉ）テストサンプルからの核酸を配列決定するために使用される核酸配列決定プロセスによって生成された全リードの一部のカウント；（ｉｉｉ）配列決定プロセスに対する品質管理メトリックに従ってフィルタリングされたリードを除く、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；（ｉｖ）配列決定プロセスに対する品質管理メトリックに従って重み付けされた、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；（ｖ）リードの塩基含有量に従ってフィルタリングされたリードを除く、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；（ｖｉ）リードの塩基含有量に従って重み付けされた、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；（ｖｉｉ）リストの中のポリヌクレオチドとマッチするリードのカウントであって、ここで、それらのリードは、そのリストの中のポリヌクレオチドとリードを比較する工程を含むプロセスにおいて、そのリストの中のポリヌクレオチドとマッチするかまたはマッチしないと判定され、ここで、そのリードは、（ｉ）における全リード、（ｉｉ）における全リードの一部、（ｉｉｉ）の品質管理メトリックに従ってフィルタリングされたリードを除く、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、（ｉｖ）の品質管理メトリックに従って重み付けされた、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、（ｖ）のリードの塩基含有量に従ってフィルタリングされたリードを除く、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、または（ｖｉ）のリードの塩基含有量に従って重み付けされた、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部；（ｖｉｉｉ）など、または（ｉｘ）前述のものの組み合わせ（例えば、（ｉ）、（ｉｉ）、（ｉｉｉ）、（ｉｖ）、（ｖ）、（ｖｉ）および（ｖｉｉ）のうちの２つまたはそれを超えるもの）である。

いくつかの実施形態において、カウントＡは、あるリストまたはリストのサブセットの中のポリヌクレオチドとマッチするリードのカウントであり、それらのリードは、そのリストまたはそのリストのサブセットの中のポリヌクレオチドとリードを比較する工程を含むプロセスにおいて、そのリストまたはそのリストのサブセットの中のポリヌクレオチドとマッチするかまたはマッチしないと判定される。そのリストまたはそのリストのサブセットの中のポリヌクレオチドとの比較のために使用されるリードは、（ｉ）における全リード、（ｉｉ）における全リードの一部、（ｉｉｉ）の品質管理メトリックに従ってフィルタリングされたリードを除く、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、（ｉｖ）の品質管理メトリックに従って重み付けされた、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、（ｖ）のリードの塩基含有量に従ってフィルタリングされたリードを除く、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、または（ｖｉ）のリードの塩基含有量に従って重み付けされた、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部であるリードであるときがあり、ここで、（ｉ）、（ｉｉ）、（ｉｉｉ）、（ｉｖ）、（ｖ）および（ｖｉ）は、前述のパラグラフに記載されている。

ある特定の実施形態において、カウントＡは、参照ゲノムにおける標的セグメントにアラインメントされたリードに従って決定される。その参照ゲノムにおける標的セグメントにアラインメントされたリードの数は、カウントすることができ、得られたそのセグメントに対する総カウントは、カウントＡとして使用され得る。全リードのカウントの一部も使用され得、全リードまたは全リードの一部は、カウントＡを決定するために本明細書中に記載されるようにフィルタリングされるかまたは重み付けされるときがある。例えば、参照ゲノムの標的セグメントの中の領域にアラインメントされたリードのカバレッジが測定され得、不釣合に少ないまたは不釣合に多い数のリードによってカバーされた１つまたはそれを超える領域が、特定され得る。そのような１つまたはそれを超える領域由来のリードは、フィルタリングされ、ある特定の実施形態では、カウントＡを決定するために、そのセグメントに対するリードの総カウントから除去される。

カウントＢが配列決定プロセスによって生成された全リードのカウントである実施形態の場合、その全リードは、通常、フィルタリングされない（例えば、それらのリードのいずれもが、１つまたはそれを超える基準に従って除去されない）。そのような実施形態において、全リードはまた、通常、重み付けされない（例えば、それらのリードのいずれもが、１つまたはそれを超える基準に基づく（ｂａｓｅｏｎ）重み付け因子によって増大されない）。

カウントＢが配列決定プロセスによって生成された全リードの一部のカウントである実施形態の場合、その一部は、その全リードからランダムに選択されたリードの一部であることが多い。そのような実施形態において、その一部は、全リードの約１０％〜約９０％（例えば、全リードの約１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％または８５％）であるときがある。全リードの約５０％〜約８０％が、カウントＢのためにカウントされるときがある。カウントＢが配列決定プロセスによって生成された全リードのカウントの一部である実施形態の場合、その全リードの一部は、通常、フィルタリングされず、通常、重み付けされない。

カウントＢが、（ｉ）配列決定プロセスに対する品質管理メトリックに従ってフィルタリングされたリードを除く、または（ｉｉ）配列決定プロセスに対する品質管理メトリックに従って重み付けされた、全リードまたは全リードの一部のカウントである、実施形態の場合、それらの配列リードを生成する核酸配列決定プロセスは、画像処理を含むときがあり、その品質管理メトリックは、画質に基づく。画像処理を利用してリードを生成するＭＰＳプロセスの非限定的な例は、ＩｌｌｕｍｉｎａＨｉＳｅｑ／ＴｒｕＳｅｑプロセスである。簡潔には、固相に捕捉された核酸クラスターの画像が、合成による配列決定プロセスの各合成工程において捕捉される。画質は、必要に応じて、１つのクラスターによって生成された画像が別のクラスターの画像と重なっているかまたは重なっていないかに従う品質管理メトリック（例えば、Ｃｈａｓｔｉｔｙフィルターによって使用されるメトリック）によって評価され得る。したがって、いくつかの実施形態において、品質管理メトリックは、画像の重なりの評価に基づくときがある。１つのクラスターが別のクラスターと重なっているかまたは重なっていないかに基づく画像の質は、画像スコアリングモジュールによって割り当てられるスコアを用いて評価され得る。いくつかの実施形態において、不良なスコアを割り当てられたクラスターに帰されるリードを全リードまたは全リードの一部から除外するために、フィルターモジュールが使用される。ある特定の実施形態において、画像スコアリングモジュールによって割り当てられたそれらの関連するスコアによって特定のリードまたは特定のリードのカウントを増大させるために重み付けモジュールが使用され、それにより、リードが重み付けされ、その重み付けされたリードまたは重み付けされたリードカウントは、セグメントカウント提示を生成するために使用され得る。

カウントＢが、（ｉ）リードの塩基含有量（例えば、塩基組成）に従ってフィルタリングされたリードを除く、または（ｉｉ）リードの塩基含有量に従って重み付けされた、全リードまたは全リードの一部のカウントである、実施形態の場合、任意の好適なタイプのリードの塩基含有量が、使用され得る。ＤＮＡにおける４種の塩基（Ａ、Ｔ、ＣまたはＧ）の各々またはそれらの組み合わせの含有量が、リードの塩基含有量によるフィルタリングまたは重み付けのために使用され得る。フィルタリングまたは重み付けのために使用されるリードの塩基含有量は、グアニンおよびシトシン（ＧＣ）含有量であるときがある。塩基含有量（例えば、ＧＣ含有量）の量は、塩基含有量モジュールによって各リードに割り当てられ得、その量は、任意の好適な様式（例えば、パーセントＧＣ含有量、ＧＣスコア）で表現され得る。いくつかの実施形態において、塩基含有量は、リードにおける塩基リピートまたはポリヌクレオチドリピートの数（例えば、リードにおける連続した一続きのＧ塩基；リードにおける３つのＧＣＣＧポリヌクレオチドリピート）によって評価され、リピートスコアまたはリピート値（例えば、％反復エレメント）が、リピートスコアリングモジュールによって各リードに割り当てられ得る。塩基含有量モジュールおよびリピートスコアリングモジュールは、集合的に、塩基含有量モジュールと称される。いくつかの実施形態において、塩基含有量モジュールからの塩基含有量の評価またはスコアに基づいて全リードまたは全リードの一部からリードを除外するために、塩基含有量フィルターモジュールが使用される。いくつかの実施形態において、リードは、それらのリードが、（ｉ）第１の塩基含有量閾値（例えば、約４０％のＧＣ含有量またはそれ未満という第１の閾値（例えば、約３０％のＧＣ含有量という第１の閾値））未満の塩基含有量（例えば、ＧＣ含有量）を有するか、および／または（ｉｉ）第２の塩基含有量閾値（例えば、約６０％のＧＣ含有量またはそれを超える量という第２の閾値（例えば、約７０％のＧＣ含有量という第２の閾値））を超える塩基含有量（例えば、ＧＣ含有量）を有するかに基づいて、全リードまたは全リードの一部からフィルタリングされて除去される。いくつかの実施形態において、リードは、それらのリードが、リピート含有量閾値（例えば、約５０％のリピートという閾値）を超えるリピート含有量（例えば、塩基リピート含有量）を有するかに基づいて、全リードまたは全リードの一部からフィルタリングされて除去される。ある特定の実施形態において、リピートスコアリングモジュールまたは塩基含有量モジュールによって割り当てられたそれらの関連するスコアまたは値によって、特定のリードまたは特定のリードのカウントを増大させるために重み付けモジュールが使用され、それにより、リードが重み付けされ、その重み付けされたリードまたは重み付けされたリードカウントは、セグメントカウント提示を生成するために使用され得る。

リードが、あるリストまたはそのリストのサブセット（すなわち、サブリスト）の中のポリヌクレオチドとマッチするかまたはマッチしないか判定される、実施形態の場合、カウントＡおよび／またはカウントＢは、そのリストまたはサブリストの中のポリヌクレオチドの配列およびサイズと正確にマッチするリードのカウントであることが多い。サンプル（例えば、テストサンプルではないサンプル）からのリードと参照ゲノムまたは参照ゲノムにおけるサブセットとのアラインメントに基づいて、ポリヌクレオチドをあるリストまたはサブリストのために選択した後、テストサンプルリードをそれらのポリヌクレオチドと比較し、マッチするテストサンプルリードをカウントすることが多い。この事前のアラインメントにおいてアラインメントされたリードは、通常、そのリストまたはサブリストの中のポリヌクレオチドに対応する（例えば、そのリストまたはサブリストの中のポリヌクレオチドと同じである）。特定のセグメントまたは領域にユニークにアラインメントするリードが、そのリストまたはサブリストの中にポリヌクレオチドとして含めるために選択されることが多い。例えば、参照ゲノムにおける標的セグメント（例えば、標的染色体）にアラインメントし、参照ゲノムにおける他のセグメントにアラインメントしない（例えば、他の染色体にアラインメントしない）リードが、サブリストの中にポリヌクレオチドとして含めるために選択されることが多い。

カウントＢを決定する場合、リストは、事前のアラインメントにおいて参照ゲノムにおけるすべての染色体、すべての常染色体またはすべての常染色体のサブセットにアラインメントしたリードに対応するポリヌクレオチドを含むときがある。カウントＡを決定する場合、事前のアラインメントにおいて、参照ゲノムの中の、カウント提示が確定される標的セグメント（例えば、標的セグメントとしての標的染色体）にアラインメントしたリードに対応するポリヌクレオチドを含むサブリストが使用されることが多い。いくつかの実施形態において、あるリストおよびサブリストが使用され、ここで、そのリストは、カウントＢを決定するために使用され得るすべての常染色体にマッピングされたポリヌクレオチドを含み、そのサブリストは、カウントＡを決定するために使用され得るセグメントにマッピングされたポリヌクレオチドを含む。したがって、ある特定の実施形態において、カウントＡおよびカウントＢは、テストサンプルからのリードを参照ゲノムにアラインメントせずに、標的セグメントに対するカウント提示を生成するために決定され得る。特定の標的染色体に対するカウント提示を生成するためにポリヌクレオチドのサブリストを使用する非限定的な例は、図４に例証されており、実施例２に記載される。

あるリストまたはサブリストの中のポリヌクレオチドとリードを比較するために使用されるプロセス（比較）は、通常、参照ゲノムにリードをアラインメントするために使用されるプロセス（アラインメント）とは異なる。例えば、比較のために使用されるプロセスは、（ｉ）各リードもしくは各ポリヌクレオチドがアラインメントする染色体、および／または（ｉｉ）各リードもしくは各ポリヌクレオチドがアラインメントする染色体の位置番号に関する情報を追跡または記録しないことが多い。また、比較のために使用されるプロセスは、バイナリーであることが多く、例えば、リードの配列および長さが、リストおよび／またはサブリストの中のポリヌクレオチドと１００％マッチであるかまたはそうではないかを評価し得る。アラインメントプロセスは、複雑度がより高いアルゴリズムを使用することが多いので、バイナリープロセスは、通常、リードを参照ゲノムにアラインメントするためのプロセスよりも複雑でない。

テストサンプル核酸から生成されたリードは、（ｉ）カウントＡおよび／またはカウントＢを生成する前に、配列リードを参照ゲノムにアラインメントするアラインメントプロセスに供されないときがあるか；（ｉｉ）行われている診断テストにおいて配列リードを参照ゲノムにアラインメントするアラインメントプロセスに供されないときがあるか；または（ｉｉｉ）リードを参照ゲノムとアラインメントするアラインメントプロセスに供されるときがあり、ここで、カウントＡおよび／またはカウントＢは、リードをアラインメントプロセスに供する前に決定される。いくつかの実施形態において、テストサンプル核酸に対して生成されたリードは、リードを参照ゲノムとアラインメントするアラインメントプロセスに供され、カウントＡは、その参照ゲノムにおけるセグメントにアラインメントされたリードのカウントであり、カウントＢは、その参照ゲノムにアラインメントされないリードのカウントであるか、または参照ゲノムへのリードのアラインメントの前に決定される。いくつかの実施形態において、カウントＡおよび／またはカウントＢは、配列リードを参照ゲノムにアラインメントする工程を含まないプロセスによって決定される。

ある特定の実施形態において、テストサンプルから生成されたリードは、リードを参照ゲノムとアラインメントするアラインメントプロセスに供され、カウントＢは、そのアラインメントプロセスによって参照ゲノムにアラインメントされないリードのカウントである。参照ゲノムにアラインメントされ得ないリード（アラインメント不可能なリード）は、反復ポリヌクレオチドを含むおよび／またはセントロメアが起源であるリードであるときがある。

いくつかの実施形態において、カウント提示が確定される標的セグメントは、染色体であり、その染色体は、１３番染色体、１８番染色体および２１番染色体であるときがある。そのセグメントは、染色体のセグメントであるときがあり、微小重複領域または微小欠失領域であるときがある。

ある特定の実施形態において、カウントＡは、正規化されたカウントであり、かつ／またはカウントＢは、正規化されたカウントである。任意の好適な正規化プロセスまたは好適な正規化プロセスの組み合わせが、正規化されたカウントを生成するために使用され得る。正規化プロセスの非限定的な例としては、部分ごとの（ｐｏｒｔｉｏｎ−ｗｉｓｅ）正規化（例えば、ビンごとの（ｂｉｎ−ｗｉｓｅ）正規化）、ＧＣ含有量による正規化、線形および非線形最小二乗回帰、ＬＯＥＳＳ、ＧＣ−ＬＯＥＳＳ、ＬＯＷＥＳＳ、ＰＥＲＵＮ、ＣｈＡＩ、ＲＭ、ＧＣＲＭ、ｃＱｎなど、ならびにそれらの組み合わせが挙げられる。正規化されたカウントは、（ｉ）ＬＯＥＳＳ正規化プロセスを含む正規化プロセス、（ｉｉ）グアニンおよびシトシン（ＧＣ）バイアス正規化を含む正規化プロセス、（ｉｉｉ）ＧＣバイアスのＬＯＥＳＳ正規化（ＧＣ−ＬＯＥＳＳ）を含む正規化プロセス、（ｉｖ）主成分正規化（例えば、ＣｈＡＩ正規化プロセス）を含む正規化プロセスなどおよび前述のものの組み合わせによって生成されるときがある。いくつかの実施形態において、正規化プロセスは、ＧＣ−ＬＯＥＳＳ正規化に続く主成分正規化を含む。ある特定の正規化プロセス（例えば、ＣｈＡＩ正規化、主成分正規化、ＰＥＲＵＮ正規化）の具体的な態様は、例えば、２０１４年５月２３日に出願され、ＷＯ２０１４／１９０２８６として公開された特許出願番号ＰＣＴ／ＵＳ２０１４／０３９３８９；および２０１４年１０月２日に出願され、２０１５年４月９日にＷＯ２０１５／０５１１６３として公開された特許出願番号ＰＣＴ／ＵＳ２０１４／０５８８８５に記載されている。

いくつかの実施形態において、主成分正規化を含む正規化プロセスは、（ａ）複数のサンプルに対して作成されたリード密度分布に従ってフィルタリングすることによって生成され得るリード密度プロファイルを提供する工程、および（ｂ）主成分分析によって１つまたはそれを超える主成分に従ってテストサンプルに対するリード密度プロファイルを調整し（それらの主成分は、参照サンプルのセットから得られる）、それにより、調整されたリード密度を含むテストサンプルプロファイルを提供する工程を含む。

いくつかの実施形態において、ＰＥＲＵＮ正規化を含む正規化プロセスは、（１）（ｉ）各部分にマッピングされた配列リードのカウントと（ｉｉ）各部分に対するＧＣ含有量との間の当てはめ関係（ｆｉｔｔｅｄｒｅｌａｔｉｏｎ）に基づいて、テストサンプルに対するグアニンおよびシトシン（ＧＣ）バイアス係数を決定する工程（ここで、そのＧＣバイアス係数は、線形当てはめ関係の場合、傾きであるか、または非線形当てはめ関係の場合、曲率推定値（ｃｕｒｖａｔｕｒｅｅｓｔｉｍａｔｉｏｎ）である）；および（２）（ａ）のカウント、（ｂ）のＧＣバイアス係数、および（ｉ）複数のサンプルの各々に対するＧＣバイアス係数と（ｉｉ）それらの複数のサンプルに対する各部分にマッピングされた配列リードのカウントとの間の各部分に対する当てはめ関係に基づいて、各部分に対するゲノム区分レベルを、マイクロプロセッサを用いて算出し、それにより、算出されたゲノム区分レベルを提供する工程を含む。

いくつかの実施形態において、ある診断方法は、あるセグメントに対するカウント提示の統計量を決定する工程を含み、および／またはあるセグメントに対するカウント提示を用いて統計量を決定する工程を含む。任意の好適な統計量が生成され得、その非限定的な例としては、平均値、中央値、最頻値、平均、ｐ値、偏差の尺度（例えば、標準偏差（ＳＤ）、シグマ、絶対偏差、平均絶対偏差（ＭＡＤ）、算出された分散など）、好適な誤差の尺度（例えば、標準誤差、平均平方誤差、平方根平均二乗誤差など）、好適な分散の尺度、好適な標準得点（例えば、標準偏差、累積パーセンテージ、パーセンタイル等価物（ｐｅｒｃｅｎｔｉｌｅｅｑｕｉｖａｌｅｎｔ）、Ｚ得点、Ｔ得点、Ｒ得点、スタンダードナイン（ｓｔａｎｄａｒｄｎｉｎｅ）（スタナイン（ｓｔａｎｉｎｅ））、スタナインにおけるパーセントなど）またはそれらの組み合わせが挙げられる。任意の好適な統計学的方法は、カウント提示の統計量を生成するためまたはカウント提示を用いて統計量を生成するために使用され得、その非限定的な例としては、正確検定、Ｆ検定、Ｚ検定、Ｔ検定、不確定性の尺度を算出および／または比較すること、帰無仮説、対立帰無仮説（ｃｏｕｎｔｅｒｎｕｌｌｓ）など、カイ二乗検定、総括的検定、有意水準（例えば、統計的有意性）を算出および／または比較すること、メタ解析、多変量解析、回帰、線形単回帰、ロバスト線形回帰最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、Ｋ最近隣法、ロジスティック回帰、ｌｏｓｓ平滑化（ｌｏｓｓｓｍｏｏｔｈｉｎｇ）、ベーレンス・フィッシャーアプローチ、ブートストラッピング、独立した有意性検定を組み合わせるためのフィッシャーの方法、ネイマン・ピアソン検定、検証的データ解析、探索的データ解析などまたはそれらの組み合わせが挙げられる。

ｚ得点が統計量として生成されるときがあり、それは、（ａ）（ｉ）テストサンプルに対するセグメントに対するカウント提示から（ｉｉ）サンプルセットに対するセグメントに対するカウント提示の中央値を除いた減算の結果を、（ｂ）サンプルセットに対するセグメントに対するカウント提示のＭＡＤで除算した商であるときがある。ある特定の実施形態において、診断テストは、出生前遺伝子診断テストであるときがあり、テストサンプルは、胎児を有する妊婦に由来し、サンプルセットは、正倍数性胎児の妊娠を有する被験体に対するサンプルのセットである。いくつかの実施形態において、診断テストは、出生前診断テストであり、テストサンプルは、胎児を有する妊婦に由来し、サンプルセットは、トリソミー胎児の妊娠を有する被験体に対するサンプルのセットである。ある特定の実施形態において、診断テストは、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについての遺伝子テストであり、サンプルセットは、細胞増殖の症状を有する被験体に対するサンプルのセットである。ある特定の実施形態において、診断テストは、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてであり、サンプルセットは、細胞増殖の症状を有しない被験体に対するサンプルのセットである。

いくつかの実施形態において、診断テストは、出生前遺伝子診断テストであり、テストサンプルは、胎児を有する妊婦に由来し、その診断テストは、遺伝的変異（例えば、胎児の遺伝的変異）の非存在の存在を判定することを含む。遺伝的変異は、染色体異数性であるときがあり、染色体異数性は、染色体全体の１コピー（モノソミー）、３コピー（トリソミー）または４コピーであるときがある。ある特定の出生前診断テストの実施形態における遺伝的変異は、微小重複または微小欠失であるときがある。

ある特定の実施形態において、診断テストは、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについての遺伝子診断テストであり、その診断テストは、遺伝的変異の非存在の存在を判定することを含む。いくつかの癌診断テストの実施形態における遺伝的変異は、微小重複または微小欠失であるときがある。

セグメントカウント提示またはそれから導かれる統計量を用いた遺伝的変異の存在もしくは非存在の判定（アウトカム（ｏｕｔｃｏｍｅ）の判定）は、任意の好適な様式で行われ得る。任意の好適な統計量が、アウトカムを判定するために使用され得、その非限定的な例としては、標準偏差、平均絶対偏差、中央絶対偏差、最大絶対偏差、標準得点（例えば、ｚ値、ｚ得点、正規得点、標準化変数）などおよびそれらの組み合わせが挙げられる。いくつかの実施形態において、２つの統計量（例えば、テストサンプルに対する１つの統計量（例えば、試験カウント）および参照サンプルに対する別の統計量（例えば、参照カウント））の間の偏差の数が、約１より大きいか、約１．５より大きいか、約２より大きいか、約２．５より大きいか、約２．６より大きいか、約２．７より大きいか、約２．８より大きいか、約２．９より大きいか、約３より大きいか、約３．１より大きいか、約３．２より大きいか、約３．３より大きいか、約３．４より大きいか、約３．５より大きいか、約４より大きいか、約５より大きいか、または約６より大きいとき、アウトカムが判定される。アウトカムの判定は、カウント提示から導かれる統計量（例えば、ｚ得点）をその統計量に対する所定の閾値（例えば、ｚ得点閾値；約３．９５というｚ得点閾値）と比較することによって行われるときがある。

アウトカムの判定は、決定分析を用いて行われるときがある。決定分析の非限定的な例は、２０１４年５月２３日に出願され、ＷＯ２０１４／１９０２８６として公開された特許出願番号ＰＣＴ／ＵＳ２０１４／０３９３８９に記載されている。ある特定の実施形態において、決定分析は、（ａ）本明細書中に記載されるようなテストサンプルに対する試験セグメント（例えば、試験染色体）に対するカウント提示を提供する工程；（ｂ）そのテストサンプルに対する胎児分率（ｆｅｔａｌｆｒａｃｔｉｏｎ）を測定する工程；（ｃ）対数オッズ比（ＬＯＲ）を算出する工程（そのＬＯＲは、（ｉ）（１）遺伝的変異を有する条件付き確率と（２）遺伝的変異を有する事前確率との第１の乗算の結果および（ｉｉ）（１）その遺伝的変異を有しない条件付き確率と（２）その遺伝的変異を有しない事前確率との第２の乗算の結果の商の対数であり、ここで、その遺伝的変異を有する条件付き確率は、（ｂ）の胎児分率および（ａ）のカウント提示に従って決定される）；および（ｄ）ＬＯＲおよびカウント提示に従ってアウトカム（例えば、遺伝的変異の存在もしくは非存在）を識別する工程を含む。カウント提示は、正規化されたカウント提示であるときがあり、いくつかの実施形態において、遺伝的変異は、染色体異数性、微小重複または微小欠失である。遺伝的変異を有する条件付き確率は、（ｉ）（ｂ）においてテストサンプルに対して測定された胎児分率、（ａ）におけるテストサンプルに対するカウント提示に対するｚ得点、およびそのカウント提示に対するｚ得点の胎児分率特異的分布に従って決定される；（ｉｉ）以下の方程式２３における関係によって決定される：

（式中、ｆは、胎児分率であり、Ｘは、当該染色体に対する部分の和、Ｘ〜ｆ（μＸ，σＸ）であり、ここで、μＸおよびσＸは、それぞれＸの平均値および標準偏差であり、ｆ（・）は、分布関数である）；および／または（ｉｉｉ）（ａ）のテストサンプルカウント提示に対するｚ得点とそのカウント提示に対するｚ得点の胎児分率特異的分布との間の共通部分であるときがある。遺伝的変異を有しない条件付き確率は、（ｉ）（ａ）のカウント提示および正倍数体に対するカウント提示に従って決定され；および／または（ｉｉ）カウント提示のｚ得点と、遺伝的変異を有しない被験体におけるカウント提示に対するｚ得点の分布との共通部分であるときがある。遺伝的変異を有する事前確率および遺伝的変異を有しない事前確率は、その試験被験体を含まない複数のサンプルから決定されるときがある。決定分析は、（１）ＬＯＲがゼロより大きいかまたは小さいかを判定すること；（２）（ａ）のカウント提示のｚ得点の数量化を確定し、それが３．９５という値より小さいか、大きいかまたは等しいかを判定すること；（３）テストサンプルに対して、（ｉ）そのカウント提示のｚ得点の数量化が３．９５という値より大きいかまたは等しい場合、および（ｉｉ）ＬＯＲがゼロより大きい場合、遺伝的変異の存在を判定すること；および／または（４）テストサンプルに対して、（ｉ）そのカウント提示のｚ得点の定量が３．９５という値より小さい場合、および／または（ｉｉ）ＬＯＲがゼロより小さい場合、遺伝的変異の非存在を判定することを含むときがある。

胎児分率は、任意の好適な様式（例えば、テストサンプル中の胎児核酸の量と核酸総量または母体核酸の量との比率）で表現され得、当該分野で公知の任意の好適な方法を用いて決定され得る。ある特定の実施形態において、胎児核酸の量は、男性胎児に特異的なマーカー（例えば、Ｙ染色体ＳＴＲマーカー（例えば、ＤＹＳ１９、ＤＹＳ３８５、ＤＹＳ３９２マーカー）；ＲｈＤ陰性女性におけるＲｈＤマーカー）、多型配列の対立遺伝子の比率に従って、あるいは胎児核酸に特異的であって母体核酸に特異的でない１つもしくはそれを超えるマーカー（例えば、母体と胎児との間の差次的なエピジェネティックバイオマーカー（例えば、メチル化）または母体血漿中の胎児ＲＮＡマーカーに従って、測定される。

いくつかの実施形態において、胎児分率は、フラグメントの長さの情報を組み込んでいる方法（例えば、国際出願公開番号ＷＯ２０１３／１７７０８６に記載されているような、フラグメントの長さの比率（ＦＬＲ）の解析、胎児の比率の統計量（ＦＲＳ）の解析）を用いて測定される。無細胞胎児核酸フラグメントは、通常、母体由来の核酸フラグメントよりも短く、胎児分率は、いくつかの実施形態において、特定の長さ閾値を下回るフラグメントをカウントし、その数を、例えば、特定の長さ閾値を上回るフラグメントの数および／またはサンプル中の全核酸の量と比較することによって測定され得る。特定の長さの核酸フラグメントをカウントするための方法は、国際出願公開番号ＷＯ２０１３／１７７０８６にさらに詳細に記載されている。

ある特定の実施形態において、胎児分率は、メチル化状態に従って胎児核酸を判別するアッセイを用いて測定される（例えば、胎児数量アッセイ（ｆｅｔａｌｑｕａｎｔｉｆｉｅｒａｓｓａｙ）（ＦＱＡ）；米国特許出願公開番号２０１０／０１０５０４９を参照のこと）。ある特定のアッセイの実施形態において、母体のテストサンプル中の胎児ＤＮＡの濃度は、以下の方法によって測定される：（ａ）母体のテストサンプル中に存在するＤＮＡの総量を測定し；（ｂ）１つまたはそれを超えるメチル化感受性制限酵素を用いて母体サンプル中の母体ＤＮＡを選択的に消化し、それにより、胎児ＤＮＡを濃縮し；（ｃ）（ｂ）からの胎児ＤＮＡの量を測定し；（ｄ）工程ｃ）からの胎児ＤＮＡの量と、（ａ）からのＤＮＡの総量を比較し、それにより、母体サンプル中の胎児ＤＮＡの濃度を決定する。ある特定の実施形態において、母体テストサンプル中の胎児核酸の絶対コピー数は、例えば、質量分析を用いて、および／または絶対コピー数の計測のために競合的ＰＣＲアプローチを用いるシステムを用いて、測定され得る。

遺伝子テストは、システム内において全体的にまたは部分的に行われるときがある。カウント提示を確定するためのいくつかまたはすべての工程が、（ｉ）システムにおけるマイクロプロセッサによって、（ｉｉ）システムにおけるメモリーと連動して、および／または（ｉｉｉ）コンピュータによって、行われるときがある。
サンプル

核酸を解析するためのシステム、方法および製品が、本明細書中に提供される。いくつかの実施形態において、核酸フラグメントの混合物中の核酸フラグメントが解析される。核酸の混合物は、異なるヌクレオチド配列、異なるフラグメント長、異なる起源（例えば、ゲノム起源、胎児起源対母体起源、細胞または組織の起源、癌対非癌の起源、腫瘍対非腫瘍起源、サンプル起源、被験体起源など）またはそれらの組み合わせを有する２つまたはそれを超える核酸フラグメント種を含み得る。

本明細書中に記載されるシステム、方法および製品において使用される核酸または核酸混合物は、被験体から得られたサンプルから単離されることが多い。被験体は、任意の生命体または非生命体であり得、それらとしては、ヒト、非ヒト動物、植物、細菌、真菌または原生生物が挙げられるが、これらに限定されない。任意のヒトまたは非ヒト動物を選択することができ、それらとしては、哺乳動物、爬虫類、鳥類、両生類、魚類、有蹄動物、反芻動物、牛（例えば、ウシ）、馬（例えば、ウマ）、山羊および羊（例えば、ヒツジ、ヤギ）、豚（例えば、ブタ）、ラクダ科動物（例えば、ラクダ、ラマ、アルパカ）、サル、類人猿（例えば、ゴリラ、チンパンジー）、クマ科動物（例えば、クマ）、家禽、イヌ、ネコ、マウス、ラット、魚類、イルカ、クジラおよびサメが挙げられるが、これらに限定されない。被験体は、雄または雌（例えば、女性、妊婦）であり得る。被験体は、任意の齢であり得る（例えば、胚、胎児、乳児、小児、成体）。

核酸は、任意のタイプの好適な生物学的検体またはサンプル（例えば、テストサンプル）から単離され得る。サンプルまたはテストサンプルは、被験体またはその一部（例えば、ヒト被験体、妊婦、胎児）から単離されたまたは得られた任意の検体であり得る。検体の非限定的な例としては、血液または血液製剤（例えば、血清、血漿など）、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、髄液、洗浄液（例えば、気管支肺胞洗浄液、胃洗浄液、腹膜洗浄液、管洗浄液、耳洗浄液、関節鏡下洗浄液）、生検サンプル（例えば、着床前胚；癌生検材料由来）、腹腔穿刺（ｃｅｌｏｃｅｎｔｅｓｉｓ）サンプル、細胞（血液細胞、胎盤細胞、胚、または胎児の細胞、胎児の有核細胞もしくは胎児の細胞レムナント（ｃｅｌｌｕｌａｒｒｅｍｎａｎｔｓ））またはそれらの一部分（例えば、ミトコンドリア、核、抽出物など）、雌性生殖輸管の洗液、尿、便、痰、唾液、鼻粘膜、前立腺液、洗浄液、精液、リンパ液、胆汁、涙、汗、母乳、乳汁などまたはそれらの組み合わせを含むがこれらに限定されない、被験体由来の流体または組織が挙げられる。いくつかの実施形態において、生物学的サンプルは、被験体由来の子宮頸部スワブである。いくつかの実施形態において、生物学的サンプルは、血液であり得、血漿または血清であり得るときがある。用語「血液」は、本明細書中で使用されるとき、妊婦または妊娠の可能性について検査されている女性由来の血液サンプルまたは血液調製物のことを指す。この用語は、従来定義されてきたような、全血、血液製剤、または血液の任意の画分、例えば、血清、血漿、バフィーコートなどを包含する。血液またはその画分は、ヌクレオソーム（例えば、母体および／または胎児のヌクレオソーム）を含むことが多い。ヌクレオソームは、核酸を含み、無細胞であるか、または細胞内のものであるときがある。血液は、バフィーコートも含む。バフィーコートは、フィコール勾配を使用することによって単離されるときがある。バフィーコートは、白血球細胞（例えば、白血球、Ｔ細胞、Ｂ細胞、血小板など）を含み得る。ある特定の実施形態において、バフィーコートは、母体および／または胎児の核酸を含む。血漿とは、抗凝固薬で処理された血液の遠心分離から生じる全血の画分のことを指す。血清とは、血液サンプルが凝固した後に残っている流体の水様の部分のことを指す。液体または組織サンプルは、病院またはクリニックが一般に従っている標準的なプロトコルに従って回収されることが多い。血液の場合、適切な量の末梢血（例えば、３〜４０ミリリットル）を回収することが多く、それは、調製の前または後に、標準的な手順に従って保管され得る。核酸を抽出する液体または組織サンプルは、細胞を含まない（例えば、無細胞である）場合がある。いくつかの実施形態において、液体または組織サンプルは、細胞エレメントまたは細胞レムナントを含み得る。いくつかの実施形態において、胎児の細胞または癌細胞が、サンプル中に含まれ得る。

サンプルは、液体サンプルであり得る。液体サンプルは、細胞外核酸（例えば、循環無細胞ＤＮＡ）を含み得る。液体サンプルの非限定的な例としては、血液または血液製剤（例えば、血清、血漿など）、臍帯血、羊水、脳脊髄液、髄液、洗浄液（例えば、気管支肺胞洗浄液、胃洗浄液、腹膜洗浄液、管洗浄液、耳洗浄液、関節鏡下洗浄液）、生検サンプル（例えば、癌を検出するための液体生検材料）、腹腔穿刺サンプル、雌性生殖輸管の洗液、尿、痰、唾液、鼻粘膜、前立腺液、洗浄液、精液、リンパ液、胆汁、涙、汗、母乳、乳汁などまたはそれらの組み合わせが挙げられる。ある特定の実施形態において、サンプルは、液体生検材料であり、これは、疾患（例えば、癌）の存在、非存在、進行または緩解についての被験体由来の液体サンプルの評価のことを広く指す。液体生検材料は、固体（ｓｏｌｄ）生検材料（例えば、腫瘍生検材料）とともに、または固体生検材料の代替物として、使用され得る。ある特定の場合において、細胞外核酸が液体生検材料において解析される。

サンプルは、不均一であることが多く、この不均一は、１タイプより多い核酸種がそのサンプル中に存在すること意味する。例えば、不均一な核酸としては、（ｉ）癌の核酸および癌ではない核酸、（ｉｉ）病原体および宿主の核酸、（ｉｉｉ）胎児由来および母体由来の核酸、ならびに／またはより一般的には、（ｉｖ）変異型および野生型の核酸が挙げられ得るが、これらに限定されない。１つより多い細胞型、例えば、胎児の細胞および母体の細胞、癌細胞および非癌細胞、または病原体細胞および宿主細胞が存在するので、サンプルは不均一であり得る。いくつかの実施形態において、少数核酸種および多数核酸種が存在する。

本明細書中に記載される技術を出生前に適用する場合、液体または組織サンプルが、検査に適した在胎期間の女性または妊娠の可能性について検査されている女性から回収され得る。好適な在胎期間は、行われる出生前テストに応じて変動し得る。ある特定の実施形態において、妊婦被験体は、妊娠第１期、妊娠第２期であるときがあるか、または妊娠第３期であるときがある。ある特定の実施形態において、液体または組織は、妊娠約１〜約４５週（例えば、妊娠１〜４、４〜８、８〜１２、１２〜１６、１６〜２０、２０〜２４、２４〜２８、２８〜３２、３２〜３６、３６〜４０または４０〜４４週）の妊婦から回収され、妊娠約５〜約２８週（例えば、妊娠６、７、８、９，１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６または２７週）の妊婦から回収されるときがある。ある特定の実施形態において、液体または組織サンプルは、出産中または出産直後（例えば、０〜７２時間後）の妊婦から回収される（例えば、経腟分娩または非経腟分娩（例えば、手術分娩））。
血液サンプルの取得およびＤＮＡの抽出

いくつかの実施形態において、本明細書中の方法は、被験体のゲノムにおける染色体変化の存在もしくは非存在を検出するおよび／または被験体の健康状態をモニターする非侵襲的手段として、被験体の血液中に見られるＤＮＡを分離する工程、濃縮する工程、配列決定する工程および／または解析する工程を含む。
血液サンプルの取得

血液サンプルは、本技術の方法を用いて任意の齢の被験体（例えば、雄または雌の被験体）から得ることができる。血液サンプルは、本技術の方法を用いて検査するのに適した在胎期間の妊婦から得ることができる。好適な在胎期間は、下記で論じられるような検査される障害に応じて変動し得る。被験体（例えば、妊婦）からの血液の回収は、病院またはクリニックが一般に従っている標準的なプロトコルに従って行われることが多い。適切な量の末梢血、例えば、代表的には５〜５０ｍｌが、回収されることが多く、さらなる調製の前に標準的な手順に従って保管され得る。血液サンプルは、サンプル中に存在する核酸の分解または品質を最小限にする様式で、回収され得るか、保管され得るか、または輸送され得る。
血液サンプルの調製

被験体の血液中に見られるＤＮＡの解析は、例えば、全血、血清または血漿を用いて行われ得る。母体の血液中に見られる胎児ＤＮＡの解析は、例えば、全血、血清または血漿を用いて行われ得る。患者の血液中に見られる腫瘍ＤＮＡの解析は、例えば、全血、血清または血漿を用いて行われ得る。被験体（例えば、母体の被験体；癌患者）から得られた血液から血清または血漿を調製するための方法は知られている。例えば、被験体の血液（例えば、妊婦の血液；癌患者の血液）は、血液凝固を防ぐために、ＥＤＴＡを含むチューブまたはＶａｃｕｔａｉｎｅｒＳＳＴ（ＢｅｃｔｏｎＤｉｃｋｉｎｓｏｎ，ＦｒａｎｋｌｉｎＬａｋｅｓ，Ｎ．Ｊ．）などの専用の市販品に入れられ得、次いで、遠心分離によって全血から血漿を得ることができる。血清は、遠心分離後の血液凝固ありまたはなしで得られ得る。遠心分離を用いる場合、その遠心分離は、通常、適切な速度、例えば、１，５００〜３，０００×ｇで行われるが、これに限らない。血漿または血清は、さらなる遠心分離工程に供され、その後、ＤＮＡ抽出に向けて新しいチューブに移され得る。

全血の細胞を含まない部分に加えて、女性または患者由来の全血サンプルの遠心分離および血漿の除去後に得ることができるバフィーコート部分に濃縮された細胞画分からもＤＮＡが回収され得る。
ＤＮＡの抽出

血液を含む生物学的サンプルからＤＮＡを抽出するための公知の方法が数多くある。ＤＮＡ調製の一般的な方法（例えば、ＳａｍｂｒｏｏｋａｎｄＲｕｓｓｅｌｌ，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ３ｄｅｄ．，２００１に記載されているもの）に従うことができ；様々な商業的に入手可能な試薬またはキット、例えば、ＱｉａｇｅｎのＱＩＡａｍｐＣｉｒｃｕｌａｔｉｎｇＮｕｃｌｅｉｃＡｃｉｄＫｉｔ、ＱｉａＡｍｐＤＮＡＭｉｎｉＫｉｔまたはＱｉａＡｍｐＤＮＡＢｌｏｏｄＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ，Ｈｉｌｄｅｎ，Ｇｅｒｍａｎｙ）、ＧｅｎｏｍｉｃＰｒｅｐ^ＴＭＢｌｏｏｄＤＮＡＩｓｏｌａｔｉｏｎＫｉｔ（Ｐｒｏｍｅｇａ，Ｍａｄｉｓｏｎ，Ｗｉｓ．）およびＧＦＸ^ＴＭＧｅｎｏｍｉｃＢｌｏｏｄＤＮＡＰｕｒｉｆｉｃａｔｉｏｎＫｉｔ（Ａｍｅｒｓｈａｍ，Ｐｉｓｃａｔａｗａｙ，Ｎ．Ｊ．）も、被験体由来の血液サンプルからＤＮＡを得るために使用してよい。１つより多いこれらの方法の組み合わせを使用してもよい。

いくつかの実施形態において、被験体から得られたサンプルは、まず、１つまたはそれを超える方法によって、腫瘍核酸について濃縮され得るかまたは相対的に濃縮され得る。例えば、腫瘍ＤＮＡと正常な患者ＤＮＡとの判別が、本技術の組成物およびプロセスのみを用いて、または他の判別要素と組み合わせて、行われ得る。

いくつかの実施形態において、妊婦被験体から得られたサンプルは、まず、１つまたはそれを超える方法によって、胎児核酸について濃縮され得るかまたは相対的に濃縮され得る。例えば、胎児ＤＮＡと母体ＤＮＡとの判別が、本技術の組成物およびプロセスのみを用いて、または他の判別要素と組み合わせて、行われ得る。これらの要素の例としては、Ｘ染色体とＹ染色体との間の単一ヌクレオチド差異、Ｙ染色体特異的配列、ゲノムのいずれかの箇所に位置する多型、胎児ＤＮＡと母体ＤＮＡとの間のサイズの差異、および母体組織と胎児組織との間のメチル化パターンの差異が挙げられるが、これらに限定されない。

サンプルを特定の核酸種について濃縮するための他の方法は、２００７年５月３０日に出願されたＰＣＴ特許出願番号ＰＣＴ／ＵＳ０７／６９９９１、２００７年６月１５日に出願されたＰＣＴ特許出願番号ＰＣＴ／ＵＳ２００７／０７１２３２、米国特許仮出願番号６０／９６８，８７６および６０／９６８，８７８（本出願人に譲渡された）、（２００５年１１月２８日に出願されたＰＣＴ特許出願番号ＰＣＴ／ＥＰ０５／０１２７０７）に記載されており、これらのすべてが参照により本明細書に組み込まれる。ある特定の実施形態において、母体核酸は、サンプルから選択的に除去される（部分的に、実質的に、ほぼ完全にまたは完全に）。

用語「核酸」および「核酸分子」は、本開示全体を通じて交換可能に使用され得る。これらの用語は、例えば、ＤＮＡ（例えば、相補ＤＮＡ（ｃＤＮＡ）、ゲノムＤＮＡ（ｇＤＮＡ）など）、ＲＮＡ（例えば、メッセージＲＮＡ（ｍＲＮＡ）、低分子阻害ＲＮＡ（ｓｉＲＮＡ）、リボソームＲＮＡ（ｒＲＮＡ）、ｔＲＮＡ、マイクロＲＮＡ、胎児または胎盤によって高度に発現されるＲＮＡなど）、ならびに／またはＤＮＡアナログもしくはＲＮＡアナログ（例えば、塩基アナログ、糖アナログおよび／または非天然の骨格などを含むもの）、ＲＮＡ／ＤＮＡハイブリッドおよびポリアミド核酸（ＰＮＡ）からの任意の組成の核酸のことを指し、これらのすべてが、一本鎖または二本鎖の形態であり得、別段限定されない限り、天然に存在するヌクレオチドと同様の様式で機能し得る、天然のヌクレオチドの公知のアナログを含み得る。核酸は、ある特定の実施形態において、インビトロまたは宿主細胞、細胞、細胞核もしくは細胞の細胞質において複製することができるかまたは複製されることができる、プラスミド、ファージ、ウイルス、自律複製配列（ＡＲＳ）、セントロメア、人工染色体、染色体または他の核酸であり得るか、またはそれらに由来し得る。いくつかの実施形態において、鋳型核酸は、単一の染色体に由来し得る（例えば、核酸サンプルは、二倍体生物から得られたサンプルの１本の染色体に由来し得る）。具体的に限定されない限り、この用語は、参照核酸と同様の結合特性を有し、および天然に存在するヌクレオチドと同様の様式で代謝される、天然のヌクレオチドの公知のアナログを含む核酸を包含する。別段示されない限り、特定の核酸配列は、その保存的に改変されたバリアント（例えば、縮重コドン置換）、対立遺伝子、オルソログ、単一ヌクレオチド多型（ＳＮＰ）および相補的配列ならびに明示的に示された配列も暗に包含する。具体的には、縮重コドン置換は、１つまたはそれを超える選択された（またはすべての）コドンの３番目の位置が、混合塩基および／またはデオキシイノシン残基で置換された配列を作製することによって達成され得る。核酸という用語は、遺伝子座、遺伝子、ｃＤＮＡ、および遺伝子によってコードされるｍＲＮＡと交換可能に使用される。この用語は、ヌクレオチドアナログから合成されたＲＮＡまたはＤＮＡの等価物、誘導体、バリアントおよびアナログとして、一本鎖ポリヌクレオチド（「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「順方向」読み枠または「逆方向」読み枠）および二本鎖ポリヌクレオチドも含み得る。用語「遺伝子」は、ポリペプチド鎖の生成に関わるＤＮＡのセグメントを意味し；この用語は、遺伝子産物の転写／翻訳および転写／翻訳の制御に関わるコード領域の前および後の領域（リーダーおよびトレーラー（ｔｒａｉｌｅｒ））、ならびに個々のコーディングセグメント（エキソン）の間の介在配列（イントロン）を含む。

デオキシリボヌクレオチドには、デオキシアデノシン、デオキシシチジン、デオキシグアノシンおよびデオキシチミジンが含まれる。ＲＮＡの場合、塩基シトシンが、ウラシルで置き換えられる。鋳型核酸は、被験体から得られた核酸を鋳型として用いて調製され得る。
核酸の単離および処理

核酸は、当該分野で公知の方法によって、１つまたはそれを超える供給源（例えば、細胞、血清、血漿、バフィーコート、リンパ液、皮膚、土壌など）から得られ得る。生物学的サンプル（例えば、血液または血液製剤）からＤＮＡを単離するため、抽出するためおよび／または精製するために、任意の好適な方法を用いることができ、それらの非限定的な例としては、ＤＮＡ調製の方法（例えば、ＳａｍｂｒｏｏｋａｎｄＲｕｓｓｅｌｌ，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ３ｄｅｄ．，２００１に記載されているもの）、様々な商業的に入手可能な試薬またはキット、例えば、ＱｉａｇｅｎのＱＩＡａｍｐＣｉｒｃｕｌａｔｉｎｇＮｕｃｌｅｉｃＡｃｉｄＫｉｔ、ＱｉａＡｍｐＤＮＡＭｉｎｉＫｉｔもしくはＱｉａＡｍｐＤＮＡＢｌｏｏｄＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ，Ｈｉｌｄｅｎ，Ｇｅｒｍａｎｙ）、ＧｅｎｏｍｉｃＰｒｅｐ^ＴＭＢｌｏｏｄＤＮＡＩｓｏｌａｔｉｏｎＫｉｔ（Ｐｒｏｍｅｇａ，Ｍａｄｉｓｏｎ，Ｗｉｓ．）およびＧＦＸ^ＴＭＧｅｎｏｍｉｃＢｌｏｏｄＤＮＡＰｕｒｉｆｉｃａｔｉｏｎＫｉｔ（Ａｍｅｒｓｈａｍ，Ｐｉｓｃａｔａｗａｙ，Ｎ．Ｊ．）などまたはそれらの組み合わせが挙げられる。

細胞溶解の手順および試薬は、当該分野で公知であり、一般に、化学的溶解方法（例えば、洗浄剤、低張液、酵素的手順などまたはそれらの組み合わせ）、物理的溶解方法（例えば、フレンチプレス、超音波処理など）または電解による溶解方法によって行われ得る。任意の好適な溶解手順を用いることができる。例えば、化学的方法は、一般に、細胞を破壊するために溶解剤を用い、その細胞から核酸を抽出した後、カオトロピック塩で処理する。凍結／融解の後の粉砕、細胞プレスの使用などのような物理的方法も有用である。高塩溶解手順もよく使用される。例えば、アルカリ溶解手順が使用され得る。後者の手順は、従来よりフェノール−クロロホルム溶液の使用を組み込んでおり、３つの溶液を必要とする代替のフェノール−クロロホルムフリー手順を用いることもできる。後者の手順では、１つの溶液は、１５ｍＭＴｒｉｓ，ｐＨ８．０；１０ｍＭＥＤＴＡおよび１００μｇ／ｍｌＲｎａｓｅＡを含み得；第２の溶液は、０．２ＮＮａＯＨおよび１％ＳＤＳを含み得；第３の溶液は、３ＭＫＯＡｃ，ｐＨ５．５を含み得る。これらの手順は、全体が本明細書に組み込まれるＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓｉｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｎ．Ｙ．，６．３．１−６．３．６（１９８９）に見られ得る。

核酸は、別の核酸と比べて異なる時点において単離され得、それらのサンプルの各々が、同じまたは異なる供給源由来である。核酸は、例えば、核酸ライブラリー（例えば、ｃＤＮＡまたはＲＮＡライブラリー）由来であり得る。核酸は、サンプル由来の核酸の精製もしくは単離および／または核酸分子の増幅の結果であり得る。本明細書中に記載されるプロセスのために提供される核酸は、１つのサンプルまたは２つもしくそれを超えるサンプル（例えば、１つもしくはそれを超える、２つもしくはそれを超える、３つもしくはそれを超える、４つもしくはそれを超える、５つもしくはそれを超える、６つもしくはそれを超える、７つもしくはそれを超える、８つもしくはそれを超える、９つもしくはそれを超える、１０個もしくはそれを超える、１１個もしくはそれを超える、１２個もしくはそれを超える、１３個もしくはそれを超える、１４個もしくはそれを超える、１５個もしくはそれを超える、１６個もしくはそれを超える、１７個もしくはそれを超える、１８個もしくはそれを超える、１９個もしくはそれを超えるまたは２０個もしくはそれを超えるサンプル）由来の核酸を含み得る。

ある特定の実施形態において、核酸には、細胞外核酸が含まれ得る。用語「細胞外核酸」は、本明細書中で使用されるとき、実質的に細胞を有しない供給源から単離された核酸のことを指し得、「無細胞」核酸、「循環無細胞核酸」（例えば、ＣＣＦフラグメント、ｃｃｆＤＮＡ）および／または「無細胞循環核酸」とも称される。細胞外核酸は、血液（例えば、ヒトの血液、例えば、妊婦の血液）に存在し得、その血液から得ることができる。細胞外核酸は、検出可能な細胞を含まないことが多く、細胞エレメントまたは細胞レムナントを含むことがある。細胞外核酸に対する細胞を含まない供給源の非限定的な例は、血液、血漿、血清および尿である。本明細書中で使用されるとき、用語「無細胞循環サンプル核酸を得る」には、サンプルを直接得ること（例えば、サンプル、例えば、テストサンプルを回収すること）またはサンプルを回収した別の者からサンプルを得ることが含まれる。理論に限定されるものではないが、細胞外核酸は、ある範囲にわたる一連の長さを有することが多い細胞外核酸（例えば、「ラダー」）の基礎をもたらす、細胞のアポトーシスおよび細胞の破壊の産物であり得る。

細胞外核酸は、種々の核酸種を含み得るので、ある特定の実施形態において、「不均一」と本明細書中で称される。例えば、癌を有する人由来の血清または血漿は、癌細胞（例えば、腫瘍、新形成）由来の核酸および非癌細胞由来の核酸を含み得る。別の例では、妊婦由来の血清または血漿は、母体核酸および胎児核酸を含み得る。場合によっては、癌の核酸または胎児の核酸は、核酸全体の約５％〜約５０％であるときがある（例えば、全核酸の約４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８または４９％が癌の核酸または胎児の核酸である）。いくつかの実施形態において、核酸中の癌の核酸または胎児の核酸の大部分は、約５００塩基対またはそれより短い長さである（例えば、癌の核酸または胎児の核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約５００塩基対またはそれより短い長さである）。いくつかの実施形態において、核酸中の癌の核酸または胎児の核酸の大部分は、約２５０塩基対またはそれより短い長さである（例えば、癌の核酸または胎児の核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約２５０塩基対またはそれより短い長さである）。いくつかの実施形態において、核酸中の癌の核酸または胎児の核酸の大部分は、約２００塩基対またはそれより短い長さである（例えば、癌の核酸または胎児の核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約２００塩基対またはそれより短い長さである）。いくつかの実施形態において、核酸中の癌の核酸または胎児の核酸の大部分は、約１５０塩基対またはそれより短い長さである（例えば、癌の核酸または胎児の核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約１５０塩基対またはそれより短い長さである）。いくつかの実施形態において、核酸中の癌の核酸または胎児の核酸の大部分は、約１００塩基対またはそれより短い長さである（例えば、癌の核酸または胎児の核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約１００塩基対またはそれより短い長さである）。いくつかの実施形態において、核酸中の癌の核酸または胎児の核酸の大部分は、約５０塩基対またはそれより短い長さである（例えば、癌の核酸または胎児の核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約５０塩基対またはそれより短い長さである）。いくつかの実施形態において、核酸中の癌の核酸または胎児の核酸の大部分は、約２５塩基対またはそれより短い長さである（例えば、癌の核酸または胎児の核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約２５塩基対またはそれより短い長さである）。

核酸は、ある特定の実施形態において、その核酸を含むサンプルの処理なしに、本明細書中に記載される方法を行うために提供され得る。いくつかの実施形態において、核酸は、その核酸を含むサンプルの処理の後に、本明細書中に記載される方法を行うために提供される。例えば、核酸は、サンプルから抽出され得るか、単離され得るか、精製され得るか、部分的に精製され得るか、または増幅され得る。用語「単離された」は、本明細書中で使用されるとき、その元の環境（例えば、それが天然に存在する場合は天然の環境、または外因的に発現される場合は宿主細胞）から取り出された核酸のことを指し、ゆえに、人間の介入によって（例えば、「人間の手によって」）その元の環境から変更されている。用語「単離された核酸」は、本明細書中で使用されるとき、被験体（例えば、ヒト被験体）から取り出された核酸のことを指し得る。単離された核酸は、供給源サンプル中に存在する構成要素の量よりも少ない非核酸構成要素（例えば、タンパク質、脂質）とともに提供され得る。単離された核酸を含む組成物は、非核酸構成要素を約５０％から９９％超、含まないことがある。単離された核酸を含む組成物は、非核酸構成要素を約９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％または９９％超、含まないことがある。用語「精製された」は、本明細書中で使用されるとき、核酸を精製手順に供する前に存在する非核酸構成要素の量より少ない非核酸構成要素（例えば、タンパク質、脂質、炭水化物）を含む、提供される核酸のことを指し得る。精製された核酸を含む組成物は、他の非核酸構成要素を約８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％または９９％超、含まないことがある。用語「精製された」は、本明細書中で使用されるとき、核酸が由来するサンプル供給源よりも少ない核酸種を含む、提供される核酸のことを指し得る。精製された核酸を含む組成物は、他の核酸種を約９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％、９９％または９９％超、含まないことがある。例えば、胎児核酸は、母体核酸および胎児核酸を含む混合物から精製され得る。ある特定の例において、胎児核酸の小さいフラグメント（例えば、３０〜５００ｂｐフラグメント）が、胎児核酸フラグメントと母体核酸フラグメントの両方を含む混合物から精製され得るか、または部分的に精製され得る。ある特定の例において、胎児核酸のより小さいフラグメントを含むヌクレオソームが、母体核酸のより大きいフラグメントを含むより大きいヌクレオソーム複合体の混合物から精製され得る。ある特定の例において、癌細胞の核酸は、癌細胞の核酸および非癌細胞の核酸を含む混合物から精製され得る。ある特定の例において、癌細胞の核酸の小さいフラグメントを含むヌクレオソームは、非癌核酸のより大きいフラグメントを含むより大きいヌクレオソーム複合体の混合物から精製され得る。

いくつかの実施形態において、核酸は、本明細書中に記載される方法の前、方法の最中または方法の後に、剪断されるかまたは切断される。剪断されたまたは切断された核酸は、約５〜約１０，０００塩基対、約１００〜約１，０００塩基対、約１００〜約５００塩基対または約１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００もしくは９０００塩基対という名目上の長さ、平均の長さまたは長さの平均値を有し得る。剪断されたまたは切断された核酸は、当該分野で公知の好適な方法によって作製され得、得られる核酸フラグメントの平均の長さ、長さの平均値または名目上の長さは、フラグメントを作製する適切な方法を選択することによって制御され得る。

いくつかの実施形態において、核酸は、好適な方法によって剪断されるかまたは切断され、その好適な方法の非限定的な例としては、物理的方法（例えば、剪断、例えば、超音波処理、フレンチプレス、加熱、ＵＶ照射など）、酵素的プロセス（例えば、酵素的切断剤（例えば、好適なヌクレアーゼ、好適な制限酵素、好適なメチル化感受性制限酵素））、化学的方法（例えば、アルキル化、ＤＭＳ、ピペリジン、酸加水分解、塩基加水分解、加熱などまたはそれらの組み合わせ）、米国特許出願公開番号２００５０１１２５９０に記載されているプロセスなどまたはそれらの組み合わせが挙げられる。

本明細書中で使用されるとき、「剪断」または「切断」とは、核酸分子（例えば、核酸鋳型遺伝子分子またはその増幅産物）が２つまたはそれを超えるより小さい核酸分子に切り離され得る手順または条件のことを指す。そのような剪断または切断は、配列特異的、塩基特異的または非特異的であり得、例えば、化学的、酵素的、物理的剪断（例えば、物理的断片化）を含む、種々の方法、試薬または条件のいずれかによって達成され得る。本明細書中で使用されるとき、「切断産物」、「切断された産物」またはその文法上のバリアントは、核酸の剪断もしくは切断の結果として生じる核酸分子またはその増幅産物のことを指す。

用語「増幅された」は、本明細書中で使用されるとき、サンプル中の標的核酸を、その標的核酸と同じもしくは実質的に同じヌクレオチド配列を有するアンプリコン核酸またはそのセグメントを直線的または指数関数的に生成するプロセスに供することを指す。ある特定の実施形態において、用語「増幅された」とは、ポリメラーゼ連鎖反応（ＰＣＲ）を含む方法のことを指す。例えば、増幅産物は、核酸鋳型配列の増幅されるヌクレオチド領域より多い１つまたはそれを超えるヌクレオチドを含み得る（例えば、プライマーは、核酸鋳型遺伝子分子に相補的なヌクレオチドに加えて、「余分の」ヌクレオチド、例えば、転写開始配列を含み得、その結果、「余分の」ヌクレオチドまたはその核酸鋳型遺伝子分子の増幅されるヌクレオチド領域に対応しないヌクレオチドを含む増幅産物をもたらす）。

本明細書中で使用されるとき、用語「相補的な切断反応」とは、同じ核酸に対して異なる切断試薬を用いて行われるか、あるいは同じ標的核酸もしくは参照核酸または標的タンパク質もしくは参照タンパク質の別の切断パターンが生成されるように、同じ切断試薬の切断特異性を変更することによって、同じ核酸に対して行われる切断反応のことを指す。ある特定の実施形態において、核酸は、１つまたはそれを超える反応容器において、１つまたはそれを超える特異的切断剤（例えば、１、２、３、４、５、６、７、８、９、１０個もしくはそれを超える特異的切断剤）で処理され得る（例えば、核酸は、別個の容器において各特異的切断剤で処理される）。用語「特異的切断剤」は、本明細書中で使用されるとき、１つまたはそれを超える特異的部位において核酸を切断できる作用物質のことを指し、１つまたはそれを超える特異的部位において核酸を切断できる化学物質または酵素のことを指すときがある。

核酸は、本明細書中に記載される方法のために核酸を提供する前に、その核酸の中のある特定のヌクレオチドを改変するプロセスにも曝露され得る。例えば、核酸の中のヌクレオチドのメチル化状態に基づいてその核酸を選択的に改変するプロセスが、核酸に適用され得る。さらに、高温、紫外線、ｘ線などの条件が、核酸分子の配列の変化を誘導し得る。核酸は、好適な配列解析を行うのに有用な任意の好適な形態で提供され得る。

核酸は、一本鎖または二本鎖であり得る。例えば、一本鎖ＤＮＡは、例えば、加熱またはアルカリによる処理によって、二本鎖ＤＮＡを変性することによって作製され得る。ある特定の実施形態において、核酸は、オリゴヌクレオチドまたはＤＮＡ様分子、例えば、ペプチド核酸（ＰＮＡ）による二重鎖ＤＮＡ分子のストランド侵入によって形成されるＤループ構造である。Ｄループの形成は、当該分野で公知の方法を用いて、例えば、大腸菌ＲｅｃＡタンパク質の添加および／または塩濃度の変更によって促進され得る。
少数種対多数種

少なくとも２つの異なる核酸種が、細胞外（例えば、循環無細胞）核酸として、異なる量で存在し得、それらは、少数種および多数種と称されるときがある。ある特定の場合において、少数種の核酸は、罹患細胞型（例えば、癌細胞、喪失性の（ｗａｓｔｉｎｇ）細胞、免疫系に攻撃された細胞）に由来する。ある特定の実施形態において、染色体変化は、少数種の核酸について判定される。ある特定の実施形態において、染色体変化は、多数種の核酸について判定される。本明細書中で使用されるとき、用語「少数」または「多数」は、任意の点において厳しく定義されると意図されていない。１つの態様において、「少数」と考えられる核酸は、例えば、サンプル中の全核酸の少なくとも約０．１％〜サンプル中の全核酸の５０％未満の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約１％〜サンプル中の全核酸の約４０％の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約２％〜サンプル中の全核酸の約３０％の存在量を有し得る。いくつかの実施形態において、少数核酸は、サンプル中の全核酸の少なくとも約３％〜サンプル中の全核酸の約２５％の存在量を有し得る。例えば、少数核酸は、サンプル中の全核酸の約１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１１％、１２％、１３％、１４％、１５％、１６％、１７％、１８％、１９％、２０％、２１％、２２％、２３％、２４％、２５％、２６％、２７％、２８％、２９％または３０％の存在量を有し得る。場合によっては、細胞外核酸の少数種は、核酸全体の約１％〜約４０％であるときがある（例えば、その核酸の約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９または４０％が少数種核酸である）。いくつかの実施形態において、少数核酸は、細胞外ＤＮＡである。いくつかの実施形態において、少数核酸は、アポトーシス組織由来の細胞外ＤＮＡである。いくつかの実施形態において、少数核酸は、細胞増殖性障害によって影響された組織由来の細胞外ＤＮＡである。いくつかの実施形態において、少数核酸は、腫瘍細胞由来の細胞外ＤＮＡである。いくつかの実施形態において、少数核酸は、細胞外の胎児ＤＮＡである。

別の態様において、「多数」と考えられる核酸は、例えば、サンプル中の全核酸の５０％超〜サンプル中の全核酸の約９９．９％の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約６０％〜サンプル中の全核酸の約９９％の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約７０％〜サンプル中の全核酸の約９８％の存在量を有し得る。いくつかの実施形態において、多数核酸は、サンプル中の全核酸の少なくとも約７５％〜サンプル中の全核酸の約９７％の存在量を有し得る。例えば、多数核酸は、サンプル中の全核酸の少なくとも約７０％、７１％、７２％、７３％、７４％、７５％、７６％、７７％、７８％、７９％、８０％、８１％、８２％、８３％、８４％、８５％、８６％、８７％、８８％、８９％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９８％または９９％の存在量を有し得る。いくつかの実施形態において、多数核酸は、細胞外ＤＮＡである。いくつかの実施形態において、多数核酸は、細胞外の母体ＤＮＡである。いくつかの実施形態において、多数核酸は、健常組織由来のＤＮＡである。いくつかの実施形態において、多数核酸は、非腫瘍細胞由来のＤＮＡである。

いくつかの実施形態において、細胞外核酸の少数種は、約５００塩基対またはそれより短い長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約５００塩基対またはそれより短い長さである）。いくつかの実施形態において、細胞外核酸の少数種は、約３００塩基対またはそれより短い長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約３００塩基対またはそれより短い長さである）。いくつかの実施形態において、細胞外核酸の少数種は、約２００塩基対またはそれより短い長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約２００塩基対またはそれより短い長さである）。いくつかの実施形態において、細胞外核酸の少数種は、約１５０塩基対またはそれより短い長さである（例えば、少数種核酸の約８０、８５、９０、９１、９２、９３、９４、９５、９６、９７、９８、９９または１００％は、約１５０塩基対またはそれより短い長さである）。
細胞型

本明細書中で使用されるとき、「細胞型」とは、別のタイプの細胞と区別され得る細胞のタイプのことを指す。細胞外核酸は、いくつかの異なる細胞型由来の核酸を含み得る。循環無細胞核酸に核酸を与え得る細胞型の非限定的な例としては、肝臓細胞（例えば、肝細胞）、肺細胞、脾臓細胞、膵臓細胞、結腸細胞、皮膚細胞、膀胱細胞、眼細胞、脳細胞、食道細胞、頭部の細胞、頸部の細胞、卵巣の細胞、精巣の細胞、前立腺細胞、胎盤細胞、上皮細胞、内皮細胞、脂肪細胞、腎臓／腎細胞、心臓細胞、筋細胞、血液細胞（例えば、白血球）、中枢神経系（ＣＮＳ）細胞などおよび前述のものの組み合わせが挙げられる。いくつかの実施形態において、解析される循環無細胞核酸に核酸を与える細胞型には、白血球、内皮細胞および肝細胞肝臓細胞（ｈｅｐａｔｏｃｙｔｅｌｉｖｅｒｃｅｌｌｓ）が挙げられる。本明細書中でさらに詳細に記載されるように、マーカーの状態が、医学的症状を有する被験体における細胞型および医学的症状を有しない被験体における細胞型に対して同じまたは実質的に同じである核酸の遺伝子座を同定するおよび選択する一部として、種々の細胞型がスクリーニングされ得る。

特定の細胞型は、医学的症状を有する被験体および医学的症状を有しない被験体において、同じまたは実質的に同じままであるときがある。非限定的な例において、特定の細胞型の生細胞または生存細胞の数が、ある細胞変性症状において減少し得、生きている生存細胞が、その医学的症状を有する被験体において、改変されないか、または有意に改変されない。

特定の細胞型は、医学的症状の一部として改変されるときがあり、その元の状態とは異なる１つまたはそれを超える特性を有するときがある。非限定的な例において、特定の細胞型は、癌の症状の一部として、正常な速度よりも速い速度で増殖し得、異なる形態を有する細胞に転換し得、１つもしくはそれを超える異なる細胞表面マーカーを発現する細胞に転換し得、および／または腫瘍の一部になり得る。特定の細胞型（すなわち、前駆細胞）が医学的症状の一部として改変される実施形態において、アッセイされる１つまたはそれを超えるマーカーの各々に対するマーカーの状態は、その医学的症状を有する被験体におけるその特定の細胞型およびその医学的症状を有しない被験体におけるその特定の細胞型に対して同じまたは実質的に同じであることが多い。したがって、用語「細胞型」は、ある医学的症状を有しない被験体における細胞のタイプ、およびその医学的症状を有する被験体におけるその細胞の改変バージョンに関するときがある。いくつかの実施形態において、「細胞型」は、前駆細胞だけであり、前駆細胞から生じる改変バージョンではない。「細胞型」は、前駆細胞、および前駆細胞から生じる改変された細胞に関するときがある。そのような実施形態において、解析されるマーカーに対するマーカーの状態は、ある医学的症状を有する被験体における細胞型およびその医学的症状を有しない被験体における細胞型に対して同じまたは実質的に同じであることが多い。

ある特定の実施形態において、細胞型は、癌細胞である。ある特定の癌細胞のタイプとしては、例えば、白血病細胞（例えば、急性骨髄性白血病、急性リンパ芽球性白血病、慢性骨髄性白血病、慢性リンパ芽球性白血病）；癌性腎臓／腎細胞（例えば、腎細胞癌（明細胞、１型乳頭状、２型乳頭状、嫌色素、膨大細胞、集合管）、腎腺癌、副腎腫、ウィルムス腫瘍、移行上皮癌腫）；脳腫瘍細胞（例えば、聴神経腫、星状細胞腫（グレードＩ：毛様細胞性星状細胞腫、グレードＩＩ：低悪性度星状細胞腫、グレードＩＩＩ：未分化星状細胞腫、グレードＩＶ：神経膠芽腫（ＧＢＭ））、脊索腫、ｃｎｓリンパ腫、頭蓋咽頭腫、神経膠腫（脳幹神経膠腫、上衣腫、混合性神経膠腫、視神経膠腫、上衣下腫）、髄芽腫、髄膜腫、転移性脳腫瘍、乏突起膠腫、下垂体腫瘍、原始神経外胚葉性腫瘍（ＰＮＥＴ）、神経鞘腫、若年性毛様細胞性星状細胞腫（ＪＰＡ）、松果体腫瘍、ラブドイド腫瘍）が挙げられる。

異なる細胞型は、任意の好適な特色によって区別され得、その特色としては、１つまたはそれを超える異なる細胞表面マーカー、１つまたはそれを超える異なる形態学的特徴、１つまたはそれを超える異なる機能、１つまたはそれを超える異なるタンパク質（例えば、ヒストン）修飾および１つまたはそれを超える異なる核酸マーカーが挙げられるが、これらに限定されない。核酸マーカーの非限定的な例としては、単一ヌクレオチド多型（ＳＮＰ）、核酸遺伝子座のメチル化状態、短タンデム反復、挿入（例えば、微小挿入）、欠失（微小欠失）などおよびそれらの組み合わせが挙げられる。タンパク質（例えば、ヒストン）修飾の非限定的な例としては、アセチル化、メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化などおよびそれらの組み合わせが挙げられる。

本明細書中で使用されるとき、用語「関連する細胞型」とは、別の細胞型と共通の複数の特色を有する細胞型のことを指す。関連する細胞型において、７５％またはそれを超える細胞表面マーカーが、その細胞型と共通しているときがある（例えば、細胞表面マーカーの約８０％、８５％、９０％もしくは９５％またはそれを超えるものが、関連する細胞型と共通している）。
核酸の濃縮

いくつかの実施形態において、核酸（例えば、細胞外核酸）は、核酸の部分集団または種について濃縮されるかまたは相対的に濃縮される。核酸の部分集団としては、例えば、胎児核酸、母体の核酸、癌の核酸、患者の核酸、特定の長さもしくは長さの範囲のフラグメントを含む核酸、または特定のゲノム領域（例えば、単一の染色体、染色体のセットおよび／またはある特定の染色体領域）に由来する核酸が挙げられ得る。そのような濃縮されたサンプルは、本明細書中に提供される方法とともに使用され得る。したがって、ある特定の実施形態において、本技術の方法は、サンプル中の核酸の部分集団、例えば、癌の核酸または胎児の核酸について濃縮するさらなる工程を含む。ある特定の実施形態において、癌または胎児の画分を測定するための方法は、癌の核酸または胎児の核酸を濃縮するためにも使用され得る。ある特定の実施形態において、母体核酸が、サンプルから選択的に除去される（部分的に、実質的に、ほぼ完全にまたは完全に）。ある特定の実施形態において、特定の低コピー数種の核酸（例えば、癌の核酸または胎児の核酸）について濃縮することにより、定量的感度が改善され得る。サンプルを特定の核酸種について濃縮するための方法は、例えば、米国特許第６，９２７，０２８号、国際特許出願公開番号ＷＯ２００７／１４０４１７、国際特許出願公開番号ＷＯ２００７／１４７０６３、国際特許出願公開番号ＷＯ２００９／０３２７７９、国際特許出願公開番号ＷＯ２００９／０３２７８１、国際特許出願公開番号ＷＯ２０１０／０３３６３９、国際特許出願公開番号ＷＯ２０１１／０３４６３１、国際特許出願公開番号ＷＯ２００６／０５６４８０および国際特許出願公開番号ＷＯ２０１１／１４３６５９に記載されており、本文、表、式および図面のすべてを含むこれらの各々の全内容が、参照により本明細書中に組み込まれる。

いくつかの実施形態において、核酸は、ある特定の標的フラグメント種および／または参照フラグメント種について濃縮される。ある特定の実施形態において、核酸は、下記に記載される、長さに基づく１つまたはそれを超える分離法を用いて、特定の核酸フラグメント長またはフラグメント長の範囲について濃縮される。ある特定の実施形態において、核酸は、本明細書中に記載されるおよび／または当該分野で公知の、配列に基づく１つまたはそれを超える分離法を用いて、選択されたゲノム領域（例えば、染色体）由来のフラグメントについて濃縮される。サンプル中の核酸の部分集団（例えば、胎児核酸）について濃縮するためのある特定の方法は、下記に詳細に記載される。

本明細書中に記載される方法とともに使用され得る核酸の部分集団（例えば、胎児核酸）を濃縮するためのいくつかの方法には、母体核酸と胎児核酸との間のエピジェネティックな差異を利用する方法が含まれる。例えば、胎児核酸は、メチル化の差異に基づいて鑑別され得、母体核酸から分離され得る。メチル化に基づく胎児核酸の濃縮方法は、参照により本明細書中に組み込まれる米国特許出願公開番号２０１０／０１０５０４９に記載されている。そのような方法は、サンプル核酸をメチル化特異的結合物質（メチル−ＣｐＧ結合タンパク質（ＭＢＤ）、メチル化特異的抗体など）に結合する工程、および異なるメチル化の状態に基づいて、結合した核酸を未結合の核酸から分離する工程を含むときがある。そのような方法は、母体核酸を選択的かつ完全にまたは実質的に消化する酵素で母体サンプル由来の核酸を選択的に消化することによりそのサンプルを少なくとも１つの胎児核酸領域について濃縮することによって母体サンプル中の胎児核酸領域の濃縮を可能にするメチル化感受性制限酵素（上に記載されたような；例えば、ＨｈａＩおよびＨｐａＩＩ）の使用も含み得る。

本明細書中に記載される方法とともに使用され得る核酸の部分集団（例えば、胎児核酸）を濃縮するための別の方法は、制限エンドヌクレアーゼによって向上される多型配列アプローチ（例えば、参照により本明細書中に組み込まれる米国特許出願公開番号２００９／０３１７８１８に記載されている方法）である。そのような方法は、非標的対立遺伝子を含む核酸を、その非標的対立遺伝子を含む核酸を認識するが標的対立遺伝子を認識しない制限エンドヌクレアーゼで切断すること；および切断されなかった核酸を増幅するが切断されなかった核酸を増幅しないことを含み、ここで、その切断されずに増幅された核酸は、非標的核酸（例えば、母体核酸）に対して濃縮された標的核酸（例えば、胎児核酸）に相当する。ある特定の実施形態において、核酸は、例えば、それが、切断物質による選択的消化に感受性の多型部位を有する対立遺伝子を含むように選択され得る。

本明細書中に記載される方法とともに使用され得る核酸の部分集団（例えば、胎児核酸）を濃縮するためのいくつかの方法は、選択的酵素分解アプローチを含む。そのような方法は、標的配列をエキソヌクレアーゼ消化から保護する工程を含み、それにより、サンプル中の望まれない配列（例えば、母体ＤＮＡ）の排除が促進される。例えば、１つのアプローチでは、サンプル核酸を変性して一本鎖核酸を生成し、一本鎖核酸を少なくとも１つの標的特異的プライマー対と好適なアニーリング条件下で接触させ、アニールしたプライマーをヌクレオチド重合によって伸長して、二本鎖標的配列を生成し、一本鎖（例えば、非標的）核酸を消化するヌクレアーゼを用いて一本鎖核酸を消化する。ある特定の実施形態において、その方法は、さらに少なくとも１サイクル繰り返され得る。ある特定の実施形態では、１回目および２回目のサイクルの各伸長をプライムするために同じ標的特異的プライマー対を使用し、ある特定の実施形態では、１回目および２回目のサイクルに対して異なる標的特異的プライマー対を使用する。

本明細書中に記載される方法とともに使用され得る核酸の部分集団（例えば、胎児核酸）を濃縮するためのいくつかの方法は、大規模並列処理シグネチャ配列決定（ＭＰＳＳ）アプローチを含む。ＭＰＳＳは、通常、アダプター（例えば、タグ）のライゲーションの後、アダプターの解読および核酸配列の読み取りを少しずつ行う固相方法である。各核酸が、ユニークなタグを有するＰＣＲ産物を生成するように、タグ化されたＰＣＲ産物が通常増幅される。タグは、ＰＣＲ産物をマイクロビーズに付着させるために用いられることが多い。数回のライゲーションベースの配列決定の後、例えば、配列シグネチャが、各ビーズから特定され得る。ＭＰＳＳデータセット内の各シグネチャ配列（ＭＰＳＳタグ）が解析され、他のすべてのシグネチャと比較され、同一のシグネチャのすべてがカウントされる。

ある特定の実施形態において、ある特定の濃縮方法（例えば、ある特定のＭＰＳおよび／またはＭＰＳＳに基づく濃縮方法）は、増幅（例えば、ＰＣＲ）に基づくアプローチを含み得る。ある特定の実施形態において、遺伝子座特異的増幅方法が使用され得る（例えば、遺伝子座特異的増幅プライマーを使用して）。ある特定の実施形態において、マルチプレックスＳＮＰ対立遺伝子ＰＣＲアプローチが使用され得る。ある特定の実施形態において、マルチプレックスＳＮＰ対立遺伝子ＰＣＲアプローチが、ユニプレックス配列決定と組み合わせて使用され得る。例えば、そのようなアプローチは、マルチプレックスＰＣＲ（例えば、ＭＡＳＳＡＲＲＡＹシステム）を使用すること、および捕捉プローブ配列をアンプリコンに組み込んだ後、例えばＩｌｌｕｍｉｎａＭＰＳＳシステムを用いて配列決定することを含み得る。ある特定の実施形態において、マルチプレックスＳＮＰ対立遺伝子ＰＣＲアプローチは、３プライマーシステムおよびインデックスシーケンシングと組み合わせて使用され得る。例えば、そのようなアプローチは、ある特定の遺伝子座特異的順方向ＰＣＲプライマーに組み込まれた第１の捕捉プローブおよび遺伝子座特異的逆方向ＰＣＲプライマーに組み込まれたアダプター配列を有するプライマーを用いるマルチプレックスＰＣＲ（例えば、ＭＡＳＳＡＲＲＡＹシステム）を使用することにより、アンプリコンを生成し、その後、例えばＩｌｌｕｍｉｎａＭＰＳＳシステムを用いた、配列決定に向けて逆方向の捕捉配列および分子インデックスバーコードを組み込むための第２のＰＣＲを含み得る。ある特定の実施形態において、マルチプレックスＳＮＰ対立遺伝子ＰＣＲアプローチは、４プライマーシステムおよびインデックスシーケンシングと組み合わせて使用され得る。例えば、そのようなアプローチは、遺伝子座特異的順方向ＰＣＲプライマーと遺伝子座特異的逆方向ＰＣＲプライマーの両方に組み込まれたアダプター配列を有するプライマーを用いるマルチプレックスＰＣＲ（例えば、ＭＡＳＳＡＲＲＡＹシステム）の後、例えば、ＩｌｌｕｍｉｎａＭＰＳＳシステムを用いた、配列決定に向けて順方向捕捉配列と逆方向捕捉配列の両方および分子インデックスバーコードを組み込むための第２のＰＣＲを使用することを含み得る。ある特定の実施形態において、マイクロフルイディクスアプローチが使用され得る。ある特定の実施形態において、アレイベースのマイクロフルイディクスアプローチが使用され得る。例えば、そのようなアプローチは、低プレックス（ｌｏｗｐｌｅｘ）での増幅ならびにインデックスおよび捕捉プローブの組み込みのためにマイクロフルイディクスアレイ（例えば、Ｆｌｕｉｄｉｇｍ）を使用した後の配列決定を含み得る。ある特定の実施形態において、エマルジョンマイクロフルイディクスアプローチ、例えば、デジタル液滴ＰＣＲが使用され得る。

ある特定の実施形態において、ユニバーサル増幅法が使用され得る（例えば、ユニバーサル増幅プライマーまたは非遺伝子座特異的増幅プライマーを用いて）。ある特定の実施形態において、ユニバーサル増幅法は、プルダウンアプローチと組み合わせて使用され得る。ある特定の実施形態において、ある方法は、広く増幅された配列決定ライブラリーからのビオチン化ウルトラマー（ｕｌｔｒａｍｅｒ）プルダウン（例えば、ＡｇｉｌｅｎｔまたはＩＤＴ製のビオチン化プルダウンアッセイ）を含み得る。例えば、そのようなアプローチは、標準的なライブラリーの調製、プルダウンアッセイによる選択された領域の濃縮、および第２のユニバーサル増幅工程を含み得る。ある特定の実施形態において、プルダウンアプローチは、ライゲーションに基づく方法と組み合わせて使用され得る。ある特定の実施形態において、ある方法は、配列特異的アダプターライゲーションを用いるビオチン化ウルトラマープルダウン（例えば、ＨＡＬＯＰＬＥＸＰＣＲ，ＨａｌｏＧｅｎｏｍｉｃｓ）を含み得る。例えば、そのようなアプローチは、選択プローブを使用して、制限酵素によって消化されたフラグメントを捕捉した後、捕捉された生成物とアダプターとをライゲーションし、ユニバーサル増幅した後、配列決定することを含み得る。ある特定の実施形態において、プルダウンアプローチは、伸長およびライゲーションに基づく方法と組み合わせて使用され得る。ある特定の実施形態において、ある方法は、分子反転プローブ（ｍｏｌｅｃｕｌａｒｉｎｖｅｒｓｉｏｎｐｒｏｂｅ）（ＭＩＰ）の伸長およびライゲーションを含み得る。例えば、そのようなアプローチは、分子反転プローブを配列アダプターと組み合わせて使用した後、ユニバーサル増幅および配列決定を行うことを含み得る。ある特定の実施形態において、相補ＤＮＡが、合成され得、増幅なしに配列決定され得る。

ある特定の実施形態において、伸長およびライゲーションのアプローチは、プルダウンの構成要素なしに行われ得る。ある特定の実施形態において、ある方法は、遺伝子座特異的順方向プライマーおよび遺伝子座特異的逆方向プライマーのハイブリダイゼーション、伸長およびライゲーションを含み得る。そのような方法は、ユニバーサル増幅、または増幅なしの相補ＤＮＡ合成の後の配列決定をさらに含み得る。ある特定の実施形態において、そのような方法は、解析中のバックグラウンド配列を減少させ得るか、または排除し得る。

ある特定の実施形態において、プルダウンアプローチは、随意の増幅構成要素を用いて、または増幅構成要素を用いずに、使用され得る。ある特定の実施形態において、ある方法は、ユニバーサル増幅なしで捕捉プローブの完全な組み込みを伴う、改変されたプルダウンアッセイおよびライゲーションを含み得る。例えば、そのようなアプローチは、改変された選択プローブを使用して、制限酵素によって消化されたフラグメントを捕捉した後の、捕捉された生成物とアダプターとのライゲーション、随意の増幅および配列決定を含み得る。ある特定の実施形態において、ある方法は、環状一本鎖ライゲーションと組み合わせて、アダプター配列の伸長およびライゲーションを用いるビオチン化プルダウンアッセイを含み得る。例えば、そのようなアプローチは、選択プローブを使用して目的の領域（例えば、標的配列）を捕捉すること、そのプローブの伸長、アダプターのライゲーション、一本鎖環状ライゲーション、随意の増幅および配列決定を含み得る。ある特定の実施形態において、配列決定の結果の解析は、標的配列をバックグラウンドから分離し得る。

いくつかの実施形態において、核酸は、本明細書中に記載される、配列に基づく１つまたはそれを超える分離方法を用いて、選択されたゲノム領域（例えば、染色体）由来のフラグメントについて濃縮される。配列に基づく分離は、一般に、目的のフラグメント（例えば、標的フラグメントおよび／または参照フラグメント）に存在し、かつサンプルの他のフラグメントには実質的に存在しないかまたはごくわずかな量の他のフラグメント（例えば、５％またはそれ未満）に存在する、ヌクレオチド配列に基づく。いくつかの実施形態において、配列に基づく分離は、分離された標的フラグメントおよび／または分離された参照フラグメントを生成し得る。分離された標的フラグメントおよび／または分離された参照フラグメントは、その核酸サンプル中の残りのフラグメントから単離されることが多い。ある特定の実施形態において、その分離された標的フラグメントおよび分離された参照フラグメントは、互いからも単離される（例えば、別個のアッセイコンパートメントに単離される）。ある特定の実施形態において、その分離された標的フラグメントおよび分離された参照フラグメントは、共に単離される（例えば、同じアッセイコンパートメントに単離される）。いくつかの実施形態において、未結合のフラグメントは、差次的に除去され得るか、または分解され得るか、または消化され得る。

いくつかの実施形態において、選択的な核酸捕捉プロセスが、標的フラグメントおよび／または参照フラグメントを核酸サンプルから分離するために使用される。商業的に入手可能な核酸捕捉システムとしては、例えば、Ｎｉｍｂｌｅｇｅｎ配列捕捉システム（ＲｏｃｈｅＮｉｍｂｌｅＧｅｎ，Ｍａｄｉｓｏｎ，ＷＩ）；ＩｌｌｕｍｉｎａＢＥＡＤＡＲＲＡＹプラットフォーム（Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏ，ＣＡ）；ＡｆｆｙｍｅｔｒｉｘＧＥＮＥＣＨＩＰプラットフォーム（Ａｆｆｙｍｅｔｒｉｘ，ＳａｎｔａＣｌａｒａ，ＣＡ）；ＡｇｉｌｅｎｔＳｕｒｅＳｅｌｅｃｔＴａｒｇｅｔＥｎｒｉｃｈｍｅｎｔＳｙｓｔｅｍ（ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ，ＳａｎｔａＣｌａｒａ，ＣＡ）；および関連するプラットフォームが挙げられる。そのような方法は、通常、捕捉オリゴヌクレオチドと、標的フラグメントもしくは参照フラグメントのセグメントまたは標的フラグメントもしくは参照フラグメントのすべてのヌクレオチド配列とのハイブリダイゼーションを含み、固相（例えば、固相アレイ）および／または溶液ベースのプラットフォームの使用を含み得る。捕捉オリゴヌクレオチド（「ベイト」と称されるときがある）は、それらが、選択されたゲノム領域または遺伝子座（例えば、２１番、１８番、１３番、ＸもしくはＹ染色体のうちの１つまたは参照染色体）由来の核酸フラグメントに優先的にハイブリダイズするように、選択され得るかまたはデザインされ得る。ある特定の実施形態において、ハイブリダイゼーションに基づく方法（例えば、オリゴヌクレオチドアレイを用いる方法）は、ある特定の染色体（例えば、潜在的に異数性の染色体、参照染色体または他の目的の染色体）由来の核酸配列またはその目的のセグメントを濃縮するために使用され得る。

いくつかの実施形態において、核酸は、１つまたはそれを超える、長さに基づく分離方法を用いて、特定の核酸フラグメントの長さ、長さの範囲、または特定の閾値もしくはカットオフを下回るもしくは上回る長さについて濃縮される。核酸フラグメントの長さは、通常、そのフラグメントにおけるヌクレオチドの数のことを指す。核酸フラグメントの長さは、核酸フラグメントのサイズと称されるときもある。いくつかの実施形態において、長さに基づく分離方法は、個々のフラグメントの長さを計測せずに行われる。いくつかの実施形態において、長さに基づく分離方法は、個々のフラグメントの長さを測定するための方法とともに行われる。いくつかの実施形態において、長さに基づく分離とは、分画されたプールの全部または一部が単離され得る（例えば、保持され得る）および／または解析され得るサイズ分画手順のことを指す。サイズ分画手順は、当該分野で公知である（例えば、アレイ上での分離、モレキュラーシーブによる分離、ゲル電気泳動による分離、カラムクロマトグラフィーによる分離（例えば、サイズ排除カラム）およびマイクロフルイディクスベースのアプローチ）。ある特定の実施形態において、長さに基づく分離アプローチは、例えば、フラグメントの環状化、化学的処理（例えば、ホルムアルデヒド、ポリエチレングリコール（ＰＥＧ））、質量分析および／またはサイズ特異的核酸増幅を含み得る。

本明細書中に記載される方法とともに使用され得るある特定の長さに基づく分離方法は、例えば、選択的な配列タギングアプローチを用いる。用語「配列タギング」とは、認識可能な異なる配列を核酸または核酸集団に組み込むことを指す。用語「配列タギング」は、本明細書中で使用されるとき、本明細書中の後に記載される用語「配列タグ」と異なる意味を有する。そのような配列タギング方法において、フラグメントサイズ種（例えば、短いフラグメント）核酸は、長い核酸および短い核酸を含むサンプル中で選択的な配列タギングに供される。そのような方法は、通常、内側プライマーおよび外側プライマーを含むネステッドプライマーのセットを用いて核酸増幅反応を行う工程を含む。ある特定の実施形態において、その内側プライマーの一方または両方が、タグ化されることにより、標的増幅産物にタグが導入され得る。外側プライマーは、一般に、（内側の）標的配列を有する短いフラグメントにアニールしない。内側プライマーは、その短いフラグメントにアニールでき、タグおよび標的配列を有する増幅産物を生成し得る。代表的には、長いフラグメントのタギングは、例えば、外側プライマーの事前のアニーリングおよび伸長による内側プライマーの伸長の阻止を含む、機序の組み合わせによって阻害される。タグ化されたフラグメントの濃縮は、例えば、一本鎖核酸のエキソヌクレアーゼ消化、および少なくとも１つのタグに特異的な増幅プライマーを用いるタグ化されたフラグメントの増幅を含む、種々の方法のいずれかによって達成され得る。

本明細書中に記載される方法とともに使用され得る別の長さに基づく分離方法は、核酸サンプルをポリエチレングリコール（ＰＥＧ）沈殿に供する工程を含む。方法の例としては、国際特許出願公開番号ＷＯ２００７／１４０４１７およびＷＯ２０１０／１１５０１６（本文、表、式および図面のすべてを含むこれらの各々の全内容が参照により本明細書中に組み込まれる）に記載されている方法が挙げられる。この方法は、一般に、小さい（例えば、３００ヌクレオチド未満の）核酸を実質的に沈殿させずに大きな核酸を実質的に沈殿させるのに十分な条件下において、１つまたはそれを超える一価塩の存在下において、核酸サンプルをＰＥＧと接触させる工程を必要とする。

本明細書中に記載される方法とともに使用され得る別のサイズに基づく濃縮方法は、ライゲーションによる環状化、例えば、サークリガーゼ（ｃｉｒｃｌｉｇａｓｅ）を用いる環状化を含む。短い核酸フラグメントは、通常、長いフラグメントよりも高効率で環状化され得る。環状化していない配列は、環状化した配列から分離され得、濃縮された短いフラグメントは、さらなる解析のために使用され得る。
核酸ライブラリー

いくつかの実施形態において、核酸ライブラリーは、特定のプロセスのために調製され、アセンブルされ、および／または改変された、複数のポリヌクレオチド分子（例えば、核酸のサンプル）であり、そのプロセスの非限定的な例としては、固相（例えば、固体支持体、例えば、フローセル、ビーズ）への固定化、濃縮、増幅、クローニング、検出および／または核酸配列決定が挙げられる。ある特定の実施形態において、核酸ライブラリーは、配列決定プロセスの前または最中に調製される。核酸ライブラリー（例えば、配列決定ライブラリー）は、当該分野で公知であるような好適な方法によって調製され得る。核酸ライブラリーは、標的化されたまたは標的化されない調製プロセスによって調製され得る。

いくつかの実施形態において、核酸のライブラリーは、核酸を固体支持体に固定化するように構成された化学的部分（例えば、官能基）を含むように改変される。いくつかの実施形態において、核酸のライブラリーは、そのライブラリーを固体支持体に固定化するように構成された、生体分子（例えば、官能基）および／または結合対のメンバーを含むように改変され、それらの非限定的な例としては、チロキシン結合グロブリン、ステロイド結合タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、リプレッサー、プロテインＡ、プロテインＧ、アビジン、ストレプトアビジン、ビオチン、補体成分Ｃ１ｑ、核酸結合タンパク質、レセプター、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補的な核酸配列などおよびそれらの組み合わせが挙げられる。特異的結合対のいくつかの例としては、アビジン部分とビオチン部分；抗原性エピトープと抗体またはその免疫学的に反応性のフラグメント；抗体とハプテン；ジゴキシゲニン（ｄｉｇｏｘｉｇｅｎ）部分と抗ジゴキシゲニン抗体；フルオレセイン部分と抗フルオレセイン抗体；オペレーターとリプレッサー；ヌクレアーゼとヌクレオチド；レクチンと多糖；ステロイドとステロイド結合タンパク質；活性な化合物と活性な化合物のレセプター；ホルモンとホルモンレセプター；酵素と基質；免疫グロブリンとプロテインＡ；オリゴヌクレオチドまたはポリヌクレオチドとその対応する相補鎖；などまたはそれらの組み合わせが挙げられるが、これらに限定されない。

いくつかの実施形態において、核酸のライブラリーは、既知の組成の１つまたはそれを超えるポリヌクレオチドを含むように改変され、その非限定的な例としては、識別子（例えば、タグ、インデックスタグ）、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製起点、ステムループ、相補的な（ｃｏｍｐｌｉｍｅｎｔａｒｙ）配列（例えば、プライマー結合部位、アニーリング部位）、好適なインテグレーション部位（例えば、トランスポゾン、ウイルスインテグレーション部位）、修飾ヌクレオチドなどまたはそれらの組み合わせが挙げられる。既知の配列のポリヌクレオチドは、好適な位置に、例えば、５’末端、３’末端または核酸配列内に付加され得る。既知の配列のポリヌクレオチドは、同じまたは異なる配列であり得る。いくつかの実施形態において、既知の配列のポリヌクレオチドは、表面（例えば、フローセル内の表面）上に固定化された１つまたはそれを超えるオリゴヌクレオチドにハイブリダイズするように構成される。例えば、既知の５’配列を含む核酸分子は、第１の複数のオリゴヌクレオチドにハイブリダイズし得るのに対して、既知の３’配列は、第２の複数のオリゴヌクレオチドにハイブリダイズし得る。いくつかの実施形態において、核酸のライブラリーは、染色体特異的タグ、捕捉配列、標識および／またはアダプターを含み得る。いくつかの実施形態において、核酸のライブラリーは、１つまたはそれを超える検出可能な標識を含む。いくつかの実施形態において、１つまたはそれを超える検出可能な標識は、５’末端、３’末端および／または核酸ライブラリー中の核酸内の任意のヌクレオチド位置において、ライブラリーに組み込まれ得る。いくつかの実施形態において、核酸のライブラリーは、ハイブリダイズされたオリゴヌクレオチドを含む。ある特定の実施形態において、ハイブリダイズされたオリゴヌクレオチドは、標識されたプローブである。いくつかの実施形態において、核酸のライブラリーは、固相上への固定化の前のハイブリダイズされたオリゴヌクレオチドプローブを含む。

いくつかの実施形態において、既知の配列のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列は、２つもしくはそれを超える核酸分子または核酸分子の２つもしくはそれを超えるサブセットにインテグレートされた特定のヌクレオチド酸配列であり、ここで、そのユニバーサル配列は、それがインテグレートされたすべての分子または分子のサブセットに対して同じである。ユニバーサル配列は、複数の異なる配列にハイブリダイズするように、および／またはユニバーサル配列に相補的な単一のユニバーサルプライマーを用いて複数の異なる配列を増幅するようにデザインされることが多い。いくつかの実施形態において、２つ（例えば、１対）またはそれを超えるユニバーサル配列および／またはユニバーサルプライマーが使用される。ユニバーサルプライマーは、ユニバーサル配列を含むことが多い。いくつかの実施形態において、アダプター（例えば、ユニバーサルアダプター）は、ユニバーサル配列を含む。いくつかの実施形態において、１つまたはそれを超えるユニバーサル配列は、複数の核酸種または核酸サブセットを捕捉するため、同定するため、および／または検出するために使用される。

核酸ライブラリーを調製するある特定の実施形態において（例えば、合成手順によるある特定の配列決定において）、核酸は、サイズ選択されるおよび／または数百塩基対またはそれ未満の長さに断片化される（例えば、ライブラリー作製のための調製において）。いくつかの実施形態において、ライブラリーの調製は、断片化なしに行われる（例えば、ｃｃｆＤＮＡを使用するとき）。

ある特定の実施形態において、ライゲーションに基づくライブラリー調製方法が使用される（例えば、ＩＬＬＵＭＩＮＡＴＲＵＳＥＱ，Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏＣＡ）。ライゲーションに基づくライブラリー調製方法は、最初のライゲーション工程においてインデックス配列を組み込み得るアダプター（例えば、メチル化されたアダプター）デザインを利用することが多く、単一リードの配列決定、ペアエンド配列決定および多重化された配列決定のためにサンプルを調製するために使用され得ることが多い。例えば、核酸（例えば、断片化された核酸またはｃｃｆＤＮＡ）は、フィルイン（ｆｉｌｌ−ｉｎ）反応、エキソヌクレアーゼ反応またはそれらの組み合わせによって末端が修復されるときがある。いくつかの実施形態において、得られた平滑末端に修復された核酸は、次いで、アダプター／プライマーの３’末端における単一ヌクレオチドのオーバーハングに相補的な単一ヌクレオチドだけ伸長され得る。任意のヌクレオチドが、伸長／オーバーハングヌクレオチドのために使用され得る。いくつかの実施形態において、核酸ライブラリーの調製は、アダプターオリゴヌクレオチドをライゲートすることを含む。アダプターオリゴヌクレオチドは、フローセルアンカーに相補的であることが多く、核酸ライブラリーを固体支持体（例えば、フローセルの内側表面）に固定化するために使用されるときがある。いくつかの実施形態において、アダプターオリゴヌクレオチドは、識別子、１つもしくはそれを超える配列決定プライマーハイブリダイゼーション部位（例えば、ユニバーサル配列決定プライマー、シングルエンド配列決定プライマー、ペアエンド配列決定プライマー、多重化された配列決定プライマーなどに相補的な配列）またはそれらの組み合わせ（例えば、アダプター／配列決定、アダプター／識別子、アダプター／識別子／配列決定）を含む。

識別子は、その識別子を含む核酸の検出および／または識別を可能にする核酸（例えば、ポリヌクレオチド）内に組み込まれるかまたはその核酸に付着される好適な検出可能な標識であり得る。いくつかの実施形態において、識別子は、配列決定方法（例えば、ポリメラーゼによるもの）の間に、核酸内に組み込まれるかまたは核酸に付着される。識別子の非限定的な例としては、核酸タグ、核酸インデックスまたはバーコード、放射標識（例えば、同位体）、金属標識、蛍光標識、化学発光標識、リン光性標識、フルオロフォアクエンチャー、色素、タンパク質（例えば、酵素、抗体またはその一部、リンカー、結合対のメンバー）などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、識別子（例えば、核酸インデックスまたはバーコード）は、ヌクレオチドまたはヌクレオチドアナログのユニークな配列、既知の配列および／または識別可能な配列である。いくつかの実施形態において、識別子は、６つまたはそれを超えて連続したヌクレオチドである。種々の異なる励起スペクトルおよび発光スペクトルを有する多数のフルオロフォアが利用可能である。任意の好適なタイプおよび／または数のフルオロフォアが、識別子として使用され得る。いくつかの実施形態において、１つもしくはそれを超える、２つもしくはそれを超える、３つもしくはそれを超える、４つもしくはそれを超える、５つもしくはそれを超える、６つもしくはそれを超える、７つもしくはそれを超える、８つもしくはそれを超える、９つもしくはそれを超える、１０個もしくはそれを超える、２０個もしくはそれを超える、３０個もしくはそれを超えるまたは５０個もしくはそれを超える異なる識別子が、本明細書中に記載される方法（例えば、核酸検出方法および／または配列決定方法）において使用される。いくつかの実施形態において、１つまたは２つのタイプの識別子（例えば、蛍光標識）が、ライブラリー内の各核酸に連結される。識別子の検出および／または定量は、好適な方法、装置または機器によって行われ得、それらの非限定的な例としては、フローサイトメトリー、定量的ポリメラーゼ連鎖反応（ｑＰＣＲ）、ゲル電気泳動、ルミノメーター、蛍光光度計、分光光度計、好適な遺伝子チップまたはマイクロアレイ解析、ウエスタンブロット、質量分析、クロマトグラフィー、細胞蛍光分析、蛍光顕微鏡法、好適な蛍光またはデジタルイメージング法、共焦点レーザー走査顕微鏡法、レーザー走査型サイトメトリー、アフィニティークロマトグラフィー、手作業のバッチモード分離、電界懸架、好適な核酸配列決定法および／または核酸配列決定装置などおよびそれらの組み合わせが挙げられる。

いくつかの実施形態において、トランスポゾンに基づくライブラリー調製方法が使用される（例えば、ＥＰＩＣＥＮＴＲＥＮＥＸＴＥＲＡ，Ｅｐｉｃｅｎｔｒｅ，ＭａｄｉｓｏｎＷＩ）。トランスポゾンに基づく方法は、通常、単一チューブ反応（プラットフォーム特異的タグおよび随意のバーコードの組み込みを可能にすることが多い）においてＤＮＡを同時に断片化し、タグ化するためにインビトロでの転位を使用し、シークエンサー対応型ライブラリーを調製する。

いくつかの実施形態において、核酸ライブラリーまたはその一部は、増幅される（例えば、ＰＣＲに基づく方法によって増幅される）。いくつかの実施形態において、配列決定法は、核酸ライブラリーの増幅を含む。核酸ライブラリーは、固体支持体（例えば、フローセル内の固体支持体）上への固定化の前または後に増幅され得る。核酸増幅は、１コピーまたはそれを超えるコピー数の鋳型および／またはその相補鎖を生成することによって、存在する（例えば、核酸ライブラリー中に存在する）核酸鋳型および／またはその相補鎖を増幅するかまたはその数を増加させるプロセスを含む。増幅は、好適な方法によって行われ得る。核酸ライブラリーは、サーモサイクリング法または等温増幅法によって増幅され得る。いくつかの実施形態において、ローリングサークル増幅法が使用される。いくつかの実施形態において、増幅は、核酸ライブラリーまたはその一部が固定化された固体支持体上（例えば、フローセル内）で行われる。ある特定の配列決定法において、核酸ライブラリーが、フローセルに加えられ、好適な条件下におけるアンカーへのハイブリダイゼーションによって固定化される。このタイプの核酸増幅は、固相増幅と称されることが多い。固相増幅のいくつかの実施形態において、増幅産物の全部または一部が、固定化されたプライマーから開始する伸長によって合成される。固相増幅反応は、増幅オリゴヌクレオチド（例えば、プライマー）の少なくとも１つが、固体支持体上に固定化されていることを除いては、標準的な溶相増幅と類似している。

いくつかの実施形態において、固相増幅は、表面に固定化されたただ１種のオリゴヌクレオチドプライマーを含む核酸増幅反応を含む。ある特定の実施形態において、固相増幅は、複数の異なる固定化されたオリゴヌクレオチドプライマー種を含む。いくつかの実施形態において、固相増幅は、固体表面上に固定化された１つの種のオリゴヌクレオチドプライマーおよび溶液中の第２の異なるオリゴヌクレオチドプライマー種を含む核酸増幅反応を含み得る。複数の異なる種の固定化されたプライマーまたは溶液ベースのプライマーが、使用され得る。固相核酸増幅反応の非限定的な例としては、界面増幅、ブリッジ増幅、エマルジョンＰＣＲ、ＷｉｌｄＦｉｒｅ増幅（例えば、米国特許公開ＵＳ２０１３００１２３９９）などまたはそれらの組み合わせが挙げられる。
配列決定

いくつかの実施形態において、核酸（例えば、核酸フラグメント、サンプル核酸、無細胞核酸）が、配列決定される。ある特定の実施形態において、完全なまたは実質的に完全な配列が得られ、部分的な配列が得られるときがある。

いくつかの実施形態において、サンプル中のいくつかまたはすべての核酸が、配列決定の前または配列決定中に、濃縮および／または増幅される（例えば、非特異的に、例えば、ＰＣＲに基づく方法によって）。ある特定の実施形態において、サンプル中の特定の核酸部分またはサブセットが、配列決定の前または配列決定中に、濃縮および／または増幅される。いくつかの実施形態において、予め選択された核酸プールの一部またはサブセットが、ランダムに配列決定される。いくつかの実施形態において、サンプル中の核酸は、配列決定の前または配列決定中に濃縮および／または増幅されない。

本明細書中で使用されるとき、「リード（ｒｅａｄｓ）」（例えば、「リード（ａｒｅａｄ）」、「配列リード」）は、本明細書中に記載されるまたは当該分野で公知の任意の配列決定プロセスによって生成される短いヌクレオチド配列である。リードは、核酸フラグメントの一方の末端から生成され得（「シングルエンドリード」）、核酸の両方の末端から生成されるときもある（例えば、ペアエンドリード、ダブルエンドリード）。

配列リードの長さは、特定の配列決定技術に関連することが多い。例えば、ハイスループット法は、サイズが数十から数百塩基対（ｂｐ）まで異なり得る配列リードを提供する。例えば、ナノポア配列決定は、サイズが数十、数百から数千の塩基対まで異なり得る配列リードを提供し得る。いくつかの実施形態において、配列リードは、約１５ｂｐ〜約９００ｂｐ長という長さの平均値、中央値、平均の長さまたは絶対的な長さである。ある特定の実施形態において、配列リードは、約１０００ｂｐまたはそれを超える長さの平均値、中央値、平均の長さまたは絶対的な長さである。

いくつかの実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または絶対的な長さは、約１５個連続したヌクレオチド〜約５０個もしくはそれを超えて連続したヌクレオチド、約１５個連続したヌクレオチド〜約４０個もしくはそれを超えて連続したヌクレオチドであるときがあり、約１５個連続したヌクレオチドまたは約３６個もしくはそれを超えて連続したヌクレオチドであるときがある。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または絶対的な長さは、約２０〜約３０塩基長または約２４〜約２８塩基長である。ある特定の実施形態において、シングルエンドリードの名目上の長さ、平均の長さ、長さの平均値または絶対的な長さは、約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２１、２２、２３、２４、２５、２６、２７、２８もしくは約２９塩基長またはそれを超える長さである。

ある特定の実施形態において、ペアエンドリードの名目上の長さ、平均の長さ、長さの平均値または絶対的な長さは、約１０個連続したヌクレオチド〜約２５個連続したヌクレオチドまたはそれを超えるヌクレオチド（例えば、約１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４もしくは２５ヌクレオチド長またはそれを超えるヌクレオチド長）、約１５個連続したヌクレオチド〜約２０個連続したヌクレオチドまたはそれを超えるヌクレオチドであるときがあり、約１７個連続したヌクレオチドまたは約１８個連続したヌクレオチドであるときがある。

リードは、一般に、物理的な核酸におけるヌクレオチド配列の提示である。例えば、ＡＴＧＣ描写の配列を含むリードにおいて、物理的な核酸では、「Ａ」は、アデニンヌクレオチドを表し、「Ｔ」は、チミンヌクレオチドを表し、「Ｇ」は、グアニンヌクレオチドを表し、「Ｃ」は、シトシンヌクレオチドを表す。妊婦の血液から得られた配列リードは、胎児核酸と母体核酸との混合物からのリードであり得る。比較的短いリードの混合物は、本明細書中に記載されるプロセスによって、その妊婦および／または胎児に存在するゲノム核酸の提示に変換され得る。比較的短いリードの混合物は、例えば、コピー数変異（例えば、母体および／または胎児のコピー数変異）、遺伝的変異または異数性の提示に変換され得る。母体核酸と胎児核酸との混合物のリードは、母体および胎児の染色体の一方または両方の特徴を含む複合染色体またはそのセグメントの提示に変換され得る。ある特定の実施形態において、被験体からサンプルの核酸配列リードを「得ること」および／または１人もしくはそれを超える参照人から生物学的検体の核酸配列リードを「得ること」は、核酸を直接配列決定して配列情報を得ることを含み得る。いくつかの実施形態において、「得ること」は、別のものによって核酸から直接得られた配列情報を受け取ることを含み得る。

いくつかの実施形態において、ゲノムの代表的な一部が配列決定され、それは、「カバレッジ」または「倍カバレッジ」と称されるときがある。例えば、１倍カバレッジは、そのゲノムのおおよそ１００％のヌクレオチド配列が、リードによって表されたことを示唆する。いくつかの実施形態において、「倍カバレッジ」は、事前の配列決定ランを参照として言及している相対的な用語である。例えば、第２の配列決定ランは、第１の配列決定ランよりも２倍未満のカバレッジを有し得る。いくつかの実施形態において、ゲノムは、重複して配列決定され、ここで、所与のゲノム領域が、２つまたはそれを超えるリードまたはオーバーラップリードによってカバーされ得る（例えば、１より大きい「倍カバレッジ」、例えば、２倍カバレッジ）。

いくつかの実施形態において、１つの個体由来の１つの核酸サンプルが、配列決定される。ある特定の実施形態において、２つまたはそれを超えるサンプルの各々からの核酸が、配列決定され、ここで、サンプルは、１つの個体由来であるか、または異なる個体由来である。ある特定の実施形態において、２つまたはそれを超える生物学的サンプル由来の核酸サンプルがプールされ、ここで、各生物学的サンプルは、１つの個体由来であるかまたは２つもしくはそれを超える個体由来であり、そのプールが、配列決定される。後者の実施形態では、各生物学的サンプル由来の核酸サンプルは、１つまたはそれを超えるユニークな識別子によって識別されることが多い。

いくつかの実施形態において、配列決定法は、配列決定プロセスにおいて配列決定反応の多重化を可能にする識別子を使用する。ユニークな識別子の数が増えるほど、配列決定プロセスにおいて多重化され得る、例えば、検出のためのサンプルおよび／または染色体の数は増える。配列決定プロセスは、任意の好適な数の（例えば、４、８、１２、２４、４８、９６個またはそれを超える）ユニークな識別子を用いて行われ得る。

配列決定プロセスは、固相を利用するときがあり、その固相は、ライブラリー由来の核酸が付着され得、試薬が流され得、付着された核酸と接触し得るフローセルを含むときがある。フローセルは、フローセルレーンを備えるときがあり、識別子の使用により、各レーンにおいていくつかのサンプルを解析することが容易になり得る。フローセルは、結合したアナライトの上に試薬溶液を保持するようにおよび／または結合したアナライトの上に試薬溶液を順序正しく通過させることを可能にするように構成され得る、固体支持体であることが多い。フローセルは、しばしば、平面の形状であり、光学的に透明であり、一般に、ミリメートルまたはミリメートル未満のスケールであり、アナライト／試薬相互作用が生じるチャネルまたはレーンを有することが多い。いくつかの実施形態において、所与のフローセルレーンにおいて解析されるサンプルの数は、ライブラリー調製中および／またはプローブデザイン中に使用されたユニークな識別子の数に依存する。単一フローセルレーン。１２個の識別子を使用した多重化は、例えば、８レーンフローセルにおいて、９６個のサンプル（例えば、９６ウェルのマイクロウェルプレートにおけるウェルの数に等しい）を同時に解析することを可能にする。同様に、４８個の識別子を使用した多重化は、例えば、８レーンフローセルにおいて、３８４個のサンプル（例えば、３８４ウェルのマイクロウェルプレートにおけるウェルの数に等しい）を同時に解析することを可能にする。商業的に入手可能なマルチプレックス配列決定キットの非限定的な例としては、Ｉｌｌｕｍｉｎａのマルチプレックスサンプル調製オリゴヌクレオチドキットおよびマルチプレックス配列決定プライマーおよびＰｈｉＸコントロールキット（例えば、それぞれＩｌｌｕｍｉｎａのカタログ番号ＰＥ−４００−１００１およびＰＥ−４００−１００２）が挙げられる。

核酸を配列決定する任意の好適な方法が使用され得、その非限定的な例としては、Ｍａｘｉｍ＆Ｇｉｌｂｅｒｔ、チェーン・ターミネーション法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡法に基づく手法などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、第１世代の技術、例えば、マイクロフルイディクスＳａｎｇｅｒ配列決定を含む自動化されたＳａｎｇｅｒ配列決定法を含むＳａｎｇｅｒ配列決定法が、本明細書中に提供される方法において使用され得る。いくつかの実施形態において、核酸イメージング技術（例えば、透過型電子顕微鏡（ＴＥＭ）および原子間力顕微鏡法（ＡＦＭ））の使用を含む配列決定技術が使用され得る。いくつかの実施形態において、ハイスループット配列決定法が使用される。ハイスループット配列決定法は、一般に、大規模並列処理形式で、時折、フローセル内において、配列決定される、クローン増幅されたＤＮＡ鋳型または単一ＤＮＡ分子を必要とする。大規模並列処理形式でＤＮＡを配列決定することができる次世代（例えば、第２および第３世代）配列決定法は、本明細書中に記載される方法のために使用され得、本明細書中において集合的に「大規模並列処理配列決定」（ＭＰＳ）と称される。いくつかの実施形態において、ＭＰＳ配列決定法は、標的化アプローチを使用し、ここで、特定の染色体、遺伝子または目的の領域が配列決定される。ある特定の実施形態において、サンプル中のほとんどまたはすべての核酸が、ランダムに配列決定される、増幅される、および／または捕捉される、非標的化アプローチが使用される。

いくつかの実施形態において、標的化された濃縮、増幅および／または配列決定アプローチが使用される。標的化アプローチは、配列特異的オリゴヌクレオチドを使用することによってさらに処理するために、サンプル中の核酸のサブセットを単離する、選択する、および／または濃縮することが多い。いくつかの実施形態において、配列特異的オリゴヌクレオチドのライブラリーが、サンプル中の１つまたはそれを超える核酸セットを標的化する（例えば、ハイブリダイズさせる）ために使用される。配列特異的オリゴヌクレオチドおよび／またはプライマーは、１つまたはそれを超える目的の染色体、遺伝子、エキソン、イントロンおよび／または制御領域に存在する特定の配列（例えば、ユニークな核酸配列）に対して選択的であることが多い。任意の好適な方法または方法の組み合わせが、１つまたはそれを超える標的化された核酸のサブセットの濃縮、増幅および／または配列決定のために使用され得る。いくつかの実施形態において、標的化された配列は、１つまたはそれを超える配列特異的アンカーを使用した固相（例えば、フローセル、ビーズ）への捕捉によって、単離および／または濃縮される。いくつかの実施形態において、標的化された配列は、配列特異的プライマーおよび／またはプライマーセットを使用した、ポリメラーゼに基づく方法（例えば、ＰＣＲに基づく方法、任意の好適なポリメラーゼに基づく伸長）によって、濃縮および／または増幅される。配列特異的アンカーが、配列特異的プライマーとして使用され得ることが多い。

ＭＰＳ配列決定は、合成およびある特定のイメージングプロセスによる配列決定を利用するときがある。本明細書中に記載される方法において使用され得る核酸配列決定技術は、合成による配列決定および可逆的ターミネーターに基づく配列決定（例えば、Ｉｌｌｕｍｉｎａ’ｓＧｅｎｏｍｅＡｎａｌｙｚｅｒ；ＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩ；ＨＩＳＥＱ２０００；ＨＩＳＥＱ２５００（Ｉｌｌｕｍｉｎａ，ＳａｎＤｉｅｇｏＣＡ））である。この技術を用いれば、数百万の核酸（例えば、ＤＮＡ）フラグメントを並行して配列決定することができる。このタイプの配列決定技術の１つの例では、オリゴヌクレオチドアンカー（例えば、アダプタープライマー）が結合した表面上に８つの個別のレーンを有する光学的に透明なスライドを備えるフローセルが使用される。フローセルは、結合したアナライトの上に試薬溶液を保持するように、および／または結合したアナライトの上に試薬溶液を順序正しく通過させることを可能にするように、構成され得る固体支持体であることが多い。フローセルは、しばしば、平面の形状であり、光学的に透明であり、一般に、ミリメートルまたはミリメートル未満のスケールであり、アナライト／試薬相互作用が生じるチャネルまたはレーンを有することが多い。

合成による配列決定は、いくつかの実施形態において、鋳型特異的な様式で、ヌクレオチドをプライマーまたは既存の核酸鎖に反復して付加すること（例えば、共有結合性の付加によって）を含む。ヌクレオチドの反復付加の各々が検出され、そのプロセスは、核酸鎖の配列が得られるまで複数回繰り返される。得られる配列の長さは、行われる付加工程および検出工程の数に部分的に依存する。合成による配列決定のいくつかの実施形態では、１回のヌクレオチド付加において、同じタイプ（例えば、Ａ、Ｇ、ＣまたはＴ）の１つ、２つ、３つもしくはそれを超えるヌクレオチドが付加され、検出される。ヌクレオチドは、任意の好適な方法によって（例えば、酵素的または化学的に）付加され得る。例えば、いくつかの実施形態において、ポリメラーゼまたはリガーゼが、鋳型特異的様式で、プライマーまたは既存の核酸鎖にヌクレオチドを付加する。合成による配列決定のいくつかの実施形態において、異なるタイプのヌクレオチド、ヌクレオチドアナログおよび／または識別子が使用される。いくつかの実施形態において、可逆的ターミネーターおよび／または除去可能な（例えば、切断可能な）識別子が使用される。いくつかの実施形態において、蛍光標識されたヌクレオチドおよび／またはヌクレオチドアナログが使用される。ある特定の実施形態において、合成による配列決定は、切断（例えば、識別子の切断および除去）および／または洗浄工程を含む。いくつかの実施形態において、１つまたはそれを超えるヌクレオチドの付加は、本明細書中に記載されるまたは当該分野で公知の好適な方法によって検出され、その非限定的な例としては、任意の好適なイメージング装置、好適なカメラ、デジタルカメラ、ＣＣＤ（電荷結合素子）に基づくイメージング装置（例えば、ＣＣＤカメラ）、ＣＭＯＳ（相補型金属酸化物半導体（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｉｌｉｃｏｎ））に基づくイメージング装置（例えば、ＣＭＯＳカメラ）、フォトダイオード（例えば、光電子増倍管）、電子顕微鏡法、電界効果トランジスタ（例えば、ＤＮＡ電界効果トランジスタ）、ＩＳＦＥＴイオンセンサー（例えば、ＣＨＥＭＦＥＴセンサー）などまたはそれらの組み合わせが挙げられる。本明細書中の方法を行うために使用され得る他の配列決定法としては、デジタルＰＣＲおよびハイブリダイゼーションによる配列決定が挙げられる。

本明細書中の方法を行うために使用され得る他の配列決定法としては、デジタルＰＣＲおよびハイブリダイゼーションによる配列決定が挙げられる。デジタルポリメラーゼ連鎖反応（デジタルＰＣＲまたはｄＰＣＲ）は、サンプル中の核酸を直接識別して定量するために使用され得る。デジタルＰＣＲは、いくつかの実施形態において、エマルジョン内で行われ得る。例えば、個々の核酸が、例えば、マイクロ流体チャンバーデバイスにおいて分離され、各核酸が、ＰＣＲによって個々に増幅される。核酸は、１ウェルあたり１つより多い核酸が存在しないように分離され得る。いくつかの実施形態において、異なるプローブが、様々な対立遺伝子（例えば、胎児の対立遺伝子および母体の対立遺伝子）を区別するために使用され得る。対立遺伝子は、コピー数を測定するために数え上げられ得る。

ある特定の実施形態において、ハイブリダイゼーションによる配列決定が使用され得る。その方法は、複数のポリヌクレオチド配列を複数のポリヌクレオチドプローブと接触させる工程を含み、ここで、その複数のポリヌクレオチドプローブの各々は、必要に応じて基材に繋ぎ止められ得る。その基材は、いくつかの実施形態において、既知のヌクレオチド配列のアレイを有する平らな表面であり得る。そのアレイへのハイブリダイゼーションのパターンは、そのサンプル中に存在するポリヌクレオチド配列を決定するために使用され得る。いくつかの実施形態において、各プローブは、ビーズ、例えば、磁気ビーズなどに繋ぎ止められる。それらのビーズへのハイブリダイゼーションは識別され得、そのサンプル内の複数のポリヌクレオチド配列を識別するために使用され得る。

いくつかの実施形態において、ナノポア配列決定が、本明細書中に記載される方法において使用され得る。ナノポア配列決定は、単一核酸分子（例えば、ＤＮＡ）が、ナノポアを通過するときに直接配列決定される単一分子配列決定技術である。

本明細書中に記載される方法を行うための好適なＭＰＳの方法、システムまたは技術プラットフォームが、核酸配列リードを得るために使用され得る。ＭＰＳプラットフォームの非限定的な例としては、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘ／ＨｉＳｅｑ（例えば、Ｉｌｌｕｍｉｎａ’ｓＧｅｎｏｍｅＡｎａｌｙｚｅｒ；ＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩ；ＨＩＳＥＱ２０００；ＨＩＳＥＱ）、ＳＯＬｉＤ、Ｒｏｃｈｅ／４５４、ＰＡＣＢＩＯおよび／またはＳＭＲＴ、ＨｅｌｉｃｏｓＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ、ＩｏｎＴｏｒｒｅｎｔおよびＩｏｎ半導体ベースの配列決定（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓが開発したもの）、ＷｉｌｄＦｉｒｅ、５５００、５５００ｘｌＷおよび／もしくは５５００ｘｌＷＧｅｎｅｔｉｃＡｎａｌｙｚｅｒに基づく技術（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓが開発し、販売しているもの、米国特許公開番号ＵＳ２０１３００１２３９９）；ポロニーシーケンシング、パイロシーケンシング、大規模並列処理シグネチャ配列決定（ＭＰＳＳ）、ＲＮＡポリメラーゼ（ＲＮＡＰ）配列決定、ＬａｓｅｒＧｅｎシステムおよび方法、ナノポアベースのプラットフォーム、化学感応性電界効果トランジスタ（ＣＨＥＭＦＥＴ）アレイ、電子顕微鏡法ベースの配列決定（例えば、ＺＳＧｅｎｅｔｉｃｓ，ＨａｌｃｙｏｎＭｏｌｅｃｕｌａｒが開発したもの）、ナノボールシーケンシングなどまたはそれらの組み合わせが挙げられる。

いくつかの実施形態において、染色体特異的配列決定が行われる。いくつかの実施形態において、染色体特異的配列決定は、ＤＡＮＳＲ（選択された領域のデジタル解析）を用いて行われる。選択された領域のデジタル解析は、ＰＣＲ鋳型を形成する介在性の「ブリッジ」オリゴヌクレオチドを介した２つの遺伝子座特異的オリゴヌクレオチドのｃｆＤＮＡ依存的カテネーションによる数百の遺伝子座の同時の定量を可能にする。いくつかの実施形態において、染色体特異的配列決定は、染色体特異的配列が濃縮されたライブラリーを作製することによって行われる。いくつかの実施形態において、配列リードは、選択された染色体セットに対してのみ得られる。いくつかの実施形態において、配列リードは、２１番、１８番および１３番染色体に対してのみ得られる。いくつかの実施形態において、配列リードは、参照ゲノム全体もしくはゲノムのセグメントに対して得られるおよび／またはおよび参照ゲノム全体もしくはゲノムのセグメントにマッピングされる。

いくつかの実施形態において、配列リードは、配列モジュールによって、作製される、得られる、集められる、アセンブルされる、操作される、変換される、処理される、および／または提供される。配列モジュールを備える機器は、当該分野で公知の配列決定技術を使用して核酸の配列を決定する好適な機器および／または装置であり得る。いくつかの実施形態において、配列モジュールは、アラインメントし得る、アセンブルし得る、断片化し得る、相補鎖生成（ｃｏｍｐｌｅｍｅｎｔ）し得る、逆相補鎖生成（ｒｅｖｅｒｓｅｃｏｍｐｌｅｍｅｎｔ）し得る、および／またはエラーチェックし得る（例えば、配列リードをエラーチェックし得る）。

いくつかの実施形態において、サンプルから得られたヌクレオチド配列リードは、部分的なヌクレオチド配列リードである。本明細書中で使用されるとき、「部分的なヌクレオチド配列リード」とは、配列多義性（ｓｅｑｕｅｎｃｅａｍｂｉｇｕｉｔｙ）とも称される不完全な配列情報を有する任意の長さの配列リードのことを指す。部分的なヌクレオチド配列リードは、核酸塩基の同一性および／または核酸塩基の位置もしくは順序に関する情報を欠き得る。部分的なヌクレオチド配列リードは、一般に、単に不完全な配列情報（またはそれらの塩基のすべてより少ない塩基が配列決定されているかまたは決定されている）が、不注意のまたは故意でない配列決定のエラーに由来する配列リードを含まない。そのような配列決定のエラーは、ある特定の配列決定プロセスに固有であり得、例えば、核酸塩基の同一性に対する不正確なコール、および欠損したまたは余分な核酸塩基を含む。したがって、本明細書中の部分的なヌクレオチド配列リードに対して、その配列に関するある特定の情報は、故意に除外されることが多い。すなわち、すべての核酸塩基より少ない核酸塩基に関する配列情報、または配列決定のエラーとして別途特徴づけられ得るかもしくは配列決定のエラーであり得る配列情報が、故意に得られる。いくつかの実施形態において、部分的なヌクレオチド配列リードは、核酸フラグメントの一部分に及び得る。いくつかの実施形態において、部分的なヌクレオチド配列リードは、核酸フラグメントの長さ全体に及び得る。部分的なヌクレオチド配列リードは、例えば、国際特許出願公開番号ＷＯ２０１３／０５２９０７に記載されており、本文、表、式および図面のすべてを含むこの全内容が、参照により本明細書中に組み込まれる。
リードのマッピング

配列リードは、マッピングされ得、特定の核酸領域（例えば、染色体、その一部またはセグメント）にマップするリードの数は、カウントと称される。任意の好適なマッピング方法（例えば、プロセス、アルゴリズム、プログラム、ソフトウェア、モジュールなどまたはそれらの組み合わせ）が使用され得る。いくつかの実施形態において、配列リードは、マッピングされない。マッピングプロセスのある特定の態様が、本明細書の以後に記載される。

ヌクレオチド配列リード（すなわち、物理的なゲノム位置が不明なフラグメントからの配列情報）のマッピングは、いくつかの方法で行われ得、得られた配列リードを参照ゲノム内のマッチする配列とアラインメントすることを含むことが多い。そのようなアラインメントでは、配列リードは、通常、参照配列にアラインメントされ、アラインメントする配列リードは、「マッピングされる」、「マッピングされた配列リード」または「マッピングされたリード」と呼ばれる。ある特定の実施形態において、マッピングされた配列リードは、「ヒット」または「カウント」と称される。いくつかの実施形態において、マッピングされた配列リードは、様々なパラメータに従って共にグループ化され、下記でさらに詳細に論じられる特定の部分に割り当てられる。

本明細書中で使用されるとき、用語「アラインメントされる」、「アラインメント」または「アラインメントする」とは、マッチ（例えば、１００％同一性）または部分的なマッチとして特定され得る２つまたはそれを超える核酸配列のことを指す。アラインメントは、手作業でまたはコンピュータ（例えば、ソフトウェア、プログラム、モジュールまたはアルゴリズム）によって行われ得、その非限定的な例としては、ＩｌｌｕｍｉｎａＧｅｎｏｍｉｃｓＡｎａｌｙｓｉｓパイプラインの一部として配布されているＥｆｆｉｃｉｅｎｔＬｏｃａｌＡｌｉｇｎｍｅｎｔｏｆＮｕｃｌｅｏｔｉｄｅＤａｔａ（ＥＬＡＮＤ）コンピュータプログラムが挙げられる。配列リードのアラインメントは、１００％配列マッチであり得る。場合によっては、アラインメントは、１００％未満の配列マッチである（すなわち、不完全なマッチ、部分的なマッチ、部分的なアラインメント）。いくつかの実施形態において、アラインメントは、約９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８９％、８８％、８７％、８６％、８５％、８４％、８３％、８２％、８１％、８０％、７９％、７８％、７７％、７６％または７５％マッチである。いくつかの実施形態において、アラインメントは、ミスマッチを含む。いくつかの実施形態において、アラインメントは、１、２、３、４または５つのミスマッチを含む。２つまたはそれを超える配列が、いずれかの鎖を用いてアラインメントされ得る。ある特定の実施形態において、核酸配列は、別の核酸配列の逆相補鎖とアラインメントされる。いくつかの実施形態において、配列リードは、参照配列または参照ゲノムにアラインメントされる。いくつかの実施形態において、配列リードは、参照配列または参照ゲノムにアラインメントされない。

コンピュータによる様々な方法が、各配列リードをある部分にマッピングするために使用され得る。配列をアラインメントするために使用され得るコンピュータアルゴリズムの非限定的な例としては、ＢＬＡＳＴ、ＢＬＩＴＺ、ＦＡＳＴＡ、ＢＯＷＴＩＥ１、ＢＯＷＴＩＥ２、ＥＬＡＮＤ、ＭＡＱ、ＰＲＯＢＥＭＡＴＣＨ、ＳＯＡＰもしくはＳＥＱＭＡＰまたはそれらの変法またはそれらの組み合わせが挙げられるが、これらに限定されない。いくつかの実施形態において、配列リードは、参照ゲノム内の配列とアラインメントされ得る。いくつかの実施形態において、配列リードは、当該分野で公知の核酸データベース内に見出され得る配列および／または当該分野で公知の核酸データベース内の配列とアラインメントされ得、その核酸データベースとしては、例えば、ＧｅｎＢａｎｋ、ｄｂＥＳＴ、ｄｂＳＴＳ、ＥＭＢＬ（ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＬａｂｏｒａｔｏｒｙ）およびＤＤＢＪ（ＤＮＡＤａｔａｂａｎｋｏｆＪａｐａｎ）が挙げられる。ＢＬＡＳＴまたは同様のツールが、特定された配列を配列データベースに対して検索するために使用され得る。次いで、検索のヒットが、例えば、特定された配列を適切な部分（本明細書の以後に記載される）に選別するために使用され得る。

いくつかの実施形態において、マッピングされた配列リードおよび／またはマッピングされた配列リードに関連する情報は、好適なコンピュータ可読形式で、非一時的なコンピュータ可読記憶媒体上に格納されるおよび／または非一時的なコンピュータ可読記憶媒体からアクセスされる。「コンピュータ可読形式」は、本明細書中で広く形式と称されるときがある。いくつかの実施形態において、マッピングされた配列リードは、好適なバイナリー形式、テキスト形式などまたはそれらの組み合わせで格納されるおよび／またはアクセスされる。バイナリー形式は、ＢＡＭ形式であるときがある。テキスト形式は、配列アラインメント／マップ（ＳＡＭ）形式であるときがある。バイナリー形式および／またはテキスト形式の非限定的な例としては、ＢＡＭ、ＳＡＭ、ＳＲＦ、ＦＡＳＴＱ、Ｇｚｉｐなどまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、マッピングされた配列リードは、従来の形式（例えば、ＳＡＭ形式またはＢＡＭ形式）より少ない格納スペース（例えば、より少ないバイト）しか必要としない形式で格納され、および／またはそのような形式に変換される。いくつかの実施形態において、第１の形式のマッピングされた配列リードは、第１の形式よりも小さい格納スペースしか必要としない第２の形式に圧縮される。用語「圧縮される」は、本明細書中で使用されるとき、コンピュータ可読のデータファイルのサイズを小さくする、データ圧縮、情報源符号化および／またはビットレート削減のプロセスのことを指す。いくつかの実施形態において、マッピングされた配列リードは、ＳＡＭ形式からバイナリー形式に圧縮される。いくつかのデータは、ファイルが圧縮された後に失われるときがある。圧縮プロセスにおいてデータが失われないときがある。いくつかのファイル圧縮の実施形態では、いくつかのデータが、インデックスおよび／または参照で置き換えらえて、マッピングされた配列リードに関する情報を含む別のデータファイルにされる。いくつかの実施形態において、マッピングされた配列リードは、リードカウント、染色体識別子（例えば、リードがマッピングされた染色体を識別する）および染色体位置識別子（例えば、リードがマッピングされた染色体上の位置を識別する）を含むかまたはそれらからなるバイナリー形式で格納される。いくつかの実施形態において、バイナリー形式は、２０バイトアレイ、１６バイトアレイ、８バイトアレイ、４バイトアレイまたは２バイトアレイを含む。いくつかの実施形態において、マッピングされたリード情報は、１０バイト形式、９バイト形式、８バイト形式、７バイト形式、６バイト形式、５バイト形式、４バイト形式、３バイト形式または２バイト形式でアレイとして格納される。マッピングされたリードデータは、５バイト形式を含む４バイトアレイで格納されるときがある。いくつかの実施形態において、バイナリー形式は、１バイトの染色体順序および４バイトの染色体位置を含む５バイト形式を含む。いくつかの実施形態において、マッピングされたリードは、配列アラインメント／マップ（ＳＡＭ）形式よりも約１００倍、約９０倍、約８０倍、約７０倍、約６０倍、約５５倍、約５０倍、約４５倍、約４０倍または約３０倍小さい圧縮されたバイナリー形式で格納される。いくつかの実施形態において、マッピングされたリードは、ＧＺｉｐ形式よりも約２倍〜約５０倍小さい（例えば、約３０、２５、２０、１９、１８、１７、１６、１５、１４、１３、１２、１１、１０、９、８、７、６または約５倍小さい）圧縮された（ｃｏｍｐｒｅｓｓ）バイナリー形式で格納される。

いくつかの実施形態において、あるシステムは、圧縮モジュールを備える。いくつかの実施形態において、コンピュータ可読形式で非一時的なコンピュータ可読記憶媒体上に格納されたマッピングされた配列リード情報は、圧縮モジュールによって圧縮される。圧縮モジュールは、マッピングされた配列リードを、好適な形式に変換し、および好適な形式から変換するときがある。圧縮モジュールは、いくつかの実施形態において、第１の形式のマッピングされた配列リードを受け入れ、それらを圧縮された形式（例えば、バイナリー形式）に変換し、その圧縮されたリードを別のモジュール（例えば、バイアス密度モジュール）に移し得る。圧縮モジュールは、配列リードをバイナリー形式（例えば、ＢＲｅａｄｓ形式）で提供することが多い。圧縮モジュールの非限定的な例としては、ＧＺＩＰ、ＢＧＺＦおよびＢＡＭなどまたはそれらの改変物が挙げられる。
以下は、ｊａｖａを使用して整数を４バイトアレイに変換する例を提供している：

いくつかの実施形態において、リードは、参照ゲノム内の部分にユニークにまたは非ユニークにマップし得る。あるリードが、参照ゲノム内の単一配列とアラインメントする場合、そのリードは、「ユニークにマッピングされる」と見なされる。あるリードが、参照ゲノム内の２つまたはそれを超える配列とアラインメントする場合、そのリードは、「非ユニークにマッピングされる」と見なされる。いくつかの実施形態において、非ユニークにマッピングされたリードは、さらなる解析（例えば、定量）から除外される。ある特定の実施形態では、参照ゲノムと、マッピングされている個々のサンプル由来のリードとの間に存在し得るある特定のわずかなミスマッチ（０〜１個）は、単一ヌクレオチド多型を説明するために許容され得る。いくつかの実施形態において、少しの程度のミスマッチも、参照配列にマッピングされるリードに対して許容されない。

本明細書中で使用されるとき、「参照ゲノム」とは、部分的であるかまたは完全であるかを問わず、被験体由来の特定された配列の参照にするために使用され得る任意の生物またはウイルスの任意の特定の既知の配列決定されたまたは特徴づけられたゲノムのことを指し得る。例えば、ヒト被験体ならびに他の多くの生物のために使用される参照ゲノムは、ＷｏｒｌｄＷｉｄｅＷｅｂＵＲＬｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖにおけるＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎに見られ得る。「ゲノム」とは、核酸配列として表現される、生物またはウイルスの完全な遺伝情報のことを指す。本明細書中で使用されるとき、参照配列または参照ゲノムは、個々のまたは複数の個体からのアセンブルされたゲノム配列または部分的にアセンブルされたゲノム配列であることが多い。いくつかの実施形態において、参照ゲノムは、１人またはそれを超えるヒト個体からのアセンブルされたまたは部分的にアセンブルされたゲノム配列である。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。

ある特定の実施形態において、サンプル核酸が妊婦由来である場合、参照配列は、胎児、その胎児の母またはその胎児の父由来でないときがあり、それは、本明細書中で「外部参照」と称される。いくつかの実施形態において、母体の参照が、調製され得、使用され得る。外部参照に基づいて、妊婦由来の参照が調製されるとき（「母体参照配列」）、胎児ＤＮＡを実質的に含まないその妊婦のＤＮＡ由来のリードが、外部参照配列にマッピングされ、アセンブルされることが多い。ある特定の実施形態において、外部参照は、妊婦と実質的に同じ民族性を有する個体のＤＮＡ由来である。母体参照配列は、母体のゲノムＤＮＡを完全にカバーしない可能性があり（例えば、母体参照配列は、母体のゲノムＤＮＡの約５０％、６０％、７０％、８０％、９０％またはそれを超えてカバーし得る）、母体参照は、母体のゲノムＤＮＡ配列と完全にマッチしない可能性がある（例えば、母体参照配列は、複数のミスマッチを含み得る）。

ある特定の実施形態において、マッピング精度（ｍａｐｐａｂｉｌｉｔｙ）は、ゲノム領域（例えば、部分、ゲノム部分、部分）に対して評価される。マッピング精度は、ヌクレオチド配列リードを参照ゲノムの一部と、通常、指定の数のミスマッチ（例えば、０、１つ、２つもしくはそれを超えるミスマッチを含む）まで明確にアラインメントする能力である。所与のゲノム領域の場合、予想されるマッピング精度は、前もってセットされたリード長のスライディングウィンドウ（ｓｌｉｄｉｎｇ−ｗｉｎｄｏｗ）アプローチを用い、得られたリードレベルのマッピング精度値を平均して、推定され得る。連続したユニークなヌクレオチド配列を含むゲノム領域は、高いマッピング精度値を有するときがある。
部分

いくつかの実施形態において、マッピングされた配列リード（すなわち、配列タグ）は、様々なパラメータに従って共にグループ化され、特定の部分（例えば、参照ゲノムの部分）に割り当てられる。マッピングされた個々の配列リードは、サンプル中に存在する部分（例えば、部分の存在もしくは非存在または量）を特定するために使用され得ることが多い。いくつかの実施形態において、部分の量は、そのサンプル中のより大きい配列（例えば、染色体）の量を指し示している。用語「部分」は、本明細書中で「ゲノム区分（ｇｅｎｏｍｉｃｓｅｃｔｉｏｎ）」、「ビン（ｂｉｎ）」、「領域」、「区画（ｐａｒｔｉｔｉｏｎ）」、「参照ゲノムの部分」、「染色体の部分」または「ゲノム部分」とも称され得る。いくつかの実施形態において、部分は、染色体全体、染色体のセグメント、参照ゲノムのセグメント、複数の染色体に及ぶセグメント、複数の染色体セグメントおよび／またはそれらの組み合わせである。いくつかの実施形態において、部分は、特定のパラメータに基づいて予め定義される。いくつかの実施形態において、部分は、ゲノムの分割（例えば、サイズ、ＧＣ含有量、シーケンシングカバレッジのばらつき、連続した領域、任意に定義されたサイズの連続した領域などによって分割される）に基づいて任意に定義される。

いくつかの実施形態において、部分は、例えば、配列の長さまたは特定の特徴を含む１つまたはそれを超えるパラメータに基づいて明示される。部分は、当該分野で公知の（ｋｎｏｗ）または本明細書中に記載される任意の好適な基準を用いて、考慮すべきものから選択され得、フィルタリングされ得、および／または除去され得る。いくつかの実施形態において、部分は、ゲノム配列の特定の長さに基づく。いくつかの実施形態において、方法は、複数の部分に対する複数のマッピングされた配列リードの解析を含み得る。部分は、ほぼ同じ長さであり得るか、または異なる長さであり得る。いくつかの実施形態において、部分は、ほぼ等しい長さである。いくつかの実施形態において、異なる長さの部分は、調整されるかまたは重み付けされる。いくつかの実施形態において、部分は、約１０キロベース（ｋｂ）〜約２０ｋｂ、約１０ｋｂ〜約１００ｋｂ、約２０ｋｂ〜約８０ｋｂ、約３０ｋｂ〜約７０ｋｂ、約４０ｋｂ〜約６０ｋｂである。いくつかの実施形態において、部分は、約１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂまたは約６０ｋｂ長である。部分は、連続した配列の続きに限定されない。したがって、部分は、連続したおよび／または連続していない配列から構成され得る。部分は、単一の染色体に限定されない。いくつかの実施形態において、部分は、１本の染色体の全部もしくは一部または２本またはそれを超える染色体の全部もしくは一部を含む。いくつかの実施形態において、部分は、１本、２本もしくはそれを超える染色体の全体に及び得る。さらに、部分は、複数の染色体の継ぎ合わせたまたはばらばらの領域に及び得る。

いくつかの実施形態において、部分は、目的の染色体、例えば、コピー数の変動が評価される染色体（例えば、１３番、１８番および／もしくは２１番染色体または性染色体の異数性）における特定の染色体セグメントであり得る。部分は、病原体のゲノム（例えば、細菌、真菌またはウイルスのゲノム）またはそのフラグメントでもあり得る。部分は、遺伝子、遺伝子フラグメント、制御配列、イントロン、エキソンなどであり得る。

いくつかの実施形態において、ゲノム（例えば、ヒトゲノム）は、特定の領域の情報量に基づいて部分に分割される。いくつかの実施形態において、ゲノムを分割することにより、そのゲノムにわたる類似の領域（例えば、同一または相同の領域または配列）が排除され得、ユニークな領域だけが維持され得る。分割において除去される領域は、単一の染色体内に存在し得るか、または複数の染色体に及び得る。いくつかの実施形態において、分割されたゲノムは、より速いアラインメントのために切り詰められ、最適化されることにより、ユニークに識別可能な配列に焦点を合わせることが可能になることが多い。

いくつかの実施形態において、分割は、類似の領域の重み付けを小さくし得る。部分の重み付けを小さくするためのプロセスは、下記でさらに詳細に論じられる。

いくつかの実施形態において、染色体を越える領域にゲノムを分割することは、分類の文脈においてもたらされる情報獲得に基づき得る。例えば、情報量は、確認された正常な被験体および異常な被験体（例えば、それぞれ正倍数性の被験体およびトリソミーの被験体）の群間を区別するために特定のゲノム位置の有意性を計測するｐ値プロファイルを用いて定量化され得る。いくつかの実施形態において、染色体を越える領域にゲノムを分割することは、他の任意の基準、例えば、タグをアラインメントしている間の速度／便利さ、ＧＣ含有量（例えば、高いまたは低いＧＣ含有量）、ＧＣ含有量の均一性、配列含有量の他の尺度（例えば、個々のヌクレオチドの割合、ピリミジンまたはプリンの割合、天然の核酸と非天然の核酸との割合、メチル化されたヌクレオチドの割合およびＣｐＧ含有量）、メチル化の状態、二重鎖の融解温度、配列決定またはＰＣＲに対する適用可能性（ａｍｅｎａｂｉｌｉｔｙ）、参照ゲノムの個々の部分に割り当てられる不確定値、および／または特定の特徴に対する標的化された検索に基づき得る。

染色体の「セグメント」は、通常、染色体の一部であり、代表的には、部分とは異なる染色体の一部である。染色体のセグメントは、部分とは異なる染色体の領域に存在するときがあり、部分とポリヌクレオチドを共有しないときがあり、部分に存在するポリヌクレオチドを含むときがある。染色体のセグメントは、部分より多い数のヌクレオチドを含むことが多く（例えば、セグメントは、部分を含むときがある）、染色体のセグメントは、部分より少ない数のヌクレオチドを含むときがある（例えば、セグメントは、部分内に存在するときがある）。
部分のフィルタリングおよび／または選択

部分は、本明細書中に記載されるまたは当該分野で公知の１つまたはそれを超える特徴、パラメータ、基準および／または方法に従って、処理される（例えば、正規化される、フィルタリングされる、選択されるなどまたはそれらの組み合わせ）ときがある。部分は、任意の好適な方法によって、および任意の好適なパラメータに従って、処理され得る。部分をフィルタリングするためおよび／または選択するために使用され得る特徴および／またはパラメータの非限定的な例としては、カウント、カバレッジ、マッピング精度、ばらつき、不確定性のレベル、グアニン−シトシン（ＧＣ）含有量、ＣＣＦフラグメントの長さおよび／またはリード長（例えば、フラグメントの長さの比率（ＦＬＲ）、胎児の比率の統計量（ＦＲＳ））、ＤＮａｓｅＩ感度、メチル化の状態、アセチル化、ヒストン分布、クロマチン構造、反復パーセントなどまたはそれらの組み合わせが挙げられる。部分は、本明細書中に列挙されるまたは記載される特徴またはパラメータと相関する任意の好適な特徴またはパラメータに従ってフィルタリングされ得、および／または選択され得る。部分は、部分に特異的な特徴もしくはパラメータ（例えば、複数のサンプルに係る単一の部分に対して測定されるとき）および／またはサンプルに特異的な特徴もしくはパラメータ（例えば、サンプル内の複数の部分に対して測定されるとき）に従ってフィルタリングされ得、および／または選択され得る。いくつかの実施形態において、部分は、比較的低いマッピング精度、比較的大きなばらつき、高レベルの不確定性、比較的長いＣＣＦフラグメント長（例えば、低ＦＲＳ、低ＦＬＲ）、比較的高い割合の反復配列、高ＧＣ含有量、低ＧＣ含有量、低カウント、ゼロカウント、高カウントなどまたはそれらの組み合わせに従ってフィルタリングされ、および／または除去される。いくつかの実施形態において、部分（例えば、部分のサブセット）は、好適なマッピング精度のレベル、ばらつき、不確定性のレベル、反復配列の割合、カウント、ＧＣ含有量などまたはそれらの組み合わせに従って選択される。いくつかの実施形態において、部分（例えば、部分のサブセット）は、比較的短いＣＣＦフラグメント長（例えば、高ＦＲＳ、高ＦＬＲ）に従って選択される。部分にマッピングされたカウントおよび／またはリードは、部分（例えば、部分のサブセット）をフィルタリングするかまたは選択する前および／または後に処理される（例えば、正規化される）ときがある。いくつかの実施形態において、部分にマッピングされたカウントおよび／またはリードは、部分（例えば、部分のサブセット）をフィルタリングするかまたは選択する前および／または後に処理されない。

任意の好適な数のサンプルに由来する配列リードは、本明細書中に記載される１つまたはそれを超える基準、パラメータおよび／または特徴を満たす部分のサブセットを特定するために使用され得る。複数の妊婦由来のサンプル群からの配列リードが、使用されるときがある。複数の妊婦の各々に由来する１つまたはそれを超えるサンプル（例えば、各妊婦由来の１〜約２０個のサンプル（例えば、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８または１９個のサンプル））が、対処され得、好適な数の妊婦（例えば、約２〜約１０，０００人の妊婦（例えば、約１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、１５０、２００、２５０、３００、３５０、４００、５００、６００、７００、８００、９００、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００人の妊婦））が、対処され得る。いくつかの実施形態において、同じ妊婦由来の同じテストサンプルからの配列リードが、参照ゲノムにおける部分にマッピングされ、部分のサブセットを生成するために使用される。

妊婦から得られる循環無細胞核酸フラグメント（ＣＣＦフラグメント）は、一般に、胎児の細胞を起源とする核酸フラグメント（すなわち、胎児のフラグメント）および母体の細胞を起源とする核酸フラグメント（すなわち、母体のフラグメント）を含むことが確認されている。胎児を起源とするＣＣＦフラグメントに由来する配列リードは、本明細書中で「胎児のリード」と称される。胎児を有する妊婦（例えば、母）のゲノムを起源とするＣＣＦフラグメントに由来する配列リードは、本明細書中で「母体のリード」と称される。胎児のリードが得られるＣＣＦフラグメントは、本明細書中で胎児の鋳型と称され、母体のリードが得られるＣＣＦフラグメントは、本明細書中で母体の鋳型と称される。

ＣＣＦフラグメントにおいて、胎児のフラグメントは、一般に比較的短い（例えば、約２００塩基対長またはそれ未満）こと、および母体のフラグメントは、そのような比較的短いフラグメントおよび比較的より長いフラグメントを含むことも確認されている。比較的短いフラグメントからのかなりの量のリードがマッピングされた部分のサブセットが、選択され得、および／または特定され得る。理論に限定されるものではないが、そのような部分にマッピングされたリードは、胎児のリードについて濃縮され、それにより、胎児の遺伝解析（例えば、胎児のコピー数変異（例えば、胎児の染色体異数性（例えば、Ｔ２１、Ｔ１８および／またはＴ１３））の存在もしくは非存在の検出）の精度が改善され得ると予想される。

しかしながら、胎児の遺伝解析が、リードのサブセットに基づくとき、かなりの数のリードが考慮されないことが多い。胎児の遺伝解析に向けて、選択された部分のサブセットにマッピングされたリードのサブセットを選択することおよび選択されていない部分におけるリードを除去することにより、例えば、分散が大きくなることに起因して、遺伝解析の精度は低下し得る。いくつかの実施形態において、被験体またはサンプルのマップから得られたシーケンシングリードの約３０％〜約７０％（例えば、約３５％、４０％、４５％、５０％、５５％、６０％または６５％）が、胎児の遺伝解析のために部分のサブセットを選択する際に、考慮すべきものから除去される。ある特定の実施形態において、被験体またはサンプルから得られたシーケンシングリードの約３０％〜約７０％（例えば、約３５％、４０％、４５％、５０％、５５％、６０％または６５％）が、胎児の遺伝解析のために使用される部分のサブセットにマップする。

部分は、任意の好適な方法によって選択され得、および／またはフィルタリングされ得る。いくつかの実施形態において、部分は、データ、グラフ、プロットおよび／またはチャートの目視検査に従って選択される。ある特定の実施形態において、部分は、１つまたはそれを超えるマイクロプロセッサおよびメモリーを備えるシステムまたは機器によって選択され、および／またはフィルタリングされる（例えば、部分的に）。いくつかの実施形態において、部分は、実行可能なプログラムが格納されている非一時的なコンピュータ可読記憶媒体によって選択され、および／またはフィルタリングされ（例えば、部分的に）、ここで、そのプログラムは、マイクロプロセッサにその選択および／またはフィルタリングを行うように指示する。

本明細書中に記載される方法によって選択された部分のサブセットは、胎児の遺伝解析のために種々の様式で使用され得る。ある特定の実施形態において、サンプルに由来するリードは、本明細書中に記載される予め選択された部分のサブセットを用いて、および参照ゲノム内のそれらの部分のすべてまたはほとんどを用いずに、マッピングプロセスにおいて使用される。予め選択された部分のサブセットにマップするそれらのリードは、胎児の遺伝解析のさらなる工程において使用されることが多く、予め選択された部分のサブセットにマップしないリードは、胎児の遺伝解析のさらなる工程において使用されないことが多い（例えば、マップしないリードは、除去されるかまたはフィルタリングされる）。

いくつかの実施形態において、サンプルに由来する配列リードは、参照ゲノムのすべてまたはほとんどの部分にマッピングされ、その後、本明細書中に記載される予め選択された部分のサブセットが選択される。選択された部分のサブセットからのリードは、胎児の遺伝解析のさらなる工程において使用されることが多い。後者の実施形態において、選択されない部分からのリードは、胎児の遺伝解析のさらなる工程において使用されないことが多い（例えば、選択されない部分におけるリードは、除去されるかまたはフィルタリングされる）。
カウント

選択された特徴または変数に基づいてマッピングされたまたは分割された配列リードは、いくつかの実施形態において、１つまたはそれを超える部分（例えば、参照ゲノムの部分）にマッピングされたリードの数を測定するために定量化され得る。ある特定の実施形態において、ある部分にマッピングされた配列リードの量は、カウント（ｃｏｕｎｔｓ）（例えば、カウント（ａｃｏｕｎｔ））と呼ばれる。カウントは、部分に関連することが多い。ある特定の実施形態において、２つまたはそれを超える部分（例えば、部分のセット）に対するカウントは、数学的に操作される（例えば、平均される、加算される、正規化されるなどまたはそれらの組み合わせ）。いくつかの実施形態において、カウントは、部分にマッピングされた（すなわち、部分に関連する）配列リードのいくつかまたはすべてから測定される。ある特定の実施形態において、カウントは、マッピングされた配列リードの予め定義されたサブセットから測定される。マッピングされた配列リードの予め定義されたサブセットは、任意の好適な特徴または変数を用いて定義され得るかまたは選択され得る。いくつかの実施形態において、マッピングされた配列リードの予め定義されたサブセットは、１〜ｎ個の配列リードを含み得、ここで、ｎは、試験被験体サンプルまたは参照被験体サンプルから生成されたすべての配列リードの合計に等しい数である。いくつかの実施形態において、カウントは、部分にマッピングされない配列リードの定量結果である。

ある特定の実施形態において、カウントは、当該分野で公知の好適な方法、演算または数学的プロセスによって処理されたまたは操作された配列リードに由来する。カウント（Ａｃｏｕｎｔ）（例えば、カウント（ｃｏｕｎｔｓ））は、好適な方法、演算または数学的プロセスによって測定され得る。ある特定の実施形態において、カウントは、部分に関連する配列リードに由来し、ここで、それらの配列リードのいくつかまたはすべてが、重み付けされるか、除去されるか、フィルタリングされるか、正規化されるか、調整されるか、平均されるか、手段として得られるか、加算されるかもしくは減算されるか、またはそれらの組み合わせによって処理される。いくつかの実施形態において、カウントは、生の配列リードおよびまたはフィルタリングされた配列リードから得られる。ある特定の実施形態において、カウント値は、数学的プロセスによって測定される。ある特定の実施形態において、カウント値は、部分にマッピングされた配列リードの平均、平均値または合計である。カウントは、カウントの平均値の数値であることが多い。いくつかの実施形態において、カウントは、不確定値に関連する。

いくつかの実施形態において、カウントは、操作され得るかまたは変換され得る（例えば、正規化される、まとめられる、加算される、フィルタリングされる、選択される、平均される、手段として得られるなどまたはそれらの組み合わせ）。いくつかの実施形態において、カウントは、正規化されたカウントをもたらすために変換され得る。カウントは、当該分野で公知のおよび／または本明細書中に記載されるような方法（例えば、部分ごとの正規化、カウントの中央値（ｍｅｄｉａｎｃｏｕｎｔ）（ビンカウントの中央値（ｍｅｄｉａｎｂｉｎｃｏｕｎｔ）、部分カウントの中央値（ｍｅｄｉａｎｐｏｒｔｉｏｎｃｏｕｎｔ））の正規化、ＧＣ含有量による正規化、線形および非線形最小二乗回帰、ＬＯＥＳＳ（例えば、ＧＣＬＯＥＳＳ）、ＬＯＷＥＳＳ、ＰＥＲＵＮ、ＣｈＡＩ、主成分正規化、ＲＭ、ＧＣＲＭ、ｃＱｎおよび／またはそれらの組み合わせ）によって処理され得る（例えば、正規化され得る）。ある特定の実施形態において、カウントは、ＬＯＥＳＳ、カウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化および主成分正規化のうちの１つまたはそれを超えるものによって処理され得る（例えば、正規化され得る）。ある特定の実施形態において、カウントは、ＬＯＥＳＳに続くカウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化によって処理され得る（例えば、正規化され得る）。ある特定の実施形態において、カウントは、ＬＯＥＳＳに続くカウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化に続く主成分正規化によって処理され得る（例えば、正規化され得る）。

カウント（例えば、生のカウント、フィルタリングされたカウントおよび／または正規化されたカウント）は、処理され得、１つまたはそれを超えるレベルに対して正規化され得る。レベルおよびプロファイルは、本明細書中の以後に、より詳細に記載される。ある特定の実施形態において、カウントは、処理され得、および／または参照レベルに対して正規化され得る。参照レベルは、本明細書中の後で述べられる。あるレベルに従って処理されたカウント（例えば、処理されたカウント）は、不確定値（例えば、算出された分散、誤差、標準偏差、Ｚ得点、ｐ値、平均絶対偏差など）に関連し得る。いくつかの実施形態において、不確定値は、あるレベルより上および下の範囲を定義する。偏差に対する値は、不確定値の代わりに使用され得、偏差の尺度の非限定的な例としては、標準偏差、平均絶対偏差、中央絶対偏差、標準得点（例えば、Ｚ得点、正規得点、標準化変数）などが挙げられる。

カウントは、胎児を有する妊婦由来の核酸サンプルから得られることが多い。１つまたはそれを超える部分にマッピングされた核酸配列リードのカウントは、胎児と胎児の母（例えば、妊婦被験体）の両方を代表するカウントであることが多い。ある特定の実施形態において、ある部分にマッピングされたカウントのいくつかは、胎児のゲノムに由来し、同じ部分マッピングされたカウントのいくつかは、母体のゲノムに由来する。
データ処理および正規化

マッピングされてカウントされた配列リードおよび／またはマッピングされなかった配列リードは、本明細書中で生データと称される。なぜならそのデータは、操作されていないカウント（例えば、生のカウント）を表しているからである。いくつかの実施形態において、データセット内の配列リードのデータは、アウトカムの提供を容易にするために、さらに処理され得（例えば、数学的におよび／または統計的に操作され得）、および／または表示され得る。ある特定の実施形態において、より大きいデータセットを含むデータセットは、さらなる解析を容易にするために、前処理から恩恵を受け得る。データセットの前処理は、冗長なおよび／もしくは情報価値のない部分または参照ゲノムの部分（例えば、情報価値のないデータを有する参照ゲノムの部分、冗長なマッピングされたリード、カウントの中央値がゼロである部分、過剰提示または過小提示された配列）の除去を含むときがある。理論に限定されるものではないが、データ処理および／または前処理は、（ｉ）ノイズの多いデータを除去し得、（ｉｉ）情報価値のないデータを除去し得、（ｉｉｉ）冗長なデータを除去し得、（ｉｖ）より大きいデータセットの複雑さを低下させ得、および／または（ｖ）１つの形態から１つもしくはそれを超える他の形態へのデータの変換を容易にし得る。用語「前処理」および「処理」は、データまたはデータセットに関して使用されるとき、本明細書中で集合的に「処理」と称される。処理は、データをさらなる解析により適用できるようにし得、いくつかの実施形態ではアウトカムを生成し得る。いくつかの実施形態において、１つもしくはそれを超える処理方法またはすべての処理方法（例えば、正規化方法、部分のフィルタリング、マッピング、検証などまたはそれらの組み合わせ）が、メモリーと連動したプロセッサ、マイクロプロセッサ、コンピュータおよび／またはマイクロプロセッサによって制御される装置によって行われる。

用語「ノイズの多いデータ」は、本明細書中で使用されるとき、（ａ）解析されるかまたはプロットされたとき、データポイント間に有意な分散を有するデータ、（ｂ）有意な標準偏差（例えば、３を超える標準偏差）を有するデータ、（ｃ）有意な平均値の標準誤差を有するデータなど、および前述のものの組み合わせのことを指す。ノイズの多いデータは、出発物質（例えば、核酸サンプル）の量および／または質に起因して生じるときがあり、配列リードを生成するために使用されるＤＮＡを調製するためまたは複製するためのプロセスの一部として生じるときがある。ある特定の実施形態において、ノイズは、ＰＣＲに基づく方法を用いて調製されたときに過剰提示されるある特定の配列に起因する。本明細書中に記載される方法は、ノイズの多いデータの関与を減少させ得るかまたは排除し得、ゆえに、提供されるアウトカムに対するノイズの多いデータの影響を低減し得る。

用語「情報価値のないデータ」、「情報価値のない参照ゲノムの部分」および「情報価値のない部分」は、本明細書中で使用されるとき、所定の閾値と有意に異なるかまたは所定の値のカットオフ範囲に入らない数値を有する部分またはそれに由来するデータのことを指す。本明細書中の用語「しきい値」および「閾値」とは、適格なデータセットを用いて算出され、遺伝的変異（例えば、コピー数変異、異数性、微小重複、微小欠失、染色体異常など）の診断の限度として役立つ任意の数字のことを指す。ある特定の実施形態において、しきい値は、本明細書中に記載される方法によって得られる結果によって上回られ、被験体は、コピー数変異（例えば、トリソミー２１）と診断される。値の閾値または範囲は、いくつかの実施形態において、配列リードデータ（例えば、参照および／または被験体からの配列リードデータ）を数学的におよび／または統計的に操作することによって算出されることが多く、ある特定の実施形態において、値の閾値または範囲を生成するように操作される配列リードデータは、配列リードデータ（例えば、参照および／または被験体からの配列リードデータ）である。いくつかの実施形態において、不確定値が決定される。不確定値は、一般に、分散または誤差の尺度であり、分散または誤差の任意の好適な尺度であり得る。いくつかの実施形態において、不確定値は、標準偏差、標準誤差、算出された分散、ｐ値または平均絶対偏差（ＭＡＤ）である。いくつかの実施形態において、不確定値は、本明細書中に記載される式に従って算出され得る。

任意の好適な手順が、本明細書中に記載されるデータセットを処理するために使用され得る。データセットを処理するために使用するのに適した手順の非限定的な例としては、フィルタリング、正規化、重み付け、ピーク高さのモニタリング、ピーク面積のモニタリング、ピーク端のモニタリング、面積比の測定、データの数学的処理、データの統計的処理、統計的アルゴリズムの適用、固定変数を用いた解析、最適化された変数を用いた解析、さらなる処理のためにパターンまたは傾向を特定するためのデータのプロットなどおよび前述のものの組み合わせが挙げられる。いくつかの実施形態において、データセットは、様々な特徴（例えば、ＧＣ含有量、冗長なマッピングされたリード、セントロメア領域、テロメア領域などおよびそれらの組み合わせ）および／または変数（例えば、胎児の性別、母体の齢、母体の倍数性、胎児核酸の寄与パーセントなどまたはそれらの組み合わせ）に基づいて処理される。ある特定の実施形態において、本明細書中に記載されるようなデータセットの処理は、大きなおよび／または複雑なデータセットの複雑さおよび／または次元を低下させ得る。複雑なデータセットの非限定的な例としては、異なる齢および民族的バックグラウンドの、１つまたはそれを超える試験被験体および複数の参照被験体から生成された配列リードデータが挙げられる。いくつかの実施形態において、データセットは、各試験被験体および／または各参照被験体に対する数千個から数百万個の配列リードを含み得る。

データ処理は、ある特定の実施形態において、任意の数の工程で行われ得る。例えば、データは、いくつかの実施形態において、ただ１つの処理手順を用いて処理され得、ある特定の実施形態において、データは、１つもしくはそれを超える、５つもしくはそれを超える、１０個もしくはそれを超える、または２０個もしくはそれを超える処理工程（例えば、１つもしくはそれを超える処理工程、２つもしくはそれを超える処理工程、３つもしくはそれを超える処理工程、４つもしくはそれを超える処理工程、５つもしくはそれを超える処理工程、６つもしくはそれを超える処理工程、７つもしくはそれを超える処理工程、８つもしくはそれを超える処理工程、９つもしくはそれを超える処理工程、１０個もしくはそれを超える処理工程、１１個もしくはそれを超える処理工程、１２個もしくはそれを超える処理工程、１３個もしくはそれを超える処理工程、１４個もしくはそれを超える処理工程、１５個もしくはそれを超える処理工程、１６個もしくはそれを超える処理工程、１７個もしくはそれを超える処理工程、１８個もしくはそれを超える処理工程、１９個もしくはそれを超える処理工程または２０個もしくはそれを超える処理工程）を用いて処理され得る。いくつかの実施形態において、処理工程は、２回またはそれを超える回数繰り返される同じ工程（例えば、２回またはそれを超える回数のフィルタリング、２回またはそれを超える回数の正規化）であり得、ある特定の実施形態において、処理工程は、同時にまたは連続して行われる２つまたはそれを超える異なる処理工程（例えば、フィルタリング、正規化；正規化、ピーク高さおよびピーク端のモニタリング；フィルタリング、正規化、参照に対する正規化、ｐ値を決定する統計的操作など）であり得る。いくつかの実施形態において、任意の好適な数および／または組み合わせの同じまたは異なる処理工程が、アウトカムの提供を容易にするために配列リードデータを処理するために使用され得る。ある特定の実施形態において、本明細書中に記載される基準によるデータセットの処理は、データセットの複雑さおよび／または次元を低下させ得る。

いくつかの実施形態において、１つまたはそれを超える処理工程は、１つまたはそれを超えるフィルタリング工程を含み得る。用語「フィルタリング」は、本明細書中で使用されるとき、部分または参照ゲノムの部分を考慮すべきものから除去することを指す。参照ゲノムの部分は、任意の好適な基準に基づく除去のために選択され得、その基準としては、冗長なデータ（例えば、冗長なまたはオーバーラップするマッピングされたリード）、情報のないデータ（例えば、カウントの中央値がゼロである参照ゲノムの部分）、過剰提示されるかもしくは過小提示される配列を含む参照ゲノムの部分、ノイズの多いデータなどまたは前述のものの組み合わせが挙げられるが、これらに限定されない。フィルタリングプロセスは、参照ゲノムの１つまたはそれを超える部分を考慮すべきものから除去すること、および参照ゲノム、染色体または検討中のゲノムの部分に対するカウントされたまたは合計されたカウントから、除去のために選択された参照ゲノムの１つまたはそれを超える部分におけるカウントを減算することを含むことが多い。いくつかの実施形態において、参照ゲノムの部分は、連続的に（例えば、各個別の部分の除去の影響の評価を可能にするために１つずつ）除去され得、ある特定の実施形態では、除去のためにマークされた参照ゲノムのすべての部分が、同時に除去され得る。いくつかの実施形態において、ある特定のレベルより上または下の分散を特徴とする参照ゲノムの部分が除去され、それは、本明細書中で、参照ゲノムの「ノイズの多い」部分のフィルタリングと称されるときがある。ある特定の実施形態において、フィルタリングプロセスは、所定の複数のプロファイルの分散毎に、ある部分、染色体、または染色体のセグメントのプロファイルレベルの平均値から逸脱するデータポイントをデータセットから得ることを含み、ある特定の実施形態では、フィルタリングプロセスは、所定の複数のプロファイルの分散毎に、ある部分、染色体または染色体のセグメントのプロファイルレベルの平均値から逸脱しないデータポイントをデータセットから除去することを含む。いくつかの実施形態において、フィルタリングプロセスは、コピー数変異の存在もしくは非存在について解析される参照ゲノムの候補部分の数を減少させるために用いられる。コピー数変異（例えば、微小欠失、微小重複）の存在もしくは非存在について解析される参照ゲノムの候補部分の数の減少は、データセットの複雑さおよび／または次元を低下させることが多く、コピー数変異および／または遺伝的異常を検索するおよび／または識別する速度を２桁またはそれを超える桁数だけ高めるときがある。

いくつかの実施形態において、１つまたはそれを超える処理工程は、１つまたはそれを超える正規化工程を含み得る。正規化は、本明細書中に記載されるまたは当該分野で公知の好適な方法によって行われ得る。ある特定の実施形態において、正規化は、異なるスケールで計測された値を概念的に共通のスケールに調整することを含む。ある特定の実施形態において、正規化は、調整された値の確率分布をアラインメントの状態にするための高度な数学的調整を含む。いくつかの実施形態において、正規化は、分布を正規分布に適合させることを含む。ある特定の実施形態において、正規化は、ある特定の全体的な影響（例えば、誤差および例外）の作用を排除するように、異なるデータセットに対する対応する正規化された値の比較を可能にする数学的調整を含む。ある特定の実施形態において、正規化は、スケーリングを含む。正規化は、所定の変数または式による１つまたはそれを超えるデータセットの除算を含むときがある。正規化は、所定の変数または式による１つまたはそれを超えるデータセットの減算を含むときがある。正規化方法の非限定的な例としては、部分ごとの正規化、ＧＣ含有量による正規化、カウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化、線形および非線形最小二乗回帰、ＬＯＥＳＳ、ＧＣＬＯＥＳＳ、ＬＯＷＥＳＳ（局所的に重み付けされた散布図平滑化）、ＰＥＲＵＮ、ＣｈＡＩ、主成分正規化、リピートマスク（ＲＭ）、ＧＣ−正規化およびリピートマスク（ＧＣＲＭ）、ｃＱｎならびに／またはそれらの組み合わせが挙げられる。いくつかの実施形態において、コピー数変異（例えば、異数性、微小重複、微小欠失）の存在もしくは非存在の判定は、正規化方法（例えば、部分ごとの正規化、ＧＣ含有量による正規化、カウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化、線形および非線形最小二乗回帰、ＬＯＥＳＳ、ＧＣＬＯＥＳＳ、ＬＯＷＥＳＳ（局所的に重み付けされた散布図平滑化）、ＰＥＲＵＮ、ＣｈＡＩ、主成分正規化、リピートマスク（ＲＭ）、ＧＣ−正規化およびリピートマスク（ＧＣＲＭ）、ｃＱｎ、当該分野で公知の正規化方法、ならびに／またはそれらの組み合わせ）を用いる。いくつかの実施形態において、コピー数変異（例えば、異数性、微小重複、微小欠失）の存在もしくは非存在の判定は、ＬＯＥＳＳ、カウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化および主成分正規化のうちの１つまたはそれを超えるものを用いる。いくつかの実施形態において、コピー数変異の存在もしくは非存在の判定は、ＬＯＥＳＳに続いて、カウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化を用いる。いくつかの実施形態において、コピー数変異の存在もしくは非存在の判定は、ＬＯＥＳＳに続いて、カウントの中央値（ビンカウントの中央値、部分カウントの中央値）の正規化に続いて、主成分正規化を用いる。ある特定の正規化プロセス（例えば、ＣｈＡＩ正規化、主成分正規化、ＰＥＲＵＮ正規化）の態様は、例えば、２０１４年５月２３日に出願され、２０１４年１１月２７日にＷＯ２０１４／１９０２８６として公開された特許出願番号ＰＣＴ／ＵＳ２０１４／０３９３８９；および２０１４年１０月２日に出願され、２０１５年４月９日にＷＯ２０１５／０５１１６３として公開された特許出願番号ＰＣＴ／ＵＳ２０１４／０５８８８５に記載されている。

任意の好適な数の正規化を使用することができる。いくつかの実施形態において、データセットは、１回もしくはそれを超える回数、５回もしくはそれを超える回数、１０回もしくはそれを超える回数またはなおも２０回もしくはそれを超える回数だけ、正規化され得る。データセットは、任意の好適な特徴または変数（例えば、サンプルデータ、参照データまたはその両方）を代表する値（例えば、正規化値）に対して正規化され得る。使用され得るデータ正規化のタイプの非限定的な例としては、１つまたはそれを超える選択された試験部分または参照部分に対する生のカウントデータを、その選択された部分または区分がマッピングされた染色体またはゲノム全体にマッピングされたカウントの総数に対して正規化すること；１つまたはそれを超える選択された部分に対する生のカウントデータを、１つもしくはそれを超える部分または選択された部分もしくはセグメントがマッピングされた染色体に対する参照カウントの中央値に対して正規化すること；生のカウントデータを、事前に正規化されたデータまたはその微分係数に対して正規化すること；および事前に正規化されたデータを、１つまたはそれを超える他の所定の正規化変数に対して正規化することが挙げられる。データセットの正規化は、所定の正規化変数として選択された特徴または特性に応じて、統計的誤差を切り離す効果を有するときがある。データセットの正規化は、データを通常のスケール（例えば、所定の正規化変数）にすることによって、異なるスケールを有するデータのデータ特性の比較も可能にするときがある。いくつかの実施形態において、統計的に導出された値に対する１つまたはそれを超える正規化は、データの差異を最小にするためおよび範囲外のデータの重要性を低下させるために使用され得る。部分または参照ゲノムの部分を正規化値に対して正規化することは、「部分ごとの正規化」と称されるときがある。

ある特定の実施形態において、正規化を含む処理工程は、スタティックウィンドウ（ｓｔａｔｉｃｗｉｎｄｏｗ）に対する正規化を含み、いくつかの実施形態において、正規化を含む処理工程は、ムービング（ｍｏｖｉｎｇ）ウィンドウまたはスライディングウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）に対する正規化を含む。用語「ウィンドウ」は、本明細書中で使用されるとき、解析のために選択され、時折、比較のための参照として使用される（例えば、正規化および／または他の数学的もしくは統計的操作のために使用される）、１つまたはそれを超える部分のことを指す。用語「スタティックウィンドウに対する正規化」は、本明細書中で使用されるとき、試験被験体のデータセットと参照被験体のデータセットとの比較のために選択された１つまたはそれを超える部分を用いる正規化プロセスのことを指す。いくつかの実施形態において、選択された部分は、プロファイルを生成するために使用される。スタティックウィンドウは、一般に、操作中および／または解析中に変化しない所定の部分セットを含む。用語「ムービングウィンドウに対する正規化」および「スライディングウィンドウに対する正規化」は、本明細書中で使用されるとき、選択された試験部分のゲノム領域に局在する部分（例えば、すぐ接して囲んでいる隣接する遺伝的部分または遺伝的区分など）に対して行われる正規化のことを指し、ここで、１つまたはそれを超える選択された試験部分は、その選択された試験部分をすぐ接して囲んでいる部分に対して正規化される。ある特定の実施形態において、これらの選択された部分は、プロファイルを生成するために使用される。スライディングウィンドウ正規化またはムービングウィンドウ正規化は、隣接する試験部分に繰り返してムービングまたはスライディングすること、および新たに選択された試験部分を、その新たに選択された試験部分をすぐ接して囲んでいるかまたはその新たに選択された試験部分に隣接する部分に対して正規化することを含むことが多く、ここで、隣接するウィンドウは、１つまたはそれを超える部分を共通して有する。ある特定の実施形態において、複数の選択された試験部分および／または染色体が、スライディングウィンドウプロセスによって解析され得る。

いくつかの実施形態において、スライディングウィンドウまたはムービングウィンドウに対する正規化は、１つまたはそれを超える値を生成し得、ここで、各値は、異なるゲノム領域（例えば、染色体）から選択される異なる参照部分セットに対する正規化に相当する。ある特定の実施形態において、生成された１つまたはそれを超える値は、累積和（例えば、選択された部分、ドメイン（例えば、染色体の一部）または染色体）に対する正規化されたカウントプロファイルの積分の推定数値）である。スライディングウィンドウまたはムービングウィンドウプロセスによって生成される値は、プロファイルを生成し、アウトカムに到達するのを促進するために使用され得る。いくつかの実施形態において、１つまたはそれを超える部分の累積和は、ゲノム位置の関数として表示され得る。ムービングウィンドウ解析またはスライディングウィンドウ解析は、微小欠失および／または微小挿入の存在もしくは非存在についてゲノムを解析するために使用されるときがある。ある特定の実施形態において、１つまたはそれを超える部分の累積和の表示は、コピー数変異（例えば、微小欠失、微小重複）の領域の存在もしくは非存在を識別するために使用される。いくつかの実施形態において、ムービングウィンドウ解析またはスライディングウィンドウ解析は、微小欠失を含むゲノム領域を識別するために使用され、ある特定の実施形態において、ムービングウィンドウ解析またはスライディングウィンドウ解析は、微小重複を含むゲノム領域を識別するために使用される。

使用され得る正規化プロセスのある特定の例、例えば、ＬＯＥＳＳ、ＰＥＲＵＮ、ＣｈＡＩおよび主成分正規化方法が、本明細書の以後に、より詳細に説明される。

いくつかの実施形態において、処理工程は、重み付けを含む。用語「重み付けされる」、「重み付けする」もしくは「重み関数」またはそれらの文法上の派生物もしく等価物は、本明細書中で使用されるとき、他のデータセットの特徴または変数に対してある特定のデータセットの特徴または変数の影響を変化させる（例えば、選択された部分または参照ゲノムの部分におけるデータの質または有用性に基づいて、１つまたはそれを超える部分または参照ゲノムの部分に含まれるデータの有意性および／または寄与を増減させる）ために利用されるときがあるデータセットの一部または全部の数学的操作のことを指す。重み付け関数は、いくつかの実施形態において、測定値の分散が比較的小さいデータの影響を増大させるためおよび／または測定値の分散が比較的大きいデータの影響を減少させるために使用され得る。例えば、過小提示または低品質の配列データを有する参照ゲノムの部分は、データセットに対する影響を最小にするために「重み付けを小さく」され得るのに対して、選択された参照ゲノムの部分は、データセットに対する影響を増大させるために「重み付けを大きく」され得る。重み付け関数の非限定的な例は、［１／（標準偏差）^２］である。重み付け工程は、正規化工程と実質的に同様の様式で行われるときがある。いくつかの実施形態において、データセットを所定の変数（例えば、重み付け変数）で除算する。所定の変数（例えば、最小化された目的関数、Ｐｈｉ）は、データセットの異なる一部を異なって重み付けする（例えば、他のデータタイプの影響を減少させつつ、ある特定のデータタイプの影響を増大させる）ために選択されることが多い。

ある特定の実施形態において、処理工程は、１つまたはそれを超える数学的操作および／または統計的操作を含み得る。任意の好適な数学的操作および／または統計的操作が、本明細書中に記載されるデータセットを解析するためおよび／または操作するために、単独でまたは組み合わせて使用され得る。任意の好適な数の数学的操作および／または統計的操作を使用することができる。いくつかの実施形態において、データセットは、１回もしくはそれを超える回数、５回もしくはそれを超える回数、１０回もしくはそれを超える回数または２０回もしくはそれを超える回数だけ、数学的におよび／または統計的に操作され得る。使用され得る数学的操作および統計的操作の非限定的な例としては、加算、減算、乗算、除算、代数関数、最小二乗推定量、カーブフィッティング、微分方程式、有理多項式、二重多項式（ｄｏｕｂｌｅｐｏｌｙｎｏｍｉａｌ）、直交多項式、ｚ得点、ｐ値、カイ値、ｐｈｉ値、ピークレベルの解析、ピーク端位置の決定、ピーク面積比の計算、染色体レベル中央値の解析、平均絶対偏差の算出、平方残差の和、平均値、標準偏差、標準誤差などまたはそれらの組み合わせが挙げられる。数学的操作および／または統計的操作は、配列リードデータの全部もしくは一部またはその処理されたものに対して行われ得る。統計的に操作され得るデータセットの変数または特徴の非限定的な例としては、生のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピーク面積、ピーク端、側方許容（ｌａｔｅｒａｌｔｏｌｅｒａｎｃｅ）、Ｐ値、中央値レベル、平均値レベル、ゲノム領域内のカウントの分布、核酸種の相対的な提示などまたはそれらの組み合わせが挙げられる。

いくつかの実施形態において、処理工程は、１つまたはそれを超える統計的アルゴリズムの使用を含み得る。任意の好適な統計的アルゴリズムが、本明細書中に記載されるデータセットを解析するためおよび／または操作するために、単独でまたは組み合わせて使用され得る。任意の好適な数の統計的アルゴリズムを使用することができる。いくつかの実施形態において、データセットは、１つもしくはそれを超える、５つもしくはそれを超える、１０個もしくはそれを超えるまたは２０個もしくはそれを超える統計的アルゴリズムを用いて解析され得る。本明細書中に記載される方法とともに使用するのに適した統計的アルゴリズムの非限定的な例としては、決定木、対立帰無仮説、多重比較、総括的検定、ベーレンス・フィッシャー問題、ブートストラッピング、独立した有意性検定を組み合わせるためのフィッシャーの方法、帰無仮説、第１種の過誤、第２種の過誤、正確検定、１標本Ｚ検定、２標本Ｚ検定、１標本ｔ検定、対応のあるｔ検定、等しい分散を有するプールされた２標本ｔ検定、不等分散を有するプールされない２標本ｔ検定、１比率ｚ検定、プールされた２比率ｚ検定、プールされない２比率ｚ検定、１標本カイ二乗検定、分散を等しくするための２標本Ｆ検定、信頼区間、信用区間、有意性、メタ解析、線形単回帰、ロバスト線形回帰などまたは前述のものの組み合わせが挙げられる。統計的アルゴリズムを用いて解析され得るデータセットの変数または特徴の非限定的な例としては、生のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピーク端、側方許容、Ｐ値、中央値レベル、平均値レベル、ゲノム領域内のカウントの分布、核酸種の相対的な提示などまたはそれらの組み合わせが挙げられる。

ある特定の実施形態において、データセットは、複数の（例えば、２つもしくはそれを超える）統計的アルゴリズム（例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、Ｋ最近隣法、ロジスティック回帰および／またはｌｏｓｓ平滑化法）ならびに／または数学的操作および／もしくは統計的操作（例えば、本明細書中で操作と称されるもの）を使用することによって解析され得る。いくつかの実施形態において、複数の操作の使用により、アウトカムを提供するために使用され得るＮ次元空間が生成され得る。ある特定の実施形態において、複数の操作を用いることによるデータセットの解析は、そのデータセットの複雑さおよび／または次元を低下させ得る。例えば、参照データセットに対して複数の操作を使用することにより、参照サンプルの状態（例えば、選択されたコピー数変異に対して陽性または陰性）に応じて、コピー数変異の存在もしくは非存在を表すために使用され得るＮ次元空間（例えば、確率プロット）が生成され得る。実質的に類似の操作セットを用いたテストサンプルの解析は、各テストサンプルに対してＮ次元のポイントを生成するために使用され得る。試験被験体のデータセットの複雑さおよび／または次元は、参照データから生成されたＮ次元空間と容易に比較され得る単一値またはＮ次元のポイントにまで低下するときがある。参照被験体のデータによって占有されたＮ次元空間に入るテストサンプルのデータは、参照被験体の遺伝的状態と実質的に同様の遺伝的状態を示唆する。参照被験体のデータに占有されたＮ次元空間に入らないテストサンプルのデータは、参照被験体の遺伝的状態と実質的に異なる遺伝的状態を示唆する。いくつかの実施形態において、参照は、正倍数性であるか、またはコピー数変異もしくは医学的症状を別段有しない。

データセットがカウントされ、必要に応じてフィルタリングされ、正規化された後、処理されたデータセットは、いくつかの実施形態において、１つまたはそれを超えるフィルタリング手順および／または正規化手順によってさらに操作され得る。１つまたはそれを超えるフィルタリング手順および／または正規化手順によってさらに操作されたデータセットは、ある特定の実施形態において、プロファイルを生成するために使用され得る。１つまたはそれを超えるフィルタリング手順および／または正規化手順は、いくつかの実施形態において、データセットの複雑さおよび／または次元を低下させ得るときがある。アウトカムは、低下した複雑さおよび／または次元のデータセットに基づいて提供され得る。

いくつかの実施形態において、部分は、誤差の尺度（例えば、標準偏差、標準誤差、算出された分散、ｐ値、平均絶対誤差（ＭＡＥ）、平均絶対偏差および／または平均絶対偏差（ＭＡＤ）に従ってフィルタリングされ得る。ある特定の実施形態において、誤差の尺度とは、カウントのばらつきのことを指す。いくつかの実施形態において、部分は、カウントのばらつきに従ってフィルタリングされる。ある特定の実施形態において、カウントのばらつきは、複数のサンプル（例えば、複数の被験体、例えば、５０もしくはそれを超える、１００もしくはそれを超える、５００もしくはそれを超える、１０００もしくはそれを超える、５０００もしくはそれを超えるまたは１０，０００もしくはそれを超える被験体から得られた複数のサンプル）に対する、参照ゲノムの部分（すなわち、部分）にマッピングされたカウントに対して決定される誤差の尺度である。いくつかの実施形態において、所定の上部範囲より上のカウントのばらつきを有する部分が、フィルタリングされる（例えば、考慮すべきものから除外される）。いくつかの実施形態において、所定の上部範囲は、約５０、約５２、約５４、約５６、約５８、約６０、約６２、約６４、約６６、約６８、約７０、約７２、約７４と等しいかもしくはそれを超えるＭＡＤ値または約７６と等しいかもしくはそれを超えるＭＡＤ値である。いくつかの実施形態において、所定の下部範囲より下のカウントのばらつきを有する部分が、フィルタリングされる（例えば、考慮すべきものから除外される）。いくつかの実施形態において、所定の下部範囲は、約４０、約３５、約３０、約２５、約２０、約１５、約１０、約５、約１と等しいかもしくはそれ未満のＭＡＤ値または約０と等しいかもしくはそれ未満のＭＡＤ値である。いくつかの実施形態において、所定の範囲外のカウントのばらつきを有する部分が、フィルタリングされる（例えば、考慮すべきものから除外される）。いくつかの実施形態において、所定の範囲は、ゼロより大きくかつ約７６未満、約７４未満、約７３未満、約７２未満、約７１未満、約７０未満、約６９未満、約６８未満、約６７未満、約６６未満、約６５未満、約６４未満、約６２未満、約６０未満、約５８未満、約５６未満、約５４未満、約５２未満または約５０未満のＭＡＤ値である。いくつかの実施形態において、所定の範囲は、ゼロより大きくかつおよび約６７．７未満のＭＡＤ値である。いくつかの実施形態において、所定の範囲内のカウントのばらつきを有する部分が、選択される（例えば、コピー数変異の存在もしくは非存在を判定するために使用される）。

いくつかの実施形態において、部分のカウントのばらつきは、分布（例えば、正規分布）に相当する。いくつかの実施形態において、その分布の、ある分位点内の部分が、選択される。いくつかの実施形態において、分布に対して約９９．９％、９９．８％、９９．７％、９９．６％、９９．５％、９９．４％、９９．３％、９９．２％、９９．１％、９９．０％、９８．９％、９８．８％、９８．７％、９８．６％、９８．５％、９８．４％、９８．３％、９８．２％、９８．１％、９８．０％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８５％、８０％と等しいかもしくはそれ未満または約７５％の分位点と等しいかもしくはそれ未満の分位点内の部分が、選択される。いくつかの実施形態において、カウントのばらつきの分布の９９％分位点内の部分が、選択される。いくつかの実施形態において、９９％分位点内のＭＡＤ＞０かつＭＡＤ＜６７．７２５を有する部分が選択され、それにより、参照ゲノムの安定した部分のセットが識別される。

ＰＥＲＵＮに関する部分のフィルタリングの非限定的な例は、例えば、本明細書中および国際特許出願番号ＰＣＴ／ＵＳ１２／５９１２３（ＷＯ２０１３／０５２９１３）（本文、表、式および図面のすべてを含むこの全内容が参照により本明細書中に組み込まれる）に提供されている。部分は、誤差の尺度に基づいてまたは誤差の尺度に部分的に基づいて（ｂａｓｅｄｏｎｐａｒｔｏｎ）フィルタリングされ得る。Ｒ因子などの偏差の絶対値を含む誤差の尺度は、ある特定の実施形態において、部分の除去または重み付けのために使用され得る。Ｒ因子は、いくつかの実施形態において、実際の測定値から予測されるカウント値で除算された、実際の測定値から予測されるカウント値の絶対偏差の和として定義される（例えば、２０１２年１０月５日に出願され、２０１３年４月１１日にＷＯ２０１３／０５２９１３として公開された特許出願番号ＰＣＴ／ＵＳ２０１２／０５９１２３の２２８頁の式Ｃ）。偏差の絶対値を含む誤差の尺度を使用してもよいが、その代わりに好適な誤差の尺度を使用してもよい。ある特定の実施形態において、偏差の絶対値を含まない誤差の尺度、例えば、平方に基づく散らばりが、使用され得る。いくつかの実施形態において、部分は、マッピング精度の尺度（例えば、マッピング精度スコア）に従ってフィルタリングされるかまたは重み付けされる。ある部分は、その部分にマッピングされた比較的少ない数の配列リード（例えば、その部分にマッピングされた０、１、２、３、４、５個のリード）に従ってフィルタリングされるかまたは重み付けされるときがある。ある部分は、反復配列の割合またはパーセントに従ってフィルタリングされるかまたは重み付けされるときがある。ある特定の実施形態において、部分は、（ｉ）マッピング精度の尺度、（ｉｉ）誤差の尺度（例えば、Ｒ因子）および（ｉｉｉ）反復配列の割合またはパーセントのうちの１つまたはそれを超えるものに従ってフィルタリングされるかまたは重み付けされる。部分は、行われる解析のタイプに従ってフィルタリングされ得るかまたは重み付けされ得る。例えば、１３番、１８番および／または２１番染色体の異数性解析の場合、性染色体が、フィルタリングされ得、常染色体または常染色体のサブセットだけが解析され得る。

特定の実施形態において、以下のフィルタリングプロセスが、用いられ得る。所与の染色体（例えば、２１番染色体）内の同じ部分（例えば、参照ゲノムの部分）のセットが選択され、罹患サンプルおよび非罹患サンプルにおけるリードの数が比較される。そのギャップは、トリソミー２１サンプルおよび正倍数性サンプルを関係づけ、２１番染色体のほとんどをカバーする部分のセットを含む。その部分のセットは、正倍数性サンプルとＴ２１サンプルとの間で同じである。ある部分が定義され得るとき、部分のセットと単一の区分との間の違いは、重大ではない。異なる患者において、同じゲノム領域が比較される。このプロセスは、トリソミー解析（例えば、Ｔ２１に加えてまたはＴ２１の代わりにＴ１３またはＴ１８）のために使用され得る。

データセットがカウントされ、必要に応じてフィルタリングされ、正規化された後、処理されたデータセットは、いくつかの実施形態において、重み付けによって操作され得る。１つまたはそれを超える部分が、ある特定の実施形態において、選択された部分に含まれるデータ（例えば、ノイズの多いデータ、情報価値のないデータ）の影響を減少させるための重み付けに対して選択され得、いくつかの実施形態において、１つまたはそれを超える部分が、選択された部分に含まれるデータ（例えば、分散が小さいと計測されたデータ）の影響を増強するためまたは増大するための重み付けに対して選択され得る。いくつかの実施形態において、データセットは、分散が大きいデータの影響を減少させ、分散が小さいデータの影響を増大する単一の重み付け関数を用いて重み付けされる。重み付け関数は、分散が大きいデータの影響を減少させ、分散が小さいデータの影響を増大するために使用されるときがある（例えば、［１／（標準偏差）^２］）。いくつかの実施形態において、重み付けによってさらに操作された処理されたデータのプロファイルのプロットは、分類および／またはアウトカムの提供を容易にするために生成される。アウトカムは、重み付けされたデータのプロファイルのプロットに基づいて提供され得る。

部分のフィルタリングまたは重み付けは、解析における１つまたはそれを超える好適な時点において行われ得る。例えば、部分は、配列リードが参照ゲノムの部分に対してマッピングされる前またはマッピングされた後に、フィルタリングされ得るかまたは重み付けされ得る。部分は、いくつかの実施形態において、個々のゲノム部分に対する実験上のバイアスが決定される前または決定された後に、フィルタリングされ得るかまたは重み付けされ得る。ある特定の実施形態において、部分は、ゲノム区分レベルが算出される前または算出された後に、フィルタリングされ得るかまたは重み付けされ得る。

データセットが、カウントされ、必要に応じてフィルタリングされ、正規化され、必要に応じて重み付けされた後、処理されたデータセットは、いくつかの実施形態において、１つまたはそれを超える数学的操作および／または統計的操作（例えば、統計関数または統計的アルゴリズム）操作によって操作され得る。ある特定の実施形態において、処理されたデータセットは、１つまたはそれを超える選択された部分、染色体または染色体の部分に対するＺ得点を算出することによってさらに操作され得る。いくつかの実施形態において、処理されたデータセットは、Ｐ値を算出することによってさらに操作され得る。ある特定の実施形態において、数学的操作および／または統計的操作は、倍数性および／または胎児分率に関する１つまたはそれを超える仮定を含む。いくつかの実施形態において、１つまたはそれを超える統計的操作および／または数学的操作によってさらに操作された処理されたデータのプロファイルのプロットは、分類および／またはアウトカムの提供を容易にするために生成される。アウトカムは、統計的におよび／または数学的に操作されたデータのプロファイルのプロットに基づいて提供され得る。統計的におよび／または数学的に操作されたデータのプロファイルのプロットに基づいて提供されるアウトカムは、倍数性および／または胎児分率に関する１つまたはそれを超える仮定を含むことが多い。

ある特定の実施形態において、データセットがカウントされ、必要に応じてフィルタリングされ、正規化された後、処理されたデータセットに対して複数の操作が行われることにより、Ｎ次元空間および／またはＮ次元のポイントが生成される。アウトカムは、Ｎ次元で解析されたデータセットのプロファイルのプロットに基づいて提供され得る。

いくつかの実施形態において、データセットは、データセットの一部として、またはデータセットが処理された後および／もしくは操作された後に、１つまたはそれを超えるピークレベル解析、ピーク幅解析、ピーク端位置解析、ピーク側方許容（ｐｅａｋｌａｔｅｒａｌｔｏｌｅｒａｎｃｅ）など、その微分演算または前述のものの組み合わせを用いて処理される。いくつかの実施形態において、１つまたはそれを超えるピークレベル解析、ピーク幅解析、ピーク端位置解析、ピーク側方許容など、その微分演算または前述のものの組み合わせを用いて処理されたデータのプロファイルのプロットが、分類および／またはアウトカムの提供を容易にするために生成される。アウトカムは、１つまたはそれを超えるピークレベル解析、ピーク幅解析、ピーク端位置解析、ピーク側方許容など、その微分演算または前述のものの組み合わせを用いて処理されたデータのプロファイルのプロットに基づいて提供され得る。

いくつかの実施形態において、対象のコピー数変異を実質的に含まない１つまたはそれを超える参照サンプルの使用は、参照カウントプロファイルの中央値を生成するために使用され得、その中央値は、コピー数変異が存在しないことを代表する所定の値をもたらし得、試験被験体がコピー数変異を有した場合、コピー数変異がその試験被験体内に位置するゲノム位置に対応する区域における所定の値から逸脱することが多い。コピー数変異に関連する医学的症状のリスクがあるかまたはその医学的症状に罹患している試験被験体では、選択された部分または区分に対する数値は、非罹患のゲノム位置に対する所定の値から有意に変動すると予想される。ある特定の実施形態において、対象のコピー数変異を有すると判明している１つまたはそれを超える参照サンプルの使用は、参照カウントプロファイルの中央値を生成するために使用され得、その中央値は、コピー数変異が存在することを代表する所定の値をもたらし得、試験被験体がコピー数変異を有しないゲノム位置に対応する区域における所定の値から逸脱することが多い。コピー数変異に関連する医学的症状のリスクがないかまたはその医学的症状に罹患していない試験被験体では、選択された部分または区分に対する数値は、罹患ゲノム位置に対する所定の値から有意に変動すると予想される。

いくつかの実施形態において、データの解析および処理は、１つまたはそれを超える仮定の使用を含み得る。好適な数またはタイプの仮定が、データセットを解析するためまたは処理するために使用され得る。データの処理および／または解析のために使用され得る仮定の非限定的な例としては、母体の倍数性、胎児の寄与、参照集団におけるある特定の配列の保有率（ｐｒｅｖａｌｅｎｃｅ）、民族的バックグラウンド、関係する家族における選択された医学的症状の有病率、異なる患者由来の生のカウントプロファイル間ならびに／またはＧＣ正規化およびリピートマスク（例えば、ＧＣＲＭ）の後のラン間の類似、完全一致がＰＣＲアーチファクト（例えば、同一の塩基位置）を表すこと、胎児数量アッセイ（例えば、ＦＱＡ）に固有の仮定、双子に関する仮定（例えば、双子の２人ともおよび１人だけが罹患している場合、有効な胎児分率は、測定された胎児分率の合計の５０％だけである（三つ子、四つ子なども同様に））、胎児の細胞を含まないＤＮＡ（例えば、ｃｆＤＮＡ）がゲノム全体を均一にカバーすることなどおよびそれらの組み合わせが挙げられる。

マッピングされた配列リードの質および／または深度が、正規化されたカウントプロファイルに基づいて所望の信頼水準（例えば、９５％またはそれより高い信頼水準）においてコピー数変異の存在もしくは非存在のアウトカムの予測を可能にしない場合、データ解析および／またはアウトカムの提供にとって有用なさらなる数値を生成するために、１つまたはそれを超えるさらなる数学的操作アルゴリズムおよび／または統計的予測アルゴリズムが使用され得る。用語「正規化されたカウントプロファイル」は、本明細書中で使用されるとき、正規化されたカウントを用いて生成されるプロファイルのことを指す。正規化されたカウントおよび正規化されたカウントプロファイルを生成するために使用され得る方法の例は、本明細書中に記載される。述べるように、マッピングされてカウントされた配列リードは、テストサンプルのカウントまたは参照サンプルのカウントに関して正規化され得る。いくつかの実施形態において、正規化されたカウントプロファイルは、プロットとして示され得る。
ＬＯＥＳＳ正規化

ＬＯＥＳＳは、ｋ最近隣法に基づくメタモデルにおいて複数の回帰モデルを組み合わせる当該分野で公知の回帰モデリング法である。ＬＯＥＳＳは、局所重み付け多項式回帰と称されるときがある。ＧＣＬＯＥＳＳは、いくつかの実施形態において、ＬＯＥＳＳモデルを、参照ゲノムの部分に対するフラグメントカウント（例えば、配列リード、カウント）とＧＣ組成との関係に適用する。ＬＯＥＳＳを用いてデータポイントセットを通って滑らかな曲線をプロットすることは、特に、各平滑化値が、ｙ軸の散布図の基準変数の値の範囲にわたって、重み付けされた二次最小二乗回帰によって与えられるとき、ＬＯＥＳＳ曲線と呼ばれるときがある。あるデータセットにおける各ポイントに対して、ＬＯＥＳＳ法は、そのデータのサブセットに低次多項式を当てはめ、説明変数値は、応答を推定しているポイントに近い。その多項式は、重み付き最小二乗を用いて当てはめられ、応答が推定されているポイントに近いポイントにより大きい重みが与えられ、さらに離れているポイントにより小さい重みが与えられる。次いで、あるポイントに対する回帰関数の値は、そのデータポイントに対する説明変数値を用いて局所多項式を評価することによって得られる。ＬＯＥＳＳの当てはめは、回帰関数値が各データポイントに対して計算された後、完全であると考えられるときがある。この方法の詳細の多く（例えば、多項式モデルおよび重みの程度）は、フレキシブルである。
ＰＥＲＵＮ正規化

核酸の指標に関連する誤差を減少させるための正規化の方法は、本明細書中および国際特許出願番号ＰＣＴ／ＵＳ１２／５９１２３（ＷＯ２０１３／０５２９１３）（本文、表、式および図面のすべてを含むこの全内容が、参照により本明細書中に組み込まれる）に記載されているパラメータ化された誤差除去および不偏正規化（ＰａｒａｍｅｔｅｒｉｚｅｄＥｒｒｏｒＲｅｍｏｖａｌａｎｄＵｎｂｉａｓｅｄＮｏｒｍａｌｉｚａｔｉｏｎ）（ＰＥＲＵＮ）と本明細書中で称される。ＰＥＲＵＮ法は、そのような指標に基づく予測を混乱させる誤差の影響を減少させる目的で、種々の核酸の指標（例えば、核酸配列リード）に対して適用され得る。

例えば、ＰＥＲＵＮ法は、サンプル由来の核酸配列リードに適用され得、ゲノム区分レベルの判定を損ない得る誤差の影響を減少させ得る。そのような適用は、核酸配列リードを用いて、ヌクレオチド配列の変動するレベル（例えば、部分、ゲノム区分レベル）として示される被験体においてコピー数変異の存在もしくは非存在を判定するために有用である。部分における変異の非限定的な例は、染色体異数性（例えば、トリソミー２１、トリソミー１８、トリソミー１３）および性染色体の存在もしくは非存在（例えば、男性におけるＸＹに対する女性におけるＸＸ）である。常染色体（例えば、性染色体以外の染色体）のトリソミーは、罹患した常染色体と称され得る。ゲノム区分レベルにおける変異の他の非限定的な例としては、微小欠失、微小挿入、重複およびモザイク現象が挙げられる。

ある特定の適用において、ＰＥＲＵＮ法は、特定の参照ゲノムの部分にマッピングされた核酸リードを正規化することによって実験上のバイアスを減少させ得、その後者は、部分と称され、参照ゲノムの部分と称されるときがある。そのような適用において、ＰＥＲＵＮ法は、通常、特定の参照ゲノムの部分における核酸リードのカウントをいくつかのサンプルにわたって３次元で正規化する。ＰＥＲＵＮおよびその適用の詳細な説明は、国際特許出願番号ＰＣＴ／ＵＳ１２／５９１２３（ＷＯ２０１３／０５２９１３）および米国特許出願公開番号ＵＳ２０１３００８５６８１に提供されており、本文、表、式および図面のすべてを含むこれらの全内容は、参照により本明細書中に組み込まれる。

ある特定の実施形態において、ＰＥＲＵＮ法は、（ａ）テストサンプルに対する参照ゲノムの部分にマッピングされた配列リードカウント、（ｂ）テストサンプルに対する実験上のバイアス（例えば、ＧＣバイアス）、および（ｃ）（ｉ）配列リードがマッピングされた参照ゲノムの部分に対する実験上のバイアスと（ｉｉ）その部分にマッピングされた配列リードのカウントとの当てはめ関係に対する１つまたはそれを超えるフィットパラメータ（例えば、当てはめの推定値）から、参照ゲノムの部分に対するゲノム区分レベルを算出することを含む。参照ゲノムの各部分に対する実験上のバイアスは、（ｉ）参照ゲノムの各部分にマッピングされた配列リードのカウントと（ｉｉ）参照ゲノムの各部分に対するマッピングの特徴との間の各サンプルに対する当てはめ関係に従って複数のサンプルにわたって決定され得る。各サンプルに対するこの当てはめ関係は、３次元において複数のサンプルに対してアセンブルされ得る。このアセンブリは、ある特定の実施形態において、実験上のバイアスに従って順序づけられ得るが、ＰＥＲＵＮ法は、実験上のバイアスに従ってアセンブリを順序づけずに行われ得る。各サンプルに対する当てはめ関係および参照ゲノムの各部分に対する当てはめ関係は、独立して、当該分野で公知の好適な当てはめプロセスによって線形関数または非線形関数に当てはめられ得る。

いくつかの実施形態において、関係は、幾何的および／またはグラフ的な関係である。いくつかの実施形態において、関係は、数学的関係である。いくつかの実施形態において、関係は、プロットされる。いくつかの実施形態において、関係は、直線関係である。ある特定の実施形態において、関係は、非直線関係である。ある特定の実施形態において、関係は、回帰（例えば、回帰直線）である。回帰は、線形回帰または非線形回帰であり得る。関係は、数学的方程式によって表現され得る。関係は、１つまたはそれを超える定数によって部分的に定義されることが多い。関係は、当該分野で公知の方法によって生成され得る。２次元における関係は、１つまたはそれを超えるサンプルに対して生成され得、ある特定の実施形態では、誤差を立証するかまたは誤差をおそらく立証する変数が、その次元のうちの１つまたはそれを超える次元に対して選択され得る。関係は、例えば、ユーザーによって提供される２つまたはそれを超える変数の値を用いてグラフをプロットする当該分野で公知のグラフ化ソフトウェアを用いて生成され得る。関係は、当該分野で公知の方法（例えば、グラフ化ソフトウェア）を用いて当てはめられ得る。ある特定の関係は、線形回帰によって当てはめられ得、その線形回帰は、傾きの値および切片の値をもたらし得る。ある特定の関係は、線形でないときがあり、非線形関数、例えば、放物線関数、双曲線関数または指数関数（例えば、二次関数）によって当てはめられ得る。

ＰＥＲＵＮ法では、１つまたはそれを超える当てはめ関係は、線形であり得る。実験上のバイアスがＧＣバイアスであり、マッピングの特徴がＧＣ含有量である、妊婦由来の無細胞循環核酸の解析の場合、（ｉ）各部分にマッピングされた配列リードのカウントと（ｉｉ）参照ゲノムの各部分に対するＧＣ含有量との間の、サンプルに対する当てはめ関係は、線形であり得る。後者の当てはめ関係の場合、その傾きは、ＧＣバイアスに関し、それらの当てはめ関係が複数のサンプルにわたってアセンブルされるとき、ＧＣバイアス係数は、各サンプルに対して決定され得る。そのような実施形態において、複数のサンプルに対する当てはめ関係、および（ｉ）その部分に対するＧＣバイアス係数と（ｉｉ）部分にマッピングされた配列リードのカウントとの間の部分もまた、線形であり得る。切片および傾きは、後者の当てはめ関係から得ることができる。そのような適用において、その傾きは、ＧＣ含有量に基づいてサンプル特異的バイアスを扱い、その切片は、すべてのサンプルに共通の部分特異的減衰パターンを扱う。ＰＥＲＵＮ法は、あるアウトカム（例えば、コピー数変異の存在もしくは非存在；胎児の性別の判定）を提供するためにゲノム区分レベルを算出するとき、そのようなサンプル特異的バイアスおよび部分特異的減衰を有意に減少させ得る。

いくつかの実施形態において、ＰＥＲＵＮ正規化は、線形関数への当てはめを利用し、方程式Ｉ、方程式ＩＩまたはそれらの導関数によって記載される。
方程式Ｉ：
Ｍ＝ＬＩ＋ＧＳ（Ｉ）
方程式ＩＩ：
Ｌ＝（Ｍ−ＧＳ）／Ｉ（ＩＩ）

いくつかの実施形態において、Ｌは、ＰＥＲＵＮによって正規化されたレベルまたはプロファイルである。いくつかの実施形態において、Ｌは、ＰＥＲＵＮ正規化手順からの所望のアウトプットである。ある特定の実施形態において、Ｌは、部分特異的である。いくつかの実施形態において、Ｌは、複数の参照ゲノムの部分に従って決定され、ゲノム、染色体、部分またはそれらのセグメントの、ＰＥＲＵＮによって正規化されたレベルを表す。レベルＬは、さらなる解析のため（例えば、Ｚ値、母体の欠失／重複、胎児の微小欠失／微小重複、胎児の性別、性異数性などを判定するため）に使用されることが多い。方程式ＩＩに従った正規化の方法は、パラメータ化された誤差除去および不偏正規化（ＰＥＲＵＮ）と命名されている。

いくつかの実施形態において、Ｇは、線形モデル、ＬＯＥＳＳまたは任意の等価なアプローチを用いて計測されたＧＣバイアス係数である。いくつかの実施形態において、Ｇは、傾きである。いくつかの実施形態において、ＧＣバイアス係数Ｇは、部分ｉに対するカウントＭ（例えば、生のカウント）および参照ゲノムから決定される部分ｉのＧＣ含有量に対する回帰の傾きとして評価される。いくつかの実施形態において、Ｇは、Ｍから抽出され、ある関係に従って決定される二次情報を表す。いくつかの実施形態において、Ｇは、サンプル（例えば、テストサンプル）に対する部分特異的カウントセットおよび部分特異的ＧＣ含有量値セットに対する関係を表す。いくつかの実施形態において、部分特異的ＧＣ含有量は、参照ゲノムから得られる。いくつかの実施形態において、部分特異的ＧＣ含有量は、観察されたまたは計測されたＧＣ含有量から得られる（例えば、サンプルから計測される）。ＧＣバイアス係数は、サンプル群における各サンプルに対して決定されることが多く、一般に、テストサンプルに対して決定される。ＧＣバイアス係数は、サンプル特異的であることが多い。いくつかの実施形態において、ＧＣバイアス係数は、定数である。ある特定の実施形態において、ＧＣバイアス係数は、いったんサンプルに対して得られると、変化しない。

いくつかの実施形態において、Ｉは、切片であり、Ｓは、直線関係から導かれる傾きである。いくつかの実施形態において、ＩおよびＳが導かれる関係は、Ｇが導かれる関係とは異なる。いくつかの実施形態において、ＩおよびＳが導かれる関係は、所与の実験上の設定に対して固定される。いくつかの実施形態において、ＩおよびＳは、カウント（例えば、生のカウント）に従う直線関係および複数のサンプルに従うＧＣバイアス係数から導かれる。いくつかの実施形態において、ＩおよびＳは、独立してテストサンプルから導かれる。いくつかの実施形態において、ＩおよびＳは、複数のサンプルから導かれる。ＩおよびＳは、部分特異的であることが多い。いくつかの実施形態において、ＩおよびＳは、正倍数性サンプルにおける参照ゲノムのすべての部分に対してＬ＝１という仮定を用いて決定される。いくつかの実施形態において、直線関係が、正倍数性サンプルに対して決定され、選択された部分に特異的なＩおよびＳ値が決定される（Ｌ＝１であると仮定する）。ある特定の実施形態において、同じ手順が、ヒトゲノムにおける参照ゲノムのすべての部分に対して適用され、切片Ｉおよび傾きＳのセットが、すべての部分に対して決定される。

いくつかの実施形態において、交差検証アプローチが適用される。交差検証は、回転推定（ｒｏｔａｔｉｏｎｅｓｔｉｍａｔｉｏｎ）と称されるときがある。いくつかの実施形態において、交差検証アプローチは、予測モデル（例えば、ＰＥＲＵＮ）が、テストサンプルを用いて実際にどれくらい正確に行うかを評価するために適用される。いくつかの実施形態において、１回の交差検証は、データのサンプルを相補的なサブセットに分割すること、１つのサブセット（例えば、訓練セットと称されるときがある）に対して交差検証解析を行うこと、および別のサブセット（例えば、検証セットまたは試験セットと呼ばれるときがある）を用いてその解析を検証することを含む。ある特定の実施形態において、複数回の交差検証は、異なる分割および／または異なるサブセット）を用いて行われる。交差検証アプローチの非限定的な例としては、一個抜き（ｌｅａｖｅ−ｏｎｅ−ｏｕｔ）、スライディングエッジ（ｓｌｉｄｉｎｇｅｄｇｅｓ）、Ｋ倍、２倍、繰り返しランダムサブサンプリング（ｒｅｐｅａｔｒａｎｄｏｍｓｕｂ−ｓａｍｐｌｉｎｇ）などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、交差検証は、既知の正倍数性胎児を含むサンプルセットの９０％を含む作業セットをランダムに選択し、そのサブセットを使用してモデルを訓練する。ある特定の実施形態において、ランダムな選択は、１００回繰り返されることにより、すべての部分に対して１００個の傾きおよび１００個の切片のセットがもたらされる。

いくつかの実施形態において、Ｍの値は、テストサンプルから導かれる計測された値である。いくつかの実施形態において、Ｍは、ある部分に対する計測された生のカウントである。いくつかの実施形態において、値ＩおよびＳが、ある部分に対して入手可能である場合、計測値Ｍは、テストサンプルから決定され、それを用いて、方程式ＩＩに従って、ゲノム、染色体、セグメントまたはその一部に対する、ＰＥＲＵＮによって正規化されたレベルＬが決定される。

したがって、複数のサンプルにわたってＰＥＲＵＮ法を並行して配列リードに適用するにより、（ｉ）サンプル特異的な実験上のバイアス（例えば、ＧＣバイアス）および（ｉｉ）サンプルに共通の部分特異的な減衰によって引き起こされる誤差が有意に減少し得る。これらの２つの誤差の供給源の各々が別々にまたは連続的に対処される他の方法は、ＰＥＲＵＮ法ほど効率的にこれらを減少させることができないことが多い。理論に限定されるものではないが、ＰＥＲＵＮ法の一般的な加法プロセスが、他の正規化アプローチ（例えば、ＧＣ−ＬＯＥＳＳ）において用いられる一般的な乗法プロセスほど散らばりを拡大しないことが１つの理由で、ＰＥＲＵＮ法は、より効率的に誤差を減少すると予想される。

さらなる正規化の手法および統計的手法が、ＰＥＲＵＮ法と組み合わせて使用され得る。さらなるプロセスは、ＰＥＲＵＮ法の使用前、使用後および／または使用中に適用され得る。ＰＥＲＵＮ法と組み合わせて使用され得るプロセスの非限定的な例は、本明細書の以後に記載される。

いくつかの実施形態において、ＧＣ含有量に対するゲノム区分レベルの第２の正規化または調整は、ＰＥＲＵＮ法とともに使用され得る。好適なＧＣ含有量の調整または正規化の手順が使用され得る（例えば、ＧＣ−ＬＯＥＳＳ、ＧＣＲＭ）。ある特定の実施形態において、さらなるＧＣ正規化プロセスを適用するために、特定のサンプルが識別され得る。例えば、ＰＥＲＵＮ法の適用により、各サンプルに対するＧＣバイアスが決定され得、ある特定の閾値より大きいＧＣバイアスに関連するサンプルが、さらなるＧＣ正規化プロセスに向けて選択され得る。そのような実施形態において、所定のしきい値レベルが、そのようなサンプルをさらなるＧＣ正規化に向けて選択するために使用され得る。

ある特定の実施形態において、ある部分をフィルタリングするかまたは重み付けするプロセスが、ＰＥＲＵＮ法とともに使用され得る。部分をフィルタリングするかまたは重み付けする好適なプロセスが使用され得、非限定的な例は、本明細書中、国際特許出願番号ＰＣＴ／ＵＳ１２／５９１２３（ＷＯ２０１３／０５２９１３）および米国特許出願公開番号ＵＳ２０１３００８５６８１（これらの本文、表、式および図面のすべてを含む全内容が、参照により本明細書中に組み込まれる）に記載されている。いくつかの実施形態において、母体の挿入、重複および／または欠失（例えば、母体および／または胎児のコピー数変異）に関連する誤差を減少させる正規化の手法が、ＰＥＲＵＮ法とともに使用され得る。

ＰＥＲＵＮ法によって算出されたゲノム区分レベルが、アウトカムを提供するために直接使用され得る。いくつかの実施形態において、ゲノム区分レベルは、胎児分率が約２％〜約６％またはそれを超える（例えば、約４％またはそれを超える胎児分率）サンプルに対してアウトカムを提供するために直接使用され得る。ＰＥＲＵＮ法によって算出されたゲノム区分レベルは、アウトカムを提供するためにさらに処理されるときがある。いくつかの実施形態において、算出されたゲノム区分レベルは、標準化される。ある特定の実施形態において、試験部分（例えば、２１番染色体）に対する算出されたゲノム区分レベルの和、平均値または中央値が、試験部分以外の部分（例えば、２１番染色体以外の常染色体）に対する算出されたゲノム区分レベルの和、平均値または中央値で除算されることにより、実験上のゲノム区分レベルが生成され得る。実験上のゲノム区分レベルまたは生のゲノム区分レベルが、Ｚ得点の算出などの標準化解析の一部として使用され得る。Ｚ得点は、期待されるゲノム区分レベルを実験上のゲノム区分レベルまたは生のゲノム区分レベルから減算することによってサンプルに対して生成され得、得られた値は、そのサンプルに対する標準偏差で除算され得る。得られたＺ得点は、ある特定の実施形態において、種々のサンプルに対して分配され、解析され得るか、または他の変数（例えば、胎児分率など）に関係し得、解析されることにより、アウトカムが提供され得る。

本明細書中で述べられるように、ＰＥＲＵＮ法は、本質的にＧＣバイアスおよびＧＣ含有量に従う正規化に限定されず、誤差の他の供給源に関連する誤差を減少させるために使用され得る。非ＧＣ含有量バイアスの供給源の非限定的な例は、マッピング精度である。ＧＣバイアスおよびＧＣ含有量以外の正規化パラメータが扱われるとき、当てはめ関係の１つまたはそれを超える関係は、非線形（例えば、双曲的、指数関数的）であり得る。いくつかの実施形態において、実験上のバイアスが、非直線関係から決定される場合、例えば、実験上のバイアスの曲率推定が、解析され得る。

ＰＥＲＵＮ法は、種々の核酸の指標に適用され得る。核酸の指標の非限定的な例は、マイクロアレイ上の特定の位置における核酸配列リードおよび核酸レベルである。配列リードの非限定的な例としては、無細胞循環ＤＮＡ、無細胞循環ＲＮＡ、細胞ＤＮＡおよび細胞ＲＮＡから得られるものが挙げられる。ＰＥＲＵＮ法は、好適な参照配列（例えば、参照ゲノムＤＮＡ、参照細胞ＲＮＡ（例えば、トランスクリプトーム）およびそれらの部分（例えば、ＤＮＡまたはＲＮＡトランスクリプトームのゲノム相補鎖の一部、染色体の一部））にマッピングされた配列リードに適用され得る。

したがって、ある特定の実施形態において、細胞性核酸（例えば、ＤＮＡまたはＲＮＡ）が、核酸の指標として役立ち得る。参照ゲノム部分にマッピングされた細胞性核酸リードは、ＰＥＲＵＮ法を用いて正規化され得る。特定のタンパク質に結合した細胞性核酸は、クロマチン免疫沈降（ＣｈＩＰ）プロセスについて言及されるときがある。ＣｈＩＰによって濃縮された核酸は、細胞性タンパク質と会合した核酸、例えば、ＤＮＡまたはＲＮＡである。ＣｈＩＰによって濃縮された核酸のリードは、当該分野で公知の技術を用いて得ることができる。ＣｈＩＰによって濃縮された核酸のリードは、１つまたはそれを超える参照ゲノムの部分にマッピングされ得、結果は、アウトカムを提供するためにＰＥＲＵＮ法を用いて正規化され得る。

ある特定の実施形態において、細胞ＲＮＡが、核酸の指標として役立ち得る。細胞ＲＮＡリードは、参照ＲＮＡ部分にマッピングされ得、アウトカムを提供するためにＰＥＲＵＮ法を用いて正規化され得る。トランスクリプトームと称される細胞ＲＮＡに対する既知配列またはそのセグメントは、サンプル由来のＲＮＡリードがマッピングされ得る参照として使用され得る。サンプルＲＮＡのリードは、当該分野で公知の技術を用いて得ることができる。参照にマッピングされたＲＮＡリードの結果は、アウトカムを提供するためにＰＥＲＵＮ法を用いて正規化され得る。

いくつかの実施形態において、マイクロアレイ核酸レベルが、核酸の指標として役立ち得る。アレイ上の特定のアドレス、すなわちハイブリダイズ核酸に対する、サンプルにわたる核酸レベルが、ＰＥＲＵＮ法を用いて解析され、それによって、マイクロアレイ解析によって提供される核酸の指標が正規化され得る。このように、マイクロアレイ上の特定のアドレスまたはハイブリダイズ核酸は、マッピングされた核酸配列リードに対する部分と類似しており、ＰＥＲＵＮ法は、改善されたアウトカムを提供するためにマイクロアレイデータを正規化するために使用され得る。
ＣｈＡＩ正規化

核酸の指標に関連する誤差を減少させるために使用され得る別の正規化法は、本明細書中でＣｈＡＩと称され、主成分分析を利用することが多い。ある特定の実施形態において、主成分分析は、（ａ）リード密度分布に従って参照ゲノムの部分をフィルタリングし、それによって、フィルタリングされた部分のリード密度を含む、テストサンプルに対するリード密度プロファイルを提供すること（ここで、そのリード密度は、妊婦由来のテストサンプルからの循環無細胞核酸の配列リードを含み、リード密度分布は、複数のサンプルに対する部分のリード密度について測定される）、（ｂ）そのテストサンプルに対するリード密度プロファイルを１つまたはそれを超える主成分に従って調整し、それによって、調整されたリード密度を含むテストサンプルプロファイルを提供すること（それらの主成分は、既知の正倍数性サンプルのセットからの主成分分析によって得られる）および（ｃ）テストサンプルプロファイルを参照プロファイルと比較することによって、比較結果を提供することを含む。いくつかの実施形態において、主成分分析は、（ｄ）その比較結果に従ってテストサンプルに対するコピー数変異の存在もしくは非存在を判定することを含む。ＣｈＡＩ正規化のある特定の態様は、例えば、２０１４年１０月２日に出願され、２０１５年４月９日にＷＯ２０１５／０５１１６３として公開された特許出願番号ＰＣＴ／ＵＳ２０１４／０５８８８５に記載されている。
部分のフィルタリング

ある特定の実施形態において、１つまたはそれを超える部分（例えば、ゲノムの部分）は、フィルタリングプロセスによって、考慮すべきものから除去される。ある特定の実施形態において、１つまたはそれを超える部分は、フィルタリングされる（例えば、フィルタリングプロセスに供される）ことによって、フィルタリングされた部分が提供される。いくつかの実施形態において、フィルタリングプロセスは、ある特定の部分を除去し、部分（例えば、部分のサブセット）を保持する。フィルタリングプロセスの後、保持された部分は、本明細書中で、フィルタリングされた部分と称されることが多い。いくつかの実施形態において、参照ゲノムの部分が、フィルタリングされる。いくつかの実施形態において、フィルタリングプロセスによって除去された参照ゲノムの部分は、コピー数変異の存在もしくは非存在（例えば、染色体異数性、微小重複、微小欠失）の判定に含められない。いくつかの実施形態において、リード密度に関連する部分（例えば、リード密度が、ある部分に対するものである場合）は、フィルタリングプロセスによって除去され、除去された部分に関連するリード密度は、コピー数変異の存在もしくは非存在（例えば、染色体異数性、微小重複、微小欠失）の判定に含められない。いくつかの実施形態において、リード密度プロファイルは、フィルタリングされた部分のリード密度を含み、および／またはフィルタリングされた部分のリード密度からなる。部分は、任意の好適な基準および／または当該分野で公知のもしくは本明細書中に記載される方法を用いて、選択され得、フィルタリングされ得、および／または考慮すべきものから除去され得る。部分をフィルタリングするために使用される基準の非限定的な例としては、冗長なデータ（例えば、冗長なまたはオーバーラップするマッピングされたリード）、情報のないデータ（例えば、マッピングされたカウントがゼロである参照ゲノムの部分）、過剰提示または過小提示された配列を含む参照ゲノムの部分、ＧＣ含有量、ノイズの多いデータ、マッピング精度、カウント、カウントのばらつき、リード密度、リード密度のばらつき、不確定性の尺度、反復性の尺度などまたは前述のものの組み合わせが挙げられる。部分は、カウントの分布および／またはリード密度の分布に従ってフィルタリングされるときがある。いくつかの実施形態において、部分は、カウントおよび／またはリード密度の分布に従ってフィルタリングされ、ここで、それらのカウントおよび／またはリード密度は、１つまたはそれを超える参照サンプルから得られる。１つまたはそれを超える参照サンプルは、本明細書中で訓練セットと称されるときがある。いくつかの実施形態において、部分は、カウントおよび／またはリード密度の分布に従ってフィルタリングされ、ここで、それらのカウントおよび／またはリード密度は、１つまたはそれを超えるテストサンプルから得られる。いくつかの実施形態において、部分は、リード密度分布に対する不確定性の尺度に従ってフィルタリングされる。ある特定の実施形態において、リード密度において大きな偏差を示す部分が、フィルタリングプロセスによって除去される。例えば、リード密度の分布（例えば、リード密度の平均の平均値または中央値の分布）が決定され得、ここで、その分布における各リード密度は、同じ部分にマップする。不確定性の尺度（例えば、ＭＡＤ）は、複数のサンプルに対するリード密度の分布を比較することによって決定され得、ここで、ゲノムの各部分は、不確定性の尺度に関連する。前述の例によると、部分は、各部分に関連する不確定性の尺度（例えば、標準偏差（ＳＤ）、ＭＡＤ）および所定のしきい値に従ってフィルタリングされ得る。所定のしきい値は、ある範囲の許容され得るＭＡＤ値を囲む破線の鉛直線によって指摘される。ある特定の場合において、許容され得る範囲内のＭＡＤ値を含む部分が保持され、許容され得る範囲外のＭＡＤ値を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、前述の例によると、所定の不確定性の尺度の外側のリード密度値（例えば、リード密度の中央値、平均または平均値）を含む部分は、フィルタリングプロセスによって考慮すべきものから除去されることが多い。いくつかの実施形態において、ある分布の四分位範囲の外側のリード密度値（例えば、リード密度の中央値、平均または平均値）を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、ある分布の四分位範囲の２倍、３倍、４倍または５倍超外側のリード密度値を含む部分が、フィルタリングプロセスによって考慮すべきものから除去される。いくつかの実施形態において、２シグマ、３シグマ、４シグマ、５シグマ、６シグマ、７シグマまたは８シグマ超外側のリード密度値を含む部分（例えば、シグマは標準偏差によって定義される範囲である）が、フィルタリングプロセスによって考慮すべきものから除去される。

いくつかの実施形態において、あるシステムは、フィルタリングモジュールを備える。フィルタリングモジュールは、別の好適なモジュールからのものであることが多い、部分（例えば、所定のサイズの部分および／または参照ゲノム内のオーバーラップする部分の位置）および部分に関連するリード密度を受け取る、検索する、および／または格納することが多い。いくつかの実施形態において、選択された部分（例えば、フィルタリングされた部分）は、フィルタリングモジュールによって提供される。いくつかの実施形態において、フィルタリングモジュールは、フィルタリングされた部分を提供するためおよび／または考慮すべきものから部分を除去するために、必要とされる。ある特定の実施形態において、フィルタリングモジュールは、考慮すべきものからリード密度を除去し、ここで、リード密度は、除去される部分に関連する。フィルタリングモジュールは、選択された部分（例えば、フィルタリングされた部分）を別の好適なモジュールに提供することが多い。
バイアス推定値

配列決定技術は、複数のバイアス供給源に対して脆弱である。配列決定バイアスは、局所バイアス（例えば、局所ゲノムバイアス）であるときがある。局所バイアスは、配列リードのレベルにおいて明らかにされることが多い。局所ゲノムバイアスは、任意の好適な局所バイアスであり得る。局所バイアスの非限定的な例としては、配列バイアス（例えば、ＧＣバイアス、ＡＴバイアスなど）、ＤＮａｓｅＩの感度と相関するバイアス、エントロピー、反復配列バイアス、クロマチン構造バイアス、ポリメラーゼエラー率バイアス、パリンドロームバイアス、逆方向反復バイアス、ＰＣＲ関連バイアスなどまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、局所バイアスの供給源は、明らかにされないか、または既知でない。

いくつかの実施形態において、局所ゲノムバイアス推定値が決定される。局所ゲノムバイアス推定値は、本明細書中で局所ゲノムバイアス推定と称されるときがある。局所ゲノムバイアス推定値は、参照ゲノム、そのセグメントまたは部分に対して決定され得る。いくつかの実施形態において、局所ゲノムバイアス推定値は、１つまたはそれを超える配列リード（例えば、サンプルのいくつかまたはすべての配列リード）に対して決定される。局所ゲノムバイアス推定値は、参照（例えば、参照ゲノム）の対応する場所および／または位置に対する局所ゲノムバイアス推定に従って配列リードに対して決定されることが多い。いくつかの実施形態において、局所ゲノムバイアス推定値は、配列（例えば、配列リード、参照ゲノムの配列）のバイアスの定量的尺度を含む。局所ゲノムバイアス推定は、好適な方法または数学的プロセスによって決定され得る。いくつかの実施形態において、局所ゲノムバイアス推定値は、好適な分布および／または好適な分布関数（例えば、ＰＤＦ）によって決定される。いくつかの実施形態において、局所ゲノムバイアス推定値は、ＰＤＦの定量的提示を含む。いくつかの実施形態において、局所ゲノムバイアス推定値（例えば、確率密度推定（ＰＤＥ）、カーネル密度推定）は、局所バイアス含有量の確率密度関数（例えば、ＰＤＦ、例えば、カーネル密度関数）によって決定される。いくつかの実施形態において、密度推定は、カーネル密度推定を含む。局所ゲノムバイアス推定値は、分布の平均、平均値または中央値として表現されるときがある。局所ゲノムバイアス推定値は、好適な分布の和または積分値（例えば、曲線下面積（ＡＵＣ）として表現されるときがある。

ＰＤＦ（例えば、カーネル密度関数、例えば、Ｅｐａｎｅｃｈｎｉｋｏｖカーネル密度関数）は、バンド幅変数（例えば、バンド幅）を含むことが多い。バンド幅変数は、ＰＤＦを使用するとき確率密度推定（ＰＤＥ）が導かれるウィンドウのサイズおよび／または長さのことを定義することが多い。ＰＤＥが導かれるウィンドウは、規定の長さのポリヌクレオチドを含むことが多い。いくつかの実施形態において、ＰＤＥが導かれるウィンドウは、部分である。部分（例えば、部分のサイズ、部分の長さ）は、バンド幅変数に従って決定されることが多い。バンド幅変数は、局所ゲノムバイアス推定値；局所ゲノムバイアス推定値が決定されるポリヌクレオチドセグメントの長さ（例えば、ヌクレオチド塩基の連続したセグメント）を決定するために使用されるウィンドウの長さまたはサイズを決定する。ＰＤＥ（例えば、リード密度、局所ゲノムバイアス推定値（例えば、ＧＣ密度））は、任意の好適なバンド幅を用いて決定され得、そのバンド幅の非限定的な例としては、約５塩基〜約１００，０００塩基、約５塩基〜約５０，０００塩基、約５塩基〜約２５，０００塩基、約５塩基〜約１０，０００塩基、約５塩基〜約５，０００塩基、約５塩基〜約２，５００塩基、約５塩基〜約１０００塩基、約５塩基〜約５００塩基、約５塩基〜約２５０塩基、約２０塩基〜約２５０塩基などのバンド幅が挙げられる。いくつかの実施形態において、局所ゲノムバイアス推定値（例えば、ＧＣ密度）は、約４００塩基もしくはそれ未満、約３５０塩基もしくはそれ未満、約３００塩基もしくはそれ未満、約２５０塩基もしくはそれ未満、約２２５塩基もしくはそれ未満、約２００塩基もしくはそれ未満、約１７５塩基もしくはそれ未満、約１５０塩基もしくはそれ未満、約１２５塩基もしくはそれ未満、約１００塩基もしくはそれ未満、約７５塩基もしくはそれ未満、約５０塩基もしくはそれ未満、または約２５塩基もしくはそれ未満のバンド幅を用いて決定される。ある特定の実施形態において、局所ゲノムバイアス推定値（例えば、ＧＣ密度）は、所与の被験体および／またはサンプルに対して得られる配列リードのリード長の平均、平均値、中央値または最大値に従って決定されたバンド幅を用いて決定される。局所ゲノムバイアス推定値（例えば、ＧＣ密度）は、所与の被験体および／またはサンプルに対して得られる配列リードのリード長の平均、平均値、中央値または最大値にほぼ等しいバンド幅を用いて決定されるときがある。いくつかの実施形態において、局所ゲノムバイアス推定値（例えば、ＧＣ密度）は、約２５０、２４０、２３０、２２０、２１０、２００、１９０、１８０、１６０、１５０、１４０、１３０、１２０、１１０、１００、９０、８０、７０、６０、５０、４０、３０、２０または約１０塩基のバンド幅を用いて決定される。

局所ゲノムバイアス推定値は、一塩基の分解能において決定され得るが、局所ゲノムバイアス推定値（例えば、局所ＧＣ含有量）は、それより低い分解能において決定され得る。いくつかの実施形態において、局所ゲノムバイアス推定値は、ある局所バイアス含有量に対して決定される。局所ゲノムバイアス推定値（例えば、ＰＤＦを用いて決定されるとき）は、あるウィンドウを用いて決定されることが多い。いくつかの実施形態において、局所ゲノムバイアス推定値は、予め選択された数の塩基を含むウィンドウの使用を含む。ウィンドウは、連続した塩基のセグメントを含むときがある。ウィンドウは、連続していない塩基の１つまたはそれを超える部分を含むときがある。ウィンドウは、１つまたはそれを超える部分（例えば、ゲノムの部分）を含むときがある。ウィンドウのサイズまたは長さは、バンド幅によって、かつＰＤＦに従って、決定されることが多い。いくつかの実施形態において、ウィンドウは、バンド幅の長さの約１０倍もしくはそれを超えるか、８倍もしくはそれを超えるか、７倍もしくはそれを超えるか、６倍もしくはそれを超えるか、５倍もしくはそれを超えるか、４倍もしくはそれを超えるか、３倍もしくはそれを超えるか、または約２倍もしくはそれを超える。ＰＤＦ（例えば、カーネル密度関数）を使用して密度推定値が決定されるとき、ウィンドウは、選択されたバンド幅の長さの２倍であるときがある。ウィンドウは、任意の好適な数の塩基を含み得る。いくつかの実施形態において、ウィンドウは、約５塩基〜約１００，０００塩基、約５塩基〜約５０，０００塩基、約５塩基〜約２５，０００塩基、約５塩基〜約１０，０００塩基、約５塩基〜約５，０００塩基、約５塩基〜約２，５００塩基、約５塩基〜約１０００塩基、約５塩基〜約５００塩基、約５塩基〜約２５０塩基または約２０塩基〜約２５０塩基を含む。いくつかの実施形態において、ゲノムまたはそのセグメントは、複数のウィンドウに分割される。ゲノムの領域を包含するウィンドウは、オーバーラップしてもよいし、しなくてもよい。いくつかの実施形態において、ウィンドウは、互いから等しい距離に位置される。いくつかの実施形態において、ウィンドウは、互いから異なる距離に位置される。ある特定の実施形態において、ゲノムまたはそのセグメントは、複数のスライディングウィンドウに分割され、ここで、あるウィンドウは、ゲノムまたはそのセグメントにわたって徐々に伸ばしてスライドされ、各刻み幅における各ウィンドウが、局所ゲノムバイアス推定値（例えば、局所ＧＣ密度）を含む。ウィンドウは、任意の数値パターンに従って、または任意の非主題的な規定の配列に従って、ゲノムにわたって任意の好適な刻み幅でスライドされ得る。いくつかの実施形態において、局所ゲノムバイアス推定値の決定に向けて、ウィンドウは、ゲノムまたはそのセグメントにわたって、約１０，０００ｂｐもしくはそれを超えるか、約５，０００ｂｐもしくはそれを超えるか、約２，５００ｂｐもしくはそれを超えるか、約１，０００ｂｐもしくはそれを超えるか、約７５０ｂｐもしくはそれを超えるか、約５００ｂｐもしくはそれを超えるか、約４００塩基もしくはそれを超えるか、約２５０ｂｐもしくはそれを超えるか、約１００ｂｐもしくはそれを超えるか、約５０ｂｐもしくはそれを超えるか、または約２５ｂｐもしくはそれを超える塩基刻みでスライドされる。いくつかの実施形態において、局所ゲノムバイアス推定値の決定に向けて、ウィンドウは、ゲノムまたはそのセグメントにわたって、約２５、２４、２３、２２、２１、２０、１９、１８、１７、１６、１５、１４、１３、１２、１１、１０、９、８、７、６、５、４、３、２または約１ｂｐ刻みでスライドされる。例えば、局所ゲノムバイアス推定値の決定に向けて、ウィンドウは、約４００ｂｐ（例えば、２００ｂｐのバンド幅）を含み得、ゲノムにわたって１ｂｐ刻みでスライドされ得る。いくつかの実施形態において、局所ゲノムバイアス推定値は、カーネル密度関数および約２００ｂｐのバンド幅を用いて、ゲノムまたはそのセグメントにおける各塩基に対して決定される。

いくつかの実施形態において、局所ゲノムバイアス推定値は、局所ＧＣ含有量および／または局所ＧＣ含有量の提示である。用語「局所」は、本明細書中で使用されるとき（例えば、局所バイアス、局所バイアス推定値、局所バイアス含有量、局所ゲノムバイアス、局所ＧＣ含有量などを記載するために使用されるとき）、１０，０００ｂｐまたはそれ未満のポリヌクレオチドセグメントのことを指す。いくつかの実施形態において、用語「局所」とは、５０００ｂｐもしくはそれ未満、４０００ｂｐもしくはそれ未満、３０００ｂｐもしくはそれ未満、２０００ｂｐもしくはそれ未満、１０００ｂｐもしくはそれ未満、５００ｂｐもしくはそれ未満、２５０ｂｐもしくはそれ未満、２００ｂｐもしくはそれ未満、１７５ｂｐもしくはそれ未満、１５０ｂｐもしくはそれ未満、１００ｂｐもしくはそれ未満、７５ｂｐもしくはそれ未満、または５０ｂｐもしくはそれ未満のポリヌクレオチドセグメントのことを指す。局所ＧＣ含有量は、ゲノム、配列リード、配列リードアセンブリ（例えば、コンティグ、プロファイルなど）の局所セグメントに対するＧＣ含有量の提示（例えば、数学的、定量的提示）であることが多い。例えば、局所ＧＣ含有量は、局所ＧＣバイアス推定値またはＧＣ密度であり得る。

１つまたはそれを超えるＧＣ密度は、参照またはサンプル（例えば、テストサンプル）のポリヌクレオチドに対して決定されることが多い。いくつかの実施形態において、ＧＣ密度は、局所ＧＣ含有量（例えば、５０００ｂｐまたはそれ未満のポリヌクレオチドセグメントに対する）の提示（例えば、数学的、定量的提示）である。いくつかの実施形態において、ＧＣ密度は、局所ゲノムバイアス推定値である。ＧＣ密度は、本明細書中に記載されるおよび／または当該分野で公知の好適なプロセスを用いて決定され得る。ＧＣ密度は、好適なＰＤＦ（例えば、カーネル密度関数（例えば、Ｅｐａｎｅｃｈｎｉｋｏｖカーネル密度関数）を用いて決定され得る。いくつかの実施形態において、ＧＣ密度は、ＰＤＥ（例えば、カーネル密度推定）である。ある特定の実施形態において、ＧＣ密度は、１つまたはそれを超えるグアニン（Ｇ）および／またはシトシン（Ｃ）ヌクレオチドの存在もしくは非存在によって定義される。逆に、いくつかの実施形態において、ＧＣ密度は、１つまたはそれを超えるアデニン（Ａ）および／またはチミジン（Ｔ）ヌクレオチドの存在もしくは非存在によって定義され得る。局所ＧＣ含有量に対するＧＣ密度は、いくつかの実施形態において、ゲノム全体またはそのセグメント（例えば、常染色体、染色体のセット、単一の染色体、遺伝子）に対して決定されたＧＣ密度に従って正規化される。１つまたはそれを超えるＧＣ密度は、サンプル（例えば、テストサンプル）または参照サンプルのポリヌクレオチドに対して決定され得る。ＧＣ密度は、参照ゲノムに対して決定されることが多い。いくつかの実施形態において、ＧＣ密度は、参照ゲノムに従って配列リードに対して決定される。リードのＧＣ密度は、リードがマッピングされる参照ゲノムの対応する場所および／または位置に対して決定されたＧＣ密度に従って決定されることが多い。いくつかの実施形態において、参照ゲノム上の場所に対して決定されたＧＣ密度は、あるリードに対して割り当てられ、および／または提供され、ここで、そのリードまたはそのセグメントは、その参照ゲノム上の同じ場所にマップする。任意の好適な方法を用いることにより、リードに対するＧＣ密度を生成する目的で、マッピングされたリードの参照ゲノム上の場所を決定することができる。いくつかの実施形態において、マッピングされたリードの中央の位置（ｍｅｄｉａｎｐｏｓｉｔｉｏｎ）は、そのリードに対するＧＣ密度が決定された参照ゲノム上の場所を決定する。例えば、あるリードの中央の位置が、１２番染色体の、参照ゲノムの塩基番号ｘにマップする場合、そのリードのＧＣ密度は、１２番染色体の、参照ゲノムの塩基番号ｘまたは塩基番号ｘ付近に位置づけられる位置に対してカーネル密度推定によって決定されたＧＣ密度として提供されることが多い。いくつかの実施形態において、ＧＣ密度は、参照ゲノムに従って、リードのいくつかまたはすべての塩基位置に対して決定される。あるリードのＧＣ密度は、参照ゲノム上の複数の塩基位置に対して決定された２つまたはそれを超えるＧＣ密度の平均、和、中央値または積分値を含むときがある。

いくつかの実施形態において、局所ゲノムバイアス推定（例えば、ＧＣ密度）は、定量され、および／またはある値として提供される。局所ゲノムバイアス推定（例えば、ＧＣ密度）は、平均、平均値および／または中央値として表現されるときがある。局所ゲノムバイアス推定（例えば、ＧＣ密度）は、ＰＤＥの最大ピーク高さとして表現されるときがある。局所ゲノムバイアス推定（例えば、ＧＣ密度）は、好適なＰＤＥの和または積分値（例えば、曲線下面積（ＡＵＣ））として表現されるときがある。いくつかの実施形態において、ＧＣ密度は、カーネル重みを含む。ある特定の実施形態において、あるリードに対するＧＣ密度は、カーネル重みの平均、平均値、和、中央値、最大ピーク高さまたは積分値にほぼ等しい値を含む。
バイアス頻度

バイアス頻度は、１つまたはそれを超える局所ゲノムバイアス推定値（例えば、ＧＣ密度）に従って決定されるときがある。バイアス頻度は、サンプル、参照（例えば、参照ゲノム、参照配列）またはその一部に対する局所ゲノムバイアス推定値の出現数のカウントまたは和であるときがある。バイアス頻度は、サンプル、参照またはその一部に対する局所ゲノムバイアス推定値（例えば、各局所ゲノムバイアス推定値）の出現数のカウントまたは和であるときがある。いくつかの実施形態において、バイアス頻度は、ＧＣ密度の頻度である。ＧＣ密度の頻度は、１つまたはそれを超えるＧＣ密度に従って決定されることが多い。例えば、ＧＣ密度の頻度は、値ｘのＧＣ密度がゲノム全体またはそのセグメントにわたって提示される回数の数に相当し得る。バイアス頻度は、局所ゲノムバイアス推定値の分布であることが多く、ここで、各局所ゲノムバイアス推定値の出現数は、バイアス頻度として表される。バイアス頻度は、数学的に操作されるおよび／または正規化されるときがある。バイアス頻度は、好適な方法によって数学的に操作され得るおよび／または正規化され得る。いくつかの実施形態において、バイアス頻度は、サンプル、参照またはその一部（例えば、常染色体、染色体のサブセット、単一の染色体またはそのリード）に対する各局所ゲノムバイアス推定値の提示（例えば、割合、パーセンテージ）に従って正規化される。バイアス頻度は、サンプルまたは参照のいくつかまたはすべての局所ゲノムバイアス推定値に対して決定され得る。いくつかの実施形態において、バイアス頻度は、テストサンプルのいくつかまたはすべての配列リードに対する局所ゲノムバイアス推定値に対して決定され得る。

いくつかの実施形態において、あるシステムは、バイアス密度モジュール６を備える。バイアス密度モジュールは、マッピングされた配列リード５および参照配列２を任意の好適な形式で受け取り得、検索し得、および／または格納し得、局所ゲノムバイアス推定値、局所ゲノムバイアス分布、バイアス頻度、ＧＣ密度、ＧＣ密度分布および／またはＧＣ密度頻度（集合的に、ボックス７によって表される）を生成し得る。いくつかの実施形態において、バイアス密度モジュールは、データおよび／または情報（例えば、７）を別の好適なモジュール（例えば、関係モジュール８）に移す。
バイアスの関係

いくつかの実施形態において、１つまたはそれを超える関係が、局所ゲノムバイアス推定値とバイアス頻度との間に生成される。用語「関係」は、本明細書中で使用されるとき、２つまたはそれを超える変数または値の間の数学的および／またはグラフ的な関係のことを指す。ある関係は、好適な数学的プロセスおよび／またはグラフ的プロセスによって生成され得る。関係の非限定的な例としては、関数、相関、分布、線形方程式または非線形方程式、線、回帰、適合回帰（ｆｉｔｔｅｄｒｅｇｒｅｓｓｉｏｎ）などまたはそれらの組み合わせの数学的表示および／またはグラフ表示が挙げられる。関係は、当てはめ関係を含むときがある。いくつかの実施形態において、当てはめ関係は、適合回帰を含む。関係は、重み付けされた２つまたはそれを超える変数または値を含むときがある。いくつかの実施形態において、ある関係は、その関係の１つまたはそれを超える変数または値が重み付けされた適合回帰を含む。回帰は、重み付けされる形式で当てはめられるときがある。回帰は、重み付けなしで当てはめられるときがある。ある特定の実施形態において、関係を生成することは、プロットすることまたはグラフで示すことを含む。

いくつかの実施形態において、好適な関係が、局所ゲノムバイアス推定値とバイアス頻度との間において決定される。いくつかの実施形態において、サンプルに対する（ｉ）局所ゲノムバイアス推定値と（ｉｉ）バイアス頻度との間の関係を生成することにより、サンプルバイアス関係が提供される。いくつかの実施形態において、参照に対する（ｉ）局所ゲノムバイアス推定値と（ｉｉ）バイアス頻度との間に関係を生成することにより、参照バイアス関係が提供される。ある特定の実施形態において、ＧＣ密度とＧＣ密度頻度との間に関係が生成される。いくつかの実施形態において、サンプルに対する（ｉ）ＧＣ密度と（ｉｉ）ＧＣ密度頻度との間に関係を生成することにより、サンプルＧＣ密度関係が提供される。いくつかの実施形態において、参照に対する（ｉ）ＧＣ密度と（ｉｉ）ＧＣ密度頻度との間の関係を生成することにより、参照ＧＣ密度関係が提供される。いくつかの実施形態において、局所ゲノムバイアス推定値がＧＣ密度である場合、サンプルバイアス関係は、サンプルＧＣ密度関係であり、参照バイアス関係は、参照ＧＣ密度関係である。参照ＧＣ密度関係および／またはサンプルＧＣ密度関係のＧＣ密度は、局所ＧＣ含有量の提示（例えば、数学的提示または定量的提示）であることが多い。いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、分布を含む。いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、当てはめ関係（例えば、適合回帰）を含む。いくつかの実施形態において、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、適合された線形または非線形回帰（例えば、多項式回帰）を含む。ある特定の実施形態において、局所ゲノムバイアス推定値および／またはバイアス頻度が好適なプロセスによって重み付けされる場合、局所ゲノムバイアス推定値とバイアス頻度との間の関係は、重み付けされた関係を含む。いくつかの実施形態において、重み付けされた当てはめ関係（例えば、重み付けされた当てはめ）は、内挿を用いた、分位点回帰、パラメータ化された分布または経験的な分布を含むプロセスによって得ることができる。ある特定の実施形態において、局所ゲノムバイアス推定値が重み付けされる場合、テストサンプル、参照またはその一部に対する局所ゲノムバイアス推定値とバイアス頻度との間の関係は、多項式回帰を含む。いくつかの実施形態において、重み付けされた当てはめモデルは、分布の値の重み付けを含む。分布の値は、好適なプロセスによって重み付けされ得る。いくつかの実施形態において、分布の裾の近くに位置する値には、分布の中央値により近い値よりも小さい重みが提供される。例えば、局所ゲノムバイアス推定値（例えば、ＧＣ密度）とバイアス頻度（例えば、ＧＣ密度頻度）との間の分布の場合、所与の局所ゲノムバイアス推定値に対するバイアス頻度に従って重みが決定され、ここで、分布の平均値により近いバイアス頻度を含む局所ゲノムバイアス推定値には、その平均値からより遠くのバイアス頻度を含む局所ゲノムバイアス推定値よりも大きい重みが提供される。

いくつかの実施形態において、あるシステムは、関係モジュール８を備える。関係モジュールは、関係、ならびに関係を定義する関数、係数、定数および変数を生成し得る。関係モジュールは、データおよび／または情報（例えば、７）を好適なモジュール（例えば、バイアス密度モジュール６）から受け取り得、格納し得、および／または検索し得、関係を生成し得る。関係モジュールは、局所ゲノムバイアス推定値の分布を生成し、比較することが多い。関係モジュールは、データセットを比較することができ、回帰および／または当てはめ関係を生成するときがある。いくつかの実施形態において、関係モジュールは、１つまたはそれを超える分布（例えば、サンプルおよび／または参照の局所ゲノムバイアス推定値の分布）を比較し、配列リードのカウントに対する重み付け因子および／または重み付け割当９を別の好適なモジュール（例えば、バイアス補正モジュール）に提供する。関係モジュールは、配列リードの正規化されたカウントを、それらのカウントが関係および／または比較に従って正規化される分布モジュール２１に直接提供するときがある。
比較結果の生成およびその使用

いくつかの実施形態において、配列リードにおける局所バイアスを減少させるためのプロセスは、配列リードのカウントを正規化することを含む。配列リードのカウントは、テストサンプルと参照との比較結果に従って正規化されることが多い。例えば、配列リードのカウントは、テストサンプルの配列リードの局所ゲノムバイアス推定値を、参照（例えば、参照ゲノムまたはその一部）の局所ゲノムバイアス推定値と比較することによって正規化されるときがある。いくつかの実施形態において、配列リードのカウントは、テストサンプルの局所ゲノムバイアス推定値のバイアス頻度を、参照の局所ゲノムバイアス推定値のバイアス頻度と比較することによって正規化される。いくつかの実施形態において、配列リードのカウントは、サンプルバイアス関係と参照バイアス関係とを比較することによって正規化され、それによって、比較結果が生成される。

配列リードのカウントは、２つまたはそれを超える関係の比較結果に従って正規化されることが多い。ある特定の実施形態において、２つまたはそれを超える関係が比較され、それによって、配列リードにおける局所バイアスを減少させる（例えば、カウントを正規化する）ために使用される比較結果が提供される。２つまたはそれを超える関係は、好適な方法によって比較され得る。いくつかの実施形態において、比較結果は、第１の関係と第２の関係との加算、減算、乗算および／または除算を含む。ある特定の実施形態において、２つまたはそれを超える関係の比較は、好適な線形回帰および／または非線形回帰の使用を含む。ある特定の実施形態において、２つまたはそれを超える関係の比較は、好適な多項式回帰（例えば、３次多項式回帰）を含む。いくつかの実施形態において、比較結果は、第１の回帰と第２の回帰との加算、減算、乗算および／または除算を含む。いくつかの実施形態において、２つまたはそれを超える関係は、複数の回帰の推論フレームワークを含むプロセスによって比較される。いくつかの実施形態において、２つまたはそれを超える関係は、好適な多変量解析を含むプロセスによって比較される。いくつかの実施形態において、２つまたはそれを超える関係は、基底関数（例えば、ブレンディング関数、例えば、多項式基底、フーリエ基底など）、スプライン、放射基底関数および／またはウェーブレットを含むプロセスによって比較される。

ある特定の実施形態において、テストサンプルおよび参照に対するバイアス頻度を含む局所ゲノムバイアス推定値の分布は、局所ゲノムバイアス推定値が重み付けされる多項式回帰を含むプロセスによって比較される。いくつかの実施形態において、多項式回帰は、（ｉ）比率（この比率の各々は、参照の局所ゲノムバイアス推定値のバイアス頻度およびサンプルの局所ゲノムバイアス推定値のバイアス頻度を含む）と（ｉｉ）局所ゲノムバイアス推定値との間において生成される。いくつかの実施形態において、多項式回帰は、（ｉ）参照の局所ゲノムバイアス推定値のバイアス頻度と、サンプルの局所ゲノムバイアス推定値のバイアス頻度との比率と、（ｉｉ）局所ゲノムバイアス推定値との間において生成される。いくつかの実施形態において、テストサンプルおよび参照のリードに対する局所ゲノムバイアス推定値の分布の比較は、参照およびサンプルに対する局所ゲノムバイアス推定値のバイアス頻度のｌｏｇ比率（例えば、ｌｏｇ２比率）を測定することを含む。いくつかの実施形態において、局所ゲノムバイアス推定値の分布の比較は、参照に対する局所ゲノムバイアス推定値のバイアス頻度のｌｏｇ比率（例えば、ｌｏｇ２比率）を、サンプルに対する局所ゲノムバイアス推定値のバイアス頻度のｌｏｇ比率（例えば、ｌｏｇ２比率）で除算することを含む。

比較結果に従ってカウントを正規化することは、代表的には、いくつかのカウントを調整し、他のものを調整しない。カウントの正規化は、すべてのカウントを調整するときがあり、配列リードのいかなるカウントも調整しないときがある。配列リードに対するカウントは、重み付け因子を決定することを含むプロセスによって正規化されるときがあり、そのプロセスは、重み付け因子を直接生成し、使用することを含まないときがある。比較結果に従ってカウントを正規化することは、配列リードの各カウントに対して重み付け因子を決定することを含むときがある。重み付け因子は、配列リードに特異的であることが多く、特異的な配列リードのカウントに適用される。重み付け因子は、２つまたはそれを超えるバイアス関係の比較結果（例えば、参照バイアス関係と比較されるサンプルバイアス関係）に従って決定されることが多い。正規化されたカウントは、重み付け因子に従ってカウント値を調整することによって決定されることが多い。重み付け因子に従ってカウントを調整することは、配列リードに対するカウントを加算すること、減算すること、乗算すること、および／または配列リードに対するカウントを重み付け因子で除算することを含むときがある。重み付け因子および／または正規化されたカウントは、回帰（例えば、回帰直線）から決定されるときがある。正規化されたカウントは、参照（例えば、参照ゲノム）の局所ゲノムバイアス推定値のバイアス頻度とテストサンプルの局所ゲノムバイアス推定値のバイアス頻度との比較結果から生じる回帰直線（例えば、当てはめられた回帰直線）から直接得られるときがある。いくつかの実施形態において、サンプルのリードの各カウントには、（ｉｉ）参照の局所ゲノムバイアス推定値のバイアス頻度と比較された、（ｉ）リードの局所ゲノムバイアス推定値のバイアス頻度の比較結果に従って、正規化されたカウント値が提供される。ある特定の実施形態において、サンプルに対して得られた配列リードのカウントが正規化され、それらの配列リードにおけるバイアスが減少する。

あるシステムは、バイアス補正モジュール１０を備えるときがある。いくつかの実施形態において、バイアス補正モジュールの機能は、関係モデリングモジュール８によって行われる。バイアス補正モジュールは、マッピングされた配列リードおよび重み付け因子（例えば、９）を、好適なモジュール（例えば、関係モジュール８、圧縮モジュール４）から受け取り得、検索し得、および／または格納し得る。いくつかの実施形態において、バイアス補正モジュールは、マッピングされたリードにカウントを提供する。いくつかの実施形態において、バイアス補正モジュールは、重み付け割当および／またはバイアス補正因子を配列リードのカウントに適用し、それにより、正規化されたおよび／または調整されたカウントが提供される。バイアス補正モジュールは、正規化されたカウントを別の好適なモジュール（例えば、分布モジュール２１）に提供することが多い。

ある特定の実施形態において、カウントの正規化は、ＧＣ密度に加えて１つまたはそれを超える特徴を考慮すること（ｆａｃｔｏｒｉｎｇ）、および配列リードのカウントを正規化することを含む。ある特定の実施形態において、カウントの正規化は、１つまたはそれを超える異なる局所ゲノムバイアス推定値を考慮すること、および配列リードのカウントを正規化することを含む。ある特定の実施形態において、配列リードのカウントは、１つまたはそれを超える特徴（例えば、１つまたはそれを超えるバイアス）に従って決定された重み付けに従って重み付けされる。いくつかの実施形態において、カウントは、１つまたはそれを超える組み合された重みに従って正規化される。１つまたはそれを超える組み合された重みに従って、１つまたはそれを超える特徴を考慮することおよび／またはカウントを正規化することは、多変量モデルの使用を含むプロセスによって行われるときがある。任意の好適な多変量モデルを使用することにより、カウントを正規化することができる。多変量モデルの非限定的な例としては、多変量線形回帰、多変量分位点回帰、経験的データの多変量補間、非線形多変量モデルなどまたはそれらの組み合わせが挙げられる。

いくつかの実施形態において、あるシステムは、多変量補正モジュール１３を備える。多変量補正モジュールは、バイアス密度モジュール６、関係モジュール８および／またはバイアス補正モジュール１０の機能を複数回行い、それにより、複数のバイアスに対してカウントが調整され得る。いくつかの実施形態において、多変量補正モジュールは、１つまたはそれを超えるバイアス密度モジュール６、関係モジュール８および／またはバイアス補正モジュール１０を含む。多変量補正モジュールは、正規化されたカウント１１を別の好適なモジュール（例えば、分布モジュール２１）に提供するときがある。
部分の重み付け

いくつかの実施形態において、部分は、重み付けされる。いくつかの実施形態において、１つまたはそれを超える部分が重み付けされ、それにより、重み付けされた部分が提供される。部分の重み付けによって、部分依存性が排除されるときがある。部分は、好適なプロセスによって重み付けされ得る。いくつかの実施形態において、１つまたはそれを超える部分は、固有の関数（例えば、固有関数）によって重み付けされる。いくつかの実施形態において、ある固有の関数は、部分を直交固有部分で置き換えることを含む。いくつかの実施形態において、あるシステムは、部分重み付けモジュール４２を備える。いくつかの実施形態において、重み付けモジュールは、リード密度、リード密度プロファイルおよび／または調整されたリード密度プロファイルを受け取る、検索する、および／または格納する。いくつかの実施形態において、重み付けされた部分は、部分重み付けモジュールによって提供される。いくつかの実施形態において、重み付けモジュールは、部分を重みづけするために必要とされる。重み付けモジュールは、当該分野で公知のまたは本明細書中に記載される１つまたはそれを超える重み付け方法によって部分を重み付けし得る。重み付けモジュールは、重み付けされた部分を別の好適なモジュール（例えば、スコアリングモジュール４６、ＰＣＡ統計モジュール３３、プロファイル生成モジュール２６など）に提供することが多い。
主成分分析

いくつかの実施形態において、リード密度プロファイル（例えば、テストサンプルのリード密度プロファイル）は、主成分分析（ＰＣＡ）に従って調整される。１つまたはそれを超える参照サンプルのリード密度プロファイルおよび／または試験被験体のリード密度プロファイルは、ＰＣＡに従って調整され得る。ＰＣＡ関連プロセスによってリード密度プロファイルからバイアスを除去することは、本明細書中で、プロファイルの調整と称されるときがある。ＰＣＡは、好適なＰＣＡ方法またはその変法によって行われ得る。ＰＣＡ方法の非限定的な例としては、正準相関分析（ＣＣＡ）、Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ変換（ＫＬＴ）、Ｈｏｔｅｌｌｉｎｇ変換、固有直交分解（ＰＯＤ）、Ｘの特異値分解（ＳＶＤ）、ＸＴＸの固有値分解（ＥＶＤ）、因子分析、Ｅｃｋａｒｔ−Ｙｏｕｎｇ定理、Ｓｃｈｍｉｄｔ−Ｍｉｒｓｋｙ定理、経験的直交関数（ＥＯＦ）、経験固有関数分解、経験的成分分析、準調和モード、スペクトル分解、経験的モーダル解析など、それらの変法または組み合わせが挙げられる。ＰＣＡは、リード密度プロファイルにおける１つまたはそれを超えるバイアスを特定することが多い。ＰＣＡによって特定されたバイアスは、本明細書中で主成分と称されるときがある。いくつかの実施形態において、１つまたはそれを超えるバイアスは、好適な方法を用いて１つまたはそれを超える主成分に従ってリード密度プロファイルを調整することによって除去され得る。リード密度プロファイルは、１つまたはそれを超える主成分を加算すること、１つまたはそれを超える主成分をリード密度プロファイルから減算すること、１つまたはそれを超える主成分を乗算すること、および／または１つまたはそれを超える主成分をリード密度プロファイルで除算することによって、調整され得る。いくつかの実施形態において、１つまたはそれを超えるバイアスは、１つまたはそれを超える主成分をリード密度プロファイルから減算することによって、リード密度プロファイルから除去され得る。リード密度プロファイルにおけるバイアスは、プロファイルのＰＣＡによって特定および／または定量されることが多いが、主成分は、リード密度のレベルにおいてプロファイルから減算されることが多い。ＰＣＡは、１つまたはそれを超える主成分を特定することが多い。いくつかの実施形態において、ＰＣＡは、第１、第２、第３、第４、第５、第６、第７、第８、第９および第１０またはそれを超える主成分を特定する。ある特定の実施形態において、１、２、３、４、５、６、７、８、９、１０個もしくはそれを超える主成分が、プロファイルを調整するために使用される。主成分は、ＰＣＡにおけるそれらの（ｔｈｅｒｅ）出現順にプロファイルを調整するために使用されることが多い。例えば、３つの主成分が、リード密度プロファイルから減算される場合、第１、第２および第３主成分が使用される。主成分によって特定されたバイアスは、プロファイルを調整するために使用されないプロファイルの特徴を含むときがある。例えば、ＰＣＡは、主成分としてコピー数変異（例えば、異数性、微小重複、微小欠失、欠失、転座、挿入）および／または性差を特定し得る。したがって、いくつかの実施形態において、１つまたはそれを超える主成分は、プロファイルを調整するために使用されない。例えば、第３主成分がプロファイルを調整するために使用されない場合、プロファイルを調整するために、第１、第２および第４主成分が使用されるときがある。主成分は、任意の好適なサンプルまたは参照を用いるＰＣＡから得ることができる。いくつかの実施形態において、主成分は、テストサンプル（例えば、試験被験体）から得られる。いくつかの実施形態において、主成分は、１つまたはそれを超える参照（例えば、参照サンプル、参照配列、参照セット）から得られる。ある特定の場合において、ＰＣＡは、複数のサンプルを含む訓練セットから得られるリード密度プロファイルの中央値に対して行われ、第１主成分および第２主成分が特定される。いくつかの実施形態において、主成分は、対象のコピー数変異を欠くと知られている被験体のセットから得られる。いくつかの実施形態において、主成分は、既知の正倍数体セットから得られる。主成分は、参照（例えば、訓練セット）の１つまたはそれを超えるリード密度プロファイルを用いて行われるＰＣＡに従って特定されることが多い。参照から得られた１つまたはそれを超える主成分は、試験被験体のリード密度プロファイルから減算され、それにより、調整されたプロファイルが提供されることが多い。

いくつかの実施形態において、あるシステムは、ＰＣＡ統計モジュール３３を備える。ＰＣＡ統計モジュールは、別の好適なモジュール（例えば、プロファイル生成モジュール２６）からリード密度プロファイルを受け取り得、および／または検索し得る。ＰＣＡは、ＰＣＡ統計モジュールによって行われることが多い。ＰＣＡ統計モジュールは、参照セット３２、訓練セット３０および／または１つもしくはそれを超える試験被験体２８から、リード密度プロファイルを受け取り、検索し、および／または格納し、リード密度プロファイルを処理することが多い。ＰＣＡ統計モジュールは、主成分を生成および／もしくは提供し得、ならびに／または１つもしくはそれを超える主成分に従ってリード密度プロファイルを調整し得る。調整されたリード密度プロファイル（例えば、４０、３８）は、ＰＣＡ統計モジュールによって提供されることが多い。ＰＣＡ統計モジュールは、調整されたリード密度プロファイル（例えば、３８、４０）を別の好適なモジュール（例えば、部分重み付けモジュール４２、スコアリングモジュール４６）に提供し得るおよび／または移し得る。いくつかの実施形態において、ＰＣＡ統計モジュールは、性別コール（ｇｅｎｄｅｒｃａｌｌ）３６を提供し得る。性別コールは、ＰＣＡおよび／または１つもしくはそれを超える主成分に従って判定される胎児の性別の判定であるときがある。いくつかの実施形態において、ＰＣＡ統計モジュールは、下記に示されるＲコードのいくつか、すべてまたは修正したものを備える。主成分を計算するためのＲコードは、一般に、データのクリーニング（例えば、中央値の減算、部分のフィルタリングおよび極値のトリミング）から始まる：
次いで、主成分が計算される：
最後に、ＰＣＡによって調整された各サンプルのプロファイルが、以下を用いて計算され得る：
プロファイルの比較

いくつかの実施形態において、アウトカムの判定は、比較を含む。ある特定の実施形態において、リード密度プロファイルまたはその一部が、アウトカムを提供するために使用される。いくつかの実施形態において、アウトカムの判定（例えば、コピー数変異の存在もしくは非存在の判定）は、２つまたはそれを超えるリード密度プロファイルの比較を含む。リード密度プロファイルの比較は、ゲノムの選択されたセグメントに対して生成されたリード密度プロファイルの比較を含むことが多い。例えば、試験プロファイルおよび参照プロファイルが、実質的に同じセグメントであるゲノム（例えば、参照ゲノム）のセグメントに対して判定される場合、その試験プロファイルは、参照プロファイルと比較されることが多い。リード密度プロファイルの比較は、リード密度プロファイルの部分の２つまたはそれを超えるサブセットの比較を含むときがある。リード密度プロファイルの部分のサブセットは、ゲノムのセグメント（例えば、染色体またはそのセグメント）に相当し得る。リード密度プロファイルは、任意の量の部分のサブセットを含み得る。リード密度プロファイルは、２つもしくはそれを超えるか、３つもしくはそれを超えるか、４つもしくはそれを超えるかまたは５つもしくはそれを超えるサブセットを含むときがある。ある特定の実施形態において、各部分が、隣接する参照ゲノムのセグメントである場合、リード密度プロファイルは、部分の２つのサブセットを含む。いくつかの実施形態において、試験プロファイルと参照プロファイルの両方が、部分の第１のサブセットおよび部分の第２のサブセットを含み、その第１および第２のサブセットが、ゲノムの異なるセグメントである場合、試験プロファイルは、参照プロファイルと比較され得る。リード密度プロファイルの部分のいくつかのサブセットは、コピー数変異を含むこともあるし、部分の他のサブセットは、コピー数変異を実質的に含まないときもある。プロファイル（例えば、試験プロファイル）の部分のすべてのサブセットが、コピー数変異を実質的に含まないときがある。プロファイル（例えば、試験プロファイル）の部分のすべてのサブセットが、コピー数変異を含むときがある。いくつかの実施形態において、試験プロファイルは、遺伝的変異を含む部分の第１のサブセットおよびコピー数変異を実質的に含まない部分の第２のサブセットを含み得る。

いくつかの実施形態において、本明細書中に記載される方法は、比較（例えば、試験プロファイルと参照プロファイルとの比較）を行う工程を含む。２つもしくはそれを超えるデータセット、２つもしくはそれを超える関係および／または２つもしくはそれを超えるプロファイルが、好適な方法によって比較され得る。データセット、関係および／またはプロファイルの比較に適した統計学的方法の非限定的な例としては、Ｂｅｈｒｅｎｓ−Ｆｉｓｈｅｒアプローチ、ブートストラッピング、独立した有意性検定を組み合わせるためのフィッシャーの方法、Ｎｅｙｍａｎ−Ｐｅａｒｓｏｎ検定、検証的データ解析、探索的データ解析、正確検定、Ｆ検定、Ｚ検定、Ｔ検定、不確定性の尺度の算出および／もしくは比較、帰無仮説、対立帰無仮説など、カイ二乗検定、総括的検定、有意水準（例えば、統計的有意水準）の算出および／もしくは比較、メタ解析、多変量解析、回帰、線形単回帰、ロバスト線形回帰など、または前述のものの組み合わせが挙げられる。ある特定の実施形態において、２つまたはそれを超えるデータセット、関係および／またはプロファイルの比較は、不確定性の尺度の測定および／または比較を含む。「不確定性の尺度」は、本明細書中で使用されるとき、有意性（例えば、統計的有意性）の尺度、誤差の尺度、分散の尺度、信頼の尺度などまたはそれらの組み合わせのことを指す。不確定性の尺度は、値（例えば、しきい値）またはある範囲の値（例えば、区間、信頼区間、ベイズ信頼区間、しきい値の範囲）であり得る。不確定性の尺度の非限定的な例としては、ｐ値、好適な偏差の尺度（例えば、標準偏差、シグマ、絶対偏差、平均絶対偏差など）、好適な誤差（例えば、標準誤差、平均平方誤差、平方根平均二乗誤差など）の尺度、好適な分散の尺度、好適な標準得点（例えば、標準偏差、累積パーセンテージ、パーセンタイル等価物、Ｚ得点、Ｔ得点、Ｒ得点、スタンダードナイン（スタナイン）、スタナインにおけるパーセントなど）などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、有意水準の決定は、不確定性の尺度（例えば、ｐ値）の決定を含む。ある特定の実施形態において、２つまたはそれを超えるデータセット、関係および／またはプロファイルは、複数の（例えば、２つまたはそれを超える）統計学的方法（例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、Ｋ最近隣法、ロジスティック回帰および／またはｌｏｓｓ平滑化）ならびに／または任意の好適な数学的操作および／もしくは統計的操作（例えば、本明細書中で操作と称される）を使用することによって解析および／または比較され得る。

ある特定の実施形態において、２つまたはそれを超えるリード密度プロファイルの比較は、２つまたはそれを超えるリード密度プロファイルに対する不確定性の尺度の決定および／または比較を含む。リード密度プロファイルおよび／または関連する不確定性の尺度は、データセットの数学的操作および／もしくは統計的操作の解釈を容易にするため、ならびに／またはアウトカムを提供するために、比較されるときがある。試験被験体に対して生成されたリード密度プロファイルは、１つまたはそれを超える参照（例えば、参照サンプル、参照被験体など）に対して生成されたリード密度プロファイルと比較されるときがある。いくつかの実施形態において、参照リード密度プロファイルが、コピー数変異を有しないと知られている参照被験体（例えば、参照）のセットから得られる場合、アウトカムは、染色体、その部分またはセグメントについて、試験被験体からのリード密度プロファイルを参照からのリード密度プロファイルと比較することによって提供される。いくつかの実施形態において、参照リード密度プロファイルが、特定のコピー数変異（例えば、染色体異数性、トリソミー、微小重複、微小欠失）を有すると知られている参照被験体のセットから得られる場合、アウトカムは、染色体、その部分またはセグメントについて、試験被験体からのリード密度プロファイルを参照からのリード密度プロファイルと比較することによって提供される。

ある特定の実施形態において、試験被験体のリード密度プロファイルは、コピー数変異が存在しないことを代表する所定の値と比較され、コピー数変異が位置づけられるゲノム位置に対応する１つまたはそれを超えるゲノム位置（例えば、部分）において所定の値から逸脱するときがある。例えば、試験被験体（例えば、コピー数変異に関連する医学的症状に対するリスクがあるかまたはその医学的症状に罹患している被験体）において、試験被験体が、対象のコピー数変異を含むとき、リード密度プロファイルは、選択された部分について、参照（例えば、参照配列、参照被験体、参照セット）のリード密度プロファイルと有意に異なると予想される。試験被験体が、対象のコピー数変異を含まないとき、試験被験体のリード密度プロファイルは、選択された部分について、参照（例えば、参照配列、参照被験体、参照セット）のリード密度プロファイルと実質的に同じであることが多い。リード密度プロファイルは、所定のしきい値および／またはしきい値の範囲と比較されることが多い。用語「しきい値」は、本明細書中で使用されるとき、適格なデータセットを用いて算出され、コピー数変異（例えば、コピー数変異、異数性、染色体異常、微小重複、微小欠失など）の診断の限度として役立つ任意の数字のことを指す。ある特定の実施形態において、しきい値は、本明細書中に記載される方法によって得られる結果によって上回られ、被験体は、コピー数変異（例えば、トリソミー）と診断される。いくつかの実施形態において、閾値または値の範囲は、配列リードデータ（例えば、参照および／または被験体からの）を数学的におよび／または統計的に操作することによって算出されることが多い。コピー数変異の存在もしくは非存在を示唆する所定の閾値または閾値の範囲は、変動し得るが、コピー数変異の存在もしくは非存在の判定に有用なアウトカムをなおも提供する。ある特定の実施形態において、正規化されたリード密度および／または正規化されたカウントを含むリード密度プロファイルは、分類および／またはアウトカムの提供を容易にするために生成される。アウトカムは、正規化されたカウントを含むリード密度プロファイルのプロットに基づいて（例えば、そのようなリード密度プロファイルのプロットを用いて）提供され得る。

いくつかの実施形態において、あるシステムは、スコアリングモジュール４６を備える。スコアリングモジュールは、リード密度プロファイル（例えば、調整され、正規化されたリード密度プロファイル）を別の好適なモジュール（例えば、プロファイル生成モジュール２６、ＰＣＡ統計モジュール３３、部分重み付けモジュール４２など）から受け取り得、検索し得、および／または格納し得る。スコアリングモジュールは、２つまたはそれを超えるリード密度プロファイル（例えば、試験プロファイル、参照プロファイル、訓練セット、試験被験体）を受け取り得、検索し得、格納し得、および／または比較し得る。スコアリングモジュールは、スコア（例えば、プロット、プロファイル統計、比較（例えば、２つまたはそれを超えるプロファイル間の差異）、Ｚ得点、不確定性の尺度、コールゾーン（ｃａｌｌｚｏｎｅ）、サンプルコール（ｓａｍｐｌｅｃａｌｌ）５０（例えば、コピー数変異の存在もしくは非存在の判定）および／またはアウトカム）を提供し得ることが多い。スコアリングモジュールは、スコアをエンドユーザーおよび／または別の好適なモジュール（例えば、ディスプレイ、プリンターなど）に提供し得る。いくつかの実施形態において、スコアリングモジュールは、特定のテストに対するカイ二乗統計量（例えば、Ｈｉｇｈ−ｃｈｒ２１カウント）を計算するためのＲ関数を含む、下記に示されるＲコードのいくつか、すべてまたは修正したものを備える。
３つのパラメータは、以下である：
ｘ＝サンプリードデータ（部分×サンプル）
ｍ＝部分に対する中央値
ｙ＝テストベクトル（例、ｃｈｒ２１に対するＴｒｕｅを除くすべての部分に対してＦａｌｓｅ）
ハイブリッド回帰正規化

いくつかの実施形態において、ハイブリッド正規化方法が使用される。いくつかの実施形態において、ハイブリッド正規化方法は、バイアス（例えば、ＧＣバイアス）を減少させる。ハイブリッド正規化は、いくつかの実施形態において、（ｉ）２つの変数（例えば、カウントおよびＧＣ含有量）の関係の解析、ならびに（ｉｉ）その解析に従った正規化方法の選択および適用を含む。ハイブリッド正規化は、ある特定の実施形態において、（ｉ）回帰（例えば、回帰分析）ならびに（ｉｉ）その回帰に従った正規化方法の選択および適用を含む。いくつかの実施形態において、第１のサンプル（例えば、第１のサンプルセット）に対して得られたカウントは、別のサンプル（例えば、第２のサンプルセット）から得られたカウントとは異なる方法によって正規化される。いくつかの実施形態において、第１のサンプル（例えば、第１のサンプルセット）に対して得られたカウントは、第１の正規化方法によって正規化され、第２のサンプル（例えば、第２のサンプルセット）から得られたカウントは、第２の正規化方法によって正規化される。例えば、ある特定の実施形態において、第１の正規化方法は、線形回帰の使用を含み、第２の正規化方法は、非線形回帰（例えば、ＬＯＥＳＳ、ＧＣ−ＬＯＥＳＳ、ＬＯＷＥＳＳ回帰、ＬＯＥＳＳ平滑化）の使用を含む。

いくつかの実施形態において、ハイブリッド正規化方法は、ゲノムまたは染色体の部分にマッピングされた配列リード（例えば、カウント、マッピングされたカウント、マッピングされたリード）を正規化するために使用される。ある特定の実施形態において、生のカウントが正規化され、いくつかの実施形態において、調整された、重み付けされた、フィルタリングされたまたは予め正規化されたカウントが、ハイブリッド正規化方法によって正規化される。ある特定の実施形態において、ゲノム区分レベルまたはＺ得点が、正規化される。いくつかの実施形態において、ゲノムまたは染色体の選択された部分にマッピングされたカウントが、ハイブリッド正規化アプローチによって正規化される。カウントは、ゲノムの部分にマッピングされた配列リードの好適な尺度のことを指し得、その非限定的な例としては、生のカウント（例えば、処理されていないカウント）、正規化されたカウント（例えば、ＰＥＲＵＮ、ＣｈＡＩまたは好適な方法によって正規化されたもの）、部分レベル（例えば、平均レベル、平均値レベル、中央値レベルなど）、Ｚ得点などまたはそれらの組み合わせが挙げられる。それらのカウントは、１つまたはそれを超えるサンプル（例えば、テストサンプル、妊婦由来のサンプル）からの、生のカウントまたは処理されたカウントであり得る。いくつかの実施形態において、カウントは、１つまたはそれを超える被験体から得られた１つまたはそれを超えるサンプルから得られる。

いくつかの実施形態において、正規化方法（例えば、正規化方法のタイプ）は、回帰（例えば、回帰分析）および／または相関係数に従って選択される。回帰分析とは、変数（例えば、カウントおよびＧＣ含有量）の間の関係を推定するための統計的手法のことを指す。いくつかの実施形態において、回帰は、参照ゲノムの複数の部分の各部分に対するカウントおよびＧＣ含有量の尺度に従って生成される。好適なＧＣ含有量の尺度が使用され得、その非限定的な例としては、グアニン、シトシン、アデニン、チミン、プリン（ＧＣ）もしくはピリミジン（ＡＴまたはＡＴＵ）含有量の尺度、融解温度（Ｔ_ｍ）（例えば、変性温度、アニーリング温度、ハイブリダイゼーション温度）、自由エネルギーの尺度などまたはそれらの組み合わせが挙げられる。グアニン（Ｇ）、シトシン（Ｃ）、アデニン（Ａ）、チミン（Ｔ）、プリン（ＧＣ）またはピリミジン（ＡＴまたはＡＴＵ）含有量の尺度は、比率またはパーセンテージとして表現され得る。いくつかの実施形態において、任意の好適な比率またはパーセンテージが使用され、その非限定的な例としては、ＧＣ／ＡＴ、ＧＣ／全ヌクレオチド、ＧＣ／Ａ、ＧＣ／Ｔ、ＡＴ／全ヌクレオチド、ＡＴ／ＧＣ、ＡＴ／Ｇ、ＡＴ／Ｃ、Ｇ／Ａ、Ｃ／Ａ、Ｇ／Ｔ、Ｇ／Ａ、Ｇ／ＡＴ、Ｃ／Ｔなどまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、ＧＣ含有量の尺度は、全ヌクレオチド含有量に対するＧＣの比率またはパーセンテージである。いくつかの実施形態において、ＧＣ含有量の尺度は、参照ゲノムの部分にマッピングされた配列リードに対する全ヌクレオチド含有量に対するＧＣの比率またはパーセンテージである。ある特定の実施形態において、ＧＣ含有量は、参照ゲノムの各部分にマッピングされた配列リードに従っておよび／または参照ゲノムの各部分にマッピングされた配列リードから測定され、それらの配列リードは、サンプル（例えば、妊婦から得られたサンプル）から得られる。いくつかの実施形態において、ＧＣ含有量の尺度は、配列リードに従っておよび／または配列リードから決定されない。ある特定の実施形態において、ＧＣ含有量の尺度は、１つまたはそれを超える被験体から得られた１つまたはそれを超えるサンプルに対して決定される。

いくつかの実施形態において、回帰の生成は、回帰分析または相関分析の生成を含む。好適な回帰が使用され得、その非限定的な例としては、回帰分析（例えば、線形回帰分析）、適合度分析、ピアソン相関分析、順位相関、不明な分散の割合（ｆｒａｃｔｉｏｎｏｆｖａｒｉａｎｃｅｕｎｅｘｐｌａｉｎｅｄ）、Ｎａｓｈ−Ｓｕｔｃｌｉｆｆｅモデル効率解析、回帰モデル検証、損失比例減少（ｐｒｏｐｏｒｔｉｏｎａｌｒｅｄｕｃｔｉｏｎｉｎｌｏｓｓ）、根平均二乗偏差などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、回帰直線が生成される。ある特定の実施形態において、回帰の生成は、線形回帰の生成を含む。ある特定の実施形態において、回帰の生成は、非線形回帰（例えば、ＬＯＥＳＳ回帰、ＬＯＷＥＳＳ回帰）の生成を含む。

いくつかの実施形態において、回帰は、例えば、カウントとＧＣ含有量の尺度との間の、相関（例えば、線形相関）の存在もしくは非存在を判定する。いくつかの実施形態において、回帰（例えば、線形回帰）が生成され、相関係数が決定される。いくつかの実施形態において、好適な相関係数が決定され、その非限定的な例としては、決定係数、Ｒ^２値、ピアソン相関係数などが挙げられる。

いくつかの実施形態において、適合度は、回帰（例えば、回帰分析、線形回帰）に対して測定される。適合度は、視覚的解析または数学的解析によって測定されるときがある。評価は、その適合度が非線形回帰に対してより高いかまたは線形回帰に対してより高いかを判定することを含むときがある。いくつかの実施形態において、相関係数は、適合度の尺度である。いくつかの実施形態において、回帰に対する適合度の評価は、相関係数および／または相関係数のカットオフ値に従って明らかにされる。いくつかの実施形態において、適合度の評価は、相関係数と相関係数のカットオフ値とを比較することを含む。いくつかの実施形態において、回帰に対する適合度の評価は、線形回帰を示唆する。例えば、ある特定の実施形態において、適合度は、非線形回帰よりも線形回帰に対してより高く、その適合度の評価は、線形回帰を示唆する。いくつかの実施形態において、評価は、線形回帰を示唆し、カウントを正規化するために線形回帰が使用される。いくつかの実施形態において、回帰に対する適合度の評価は、非線形回帰を示唆する。例えば、ある特定の実施形態において、適合度は、線形回帰よりも非線形回帰に対してより高く、その適合度の評価は、非線形回帰を示唆する。いくつかの実施形態において、評価は、非線形回帰を示唆し、カウントを正規化するために非線形回帰が使用される。

いくつかの実施形態において、相関係数が、相関係数のカットオフと等しいかまたはそれを超えるとき、適合度の評価は、線形回帰を示唆する。いくつかの実施形態において、相関係数が、相関係数のカットオフ未満であるとき、適合度の評価は、非線形回帰を示唆する。いくつかの実施形態において、相関係数のカットオフは、予め決定されている。いくつかの実施形態において、相関係数のカットオフは、約０．５もしくはそれを超えるか、約０．５５もしくはそれを超えるか、約０．６もしくはそれを超えるか、約０．６５もしくはそれを超えるか、約０．７もしくはそれを超えるか、約０．７５もしくはそれを超えるか、約０．８もしくはそれを超えるか、または約０．８５もしくはそれを超える。

例えば、ある特定の実施形態において、相関係数が約０．６と等しいかまたはそれを超えるとき、線形回帰を含む正規化方法が使用される。ある特定の実施形態において、相関係数が、０．６という相関係数のカットオフと等しいかまたはそれを超えるとき、サンプルのカウント（例えば、参照ゲノムの部分ごとのカウント、部分ごとのカウント）は、線形回帰に従って正規化され、そうでなければ、カウントは、非線形回帰に従って正規化される（例えば、その係数が０．６という相関係数のカットオフ未満であるとき）。いくつかの実施形態において、正規化プロセスは、参照ゲノムの複数の部分の各部分に対する、（ｉ）カウントおよび（ｉｉ）ＧＣ含有量に対する線形回帰または非線形回帰の生成を含む。ある特定の実施形態において、相関係数が、０．６という相関係数のカットオフ未満であるとき、非線形回帰を含む正規化方法（例えば、ＬＯＷＥＳＳ、ＬＯＥＳＳ）が使用される。いくつかの実施形態において、相関係数（例えば、相関係数）が、約０．７、約０．６５未満、約０．６未満、約０．５５未満または約０．５未満という相関係数のカットオフ未満であるとき、非線形回帰を含む正規化方法（例えば、ＬＯＷＥＳＳ）が使用される。例えば、いくつかの実施形態において、相関係数が、約０．６という相関係数のカットオフ未満であるとき、非線形回帰を含む正規化方法（例えば、ＬＯＷＥＳＳ、ＬＯＥＳＳ）が使用される。

いくつかの実施形態において、特定のタイプの回帰が選択され（例えば、線形または非線形回帰）、その回帰が生成された後、その回帰をカウントから減算することによって、カウントが正規化される。いくつかの実施形態において、カウントからの回帰の減算は、バイアス（例えば、ＧＣバイアス）が減少した正規化されたカウントを提供する。いくつかの実施形態において、線形回帰が、カウントから減算される。いくつかの実施形態において、非線形回帰（例えば、ＬＯＥＳＳ、ＧＣ−ＬＯＥＳＳ、ＬＯＷＥＳＳ回帰）が、カウントから減算される。任意の好適な方法が、カウントから回帰直線を減算するために使用され得る。例えば、カウントｘが、０．５というＧＣ含有量を含む部分ｉ（例えば、部分ｉ）から得られ、回帰直線が、０．５というＧＣ含有量においてカウントｙを決定する場合、部分ｉに対して、ｘ−ｙ＝正規化されたカウントである。いくつかの実施形態において、カウントは、回帰の減算の前および／または後に正規化される。いくつかの実施形態において、ハイブリッド正規化アプローチによって正規化されたカウントは、ゲノム区分レベル、Ｚ得点（Ｚ−ｃｏｒｅｓ）、レベルおよび／またはゲノムもしくはそのセグメントのプロファイルを生成するために使用される。ある特定の実施形態において、ハイブリッド正規化アプローチによって正規化されたカウントは、コピー数変異（例えば、胎児における）の存在もしくは非存在を判定するために本明細書中に記載される方法によって解析される。

いくつかの実施形態において、ハイブリッド正規化方法は、正規化の前または後に、１つまたはそれを超える部分のフィルタリングまたは重み付けを含む。本明細書中に記載される部分（例えば、参照ゲノムの部分）をフィルタリングする方法を含む、部分をフィルタリングする好適な方法が、使用され得る。いくつかの実施形態において、部分（例えば、参照ゲノムの部分）が、ハイブリッド正規化方法を適用する前にフィルタリングされる。いくつかの実施形態において、選択された部分（例えば、カウントのばらつきに従って選択された部分）にマッピングされたシーケンシングリードのカウントだけが、ハイブリッド正規化によって正規化される。いくつかの実施形態において、フィルタリングされた参照ゲノムの部分（例えば、カウントのばらつきに従ってフィルタリングされた部分）にマッピングされたシーケンシングリードのカウントが、ハイブリッド正規化方法を用いる前に除去される。いくつかの実施形態において、ハイブリッド正規化方法は、好適な方法（例えば、本明細書中に記載される方法）に従って部分（例えば、参照ゲノムの部分）を選択するかまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、複数のテストサンプルに対する各部分にマッピングされたカウントに対する不確定値に従って部分（例えば、参照ゲノムの部分）を選択することまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、カウントのばらつきに従って部分（例えば、参照ゲノムの部分）を選択するかまたはフィルタリングすることを含む。いくつかの実施形態において、ハイブリッド正規化方法は、ＧＣ含有量、反復エレメント、反復配列、イントロン、エキソンなどまたはそれらの組み合わせに従って部分（例えば、参照ゲノムの部分）を選択するかまたはフィルタリングすることを含む。

例えば、いくつかの実施形態において、複数の妊婦被験体由来の複数のサンプルが解析され、部分のサブセット（例えば、参照ゲノムの部分）が、カウントのばらつきに従って選択される。ある特定の実施形態において、妊婦被験体から得られたサンプルに対する選択された各部分に対する（ｉ）カウントおよび（ｉｉ）ＧＣ含有量に対する相関係数を決定するために、線形回帰が用いられる。いくつかの実施形態において、所定の相関のカットオフ値（例えば、約０．６）より大きい相関係数が決定され、適合度の評価は、線形回帰を示唆し、線形回帰をカウントから減算することによって、カウントが正規化される。ある特定の実施形態において、所定の相関のカットオフ値（例えば、約０．６）未満の相関係数が決定され、適合度の評価は、非線形回帰を示唆し、ＬＯＥＳＳ回帰が生成され、そのＬＯＥＳＳ回帰をカウントから減算することによって、カウントが正規化される。
プロファイル

いくつかの実施形態において、処理工程は、データセットまたはその微分演算（例えば、当該分野で公知のおよび／または本明細書中に記載される１つまたはそれを超える数学的および／または統計的データ処理工程の結果）の様々な態様から１つまたはそれを超えるプロファイル（例えば、プロファイルプロット）を生成することを含み得る。

用語「プロファイル」は、本明細書中で使用されるとき、大量のデータにおけるパターンおよび／または相関の特定を容易にし得る、データの数学的操作および／または統計的操作の結果のことを指す。「プロファイル」は、１つまたはそれを超える基準に基づくデータまたはデータセットの１つまたはそれを超える操作から生じる値を含むことが多い。プロファイルは、複数のデータポイントを含むことが多い。データセットの性質および／または複雑さに応じて、任意の好適な数のデータポイントが、プロファイルに含められ得る。ある特定の実施形態において、プロファイルは、２つもしくはそれを超えるデータポイント、３つもしくはそれを超えるデータポイント、５つもしくはそれを超えるデータポイント、１０個もしくはそれを超えるデータポイント、２４個もしくはそれを超えるデータポイント、２５個もしくはそれを超えるデータポイント、５０個もしくはそれを超えるデータポイント、１００個もしくはそれを超えるデータポイント、５００個もしくはそれを超えるデータポイント、１０００個もしくはそれを超えるデータポイント、５０００個もしくはそれを超えるデータポイント、１０，０００個もしくはそれを超えるデータポイントまたは１００，０００個もしくはそれを超えるデータポイントを含み得る。

いくつかの実施形態において、プロファイルは、データセット全体を代表し、ある特定の実施形態において、プロファイルは、データセットの一部またはサブセットを代表する。つまり、プロファイルは、任意のデータを除去するためにフィルタリングされていないデータを代表するデータポイントを含むかまたはそれらのデータポイントから生成されるときがあり、プロファイルは、望まれないデータを除去するためにフィルタリングされたデータを代表するデータポイントを含むかまたはそれらのデータポイントから生成されるときがある。いくつかの実施形態において、あるプロファイルにおけるデータポイントは、ある部分に対するデータ操作の結果に相当する。ある特定の実施形態において、あるプロファイルにおけるデータポイントは、部分の群に対するデータ操作の結果を含む。いくつかの実施形態において、部分の群は、互いに隣接することもあるし、ある特定の実施形態では、部分の群は、染色体またはゲノムの異なる部分に由来することもある。

あるデータセットに由来するプロファイルにおけるデータポイントは、任意の好適なデータのカテゴリー化を代表し得る。プロファイルデータポイントを生成するためにデータがグループ化され得るカテゴリーの非限定的な例としては、サイズに基づく部分、配列の特徴（例えば、ＧＣ含有量、ＡＴ含有量、染色体上の位置（例えば、短腕、長腕、セントロメア、テロメア）など）に基づく部分、発現レベル、染色体などまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、あるプロファイルは、別のプロファイル（例えば、再正規化されたデータプロファイルを生成するために異なる正規化値に対して再正規化された、正規化されたデータプロファイル）から得られたデータポイントから生成され得る。ある特定の実施形態において、別のプロファイルから得られたデータポイントから生成されたプロファイルは、データポイントの数および／またはデータセットの複雑さを減少させる。データポイントの数および／またはデータセットの複雑さの減少は、データの解釈を容易にするおよび／またはアウトカムの提供を容易にすることが多い。

プロファイル（例えば、ゲノムのプロファイル、染色体のプロファイル、染色体のセグメントのプロファイル）は、２つまたはそれを超える部分に対する正規化されたカウントまたは正規化されていないカウントの集合であることが多い。プロファイルは、少なくとも１つのレベル（例えば、ゲノム区分レベル）を含むことが多く、２つまたはそれを超えるレベルを含むことが多い（例えば、あるプロファイルは、複数のレベルを有することが多い）。あるレベルは、一般に、ほぼ同じカウントまたは正規化されたカウントを有する部分のセットに対するものである。レベルは、本明細書中にさらに詳細に記載される。ある特定の実施形態において、プロファイルは、１つまたはそれを超える部分を含み、それらの部分は、重み付けされ得るか、除去され得るか、フィルタリングされ得るか、正規化され得るか、調整され得るか、平均され得るか、平均値として導かれ得るか、加算され得るか、減算され得るか、処理され得るか、またはそれらの任意の組み合わせによって変換され得る。プロファイルは、２つまたはそれを超えるレベルを定義している部分にマッピングされて正規化されたカウントを含むことが多く、ここで、それらのカウントは、好適な方法によって、それらのレベルのうちの１つに従ってさらに正規化される。プロファイル（例えば、プロファイルレベル）のカウントは、不確定値に関連することが多い。

１つまたはそれを超えるレベルを含むプロファイルは、パディングされる（例えば、ホールパディング（ｈｏｌｅｐａｄｄｉｎｇ））ときがある。パディング（例えば、ホールパディング）とは、母体の微小欠失または母体の重複（例えば、コピー数変異）に起因する、プロファイルにおけるレベルを特定し、調整するプロセスのことを指す。いくつかの実施形態において、胎児の微小重複または胎児の微小欠失に起因するレベルがパディングされる。プロファイルにおける微小重複または微小欠失は、いくつかの実施形態において、染色体異数性（例えば、トリソミー）の偽陽性または偽陰性の判定をもたらすプロファイル（例えば、染色体のプロファイル）のレベル全体を人工的に上昇させるかまたは低下させ得る。いくつかの実施形態において、微小重複および／または欠失に起因するプロファイルにおけるレベルは、パディングまたはホールパディングと称されるときがあるプロセスによって特定され、調整される（例えば、パディングされるおよび／または除去される）。ある特定の実施形態において、あるプロファイルは、そのプロファイル内の第２のレベルと有意に異なる１つまたはそれを超える第１のレベルを含み、その１つまたはそれを超える第１のレベルの各々は、母体のコピー数変異、胎児のコピー数変異、または母体のコピー数変異および胎児のコピー数変異を含み、１つまたはそれを超える第１のレベルが、調整される。

１つまたはそれを超えるレベルを含むプロファイルは、第１のレベルおよび第２のレベルを含み得る。いくつかの実施形態において、第１のレベルは、第２のレベルと異なる（例えば、有意に異なる）。いくつかの実施形態において、第１のレベルは、第１の部分セットを含み、第２のレベルは、第２の部分セットを含み、第１の部分セットは、第２の部分セットのサブセットではない。ある特定の実施形態において、第１の部分セットは、第１および第２のレベルが測定される第２の部分セットと異なる。いくつかの実施形態において、あるプロファイルは、そのプロファイル内の第２のレベルと異なる（例えば、有意に異なる、例えば、有意に異なる値を有する）複数の第１のレベルを有し得る。いくつかの実施形態において、あるプロファイルは、そのプロファイル内の第２のレベルと有意に異なる１つまたはそれを超える第１のレベルを含み、その１つまたはそれを超える第１のレベルが、調整される。いくつかの実施形態において、あるプロファイルは、そのプロファイル内の第２のレベルと有意に異なる１つまたはそれを超える第１のレベルを含み、その１つまたはそれを超える第１のレベルの各々は、母体のコピー数変異、胎児のコピー数変異、または母体のコピー数変異および胎児のコピー数変異を含み、１つまたはそれを超える第１のレベルが、調整される。いくつかの実施形態において、あるプロファイル内の第１のレベルは、そのプロファイルから除去されるか、または調整される（例えば、パディングされる）。あるプロファイルは、１つまたはそれを超える第２のレベルと有意に異なる１つまたはそれを超える第１のレベルを含む複数のレベルを含み得、あるプロファイルにおけるレベルの大部分が、第２のレベルであることが多く、その第２のレベルは、互いにほぼ等しい。いくつかの実施形態において、あるプロファイルにおけるレベルの５０％超、６０％超、７０％超、８０％超、９０％超または９５％超が、第２のレベルである。

プロファイルは、プロットとして表示されるときがある。例えば、部分のカウント（例えば、正規化されたカウント）を表している１つまたはそれを超えるレベルが、プロットされ得、可視化され得る。生成され得るプロファイルのプロットの非限定的な例としては、生のカウント（例えば、生のカウントプロファイルまたは生のプロファイル）、正規化されたカウント、部分によって重み付けされた、ｚ得点、ｐ値、当てはめられた倍数性に対する面積比、当てはめられた胎児分率と計測された胎児分率との間の比率に対する中央値レベル、主成分などまたはそれらの組み合わせが挙げられる。プロファイルのプロットは、いくつかの実施形態において、操作されたデータの可視化を可能にする。ある特定の実施形態において、プロファイルのプロットは、アウトカム（例えば、当てはめられた倍数性に対する面積比、当てはめられた胎児分率と計測された胎児分率との間の比率に対する中央値レベル、主成分）を提供するために使用され得る。用語「生のカウントプロファイルプロット」または「生のプロファイルプロット」は、本明細書中で使用されるとき、ある領域（例えば、ゲノム、部分、染色体、参照ゲノムの染色体部分または染色体のセグメント）における全カウントに対して正規化された、ある領域における各部分におけるカウントのプロットのことを指す。いくつかの実施形態において、プロファイルは、スタティックウィンドウプロセスを用いて生成され得、ある特定の実施形態において、プロファイルは、スライディングウィンドウプロセスを用いて生成され得る。

試験被験体に対して生成されたプロファイルは、データセットの数学的操作および／もしくは統計的操作の解釈を容易にするため、ならびに／またはアウトカムを提供するために、１つまたはそれを超える参照被験体に対して生成されたプロファイルと比較されるときがある。いくつかの実施形態において、プロファイルは、１つまたはそれを超える開始時の（ｓｔａｒｔｉｎｇ）仮定（例えば、核酸の母体の寄与（例えば、母体分率）、核酸の胎児の寄与（例えば、胎児分率）、参照サンプルの倍数性などまたはそれらの組み合わせ）に基づいて生成される。ある特定の実施形態において、試験プロファイルは、コピー数変異が存在しないことを代表する所定の値の周りに集中することが多く、試験被験体がコピー数変異を有した場合、コピー数変異が試験被験体内に位置するゲノム位置に対応する領域における所定の値から逸脱することが多い。コピー数変異に関連する医学的症状に対するリスクがあるかまたはコピー数変異に関連する医学的症状に罹患している試験被験体では、選択された部分に対する数値は、影響されていないゲノム位置に対する所定の値から有意に変動すると予想される。開始時の仮定（例えば、既定の倍数性もしくは最適化された倍数性、既定の胎児分率もしくは最適化された胎児分率またはそれらの組み合わせ）に応じて、コピー数変異の存在もしくは非存在を示唆する所定の閾値もしくはカットオフ値または閾値範囲は、変動し得るが、コピー数変異の存在もしくは非存在の判定に有用なアウトカムをなおも提供する。いくつかの実施形態において、プロファイルは、表現型を示唆し、かつ／または表現型を代表する。

非限定的な例として、正規化されたサンプルカウントプロファイルおよび／または正規化された参照カウントプロファイルは、（ａ）選択された染色体、その部分またはセグメントに対する参照カウントの中央値を、コピー数変異を有しないと知られている参照のセットから算出し、（ｂ）参照サンプルの生のカウントから情報価値のない部分を除去し（例えば、フィルタリングし）；（ｃ）参照ゲノムの残りのすべての部分に対する参照カウントを、参照サンプルの選択された染色体または選択されたゲノム位置に対する残りのカウント総数（例えば、参照ゲノムの情報価値のない部分を除去した後に残ったカウントの合計）に対して正規化し、それにより、正規化された参照被験体プロファイルを生成し；（ｄ）試験被験体のサンプルから対応する部分を除去し；（ｅ）１つまたはそれを超える選択されたゲノム位置に対する残りの試験被験体カウントを、選択されたゲノム位置を含む染色体に対する残りの参照カウントの中央値の和に対して正規化し、それにより、正規化された試験被験体プロファイルを生成することによって、生の配列リードデータから得ることができる。ある特定の実施形態において、（ｂ）において、フィルタリングされた部分によって減少される、ゲノム全体に対するさらなる正規化工程は、（ｃ）と（ｄ）との間に含めることができる。

データセットプロファイルは、マッピングされてカウントされた配列リードデータの１つまたはそれを超える操作によって生成され得る。いくつかの実施形態は、以下を含む。配列リードが、マッピングされ、各ゲノム部分にマップするカウント（すなわち、配列タグ）の数が測定される（例えば、カウントされる）。マッピングされてカウントされた配列リードから、生のカウントプロファイルが生成される。ある特定の実施形態において、コピー数変異を有しないと知られている参照被験体のセットからの染色体、その部分またはセグメントについて、試験被験体からの生のカウントプロファイルを参照カウントプロファイルの中央値とを比較することによって、アウトカムが提供される。

いくつかの実施形態において、配列リードデータは、必要に応じてフィルタリングされることにより、ノイズの多いデータまたは情報価値のない部分が除去される。フィルタリングの後、残ったカウントは、通常、合計されることにより、フィルタリングされたデータセットが生成される。フィルタリングされたカウントプロファイルは、ある特定の実施形態において、フィルタリングされたデータセットから生成される。

配列リードデータが、カウントされ、必要に応じてフィルタリングされた後、データセットは、正規化されることにより、レベルまたはプロファイルが生成され得る。データセットは、１つまたはそれを超える選択された部分を好適な正規化参照値に対して正規化することによって正規化され得る。いくつかの実施形態において、正規化参照値は、部分が選択された染色体に対する全カウントを代表する。ある特定の実施形態において、正規化参照値は、コピー数変異を有しないと知られている参照被験体のセットから調製された参照データセットからの、１つまたはそれを超える対応する部分、染色体の部分または染色体を代表する。いくつかの実施形態において、正規化参照値は、コピー数変異の存在もしくは非存在について解析されている試験被験体から調製された試験被験体データセットからの、１つまたはそれを超える対応する部分、染色体の部分または染色体を代表する。ある特定の実施形態において、正規化プロセスは、スタティックウィンドウアプローチを用いて行われ、いくつかの実施形態において、正規化プロセスは、ムービングウィンドウアプローチまたはスライディングウィンドウアプローチを用いて行われる。ある特定の実施形態において、正規化されたカウントを含むプロファイルは、分類および／またはアウトカムの提供を容易にするために生成される。アウトカムは、正規化されたカウントを含むプロファイルのプロットに基づいて（例えば、そのようなプロファイルのプロットを用いて）提供され得る。
レベル

いくつかの実施形態において、値（例えば、数、定量値）は、レベルに帰される。レベルは、好適な方法、演算または数学的プロセスによって決定され得る（例えば、処理されたレベル）。レベルは、部分セットに対するカウント（例えば、正規化されたカウント）であるか、またはそのカウントから導かれることが多い。いくつかの実施形態において、ある部分のレベルは、ある部分にマッピングされたカウント（例えば、カウント、正規化されたカウント）の総数と実質的に等しい。レベルは、当該分野で公知の好適な方法、演算または数学的プロセスによって処理されるか、変換されるか、または操作されたカウントから決定されることが多い。いくつかの実施形態において、あるレベルは、処理されたカウントから導かれ、処理されたカウントの非限定的な例としては、重み付けされたカウント、除去されたカウント、フィルタリングされたカウント、正規化されたカウント、調整されたカウント、平均されたカウント、平均値（例えば、平均値レベル）として導かれたカウント、加算されたカウント、減算されたカウント、変換されたカウントまたはそれらの組み合わせが挙げられる。いくつかの実施形態において、あるレベルは、正規化されたカウント（例えば、部分の正規化されたカウント）を含む。あるレベルは、好適なプロセスによって正規化されたカウントに対するものであり得、そのプロセスの非限定的な例としては、部分ごとの正規化、ＧＣ含有量による正規化、カウントの中央値の正規化、線形および非線形最小二乗回帰、ＬＯＥＳＳ（例えば、ＧＣＬＯＥＳＳ）、ＬＯＷＥＳＳ、ＰＥＲＵＮ、ＣｈＡＩ、主成分正規化、ＲＭ、ＧＣＲＭ、ｃＱｎなどおよび／またはそれらの組み合わせが挙げられる。あるレベルは、正規化されたカウントまたはカウントの相対量を含み得る。いくつかの実施形態において、あるレベルは、平均された２つまたはそれを超える部分のカウントまたは正規化されたカウントに対するものであり、そのレベルは、平均レベルと称される。いくつかの実施形態において、あるレベルは、平均値レベルと称される、カウントの平均値または正規化されたカウントの平均値を有する部分セットに対するものである。いくつかの実施形態において、あるレベルは、生のカウントおよび／またはフィルタリングされたカウントを含む部分に対して導かれる。いくつかの実施形態において、あるレベルは、生であるカウントに基づく。いくつかの実施形態において、あるレベルは、不確定値（例えば、標準偏差、ＭＡＤ）に関連する。いくつかの実施形態において、あるレベルは、Ｚ得点またはｐ値によって表される。

１つまたはそれを超える部分に対するレベルは、本明細書中において「ゲノム区分レベル」と同義である。用語「レベル」は、本明細書中で使用されるとき、用語「高さ」と同義であるときがある。ある特定の場合において、用語「レベル」は、「配列リードカウント提示」および／または「染色体提示」と同義であり得る。用語「レベル」の意味の判定は、それが使用されている文脈から判定され得る。例えば、用語「レベル」は、ゲノム区分、プロファイル、リードおよび／またはカウントの文脈において使用されているとき、高さを意味することが多い。用語「レベル」は、物質または組成物の文脈において使用されているとき（例えば、ＲＮＡのレベル、プレキシングレベル（ｐｌｅｘｉｎｇｌｅｖｅｌ）、量のことを指すことが多い。用語「レベル」は、不確定性の文脈において使用されているとき（例えば、誤差のレベル、信頼のレベル、偏差のレベル、不確定性のレベル）、量のことを指すことが多い。

２つまたはそれを超えるレベル（例えば、あるプロファイルにおける２つまたはそれを超えるレベル）に対する正規化されたまたは正規化されていないカウントは、レベルに従って数学的に操作され得る（例えば、加算され得る、乗算され得る、平均され得る、正規化され得るなどまたはそれらの組み合わせ）ときがある。例えば、２つまたはそれを超えるレベルに対する正規化されたまたは正規化されていないカウントは、あるプロファイルにおけるレベルのうちの１つ、いくつかまたはすべてに従って正規化され得る。いくつかの実施形態において、あるプロファイルにおけるすべてのレベルの正規化されたまたは正規化されていないカウントが、そのプロファイルにおける１つのレベルに従って正規化される。いくつかの実施形態において、あるプロファイルにおける第１の（ｆｉｓｔ）レベルの正規化されたまたは正規化されていないカウントは、そのプロファイルにおける第２のレベルの正規化されたまたは正規化されていないカウントに従って正規化される。

レベル（例えば、第１のレベル、第２のレベル）の非限定的な例は、処理されたカウントを含む部分セットに対するレベル、カウントの平均値、中央値または平均を含む部分セットに対するレベル、正規化されたカウントを含む部分セットに対するレベルなどまたはそれらの任意の組み合わせである。いくつかの実施形態において、あるプロファイルにおける第１のレベルおよび第２のレベルは、同じ染色体にマッピングされた部分のカウントから導かれる。いくつかの実施形態において、あるプロファイルにおける第１のレベルおよび第２のレベルは、異なる染色体にマッピングされた部分のカウントから導かれる。

いくつかの実施形態において、レベルは、１つまたはそれを超える部分にマッピングされた正規化されたまたは正規化されていないカウントから決定される。いくつかの実施形態において、レベルは、２つまたはそれを超える部分にマッピングされた正規化されたまたは正規化されていないカウントから決定され、ここで、各部分に対する正規化されたカウントは、ほぼ同じであることが多い。カウント（例えば、正規化されたカウント）の変動が、あるレベルに対する部分セットに存在し得る。あるレベルに対する部分セットにおいて、そのセットの他の部分（例えば、ピークおよび／またはディップ）と有意に異なるカウントを有する１つまたはそれを超える部分が存在し得る。任意の好適な数の部分に関連する任意の好適な数の正規化されたまたは正規化されていないカウントが、レベルを定義し得る。

いくつかの実施形態において、あるゲノムの部分のすべてまたはいくつかの正規化されたまたは正規化されていないカウントから、１つまたはそれを超えるレベルが決定され得る。ある染色体またはそのセグメントの正規化されたまたは正規化されていないカウントのすべてまたはいくつかから、レベルが決定され得ることが多い。いくつかの実施形態において、２つまたはそれを超える部分（例えば、部分セット）から導かれた２つまたはそれを超えるカウントが、レベルを決定する。いくつかの実施形態において、２つまたはそれを超えるカウント（例えば、２つまたはそれを超える部分からのカウント）が、レベルを決定する。いくつかの実施形態において、２〜約１００，０００個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、２〜約５０，０００個、２〜約４０，０００個、２〜約３０，０００個、２〜約２０，０００個、２〜約１０，０００個、２〜約５０００個、２〜約２５００個、２〜約１２５０個、２〜約１０００個、２〜約５００個、２〜約２５０個、２〜約１００個または２〜約６０個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、約１０〜約５０個の部分からのカウントが、レベルを決定する。いくつかの実施形態において、約２０〜約４０個もしくはそれを超える部分からのカウントが、レベルを決定する。いくつかの実施形態において、あるレベルは、約２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４５、５０、５５、６０個もしくはそれを超える部分からのカウントを含む。いくつかの実施形態において、あるレベルは、部分セット（例えば、参照ゲノムの部分セット、染色体の部分セットまたは染色体のセグメントの部分セット）に対応する。

いくつかの実施形態において、あるレベルは、連続した部分の正規化されたまたは正規化されていないカウントに対して決定される。いくつかの実施形態において、連続した部分（例えば、部分セット）は、ゲノムの隣接したセグメントまたは染色体もしくは遺伝子の隣接したセグメントに相当する。例えば、２つまたはそれを超えて連続した部分は、それらの部分を縦に並べてマージすることによってアラインメントされたとき、各部分よりも長いＤＮＡ配列の配列アセンブリであり得る。例えば、２つまたはそれを超えて連続した部分は、インタクトなゲノム、染色体、遺伝子、イントロン、エキソンまたはそれらのセグメントであり得る。いくつかの実施形態において、連続した部分および／または連続していない部分の集合（例えば、セット）からレベルが決定される。
決定分析

いくつかの実施形態において、アウトカム（例えば、コールすること）の判定または染色体異数性、微小重複もしくは微小欠失の存在もしくは非存在の判定は、決定分析に従って行われる。ある特定の決定分析の特徴は、国際特許出願公開番号ＷＯ２０１４／１９０２８６（この全体が参照により本明細書中に組み込まれる）に記載されている。例えば、決定分析は、１つまたはそれを超える結果、評価および／またはそれらの決定の起こり得る帰結に基づいて、それらの結果、それらの結果の評価および一連の決定をもたらす１つまたはそれを超える方法を適用すること、ならびに最終的な決定が行われるプロセスのある重大な局面において終了することを含むときがある。いくつかの実施形態において、決定分析は、決定木である。決定分析は、いくつかの実施形態において、１つまたはそれを超えるプロセス（例えば、処理工程、例えば、アルゴリズム）を協調させた使用を含む。決定分析は、人間、システム、装置、ソフトウェア（例えば、モジュール）、コンピュータ、プロセッサ（例えば、マイクロプロセッサ）などまたはそれらの組み合わせによって行われ得る。いくつかの実施形態において、決定分析は、決定分析を使用しない場合（例えば、正規化されたカウントから直接判定が行われる場合）と比較して、偽陰性が少なくかつ偽陽性が少ない判定で、胎児における染色体異数性、微小重複または微小欠失の存在もしくは非存在を判定する方法を含む。いくつかの実施形態において、決定分析は、１つまたはそれを超える微小重複または微小欠失に関連する症状の存在もしくは非存在の判定を含む。例えば、いくつかの実施形態において、決定分析は、被験体由来のテストサンプルに対する、ディジョージ症候群に関連する１つまたはそれを超えるコピー数変異の存在もしくは非存在の判定を含む。いくつかの実施形態において、決定分析は、被験体由来のテストサンプルに対するディジョージ症候群の存在もしくは非存在の判定を含む。

いくつかの実施形態において、決定分析は、ゲノムまたはゲノムのセグメント（例えば、染色体またはその一部）に対するプロファイルの生成を含む。プロファイルは、公知のまたは本明細書中に記載される任意の好適な方法によって生成され得、参照ゲノムの部分にマッピングされた配列リードのカウントの入手、カウントの正規化、レベルの正規化、パディングなどまたはそれらの組み合わせを含むことが多い。参照ゲノムにマッピングされた配列リードのカウントの入手は、サンプルの入手（例えば、妊婦被験体から）、サンプル由来の核酸（例えば、循環無細胞核酸）の配列決定、配列リードの入手、参照ゲノムの部分への配列リードのマッピングなどおよびそれらの組み合わせを含み得る。いくつかの実施形態において、プロファイルの生成は、参照ゲノムの部分にマッピングされたカウントの正規化を含み、それにより、算出されたゲノム区分レベルが提供される。

いくつかの実施形態において、決定分析は、セグメント化を含む。いくつかの実施形態において、セグメント化は、プロファイルを修正および／または変換し、それにより、プロファイルの１つまたはそれを超える分解レンダリング（ｄｅｃｏｍｐｏｓｉｔｉｏｎｒｅｎｄｅｒｉｎｇｓ）が提供される。セグメント化プロセスに供されたプロファイルは、参照ゲノムまたはその一部（例えば、常染色体および性染色体）における部分（例えば、ビン）にマッピングされた正規化されたカウントのプロファイルであることが多い。本明細書中で述べられるように、それらの部分にマッピングされた生のカウントは、１つまたはそれを超える好適な正規化プロセス（例えば、ＰＥＲＵＮ、ＬＯＥＳＳ、ＧＣ−ＬＯＥＳＳ、主成分正規化（ＣｈＡＩ）またはそれらの組み合わせ）によって正規化されることにより、決定分析の一部としてセグメント化されたプロファイルが生成され得る。プロファイルの分解レンダリングは、プロファイルの変換であることが多い。プロファイルの分解レンダリングは、プロファイルから、ゲノム、染色体またはそれらのセグメントの提示への変換であるときがある。

ある特定の実施形態において、セグメント化のために用いられるセグメント化プロセスは、プロファイル内の１つまたはそれを超える他のレベルとは異なる（例えば、実質的にまたは有意に異なる）、プロファイル内の１つまたはそれを超えるレベルを位置づけ、特定する。あるプロファイルにおける別のレベルと異なり、そのプロファイルにおける別のレベルと異なるエッジを有する、セグメント化プロセスに従ってそのプロファイルにおいて特定されたレベルは、ウェーブレット、およびより一般的には、不連続のセグメントに対するレベルと本明細書中で称される。セグメント化プロセスは、１つまたはそれを超える不連続のセグメントまたはウェーブレットが特定され得る分解レンダリングを、正規化されたカウントまたはレベルのプロファイルから生成し得る。不連続のセグメントは、通常、セグメント化されるもの（例えば、染色体、複数の染色体、常染色体）より少ない部分（例えば、ビン）をカバーする。

いくつかの実施形態において、セグメント化は、あるプロファイル内の不連続のセグメントおよびウェーブレットのエッジを位置づけ、特定する。ある特定の実施形態において、１つまたはそれを超える不連続のセグメントおよびウェーブレットの一方または両方のエッジが、特定される。例えば、セグメント化プロセスは、あるプロファイルにおける不連続のセグメントまたはウェーブレットの右および／または左のエッジの場所（例えば、ゲノム座標、例えば、部分の場所）を特定し得る。不連続のセグメントまたはウェーブレットは、２つのエッジを含むことが多い。例えば、不連続のセグメントまたはウェーブレットは、左のエッジおよび右のエッジを含み得る。いくつかの実施形態において、提示またはビューに応じて、左のエッジは、あるプロファイルにおいて、核酸セグメントの５’−エッジであり得、右のエッジは、３’−エッジであり得る。いくつかの実施形態において、左のエッジは、あるプロファイルにおいて、核酸セグメントの３’−エッジであり得、右のエッジは、５’−エッジであり得る。プロファイルのエッジは、セグメント化の前に既知であることが多く、ゆえに、いくつかの実施形態において、プロファイルのエッジは、あるレベルのどちらのエッジが５’−エッジであり、どちらのエッジが３’−エッジであるかを明らかにする。いくつかの実施形態において、あるプロファイルおよび／または不連続のセグメント（例えば、ウェーブレット）の一方または両方のエッジが、染色体のエッジである。

いくつかの実施形態において、不連続のセグメントまたはウェーブレットのエッジは、参照サンプル（例えば、参照プロファイル）に対して生成された分解レンダリングに従って決定される。いくつかの実施形態において、参照プロファイル（例えば、染色体またはそのセグメントのプロファイル）の分解レンダリングに従って、ヌルエッジ高さ分布（ｎｕｌｌｅｄｇｅｈｅｉｇｈｔｄｉｓｔｒｉｂｕｔｉｏｎ）が明らかにされる。ある特定の実施形態において、あるプロファイルにおける不連続のセグメントまたはウェーブレットのレベルが、ヌルエッジ高さ分布の外側であるとき、その不連続のセグメントまたはウェーブレットのエッジは特定される。いくつかの実施形態において、あるプロファイルにおける不連続のセグメントまたはウェーブレットのエッジは、参照プロファイルに対する分解レンダリングに従って算出されたＺ得点に従って特定される。

セグメント化は、あるプロファイルにおける２つまたはそれを超える不連続のセグメントまたはウェーブレット（例えば、２つまたはそれを超える断片化されたレベル、２つまたはそれを超える断片化されたセグメント）を生成するときがある。いくつかの実施形態において、セグメント化プロセスから得られる分解レンダリングは、過剰にセグメント化されるかまたは断片化され、複数の不連続のセグメントまたはウェーブレットを含む。セグメント化によって生成される不連続のセグメントまたはウェーブレットは、実質的に異なるときがあり、セグメント化によって生成される不連続のセグメントまたはウェーブレットは、実質的に類似であるときがある。実質的に類似の不連続のセグメントまたはウェーブレット（例えば、実質的に類似のレベル）とは、セグメント化されたプロファイルにおける２つまたはそれを超える隣接した不連続のセグメントまたはウェーブレットのことを指すことが多く、その不連続のセグメントまたはウェーブレットの各々は、不確定性の所定のレベル未満だけ異なるゲノム区分レベル（例えば、レベル）を有する。いくつかの実施形態において、実質的に類似の不連続のセグメントまたはウェーブレットは、互いに隣接しており、介在性のセグメントまたはウェーブレットによって分断されていない。いくつかの実施形態において、実質的に類似の不連続のセグメントまたはウェーブレットは、１つまたはそれを超えるより小さいセグメントまたはウェーブレットによって分断されている。いくつかの実施形態において、実質的に類似の不連続のセグメントまたはウェーブレットは、約１〜約２０個、約１〜約１５個、約１〜約１０個または約１〜約５個の部分（例えば、ビン）によって分断され、ここで、それらの介在性部分の１つまたはそれを超えるものが、その実質的に類似の不連続のセグメントまたはウェーブレットの各々のレベルと有意に異なるレベルを有する。いくつかの実施形態において、実質的に類似の不連続のセグメントまたはウェーブレットのレベルは、ある不確定性のレベルと約３倍未満、約２倍未満、約１倍未満または約０．５倍未満だけ異なる。実質的に類似の不連続のセグメントまたはウェーブレットは、いくつかの実施形態において、３ＭＡＤ未満（例えば、３シグマ未満）、２ＭＡＤ未満、１ＭＡＤ未満または約０．５ＭＡＤ未満だけ異なるゲノム区分レベルの中央値を含み、ここで、ＭＡＤは、そのセグメントまたはウェーブレットの各々のゲノム区分レベルの中央値から算出される。実質的に異なる不連続のセグメントまたはウェーブレットは、いくつかの実施形態において、隣接しないか、あるいは１０個もしくはそれを超える、１５個もしくはそれを超えるまたは２０個もしくはそれを超える部分によって分断されている。実質的に異なる不連続のセグメントまたはウェーブレットは、通常、実質的に異なるレベルを有する。ある特定の実施形態において、実質的に異なる不連続のセグメントまたはウェーブレットは、ある不確定性のレベルの約２．５倍超、約３倍超、約４倍超、約５倍超、約６倍超だけ異なるレベルを含む。実質的に異なる不連続のセグメントまたはウェーブレットは、いくつかの実施形態において、２．５ＭＡＤ超（例えば、２．５シグマ超）、３ＭＡＤ超、４ＭＡＤ超、約５ＭＡＤ超または約６ＭＡＤ超だけ異なるゲノム区分レベルの中央値を含み、ここで、ＭＡＤは、不連続のセグメントまたはウェーブレットの各々のゲノム区分レベルの中央値から算出される。

いくつかの実施形態において、セグメント化プロセスは、あるプロファイルまたはそのセグメントにおける１つまたはそれを超える不連続のセグメントまたはウェーブレット（例えば、レベル）に対する、レベル（例えば、定量的値、例えば、平均値または中央値レベル）、不確定性のレベル（例えば、不確定値）、Ｚ得点、Ｚ値、ｐ値などまたはそれらの組み合わせの決定（例えば、算出）を含む。いくつかの実施形態において、レベル（例えば、定量的値、例えば、平均値または中央値レベル）、不確定性のレベル（例えば、不確定値）、Ｚ得点、Ｚ値、ｐ値などまたはそれらの組み合わせは、不連続のセグメントまたはウェーブレットに対して決定される（例えば、算出される）。

いくつかの実施形態において、セグメント化は、１つのプロセスまたは複数のサブプロセスを含むプロセスによって達成され、それらの非限定的な例としては、分解生成プロセス（例えば、ウェーブレット分解生成プロセス）、閾値化、平準化、平滑化などまたはそれらの組み合わせが挙げられる。閾値化、平準化、平滑化などは、分解生成プロセスおよび／またはウェーブレット分解レンダリングプロセスとともに行われ得る。
アウトカム

本明細書中に記載される方法は、サンプルに対する遺伝的変異（例えば、胎児の異数性）の存在もしくは非存在の判定を提供し、それにより、アウトカムが提供され得る（例えば、それにより、遺伝的変異（例えば、胎児の異数性）の存在もしくは非存在を判定するアウトカムが提供され得る）。遺伝的変異は、参照に対して試験被験体のゲノムまたは遺伝情報の検出可能な変化をもたらす、遺伝情報（例えば、染色体、染色体のセグメント、多型領域、転座した領域、変更されたヌクレオチド配列などまたは前述のものの組み合わせ）の獲得、喪失および／または変更（例えば、重複、欠失、融合、挿入、突然変異、再編成、置換または異常なメチル化）を含むことが多い。遺伝的変異の存在もしくは非存在は、部分（例えば、カウント、参照ゲノムのゲノム部分のカウント）にマッピングされた配列リードの変換、解析および／または操作によって判定され得る。アウトカムの判定は、いくつかの実施形態において、妊婦由来の核酸の解析を含む。ある特定の実施形態において、妊婦から得られたカウント（例えば、正規化されたカウント、リード密度、リード密度プロファイル）に従って、アウトカムが判定され、ここで、それらのカウントは、その妊婦から得られた核酸からのカウントである。

本明細書中に記載される方法は、胎児を有する妊婦由来のテストサンプルに対する、胎児の異数性（例えば、完全な染色体異数性、部分的な染色体異数性または分節性の染色体異常（例えば、モザイク現象、欠失および／または挿入））の存在もしくは非存在を判定するときがある。ある特定の実施形態において、本明細書中に記載される方法は、胎児を有する妊婦由来のサンプルに対して、正倍数性または正倍数性の欠如（非正倍数性）を検出する。本明細書中に記載される方法は、１本またはそれを超える染色体（例えば、１３番染色体、１８番染色体、２１番染色体またはそれらの組み合わせ）またはそれらのセグメントに対するトリソミーを検出するときがある。

いくつかの実施形態において、遺伝的変異（例えば、胎児の異数性）の存在もしくは非存在は、本明細書中に記載される方法、当該分野で公知の方法またはそれらの組み合わせによって判定される。遺伝的変異の存在もしくは非存在は、通常、参照ゲノムの部分にマッピングされた配列リードのカウントから判定される。

参照からのリード密度は、テストサンプルを得た同じ妊婦由来の核酸サンプルに対するものであるときがある。ある特定の実施形態において、参照からのリード密度は、テストサンプルを得た女性とは異なる１人またはそれを超える妊婦由来の核酸サンプルに対するものである。いくつかの実施形態において、試験被験体由来の（ｆｏｒｍ）第１の部分セットからのリード密度および／またはリード密度プロファイルは、第２の部分セットからのリード密度および／またはリード密度プロファイルと比較され、ここで、その第２の部分セットは、第１の部分セットとは異なる。いくつかの実施形態において、試験被験体由来の第１の部分セットからのリード密度および／またはリード密度プロファイルは、第２の部分セットからのリード密度および／またはリード密度プロファイルと比較され、ここで、その第２の部分セットは、その試験被験体由来であるか、またはその試験被験体ではない参照被験体由来である。非限定的な例において、第１の部分セットが、２１番染色体またはそのセグメントにおけるものである場合、第２の部分セットは、別の染色体（例えば、１番染色体、１３番染色体、１４番染色体、１８番染色体、１９番染色体、それらのセグメントまたは前述のものの組み合わせ）におけるものであることが多い。参照は、通常正倍数性である染色体またはそのセグメントに位置することが多い。例えば、１番染色体および１９番染色体の異数性に関連する早期胎児死亡率が高いことから、１番染色体および１９番染色体は、胎児において正倍数性であることが多い。試験被験体由来のリード密度および／またはリード密度プロファイルと参照との間の不確定性の尺度が、生成および／または比較され得る。遺伝的変異（例えば、胎児の異数性）の存在もしくは非存在は、試験被験体由来のリード密度および／またはリード密度プロファイルと参照とを比較せずに判定されるときがある。

ある特定の実施形態において、参照は、試験被験体と同じ部分セットに対するリード密度および／またはリードプロファイルを含み、ここで、その参照に対するリード密度は、１つまたはそれを超える参照サンプル由来である（例えば、複数の参照被験体由来の複数の参照サンプル由来であることが多い）。参照サンプルは、テストサンプルを得た女性とは異なる１人またはそれを超える妊婦由来であることが多い。

試験被験体および／または参照のリード密度および／またはリードプロファイルに対する不確定性の尺度が生成され得る。いくつかの実施形態において、試験被験体のリード密度および／またはリードプロファイルに対する不確定性の尺度が決定される。いくつかの実施形態において、参照被験体のリード密度および／またはリードプロファイルに対する不確定性の尺度が決定される。いくつかの実施形態において、リード密度プロファイル全体またはリード密度プロファイル内の部分のサブセットから不確定性の尺度が決定される。

いくつかの実施形態において、参照サンプルは、ゲノムの選択されたセグメントに対して正倍数性であり、その選択されたセグメントに対して試験プロファイルと参照プロファイルとの間の不確定性の尺度が評価される。いくつかの実施形態において、遺伝的変異の存在もしくは非存在の判定は、ゲノム（例えば、染色体またはそのセグメント）の選択されたセグメントに対する試験プロファイルと参照プロファイルとの間の偏差の数値（例えば、偏差の尺度、ＭＡＤ）に従う。いくつかの実施形態において、試験プロファイルと参照プロファイルとの間の偏差の数値が、約１より大きいか、約１．５より大きいか、約２より大きいか、約２．５より大きいか、約２．６より大きいか、約２．７より大きいか、約２．８より大きいか、約２．９より大きいか、約３より大きいか、約３．１より大きいか、約３．２より大きいか、約３．３より大きいか、約３．４より大きいか、約３．５より大きいか、約４より大きいか、約５より大きいか、または約６より大きいとき、遺伝的変異が存在すると判定される。例えば、試験プロファイルおよび参照プロファイルは、３という偏差の尺度（例えば、３シグマ、３ＭＡＤ）を超えて異なるときがあり、遺伝的変異が存在すると判定される。いくつかの実施形態において、妊婦から得られた試験プロファイルは、３より大きい偏差の尺度（例えば、３シグマ、３ＭＡＤ）だけ参照プロファイルより大きく、胎児の染色体異数性（例えば、胎児のトリソミー）が存在すると判定される。試験プロファイルと参照プロファイルとの間の３より大きい偏差は、ゲノムの選択されたセグメントに対して、試験被験体が非正倍数性であること（例えば、遺伝的変異が存在すること）を示唆することが多い。ゲノムの選択されたセグメントに対する参照プロファイル（この参照は、選択されたセグメントに対して正倍数性である）よりも有意に大きい試験プロファイルは、トリソミーを判定するときがある。いくつかの実施形態において、妊婦から得られたリード密度プロファイルは、３という偏差の尺度（例えば、３シグマ、３ＭＡＤ）を超えて、選択されたセグメントに対する参照プロファイルより小さく、胎児の染色体異数性（例えば、胎児のモノソミー）が存在すると判定される。参照プロファイルより有意に小さい試験プロファイル（この参照プロファイルは正倍数性を示唆する）は、モノソミーを判定するときがある。

いくつかの実施形態において、ゲノムの選択されたセグメントに対する試験プロファイルと参照プロファイルとの間の偏差の数値が、約３．５未満、約３．４未満、約３．３未満、約３．２未満、約３．１未満、約３．０未満、約２．９未満、約２．８未満、約２．７未満、約２．６未満、約２．５未満、約２．０未満、約１．５未満または約１．０未満であるとき、遺伝的変異が存在しないと判定される。例えば、試験プロファイルは、３という偏差の尺度（例えば、３シグマ、３ＭＡＤ）未満だけ参照プロファイルと異なるときがあり、遺伝的変異が存在しないと判定される。いくつかの実施形態において、妊婦から得られた試験プロファイルは、３という偏差の尺度（例えば、３シグマ、３ＭＡＤ）未満だけ参照プロファイルと異なり、胎児の染色体異数性が存在しない（例えば、胎児の正倍数性）と判定される。いくつかの実施形態において、（例えば、試験プロファイルと参照プロファイルとの間の３未満の偏差（例えば、標準偏差に対する３シグマ）は、正倍数性である（例えば、遺伝的変異が存在しない）ゲノムのセグメントを示唆することが多い。テストサンプルに対する試験プロファイルと１つまたはそれを超える参照被験体に対する参照プロファイルとの間の偏差の尺度が、プロットされ、可視化され得る（例えば、ｚ得点プロット）。

他の任意の好適な参照が、テストサンプルの試験領域（例えば、試験されるゲノムのセグメント）に対する遺伝的変異の存在もしくは非存在の判定（または正倍数性もしくは非正倍数性の判定）のために、試験プロファイルとともに考慮され得る。いくつかの実施形態において、胎児分率の測定は、遺伝的変異の存在もしくは非存在を判定するために、配列リード（例えば、リード密度）のカウントとともに考慮され得る。例えば、リード密度および／またはリード密度プロファイルは、比較および／またはアウトカムの判定の前に、胎児分率に従って正規化され得る。胎児分率を数値化するための好適なプロセスを用いることができ、その非限定的な例としては、質量分析プロセス、配列決定プロセスまたはそれらの組み合わせが挙げられる。

いくつかの実施形態において、遺伝的変異（例えば、胎児の異数性）の存在もしくは非存在の判定は、コールゾーン（ｃａｌｌｚｏｎｅ）に従って判定される。ある特定の実施形態において、ある値（例えば、リード密度プロファイルおよび／または不確定性の尺度）または値の集合が、予め定義された範囲（例えば、ゾーン、コールゾーン）に入るとき、コールが行われる（例えば、遺伝的変異の存在もしくは非存在、例えば、アウトカムを判定するコール）。いくつかの実施形態において、コールゾーンは、同じ患者サンプルから得られた値の集合（例えば、リード密度プロファイルおよび／または不確定性の尺度）に従って定義される。ある特定の実施形態において、コールゾーンは、同じ染色体またはそのセグメントから得られた値の集合に従って定義される。いくつかの実施形態において、遺伝的変異の判定に基づくコールゾーンは、不確定性の尺度（例えば、高い信頼水準、例えば、低い不確定性の尺度）および／または胎児分率に従って定義される。

いくつかの実施形態において、コールゾーンは、遺伝的変異の判定、および約２．０％もしくはそれを超えるか、約２．５％もしくはそれを超えるか、約３％もしくはそれを超えるか、約３．２５％もしくはそれを超えるか、約３．５％もしくはそれを超えるか、約３．７５％もしくはそれを超えるか、または約４．０％もしくはそれを超える胎児分率に従って定義される。例えば、いくつかの実施形態において、試験プロファイルを得たテストサンプルが、胎児を有する妊婦から得られたテストサンプルに対して２％もしくはそれを超えるかまたは４％もしくはそれを超える胎児分率の判定を含む場合、試験プロファイルと参照プロファイルとの比較に基づいて、胎児がトリソミー２１を含むというコールが行われる。例えば、いくつかの実施形態において、試験プロファイルを得たテストサンプルが、胎児を有する妊婦から得られたテストサンプルに対して２％もしくはそれを超えるかまたは４％もしくはそれを超える胎児分率の判定を含む場合、試験プロファイルと参照プロファイルとの比較に基づいて、胎児が正倍数性であるというコールが行われる。いくつかの実施形態において、コールゾーンは、約９９％もしくはそれを超えるか、約９９．１％もしくはそれを超えるか、約９９．２％もしくはそれを超えるか、約９９．３％もしくはそれを超えるか、約９９．４％もしくはそれを超えるか、約９９．５％もしくはそれを超えるか、約９９．６％もしくはそれを超えるか、約９９．７％もしくはそれを超えるか、約９９．８％もしくはそれを超えるか、または約９９．９％もしくはそれを超える信頼水準によって定義される。いくつかの実施形態において、コールゾーンを用いずに、コールが行われる。いくつかの実施形態において、コールゾーンおよびさらなるデータまたは情報を用いて、コールが行われる。いくつかの実施形態において、コールゾーンを使用しない比較に基づいて、コールが行われる。いくつかの実施形態において、プロファイルの目視検査（例えば、リード密度の目視検査）に基づいて、コールが行われる。

いくつかの実施形態において、無コールゾーン（ｎｏ−ｃａｌｌｚｏｎｅ）は、コールが行われないゾーンである。いくつかの実施形態において、無コールゾーンは、精度が低いこと、リスクが高いこと、誤差が大きいこと、信頼水準が低いこと、不確定性の尺度が大きいことなどまたはそれらの組み合わせを示唆する値または値の集合によって定義される。いくつかの実施形態において、無コールゾーンは、約５％もしくはそれ未満、約４％もしくはそれ未満、約３％もしくはそれ未満、約２．５％もしくはそれ未満、約２．０％もしくはそれ未満、約１．５％もしくはそれ未満または約１．０％もしくはそれ未満の胎児分率によって部分的に定義される。

遺伝的変異は、医学的症状に関連するときがある。遺伝的変異を判定するアウトカムは、症状（例えば、医学的症状）、疾患、症候群もしくは異常の存在もしくは非存在を判定するアウトカムであるときがあるか、または症状、疾患、症候群もしくは異常（例えば、表１に列挙される非限定的な例）の検出を含む。ある特定の実施形態において、診断は、アウトカムの評価を含む。本明細書中に記載される方法によって症状（例えば、医学的症状）、疾患、症候群または異常の存在もしくは非存在を判定するアウトカムは、独立して、さらなる検査（例えば、核型分析および／または羊水穿刺）によって確認され得るときがある。データの解析および処理は、１つまたはそれを超えるアウトカムを提供し得る。用語「アウトカム」は、本明細書中で使用されるとき、遺伝的変異（例えば、異数性、コピー数変異）の存在もしくは非存在の判定を容易にする、データ処理の結果のことを指し得る。ある特定の実施形態において、用語「アウトカム」は、本明細書中で使用されるとき、遺伝的変異（例えば、異数性、コピー数変異）の存在もしくは非存在を予測するおよび／または判定する結論のことを指す。ある特定の実施形態において、用語「アウトカム」は、本明細書中で使用されるとき、被験体（例えば、胎児）における遺伝的変異（例えば、異数性、コピー数変異）の存在もしくは非存在のリスクまたは確率を予測するおよび／または判定する結論のことを指す。診断は、アウトカムの使用を含むときがある。例えば、健康の専門家（ｈｅａｌｔｈｐｒａｃｔｉｔｉｏｎｅｒ）は、アウトカムを解析し得、そのアウトカムに基づいてまたは部分的に基づいて診断を提供し得る。いくつかの実施形態において、症状、症候群または異常（例えば、表１に列挙されるもの）の判定、検出または診断は、遺伝的変異の存在もしくは非存在を判定するアウトカムの使用を含む。いくつかの実施形態において、マッピングされてカウントされた配列リードまたはその変換に基づくアウトカムは、遺伝的変異の存在もしくは非存在を判定する。ある特定の実施形態において、本明細書中に記載される１つまたはそれを超える方法（例えば、データ処理方法）を用いて生成されたアウトカムは、表１に列挙される１つまたはそれを超える症状、症候群または異常の存在もしくは非存在を判定する。ある特定の実施形態において、診断は、症状、症候群または異常の存在もしくは非存在の判定を含む。診断は、症状、症候群または異常の性質および／または原因として、遺伝的変異の判定を含むことが多い。ある特定の実施形態において、アウトカムは、診断ではない。アウトカムは、確率に関する１つまたはそれを超える考慮すべきものの文脈において、本明細書中に記載される処理方法を用いて生成された１つまたはそれを超える数値を含むことが多い。リスクまたは確率に関する考慮すべきものとしては、不確定性の尺度、信頼水準、感度、特異性、標準偏差、変動係数（ＣＶ）および／もしくは信頼水準、Ｚ得点、カイ値、ファイ値、倍数性値、当てはめられた胎児分率、面積比、中央値レベルなどまたはそれらの組み合わせが挙げられ得るが、これらに限定されない。確率に関する考慮すべきものは、被験体が、遺伝的変異を有するリスクがあるかまたは遺伝的変異を有するかを判定することを容易にし得、遺伝的障害の存在もしくは非存在を判定するアウトカムは、そのような考慮すべきものを含むことが多い。

アウトカムは、表現型であるときがある。アウトカムは、関連する信頼水準を有する表現型であるときがある（例えば、不確定性の尺度、例えば、胎児は、９９％の信頼水準でトリソミー２１が陽性であり、試験被験体は、９５％の信頼水準で遺伝的変異に関連する癌が陰性である）。アウトカムの値を生成する種々の方法が、種々のタイプの結果をもたらし得るときがある。通常、本明細書中に記載される方法を用いて生成されたアウトカムの値に基づいて生成され得る、あり得るスコアまたはコールには４タイプある：真陽性、偽陽性、真陰性および偽陰性。用語「スコア（ｓｃｏｒｅ）」、「スコア（ｓｃｏｒｅｓ）」、「コール（ｃａｌｌ）」および「コール（ｃａｌｌｓ）」は、本明細書中で使用されるとき、特定の遺伝的変異が被験体／サンプルに存在するかまたは存在しない確率を算出することを指す。あるスコアの値は、例えば、遺伝的変異に対応し得る、マッピングされた配列リードの変動、差異または比率を決定するために使用され得る。例えば、参照ゲノムに対して、あるデータセットからの選択された遺伝的変異または部分について陽性のスコアを算出することによって、遺伝的変異の存在もしくは非存在が特定され得、その遺伝的変異は、医学的症状（例えば、癌、子癇前症、トリソミー、モノソミーなど）に関連するときがある。いくつかの実施形態において、アウトカムは、リード密度、リード密度プロファイルおよび／またはプロット（例えば、プロファイルプロット）を含む。アウトカムが、あるプロファイルを含むそれらの実施形態において、好適なプロファイルまたはプロファイルの組み合わせが、アウトカムのために使用され得る。アウトカムのために使用され得るプロファイルの非限定的な例としては、ｚ得点プロファイル、ｐ値プロファイル、カイ値プロファイル、ファイ値プロファイルなどおよびそれらの組み合わせが挙げられる。

遺伝的変異の存在もしくは非存在を判定するために生成されたアウトカムは、無意味な結果（ｎｕｌｌｒｅｓｕｌｔ）（例えば、２つのクラスターの間のデータポイント、遺伝的変異の存在と非存在の両方に対する値を包含する標準偏差を伴う数値、調査されている遺伝的変異を有するかまたは有しない被験体に対するプロファイルプロットに似ていないプロファイルプロットを有するデータセット）を含むときがある。いくつかの実施形態において、無意味な結果を示唆するアウトカムは、なおも確定的な結果であり、その判定は、遺伝的変異の存在もしくは非存在を判定するためのさらなる情報および／またはデータ生成の繰り返しおよび／または解析の必要性を含み得る。

アウトカムは、いくつかの実施形態において、本明細書中に記載される１つまたはそれを超える処理工程を行った後に生成され得る。ある特定の実施形態において、アウトカムは、本明細書中に記載される処理工程の１つの結果として生成され、いくつかの実施形態において、アウトカムは、データセットの各統計的操作および／または各数学的操作が行われた後に生成され得る。遺伝的変異の存在もしくは非存在の判定に関するアウトカムは、好適な形態で表現され得、その形態としては、被験体またはサンプルに対する遺伝的変異の存在もしくは非存在に関連する、確率（例えば、オッズ比、ｐ値）、尤度、クラスターの中もしくは外の値、閾値を上回るもしくは下回る値、範囲（例えば、しきい値範囲）内の値、分散もしくは信頼の尺度を伴う値、または危険因子が挙げられるが、これらに限定されない。ある特定の実施形態において、サンプル間の比較は、サンプルの同一性の確認を可能にする（例えば、繰り返されたサンプルおよび／または混同された（例えば、誤って標識された、混合されたなど）サンプルの識別を可能にする）。

いくつかの実施形態において、アウトカムは、所定の閾値もしくはカットオフ値を上回るもしくは下回る値、および／またはその値に関連する不確定性の尺度もしくは信頼水準を含む。ある特定の実施形態において、所定の閾値またはカットオフ値は、予想されるレベルまたは予想されるレベル範囲である。アウトカムは、データ処理において使用される仮定も説明し得る。ある特定の実施形態において、アウトカムは、値の所定の範囲（例えば、しきい値範囲）に入るかまたは入らない値、およびその範囲の内側または外側の値に対する関連する不確定性または信頼水準を含む。いくつかの実施形態において、アウトカムは、所定の値に等しい（例えば、１に等しい、ゼロに等しい）かまたは所定の値の範囲内の値に等しい値、およびある範囲に等しいか、範囲内または範囲外である値に対するその関連する不確定性または信頼水準を含む。アウトカムは、プロット（例えば、プロファイルプロット）としてグラフを用いて表されるときがある。

上で述べたように、アウトカムは、真陽性、真陰性、偽陽性または偽陰性として特徴づけられ得る。用語「真陽性」は、本明細書中で使用されるとき、遺伝的変異を有すると正しく診断された被験体のことを指す。用語「偽陽性」は、本明細書中で使用されるとき、遺伝的変異を有すると誤って識別された被験体のことを指す。用語「真陰性」は、本明細書中で使用されるとき、遺伝的変異を有しないと正しく識別された被験体のことを指す。用語「偽陰性」は、本明細書中で使用されるとき、遺伝的変異を有しないと誤って識別された被験体のことを指す。任意の所与の方法に対する性能の２つの尺度は、これらの発生の比率に基づいて算出され得る：（ｉ）一般に、陽性であると正しく識別される、予測される陽性の割合である感度値；および（ｉｉ）一般に、陰性であると正しく識別される、予測される陰性の割合である特異性値。

ある特定の実施形態において、感度、特異性および／または信頼水準の１つまたはそれを超えるものが、パーセンテージとして表現される。いくつかの実施形態において、そのパーセンテージは、各変数に対して独立して、約９０％超（例えば、約９０、９１、９２、９３、９４、９５、９６、９７、９８もしくは９９％または９９％超（例えば、約９９．５％またはそれを超える、約９９．９％またはそれを超える、約９９．９５％またはそれを超える、約９９．９９％またはそれを超える））である。変動係数（ＣＶ）は、いくつかの実施形態において、パーセンテージとして表現され、そのパーセンテージは、約１０％またはそれ未満（例えば、約１０、９、８、７、６、５、４、３、２もしくは１％または１％未満（例えば、約０．５％またはそれ未満、約０．１％またはそれ未満、約０．０５％またはそれ未満、約０．０１％またはそれ未満））であるときがある。確率（例えば、特定のアウトカムが偶然に起因しない確率）は、ある特定の実施形態において、Ｚ得点、ｐ値、またはｔ検定の結果として表現される。いくつかの実施形態において、あるアウトカムに対する計測された分散、信頼区間、感度、特異性など（例えば、集合的に信頼パラメータと称される）は、本明細書中に記載される１つまたはそれを超えるデータ処理操作を用いて生成され得る。アウトカムおよび関連する信頼水準を生成する具体例は、実施例の項および国際特許出願番号ＰＣＴ／ＵＳ１２／５９１２３（ＷＯ２０１３／０５２９１３）（本文、表、式および図面のすべてを含むこの全内容が参照により本明細書中に組み込まれる）に記載されている。

用語「感度」は、本明細書中で使用されるとき、真陽性の数＋偽陰性の数で除算された真陽性の数のことを指し、ここで、感度（ｓｅｎｓ）は、０≦ｓｅｎｓ≦１の範囲内であり得る。用語「特異性」は、本明細書中で使用されるとき、真陰性の数＋偽陽性の数で除算された真陰性の数のことを指し、ここで、感度（ｓｐｅｃ）は、０≦ｓｐｅｃ≦１の範囲内であり得る。いくつかの実施形態において、１、すなわち１００％に等しいかまたは１に近い（例えば、約９０％〜約９９％の）感度および特異性を有する方法が選択されるときがある。いくつかの実施形態において、１すなわち１００％に等しい感度を有する方法が選択され、ある特定の実施形態において、１に近い感度（例えば、約９０％の感度、約９１％の感度、約９２％の感度、約９３％の感度、約９４％の感度、約９５％の感度、約９６％の感度、約９７％の感度、約９８％の感度または約９９％の感度）を有する方法が選択される。いくつかの実施形態において、１すなわち１００％に等しい特異性を有する方法が選択され、ある特定の実施形態において、１に近い特異性（例えば、約９０％の特異性、約９１％の特異性、約９２％の特異性、約９３％の特異性、約９４％の特異性、約９５％の特異性、約９６％の特異性、約９７％の特異性、約９８％の特異性または約９９％の特異性）を有する方法が選択される。

いくつかの実施形態において、遺伝的変異の存在もしくは非存在（例えば、染色体異数性）は、胎児に対して判定される。そのような実施形態では、胎児の遺伝的変異（例えば、胎児の染色体異数性）の存在もしくは非存在が判定される。

ある特定の実施形態において、遺伝的変異（例えば、染色体異数性）の存在もしくは非存在は、サンプルに対して判定される。そのような実施形態では、サンプル核酸における遺伝的変異（例えば、染色体異数性）の存在もしくは非存在が判定される。いくつかの実施形態において、検出された変動または検出されない変動は、１つの供給源由来のサンプル核酸に存在するが、別の供給源由来のサンプル核酸には存在しない。供給源の非限定的な例としては、胎盤の核酸、胎児の核酸、母体の核酸、癌細胞の核酸、非癌細胞の核酸などおよびそれらの組み合わせが挙げられる。非限定的な例において、検出されるまたは検出されない特定の遺伝的変異は、（ｉ）胎盤の核酸に存在するが、胎児核酸には存在せず、母体核酸にも存在しないか；（ｉｉ）胎児核酸に存在するが、母体の核酸には存在しないか；または（ｉｉｉ）母体の核酸に存在するが、胎児の核酸には存在しない。

遺伝的変異および／または関連する医学的症状の存在もしくは非存在（例えば、アウトカム）は、アウトカムモジュールによって提供されることが多い。遺伝的変異（例えば、異数性、胎児の異数性、コピー数変異）の存在もしくは非存在は、いくつかの実施形態において、アウトカムモジュールまたはアウトカムモジュールを備える機器によって識別される。アウトカムモジュールは、特定の遺伝的変異（例えば、トリソミー、トリソミー２１、トリソミー１８）を判定するために特殊化され得る。例えば、トリソミー２１を識別するアウトカムモジュールは、トリソミー１８を識別するアウトカムモジュールとは異なり得、かつ／または別個のものであり得る。いくつかの実施形態において、アウトカムモジュールまたはアウトカムモジュールを備える機器は、遺伝的変異または遺伝的変異（例えば、異数性、コピー数変異）を判定するアウトカムを識別するために必要とされる。ある特定の実施形態において、アウトカムは、アウトカムモジュールから表示モジュールに移され、ここで、アウトカムは、表示モジュールによって提供される。

本明細書中に記載される方法によって識別される遺伝的変異または遺伝的変異を判定するアウトカムは、独立して、さらなる検査（例えば、母体および／または胎児の核酸の標的化された配列決定）によって確かめられ得る。アウトカムは、通常、ヘルスケアの専門家（例えば、検査技師または管理者；医師または補助者）に提供される。ある特定の実施形態において、アウトカムは、好適な視覚媒体（例えば、機器の周辺装置または構成要素、例えば、プリンターまたはディスプレイ）上に提供される。いくつかの実施形態において、遺伝的変異の存在もしくは非存在を判定するアウトカムは、ヘルスケアの専門家にレポートの形態で提供され、ある特定の実施形態において、そのレポートは、アウトカム値および関連する信頼パラメータの表示を含む。一般に、アウトカムは、遺伝的変異および／または医学的症状の存在もしくは非存在の判定を容易にする好適な形式で表示され得る。データセットを報告するためおよび／もしくは表示するためまたはアウトカムを報告するための使用に適した形式の非限定的な例としては、デジタルデータ、グラフ、２Ｄグラフ、３Ｄグラフおよび４Ｄグラフ、写真（例えば、ｊｐｇ、ｂｉｔｍａｐ（例えば、ｂｍｐ）、ｐｄｆ、ｔｉｆｆ、ｇｉｆ、ｒａｗ、ｐｎｇなどまたは好適な形式）、ピクトグラフ、チャート、表、棒グラフ、円グラフ、ダイアグラム、フローチャート、散布図、マップ、ヒストグラム、密度チャート、関数グラフ、回路図、ブロック図、バブルマップ、信号空間ダイアグラム、等高線図、統計地図、スパイダーチャート、ベン図、ノモグラムなどおよび前述のものの組み合わせが挙げられる。

アウトカムの生成は、ある特定の実施形態において、核酸配列リードデータなどから、被験体の細胞性核酸の提示への変換とみなされ得る。例えば、被験体由来の核酸の配列リードの解析、ならびに染色体プロファイルおよび／またはアウトカムの生成は、比較的小さい配列リードフラグメントから比較的大きい染色体構造の提示への変換とみなされ得る。いくつかの実施形態において、アウトカムは、被験体（例えば、妊婦）由来の配列リードから、その被験体に存在する既存の構造（例えば、ゲノム、染色体またはそのセグメント）（例えば、母体のおよび／または胎児の核酸）の提示への変換から生じる。いくつかの実施形態において、アウトカムは、第１の被験体（例えば、妊婦）からの配列リードから、構造（例えば、ゲノム、染色体またはそのセグメント）の複合的な提示への変換、ならびに第１の被験体（例えば、妊婦）および／または第２の被験体（例えば、胎児）に存在する構造の提示をもたらすその複合的な提示の第２の変換を含む。
アウトカムの使用

遺伝的変異の存在もしくは非存在を判定する１つまたはそれを超えるアウトカムを含むレポートを受け取るヘルスケアの専門家または他の資格のある個人は、試験被験体または患者の状態に関するコールを行うために、そのレポートの中に表示されたデータを使用し得る。ヘルスケアの専門家は、いくつかの実施形態において、提供されたアウトカムに基づいて勧告し得る。ヘルスケアの専門家または資格のある個人は、いくつかの実施形態において、レポートに提供されたアウトカム値および関連する信頼パラメータに基づいて、遺伝的変異の存在もしくは非存在に関するコールまたはスコアを試験被験体または患者に提供し得る。ある特定の実施形態において、スコアまたはコールは、提供されたレポートの目視観察によって、ヘルスケアの専門家または資格のある個人によって手作業で生成される。ある特定の実施形態において、スコアまたはコールは、ソフトウェアに組み込まれているときがある自動化されたルーチンによって生成され、試験被験体または患者に情報を提供する前に、ヘルスケアの専門家または資格のある個人によって精度について再検討される。用語「レポートを受け取る」は、本明細書中で使用されるとき、再検討の際にヘルスケアの専門家または他の資格のある個人が試験被験体または患者における遺伝的変異の存在もしくは非存在に関する判定を行うことを可能にする、アウトカムを含む書面および／またはグラフによる提示をコミュニケーション手段によって得ることを指す。そのレポートは、コンピュータ、または人間によるデータ入力によって生成され得、電子的手段を用いて（例えば、インターネットによって、コンピュータを介して、ファックスを介して、同じまたは異なる物理的位置における１つのネットワーク場所から別の場所へ）、またはデータを送受信する他の方法（例えば、メールサービス、クーリエサービスなど）によって、伝達され得る。いくつかの実施形態において、アウトカムは、口頭、文書またはファイル形態を含むがこれらに限定されない好適な媒体でヘルスケアの専門家に伝えられる。そのファイルは、例えば、音声ファイル、コンピュータ可読ファイル、紙のファイル、検査ファイル（ｌａｂｏｒａｔｏｒｙｆｉｌｅ）または医療記録ファイルであり得るが、これらに限定されない。

用語「アウトカムを提供する」およびその文法上の等価物は、本明細書中で使用されるとき、そのような情報を得るための方法のことも指し得、その方法には、検査室からの情報（例えば、検査ファイル）を得るための方法が含まれるが、これに限定されない。検査ファイルは、医学的症状の存在もしくは非存在を判定するために１つもしくはそれを超えるアッセイまたは１つもしくはそれを超えるデータ処理工程を行った検査室によって生成され得る。その検査室は、検査ファイルから医学的症状の存在もしくは非存在を識別する人員と同じ場所または異なる場所（例えば、別の国）に存在し得る。例えば、検査ファイルが、１つの場所において生成され、別の場所に伝えられ得、その別の場所において、そのファイルの中の情報が妊婦被験体に伝えられる。検査ファイルは、ある特定の実施形態において、有形の形態または電子的形態（例えば、コンピュータ可読形態）であり得る。

いくつかの実施形態において、アウトカムは、検査室からヘルスケアの専門家、医師または資格のある個人に提供され得、そのヘルスケアの専門家、医師または資格のある個人は、そのアウトカムに基づいて診断を行い得る。いくつかの実施形態において、アウトカムは、検査室からヘルスケアの専門家、医師または資格のある個人に提供され得、そのヘルスケアの専門家、医師または資格のある個人は、さらなるデータおよび／または情報ならびに他のアウトカムとともに、そのアウトカムに部分的に基づいて診断を行い得る。

ヘルスケアの専門家または資格のある個人は、そのアウトカムまたはレポートの中に提供されているアウトカムに基づいて、好適な勧告を提供し得る。提供されたアウトカムのレポートに基づいて提供され得る勧告の非限定的な例としては、手術、放射線治療、化学療法、遺伝相談、産後の処置の解決策（例えば、生活設計、長期間にわたる補助介護、医薬、対症療法）、妊娠中絶、臓器移植、輸血などまたは前述のものの組み合わせが挙げられる。いくつかの実施形態において、勧告は、提供されるアウトカムに基づく分類（例えば、ダウン症候群、ターナー症候群、Ｔ１３における遺伝的変異に関連する医学的症状、Ｔ１８における遺伝的変異に関連する医学的症状）に依存する。

検査室の人員（例えば、検査室の管理者）は、遺伝的変異の存在もしくは非存在の判定（または試験領域に対する正倍数性もしくは非正倍数性の判定）の基礎をなす値（例えば、試験プロファイル、参照プロファイル、偏差のレベル）を解析し得る。近いまたは疑わしい遺伝的変異の存在もしくは非存在に関するコールの場合、検査室の人員は、同じテストを再要求し得、かつ／または試験被験体由来の同じもしくは異なるサンプル核酸を利用した異なるテスト（例えば、胎児の異数性の判定の場合、核型分析および／または羊水穿刺）を要求し得る。
機器、ソフトウェアおよびインターフェース

本明細書中に記載されるある特定のプロセスおよび方法（例えば、配列リード、カウント、レベル（例えば、レベル）および／またはプロファイルの定量、マッピング、正規化、範囲設定、調整、カテゴリー化、カウントおよび／または測定）は、コンピュータ、マイクロプロセッサ、ソフトウェア、モジュールまたは他の機器なしでは行うことができないことが多い。本明細書中に記載される方法は、通常、コンピュータによって履行される方法であり、ある方法の１つまたはそれを超える部分が、１つまたはそれを超えるプロセッサ（例えば、マイクロプロセッサ）、コンピュータ、またはマイクロプロセッサによって制御された機器によって行われるときがある。本文書に記載されている方法に関する実施形態は、通常、本明細書中に記載されるシステム、機器およびコンピュータプログラム製品における指示によって履行される同じまたは関連するプロセスに適用可能である。本文書に記載されている方法に関する実施形態は、通常、実行可能なプログラムを格納している非一時的なコンピュータ可読記憶媒体によって履行される、同じまたは関連するプロセスに適用可能であり得、そのプログラムは、マイクロプロセッサに上記方法またはその一部を行うように指示する。いくつかの実施形態において、本明細書中に記載されるプロセスおよび方法（例えば、配列リード、カウント、レベルおよび／またはプロファイルを定量する、カウントする、および／または決定する方法）は、自動化された方法によって行われる。いくつかの実施形態において、１つまたはそれを超える工程および本明細書中に記載される方法は、マイクロプロセッサおよび／もしくはコンピュータによって行われ、かつ／またはメモリーと連動して行われる。いくつかの実施形態において、自動化された方法は、配列リード、カウント、マッピング、マッピングされた配列タグ、レベル、プロファイル、正規化、比較、範囲設定、カテゴリー化、調整、プロッティング、アウトカム、変換および識別を明らかにする、ソフトウェア、モジュール、マイクロプロセッサ、周辺装置および／または同様のものを備える機器に組み込まれている。本明細書中で使用されるとき、ソフトウェアとは、マイクロプロセッサによって実行されたとき、本明細書中に記載されるようなコンピュータ操作を行うコンピュータ可読プログラムの指示のことを指す。

試験被験体（例えば、患者、妊婦）および／または参照被験体から得られた配列リード、カウント、レベルおよびプロファイルは、コピー数変異の存在もしくは非存在を判定するために、さらに解析され、処理され得る。配列リード、カウント、レベルおよび／またはプロファイルは、「データ」または「データセット」と称されるときがある。いくつかの実施形態において、データまたはデータセットは、１つまたはそれを超える特徴または変数（例えば、配列に基づくもの［例えば、ＧＣ含有量、特定のヌクレオチド配列など］、機能特異的なもの［例えば、発現された遺伝子、癌遺伝子など］、場所に基づくもの［ゲノム特異的、染色体特異的、部分または部分特異的］などおよびそれらの組み合わせ）によって特徴づけられ得る。ある特定の実施形態において、データまたはデータセットは、１つまたはそれを超える特徴または変数に基づいて、２次元またはそれを超える次元を有する行列に配置され得る。行列に配置されるデータは、任意の好適な特徴または変数を用いて配置され得る。行列の中のデータの非限定的な例としては、母体の年齢、母体の倍数性および胎児の寄与ごとに配置されるデータが挙げられる。ある特定の実施形態において、１つまたはそれを超える特徴または変数によって特徴づけられるデータセットは、カウントした後に処理されるときがある。

本明細書中に記載される方法を行うために、機器、ソフトウェアおよびインターフェースが使用され得る。機器、ソフトウェアおよびインターフェースを使用するとき、ユーザーは、例えば、統計解析アルゴリズム、統計的有意性アルゴリズム、統計的アルゴリズム、繰り返し工程、検証アルゴリズムおよびグラフ表示の履行を含み得る、特定の情報、プログラムまたはプロセスを使用するためのオプションを入力し得るか、要求し得るか、照会し得るか、または決定し得る（例えば、配列リードのマッピング、マッピングされたデータの処理および／またはアウトカムの提供）。いくつかの実施形態において、データセットは、入力情報としてユーザーによって入力され得、ユーザーは、好適なハードウェア媒体（例えば、フラッシュドライブ）によって１つまたはそれを超えるデータセットをダウンロードし得、および／またはユーザーは、その後の処理および／またはアウトカムの提供のために１つのシステムから別のシステムにデータセットを送信し得る（例えば、配列リードのマッピングのために、シークエンサーからコンピュータシステムに配列リードデータを送信し得る；アウトカムおよび／またはレポートの処理および生成のために、マッピングされた配列データをコンピュータシステムに送信し得る）。

システムは、通常、１つまたはそれを超える機器を備える。各機器は、１つまたはそれを超えるメモリー、１つまたはそれを超えるマイクロプロセッサ、および指示を備える。あるシステムが、２つまたはそれを超える機器を備える場合、それらの機器のいくつかまたはすべてが、同じ場所に存在してもよいし、それらの機器のいくつかまたはすべてが、異なる場所に存在してもよいし、それらの機器のすべてが、１つの場所に存在してもよいし、かつ／またはそれらの機器のすべてが、異なる場所に存在してもよい。あるシステムが、２つまたはそれを超える機器を備える場合、それらの機器のいくつかまたはすべてが、ユーザーと同じ場所に存在してもよいし、それらの機器のいくつかまたはすべてが、ユーザーと異なる場所に存在してもよいし、それらの機器のすべてが、ユーザーと同じ場所に存在してもよいし、かつ／またはそれらの機器のすべてが、ユーザーと異なる１つもしくはそれを超える場所に存在してもよい。

システムは、計算機および配列決定装置または配列決定機器を備えるときがあり、その配列決定装置または配列決定機器は、物理的な核酸を受け取って配列リードを生成するように構成されており、計算装置は、配列決定装置または配列決定機器からのリードを処理するように構成されている。その計算機は、配列リードから遺伝的変異の存在もしくは非存在（例えば、コピー数変異；胎児の染色体異数性）を判定するように構成されているときがある。

ユーザーは、例えば、ソフトウェアにクエリーを入れ得、次いで、そのソフトウェアは、インターネットアクセスを介してデータセットを取得し得、ある特定の実施形態では、プログラマブルマイクロプロセッサが、所与のパラメータに基づいて好適なデータセットを取得するように促され得る。プログラマブルマイクロプロセッサはまた、所与のパラメータに基づいてそのマイクロプロセッサによって選択された１つまたはそれを超えるデータセットオプションを選択するようにユーザーに促し得る。プログラマブルマイクロプロセッサは、インターネットを介して見つけ出された情報、他の内部情報または外部情報などに基づいてそのマイクロプロセッサによって選択された１つまたはそれを超えるデータセットオプションを選択するようにユーザーに促し得る。オプションは、方法、機器、装置、コンピュータプログラム、または実行可能なプログラムが格納されている非一時的なコンピュータ可読記憶媒体の、１つまたはそれを超えるデータ特徴の選択、１つまたはそれを超える統計的アルゴリズム、１つまたはそれを超える統計解析アルゴリズム、１つまたはそれを超える統計的有意性アルゴリズム、繰り返し工程、１つまたはそれを超える検証アルゴリズム、および１つまたはそれを超えるグラフ表示を選択するために選択され得る。

本明細書中で述べられるシステムは、コンピュータシステムの一般的な構成要素（例えば、ネットワークサーバー、ラップトップ型システム、デスクトップ型システム、手持ち式システム、携帯情報端末、コンピューティングキオスクなど）を備え得る。コンピュータシステムは、１つまたはそれを超える入力手段、例えば、キーボード、タッチスクリーン、マウス、音声認識手段、またはユーザーがシステムにデータを入力することを可能にする他の手段を備え得る。システムは、表示画面（例えば、ＣＲＴまたはＬＣＤ）、スピーカー、ＦＡＸ機器、プリンター（例えば、レーザー、インクジェット、インパクト、モノクロまたはカラープリンター）、または情報（例えば、アウトカムおよび／またはレポート）の視覚的、聴覚的および／もしくはハードコピー出力を提供するのに有用な他の出力を含むがこれらに限定されない１つまたはそれを超える出力をさらに備え得る。

あるシステムにおいて、他の構成要素の中でもプログラムの指示を実行するためのマイクロプロセッサならびにプログラムコードおよびデータを格納するためのメモリーを備え得る中央処理装置に入力手段および出力手段が接続されていることがある。いくつかの実施形態において、プロセスは、単一の地理的位置に配置されたシングルユーザーシステムとして履行され得る。ある特定の実施形態において、プロセスは、マルチユーザーシステムとして履行され得る。マルチユーザーによる履行の場合、複数の中央処理装置が、ネットワークによって接続され得る。そのネットワークは、ある建物の一部分における単一の部門、建物全体を包含するローカルであり得るか、複数の建物にまたがり得るか、ある領域にまたがり得るか、一国全体にまたがり得るか、または世界中に及び得る。そのネットワークは、プライベートであり得、プロバイダーに所有され、制御されているか、またはユーザーがウェブページにアクセスして情報を入力して検索する、インターネットに基づくサービスとして履行され得る。したがって、ある特定の実施形態において、システムは、ユーザーに関してローカルまたはリモートであり得る１つまたはそれを超える機器を備える。１つの場所または複数の場所における１つより多い機器は、１人のユーザーによってアクセスされ得、データは、連続しておよび／または並行して、マッピングされ得るおよび／または処理され得る。したがって、好適な配置および制御は、複数の機器（例えば、ローカルネットワーク、リモートネットワークおよび／または「クラウド」コンピューティングプラットフォームにおけるもの）を用いてデータをマッピングするためおよび／または処理するために使用され得る。

いくつかの実施形態において、システムは、通信用インターフェースを備え得る。通信用インターフェースは、コンピュータシステムと１つまたはそれを超える外部デバイスとの間のソフトウェアおよびデータの移動を可能にする。通信用インターフェースの非限定的な例としては、モデム、ネットワークインターフェース（例えば、イーサネット（登録商標）カード）、通信ポート、ＰＣＭＣＩＡスロットおよびカードなどが挙げられる。通信用インターフェースを介して移動されるソフトウェアおよびデータは、通常、信号の形態であり、その信号は、通信用インターフェースによって受け取られることが可能な電子信号、電磁信号、光学信号および／または他の信号であり得る。信号は、回線を介して通信用インターフェースに提供されることが多い。回線は、信号を運ぶことが多く、ワイヤもしくはケーブル、光ファイバー、電話回線、携帯電話回線、ＲＦ回線および／または他の通信用回線を用いて構築され得る。したがって、一例において、通信用インターフェースは、信号検出モジュールによって検出され得る信号情報を受け取るために使用され得る。

データは、好適なデバイスおよび／または方法によって入力され得、それらとしては、手動入力デバイスまたは直接データ入力デバイス（ＤＤＥ）が挙げられるが、これらに限定されない。手動デバイスの非限定的な例としては、キーボード、コンセプトキーボード、タッチセンシティブスクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナー、デジタルカメラ、ビデオデジタイザおよび音声認識デバイスが挙げられる。ＤＤＥの非限定的な例としては、バーコードリーダ、磁気ストライプコード、スマートカード、磁気インキ文字認識、光学式文字認識、光学的マーク認識およびターンアラウンドドキュメントが挙げられる。

いくつかの実施形態において、配列決定装置または配列決定機器からの出力は、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、マッピングされた配列リードが、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸のフラグメントサイズ（例えば、長さ）が、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸捕捉プロセスからの出力（例えば、ゲノム領域起源データ）が、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、核酸のフラグメントサイズ（例えば、長さ）と、核酸捕捉プロセスからの出力（例えば、ゲノム領域起源データ）との組み合わせが、入力デバイスを介して入力され得るデータとして役立ち得る。ある特定の実施形態において、インシリコプロセスによってシミュレーションデータが生成され、そのシミュレーションデータは、入力デバイスを介して入力され得るデータとして役立つ。用語「インシリコ」とは、コンピュータを用いて行われる研究および実験のことを指す。インシリコプロセスとしては、本明細書中に記載されるプロセスに従って、配列リードをマッピングし、マッピングされた配列リードを処理することが挙げられるが、これらに限定されない。

システムは、本明細書中に記載されるプロセスを行うために有用なソフトウェアを備え得、ソフトウェアは、そのようなプロセスを行うための１つまたはそれを超えるモジュール（例えば、配列決定モジュール、論理処理モジュール、データ表示構築モジュール）を備え得る。用語「ソフトウェア」とは、コンピュータによって実行されたとき、コンピュータ操作を行うコンピュータ可読プログラムの指示のことを指す。１つまたはそれを超えるマイクロプロセッサによって実行可能な指示は、実行されたとき、１つまたはそれを超えるマイクロプロセッサに本明細書中に記載される方法を履行させ得る実行可能なコードとして提供されるときがある。本明細書中に記載されるモジュールは、ソフトウェアとして存在し得、そのソフトウェアに組み入れられた指示（例えば、プロセス、ルーチン、サブルーチン）は、マイクロプロセッサによって履行され得るかまたは行われ得る。例えば、あるモジュール（例えば、ソフトウェアモジュール）は、特定のプロセスまたはタスクを行うプログラムの一部であり得る。用語「モジュール」とは、より大きい機器またはソフトウェアシステムにおいて使用され得る自己完結型の機能単位のことを指す。モジュールは、そのモジュールの機能を行うための指示のセットを備え得る。モジュールは、データおよび／または情報を変換し得る。データおよび／または情報は、好適な形態で存在し得る。例えば、データおよび／または情報は、デジタルまたはアナログであり得る。ある特定の実施形態において、データおよび／または情報は、パケット、バイト、文字またはビットであり得るときがある。いくつかの実施形態において、データおよび／または情報は、集められた、アセンブルされた、または使用可能な、任意のデータまたは情報であり得る。データおよび／または情報の非限定的な例としては、好適な媒体、写真、ビデオ、音（例えば、周波数、可聴または非可聴）、数字、定数、値、オブジェクト、時間、関数、指示、マップ、参照、配列、リード、マッピングされたリード、レベル、範囲、しきい値、シグナル、表示、提示またはそれらの変換が挙げられる。モジュールは、データおよび／または情報を受け入れ得るかまたは受け取り得、データおよび／または情報を第２の形態に変換し得、その第２の形態を機器、周辺装置、構成要素または別のモジュールに提供し得るかまたは移し得る。モジュールは、以下の非限定的な機能のうちの１つまたはそれを超える機能を行い得る：例えば、配列リードをマッピングすること、カウントを提供すること、部分をアセンブルすること、レベルを提供するかもしくは決定すること、カウントプロファイルを提供すること、正規化すること（例えば、リードを正規化すること、カウントを正規化することなど）、正規化されたカウントプロファイルもしくは正規化されたカウントのレベルを提供すること、２つもしくはそれを超えるレベルを比較すること、不確定値を提供すること、予想されるレベルおよび予想される範囲（例えば、予想されるレベル範囲、しきい値範囲およびしきい値レベル）を提供するかもしくは決定すること、レベルを調整すること（例えば、第１のレベルを調整すること、第２のレベルを調整すること、染色体もしくはそのセグメントのプロファイルを調整すること、および／またはパディングすること）、識別を提供すること（例えば、コピー数変異、遺伝的変異または異数性を識別すること）、カテゴリー化すること、プロットすること、および／またはアウトカムを提供すること。マイクロプロセッサは、ある特定の実施形態において、モジュールにおいて指示を行い得る。いくつかの実施形態において、１つまたはそれを超えるマイクロプロセッサは、モジュールまたはモジュールの群において指示を行うために必要とされる。モジュールは、データおよび／または情報を別のモジュール、機器または供給源に提供し得、データおよび／または情報を別のモジュール、機器または供給源から受け取り得る。

コンピュータプログラム製品は、有形のコンピュータ可読媒体に組み入れられているときがあり、非一時的なコンピュータ可読媒体に有形的に組み入れられているときがある。モジュールは、コンピュータ可読媒体（例えば、ディスク、ドライブ）またはメモリー（例えば、ランダムアクセスメモリー）に格納されているときがある。モジュールからの指示を履行することができるモジュールおよびマイクロプロセッサは、１つの機器または異なる機器に存在し得る。モジュールに対する指示を履行することができるモジュールおよび／またはマイクロプロセッサは、ユーザーと同じ場所（例えば、ローカルネットワーク）またはユーザーと異なる場所（例えば、リモートネットワーク、クラウドシステム）に存在し得る。２つまたはそれを超えるモジュールとともに方法が行われる実施形態において、それらのモジュールは、同じ機器に存在し得、１つまたはそれを超えるモジュールは、同じ物理的場所における異なる機器に存在し得、１つまたはそれを超えるモジュールは、異なる物理的場所における異なる機器に存在し得る。

機器は、いくつかの実施形態において、モジュールにおいて指示を行うための少なくとも１つのマイクロプロセッサを備える。参照ゲノムの部分にマッピングされた配列リードのカウントは、本明細書中に記載される方法を行うように構成された指示を実行するマイクロプロセッサによってアクセスされるときがある。マイクロプロセッサによってアクセスされるカウントは、システムのメモリー内に存在し得、それらのカウントは、アクセスされ得、それらのカウントを得た後に、そのシステムのメモリーに入れられ得る。いくつかの実施形態において、機器は、マイクロプロセッサ（例えば、１つまたはそれを超えるマイクロプロセッサ）を備え、そのマイクロプロセッサは、モジュールからの１つまたはそれを超える指示（例えば、プロセス、ルーチンおよび／またはサブルーチン）を行うおよび／または履行することができる。いくつかの実施形態において、機器は、複数のマイクロプロセッサ、例えば、協調されていて並行して動くマイクロプロセッサを備える。いくつかの実施形態において、機器は、１つまたはそれを超える外部マイクロプロセッサ（例えば、内部または外部ネットワーク、サーバー、記憶装置および／または記憶ネットワーク（例えば、クラウド））とともに作動する。いくつかの実施形態において、機器は、モジュールを備える。ある特定の実施形態において、機器は、１つまたはそれを超えるモジュールを備える。モジュールを備えている機器は、１つまたはそれを超えるデータおよび／または情報を他のモジュールに移動させ得ることが多く、１つまたはそれを超えるデータおよび／または情報を他のモジュールから受け取り得ることが多い。ある特定の実施形態において、機器は、周辺装置および／または構成要素を備える。ある特定の実施形態において、機器は、データおよび／または情報を他のモジュール、周辺装置および／または構成要素に移動させ得、ならびにデータおよび／または情報を他のモジュール、周辺装置および／または構成要素から移動させ得る、１つまたはそれを超える周辺装置または構成要素を備え得る。ある特定の実施形態において、機器は、データおよび／または情報を提供する周辺装置および／または構成要素とインタラクトする。ある特定の実施形態において、周辺装置および構成要素は、ある機能を行う際に機器を補助するか、またはモジュールと直接インタラクトする。周辺装置および／または構成要素の非限定的な例としては、好適なコンピュータ周辺装置、Ｉ／Ｏまたは記憶方法または記憶装置が挙げられ、それらとしては、スキャナー、プリンター、ディスプレイ（例えば、モニター、ＬＥＤ、ＬＣＴまたはＣＲＴ）、カメラ、マイクロホン、パッド（例えば、ｉｐａｄ、タブレット）、タッチスクリーン、スマートフォン、移動電話、ＵＳＢＩ／Ｏデバイス、ＵＳＢ大容量記憶装置、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサ、サーバー、ＣＤ、ＤＶＤ、グラフィックカード、特殊化されたＩ／Ｏデバイス（例えば、シークエンサー、フォトセル、光電子増倍管、光学式読取装置、センサーなど）、１つまたはそれを超えるフローセル、流体を取り扱う構成要素、ネットワークインターフェースコントローラ、ＲＯＭ、ＲＡＭ、無線伝送方法および無線伝送デバイス（Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉＦｉなど）、ワールドワイドウェブ（ｗｗｗ）、インターネット、コンピュータおよび／または別のモジュールが挙げられるが、これらに限定されない。

ソフトウェアは、コンピュータ可読媒体に記録されたプログラム指示を備えるプログラム製品上に提供されていることが多く、そのコンピュータ可読媒体としては、フロッピー（登録商標）ディスク、ハードディスクおよび磁気テープを含む磁気媒体；ならびにＣＤ−ＲＯＭディスク、ＤＶＤディスク、光磁気ディスク、フラッシュドライブ、ＲＡＭ、フロッピー（登録商標）ディスクなどを含む光学媒体およびプログラム指示が記録され得る他のそのような媒体が挙げられるが、これらに限定されない。オンラインでの履行において、ある組織が維持しているサーバーおよびウェブサイトは、遠隔ユーザーにソフトウェアのダウンロードを提供するように構成され得るか、または遠隔ユーザーが、組織によって維持されている遠隔システムにアクセスして、ソフトウェアにリモートでアクセスし得る。ソフトウェアは、入力情報を入手し得るかまたは受け取り得る。ソフトウェアは、特にデータを入手するかまたは受け取るモジュール（例えば、配列リードデータおよび／またはマッピングされたリードデータを受け取るデータ受信モジュール）を備え得、そのデータを特に処理するモジュール（例えば、受け取ったデータを処理する（例えば、アウトカムおよび／またはレポートをフィルタリングする、正規化する、提供する）処理モジュールを備え得る。入力情報を「入手する」および「受け取る」という用語は、ローカルサイトまたはリモートサイトからのコンピュータコミュニケーション手段、人間によるデータ入力またはデータを受信する他の任意の方法によって、データ（例えば、配列リード、マッピングされたリード）を受け取ることを指す。入力情報は、それを受け取った場所と同じ場所において生成されてもよいし、異なる場所において生成され、受信場所に送信されてもよい。いくつかの実施形態において、入力情報は、処理される（例えば、処理に適した形式にされる（例えば、表にされる））前に修正される。

いくつかの実施形態において、コンピュータプログラム製品、例えば、コンピュータ可読プログラムコードが組み入れられている、コンピュータが使用可能な媒体を備えるコンピュータプログラム製品が提供され、そのコンピュータ可読プログラムコードは、ある方法を履行するために実行されるように適合されており、その方法は、（ａ）ゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、そのセグメントに対するカウントＡを提供する工程であって、それらの配列リードは、そのゲノムを有する被験体由来のテストサンプルからの核酸のリードである、工程；（ｂ）そのゲノムまたはそのゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、そのゲノムまたはそのゲノムのサブセットに対するカウントＢを提供する工程であって、ここで、そのカウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、工程；および（ｃ）カウントＡとカウントＢとの比率としての、そのセグメントに対するカウント提示を確定する工程を含む。

ソフトウェアは、ある特定の実施形態において、１つまたはそれを超えるアルゴリズムを備え得る。アルゴリズムは、有限列の指示に従ってデータを処理するためおよび／またはアウトカムもしくはレポートを提供するために使用され得る。アルゴリズムは、タスクを完了するための明確な指示のリストであることが多い。初期状態から始まって、それらの指示は、規定の一連の連続状態を介して進み、最終的には最後の終結状態で終了する、計算を記載し得る。１つの状態から次への移行は、必ずしも決定論的でない（例えば、いくつかのアルゴリズムはランダム性を組み込んでいる）。例としてであって限定ではないが、アルゴリズムは、探索アルゴリズム、ソートアルゴリズム、マージアルゴリズム、数値アルゴリズム、グラフアルゴリズム、文字列アルゴリズム、モデリングアルゴリズム、計算幾何（ｃｏｍｐｕｔａｔｉｏｎａｌｇｅｎｏｍｅｔｒｉｃ）アルゴリズム、組み合わせアルゴリズム、機械学習アルゴリズム、暗号法アルゴリズム、データ圧縮アルゴリズム、構文解析アルゴリズムなどであり得る。アルゴリズムには、１つのアルゴリズムまたは共同して動く２つもしくはそれを超えるアルゴリズムが含まれ得る。アルゴリズムは、任意の好適な複雑さのクラスおよび／またはパラメータ化された複雑さであり得る。アルゴリズムは、算出および／またはデータ処理のために使用され得、いくつかの実施形態では、決定論的アプローチまたは確率的／予測アプローチにおいて使用され得る。アルゴリズムは、コンピュータ環境において、好適なプログラミング言語を使用することによって履行され得、そのプログラミング言語の非限定的な例は、Ｃ、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｐｅｒｌ、Ｐｙｔｈｏｎ、Ｆｏｒｔｒａｎなどである。いくつかの実施形態において、アルゴリズムは、誤差の範囲、統計解析、統計的有意性および／または他の情報もしくはデータセットとの比較を含むように構成され得るかまたは修正され得る（例えば、ニューラルネットまたはクラスタリングアルゴリズムを用いるときに適用可能である）。

ある特定の実施形態において、いくつかのアルゴリズムは、ソフトウェアにおいて使用するために履行され得る。これらのアルゴリズムは、いくつかの実施形態において、生データを用いて訓練され得る。新しい各生データサンプルに対して、訓練されたアルゴリズムが、代表的な処理されたデータセットまたはアウトカムをもたらし得る。処理されたデータセットは、処理された親データセットと比較して複雑さが低下しているときがある。いくつかの実施形態において、処理されたセットに基づいて、訓練されたアルゴリズムの性能は、感度および特異性に基づいて評価され得る。ある特定の実施形態では、最も高い感度および／または特異性を有するアルゴリズムが特定され、使用され得る。

ある特定の実施形態において、シミュレートされた（またはシミュレーション）データは、例えば、アルゴリズムを訓練するかまたはアルゴリズムをテストすることによって、データ処理を助け得る。いくつかの実施形態において、シミュレーションデータは、配列リードの異なるグルーピングの様々な仮説的サンプリングを含む。シミュレーションデータは、現実の集団から予想され得るものに基づき得るか、またはアルゴリズムをテストするためおよび／もしくは正しい分類に割り当てるために歪められ得る。シミュレーションデータは、本明細書中で「バーチャル」データとも称される。ある特定の実施形態において、シミュレーションは、コンピュータプログラムによって行われ得る。シミュレーションデータセットを使用する際の１つの実行可能な工程は、識別された結果の信頼度、例えば、どれくらい十分にランダムサンプリングがマッチするかまたは最良のものが元のデータに相当するかを評価することである。１つのアプローチは、確率値（ｐ値）を算出することであり、その確率値は、選択されたサンプルよりも良好なスコアを有するランダムなサンプルの確率を推定する。いくつかの実施形態において、少なくとも１つのサンプルが参照サンプルとマッチすると仮定する経験的モデルが評価され得る（変動の分解ありまたはなしで）。いくつかの実施形態において、例えばポアソン分布などの別の分布が、確率分布を定義するために使用され得る。

ある特定の実施形態において、システムは、１つまたはそれを超えるマイクロプロセッサを備え得る。マイクロプロセッサは、コミュニケーションバスに接続され得る。コンピュータシステムは、メインメモリーを備え得、ランダムアクセスメモリー（ＲＡＭ）を備えることが多く、二次メモリーも備え得る。いくつかの実施形態において、メモリーは、非一時的なコンピュータ可読記憶媒体を含む。二次メモリーには、例えば、バードディスクドライブおよび／または着脱可能な記憶ドライブが含まれ得、それらは、フロッピー（登録商標）ディスクドライブ、磁気テープドライブ、光ディスクドライブ、メモリーカードなどに代表される。着脱可能な記憶ドライブは、着脱可能な記憶装置から読み出し、かつ／または着脱可能な記憶装置に書き込むことが多い。着脱可能な記憶装置の非限定的な例としては、フロッピー（登録商標）ディスク、磁気テープ、光ディスクなどが挙げられ、これらは、例えば、着脱可能な記憶ドライブによって読み出され得、着脱可能な記憶ドライブに書き込まれ得る。着脱可能な記憶装置は、コンピュータソフトウェアおよび／またはデータが格納されている、コンピュータが使用可能な記憶媒体を備え得る。

マイクロプロセッサは、システムの中にソフトウェアを実装し得る。いくつかの実施形態において、マイクロプロセッサは、ユーザーが行い得る本明細書中に記載されるタスクを自動的に行うようにプログラムされ得る。したがって、マイクロプロセッサ、またはそのようなマイクロプロセッサによって行われるアルゴリズムは、ユーザーの監視または入力を全くかほとんど必要としないことがある（例えば、ソフトウェアは、機能を自動的に履行するようにプログラムされ得る）。いくつかの実施形態において、プロセスの複雑さは、１人の人物または人物の１つの群が、そのプロセスをコピー数変異の存在もしくは非存在の判定にとって十分短い時間枠で行うことができないほど大きい。

いくつかの実施形態において、二次メモリーは、コンピュータプログラムまたは他の指示がコンピュータシステムに搭載されることを可能にするための他の同様の手段を備え得る。例えば、システムは、着脱可能な記憶装置およびインターフェースデバイスを備え得る。そのようなシステムの非限定的な例としては、プログラムカートリッジおよびカートリッジインターフェース（例えば、ビデオゲームデバイスに見られるもの）、着脱可能なメモリーチップ（例えば、ＥＰＲＯＭまたはＰＲＯＭ）および関連ソケット、ならびに他の着脱可能な記憶装置、ならびにソフトウェアおよびデータが、着脱可能な記憶装置からコンピュータシステムに移されることを可能にするインターフェースが挙げられる。

いくつかの実施形態において、１つの実体が、本明細書中に記載される方法、システム、機器、装置またはコンピュータプログラム製品において、配列リードのカウントを生成し得、それらの配列リードを部分にマッピングし得、それらのマッピングされたリードをカウントし得、マッピングされてカウントされたリードを使用し得る。ある特定の実施形態において、部分にマッピングされた配列リードのカウントは、本明細書中に記載される方法、システム、機器、装置またはコンピュータプログラム製品において、第２の実体による使用のために、１つの実体によって、第２の実体に移されるときがある。

いくつかの実施形態において、１つの実体が、配列リードを生成し、いくつかの実施形態において、第２の実体が、それらの配列リードを参照ゲノムにおける部分にマッピングする。第２の実体は、マッピングされたリードをカウントし、本明細書中に記載される方法、システム、機器またはコンピュータプログラム製品において、マッピングされてカウントされたリードを使用するときがある。ある特定の実施形態において、第２の実体は、マッピングされたリードを第３の実体に移し、第３の実体は、本明細書中に記載される方法、システム、機器またはコンピュータプログラム製品において、マッピングされたリードをカウントし、マッピングされたリードを使用する。ある特定の実施形態において、第２の実体は、マッピングされたリードをカウントし、マッピングされてカウントされたリードを第３の実体に移し、第３の実体は、本明細書中に記載される方法、システム、機器またはコンピュータプログラム製品において、マッピングされてカウントされたリードを使用する。第３の実体が関わる実施形態において、第３の実体は、第１の実体と同じであるときがある。つまり、第１の実体は、配列リードを第２の実体に移すときがあり、その第２の実体は、配列リードを参照ゲノムにおける部分にマッピングし得、および／またはマッピングされたリードをカウントし得、第２の実体は、マッピングされたおよび／またはカウントされたリードを第３の実体に移し得る。第３の実体は、本明細書中に記載される方法、システム、機器またはコンピュータプログラム製品において、マッピングされたおよび／またはカウントされたリードを使用し得るときがあり、ここで、その第３の実体は、第１の実体と同じであるときがあり、第３の実体は、第１または第２の実体と異なるときがある。

いくつかの実施形態において、１つの実体は、妊婦から血液を入手し、必要に応じてその血液から（例えば、血漿または血清から）核酸を単離し、その血液または核酸を第２の実体に移し、第２の実体は、その核酸から配列リードを生成する。

図５は、本明細書中に記載される様々なシステム、方法、アルゴリズムおよびデータ構造が履行され得るコンピュータ環境５１０の非限定的な例を例証している。コンピュータ環境５１０は、好適なコンピュータ環境の一例にすぎず、本明細書中に記載されるシステム、方法およびデータ構造の用途または機能の範囲に関していかなる限定も提案すると意図されていない。コンピュータ環境５１０は、コンピュータ環境５１０に例証されている構成要素のいずれか１つまたは組み合わせに関して、いかなる従属物または必要条件も有しないと解釈されるべきである。ある特定の実施形態において、図５に示されているシステム、方法およびデータ構造のサブセットが使用され得る。本明細書中に記載されるシステム、方法およびデータ構造は、数多くの他の多目的または特殊目的のコンピューティングシステム環境または設定で動作可能である。好適であり得る公知のコンピューティングシステム、環境および／または設定の例としては、パーソナルコンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、手持ち式またはラップトップ型デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを備える分散コンピュータ環境などが挙げられるが、これらに限定されない。

図５の動作環境５１０は、処理装置５２１、システムメモリー５２２、およびシステムメモリー５２２を含む様々なシステムの構成要素を処理装置５２１に動作可能につなぐシステムバス５２３を含む、コンピュータ５２０の形態の多目的のコンピュータデバイスを含む。ただ１つのまたは１つより多い処理装置５２１が存在し得、コンピュータ５２０のプロセッサは、単一の中央処理装置（ＣＰＵ）、または並列処理環境と一般に称される複数の処理装置を備える。コンピュータ５２０は、従来のコンピュータ、分散コンピュータまたは他の任意のタイプのコンピュータであり得る。

システムバス５２３は、種々のバスアーキテクチャーのいずれかを用いる、メモリーバスまたはメモリーコントローラ、周辺装置用バスおよびローカルバスを含む、いくつかのタイプのバス構造のいずれかであり得る。システムメモリーは、単純にメモリーとも称され得、それには、読出し専用メモリー（ＲＯＭ）５２４およびランダムアクセスメモリー（ＲＡＭ）が含まれる。スタートアップ中などにコンピュータ５２０内の要素間の情報の移動を助ける基本ルーチンを含む基本入出力システム（ＢＩＯＳ）５２６は、ＲＯＭ５２４に格納されている。コンピュータ５２０は、ハードディスクから読み出すためおよびハードディスクに書き込むためのハードディスクドライブインターフェース５２７（図示せず）、着脱可能な磁気ディスク５２９から読み出すためまたは着脱可能な磁気ディスク５２９に書き込むための磁気ディスクドライブ５２８、ならびに着脱可能な光ディスク５３１（例えば、ＣＤＲＯＭまたは他の光学媒体）から読み出すためまたは着脱可能な光ディスク５３１に書き込むための光ディスクドライブ５３０をさらに備え得る。

ハードディスクドライブ５２７、磁気ディスクドライブ５２８および光ディスクドライブ５３０は、それぞれハードディスクドライブインターフェース５３２、磁気ディスクドライブインターフェース５３３および光ディスクドライブインターフェース５３４によって、システムバス５２３に接続される。上記ドライブおよびそれらの関連するコンピュータ可読媒体は、コンピュータ可読指示、データ構造、プログラムモジュールおよび他のデータの不揮発性記憶装置をコンピュータ５２０に提供する。コンピュータによってアクセス可能なデータを格納し得る任意のタイプのコンピュータ可読媒体（例えば、磁気カセット、フラッシュメモリーカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリー（ＲＡＭ）、読出し専用メモリー（ＲＯＭ）など）が、その動作環境において使用され得る。

いくつかのプログラムモジュールは、オペレーティングシステム５３５、１つまたはそれを超えるアプリケーションプログラム５３６、他のプログラムモジュール５３７およびプログラムデータ５３８を備える、ハードディスク、磁気ディスク５２９、光ディスク５３１、ＲＯＭ５２４またはＲＡＭに格納され得る。ユーザーは、コマンドおよび情報を、キーボード５４０およびポインティングデバイス５４２などの入力デバイスを介してパーソナルコンピュータ５２０に入力し得る。他の入力デバイス（図示せず）としては、マイクロホン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナーなどが挙げられ得る。これらのおよび他の入力デバイスは、システムバスにつながったシリアルポートインターフェース５４６を介して処理装置５２１に接続されることが多いが、他のインターフェース（例えば、パラレルポート、ゲームポートまたはユニバーサルシリアルバス（ＵＳＢ））によって接続され得る。モニター５４７または他のタイプの表示デバイスも、ビデオアダプター５４８などのインターフェースを介してシステムバス５２３に接続される。コンピュータは、通常、モニターに加えて、スピーカーおよびプリンターなどの他の周辺装置出力デバイス（図示せず）を備える。

コンピュータ５２０は、ネットワーク化された環境において、１つまたはそれを超えるリモートコンピュータ、例えば、リモートコンピュータ５４９への論理接続を用いて動作し得る。これらの論理接続は、コンピュータ５２０もしくはその一部につながったコミュニケーションデバイスによってまたは他の様式で達成され得る。リモートコンピュータ５４９は、別のコンピュータ、サーバー、ルーター、ネットワークＰＣ、クライアント、ピアデバイスまたは他の共通ネットワークノードであり得、代表的には、コンピュータ５２０に対して上に記載された要素の多くまたはすべてを備えるが、メモリー記憶装置５５０だけが、図５に図示されている。図５に描かれている論理接続は、ローカルエリアネットワーク（ＬＡＮ）５５１および広域ネットワーク（ＷＡＮ）５５２を含む。そのようなネットワーク環境は、オフィスのネットワーク、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいてありふれたものであり、これらのすべてが、ネットワークのタイプである。

コンピュータ５２０は、ＬＡＮネットワーク環境において使用されるとき、コミュニケーションデバイスの１タイプであるネットワークインターフェースまたはアダプター５５３を介してローカルネットワーク５５１に接続される。コンピュータ５２０は、ＷＡＮネットワーク環境において使用されるとき、モデム５５４、あるタイプのコミュニケーションデバイス、または広域ネットワーク５５２にわたるコミュニケーションを確立するための他の任意のタイプのコミュニケーションデバイスを備えることが多い。内部または外部のものであり得るモデム５５４は、シリアルポートインターフェース５４６を介してシステムバス５２３に接続される。ネットワーク化された環境において、パーソナルコンピュータ５２０またはその部分に関して描かれたプログラムモジュールは、リモートメモリー記憶装置に格納され得る。示されているネットワークの接続は非限定的な例であり、コンピュータ間のコミュニケーションリンクを確立するために他のコミュニケーションデバイスを使用してもよいことが認識される。
変換

上で述べたように、データは、１つの形態から別の形態に変換されるときがある。用語「変換される」、「変換」およびそれらの文法上の派生物または等価物は、本明細書中で使用されるとき、物理的な出発物質（例えば、試験被験体および／または参照被験体のサンプル核酸）からその物理的な出発物質のデジタル提示（例えば、配列リードデータ）へのデータの変更のことを指し、いくつかの実施形態において、アウトカム（例えば、テストサンプルに対する胎児分率の測定または推定）を提供するために使用され得る、そのデジタル提示の１つまたはそれを超える数値またはグラフ表示へのさらなる変換を含む。ある特定の実施形態において、デジタル表示されたデータの１つまたはそれを超える数値および／またはグラフ表示は、試験被験体の物理的なゲノムの様子を表すため（例えば、ゲノムの挿入、重複または欠失の存在もしくは非存在を仮想的に表すかまたは視覚的に表すため；医学的症状に関連する配列の物理量の変動の存在もしくは非存在を表すため）に使用され得る。仮想提示は、出発物質のデジタル提示の１つまたはそれを超える数値またはグラフ表示にさらに変換されるときがある。これらの方法は、物理的な出発物質を、数値もしくはグラフ表示または試験被験体のゲノムの物理的な様子の提示に変換し得る。

いくつかの実施形態において、データセットの変換は、データの複雑さおよび／またはデータの次元を低下させることによって、アウトカムの提供を容易にする。データセットの複雑さは、物理的な出発物質をその出発物質の仮想提示（例えば、物理的な出発物質を代表する配列リード）に変換するプロセス中に減少するときがある。好適な特徴または変数が、データセットの複雑さおよび／または次元を低下させるために使用され得る。データ処理に対する標的の特徴として使用するために選択され得る特徴の非限定的な例としては、ＧＣ含有量、胎児の性別予測、フラグメントサイズ（例えば、ＣＣＦフラグメント、リードの長さまたはその好適な提示（例えば、ＦＲＳ））、フラグメントの配列、染色体異数性の識別、特定の遺伝子またはタンパク質の識別、癌の識別、疾患、遺伝された遺伝子／形質、染色体異常、生物学的カテゴリー、化学的カテゴリー、生化学的カテゴリー、遺伝子またはタンパク質のカテゴリー、遺伝子オントロジー、タンパク質オントロジー、同時制御される遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、前述の遺伝子に関するタンパク質、遺伝子変異体、タンパク質変異体、同時制御される遺伝子、同時制御されるタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データなどおよび前述のものの組み合わせが挙げられる。データセットの複雑さおよび／または次元の減少の非限定的な例としては、複数の配列リードからプロファイルプロットへの整理編集（ｒｅｄｕｃｔｉｏｎ）、複数の配列リードから数値（例えば、正規化された値、Ｚ得点、ｐ値）への整理編集；複数の解析方法から確率プロットまたは単一ポイントへの整理編集；導出された量の主成分分析などまたはそれらの組み合わせが挙げられる。
遺伝的変異および医学的症状

遺伝分散の存在もしくは非存在は、本明細書中に記載される方法、機器または装置を用いて判定され得る。ある特定の実施形態において、１つまたはそれを超える遺伝的変異の存在もしくは非存在は、本明細書中に記載される方法、機器および装置によって提供されるアウトカムに従って判定される。遺伝的変異は、通常、ある特定の個体に存在する特定の遺伝的表現型であり、遺伝的変異は、個体の統計学的に有意な部分母集団に存在することが多い。いくつかの実施形態において、遺伝的変異は、染色体異常（例えば、異数性、１本またはそれを超える染色体の重複、１本またはそれを超える染色体の喪失）、部分的な染色体異常またはモザイク現象（例えば、染色体の１つまたはそれを超えるセグメントの喪失または獲得）、転座、逆位であり、これらの各々が、本明細書中に詳細に記載されている。遺伝的変異の非限定的な例としては、１つまたはそれを超える欠失（例えば、微小欠失）、重複（例えば、微小重複）、挿入、突然変異、多型（例えば、単一ヌクレオチド多型）、融合、反復（例えば、短いタンデム反復）、異なるメチル化部位、異なるメチル化パターンなどおよびそれらの組み合わせが挙げられる。挿入、反復、欠失、重複、突然変異または多型は、任意の長さであり得、いくつかの実施形態において、約１塩基または塩基対（ｂｐ）から約２５０メガベース（Ｍｂ）長である。いくつかの実施形態において、挿入、反復、欠失、重複、突然変異または多型は、約１塩基または塩基対（ｂｐ）から約５０，０００キロベース（ｋｂ）長（例えば、約１０ｂｐ、５０ｂｐ、１００ｂｐ、５００ｂｐ、１ｋｂ、５ｋｂ、１０ｋｂ、５０ｋｂ、１００ｋｂ、５００ｋｂ、１０００ｋｂ、５０００ｋｂまたは１０，０００ｋｂ長）である。

遺伝的変異は、欠失であるときがある。ある特定の実施形態において、欠失は、染色体またはＤＮＡ配列の一部が欠損している突然変異（例えば、遺伝的異常）である。欠失は、遺伝物質の喪失であることが多い。任意の数のヌクレオチドが欠失し得る。欠失は、１本またはそれを超える染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらのセグメントまたはそれらの組み合わせの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。

遺伝的変異は、遺伝的重複であるときがある。ある特定の実施形態において、重複は、染色体またはＤＮＡ配列の一部が複製され、ゲノムの元の場所に挿入された突然変異（例えば、遺伝的異常）である。ある特定の実施形態において、遺伝的重複（例えば、重複）は、ＤＮＡの領域の任意の重複である。いくつかの実施形態において、重複は、ゲノム内または染色体内に、しばしばタンデムで、反復された核酸配列である。いくつかの実施形態において、重複は、１本またはそれを超える染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらのセグメントまたはそれらの組み合わせの複製を含み得る。重複は、微小重複を含み得る。重複は、重複した核酸の１コピーまたはそれを超えるコピーを含むときがある。重複は、１回またはそれを超える回数反復された（例えば、１、２、３、４、５、６、７、８、９または１０回反復された）遺伝的領域として特徴づけられるときがある。場合によっては、重複は、小さい領域（数千の塩基対）から全染色体に及び得る。重複は、相同組換えのエラーの結果として、またはレトロトランスポゾン事象に起因して、頻繁に生じる。重複は、ある特定のタイプの増殖性疾患に関連している。重複は、ゲノムマイクロアレイまたは比較ゲノムハイブリダイゼーション（ｃｏｍｐａｒａｔｉｖｅｇｅｎｅｔｉｃｈｙｂｒｉｄｉｚａｔｉｏｎ）（ＣＧＨ）を用いて特徴づけられ得る。

遺伝的変異は、挿入であるときがある。挿入は、核酸配列への１つまたはそれを超えるヌクレオチド塩基対の付加であるときがある。挿入は、微小挿入であるときがある。ある特定の実施形態において、挿入は、ゲノム、染色体またはそれらのセグメントへの染色体のセグメントの付加を含む。ある特定の実施形態において、挿入は、ゲノムまたはそのセグメントへの、対立遺伝子、遺伝子、イントロン、エキソン、任意の非コード領域、任意のコード領域、それらのセグメントまたはそれらの組み合わせの付加を含む。ある特定の実施形態において、挿入は、ゲノム、染色体またはそれらのセグメントへの、起源が不明の核酸の付加（例えば、挿入）を含む。ある特定の実施形態において、挿入は、単一塩基の付加（例えば、挿入）を含む。

本明細書中で使用されるとき、「コピー数変異」は、通常、遺伝的変異または染色体異常の１つのクラスまたはタイプである。コピー数変異は、欠失（例えば、微小欠失）、重複（例えば、微小重複）または挿入（例えば、微小挿入）であり得る。しばしば、接頭辞「微小」は、本明細書中で使用されるとき、５Ｍｂ長未満の核酸のセグメントであるときがある。コピー数変異は、染色体のセグメントの１つまたはそれを超える欠失（例えば、微小欠失）、重複および／または挿入（例えば、微小重複、微小挿入）を含み得る。ある特定の実施形態において、重複は、挿入を含む。ある特定の実施形態において、挿入は、重複である。ある特定の実施形態において、挿入は、重複ではない。

いくつかの実施形態において、コピー数変異は、胎児のコピー数変異である。胎児のコピー数変異は、胎児のゲノムにおけるコピー数変異であることが多い。いくつかの実施形態において、コピー数変異は、母体および／または胎児のコピー数変異である。ある特定の実施形態において、母体および／または胎児のコピー数変異は、妊婦（例えば、胎児を有する女性被験体）、出産した女性被験体または胎児を有することができる女性のゲノム内のコピー数変異である。コピー数変異は、その変異（例えば、重複または欠失）が、ゲノムの一方の対立遺伝子に存在するヘテロ接合性のコピー数変異であり得る。コピー数変異は、その変異がゲノムの両方の対立遺伝子に存在するホモ接合性のコピー数変異であり得る。いくつかの実施形態において、コピー数変異は、ヘテロ接合性またはホモ接合性の胎児のコピー数変異である。いくつかの実施形態において、コピー数変異は、ヘテロ接合性またはホモ接合性の母体および／または胎児のコピー数変異である。コピー数変異は、母体のゲノムおよび胎児のゲノムに存在するときがあるか、母体のゲノムに存在して胎児のゲノムに存在しないときがあるか、または胎児のゲノムに存在して母体のゲノムに存在しないときがある。

「倍数性」は、胎児または母体に存在する染色体の数に対する言及である。ある特定の実施形態において、「倍数性」は、「染色体倍数性」と同じである。例えば、ヒトにおいて、常染色体は、２本一組で存在することが多い。例えば、遺伝的変異の非存在下では、ほとんどのヒトが、各常染色体（例えば、１〜２２番染色体）を２本有する。ヒトにおける、２本の常染色体の正常な相補物の存在は、正倍数体または二倍体と称されることが多い。「微小倍数性」は、倍数性と似た意味である。「微小倍数性」は、染色体のセグメントの倍数性のことを指すことが多い。用語「微小倍数性」は、染色体内のコピー数変異（例えば、欠失、重複および／または挿入）の存在もしくは非存在（例えば、ホモ接合性またはヘテロ接合性の欠失、重複もしくは挿入など、またはそれらが存在しないこと）に対する言及であるときがある。

ある特定の実施形態において、胎児の微小倍数性は、その胎児の母（例えば、妊婦被験体）の微小倍数性と合致する。ある特定の実施形態において、胎児の微小倍数性は、その胎児の母の微小倍数性と合致し、その母と胎児の両方が、同じヘテロ接合性のコピー数変異、ホモ接合性のコピー数変異を有するか、またはその母と胎児の両方が、正倍数性である。ある特定の実施形態において、胎児の微小倍数性は、その胎児の母の微小倍数性と異なる。例えば、胎児の微小倍数性は、コピー数変異についてヘテロ接合性であり、母は、コピー数変異についてホモ接合性であり、胎児の微小倍数性は、特定のコピー数変異について母の微小倍数性と合致しない（例えば、等しくない）ときがある。

ある特定の実施形態において、被験体に対して存在もしくは非存在が識別される遺伝的変異は、医学的症状に関連する。したがって、本明細書中に記載される技術は、医学的症状または医学的状態に関連する１つまたはそれを超える遺伝的変異の存在もしくは非存在を識別するために使用され得る。医学的症状の非限定的な例としては、知的障害（例えば、ダウン症候群）、異常な細胞増殖（例えば、癌）、微生物核酸（例えば、ウイルス、細菌、真菌、酵母）の存在、および子癇前症に関連するものが挙げられる。

遺伝的変異、医学的症状および医学的状態の非限定的な例は、本明細書の以後に記載される。
胎児の性別

いくつかの実施形態において、胎児の性別、または性別に関連する障害（例えば、性染色体異数性）の予測は、本明細書中に記載される方法、機器および／または装置によって判定され得る。性別の判定は、一般に性染色体に基づく。ヒトでは、２本の性染色体、ＸおよびＹ染色体が存在する。Ｙ染色体は、遺伝子ＳＲＹを含み、これは、男性としての胚発生を引き起こす。ヒトおよび他の哺乳動物のＹ染色体は、正常な精子産生に必要な他の遺伝子も含む。ＸＸを有する個体は、女性であり、ＸＹは、男性であり、性染色体異数性と称されることが多い非限定的な変異としては、Ｘ０、ＸＹＹ、ＸＸＸおよびＸＸＹが挙げられる。ある特定の実施形態では、男性が、２本のＸ染色体および１本のＹ染色体（ＸＸＹ；クラインフェルター症候群）を有するか、または１本のＸ染色体および２本のＹ染色体（ＸＹＹ症候群；ヤコブ症候群）を有し、一部の女性が、２本の代わりに３本のＸ染色体（ＸＸＸ；トリプルＸ症候群）または１本のＸ染色体（Ｘ０；ターナー症候群）を有する。ある特定の実施形態において、個体における一部の細胞だけが、モザイク現象（例えば、Ｔｕｒｎｅｒモザイク現象）と称され得る性染色体異数性の影響を受ける。他の症例としては、ＳＲＹが損傷している（ＸＹ女性がもたらされる）症例、またはＳＲＹがＸに複製される症例（ＸＸ男性がもたらされる）が挙げられる。

ある特定の症例では、子宮内において胎児の性別を判定することが有益である場合がある。例えば、１つまたはそれを超える伴性障害の家族歴を有する患者（例えば、妊婦）が、そのような障害を受け継ぐ胎児のリスクの評価を助けるために、宿している胎児の性別の判定を望む場合がある。伴性障害としては、Ｘ連鎖障害およびＹ連鎖障害が挙げられるが、これらに限定されない。Ｘ連鎖障害には、Ｘ連鎖劣性障害およびＸ連鎖優性障害が含まれる。Ｘ連鎖劣性障害の例としては、免疫障害（例えば、慢性肉芽腫症（ＣＹＢＢ）、ウィスコット・オールドリッチ症候群、Ｘ連鎖重症複合免疫不全、Ｘ連鎖無ガンマグロブリン血症、高ＩｇＭ症候群タイプ１、ＩＰＥＸ、Ｘ連鎖リンパ増殖性疾患、プロパージン欠損症）、血液障害（例えば、血友病Ａ、血友病Ｂ、Ｘ連鎖鉄芽球性貧血）、内分泌障害（例えば、アンドロゲン不感性症候群／ケネディ病、ＫＡＬ１カルマン症候群、Ｘ連鎖先天性副腎低形成）、代謝障害（例えば、オルニチントランスカルバミラーゼ欠損症、眼脳腎症候群、副腎脳白質ジストロフィー、グルコース−６−リン酸デヒドロゲナーゼ欠損症、ピルビン酸デヒドロゲナーゼ欠損症、ダノン病／糖原病タイプＩＩｂ、ファブリー病、ハンター症候群、レッシュ・ナイハン症候群、メンケス病／後角症候群）、神経系障害（例えば、コフィン・ローリー症候群、ＭＡＳＡ症候群、Ｘ連鎖アルファサラセミア精神遅滞症候群、シデリウス型Ｘ連鎖精神遅滞症候群、色盲、眼白子症、ノリエ病、コロイデレミア、シャルコー・マリー・トゥース病（ＣＭＴＸ２−３）、ペリツェウス・メルツバッハー病、ＳＭＡＸ２）、皮膚および関連組織の障害（例えば、先天性角化異常症、無汗性外胚葉性形成異常（ＥＤＡ）、Ｘ連鎖魚鱗癬、Ｘ連鎖内皮角膜ジストロフィー）、神経筋障害（例えば、ベッカー型筋ジストロフィー／デュシェンヌ、中心核ミオパシー（ＭＴＭ１）、コンラーディ・ヒューネルマン症候群、エメリ・ドレフュス型筋ジストロフィー１）、泌尿器系障害（例えば、アルポート症候群、デント病、Ｘ連鎖腎性尿崩症）、骨／歯の障害（例えば、ＡＭＥＬＸエナメル質形成不全症）、および他の障害（例えば、Ｂａｒｔｈ症候群、ＭｃＬｅｏｄ症候群、Ｓｍｉｔｈ−Ｆｉｎｅｍａｎ−Ｍｙｅｒｓ症候群、Ｓｉｍｐｓｏｎ−Ｇｏｌａｂｉ−Ｂｅｈｍｅｌ症候群、Ｍｏｈｒ−Ｔｒａｎｅｂｊａｅｒｇ症候群、鼻指聴覚（Ｎａｓｏｄｉｇｉｔｏａｃｏｕｓｔｉｃ）症候群）が挙げられるが、これらに限定されない。Ｘ連鎖優性障害の例としては、Ｘ連鎖性低リン酸血症、巣状皮膚低形成、脆弱Ｘ症候群、アイカルディ症候群、色素失調症、レット症候群、チャイルド症候群、Ｌｕｊａｎ−Ｆｒｙｎｓ症候群および口顔面指症候群１が挙げられるが、これらに限定されない。Ｙ連鎖障害の例としては、男性不妊症、網膜色素変性症および無精子症が挙げられるが、これらに限定されない。
染色体異常

いくつかの実施形態において、胎児の染色体異常の存在もしくは非存在は、本明細書中に記載される方法、機器および／または装置を用いることによって判定され得る。染色体異常としては、染色体全体または１つもしくはそれを超える遺伝子を含む染色体の領域の獲得または喪失が挙げられるが、これらに限定されない。染色体異常には、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の消失、不平衡転座によって引き起こされる欠失および重複を含む、１つもしくはそれを超えるヌクレオチド配列（例えば、１つまたはそれを超える遺伝子）の転座、欠失および／または重複が含まれる。用語「染色体異常」または「異数性」は、本明細書中で使用されるとき、主題の染色体の構造と正常な相同染色体の構造との間のずれのことを指す。用語「正常」とは、特定の種の健常個体に見られる優勢である核型または横縞像、例えば、正倍数性のゲノム（例えば、ヒトにおける二倍体、例えば、４６，ＸＸまたは４６，ＸＹ）のことを指す。種々の生物が、広く異なる染色体組を有するので、用語「異数性」とは、特定の数の染色体のことを指さず、生物の所与の細胞内の染色体含有量が異常である状況のことを指す。いくつかの実施形態において、本明細書中の用語「異数性」は、染色体全体または染色体の一部の喪失または獲得によって引き起こされる遺伝物質の不均衡のことを指す。「異数性」とは、染色体のセグメントの１つまたはそれを超える欠失および／または挿入のことを指し得る。いくつかの実施形態において、用語「正倍数性」とは、正常に染色体が全数そろっていることを指す。

用語「モノソミー」は、本明細書中で使用されるとき、正常な全数から１本の染色体が不足していることを指す。部分的モノソミーは、染色体のセグメントだけが１コピーで存在する、不平衡転座または欠失において生じ得る。性染色体のモノソミー（４５，Ｘ）は、例えば、ターナー症候群を引き起こす。用語「ダイソミー」とは、ある染色体が２コピー存在することを指す。各染色体を２コピー有するヒトなどの生物（二倍体または「正倍数体」である生物）の場合、ダイソミーは、正常な状態である。各染色体を正常に３コピーもしくはそれを超えるコピーだけ有する生物（三倍体またはそれを超えるもの）の場合、ダイソミーは、異数体の染色体状態である。片親性ダイソミーでは、ある染色体の両方のコピーが、同じ親に由来する（他方の親からの寄与がない）。

用語「トリソミー」は、本明細書中で使用されるとき、特定の染色体が２コピーの代わりに３コピー存在することを指す。ヒトのダウン症候群に見られる、２１番染色体が余分に存在することは、「トリソミー２１」と称される。トリソミー１８およびトリソミー１３は、他の２つのヒト常染色体トリソミーである。性染色体のトリソミーは、女性（例えば、トリプルＸ症候群における４７，ＸＸＸ）または男性（例えば、クラインフェルター症候群における４７，ＸＸＹ；またはヤコブ症候群における４７，ＸＹＹ）に見られ得る。いくつかの実施形態において、トリソミーは、常染色体の大部分またはすべての重複である。ある特定の実施形態において、トリソミーは、特定のタイプの染色体が３本である場合（例えば、３コピー）をもたらす（例えば、正倍数性に対する特定のタイプの染色体が２本である場合（例えば、１対）の代わりに）染色体全体の異数性である。

用語「テトラソミー」および「ペンタソミー」は、本明細書中で使用されるとき、それぞれ、ある染色体が４または５コピー存在することを指す。常染色体ではめったに見られないが、性染色体テトラソミーおよびペンタソミーは、ヒトにおいて報告されており、それには、ＸＸＸＸ、ＸＸＸＹ、ＸＸＹＹ、ＸＹＹＹ、ＸＸＸＸＸ、ＸＸＸＸＹ、ＸＸＸＹＹ、ＸＸＹＹＹおよびＸＹＹＹＹが含まれる。

染色体異常は、種々の機構によって引き起こされ得る。機構としては、（ｉ）有糸分裂チェックポイントが弱くなった結果として生じる不分離、（ｉｉ）複数の染色体において不分離を引き起こす不活性な有糸分裂チェックポイント、（ｉｉｉ）１つの動原体が両紡錘体極に付着するときに生じるメロテリック結合（ｍｅｒｏｔｅｌｉｃａｔｔａｃｈｍｅｎｔ）、（ｉｖ）２つより多い紡錘極が形成するときに形成する多極紡錘体、（ｖ）１つの紡錘極しか形成されないときに形成する単極紡錘体、および（ｖｉ）単極紡錘体の機構の最終結果として生じる四倍体中間体（ｔｅｔｒａｐｌｏｉｄｉｎｔｅｒｍｅｄｉａｔｅ）が挙げられるが、これらに限定されない。

用語「部分モノソミー」および「部分トリソミー」は、本明細書中で使用されるとき、染色体の一部の喪失または獲得によって引き起こされる遺伝物質の不均衡のことを指す。部分モノソミーまたは部分トリソミーは、不平衡転座に起因し得、ここで、個体は、異なる２本の染色体の切断および融合によって形成される誘導染色体を有する。この状況では、その個体は、１本の染色体の一部を３コピー（正常な２コピー、および誘導染色体上に存在するセグメント）、および誘導染色体に関わる他方の染色体の一部を１コピーだけ有し得る。

用語「モザイク現象」は、本明細書中で使用されるとき、生物のいくつかであってすべてではない細胞における異数性のことを指す。ある特定の染色体異常は、モザイク染色体異常および非モザイク染色体異常として存在し得る。例えば、ある特定のトリソミー２１個体は、モザイクダウン症候群を有し、一部は、非モザイクダウン症候群を有する。種々の機構が、モザイク現象をもたらし得る。例えば、（ｉ）最初の接合体は、２１番染色体を３本有し得、それによって通常、単純なトリソミー２１がもたらされ得るが、細胞分裂の経過中に、１つまたはそれを超える細胞系統が、それらの２１番染色体のうちの１本を失った；および（ｉｉ）最初の接合体は、２１番染色体を２本有し得るが、細胞分裂の経過中に、それらの２１番染色体のうちの１本が複製された。体細胞モザイク現象は、おそらく、完全な異数性またはモザイク異数性が関わる遺伝的症候群に通常関連する機構と異なる機構によって生じる。体細胞モザイク現象は、例えば、ある特定のタイプの癌およびニューロンにおいて特定されている。ある特定の場合において、トリソミー１２は、慢性リンパ性白血病（ＣＬＬ）において特定されており、トリソミー８は、急性骨髄性白血病（ＡＭＬ）において特定されている。また、個体が染色体の切断（染色体不安定症候群）の素因となる遺伝的症候群は、頻繁に、様々なタイプの癌に対する高リスクと関連し、ゆえに、発癌における体細胞異数性の役割が強調される。本明細書中に記載される方法およびプロトコルは、非モザイク染色体異常およびモザイク染色体異常の存在もしくは非存在を識別し得る。

表１Ａおよび１Ｂは、本明細書中に記載される方法、機器および／または装置によって潜在的に識別され得る、染色体の症状、症候群および／または異常の非限定的なリストを示している。表１Ｂは、２０１１年１０月６日現在のＤＥＣＩＰＨＥＲデータベースからのものである（例えば、バージョン５．１、ＧＲＣｈ３７にマッピングされた位置に基づいて；ユニフォームリソースロケータ（ＵＲＬ）ｄｅｃｈｉｐｈｅｒ．ｓａｎｇｅｒ．ａｃ．ｕｋにおいて入手可能）。

グレード１の症状は、１つより多い以下の特色を有することが多い；病原性の奇形；遺伝学者の間での強い一致；高い侵入性；不定の表現型であるがいくつかの共通する特徴を有し得ること；文献におけるすべての症例が臨床像を有すること；その異常を有する健常個体の症例がないこと；ＤＶＧデータベースに報告されていないかまたは健常集団に見られないこと；単一遺伝子または複数遺伝子の量的効果を確かめる機能的データ；確認されたまたは強い候補遺伝子；定義された臨床管理の意味；サーベイランスに対して意味を有する公知の癌リスク；複数の情報源（ＯＭＩＭ、Ｇｅｎｅｒｅｖｉｅｗｓ、Ｏｒｐｈａｎｅｔ、Ｕｎｉｑｕｅ、Ｗｉｋｉｐｅｄｉａ）；および／または診断的使用（生殖カウンセリング）に利用可能であること。

グレード２の症状は、１つより多い以下の特色を有することが多い；おそらく病原性の奇形；高い侵入性；ＤＤ以外の一貫した特徴を有しない不定の表現型；文献における少数の症例／報告；報告されたすべての症例が臨床像を有すること；機能的データまたは確かめられた病原性遺伝子がないこと；複数の情報源（ＯＭＩＭ、Ｇｅｎｅｒｅｖｉｅｗｓ、Ｏｒｐｈａｎｅｔ、Ｕｎｉｑｕｅ、Ｗｉｋｉｐｅｄｉａ）；ならびに／または診断上の目的および生殖カウンセリングのために使用され得ること。

グレード３の症状は、１つより多い以下の特色を有することが多い；感受性遺伝子座；発端者の健常個体または無影響の親が記載されること；コントロール集団に存在すること；非侵入性；軽度かつ非特異的な表現型；それほど一貫しない特徴；機能的データまたは確かめられた病原性遺伝子がないこと；より限定的なデータの供給源；大多数から逸脱する症例の場合または新規の臨床所見が存在する場合、第２の診断の可能性が残っていること；ならびに／または診断目的のために使用されるときの警告および生殖カウンセリングのための慎重なアドバイス。
医学的障害および医学的症状

本明細書中に記載される方法は、任意の好適な医学的障害または医学的症状に適用可能であり得る。医学的障害および医学的症状の非限定的な例としては、細胞増殖性障害および症状、消耗性障害および症状、変性障害および症状、自己免疫障害および症状、子癇前症、化学毒性または環境毒性、肝臓の損傷または疾患、腎臓の損傷または疾患、血管性疾患、高血圧ならびに心筋梗塞が挙げられる。

いくつかの実施形態において、細胞増殖性障害または症状は、肝臓、肺、脾臓、膵臓、結腸、皮膚、膀胱、眼、脳、食道、頭部、頸部、卵巣、精巣、前立腺などの癌またはそれらの組み合わせである。癌の非限定的な例としては、造血性起源の過形成性／新生物の細胞が関わる疾患である（例えば、骨髄、リンパ系もしくは赤血球の系統またはそれらの前駆細胞から生じる）造血性新生物障害が挙げられ、未分化型急性白血病（例えば、赤芽球性白血病および急性巨核芽球性白血病）から生じ得る。ある特定の骨髄性障害としては、急性前骨髄性白血病（ＡＰＭＬ）、急性骨髄性白血病（ＡＭＬ）および慢性骨髄性白血病（ＣＭＬ）が挙げられるが、これらに限定されない。ある特定のリンパ系悪性腫瘍としては、急性リンパ芽球性白血病（ＡＬＬ）（Ｂ系統ＡＬＬおよびＴ系統ＡＬＬを含む）、慢性リンパ性白血病（ＣＬＬ）、前リンパ球性白血病（ＰＬＬ）、ヘアリーセル白血病（ＨＬＬ）およびワルデンシュトレームマクログロブリン血症（ＷＭ）が挙げられるが、これらに限定されない。ある特定の形態の悪性リンパ腫としては、非ホジキンリンパ腫およびその異型、末梢Ｔ細胞リンパ腫、成人Ｔ細胞白血病／リンパ腫（ＡＴＬ）、皮膚Ｔ細胞性リンパ腫（ＣＴＣＬ）、大顆粒リンパ性白血病（ＬＧＦ）、ホジキン病およびリード・シュテルンベルク病が挙げられるが、これらに限定されない。細胞増殖性障害は、非内分泌腫瘍または内分泌腫瘍であるときがある。非内分泌腫瘍の例証的な例としては、腺癌、腺房細胞癌腫、腺扁平上皮癌腫、巨細胞腫、管内乳頭粘液性新生物、粘液性嚢胞腺癌、膵芽腫、漿液性嚢胞腺腫、充実性偽乳頭状腫瘍が挙げられるが、これらに限定されない。内分泌腫瘍は、島細胞腫瘍であるときがある。

いくつかの実施形態において、消耗性障害もしくは症状または変性障害もしくは症状は、肝硬変、筋萎縮性側索硬化症（ＡＬＳ）、アルツハイマー病、パーキンソン病、多系統萎縮症、アテローム性動脈硬化症、進行性核上性麻痺、テイ・サックス病、糖尿病、心疾患、円錐角膜、炎症性腸疾患（ＩＢＤ）、前立腺炎、変形性関節症、骨粗鬆症、関節リウマチ、ハンチントン病、慢性外傷性脳障害、慢性閉塞性肺疾患（ＣＯＰＤ）、結核、慢性下痢、後天性免疫不全症候群（ＡＩＤＳ）、上腸間膜動脈症候群などまたはそれらの組み合わせである。

いくつかの実施形態において、自己免疫障害または症状は、急性散在性脳脊髄炎（ＡＤＥＭ）、アジソン病、円形脱毛症、強直性脊椎炎、抗リン脂質抗体症候群（ＡＰＳ）、自己免疫性溶血性貧血、自己免疫性肝炎、自己免疫性内耳疾患、水疱性類天疱瘡、セリアック病、シャーガス病、慢性閉塞性肺疾患、クローン病（特発性炎症性腸疾患「ＩＢＤ」の１タイプ）、皮膚筋炎、真性糖尿病タイプ１、子宮内膜症、グッドパスチャー症候群、グレーヴズ病、ギラン・バレー症候群（ＧＢＳ）、橋本病、化膿性汗腺炎、特発性血小板減少性紫斑病、間質性膀胱炎、エリテマトーデス、混合結合組織病、モルヘア、多発性硬化症（ＭＳ）、重症筋無力症、ナルコレプシー、神経性筋強直症（ｅｕｒｏｍｙｏｔｏｎｉａ）、尋常性天疱瘡、悪性貧血、多発性筋炎、原発性胆汁性肝硬変、関節リウマチ、統合失調症、強皮症、シェーグレン症候群、側頭動脈炎（「巨細胞性動脈炎」としても知られる）、潰瘍性大腸炎（特発性炎症性腸疾患「ＩＢＤ」の１タイプ）、脈管炎、白斑、ウェゲナー肉芽腫症などまたはそれらの組み合わせである。
癌

いくつかの実施形態において、異常な細胞増殖の症状（例えば、癌、腫瘍、新生物）の存在もしくは非存在は、本明細書中に記載される方法または装置を用いることによって判定される。例えば、血清中の無細胞核酸のレベルは、健常患者と比べて、様々なタイプの癌を有する患者において上昇し得る。転移性疾患を有する患者は、例えば、非転移性患者よりもおよそ２倍高い血清ＤＮＡレベルを有し得るときがある。転移性疾患を有する患者は、例えば、癌特異的マーカーおよび／またはある特定の単一ヌクレオチド多型もしくは短いタンデム反復によっても識別され得る。高レベルの循環ＤＮＡと正に相関し得る癌のタイプの非限定的な例としては、乳癌、直腸結腸癌、消化器癌、肝細胞癌、肺癌、メラノーマ、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱癌、ヘパトーマ、子宮頸癌、食道癌、膵癌および前立腺癌が挙げられる。様々な癌が、非癌性の健康な細胞由来の核酸と区別可能な特色（例えば、エピジェネティックな状態ならびに／または配列のバリエーション、重複および／もしくは欠失）を有する核酸を有し得、血流中に放出し得るときがある。そのような特色は、例えば、特定のタイプの癌に特異的であり得る。したがって、本明細書中に提供される方法は、特定のタイプの癌を識別するために使用され得ることがさらに企図される。
子癇前症

いくつかの実施形態において、子癇前症の存在もしくは非存在は、本明細書中に記載される方法、機器または装置を用いることによって判定される。子癇前症は、妊娠中に高血圧症が生じ（例えば、妊娠誘発性高血圧症）、尿中のかなりの量のタンパク質に関連する症状である。ある特定の実施形態において、子癇前症は、高レベルの細胞外核酸および／またはメチル化パターンの変化にも関連する。例えば、細胞外の胎児由来高メチル化ＲＡＳＳＦ１Ａレベルと子癇前症の重症度との間に正の相関が観察された。ある特定の例において、ＤＮＡメチル化の増加が、正常なコントロールと比較して、子癇前症の胎盤においてＨ１９遺伝子に対して観察される。

子癇前症は、世界中の母体および胎児／新生児の死亡および罹患の主な原因の１つである。血漿中および血清中の循環無細胞核酸は、出生前診断をはじめとした、種々の医学分野において有望な臨床応用を有する新規バイオマーカーである。切迫子癇前症に対する指標としての、母体血漿中の無細胞胎児（ｃｆｆ）ＤＮＡの定量的変化は、例えば、男性特異的ＳＲＹまたはＤＹＳ１４遺伝子座に対するリアルタイム定量的ＰＣＲを用いた種々の研究において報告されている。早期発症型子癇前症の場合、妊娠第１期に高レベルが見られることがある。症状発生前の高レベルのｃｆｆＤＮＡは、絨毛間腔内の低酸素／再酸素負荷に起因し、組織酸化ストレスならびに胎盤のアポトーシスおよびネクローシスの増加に至ることがある。母体循環へのｃｆｆＤＮＡの流出増加に対する証拠に加えて、子癇前症では、ｃｆｆＤＮＡの腎クリアランスの減少に対する証拠も存在する。胎児ＤＮＡの量は、現在、Ｙ染色体特異的配列を定量することによって測定されるので、全無細胞ＤＮＡの計測または性別非依存性の胎児エピジェネティックマーカー（例えば、ＤＮＡメチル化）の使用などの代替アプローチが、代替法を提供する。胎盤起源の無細胞ＲＮＡは、実地臨床において子癇前症のスクリーニングおよび診断に使用され得る別の代替バイオマーカーである。胎児のＲＮＡは、それを分解から保護する細胞内胎盤粒子に関連する。胎児のＲＮＡレベルは、子癇前症を有する妊婦において、コントロールと比較して１０倍高いときがあり、ゆえに、実地臨床において子癇前症のスクリーニングおよび診断に使用され得る代替バイオマーカーである。
病原体

いくつかの実施形態において、病原性の症状の存在もしくは非存在は、本明細書中に記載される方法、機器または装置によって判定される。病原性の症状は、細菌、ウイルスまたは真菌を含むがこれらに限定されない病原体による宿主の感染によって引き起こされ得る。病原体は、代表的には、宿主核酸と区別可能であり得る核酸（例えば、ゲノムＤＮＡ、ゲノムＲＮＡ、ｍＲＮＡ）を有するので、本明細書中に提供される方法、機器および装置を用いることにより、病原体の存在もしくは非存在を判定することができる。病原体は、特定の病原体に特有の特色、例えば、エピジェネティックな状態、ならびに／または１つもしくはそれを超える配列のバリエーション、重複および／もしくは欠失を有する核酸を有することが多い。したがって、本明細書中に提供される方法を用いることにより、特定の病原体または病原体バリアント（例えば、系統）が特定され得る。

下記に示される実施例は、ある特定の実施形態を例証するものであって、本技術を限定するものではない。
実施例１：アラインメントを必要としない染色体カウント正規化の特徴

この実施例に記載される方法は、正規化において複数の染色体を使用せずに、全ゲノム配列決定解析に関する染色体提示を算出する代替方法を提供する。様々なタイプの分子診断（例えば、非侵襲性の出生前診断）が、目的のサンプルのゲノム提示の標準化された値を、予め定められたカットオフと比較することに依存している。場合によっては、このゲノム提示は、全ゲノム配列決定実験から得られ、ここで、配列決定されたリードは、まず、参照ゲノムにアラインメントされる。いくつかの配列決定プラットフォームの場合、シーケンシングリードの総数の有意なばらつきは、実験条件自体に応じて存在するが、本質的には固有の生物学的特性に応じては存在しない。このため、そのゲノム提示は、正規化工程を含むことが多く、ある特定の領域にアラインメントされたリードを、他の領域（まさしくその目的の領域も含み得る）にアラインメントされたリードによって除算する。例えば、ＭａｔｅｒｎｉＴ２１テスト（Ｓｅｑｕｅｎｏｍ，Ｉｎｃ．，ＳａｎＤｉｅｇｏ，Ｃａｌｉｆｏｒｎｉａ）では、染色体提示は、すべての常染色体上にアラインメントされたリードに対する、目的の染色体上にアラインメントされたリードの比率として算出される。この正規化工程において構築され得る様々なタイプの比率は、これらの比率から導かれる診断の精度全体に対して様々に関連し得る。これまでに、そのような比率は、アラインメントされたリードに基づいて（様々な配列アラインメントツールおよび参照ゲノムを用いて）算出されてきた。

一般的な参照ゲノムに対する従来のアラインメント工程の非存在下において染色体提示を推測する方法が、本明細書の以後に記載される。
ａ．染色体提示は、目的の染色体（例えば、ｃｈｒ２１）にアラインメントされたリードとシーケンシングリードの数（任意のアラインメントの前）との比率として定義される
ｂ．染色体提示は、目的の染色体（例えば、ｃｈｒ２１）にアラインメントされたリードと、任意の品質管理メトリックによってフィルタリングされたシーケンシングリードの数（任意のアラインメントの前）（例えば、ｃｈａｓｔｉｔｙフィルターを通過するリード）との比率として定義される

図１は、最近の研究（ＬＤＴｖ４ＣＥ２）において観察された、リードの総数（アラインメント前）とｃｈａｓｔｉｔｙフィルターを通過するリードの総数（アラインメント前）との比較を示している。

図２は、最近の研究（ＬＤＴｖ４ＣＥ２）において観察された、ｃｈａｓｔｉｔｙフィルターを通過するリードの総数（アラインメント前）と、すべての常染色体にアラインメントされたリードとの比較を示している。

図３Ａ、図３Ｂおよび図３Ｃは、２１、１３および１８番染色体に対してＧＣ−ＬＯＥＳＳ正規化に続いて主成分正規化を用いたときの、常染色体を用いて算出された染色体提示およびｃｈａｓｔｉｔｙフィルターを通過するアラインメント前のリードを用いて算出された染色体提示から導かれたｚ得点の比較を示している。

フィルターを通過したアラインメント前のリードを用いて算出された染色体提示に基づいて測定される異数性検出の精度は、下記の表２〜４に示され、ＬＤＴｖ４ＣＥ２研究の精度と同一であると見出された。

実施例２：アラインメントを必要としないさらなる染色体カウント正規化の特徴

実施例１に記載された方法に対する代替法として、一般的な参照ゲノムに対する従来のアラインメント工程の非存在下において染色体提示を推測する方法が本明細書の以後に記載される。これらの方法のいくつかは、アラインメントされたリードが分子と分母の両方に対して使用されることを必要とせずに染色体提示を算出する代替方法を提供する。
ａ．染色体提示は、目的の染色体（例えば、ｃｈｒ２１）にアラインメントされたリードのサブセットと、任意の品質管理メトリックによってフィルタリングされるか、またはフィルタリングされない（例えば、ｃｈａｓｔｉｔｙフィルターを通過するリード）、所与のサブセットからのシーケンシングリードの数（任意のアラインメントの前）との比率として定義される
ｂ．染色体提示は、目的の染色体（例えば、ｃｈｒ２１）にアラインメントされたリードのサブセットと、ヌクレオチド組成によってフィルタリングされた（例えば、特定の範囲内のＧＣ含有量を有するリード）、所与のサブセットからのシーケンシングリードの数（任意のアラインメントの前）との比率として定義される
ｃ．染色体提示は、リードのカスタム辞書にマッチするリードのサブセット（予め配列決定されたサンプルから得られ、目的の染色体に予めアラインメントされたもの）と上記ａ〜ｄにおいて定義された変数のいずれかとの比率として定義される
ｄ．染色体提示は、目的の染色体にアラインメントされるかまたはカスタム辞書にマッチするリードと、参照ゲノムのサブセットにアラインメントされないリード（「アラインメント不可能」）との比率として定義される

図４は、カウントＡ（Ｎｔａｒｇｅｔと称される，４８０）を生成するために、上記（ｃ）および（ｄ）に記載されたカスタム辞書を利用する方法の例を示している。図４に示されているように、分母Ｎｔｏｔに対するリード数は、シークエンサーからリードに対する生ファイルを入手することによって生成される（４１０）。そのプロセスは、Ｎｔｏｔカウントを生成するために、それらのファイルを各テストサンプルに対する個々のＦＡＳＴＱファイルに変換すること（４３０）、およびｃｈａｓｔｉｔｙフィルター（画質フィルター，４４０）に従ってフィルタリングされて除外されたリードを除く、テストサンプルに対するリードの総数をカウントすることを含む。ｃｈａｓｔｉｔｙフィルターの代わりに、またはｃｈａｓｔｉｔｙフィルターに加えて、他のフィルターを使用することができる。例えば、ＧＣパーセンテージ（例えば、３０％〜６０％のＧＣパーセンテージ）に基づくフィルターが、リードをフィルタリングするために使用され得る（４４０）。また、複雑さの低いリード（例えば、５０％超のリピートを有するリード）を除去するフィルターが、リードをフィルタリングするために使用され得る（４４０）。

図４に示されているように、参照サンプルまたは参照サンプルセットからのリードを、ヒト参照ゲノムにアラインメントし（４５０）、各染色体に対してリードの辞書（サブリスト）を作成する。それらの各辞書は、その辞書が作成された特定の染色体にユニークにマッピングされたリード（ポリヌクレオチド；ｋ−ｍｅｒ）を含む（４６０）。目的の染色体に対する辞書が、標的染色体に対して選択され、テストサンプルからのリード（４３０）を、その辞書におけるポリヌクレオチドと比較し（４７０）、その辞書の中のポリヌクレオチドとマッチするリードをカウントする（Ｎｔａｒｇｅｔ分子，４８０）。比較（４７０）は、通常、各リードのマッピングされた位置を返さず、リードが標的染色体に属するかまたは属さないかに関する２値結果を与える。標的染色体に対するカウント提示（染色体割合（ｃｈｒｏｍｏｓｏｍｅｆｒａｃｔｉｏｎ）、正規化された染色体カウント）確定のために、Ｎｔｏｔカウントが分母として使用され、Ｎｔａｒｇｅｔカウントが分子として使用される（４９０）。
実施例３：ある特定の実施形態の例

本技術のある特定の実施形態の非限定的な例が本明細書の以後に列挙される。

Ａ１．診断テストのためにゲノムセグメントの配列リードカウント提示を確定するための方法であって、該方法は、
（ａ）あるゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、該セグメントに対するカウントＡを提供する工程であって、該配列リードは、該ゲノムを有する被験体由来のテストサンプルからの核酸のリードである、工程；
（ｂ）該ゲノムまたは該ゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、該ゲノムまたは該ゲノムのサブセットに対するカウントＢを提供する工程であって、ここで、該カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、工程；および
（ｃ）該カウントＡと該カウントＢとの比率として、該セグメントに対するカウント提示を確定する工程
を含む、方法。

Ａ１．１．（ｂ）におけるゲノムのサブセットが、（ａ）におけるセグメントより大きい、実施形態Ａ１に記載の方法。

Ａ１．２．前記カウントＢが、前記配列リードを参照ゲノムにアラインメントする工程を含まないプロセスによって決定される、実施形態Ａ１またはＡ１．１に記載の方法。

Ａ２．前記カウントＢが、
（ｉ）前記テストサンプルからの核酸を配列決定するために使用される核酸配列決定プロセスによって生成された全リードのカウント；
（ｉｉ）該テストサンプルからの核酸を配列決定するために使用される核酸配列決定プロセスによって生成された全リードの一部のカウント；
（ｉｉｉ）該配列決定プロセスに対する品質管理メトリックに従ってフィルタリングされたリードを除く、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；
（ｉｖ）該配列決定プロセスに対する品質管理メトリックに従って重み付けされた、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；
（ｖ）リードの塩基含有量に従ってフィルタリングされたリードを除く、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；
（ｖｉ）リードの塩基含有量に従って重み付けされた、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；または
（ｖｉｉ）あるリストの中のポリヌクレオチドとマッチするリードのカウントであって、ここで、該リードは、該リストの中のポリヌクレオチドとリードを比較する工程を含むプロセスにおいて、該リストの中のポリヌクレオチドとマッチするかまたはマッチしないと判定され、ここで、該リードは、（ｉ）における全リード、（ｉｉ）における全リードの一部、（ｉｉｉ）の品質管理メトリックに従ってフィルタリングされたリードを除く、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、（ｉｖ）の品質管理メトリックに従って重み付けされた、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、（ｖ）のリードの塩基含有量に従ってフィルタリングされたリードを除く、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、または（ｖｉ）のリードの塩基含有量に従って重み付けされた、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部である、リードのカウント
である、実施形態Ａ１〜Ａ１．２のいずれか１つに記載の方法。

Ａ３．前記一部が、前記全リードからランダムに選択されたリードの一部である、実施形態Ａ２に記載の方法。

Ａ４．前記一部が、前記全リードの約１０％〜約９０％である、実施形態Ａ２またはＡ３に記載の方法。

Ａ５．前記核酸配列決定プロセスが、画像処理を含み、前記品質管理メトリックが、画質に基づく、実施形態Ａ２〜Ａ４のいずれか１つに記載の方法。

Ａ６．前記品質管理メトリックが、画像の重なりの評価に基づく、実施形態Ａ５に記載の方法。

Ａ７．前記リードの塩基含有量が、グアニンおよびシトシン（ＧＣ）含有量である、実施形態Ａ２〜Ａ６のいずれか１つに記載の方法。

Ａ８．（ｖ）においてフィルタリングされた前記リードが、第１のＧＣ閾値未満のＧＣ含有量を有する、実施形態Ａ７に記載の方法。

Ａ８．１．（ｖ）においてフィルタリングされた前記リードが、第２のＧＣ閾値を超えるＧＣ含有量を有する、実施形態Ａ７に記載の方法。

Ａ９．（ｖｉｉ）における前記カウントが、前記リストの中のポリヌクレオチドの配列およびサイズと正確にマッチするリードのカウントである、実施形態Ａ２〜Ａ８．１のいずれか１つに記載の方法。

Ａ９．１．前記リストの中のポリヌクレオチドが、（ａ）の前に、参照ゲノムまたは参照ゲノムにおけるサブセットにアラインメントされたものである、実施形態Ａ２〜Ａ９のいずれか１つに記載の方法。

Ａ９．２．前記参照ゲノムにおけるサブセットが、すべての常染色体またはすべての常染色体のサブセットである、実施形態Ａ９．１に記載の方法。

Ａ９．３．前記比較が、（ｉ）各ポリヌクレオチドがアラインメントする染色体、および／または（ｉｉ）各ポリヌクレオチドがアラインメントする染色体の位置番号を追跡する工程を含まない、実施形態Ａ９．１またはＡ９．２に記載の方法。

Ａ１０．リードを参照ゲノムとアラインメントするアラインメントプロセスに前記リードを供する工程を含み、ここで、前記カウントＢは、該リードを該アラインメントプロセスに供する前に決定される、実施形態Ａ１〜Ａ９．３のいずれか１つに記載の方法。

Ａ１１．リードを参照ゲノムとアラインメントするアラインメントプロセスに前記リードを供する工程を含み、ここで、前記カウントＢは、該アラインメントプロセスによって該参照ゲノムにアラインメントされないリードのカウントである、実施形態Ａ１に記載の方法。

Ａ１２．リードを参照ゲノムとアラインメントするアラインメントプロセスに前記リードを供する工程を含み、ここで、前記カウントＡは、該参照ゲノムにおけるセグメントにアラインメントされたリードのカウントである、実施形態Ａ１〜Ａ１１のいずれか１つに記載の方法。

Ａ１３．前記カウントＡが、前記配列リードを参照ゲノムにアラインメントする工程を含まないプロセスによって決定される、実施形態Ａ１〜Ａ１１のいずれか１つに記載の方法。

Ａ１４．前記カウントＡが、あるリストまたはあるリストのサブセットの中のポリヌクレオチドとマッチするリードのカウントであり、ここで、該リードは、リードを該リストまたは該リストのサブセットの中のポリヌクレオチドと比較する工程を含むプロセスにおいて、該リストまたは該リストのサブセットの中のポリヌクレオチドとマッチするかまたはマッチしないと判定される、実施形態Ａ１３に記載の方法。

Ａ１４．１．前記リストまたは前記リストのサブセットの中のポリヌクレオチドと比較された前記リードが、実施形態Ａ２（ｉ）における全リード；実施形態Ａ２（ｉｉ）における全リードの一部；実施形態Ａ２（ｉｉｉ）の品質管理メトリックに従ってフィルタリングされたリードを除く、実施形態Ａ２（ｉ）の全リードもしくは実施形態Ａ２（ｉｉ）の全リードの一部；実施形態Ａ２（ｉｖ）の品質管理メトリックに従って重み付けされた、実施形態Ａ２（ｉ）の全リードもしくは実施形態Ａ２（ｉｉ）の全リードの一部；実施形態Ａ２（ｖ）のリードの塩基含有量に従ってフィルタリングされたリードを除く、実施形態Ａ２（ｉ）の全リードもしくは実施形態Ａ２（ｉｉ）の全リードの一部；または実施形態Ａ２（ｖｉ）のリードの塩基含有量に従って重み付けされた、実施形態Ａ２（ｉ）の全リードもしくは実施形態Ａ２（ｉｉ）の全リードの一部である、実施形態Ａ１４に記載の方法。

Ａ１４．２．前記カウントＡが、前記リストまたは前記リストのサブセットの中のポリヌクレオチドの配列およびサイズと正確にマッチするリードのカウントである、実施形態Ａ１４またはＡ１４．１に記載の方法。

Ａ１４．３．前記リストまたは前記リストのサブセットの中のポリヌクレオチドが、（ａ）の前に、参照ゲノムにおけるセグメントにアラインメントされたものである、実施形態Ａ１４〜Ａ１４．２のいずれか１つに記載の方法。

Ａ１４．４．前記比較が、（ｉ）各ポリヌクレオチドがアラインメントする染色体、および／または（ｉｉ）各ポリヌクレオチドがアラインメントする染色体の位置番号の追跡を含まない、実施形態Ａ１４．３に記載の方法。

Ａ１４．５．前記配列リードが、（ａ）、（ｂ）および（ｃ）において前記配列リードを前記参照ゲノムにアラインメントするアラインメントプロセスに供されない、実施形態Ａ１〜Ａ９．３およびＡ１３〜Ａ１４．４のいずれか１つに記載の方法。

Ａ１４．６．前記配列リードが、前記診断テストにおいて該配列リードを前記参照ゲノムにアラインメントするアラインメントプロセスに供されない、実施形態Ａ１〜Ａ９．３およびＡ１３〜Ａ１４．４のいずれか１つに記載の方法。

Ａ１５．前記セグメントが、染色体である、実施形態Ａ１〜Ａ１４．６のいずれか１つに記載の方法。

Ａ１６．前記染色体が、１３番染色体、１８番染色体および２１番染色体から選択される、実施形態Ａ１５に記載の方法。

Ａ１７．前記セグメントが、染色体のセグメントである、実施形態Ａ１〜Ａ１４のいずれか１つに記載の方法。

Ａ１８．前記セグメントが、微小重複領域または微小欠失領域である、実施形態Ａ１７に記載の方法。

Ａ１９．（ｃ）における前記比率が、前記カウントＢで除算された前記カウントＡである、実施形態Ａ１〜Ａ１８のいずれか１つに記載の方法。

Ａ２０．（ｃ）における前記比率が、前記カウントＡで除算された前記カウントＢである、実施形態Ａ１〜Ａ１８のいずれか１つに記載の方法。

Ａ２１．前記核酸が、循環無細胞核酸である、実施形態Ａ１〜Ａ２０のいずれか１つに記載の方法。

Ａ２２．前記診断テストが、出生前診断テストであり、前記テストサンプルが、胎児を有する妊婦由来である、実施形態Ａ１〜Ａ２１のいずれか１つに記載の方法。

Ａ２３．前記診断テストが、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてのテストである、実施形態Ａ１〜Ａ２１のいずれか１つに記載の方法。

Ａ２４．前記セグメントに対するカウント提示の統計量を決定する工程を含む、実施形態Ａ１〜Ａ２３のいずれか１つに記載の方法。

Ａ２５．前記統計量が、ｚ得点である、実施形態Ａ２４に記載の方法。

Ａ２６．前記ｚ得点が、（ａ）（ｉ）前記テストサンプルに対する前記セグメントに対するカウント提示から（ｉｉ）サンプルセットに対する該セグメントに対するカウント提示の中央値を除いた減算の結果を、（ｂ）該サンプルセットに対するセグメントに対するカウント提示のＭＡＤで除算した商である、実施形態Ａ２５に記載の方法。

Ａ２７．前記診断テストが、出生前診断テストであり、前記テストサンプルが、胎児を有する妊婦由来であり、前記サンプルセットが、正倍数性胎児の妊娠を有する被験体に対するサンプルのセットである、実施形態Ａ２６に記載の方法。

Ａ２８．前記診断テストが、出生前診断テストであり、前記テストサンプルが、胎児を有する妊婦由来であり、前記サンプルセットが、トリソミー胎児の妊娠を有する被験体に対するサンプルのセットである、実施形態Ａ２６に記載の方法。

Ａ２９．前記診断テストが、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてであり、前記サンプルセットが、該細胞増殖の症状を有する被験体に対するサンプルのセットである、実施形態Ａ２６に記載の方法。

Ａ３０．前記診断テストが、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてであり、前記サンプルセットが、該細胞増殖の症状を有しない被験体に対するサンプルのセットである、実施形態Ａ２６に記載の方法。

Ａ３１．前記カウントＡが、正規化されたカウントのものである、実施形態Ａ１〜Ａ３０のいずれか１つに記載の方法。

Ａ３２．前記カウントＢが、正規化されたカウントのものである、実施形態Ａ１〜Ａ３１のいずれか１つに記載の方法。

Ａ３３．前記正規化されたカウントが、ＬＯＥＳＳ正規化プロセスを含む正規化プロセスによって生成される、実施形態Ａ３１またはＡ３２に記載の方法。

Ａ３４．前記正規化されたカウントが、グアニンおよびシトシン（ＧＣ）バイアス正規化を含む正規化プロセスによって生成される、実施形態Ａ３１〜Ａ３３のいずれか１つに記載の方法。

Ａ３５．前記正規化されたカウントが、ＧＣバイアスのＬＯＥＳＳ正規化（ＧＣ−ＬＯＥＳＳ）を含む正規化プロセスによって生成される、実施形態Ａ３１〜Ａ３４のいずれか１つに記載の方法。

Ａ３６．前記正規化されたカウントが、主成分正規化を含む正規化プロセスによって生成される、実施形態Ａ３１〜Ａ３５のいずれか１つに記載の方法。

Ａ３７．前記診断テストが、出生前診断テストであり、前記テストサンプルが、胎児を有する妊婦由来であり、該診断テストは、遺伝的変異の非存在の存在を判定することを含む、実施形態Ａ１〜Ａ３６のいずれか１つに記載の方法。

Ａ３８．前記遺伝的変異が、染色体異数性である、実施形態Ａ３７に記載の方法。

Ａ３９．前記染色体異数性が、染色体全体の１、３または４コピーである、実施形態Ａ３８に記載の方法。

Ａ４０．前記遺伝的変異が、微小重複または微小欠失である、実施形態Ａ３７に記載の方法。

Ａ４１．前記遺伝的変異が、胎児の遺伝的変異である、実施形態Ａ３７〜Ａ４０のいずれか１つに記載の方法。

Ａ４２．前記診断テストが、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてであり、該診断テストは、遺伝的変異の非存在の存在を判定することを含む、実施形態Ａ１〜Ａ３６のいずれか１つに記載の方法。

Ａ４３．前記遺伝的変異が、微小重複または微小欠失である、実施形態Ａ４２に記載の方法。

Ａ４４．（ａ）、（ｂ）および（ｃ）のうちの１つもしくはそれを超えるものまたはすべてが、システムにおけるマイクロプロセッサによって行われる、実施形態Ａ１〜Ａ４３のいずれか１つに記載の方法。

Ａ４５．（ａ）、（ｂ）および（ｃ）のうちの１つもしくはそれを超えるものまたはすべてが、システムにおけるメモリーと連動して行われる、請求項Ａ１〜Ａ４４のいずれか１項に記載の方法。

Ａ４６．（ａ）、（ｂ）および（ｃ）のうちの１つもしくはそれを超えるものまたはすべてが、コンピュータによって行われる、実施形態Ａ１〜Ａ４５のいずれか１つに記載の方法。

Ｂ１．１つまたはそれを超えるマイクロプロセッサおよびメモリーを備えるシステムであって、該メモリーは、該１つまたはそれを超えるマイクロプロセッサによって実行可能な指示を備え、該メモリーは、ヌクレオチド配列リードを備え、該配列リードは、被験体由来のテストサンプルからの核酸のリードであり、該１つまたはそれを超えるマイクロプロセッサによって実行可能な指示は、以下：
（ａ）マイクロプロセッサを用いて、あるゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、該セグメントに対するカウントＡを提供することであって、ここで、該配列リードは、該ゲノムを有する被験体由来のテストサンプルからの核酸のリードである、カウントＡを提供すること；
（ｂ）マイクロプロセッサを用いて、該ゲノムまたは該ゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、該ゲノムまたは該ゲノムのサブセットに対するカウントＢを提供することであって、ここで、該カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、カウントＢを提供すること；および
（ｃ）該カウントＡと該カウントＢとの比率として、該セグメントに対するカウント提示を確定すること
を行うように構成される、システム。

Ｂ２．１つまたはそれを超えるマイクロプロセッサおよびメモリーを備える機器であって、該メモリーは、該１つまたはそれを超えるマイクロプロセッサによって実行可能な指示を備え、該メモリーは、ヌクレオチド配列リードを備え、該配列リードは、被験体由来のテストサンプルからの核酸のリードであり、該１つまたはそれを超えるマイクロプロセッサによって実行可能な指示は、以下：
（ａ）マイクロプロセッサを用いて、あるゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、該セグメントに対するカウントＡを提供することであって、ここで、該配列リードは、該ゲノムを有する被験体由来のテストサンプルからの核酸のリードである、カウントＡを提供すること；
（ｂ）マイクロプロセッサを用いて、該ゲノムまたは該ゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、該ゲノムまたは該ゲノムのサブセットに対するカウントＢを提供することであって、ここで、該カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、カウントＢを提供すること；および
（ｃ）該カウントＡと該カウントＢとの比率として、該セグメントに対するカウント提示を確定すること
を行うように構成される、機器。

Ｂ３．実行可能なプログラムが格納されている非一時的なコンピュータ可読記憶媒体であって、該プログラムは、マイクロプロセッサに以下：
（ａ）被験体由来のテストサンプルからの核酸のリードであるヌクレオチド配列リードにアクセスすること；
（ｂ）マイクロプロセッサを用いて、あるゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、該セグメントに対するカウントＡを提供することであって、ここで、該配列リードは、該ゲノムを有する被験体由来のテストサンプルからの核酸のリードである、カウントＡを提供すること；
（ｃ）マイクロプロセッサを用いて、該ゲノムまたは該ゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、該ゲノムまたは該ゲノムのサブセットに対するカウントＢを提供することであって、ここで、該カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、カウントＢを提供すること；および
（ｄ）該カウントＡと該カウントＢとの比率として、該セグメントに対するカウント提示を確定すること
を行うように指示する、非一時的なコンピュータ可読記憶媒体。

図面は、本技術のある特定の実施形態を例証するものであって、限定するものではない。例証を明確にするためおよび平易にするために、図面は、一定尺度で拡大縮小して作成されておらず、場合によっては、特定の実施形態の理解を促すために、様々な態様が誇張されてまたは拡大されて示されていることがある。

本明細書中で参照される各特許、特許出願、刊行物および文書の全体が、参照により本明細書に組み込まれる。上記特許、特許出願、刊行物および文書の引用は、前述のいずれもが適切な従来技術であることを自認するものではないし、その引用が、これらの刊行物または文書の内容または日付に関するいずれの自認も構成しない。

本技術の基本的な態様から逸脱することなく、前述のものに対して改変が行われ得る。本技術は、１つまたはそれを超える特定の実施形態に照らして実質的に詳細に記載されてきたが、当業者は、本願に具体的に開示された実施形態に対して変更が行われ得るが、これらの改変および改善は、本技術の範囲内および精神の範囲内であることを認識するだろう。

本明細書中に例証的に記載された技術は、本明細書中に具体的に開示されていない任意のエレメントの非存在下において適切に実施され得る。したがって、例えば、本明細書中の各場合において、用語「〜を含む」、「〜から本質的になる」および「〜からなる」のいずれもが、他の２つの用語のいずれかと置き換えられてもよい。用いられてきた用語および表現は、説明の用語であって限定でない用語として使用され、そのような用語および表現の使用は、示されたおよび記載された特徴またはその一部の等価物を排除せず、特許請求される技術の範囲内で様々な改変が可能である。用語「ａ」または「ａｎ」は、それらのエレメントの１つまたはそれらのエレメントの１つより多いエレメントが記載されていることが文脈上明らかでない限り、それが修飾するエレメントの１つまたは複数のことを指し得る（例えば、「試薬（ａｒｅａｇｅｎｔ）」は、１つまたはそれを超える試薬を意味し得る）。用語「約」は、本明細書中で使用されるとき、基礎をなすパラメータの１０％以内の値（すなわち、プラスまたはマイナス１０％）のことを指し、一連の値の最初における用語「約」の使用は、それらの値の各々を修飾する（すなわち、「約１、２および３」は、約１、約２および約３のことを指す）。例えば、「約１００グラム」という重量は、９０グラム〜１１０グラムの重量を含み得る。さらに、値のリストが本明細書中に記載されるとき（例えば、約５０％、６０％、７０％、８０％、８５％または８６％）、そのリストは、それらのすべての中間値および小数値（例えば、５４％、８５．４％）を含む。したがって、本技術は、代表的な実施形態および随意の特徴によって具体的に開示されてきたが、本明細書中に開示される概念の改変およびバリエーションは、当業者によって用いられ得、そのような改変およびバリエーションは、本技術の範囲内であると見なされることが理解されるべきである。

本技術のある特定の実施形態は、以下の請求項に示される。

Claims

診断テストのためにゲノムセグメントの配列リードカウント提示を確定するための方法であって、該方法は、
（ａ）ゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、該セグメントに対するカウントＡを提供する工程であって、該配列リードは、該ゲノムを有する被験体由来のテストサンプルからの核酸のリードである、工程；
（ｂ）該ゲノムまたは該ゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、該ゲノムまたは該ゲノムのサブセットに対するカウントＢを提供する工程であって、ここで、該カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、工程；および
（ｃ）該カウントＡと該カウントＢとの比率として、該セグメントに対するカウント提示を確定する工程
を含む、方法。
（ｂ）における前記ゲノムのサブセットが、（ａ）における前記セグメントより大きい、請求項１に記載の方法。
前記カウントＢが、前記配列リードを参照ゲノムにアラインメントする工程を含まないプロセスによって決定される、請求項１または２に記載の方法。
前記カウントＢが、
（ｉ）前記テストサンプルからの核酸を配列決定するために使用される核酸配列決定プロセスによって生成された全リードのカウント；
（ｉｉ）該テストサンプルからの核酸を配列決定するために使用される核酸配列決定プロセスによって生成された全リードの一部のカウント；
（ｉｉｉ）該配列決定プロセスに対する品質管理メトリックに従ってフィルタリングされたリードを除く、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；
（ｉｖ）該配列決定プロセスに対する品質管理メトリックに従って重み付けされた、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；
（ｖ）リードの塩基含有量に従ってフィルタリングされたリードを除く、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；
（ｖｉ）リードの塩基含有量に従って重み付けされた、（ｉ）の全リードまたは（ｉｉ）の全リードの一部のカウント；または
（ｖｉｉ）あるリストの中のポリヌクレオチドとマッチするリードのカウントであって、ここで、該リードは、該リストの中のポリヌクレオチドとリードを比較する工程を含むプロセスにおいて、該リストの中のポリヌクレオチドとマッチするかまたはマッチしないと判定され、ここで、該リードは、（ｉ）における全リード、（ｉｉ）における全リードの一部、（ｉｉｉ）の品質管理メトリックに従ってフィルタリングされたリードを除く、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、（ｉｖ）の品質管理メトリックに従って重み付けされた、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、（ｖ）のリードの塩基含有量に従ってフィルタリングされたリードを除く、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部、または（ｖｉ）のリードの塩基含有量に従って重み付けされた、（ｉ）の全リードもしくは（ｉｉ）の全リードの一部である、リードのカウント
である、請求項１〜３のいずれか１項に記載の方法。
前記一部が、前記全リードからランダムに選択されたリードの一部である、請求項４に記載の方法。
前記一部が、前記全リードの約１０％〜約９０％である、請求項４または５に記載の方法。
前記核酸配列決定プロセスが、画像処理を含み、前記品質管理メトリックが、画質に基づく、請求項４〜６のいずれか１項に記載の方法。
前記品質管理メトリックが、画像の重なりの評価に基づく、請求項７に記載の方法。
前記リードの塩基含有量が、グアニンおよびシトシン（ＧＣ）含有量である、請求項４〜８のいずれか１項に記載の方法。
（ｖ）においてフィルタリングされた前記リードは、第１のＧＣ閾値未満のＧＣ含有量を有する、請求項９に記載の方法。
（ｖ）においてフィルタリングされた前記リードが、第２のＧＣ閾値を超えるＧＣ含有量を有する、請求項９に記載の方法。
（ｖｉｉ）における前記カウントが、前記リストの中のポリヌクレオチドの配列およびサイズと正確にマッチするリードのカウントである、請求項４〜１１のいずれか１項に記載の方法。
前記リストの中のポリヌクレオチドが、（ａ）の前に、参照ゲノムまたは参照ゲノムにおけるサブセットにアラインメントされたものである、請求項４〜１２のいずれか１項に記載の方法。
前記参照ゲノムにおけるサブセットが、すべての常染色体またはすべての常染色体のサブセットである、請求項１３に記載の方法。
前記比較が、（ｉ）各ポリヌクレオチドがアラインメントする染色体、および／または（ｉｉ）各ポリヌクレオチドがアラインメントする染色体の位置番号を追跡する工程を含まない、請求項１３または１４に記載の方法。
リードを参照ゲノムとアラインメントするアラインメントプロセスに前記リードを供する工程を含み、ここで、前記カウントＢは、該リードを該アラインメントプロセスに供する前に決定される、請求項１〜１５のいずれか１項に記載の方法。
リードを参照ゲノムとアラインメントするアラインメントプロセスに前記リードを供する工程を含み、ここで、前記カウントＢは、該アラインメントプロセスによって該参照ゲノムにアラインメントされないリードのカウントである、請求項１〜１６のいずれか１項に記載の方法。
リードを参照ゲノムとアラインメントするアラインメントプロセスに前記リードを供する工程を含み、ここで、前記カウントＡは、該参照ゲノムにおけるセグメントにアラインメントされたリードのカウントである、請求項１〜１７のいずれか１項に記載の方法。
前記カウントＡが、前記配列リードを参照ゲノムにアラインメントする工程を含まないプロセスによって決定される、請求項１〜１７のいずれか１項に記載の方法。
前記カウントＡが、あるリストまたはあるリストのサブセットの中のポリヌクレオチドとマッチするリードのカウントであり、ここで、該リードは、リードを該リストまたは該リストのサブセットの中のポリヌクレオチドと比較する工程を含むプロセスにおいて、該リストまたは該リストのサブセットの中のポリヌクレオチドとマッチするかまたはマッチしないと判定される、請求項１９に記載の方法。
前記リストまたは前記リストのサブセットの中のポリヌクレオチドと比較された前記リードが、請求項４（ｉ）における全リード；請求項４（ｉｉ）における全リードの一部；請求項４（ｉｉｉ）の品質管理メトリックに従ってフィルタリングされたリードを除く、請求項４（ｉ）の全リードもしくは請求項４（ｉｉ）の全リードの一部；請求項４（ｉｖ）の品質管理メトリックに従って重み付けされた、請求項４（ｉ）の全リードもしくは請求項４（ｉｉ）の全リードの一部；請求項４（ｖ）のリードの塩基含有量に従ってフィルタリングされたリードを除く、請求項４（ｉ）の全リードもしくは請求項４（ｉｉ）の全リードの一部；または請求項４（ｖｉ）のリードの塩基含有量に従って重み付けされた、請求項４（ｉ）の全リードもしくは請求項４（ｉｉ）の全リードの一部である、請求項２０に記載の方法。
前記カウントＡが、前記リストまたは前記リストのサブセットの中のポリヌクレオチドの配列およびサイズと正確にマッチするリードのカウントである、請求項２０または２１に記載の方法。
前記リストまたは前記リストのサブセットの中のポリヌクレオチドが、（ａ）の前に、参照ゲノムにおけるセグメントにアラインメントされたものである、請求項２０〜２２のいずれか１項に記載の方法。
前記比較が、（ｉ）各ポリヌクレオチドがアラインメントする染色体、および／または（ｉｉ）各ポリヌクレオチドがアラインメントする染色体の位置番号の追跡を含まない、請求項２３に記載の方法。
前記配列リードが、（ａ）、（ｂ）および（ｃ）において前記配列リードを前記参照ゲノムにアラインメントするアラインメントプロセスに供されない、請求項１〜１５および１９〜２４のいずれか１項に記載の方法。
前記配列リードが、前記診断テストにおいて該配列リードを前記参照ゲノムにアラインメントするアラインメントプロセスに供されない、請求項１〜１５および１９〜２４のいずれか１項に記載の方法。
前記セグメントが、染色体である、請求項１〜２６のいずれか１項に記載の方法。
前記染色体が、１３番染色体、１８番染色体および２１番染色体から選択される、請求項２７に記載の方法。
前記セグメントが、染色体のセグメントである、請求項１〜２６のいずれか１項に記載の方法。
前記セグメントが、微小重複領域または微小欠失領域である、請求項２９に記載の方法。
（ｃ）における前記比率が、前記カウントＢで除算された前記カウントＡである、請求項１〜３０のいずれか１項に記載の方法。
（ｃ）における前記比率が、前記カウントＡで除算された前記カウントＢである、請求項１〜３０のいずれか１項に記載の方法。
前記核酸が、循環無細胞核酸である、請求項１〜３２のいずれか１項に記載の方法。
前記診断テストが、出生前診断テストであり、前記テストサンプルが、胎児を有する妊婦由来である、請求項１〜３３のいずれか１項に記載の方法。
前記診断テストが、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてのテストである、請求項１〜３３のいずれか１項に記載の方法。
前記セグメントに対するカウント提示の統計量を決定する工程を含む、請求項１〜３５のいずれか１項に記載の方法。
前記統計量が、ｚ得点である、請求項３６に記載の方法。
前記ｚ得点が、（ａ）（ｉ）前記テストサンプルに対する前記セグメントに対するカウント提示から（ｉｉ）サンプルセットに対する前記セグメントに対するカウント提示の中央値を除いた減算の結果を、（ｂ）該サンプルセットに対するセグメントに対するカウント提示のＭＡＤで除算した商である、請求項３７に記載の方法。
前記診断テストが、出生前診断テストであり、前記テストサンプルが、胎児を有する妊婦由来であり、前記サンプルセットが、正倍数性胎児の妊娠を有する被験体に対するサンプルのセットである、請求項１〜３８のいずれか１項に記載の方法。
前記診断テストが、出生前診断テストであり、前記テストサンプルが、胎児を有する妊婦由来であり、前記サンプルセットが、トリソミー胎児の妊娠を有する被験体に対するサンプルのセットである、請求項１〜３８のいずれか１項に記載の方法。
前記診断テストが、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてであり、前記サンプルセットが、該細胞増殖の症状を有する被験体に対するサンプルのセットである、請求項１〜３８のいずれか１項に記載の方法。
前記診断テストが、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてであり、前記サンプルセットが、該細胞増殖の症状を有しない被験体に対するサンプルのセットである、請求項１〜３８のいずれか１項に記載の方法。
前記カウントＡが、正規化されたカウントのものである、請求項１〜４２のいずれか１項に記載の方法。
前記カウントＢが、正規化されたカウントのものである、請求項１〜４３のいずれか１項に記載の方法。
前記正規化されたカウントが、ＬＯＥＳＳ正規化プロセスを含む正規化プロセスによって生成される、請求項４３または４４に記載の方法。
前記正規化されたカウントが、グアニンおよびシトシン（ＧＣ）バイアス正規化を含む正規化プロセスによって生成される、請求項４３〜４５のいずれか１項に記載の方法。
前記正規化されたカウントが、ＧＣバイアスのＬＯＥＳＳ正規化（ＧＣ−ＬＯＥＳＳ）を含む正規化プロセスによって生成される、請求項４３〜４６のいずれか１項に記載の方法。
前記正規化されたカウントが、主成分正規化を含む正規化プロセスによって生成される、請求項４３〜４７のいずれか１項に記載の方法。
前記診断テストが、出生前診断テストであり、前記テストサンプルが、胎児を有する妊婦由来であり、該診断テストは、遺伝的変異の非存在の存在を判定することを含む、請求項１〜４８のいずれか１項に記載の方法。
前記遺伝的変異が、染色体異数性である、請求項４９に記載の方法。
前記染色体異数性が、染色体全体の１、３または４コピーである、請求項５０に記載の方法。
前記遺伝的変異が、微小重複または微小欠失である、請求項４９に記載の方法。
前記遺伝的変異が、胎児の遺伝的変異である、請求項４９〜５２のいずれか１項に記載の方法。
前記診断テストが、細胞増殖の症状の存在、非存在、高リスクまたは低リスクについてであり、該診断テストが、遺伝的変異の非存在の存在を判定することを含む、請求項１〜４８のいずれか１項に記載の方法。
前記遺伝的変異が、微小重複または微小欠失である、請求項５４に記載の方法。
（ａ）、（ｂ）および（ｃ）のうちの１つもしくはそれを超えるものまたはすべてが、システムにおけるマイクロプロセッサによって行われる、請求項１〜５５のいずれか１項に記載の方法。
（ａ）、（ｂ）および（ｃ）のうちの１つもしくはそれを超えるものまたはすべてが、システムにおけるメモリーと連動して行われる、請求項１〜５６のいずれか１項に記載の方法。
（ａ）、（ｂ）および（ｃ）のうちの１つもしくはそれを超えるものまたはすべてが、コンピュータによって行われる、請求項１〜５７のいずれか１項に記載の方法。
１つまたはそれを超えるマイクロプロセッサおよびメモリーを備えるシステムであって、該メモリーは、該１つまたはそれを超えるマイクロプロセッサによって実行可能な指示を備え、該メモリーは、ヌクレオチド配列リードを備え、該配列リードは、被験体由来のテストサンプルからの核酸のリードであり、該１つまたはそれを超えるマイクロプロセッサによって実行可能な指示は、以下：
（ａ）マイクロプロセッサを用いて、あるゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、該セグメントに対するカウントＡを提供することであって、ここで、該配列リードは、該ゲノムを有する被験体由来のテストサンプルからの核酸のリードである、カウントＡを提供すること；
（ｂ）マイクロプロセッサを用いて、該ゲノムまたは該ゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、該ゲノムまたは該ゲノムのサブセットに対するカウントＢを提供することであって、ここで、該カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、カウントＢを提供すること；および
（ｃ）該カウントＡと該カウントＢとの比率として、該セグメントに対するカウント提示を確定すること
を行うように構成される、システム。
１つまたはそれを超えるマイクロプロセッサおよびメモリーを備える機器であって、該メモリーは、該１つまたはそれを超えるマイクロプロセッサによって実行可能な指示を備え、該メモリーは、ヌクレオチド配列リードを備え、該配列リードは、被験体由来のテストサンプルからの核酸のリードであり、該１つまたはそれを超えるマイクロプロセッサによって実行可能な指示は、以下：
（ａ）マイクロプロセッサを用いて、あるゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、該セグメントに対するカウントＡを提供することであって、ここで、該配列リードは、該ゲノムを有する被験体由来のテストサンプルからの核酸のリードである、カウントＡを提供すること；
（ｂ）マイクロプロセッサを用いて、該ゲノムまたは該ゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、該ゲノムまたは該ゲノムのサブセットに対するカウントＢを提供することであって、ここで、該カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、カウントＢを提供すること；および
（ｃ）該カウントＡと該カウントＢとの比率として、該セグメントに対するカウント提示を確定すること
を行うように構成される、機器。
実行可能なプログラムが格納されている非一時的なコンピュータ可読記憶媒体であって、該プログラムは、マイクロプロセッサに以下：
（ａ）被験体由来のテストサンプルからの核酸のリードであるヌクレオチド配列リードにアクセスすること；
（ｂ）マイクロプロセッサを用いて、あるゲノムセグメントに対する核酸配列リードのカウントを生成し、それにより、該セグメントに対するカウントＡを提供することであって、ここで、該配列リードは、該ゲノムを有する被験体由来のテストサンプルからの核酸のリードである、カウントＡを提供すること；
（ｃ）マイクロプロセッサを用いて、該ゲノムまたは該ゲノムのサブセットに対する核酸配列リードのカウントを生成し、それにより、該ゲノムまたは該ゲノムのサブセットに対するカウントＢを提供することであって、ここで、該カウントＢは、参照ゲノムにアラインメントされない配列リードのカウントである、カウントＢを提供すること；および
（ｄ）該カウントＡと該カウントＢとの比率として、該セグメントに対するカウント提示を確定すること
を行うように指示する、非一時的なコンピュータ可読記憶媒体。