JP2022553829A - 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用 - Google Patents

多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用 Download PDF

Info

Publication number
JP2022553829A
JP2022553829A JP2022525836A JP2022525836A JP2022553829A JP 2022553829 A JP2022553829 A JP 2022553829A JP 2022525836 A JP2022525836 A JP 2022525836A JP 2022525836 A JP2022525836 A JP 2022525836A JP 2022553829 A JP2022553829 A JP 2022553829A
Authority
JP
Japan
Prior art keywords
nucleic acid
fraction
fetal
copy number
mosaicism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022525836A
Other languages
English (en)
Other versions
JPWO2021087491A5 (ja
Inventor
ジル ラファルコ,
テレサ ブーマー,
ジェイソン チブク,
サマンサ コールドウェル,
ジョン エー. タイナン,
エヤド アルマスリ,
ロナルド マイケル マクロウ,
Original Assignee
セクエノム, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セクエノム, インコーポレイテッド filed Critical セクエノム, インコーポレイテッド
Publication of JP2022553829A publication Critical patent/JP2022553829A/ja
Publication of JPWO2021087491A5 publication Critical patent/JPWO2021087491A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

1人または複数の胎児におけるコピー数変異についての遺伝的モザイク現象の存在または非存在を分類する(例えば、1人の胎児または1人よりも多くの胎児がコピー数変異に罹患しているかどうかを予測する)ために使用されるバイオインフォマティクスツールおよびプロセスが、本明細書で提供される。試料核酸は、配列決定プロセスに供され、得られた配列リードは、遺伝的コピー数変異領域を識別するために分析される。コピー数変異領域についての遺伝的モザイク現象は、以下に基づいて、1人の胎児または1人よりも多くの胎児について分類される:(i)コピー数変異領域を有する核酸の分率の、胎児核酸の分率に対するモザイク現象比、および(ii)遺伝的コピー数変異領域(例えば、識別された異数性の型)を有する染色体、または(ii)妊娠雌性が身ごもっている胎児の数。

Description

分野
本明細書で提供される技術は、1人または複数の胎児についてのモザイクコピー数変異(CNV)の非侵襲性分類のための技法に一部関する。本明細書で提供される技術は、例えば、非侵襲性出生前試験(NIPT)および腫瘍学試験の一部として、試料についてモザイクCNVを分類するために有用である。
背景
生きた生物(例えば、動物、植物および微生物)および遺伝情報を複製する他の形態(例えば、ウイルス)の遺伝情報は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)中にコードされる。遺伝情報は、化学的または仮想核酸の一次構造を示すヌクレオチドまたは改変ヌクレオチドの連続である。ヒトでは、完全なゲノムは、24個の染色体(即ち、22個の常染色体、1個のX染色体および1個のY染色体;The Human Genome, T. Strachan, BIOS Scientific Publishers, 1992を参照のこと)上に位置する約30,000個の遺伝子を含有する。各遺伝子は、特定のタンパク質をコードし、その後、転写および翻訳を介した発現が、生きた細胞内で特定の生化学的機能を果たす。
多くの医学的状態は、1つまたは複数の遺伝的変異および/または遺伝的変更によって引き起こされる。ある特定の遺伝的変異および/または遺伝的変更は、例えば、血友病、サラセミア、デュシェンヌ型筋ジストロフィー(DMD)、ハンチントン病(HD)、アルツハイマー病および嚢胞性線維症(CF)を含む医学的状態を引き起こす(Human Genome Mutations, D. N. Cooper and M. Krawczak, BIOS Publishers, 1993)。かかる遺伝性疾患は、特定の遺伝子のDNA中の単一ヌクレオチドの付加、置換または欠失から生じ得る。ある特定の出生時欠損は、異数性とも呼ばれる染色体異常、例えば、21トリソミー(ダウン症候群)、13トリソミー(パトー症候群)、18トリソミー(エドワーズ症候群)、モノソミーX(ターナー症候群)、およびある特定の性染色体異数性、例えば、クラインフェルター症候群(XXY)などによって引き起こされる。別の遺伝的変異は、性染色体XおよびYに基づいてしばしば決定され得る、胎児の性である。一部の遺伝的変異は、例えば、糖尿病、動脈硬化症、肥満、種々の自己免疫疾患および細胞増殖性障害、例えば、がん、腫瘍、新生物、転移性疾患などまたはそれらの組合せなどのいくつかの疾患のいずれかに個体を罹り易くし得る、またはそれらを引き起こし得る。がん、腫瘍、新生物または転移性疾患は、肝臓、肺、脾臓、膵臓、結腸、皮膚、膀胱、眼、脳、食道、頭部、頸部、卵巣、精巣、前立腺などまたはそれらの組合せの障害または状態であることがある。
1つまたは複数の遺伝的変異および/もしくは遺伝的変更(例えば、コピー数変更、コピー数変異、単一ヌクレオチド変更、単一ヌクレオチド変異、染色体変更、転座、欠失、挿入など)または相違を識別することは、特定の医学的状態の診断またはかかる医学的状態への素因の決定をもたらし得る。遺伝的相違を識別することは、医学的決定の促進および/または有益な医学的手順の採用につながり得る。ある特定の実施形態では、1つまたは複数の遺伝的変異および/または遺伝的変更の識別には、循環する無細胞核酸の分析が関与する。循環する無細胞核酸(CCF-NA)、例えば、無細胞DNA(CCF-DNA)などは、細胞死に起源し末梢血中で循環するDNA断片から構成される。高濃度のCF-DNAは、ある特定の臨床状態、例えば、がん、外傷、熱傷、心筋梗塞、脳卒中、敗血症、感染および他の病気を示し得る。さらに、無細胞胎児DNA(CFF-DNA)は、母親の血流中で検出され得、種々の非侵襲性出生前診断法に使用され得る。
he Human Genome, T. Strachan, BIOS Scientific Publishers, 1992 Human Genome Mutations, D. N. Cooper and M. Krawczak, BIOS Publishers, 1993
概要
種々の実施形態では、コンピューティングデバイスによって、多胎児妊娠を有する妊娠雌性対象由来の循環する無細胞核酸を含む試料において遺伝的コピー数変異領域を識別するステップであって、遺伝的コピー数変異領域が、コピー数変異を含み、循環する無細胞核酸が、母方核酸および胎児核酸を含む、ステップ;コンピューティングデバイスによって、循環する無細胞核酸中のコピー数変異を有する核酸の分率を決定するステップ;コンピューティングデバイスによって、循環する無細胞核酸中の胎児核酸の分率を決定するステップ;コンピューティングデバイスによって、モザイク現象比を生成するステップであって、モザイク現象比が、循環する無細胞核酸中の胎児核酸の分率によって除算した、循環する無細胞核酸中のコピー数変異を有する核酸の分率である、ステップ;ならびにコンピューティングデバイスによって、モザイク現象比に基づくモザイク現象比および妊娠雌性対象が身ごもっている胎児の数に従って、コピー数変異領域について遺伝的モザイク現象の存在または非存在を分類するステップを含む、コンピュータ実行される方法が提供される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、コピー数変異領域について決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、配列決定ベースの分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、差次的にメチル化された核酸の定量化に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、コピー数変異領域について決定された胎児分率である。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の胎児分率は、配列決定ベースの胎児分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の胎児分率は、差次的にメチル化された胎児および母方核酸の定量化に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、コピー数変異領域よりも大きいゲノム領域について決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、コピー数変異領域とは異なるゲノム領域について決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、配列決定ベースの胎児分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、差次的にメチル化された胎児および母方核酸の定量化に従って決定される。
一部の実施形態では、モザイク現象比は、循環する無細胞核酸中の胎児核酸の分率によって除算した、循環する無細胞核酸中のコピー数変異を有する核酸の分率である。
一部の実施形態では、この方法は、コンピューティングシステムによって、モザイク現象比が最小閾値未満である場合に分類なしを提供するステップをさらに含む。
一部の実施形態では、最小閾値は、約0.1である。
一部の実施形態では、この方法は、コンピューティングシステムによって、モザイク現象比が最大閾値よりも大きい場合に分類なしを提供するステップをさらに含む。
一部の実施形態では、最大閾値は、約1.7である。
一部の実施形態では、この方法は、コンピューティングシステムによって、妊娠雌性対象由来の循環する無細胞核酸を含む試料中の1つまたは複数の異数性の存在について非侵襲性出生前試験(NIPT)から陽性スクリーニング結果を得るステップをさらに含む。
一部の実施形態では、この方法は、コンピューティングシステムによって、分類なしが提供されモザイク現象比が最小閾値未満である場合に、陰性結果、または1つもしくは複数の異数性の非存在としての、NIPTからの陽性スクリーニング結果の解釈を提供するステップをさらに含む。
一部の実施形態では、この方法は、コンピューティングシステムによって、分類なしが提供されモザイク現象比が最大閾値よりも大きい場合に、過剰または不確定としての、NIPTからの陽性スクリーニング結果の解釈を提供するステップをさらに含む。
一部の実施形態では、この方法は、コンピューティングシステムによって、遺伝的モザイク現象の存在がコピー数変異領域について分類される場合に、モザイク提示の可能性に関するコメントと共に、陽性としての、NIPTからの陽性スクリーニング結果の解釈を提供するステップをさらに含む。
一部の実施形態では、この方法は、コンピューティングシステムによって、遺伝的モザイク現象の非存在がコピー数変異領域について分類される場合に、陽性としての、NIPTからの陽性スクリーニング結果の解釈を提供するステップをさらに含む。
種々の実施形態では、多胎児妊娠における胎児の性別を分類するための方法であって、コンピューティングデバイスによって、多胎児妊娠を有する妊娠雌性対象由来の循環する無細胞核酸を含む試料中の、Y染色体またはY染色体の領域を有する核酸の分率を決定するステップであって、循環する無細胞核酸が、母方核酸および胎児核酸を含む、ステップ;コンピューティングデバイスによって、循環する無細胞核酸中の胎児核酸の分率を決定するステップ;コンピューティングデバイスによって、モザイク現象比を生成するステップであって、モザイク現象比が、循環する無細胞核酸中の胎児核酸の分率によって除算した、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の分率である、ステップ;ならびにコンピューティングデバイスによって、モザイク現象比および妊娠雌性対象が身ごもっている胎児の数に基づいて、胎児の性別を分類するステップを含む方法が提供される。
一部の実施形態では、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の分率は、配列決定ベースの分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の分率は、多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の分率は、差次的にメチル化された核酸の定量化に従って決定される。
一部の実施形態では、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の分率は、Y染色体またはY染色体の領域について決定された胎児分率である。
一部の実施形態では、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の胎児分率は、配列決定ベースの胎児分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の胎児分率は、差次的にメチル化された胎児および母方核酸の定量化に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、Y染色体またはY染色体の領域よりも大きいゲノム領域について決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、Y染色体またはY染色体の領域とは異なるゲノム領域について決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、配列決定ベースの胎児分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、差次的にメチル化された胎児および母方核酸の定量化に従って決定される。
一部の実施形態では、モザイク現象比は、循環する無細胞核酸中の胎児核酸の分率によって除算した、循環する無細胞核酸中のY染色体またはY染色体の領域を有する核酸の分率である。
一部の実施形態では、この方法は、コンピューティングシステムによって、試料中の1つまたは複数の異数性の存在について非侵襲性出生前試験(NIPT)から陽性スクリーニング結果を得るステップをさらに含む。
種々の実施形態では、妊娠雌性対象由来の循環する無細胞核酸を含む第1の試料中の異数性の存在について非侵襲性出生前試験(NIPT)から陽性スクリーニング結果を得るステップであって、陽性スクリーニング結果が、第1の試料内で検出された異数性の型を含む、ステップ;妊娠雌性対象由来の循環する無細胞核酸を含む第2の試料において異数性に関連する遺伝的コピー数変異領域を識別するステップであって、遺伝的コピー数変異領域が、コピー数変異を含み、循環する無細胞核酸が、母方核酸および胎児核酸を含む、ステップ;循環する無細胞核酸中のコピー数変異を有する核酸の分率を決定するステップ;循環する無細胞核酸中の胎児核酸の分率を決定するステップ;モザイク現象比を生成するステップであって、モザイク現象比が、循環する無細胞核酸中の胎児核酸の分率によって除算した、循環する無細胞核酸中のコピー数変異を有する核酸の分率である、ステップ;モザイク現象比に基づいて、コピー数変異領域について遺伝的モザイク現象の存在または非存在を分類するステップ;ならびにNIPTからの陽性スクリーニング結果、モザイク現象比、および異数性の型に基づいて、異数性を有する妊娠雌性対象の胎児についてのパーソナライズされたリスク評価を提供するステップを含む、コンピュータ実行される方法が提供される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、コピー数変異領域について決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、配列決定ベースの分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、差次的にメチル化された核酸の定量化に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の分率は、コピー数変異領域について決定された胎児分率である。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の胎児分率は、配列決定ベースの胎児分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中のコピー数変異を有する核酸の胎児分率は、差次的にメチル化された胎児および母方核酸の定量化に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、コピー数変異領域よりも大きいゲノム領域について決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、コピー数変異領域とは異なるゲノム領域について決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、配列決定ベースの胎児分率推定に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定される。
一部の実施形態では、循環する無細胞核酸中の胎児核酸の分率は、差次的にメチル化された胎児および母方核酸の定量化に従って決定される。
一部の実施形態では、モザイク現象比は、循環する無細胞核酸中の胎児核酸の分率によって除算した、循環する無細胞核酸中のコピー数変異を有する核酸の分率である。
一部の実施形態では、異数性の型は、13トリソミー、18トリソミーまたは21トリソミーである。
一部の実施形態では、この方法は、コンピューティングシステムによって、モザイク現象比が最小閾値と等しいまたはそれ未満である場合に分類なしを提供するステップをさらに含む。
一部の実施形態では、最小閾値は、約0.2である。
一部の実施形態では、この方法は、コンピューティングシステムによって、モザイク現象比が最大閾値と等しいまたはそれよりも大きい場合に分類なしを提供するステップをさらに含む。
一部の実施形態では、最大閾値は、約1.7である。
一部の実施形態では、第1の試料と第2の試料とは、同じ試料である。
一部の実施形態では、遺伝的モザイク現象の存在は、モザイク現象比が0.2と0.7との間である場合に、コピー数変異領域について分類され、遺伝的モザイク現象の非存在は、モザイク現象比が0.7と等しいまたはそれよりも大きい場合に、コピー数変異領域について分類される。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、分類なしが提供されモザイク現象比が最大閾値よりも大きい場合に、過剰または不確定としての、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、遺伝的モザイク現象の非存在がコピー数変異領域について分類される場合に、異数性が非モザイク形態であることをモザイク現象比が示唆するというコメントと共に、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、遺伝的モザイク現象の存在がコピー数変異領域について分類される場合に、異数性がモザイク形態であることをモザイク現象比が示唆するというコメントと共に、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、この方法は、コンピューティングシステムによって、モザイク現象比が0.2と0.49との間である場合に、遺伝的モザイク現象の存在を、コピー数変異領域について「低モザイク」として分類するステップ、またはコンピューティングシステムによって、モザイク現象比が0.5と0.69との間である場合に、遺伝的モザイク現象の存在を、コピー数変異領域について「高モザイク」として分類するステップをさらに含む。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、遺伝的モザイク現象の存在がコピー数変異領域について「高モザイク」として分類される場合に、異数性がモザイク形態であることをモザイク現象比が強く示唆するというコメントと共に、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、遺伝的モザイク現象の存在がコピー数変異領域について「低モザイク」として分類される場合に、異数性がモザイク形態であることをモザイク現象比が弱く示唆するというコメントと共に、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、遺伝的モザイク現象の存在がコピー数変異領域について「高モザイク」として分類され、異数性の型が13トリソミーである場合に、異数性がモザイク形態であることをモザイク現象比が僅かに示唆するというコメントと共に、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、遺伝的モザイク現象の存在がコピー数変異領域について「低モザイク」として分類され、異数性の型が13トリソミーである場合に、異数性がモザイク形態であることをモザイク現象比が弱く示唆するというコメントと共に、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、遺伝的モザイク現象の存在がコピー数変異領域について「高モザイク」として分類され、異数性の型が18トリソミーまたは21トリソミーである場合に、異数性がモザイク形態であることをモザイク現象比が強く示唆するというコメントと共に、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、パーソナライズされたリスク評価を提供するステップは、遺伝的モザイク現象の存在がコピー数変異領域について「低モザイク」として分類され、異数性の型が18トリソミーまたは21トリソミーである場合に、異数性がモザイク形態であることをモザイク現象比が弱く示唆するというコメントと共に、NIPTからの陽性スクリーニング結果の解釈を提供するステップを含む。
一部の実施形態では、1つまたは複数のデータプロセッサー、および1つまたは複数のデータプロセッサー上で実行された場合に、1つまたは複数のデータプロセッサーに、本明細書で開示される1つまたは複数の方法の一部または全てを実施させる命令を含有する非一時的コンピュータ可読記憶媒体、を含むシステムが提供される。
一部の実施形態では、非一時的機械可読記憶媒体中で有形的に具現化された、1つまたは複数のデータプロセッサーに、本明細書で開示される1つまたは複数の方法の一部または全てを実施させるように構成された命令を含む、コンピュータプログラム製品が提供される。
本開示の一部の実施形態は、1つまたは複数のデータプロセッサーを含むシステムを含む。一部の実施形態では、このシステムは、1つまたは複数のデータプロセッサー上で実行された場合に、1つまたは複数のデータプロセッサーに、本明細書で開示される1つもしくは複数の方法の一部もしくは全ておよび/または1つもしくは複数のプロセスの一部もしくは全てを実施させる命令を含有する非一時的コンピュータ可読記憶媒体を含む。本開示の一部の実施形態は、非一時的機械可読記憶媒体中で有形的に具現化された、1つまたは複数のデータプロセッサーに、本明細書で開示される1つもしくは複数の方法の一部もしくは全ておよび/または1つもしくは複数のプロセスの一部もしくは全てを実施させるように構成された命令を含む、コンピュータプログラム製品を含む。
採用されている用語および表現は、限定ではなく説明の用語として使用され、示され記載される特色またはその部分のいずれの等価物をも排除するかかる用語および表現の使用は意図されないが、種々の改変が特許請求された発明の範囲内で可能であることが認識される。したがって、特許請求された本発明が実施形態および必要に応じた特色によって具体的に開示されているが、本明細書で開示される概念の改変および変形形態が当業者によって用いられ得ること、ならびにかかる改変および変形形態が添付の特許請求の範囲によって規定される本発明の範囲内であるとみなされることを理解すべきである。
種々の実施形態が、以下の説明、実施例、特許請求の範囲および図面中にさらに記載される。
図面は、本技術のある特定の実施形態を例証するものであり、限定するものではない。例証の明確化および容易さのために、図面は縮尺されておらず、一部の場合には、種々の態様が、特定の実施形態の理解を容易にするために、誇張または拡張されて示されている場合がある。
図1は、受胎後初期の細胞系統を示す(Thomas, D, et al. (1994, July 10) Trisomy 22, placenta; World Wide Web URL sonoworld.com/Fetus/page.aspx?id=182から改変した図)。細胞の多数派は、胎盤栄養膜/絨毛性外胚葉へと発生する(直接的絨毛膜絨毛試料採取(CVS)調製物、NIPT)。細胞のごく少数派は絨毛膜絨毛/中胚葉へと発生する(CVS培養細胞)。この画像の2つの細胞は、胚および羊水組織(羊水穿刺)の形成へと進む。
図2は、種々の実施形態に従って、生体試料について1人または複数の胎児における遺伝的モザイク現象の存在または非存在を分類するためのプロセスフローを示す。
図3は、種々の実施形態に従って、生体試料について遺伝的モザイク現象の存在または非存在を分類し、臨床的解釈および/または診断的追跡情報を提供するためのプロセスフローを示す。
図4は、種々の実施形態に従って、生体試料について遺伝的モザイク現象の存在または非存在を分類し、臨床的解釈および/または診断的追跡情報を提供するための代替的プロセスフローを示す。
図5は、種々の実施形態に従って、生体試料について1人または複数の胎児の性別を分類するためのプロセスフローを示す。
図6は、本技術の種々の実施形態が実現され得るシステムの例示的実施形態を示す。
図7は、[異数体コホート:臨床+研究検体]異数体コホートに含まれる検体の組成を示す。
図8は、[Yコホート:臨床+研究検体]Yコホートに含まれる検体の組成を示す。
図9は、[異数体コホート:臨床+研究検体]1人がトリソミーに罹患している双子児に対する罹患している単生児における異数体染色体に関するモザイク現象比の分布を示す。
図10は、[Yコホート:臨床+研究検体]XX/XYおよびXY/XY双子妊娠におけるY染色体モザイク現象比の分布を示す。
図11は、[Yコホート:臨床+研究検体]正倍数体妊娠におけるXX/XYおよびXY/XYに関するY MRの分布を示す。
図12は、種々の実施形態に従う、陽性予測値に関するモザイク現象比の影響を示す。
図13Aおよび13Bは、種々の実施形態に従う、出生前cfDNAスクリーニング検体からの(A)非モザイク13トリソミーのデータ、および(B)モザイク13トリソミーのデータを示唆する50kbトレースを示す。 図13Aおよび13Bは、種々の実施形態に従う、出生前cfDNAスクリーニング検体からの(A)非モザイク13トリソミーのデータ、および(B)モザイク13トリソミーのデータを示唆する50kbトレースを示す。
図14は、種々の実施形態に従う、陽性スクリーニングコホート全体におけるMR群および異数性によるモザイク現象比の分布を示す。
図15A~15Cは、種々の実施形態に従う、上側および下側の95パーセンタイル信頼区間を有するMR(0.1の範囲内)によるPPVのグラフを示す - (A)13トリソミー、(B)18トリソミー、(C)21トリソミー。 図15A~15Cは、種々の実施形態に従う、上側および下側の95パーセンタイル信頼区間を有するMR(0.1の範囲内)によるPPVのグラフを示す - (A)13トリソミー、(B)18トリソミー、(C)21トリソミー。
図16A~16Cは、種々の実施形態に従う、上側および下側の95パーセンタイル信頼区間を有するMR群によるPPVのグラフを示す - (A)13トリソミー、(B)18トリソミー、(C)21トリソミー。 図16A~16Cは、種々の実施形態に従う、上側および下側の95パーセンタイル信頼区間を有するMR群によるPPVのグラフを示す - (A)13トリソミー、(B)18トリソミー、(C)21トリソミー。
詳細な説明
1人または複数の胎児についてのモザイクコピー数変異(CNV)の非侵襲性分類のためのシステムおよび方法が、本明細書で提供される。種々の実施形態では、バイオインフォマティクスツールおよびプロセスが、1人または複数の胎児におけるコピー数変異についての遺伝的モザイク現象の存在または非存在を分類する(即ち、多胎児妊娠における1人の胎児または1人よりも多くの胎児がコピー数変異に罹患しているかどうかを予測する)ために使用される。本明細書の方法は、例えば、断片化されたまたは切断された核酸、核酸鋳型、細胞性核酸および/または無細胞核酸を含む、種々のポリヌクレオチドに利用され得る。一部の実施形態では、配列決定プロセスに供された試料核酸および得られた配列リードは、多胎児妊娠を有する妊娠雌性対象由来の循環する無細胞核酸を含む試料において遺伝的コピー数変異および/またはY染色体のレベル(例えば、1つまたは複数のゲノム区域レベル、プロファイルのレベル)を識別するためにさらに分析される。試料核酸は、母方核酸および複数の胎児由来の胎児核酸を含み得る。一部の実施形態では、試料核酸中の母方核酸の分率が決定され、および/または試料核酸中の胎児核酸の分率が決定される。一部の実施形態では、試料核酸中のコピー数変異を有する母方核酸の分率が決定され、および/または試料核酸中のコピー数変異を有する胎児核酸の分率が決定される。母方核酸の多型配列は、胎児核酸の多型配列とは異なる。
一部の実施形態では、遺伝的コピー数変異領域は、多胎児妊娠を有する妊娠雌性対象由来の循環する無細胞核酸を含む試料において識別される。遺伝的コピー数変異領域は、コピー数変異を含み、循環する無細胞核酸は、母方核酸および胎児核酸を含む。試料核酸中のコピー数変異を有する核酸の分率(例えば、少数派分率または胎児分率)が決定され、試料核酸中の胎児核酸の分率が決定される。コピー数変異を有する核酸の分率は、胎児核酸の分率と比較され、それにより、比較を提供し、モザイク現象比を生成する。一部の実施形態では、コピー数変異領域についての遺伝的モザイク現象は、以下に基づいて、1人の胎児または1人よりも多くの胎児について分類される:(i)コピー数変異を有する核酸の分率の、胎児核酸の分率に対するモザイク現象比、および(ii)妊娠雌性が身ごもっている胎児の数。言い換えると、モザイク現象比は、1人または複数の胎児がコピー数変異(例えば、異数性)に罹患しているかどうかを予測するために、妊娠雌性が身ごもっている胎児の数を考慮して解釈され得る。
一部の実施形態では、多胎児妊娠を有する妊娠雌性対象由来の循環する無細胞核酸を含む試料中の、Y染色体またはY染色体の領域を有する核酸の分率(例えば、少数派分率または胎児分率)が決定される。ある特定の実施形態では、Y染色体またはY染色体の領域を有する核酸の分率は、Y染色体またはY染色体の領域のレベル(例えば、1つまたは複数のゲノム区域レベル、プロファイルのレベル)に一部従って決定される。循環する無細胞核酸は、母方核酸および胎児核酸を含み、循環する無細胞核酸中の胎児核酸の分率が決定される。Y染色体またはY染色体の領域を有する核酸の分率は、胎児核酸の分率と比較され、それにより、比較を提供し、モザイク現象比を生成する。一部の実施形態では、胎児の性別は、以下に基づいて分類される:(i)Y染色体またはY染色体の領域を有する核酸の分率の、胎児核酸の分率に対するモザイク現象比、および(ii)妊娠雌性が身ごもっている胎児の数。言い換えると、モザイク現象比は、1人または複数の胎児の性別を予測するために、妊娠雌性が身ごもっている胎児の数を考慮して解釈され得る。
一部の実施形態では、本明細書に記載される方法または方法の一部を実施するシステム、機械およびコンピュータプログラム製品もまた提供される。
本明細書で使用される場合、何かの決定などの行為が、何か「によって誘発される」、何か「に従う」または何か「に基づく」場合、これは、その行為が、少なくとも一部、その何かの少なくとも一部によって誘発される、それに従う、またはそれに基づくことを意味する。ある特定のコピー数変異についての遺伝的モザイク現象の分類は、コピー数変異についての有用な情報を医療専門家および患者に提供することができる。
本明細書で使用される場合、用語「実質的に」、「およそ」および「約」(本明細書で他に定義されない限り)は、当業者によって理解されるように、おおむね特定されたものであるが、完全に特定されたものである必要はない(および完全に特定されたものを含む)と定義される。任意の開示された実施形態では、用語「実質的に」、「およそ」または「約」は、特定されたもの「の[パーセンテージ]以内」で置換され得、このパーセンテージには、0.1、1、5および10パーセントが含まれる。
導入
流体試料、特に、妊娠対象由来の試料中の無細胞核酸の検出は、非侵襲性出生前試験における使用の大きな可能性を提供する。無細胞核酸スクリーニングまたは非侵襲性出生前試験(NIPT)は、妊娠中にある特定の染色体状態の確率を決定するための、バイオインフォマティクスツールおよびプロセス、ならびに母方血清中のDNAの断片の次世代配列決定を利用するスクリーニング試験である。全ての個体は、その血流中に自身の無細胞DNAを有する。妊娠中、胎盤(主に栄養膜細胞)由来の無細胞胎児DNAもまた、母方血流に入り、母方無細胞DNAと混ざる。栄養膜細胞のDNAは通常、胎児の染色体構成を反映する。無細胞核酸は、21トリソミー、18トリソミーおよび13トリソミーについて慣用的にスクリーニングされる。他の状態、例えば、胎児の性別、性染色体異数性、他の異数性、三倍体性および特定のミクロ欠失状態についてのスクリーニングもまた利用可能である。異常な結果は、典型的には、特定された状態のリスクの増加を示す。しかし、異常な結果は診断的ではなく、患者には、羊水穿刺などの診断手順を介した確認試験が提供されるべきである。異常な結果は、罹患した胎児を示し得るが、罹患していない妊娠における偽陽性結果、胎盤限局性モザイク現象、胎盤および胎児モザイク現象、バニシングツイン、認識されていない母方状態または他の未知の生物学的存在もまた表し得る。
特に、出生前無細胞DNA試験では、陽性NIPT結果の解釈において課題をもたらしてきた、分析性能、感度、特異度、臨床性能および陽性的中率(PPV)間の断絶が存在し得る。この断絶または不調和な結果の根底にある主要原因の1つは、胎盤と胎児との間での遺伝的構成の差異である。胎盤に限定された染色体異常は、モザイクである場合が多く、胎盤に限局され得る。例えば、ほとんどの妊娠では、胎児において検出される染色体組(chromosomal complement)は、胎盤中にも存在する。胎児および胎盤は共に、同じ接合体から発生するので、これら両方における同一の染色体組の検出が期待される。しかし、妊娠の9~11週目における絨毛膜絨毛試料採取(CVS)によって研究した生存妊娠のおよそ2%では、細胞遺伝学的異常、ほとんどの場合にはトリソミーは、胎盤に限局され得る(例えば、Kalousek DK, Vekemans M. Confined placental mosaicism. Journal of Medical Genetics. 1996;33(7):529-533を参照のこと)。この現象は、胎盤限局性モザイク現象(CPM)として公知である。胎児および胎盤の両方内の2つまたはそれよりも多くの核型的に異なる細胞系の存在によって特徴付けられる胎盤および胎児モザイク現象とは逆に、CPMは、胎盤中の細胞および胎児中の細胞の染色体構成間の食い違いを示す。結果として、CPMには通常、正常胎児アウトカムが伴う(例えば、最も一般的には、CPMが見出される場合、これは、胎盤におけるトリソミー細胞系および赤ん坊における正常二倍体染色体組を示す)が、診断的な観点から誤解される場合がある(即ち、NIPTにおける偽陽性)。
NIPTが偽陽性を生じ得ることを考えると、陽性NIPT結果は、典型的には、侵襲性試験、例えば、CVSおよび/または羊水穿刺を用いて確認される。例えば、出生前管理は、典型的には、別々の事象ではなく、患者のための40週間のケアの連続体である。したがって、妊娠の間中に集められた各データポイントは、入手可能な全ての情報を臨床医が文脈付けすることを可能にするために、多くの臨床的に関連する情報を彼らに提供すべきである。理想的には、全ての陽性NIPT結果についてのCVSおよび/または羊水穿刺分析を含む臨床データは、不可逆的な処置決定(例えば、妊娠中絶)を行う前に、偽陽性に対する懸念を軽減することを助ける。しかし、CPMは、CVSにおいても偽陽性結果を引き起こし得る。したがって、従来の実務は、CVSを進めること、ならびに蛍光in situハイブリダイゼーション(FISH)を使用する未培養の試料または短期培養、および試料の長期培養の両方を使用して全ての細胞系を試験することである。結果が全て異数性を示す場合、それらの結果は、患者に報告される。さもなければ、これらの結果もモザイクである場合、羊水穿刺が推奨され、FISHおよび核型の両方によって分析される。それにもかかわらず、従来の実務に対する現実世界の制限は、特に、第1の3か月間に、全ての女性が侵襲性診断試験に同意しないことである。
これらの偽陽性の問題および多くの女性が侵襲性診断試験に同意するのを渋るという問題に対処するために、本明細書に記載される種々の実施形態は、異数性がモザイク形態(例えば、CPM)で存在し得る多胎児妊娠を有する患者を識別するために、モザイク現象比(本明細書に詳細に記載される出生前無細胞DNA試験から得ることができる測定基準)の適用を導入する。図1に示されるように、細胞の多数派は、接合体から胎盤栄養膜/絨毛膜外胚葉105へと発生し、細胞のごく少数派は、絨毛膜絨毛/中胚葉110へと発生し、2つの細胞のみが、胚および羊膜組織115の形成に進む。細胞分裂における誤りが、この連鎖中の異なるレベルで生じる場合、根本的に異なる臨床上の意義を有し得る異なるレベルの胎児または胎盤(または両方)のモザイク現象がもたらされ得る。これが当てはまる場合、母方血漿中の全ての無細胞栄養膜DNAが罹患しているわけではない。この観察は、罹患した無細胞DNA(例えば、コピー数変異またはY染色体を有する分率)および総無細胞DNA(例えば、胎児無細胞DNAの総分率)のモザイク現象比(MR)を計算するために使用され得る。
種々の実施形態では、MRは、以下によって計算される:(a)試料核酸中のコピー数変異および/またはY染色体のレベル(例えば、1つまたは複数のゲノム区域レベル、プロファイルのレベル)を有する核酸の分率を決定するステップ、(b)試料核酸中の少数派核酸の分率(例えば、胎児分率)を決定するステップ、ならびに(c)(a)の分率を(b)の分率と比較して、(a:):(b)の比を生成するステップ。さらに、MRは、単生児妊娠または多胎児妊娠対象中の1人または複数の胎児がコピー数変異(例えば、異数性)に罹患しているかどうかを予測するために使用することができることが発見された。さらに、MRは、単生児妊娠または多胎児妊娠対象中の1人または複数の胎児の性別を予測するために使用することができることが発見された。一部の実施形態では、MRは、1)1人もしくは複数の胎児が異数性に罹患している場合を予測するため、および/または2)1人もしくは複数の胎児の予想された性別についての情報を提供するために使用される。例えば、モザイク現象比は、1人もしくは複数の胎児がコピー数変異(例えば、異数性)に罹患しているかどうか、および/または1人もしくは複数の胎児の性別を予測するために、妊娠雌性が身ごもっている胎児の数を考慮して解釈され得る。ある特定の実施形態では、遺伝的モザイク現象の存在は、以下に基づいて、コピー数変異について分類される:(i)コピー数変異を有する核酸の分率の、胎児核酸の分率に対するモザイク現象比、および(ii)遺伝的コピー数変異領域(例えば、識別された異数性の型)を有する染色体。ある特定の実施形態では、遺伝的モザイク現象の存在は、以下に基づいて、コピー数変異について分類される:(i)コピー数変異を有する核酸の分率の、胎児核酸の分率に対するモザイク現象比、および(ii)妊娠雌性が身ごもっている胎児の数。ある特定の実施形態では、胎児の性別は、以下に基づいて分類される:(i)Y染色体またはY染色体の領域を有する核酸の分率の、胎児核酸の分率に対するモザイク現象比、および(ii)妊娠雌性が身ごもっている胎児の数。かかる状況におけるモザイク現象比の使用は、1人または複数の胎児についての陽性NIPT結果を確認し、1人または複数の胎児の予想された性別についての情報を提供するための非侵襲性アプローチを含む、陽性NIPT結果を確認するための従来のプロセスを超える多くの利点を有する。
さらに、モザイク現象が存在するかしないかの知識は、陽性NIPT結果をよりよく解釈するために、医師および遺伝子カウンセラーによって使用され得、これは、改善された試験後カウンセリングおよび全般的出生前ケアをもたらし得る。例えば、コピー数変異領域についての単生児妊娠対象の胎児における遺伝的モザイク現象分類の存在(例えば、20%~70%のMR)は、モザイクコメントと共に、非標準的陽性NIPT結果として解釈され得る。あるいは、コピー数変異領域についての多胎児妊娠対象の1人の胎児における遺伝的モザイク現象分類の存在(例えば、20%~60%のMR)は、モザイクコメントと共に、非標準的陽性NIPT結果として解釈され得る。コピー数変異領域についての多胎児妊娠対象の1人よりも多くの胎児における遺伝的モザイク現象分類の存在(例えば、60%~130%のMR)は、モザイクコメントと共に、非標準的陽性NIPT結果として解釈され得る。多胎児妊娠対象におけるコピー数変異領域についての遺伝的モザイク現象分類の非存在(例えば、130%よりも高いMR)は、標準的陽性NIPT結果(例えば、胎児コピー数変異についての陽性結果)、1つまたは複数の罹患した胎児、胎児コピー数変異、完全(full)コピー数変異、真のコピー数変異、完全な(complete)コピー数変異などとして解釈され得る。分類なし(例えば、コールなし、臨床的関連なし)は、多胎児妊娠対象におけるMRの値がコピー数変異領域についてある特定の閾値を下回る(例えば、20%未満のMR)場合に提供され得、これは、全ての胎児について、胎児コピー数変異についての陰性NIPT結果として解釈され得る。
単生児妊娠対象中の胎児についての遺伝的モザイク現象分類
試料(例えば、生体試料;試験試料)について遺伝的モザイク現象(例えば、CPM)の存在または非存在を分類するための方法が、本明細書で提供される。種々の実施形態では、遺伝的モザイク現象の存在または非存在が、コピー数変異について分類される。コピー数変更と呼ばれ得るコピー数変異には、異数性(例えば、染色体トリソミー、染色体モノソミー)、欠失(例えば、ミクロ欠失;サブ染色体欠失)および重複(例えば、ミクロ重複、サブ染色体重複)が含まれ得、本明細書でさらに詳細に記載される。
遺伝的モザイク現象の存在または非存在は、コピー数変異領域(例えば、胎盤中に限局されたトリソミー細胞系)について分類され得る。コピー数変異領域は、コピー数変異がそれについて識別されるゲノム領域(例えば、染色体、染色体の一部)を指す。コピー数変異領域は、特定の染色体を指し得るか、または染色体上の場所(例えば、ある特定のゲノム座標に及ぶ領域)を指し得る。コピー数変異領域は、当該技術分野のまたは本明細書に記載されるコピー数変異を識別するための任意の適切な方法を使用して識別され得る。
一部の実施形態では、本明細書の方法は、試料核酸中のコピー数変異を有する核酸の分率を決定するステップを含む。核酸の分率を決定するステップは、核酸混合物中の特定の種の核酸を定量化するステップを指す。例えば、核酸の分率を決定するステップは、少数派核酸種を定量化するステップ、胎児核酸を定量化するステップ、がん核酸を定量化するステップなどを指し得る。コピー数変異を有する核酸の分率を決定するステップは、コピー数変異がそれについて識別される核酸のサブセット(例えば、核酸断片のサブセット、配列リードのサブセット)を定量化するステップを指す。一部の実施形態では、コピー数変異を有する核酸の分率を決定するステップは、コピー数変異がそれについて識別される領域(例えば、ゲノム領域)由来の核酸のサブセット(例えば、核酸断片のサブセット、配列リードのサブセット)を定量化するステップを指す。一部の実施形態では、コピー数変異を有する核酸の分率を決定するステップは、コピー数変異がそれについて識別される領域(例えば、ゲノム領域)由来の種についての核酸のサブセット(例えば、種についての核酸断片のサブセット、種についての配列リードのサブセット)を定量化するステップを指す。例えば、母方核酸および胎児核酸を含む試料について、胎児核酸が第21染色体のトリソミーを有すると識別される場合、コピー数変異を有する核酸の分率を決定するステップは、第21染色体もしくはその一部からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に基づいて胎児分率を決定するステップを指す。
一部の実施形態では、本明細書の方法は、領域(例えば、ゲノム領域)についての分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、コピー数変異領域についての分率を決定するステップを含む。コピー数変異領域についての分率は、罹患した分率または罹患した領域についての分率と呼ばれ得る。上で考察したように、コピー数変異領域についての分率は、コピー数変異を有すると識別される領域(例えば、ゲノム領域)について得られた情報(例えば、配列情報、エピジェネティック情報)に従って決定され得る。コピー数変異領域についての分率は、核酸混合物中の核酸の種を定量化するための任意の適切な方法を使用して決定され得る。例えば、コピー数変異領域についての分率は、配列決定ベースの分率推定に従って決定され得る。配列決定ベースの分率推定に従って核酸分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの分率推定は、ビンベースの分率推定および/または部分特異的分率推定と呼ばれ得る。一部の実施形態では、コピー数変異領域についての分率は、多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って核酸分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、コピー数変異領域についての分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された核酸の定量化)に従って決定され得る。差次的にメチル化された核酸の定量化に従って核酸分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、試料核酸は、多数派核酸および少数派核酸を含む。一部の実施形態では、多数派核酸は、母方核酸を含み、少数派核酸は、胎児核酸を含む。したがって、一部の実施形態では、本明細書の方法は、胎児分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、領域(例えば、ゲノム領域)についての胎児分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、コピー数変異領域についての胎児分率を決定するステップを含む。コピー数変異領域についての胎児分率は、罹患した分率、罹患した胎児分率、および/または罹患した領域についての胎児分率と呼ばれ得る。上で考察したように、コピー数変異領域についての胎児分率は、胎児コピー数変異を有すると識別される領域(例えば、ゲノム領域)について得られた情報(例えば、配列情報、エピジェネティック情報)に従って決定され得る。コピー数変異領域についての胎児分率は、母方核酸および胎児核酸の混合物中の胎児核酸を定量化するための任意の適切な方法を使用して決定され得る。例えば、コピー数変異領域についての胎児分率は、配列決定ベースの胎児分率(SeqFF)推定に従って決定され得る。配列決定ベースの胎児分率(SeqFF)推定に従って胎児分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの胎児分率(SeqFF)推定は、ビンベースの胎児分率(BFF)推定および/または部分特異的胎児分率推定と呼ばれ得る。一部の実施形態では、コピー数変異領域についての胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って胎児分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、コピー数変異領域についての胎児分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された胎児核酸および母方核酸の定量化)に従って決定され得る。差次的にメチル化された胎児核酸および母方核酸の定量化に従って胎児分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、本明細書の方法は、試料核酸中の少数派核酸の分率を決定するステップを含む。試料核酸中の少数派核酸の分率を決定するステップは、一般に、コピー数変異を有すると識別される領域についての情報に基づいて核酸種を定量化する方法、例えば、上記方法に限定されない。むしろ、試料核酸中の少数派核酸の分率を決定するステップは、ゲノムにわたる領域および/またはコピー数変異を有すると識別される領域とは異なる領域からの情報に従って少数派核酸を定量化する方法を含み得る。一部の実施形態では、少数派核酸の分率は、コピー数変異領域よりも大きいゲノム領域について決定される。例えば、少数派核酸の分率は、コピー数変異を有すると識別される領域よりも多くのゲノム含量(例えば、塩基対、キロ塩基、メガ塩基)を含むゲノム領域について決定され得る。例えば、少数派核酸が第21染色体のトリソミーを有すると識別される試料について、少数派核酸の分率は、複数の染色体からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に従って決定され得る。この例では、かかる複数の染色体には、全ての染色体、全ての常染色体、染色体のサブセット、常染色体のサブセット、第21染色体を含む染色体のサブセット、第21染色体を含む常染色体のサブセット、第21染色体を排除する染色体のサブセット、第21染色体を排除する常染色体のサブセット、またはそれらの一部が含まれ得る。一部の実施形態では、少数派核酸の分率は、コピー数変異領域とは異なるゲノム領域について決定される。例えば、少数派核酸が第21染色体のトリソミーを有すると識別される試料について、少数派核酸の分率は、第21染色体以外の染色体からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に従って決定され得る。
試料核酸中の少数派核酸の分率は、核酸混合物中の核酸の種を定量化するための任意の適切な方法を使用して決定され得る。例えば、少数派核酸の分率は、配列決定ベースの分率推定に従って決定され得る。配列決定ベースの分率推定に従って少数派核酸分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの分率推定は、ビンベースの分率推定および/または部分特異的分率推定と呼ばれ得る。一部の実施形態では、少数派核酸の分率は、多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って少数派核酸分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、少数派核酸の分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された核酸の定量化)に従って決定され得る。差次的にメチル化された核酸の定量化に従って少数派核酸分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、少数派核酸は、胎児核酸を含む。したがって、一部の実施形態では、本明細書の方法は、胎児分率を決定するステップを含む。胎児分率は、母方核酸および胎児核酸の混合物中の胎児核酸を定量化するための任意の適切な方法を使用して決定され得る。例えば、胎児分率は、配列決定ベースの胎児分率(SeqFF)推定に従って決定され得る。配列決定ベースの胎児分率(SeqFF)推定に従って胎児分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの胎児分率(SeqFF)推定は、ビンベースの胎児分率(BFF)推定および/または部分特異的胎児分率推定と呼ばれ得る。一部の実施形態では、胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って胎児分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、胎児分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された胎児核酸および母方核酸の定量化)に従って決定され得る。差次的にメチル化された胎児核酸および母方核酸の定量化に従って胎児分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、胎児分率は、Y染色体アッセイに従って決定され得る。Y染色体アッセイに従って胎児分率を決定するための方法は、本明細書およびLo YM, et al. (1998) Am J Hum Genet 62:768-775に記載される。
一部の実施形態では、コピー数変異領域についての分率および少数派核酸の分率は、同じ方法論を使用して決定される。例えば、コピー数変異領域についての分率および少数派核酸の分率は各々、配列決定ベースの分率推定に従って決定され得る。一部の実施形態では、コピー数変異領域についての分率および少数派核酸の分率は、異なる方法論を使用して決定される。例えば、コピー数変異領域についての分率は、多型配列の対立遺伝子比に従って決定され得、少数派核酸の分率は、差次的エピジェネティックバイオマーカーに従って決定され得る。
一部の実施形態では、コピー数変異領域についての胎児分率および核酸試料についての胎児分率は、同じ方法論を使用して決定される。例えば、コピー数変異領域についての胎児分率および核酸試料についての胎児分率は各々、配列決定ベースの胎児分率推定に従って決定され得る。一部の実施形態では、コピー数変異領域についての胎児分率および核酸試料についての胎児分率は、異なる方法論を使用して決定される。例えば、コピー数変異領域についての胎児分率は、多型配列の対立遺伝子比に従って決定され得、核酸試料についての胎児分率は、Y染色体アッセイに従って決定され得る。
一部の実施形態では、コピー数変異(例えば、コピー数変異領域)についての分率は、染色体またはその一部について決定される。染色体またはその一部について決定されたコピー数変異についての分率は、染色体もしくはその一部からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に基づく核酸種の定量化を指す。一部の実施形態では、コピー数変異(例えば、コピー数変異領域)についての分率は、第13染色体、第18染色体または第21染色体について決定される。一部の実施形態では、少数派核酸の分率は、コピー数変異についての分率を決定するために使用される染色体またはその一部とは異なる染色体またはその一部について決定される。一部の実施形態では、少数派核酸の分率は、複数の染色体、または染色体の複数の部分について決定される。一部の実施形態では、少数派核酸の分率は、複数の常染色体、または常染色体の複数の部分について決定される。一部の実施形態では、少数派核酸の分率は、複数の領域(例えば、ゲノム領域)について決定される。一部の実施形態では、少数派核酸の分率は、ゲノムワイドの複数の領域(例えば、ゲノム領域)について決定される。
一部の実施形態では、コピー数変異(例えば、コピー数変異領域)についての胎児分率は、染色体またはその一部について決定される。染色体またはその一部について決定されたコピー数変異についての胎児分率は、染色体もしくはその一部からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に基づく胎児核酸の定量化を指す。一部の実施形態では、コピー数変異(例えば、コピー数変異領域)についての胎児分率は、第13染色体、第18染色体または第21染色体について決定される。一部の実施形態では、試料核酸についての胎児分率は、コピー数変異についての胎児分率を決定するために使用される染色体またはその一部とは異なる染色体またはその一部について決定される。一部の実施形態では、試料核酸についての胎児分率は、複数の染色体、または染色体の複数の部分について決定される。一部の実施形態では、試料核酸についての胎児分率は、複数の常染色体、または常染色体の複数の部分について決定される。一部の実施形態では、試料核酸についての胎児分率は、複数の領域(例えば、ゲノム領域)について決定される。一部の実施形態では、試料核酸についての胎児分率は、ゲノムワイドの複数の領域(例えば、ゲノム領域)について決定される。
一部の実施形態では、本明細書の方法は、コピー数変異についての分率を少数派核酸の分率と比較するステップを含む。一部の実施形態では、コピー数変異についての分率を少数派核酸の分率と比較するステップは、モザイク現象比を生成するステップを含む。例えば、モザイク現象比は、少数派核酸の分率によって除算した、コピー数変異についての分率であり得る。
一部の実施形態では、本明細書の方法は、コピー数変異についての胎児分率を試料核酸についての胎児分率と比較するステップを含む。一部の実施形態では、コピー数変異についての胎児分率を試料核酸についての胎児分率と比較するステップは、比を生成するステップを含む。例えば、モザイク現象比は、試料核酸についての胎児分率によって除算した、コピー数変異についての胎児分率であり得る。
一部の実施形態では、本明細書の方法は、コピー数変異領域についての遺伝的モザイク現象の存在または非存在を分類するステップを含む。コピー数変異領域についての遺伝的モザイク現象の存在または非存在は、比較に従って分類され得る。例えば、コピー数変異領域についての遺伝的モザイク現象の存在または非存在は、コピー数変異についての分率および少数派核酸の分率の比較に従って分類され得る。一部の実施形態では、コピー数変異領域についての遺伝的モザイク現象の存在または非存在は、コピー数変異についての胎児分率および試料核酸についての胎児分率の比較に従って分類され得る。コピー数変異領域についての遺伝的モザイク現象の存在または非存在は、比に従って分類され得る。例えば、コピー数変異領域についての遺伝的モザイク現象の存在または非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比(例えば、少数派核酸の分率によって除算した、コピー数変異についての分率)に従って分類され得る。一部の実施形態では、コピー数変異領域についての遺伝的モザイク現象の存在または非存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比(例えば、試料核酸についての胎児分率によって除算した、コピー数変異についての胎児分率)に従って分類され得る。
一部の実施形態では、遺伝的モザイク現象の存在は、コピー数変異領域について分類される。コピー数変異領域についての遺伝的モザイク現象分類の存在は、モザイクコピー数変異、罹患した胎児、罹患していない胎児、部分的に罹患した胎児、胎児コピー数変異、部分的胎児コピー数変異、部分的コピー数変異、胎盤コピー数変異、部分的胎盤コピー数変異、不完全なコピー数変異、胎盤モザイク現象、胎盤限局性モザイク現象(CPM)などとして解釈され得る。
一部の実施形態では、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、1未満である場合に、コピー数変異領域について分類される。例えば、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.1~約0.9、または約0.1~約0.8、または約0.1~約0.7、または約0.1~約0.6、または約0.2~約0.9、または約0.2~約0.8、または約0.2~約0.7、または約0.2~約0.6である場合に、コピー数変異領域について分類され得る。ある特定の実施形態では、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、0.2と0.7との間である場合に、コピー数変異領域について分類される。例えば、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.2、0.3、0.4、0.5、0.6または0.7である場合に、コピー数変異領域について分類され得る。本明細書で使用される場合、用語「実質的に」、「およそ」および「約」(本明細書で他に定義されない限り)は、当業者によって理解されるように、おおむね特定されたものであるが、完全に特定されたものである必要はない(および完全に特定されたものを含む)と定義される。任意の開示された実施形態では、用語「実質的に」、「およそ」または「約」は、特定されたもの「の[パーセンテージ]以内」で置換され得、このパーセンテージには、0.1、1、5および10パーセントが含まれる。
一部の実施形態では、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、0.2と0.49との間である場合に、コピー数変異領域について「低モザイク」としてさらに分類され、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、0.5と0.69との間である場合に、コピー数変異領域について「高モザイク」として分類される。
一部の実施形態では、遺伝的モザイク現象の存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、1未満の値の範囲内である場合に、コピー数変異領域について分類される。例えば、遺伝的モザイク現象の存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.1~約0.9、または約0.1~約0.8、または約0.1~約0.7、または約0.1~約0.6、または約0.2~約0.9、または約0.2~約0.8、または約0.2~約0.7、または約0.2~約0.6である場合に、コピー数変異領域について分類され得る。一部の実施形態では、遺伝的モザイク現象の存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、0.2と0.7との間である場合に、コピー数変異領域について分類される。例えば、遺伝的モザイク現象の存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.2、0.3、0.4、0.5、0.6または0.7である場合に、コピー数変異領域について分類され得る。
一部の実施形態では、遺伝的モザイク現象の存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、0.2と0.49との間である場合に、コピー数変異領域について「低モザイク」としてさらに分類され、遺伝的モザイク現象の存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、0.5と0.69との間である場合に、コピー数変異領域について「高モザイク」として分類される。
一部の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異領域について分類される。コピー数変異領域についての遺伝的モザイク現象分類の非存在は、標準的陽性結果(例えば、胎児コピー数変異についての陽性結果)、罹患した胎児、胎児コピー数変異、完全コピー数変異、真のコピー数変異、完全なコピー数変異などとして解釈され得る。
一部の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、0.6よりも大きい場合に、コピー数変異領域について分類される。例えば、遺伝的モザイク現象の非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.7~約1.5、または約0.7~約1.3、または約0.7~約1.1、または約0.8~約1.1、または約0.8~約1.0、または約0.8~約0.9の間である場合に、コピー数変異領域について分類され得る。一部の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.71~約1.3の間である場合に、コピー数変異領域について分類される。例えば、遺伝的モザイク現象の非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.71、0.8、0.9、1.0、1.1、1.2または1.3である場合に、コピー数変異領域について分類され得る。他の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、0.7と等しいまたはそれよりも大きい場合に、コピー数変異領域について分類される。
一部の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、0.6よりも大きい場合に、コピー数変異領域について分類される。例えば、遺伝的モザイク現象の非存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.7~約1.5、または約0.7~約1.3、または約0.7~約1.1、または約0.8~約1.1、または約0.8~約1.0、または約0.8~約0.9の間である場合に、コピー数変異領域について分類され得る。一部の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.71~約1.3の間である場合に、コピー数変異領域について分類される。例えば、遺伝的モザイク現象の非存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.71、0.8、0.9、1.0、1.1、1.2または1.3である場合に、コピー数変異領域について分類され得る。他の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、0.7と等しいまたはそれよりも大きい場合に、コピー数変異領域について分類される。
一部の実施形態では、分類なしが提供される。例えば、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、ある特定の閾値を下回る場合に、分類なし(例えば、コールなし、臨床的関連なし)が提供され得る。一部の実施形態では、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.3またはそれ未満である場合に、分類なしが提供される。一部の実施形態では、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.2またはそれ未満である場合に、分類なしが提供される。一部の実施形態では、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.1またはそれ未満である場合に、分類なしが提供される。
一部の実施形態では、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、ある特定の閾値を上回る場合に、分類なしが提供される。例えば、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.9、1.0、1.1、1.2もしくは1.3またはそれよりも大きい場合に、分類なしが提供され得る。一部の実施形態では、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約1.3またはそれよりも大きい場合に、分類なしが提供される。ある特定の閾値を上回る(例えば、1.3を上回る)値は、多数派核酸中に存在するコピー数変異(例えば、母方コピー数変異)を示し得る。
一部の実施形態では、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、ある特定の閾値を下回る場合に、分類なし(例えば、コールなし、臨床的関連なし)が提供され得る。一部の実施形態では、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.3またはそれ未満である場合に、分類なしが提供される。一部の実施形態では、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.2またはそれ未満である場合に、分類なしが提供される。一部の実施形態では、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.1またはそれ未満である場合に、分類なしが提供される。
一部の実施形態では、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、ある特定の閾値を上回る場合に、分類なしが提供される。例えば、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約0.9、1.0、1.1、1.2もしくは1.3またはそれよりも大きい場合に、分類なしが提供され得る。一部の実施形態では、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対するモザイク現象比の値が、約1.3またはそれよりも大きい場合に、分類なしが提供される。
図2は、種々の実施形態に従って、生体試料について1人または複数の胎児における遺伝的モザイク現象の存在または非存在を分類するためのプロセス200を示す。配列リードのセットが、ブロック205において提供される。配列リードは、多胎児妊娠対象(例えば、複数の胎児を有する妊娠雌性対象)から得られた試験試料由来の循環する無細胞試料核酸から得られ得る。さらに、多胎児妊娠対象が身ごもっている胎児の数が得られる。循環する無細胞核酸は、母方核酸および胎児核酸を含み得る。循環する無細胞試料核酸は、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドによって捕捉され得る。ブロック210において、遺伝的コピー数変異領域が、配列リードのセットから、循環する無細胞核酸において識別される。試料核酸中のコピー数変異を有する循環する無細胞核酸の分率が、ブロック215において決定される。分率は、コピー数変異領域について決定された胎児分率であり得る。循環する無細胞試料核酸中の胎児核酸の分率が、ブロック220において決定される。コピー数変異を有する循環する無細胞核酸の分率が、コピー数変異を有する循環する無細胞核酸の分率の、胎児核酸の分率に対するモザイク現象比を生成するために、ブロック225において胎児核酸の分率と比較される。1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象の存在または非存在が、ブロック230において、モザイク現象比および多胎児妊娠対象が身ごもっている胎児の数に従って分類される。
図3は、種々の実施形態に従って、生体試料について遺伝的モザイク現象の存在または非存在を分類し、臨床的解釈および/または診断的追跡情報を提供するためのプロセス300を示す。配列リードのセットが提供され、遺伝子状態についてのスクリーニング試験(例えば、NIPT)が、ステップ305において配列リードのセットから得られる。配列リードは、試験対象(例えば、妊娠雌性対象)から得られた試験試料由来の循環する無細胞試料核酸から得られ得る。試験試料は、モザイク現象比を生成するために使用される試料と同じまたはそれとは異なる試料であり得る。循環する無細胞核酸は、母方核酸および胎児核酸を含み得る。循環する無細胞試料核酸は、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドによって捕捉され得る。種々の実施形態では、それについてスクリーニングされる遺伝子状態には、1つまたは複数の異数性、例えば、コピー数変異の存在が含まれる。1つまたは複数の異数性の存在(陽性とフラグされる)または非存在(陰性とフラグされる)が、z-スコアに基づいて、配列リードのセットから、循環する無細胞核酸においてステップ310または315において識別され得る。1つまたは複数の異数性の非存在(陰性とフラグされる)が識別される場合、ステップ320においてさらなる試験が実施されなくてもよく、または診断試験がステップ325において実施されてもよい。1つまたは複数の異数性の存在(陽性とフラグされる)が識別される場合、モザイク現象比が、図2に関して記載されたように生成され、モザイク現象比の値は、遺伝的モザイク現象の存在または非存在を分類し、NIPT結果の改良された解釈を提供するために使用される。モザイク現象比は、モザイク現象(例えば、CPM)に起因する不調和な陽性結果のより高い見込みを有する患者を識別するために使用され得る。
遺伝的モザイク現象の存在は、モザイク現象比の値が0.2と0.7との間である場合に、コピー数変異領域についてステップ330において分類され得る。遺伝的モザイク現象の非存在は、モザイク現象比の値が0.7と等しいまたはそれよりも大きい場合に、コピー数変異領域について分類335され得る。さらに、モザイク現象比の値が、約1.3と等しいもしくはそれよりも大きい、または約0.2と等しいもしくはそれ未満である場合に、コピー数変異領域について、分類なしが、ステップ340/345において提供され得る。分類なしが提供され、モザイク現象比の値が約1.3よりも大きい場合、陽性NIPT結果は、ステップ350において、おそらく過剰または不確定として解釈され得、羊水穿刺、CVS、母方試験および/または他の試験を含む診断的な追跡が、遺伝子カウンセラーと医師との間での合意決定に依存して、ステップ355において推奨され得る。分類なしが提供され、モザイク現象比の値が約0.2未満である場合、陽性NIPT結果は、ステップ360において、陰性結果、または1つもしくは複数の異数性の非存在として解釈され得、ステップ365において診断的な追跡が呼び出されなくてもよい。
遺伝的モザイク現象の存在が分類される(例えば、モザイク現象比が0.2と0.7との間である)場合、陽性NIPT結果は、モザイクコメント(例えば、モザイク現象比が、異数性がモザイク形態であることを示唆するという理解)と共に、ステップ370において陽性として解釈され得、羊水穿刺および/またはCVSを含む診断的な追跡が、遺伝子カウンセラーと医師との間での合意決定に依存して、ステップ375において推奨され得る。遺伝的モザイク現象の非存在が分類される(例えば、モザイク現象比が、0.7よりも大きいまたはそれと等しいが、約1.3未満である)場合、陽性NIPT結果は、モザイクコメント(例えば、モザイク現象比が、異数性が非モザイク形態であることを示唆するという理解)と共に、ステップ380において陽性として解釈され得、羊水穿刺および/またはCVSを含む診断的な追跡が、確認のために、ステップ385において推奨され得る。
種々の実施形態では、ステップ370は、遺伝的モザイク現象のより微細な粒の分類、およびNIPTにおいて検出された異数性の型を考慮に入れる解釈を用いる、さらなる分析を含み得る。一部の場合には、ステップ370は、モザイク現象比が0.2と0.49との間である場合に、遺伝的モザイク現象の存在を、コピー数変異領域について「低モザイク」として分類するステップ、またはモザイク現象比が0.5と0.69との間である場合に、遺伝的モザイク現象の存在を、コピー数変異領域について「高モザイク」として分類するステップをさらに含み得る。遺伝的モザイク現象の存在が低モザイクとして分類される(例えば、モザイク現象比が0.2と0.49との間である)場合、陽性NIPT結果は、モザイクコメント(例えば、モザイク現象比が、異数性がモザイク形態であることを弱く示唆するという理解、特に、異数性の型が13トリソミー、18トリソミーまたは21トリソミーである場合)と共に、ステップ370において陽性として解釈され得、羊水穿刺および/またはCVSを含む診断的な追跡が、遺伝子カウンセラーと医師との間での合意決定に依存して、ステップ375において推奨され得る。遺伝的モザイク現象の存在が高モザイクとして分類される(例えば、モザイク現象比が0.5と0.69との間である)場合、陽性NIPT結果は、モザイクコメント(例えば、モザイク現象比が、異数性がモザイク形態であることを僅かに示唆するという理解、特に、異数性の型が13トリソミーである場合;またはモザイク現象比が、異数性がモザイク形態であることを強く示唆するという理解、特に、異数性の型が18トリソミーまたは21トリソミーである場合)と共に、ステップ370において陽性として解釈され得、羊水穿刺および/またはCVSを含む診断的な追跡が、遺伝子カウンセラーと医師との間での合意決定に依存して、ステップ375において推奨され得る。
多胎児妊娠対象中の1人または複数の胎児についての遺伝的モザイク現象分類
試料(例えば、生体試料;試験試料)について1人または複数の胎児における遺伝的モザイク現象(例えば、CPM)の存在または非存在を分類するための方法が、本明細書で提供される。種々の実施形態では、1人または複数の胎児における遺伝的モザイク現象の存在または非存在は、コピー数変異について分類される(即ち、多胎児妊娠における1人の胎児または1人よりも多くの胎児がコピー数変異に罹患しているかどうかを予測する)。コピー数変更と呼ばれ得るコピー数変異には、異数性(例えば、染色体トリソミー、染色体モノソミー)、欠失(例えば、ミクロ欠失;サブ染色体欠失)および重複(例えば、ミクロ重複、サブ染色体重複)が含まれ得、本明細書でさらに詳細に記載される。
1人または複数の胎児における遺伝的モザイク現象の存在または非存在は、コピー数変異領域(例えば、胎盤中に限局されたトリソミー細胞系)について分類され得る。コピー数変異領域は、コピー数変異がそれについて識別されるゲノム領域(例えば、染色体、染色体の一部)を指す。コピー数変異領域は、特定の染色体を指し得るか、または染色体上の場所(例えば、ある特定のゲノム座標に及ぶ領域)を指し得る。コピー数変異領域は、当該技術分野のまたは本明細書に記載されるコピー数変異を識別するための任意の適切な方法を使用して識別され得る。
一部の実施形態では、本明細書の方法は、多胎児妊娠対象由来の核酸の試料中のコピー数変異を有する核酸の分率を決定するステップを含む。核酸の分率を決定するステップは、核酸混合物中の特定の種の核酸を定量化するステップを指す。例えば、核酸の分率を決定するステップは、少数派核酸種を定量化するステップ、胎児核酸を定量化するステップ、がん核酸を定量化するステップなどを指し得る。コピー数変異を有する核酸の分率を決定するステップは、コピー数変異がそれについて識別される核酸のサブセット(例えば、核酸断片のサブセット、配列リードのサブセット)を定量化するステップを指す。一部の実施形態では、コピー数変異を有する核酸の分率を決定するステップは、コピー数変異がそれについて識別される領域(例えば、ゲノム領域)由来の核酸のサブセット(例えば、核酸断片のサブセット、配列リードのサブセット)を定量化するステップを指す。一部の実施形態では、コピー数変異を有する核酸の分率を決定するステップは、コピー数変異がそれについて識別される領域(例えば、ゲノム領域)由来の種についての核酸のサブセット(例えば、種についての核酸断片のサブセット、種についての配列リードのサブセット)を定量化するステップを指す。例えば、多胎児妊娠対象由来の母方核酸および胎児核酸を含む試料について、胎児核酸が第21染色体のトリソミーを有すると識別される場合、コピー数変異を有する核酸の分率を決定するステップは、第21染色体またはその一部からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に基づいて胎児分率を決定するステップを指す。
一部の実施形態では、本明細書の方法は、領域(例えば、ゲノム領域)についての分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、コピー数変異領域についての分率を決定するステップを含む。コピー数変異領域についての分率は、罹患した分率または罹患した領域についての分率と呼ばれ得る。上で考察したように、コピー数変異領域についての分率は、コピー数変異を有すると識別される領域(例えば、ゲノム領域)について得られた情報(例えば、配列情報、エピジェネティック情報)に従って決定され得る。コピー数変異領域についての分率は、核酸混合物中の核酸の種を定量化するための任意の適切な方法を使用して決定され得る。例えば、コピー数変異領域についての分率は、配列決定ベースの分率推定に従って決定され得る。配列決定ベースの分率推定に従って核酸分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの分率推定は、ビンベースの分率推定および/または部分特異的分率推定と呼ばれ得る。一部の実施形態では、コピー数変異領域についての分率は、多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って核酸分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、コピー数変異領域についての分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された核酸の定量化)に従って決定され得る。差次的にメチル化された核酸の定量化に従って核酸分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、核酸の試料は、多数派核酸(例えば、少数派核酸よりも多い)および少数派核酸(例えば、多数派核酸よりも少ない)を含む。一部の実施形態では、多数派核酸は、母方核酸を含み、少数派核酸は、胎児核酸を含む。したがって、一部の実施形態では、本明細書の方法は、胎児分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、領域(例えば、ゲノム領域)についての胎児分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、コピー数変異領域についての胎児分率を決定するステップを含む。コピー数変異領域についての胎児分率は、罹患した分率、罹患した胎児分率、および/または罹患した領域についての胎児分率と呼ばれ得る。上で考察したように、コピー数変異領域についての胎児分率は、胎児コピー数変異を有すると識別される領域(例えば、ゲノム領域)について得られた情報(例えば、配列情報、エピジェネティック情報)に従って決定され得る。コピー数変異領域についての胎児分率は、母方核酸および胎児核酸の混合物中の胎児核酸を定量化するための任意の適切な方法を使用して決定され得る。例えば、コピー数変異領域についての胎児分率は、配列決定ベースの胎児分率(SeqFF)推定に従って決定され得る。配列決定ベースの胎児分率(SeqFF)推定に従って胎児分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの胎児分率(SeqFF)推定は、ビンベースの胎児分率(BFF)推定および/または部分特異的胎児分率推定と呼ばれ得る。一部の実施形態では、コピー数変異領域についての胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って胎児分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、コピー数変異領域についての胎児分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された胎児核酸および母方核酸の定量化)に従って決定され得る。差次的にメチル化された胎児核酸および母方核酸の定量化に従って胎児分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、本明細書の方法は、試料核酸中の少数派核酸の分率を決定するステップを含む。試料核酸中の少数派核酸の分率を決定するステップは、一般に、コピー数変異を有すると識別される領域についての情報に基づいて核酸種を定量化する方法、例えば、上記方法に限定されない。むしろ、試料核酸中の少数派核酸の分率を決定するステップは、ゲノムにわたる領域および/またはコピー数変異を有すると識別される領域とは異なる領域からの情報に従って少数派核酸を定量化する方法を含み得る。一部の実施形態では、少数派核酸の分率は、コピー数変異領域よりも大きいゲノム領域について決定される。例えば、少数派核酸の分率は、コピー数変異を有すると識別される領域よりも多くのゲノム含量(例えば、塩基対、キロ塩基、メガ塩基)を含むゲノム領域について決定され得る。例えば、少数派核酸が第21染色体のトリソミーを有すると識別される試料について、少数派核酸の分率は、複数の染色体からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に従って決定され得る。この例では、かかる複数の染色体には、全ての染色体、全ての常染色体、染色体のサブセット、常染色体のサブセット、第21染色体を含む染色体のサブセット、第21染色体を含む常染色体のサブセット、第21染色体を排除する染色体のサブセット、第21染色体を排除する常染色体のサブセット、またはそれらの一部が含まれ得る。一部の実施形態では、少数派核酸の分率は、コピー数変異領域とは異なるゲノム領域について決定される。例えば、少数派核酸が第21染色体のトリソミーを有すると識別される試料について、少数派核酸の分率は、第21染色体以外の染色体からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に従って決定され得る。
試料核酸中の少数派核酸の分率は、核酸混合物中の核酸の種を定量化するための任意の適切な方法を使用して決定され得る。例えば、少数派核酸の分率は、配列決定ベースの分率推定に従って決定され得る。配列決定ベースの分率推定に従って少数派核酸分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの分率推定は、ビンベースの分率推定および/または部分特異的分率推定と呼ばれ得る。一部の実施形態では、少数派核酸の分率は、多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って少数派核酸分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、少数派核酸の分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された核酸の定量化)に従って決定され得る。差次的にメチル化された核酸の定量化に従って少数派核酸分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、少数派核酸は、胎児核酸を含む。したがって、一部の実施形態では、本明細書の方法は、胎児分率を決定するステップを含む。胎児分率は、母方核酸および胎児核酸の混合物中の胎児核酸を定量化するための任意の適切な方法を使用して決定され得る。例えば、胎児分率は、配列決定ベースの胎児分率(SeqFF)推定に従って決定され得る。配列決定ベースの胎児分率(SeqFF)推定に従って胎児分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの胎児分率(SeqFF)推定は、ビンベースの胎児分率(BFF)推定および/または部分特異的胎児分率推定と呼ばれ得る。一部の実施形態では、胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って胎児分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、胎児分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された胎児核酸および母方核酸の定量化)に従って決定され得る。差次的にメチル化された胎児核酸および母方核酸の定量化に従って胎児分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、胎児分率は、Y染色体アッセイに従って決定され得る。Y染色体アッセイに従って胎児分率を決定するための方法は、本明細書およびLo YM, et al. (1998) Am J Hum Genet 62:768-775に記載される。
一部の実施形態では、コピー数変異領域についての分率および少数派核酸の分率は、同じ方法論を使用して決定される。例えば、コピー数変異領域についての分率および少数派核酸の分率は各々、配列決定ベースの分率推定に従って決定され得る。一部の実施形態では、コピー数変異領域についての分率および少数派核酸の分率は、異なる方法論を使用して決定される。例えば、コピー数変異領域についての分率は、多型配列の対立遺伝子比に従って決定され得、少数派核酸の分率は、差次的エピジェネティックバイオマーカーに従って決定され得る。
一部の実施形態では、コピー数変異領域についての胎児分率および核酸試料についての胎児分率は、同じ方法論を使用して決定される。例えば、コピー数変異領域についての胎児分率および核酸試料についての胎児分率は各々、配列決定ベースの胎児分率推定に従って決定され得る。一部の実施形態では、コピー数変異領域についての胎児分率および核酸試料についての胎児分率は、異なる方法論を使用して決定される。例えば、コピー数変異領域についての胎児分率は、多型配列の対立遺伝子比に従って決定され得、核酸試料についての胎児分率は、Y染色体アッセイに従って決定され得る。
一部の実施形態では、コピー数変異(例えば、コピー数変異領域)についての分率は、染色体またはその一部について決定される。染色体またはその一部について決定されたコピー数変異についての分率は、染色体もしくはその一部からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に基づく核酸種の定量化を指す。一部の実施形態では、コピー数変異(例えば、コピー数変異領域)についての分率は、第13染色体、第18染色体または第21染色体について決定される。一部の実施形態では、少数派核酸の分率は、コピー数変異についての分率を決定するために使用される染色体またはその一部とは異なる染色体またはその一部について決定される。一部の実施形態では、少数派核酸の分率は、複数の染色体、または染色体の複数の部分について決定される。一部の実施形態では、少数派核酸の分率は、複数の常染色体、または常染色体の複数の部分について決定される。一部の実施形態では、少数派核酸の分率は、複数の領域(例えば、ゲノム領域)について決定される。一部の実施形態では、少数派核酸の分率は、ゲノムワイドの複数の領域(例えば、ゲノム領域)について決定される。
一部の実施形態では、コピー数変異(例えば、コピー数変異領域)についての胎児分率は、染色体またはその一部について決定される。染色体またはその一部について決定されたコピー数変異についての胎児分率は、染色体もしくはその一部からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に基づく胎児核酸の定量化を指す。一部の実施形態では、コピー数変異(例えば、コピー数変異領域)についての胎児分率は、第13染色体、第18染色体または第21染色体について決定される。一部の実施形態では、試料核酸についての胎児分率は、コピー数変異についての胎児分率を決定するために使用される染色体またはその一部とは異なる染色体またはその一部について決定される。一部の実施形態では、試料核酸についての胎児分率は、複数の染色体、または染色体の複数の部分について決定される。一部の実施形態では、試料核酸についての胎児分率は、複数の常染色体、または常染色体の複数の部分について決定される。一部の実施形態では、試料核酸についての胎児分率は、複数の領域(例えば、ゲノム領域)について決定される。一部の実施形態では、試料核酸についての胎児分率は、ゲノムワイドの複数の領域(例えば、ゲノム領域)について決定される。
一部の実施形態では、本明細書の方法は、コピー数変異についての分率を少数派核酸の分率と比較するステップを含む。一部の実施形態では、コピー数変異についての分率を少数派核酸の分率と比較するステップは、比を生成するステップを含む。例えば、比は、少数派核酸の分率によって除算した、コピー数変異を有する核酸の分率であり得る。
一部の実施形態では、本明細書の方法は、コピー数変異についての胎児分率を試料核酸についての胎児分率と比較するステップを含む。一部の実施形態では、コピー数変異についての胎児分率を試料核酸についての胎児分率と比較するステップは、比を生成するステップを含む。例えば、比は、試料核酸についての胎児分率によって除算した、コピー数変異についての胎児分率であり得る。
一部の実施形態では、本明細書の方法は、1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象の存在または非存在を分類するステップを含む。1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象の存在または非存在は、比較に従って分類され得る。例えば、1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象の存在または非存在は、コピー数変異についての分率および少数派核酸の分率の比較に従って分類され得る。一部の実施形態では、1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象の存在または非存在は、コピー数変異についての胎児分率および試料核酸についての胎児分率の比較に従って分類され得る。1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象の存在または非存在は、比に従って分類され得る。例えば、1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象の存在または非存在は、コピー数変異についての分率の、少数派核酸の分率に対する比(例えば、少数派核酸の分率によって除算した、コピー数変異についての分率)に従って分類され得る。一部の実施形態では、1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象の存在または非存在は、コピー数変異についての胎児分率の、試料核酸についての胎児分率に対する比(例えば、試料核酸についての胎児分率によって除算した、コピー数変異についての胎児分率)に従って分類され得る。
一部の実施形態では、遺伝的モザイク現象の存在は、1人または複数の胎児におけるコピー数変異領域について分類される。1人または複数の胎児におけるコピー数変異領域についての遺伝的モザイク現象分類の存在は、モザイクコピー数変異、罹患した胎児、罹患していない胎児、部分的に罹患した胎児、胎児コピー数変異、部分的胎児コピー数変異、部分的コピー数変異、胎盤コピー数変異、部分的胎盤コピー数変異、不完全なコピー数変異、胎盤モザイク現象、胎盤限局性モザイク現象(CPM)などとして解釈され得る。
一部の実施形態では、遺伝的モザイク現象の存在は、以下に基づいて、多胎児妊娠のうちの1人または複数の胎児におけるコピー数変異領域について分類される:(i)コピー数変異についての分率(例えば、胎児分率)の、少数派核酸(例えば、胎児核酸)の分率に対するモザイク現象比の値、および(ii)妊娠雌性が身ごもっている胎児の数。例えば、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.7未満、例えば、0.54、0.44または0.6である場合に、双子を身ごもっている妊娠雌性の1人の胎児におけるコピー数変異領域について分類され得る。あるいは、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.9よりも大きい、例えば、1.17である場合に、双子を身ごもっている妊娠雌性の両方の胎児におけるコピー数変異領域について分類され得る。あるいは、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.4未満、例えば、0.33である場合に、三つ子を身ごもっている妊娠雌性の1人の胎児におけるコピー数変異領域について分類され得る。あるいは、遺伝的モザイク現象の存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.4と約0.8との間、例えば、0.62である場合に、三つ子を身ごもっている妊娠雌性の2人の胎児におけるコピー数変異領域について分類され得る。理解すべきことに、モザイク比の値は、妊娠雌性が身ごもっている胎児の数を考慮して解釈する必要がある。
一部の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異領域について分類される。コピー数変異領域についての遺伝的モザイク現象分類の非存在は、標準的陽性結果(例えば、胎児コピー数変異についての陽性結果)、罹患した胎児、胎児コピー数変異、完全コピー数変異、真のコピー数変異、完全なコピー数変異などとして解釈され得る。
一部の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異についての分率(例えば、胎児分率)の、少数派核酸(例えば、胎児核酸)の分率に対するモザイク現象比の値が、1.3よりも大きい場合に、1人または複数の胎児におけるコピー数変異領域について分類される。例えば、遺伝的モザイク現象の非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約1.3~約1.7、または約1.3~約1.5の間である場合に、1人または複数の胎児におけるコピー数変異領域について分類され得る。一部の実施形態では、遺伝的モザイク現象の非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約1.31~約1.7の間である場合に、1人または複数の胎児におけるコピー数変異領域について分類される。例えば、遺伝的モザイク現象の非存在は、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約1.31、1.4、1.5、1.6または1.7である場合に、1人または複数の胎児におけるコピー数変異領域について分類され得る。
一部の実施形態では、分類なしが提供される。例えば、コピー数変異についての分率(例えば、胎児分率)の、少数派核酸(例えば、胎児核酸)の分率に対するモザイク現象比の値が、ある特定の閾値を下回る場合に、分類なし(例えば、コールなし、臨床的関連なし)が提供され得る。一部の実施形態では、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.1またはそれ未満である場合に、分類なしが提供される。一部の実施形態では、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約0.1またはそれ未満である場合に、分類なしが提供される。
一部の実施形態では、コピー数変異についての分率(例えば、胎児分率)の、少数派核酸(例えば、胎児核酸)の分率に対するモザイク現象比の値が、ある特定の閾値を上回る場合に、分類なしが提供される。例えば、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約1.7、1.8、1.9、2.0もしくは2.5またはそれよりも大きい場合に、分類なしが提供され得る。一部の実施形態では、コピー数変異についての分率の、少数派核酸の分率に対するモザイク現象比の値が、約1.7またはそれよりも大きい場合に、分類なしが提供される。ある特定の閾値を上回る(例えば、1.7を上回る)値は、多数派核酸中に存在するコピー数変異(例えば、母方コピー数変異)を示し得る。
図4は、種々の実施形態に従って、生体試料について遺伝的モザイク現象の存在または非存在を分類し、臨床的解釈および/または診断的追跡情報を提供するためのプロセス400を示す。配列リードのセットが提供され、遺伝子状態についてのスクリーニング試験(例えば、NIPT)が、ブロック405において配列リードのセットから得られる。配列リードは、多胎児妊娠対象(例えば、複数の胎児を有する妊娠雌性対象)から得られた試験試料由来の循環する無細胞試料核酸から得られ得る。循環する無細胞核酸は、母方核酸および胎児核酸を含み得る。循環する無細胞試料核酸は、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドによって捕捉され得る。種々の実施形態では、スクリーニングされる遺伝子状態には、1つまたは複数の異数性、例えば、コピー数変異の存在が含まれる。さらに、多胎児妊娠対象が身ごもっている胎児の数が得られる。
1つまたは複数の異数性の存在(陽性とフラグされる)または非存在(陰性とフラグされる)が、z-スコアに基づいて、配列リードのセットから、循環する無細胞核酸においてブロック410または415において識別され得る。1つまたは複数の異数性の非存在(陰性とフラグされる)が識別される場合、ブロック420においてさらなる試験が実施されなくてもよく、または診断試験がブロック425において実施されてもよい。1つまたは複数の異数性の存在(陽性とフラグされる)が識別される場合、モザイク現象比は、図2に関して記載されたように生成され、モザイク現象比の値は、1人または複数の胎児における遺伝的モザイク現象の存在または非存在を分類し、NIPT結果の改良された解釈を提供するために使用される。モザイク現象比は、モザイク現象(例えば、CPM)に起因する不調和な陽性結果のより高い見込みを有する患者を識別するために使用され得る。
遺伝的モザイク現象の存在または非存在は、以下に基づいて、多胎児妊娠のうちの1人または複数の胎児におけるコピー数変異領域についてブロック430および435において分類され得る:(i)コピー数変異についての分率(例えば、胎児分率)の、少数派核酸(例えば、胎児核酸)の分率に対するモザイク現象比の値、および(ii)妊娠雌性が身ごもっている胎児の数。さらに、モザイク現象比の値が約1.7よりも大きいまたは約0.1未満である場合に、コピー数変異領域について、分類なしが、ブロック440および445において提供され得る。分類なしが提供され、モザイク現象比の値が約1.7よりも大きい場合、陽性NIPT結果は、ブロック450において、おそらく過剰または不確定として解釈され得、羊水穿刺、CVS、母方試験および/または他の試験を含む診断的な追跡が、遺伝子カウンセラーと医師との間での合意決定に依存して、ブロック455において推奨され得る。分類なしが提供され、モザイク現象比の値が約0.1未満である場合、陽性NIPT結果は、ブロック460において、陰性結果、または1つもしくは複数の異数性の非存在として解釈され得、ブロック465において診断的な追跡が呼び出されなくてもよい。遺伝的モザイク現象の存在が1人または複数の胎児について分類される(例えば、モザイク現象比が、胎児の数に依存して、約0.1~約1.7の間である)場合、陽性NIPT結果は、モザイクコメント、1人または複数の胎児についてのモザイク提示の可能性が存在するという理解と共に、ブロック470において陽性として解釈され得、羊水穿刺および/またはCVSを含む診断的な追跡が、遺伝子カウンセラーと医師との間での合意決定に依存して、ブロック475において推奨され得る。遺伝的モザイク現象の非存在が分類される(例えば、モザイク現象比が、胎児の数に依存して、約1.0よりも大きい)場合、陽性NIPT結果は、陽性として解釈480され得、羊水穿刺および/またはCVSを含む診断的な追跡485が、確認のために、推奨され得る。
1人または複数の胎児についての性別分類
試料(例えば、生体試料;試験試料)について1人または複数の胎児の性別を分類するための方法が、本明細書で提供される。種々の実施形態では、1人または複数の胎児の性別は、Y染色体のレベル(例えば、1つまたは複数のゲノム区域レベル、プロファイルのレベル)および妊娠雌性が身ごもっている胎児の数に従って分類される。一部の実施形態では、本明細書の方法は、多胎児妊娠対象由来の核酸の試料中のY染色体を有する核酸の分率を決定するステップを含む。核酸の分率を決定するステップは、核酸混合物中の特定の種の核酸を定量化するステップを指す。例えば、核酸の分率を決定するステップは、少数派核酸種を定量化するステップ、胎児核酸を定量化するステップ、がん核酸を定量化するステップなどを指し得る。Y染色体を有する核酸の分率を決定するステップは、Y染色体がそれについて識別される核酸のサブセット(例えば、核酸断片のサブセット、配列リードのサブセット)を定量化するステップを指す。一部の実施形態では、Y染色体を有する核酸の分率は、Y染色体のレベル(例えば、1つまたは複数のゲノム区域レベル、プロファイルのレベル)に一部従って決定される。一部の実施形態では、Y染色体を有する核酸の分率を決定するステップは、Y染色体がそれについて識別される領域(例えば、ゲノム領域)由来の核酸のサブセット(例えば、核酸断片のサブセット、配列リードのサブセット)を定量化するステップを指す。一部の実施形態では、Y染色体を有する核酸の分率を決定するステップは、Y染色体がそれについて識別される領域(例えば、ゲノム領域)由来の種についての核酸のサブセット(例えば、種についての核酸断片のサブセット、種についての配列リードのサブセット)を定量化するステップを指す。例えば、多胎児妊娠対象由来の母方核酸および胎児核酸を含む試料について、胎児核酸がY染色体を有すると識別される場合、Y染色体を有する核酸の分率を決定するステップは、Y染色体もしくはその一部からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に基づいて胎児分率を決定するステップを指す。
一部の実施形態では、本明細書の方法は、領域(例えば、ゲノム領域)についての分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、Y染色体の領域についての分率を決定するステップを含む。Y染色体またはその一部について決定された領域についての分率は、Y染色体もしくはその一部からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に基づく核酸種の定量化を指す。一部の実施形態では、領域についての分率は、Y染色体について決定される。一部の実施形態では、少数派核酸の分率は、Y染色体に関連する領域についての分率を決定するために使用されるX染色体またはその一部とは異なるY染色体またはその一部について決定される。
上で考察したように、Y染色体の領域についての分率は、Y染色体に関連すると識別される領域(例えば、ゲノム領域)について得られた情報(例えば、配列情報、エピジェネティック情報)に従って決定され得る。Y染色体の領域についての分率は、核酸混合物中の核酸の種を定量化するための任意の適切な方法を使用して決定され得る。例えば、Y染色体の領域についての分率は、配列決定ベースの分率推定に従って決定され得る。配列決定ベースの分率推定に従って核酸分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの分率推定は、ビンベースの分率推定および/または部分特異的分率推定と呼ばれ得る。一部の実施形態では、Y染色体の領域についての分率は、多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って核酸分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、Y染色体の領域についての分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された核酸の定量化)に従って決定され得る。差次的にメチル化された核酸の定量化に従って核酸分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、核酸の試料は、多数派核酸(例えば、少数派核酸よりも多い)および少数派核酸(例えば、多数派核酸よりも少ない)を含む。一部の実施形態では、多数派核酸は、母方核酸を含み、少数派核酸は、胎児核酸を含む。したがって、一部の実施形態では、本明細書の方法は、胎児分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、Y染色体に関連すると識別される領域(例えば、ゲノム領域)についての胎児分率を決定するステップを含む。一部の実施形態では、本明細書の方法は、Y染色体の領域についての胎児分率を決定するステップを含む。上で考察したように、Y染色体の領域についての胎児分率は、Y染色体に関連すると識別される領域(例えば、ゲノム領域)について得られた情報(例えば、配列情報、エピジェネティック情報)に従って決定され得る。Y染色体の領域についての胎児分率は、母方核酸および胎児核酸の混合物中の胎児核酸を定量化するための任意の適切な方法を使用して決定され得る。例えば、Y染色体の領域についての胎児分率は、配列決定ベースの胎児分率(SeqFF)推定に従って決定され得る。配列決定ベースの胎児分率(SeqFF)推定に従って胎児分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの胎児分率(SeqFF)推定は、ビンベースの胎児分率(BFF)推定および/または部分特異的胎児分率推定と呼ばれ得る。一部の実施形態では、Y染色体の領域についての胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って胎児分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、Y染色体の領域についての胎児分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された胎児核酸および母方核酸の定量化)に従って決定され得る。差次的にメチル化された胎児核酸および母方核酸の定量化に従って胎児分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、本明細書の方法は、試料核酸中の少数派核酸の分率を決定するステップを含む。試料核酸中の少数派核酸の分率を決定するステップは、一般に、Y染色体に関連すると識別される領域についての情報に基づいて核酸種を定量化する方法、例えば、上記方法に限定されない。むしろ、試料核酸中の少数派核酸の分率を決定するステップは、ゲノムにわたる領域および/またはY染色に関連すると識別される領域とは異なる領域からの情報に従って少数派核酸を定量化する方法を含み得る。一部の実施形態では、少数派核酸の分率は、Y染色体の領域よりも大きいゲノム領域について決定される。例えば、少数派核酸の分率は、Y染色体の領域よりも多くのゲノム含量(例えば、塩基対、キロ塩基、メガ塩基)を含むゲノム領域について決定され得る。例えば、少数派核酸が第21染色体のトリソミーを有すると識別される試料について、少数派核酸の分率は、複数の染色体からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に従って決定され得る。この例では、かかる複数の染色体には、全ての染色体、全ての常染色体、染色体のサブセット、常染色体のサブセット、Y染色体を含む染色体のサブセット、常染色体のサブセット、Y染色体を排除する染色体のサブセット、X染色体を含む染色体のサブセット、またはそれらの一部が含まれ得る。一部の実施形態では、少数派核酸の分率は、Y染色体の領域とは異なるゲノム領域について決定される。例えば、少数派核酸がY染色体の領域を有すると識別される試料について、少数派核酸の分率は、Y染色体以外の染色体からのまたはそれと関連した情報(例えば、配列情報、配列リード定量化、多型配列、差次的にメチル化された配列)に従って決定され得る。
試料核酸中の少数派核酸の分率は、核酸混合物中の核酸の種を定量化するための任意の適切な方法を使用して決定され得る。例えば、少数派核酸の分率は、配列決定ベースの分率推定に従って決定され得る。配列決定ベースの分率推定に従って少数派核酸分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの分率推定は、ビンベースの分率推定および/または部分特異的分率推定と呼ばれ得る。一部の実施形態では、少数派核酸の分率は、多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って少数派核酸分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、少数派核酸の分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された核酸の定量化)に従って決定され得る。差次的にメチル化された核酸の定量化に従って少数派核酸分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。
一部の実施形態では、少数派核酸は、胎児核酸を含む。したがって、一部の実施形態では、本明細書の方法は、胎児分率を決定するステップを含む。胎児分率は、母方核酸および胎児核酸の混合物中の胎児核酸を定量化するための任意の適切な方法を使用して決定され得る。例えば、胎児分率は、配列決定ベースの胎児分率(SeqFF)推定に従って決定され得る。配列決定ベースの胎児分率(SeqFF)推定に従って胎児分率を決定するための方法は、本明細書ならびに国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載され、これらは各々、これにより参照により本明細書に組み込まれる。配列決定ベースの胎児分率(SeqFF)推定は、ビンベースの胎児分率(BFF)推定および/または部分特異的胎児分率推定と呼ばれ得る。一部の実施形態では、胎児分率は、胎児核酸および母方核酸における多型配列の対立遺伝子比に従って決定され得る。多型配列には、例えば、単一ヌクレオチド多型(SNP)が含まれ得る。多型配列の対立遺伝子比に従って胎児分率を決定するための方法は、本明細書および米国特許出願公開第2011/0224087号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、胎児分率は、差次的エピジェネティックバイオマーカー(例えば、差次的にメチル化された胎児核酸および母方核酸の定量化)に従って決定され得る。差次的にメチル化された胎児核酸および母方核酸の定量化に従って胎児分率を決定するための方法は、例えば、本明細書および米国特許出願公開第2010/0105049号に記載され、これは、これにより参照により本明細書に組み込まれる。一部の実施形態では、胎児分率は、Y染色体アッセイに従って決定され得る。Y染色体アッセイに従って胎児分率を決定するための方法は、本明細書およびLo YM, et al. (1998) Am J Hum Genet 62:768-775に記載される。
一部の実施形態では、Y染色体(またはY染色体の領域)についての分率および少数派核酸の分率は、同じ方法論を使用して決定される。例えば、Y染色体(またはY染色体の領域)についての分率および少数派核酸の分率は各々、配列決定ベースの分率推定に従って決定され得る。一部の実施形態では、Y染色体(またはY染色体の領域)についての分率および少数派核酸の分率は、異なる方法論を使用して決定される。例えば、Y染色体(またはY染色体の領域)についての分率は、多型配列の対立遺伝子比に従って決定され得、少数派核酸の分率は、差次的エピジェネティックバイオマーカーに従って決定され得る。
一部の実施形態では、Y染色体(またはY染色体の領域)についての胎児分率および核酸試料についての胎児分率は、同じ方法論を使用して決定される。例えば、Y染色体(またはY染色体の領域)についての胎児分率および核酸試料についての胎児分率は各々、配列決定ベースの胎児分率推定に従って決定され得る。一部の実施形態では、Y染色体(またはY染色体の領域)についての胎児分率および核酸試料についての胎児分率は、異なる方法論を使用して決定される。例えば、Y染色体(またはY染色体の領域)についての胎児分率は、多型配列の対立遺伝子比に従って決定され得、核酸試料についての胎児分率は、Y染色体アッセイに従って決定され得る。
一部の実施形態では、本明細書の方法は、Y染色体(またはY染色体の領域)についての分率を少数派核酸の分率と比較するステップを含む。一部の実施形態では、Y染色体(またはY染色体の領域)についての分率を少数派核酸の分率と比較するステップは、比を生成するステップを含む。例えば、比は、少数派核酸の分率によって除算した、Y染色体(またはY染色体の領域)を有する核酸の分率であり得る。
一部の実施形態では、本明細書の方法は、Y染色体(またはY染色体の領域)についての胎児分率を試料核酸についての胎児分率と比較するステップを含む。一部の実施形態では、Y染色体(またはY染色体の領域)についての胎児分率を試料核酸についての胎児分率と比較するステップは、比を生成するステップを含む。例えば、比は、試料核酸についての胎児分率によって除算した、Y染色体(またはY染色体の領域)についての胎児分率であり得る。
一部の実施形態では、本明細書の方法は、モザイク現象比に基づいて1人または複数の胎児の性別を分類するステップを含む。試料核酸中のY染色体を有する核酸の分率は、試料核酸中の胎児核酸の分率と比較され得、それにより、比較を提供し、モザイク現象比を生成する。一部の実施形態では、性別は、Y染色体を有する核酸の分率の、胎児核酸の分率に対するモザイク現象比に基づいて、胎児について分類される。例えば、1人または複数の胎児の性別は、Y染色体(またはY染色体の領域)についての分率の、少数派核酸の分率に対する比(例えば、少数派核酸の分率によって除算した、Y染色体(またはY染色体の領域)についての分率)に従って分類され得る。一部の実施形態では、1人または複数の胎児における性別は、Y染色体(またはY染色体の領域)についての胎児分率の、試料核酸についての胎児分率に対する比(例えば、試料核酸についての胎児分率によって除算した、Y染色体(またはY染色体の領域)についての胎児分率)に従って分類され得る。
一部の実施形態では、多胎児妊娠の胎児の性別は、以下に基づいて分類される:(i)Y染色体(またはY染色体の領域)についての分率(例えば、胎児分率)の、少数派核酸(例えば、胎児核酸)の分率に対するモザイク現象比、および(ii)妊娠雌性が身ごもっている胎児の数。
例えば、多胎児妊娠の胎児の性別は、Y染色体(またはY染色体の領域)を有する循環する無細胞核酸の、胎児核酸の分率に対するモザイク現象比の値が、約0.4と0.7との間である場合に、双子を身ごもっている妊娠雌性について、1人の雄性および1人の雌性と分類され得る。あるいは、多胎児妊娠の胎児の性別は、Y染色体(またはY染色体の領域)を有する循環する無細胞核酸の、胎児核酸の分率に対するモザイク現象比の値が、約0.2未満である場合に、双子を身ごもっている妊娠雌性について、両方雌性と分類され得る。あるいは、多胎児妊娠の胎児の性別は、Y染色体(またはY染色体の領域)を有する循環する無細胞核酸の、胎児核酸の分率に対するモザイク現象比の値が、約1.0よりも大きい場合に、双子を身ごもっている妊娠雌性について、両方雄性と分類され得る。あるいは、多胎児妊娠の胎児の性別は、Y染色体(またはY染色体の領域)を有する循環する無細胞核酸の、胎児核酸の分率に対するモザイク現象比の値が、約.12と約0.4との間である場合に、三つ子を身ごもっている妊娠雌性について、1人の雄性および2人の雌性と分類され得る。あるいは、多胎児妊娠の胎児の性別は、Y染色体(またはY染色体の領域)を有する循環する無細胞核酸の、胎児核酸の分率に対するモザイク現象比の値が、約0.1未満である場合に、三つ子を身ごもっている妊娠雌性について、3人の雌性と分類され得る。
図5は、種々の実施形態に従って、生体試料について1人または複数の胎児の性別を分類するためのプロセス500を示す。配列リードのセットが、ブロック505において提供される。配列リードは、多胎児妊娠対象(例えば、複数の胎児を有する妊娠雌性対象)から得られた試験試料由来の循環する無細胞試料核酸から得られ得る。循環する無細胞核酸は、母方核酸および胎児核酸を含み得る。循環する無細胞試料核酸は、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドによって捕捉され得る。さらに、多胎児妊娠対象が身ごもっている胎児の数が得られる。ブロック510において、Y染色体(またはY染色体の領域)が、配列リードのセットから、循環する無細胞核酸において識別される。試料核酸中のY染色体(またはY染色体の領域)を有する循環する無細胞核酸の分率が、ブロック515において決定される。分率は、Y染色体(またはY染色体の領域)について決定された胎児分率であり得る。循環する無細胞試料核酸中の胎児核酸の分率が、ブロック520において決定される。Y染色体(またはY染色体の領域)を有する循環する無細胞核酸の分率が、Y染色体(またはY染色体の領域)を有する循環する無細胞核酸の分率の、胎児核酸の分率に対するモザイク現象比を生成するために、ブロック525において胎児核酸の分率と比較される。1人または複数の胎児の性別が、ブロック530において、モザイク現象比に従って分類され、多胎児妊娠対象が身ごもっている胎児の数が得られる。
試料
核酸を分析するためのシステム、方法および製品が、本明細書で提供される。一部の実施形態では、核酸断片の混合物中の核酸断片が分析される。核酸断片は、核酸鋳型と呼ばれ得、これらの用語は、本明細書で交換可能に使用され得る。核酸の混合物は、同じもしくは異なるヌクレオチド配列、異なる断片長さ、異なる起源(例えば、ゲノム起源、胎児対母方起源、細胞もしくは組織起源、がん対非がん起源、腫瘍対非腫瘍起源、試料起源、対象起源など)、またはそれらの組合せを有する2つまたはそれよりも多くの核酸断片種を含み得る。
本明細書に記載されるシステム、方法および製品において利用される核酸または核酸混合物は、対象(例えば、試験対象)から得られた試料から単離される場合が多い。対象は、ヒト、非ヒト動物、植物、細菌、真菌、原生動物(protest)または病原体が含まれるがこれらに限定されない、任意の生きたまたは生きていない生物であり得る。任意のヒトまたは非ヒト動物が選択され得、それには、例えば、哺乳動物、爬虫類、鳥類、両生類、魚類、有蹄動物、反芻動物、牛(例えば、ウシ)、馬(例えば、ウマ)、山羊および羊(例えば、ヒツジ、ヤギ)、豚(例えば、ブタ)、ラクダ科動物(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(例えば、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚類、イルカ、クジラならびにサメが含まれ得る。対象は、雄性または雌性(例えば、女性、妊娠女性)であり得る。対象は、任意の年齢(例えば、胚、胎児、乳児、小児、成体)であり得る。対象は、がん患者、がんを有すると疑われる患者、寛解状態にある患者、がんの家族歴を有する患者、および/またはがんスクリーニングを受ける対象であり得る。一部の実施形態では、試験対象は、雌性である。一部の実施形態では、試験対象は、多胎児妊娠を有するヒト雌性である。一部の実施形態では、試験対象は、雄性である。一部の実施形態では、試験対象は、ヒト雄性である。
核酸は、任意の型の適切な生体検体または試料(例えば、試験試料)から単離され得る。試料または試験試料は、対象またはその一部(例えば、ヒト対象、妊娠雌性、がん患者、胎児、腫瘍)から単離されたまたは得られた任意の検体であり得る。試料は、時には、妊娠の任意の段階(例えば、ヒト対象については、第1、第2または第3の3か月間)にある胎児を有する妊娠雌性対象由来であり、時には、出生後対象由来である。試料は、時には、全ての染色体について正倍数体である1人または複数の胎児を有する妊娠対象由来であり、時には、染色体異数性(例えば、1、3(即ち、トリソミー(例えば、T21、T18、T13))または4コピーの染色体)または他の遺伝的変異を有する1人または複数の胎児を有する妊娠対象由来である。検体の非限定的な例としては、血液もしくは血液製剤(例えば、血清、血漿など)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄液(例えば、気管支肺胞、胃、腹腔、管、耳、関節鏡)、生検試料(例えば、着床前胚由来;がん生検)、体腔穿刺(celocentesis)試料、細胞(血液細胞、胎盤細胞、胚または胎児細胞、胎児有核細胞または胎児細胞性残余物、正常細胞、異常細胞(例えば、がん細胞))またはそれらの一部(例えば、ミトコンドリア、核、抽出物など)、雌性生殖器官の洗液、尿、糞便、痰、唾液、鼻粘膜、前立腺液、洗浄、精液、リンパ液、胆汁、涙、汗、母乳、乳汁などあるいはそれらの組合せが含まれるがこれらに限定されない、対象由来の流体または組織が挙げられる。一部の実施形態では、生体試料は、対象由来の子宮頸スワブである。核酸がそこから抽出される流体または組織試料は、無細胞性(例えば、無細胞)であり得る。一部の実施形態では、流体または組織試料は、細胞性要素または細胞性残余物を含有し得る。一部の実施形態では、胎児細胞またはがん細胞が、試料中に含まれ得る。
試料は、液体試料であり得る。液体試料は、細胞外核酸(例えば、循環する無細胞DNA)を含み得る。液体試料の非限定的な例としては、血液もしくは血液製剤(例えば、血清、血漿など)、尿、生検試料(例えば、がんの検出のための液体生検)、上記液体試料などまたはそれらの組合せが挙げられる。ある特定の実施形態では、試料は、液体生検であり、これは一般に、疾患(例えば、がん)の存在、非存在、進行または寛解についての、対象由来の液体試料の評価を指す。液体生検は、固体生検(sold biopsy)(例えば、腫瘍生検)と併せて、または固体生検(例えば、腫瘍生検)の代替法として、使用され得る。ある特定の場合には、液体生検中の細胞外核酸が分析される。
一部の実施形態では、生体試料は、血液、血漿または血清であり得る。用語「血液」は、慣例的に定義される、全血、血液製剤または血液の任意の画分、例えば、血清、血漿、バフィーコートなどを包含する。血液またはその画分は、ヌクレオソームを含む場合が多い。ヌクレオソームは、核酸を含み、時には、無細胞または細胞内である。血液は、バフィーコートもまた含む。バフィーコートは、時には、ficoll勾配を利用することによって単離される。バフィーコートは、白血球細胞(例えば、白血球、T細胞、B細胞、血小板など)を含み得る。血漿は、抗凝固剤で処置した血液の遠心分離から得られる全血の画分を指す。血清は、血液試料が凝固した後に残る流体の水性部分を指す。流体または組織試料は、病院またはクリニックが一般に従う標準プロトコールに従って収集される場合が多い。血液について、末梢血の適切な量(例えば、3~40ミリリットルの間、5~50ミリリットルの間)が収集される場合が多く、調製の前または後に、標準手順に従って貯蔵され得る。
対象の血液中で見出される核酸の分析は、例えば、全血、血清または血漿を使用して実施され得る。例えば、母方血液中で見出される胎児DNAの分析は、例えば、全血、血清または血漿を使用して実施され得る。例えば、患者の血液中で見出される腫瘍DNAの分析は、例えば、全血、血清または血漿を使用して実施され得る。対象(例えば、母方対象;がん患者)から得られた血液から血清または血漿を調製するための方法は、公知である。例えば、対象の血液(例えば、妊娠女性の血液;がん患者の血液)は、凝血を防止するために、EDTAを含有する管、または専門の市販製品、例えば、Vacutainer SST(Becton Dickinson、Franklin Lakes、N.J.)中に入れることができ、次いで、血漿が、遠心分離を介して全血から得られ得る。血清は、凝血後の遠心分離ありまたはなしで得られ得る。遠心分離が使用される場合、それは、典型的には、排他的にではないが、適切な速度、例えば、1,500~3,000×gで実施される。血漿または血清は、核酸抽出のために新たな管に移される前に、さらなる遠心分離ステップに供され得る。全血の無細胞性部分に加えて、核酸は、細胞性画分からも回収され得、対象由来の全血試料の遠心分離および血漿の除去の後に得ることができるバフィーコート部分中で富化され得る。
試料は、不均一であり得る。例えば、試料は、1つよりも多くの細胞型および/または1つもしくは複数の核酸種を含み得る。一部の場合には、試料は、(i)胎児細胞および母方細胞、(ii)がん細胞および非がん細胞、ならびに/または(iii)病原性細胞および宿主細胞を含み得る。一部の場合には、試料は、(i)がんおよび非がん核酸、(ii)病原体および宿主核酸、(iii)胎児由来および母方由来核酸、ならびに/またはより一般には、(iv)突然変異したおよび野生型核酸を含み得る。一部の場合には、試料は、以下にさらに詳細に記載されるように、少数派核酸種および多数派核酸種を含み得る。一部の場合には、試料は、単一の対象由来の細胞および/もしくは核酸を含み得、または複数の対象由来の細胞および/もしくは核酸を含み得る。
細胞型
本明細書で使用される場合、「細胞型」は、別の型の細胞から識別することができる細胞の型を指す。細胞外核酸には、いくつかの異なる細胞型由来の核酸が含まれ得る。循環する無細胞核酸に核酸を提供し得る細胞型の非限定的な例としては、肝臓細胞(例えば、肝細胞)、肺細胞、脾臓細胞、膵臓細胞、結腸細胞、皮膚細胞、膀胱細胞、眼細胞、脳細胞、食道細胞、頭部の細胞、頸部の細胞、卵巣の細胞、精巣の細胞、前立腺細胞、胎盤細胞、上皮細胞、内皮細胞、脂肪細胞、腎臓/腎細胞、心臓細胞、筋細胞、血液細胞(例えば、白血球細胞)、中枢神経系(CNS)細胞などおよび上述の組合せが挙げられる。一部の実施形態では、分析される循環する無細胞核酸に核酸を提供する細胞型には、白血球細胞、内皮細胞および肝細胞肝臓細胞が含まれる。異なる細胞型が、本明細書にさらに詳細に記載されるように、医学的状態を有する対象における細胞型および医学的状態を有さない対象における細胞型についてマーカー状態が同じまたは実質的に同じである核酸遺伝子座を識別および選択することの一部として、スクリーニングされ得る。
特定の細胞型は、時には、医学的状態を有する対象および医学的状態を有さない対象において、同じまたは実質的に同じままである。非限定的な例では、特定の細胞型の生きたまたは生存細胞の数は、医学的状態を有する対象において、細胞変性性状態では低減され得、生きた生存細胞は改変されず、または顕著には改変されない。
特定の細胞型は、時には、医学的状態の一部として改変され、その元の状態とは異なる1つまたは複数の特性を有する。非限定的な例では、特定の細胞型は、正常速度よりも速い速度で増殖し得、異なる形態を有する細胞へと変形し得、1つもしくは複数の異なる細胞表面マーカーを発現する細胞へと変形し得、および/またはがん状態の一部として、腫瘍の一部になり得る。特定の細胞型(即ち、前駆細胞)が医学的状態の一部として改変される実施形態では、アッセイされる1つまたは複数のマーカーの各々についてのマーカー状態は、医学的状態を有する対象における特定の細胞型および医学的状態を有さない対象における特定の細胞型について、同じまたは実質的に同じである場合が多い。したがって、用語「細胞型」は、時には、医学的状態を有さない対象における細胞の型、および医学的状態を有する対象における細胞の改変されたバージョンに関する。一部の実施形態では、「細胞型」は、前駆細胞のみであり、前駆細胞から生じる改変されたバージョンではない。「細胞型」は、時には、前駆細胞および前駆細胞から生じる改変された細胞に関する。かかる実施形態では、分析されるマーカーについてのマーカー状態は、医学的状態を有する対象における細胞型および医学的状態を有さない対象における細胞型について、同じまたは実質的に同じである場合が多い。
ある特定の実施形態では、細胞型は、がん細胞である。ある特定のがん細胞型には、例えば、白血病細胞(例えば、急性骨髄性白血病、急性リンパ性白血病、慢性骨髄性白血病、慢性リンパ性白血病);がん性腎臓/腎細胞(例えば、腎細胞がん(明細胞、乳頭1型、乳頭2型、嫌色素性、オンコサイト、集合管)、腎腺癌、グラヴィッツ腫瘍、ウィルムス腫瘍、移行上皮癌);脳腫瘍細胞(例えば、聴神経腫瘍、星細胞腫(グレードI:毛様細胞性星細胞腫、グレードII:低グレード星細胞腫、グレードIII:退形成性星細胞腫、グレードIV:神経膠芽腫(GBM))、脊索腫、cnsリンパ腫、頭蓋咽頭腫、膠腫(脳幹膠腫、上衣腫、混合膠腫、視神経膠腫、上衣下腫)、髄芽細胞腫、髄膜腫、転移性脳腫瘍、乏突起神経膠腫、下垂体腫瘍、未分化神経外胚葉性腫瘍(PNET)、神経鞘腫、若年性毛様細胞性星細胞腫(JPA)、松果体腫瘍、ラブドイド腫瘍)が含まれる。
異なる細胞型は、1つまたは複数の異なる細胞表面マーカー、1つまたは複数の異なる形態学的特色、1つまたは複数の異なる機能、1つまたは複数の異なるタンパク質(例えば、ヒストン)改変および1つまたは複数の異なる核酸マーカーが含まれるがこれらに限定されない、任意の適切な特徴によって識別することができる。核酸マーカーの非限定的な例としては、単一ヌクレオチド多型(SNP)、核酸遺伝子座のメチル化状態、ショートタンデムリピート、挿入(例えば、ミクロ挿入)、欠失(ミクロ欠失)などおよびそれらの組合せが挙げられる。タンパク質(例えば、ヒストン)改変の非限定的な例としては、アセチル化、メチル化、ユビキチン化、リン酸化、SUMO化などおよびそれらの組合せが挙げられる。
本明細書で使用される場合、用語「関連の細胞型」は、別の細胞型と共通する複数の特徴を有する細胞型を指す。関連の細胞型では、75%またはそれよりも多くの細胞表面マーカーが、時には、それらの細胞型に共通する(例えば、細胞表面マーカーの約80%、85%、90%もしくは95%またはそれよりも多くが、関連の細胞型に共通する)。
核酸
核酸を分析するための方法が、本明細書で提供される。用語「核酸」、「核酸分子」、「核酸断片」および「核酸鋳型」は、本開示を通して交換可能に使用され得る。これらの用語は、DNA(例えば、相補DNA(cDNA)、ゲノムDNA(gDNA)など)、RNA(例えば、メッセージRNA(mRNA)、低分子阻害性RNA(siRNA)、リボソームRNA(rRNA)、tRNA、microRNA、胎児または胎盤によって高度に発現されるRNAなど)、および/またはDNAもしくはRNAアナログ(例えば、塩基アナログ、糖アナログおよび/または非ネイティブ骨格などを含有する)、RNA/DNAハイブリッドならびにポリアミド核酸(PNA)などからの、任意の組成の核酸を指し、これらは全て、一本鎖または二本鎖形態であり得、他に限定されない限り、天然に存在するヌクレオチドと類似の様式で機能し得る、天然ヌクレオチドの公知のアナログを包含し得る。核酸は、ある特定の実施形態では、プラスミド、ファージ、ウイルス、細菌、自律複製配列(ARS)、ミトコンドリア、セントロメア、人工染色体、染色体、あるいはin vitroでまたは宿主細胞、細胞、細胞核もしくは細胞の細胞質において複製できるまたは複製され得る他の核酸であり得る、あるいはそれら由来であり得る。鋳型核酸は、一部の実施形態では、単一の染色体由来であり得る(例えば、核酸試料は、二倍体生物から得られた試料のうちの1つの染色体由来であり得る)。特に限定されない限り、この用語は、参照核酸と類似の結合特性を有し、天然に存在するヌクレオチドと類似の様式で代謝される、天然ヌクレオチドの公知のアナログを含有する核酸を包含する。他に示されない限り、特定の核酸配列はまた、その保存的に改変されたバリアント(例えば、縮重コドン置換)、対立遺伝子、オルソログ、単一ヌクレオチド多型(SNP)および相補配列ならびに明示的に示された配列を暗黙に包含する。具体的には、縮重コドン置換は、1つもしくは複数の選択された(または全ての)コドンの3番目の位置が混合塩基および/またはデオキシイノシン残基で置換された配列を生成することによって達成され得る。核酸という用語は、遺伝子座、遺伝子、cDNA、および遺伝子によってコードされるmRNAと交換可能に使用される。この用語には、ヌクレオチドアナログから合成されたRNAまたはDNAの等価物、誘導体、バリアントおよびアナログ、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)および二本鎖ポリヌクレオチドもまた含まれ得る。用語「遺伝子」は、ポリペプチド鎖の産生に関与するDNAの区域を指し、これには、一般に、遺伝子産物の転写/翻訳および転写/翻訳の調節に関与する、コード領域の前および後の領域(リーダーおよびトレーラー)、ならびに個々のコード領域(エクソン)間の介在配列(イントロン)が含まれる。ヌクレオチドまたは塩基は一般に、核酸のプリンおよびピリミジン分子単位(例えば、アデニン(A)、チミン(T)、グアニン(G)およびシトシン(C))を指す。RNAについては、塩基チミンは、ウラシルで置き換えられる。核酸の長さまたはサイズは、塩基の数として表され得る。
核酸は、一本鎖または二本鎖であり得る。例えば、一本鎖DNAは、例えば、加熱によってまたはアルカリでの処置によって二本鎖DNAを変性させることによって生成され得る。ある特定の実施形態では、核酸は、オリゴヌクレオチドまたはDNA様分子、例えばペプチド核酸(PNA)による二重鎖DNA分子のストランド侵入によって形成されるDループ構造である。Dループ形成は、例えば、当該技術分野で公知の方法を使用して、E.Coli RecAタンパク質の添加および/または塩濃度の変更によって促進され得る。
本明細書に記載されるプロセスのために提供される核酸は、1個の試料由来のまたは2個もしくはそれよりも多くの試料由来の(例えば、1個もしくはそれよりも多く、2個もしくはそれよりも多く、3個もしくはそれよりも多く、4個もしくはそれよりも多く、5個もしくはそれよりも多く、6個もしくはそれよりも多く、7個もしくはそれよりも多く、8個もしくはそれよりも多く、9個もしくはそれよりも多く、10個もしくはそれよりも多く、11個もしくはそれよりも多く、12個もしくはそれよりも多く、13個もしくはそれよりも多く、14個もしくはそれよりも多く、15個もしくはそれよりも多く、16個もしくはそれよりも多く、17個もしくはそれよりも多く、18個もしくはそれよりも多く、19個もしくはそれよりも多く、または20個もしくはそれよりも多くの試料由来の)核酸を含有し得る。
核酸は、当該技術分野で公知の方法によって、1つまたは複数の供給源(例えば、生体試料、血液、細胞、血清、血漿、バフィーコート、尿、リンパ液、皮膚、土壌など)から導かれ得る。任意の適切な方法は、生体試料から(例えば、血液または血液製剤から)DNAを単離、抽出および/または精製するために使用され得、その非限定的な例としては、DNA調製の方法(例えば、Sambrook and Russell, Molecular Cloning: A Laboratory Manual 3d ed., 2001によって記載される)、種々の市販の試薬またはキット、例えば、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini KitまたはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、Germany)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)などまたはそれらの組合せが挙げられる。
一部の実施形態では、核酸は、細胞溶解手順を使用して細胞から抽出される。細胞溶解手順および試薬は、当該技術分野で公知であり、化学的方法(例えば、洗剤、低張溶液、酵素的手順などまたはそれらの組合せ)、物理的方法(例えば、フレンチプレス、超音波処理など)または電解溶解方法によって一般に実施され得る。任意の適切な溶解手順が利用され得る。例えば、化学的方法は、一般に、細胞を破壊し細胞から核酸を抽出する溶解剤と、その後のカオトロピック塩での処置とを採用する。物理的方法、例えば、凍結/解凍とその後の粉砕、細胞プレスの使用などもまた、有用である。一部の場合には、高塩および/またはアルカリ溶解手順が利用され得る。
核酸には、ある特定の実施形態では、細胞外核酸が含まれる。用語「細胞外核酸」は、本明細書で使用される場合、細胞を実質的に有さない供給源から単離された核酸を指し得、「無細胞」核酸、「循環する無細胞核酸」(例えば、CCF断片、ccf DNA)および/または「無細胞の循環する核酸」とも呼ばれる。細胞外核酸は、血液(例えば、ヒト対象の血液)中に存在し得、それから得られ得る。細胞外核酸は、検出可能な細胞を含まない場合が多く、細胞性要素または細胞性残余物を含有し得る。細胞外核酸のための無細胞性供給源の非限定的な例は、血液、血漿、血清および尿である。本明細書で使用される場合、用語「無細胞の循環する試料核酸を得る」は、試料を直接得ること(例えば、試料、例えば、試験試料を収集すること)または試料を収集した別の者から試料を得ることを含む。理論に束縛されずに、細胞外核酸は細胞アポトーシスおよび細胞破壊の産物であり得、このことは、細胞外核酸が、あるスペクトルにわたって一連の長さを有する(例えば、「ラダー」)場合が多い理由となる。一部の実施形態では、試験対象由来の試料核酸は、循環する無細胞核酸である。一部の実施形態では、循環する無細胞核酸は、試験対象由来の血漿または血清由来である。
細胞外核酸は、異なる核酸種を含み得、したがって、ある特定の実施形態では、本明細書で「不均一」と呼ばれる。例えば、がんを有する人由来の血清または血漿は、がん細胞(例えば、腫瘍、新生物)由来の核酸および非がん細胞由来の核酸を含み得る。別の例では、妊娠雌性由来の血清または血漿は、母方核酸および胎児核酸を含み得る。一部の場合には、がんまたは胎児核酸は、時には、核酸全体の約5%~約50%である(例えば、総核酸の約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48または49%が、がんまたは胎児核酸である)。
少なくとも2つの異なる核酸種が、細胞外核酸中に異なる量で存在し得、時には、少数派種および多数派種と呼ばれる。ある特定の場合には、少数派種の核酸は、罹患した細胞型(例えば、がん細胞、消耗性細胞、免疫系によって攻撃された細胞)由来である。ある特定の場合には、少数派種の核酸は、アポトーシス細胞由来である(例えば、アポトーシス性胎盤細胞由来の循環する無細胞胎児核酸)。ある特定の実施形態では、遺伝的変異または遺伝的変更(例えば、コピー数変更、コピー数変異、単一ヌクレオチド変更、単一ヌクレオチド変異、染色体変更および/または転座)が、少数派核酸種について決定される。ある特定の実施形態では、遺伝的変異または遺伝的変更は、多数派核酸種について決定される。一般に、用語「少数派」または「多数派」をいかなる点でも厳密に定義することは意図しない。一態様では、例えば、「少数派」とみなされる核酸は、試料中の総核酸の少なくとも約0.1%~試料中の総核酸の50%未満の存在量を有し得る。一部の実施形態では、少数派核酸は、試料中の総核酸の少なくとも約1%~試料中の総核酸の約40%の存在量を有し得る。一部の実施形態では、少数派核酸は、試料中の総核酸の少なくとも約2%~試料中の総核酸の約30%の存在量を有し得る。一部の実施形態では、少数派核酸は、試料中の総核酸少なくとも約3%~試料中の総核酸の約25%の存在量を有し得る。例えば、少数派核酸は、試料中の総核酸の約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%または30%の存在量を有し得る。一部の場合には、細胞外核酸の少数派種は、時には、核酸全体の約1%~約40%である(例えば、核酸の約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%または40%が、少数派種核酸である)。一部の実施形態では、少数派核酸は、細胞外DNAである。一部の実施形態では、少数派核酸は、アポトーシス組織由来の細胞外DNAである。一部の実施形態では、少数派核酸は、細胞増殖性障害に罹患した組織由来の細胞外DNAである。一部の実施形態では、少数派核酸は、腫瘍細胞由来の細胞外DNAである。一部の実施形態では、少数派核酸は、細胞外胎児DNAである。
別の態様では、例えば、「多数派」とみなされる核酸は、試料中の総核酸の50%よりも多く~試料中の総核酸の約99.9%の存在量を有し得る。一部の実施形態では、多数派核酸は、試料中の総核酸の少なくとも約60%~試料中の総核酸の約99%の存在量を有し得る。一部の実施形態では、多数派核酸は、試料中の総核酸の少なくとも約70%~試料中の総核酸の約98%の存在量を有し得る。一部の実施形態では、多数派核酸は、試料中の総核酸の少なくとも約75%~試料中の総核酸の約97%の存在量を有し得る。例えば、多数派核酸は、試料中の総核酸の少なくとも約70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の存在量を有し得る。一部の実施形態では、多数派核酸は、細胞外DNAである。一部の実施形態では、多数派核酸は、細胞外母方DNAである。一部の実施形態では、多数派核酸は、健康な組織由来のDNAである。一部の実施形態では、多数派核酸は、非腫瘍細胞由来のDNAである。
一部の実施形態では、細胞外核酸の少数派種は、約500塩基対またはそれ未満の長さのものである(例えば、少数派種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約500塩基対またはそれ未満の長さのものである)。一部の実施形態では、細胞外核酸の少数派種は、約300塩基対またはそれ未満の長さのものである(例えば、少数派種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約300塩基対またはそれ未満の長さのものである)。一部の実施形態では、細胞外核酸の少数派種は、約250塩基対またはそれ未満の長さのものである(例えば、少数派種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約250塩基対またはそれ未満の長さのものである)。一部の実施形態では、細胞外核酸の少数派種は、約200塩基対またはそれ未満の長さのものである(例えば、少数派種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約200塩基対またはそれ未満の長さのものである)。一部の実施形態では、細胞外核酸の少数派種は、約150塩基対またはそれ未満の長さのものである(例えば、少数派種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約150塩基対またはそれ未満の長さのものである)。一部の実施形態では、細胞外核酸の少数派種は、約100塩基対またはそれ未満の長さのものである(例えば、少数派種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約100塩基対またはそれ未満の長さのものである)。一部の実施形態では、細胞外核酸の少数派種は、約50塩基対またはそれ未満の長さのものである(例えば、少数派種核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%は、約50塩基対またはそれ未満の長さのものである)。
核酸は、核酸を含有する試料(複数可)を処理するステップありまたはなしで本明細書に記載される方法を実施するために提供され得る。一部の実施形態では、核酸は、核酸を含有する試料(複数可)を処理するステップの後に本明細書に記載される方法を実施するために提供される。例えば、核酸は、試料(複数可)から抽出され得、単離され得、精製され得、部分的に精製され得または増幅され得る。用語「単離された」は、本明細書で使用される場合、その元の環境(例えば、それが天然に存在する場合には天然環境、またはそれが外因性に発現される場合には宿主細胞)から取り出された核酸を指し、したがって、その元の環境からヒトの介入(例えば、「人の手による」)によって変更されている。用語「単離された核酸」は、本明細書で使用される場合、対象(例えば、ヒト対象)から取り出された核酸を指し得る。単離された核酸には、供給源試料中に存在する成分の量よりも少ない非核酸成分(例えば、タンパク質、脂質)が提供され得る。単離された核酸を含む組成物は、約50%~99%よりも多く非核酸成分なしでもよい。単離された核酸を含む組成物は、約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%よりも多く非核酸成分なしでもよい。用語「精製された」は、本明細書で使用される場合、その核酸を精製手順に供する前に存在する非核酸成分の量よりも少ない非核酸成分(例えば、タンパク質、脂質、炭水化物)を含有するという条件で、核酸を指し得る。精製された核酸を含む組成物は、約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%よりも多く他の非核酸成分なしでもよい。用語「精製された」は、本明細書で使用される場合、その核酸が由来する試料供給源中よりも少ない核酸種を含有することを条件として、核酸を指し得る。精製された核酸を含む組成物は、約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%よりも多く他の核酸種なしでもよい。例えば、胎児核酸は、母方および胎児核酸を含む混合物から精製され得る。ある特定の例では、胎児核酸の小さい断片(例えば、30~500bpの断片)が、胎児および母方の両方の核酸断片を含む混合物から精製され得るか、または部分的に精製され得る。ある特定の例では、胎児核酸のより小さい断片を含むヌクレオソームが、母方核酸のより大きい断片を含むより大きいヌクレオソーム複合体の混合物から精製され得る。ある特定の例では、がん細胞核酸が、がん細胞および非がん細胞核酸を含む混合物から精製され得る。ある特定の例では、がん細胞核酸の小さい断片を含むヌクレオソームが、非がん核酸のより大きい断片を含むより大きいヌクレオソーム複合体の混合物から精製され得る。一部の実施形態では、核酸は、核酸を含有する試料(複数可)の事前の処理なしに、本明細書に記載される方法を実施するために提供される。例えば、核酸は、事前の抽出、精製、部分的精製および/または増幅なしに、試料から直接分析され得る。
一部の実施形態では、核酸、例えば、細胞核酸などは、本明細書に記載される方法の前、その間またはその後に、剪断または切断される。用語「剪断」または「切断」は、一般に、核酸分子、例えば、核酸鋳型遺伝子分子またはその増幅された産物が、2つ(またはそれよりも多く)のより小さい核酸分子へと分けられ得る、手順または条件を指す。かかる剪断または切断は、配列特異的、塩基特異的または非特異的であり得、例えば、化学的、酵素的、物理的剪断(例えば、物理的断片化)を含む、種々の方法、試薬または条件のいずれかによって達成され得る。剪断または切断された核酸は、約5~約10,000塩基対、約100~約1,000塩基対、約100~約500塩基対、または約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000もしくは9000塩基対のノミナル、平均(average)または平均(mean)長さを有し得る。
剪断または切断された核酸は、適切な方法によって生成され得、その非限定的な例としては、物理的方法(例えば、剪断、例えば、超音波処理、フレンチプレス、熱、UV照射など)、酵素的プロセス(例えば、酵素的切断剤(例えば、適切なヌクレアーゼ、適切な制限酵素、適切なメチル化感受性制限酵素))、化学的方法(例えば、アルキル化、DMS、ピペリジン、酸加水分解、塩基加水分解、熱などまたはそれらの組合せ)、米国特許出願公開第2005/0112590号に記載されるプロセスなどまたはそれらの組合せが挙げられる。得られた核酸断片の平均(average)、平均(mean)またはノミナル長さは、適切な断片生成方法を選択することによって制御され得る。
用語「増幅された」は、本明細書で使用される場合、標的核酸またはその一部と同じまたは実質的に同じヌクレオチド配列を有するアンプリコン核酸を直線的または指数関数的に生成するプロセスに、試料中の標的核酸を供することを指す。ある特定の実施形態では、用語「増幅された」は、ポリメラーゼ連鎖反応(PCR)を含む方法を指す。ある特定の場合には、増幅された産物は、核酸鋳型配列の増幅されたヌクレオチド領域よりも多い1つまたは複数のヌクレオチドを含有し得る(例えば、プライマーは、核酸鋳型遺伝子分子に対して相補的なヌクレオチドに加えて、「余分な」ヌクレオチド、例えば、転写開始配列を含有し得、「余分な」ヌクレオチド、または核酸鋳型遺伝子分子の増幅されたヌクレオチド領域に対応しないヌクレオチドを含有する増幅された産物を生じる)。
核酸はまた、核酸を本明細書に記載される方法に提供する前に、核酸中のある特定のヌクレオチドを改変するプロセスに曝露され得る。例えば、その中のヌクレオチドのメチル化状態に基づいて核酸を選択的に改変するプロセスが、核酸に適用され得る。さらに、高温、紫外線放射、x線放射などの条件が、核酸分子の配列において変化を誘導し得る。核酸は、配列分析を実施するために有用な任意の適切な形態で提供され得る。
核酸を富化する
一部の実施形態では、核酸(例えば、細胞外核酸)は、核酸のサブ集団または種について富化または相対的に富化される。核酸サブ集団は、例えば、胎児核酸、母方核酸、がん核酸、患者核酸、特定の長さもしくは長さの範囲の断片を含む核酸、または特定のゲノム領域(例えば、単一の染色体、染色体のセット、および/またはある特定の染色体領域)由来の核酸を含み得る。かかる富化された試料は、本明細書で提供される方法と併せて使用され得る。したがって、ある特定の実施形態では、技術の方法は、試料中の核酸のサブ集団、例えば、がんまたは胎児核酸などについて富化するさらなるステップを含む。ある特定の実施形態では、がん細胞核酸の分率または胎児分率を決定するための方法もまた、がんまたは胎児核酸について富化するために使用され得る。ある特定の実施形態では、正常組織(例えば、非がん細胞)由来の核酸は、試料から選択的に除去される(部分的に、実質的に、ほぼ完全にまたは完全に)。ある特定の実施形態では、母方核酸は、試料から選択的に除去される(部分的に、実質的に、ほぼ完全にまたは完全に)。ある特定の実施形態では、特定の低コピー数種核酸(例えば、がんまたは胎児核酸)について富化することは、定量的感度を改善し得る。特定の種の核酸について試料を富化するための方法は、例えば、米国特許第6,927,028号、国際特許出願公開番号WO2007/140417号、国際特許出願公開番号WO2007/147063号、国際特許出願公開番号WO2009/032779号、国際特許出願公開番号WO2009/032781号、国際特許出願公開番号WO2010/033639号、国際特許出願公開番号WO2011/034631号、国際特許出願公開番号WO2006/056480号および国際特許出願公開番号WO2011/143659号に記載されており、全てのテキスト、表、等式および図面を含む各々の全内容が、これにより参照により本明細書に組み込まれる。
一部の実施形態では、核酸は、ある特定の標的断片種および/または参照断片種について富化される。ある特定の実施形態では、核酸は、以下に記載される1つまたは複数の長さベースの分離方法を使用して、特定の核酸断片長さまたは断片長さの範囲について富化される。ある特定の実施形態では、核酸は、本明細書に記載されるおよび/または当該技術分野で公知の1つまたは複数の配列ベースの分離方法を使用して、選択されたゲノム領域(例えば、染色体)由来の断片について富化される。
試料中の核酸サブ集団について富化するための方法の非限定的な例としては、核酸種間のエピジェネティック差異を利用する方法(例えば、これにより参照により本明細書に組み込まれる、米国特許出願公開第2010/0105049号に記載されるメチル化ベースの胎児核酸富化方法);制限エンドヌクレアーゼ増強多型配列アプローチ(例えば、これにより参照により本明細書に組み込まれる、米国特許出願公開第2009/0317818号に記載される方法など);選択的酵素分解アプローチ;超並列シグネチャー配列決定(MPSS)アプローチ;増幅(例えば、PCR)ベースのアプローチ(例えば、遺伝子座特異的増幅方法、多重SNP対立遺伝子PCRアプローチ;ユニバーサル増幅方法);プルダウンアプローチ(例えば、ビオチン化ウルトラマー(ultramer)プルダウン方法);伸長およびライゲーションベースの方法(例えば、分子反転プローブ(MIP)の伸長およびライゲーション);ならびにそれらの組合せが挙げられる。
一部の実施形態では、核酸は、本明細書に記載される1つまたは複数の配列ベースの分離方法を使用して、選択されたゲノム領域(例えば、染色体)由来の断片について富化される。配列ベースの分離は、一般に、目的の断片(例えば、標的および/または参照断片)中に存在し、試料の他の断片中には実質的に存在しない、または他の断片中のごく僅かな量(例えば、5%またはそれ未満)で存在する、ヌクレオチド配列に基づく。一部の実施形態では、配列ベースの分離は、分離された標的断片および/または分離された参照断片を生成することができる。分離された標的断片および/または分離された参照断片は、核酸試料中の残りの断片から単離される場合が多い。ある特定の実施形態では、分離された標的断片および分離された参照断片は、互いからも単離される(例えば、別々のアッセイ区画中に単離される)。ある特定の実施形態では、分離された標的断片および分離された参照断片は、一緒に単離される(例えば、同じアッセイ区画中に単離される)。一部の実施形態では、未結合の断片は、差次的に除去または分解または消化され得る。
一部の実施形態では、選択的核酸捕捉プロセスは、標的および/または参照断片を核酸試料から分離するために使用される。市販の核酸捕捉システムとしては、例えば、Nimblegen配列捕捉システム(Roche NimbleGen、Madison、WI);Illumina BEADARRAYプラットフォーム(Illumina、San Diego、CA);Affymetrix GENECHIPプラットフォーム(Affymetrix、Santa Clara、CA);Agilent SureSelect Target Enrichment System(Agilent Technologies、Santa Clara、CA);および関連のプラットフォームが挙げられる。かかる方法には、典型的には、標的または参照断片のヌクレオチド配列の一部または全てへの捕捉オリゴヌクレオチドのハイブリダイゼーションが関与し、これには、固相(例えば、固相アレイ)および/または溶液ベースのプラットフォームの使用が含まれ得る。捕捉オリゴヌクレオチド(時には、「ベイト」と呼ばれる)は、選択されたゲノム領域または遺伝子座(例えば、第21染色体、第18染色体、第13染色体、X染色体もしくはY染色体のうち1つ、または参照染色体)由来の核酸断片にそれらが優先的にハイブリダイズするように、選択または設計され得る。ある特定の実施形態では、ハイブリダイゼーションベースの方法(例えば、オリゴヌクレオチドアレイを使用する)が、ある特定の染色体(例えば、潜在的に異数性の染色体、参照染色体または目的の他の染色体)、遺伝子またはそれらの目的の領域由来の核酸配列について富化するために使用され得る。したがって、一部の実施形態では、核酸試料は、例えば、試料核酸中の選択された遺伝子に対して相補的な捕捉オリゴヌクレオチドを使用して断片のサブセットを捕捉することによって、必要に応じて富化される。ある特定の場合には、捕捉された断片は、増幅される。例えば、アダプターを含有する捕捉された断片は、アダプターオリゴヌクレオチドに対して相補的なプライマーを使用して増幅されて、アダプター配列に従ってインデックス付けされた増幅された断片の収集を形成し得る。一部の実施形態では、核酸は、目的の領域(複数可)またはその一部(複数可)を含有する断片中の配列に対して相補的なオリゴヌクレオチド(例えば、PCRプライマー)を使用する、目的の1つまたは複数の領域の増幅によって、選択されたゲノム領域(例えば、染色体、遺伝子)由来の断片について富化される。
一部の実施形態では、核酸は、1つまたは複数の長さベースの分離方法を使用して、特定の核酸断片長さ、長さの範囲、または特定の閾値もしくはカットオフを下回るもしくは上回る長さについて富化される。核酸断片長さは、典型的には、断片中のヌクレオチドの数を指す。核酸断片長さは、時には、核酸断片サイズとも呼ばれる。一部の実施形態では、長さベースの分離方法は、個々の断片の長さを測定することなしに実施される。一部の実施形態では、長さベースの分離方法は、個々の断片の長さを決定するための方法と併せて実施される。一部の実施形態では、長さベースの分離は、分画されたプールの全てまたは一部が単離(例えば、保持)および/または分析され得るサイズ分画手順を指す。サイズ分画手順は、当該技術分野で公知である(例えば、アレイ上での分離、分子篩による分離、ゲル電気泳動による分離、カラムクロマトグラフィー(例えば、サイズ排除カラム)による分離、および微小流体ベースのアプローチ)。ある特定の場合には、長さベースの分離アプローチとしては、例えば、選択的配列タグ化アプローチ、断片環状化、化学的処置(例えば、ホルムアルデヒド、ポリエチレングリコール(PEG)沈殿)、質量分析および/またはサイズ特異的核酸増幅が挙げられ得る。
核酸定量化
試料中の核酸の量(例えば、濃度、相対量、絶対量、コピー数など)が決定され得る。一部の実施形態では、核酸中の少数派核酸の量(例えば、濃度、相対量、絶対量、コピー数など)が決定される。ある特定の実施形態では、試料中の少数派核酸種の量は、「少数派種分率」と呼ばれる。一部の実施形態では、「少数派種分率」は、対象から得られた試料(例えば、血液試料、血清試料、血漿試料、尿試料)中の循環する無細胞核酸中の少数派核酸種の分率を指す。
細胞外核酸中の少数派核酸の量は、本明細書で提供される方法と併せて定量化および使用され得る。したがって、ある特定の実施形態では、本明細書に記載される方法は、少数派核酸の量を決定するさらなるステップを含む。少数派核酸の量は、試料核酸を調製するための処理の前または後に、対象由来の試料において決定され得る。ある特定の実施形態では、少数派核酸の量は、試料核酸が処理および調製された後に、試料において決定され、この量は、さらなる評価に利用される。一部の実施形態では、アウトカムは、試料核酸中の少数派種分率を分解する(factoring)(例えば、カウントを調整する、試料を除去する、コールを行う、またはコールを行わない)ことを含む。
少数派種分率の決定は、本明細書に記載される方法の前に、その間に、もしくは本明細書に記載される方法中の任意の1つのポイントにおいて、または本明細書に記載されるある特定の方法(例えば、遺伝的変異または遺伝的変更の検出)の後に、実施され得る。例えば、ある特定の感度または特異度を有する遺伝的変異/遺伝的変更決定方法を実施するために、少数派核酸定量化方法が、約2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%よりも多く、またはそれよりも多くの少数派核酸を有するそれらの試料を識別するために、遺伝的変異/遺伝的変更決定と併せて、その前に、その間に、またはその後に実行され得る。一部の実施形態では、ある特定の閾値量の少数派核酸(例えば、約15%またはそれよりも多くの少数派核酸;約4%またはそれよりも多くの少数派核酸)を有すると決定された試料は、例えば、遺伝的変異/遺伝的変更、または遺伝的変異/遺伝的変更の存在もしくは非存在についてさらに分析される。ある特定の実施形態では、例えば、遺伝的変異または遺伝的変更の決定は、ある特定の閾値量の少数派核酸(例えば、約15%またはそれよりも多くの少数派核酸;約4%またはそれよりも多くの少数派核酸)を有する試料についてのみ選択される(例えば、選択され、患者に連絡される)。
一部の実施形態では、核酸中のがん細胞核酸の量(例えば、濃度、相対量、絶対量、コピー数など)が決定される。ある特定の場合には、試料中のがん細胞核酸の量は、「がん細胞核酸の分率」と呼ばれ、時には、「がん分率」または「腫瘍分率」と呼ばれる。一部の実施形態では、「がん細胞核酸の分率」は、対象から得られた試料(例えば、血液試料、血清試料、血漿試料、尿試料)中の循環する無細胞核酸中のがん細胞核酸の分率を指す。
一部の実施形態では、核酸中の胎児核酸の量(例えば、濃度、相対量、絶対量、コピー数など)が決定される。ある特定の実施形態では、試料中の胎児核酸の量は、「胎児分率」と呼ばれる。一部の実施形態では、「胎児分率」は、妊娠雌性から得られた試料(例えば、血液試料、血清試料、血漿試料、尿試料)中の循環する無細胞核酸中の胎児核酸の分率を指す。本明細書に記載されるかまたは当該技術分野で公知の、胎児分率を決定するためのある特定の方法が、がん細胞核酸の分率および/または少数派種分率を決定するために使用され得る。
一部の実施形態では、コピー数変異領域についての分率が決定される。一部の実施形態では、コピー数変異領域についての胎児分率が決定される。一部の実施形態では、少数派核酸の分率が決定される。一部の実施形態では、試料核酸についての胎児分率が決定される。上記分率は、以下に記載される分率(例えば、胎児分率)推定または決定のための方法に従って決定され得る。
ある特定の場合には、胎児分率は、雄性胎児に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS19、DYS385、DYS392マーカー);RhD陰性雌性ではRhDマーカー)、多型配列の対立遺伝子比に従って、または胎児核酸に特異的であるが母方核酸には特異的でない1つもしくは複数のマーカー(例えば、母親と胎児との間での差次的エピジェネティックバイオマーカー(例えば、メチル化)、または母方血漿中の胎児RNAマーカー(例えば、Lo (2005) Journal of Histochemistry and Cytochemistry 53 (3): 293-296を参照のこと))に従って、決定され得る。一部の実施形態では、胎児分率は、Y染色体の適切なアッセイ(例えば、胎児特異的遺伝子座(例えば、雄性妊娠におけるY染色体上のSRY遺伝子座)の量を、定量的リアルタイムPCRを使用することによって母親および胎児の両方に共通する任意の常染色体上の遺伝子座の量と比較することによる(例えば、Lo YM, et al. (1998) Am J Hum Genet 62:768-775))に従って決定される。
胎児分率の決定は、時には、例えば、これにより参照により本明細書に組み込まれる、米国特許出願公開第2010/0105049号に記載される胎児数量アッセイ(fetal quantifier assay)(FQA)を使用して実施される。この型のアッセイは、試料中の核酸のメチル化状態に基づく母方試料中の胎児核酸の検出および定量化を可能にする。ある特定の実施形態では、母方試料由来の胎児核酸の量は、存在する核酸の総量と比較して決定され得、それにより、試料中の胎児核酸のパーセンテージを提供する。ある特定の実施形態では、胎児核酸のコピー数が、母方試料において決定され得る。ある特定の実施形態では、胎児核酸の量は、配列特異的(または部分特異的)様式で、時には、正確な染色体量(chromosomal dosage)分析を可能にするのに(例えば、胎児異数性の存在または非存在を検出するのに)十分な感度で、決定され得る。
胎児数量アッセイ(FQA)は、本明細書に記載される方法のいずれかと併せて実施され得る。かかるアッセイは、当該技術分野で公知のおよび/または米国特許出願公開第2010/0105049号に記載される任意の方法によって、例えば、差次的メチル化状態に基づいて母方核酸を胎児核酸から識別し、胎児核酸を定量化する(即ち、その量を決定する)ことができる方法などによって実施され得る。メチル化状態に基づいて核酸を区別するための方法としては、これらに限定されないが、メチル化感受性捕捉、例えば、MBD2のメチル結合ドメインが抗体のFc断片に融合されたMBD2-Fc断片(MBD-FC)を使用するもの(Gebhard et al. (2006) Cancer Res. 66(12):6118-28);メチル化特異的抗体;バイサルファイト変換方法、例えば、MSP(メチル化感受性PCR)、COBRA、メチル化感受性単一ヌクレオチドプライマー伸長(Ms-SNuPE)またはSequenom MassCLEAVE(商標)技術;およびメチル化感受性制限酵素の使用(例えば、1つまたは複数のメチル化感受性制限酵素を使用した母方試料中の母方核酸の消化により、胎児核酸を富化する)が挙げられる。メチル感受性酵素は、メチル化状態に基づいて核酸を区別するためにも使用され得、この酵素は、例えば、核酸が非メチル化状態である場合に、そのDNA認識配列において優先的にまたは実質的に切断または消化することができる。したがって、メチル化されていないDNA試料は、メチル化されたDNA試料よりも小さい断片へと切断され、高メチル化されたDNA試料は切断されない。明示的に述べられた場合を除き、メチル化状態に基づいて核酸を区別するための任意の方法が、本明細書の組成物および技術の方法と共に使用され得る。胎児核酸の量は、例えば、増幅反応の間に1つまたは複数の競合物を既知の濃度で導入することによって決定され得る。胎児核酸の量の決定は、例えば、RT-PCR、プライマー伸長、配列決定および/またはカウントによっても実施され得る。ある特定の場合には、核酸の量は、米国特許出願公開第2007/0065823号に記載されるBEAMing技術を使用して決定され得る。ある特定の実施形態では、制限効率が決定され得、効率比が、胎児核酸の量をさらに決定するために使用される。
ある特定の実施形態では、少数派種分率は、例えば、これにより参照により本明細書に組み込まれる、米国特許出願公開第2011/0224087号に記載される方法などを使用して、多型配列(例えば、単一ヌクレオチド多型(SNP))の対立遺伝子比に基づいて決定され得る。胎児分率を決定するためのかかる方法では、例えば、ヌクレオチド配列リードが母方試料について得られ、胎児分率は、参照ゲノム中の情報提供的多型部位(例えば、SNP)において第1の対立遺伝子にマッピングされるヌクレオチド配列リードの総数および第2の対立遺伝子にマッピングされるヌクレオチド配列リードの総数を比較することによって決定される。ある特定の実施形態では、胎児対立遺伝子は、例えば、母方核酸による混合物への主要な寄与と比較した場合の、試料中の胎児および母方核酸の混合物へのそれらの比較的軽微な寄与によって識別される。したがって、母方試料中の胎児核酸の相対的存在量は、多型部位の2つの対立遺伝子の各々について参照ゲノム上の標的核酸配列にマッピングされた独自の配列リードの総数のパラメーターとして決定され得る。
少数派種分率は、一部の実施形態では、例えば、これにより参照により本明細書に組み込まれる、国際特許出願公開番号WO2014/055774号に記載される、染色体異常から導出される情報を組み込む方法を使用して決定され得る。少数派種分率は、一部の実施形態では、例えば、それらの各々がこれにより参照により本明細書に組み込まれる、米国特許出願公開第2013/0288244号および米国特許出願公開第2013/0338933号に記載される、性染色体から導出される情報を組み込む方法を使用して決定され得る。
少数派種分率は、一部の実施形態では、断片長さ情報を組み込む方法(例えば、これにより参照により本明細書に組み込まれる、国際特許出願公開番号WO2013/177086号に記載される、断片長さ比(FLR)分析、胎児比統計量(FRS)分析)を使用して決定され得る。無細胞胎児核酸断片は、一般に、母方由来の核酸断片よりも短い(例えば、Chan et al. (2004) Clin. Chem. 50:88-92;Lo et al. (2010) Sci. Transl. Med. 2:61ra91を参照のこと)。したがって、胎児分率は、一部の実施形態では、特定の長さ閾値を下回る断片をカウントし、そのカウントを、例えば、特定の長さ閾値を超える断片からのカウントおよび/または試料中の総核酸の量と比較することによって、決定され得る。特定の長さの核酸断片をカウントするための方法は、国際特許出願公開番号WO2013/177086号にさらに詳細に記載されている。
ある特定の実施形態では、FLRまたはFRSは、選択された断片長さ未満の長さを有するCCF断片由来の部分にマッピングされたリードの量に一部従って決定される。一部の実施形態では、FLRまたはFRS値は、XのYに対する比である場合が多く、ここで、Xは、第1の選択された断片長さ未満の長さを有するCCF断片に由来するリードの量であり、Yは、第2の選択された断片長さ未満の長さを有するCCF断片に由来するリードの量である。第1の選択された断片長さは、第2の選択された断片長さとは無関係に選択される場合が多く、逆もまた然りであり、第2の選択された断片長さは、典型的には、第1の選択された断片長さよりも長い。第1の選択された断片長さは、約200塩基またはそれ未満~約30塩基またはそれ未満であり得る。一部の実施形態では、第1の選択された断片長さは、約200、190、180、170、160、155、150、145、140、135、130、125、120、115、110、105、100、95、90、85、80、75、70、65、60、55または50塩基である。一部の実施形態では、第1の選択された断片長さは、約170~約130塩基であり、時には、約160~約140塩基である。一部の実施形態では、第2の選択された断片長さは、約2000塩基~約200塩基である。ある特定の実施形態では、第2の選択された断片長さは、約1000、950、800、850、800、750、700、650、600、550、500、450、400、350、300、250塩基である。一部の実施形態では、第1の選択された断片長さは、約140~約160塩基(例えば、約150塩基)であり、第2の選択された断片長さは、約500~約700塩基(例えば、約600塩基)である。一部の実施形態では、第1の選択された断片長さは、約150塩基であり、第2の選択された断片長さは、約600塩基である。
少数派種分率は、一部の実施形態では、レベルに従って決定され得る。例えば、胎児分率は、レベル(例えば、罹患した領域についてのレベル;コピー数変異についてのレベル)に従って決定され得る。レベルに従って胎児分率を決定することは、予期されるレベルからのレベルの偏差の絶対値を決定し、偏差の絶対値に2を乗算することを含み得る。予期されるレベルには、1の値が与えられ得、第1または第2のレベルの偏差は、陰性(例えば、欠失またはミクロ欠失について;1未満のレベル)または陽性(例えば、重複またはミクロ重複について;1よりも大きいレベル)であり得る。偏差の大きさは、ある特定の場合には、胎児分率に依存し得る。
一部の実施形態では、少数派種分率(例えば、がん細胞核酸の分率;胎児分率)の決定は、遺伝的変異または遺伝的変更の存在または非存在を識別するために要求されず、必要でもない。一部の実施形態では、遺伝的変異または遺伝的変更の存在または非存在を識別することは、少数派核酸対多数派核酸の配列区別を要求しない。ある特定の実施形態では、これは、特定の染色体、染色体部分またはその一部における少数派および多数派の両方の配列の合計された寄与が分析されるからである。一部の実施形態では、遺伝的変異または遺伝的変更の存在または非存在を識別することは、少数派核酸を多数派核酸から識別する先験的配列情報には依存しない。
部分特異的分率推定
一部の実施形態では、少数派種分率は、部分特異的分率推定に従って決定され得る(例えば、その各々がこれにより参照により本明細書に組み込まれる、国際特許出願公開番号WO2014/205401号およびKim et al. (2015) Prenatal Diagnosis 35:810-815に記載される)。例えば、一部の実施形態では、胎児分率(例えば、試料についての)は、部分特異的胎児分率推定に従って決定され得る。理論に束縛されず、胎児の循環する無細胞(CCF)断片(例えば、特定の長さまたは長さの範囲の断片)からのリードの量は、ある範囲の頻度で、部分にマッピングされる場合が多い(例えば、同じ試料内で、例えば、同じ配列決定実行内で)。また、理論に束縛されず、ある特定の部分は、複数の試料の間で比較した場合、胎児CCF断片(例えば、特定の長さまたは長さの範囲の断片)からのリードの類似の提示を有する傾向があり、この提示は、部分特異的胎児分率(例えば、胎児に起源するCCF断片の相対量、パーセンテージまたは比)と相関する。部分特異的分率推定に従って推定された胎児分率は、本明細書で配列決定ベースの胎児分率(例えば、SeqFF)および/またはビンベースの胎児分率(BFF)と呼ばれ得る。
部分特異的胎児分率推定は、一般に、部分特異的パラメーターおよび胎児分率とのその関係に従って決定される。部分特異的パラメーターは、部分中の特定のサイズ(例えば、サイズ範囲)のCCF断片長さからのリードの量または割合を反映する(例えば、それと相関する)任意の適切なパラメーターであり得る。部分特異的パラメーターは、複数の試料について決定された部分特異的パラメーターの平均(average)、平均(mean)または中央値であり得る。任意の適切な部分特異的パラメーターが使用され得る。部分特異的パラメーターの非限定的な例としては、カウント(例えば、部分にマッピングされた配列リードのカウント;参照ゲノム中の部分にマッピングされた配列リードのカウント)、正規化されたカウント(例えば、部分にマッピングされた配列リードの正規化されたカウント;参照ゲノム中の部分にマッピングされた配列リードの正規化されたカウント)、断片長さ比(FLR)、胎児比統計量(FRS)、選択された断片長さ未満の長さを有するリードの量、ゲノムカバレッジ(即ち、カバレッジ)、マッピング可能性、DNaseI感受性、メチル化状態、アセチル化、ヒストン分布、グアニン-シトシン(GC)含量、クロマチン構造などまたはそれらの組合せが挙げられる。一部の実施形態では、部分特異的パラメーターは、部分特異的様式でFLRおよび/またはFRSと相関する任意の適切なパラメーターであり得る。一部の実施形態では、一部のまたは全ての部分特異的パラメーターは、部分についてのFLRの直接的または間接的提示である。一部の実施形態では、部分特異的パラメーターは、グアニン-シトシン(GC)含量ではない。
一部の実施形態では、部分特異的パラメーターは、CCF断片からのリードの量を提示する、それと相関するまたはそれと比例する任意の適切な値であり、部分にマッピングされたリードは、選択された断片長さ未満の長さを有する。ある特定の実施形態では、部分特異的パラメーターは、部分にマッピングする比較的短いCCF断片(例えば、約200塩基対またはそれ未満、約150塩基対またはそれ未満)に由来するリードの量の提示である。選択された断片長さ未満の長さを有するCCF断片は、比較的短いCCF断片である場合が多く、時には、選択された断片長さは、約200塩基対またはそれ未満である(例えば、約190、180、170、160、150、140、130、120、110、100、90または80塩基長であるCCF断片)。CCF断片の長さまたはCCF断片に由来するリードは、任意の適切な方法(例えば、配列決定方法、ハイブリダイゼーションアプローチ)によって決定(例えば、推論または推察)され得る。一部の実施形態では、CCF断片の長さは、ペアードエンド配列決定方法から得られたリードによって決定(例えば、推論または推察)される。ある特定の実施形態では、CCF断片鋳型の長さは、CCF断片に由来するリード(例えば、シングルエンドリード)の長さから直接決定される。
部分特異的パラメーターは、1つまたは複数の重み係数によって重み付け、調整または変換され得る。一部の実施形態では、重み付け、調整または変換された部分特異的パラメーターは、試料(例えば、試験試料)についての部分特異的胎児分率推定を提供することができる。一部の実施形態では、重み付けまたは調整は、一般に、部分のカウント(例えば、部分にマッピングされたリード)または別の部分特異的パラメーターを、部分特異的胎児分率推定に変換し、かかる変換は、時には、変形とみなされる。
一部の実施形態では、重み係数は、複数の試料(例えば、トレーニングセット)についての胎児分率(例えば、複数の試料から決定された胎児分率)と部分特異的パラメーターとの間の関係を一部記載および/または定義する係数または定数である。一部の実施形態では、重み係数は、複数の胎児分率決定および複数の部分特異的パラメーターについての関係に従って決定される。関係は、1つまたは複数の重み係数によって定義され得、1つまたは複数の重み係数は、関係から決定され得る。一部の実施形態では、重み係数(例えば、1つまたは複数の重み係数)は、(i)複数の試料(例えば、トレーニングセット中の複数の試料)の各々について決定された胎児核酸の分率、および(ii)複数の試料(例えば、トレーニングセット中の複数の試料)についての部分特異的パラメーターに従って、部分についてフィットされた関係から決定される。
重み係数は、任意の適切な係数、推定された係数または適切な関係(例えば、適切な数学的関係、代数的関係、フィットされた関係、回帰、回帰分析、回帰モデル)から導出される定数であり得る。重み係数は、適切な関係に従って決定され得るか、それから導出され得るか、またはそれから推定され得る。一部の実施形態では、重み係数は、フィットされた関係から推定された係数である。複数の試料について関係をフィットさせることは、本明細書で時には、モデルをトレーニングすると呼ばれる。関係性をフィットさせる(例えば、トレーニングセットに対してモデルをトレーニングする)任意の適切なモデルおよび/または方法が使用され得る。使用され得る適切なモデルの非限定的な例としては、回帰モデル、線形回帰モデル、単回帰モデル、通常の最小二乗回帰モデル、重回帰モデル、一般重回帰モデル、多項式回帰モデル、一般線形モデル、一般化線形モデル、離散選択回帰モデル、ロジスティック回帰モデル、多項ロジットモデル、混合ロジットモデル、プロビットモデル、多項プロビットモデル、順序ロジットモデル、順序プロビットモデル、ポアソンモデル、多変量応答回帰モデル、マルチレベルモデル、固定効果モデル、ランダム効果モデル、混合モデル、非線形回帰モデル、ノンパラメトリックモデル、セミパラメトリックモデル、ロバストモデル、分位点モデル、単調(isotonic)モデル、主成分モデル、最小角度モデル、局所モデル、セグメント化モデルおよび変数誤差モデルが挙げられる。一部の実施形態では、フィットされた関係は、回帰モデルではない。一部の実施形態では、フィットされた関係は、決定木モデル、サポートベクターマシンモデルおよびニューラルネットワークモデルから選択される。モデル(例えば、回帰モデル、関係)をトレーニングした結果は、数学的に記載することができる関係である場合が多く、この関係は、1つまたは複数の係数(例えば、重み係数)を含む。例えば、線形最小二乗モデルについて、一般重回帰モデルは、胎児分率値および部分特異的パラメーター(例えば、カバレッジ、例えば、実施例4を参照のこと)を使用してトレーニングされ得、等式(1)によって記載される関係性を生じ、式中、重み係数βは、等式(2)、(3)および(4)においてさらに定義される。より複雑な多変量モデルは、1つ、2つ、3つまたはそれよりも多くの重み係数を決定し得る。一部の実施形態では、モデルは、複数の試料から得られた胎児分率および2つまたはそれよりも多くの部分特異的パラメーター(例えば、係数)(例えば、例えばマトリックスによって複数の試料にフィットされたフィットされた関係性)に従ってトレーニングされる。
重み係数は、適切な方法によって、適切な関係(例えば、適切な数学的関係、代数的関係、フィットされた関係、回帰、回帰分析、回帰モデル)から導出され得る。一部の実施形態では、フィットされた関係は、推定によってフィットされ、その非限定的な例としては、最小二乗、通常の最小二乗、線形、部分的、全(total)、一般化、重み付け、非線形、反復再重み付け、リッジ回帰、最小絶対偏差、ベイズ、ベイズ多変量、縮小ランク、LASSO、Weighted Rank Selection Criteria(WRSC)、Rank Selection Criteria(RSC)、エラスティックネット推定量(例えば、エラスティックネット回帰)およびそれらの組合せが挙げられる。
重み係数は、任意の適切な値を有し得る。一部の実施形態では、重み係数は、約-1×10-2と約1×10-2との間、約-1×10-3と約1×10-3との間、約-5×10-4と約5×10-4との間または約-1×10-4と約1×10-4との間である。一部の実施形態では、複数の試料についての重み係数の分布は、実質的に対称である。複数の試料についての重み係数の分布は、時には、正規分布である。複数の試料についての重み係数の分布は、時には、正規分布ではない。一部の実施形態では、重み係数の分布の幅は、CCF胎児核酸断片からのリードの量に依存する。一部の実施形態では、より高い胎児核酸含量を含む部分は、より大きい係数を生成する(例えば、陽性または陰性、例えば、図19を参照のこと)。重み係数は、ゼロであってもよく、または重み係数は、ゼロよりも大きくてもよい。一部の実施形態では、部分についての重み係数の約70%もしくはそれよりも多く、約75%もしくはそれよりも多く、約80%もしくはそれよりも多く、約85%もしくはそれよりも多く、約90%もしくはそれよりも多く、約95%もしくはそれよりも多く、または約98%もしくはそれよりも多くは、ゼロよりも大きい。
重み係数は、ゲノムの任意の適切な部分について決定され得るか、またはそれに関連し得る。重み係数は、任意の適切な染色体の任意の適切な部分について決定され得るか、またはそれに関連し得る。一部の実施形態では、重み係数は、ゲノム中の一部または全ての部分について決定されるか、またはそれに関連する。一部の実施形態では、重み係数は、ゲノム中の一部または全ての染色体の部分について決定されるか、またはそれに関連する。重み係数は、時には、選択された染色体の部分について決定されるか、またはそれに関連する。重み係数は、1つまたは複数の常染色体の部分について決定され得るか、またはそれに関連し得る。重み係数は、常染色体またはそのサブセット中の部分を含む複数の部分中の部分について決定され得るか、またはそれに関連し得る。一部の実施形態では、重み係数は、性染色体(例えば、X染色体および/またはY染色体)の部分について決定されるか、またはそれに関連する。重み係数は、1つまたは複数の常染色体および1つまたは複数の性染色体の部分について決定され得るか、またはそれに関連し得る。ある特定の実施形態では、重み係数は、全ての常染色体ならびにXおよびY染色体中の複数の部分中の部分について決定されるか、またはそれに関連する。重み係数は、Xおよび/またはY染色体中の部分を含まない複数の部分中の部分について決定され得るか、またはそれに関連し得る。ある特定の実施形態では、重み係数は、染色体が異数性(例えば、全染色体異数性)を含む場合の染色体の部分について決定されるか、またはそれに関連する。ある特定の実施形態では、重み係数は、染色体が異数性ではない(例えば、正倍数体染色体)場合の染色体の部分のみについて決定されるか、またはそれに関連する。重み係数は、第13染色体、第18染色体および/または第21染色体中の部分を含まない複数の部分中の部分について決定され得るか、またはそれに関連し得る。
一部の実施形態では、重み係数は、1つまたは複数の試料(例えば、試料のトレーニングセット)に従って部分について決定される。重み係数は、部分に特異的である場合が多い。一部の実施形態では、1つまたは複数の重み係数は、部分に独立して割り当てられる。一部の実施形態では、重み係数は、複数の試料についての胎児分率決定(例えば、試料特異的胎児分率決定)および複数の試料に従って決定された部分特異的パラメーターについての関係に従って決定される。重み係数は、複数の試料、例えば、約20~約100,000個もしくはそれよりも多く、約100~約100,000個もしくはそれよりも多く、約500~約100,000個もしくはそれよりも多く、約1000~約100,000個もしくはそれよりも多く、または約10,000~約100,000個もしくはそれよりも多くの試料から決定される場合が多い。重み係数は、正倍数体である試料(例えば、正倍数体胎児を含む対象由来の試料、例えば、異数性染色体が存在しない試料)から決定され得る。一部の実施形態では、重み係数は、異数性染色体を含む試料(例えば、正倍数体胎児を含む対象由来の試料)から得られる。一部の実施形態では、重み係数は、正倍数体胎児を有する対象由来およびトリソミー胎児を有する対象由来の複数の試料から決定される。重み係数は、複数の試料から導出され得、これらの試料は、雄性胎児および/または雌性胎児由来である。
胎児分率は、重み係数がそれから導出されるトレーニングセットの1つまたは複数の試料について決定される場合が多い。重み係数がそれから決定される胎児分率は、時には、試料特異的胎児分率決定である。重み係数がそれから決定される胎児分率は、本明細書に記載されるかまたは当該技術分野で公知の任意の適切な方法によって決定され得る。一部の実施形態では、胎児核酸含量(例えば、胎児分率)の決定は、本明細書に記載されるかまたは当該技術分野で公知の適切な胎児数量アッセイ(FQA)を使用して実施され、その非限定的な例としては、雄性胎児に特異的なマーカーに従う、多型配列の対立遺伝子比に基づく、胎児核酸に特異的であるが母方核酸には特異的でない1つもしくは複数のマーカーに従う、メチル化ベースのDNA識別(例えば、A. Nygren, et al., (2010) Clinical Chemistry 56(10):1627-1635)の使用による、競合的PCRアプローチを使用する質量分析方法および/もしくはシステムによる、これにより参照により本明細書に組み込まれる、米国特許出願公開第2010/0105049号に記載される方法によるなど、またはそれらの組合せによる、胎児分率決定が挙げられる。ある特定の場合には、胎児分率は、Y染色体のレベル(例えば、1つまたは複数のゲノム区域レベル、プロファイルのレベル)に一部従って決定される。一部の実施形態では、胎児分率は、Y染色体の適切なアッセイ(例えば、胎児特異的遺伝子座(例えば、雄性妊娠におけるY染色体上のSRY遺伝子座)の量を、定量的リアルタイムPCRを使用することによって母親および胎児の両方に共通する任意の常染色体上の遺伝子座の量と比較することによる(例えば、Lo YM, et al. (1998) Am J Hum Genet 62:768-775))に従って決定される。
部分特異的パラメーター(例えば、試験試料についての)は、1つまたは複数の重み係数(例えば、トレーニングセットから導出された重み係数)によって重み付け、調整または変換され得る。例えば、重み係数は、複数の試料のトレーニングセットについての部分特異的パラメーターおよび胎児分率決定の関係に従って、部分について導出され得る。次いで、試験試料の部分特異的パラメーターは、トレーニングセットから導出された重み係数に従って、調整および/または重み付けされ得る。一部の実施形態では、重み係数がそれから導出される部分特異的パラメーターは、調整または重み付けされる部分特異的パラメーター(例えば、試験試料の)と同じである(例えば、両方のパラメーターがFLRである)。ある特定の実施形態では、重み係数がそれから導出される部分特異的パラメーターは、調整または重み付けされる部分特異的パラメーター(例えば、試験試料の)とは異なる。例えば、重み係数は、試料のトレーニングセットについてのカバレッジ(即ち、部分特異的パラメーター)と胎児分率との間の関係から決定され得、試験試料の部分についてのFLR(即ち、別の部分特異的パラメーター)は、カバレッジから導出された重み係数に従って調整され得る。理論に束縛されずに、部分特異的パラメーター(例えば、試験試料についての)は、時には、各部分特異的パラメーターと共通の部分特異的FLRとの間での関係および/または相関に起因して異なる部分特異的パラメーター(例えば、トレーニングセットの)から導出された重み係数によって調整および/または重み付けおよび/または変換され得る。
部分特異的胎児分率推定は、その部分について決定された重み係数によって、部分特異的パラメーター(例えば、参照ゲノムの部分にマッピングされた配列リードのカウント)を重み付け、調整または変換することによって、試料(例えば、試験試料)について決定され得る。重み付けは、任意の適切な数学的操作を適用することによって、重み係数に従って部分特異的パラメーター(例えば、参照ゲノムの部分にマッピングされた配列リードのカウント)を調整、変換および/または変形することを含み得、その非限定的な例としては、乗算、除算、加算、減算、積分、記号計算、代数的計算、アルゴリズム、三角関数もしくは幾何関数、変換(例えば、フーリエ変換)などまたはそれらの組合せが挙げられる。重み付けは、重み係数、適切な数学的モデル(例えば、実施例4に示されるモデル)に従って、部分特異的パラメーター(例えば、参照ゲノムの部分にマッピングされた配列リードのカウント)を調整、変換および/または変形することを含み得る。
一部の実施形態では、胎児分率は、1つまたは複数の部分特異的胎児分率推定に従って試料について決定される。一部の実施形態では、胎児分率は、1つまたは複数の部分についての部分特異的パラメーター(例えば、参照ゲノムの部分にマッピングされた配列リードのカウント)の重み付け、調整または変換に従って、試料(例えば、試験試料)について決定(例えば、推定)される。ある特定の実施形態では、試験試料についての胎児核酸の分率は、調整されたカウントまたはカウントの調整されたサブセットに基づいて推定される。ある特定の実施形態では、試験試料についての胎児核酸の分率は、部分についての調整されたFLR、調整されたFRS、調整されたカバレッジおよび/または調整されたマッピング可能性に基づいて推定される。一部の実施形態では、約1~約500,000個、約100~約300,000個、約500~約200,000個、約1000~約200,000個、約1500~約200,000個、または約1500~約50,000個の部分特異的パラメーターが、重み付けまたは調整される。
胎児分率(例えば、試験試料についての)は、任意の適切な方法によって、複数の部分特異的胎児分率推定(例えば、同じ試験試料についての)に従って決定され得る。一部の実施形態では、妊娠雌性由来の試験試料中の胎児核酸の分率の推定の精度を増加させるための方法は、1つまたは複数の部分特異的胎児分率推定を決定するステップを含み、試料についての胎児分率の推定は、1つまたは複数の部分特異的胎児分率推定に従って決定される。一部の実施形態では、試料(例えば、試験試料)についての胎児核酸の分率を推定または決定することは、1つまたは複数の部分特異的胎児分率推定を合計することを含む。合計することは、複数の部分特異的胎児分率推定に従って、平均(average)、平均(mean)、中央値、AUCまたは積分値を決定することを含み得る。
一部の実施形態では、妊娠雌性由来の試験試料中の胎児核酸の分率の推定の精度を増加させるための方法は、参照ゲノムの部分にマッピングされた配列リードのカウントを得るステップを含み、この配列リードは、妊娠雌性由来の試験試料由来の循環する無細胞核酸のリードであり、得られたカウントの少なくともサブセットは、ゲノムの別の領域の総カウントと比較した胎児核酸のカウントよりも大きい数の、領域由来の総カウントと比較した胎児核酸から導出されたカウントに寄与する、ゲノムの領域から導出される。一部の実施形態では、胎児核酸の分率の推定は、部分のサブセットに従って決定され、部分のサブセットは、別の部分の胎児核酸のカウントよりも大きい数の、胎児核酸から導出されたカウントがマッピングされる部分に従って選択される。一部の実施形態では、部分のサブセットは、別の部分の非胎児核酸と比較した胎児核酸のカウントよりも大きい数の、非胎児核酸と比較した胎児核酸から導出されたカウントがマッピングされる部分に従って選択される。部分の全てまたはサブセットにマッピングされたカウントは、重み付け、調整または変換され得、それにより、重み付けされたカウント、調整されたカウントまたは変換されたカウントを提供する。重み付け、調整または変換されたカウントは、胎児核酸の分率を推定するために利用され得、カウントは、別の部分の胎児核酸のカウントよりも大きい数の、胎児核酸から導出されたカウントがマッピングされる部分に従って、重み付け、調整または変換され得る。一部の実施形態では、カウントは、別の部分の非胎児核酸と比較した胎児核酸のカウントよりも大きい数の、非胎児核酸と比較した胎児核酸から導出されたカウントがマッピングされる部分に従って重み付けされる。
胎児分率は、試料(例えば、試験試料)についての複数の部分特異的胎児分率推定に従って、試料について決定され得、この部分特異的推定は、ゲノムの任意の適切な領域またはセグメントの部分からである。部分特異的胎児分率推定は、適切な染色体(例えば、1つもしくは複数の選択された染色体、1つもしくは複数の常染色体、性染色体(例えば、X染色体および/またはY染色体)、異数性染色体、正倍数体染色体などまたはそれらの組合せ)の1つまたは複数の部分について決定され得る。一部の実施形態では、胎児分率は、試料(例えば、試験試料)についての複数の部分特異的胎児分率推定に従って、試料について決定され得、この部分特異的推定は、コピー数変異(例えば、異数性、ミクロ重複、ミクロ欠失)を有すると分類された染色体またはその一部の部分からである。部分特異的推定が、コピー数変異を有すると分類された染色体またはその一部の部分からである、試料についての複数の部分特異的胎児分率推定に従って決定された胎児分率は、本明細書で、罹患した分率(affected fraction)(AF)と呼ばれ得る。
部分特異的パラメーター(例えば、参照ゲノムの部分にマッピングされた配列リードのカウント)、重み係数、部分特異的胎児分率推定および/または胎児分率決定は、適切なシステム、機械、装置、非一時的コンピュータ可読記憶媒体(例えば、そこに記憶された実行可能なプログラムを有する)などまたはそれらの組合せによって決定され得る。ある特定の実施形態では、部分特異的パラメーター(例えば、参照ゲノムの部分にマッピングされた配列リードのカウント)、重み係数、部分特異的胎児分率推定および/または胎児分率決定は、1つまたは複数のマイクロプロセッサーおよびメモリを含むシステムまたは機械によって(例えば、一部)決定される。一部の実施形態では、部分特異的パラメーター(例えば、参照ゲノムの部分にマッピングされた配列リードのカウント)、重み係数、部分特異的胎児分率推定および/または胎児分率決定は、そこに記憶された実行可能なプログラムを有する非一時的コンピュータ可読記憶媒体によって(例えば、一部)決定され、このプログラムは、決定を実施するようにマイクロプロセッサーに命令する。
一部の実施形態では、コピー数変異領域についての分率が決定される。一部の実施形態では、コピー数変異領域についての胎児分率が決定される。一部の実施形態では、少数派核酸の分率が決定される。一部の実施形態では、試料核酸についての胎児分率が決定される。上記分率は、本明細書に記載される配列決定ベースの胎児分率推定に従って決定され得る。一部の実施形態では、配列決定ベースの分率(例えば、胎児分率)推定は、(i)参照ゲノムの部分にマッピングされた配列リードのカウントを得るステップであって、配列リードが、対象由来の試料核酸から得られる、ステップ;(ii)各部分に独立して関連する重み係数に従って、各部分にマッピングされた配列リードのカウントを核酸(例えば、胎児核酸)の部分特異的分率に変換し、それにより、重み係数に従って、対象由来の試料核酸について部分特異的分率推定(例えば、胎児分率推定)を提供するステップであって、重み係数の各々が、(1)トレーニングセット中の複数の試料の各々についての核酸(例えば、胎児核酸)の分率と、(2)複数の試料についての各部分にマッピングされた配列リードのカウントとの間の、各部分についてのフィットされた関係から決定されている、ステップ;および(iii)部分特異的分率推定(例えば、胎児分率推定)に基づいて、対象由来の試料核酸についての核酸(例えば、胎児核酸)の分率を推定するステップを含む方法に従って生成される。
コピー数変異領域についての分率を決定するステップについて、部分特異的分率推定は、コピー数変異領域中の各部分に独立して関連する重み係数に従って、コピー数変異領域中の各部分にマッピングされた配列リードのカウントを、核酸の部分特異的分率に変換することによって提供される。コピー数変異領域についての胎児分率を決定するステップについて、部分特異的胎児分率推定は、コピー数変異領域中の各部分に独立して関連する重み係数に従って、コピー数変異領域中の各部分にマッピングされた配列リードのカウントを、核酸の部分特異的胎児分率に変換することによって提供される。
少数派核酸の分率を決定するステップについて、部分特異的分率推定は、各部分に独立して関連する重み係数に従って、複数の領域(例えば、上記コピー数変異領域に限定されない領域;ゲノムにわたる領域)中の各部分にマッピングされた配列リードのカウントを、核酸の部分特異的分率に変換することによって提供される。試料核酸について胎児分率を決定するステップについて、部分特異的胎児分率推定は、各部分に独立して関連する重み係数に従って、複数の領域(例えば、上記コピー数変異領域に限定されない領域;ゲノムにわたる領域)中の各部分にマッピングされた配列リードのカウントを、胎児核酸の部分特異的分率に変換することによって提供される。
核酸ライブラリー
一部の実施形態では、核酸ライブラリーは、特定のプロセスのために調製、アセンブルおよび/または改変された複数のポリヌクレオチド分子(例えば、核酸の試料)であり、このプロセスの非限定的な例としては、固相(例えば、固体支持体、フローセル、ビーズ)上での固定化、富化、増幅、クローニング、検出および/または核酸配列決定が含まれる。ある特定の実施形態では、核酸ライブラリーは、配列決定プロセスの前またはその間に調製される。核酸ライブラリー(例えば、配列決定ライブラリー)は、当該技術分野で公知の適切な方法によって調製され得る。核酸ライブラリーは、標的化または非標的化調製プロセスによって調製され得る。
一部の実施形態では、核酸のライブラリーは、固体支持体への核酸の固定化のために構成された化学的部分(例えば、官能基)を含むように改変される。一部の実施形態では、核酸のライブラリーは、固体支持体へのライブラリーの固定化のために構成された生体分子(例えば、官能基)および/または結合対のメンバーを含むように改変され、その非限定的な例としては、チロキシン結合グロブリン、ステロイド結合タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、リプレッサー、プロテインA、プロテインG、アビジン、ストレプトアビジン、ビオチン、補体成分C1q、核酸結合タンパク質、受容体、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補核酸配列などおよびそれらの組合せが挙げられる。特異的結合対の一部の例としては、これらに限定されないが以下が挙げられる:アビジン部分およびビオチン部分;抗原性エピトープおよび抗体またはその免疫学的に反応性の断片;抗体およびハプテン;ジゴキシゲン部分および抗ジゴキシゲン抗体;フルオレセイン部分および抗フルオレセイン抗体;オペレーターおよびリプレッサー;ヌクレアーゼおよびヌクレオチド;レクチンおよび多糖;ステロイドおよびステロイド結合タンパク質;活性化合物および活性化合物受容体;ホルモンおよびホルモン受容体;酵素および基質;免疫グロブリンおよびプロテインA;オリゴヌクレオチドもしくはポリヌクレオチドおよびその対応する相補体;などまたはそれらの組合せ。
一部の実施形態では、核酸のライブラリーは、既知の組成の1つまたは複数のポリヌクレオチドを含むように改変され、その非限定的な例としては、識別子(例えば、タグ、インデキシングタグ)、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製起点、ステムループ、相補(complimentary)配列(例えば、プライマー結合部位、アニーリング部位)、適切な組込み部位(例えば、トランスポゾン、ウイルス組込み部位)、改変ヌクレオチドなどまたはそれらの組合せが挙げられる。既知の配列のポリヌクレオチドは、適切な位置で、例えば、5’末端上、3’末端上または核酸配列内で付加され得る。既知の配列のポリヌクレオチドは、同じまたは異なる配列であり得る。一部の実施形態では、既知の配列のポリヌクレオチドは、表面(例えば、フローセル中の表面)上に固定化された1つまたは複数のオリゴヌクレオチドにハイブリダイズするように構成される。例えば、5’側の既知の配列を含む核酸分子は、第1の複数のオリゴヌクレオチドにハイブリダイズし得るが、3’側の既知の配列は、第2の複数のオリゴヌクレオチドにハイブリダイズし得る。一部の実施形態では、核酸のライブラリーは、染色体特異的タグ、捕捉配列、標識および/またはアダプターを含み得る。一部の実施形態では、核酸のライブラリーは、1つまたは複数の検出可能な標識を含む。一部の実施形態では、1つまたは複数の検出可能な標識は、5’末端で、3’末端で、および/またはライブラリー中の核酸内の任意のヌクレオチド位置で、核酸ライブラリー中に組み込まれ得る。一部の実施形態では、核酸のライブラリーは、ハイブリダイズしたオリゴヌクレオチドを含む。ある特定の実施形態では、ハイブリダイズしたオリゴヌクレオチドは、標識されたプローブである。一部の実施形態では、核酸のライブラリーは、固相上での固定化の前に、ハイブリダイズしたオリゴヌクレオチドプローブを含む。
一部の実施形態では、既知の配列のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列は、2つもしくはそれよりも多くの核酸分子または核酸分子の2つもしくはそれよりも多くのサブセット中に取り込まれる特異的ヌクレオチド配列であり、ユニバーサル配列は、それが中に取り込まれる全ての分子または分子のサブセットについて同じである。ユニバーサル配列は、ユニバーサル配列に対して相補的な単一のユニバーサルプライマーを使用して複数の異なる配列にハイブリダイズするおよび/またはそれを増幅するように設計される場合が多い。一部の実施形態では、2つ(例えば、1対)またはそれよりも多くのユニバーサル配列および/またはユニバーサルプライマーが使用される。ユニバーサルプライマーは、ユニバーサル配列を含む場合が多い。一部の実施形態では、アダプター(例えば、ユニバーサルアダプター)は、ユニバーサル配列を含む。一部の実施形態では、1つまたは複数のユニバーサル配列は、核酸の複数の種またはサブセットを捕捉、識別および/または検出するために使用される。
核酸ライブラリーを(例えば、ある特定の配列決定では、合成手順によって)調製するある特定の実施形態では、核酸は、数百塩基対またはそれ未満(例えば、ライブラリー生成のための調製において)の長さへとサイズ選択および/または断片化される。一部の実施形態では、ライブラリー調製は、断片化なしに実施される(例えば、無細胞DNAを使用する場合)。
ある特定の実施形態では、ライゲーションベースのライブラリー調製方法が使用される(例えば、ILLUMINA TRUSEQ、Illumina、San Diego CA)。ライゲーションベースのライブラリー調製方法は、初期ライゲーションステップにおいてインデックス配列(例えば、核酸配列について試料の起源を識別するための試料インデックス配列)を組み込み得るアダプター(例えば、メチル化されたアダプター)設計を使用する場合が多く、しばしば、単一リード配列決定、ペアードエンド配列決定および多重化配列決定のために試料を調製するために使用され得る。例えば、核酸(例えば、断片化された核酸または無細胞DNA)は、フィルイン反応、エキソヌクレアーゼ反応またはそれらの組合せによって末端修復され得る。次いで、一部の実施形態では、得られた平滑末端修復された核酸は、アダプター/プライマーの3’末端上の単一ヌクレオチドオーバーハングに対して相補的な単一ヌクレオチド分伸長され得る。任意のヌクレオチドが、伸長/オーバーハングヌクレオチドのために使用され得る。
一部の実施形態では、核酸ライブラリー調製は、アダプターオリゴヌクレオチドを(例えば、試料核酸に、試料核酸断片に、鋳型核酸に)ライゲーションさせることを含む。アダプターオリゴヌクレオチドは、フローセルアンカーに対して相補的である場合が多く、時には、固体支持体、例えば、フローセルの内側表面などに核酸ライブラリーを固定化するために利用される。一部の実施形態では、アダプターオリゴヌクレオチドは、識別子、1つもしくは複数の配列決定プライマーハイブリダイゼーション部位(例えば、ユニバーサル配列決定プライマー、シングルエンド配列決定プライマー、ペアードエンド配列決定プライマー、多重化配列決定プライマーなどに対して相補的な配列)またはそれらの組合せ(例えば、アダプター/配列決定、アダプター/識別子、アダプター/識別子/配列決定)を含む。一部の実施形態では、アダプターオリゴヌクレオチドは、プライマーアニーリングポリヌクレオチド(例えば、フローセル結合したオリゴヌクレオチドおよび/または遊離増幅プライマーへのアニーリングのため)、インデックスポリヌクレオチド(例えば、異なる試料由来の核酸を追跡するための試料インデックス配列;試料IDとも呼ばれる)およびバーコードポリヌクレオチド(例えば、配列決定前に増幅される試料核酸の個々の分子を追跡するための単一分子バーコード(SMB);分子バーコードとも呼ばれる)のうち1つまたは複数を含む。一部の実施形態では、アダプターオリゴヌクレオチドのプライマーアニーリング成分は、1つまたは複数のユニバーサル配列(例えば、1つまたは複数のユニバーサル増幅プライマーに対して相補的な配列)を含む。一部の実施形態では、インデックスポリヌクレオチド(例えば、試料インデックス;試料ID)は、アダプターオリゴヌクレオチドの成分である。一部の実施形態では、インデックスポリヌクレオチド(例えば、試料インデックス;試料ID)は、ユニバーサル増幅プライマー配列の成分である。
一部の実施形態では、アダプターオリゴヌクレオチドは、設計された増幅プライマー(例えば、ユニバーサル増幅プライマー)と組み合わせて使用される場合、ユニバーサル配列、分子バーコード、試料ID配列、スペーサー配列および試料核酸配列のうち1つまたは複数を含むライブラリー構築物を生成する。一部の実施形態では、アダプターオリゴヌクレオチドは、設計されたユニバーサル増幅プライマーと組み合わせて使用される場合、ユニバーサル配列、分子バーコード、試料ID配列、スペーサー配列および試料核酸配列のうち1つまたは複数の順序付けられた組合せを含むライブラリー構築物を生成する。例えば、ライブラリー構築物は、第1のユニバーサル配列、その後の第2のユニバーサル配列、その後の第1の分子バーコード、その後のスペーサー配列、その後の鋳型配列(例えば、試料核酸配列)、その後のスペーサー配列、その後の第2の分子バーコード、その後の第3のユニバーサル配列、その後の試料ID、その後の第4のユニバーサル配列を含み得る。一部の実施形態では、アダプターオリゴヌクレオチドは、設計された増幅プライマー(例えば、ユニバーサル増幅プライマー)と組み合わせて使用される場合、鋳型分子(例えば、試料核酸分子)の各鎖についてライブラリー構築物を生成する。一部の実施形態では、アダプターオリゴヌクレオチドは、二重鎖アダプターオリゴヌクレオチドである。
識別子は、識別子を含む核酸の検出および/または識別を可能にする核酸(例えば、ポリヌクレオチド)中に組み込まれたか、またはそれに結合された適切な検出可能な標識であり得る。一部の実施形態では、識別子は、配列決定方法の間に(例えば、ポリメラーゼによって)核酸中に組み込まれるか、またはそれに結合される。識別子の非限定的な例としては、核酸タグ、核酸インデックスもしくはバーコード、放射能標識(例えば、同位体)、金属標識、蛍光標識、化学発光標識、リン光標識、フルオロフォアクエンチャー、色素、タンパク質(例えば、酵素、抗体またはその一部、リンカー、結合対のメンバー)などまたはそれらの組合せが挙げられる。一部の実施形態では、識別子(例えば、核酸インデックスまたはバーコード)は、ヌクレオチドまたはヌクレオチドアナログの、独自の、既知のおよび/または識別可能な配列である。一部の実施形態では、識別子は、6またはそれよりも多く連続するヌクレオチドである。種々の異なる励起および発光スペクトルを有する多数のフルオロフォアが入手可能である。任意の適切な型および/または数のフルオロフォアが、識別子として使用され得る。一部の実施形態では、1個もしくはそれよりも多くの、2個もしくはそれよりも多くの、3個もしくはそれよりも多くの、4個もしくはそれよりも多くの、5個もしくはそれよりも多くの、6個もしくはそれよりも多くの、7個もしくはそれよりも多くの、8個もしくはそれよりも多くの、9個もしくはそれよりも多くの、10個もしくはそれよりも多くの、20個もしくはそれよりも多くの、30個もしくはそれよりも多くの、または50個もしくはそれよりも多くの異なる識別子が、本明細書に記載される方法(例えば、核酸検出および/または配列決定方法)において利用される。一部の実施形態では、1つまたは2つの型の識別子(例えば、蛍光標識)が、ライブラリー中の各核酸に連結される。識別子の検出および/または定量化は、適切な方法、装置または機械によって実施され得、その非限定的な例としては、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、ルミノメーター、蛍光光度計、分光光度計、適切な遺伝子チップまたはマイクロアレイ分析、ウエスタンブロット、質量分析、クロマトグラフィー、細胞蛍光分析、蛍光顕微鏡、適切な蛍光またはデジタルイメージング方法、共焦点レーザー走査顕微鏡、レーザー走査細胞数測定、親和性クロマトグラフィー、手動バッチモード分離、電場懸濁、適切な核酸配列決定方法および/または核酸配列決定装置など、ならびにそれらの組合せが挙げられる。
一部の実施形態では、トランスポゾンベースのライブラリー調製方法が使用される(例えば、EPICENTRE NEXTERA、Epicentre、Madison、WI)。トランスポゾンベースの方法は、典型的には、単一管反応においてDNAを同時に断片化およびタグ化し(プラットフォーム特異的タグおよび必要に応じたバーコードの組み込みを可能にする場合が多い)、シーケンサーの準備ができたライブラリーを調製するために、in vitro転位を使用する。
一部の実施形態では、核酸ライブラリーまたはその一部が増幅される(例えば、PCRベースの方法によって増幅される)。一部の実施形態では、配列決定方法は、核酸ライブラリーの増幅を含む。核酸ライブラリーは、固体支持体(例えば、フローセル中の固体支持体)上での固定化の前または後に増幅され得る。核酸増幅は、1つまたは複数のコピーの鋳型および/またはその相補体を産生することによって、(例えば、核酸ライブラリー中に)存在する核酸鋳型および/またはその相補体の数を増幅または増加させるプロセスを含む。増幅は、適切な方法によって実施され得る。核酸ライブラリーは、サーモサイクリング方法または等温増幅方法によって増幅され得る。一部の実施形態では、ローリングサークル増幅方法が使用される。一部の実施形態では、増幅は、核酸ライブラリーまたはその部分が固定化される固体支持体(例えば、フローセル内の)上で行われる。ある特定の配列決定方法では、核酸ライブラリーがフローセルに添加され、適切な条件下でのアンカーへのハイブリダイゼーションによって固定化される。この型の核酸増幅は、固相増幅と呼ばれる場合が多い。固相増幅の一部の実施形態では、増幅された産物の全てまたは部分は、固定化されたプライマーから開始する伸長によって合成される。固相増幅反応は、増幅オリゴヌクレオチド(例えば、プライマー)のうち少なくとも1つが固体支持体上に固定化されることを除いて、標準的な液相増幅と類似である。一部の実施形態では、改変された核酸(例えば、アダプターの付加によって改変された核酸)が増幅される。
一部の実施形態では、固相増幅は、表面に固定化された1種のオリゴヌクレオチドプライマーのみを含む核酸増幅反応を含む。ある特定の実施形態では、固相増幅は、複数の異なる固定化されたオリゴヌクレオチドプライマー種を含む。一部の実施形態では、固相増幅は、固体表面上に固定化された1種のオリゴヌクレオチドプライマーおよび溶液中の第2の異なるオリゴヌクレオチドプライマー種を含む核酸増幅反応を含み得る。複数の異なる種の固定化されたまたは溶液ベースのプライマーが使用され得る。固相核酸増幅反応の非限定的な例としては、界面増幅、ブリッジ増幅、エマルジョンPCR、WildFire増幅(例えば、米国特許出願公開第2013/0012399号)などまたはそれらの組合せが含まれる。
核酸捕捉
一部の実施形態では、試料核酸(または試料核酸ライブラリー)は、標的捕捉プロセスに供される。一般に、標的捕捉プロセスは、ハイブリダイゼーション条件下で試料核酸(または試料核酸ライブラリー)をプローブオリゴヌクレオチドのセットと接触させることによって実施される。プローブオリゴヌクレオチド(例えば、捕捉オリゴヌクレオチド)のセットは、一般に、試料核酸中の配列に対して相補的なまたは実質的に相補的な配列を有する複数のプローブオリゴヌクレオチドを含む。複数のプローブオリゴヌクレオチドは、約10個のプローブオリゴヌクレオチド種、約50個のプローブオリゴヌクレオチド種、約100個のプローブオリゴヌクレオチド種、約500個のプローブオリゴヌクレオチド種、約1,000個のプローブオリゴヌクレオチド種、2,000個のプローブオリゴヌクレオチド種、3,000個のプローブオリゴヌクレオチド種、4,000個のプローブオリゴヌクレオチド種、5000個のプローブオリゴヌクレオチド種、10,000個のプローブオリゴヌクレオチド種、またはそれよりも多くを含み得る。一般に、第1のプローブオリゴヌクレオチド種は、第2のプローブオリゴヌクレオチド種とは異なるヌクレオチド配列を有し、セット中の異なる種のプローブオリゴヌクレオチドは各々、異なるヌクレオチド配列を有する。
プローブオリゴヌクレオチドは、典型的には、目的の核酸断片(例えば、標的断片)またはその部分にハイブリダイズまたはアニーリングすることが可能なヌクレオチド配列を含む。プローブオリゴヌクレオチドは、天然に存在するか、または合成であり得、DNAまたはRNAベースであり得る。プローブオリゴヌクレオチドは、例えば、核酸試料中の他の断片からの標的断片の特異的分離を可能にし得る。用語「特異的な」または「特異性」は、本明細書で使用される場合、別の分子への1つの分子の、例えば、標的ポリヌクレオチドに対するオリゴヌクレオチドの、結合またはハイブリダイゼーションを指す。「特異的な」または「特異性」は、2つの分子のいずれかと他の分子との、かなり少ない認識、接触または複合体形成と比較した、それら2つの分子間での認識、接触および安定な複合体の形成を指す。本明細書で使用される場合、用語「アニーリングする」および「ハイブリダイズする」は、2つの分子間での安定な複合体の形成を指す。用語「プローブ」、「プローブオリゴヌクレオチド」、「捕捉プローブ」、「捕捉オリゴヌクレオチド」、「捕捉オリゴ」、「オリゴ」または「オリゴヌクレオチド」は、プローブオリゴヌクレオチドに言及する場合、文書を通して交換可能に使用され得る。
プローブオリゴヌクレオチドは、適切なプロセスを使用して設計および合成され得、目的のヌクレオチド配列にハイブリダイズし、本明細書に記載される分離および/または分析プロセスを実施するのに適切な任意の長さのものであり得る。オリゴヌクレオチドは、目的のヌクレオチド配列(例えば、標的断片配列、ゲノム配列、遺伝子配列)に基づいて設計され得る。オリゴヌクレオチド(例えば、プローブオリゴヌクレオチド)は、一部の実施形態では、約10~約300ヌクレオチド、約50~約200ヌクレオチド、約75~約150ヌクレオチド、約110~約130ヌクレオチド、または約111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128もしくは129ヌクレオチド長であり得る。オリゴヌクレオチドは、天然に存在するおよび/もしくは天然に存在しないヌクレオチド(例えば、標識されたヌクレオチド)、またはそれらの混合物から構成され得る。本明細書に記載される実施形態との使用に適切なオリゴヌクレオチドは、公知の技法を使用して合成および標識され得る。オリゴヌクレオチドは、自動化合成機を使用する、Beaucage and Caruthers (1981) Tetrahedron Letts. 22:1859-1862によって最初に記載された、および/またはNeedham-VanDevanter et al. (1984) Nucleic Acids Res. 12:6159-6168に記載された固相ホスホラミダイトトリエステル法に従って化学的に合成され得る。オリゴヌクレオチドの精製は、例えば、Pearson and Regnier (1983) J. Chrom. 255:137-149に記載されるように、未変性アクリルアミドゲル電気泳動またはアニオン交換高性能液体クロマトグラフィー(HPLC)によってもたらされ得る。
一部の実施形態では、(天然に存在するまたは合成の)プローブオリゴヌクレオチド配列の全てまたは部分は、標的配列またはその部分に対して実質的に相補的であり得る。本明細書で言及される場合、配列に関して「実質的に相補的な」は、互いにハイブリダイズするヌクレオチド配列を指す。ハイブリダイゼーション条件のストリンジェンシーは、変動する量の配列ミスマッチを許容するように変更され得る。互いに55%もしくはそれよりも高く、56%もしくはそれよりも高く、57%もしくはそれよりも高く、58%もしくはそれよりも高く、59%もしくはそれよりも高く、60%もしくはそれよりも高く、61%もしくはそれよりも高く、62%もしくはそれよりも高く、63%もしくはそれよりも高く、64%もしくはそれよりも高く、65%もしくはそれよりも高く、66%もしくはそれよりも高く、67%もしくはそれよりも高く、68%もしくはそれよりも高く、69%もしくはそれよりも高く、70%もしくはそれよりも高く、71%もしくはそれよりも高く、72%もしくはそれよりも高く、73%もしくはそれよりも高く、74%もしくはそれよりも高く、75%もしくはそれよりも高く、76%もしくはそれよりも高く、77%もしくはそれよりも高く、78%もしくはそれよりも高く、79%もしくはそれよりも高く、80%もしくはそれよりも高く、81%もしくはそれよりも高く、82%もしくはそれよりも高く、83%もしくはそれよりも高く、84%もしくはそれよりも高く、85%もしくはそれよりも高く、86%もしくはそれよりも高く、87%もしくはそれよりも高く、88%もしくはそれよりも高く、89%もしくはそれよりも高く、90%もしくはそれよりも高く、91%もしくはそれよりも高く、92%もしくはそれよりも高く、93%もしくはそれよりも高く、94%もしくはそれよりも高く、95%もしくはそれよりも高く、96%もしくはそれよりも高く、97%もしくはそれよりも高く、98%もしくはそれよりも高くまたは99%もしくはそれよりも高く相補的な標的およびオリゴヌクレオチド配列が含まれる。
目的のヌクレオチド配列(例えば、標的配列)またはその部分に対して実質的に相補的なプローブオリゴヌクレオチドは、標的配列またはその関連する部分の相補体(compliment)とも実質的に類似である(例えば、核酸のアンチセンス鎖と実質的に類似)。2つのヌクレオチド配列が実質的に類似であるかどうかを決定するための1つの試験は、共有される同一のヌクレオチド配列のパーセントを決定することである。本明細書で言及される場合、配列に関して「実質的に類似の」は、互いに55%もしくはそれよりも高く、56%もしくはそれよりも高く、57%もしくはそれよりも高く、58%もしくはそれよりも高く、59%もしくはそれよりも高く、60%もしくはそれよりも高く、61%もしくはそれよりも高く、62%もしくはそれよりも高く、63%もしくはそれよりも高く、64%もしくはそれよりも高く、65%もしくはそれよりも高く、66%もしくはそれよりも高く、67%もしくはそれよりも高く、68%もしくはそれよりも高く、69%もしくはそれよりも高く、70%もしくはそれよりも高く、71%もしくはそれよりも高く、72%もしくはそれよりも高く、73%もしくはそれよりも高く、74%もしくはそれよりも高く、75%もしくはそれよりも高く、76%もしくはそれよりも高く、77%もしくはそれよりも高く、78%もしくはそれよりも高く、79%もしくはそれよりも高く、80%もしくはそれよりも高く、81%もしくはそれよりも高く、82%もしくはそれよりも高く、83%もしくはそれよりも高く、84%もしくはそれよりも高く、85%もしくはそれよりも高く、86%もしくはそれよりも高く、87%もしくはそれよりも高く、88%もしくはそれよりも高く、89%もしくはそれよりも高く、90%もしくはそれよりも高く、91%もしくはそれよりも高く、92%もしくはそれよりも高く、93%もしくはそれよりも高く、94%もしくはそれよりも高く、95%もしくはそれよりも高く、96%もしくはそれよりも高く、97%もしくはそれよりも高く、98%もしくはそれよりも高くまたは99%もしくはそれよりも高く同一のヌクレオチド配列を指す。
ハイブリダイゼーション条件(例えば、アニーリング条件)は、アッセイにおいて使用されるオリゴヌクレオチドの特徴に依存して、決定および/または調整され得る。オリゴヌクレオチドの配列および/または長さは、時には、目的の核酸配列へのハイブリダイゼーションに影響を与え得る。オリゴヌクレオチドと目的の核酸との間のミスマッチの程度に依存して、低い、中間のまたは高いストリンジェンシーの条件が、アニーリングをもたらすために使用され得る。本明細書で使用される場合、用語「ストリンジェントな条件」は、ハイブリダイゼーションおよび洗浄のための条件を指す。ハイブリダイゼーション反応の温度条件最適化のための方法は、当該技術分野で公知であり、Current Protocols in Molecular Biology, John Wiley & Sons, N.Y., 6.3.1-6.3.6 (1989)において見出され得る。水性および非水性の方法がこの参考文献に記載されており、いずれかが使用され得る。ストリンジェントなハイブリダイゼーション条件の非限定的な例は、約45℃での6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションと、その後の、50℃での0.2×SSC、0.1%SDS中での1回または複数の洗浄である。ストリンジェントなハイブリダイゼーション条件の別の例は、約45℃での6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションと、その後の、55℃での0.2×SSC、0.1%SDS中での1回または複数の洗浄である。ストリンジェントなハイブリダイゼーション条件のさらなる例は、約45℃での6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションと、その後の、60℃での0.2×SSC、0.1%SDS中での1回または複数の洗浄である。しばしば、ストリンジェントなハイブリダイゼーション条件は、約45℃での6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションと、その後の、65℃での0.2×SSC、0.1%SDS中での1回または複数の洗浄である。よりしばしば、ストリンジェンシー条件は、65℃での0.5Mリン酸ナトリウム、7%SDSと、その後の、65℃での0.2×SSC、1%SDSでの1回または複数の洗浄である。ストリンジェントなハイブリダイゼーション温度は、ある特定の有機溶媒、例えばホルムアミドの添加によっても変更(即ち、低下)され得る。ホルムアミドなどの有機溶媒は、二本鎖ポリヌクレオチドの熱安定性を低減させ、その結果、ハイブリダイゼーションは、ストリンジェントな条件をなおも維持し、熱不安定性であり得る核酸の有用寿命を延長させながら、より低い温度で実施され得る。
一部の実施形態では、1つまたは複数のプローブオリゴヌクレオチドは、アビジン、ストレプトアビジン、抗体または受容体などの捕捉剤に結合することができる、結合対のメンバー(例えば、ビオチン)または抗原などの親和性リガンドと会合する。例えば、プローブオリゴヌクレオチドは、ストレプトアビジンコーティングされたビーズ上にそれが捕捉され得るように、ビオチン化され得る。
一部の実施形態では、1つまたは複数のプローブオリゴヌクレオチドおよび/または捕捉剤は、固体支持体または基材に効果的に連結される。固体支持体または基材は、マイクロアレイおよびウェル、ならびに粒子、例えば、ビーズ(例えば、常磁性ビーズ、磁気ビーズ、マイクロビーズ、ナノビーズ)、マイクロ粒子およびナノ粒子によって提供される表面が含まれるがこれらに限定されない、プローブオリゴヌクレオチドが直接的または間接的に結合され得る、任意の物理的に分離可能な固体であり得る。固体支持体には、例えば、チップ、カラム、光ファイバー、ワイプ、フィルター(例えば、平坦表面フィルター)、1つまたは複数の毛細管、ガラスおよび改変または機能化ガラス(例えば、孔制御ガラス(controlled-pore glass)(CPG))、石英、雲母、ジアゾ化メンブレン(紙またはナイロン)、ポリホルムアルデヒド、セルロース、酢酸セルロース、紙、セラミック、金属、半金属、半導体材料、量子ドット、コーティングされたビーズまたは粒子、他のクロマトグラフィー材料、磁気粒子;プラスチック(アクリル系、ポリスチレン、スチレンまたは他の材料のコポリマー、ポリブチレン、ポリウレタン、TEFLON(登録商標)、ポリエチレン、ポリプロピレン、ポリアミド、ポリエステル、ポリフッ化ビニリデン(PVDF)などを含む)、多糖、ナイロンまたはニトロセルロース、樹脂、シリカ、またはシリコン、シリカゲルおよび改変シリコンを含むシリカベースの材料、Sephadex(登録商標)、Sepharose(登録商標)、炭素、金属(例えば、鋼、金、銀、アルミニウム、シリコンおよび銅)、無機ガラス、導電性ポリマー(ポリピロールおよびポリインドールなどのポリマーを含む);マイクロまたはナノ構造化表面、例えば、核酸タイリング(tiling)アレイ、ナノ管、ナノワイヤ、またはナノ粒状物で修飾された表面;あるいは多孔性表面もしくはゲル、例えば、メタクリレート、アクリルアミド、糖ポリマー、セルロース、シリケート、または他の線維状もしくは鎖状(stranded)ポリマーもまた含まれ得る。一部の実施形態では、固体支持体または基材は、不動態コーティング、またはデキストラン、アクリルアミド、ゼラチンもしくはアガロースなどのポリマーを含むいくつかの材料による化学的に誘導体化されたコーティングを使用してコーティングされ得る。ビーズおよび/または粒子は、遊離であってもよく、または互いに関連していてもよい(例えば、焼結される)。一部の実施形態では、固相は、粒子の収集であり得る。一部の実施形態では、粒子は、シリカを含み得、シリカは、二酸化ケイ素を含み得る。一部の実施形態では、シリカは多孔性であり得、ある特定の実施形態では、シリカは非多孔性であり得る。一部の実施形態では、粒子は、粒子に常磁性特性を付与する薬剤をさらに含む。ある特定の実施形態では、この薬剤は金属を含み、ある特定の実施形態では、この薬剤は、金属酸化物(例えば、鉄または酸化鉄、ここで、酸化鉄は、Fe2+およびFe3+の混合物を含有する)である。プローブオリゴヌクレオチドは、共有結合または非共有結合的相互作用によって固体支持体に連結され得、直接的または間接的に(例えば、仲介剤、例えば、スペーサー分子またはビオチンを介して)固体支持体に連結され得る。プローブオリゴヌクレオチドは、核酸捕捉の前、その間またはその後に、固体支持体に連結され得る。
改変されている核酸、例えば、本明細書に記載されるアダプター配列の付加によって改変された核酸が捕捉され得る。一部の実施形態では、未改変の核酸が捕捉される。核酸は、一部の実施形態では、PCRなどの増幅プロセスによって、捕捉の前および/または後に増幅され得る。用語「捕捉された核酸」は、一般に、捕捉されている核酸を含み、捕捉および増幅されている核酸を含む。捕捉された核酸は、一部の実施形態では、さらなるラウンドの捕捉および増幅に供され得る。捕捉された核酸は、本明細書に記載される配列決定プロセスなどによって配列決定され得る。
核酸の配列決定および処理
本明細書で提供される方法は、一般に、核酸の配列決定および分析を含む。一部の実施形態では、核酸は配列決定され、配列決定産物(例えば、配列リードの収集)は、配列決定された核酸の分析の前にまたはそれと併せて処理される。例えば、配列リードは、以下のうち1つまたは複数に従って処理され得る:アライン、マッピング、部分のフィルタリング、部分の選択、カウント、正規化、重み付け、プロファイルの生成などおよびそれらの組合せ。ある特定の処理するステップは、任意の順序で実施され得、ある特定の処理するステップは、反復され得る。例えば、部分は、フィルタリングされ得、その後配列リードカウント正規化が行われ得、ある特定の実施形態では、配列リードカウントは、正規化され得、その後部分フィルタリングが行われ得る。一部の実施形態では、部分フィルタリングステップの後には、配列リードカウント正規化が続き、その後、さらなる部分フィルタリングステップが続く。ある特定の配列決定方法および処理するステップは、以下にさらに詳細に記載される。
配列決定
一部の実施形態では、核酸(例えば、核酸断片、試料核酸、無細胞核酸)が配列決定される。ある特定の場合には、完全なまたは実質的に完全な配列が得られ、時には、部分的配列が得られる。核酸配列決定は、一般に、配列リードの収集を生成する。本明細書で使用される場合、「リード」(例えば、「リード」、「配列リード」)は、本明細書に記載されるかまたは当該技術分野で公知の任意の配列決定プロセスによって生成された短いヌクレオチド配列である。リードは、核酸断片の一方の末端から生成され得(「シングルエンドリード」)、時には、核酸断片の両方の末端から生成される(例えば、ペアードエンドリード、ダブルエンドリード)。
配列リードの長さは、特定の配列決定技術に関連する場合が多い。ハイスループット方法は、例えば、サイズが数十塩基対(bp)から数百塩基対(bp)まで変動し得る配列リードを提供する。Nanopore配列決定は、例えば、サイズが数十塩基対から数百~数千塩基対まで変動し得る配列リードを提供することができる。一部の実施形態では、配列リードは、約15bp~約900bp長の平均(mean)、中央値、平均(average)または絶対長さのものである。ある特定の実施形態では、配列リードは、約1000bpまたはそれよりも長い平均(mean)、中央値、平均(average)または絶対長さのものである。一部の実施形態では配列リードは、約1500、2000、2500、3000、3500、4000、4500もしくは5000bpまたはそれよりも長い平均(mean)、中央値、平均(average)または絶対長さのものである。一部の実施形態では、配列リードは、約100bp~約200bpの平均(mean)、中央値、平均(average)または絶対長さのものである。一部の実施形態では、配列リードは、約140bp~約160bpの平均(mean)、中央値、平均(average)または絶対長さのものである。例えば、配列リードは、約140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159または160bpの平均(mean)、中央値、平均(average)または絶対長さのものであり得る。
一部の実施形態では、シングルエンドリードのノミナル、平均(average)、平均(mean)または絶対長さは、時には、約10連続する(continuous)ヌクレオチド~約250もしくはそれよりも多く連続するヌクレオチド、約15連続するヌクレオチド~約200もしくはそれよりも多く連続するヌクレオチド、約15連続するヌクレオチド~約150もしくはそれよりも多く連続するヌクレオチド、約15連続するヌクレオチド~約125もしくはそれよりも多く連続するヌクレオチド、約15連続するヌクレオチド~約100もしくはそれよりも多く連続するヌクレオチド、約15連続するヌクレオチド~約75もしくはそれよりも多く連続するヌクレオチド、約15連続するヌクレオチド~約60もしくはそれよりも多く連続するヌクレオチド、15連続するヌクレオチド~約50もしくはそれよりも多く連続するヌクレオチド、約15連続するヌクレオチド~約40もしくはそれよりも多く連続するヌクレオチドであり、時には、約15連続するヌクレオチドまたは約36もしくはそれよりも多く連続するヌクレオチドである。ある特定の実施形態では、シングルエンドリードのノミナル、平均(average)、平均(mean)または絶対長さは、約20~約30塩基、または約24~約28塩基長である。ある特定の実施形態では、シングルエンドリードのノミナル、平均(average)、平均(mean)または絶対長さは、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、21、22、23、24、25、26、27、28もしくは約29塩基長またはそれよりも長い。ある特定の実施形態では、シングルエンドリードのノミナル、平均(average)、平均(mean)または絶対長さは、約20~約200塩基、約100~約200塩基、または約140~約160塩基長である。ある特定の実施形態では、シングルエンドリードのノミナル、平均(average)、平均(mean)または絶対長さは、約30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190もしくは約200塩基長またはそれよりも長い。ある特定の実施形態では、ペアードエンドリードのノミナル、平均(average)、平均(mean)または絶対長さは、時には、約10連続するヌクレオチド~約25連続するヌクレオチドまたはそれよりも長く(例えば、約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24もしくは25ヌクレオチド長またはそれよりも長い)、約15連続するヌクレオチド~約20連続するヌクレオチドまたはそれよりも長く、時には、約17連続するヌクレオチドまたは約18連続するヌクレオチドである。ある特定の実施形態では、ペアードエンドリードのノミナル、平均(average)、平均(mean)または絶対長さは、時には、約25連続するヌクレオチド~約400連続するヌクレオチドまたはそれよりも長い(例えば、約25、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390もしくは400ヌクレオチド長またはそれよりも長い)、約50連続するヌクレオチド~約350連続するヌクレオチドまたはそれよりも長い、約100連続するヌクレオチド~約325連続するヌクレオチド、約150連続するヌクレオチド~約325連続するヌクレオチド、約200連続するヌクレオチド~約325連続するヌクレオチド、約275連続するヌクレオチド~約310連続するヌクレオチド、約100連続するヌクレオチド~約200連続するヌクレオチド、約100連続するヌクレオチド~約175連続するヌクレオチド、約125連続するヌクレオチド~約175連続するヌクレオチドであり、時には、約140連続するヌクレオチド~約160連続するヌクレオチドである。ある特定の実施形態では、ペアードエンドリードのノミナル、平均(average)、平均(mean)または絶対長さは、約150連続するヌクレオチドであり、時には、150連続するヌクレオチドである。
一部の実施形態では、試料から得られたヌクレオチド配列リードは、部分的ヌクレオチド配列リードである。本明細書で使用される場合、「部分的ヌクレオチド配列リード」は、配列曖昧性(ambiguity)とも呼ばれる不完全な配列情報を有する任意の長さの配列リードを指す。部分的ヌクレオチド配列リードは、核酸塩基同一性および/または核酸塩基の位置もしくは順序に関する情報を欠如し得る。部分的ヌクレオチド配列リードは、一般に、唯一の不完全な配列情報が不注意なまたは意図しない配列決定エラー由来である(または塩基の全て未満が配列決定もしくは決定される)配列リードを含まない。かかる配列決定エラーは、ある特定の配列決定プロセスに固有であり得、これには、例えば、核酸塩基同一性についての不正確なコール、および欠けているまたは余分な核酸塩基が含まれる。したがって、本明細書の部分的ヌクレオチド配列リードについて、配列についてのある特定の情報は、意図的に排除される場合が多い。即ち、核酸塩基の全て未満に関する、またはさもなくば配列決定エラーとして特徴付けられ得るもしくは配列決定エラーであり得る配列情報が意図的に得られる。一部の実施形態では、部分的ヌクレオチド配列リードは、核酸断片の一部に及び得る。一部の実施形態では、部分的ヌクレオチド配列リードは、核酸断片の長さ全体に及び得る。部分的ヌクレオチド配列リードは、例えば、国際特許出願公開番号WO2013/052907号に記載されており、全てのテキスト、表、等式および図面を含むその全内容が、これにより参照により本明細書に組み込まれる。
リードは、一般に、物理的核酸中のヌクレオチド配列の提示である。例えば、配列のATGC描写を含有するリードでは、物理的核酸中で、「A」はアデニンヌクレオチドを示し、「T」はチミンヌクレオチドを示し、「G」はグアニンヌクレオチドを示し、「C」はシトシンヌクレオチドを示す。対象由来の試料から得られた配列リードは、少数派核酸および多数派核酸の混合物からのリードであり得る。例えば、がん患者の血液から得られた配列リードは、がん核酸および非がん核酸の混合物からのリードであり得る。別の例では、妊娠雌性の血液から得られた配列リードは、胎児核酸および母方核酸の混合物からのリードであり得る。比較的短いリードの混合物は、本明細書に記載されるプロセスによって、対象中に存在するゲノム核酸の提示、および/または腫瘍もしくは胎児中に存在するゲノム核酸の提示へと変形され得る。ある特定の場合には、比較的短いリードの混合物は、例えば、コピー数変更、遺伝的変異/遺伝的変更または異数性の提示へと変形され得る。一例では、がんおよび非がん核酸の混合物のリードは、がん細胞染色体および非がん細胞染色体の一方または両方の特色を含む複合染色体またはその一部の提示へと変形され得る。別の例では、母方および胎児核酸の混合物のリードは、母方染色体および胎児染色の一方または両方の特色を含む複合染色体またはその一部の提示へと変形され得る。
一部の場合には、がん患者から得られた循環する無細胞核酸断片(CCF断片)は、正常細胞に起源する核酸断片(即ち、非がん断片)およびがん細胞に起源する核酸断片(即ち、がん断片)を含む。正常細胞(即ち、非がん性細胞)に起源するCCF断片から導出された配列リードは、本明細書で「非がんリード」と呼ばれる。がん細胞に起源するCCF断片から導出された配列リードは、本明細書で「がんリード」と呼ばれる。非がんリードがそれから得られるCCF断片は、本明細書で非がん鋳型と呼ばれ得、がんリードがそれから得られるCCF断片は、本明細書でがん鋳型と呼ばれ得る。
一部の場合には、妊娠雌性から得られた循環する無細胞核酸断片(CCF断片)は、胎児細胞に起源する核酸断片(即ち、胎児断片)および母方細胞に起源する核酸断片(即ち、母方断片)を含む。胎児に起源するCCF断片から導出された配列リードは、本明細書で「胎児リード」と呼ばれる。胎児を有する妊娠雌性(例えば、母親)のゲノムに起源するCCF断片から導出された配列リードは、本明細書で「母方リード」と呼ばれる。胎児リードがそれから得られるCCF断片は、本明細書で胎児鋳型と呼ばれ、母方リードがそれから得られるCCF断片は、本明細書で母方鋳型と呼ばれる。
ある特定の実施形態では、対象由来の試料の核酸配列リードを「得る」および/または1人もしくは複数の参照人間由来の生体検体の核酸配列リードを「得る」には、配列情報を得るために核酸を直接配列決定することが関与し得る。一部の実施形態では、「得る」には、別のものによって核酸から直接得られた配列情報を受けることが関与し得る。
一部の実施形態では、試料中の一部または全ての核酸が、配列決定の前またはその間に富化および/または増幅される(例えば、PCRベースの方法などによって非特異的に)。ある特定の実施形態では、試料中の特異的核酸種またはサブセットは、配列決定の前またはその間に富化および/または増幅される。一部の実施形態では、核酸の事前選択されたプールの種またはサブセットは、ランダムに配列決定される。一部の実施形態では、試料中の核酸は、配列決定の前または後に、富化および/または増幅されない。
一部の実施形態では、ゲノムの代表的分率は、配列決定され、時には、「カバレッジ」または「倍のカバレッジ」と呼ばれる。例えば、1倍のカバレッジは、ゲノムのヌクレオチド配列のおおよそ100%がリードによって示されることを示している。一部の場合には、倍のカバレッジは、「配列決定深度」を指す(およびそれに正比例する)。一部の実施形態では、「倍のカバレッジ」は、以前の配列決定実行を参照として参照する相対的な用語である。例えば、第2の配列決定実行は、第1の配列決定実行の2分の1のカバレッジを有し得る。一部の実施形態では、ゲノムは、冗長性を伴って配列決定され、ゲノムの所与の領域は、2つもしくはそれよりも多くのリードまたは重複するリードによってカバーされ得る(例えば、1よりも大きい「倍のカバレッジ」、例えば、2倍のカバレッジ)。一部の実施形態では、ゲノム(例えば、全ゲノム)は、約0.01倍~約100倍のカバレッジ、約0.1倍~20倍のカバレッジ、または約0.1倍~約1倍のカバレッジ(例えば、約0.015、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90倍またはそれよりも大きいカバレッジ)で配列決定される。一部の実施形態では、ゲノムの特異的部分(例えば、標的化された方法および/またはプローブベースの方法からのゲノム部分)が配列決定され、倍のカバレッジ値は、一般に、配列決定された特異的ゲノム部分の分率を指す(即ち、倍のカバレッジ値は、全ゲノムを指さない)。一部の場合には、特異的ゲノム部分は、1000倍またはそれよりも高いカバレッジにおいて配列決定される。例えば、特異的ゲノム部分は、2000倍、5,000倍、10,000倍、20,000倍、30,000倍、40,000倍または50,000倍のカバレッジにおいて配列決定され得る。一部の実施形態では、配列決定は、約1,000倍~約100,000倍のカバレッジにおいてである。一部の実施形態では、配列決定は、約10,000倍~約70,000倍のカバレッジにおいてである。一部の実施形態では、配列決定は、約20,000倍~約60,000倍のカバレッジにおいてである。一部の実施形態では、配列決定は、約30,000倍~約50,000倍のカバレッジにおいてである。
一部の実施形態では、1人の個体由来の1つの核酸試料が配列決定される。ある特定の実施形態では、2つまたはそれよりも多くの試料の各々由来の核酸が配列決定され、これらの試料は、1人の個体由来または異なる個体由来である。ある特定の実施形態では、2つまたはそれよりも多くの生体試料由来の核酸試料がプールされ、各生体試料は、1人の個体または2人もしくはそれよりも多くの個体由来であり、プールが配列決定される。後者の実施形態では、各生体試料由来の核酸試料は、1つまたは複数の独自の識別子によって識別される場合が多い。
一部の実施形態では、配列決定方法は、配列決定プロセスにおける配列反応の多重化を可能にする識別子を利用する。独自の識別子の数が多くなるほど、例えば配列決定プロセスにおいて多重化され得る、検出のための試料および/または染色体の数は多くなる。配列決定プロセスは、任意の適切な数の(例えば、4個、8個、12個、24個、48個、96個またはそれよりも多くの)独自の識別子を使用して実施され得る。
配列決定プロセスは、時には、固相を使用し、時には、固相は、ライブラリー由来の核酸がその上に結合され得、試薬が流され得、結合した核酸と接触され得る、フローセルを含む。フローセルは、時には、フローセルレーンを含み、識別子の使用は、各レーン中のいくつかの試薬の分析を促進する。フローセルは、結合した分析物上に試薬溶液を保持し、および/またはその順序正しい通過を可能にするように構成することができる固体支持体である場合が多い。フローセルは、頻繁に、形状が平面的であり、光学的に透明であり、一般に、ミリメートルまたはサブミリメートルのスケールであり、分析物/試薬相互作用がその中で生じるチャネルまたはレーンを有する場合が多い。一部の実施形態では、所与のフローセルレーン中の分析される試料の数は、ライブラリー調製および/またはプローブ設計の間に利用される独自の識別子の数に依存する。12個の識別子を使用する多重化は、例えば、8レーンのフローセルにおける96個の試料(例えば、96ウェルのマイクロウェルプレート中のウェルの数と等しい)の同時分析を可能にする。同様に、48個の識別子を使用する多重化は、例えば、8レーンのフローセルにおける384個の試料(例えば、384ウェルのマイクロウェルプレート中のウェルの数と等しい)の同時分析を可能にする。市販の多重配列決定キットの非限定的な例としては、Illuminaの多重化試料調製オリゴヌクレオチドキットならびに多重化配列決定プライマーおよびPhiXコントロールキット(例えば、それぞれ、Illuminaのカタログ番号PE-400-1001およびPE-400-1002)が挙げられる。
核酸を配列決定する任意の適切な方法が使用され得、その非限定的な例としては、Maxim&Gilbert、鎖終結方法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡ベースの技法などまたはそれらの組合せが挙げられる。一部の実施形態では、第1世代の技術、例えば、微小流体Sanger配列決定を含む自動化Sanger配列決定方法を含むSanger配列決定方法などが、本明細書で提供される方法において使用され得る。一部の実施形態では、核酸イメージング技術(例えば、透過電子顕微鏡(TEM)および原子間力顕微鏡(AFM))の使用を含む配列決定技術が使用され得る。一部の実施形態では、ハイスループット配列決定方法が使用される。ハイスループット配列決定方法には、一般に、時にはフローセル内で超並列形式で配列決定されるクローン性に増幅されたDNA鋳型または単一のDNA分子が関与する。超並列形式でDNAを配列決定することが可能な次世代(例えば、第2および第3世代)配列決定技法が、本明細書に記載される方法のために使用され得、本明細書で集合的に「超並列配列決定」(MPS)と呼ばれる。一部の実施形態では、MPS配列決定方法は、標的化されたアプローチを利用し、目的の特異的染色体、遺伝子または領域が配列決定される。ある特定の実施形態では、試料中のほとんどまたは全ての核酸が配列決定、増幅および/またはランダムに捕捉される、非標的化されたアプローチが使用される。
一部の実施形態では、標的化された富化、増幅および/または配列決定アプローチが使用される。標的化されたアプローチは、配列特異的オリゴヌクレオチドの使用によって、さらなる処理のために試料中の核酸のサブセットを単離、選択および/または富化する場合が多い。一部の実施形態では、配列特異的オリゴヌクレオチドのライブラリーは、試料中の核酸の1つまたは複数のセットを標的化する(例えば、それにハイブリダイズする)ために利用される。配列特異的オリゴヌクレオチドおよび/またはプライマーは、目的の1つまたは複数の染色体、遺伝子、エクソン、イントロンおよび/または調節領域中に存在する特定の配列(例えば、独自の核酸配列)について選択的である場合が多い。任意の適切な方法または方法の組合せが、標的化された核酸の1つまたは複数のサブセットの富化、増幅および/または配列決定のために使用され得る。一部の実施形態では、標的化された配列は、1つまたは複数の配列特異的アンカーを使用する固相(例えば、フローセル、ビーズ)への捕捉によって単離および/または富化される。一部の実施形態では、標的化された配列は、配列特異的プライマーおよび/またはプライマーセットを使用するポリメラーゼベースの方法(例えば、任意の適切なポリメラーゼベースの伸長によるPCRベースの方法)によって富化および/または増幅される。しばしば、配列特異的アンカーが、配列特異的プライマーとして使用され得る。
MPS配列決定は、時には、合成による配列決定およびある特定のイメージングプロセスを使用する。本明細書に記載される方法において使用され得る核酸配列決定技術は、合成による配列決定および可逆的ターミネーターベースの配列決定(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ 2500(Illumina、San Diego CA))である。この技術を用いると、数百万個の核酸(例えば、DNA)断片を、並行して配列決定することができる。この型の配列決定技術の一例では、その表面上にオリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合した8個の個々のレーンを有する光学的に透明なスライドを含有するフローセルが使用される。
合成による配列決定は、一般に、ヌクレオチドをプライマーまたは既存の核酸鎖に鋳型依存的様式で反復して付加する(例えば、共有結合的付加によって)ことによって実施される。ヌクレオチドの各反復付加は検出され、このプロセスは、核酸鎖の配列が得られるまで複数回反復される。得られた配列の長さは、実施される付加および検出のステップの数に一部依存する。合成による配列決定の一部の実施形態では、同じ型(例えば、A、G、CまたはT)の1個、2個、3個またはそれよりも多くのヌクレオチドが、1ラウンドのヌクレオチド付加において付加および検出される。ヌクレオチドは、任意の適切な方法によって(例えば、酵素的にまたは化学的に)付加され得る。例えば、一部の実施形態では、ポリメラーゼまたはリガーゼが、ヌクレオチドをプライマーまたは既存の核酸鎖に鋳型依存的様式で付加する。合成による配列決定の一部の実施形態では、異なる型のヌクレオチド、ヌクレオチドアナログおよび/または識別子が使用される。一部の実施形態では、可逆的ターミネーターおよび/または除去可能な(例えば、切断可能な)識別子が使用される。一部の実施形態では、蛍光標識されたヌクレオチドおよび/またはヌクレオチドアナログが使用される。ある特定の実施形態では、合成による配列決定は、切断(例えば、識別子の切断および除去)および/または洗浄ステップを含む。一部の実施形態では、1つまたは複数のヌクレオチドの付加は、本明細書に記載されるかまたは当該技術分野で公知の適切な方法によって検出され、その非限定的な例としては、任意の適切なイメージング装置、適切なカメラ、デジタルカメラ、CCD(電荷結合素子(Charge Couple Device))ベースのイメージング装置(例えば、CCDカメラ)、CMOS(相補型金属酸化膜シリコン(Complementary Metal Oxide Silicon))ベースのイメージング装置(例えば、CMOSカメラ)、光ダイオード(例えば、光電子増倍管)、電子顕微鏡、電界効果トランジスタ(例えば、DNA電界効果トランジスタ)、ISFETイオンセンサー(例えば、CHEMFETセンサー)などまたはそれらの組合せが含まれる。
本明細書に記載される方法を実施するための任意の適切なMPSの方法、システムまたは技術プラットフォームが、核酸配列リードを得るために使用され得る。MPSプラットフォームの非限定的な例としては、Illumina/Solex/HiSeq(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ)、SOLiD、Roche/454、PACBIOおよび/もしくはSMRT、Helicos True Single Molecule Sequencing、Ion TorrentおよびIon半導体ベースの配列決定(例えば、Life Technologiesによって開発された)、WildFire、5500、5500xl Wおよび/もしくは5500xl W Genetic Analyzerベースの技術(例えば、Life Technologiesによって開発および販売される、米国特許出願公開第2013/0012399号);Polony配列決定、パイロシーケンシング、超並列シグネチャー配列決定(MPSS)、RNAポリメラーゼ(RNAP)配列決定、LaserGenのシステムおよび方法、Nanoporeベースのプラットフォーム、化学感受性電界効果トランジスタ(chemical-sensitive field effect transistor)(CHEMFET)アレイ、電子顕微鏡ベースの配列決定(例えば、ZS Genetics、Halcyon Molecularによって開発された)、nanoball配列決定などまたはそれらの組合せが含まれる。本明細書の方法を実施するために使用され得る他の配列決定方法には、デジタルPCR、ハイブリダイゼーションによる配列決定、nanopore配列決定、染色体特異的配列決定(例えば、DANSR(選択された領域のデジタル分析)技術を使用する)が含まれる。
一部の実施形態では、配列リードは、配列モジュールによって生成され、得られ、集められ、アセンブルされ、操作され、変形され、処理されおよび/または提供される。配列モジュールを含む機械は、当該技術分野で公知の配列決定技術を利用して核酸の配列を決定する適切な機械および/または装置であり得る。一部の実施形態では、配列モジュールは、アライン、アセンブル、断片化、補完、逆補完および/またはエラーチェック(例えば、エラー訂正配列リード)することができる。
リードをマッピングする
配列リードは、マッピングされ得、特定された核酸領域(例えば、染色体またはその部分)にマッピングするリードの数は、カウントと呼ばれる。任意の適切なマッピング方法(例えば、プロセス、アルゴリズム、プログラム、ソフトウェア、モジュールなどまたはそれらの組合せ)が使用され得る。マッピングプロセスのある特定の態様が、本明細書で以下に記載される。
ヌクレオチド配列リード(即ち、その物理的ゲノム位置が未知である断片からの配列情報)をマッピングすることは、いくつかの方法で実施され得、得られた配列リードの、参照ゲノム中のマッチする配列とのアラインメントを含む場合が多い。かかるアラインメントでは、配列リードは、一般に、参照配列に対してアラインされ、そのアラインは、「マッピングされた」、「マッピングされた配列リード」または「マッピングされたリード」であると称される。ある特定の実施形態では、マッピングされた配列リードは、「ヒット」または「カウント」と呼ばれる。一部の実施形態では、マッピングされた配列リードは、種々のパラメーターに従って一緒にグループ分けされ、特定のゲノム部分に割り当てられるが、これは、以下でさらに詳細に考察される。
用語「アラインされた」、「アラインメント」または「アラインする」は、一般に、マッチ(例えば、100%の同一性)または部分的マッチとして識別され得る2つまたはそれよりも多くの核酸配列を指す。アラインメントは、手動でまたはコンピュータ(例えば、ソフトウェア、プログラム、モジュールまたはアルゴリズム)によって実施され得、その非限定的な例としては、Illumina Genomics Analysisパイプラインの一部として配布されるEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムが挙げられる。配列リードのアラインメントは、100%配列マッチであり得る。一部の場合には、アラインメントは、100%未満の配列マッチ(即ち、非完全マッチ、部分的マッチ、部分的アラインメント)である。一部の実施形態では、アラインメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%または75%のマッチである。一部の実施形態では、アラインメントは、ミスマッチを含む。一部の実施形態では、アラインメントは、1個、2個、3個、4個または5個のミスマッチを含む。2つまたはそれよりも多くの配列は、いずれかの鎖(例えば、センスまたはアンチセンス鎖)を使用してアラインされ得る。ある特定の実施形態では、核酸配列は、別の核酸配列の逆相補体とアラインされる。
種々の計算的方法が、各配列リードを部分にマッピングするために使用され得る。配列をアラインするために使用され得るコンピュータアルゴリズムの非限定的な例としては、これらに限定されないが、BLAST、BLITZ、FASTA、BOWTIE1、BOWTIE2、ELAND、MAQ、PROBEMATCH、SOAP、BWAもしくはSEQMAP、またはそれらの変形形態もしくはそれらの組合せが挙げられる。一部の実施形態では、配列リードは、参照ゲノム中の配列とアラインされ得る。一部の実施形態では、配列リードは、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)およびDDBJ(DNA Databank of Japan)を含む当該技術分野で公知の核酸データベース中の配列を用いて見出され得、および/またはそれとアラインされ得る。BLASTまたは類似のツールが、識別された配列を配列データベースに対して検索するために使用され得る。次いで、検索ヒットが、例えば、識別された配列を適切な部分(本明細書で以下に記載される)へと選別するために使用され得る。
一部の実施形態では、リードは、参照ゲノム中の部分に独自にまたは非独自にマッピングし得る。リードは、それが参照ゲノム中の単一の配列とアラインする場合、「独自にマッピングされた」とみなされる。リードは、それが参照ゲノム中の2つまたはそれよりも多くの配列とアラインする場合、「非独自にマッピングされた」とみなされる。一部の実施形態では、非独自にマッピングされたリードは、さらなる分析(例えば、定量化)から除外される。ある特定の実施形態では、ある特定の小さい程度のミスマッチ(0~1)は、参照ゲノムと、マッピングされている個々の試料からのリードとの間に存在し得る単一ヌクレオチド多型に相当し得る。一部の実施形態では、ミスマッチの程度がないと、リードが参照配列にマッピングされることが可能になる。
本明細書で使用される場合、用語「参照ゲノム」は、部分的であれ完全であれ、対象由来の識別された配列に言及するために使用され得る任意の生物またはウイルスの、任意の特定の既知の、配列決定されたまたは特徴付けられたゲノムを指し得る。例えば、ヒト対象および多くの他の生物について使用される参照ゲノムは、ワールドワイドウェブのURL ncbi.nlm.nih.govでのNational Center for Biotechnology Informationにおいて見出すことができる。「ゲノム」は、核酸配列中に発現される、生物またはウイルスの完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、1人の個体または複数の個体由来のアセンブルされたまたは部分的にアセンブルされたゲノム配列である場合が多い。一部の実施形態では、参照ゲノムは、1人または複数のヒト個体由来のアセンブルされたまたは部分的にアセンブルされたゲノム配列である。一部の実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。
ある特定の実施形態では、マッピング可能性は、ゲノム領域(例えば、部分、ゲノム部分)について評価される。マッピング可能性は、典型的には、例えば、0個、1個、2個またはそれよりも多くのミスマッチを含む特定された数のミスマッチまで、ヌクレオチド配列リードを参照ゲノムの部分に一義的にアラインする能力である。所与のゲノム領域について、予期されるマッピング可能性は、プリセットリード長さのスライディングウインドウアプローチを使用し、得られたリードレベルでのマッピング可能性値を平均して、推定され得る。独自のヌクレオチド配列のストレッチを含むゲノム領域は、時には、高いマッピング可能性値を有する。
ペアードエンド配列決定について、リードは、適切なマッピングおよび/またはアラインメントプログラムの使用によって参照ゲノムにマッピングされ得、その非限定的な例としては、BWA(Li H. and Durbin R. (2009)Bioinformatics 25, 1754-60)、Novoalign[Novocraft (2010)]、Bowtie(Langmead B, et al., (2009) Genome Biol. 10:R25)、SOAP2(Li R, et al., (2009) Bioinformatics 25, 1966-67)、BFAST(Homer N, et al., (2009) PLoS ONE 4, e7767)、GASSST(Rizk, G. and Lavenier, D. (2010) Bioinformatics 26, 2534-2540)およびMPscan(Rivals E., et al. (2009) Lecture Notes in Computer Science 5724, 246-260)などが挙げられる。ペアードエンドリードは、適切な短いリードアラインメントプログラムを使用してマッピングおよび/またはアラインされ得る。短いリードアラインメントプログラムの非限定的な例としては、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、BWA、CASHX、CUDA-EC、CUSHAW、CUSHAW2、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP、Geneious Assembler、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOSAIK、MPscan、Novoalign、NovoalignCS、Novocraft、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、TimeLogic、XpressAlign、ZOOMなどまたはそれらの組合せが挙げられる。ペアードエンドリードは、参照ゲノムに従って、同じポリヌクレオチド断片の対向する末端にマッピングされる場合が多い。一部の実施形態では、リードメイトは、独立してマッピングされる。一部の実施形態では、両方の配列リードからの(即ち、各末端からの)情報は、マッピングプロセスにおいて分解(factor)される。参照ゲノムは、ペアードエンドリードメイト間に位置する核酸の配列を決定および/または推察するために使用される場合が多い。用語「不調和なリード対」は、本明細書で使用される場合、リードメイトの対を含むペアードエンドリードを指し、このとき、一方または両方のリードメイトは、連続するヌクレオチドのセグメントによって一部定義された参照ゲノムの同じ領域に一義的にマッピングされることができない。一部の実施形態では、不調和なリード対は、参照ゲノムの予期せぬ場所にマッピングされるペアードエンドリードメイトである。参照ゲノムの予期せぬ場所の非限定的な例としては、以下が挙げられる:(i)2つの異なる染色体、(ii)所定の断片サイズよりも長い(例えば、300bpよりも長い、500bpよりも長い、1000bpよりも長い、5000bpよりも長い、または10,000bpよりも長い)距離分分離された場所、(iii)参照配列と一致しない配向(例えば、対向する配向)などまたはそれらの組合せ。一部の実施形態では、不調和なリードメイトは、試料中の鋳型ポリヌクレオチド断片の長さ(例えば、平均(average)長さ、所定の断片サイズ)または予期される長さに従って識別される。例えば、試料中のポリヌクレオチド断片の平均(average)長さまたは予期される長さよりも長い距離分分離された場所にマッピングするリードメイトは、時には、不調和なリード対として識別される。対向する配向でマッピングするリード対は、時には、リードのうちの1つの逆相補体を選び、参照配列の同じ鎖を使用して両方のリードのアラインメントを比較することによって決定される。不調和なリード対は、当該技術分野で公知のまたは本明細書に記載される任意の適切な方法および/またはアルゴリズム(例えば、SVDetect、Lumpy、BreakDancer、BreakDancerMax、CREST、DELLYなどまたはそれらの組合せ)によって識別され得る。
部分
一部の実施形態では、マッピングされた配列リードは、種々のパラメーターに従って一緒にグループ分けされ、特定のゲノム部分(例えば、参照ゲノムの部分)に割り当てられる。「部分」は、本明細書で「ゲノム区域」、「ビン」、「分配」、「参照ゲノムの部分」、「染色体の部分」または「ゲノム部分」とも呼ばれ得る。
部分は、1つまたは複数の特色に従うゲノムの分配によって定義される場合が多い。ある特定の分配性の特色の非限定的な例としては、長さ(例えば、固定された長さ、非固定の長さ)および他の構造的特色が挙げられる。ゲノム部分は、時には、以下の特色のうちの1つまたは複数を含む:固定された長さ、非固定の長さ、ランダムな長さ、非ランダムな長さ、等しい長さ、等しくない長さ(例えば、ゲノム部分のうちの少なくとも2つは、等しくない長さのものである)、重複しない(例えば、ゲノム部分の3’末端は、時には、隣接するゲノム部分の5’末端と境を接する)、重複する(例えば、ゲノム部分のうちの少なくとも2つは、重複する)、連続する、継続的である、連続しない、および継続的でない。ゲノム部分は、時には、約1~約1,000キロ塩基長(例えば、約2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900キロ塩基長)、約5~約500キロ塩基長、約10~約100キロ塩基長、または約40~約60キロ塩基長である。
分配は、時には、ある特定の情報特色、例えば、情報内容および情報獲得などに基づく、または一部基づく。ある特定の情報特色の非限定的な例としては、アラインメントの速度および/もしくは簡便さ、配列決定カバレッジの変動性、GC含量(例えば、層別化されたGC含量、特定のGC含量、高いまたは低いGC含量)、GC含量の均一性、配列内容の他の尺度(例えば、個々のヌクレオチドの分率、ピリミジンまたはプリンの分率、天然対非天然核酸の分率、メチル化されたヌクレオチドの分率、およびCpG含量)、メチル化状態、二重鎖融解温度、配列決定もしくはPCRへの馴染みやすさ、参照ゲノムの個々の部分に割り当てられた不確定値、および/または特定の特色についての標的化された検索が挙げられる。一部の実施形態では、情報内容は、確認された正常な対象および異常な対象(例えば、それぞれ、正倍数体およびトリソミーの対象)の群間を識別するための特定のゲノム場所の有意性を測定するp値プロファイルを使用して定量化され得る。
一部の実施形態では、ゲノムを分配することは、ゲノムにわたって類似の領域(例えば、同一または相同な領域または配列)を除外し得、独自の領域のみを保持し得る。分配の間に除去された領域は、単一の染色体内にあり得、1つもしくは複数の染色体であり得、または複数の染色体に及び得る。一部の実施形態では、分配されたゲノムは、独自に識別可能な配列にしばしば焦点を当てた、より速いアラインメントのために低減および最適化される。
一部の実施形態では、ゲノム部分は、固定された長さの継続的な重複しない部分を生じる、重複しない固定されたサイズに基づく分配から生じる。かかる部分は、染色体よりも短い場合が多く、コピー数変異(またはコピー数変更)領域(例えば、重複または欠失された領域)よりも短い場合が多く、後者は、セグメントと呼ばれ得る。「セグメント」または「ゲノムセグメント」は、2つまたはそれよりも多くの固定された長さのゲノム部分を含む場合が多く、2つまたはそれよりも多くの継続的な固定された長さの部分(例えば、約2~約100個のかかる部分(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90個のかかる部分))を含む場合が多い。
複数の部分は、時には、群で分析され、時には、部分にマッピングされたリードは、ゲノム部分の特定の群に従って定量化される。部分が構造的特色によって分配され、ゲノム中の領域に対応する場合、部分は、時には、1つもしくは複数のセグメントおよび/または1つもしくは複数の領域へとグループ分けされる。領域の非限定的な例としては、サブ染色体(即ち、染色体よりも短い)、染色体、常染色体、性染色体およびそれらの組合せが挙げられる。1つまたは複数のサブ染色体領域は、時には、遺伝子、遺伝子断片、調節配列、イントロン、エクソン、セグメント(例えば、コピー数変更領域に及ぶセグメント;コピー数変異領域に及ぶセグメント)、ミクロ重複、ミクロ欠失などである。領域は、時には、目的の染色体よりも小さく、または目的の染色体と同じサイズであり、時には、参照染色体よりも小さく、または参照染色体と同じサイズである。
部分をフィルタリングおよび/または選択する
一部の実施形態では、1つまたは複数の処理するステップは、1つまたは複数の部分フィルタリングステップおよび/または部分選択ステップを含み得る。用語「フィルタリング」は、本明細書で使用される場合、部分または参照ゲノムの部分を考慮から除去することを指す。ある特定の実施形態では、1つまたは複数の部分は、フィルタリングされ(例えば、フィルタリングプロセスに供され)、それにより、フィルタリングされた部分を提供する。一部の実施形態では、フィルタリングプロセスは、ある特定の部分を除去し、部分(例えば、部分のサブセット)を保持する。フィルタリングプロセスの後、保持された部分は、本明細書で、フィルタリングされた部分と呼ばれる場合が多い。
参照ゲノムの部分は、冗長なデータ(例えば、冗長なまたは重複するマッピングされたリード)、非情報提供的データ(例えば、ゼロのカウント中央値を有する参照ゲノムの部分)、過剰提示されたもしくは過小提示された配列を有する参照ゲノムの部分、ノイズのあるデータなどまたは上述の組合せが含まれるがこれらに限定されない任意の適切な基準に基づいて、除去のために選択され得る。フィルタリングプロセスには、参照ゲノムの1つまたは複数の部分を考慮から除去すること、および考慮されている参照ゲノムの部分、染色体(単数もしくは複数)またはゲノムについてのカウントされたまたは合計されたカウントから、除去のために選択された参照ゲノムの1つまたは複数の部分中のカウントを減算することが関与する場合が多い。一部の実施形態では、参照ゲノムの部分は、連続して(例えば、各個々の部分の除去の影響の評価を可能にするために一度に1つずつ)除去され得、ある特定の実施形態では、除去のためにマークされた参照ゲノムの全ての部分が、同時に除去され得る。一部の実施形態では、ある特定のレベルを上回るまたは下回る分散によって特徴付けられる参照ゲノムの部分は除去され、これは時には、本明細書で、参照ゲノムの「ノイズのある」部分をフィルタリングすると呼ばれる。ある特定の実施形態では、フィルタリングプロセスは、部分、染色体または染色体の一部の平均(mean)プロファイルレベルから所定の複数のプロファイル分散分逸脱するデータポイントをデータセットから得ることを含み、ある特定の実施形態では、フィルタリングプロセスは、部分、染色体または染色体の一部の平均(mean)プロファイルレベルから所定の複数のプロファイル分散分逸脱しないデータポイントをデータセットから除去することを含む。一部の実施形態では、フィルタリングプロセスは、遺伝的変異/遺伝的変更および/またはコピー数変更(例えば、異数性、ミクロ欠失、ミクロ重複)の存在または非存在について分析される参照ゲノムの候補部分の数を低減させるために利用される。遺伝的変異/遺伝的変更および/またはコピー数変更の存在または非存在について分析される参照ゲノムの候補部分の数を低減させることは、データセットの複雑性および/または次元性を低減させる場合が多く、時には、遺伝的変異/遺伝的変更および/またはコピー数変更について検索するおよび/またはそれを識別する速度を、2桁またはそれよりも大きく増加させる。
部分は、任意の適切な方法によって、任意の適切なパラメーターに従って、処理(例えば、フィルタリングおよび/または選択)され得る。部分をフィルタリングおよび/または選択するために使用され得る特色および/またはパラメーターの非限定的な例としては、冗長なデータ(例えば、冗長なまたは重複するマッピングされたリード)、非情報提供的データ(例えば、ゼロのマッピングされたカウントを有する参照ゲノムの部分)、過剰提示されたもしくは過小提示された配列を有する参照ゲノムの部分、ノイズのあるデータ、カウント、カウント変動性、カバレッジ、マッピング可能性、変動性、再現性尺度、リード密度、リード密度の変動性、不確実性のレベル、グアニン-シトシン(GC)含量、CCF断片長さおよび/もしくはリード長さ(例えば、断片長さ比(FLR)、胎児比統計量(FRS))、DNaseI感受性、メチル化状態、アセチル化、ヒストン分布、クロマチン構造、パーセント反復などまたはそれらの組合せが含まれる。部分は、本明細書に列挙または記載される特色またはパラメーターと相関する任意の適切な特色またはパラメーターに従ってフィルタリングおよび/または選択され得る。部分は、部分に特異的な特色もしくはパラメーター(例えば、複数の試料に従って単一の部分について決定される)および/または試料に特異的な特色もしくはパラメーター(例えば、試料内の複数の部分について決定される)に従ってフィルタリングおよび/または選択され得る。一部の実施形態では、部分は、比較的低いマッピング可能性、比較的高い変動性、高レベルの不確実性、比較的長いCCF断片長さ(例えば、低いFRS、低いFLR)、反復配列の比較的大きい分率、高いGC含量、低いGC含量、低いカウント、ゼロカウント、高いカウントなどまたはそれらの組合せに従って、フィルタリングおよび/または除去される。一部の実施形態では、部分(例えば、部分のサブセット)は、適切なレベルのマッピング可能性、変動性、不確実性のレベル、反復配列の分率、カウント、GC含量などまたはそれらの組合せに従って選択される。一部の実施形態では、部分(例えば、部分のサブセット)は、比較的短いCCF断片長さ(例えば、高いFRS、高いFLR)に従って選択される。部分にマッピングされたカウントおよび/またはリードは、時には、部分(例えば、部分のサブセット)をフィルタリングもしくは選択する前および/または後に処理(例えば、正規化)される。一部の実施形態では、部分にマッピングされたカウントおよび/またはリードは、部分(例えば、部分のサブセット)をフィルタリングもしくは選択する前および/または後に処理されない。
一部の実施形態では、部分は、誤差の尺度(例えば、標準偏差、標準誤差、計算された分散、p値、平均(mean)絶対誤差(MAE)、平均(average)絶対偏差および/または平均(mean)絶対偏差(MAD))に従ってフィルタリングされ得る。ある特定の場合には、誤差の尺度は、カウント変動性と呼ばれ得る。一部の実施形態では、部分は、カウント変動性に従ってフィルタリングされる。ある特定の実施形態では、カウント変動性は、複数の試料(例えば、複数の対象、例えば、50人もしくはそれよりも多くの、100人もしくはそれよりも多くの、500人もしくはそれよりも多くの、1000人もしくはそれよりも多くの、5000人もしくはそれよりも多くの、または10,000人もしくはそれよりも多くの対象から得られた複数の試料)について参照ゲノムの部分(即ち、部分)にマッピングされたカウントについて決定される誤差の尺度である。一部の実施形態では、所定の範囲の上限を上回るカウント変動性を有する部分は、フィルタリングされる(例えば、考慮から排除される)。一部の実施形態では、所定の範囲の下限を下回るカウント変動性を有する部分は、フィルタリングされる(例えば、考慮から排除される)。一部の実施形態では、所定の範囲の外側のカウント変動性を有する部分は、フィルタリングされる(例えば、考慮から排除される)。一部の実施形態では、所定の範囲内のカウント変動性を有する部分は、選択される(例えば、コピー数変更の存在または非存在を決定するために使用される)。一部の実施形態では、部分のカウント変動性は、分布(例えば、正規分布)を示す。一部の実施形態では、分布の分位点内の部分が選択される。一部の実施形態では、カウント変動性の分布の99%分位点内の部分が選択される。
任意の適切な数の試料からの配列リードは、本明細書に記載される1つまたは複数の基準、パラメーターおよび/または特色を満たす部分のサブセットを識別するために利用され得る。時には、複数の対象由来の試料の群からの配列リードが利用される。一部の実施形態では、複数の対象には、妊娠雌性が含まれる。一部の実施形態では、複数の対象には、健康な対象が含まれる。一部の実施形態では、複数の対象には、がん患者が含まれる。複数の対象の各々由来の1つまたは複数の試料が扱われ得(例えば、各対象由来の1~約20個の試料(例えば、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18または19個の試料))、適切な数の対象が扱われ得る(例えば、約2~約10,000人の対象(例えば、約10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000人の対象))。一部の実施形態では、同じ対象由来の同じ試験試料(複数可)からの配列リードは、参照ゲノム中の部分にマッピングされ、部分のサブセットを生成するために使用される。
部分は、任意の適切な方法によって選択および/またはフィルタリングされ得る。一部の実施形態では、部分は、データ、グラフ、プロットおよび/またはチャートの目視検査に従って選択される。ある特定の実施形態では、部分は、1つまたは複数のマイクロプロセッサーおよびメモリを含むシステムまたは機械によって(例えば、一部)選択および/またはフィルタリングされる。一部の実施形態では、部分は、そこに記憶された実行可能なプログラムを有する非一時的コンピュータ可読記憶媒体によって(例えば、一部)選択および/またはフィルタリングされ、このプログラムは、選択および/またはフィルタリングを実施するようにマイクロプロセッサーに命令する。
一部の実施形態では、試料から導出された配列リードは、参照ゲノムの全てまたはほとんどの部分にマッピングされ、部分の事前選択されたサブセットがその後選択される。例えば、特定の長さ閾値下の断片からのリードがそれに優先的にマッピングされる部分のサブセットが選択され得る。部分のサブセットを事前選択するためのある特定の方法は、米国特許出願公開第2014/0180594号に記載され、これは、これにより参照により本明細書に組み込まれる。部分の選択されたサブセットからのリードは、例えば、遺伝的変異または遺伝的変更の存在または非存在の決定のさらなるステップにおいて利用される場合が多い。しばしば、選択されていない部分からのリードは、遺伝的変異または遺伝的変更の存在または非存在の決定のさらなるステップにおいて利用されない(例えば、選択されていない部分中のリードは除去またはフィルタリングされる)。
一部の実施形態では、リード密度に関連する部分(例えば、リード密度が部分についてである場合)は、フィルタリングプロセスによって除去され、除去された部分に関連するリード密度は、コピー数変更(例えば、染色体異数性、ミクロ重複、ミクロ欠失)の存在または非存在の決定には含まれない。一部の実施形態では、リード密度プロファイルは、フィルタリングされた部分のリード密度を含むおよび/またはそれからなる。部分は、時には、カウントの分布および/またはリード密度の分布に従ってフィルタリングされる。一部の実施形態では、部分は、カウントおよび/またはリード密度の分布に従ってフィルタリングされ、このカウントおよび/またはリード密度は、1つまたは複数の参照試料から得られる。1つまたは複数の参照試料は、本明細書でトレーニングセットと呼ばれ得る。一部の実施形態では、部分は、カウントおよび/またはリード密度の分布に従ってフィルタリングされ、このカウントおよび/またはリード密度は、1つまたは複数の試験試料から得られる。一部の実施形態では、部分は、リード密度分布についての不確実性の尺度に従ってフィルタリングされる。ある特定の実施形態では、リード密度における大きい偏差を示す部分は、フィルタリングプロセスによって除去される。例えば、リード密度の分布(例えば、平均(average)平均(mean)またはリード密度中央値の分布)が決定され得、分布中の各リード密度は、同じ部分にマッピングする。不確実性の尺度(例えば、MAD)は、複数の試料についてのリード密度の分布を比較することによって決定され得、ゲノムの各部分は、不確実性の尺度に関連する。上述の例によれば、部分は、各部分および所定の閾値に関連する不確実性の尺度(例えば、標準偏差(SD)、MAD)に従ってフィルタリングされ得る。ある特定の場合には、許容できる範囲内のMAD値を含む部分は保持され、許容できる範囲の外側のMAD値を含む部分は、フィルタリングプロセスによって考慮から除去される。一部の実施形態では、上述の例によれば、不確実性の所定の尺度の外側のリード密度値(例えば、中央値、平均(average)または平均(mean)リード密度)を含む部分は、フィルタリングプロセスによって考慮から除去される場合が多い。一部の実施形態では、分布の四分位範囲の外側のリード密度値(例えば、中央値、平均(average)または平均(mean)リード密度)を含む部分は、フィルタリングプロセスによって考慮から除去される。一部の実施形態では、分布の四分位範囲の2倍、3倍、4倍または5倍よりも大きく外側のリード密度値を含む部分は、フィルタリングプロセスによって考慮から除去される。一部の実施形態では、2シグマ、3シグマ、4シグマ、5シグマ、6シグマ、7シグマまたは8シグマ(例えば、シグマは、標準偏差によって定義される範囲である)よりも大きく外側のリード密度値を含む部分は、フィルタリングプロセスによって考慮から除去される。
配列リード定量化
選択された特色または変数に基づいてマッピングまたは分配される配列リードは、一部の実施形態では、1つまたは複数の部分(例えば、参照ゲノムの部分)にマッピングされるリードの量または数を決定するために定量化され得る。ある特定の実施形態では、部分またはセグメントにマッピングされる配列リードの量は、カウントまたはリード密度と呼ばれる。
カウントは、ゲノム部分に関連する場合が多い。一部の実施形態では、カウントは、部分にマッピングされた(即ち、それに関連する)配列リードの一部または全てから決定される。ある特定の実施形態では、カウントは、部分(例えば、セグメントまたは領域中の部分(本明細書に記載される))の群にマッピングされた配列リードの一部または全てから決定される。
カウントは、適切な方法、操作または数学的プロセスによって決定され得る。カウントは、時には、セグメントに対応するゲノム部分もしくはゲノム部分の群、ゲノムのサブ領域(例えば、コピー数変異領域、コピー数変更領域、コピー数重複領域、コピー数欠失領域、ミクロ重複領域、ミクロ欠失領域、染色体領域、常染色体領域、性染色体領域)に対応する部分の群にマッピングされた全ての配列リードの直和であり、および/または時には、ゲノムに対応する部分の群である。リード定量化は、時には、比であり、時には、領域a中の部分(複数可)についての定量化の、領域b中の部分(複数可)についての定量化に対する比である。領域aは、時には、1つの部分、セグメント領域、コピー数変異領域、コピー数変更領域、コピー数重複領域、コピー数欠失領域、ミクロ重複領域、ミクロ欠失領域、染色体領域、常染色体領域および/または性染色体領域である。領域bは、独立して時には、1つの部分、セグメント領域、コピー数変異領域、コピー数変更領域、コピー数重複領域、コピー数欠失領域、ミクロ重複領域、ミクロ欠失領域、染色体領域、常染色体領域、性染色体領域、全ての常染色体を含む領域、性染色体を含む領域および/または全ての染色体を含む領域である。
一部の実施形態では、カウントは、生配列リードおよび/またはフィルタリングされた配列リードから導出される。ある特定の実施形態では、カウントは、ゲノム部分またはゲノム部分(例えば、領域中のゲノム部分)の群にマッピングされた配列リードの平均(average)、平均(mean)または合計である。一部の実施形態では、カウントは、不確定値に関連する。カウントは、時には調整される。カウントは、重み付けされた、除去された、フィルタリングされた、正規化された、調整された、平均された(averaged)、平均(mean)として導出された、中央値として導出された、加算された、またはそれらの組合せであるゲノム部分または部分の群に関連する配列リードに従って調整され得る。
配列リード定量化は、時には、リード密度である。リード密度は、ゲノムの1つまたは複数のセグメントについて決定および/または生成され得る。ある特定の場合には、リード密度は、1つまたは複数の染色体について決定および/または生成され得る。一部の実施形態では、リード密度は、参照ゲノムのセグメントまたは部分にマッピングされた配列リードのカウントの定量的尺度を含む。リード密度は、適切なプロセスによって決定され得る。一部の実施形態では、リード密度は、適切な分布および/または適切な分布関数によって決定される。分布関数の非限定的な例としては、確率関数、確率分布関数、確率密度関数(PDF)、カーネル密度関数(カーネル密度推定)、累積分布関数、確率質量関数、離散確率分布、絶対連続一変量分布など、任意の適切な分布またはそれらの組合せが挙げられる。リード密度は、適切な確率密度関数から導出された密度推定であり得る。密度推定は、観察されたデータに基づく、根底にある確率密度関数の推定の構築である。一部の実施形態では、リード密度は、密度推定(例えば、確率密度推定、カーネル密度推定)を含む。リード密度は、ゲノムの1つまたは複数の部分の各々についての密度推定を生成することを含むプロセスに従って生成され得、各部分は、配列リードのカウントを含む。リード密度は、部分またはセグメントにマッピングされた、正規化および/または重み付けされたカウントについて生成され得る。一部の場合には、部分またはセグメントにマッピングされた各リードは、リード密度に寄与し得、これは、本明細書に記載される正規化プロセスから得られるその重みと等しい値(例えば、カウント)である。一部の実施形態では、1つまたは複数の部分またはセグメントについてのリード密度は、調整される。リード密度は、適切な方法によって調整され得る。例えば、1つまたは複数の部分についてのリード密度は、重み付けおよび/または正規化され得る。
所与の部分またはセグメントについて定量化されたリードは、1つの供給源または異なる供給源由来であり得る。一例では、リードは、がんを有する対象またはがんを有すると疑われる対象由来の核酸から得られ得る。かかる状況では、1つまたは複数の部分にマッピングされたリードは、健康な細胞(即ち、非がん細胞)およびがん細胞(例えば、腫瘍細胞)の両方を代表するリードである場合が多い。ある特定の実施形態では、部分にマッピングされたリードの一部は、がん細胞核酸由来であり、同じ部分にマッピングされたリードの一部は、非がん細胞核酸由来である。別の例では、リードは、胎児を有する妊娠雌性由来の核酸試料から得られ得る。かかる状況では、1つまたは複数の部分にマッピングされたリードは、胎児および胎児の母親(例えば、妊娠雌性対象)の両方を代表するリードである場合が多い。ある特定の実施形態では、部分にマッピングされたリードの一部は、胎児ゲノム由来であり、同じ部分にマッピングされたリードの一部は、母方ゲノム由来である。
レベル
一部の実施形態では、値(例えば、数、定量的値)は、レベルに帰せられる。レベルは、適切な方法、操作または数学的プロセスによって決定され得る(例えば、処理されたレベル)。レベルは、部分のセットについてのカウント(例えば、正規化されたカウント)である、またはそれから導出される場合が多い。一部の実施形態では、部分のレベルは、部分にマッピングされたカウント(例えば、カウント、正規化されたカウント)の総数と実質的に等しい。しばしば、レベルは、当該技術分野で公知の適切な方法、操作または数学的プロセスによって処理、変形または操作されたカウントから決定される。一部の実施形態では、レベルは、処理されたカウントから導出され、処理されたカウントの非限定的な例としては、重み付けされた、除去された、フィルタリングされた、正規化された、調整された、平均された(averaged)、平均(mean)として導出された(例えば、平均(mean)レベル)、加算された、減算された、変形されたカウントまたはそれらの組合せが挙げられる。一部の実施形態では、レベルは、正規化されたカウント(例えば、部分の正規化されたカウント)を含む。レベルは、適切なプロセスによって正規化されたカウントについてであり得、その非限定的な例は本明細書に記載される。レベルは、正規化されたカウント、またはカウントの相対量を含み得る。一部の実施形態では、レベルは、平均された(averaged)2つまたはそれよりも多くの部分のカウントまたは正規化されたカウントについてであり、レベルは、平均(average)レベルと呼ばれる。一部の実施形態では、レベルは、平均(mean)カウントまたは正規化されたカウントの平均(mean)を有する部分のセットについてであり、これは、平均(mean)レベルと呼ばれる。一部の実施形態では、レベルは、生のおよび/またはフィルタリングされたカウントを含む部分について導出される。一部の実施形態では、レベルは、生のカウントに基づく。一部の実施形態では、レベルは、不確定値(例えば、標準偏差、MAD)に関連する。一部の実施形態では、レベルは、Z-スコアまたはp値によって示される。
1つまたは複数の部分についてのレベルは、本明細書で「ゲノム区域レベル」と同義である。用語「レベル」は、本明細書で使用される場合、時には、用語「上昇」と同義である。用語「レベル」の意味の決定は、それが使用される文脈から決定され得る。例えば、用語「レベル」は、部分、プロファイル、リードおよび/またはカウントに関して使用される場合、上昇を意味する場合が多い。用語「レベル」は、物質または組成物の文脈で使用される場合(例えば、RNAのレベル、プレキシング(plexing)レベル)、量を指す場合が多い。用語「レベル」は、不確実性の文脈で使用される場合(例えば、誤差のレベル、信頼のレベル、偏差のレベル、不確実性のレベル)、量を指す場合が多い。
2つまたはそれよりも多くのレベル(例えば、プロファイル中の2つまたはそれよりも多くのレベル)についての正規化されたまたは正規化されていないカウントは、時には、レベルに従って数学的に操作(例えば、加算、多重化、平均(averaged)、正規化などまたはそれらの組合せ)され得る。例えば、2つまたはそれよりも多くのレベルについての正規化されたまたは正規化されていないカウントは、プロファイル中のレベルの1つ、一部または全てに従って正規化され得る。一部の実施形態では、プロファイル中の全てのレベルの正規化されたまたは正規化されていないカウントは、プロファイル中の1つのレベルに従って正規化される。一部の実施形態では、プロファイル中の第1の(fist)レベルの正規化されたまたは正規化されていないカウントは、プロファイル中の第2のレベルの正規化されたまたは正規化されていないカウントに従って正規化される。
レベル(例えば、第1のレベル、第2のレベル)の非限定的な例は、処理されたカウントを含む部分のセットについてのレベル、カウントの平均(mean)、中央値もしくは平均(average)を含む部分のセットについてのレベル、正規化されたカウントを含む部分のセットについてのレベルなどまたはそれらの任意の組合せである。一部の実施形態では、プロファイル中の第1のレベルおよび第2のレベルは、同じ染色体にマッピングされた部分のカウントから導出される。一部の実施形態では、プロファイル中の第1のレベルおよび第2のレベルは、異なる染色体にマッピングされた部分のカウントから導出される。
一部の実施形態では、レベルは、1つまたは複数の部分にマッピングされた正規化されたまたは正規化されていないカウントから決定される。一部の実施形態では、レベルは、2つまたはそれよりも多くの部分にマッピングされた正規化されたまたは正規化されていないカウントから決定され、各部分についての正規化されたカウントは、約同じである場合が多い。レベルについての部分のセット中には、カウント(例えば、正規化されたカウント)における変動が存在し得る。レベルについての部分のセット中には、セットの他の部分中とは有意に異なるカウントを有する1つまたは複数の部分が存在し得る(例えば、ピークおよび/またはディップ)。任意の適切な数の部分に関連する任意の適切な数の正規化されたまたは正規化されていないカウントは、レベルを定義することができる。
一部の実施形態では、1つまたは複数のレベルは、ゲノムの部分の全てまたは一部の正規化されたまたは正規化されていないカウントから決定され得る。しばしば、レベルは、染色体またはその一部の正規化されたまたは正規化されていないカウントの全てまたは一部から決定され得る。一部の実施形態では、2つまたはそれよりも多くの部分(例えば、部分のセット)から導出された2つまたはそれよりも多くのカウントが、レベルを決定する。一部の実施形態では、2つまたはそれよりも多くのカウント(例えば、2つまたはそれよりも多くの部分からのカウント)が、レベルを決定する。一部の実施形態では、2~約100,000個の部分からのカウントが、レベルを決定する。一部の実施形態では、2~約50,000個、2~約40,000個、2~約30,000個、2~約20,000個、2~約10,000個、2~約5000個、2~約2500個、2~約1250個、2~約1000個、2~約500個、2~約250個、2~約100個または2~約60個の部分からのカウントが、レベルを決定する。一部の実施形態では、約10~約50個の部分からのカウントが、レベルを決定する。一部の実施形態では、約20~約40個またはそれよりも多くの部分からのカウントが、レベルを決定する。一部の実施形態では、レベルは、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60個またはそれよりも多くの部分からのカウントを含む。一部の実施形態では、レベルは、部分のセット(例えば、参照ゲノムの部分のセット、染色体の部分のセットまたは染色体の一部の部分のセット)に対応する。
一部の実施形態では、レベルは、連続する部分の正規化されたまたは正規化されていないカウントについて決定される。一部の実施形態では、連続する部分(例えば、部分のセット)は、ゲノムの近隣の領域または染色体もしくは遺伝子の近隣の領域を示す。例えば、2つまたはそれよりも多くの連続する部分は、末端から末端まで部分をマージさせることによってアラインされた場合、各部分よりも長いDNA配列の配列アセンブリを示し得る。例えば、2つまたはそれよりも多くの連続する部分は、インタクトなゲノム、染色体、遺伝子、イントロン、エクソンまたはそれらの一部を示し得る。一部の実施形態では、レベルは、連続する部分および/または非連続の部分の収集(例えば、セット)から決定される。
データ処理および正規化
カウントされたマッピングされた配列リードは、本明細書で生データと呼ばれるが、それは、このデータが、未操作のカウント(例えば、生カウント)を示すからである。一部の実施形態では、データセット中の配列リードデータは、さらに処理(例えば、数学的および/または統計的に操作)され得、および/またはアウトカムの提供を促進するために表示され得る。ある特定の実施形態では、より大きいデータセットを含むデータセットは、さらなる分析を促進するための事前処理から利益を得うる。データセットの事前処理には、時には、冗長なおよび/または非情報提供的な部分または参照ゲノムの部分(例えば、非情報提供的データ、冗長なマッピングされたリード、ゼロのカウント中央値を有する部分、過剰提示されたもしくは過小提示された配列を有する参照ゲノムの部分)の除去が関与する。理論に束縛されずに、データ処理および/または事前処理は、(i)ノイズのあるデータを除去し得る、(ii)非情報提供的データを除去し得る、(iii)冗長なデータを除去し得る、(iv)より大きいデータセットの複雑性を低減させ得る、および/または(v)1つの形態から1つもしくは複数の他の形態へのデータの変形を促進し得る。用語「事前処理」および「処理」は、データまたはデータセットに関して利用される場合、本明細書で「処理」と集合的に呼ばれる。処理は、データを、さらなる分析のためにより適したものにし得、一部の実施形態では、アウトカムを生成し得る。一部の実施形態では、1つもしくは複数のまたは全ての処理方法(例えば、正規化方法、部分フィルタリング、マッピング、検証などまたはそれらの組合せ)は、メモリと併せてプロセッサー、マイクロプロセッサー、コンピュータによって、および/またはマイクロプロセッサー制御される装置によって実施される。
用語「ノイズのあるデータ」は、本明細書で使用される場合、(a)分析またはプロットされた場合にデータポイント間に有意な分散を有するデータ、(b)有意な標準偏差(例えば、3よりも大きい標準偏差)を有するデータ、(c)有意な平均(mean)の標準誤差を有するデータなど、および上述の組合せを指す。ノイズのあるデータは、時には、出発材料(例えば、核酸試料)の量および/または品質に起因して生じ、時には、配列リードを生成するために使用されるDNAを調製または複製するためのプロセスの一部として生じる。ある特定の実施形態では、ノイズは、PCRベースの方法を使用して調製された場合に過剰提示されるある特定の配列から生じる。本明細書に記載される方法は、ノイズのあるデータの寄与を低減または除外することができ、したがって、提供されたアウトカムに対するノイズのあるデータの影響を低減させることができる。
用語「非情報提供的データ」、「参照ゲノムの非情報提供的部分」および「非情報提供的部分」は、本明細書で使用される場合、所定の閾値の値とは有意に異なる、または値の所定のカットオフ範囲の外側に入る数値を有する部分、またはそれから導出されたデータを指す。用語「閾値」および「閾値の値」は、本明細書で、適格なデータセットを使用して計算され、遺伝的変異または遺伝的変更(例えば、コピー数変更、異数性、ミクロ重複、ミクロ欠失、染色体異常など)の診断の境界として機能する、任意の数を指す。ある特定の実施形態では、閾値を、本明細書に記載される方法によって得られた結果が超えると、対象は、コピー数変更を有すると診断される。閾値の値または値の範囲は、一部の実施形態では、配列リードデータ(例えば、参照および/または対象からの)を数学的および/または統計的に操作することによって計算される場合が多く、ある特定の実施形態では、閾値の値または値の範囲を生成するために操作された配列リードデータは、配列リードデータ(例えば、参照および/または対象からの)である。一部の実施形態では、不確定値が決定される。不確定値は、一般に、分散または誤差の尺度であり、分散または誤差の任意の適切な尺度であり得る。一部の実施形態では、不確定値は、標準偏差、標準誤差、計算された分散、p値または平均(mean)絶対偏差(MAD)である。一部の実施形態では、不確定値は、本明細書に記載される式に従って計算され得る。
任意の適切な手順が、本明細書に記載されるデータセットを処理するために利用され得る。データセットを処理するための使用に適切な手順の非限定的な例としては、フィルタリング、正規化、重み付け、ピーク高さのモニタリング、ピーク面積のモニタリング、ピークエッジのモニタリング、ピークレベル分析、ピーク幅分析、ピークエッジ場所分析、ピークラテラルトレランス(lateral tolerance)、面積比の決定、データの数学的処理、データの統計的処理、統計的アルゴリズムの適用、固定された変数を用いた分析、最適化された変数を用いた分析、さらなる処理のためにパターンまたは傾向を識別するためにデータをプロットすることなどおよび上述の組合せが挙げられる。一部の実施形態では、データセットは、種々の特色(例えば、GC含量、冗長なマッピングされたリード、セントロメア領域、テロメア領域などおよびそれらの組合せ)および/または変数(例えば、対象の性、対象の年齢、対象の倍数性、がん細胞核酸のパーセント寄与、胎児の性、母親の年齢、母方の倍数性、胎児核酸のパーセント寄与などまたはそれらの組合せ)に基づいて処理される。ある特定の実施形態では、本明細書に記載されるようにデータセットを処理することは、大きいおよび/または複雑なデータセットの複雑性および/または次元性を低減させることができる。複雑なデータセットの非限定的な例としては、1つまたは複数の試験対象ならびに異なる年齢および民族的背景の複数の参照対象から生成された配列リードデータが挙げられる。一部の実施形態では、データセットは、各試験および/または参照対象についての数千~数百万の配列リードを含み得る。
データ処理は、ある特定の実施形態では、任意の数のステップで実施され得る。例えば、データは、一部の実施形態では、単一の処理手順のみを使用して処理され得、ある特定の実施形態では、データは、1個もしくはそれよりも多くの、5個もしくはそれよりも多くの、10個もしくはそれよりも多くの、または20個もしくはそれよりも多くの処理するステップ(例えば、1個もしくはそれよりも多くの処理するステップ、2個もしくはそれよりも多くの処理するステップ、3個もしくはそれよりも多くの処理するステップ、4個もしくはそれよりも多くの処理するステップ、5個もしくはそれよりも多くの処理するステップ、6個もしくはそれよりも多くの処理するステップ、7個もしくはそれよりも多くの処理するステップ、8個もしくはそれよりも多くの処理するステップ、9個もしくはそれよりも多くの処理するステップ、10個もしくはそれよりも多くの処理するステップ、11個もしくはそれよりも多くの処理するステップ、12個もしくはそれよりも多くの処理するステップ、13個もしくはそれよりも多くの処理するステップ、14個もしくはそれよりも多くの処理するステップ、15個もしくはそれよりも多くの処理するステップ、16個もしくはそれよりも多くの処理するステップ、17個もしくはそれよりも多くの処理するステップ、18個もしくはそれよりも多くの処理するステップ、19個もしくはそれよりも多くの処理するステップ、または20個もしくはそれよりも多くの処理するステップ)を使用して処理され得る。一部の実施形態では、処理するステップは、2回またはそれよりも多く反復される同じステップであり得(例えば、2回またはそれよりも多くフィルタリングする、2回またはそれよりも多く正規化する)、ある特定の実施形態では、処理するステップは、同時にまたは逐次的に実施される2つまたはそれよりも多くの異なる処理するステップ(例えば、フィルタリング、正規化;正規化、ピーク高さおよびエッジのモニタリング;フィルタリング、正規化、参照に対する正規化、p値を決定するための統計的操作など)であり得る。一部の実施形態では、任意の適切な数および/または組合せの同じまたは異なる処理するステップが、アウトカムの提供を促進するために配列リードデータを処理するために利用され得る。ある特定の実施形態では、本明細書に記載される基準によってデータセットを処理することは、データセットの複雑性および/または次元性を低減させ得る。
一部の実施形態では、1つまたは複数の処理するステップは、1つまたは複数の正規化ステップを含み得る。正規化は、本明細書に記載されるかまたは当該技術分野で公知の適切な方法によって実施され得る。ある特定の実施形態では、正規化は、異なるスケールで測定した値を、概念上一般的なスケールに調整することを含む。ある特定の実施形態では、正規化は、調整された値の確率分布をアラインメントにもたらすための洗練された数学的調整を含む。一部の実施形態では、正規化は、分布を正規分布にアラインさせることを含む。ある特定の実施形態では、正規化は、ある特定の全体的影響(例えば、誤差および例外)の影響を除外する方法での異なるデータセットについての対応する正規化された値の比較を可能にする数学的調整を含む。ある特定の実施形態では、正規化は、スケーリングを含む。正規化は、時には、所定の変数または式による1つまたは複数のデータセットの除算を含む。正規化は、時には、所定の変数または式による1つまたは複数のデータセットの減算を含む。正規化方法の非限定的な例としては、部分での(portion-wise)正規化、GC含量による正規化、カウント中央値(ビンカウント中央値、部分カウント中央値)正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所的に重み付けされた散乱プロット平滑化)、主成分正規化、反復マスキング(RM)、GC正規化および反復マスキング(GCRM)、cQnならびに/またはそれらの組合せが挙げられる。一部の実施形態では、コピー数変更(例えば、異数性、ミクロ重複、ミクロ欠失)の存在または非存在の決定は、正規化方法(例えば、部分での正規化、GC含量による正規化、カウント中央値(ビンカウント中央値、部分カウント中央値)正規化、線形および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所的に重み付けされた散乱プロット平滑化)、主成分正規化、反復マスキング(RM)、GC正規化および反復マスキング(GCRM)、cQn、当該技術分野で公知の正規化方法ならびに/またはそれらの組合せ)を利用する。例えば、LOESS正規化、主成分正規化およびハイブリッド正規化方法などの、利用され得る正規化プロセスのある特定の例は、本明細書で以下にさらに詳細に記載される。ある特定の正規化プロセスの態様は、例えば、国際特許出願公開番号WO2013/052913号および国際特許出願公開番号WO2015/051163号にも記載されており、これらは各々、これにより参照により本明細書に組み込まれる。
任意の適切な数の正規化が使用され得る。一部の実施形態では、データセットは、1回もしくはそれよりも多く、5回もしくはそれよりも多く、10回もしくはそれよりも多く、またはさらには20回もしくはそれよりも多く、正規化され得る。データセットは、任意の適切な特色または変数(例えば、試料データ、参照データ、またはその両方)を代表する値(例えば、正規化値)に対して正規化され得る。使用され得るデータ正規化の型の非限定的な例としては、1つまたは複数の選択された試験または参照部分についての生カウントデータを、選択された部分または区域がそれにマッピングされる染色体またはゲノム全体にマッピングされたカウントの総数に対して正規化すること;1つまたは複数の選択された部分についての生カウントデータを、選択された部分がそれにマッピングされる1つまたは複数の部分または染色体についての参照カウント中央値に対して正規化すること;生カウントデータを、以前に正規化されたデータまたはその派生物に対して正規化すること;および以前に正規化されたデータを、1つまたは複数の他の所定の正規化変数に対して正規化することが挙げられる。データセットを正規化することは、時には、所定の正規化変数として選択される特色または特性に依存して、統計誤差を分離する効果を有する。データセットを正規化することはまた、時には、データを一般的スケール(例えば、所定の正規化変数)にもたらすことによって、異なるスケールを有するデータのデータ特徴の比較を可能にする。一部の実施形態では、統計的に導出された値に対する1つまたは複数の正規化が、データ差異を最小化し、異常データの重要性を小さくするために利用され得る。正規化値に関して、部分または参照ゲノムの部分を正規化することは、時には、「部分での正規化」と呼ばれる。
ある特定の実施形態では、処理するステップは、1つまたは複数の数学的および/または統計的操作を含み得る。任意の適切な数学的および/または統計的操作が、単独でまたは組み合わせて、本明細書に記載されるデータセットを分析および/または操作するために使用され得る。任意の適切な数の数学的および/または統計的操作が使用され得る。一部の実施形態では、データセットは、1回もしくはそれよりも多く、5回もしくはそれよりも多く、10回もしくはそれよりも多く、または20回もしくはそれよりも多く、数学的および/または統計的に操作され得る。使用され得る数学的および統計的操作の非限定的な例としては、加算、減算、乗算、除算、代数的関数、最小二乗推定量、曲線フィッティング、微分方程式、有理多項式、二重多項式(double polynomial)、直交多項式、z-スコア、p値、カイ値、ファイ値、ピークレベルの分析、ピークエッジ場所の決定、ピーク面積比の計算、染色体レベル中央値の分析、平均(mean)絶対偏差の計算、残差平方和、平均(mean)、標準偏差、標準誤差などまたはそれらの組合せが挙げられる。数学的および/または統計的操作は、配列リードデータの全てもしくは部分、またはそれらの処理された生成物に対して実施され得る。統計的に操作され得るデータセット変数または特色の非限定的な例としては、生カウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピーク面積、ピークエッジ、ラテラルトレランス、P値、レベル中央値、平均(mean)レベル、ゲノム領域内のカウント分布、核酸種の相対的提示などまたはそれらの組合せが挙げられる。
一部の実施形態では、処理するステップは、1つまたは複数の統計的アルゴリズムの使用を含み得る。任意の適切な統計的アルゴリズムが、単独でまたは組み合わせて、本明細書に記載されるデータセットを分析および/または操作するために使用され得る。任意の適切な数の統計的アルゴリズムが使用され得る。一部の実施形態では、データセットは、1個もしくはそれよりも多くの、5個もしくはそれよりも多くの、10個もしくはそれよりも多くの、または20個もしくはそれよりも多くの統計的アルゴリズムを使用して分析され得る。本明細書に記載される方法との使用に適切な統計的アルゴリズムの非限定的な例としては、主成分分析、決定木、対立仮説(counternull)、多重比較、オムニバス検定、ベーレンス-フィッシャー問題、ブートストラッピング、有意性の独立した検定を組み合わせるためのフィッシャーの方法、帰無仮説、第I種過誤、第II種過誤、正確確率検定、1標本Z検定、2標本Z検定、1標本t検定、対応のあるt検定、等しい分散を有するプールした2標本t検定(two-sample pooled t-test having equal variances)、等しくない分散を有するプールしない2標本t検定(two-sample unpooled t-test having unequal variances)、1比率(one-proportion)z検定、プールした2比率z検定、プールしない2比率z検定、1標本カイ二乗検定、等分散性の2標本F検定、信頼区間、信用区間、有意性、メタ分析、線形単回帰、ロバスト線形回帰などまたは上述の組合せが挙げられる。統計的アルゴリズムを使用して分析され得るデータセット変数または特色の非限定的な例としては、生カウント、フィルタリングされたカウント、正規化されたカウント、ピーク高さ、ピーク幅、ピークエッジ、ラテラルトレランス、P値、レベル中央値、平均(mean)レベル、ゲノム領域内のカウント分布、核酸種の相対的提示などまたはそれらの組合せが挙げられる。
ある特定の実施形態では、データセットは、複数の(例えば、2つまたはそれよりも多くの)統計的アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類ツリーモデル、K最近傍法、ロジスティック回帰および/または平滑化)ならびに/または数学的および/もしくは統計的操作(例えば、本明細書で操作と呼ばれる)を利用することによって分析され得る。一部の実施形態では、複数の操作の使用は、アウトカムを提供するために使用され得るN次元空間を生成することができる。ある特定の実施形態では、複数の操作を利用することによるデータセットの分析は、データセットの複雑性および/または次元性を低減させることができる。例えば、参照データセットに対する複数の操作の使用は、参照試料の状態(例えば、選択されたコピー数変更について陽性または陰性)に依存して、遺伝的変異/遺伝的変更および/またはコピー数変更の存在または非存在を示すために使用され得るN次元空間(例えば、確率プロット)を生成することができる。実質的に類似のセットの操作を使用した試験試料の分析が、試験試料の各々についてN次元ポイントを生成するために使用され得る。試験対象データセットの複雑性および/または次元性は、時には、参照データから生成されたN次元空間と容易に比較することができる単一の値またはN次元ポイントまで低減される。参照対象データが投入されたN次元空間内に入る試験試料データは、参照対象のものと実質的に類似の遺伝子状態を示す。参照対象データが投入されたN次元空間の外側に入る試験試料データは、参照対象のものと実質的に非類似の遺伝子状態を示す。一部の実施形態では、参照は、正倍数体であるか、またはさもなくば、遺伝的変異/遺伝的変更および/もしくはコピー数変更および/もしくは医学的状態を有さない。
一部の実施形態では、データセットがカウントされ、必要に応じてフィルタリングされ、正規化され、および必要に応じて重み付けされた後、処理されたデータセットは、1つまたは複数のフィルタリングおよび/または正規化および/または重み付け手順によってさらに操作され得る。ある特定の実施形態では、1つまたは複数のフィルタリングおよび/または正規化および/または重み付け手順によってさらに操作されたデータセットは、プロファイルを生成するために使用され得る。一部の実施形態では、1つまたは複数のフィルタリングおよび/または正規化および/または重み付け手順は、時には、データセットの複雑性および/または次元性を低減させることができる。アウトカムは、低減された複雑性および/または次元性のデータセットに基づいて提供され得る。一部の実施形態では、例えば、重み付けによってさらに操作された処理されたデータのプロファイルプロットが、分類を促進するためおよび/またはアウトカムを提供するために生成される。アウトカムは、例えば、重み付けされたデータのプロファイルプロットに基づいて提供され得る。
部分のフィルタリングまたは重み付けは、分析における1つまたは複数の適切なポイントにおいて実施され得る。例えば、部分は、配列リードが参照ゲノムの部分にマッピングされる前またはその後にフィルタリングまたは重み付けされ得る。一部の実施形態では、部分は、個々のゲノム部分についての実験的バイアスが決定される前またはその後に、フィルタリングまたは重み付けされ得る。ある特定の実施形態では、部分は、レベルが計算される前またはその後に、フィルタリングまたは重み付けされ得る。
一部の実施形態では、データセットがカウントされ、必要に応じてフィルタリングされ、正規化され、および必要に応じて重み付けされた後、処理されたデータセットは、1つまたは複数の数学的および/または統計的(例えば、統計関数または統計的アルゴリズム)操作によって操作され得る。ある特定の実施形態では、処理されたデータセットは、1つまたは複数の選択された部分、染色体、または染色体の部分についてZ-スコアを計算することによってさらに操作され得る。一部の実施形態では、処理されたデータセットは、P値を計算することによってさらに操作され得る。ある特定の実施形態では、数学的および/または統計的操作には、倍数性および/または少数派種の分率(例えば、がん細胞核酸の分率;胎児分率)に関する1つまたは複数の仮定が含まれる。一部の実施形態では、1つまたは複数の統計的および/または数学的操作によってさらに操作された処理されたデータのプロファイルプロットは、分類を促進するためおよび/またはアウトカムを提供するために生成される。アウトカムは、統計的および/または数学的に操作されたデータのプロファイルプロットに基づいて提供され得る。統計的および/または数学的に操作されたデータのプロファイルプロットに基づいて提供されるアウトカムには、倍数性および/または少数派種の分率(例えば、がん細胞核酸の分率;胎児分率)に関する1つまたは複数の仮定が含まれる場合が多い。
一部の実施形態では、データの分析および処理は、1つまたは複数の仮定の使用を含み得る。適切な数または型の仮定が、データセットを分析または処理するために利用され得る。データ処理および/または分析のために使用され得る仮定の非限定的な例としては、対象倍数性、がん細胞寄与、母方倍数性、胎児寄与、参照集団におけるある特定の配列の普及、民族的背景、血縁関係のある家族メンバーにおける選択された医学的状態の有病率、異なる患者からの生カウントプロファイルならびに/またはGC正規化および反復マスキング(例えば、GCRM)後の実行の間の並行性、PCRアーティファクトを示す同一のマッチ(例えば、同一の塩基位置)、核酸定量化アッセイ(例えば、胎児数量アッセイ(FQA))に固有の仮定、双子に関する仮定(例えば、2組の双子で1組のみが罹患している場合、有効胎児分率は、測定された総胎児分率の50%に過ぎない(三つ子、四つ子などについても同様))、ゲノム全体を均一にカバーする無細胞DNA(例えば、cfDNA)など、ならびにそれらの組合せが挙げられる。
マッピングされた配列リードの品質および/または深度が、正規化されたカウントプロファイルに基づいて、所望の信頼レベル(例えば、95%またはそれよりも高い信頼レベル)での遺伝的変異/遺伝的変更および/またはコピー数変更の存在または非存在のアウトカム予測を可能にしない場合、1つまたは複数のさらなる数学的操作アルゴリズムおよび/または統計的予測アルゴリズムが、データ分析に有用なさらなる数値を生成するため、および/またはアウトカムを提供するために利用され得る。用語「正規化されたカウントプロファイル」は、本明細書で使用される場合、正規化されたカウントを使用して生成されたプロファイルを指す。正規化されたカウントおよび正規化されたカウントプロファイルを生成するために使用され得る方法の例は、本明細書に記載されている。言及されるように、カウントされたマッピングされた配列リードは、試験試料カウントまたは参照試料カウントに関して正規化され得る。一部の実施形態では、正規化されたカウントプロファイルは、プロットとして示され得る。
利用され得る処理するステップおよび正規化方法の非限定的な例、例えば、ウインドウ(静的(static)またはスライディング)に対する正規化、重み付け、バイアス関係性の決定、LOESS正規化、主成分正規化、ハイブリッド正規化、プロファイル生成および比較の実施は、本明細書で以下にさらに詳細に記載される。
ウインドウ(静的またはスライディング)に対する正規化
ある特定の実施形態では、処理するステップは、静的ウインドウに対して正規化することを含み、一部の実施形態では、処理するステップは、移動またはスライディングウインドウに対して正規化することを含む。用語「ウインドウ」は、本明細書で使用される場合、分析のために選択される1つまたは複数の部分を指し、時には、比較のための参照として使用される(例えば、正規化および/または他の数学的もしくは統計的操作のために使用される)。用語「静的ウインドウに対して正規化する」は、本明細書で使用される場合、試験対象と参照対象データセットとの間の比較のために選択された1つまたは複数の部分を使用する正規化プロセスを指す。一部の実施形態では、選択された部分は、プロファイルを生成するために利用される。静的ウインドウは、一般に、操作および/または分析の間に変化しない部分の所定のセットを含む。用語「移動ウインドウに対して正規化する」および「スライディングウインドウに対して正規化する」は、本明細書で使用される場合、選択された試験部分のゲノム領域に限局された部分(例えば、直ぐ周囲の部分、隣接する部分または区域など)に対して実施される正規化を指し、1つまたは複数の選択された試験部分は、選択された試験部分の直ぐ周囲の部分に対して正規化される。ある特定の実施形態では、選択された部分は、プロファイルを生成するために利用される。スライディングまたは移動ウインドウ正規化は、隣接する試験部分に、反復して移動またはスライディングさせること、および新たに選択された試験部分を、新たに選択された試験部分の直ぐ周囲のまたはそれに隣接する部分に対して正規化することを含む場合が多く、隣接するウインドウは、1つまたは複数の部分を共通して有する。ある特定の実施形態では、複数の選択された試験部分および/または染色体が、スライディングウインドウプロセスによって分析され得る。
一部の実施形態では、スライディングまたは移動ウインドウに対して正規化することは、1つまたは複数の値を生成し得、各値は、ゲノムの異なる領域(例えば、染色体)から選択された参照部分の異なるセットに対する正規化を示す。ある特定の実施形態では、生成された1つまたは複数の値は、累積合計(例えば、選択された部分、ドメイン(例えば、染色体の一部)または染色体にわたる正規化されたカウントプロファイルの積分の数的推定)である。スライディングまたは移動ウインドウプロセスによって生成された値は、プロファイルを生成し、アウトカムへの到達を促進するために使用され得る。一部の実施形態では、1つまたは複数の部分の累積合計は、ゲノム位置の関数として表示され得る。移動またはスライディングウインドウ分析は、時には、ミクロ欠失および/またはミクロ重複の存在または非存在についてゲノムを分析するために使用される。ある特定の実施形態では、1つまたは複数の部分の累積合計を表示することは、コピー数変更(例えば、ミクロ欠失、ミクロ重複)の領域の存在または非存在を識別するために使用される。
重み付け
一部の実施形態では、処理するステップは、重み付けを含む。用語「重み付けされた」、「重み付けする」もしくは「重み付け関数」またはそれらの文法的派生語もしくは等価物は、本明細書で使用される場合、他のデータセット特色または変数に関するある特定のデータセット特色または変数の影響を変更する(例えば、選択された部分または参照ゲノムの部分中のデータの品質または有用性に基づいて、1つまたは複数の部分または参照ゲノムの部分中に含有されるデータの有意性および/または寄与を増加または減少させる)ために時には利用されるデータセットの部分または全ての数学的操作を指す。重み付け関数は、一部の実施形態では、比較的小さい測定分散を有するデータの影響を増加させるため、および/または比較的大きい測定分散を有するデータの影響を減少させるために使用され得る。例えば、過小提示されたまたは低い品質の配列データを有する参照ゲノムの部分は、データセットに対する影響を最小化するために「下方重み付けされ(down weighted)」得るが、参照ゲノムの選択された部分は、データセットに対する影響を増加させるために「上方重み付けされ(up weighted)」得る。重み付け関数の非限定的な例は、[1/(標準偏差)]である。部分に重み付けすることは、時には、部分依存性を除去する。一部の実施形態では、1つまたは複数の部分は、固有関数(eigen function)(例えば、固有関数(eigenfunction))によって重み付けされる。一部の実施形態では、固有関数は、直交する固有部分で部分を置き換えることを含む。重み付けステップは、時には、正規化ステップと実質的に類似の様式で実施される。一部の実施形態では、データセットは、所定の変数(例えば、重み付け変数)によって調整(例えば、除算、乗算、加算、減算)される。一部の実施形態では、データセットは、所定の変数(例えば、重み付け変数)によって除算される。所定の変数(例えば、最小化された標的関数、ファイ)は、データセットの異なる一部に異なって重み付けする(例えば、他のデータ型の影響を減少させつつ、ある特定のデータ型の影響を増加させる)ように選択される場合が多い。
バイアス関係性
一部の実施形態では、処理するステップは、バイアス関係性を決定することを含む。例えば、局所ゲノムバイアス推定とバイアス頻度との間の1つまたは複数の関係性が生成され得る。用語「関係性」は、本明細書で使用される場合、2つまたはそれよりも多くの変数または値間の数学的および/または図式的関係性を指す。関係性は、適切な数学的および/または図式的プロセスによって生成され得る。関係性の非限定的な例としては、関数、相関、分布、線形もしくは非線形等式、線、回帰、フィットされた回帰などまたはそれらの組合せの数学的および/または図式的提示が挙げられる。時には、関係性は、フィットされた関係性を含む。一部の実施形態では、フィットされた関係性は、フィットされた回帰を含む。時には、関係性は、重み付けされた2つまたはそれよりも多くの変数または値を含む。一部の実施形態では、関係性は、関係性の1つまたは複数の変数または値が重み付けされる、フィットされた回帰を含む。時には、回帰は、重み付けされた形式でフィットされる。時には、回帰は、重み付けなしにフィットされる。ある特定の実施形態では、関係性を生成することは、プロットまたはグラフ描画することを含む。
ある特定の実施形態では、GC密度とGC密度頻度との間の関係性が生成される。一部の実施形態では、試料について(i)GC密度と(ii)GC密度頻度との間の関係性を生成することは、試料GC密度関係性を提供する。一部の実施形態では、参照について(i)GC密度と(ii)GC密度頻度との間の関係性を生成することは、参照GC密度関係性を提供する。一部の実施形態では、局所ゲノムバイアス推定がGC密度である場合、試料バイアス関係性は、試料GC密度関係性であり、参照バイアス関係性は、参照GC密度関係性である。参照GC密度関係性および/または試料GC密度関係性のGC密度は、局所GC含量の提示(例えば、数学的または定量的提示)である場合が多い。
一部の実施形態では、局所ゲノムバイアス推定とバイアス頻度との間の関係性は、分布を含む。一部の実施形態では、局所ゲノムバイアス推定とバイアス頻度との間の関係性は、フィットされた関係性(例えば、フィットされた回帰)を含む。一部の実施形態では、局所ゲノムバイアス推定とバイアス頻度との間の関係性は、フィットされた線形または非線形回帰(例えば、多項式回帰)を含む。ある特定の実施形態では、局所ゲノムバイアス推定とバイアス頻度との間の関係性は、重み付けされた関係性を含み、局所ゲノムバイアス推定および/またはバイアス頻度は、適切なプロセスによって重み付けされる。一部の実施形態では、重み付けされたフィットされた関係性(例えば、重み付けされたフィッティング)は、分位点回帰、パラメーター化された分布、または内挿を伴う経験分布を含むプロセスによって得られ得る。ある特定の実施形態では、試験試料、参照またはそれらの一部についての局所ゲノムバイアス推定とバイアス頻度との間の関係性は、局所ゲノムバイアス推定が重み付けされる、多項式回帰を含む。一部の実施形態では、重み付けされた(weighed)フィットされたモデルは、分布の値に重み付けすることを含む。分布の値は、適切なプロセスによって重み付けされ得る。一部の実施形態では、分布の尾の近傍に位置する値には、分布の中央値により近い値よりも小さい重み付けが提供される。例えば、局所ゲノムバイアス推定(例えば、GC密度)とバイアス頻度(例えば、GC密度頻度)との間の分布について、重みは、所与の局所ゲノムバイアス推定についてのバイアス頻度に従って決定され、分布の平均(mean)により近いバイアス頻度を含む局所ゲノムバイアス推定には、平均(mean)から離れたバイアス頻度を含む局所ゲノムバイアス推定よりも大きい重みが提供される。
一部の実施形態では、処理するステップは、試験試料の配列リードの局所ゲノムバイアス推定を、参照(例えば、参照ゲノムまたはその一部)の局所ゲノムバイアス推定と比較することによって、配列リードカウントを正規化することを含む。一部の実施形態では、配列リードのカウントは、試験試料の局所ゲノムバイアス推定のバイアス頻度を、参照の局所ゲノムバイアス推定のバイアス頻度と比較することによって、正規化される。一部の実施形態では、配列リードのカウントは、試料バイアス関係性および参照バイアス関係性を比較することによって正規化され、それにより、比較を生成する。
配列リードのカウントは、2つまたはそれよりも多くの関係性の比較に従って正規化され得る。ある特定の実施形態では、2つまたはそれよりも多くの関係性が比較され、それにより、配列リードにおける局所バイアスを低減させる(例えば、カウントを正規化する)ために使用される比較を提供する。2つまたはそれよりも多くの関係性は、適切な方法によって比較され得る。一部の実施形態では、比較は、第1の関係性を第2の関係性に加算すること、第1の関係性を第2の関係性から減算すること、第1の関係性を第2の関係性に乗算すること、および/または第1の関係性を第2の関係性から除算することを含む。ある特定の実施形態では、2つまたはそれよりも多くの関係性を比較することは、適切な線形回帰および/または非線形回帰の使用を含む。ある特定の実施形態では、2つまたはそれよりも多くの関係性を比較することは、適切な多項式回帰(例えば、3次多項式回帰)を含む。一部の実施形態では、比較は、第1の回帰を第2の回帰に加算すること、第1の回帰を第2の回帰から減算すること、第1の回帰を第2の回帰に乗算すること、および/または第1の回帰を第2の回帰から除算することを含む。一部の実施形態では、2つまたはそれよりも多くの関係性は、重回帰の推論フレームワークを含むプロセスによって比較される。一部の実施形態では、2つまたはそれよりも多くの関係性は、適切な多変量分析を含むプロセスによって比較される。一部の実施形態では、2つまたはそれよりも多くの関係性は、基底関数(例えば、ブレンディング関数、例えば、多項式基底、フーリエ基数(Fourier base)など)、スプライン、放射基底関数および/またはウェーブレットを含むプロセスによって比較される。
ある特定の実施形態では、試験試料および参照についてのバイアス頻度を含む局所ゲノムバイアス推定の分布は、多項式回帰を含むプロセスによって比較され、局所ゲノムバイアス推定が重み付けされる。一部の実施形態では、(i)参照の局所ゲノムバイアス推定のバイアス頻度および試料の局所ゲノムバイアス推定のバイアス頻度を各々が含む比と、(ii)局所ゲノムバイアス推定との間での、多項式回帰が生成される。一部の実施形態では、(i)参照の局所ゲノムバイアス推定のバイアス頻度の、試料の局所ゲノムバイアス推定のバイアス頻度に対する比と、(ii)局所ゲノムバイアス推定との間での、多項式回帰が生成される。一部の実施形態では、試験試料および参照のリードについての局所ゲノムバイアス推定の分布の比較は、参照および試料についての局所ゲノムバイアス推定のバイアス頻度のlog比(例えば、log2比)を決定することを含む。一部の実施形態では、局所ゲノムバイアス推定の分布の比較は、参照についての局所ゲノムバイアス推定のバイアス頻度のlog比(例えば、log2比)を、試料についての局所ゲノムバイアス推定のバイアス頻度のlog比(例えば、log2比)によって除算することを含む。
比較に従ってカウントを正規化することは、典型的には、一部のカウントを調整するが、他のカウントは調整しない。カウントを正規化することは、時には、全てのカウントを調整し、時には、配列リードのいずれのカウントも調整しない。配列リードについてのカウントは、時には、重み係数を決定することを含むプロセスによって正規化され、時には、このプロセスは、重み係数を直接的に生成および利用することを含まない。比較に従ってカウントを正規化することは、時には、配列リードの各カウントについての重み係数を決定することを含む。重み係数は、配列リードに特異的である場合が多く、特異的配列リードのカウントに適用される。重み係数は、2つまたはそれよりも多くのバイアス関係性の比較(例えば、参照バイアス関係性と比較した試料バイアス関係性)に従って決定される場合が多い。正規化されたカウントは、重み係数に従ってカウント値を調整することによって決定される場合が多い。重み係数に従ってカウントを調整することは、時には、配列リードについてのカウントを重み係数に加算すること、配列リードについてのカウントを重み係数から減算すること、配列リードについてのカウントを重み係数に乗算すること、および/または配列リードについてのカウントを重み係数から除算することを含む。重み係数および/または正規化されたカウントは、時には、回帰(例えば、回帰線)から決定される。正規化されたカウントは、時には、参照(例えば、参照ゲノム)と試験試料との間での局所ゲノムバイアス推定のバイアス頻度の比較から生じる回帰線(例えば、フィットされた回帰線)から直接的に得られる。一部の実施形態では、試料のリードの各カウントには、(ii)参照の局所ゲノムバイアス推定のバイアス頻度と比較した、(i)リードの局所ゲノムバイアス推定のバイアス頻度の比較に従って、正規化されたカウント値が提供される。ある特定の実施形態では、試料について得られた配列リードのカウントは、正規化され、配列リードにおけるバイアスは、低減される。
LOESS正規化
一部の実施形態では、処理するステップは、LOESS正規化を含む。LOESSは、重回帰モデルをk最近傍法ベースのメタモデルにおいて組み合わせる、当該技術分野で公知の回帰モデル化方法である。LOESSは、時には、局所的に重み付けされた多項式回帰と呼ばれる。GC LOESSは、一部の実施形態では、参照ゲノムの部分についての断片カウント(例えば、配列リード、カウント)とGC組成との間での関係性に、LOESSモデルを適用する。LOESSを使用してデータポイントのセットを通じて滑らかな曲線をプロットすることは、時には、特に、各平滑化された値が、y軸の散布図基準変数の値のスパンにわたって、重み付けされた二次最小二乗回帰によって与えられる場合、LOESS曲線と呼ばれる。データセット中の各ポイントについて、LOESS方法は、その応答が推定されているポイント近傍の説明変数値を用いて、低次多項式をデータのサブセットにフィットさせる。多項式は、重み付けされた最小二乗を使用し、その応答が推定されているポイント近傍のポイントにより大きな重み付けを与え、より離れたポイントにより小さい重み付けを与えて、フィットされる。次いで、ポイントについての回帰関数の値が、そのデータポイントについての説明変数値を使用して局所多項式を評価することによって得られる。LOESSフィットは、時には、回帰関数値がデータポイントの各々について計算された後に、完全とみなされる。この方法の詳細の多く、例えば、多項式モデルの次数および重み付けには、柔軟性がある。
主成分分析
一部の実施形態では、処理するステップは、主成分分析(PCA)を含む。一部の実施形態では、配列リードカウント(例えば、試験試料の配列リードカウント)は、主成分分析(PCA)に従って調整される。一部の実施形態では、リード密度プロファイル(例えば、試験試料のリード密度プロファイル)は、主成分分析(PCA)に従って調整される。1つもしくは複数の参照試料のリード密度プロファイルおよび/または試験対象のリード密度プロファイルは、PCAに従って調整され得る。PCA関連のプロセスによってリード密度プロファイルからバイアスを除去することは、時には、本明細書でプロファイルを調整すると呼ばれる。PCAは、適切なPCA方法またはその変形形態によって実施され得る。PCA方法の非限定的な例としては、正準相関分析(CCA)、カルーエン-レーベ変換(KLT)、ホテリング変換、固有直交分解(POD)、Xの特異値分解(SVD)、XTXの固有値分解(EVD)、因子分析、エッカート-ヤングの定理、シュミット-ミルスキーの定理、経験的直交関数(EOF)、経験的固有関数分解、経験的成分分析、準調和モード、スペクトル分解、経験的モード分析など、それらの変形形態または組合せが挙げられる。PCAは、リード密度プロファイルにおける1つもしくは複数のバイアスを識別し、および/またはそれについて調整する場合が多い。PCAによって識別および/または調整されたバイアスは、時には、本明細書で主成分と呼ばれる。一部の実施形態では、1つまたは複数のバイアスは、適切な方法を使用して、1つまたは複数の主成分に従ってリード密度プロファイルを調整することによって除去され得る。リード密度プロファイルは、1つもしくは複数の主成分をリード密度プロファイルに加算すること、1つもしくは複数の主成分をリード密度プロファイルから減算すること、1つもしくは複数の主成分をリード密度プロファイルに乗算すること、および/または1つもしくは複数の主成分をリード密度プロファイルから除算することによって調整され得る。一部の実施形態では、1つまたは複数のバイアスは、1つまたは複数の主成分をリード密度プロファイルから減算することによって、リード密度プロファイルから除去され得る。リード密度プロファイルにおけるバイアスは、プロファイルのPCAによって識別および/または定量化される場合が多いが、主成分は、リード密度のレベルで、プロファイルから減算される場合が多い。PCAは、1つまたは複数の主成分を識別する場合が多い。一部の実施形態では、PCAは、第1、第2、第3、第4、第5、第6、第7、第8、第9および第10またはそれよりも多くの主成分を識別する。ある特定の実施形態では、1、2、3、4、5、6、7、8、9、10個またはそれよりも多くの主成分が、プロファイルを調整するために使用される。ある特定の実施形態では、5個の主成分が、プロファイルを調整するために使用される。しばしば、主成分は、PCAにおける出現の順序でプロファイルを調整するために使用される。例えば、3つの主成分がリード密度プロファイルから減算される場合、第1、第2および第3の主成分が使用される。時には、主成分によって識別されたバイアスは、プロファイルを調整するために使用されないプロファイルの特色を含む。例えば、PCAは、コピー数変更(例えば、異数性、ミクロ重複、ミクロ欠失、欠失、転座、挿入)および/または性差を、主成分として識別し得る。したがって、一部の実施形態では、1つまたは複数の主成分は、プロファイルを調整するために使用されない。例えば、時には、第3主成分がプロファイルを調整するために使用されない場合、第1、第2および第4主成分が、プロファイルを調整するために使用される。
主成分は、任意の適切な試料または参照を使用して、PCAから得られ得る。一部の実施形態では、主成分は、試験試料(例えば、試験対象)から得られる。一部の実施形態では、主成分は、1つまたは複数の参照(例えば、参照試料、参照配列、参照セット)から得られる。ある特定の場合には、PCAは、複数の試料を含むトレーニングセットから得られたリード密度中央値プロファイルに対して実施され、第1主成分および第2主成分の識別を生じる。一部の実施形態では、主成分は、問題のコピー数変更を欠く対象のセットから得られる。一部の実施形態では、主成分は、既知の正倍数体のセットから得られる。主成分は、参照(例えば、トレーニングセット)の1つまたは複数のリード密度プロファイルを使用して実施されるPCAに従って識別される場合が多い。参照から得られた1つまたは複数の主成分は、試験対象のリード密度プロファイルから減算される場合が多く、それにより、調整されたプロファイルを提供する。
ハイブリッド正規化
一部の実施形態では、処理するステップは、ハイブリッド正規化方法を含む。ハイブリッド正規化方法は、ある特定の場合には、バイアス(例えば、GCバイアス)を低減させ得る。一部の実施形態では、ハイブリッド正規化は、(i)2つの変数(例えば、カウントおよびGC含量)の関係性の分析、ならびに(ii)分析に従う正規化方法の選択および適用を含む。ある特定の実施形態では、ハイブリッド正規化は、(i)回帰(例えば、回帰分析)ならびに(ii)回帰に従う正規化方法の選択および適用を含む。一部の実施形態では、第1の試料(例えば、試料の第1のセット)について得られたカウントは、別の試料(例えば、試料の第2のセット)から得られたカウントとは異なる方法によって正規化される。一部の実施形態では、第1の試料(例えば、試料の第1のセット)について得られたカウントは、第1の正規化方法によって正規化され、第2の試料(例えば、試料の第2のセット)から得られたカウントは、第2の正規化方法によって正規化される。例えば、ある特定の実施形態では、第1の正規化方法は、線形回帰の使用を含み、第2の正規化方法は、非線形回帰(例えば、LOESS、GC-LOESS、LOWESS回帰、LOESS平滑化)の使用を含む。
一部の実施形態では、ハイブリッド正規化方法が、ゲノムまたは染色体の部分にマッピングされた配列リード(例えば、カウント、マッピングされたカウント、マッピングされたリード)を正規化するために使用される。ある特定の実施形態では、生カウントが正規化され、一部の実施形態では、調整された、重み付けされた、フィルタリングされたまたは以前に正規化されたカウントが、ハイブリッド正規化方法によって正規化される。ある特定の実施形態では、レベルまたはZ-スコアが正規化される。一部の実施形態では、ゲノムまたは染色体の選択された部分にマッピングされたカウントは、ハイブリッド正規化アプローチによって正規化される。カウントは、ゲノムの部分にマッピングされた配列リードの適切な尺度を指し得、その非限定的な例としては、生カウント(例えば、未処理のカウント)、正規化されたカウント(例えば、LOESS、主成分または適切な方法によって正規化された)、部分レベル(例えば、平均(average)レベル、平均(mean)レベル、レベル中央値など)、Z-スコアなどまたはそれらの組合せが挙げられる。カウントは、1つまたは複数の試料(例えば、試験試料、妊娠雌性由来の試料)からの生カウントまたは処理されたカウントであり得る。一部の実施形態では、カウントは、1人または複数の対象から得られた1つまたは複数の試料から得られる。
一部の実施形態では、正規化方法(例えば、正規化方法の型)は、回帰(例えば、回帰分析)および/または相関係数に従って選択される。回帰分析は、変数(例えば、カウントおよびGC含量)の間での関係性を推定するための統計的技法を指す。一部の実施形態では、回帰は、参照ゲノムの複数の部分の各部分についてのカウントおよびGC含量の尺度に従って生成される。GC含量の適切な尺度が使用され得、その非限定的な例としては、グアニン、シトシン、アデニン、チミン、プリン(GC)もしくはピリミジン(ATまたはATU)含量の尺度、融解温度(T)(例えば、変性温度、アニーリング温度、ハイブリダイゼーション温度)、自由エネルギーの尺度などまたはそれらの組合せが挙げられる。グアニン(G)、シトシン(C)、アデニン(A)、チミン(T)、プリン(GC)またはピリミジン(ATまたはATU)含量の尺度は、比またはパーセンテージとして表され得る。一部の実施形態では、任意の適切な比またはパーセンテージが使用され、その非限定的な例としては、GC/AT、GC/総ヌクレオチド、GC/A、GC/T、AT/総ヌクレオチド、AT/GC、AT/G、AT/C、G/A、C/A、G/T、G/A、G/AT、C/Tなどまたはそれらの組合せが挙げられる。一部の実施形態では、GC含量の尺度は、GCの、総ヌクレオチド含量に対する比またはパーセンテージである。一部の実施形態では、GC含量の尺度は、参照ゲノムの部分にマッピングされた配列リードについての、GCの、総ヌクレオチド含量に対する比またはパーセンテージである。ある特定の実施形態では、GC含量は、参照ゲノムの各部分にマッピングされた配列リードに従っておよび/またはそれから決定され、配列リードは、試料から得られる。一部の実施形態では、GC含量の尺度は、配列リードに従わずおよび/またはそれから決定されない。ある特定の実施形態では、GC含量の尺度は、1人または複数の対象から得られた1つまたは複数の試料について決定される。
一部の実施形態では、回帰を生成することは、回帰分析または相関分析を生成することを含む。適切な回帰が使用され得、その非限定的な例としては、回帰分析(例えば、線形回帰分析)、適合度分析、ピアソンの相関分析、順位相関、説明されない分散の分率(fraction of variance unexplained)、ナッシュ-サトクリフモデル効率分析、回帰モデル検証、損失比例低減(proportional reduction in loss)、平均(mean)二乗偏差などまたはそれらの組合せが挙げられる。一部の実施形態では、回帰線が生成される。ある特定の実施形態では、回帰を生成することは、線形回帰を生成することを含む。ある特定の実施形態では、回帰を生成することは、非線形回帰(例えば、LOESS回帰、LOWESS回帰)を生成することを含む。
一部の実施形態では、回帰は、例えば、カウントとGC含量の尺度との間での相関(例えば、線形相関)の存在または非存在を決定する。一部の実施形態では、回帰(例えば、線形回帰)が生成され、相関係数が決定される。一部の実施形態では、適切な相関係数が決定され、その非限定的な例としては、決定係数、R値、ピアソンの相関係数などが挙げられる。
一部の実施形態では、適合度が、回帰(例えば、回帰分析、線形回帰)について決定される。適合度は、時には、視覚的または数学的分析によって決定される。評価は、時には、適合度が非線形回帰についてより高いか線形回帰についてより高いかを決定することを含む。一部の実施形態では、相関係数は、適合度の尺度である。一部の実施形態では、回帰についての適合度の評価は、相関係数および/または相関係数カットオフ値に従って決定される。一部の実施形態では、適合度の評価は、相関係数を相関係数カットオフ値と比較することを含む。一部の実施形態では、回帰についての適合度の評価は、線形回帰を示す。例えば、ある特定の実施形態では、適合度は、非線形回帰についてよりも線形回帰についてより高く、適合度の評価は、線形回帰を示す。一部の実施形態では、評価は、線形回帰を示し、線形回帰は、カウントを正規化する(normalized)ために使用される。一部の実施形態では、回帰についての適合度の評価は、非線形回帰を示す。例えば、ある特定の実施形態では、適合度は、線形回帰についてよりも非線形回帰についてより高く、適合度の評価は、非線形回帰を示す。一部の実施形態では、評価は、非線形回帰を示し、非線形回帰は、カウントを正規化するために使用される。
一部の実施形態では、適合度の評価は、相関係数が相関係数カットオフと等しいかまたはそれよりも大きい場合、線形回帰を示す。一部の実施形態では、適合度の評価は、相関係数が相関係数カットオフ未満である場合、非線形回帰を示す。一部の実施形態では、相関係数カットオフは、所定のものである。一部の実施形態では、相関係数カットオフは、約0.5もしくはそれよりも大きい、約0.55もしくはそれよりも大きい、約0.6もしくはそれよりも大きい、約0.65もしくはそれよりも大きい、約0.7もしくはそれよりも大きい、約0.75もしくはそれよりも大きい、約0.8もしくはそれよりも大きい、または約0.85もしくはそれよりも大きい。
一部の実施形態では、特定の型の回帰が選択され(例えば、線形または非線形回帰)、回帰が生成された後、カウントは、回帰をカウントから減算することによって正規化される。一部の実施形態では、回帰をカウントから減算することは、低減されたバイアス(例えば、GCバイアス)を有する正規化されたカウントを提供する。一部の実施形態では、線形回帰が、カウントから減算される。一部の実施形態では、非線形回帰(例えば、LOESS、GC-LOESS、LOWESS回帰)が、カウントから減算される。任意の適切な方法が、回帰線をカウントから減算するために使用され得る。例えば、カウントxが、0.5のGC含量を含む部分i(例えば、部分i)から導出され、回帰線が、0.5のGC含量でカウントyを決定する場合、部分iについて、x-y=正規化されたカウントである。一部の実施形態では、カウントは、回帰を減算する前および/または後に正規化される。一部の実施形態では、ハイブリッド正規化アプローチによって正規化されたカウントは、ゲノムまたはその一部のレベル、Z-スコア、レベルおよび/またはプロファイルを生成するために使用される。ある特定の実施形態では、ハイブリッド正規化アプローチによって正規化されたカウントは、遺伝的変異または遺伝的変更(例えば、コピー数変更)の存在または非存在を決定するために、本明細書に記載される方法によって分析される。
一部の実施形態では、ハイブリッド正規化方法は、正規化の前または後に1つまたは複数の部分をフィルタリングまたは重み付けするステップを含む。本明細書に記載される部分(例えば、参照ゲノムの部分)をフィルタリングする方法を含む、部分をフィルタリングする適切な方法が使用され得る。一部の実施形態では、部分(例えば、参照ゲノムの部分)は、ハイブリッド正規化方法を適用する前にフィルタリングされる。一部の実施形態では、選択された部分(例えば、カウント変動性に従って選択された部分)にマッピングされた配列決定リードのカウントのみが、ハイブリッド正規化によって正規化される。一部の実施形態では、参照ゲノムのフィルタリングされた部分(例えば、カウント変動性に従ってフィルタリングされた部分)にマッピングされた配列決定リードのカウントは、ハイブリッド正規化方法を利用する前に除去される。一部の実施形態では、ハイブリッド正規化方法は、適切な方法(例えば、本明細書に記載される方法)に従って部分(例えば、参照ゲノムの部分)を選択またはフィルタリングするステップを含む。一部の実施形態では、ハイブリッド正規化方法は、複数の試験試料についての部分の各々にマッピングされたカウントについての不確定値に従って、部分(例えば、参照ゲノムの部分)を選択またはフィルタリングするステップを含む。一部の実施形態では、ハイブリッド正規化方法は、カウント変動性に従って部分(例えば、参照ゲノムの部分)を選択またはフィルタリングするステップを含む。一部の実施形態では、ハイブリッド正規化方法は、GC含量、反復エレメント、反復配列、イントロン、エクソンなどまたはそれらの組合せに従って、部分(例えば、参照ゲノムの部分)を選択またはフィルタリングするステップを含む。
プロファイル
一部の実施形態では、処理するステップは、データセットまたはその派生物(例えば、当該技術分野で公知のおよび/または本明細書に記載される1つまたは複数の数学的および/または統計的データ処理ステップの生成物)の種々の態様から、1つまたは複数のプロファイル(例えば、プロファイルプロット)を生成することを含む。
用語「プロファイル」は、本明細書で使用される場合、大量のデータ中のパターンおよび/または相関の識別を促進し得る、データの数学的および/または統計的操作の生成物を指す。「プロファイル」は、1つまたは複数の基準に基づく、データまたはデータセットの1つまたは複数の操作から得られる値を含む場合が多い。プロファイルは、複数のデータポイントを含む場合が多い。任意の適切な数のデータポイントが、データセットの性質および/または複雑性に依存して、プロファイル中に含められ得る。ある特定の実施形態では、プロファイルは、2個もしくはそれよりも多くのデータポイント、3個もしくはそれよりも多くのデータポイント、5個もしくはそれよりも多くのデータポイント、10個もしくはそれよりも多くのデータポイント、24個もしくはそれよりも多くのデータポイント、25個もしくはそれよりも多くのデータポイント、50個もしくはそれよりも多くのデータポイント、100個もしくはそれよりも多くのデータポイント、500個もしくはそれよりも多くのデータポイント、1000個もしくはそれよりも多くのデータポイント、5000個もしくはそれよりも多くのデータポイント、10,000個もしくはそれよりも多くのデータポイント、または100,000個もしくはそれよりも多くのデータポイントを含み得る。
一部の実施形態では、プロファイルは、データセットの全体を代表し、ある特定の実施形態では、プロファイルは、データセットの一部またはサブセットを代表する。即ち、プロファイルは、時には、いずれのデータを除去するようにもフィルタリングされていないデータを代表するデータポイントを含むかまたはそれから生成され、時には、プロファイルは、望ましくないデータを除去するようにフィルタリングされたデータを代表するデータポイントを含むかまたはそれから生成される。一部の実施形態では、プロファイル中のデータポイントは、部分についてのデータ操作の結果を示す。ある特定の実施形態では、プロファイル中のデータポイントは、部分の群についてのデータ操作の結果を含む。一部の実施形態では、部分の群は、互いに隣接していてもよく、ある特定の実施形態では、部分の群は、染色体またはゲノムの異なる部分由来であってもよい。
データセットから導出されたプロファイル中のデータポイントは、任意の適切なデータカテゴリー化を代表し得る。プロファイルデータポイントを生成するためにデータがその中にグループ分けされ得るカテゴリーの非限定的な例としては、以下が挙げられる:サイズに基づく部分、配列特色(例えば、GC含量、AT含量、染色体上の位置(例えば、短腕、長腕、セントロメア、テロメア)など)に基づく部分、発現のレベル、染色体などまたはそれらの組合せ。一部の実施形態では、プロファイルは、別のプロファイル(例えば、再正規化されたデータプロファイルを生成するために、異なる正規化値に対して再正規化された正規化されたデータプロファイル)から得られたデータポイントから生成され得る。ある特定の実施形態では、別のプロファイルから得られたデータポイントから生成されたプロファイルは、データポイントの数および/またはデータセットの複雑性を低減させる。データポイントの数および/またはデータセットの複雑性を低減させることは、データの解釈を促進し、および/またはアウトカムの提供を促進する場合が多い。
プロファイル(例えば、ゲノムプロファイル、染色体プロファイル、染色体の一部のプロファイル)は、2つまたはそれよりも多くの部分についての正規化されたまたは正規化されていないカウントの収集である場合が多い。プロファイルは、少なくとも1つのレベルを含む場合が多く、2つまたはそれよりも多くのレベルを含む場合が多い(例えば、プロファイルは、複数のレベルを有する場合が多い)。レベルは、一般に、約同じカウントまたは正規化されたカウントを有する部分のセットについてのものである。レベルは、本明細書でさらに詳細に記載される。ある特定の実施形態では、プロファイルは、1つまたは複数の部分を含み、これらの部分は、重み付けされ得、除去され得、フィルタリングされ得、正規化され得、調整され得、平均され(averaged)得、平均(mean)として導出され得、加算され得、減算され得、処理され得、またはそれらの任意の組合せによって変形され得る。プロファイルは、2つまたはそれよりも多くのレベルを定義する部分にマッピングされた正規化されたカウントを含む場合が多く、これらのカウントは、適切な方法によって、レベルの1つに従ってさらに正規化される。しばしば、プロファイルのカウント(例えば、プロファイルレベル)は、不確定値に関連する。
1つまたは複数のレベルを含むプロファイルは、時には、パディングされる(例えば、ホールパディング(hole padding))。パディング(例えば、ホールパディング)は、コピー数変更(例えば、患者のゲノム中のミクロ重複またはミクロ欠失、母方ミクロ重複またはミクロ欠失)に起因するプロファイル中のレベルを識別および調整するプロセスを指す。一部の実施形態では、腫瘍または胎児におけるミクロ重複またはミクロ欠失に起因するレベルがパディングされる。一部の実施形態では、プロファイル中のミクロ重複またはミクロ欠失は、プロファイル(例えば、染色体のプロファイル)の全体的レベルを人工的に上昇または低下させ得、染色体異数性(例えば、トリソミー)の偽陽性または偽陰性決定をもたらす。一部の実施形態では、ミクロ重複および/または欠失に起因するプロファイル中のレベルは、時にはパディングまたはホールパディングと呼ばれるプロセスによって識別および調整(例えば、パディングおよび/または除去)される。
1つまたは複数のレベルを含むプロファイルは、第1のレベルおよび第2のレベルを含み得る。一部の実施形態では、第1のレベルは、第2のレベルとは異なる(例えば、有意に異なる)。一部の実施形態では、第1のレベルは部分の第1のセットを含み、第2のレベルは部分の第2のセットを含み、部分の第1のセットは、部分の第2のセットのサブセットではない。ある特定の実施形態では、部分の第1のセットは、第1および第2のレベルがそれから決定される部分の第2のセットとは異なる。一部の実施形態では、プロファイルは、プロファイル内の第2のレベルとは異なる(例えば、有意に異なる、例えば、有意に異なる値を有する)複数の第1のレベルを有し得る。一部の実施形態では、プロファイルは、プロファイル内の第2のレベルとは有意に異なる1つまたは複数の第1のレベルを含み、第1のレベルの1つまたは複数は、調整される。一部の実施形態では、プロファイル内の第1のレベルは、プロファイルから除去され、または調整される(例えば、パディングされる)。プロファイルは、1つまたは複数の第2のレベルとは有意に異なる1つまたは複数の第1のレベルを含む複数のレベルを含み得、しばしば、プロファイル中のレベルの多数派は、第2のレベルであり、これらの第2のレベルは、互いに約等しい。一部の実施形態では、プロファイル中のレベルの50%よりも多く、60%よりも多く、70%よりも多く、80%よりも多く、90%よりも多く、または95%よりも多くが、第2のレベルである。
プロファイルは、時には、プロットとして表示される。例えば、部分のカウント(例えば、正規化されたカウント)を示す1つまたは複数のレベルが、プロットおよび可視化され得る。生成され得るプロファイルプロットの非限定的な例としては、生カウント(例えば、生カウントプロファイルまたは生プロファイル)、正規化されたカウント、部分-重み付けされた、z-スコア、p値、面積比対フィットされた倍数性、レベル中央値対フィットされた少数派種分率と測定された少数派種分率との間の比、主成分などまたはそれらの組合せが挙げられる。プロファイルプロットは、一部の実施形態では、操作されたデータの可視化を可能にする。ある特定の実施形態では、プロファイルプロットは、アウトカム(例えば、面積比対フィットされた倍数性、レベル中央値対フィットされた少数派種分率と測定された少数派種分率との間の比、主成分)を提供するために利用され得る。用語「生カウントプロファイルプロット」または「生プロファイルプロット」は、本明細書で使用される場合、領域(例えば、ゲノム、部分、染色体、参照ゲノムの染色体部分または染色体の一部)中の総カウントに対して正規化された、領域中の各部分におけるカウントのプロットを指す。一部の実施形態では、プロファイルは、静的ウインドウプロセスを使用して生成され得、ある特定の実施形態では、プロファイルは、スライディングウインドウプロセスを使用して生成され得る。
試験対象について生成されたプロファイルは、時には、データセットの数学的および/もしくは統計的操作の解釈を促進するため、ならびに/またはアウトカムを提供するために、1つまたは複数の参照対象について生成されたプロファイルと比較される。一部の実施形態では、プロファイルは、1つまたは複数の出発仮定、例えば、本明細書に記載される仮定に基づいて生成される。ある特定の実施形態では、試験プロファイルは、コピー数変更の非存在を代表する所定の値を中心とする場合が多く、試験対象がコピー数変更を有した場合、試験対象中のコピー数変更が位置するゲノム場所に対応する領域において、所定の値から逸脱する場合が多い。コピー数変更に関連する医学的状態のリスクがあるかまたはそれを患っている試験対象では、選択された部分についての数値は、非罹患のゲノム場所についての所定の値から有意に変動すると予期される。出発仮定(例えば、固定された倍数性もしくは最適化された倍数性、がん細胞核酸の固定された分率もしくはがん細胞核酸の最適化された分率、固定された胎児分率もしくは最適化された胎児分率、またはそれらの組合せ)に依存して、コピー数変更の存在または非存在を示す所定の閾値またはカットオフ値または値の閾値範囲は、コピー数変更の存在または非存在を決定するのに有用なアウトカムをなおも提供しながら、変動し得る。一部の実施形態では、プロファイルは、表現型を示すおよび/または代表する。
一部の実施形態では、問題のコピー数変更を実質的に含まない1つまたは複数の参照試料の使用は、コピー数変更の非存在を代表する所定の値を生じ得、試験対象がコピー数変更を有した場合、試験対象中のコピー数変更が位置するゲノム場所に対応する領域において、所定の値から逸脱する場合が多い、参照カウントプロファイル(例えば、参照カウント中央値プロファイル)を生成するために使用され得る。コピー数変更に関連する医学的状態のリスクがあるかまたはそれを患っている試験対象では、選択された部分または区域についての数値は、非罹患のゲノム場所についての所定の値から有意に変動すると予期される。ある特定の実施形態では、問題のコピー数変更を有することが既知の1つまたは複数の参照試料の使用は、コピー数変更の存在を代表する所定の値を生じ得、試験対象がコピー数変更を有さないゲノム場所に対応する領域において、所定の値から逸脱する場合が多い、参照カウントプロファイル(参照カウント中央値プロファイル)を生成するために使用され得る。コピー数変更に関連する医学的状態のリスクがないかまたはそれを患っていない試験対象では、選択された部分または区域についての数値は、罹患したゲノム場所についての所定の値から有意に変動すると予期される。
非限定的な例として、正規化された試料および/または参照カウントプロファイルは、(a)コピー数変更を有さないことが既知の参照のセットから、選択された染色体、部分またはそれらの一部についての参照カウント中央値を計算するステップ、(b)参照試料生カウントからの非情報提供的部分の除去(例えば、フィルタリング);(c)参照ゲノムの全ての残りの部分についての参照カウントを、参照試料の選択された染色体または選択されたゲノム場所についてのカウントの総残留数(例えば、参照ゲノムの非情報提供的部分の除去後の残りのカウントの合計)に対して正規化し、それにより、正規化された参照対象プロファイルを生成するステップ;(d)対応する部分を試験対象試料から除去するステップ;および(e)1つまたは複数の選択されたゲノム場所についての残りの試験対象カウントを、染色体または選択されたゲノム場所を含有する染色体についての残留参照カウント中央値の合計に対して正規化し、それにより、正規化された試験対象プロファイルを生成するステップによって、生配列リードデータから得られ得る。ある特定の実施形態では、(b)においてフィルタリングされた部分の分低減された、ゲノム全体に関するさらなる正規化ステップが、(c)と(d)との間に含められ得る。
一部の実施形態では、リード密度プロファイルが決定される。一部の実施形態では、リード密度プロファイルは、少なくとも1つのリード密度を含み、しばしば、2つまたはそれよりも多くのリード密度を含む(例えば、リード密度プロファイルは、複数のリード密度を含む場合が多い)。一部の実施形態では、リード密度プロファイルは、適切な定量的値(例えば、平均(mean)、中央値、Z-スコアなど)を含む。リード密度プロファイルは、1つまたは複数のリード密度から得られた値を含む場合が多い。リード密度プロファイルは、時には、1回または複数の調整(例えば、正規化)に基づいてリード密度の1つまたは複数の操作から得られる値を含む。一部の実施形態では、リード密度プロファイルは、未操作のリード密度を含む。一部の実施形態では、1つまたは複数のリード密度プロファイルは、リード密度を含むデータセットまたはその派生物(例えば、当該技術分野で公知のおよび/または本明細書に記載される1つまたは複数の数学的および/または統計的データ処理ステップの生成物)の種々の態様から生成される。ある特定の実施形態では、リード密度プロファイルは、正規化されたリード密度を含む。一部の実施形態では、リード密度プロファイルは、調整されたリード密度を含む。ある特定の実施形態では、リード密度プロファイルは、生リード密度(例えば、未操作の、調整も正規化もされていない)、正規化されたリード密度、重み付けされたリード密度、フィルタリングされた部分のリード密度、リード密度のz-スコア、リード密度のp値、リード密度の積分値(例えば、曲線下面積)、平均(average)、平均(mean)もしくはリード密度中央値、主成分などまたはそれらの組合せを含む。しばしば、リード密度プロファイルのリード密度および/またはリード密度プロファイルは、不確実性の尺度(例えば、MAD)に関連する。ある特定の実施形態では、リード密度プロファイルは、リード密度中央値の分布を含む。一部の実施形態では、リード密度プロファイルは、複数のリード密度の関係性(例えば、フィットされた関係性、回帰など)を含む。例えば、時には、リード密度プロファイルは、リード密度(例えば、リード密度値)とゲノム場所(例えば、部分、部分場所)との間の関係性を含む。一部の実施形態では、リード密度プロファイルは、静的ウインドウプロセスを使用して生成され、ある特定の実施形態では、リード密度プロファイルは、スライディングウインドウプロセスを使用して生成される。一部の実施形態では、リード密度プロファイルは、時には、印刷および/または表示される(例えば、視覚的提示、例えば、プロットまたはグラフとして表示される)。
一部の実施形態では、リード密度プロファイルは、部分のセット(例えば、参照ゲノムの部分のセット、染色体の部分のセットまたは染色体の一部の部分のサブセット)に対応する。一部の実施形態では、リード密度プロファイルは、部分の収集(例えば、セット、サブセット)に関連するリード密度および/またはカウントを含む。一部の実施形態では、リード密度プロファイルは、連続する部分のリード密度について決定される。一部の実施形態では、連続する部分は、密度プロファイル中に含まれない参照配列および/または配列リードの領域(例えば、フィルタリングによって除去された部分)を含むギャップを含む。時には、連続する部分(例えば、部分のセット)は、ゲノムの近隣の領域または染色体もしくは遺伝子の近隣の領域を示す。例えば、2つまたはそれよりも多くの連続する部分は、末端から末端まで部分をマージさせることによってアラインされた場合、各部分よりも長いDNA配列の配列アセンブリを示し得る。例えば、2つまたはそれよりも多くの連続する部分は、インタクトなゲノム、染色体、遺伝子、イントロン、エクソンまたはそれらの一部を示し得る。時には、リード密度プロファイルは、連続する部分および/または非連続の部分の収集(例えば、セット、サブセット)から決定される。一部の場合には、リード密度プロファイルは、1つまたは複数の部分を含み、これらの部分は、重み付けされ得、除去され得、フィルタリングされ得、正規化され得、調整され得、平均され(averaged)得、平均(mean)として導出され得、加算され得、減算され得、処理され得またはそれらの任意の組合せによって変形され得る。
リード密度プロファイルは、試料および/または参照(例えば、参照試料)について決定される場合が多い。リード密度プロファイルは、時には、ゲノム全体、1つもしくは複数の染色体、またはゲノムもしくは染色体の一部について生成される。一部の実施形態では、1つまたは複数のリード密度プロファイルが、ゲノムまたはその一部について決定される。一部の実施形態では、リード密度プロファイルは、試料のリード密度のセットの全体を代表し、ある特定の実施形態では、リード密度プロファイルは、試料のリード密度の一部またはサブセットを代表する。即ち、時には、リード密度プロファイルは、いずれのデータを除去するようにもフィルタリングされていないデータを代表するリード密度を含むかまたはそれから生成され、時には、リード密度プロファイルは、望ましくないデータを除去するようにフィルタリングされたデータを代表するデータポイントを含むかまたはそれから生成される。
一部の実施形態では、リード密度プロファイルは、参照(例えば、参照試料、トレーニングセット)について決定される。参照についてのリード密度プロファイルは、時には、本明細書で参照プロファイルと呼ばれる。一部の実施形態では、参照プロファイルは、1つまたは複数の参照(例えば、参照配列、参照試料)から得られたリード密度を含む。一部の実施形態では、参照プロファイルは、1つまたは複数の既知の正倍数体試料(例えば、そのセット)について決定されたリード密度を含む。一部の実施形態では、参照プロファイルは、フィルタリングされた部分のリード密度を含む。一部の実施形態では、参照プロファイルは、1つまたは複数の主成分に従って調整されたリード密度を含む。
比較を実施する
一部の実施形態では、処理するステップは、比較を実施すること(例えば、試験プロファイルを参照プロファイルと比較すること)を含む。2つもしくはそれよりも多くのデータセット、2つもしくはそれよりも多くの関係性および/または2つもしくはそれよりも多くのプロファイルは、適切な方法によって比較され得る。データセット、関係性および/またはプロファイルを比較するのに適切な統計的方法の非限定的な例としては、ベーレンス-フィッシャーアプローチ、ブートストラッピング、有意性の独立した検定を組み合わせるためのフィッシャーの方法、ネイマン-ピアソン検定、確認データ分析、探索的データ分析、正確確率検定、F検定、Z検定、T検定、不確実性の尺度を計算および/もしくは比較すること、帰無仮説、対立仮説など、カイ二乗検定、オムニバス検定、有意性(例えば、統計的有意性)のレベルを計算および/もしくは比較すること、メタ分析、多変量分析、回帰、線形単回帰、ロバスト線形回帰などまたは上述の組合せが挙げられる。ある特定の実施形態では、2つまたはそれよりも多くのデータセット、関係性および/またはプロファイルを比較することは、不確実性の尺度を決定および/または比較することを含む。「不確実性の尺度」は、本明細書で使用される場合、有意性(例えば、統計的有意性)の尺度、誤差の尺度、分散の尺度、信頼の尺度などまたはそれらの組合せを指す。不確実性の尺度は、値(例えば、閾値)または値の範囲(例えば、区間、信頼区間、ベイズ信頼区間、閾値範囲)であり得る。不確実性の尺度の非限定的な例としては、p値、偏差の適切な尺度(例えば、標準偏差、シグマ、絶対偏差、平均(mean)絶対偏差など)、誤差の適切な尺度(例えば、標準誤差、平均(mean)二乗誤差、二乗平均(mean)平方根誤差など)、分散の適切な尺度、適切な標準スコア(例えば、標準偏差、累積パーセンテージ、パーセンタイル等価値(percentile equivalent)、Z-スコア、T-スコア、R-スコア、スタンダードナイン(standard nine)(スタナイン)、スタナインでのパーセントなど)などまたはそれらの組合せが挙げられる。一部の実施形態では、有意性のレベルを決定することは、不確実性の尺度(例えば、p値)を決定することを含む。ある特定の実施形態では、2つまたはそれよりも多くのデータセット、関係性および/またはプロファイルは、複数の(例えば、2つまたはそれよりも多くの)統計的方法(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類ツリーモデル、K最近傍法、ロジスティック回帰および/または損失平滑化(loss smoothing))ならびに/または任意の適切な数学的および/もしくは統計的操作(例えば、本明細書で操作と呼ばれる)を利用することによって、分析および/または比較され得る。
一部の実施形態では、処理するステップは、2つまたはそれよりも多くのプロファイル(例えば、2つまたはそれよりも多くのリード密度プロファイル)の比較を含む。プロファイルを比較することは、ゲノムの選択された領域について生成されたプロファイルを比較することを含み得る。例えば、試験プロファイルは、参照プロファイルと比較され得、試験および参照プロファイルは、実質的に同じ領域であるゲノム(例えば、参照ゲノム)の領域について決定された。プロファイルを比較することは、時には、プロファイル(例えば、リード密度プロファイル)の部分の2つまたはそれよりも多くのサブセットを比較することを含む。プロファイルの部分のサブセットは、ゲノムの領域(例えば、染色体またはその領域)を示し得る。プロファイル(例えば、リード密度プロファイル)は、任意の量の部分のサブセットを含み得る。時には、プロファイル(例えば、リード密度プロファイル)は、2個もしくはそれよりも多くの、3個もしくはそれよりも多くの、4個もしくはそれよりも多くの、または5個もしくはそれよりも多くのサブセットを含む。ある特定の実施形態では、プロファイル(例えば、リード密度プロファイル)は、部分の2個のサブセットを含み、各部分は、隣接する参照ゲノムの領域を示す。一部の実施形態では、試験プロファイルは、参照プロファイルと比較され得、試験プロファイルおよび参照プロファイルは共に、部分の第1のサブセットおよび部分の第2のサブセットを含み、第1および第2のサブセットは、ゲノムの異なる領域を示す。プロファイルの部分の一部のサブセットは、コピー数変更を含み得、部分の他のサブセットは、時には、コピー数変更を実質的に含まない。時には、プロファイル(例えば、試験プロファイル)の部分の全てのサブセットは、コピー数変更を実質的に含まない。時には、プロファイル(例えば、試験プロファイル)の部分の全てのサブセットは、コピー数変更を含む。一部の実施形態では、試験プロファイルは、コピー数変更を含む部分の第1のサブセットおよびコピー数変更を実質的に含まない部分の第2のサブセットを含み得る。
ある特定の実施形態では、2つまたはそれよりも多くのプロファイルを比較することは、2つまたはそれよりも多くのプロファイルについての不確実性の尺度を決定および/または比較することを含む。プロファイル(例えば、リード密度プロファイル)および/または不確実性の関連する尺度は、時には、データセットの数学的および/もしくは統計的操作の解釈を促進するため、ならびに/またはアウトカムを提供するために、比較される。試験対象について生成されたプロファイル(例えば、リード密度プロファイル)は、時には、1つまたは複数の参照(例えば、参照試料、参照対象など)について生成されたプロファイル(例えば、リード密度プロファイル)と比較される。一部の実施形態では、アウトカムは、染色体、部分またはそれらの一部について、試験対象からのプロファイル(例えば、リード密度プロファイル)を、参照からのプロファイル(例えば、リード密度プロファイル)と比較することによって提供され、参照プロファイルは、コピー数変更を有さないことが既知の参照対象(例えば、参照)のセットから得られる。一部の実施形態では、アウトカムは、染色体、部分またはそれらの一部について、試験対象からのプロファイル(例えば、リード密度プロファイル)を、参照からのプロファイル(例えば、リード密度プロファイル)と比較することによって提供され、参照プロファイルは、特定のコピー数変更(例えば、染色体異数性、ミクロ重複、ミクロ欠失)を有することが既知の参照対象のセットから得られる。
ある特定の実施形態では、試験対象のプロファイル(例えば、リード密度プロファイル)は、コピー数変更の非存在を代表する所定の値と比較され、時には、コピー数変更が位置するゲノム場所に対応する1つまたは複数のゲノム場所(例えば、部分)において所定の値から逸脱する。例えば、試験対象(例えば、コピー数変更に関連する医学的状態のリスクがあるかまたはそれを患っている対象)では、プロファイルは、試験対象が問題のコピー数変更を含む場合、選択された部分についての参照(例えば、参照配列、参照対象、参照セット)のプロファイルとは有意に異なると予期される。試験対象のプロファイル(例えば、リード密度プロファイル)は、試験対象が問題のコピー数変更を含まない場合、選択された部分についての参照(例えば、参照配列、参照対象、参照セット)のプロファイル(例えば、リード密度プロファイル)と実質的に同じである場合が多い。プロファイル(例えば、リード密度プロファイル)は、所定の閾値および/または閾値範囲と比較され得る。用語「閾値」は、本明細書で使用される場合、適格なデータセットを使用して計算され、コピー数変更(例えば、異数性、ミクロ重複、ミクロ欠失など)の診断の境界として機能する、任意の数を指す。ある特定の実施形態では、閾値を、本明細書に記載される方法によって得られた結果が超えると、対象は、コピー数変更を有すると診断される。一部の実施形態では、閾値の値または値の範囲は、配列リードデータ(例えば、参照および/または対象からの)を数学的および/または統計的に操作することによって計算され得る。コピー数変更の存在または非存在を示す所定の閾値または値の閾値範囲は、コピー数変更の存在または非存在を決定するのに有用なアウトカムをなおも提供しながら、変動し得る。ある特定の実施形態では、正規化されたリード密度および/または正規化されたカウントを含むプロファイル(例えば、リード密度プロファイル)は、分類を促進するためおよび/またはアウトカムを提供するために生成される。アウトカムは、正規化されたカウントを含むプロファイル(例えば、リード密度プロファイル)のプロットに基づいて(例えば、かかるリード密度プロファイルのプロットを使用して)提供され得る。
決定分析
一部の実施形態では、アウトカムの決定(例えば、コールを行うこと)またはコピー数変更(例えば、染色体異数性、ミクロ重複、ミクロ欠失)の存在もしくは非存在の決定は、決定分析に従って行われる。ある特定の決定分析特色は、国際特許出願公開番号WO2014/190286号に記載され、これは、これにより参照により本明細書に組み込まれる。例えば、決定分析は、時には、決定の結果、評価および/または可能な帰結に基づいて1つまたは複数の結果、結果の評価および一連の決定を生成する1つまたは複数の方法を適用すること、ならびに最終決定がなされるプロセスの一部の決定的な時点において終結させることを含む。一部の実施形態では、決定分析は、決定木である。一部の実施形態では、決定分析は、1つまたは複数のプロセス(例えば、プロセスステップ、例えば、アルゴリズム)の連携された使用を含む。決定分析は、人間、システム、装置、ソフトウェア(例えば、モジュール)、コンピュータ、プロセッサー(例えば、マイクロプロセッサー)などまたはそれらの組合せによって実施され得る。一部の実施形態では、決定分析は、決定分析が利用されない場合(例えば、決定は、正規化されたカウントから直接的になされる)と比較して低減された偽陰性および低減された偽陽性の決定を伴って、コピー数変更(例えば、染色体異数性、ミクロ重複またはミクロ欠失)の存在または非存在を決定する方法を含む。一部の実施形態では、決定分析は、1つまたは複数のコピー数変更に関連する状態の存在または非存在を決定することを含む。
一部の実施形態では、決定分析は、ゲノムまたはゲノムの領域(例えば、染色体またはその一部)についてのプロファイルを生成することを含む。プロファイルは、公知のまたは本明細書に記載される任意の適切な方法によって生成され得る。一部の実施形態では、決定分析は、セグメント化プロセスを含む。セグメント化は、プロファイルを改変および/または変形させることができ、それにより、プロファイルの1つまたは複数の分解レンダリングを提供する。セグメント化プロセスに供されたプロファイルは、参照ゲノムまたはその一部中の部分にマッピングされた正規化されたカウントのプロファイルである場合が多い。本明細書で扱われる場合、部分にマッピングされた生カウントは、セグメント化されたプロファイルを決定分析の一部として生成するために、1つまたは複数の適切な正規化プロセス(例えば、LOESS、GC-LOESS、主成分正規化またはそれらの組合せ)によって正規化され得る。プロファイルの分解レンダリングは、プロファイルの変形である場合が多い。プロファイルの分解レンダリングは、時には、ゲノム、染色体またはその一部の提示への、プロファイルの変形である。
ある特定の実施形態では、セグメント化に利用されるセグメント化プロセスは、プロファイル内の1つまたは複数の他のレベルとは異なる(例えば、実質的にまたは有意に異なる)、プロファイル内の1つまたは複数のレベルを位置付けおよび識別する。プロファイル中の別のレベルとは異なり、プロファイル中の別のレベルとは異なるエッジを有する、セグメント化プロセスに従って識別されたプロファイル中のレベルは、本明細書で、離散型セグメントについてのレベルと呼ばれる。セグメント化プロセスは、正規化されたカウントまたはレベルのプロファイルから、1つまたは複数の離散型セグメントが識別され得る分解レンダリングを生成することができる。離散型セグメントは、一般に、セグメント化されたもの(例えば、染色体(単数)、染色体(複数)、常染色体)よりも少ない部分をカバーする。
一部の実施形態では、セグメント化は、プロファイル内の離散型セグメントのエッジを位置付けおよび識別する。ある特定の実施形態では、1つまたは複数の離散型セグメントの一方または両方のエッジが識別される。例えば、セグメント化プロセスは、プロファイル中の離散型セグメントの右および/または左のエッジの場所(例えば、ゲノム座標、例えば、部分場所)を識別することができる。離散型セグメントは、2つのエッジを含む場合が多い。例えば、離散型セグメントは、左のエッジおよび右のエッジを含み得る。一部の実施形態では、提示または表示に依存して、左のエッジは、プロファイル中の核酸セグメントの5’-エッジであり得、右のエッジは、3’-エッジであり得る。一部の実施形態では、左のエッジは、プロファイル中の核酸セグメントの3’-エッジであり得、右のエッジは、5’-エッジであり得る。しばしば、プロファイルのエッジは、セグメント化前に既知であり、したがって、一部の実施形態では、プロファイルのエッジは、レベルのどのエッジが5’-エッジであり、どのエッジが3’-エッジであるかを決定する。一部の実施形態では、プロファイルおよび/または離散型セグメントの一方または両方のエッジは、染色体のエッジである。
一部の実施形態では、離散型セグメントのエッジは、参照試料(例えば、参照プロファイル)について生成された分解レンダリングに従って決定される。一部の実施形態では、帰無エッジ高さ分布は、参照プロファイル(例えば、染色体またはその一部のプロファイル)の分解レンダリングに従って決定される。ある特定の実施形態では、プロファイル中の離散型セグメントのエッジは、離散型セグメントのレベルが帰無エッジ高さ分布の外側にある場合に識別される。一部の実施形態では、プロファイル中の離散型セグメントのエッジは、参照プロファイルについての分解レンダリングに従って計算されたZ-スコアに従って識別される。
一部の場合には、セグメント化は、プロファイル中の2つまたはそれよりも多くの離散型セグメント(例えば、2つまたはそれよりも多くの断片化されたレベル、2つまたはそれよりも多くの断片化されたセグメント)を生成する。一部の実施形態では、セグメント化プロセスから導出された分解レンダリングは、過剰セグメント化または断片化され、複数の離散型セグメントを含む。時には、セグメント化によって生成された離散型セグメントは、実質的に異なり、時には、セグメント化によって生成された離散型セグメントは、実質的に類似である。実質的に類似の離散型セグメント(例えば、実質的に類似のレベル)は、所定のレベルの不確実性未満分異なるレベルを各々が有するセグメント化されたプロファイル中の2つまたはそれよりも多くの隣接する離散型セグメントを指す場合が多い。一部の実施形態では、実質的に類似の離散型セグメントは、互いに隣接し、介在するセグメントによって分離されない。一部の実施形態では、実質的に類似の離散型セグメントは、1つまたは複数のより小さいセグメントによって分離される。一部の実施形態では、実質的に類似の離散型セグメントは、約1~約20個、約1~約15個、約1~約10個または約1~約5個の部分によって分離され、介在する部分のうちの1つまたは複数は、実質的に類似の離散型セグメントの各々のレベルとは有意に異なるレベルを有する。一部の実施形態では、実質的に類似の離散型セグメントのレベルは、約3倍未満、約2倍未満、約1倍未満または約0.5倍未満の不確実性のレベル分異なる。一部の実施形態では、実質的に類似の離散型セグメントは、3MAD未満(例えば、3シグマ未満)、2MAD未満、1MAD未満または約0.5MAD未満分異なるレベル中央値を含み、MADは、セグメントの各々のレベル中央値から計算される。一部の実施形態では、実質的に異なる離散型セグメントは、隣接しないか、あるいは10個もしくはそれよりも多くの、15個もしくはそれよりも多くの、または20個もしくはそれよりも多くの部分によって分離される。実質的に異なる離散型セグメントは、一般に、実質的に異なるレベルを有する。ある特定の実施形態では、実質的に異なる離散型セグメントは、約2.5倍よりも大きい、約3倍よりも大きい、約4倍よりも大きい、約5倍よりも大きい、約6倍よりも大きい不確実性のレベル分異なるレベルを含む。一部の実施形態では、実質的に異なる離散型セグメントは、2.5MADよりも大きく(例えば、2.5シグマよりも大きく)、3MADよりも大きく、4MADよりも大きく、約5MADよりも大きく、または約6MADよりも大きく異なるレベル中央値を含み、MADは、離散型セグメントの各々のレベル中央値から計算される。
一部の実施形態では、セグメント化プロセスは、プロファイルまたはその一部中の1つまたは複数の離散型セグメントについて、レベル(例えば、定量的値、例えば、平均(mean)またはレベル中央値)、不確実性のレベル(例えば、不確定値)、Z-スコア、Z-値、p値などまたはそれらの組合せを決定(例えば、計算)することを含む。一部の実施形態では、離散型セグメントについて、レベル(例えば、定量的値、例えば、平均(mean)またはレベル中央値)、不確実性のレベル(例えば、不確定値)、Z-スコア、Z-値、p値などまたはそれらの組合せが決定(例えば、計算)される。
セグメント化は、1つまたは複数の分解生成プロセスによって、完全にまたは一部実施され得る。分解生成プロセスは、例えば、プロファイルの分解レンダリングを提供し得る。本明細書に記載されるかまたは当該技術分野で公知の任意の分解生成プロセスが使用され得る。分解生成プロセスの非限定的な例としては、サーキュラーバイナリセグメント化(CBS)(例えば、Olshen et al. (2004) Biostatistics 5(4):557-72;Venkatraman, ES, Olshen, AB (2007) Bioinformatics 23(6):657-63を参照のこと);ハールウェーブレットセグメント化(例えば、Haar, Alfred (1910) Mathematische Annalen 69(3):331-371を参照のこと);最大オーバーラップ離散ウェーブレット変換(MODWT)(例えば、Hsu et al. (2005) Biostatistics 6 (2):211-226を参照のこと);定常ウェーブレット(SWT)(例えば、Y. Wang and S. Wang (2007) International Journal of Bioinformatics Research and Applications 3(2):206-222を参照のこと);並列木複素ウェーブレット変換(DTCWT)(例えば、Nguyen et al. (2007) Proceedings of the 7th IEEE International Conference, Boston MA, on October 14-17, 2007, pages 137-144を参照のこと);最大エントロピーセグメント化、エッジ検出カーネルによるコンボリューション、イェンセン-シャノン発散、カルバック-ライブラー発散、バイナリ再帰セグメント化、フーリエ変換などまたはそれらの組合せが挙げられる。
一部の実施形態では、セグメント化は、1つのプロセスまたは複数のサブプロセスを含むプロセスによって達成され、その非限定的な例としては、分解生成プロセス、閾値化、レベリング、平滑化、研磨などまたはそれらの組合せが挙げられる。閾値化、レベリング、平滑化、研磨などは、例えば分解生成プロセスと併せて実施され得る。
一部の実施形態では、決定分析は、分解レンダリング中の候補セグメントを識別することを含む。候補セグメントは、分解レンダリング中の最も有意な離散型セグメントであると決定される。候補セグメントは、セグメントによってカバーされる部分の数に関して、および/またはセグメントについての正規化されたカウントのレベルの絶対値に関して、最も有意であり得る。候補セグメントは、時には、分解レンダリング中の他の離散型セグメントよりも大きく、時には、実質的により大きい。候補セグメントは、適切な方法によって識別され得る。一部の実施形態では、候補セグメントは、曲線下面積(AUC)分析によって識別される。ある特定の実施形態では、第1の離散型セグメントが、分解レンダリング中の別の離散型セグメントについてよりも実質的に大きいレベルを有しおよび/または部分の数をカバーする場合、第1のセグメントは、より大きいAUCを含む。レベルがAUCについて分析される場合、レベルの絶対値が利用される場合が多い(例えば、正規化されたカウントに対応するレベルは、欠失について陰性の値および重複について陽性の値を有し得る)。ある特定の実施形態では、AUCは、計算されたAUC(例えば、得られた陽性値)の絶対値として決定される。ある特定の実施形態では、候補セグメントは、識別され(例えば、AUC分析または適切な方法によって)、必要に応じて検証された後、候補セグメントが遺伝的変異または遺伝的変更(例えば、異数性、ミクロ欠失またはミクロ重複)を示すかどうかを決定するために、z-スコア計算などのために選択される。
一部の実施形態では、決定分析は、比較を含む。一部の実施形態では、比較は、少なくとも2つの分解レンダリングを比較することを含む。一部の実施形態では、比較は、少なくとも2つの候補セグメントを比較することを含む。ある特定の実施形態では、少なくとも2つの候補セグメントの各々は、異なる分解レンダリングからである。例えば、第1の候補セグメントは、第1の分解レンダリングからであり得、第2の候補セグメントは、第2の分解レンダリングからであり得る。一部の実施形態では、比較は、2つの分解レンダリングが実質的に同じであるか異なるかを決定することを含む。一部の実施形態では、比較は、2つの候補セグメントが実質的に同じであるか異なるかを決定することを含む。2つの候補セグメントは、適切な比較方法によって、実質的に同じまたは異なると決定され得、その非限定的な例としては、目視検査によるもの、2つの候補セグメントのレベルもしくはZ-スコアを比較することによるもの、2つの候補セグメントのエッジを比較することによるもの、2つの候補セグメントもしくはそれらの対応する分解レンダリングのいずれかをオーバーレイさせることによるものなどまたはそれらの組合せが挙げられる。
分類およびその使用
本明細書に記載される方法は、試験試料についてのゲノム領域中の遺伝子型および/または遺伝的変異/変更の存在もしくは非存在を示すアウトカムを提供することができる(例えば、遺伝的変異の存在または非存在を決定するアウトカムを提供する)。本明細書に記載される方法は、時には、試験試料についての表現型および/または医学的状態の存在もしくは非存在を示すアウトカムを提供する(例えば、医学的状態および/または表現型の存在または非存在を決定するアウトカムを提供する)。アウトカムは、分類プロセスの一部である場合が多く、分類(例えば、試験試料についての遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在の分類)は、時には、アウトカムに基づくおよび/またはそれを含む。アウトカムおよび/または分類は、時には、分類プロセスにおける遺伝子型、表現型、遺伝的変異、遺伝的変更および/または医学的状態の存在または非存在の決定を促進する、試験試料についてのデータ処理の結果(例えば、統計値(例えば、標準スコア(例えば、z-スコア))に基づくおよび/またはそれを含む。アウトカムおよび/または分類は、時には、遺伝子型、表現型、遺伝的変異、遺伝的変更および/もしくは医学的状態の存在もしくは非存在を決定するスコア、またはそのコールを含むまたはそれに基づく。ある特定の実施形態では、アウトカムおよび/または分類は、分類プロセスにおいて遺伝子型、表現型、遺伝的変異、遺伝的変更および/または医学的状態の存在または非存在を予測および/または決定する結論を含む。
遺伝子型および/または遺伝的変異には、試験試料についてのゲノムまたは遺伝情報における検出可能な変化を生じる、1つまたは複数のヌクレオチドを含む領域の獲得、喪失および/または変更(例えば、重複、欠失、融合、挿入、ショートタンデムリピート(STR)、突然変異、単一ヌクレオチド変更、再編成、置換または異常なメチル化)が含まれる場合が多い。遺伝子型および/または遺伝的変異は、特定のゲノム領域(例えば、染色体、染色体の部分(即ち、サブ染色体領域)、STR、多型領域、転座した領域、変更されたヌクレオチド配列などまたは上述の組合せ)中にある場合が多い。遺伝的変異は、時には、特定の領域についてのコピー数変更、例えば、染色体領域についてのトリソミーもしくはモノソミー、または特定の領域についてのミクロ重複もしくはミクロ欠失事象(例えば、約10メガ塩基またはそれ未満(例えば、約9メガ塩基もしくはそれ未満、8メガ塩基もしくはそれ未満、7メガ塩基もしくはそれ未満、6メガ塩基もしくはそれ未満、5メガ塩基もしくはそれ未満、4メガ塩基もしくはそれ未満、3メガ塩基もしくはそれ未満、2メガ塩基もしくはそれ未満、または1メガ塩基もしくはそれ未満)の領域の獲得または喪失)などである。コピー数変更は、時には、コピーなし、あるいは1、2、3もしくは4コピーまたはそれよりも多くのコピーの特定の領域(例えば、染色体、サブ染色体、STR、ミクロ重複またはミクロ欠失領域)を有するとして表される。
遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在は、ゲノム部分にマッピングされた配列リード(例えば、カウント、参照ゲノムのゲノム部分のカウント)を変形、分析および/または操作することによって決定され得る。ある特定の実施形態では、アウトカムおよび/または分類は、正規化されたカウント、リード密度、リード密度プロファイルなどに従って決定され、本明細書に記載される方法によって決定され得る。アウトカムおよび/または分類は、時には、特定の遺伝子型、表現型、遺伝的変異または医学的状態が試験試料について存在するまたは存在しない確率を指す1つまたは複数のスコアおよび/またはコールを含む。スコアの値は、例えば、遺伝子型、表現型、遺伝的変異または医学的状態に対応し得るマッピングされた配列リードの変動、差異または比を決定するために使用され得る。例えば、参照ゲノムに関して、データセットから、選択された遺伝子型、表現型、遺伝的変異または医学的状態についての陽性スコアを計算することは、試験試料についての遺伝子型、表現型、遺伝的変異または医学的状態の分類をもたらし得る。
アウトカムおよび/または分類の任意の適切な表現が提供され得る。アウトカムおよび/または分類は、時には、確率の1回または複数の検討に関して、本明細書に記載される処理方法を使用して生成される1つまたは複数の数値に基づくおよび/またはそれを含む。利用され得る値の非限定的な例としては、感度、特異度、標準偏差、中央値絶対偏差(MAD)、確実性の尺度、信頼の尺度、試験試料について得られた値が値の特定の範囲の内側もしくは外側にある確実性または信頼の尺度、不確実性の尺度、試験試料について得られた値が値の特定の範囲の内側もしくは外側にある不確実性の尺度、変動係数(CV)、信頼レベル、信頼区間(例えば、約95%信頼区間)、標準スコア(例えば、z-スコア)、カイ値、ファイ値、t検定の結果、p値、倍数性値、フィットされた少数派種分率、面積比、レベル中央値などまたはそれらの組合せが挙げられる。一部の実施形態では、アウトカムおよび/または分類は、リード密度、リード密度プロファイルおよび/またはプロット(例えば、プロファイルプロット)を含む。ある特定の実施形態では、複数の値は、時には、かかる値についてのプロファイル(例えば、z-スコアプロファイル、p値プロファイル、カイ値プロファイル、ファイ値プロファイル、t検定の結果、値プロファイルなどまたはそれらの組合せ)において、一緒に分析される。確率の検討は、対象が、遺伝子型、表現型、遺伝的変異および/または医学的状態を有するリスクがあるかどうかまたはそれを有するかどうかの決定を促進し得、上述を決定するアウトカムおよび/または分類は、時には、かかる検討を含む。
ある特定の実施形態では、アウトカムおよび/または分類は、試験試料についての遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在のリスクまたは確率を予測および/または決定する結論に基づくおよび/またはそれを含む。結論は、時には、本明細書に記載されるデータ分析法から決定された値(例えば、確率、確実性および/または不確実性を示す統計量値(例えば、標準偏差、中央値絶対偏差(MAD)、確実性の尺度、信頼の尺度、試験試料について得られた値が値の特定の範囲の内側もしくは外側にある確実性または信頼の尺度、不確実性の尺度、試験試料について得られた値が値の特定の範囲の内側もしくは外側にある不確実性の尺度、変動係数(CV)、信頼レベル、信頼区間(例えば、約95%信頼区間)、標準スコア(例えば、z-スコア)、カイ値、ファイ値、t検定の結果、p値、感度、特異度などまたはそれらの組合せ)に基づく。アウトカムおよび/または分類は、時には、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在に関連する確率(例えば、オッズ比、p値)、尤度またはリスク因子として、特定の試験試料についての実験室検査報告(本明細書で以下にさらに詳細に記載される)において表される。試験試料についてのアウトカムおよび/または分類は、時には、特定の遺伝子型、表現型、遺伝的変異および/または医学的状態に関して、「陽性」または「陰性」として提供される。例えば、アウトカムおよび/または分類は、時には、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在が決定される場合には、特定の試験試料についての実験室検査報告において「陽性」と指定され、時には、アウトカムおよび/または分類は、遺伝子型、表現型、遺伝的変異および/または医学的状態の非存在が決定される場合には、特定の試験試料についての実験室検査報告において「陰性」と指定される。アウトカムおよび/または分類は、時には、決定され、時には、データ処理において使用される仮定を含む。
アウトカムおよび/または分類は、時には、クラスターの内側もしくは外側の値、閾値の値を上回るもしくは下回る値、範囲(例えば、閾値範囲)内の値、および/または分散もしくは信頼の尺度を有する値に基づくか、またはそれとして表される。一部の実施形態では、アウトカムおよび/または分類は、所定の閾値またはカットオフ値を上回るもしくは下回る値および/または値に関連する不確実性、信頼レベルもしくは信頼区間の尺度に基づくか、またはそれとして表される。ある特定の実施形態では、所定の閾値またはカットオフ値は、予期されるレベルまたは予期されるレベル範囲である。一部の実施形態では、試験試料について得られた値は、標準スコア(例えば、z-スコア)であり、ここで、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在は、スコアの絶対値が特定のスコア閾値(例えば、約2と約5との間;約3と約4との間の閾値)よりも大きい場合に決定され、遺伝子型、表現型、遺伝的変異および/または医学的状態の非存在は、スコアの絶対値が特定のスコア閾値未満である場合に決定される。ある特定の実施形態では、アウトカムおよび/または分類は、値の所定の範囲(例えば、閾値範囲)の内側または外側に入る値、および範囲の内側または外側にあるその値についての関連する不確実性または信頼レベルに基づくか、またはそれとして表される。一部の実施形態では、アウトカムおよび/または分類は、所定の値と等しい(例えば、1と等しい、ゼロと等しい)か、または所定の値範囲内の値と等しい値、および等しい値または範囲の内側もしくは外側にある値についてのその関連する不確実性もしくは信頼レベルを含む。アウトカムおよび/または分類は、時には、プロット(例えば、プロファイルプロット)として図式的に示される。アウトカムおよび/または分類は、時には、参照値または参照プロファイルの使用を含み、時には、参照値または参照プロファイルは、1つまたは複数の参照試料から得られる(例えば、ゲノムの選択された一部(例えば、領域)についての参照試料(複数可)正倍数体)。
一部の実施形態では、アウトカムおよび/または分類は、選択された領域についての試験値またはプロファイルと参照値またはプロファイルとの間の不確実性の尺度の使用に基づくか、またはそれを含む。一部の実施形態では、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在の決定は、選択された領域(例えば、染色体またはその一部)についての試験値またはプロファイルと参照値またはプロファイルとの間の偏差(例えば、シグマ)の数に従う。偏差の尺度は、偏差の絶対値または絶対尺度(例えば、平均(mean)絶対偏差または中央値絶対偏差(MAD))である場合が多い。一部の実施形態では、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在は、試験値またはプロファイルと参照値またはプロファイルとの間の偏差の数が約1またはそれよりも大きい(例えば、約1.5、2、2.5、2.6、2.7、2.8、2.9、3、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4、5もしくは6偏差またはそれよりも大きい)場合に決定される。ある特定の実施形態では、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在は、試験値またはプロファイルおよび参照値またはプロファイルが約2~約5の偏差の尺度(例えば、シグマ、MAD)、または3よりも大きい偏差の尺度(例えば、3シグマよりも大きい、3MADよりも大きい)分異なる場合に決定される。試験値またはプロファイルと参照値またはプロファイルとの間での、3よりも大きい偏差は、選択された領域についての非正倍数体試験対象(例えば、遺伝的変異の存在(例えば、トリソミー、モノソミー、ミクロ重複、ミクロ欠失の存在))を示す場合が多い。参照プロファイルが正倍数体を示す、参照プロファイルを有意に上回る試験値またはプロファイルは、時には、トリソミー、サブ染色体重複またはミクロ重複を決定する。参照プロファイルが正倍数体を示す、参照プロファイルを有意に下回る試験値またはプロファイルは、時には、モノソミー、サブ染色体欠失またはミクロ欠失を決定する。一部の実施形態では、遺伝子型、表現型、遺伝的変異および/または医学的状態の非存在は、ゲノムの選択された領域についての試験値またはプロファイルと参照値またはプロファイルとの間の偏差の数が約3.5またはそれ未満(例えば、約3.4、3.3、3.2、3.1、3、2.9、2.8、2.7、2.6、2.5、2.4、2.3、2.2、2.1、2、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2、1.1、1またはそれよりも小さい数未満)である場合に決定される。ある特定の実施形態では、遺伝子型、表現型、遺伝的変異および/または医学的状態の非存在は、試験値またはプロファイルが3未満の偏差の尺度(例えば、3シグマ未満、3MAD未満)分参照値またはプロファイルから異なる場合に決定される。一部の実施形態では、試験値またはプロファイルと参照値またはプロファイルとの間での3未満の偏差の尺度(例えば、標準偏差について3シグマ未満)は、正倍数体である領域(例えば、遺伝的変異の非存在)を示す場合が多い。試験試料についての試験値またはプロファイルと1人または複数の参照対象についての参照値またはプロファイルとの間の偏差の尺度は、プロットおよび可視化され得る(例えば、z-スコアプロット)。
一部の実施形態では、アウトカムおよび/または分類は、コールゾーンに従って決定される。ある特定の実施形態では、値(例えば、プロファイル、リード密度プロファイルおよび/または不確実性の尺度)または値の収集が、事前に定義された範囲(例えば、ゾーン、コールゾーン)内に入る場合に、コール(例えば、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を決定するコール)が行われる。一部の実施形態では、コールゾーンは、試料の特定の群から得られた値の収集(例えば、プロファイル、リード密度プロファイル、確率の尺度もしくは決定および/または不確実性の尺度)に従って定義される。ある特定の実施形態では、コールゾーンは、同じ染色体またはその一部から導出された値の収集に従って定義される。一部の実施形態では、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を決定するためのコールゾーンは、試験試料について決定された不確実性の尺度(例えば、高レベルの信頼または低い不確実性の尺度)および/または少数派核酸種(例えば、約1%またはそれよりも多くの少数派種(例えば、約2、3、4、5、6、7、8、9、10%またはそれよりも多くの少数派核酸種))の定量化に従って定義される。少数派核酸種の定量化は、時には、試験試料について解明されたがん細胞核酸または胎児核酸の分率またはパーセント(即ち、胎児分率)である。一部の実施形態では、コールゾーンは、信頼レベルまたは信頼区間(例えば、95%レベルの信頼についての信頼区間)によって定義される。コールゾーンは、時には、約90%またはそれよりも大きい(例えば、約91、92、93、94、95、96、97、98、99、99.1、99.2、99.3、99.4、99.5、99.6、99.7、99.8、99.9%またはそれよりも大きい)特定の信頼レベルに基づく信頼レベルまたは信頼区間によって定義される。一部の実施形態では、コールは、コールゾーンおよびさらなるデータまたは情報を使用して行われる。一部の実施形態では、コールは、コールゾーンを使用せずに行われる。一部の実施形態では、コールは、コールゾーンの使用なしに比較に基づいて行われる。一部の実施形態では、コールは、プロファイルの目視検査(例えば、リード密度の目視検査)に基づいて行われる。
一部の実施形態では、分類またはコールは、試験値またはプロファイルがコールなしゾーン中にある場合には、試験試料について提供されない。一部の実施形態では、コールなしゾーンは、低い精度、高いリスク、高い誤差、低いレベルの信頼、不確実性の高い尺度などまたはそれらの組合せを示す値(例えば、値の収集)またはプロファイルによって定義される。一部の実施形態では、コールなしゾーンは、少数派核酸種の定量化(例えば、約10%またはそれ未満の少数派核酸種(例えば、約9%、8%、7%、6%、5%、4%、3%、2%、1.5%、1%またはそれ未満の少数派核酸種))によって一部定義される。遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を決定するために生成されるアウトカムおよび/または分類は、時には、帰無結果を含む。帰無結果は、時には、2つのクラスター間でのデータポイント、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在および非存在の両方についての値を包含する標準偏差を有する数値、調査されている遺伝的変異を有するかまたはそれを有さない対象についてのプロファイルプロットとは類似しないプロファイルプロットを有するデータセットである。一部の実施形態では、帰無結果を示すアウトカムおよび/または分類は、決定的な結果とみなされ、決定は、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を決定するためのさらなる情報ならびに/またはデータ生成および/もしくは分析の反復の必要性の結論を含み得る。
典型的には、分類プロセスにおいて生成される4つの型の分類が存在する:真陽性、偽陽性、真陰性および偽陰性。用語「真陽性」は、本明細書で使用される場合、試験試料について正確に決定された遺伝子型、表現型、遺伝的変異または医学的状態の存在を指す。用語「偽陽性」は、本明細書で使用される場合、試験試料について不正確に決定された遺伝子型、表現型、遺伝的変異または医学的状態の存在を指す。用語「真陰性」は、本明細書で使用される場合、試験試料について正確に決定された遺伝子型、表現型、遺伝的変異または医学的状態の非存在を指す。用語「偽陰性」は、本明細書で使用される場合、試験試料について不正確に決定された遺伝子型、表現型、遺伝的変異または医学的状態の非存在を指す。分類プロセスについての性能の2つの尺度は、これらの出現の比に基づいて計算され得る:(i)一般に、陽性であると正確に識別された予測された陽性の分率である、感度値、および(ii)一般に、陰性であると正確に識別された予測された陰性の分率である、特異度値。
ある特定の実施形態では、分類プロセスについて生成された実験室検査報告は、試験性能の尺度(例えば、感度および/または特異度)および/または信頼の尺度(例えば、信頼レベル、信頼区間)を含む。試験性能および/または信頼の尺度は、時には、試験試料についての実験室検査を実施する前に実施される臨床的検証研究から得られる。ある特定の実施形態では、感度、特異度および/または信頼のうちの1つまたは複数は、パーセンテージとして表される。一部の実施形態では、感度、特異度または信頼レベルの各々について独立して表されるパーセンテージは、約90%よりも大きい(例えば、約90、91、92、93、94、95、96、97、98もしくは99%、または99%よりも大きい(例えば、約99.5%またはそれよりも大きい、約99.9%またはそれよりも大きい、約99.95%またはそれよりも大きい、約99.99%またはそれよりも大きい))。特定の信頼レベルについて表される信頼区間(例えば、約90%~約99.9%(例えば、約95%)の信頼レベル)は、値の範囲として表され得、時には、特定の信頼レベルについての範囲または感度および/もしくは特異度として表される。一部の実施形態では、変動係数(CV)は、パーセンテージとして表され、時には、パーセンテージは、約10%またはそれ未満(例えば、約10、9、8、7、6、5、4、3、2もしくは1%、または1%未満(例えば、約0.5%またはそれ未満、約0.1%またはそれ未満、約0.05%またはそれ未満、約0.01%またはそれ未満))である。ある特定の実施形態では、確率(例えば、特定のアウトカムおよび/または分類が偶然に起因しない確率)は、標準スコア(例えば、z-スコア)、p値、またはt検定の結果として表される。一部の実施形態では、アウトカムおよび/または分類についての測定された分散、信頼レベル、信頼区間、感度、特異度など(例えば、信頼パラメーターと集合的に呼ばれる)は、本明細書に記載される1つまたは複数のデータ処理操作を使用して生成され得る。アウトカムおよび/または分類ならびに関連する信頼レベルを生成する具体的な例は、例えば、国際特許出願公開番号WO2013/052913号、同WO2014/190286号および同WO2015/051163号に記載され、全てのテキスト、表、等式および図面を含む各々の全内容が、これにより参照により本明細書に組み込まれる。
試験試料についてのアウトカムおよび/または分類は、試験試料が得られる対象にアウトカムおよび/または分類を伝達する医療専門家または他の有資格の個人(例えば、医師または助手)によって注文される場合が多く、彼らに提供される場合が多い。ある特定の実施形態では、アウトカムおよび/または分類は、適切な視覚的媒体(例えば、機械の周辺機器またはコンポーネント、例えば、プリンターまたはディスプレイ)を使用して提供される。分類および/またはアウトカムは、報告の形態で医療専門家または有資格の個人に提供される場合が多い。報告は、典型的には、アウトカムおよび/または分類(例えば、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在の値または評価または確率)の表示を含み、時には、関連する信頼パラメーターを含み、時には、アウトカムおよび/または分類を生成するために使用した試験についての性能の尺度を含む。報告は、時には、追跡手順(例えば、アウトカムまたは分類を確認する手順)の推奨を含む。報告は、時には、染色体またはその部分(例えば、染色体表意文字または核型)の視覚的提示を含み、時には、試験試料について識別された染色体についての重複および/または欠失領域の可視化(例えば、染色体欠失または重複についての全染色体の可視化;欠失した領域または重複した領域が示された全染色体の可視化;重複したまたは欠失した染色体の部分の可視化;染色体の部分の欠失の場合に残留する染色体の部分の可視化)を示す。
報告は、医療専門家または他の有資格の個人による遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在の決定を促進する適切なフォーマットで表示され得る。報告を生成するための使用に適切なフォーマットの非限定的な例としては、デジタルデータ、グラフ、2Dグラフ、3Dグラフおよび4Dグラフ、画像(例えば、jpg、bitmap(例えば、bmp)、pdf、tiff、gif、raw、pngなどまたは適切なフォーマット)、絵文字、チャート、表、棒グラフ、円グラフ、図表、フローチャート、散乱プロット、マップ、ヒストグラム、密度チャート、関数グラフ、回路図、ブロック図、バブルマップ、コンスタレーション図、コンター図、カルトグラム、スパイダーチャート、ベン図、ノモグラムなどまたは上述の組合せが挙げられる。
報告は、コンピュータによっておよび/またはヒトのデータ入力によって生成され得、適切な電子媒体を使用して(例えば、同じまたは異なる物理的サイトにおいて1つのネットワークロケーションから別のロケーションまで、インターネットを介して、コンピュータを介して、ファクシミリを介して)、またはデータを送信もしくは受信する別の方法(例えば、メールサービス、国際宅配便など)によって、伝達および通信され得る。報告を伝達するための通信媒体の非限定的な例としては、聴覚ファイル、コンピュータ可読ファイル(例えば、pdfファイル)、紙ファイル、実験室ファイル、医療記録ファイル、または以前の段落に記載された任意の他の媒体が挙げられる。ある特定の実施形態では、実験室ファイルまたは医療記録ファイルは、有形形態または電子形態(例えば、コンピュータ可読形態)であり得る。報告が生成され伝達された後、報告は、適切な通信媒体を介して、アウトカムおよび/または分類を含む書面によるおよび/または図式的な提示を得ることによって受け取られ得、これは、検討の際に、医療専門家または他の有資格の個人が、試験試料についての遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在に関する決定を行うことを可能にする。
アウトカムおよび/または分類は、実験室によって提供され、実験室から得られ得る(例えば、実験室ファイルから得られる)。実験室ファイルは、試験試料についての遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を決定するための1つまたは複数の試験を実施する実験室によって生成され得る。実験室職員(例えば、実験室管理者)は、アウトカムおよび/または分類の根底にある試験試料に関連する情報(例えば、試験プロファイル、参照プロファイル、試験値、参照値、偏差のレベル、患者情報)を分析することができる。近いまたは疑わしい遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在に関するコールについて、実験室職員は、試験対象由来の同じ(例えば、同じ試料のアリコート)または異なる試験試料を使用して同じ手順を再実行することができる。実験室は、実験室ファイルから遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を評価する職員と同じ場所または異なる場所(例えば、別の国)にあってもよい。例えば、実験室ファイルは、1つの場所で生成され得、別の場所に伝達され得、この場所で、その中の試験試料についての情報が、医療専門家または他の有資格の個人によって評価され、必要に応じて、試験試料を得た対象に伝達される。実験室は、時には、試験試料についてのゲノム不安定性、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在の分類を含有する実験室報告を生成および/または伝達する。実験室検査報告を生成する実験室は、時には、認証を受けた実験室であり、時には、Clinical Laboratory Improvement Amendments(CLIA)の下で認証を受けた実験室である。
アウトカムおよび/または分類は、時には、対象についての診断の成分であり、時には、アウトカムおよび/または分類は、試験試料についての診断を提供することの一部として利用および/または評価される。例えば、医療専門家または他の有資格の個人は、アウトカムおよび/または分類を分析し得、アウトカムおよび/もしくは分類に基づいて、またはアウトカムおよび/もしくは分類に一部基づいて、診断を提供する。一部の実施形態では、医学的状態、疾患、症候群または異常の決定、検出または診断は、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を決定するアウトカムおよび/または分類の使用を含む。一部の実施形態では、カウントされたマッピングされた配列リード、正規化されたカウントおよび/またはそれらの変形に基づくアウトカムおよび/または分類は、遺伝子型および/または遺伝的変異の存在または非存在を決定する。ある特定の実施形態では、診断は、状態、症候群または異常の存在または非存在を決定することを含む。ある特定の場合には、診断は、医学的状態、疾患、症候群または異常の性質および/または原因としての、遺伝子型または遺伝的変異の決定を含む。したがって、本明細書に記載される方法によって生成されたアウトカムまたは分類に従って、ならびに必要に応じて、試験試料についての遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在についての分類を含む実験室報告の生成および伝達に従って、試験試料について遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を診断するための方法が、本明細書で提供される。
アウトカムおよび/または分類は、時には、対象の医療および/または処置の成分である。アウトカムおよび/または分類は、時には、試験試料が得られた対象に処置を提供することの一部として利用および/または評価される。例えば、遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在を示すアウトカムおよび/または分類は、試験試料が得られた対象の医療および/または処置の成分である。医療、処置およびまたは診断は、保健の任意の適切な分野、例えば、出生前ケア、細胞増殖性状態、がんなどについての対象の医学的処置中にあり得る。本明細書に記載される方法による、遺伝子型、表現型、遺伝的変異および/または医学的状態、疾患、症候群または異常の存在または非存在を決定するアウトカムおよび/または分類は、時には、さらなる試験によって独立して検証される。アウトカムおよび/または分類を検証するための任意の適切な型のさらなる試験が利用され得、その非限定的な例としては、例えば、血液レベル試験(例えば、血清試験)、生検、スキャン(例えば、CTスキャン、MRIスキャン)、侵襲性試料採取(例えば、羊水穿刺または絨毛膜絨毛試料採取)、核型分析、マイクロアレイアッセイ、超音波、超音波診断などが挙げられる。
医療専門家または有資格の個人は、実験室報告において提供されたアウトカムおよび/または分類に基づいて、適切な医療推奨を提供することができる。一部の実施形態では、推奨は、提供されるアウトカムおよび/または分類(例えば、がん、がんのステージおよび/または型、ダウン症候群、ターナー症候群、T13における遺伝的変異に関連する医学的状態、T18における遺伝的変異に関連する医学的状態)に依存する。実験室報告中のアウトカムまたは分類に基づいて提供され得る推奨の非限定的な例としては、これらに限定されないが、手術、放射線療法、化学療法、遺伝カウンセリング、生後処置ソリューション(例えば、生活設計、長期介助ケア、医薬、対症処置)、妊娠中絶、臓器移植、輸血、以前の段落に記載されたさらなる試験などまたは上述の組合せが挙げられる。したがって、対象を処置するための方法および医療を対象に提供するための方法は、時には、本明細書に記載される方法によって試験試料についての遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在についての分類を生成すること、ならびに必要に応じて、試験試料についての遺伝子型、表現型、遺伝的変異および/または医学的状態の存在または非存在の分類を含む実験室報告を生成および伝達することを含む。
アウトカムおよび/または分類を生成することは、試験試料からの核酸配列リードの、対象の細胞性核酸の提示への変形として見ることができる。例えば、本明細書に記載される方法によって、対象由来の核酸の配列リードを変化させること、ならびにアウトカムおよび/または分類を生成することは、比較的小さい配列リード断片の、対象における比較的大きく複雑な構造の核酸の提示への変形として見ることができる。一部の実施形態では、アウトカムおよび/または分類は、対象からの配列リードの、対象中に存在する既存の核酸構造(例えば、対象中のゲノム、染色体、染色体セグメント、循環する無細胞核酸断片の混合物)の提示への変形から生じる。
一部の実施形態では、本明細書の方法は、遺伝的変更または遺伝的変異の存在が対象由来の試験試料について決定される場合に、対象を処置するステップを含む。一部の実施形態では、対象を処置するステップは、遺伝的変更または遺伝的変異の存在が試験試料について決定される場合に、医学的手順を実施することを含む。一部の実施形態では、医学的手順には、侵襲性診断手順、例えば、羊水穿刺、絨毛膜絨毛試料採取、生検などが含まれる。例えば、羊水穿刺または絨毛膜絨毛試料採取を含む医学的手順は、胎児異数性の存在が妊娠雌性由来の試験試料について決定される場合に実施され得る。別の例では、生検を含む医学的手順は、がんの存在を示すまたはがんの存在に関連する遺伝的変更の存在が対象由来の試験試料について決定される場合に実施され得る。侵襲性診断手順は、遺伝的変更もしくは遺伝的変異の存在の決定を確認するために実施され得、および/または遺伝的変更もしくは遺伝的変異に関連する医学的状態などをさらに特徴付けるために実施され得る。一部の実施形態では、医学的手順は、遺伝的変更または遺伝的変異に関連する医学的状態の処置として実施され得る。処置は、例えば、手術、放射線療法、化学療法、妊娠中絶、臓器移植、細胞移植、輸血、医薬、対症処置などのうちの1つまたは複数を含み得る。
一部の実施形態では、本明細書の方法は、遺伝的変更または遺伝的変異の非存在が対象由来の試験試料について決定される場合に、対象を処置するステップを含む。一部の実施形態では、対象を処置するステップは、遺伝的変更または遺伝的変異の非存在が試験試料について決定される場合に、医学的手順を実施することを含む。例えば、遺伝的変更または遺伝的変異の非存在が試験試料について決定される場合、医学的手順には、健康モニタリング、再試験、さらなるスクリーニング、追跡試験などが含まれ得る。一部の実施形態では、本明細書の方法は、胎児異数性、遺伝的変異または遺伝的変更の非存在が妊娠雌性由来の試験試料について決定される場合に、正倍数体妊娠または正常妊娠と一致する対象を処置するステップを含む。例えば、胎児異数性、遺伝的変異または遺伝的変更の非存在が妊娠雌性由来の試験試料について決定される場合、正倍数体妊娠または正常妊娠と一致する医学的手順が実施され得る。正倍数体妊娠または正常妊娠と一致する医学的手順には、胎児および/もしくは母親の健康をモニタリングすること、または胎児-母親が健康であるかニタリングすることの一部として実施される1つまたは複数の手順が含まれ得る。正倍数体妊娠または正常妊娠と一致する医学的手順には、例えば、悪心、疲労、乳房圧痛、頻尿、背部疼痛、腹部疼痛、下肢痙攣、便秘、胸やけ、息切れ、痔疾、尿失禁、静脈瘤および睡眠障害のうちの1つまたは複数が含まれ得る妊娠の症状を処置するための1つまたは複数の手順が含まれ得る。正倍数体妊娠または正常妊娠と一致する医学的手順には、例えば、潜在的リスクを評価するため、合併症を処置するため、既存の医学的状態(例えば、高血圧、糖尿病)に対処するため、ならびに胎児の成長および発生をモニタリングするための出生前ケアの過程を通じて実施される1つまたは複数の手順が含まれ得る。正倍数体妊娠または正常妊娠と一致する医学的手順には、例えば、全血球数(CBC)モニタリング、Rh抗体試験、尿検査、尿培養モニタリング、風疹スクリーニング、B型肝炎およびC型肝炎スクリーニング、性感染症(STI)スクリーニング(例えば、梅毒、クラミジア、淋病についてのスクリーニング)、ヒト免疫不全ウイルス(HIV)スクリーニング、結核(TB)スクリーニング、アルファ-フェトプロテインスクリーニング、胎児心拍数モニタリング(例えば、超音波トランスデューサーを使用する)、子宮活動性モニタリング(例えば、tocoトランスデューサーを使用する)、遺伝性障害(例えば、嚢胞性線維症、鎌状赤血球貧血、血友病A)についての遺伝子スクリーニングおよび/または診断試験、グルコーススクリーニング、耐糖能試験、妊娠糖尿病の処置、出生前高血圧の処置、妊娠高血圧腎症の処置、B群連鎖球菌(GBS)血液型スクリーニング、B群連鎖球菌培養、B群連鎖球菌の処置(例えば、抗生物質を用いる)、超音波モニタリング(例えば、定期超音波モニタリング、レベルII超音波モニタリング、標的化された超音波モニタリング)、ノンストレス試験モニタリング、生物物理的プロファイルモニタリング、羊水インデックスモニタリング、血清試験(例えば、血漿タンパク質-A(PAPP-A)、アルファ-フェトプロテイン(AFP)、ヒト絨毛性ゴナドトロピン(hCG)、非抱合型エストリオール(uE3)およびインヒビン-A(inhA)試験)、遺伝子検査、羊水穿刺診断試験ならびに絨毛膜絨毛試料採取(CVS)診断試験が含まれ得る。
一部の実施形態では、本明細書の方法は、遺伝的変異または遺伝的変更の非存在が対象由来の試験試料について決定される場合に、がんを有さないことと一致する対象を処置するステップを含む。ある特定の実施形態では、健康な予後判定と一致する医学的手順は、がんに関連する遺伝的変更または遺伝的変異の非存在が試験試料について決定される場合に実施され得る。例えば、健康な予後判定と一致する医学的手順には、これらに限定されないが、試験試料が試験された対象の健康をモニタリングすること、二次試験(例えば、二次スクリーニング試験)を実施すること、確認試験を実施すること、がんに関連する1つもしくは複数のバイオマーカー(例えば、雄性における前立腺特異的抗原(PSA))をモニタリングすること、血液細胞(例えば、赤血球細胞、白血球細胞、血小板)をモニタリングすること、1つもしくは複数のバイタルサイン(例えば、心拍数、血圧)をモニタリングすること、および/または1つもしくは複数の血液代謝物(例えば、総コレステロール、HDL(高密度リポタンパク質)、LDL(低密度リポタンパク質)、トリグリセリド、総コレステロール/HDL比、グルコース、フィブリノーゲン、ヘモグロビン、デヒドロエピアンドロステロン(DHEA)、ホモシステイン、C反応性タンパク質、ホルモン(例えば、甲状腺刺激ホルモン、テストステロン、エストロゲン、エストラジオール)、クレアチン、塩(例えば、カリウム、カルシウム)など)をモニタリングすることが含まれる。一部の実施形態では、本明細書の方法は、遺伝的変更または遺伝的変異の非存在が試験試料について決定される場合に、医学的手順を実施しないこと、および時には、侵襲性試料採取を含む医学的手順を実施しないことを含む。
機械、ソフトウェアおよびインタフェース
本明細書に記載されるある特定のプロセスおよび方法(例えば、配列リード、カウント、レベルおよび/またはプロファイルをマッピング、カウント、正規化、範囲設定、調整、カテゴライズおよび/または決定すること)は、コンピュータ、マイクロプロセッサー、ソフトウェア、モジュールまたは他の機械を用いずには実施できないことが多い。本明細書に記載される方法は、典型的には、コンピュータにより実現される方法であり、方法の1つまたは複数の部分は、時には、1つまたは複数のプロセッサー(例えば、マイクロプロセッサー)、コンピュータ、システム、装置、または機械(例えば、マイクロプロセッサー制御される機械)によって実施される。
使用に適切なコンピュータ、システム、装置、機械およびコンピュータプログラム製品は、コンピュータ可読記憶媒体を含むか、またはそれと併せて利用されることが多い。コンピュータ可読記憶媒体の非限定的な例としては、メモリ、ハードディスク、CD-ROM、フラッシュメモリデバイスなどが挙げられる。コンピュータ可読記憶媒体は、一般に、コンピュータハードウェアであり、非一時的コンピュータ可読記憶媒体であることが多い。コンピュータ可読記憶媒体は、コンピュータ可読伝送媒体ではなく、後者はそれ自体伝送シグナルである。
それに記憶された実行可能なプログラムを有するコンピュータ可読記憶媒体であって、プログラムがマイクロプロセッサーに本明細書に記載される方法を実施するよう指示する、コンピュータ可読記憶媒体が本明細書で提供される。それに記憶された実行可能なプログラムモジュールを有するコンピュータ可読記憶媒体であって、プログラムモジュールがマイクロプロセッサーに本明細書に記載される方法の一部を実施するよう指示する、コンピュータ可読記憶媒体も提供される。それに記憶された実行可能なプログラムを有するコンピュータ可読記憶媒体を含むシステム、機械、装置およびコンピュータプログラムであって、プログラムがマイクロプロセッサーに本明細書に記載される方法を実施するよう指示する、システム、機械、装置およびコンピュータプログラムも本明細書で提供される。それに記憶された実行可能なプログラムモジュールを有するコンピュータ可読記憶媒体を含むシステム、機械および装置であって、プログラムモジュールがマイクロプロセッサーに本明細書に記載される方法の一部を実施するよう指示する、システム、機械、装置およびコンピュータプログラムも提供される。
コンピュータプログラム製品も提供される。コンピュータプログラム製品は、その中に具現化されるコンピュータ可読プログラムコードを含むコンピュータ使用可能媒体を含むことが多く、コンピュータ可読プログラムコードは、本明細書に記載される方法またはその一部を実現するために実行されるよう適合されている。コンピュータ使用可能媒体および可読プログラムコードは、伝送媒体ではない(即ち、それ自体伝送シグナル)。コンピュータ可読プログラムコードは、プロセッサー、コンピュータ、システム、装置、または機械によって実行されるよう適合されていることが多い。
一部の実施形態では、本明細書に記載される方法(例えば、配列リード、カウント、レベル、プロファイルおよび/またはアウトカムを定量、カウント、フィルタリング、正規化、変換、クラスター化および/または決定すること)は、自動化された方法によって実施される。一部の実施形態では、本明細書に記載される方法の1つまたは複数のステップは、マイクロプロセッサーおよび/もしくはコンピュータによって実行され、ならびに/またはメモリと併せて実行される。一部の実施形態では、自動化された方法は、本明細書に記載される方法を実施する、ソフトウェア、モジュール、マイクロプロセッサー、周辺機器および/または機械などにおいて具現化される。本明細書で使用される場合、ソフトウェアは、マイクロプロセッサーによって実行される場合、本明細書に記載されているコンピュータ操作を実施するコンピュータ可読プログラム命令を指す。
配列リード、カウント、レベルおよび/またはプロファイルは、時には、「データ」または「データセット」と称される。一部の実施形態では、データまたはデータセットは、1つまたは複数の特色または変数によって特徴付けられ得る(例えば、配列に基づいて(例えば、GC含量、特定のヌクレオチド配列など)、機能特異的な(例えば、発現された遺伝子、がん遺伝子など)、位置に基づいて(遺伝子特異的、染色体特異的、部分または部分特異的)などおよびそれらの組合せ)。ある特定の実施形態では、データまたはデータセットは、1つまたは複数の特色または変数に基づいて2つまたはそれよりも多い次元を有するマトリックス中に編成され得る。マトリックス中に編成されたデータは、任意の適切な特色または変数を使用して編成することができる。ある特定の実施形態では、1つまたは複数の特色または変数によって特徴付けられたデータセットは、時には、カウント後に処理される。
機械、ソフトウェアおよびインタフェースは、本明細書に記載される方法を行うために使用され得る。機械、ソフトウェアおよびインタフェースを使用して、ユーザーは、特定の情報、プログラムまたは処理を使用する(例えば、配列リードをマッピングする、マッピングされたデータを処理するおよび/またはアウトカムを提供する)ための選択肢を入力、要求、質問または決定してもよく、これらは、例えば、統計分析アルゴリズム、統計的有意性アルゴリズム、統計的アルゴリズム、反復ステップ、検証アルゴリズム、およびグラフ表示に関与し得る。一部の実施形態では、データセットは、インプット情報としてユーザーによって入力され得、ユーザーは、適切なハードウェア媒体(例えば、フラッシュドライブ)によって1つもしくは複数のデータセットをダウンロードし得、ならびに/またはユーザーは、次の処理および/もしくはアウトカムの提供のために1つのシステムから別のシステムにデータセットを送信し得る(例えば、シーケンサーから配列リードマッピングのためのコンピュータシステムに配列リードデータを送信する;アウトカムおよび/または報告を処置するおよび得るためにマッピングされた配列データをコンピュータシステムに送信する)。
システムは、典型的には、1つまたは複数の機械を含む。各機械は、1つまたは複数のメモリ、1つまたは複数のマイクロプロセッサー、および命令を含む。システムが2つまたはそれよりも多い機械を含む場合、機械の一部もしくは全ては同じ場所に位置してもよく、機械の一部もしくは全ては異なる場所に位置してもよく、機械の全ては1つの場所に位置してもよいおよび/または機械の全ては異なる場所に位置してもよい。システムが2つまたはそれよりも多い機械を含む場合、機械の一部もしくは全ては、ユーザーと同じ場所に位置してもよく、機械の一部もしくは全ては、ユーザーと異なる場所に位置してもよく、機械の全ては、ユーザーと同じ場所に位置してもよく、および/または機械の全ては、ユーザーと異なる1つまたは複数の場所に位置してもよい。
システムは、時には、コンピューティングマシンおよび配列決定装置または機械を含み、ここで、配列決定装置または機械は、物理的核酸を受け取り、配列リードを作成するように構成され、コンピューティング装置は、配列決定装置または機械からリードを処理するよう構成される。コンピューティングマシンは、配列リードから分類アウトカムを決定するように構成される。
ユーザーは、例えば、ソフトウェアに対して質問を与えてもよく、次いで、インターネットアクセスを介してデータセットを獲得してもよく、ある特定の実施形態では、プログラム可能なマイクロプロセッサーは、所与のパラメーターに基づいて適切なデータセットを獲得するためにプロンプトで指示を求められてもよい。プログラム可能なマイクロプロセッサーはまた、ユーザーに、所与のパラメーターに基づいてマイクロプロセッサーによって選択された1つまたは複数のデータセット選択肢を選択するように、プロンプトで指示を求めてもよい。プログラム可能なマイクロプロセッサーは、ユーザーに、インターネット、他の内部または外部情報などを介して見い出される情報に基づいて、マイクロプロセッサーによって選択される1つまたは複数のデータセット選択肢を選択するように、プロンプトで指示を求めてもよい。選択肢は、1つまたは複数のデータ特色選択、1つまたは複数の統計的アルゴリズム、1つまたは複数の統計分析アルゴリズム、1つまたは複数の統計的有意性アルゴリズム、反復ステップ、1つまたは複数の検証アルゴリズム、および方法、機械、装置、コンピュータプログラムまたはそこに記憶された実行可能なプログラムを有する非一時的コンピュータ可読記憶媒体の1つまたは複数のグラフ表示を選択するために選択され得る。
本明細書で扱われるシステムは、例えば、ネットワークサーバー、ラップトップシステム、デスクトップシステム、携帯システム、携帯情報端末、コンピュータキオスクなどのコンピュータシステムの一般的コンポーネントを含んでもよい。コンピュータシステムは、キーボード、タッチスクリーン、マウス、音声認識またはユーザーがシステムにデータを入力することができる他の手段などの、1つまたは複数のインプット手段を含んでもよい。システムは、ディスプレイスクリーン(例えば、CRTまたはLCD)、スピーカー、FAXマシン、プリンター(例えば、レーザー、インクジェット、インパクト、白黒またはカラープリンター)、または情報(例えば、アウトカムおよび/または報告)の視覚、聴覚および/もしくはハードコピーアウトプットを提供するのに有用な他のアウトプットを含むがこれらに限定されない、1つまたは複数のアウトプットをさらに含んでもよい。
システムでは、インプットおよびアウトプットコンポーネントは、他のコンポーネントの中でも、プログラム命令を実行するためのマイクロプロセッサーならびにプログラムコードおよびデータを記憶するためのメモリを含み得る中央処理装置に接続されていてもよい。一部の実施形態では、処理は、単一の地理的箇所に位置した単一のユーザーシステムとして実現され得る。ある特定の実施形態では、処理は、マルチユーザーシステムとして実現され得る。マルチユーザーインプリメンテーションの場合には、複数の中央処理装置がネットワークによって接続されていてもよい。ネットワークは、建物の一部内の単一部門、建物全体を包含するローカルであっても、複数の建物にまたがっていても、1つの領域にまたがっていても、国全体にまたがっていても、または世界規模であってもよい。ネットワークは、プライベートであっても、プロバイダーによって所有および制御されていてもよく、またはユーザーが情報を入力および引き出すためにウェブページにアクセスする、インターネットベースのサービスとして実現されてもよい。したがって、ある特定の実施形態では、システムは、ユーザーに対してローカルまたはリモートであり得る、1つまたは複数の機械を含む。1つの場所または複数の場所にある1つより多くの機械が、ユーザーによってアクセスされてもよく、データは、連続しておよび/または並行してマッピングおよび/または処理されてもよい。したがって、適切な構成および制御を利用して、ローカルネットワーク、リモートネットワークおよび/または「クラウド」コンピューティングプラットフォームなどにおいて、複数の機械を使用してデータをマッピングおよび/または処理することができる。
システムは、一部の実施形態では、通信インタフェースを含み得る。通信インタフェースは、コンピュータシステムと1つまたは複数の外部デバイスとの間でのソフトウェアおよびデータの転送を可能にする。通信インタフェースの非限定的な例としては、モデム、ネットワークインタフェース(イーサーネットカードなど)、通信ポート、PCMCIAスロットおよびカードなどが挙げられる。通信インタフェースを介して転送されるソフトウェアおよびデータは、一般に、シグナルの形態であり、これは、電子シグナル、電磁気シグナル、光学シグナルおよび/または通信インタフェースによって受信されることが可能な他のシグナルであり得る。シグナルは、チャネルを介して通信インタフェースに提供される場合が多い。チャネルは、シグナルを運ぶ場合が多く、ワイヤーもしくはケーブル、光ファイバー、電話線、携帯電話リンク、RFリンク、および/または他の通信チャネルを使用して実現され得る。したがって、一例では、通信インタフェースは、シグナル検出モジュールによって検出され得るシグナル情報を受信するために使用されてもよい。
データは、マニュアルインプットデバイスまたはダイレクトデータ入力デバイス(DDE)を含むがこれらに限定されない、適切なデバイスおよび/または方法によってインプットされてもよい。マニュアルデバイスの非限定的な例としては、キーボード、コンセプトキーボード、タッチ感応式スクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナー、デジタルカメラ、ビデオデジタイザーおよび音声認識デバイスが挙げられる。DDEの非限定的な例としては、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学式文字認識、光学式マーク認識、およびターンアラウンドドキュメントが挙げられる。
一部の実施形態では、配列決定装置または機械からのアウトプットは、インプットデバイスを介してインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、マッピングされた配列リードは、インプットデバイスを介してインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、核酸断片のサイズ(例えば、長さ)は、インプットデバイスを介してインプットされ得るデータとして作用し得る。ある特定の実施形態では、核酸捕捉処理からのアウトプット(例えば、ゲノム領域の起源データ)は、インプットデバイスを介してインプットされ得るデータとしての役割を果たすことができる。ある特定の実施形態では、核酸断片のサイズ(例えば、長さ)と、核酸捕捉処理からのアウトプット(例えば、ゲノム領域の起源データ)との組合せは、インプットデバイスを介してインプットされ得るデータとしての役割を果たすことができる。ある特定の実施形態では、シミュレーションされたデータは、in silico処理によって生成され、シミュレーションされたデータは、インプットデバイスを介してインプットされ得るデータとしての役割を果たす。用語「in silico」は、コンピュータを使用して実施される研究および実験を指す。in silico処理は、これらに限定されないが、本明細書に記載される処理に従って、配列リードをマッピングすることおよびマッピングされた配列リードを処置することを含む。
システムには、本明細書に記載される処理または処理の一部を実施するのに有用なソフトウェアを含むことができ、ソフトウェアは、このような処理を実施するための1つまたは複数のモジュールを含み得る(例えば、配列決定モジュール、論理処理モジュール、データディスプレイ組織化モジュール)。用語「ソフトウェア」は、コンピュータにより実行される場合、コンピュータ操作を実施する、コンピュータ可読プログラム命令を指す。1つまたは複数のマイクロプロセッサーにより実行可能な命令は、実行されると、時には、1つまたは複数のマイクロプロセッサーに本明細書に記載される方法を実現させることができる実行可能なコードとして提供される。本明細書に記載されるモジュールは、ソフトウェアとして存在することができ、ソフトウェアにおいて具体化された命令(例えば、処理、ルーチン、サブルーチン)が、マイクロプロセッサーによって実現または実施され得る。例えば、モジュール(例えば、ソフトウェアモジュール)は、特定の処理またはタスクを実施するプログラムの一部であり得る。用語「モジュール」は、より大型の機械またはソフトウェアシステムで使用できる自己内蔵機能ユニットを指す。モジュールは、モジュールの機能を実行するための命令のセットを含み得る。モジュールは、データおよび/または情報を変換することができる。データおよび/または情報は、適切な形態であり得る。例えば、データおよび/または情報は、デジタルまたはアナログであり得る。ある特定の実施形態では、データおよび/または情報は、時には、パケット、バイト、文字、またはビットであり得る。一部の実施形態では、データおよび/または情報は、任意の集められた、アセンブルされた、または使用可能なデータまたは情報であり得る。データおよび/または情報の非限定的な例としては、適切な媒体、画像、ビデオ、音声(例えば、周波数、可聴または非可聴)、番号、定数、値、物体、時間、機能、命令、マップ、参照、配列、リード、マッピングされたリード、レベル、範囲、閾値、シグナル、ディスプレイ、提示、またはそれらの変換物が挙げられる。モジュールは、データおよび/または情報を受容または受信し、データおよび/または情報を第2の形態に変換し、第2の形態を機械、周辺機器、コンポーネントまたは別のモジュールに提供または転送することができる。モジュールは、以下の非限定的な機能のうちの1つまたは複数を実施することができる:例えば、配列リードをマッピングする、カウントを提供する、部分をアセンブルする、レベルを提供または決定する、カウントプロファイルを提供する、正規化する(例えば、リードを正規化する、カウントを正規化するなど)、正規化されたカウントプロファイルまたは正規化されたカウントのレベルを提供する、2つまたはそれよりも多いレベルを比較する、不確実性値を提供する、予期されるレベルおよび予期される範囲(例えば、予期されるレベル範囲、閾値範囲および閾値レベル)を提供するまたは決定する、レベルに調整を施す(例えば、第1のレベルを調整する、第2のレベルを調整する、染色体もしくはその一部のプロファイルを調整する、および/またはパディングする)、識別する(例えば、コピー数変更、遺伝的変異/遺伝的変更または異数性を識別する)、カテゴリー化する、プロットする、ならびに/またはアウトカムを決定する。マイクロプロセッサーは、ある特定の実施形態では、モジュール内で命令を実行することができる。一部の実施形態では、1つまたは複数のマイクロプロセッサーは、モジュールまたはモジュールの群内で命令を実行するように要求される。モジュールは、データおよび/または情報を別のモジュール、機械または供給源に提供することができ、ならびにデータおよび/または情報を別のモジュール、機械または供給源から受信することができる。
コンピュータプログラム製品は、時には、実体的なコンピュータ可読媒体で具現化され、時には、非一時的コンピュータ可読媒体で実体的に具現化される。モジュールは、時には、コンピュータ可読媒体(例えば、ディスク、ドライブ)上またはメモリ(例えば、ランダムアクセスメモリ)内に記憶される。モジュールからの命令を実現することが可能なモジュールおよびマイクロプロセッサーは、ある機械内または異なる機械内に位置し得る。モジュールについて命令を実現することが可能なモジュールおよび/またはマイクロプロセッサーは、ユーザーと同じ場所(例えば、ローカルネットワーク)またはユーザーと異なる場所(例えば、リモートネットワーク、クラウドシステム)に位置し得る。方法が2つまたはそれよりも多いモジュールと併せて実行される実施形態では、モジュールは、同一機械内に位置してもよく、1つまたは複数のモジュールは、物理的に同じ場所にある異なる機械内に位置してもよく、1つまたは複数のモジュールは、物理的に異なる場所にある異なる機械内に位置してもよい。
機械は、一部の実施形態では、モジュール内の命令を実行するための少なくとも1つのマイクロプロセッサーを含む。配列リードの定量化(例えば、カウント)は、時には、本明細書に記載される方法を実行するように構成された命令を実行するマイクロプロセッサーによってアクセスされる。マイクロプロセッサーによってアクセスされる配列リードの定量化は、システムのメモリ内にあってもよく、カウントは、それらが取得された後にアクセスされ、システムのメモリ内に配置されてもよい。一部の実施形態では、機械は、マイクロプロセッサー(例えば、1つまたは複数のマイクロプロセッサー)を含み、マイクロプロセッサーは、モジュールからの1つまたは複数の命令(例えば、プロセス、ルーチンおよび/またはサブルーチン)を実施するおよび/また実現することができる。一部の実施形態では、機械は、並行同調作業型のマイクロプロセッサー(microprocessors coordinated and working in parallel)などの複数のマイクロプロセッサーを含む。一部の実施形態では、機械は、1つまたは複数の外部マイクロプロセッサー(例えば、内部または外部のネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))と共に稼働する。一部の実施形態では、機械は、モジュール(例えば、1つまたは複数のモジュール)を含む。モジュールを含む機械は、多くの場合、1つもしくは複数のデータおよび/または情報を、他のモジュールから受信し、それに対して転送することが可能である。
ある特定の実施形態では、機械は周辺機器および/またはコンポーネントを含む。ある特定の実施形態では、機械は、データおよび/または情報を、他のモジュール、周辺機器および/またはコンポーネントに対して、ならびにこれらから転送することができる1つまたは複数の周辺機器またはコンポーネントを含み得る。ある特定の実施形態では、機械は、データおよび/または情報を提供する周辺機器および/またはコンポーネントと相互作動する。ある特定の実施形態では、周辺機器およびコンポーネントは、機能を実行する際に機械を支援するか、またはモジュールと直接相互作動する。周辺機器および/またはコンポーネントの非限定的な例としては、適切なコンピュータ周辺機器、I/Oもしくは記憶方法、またはデバイスが挙げられ、デバイスには、これらに限定されないが、スキャナー、プリンター、ディスプレイ(例えば、モニター、LED、LCT、またはCRT)、カメラ、マイクロフォン、パッド(例えば、ipad(登録商標)、タブレット)、タッチスクリーン、スマートフォン、携帯電話、USB I/Oデバイス、USB大容量記憶デバイス、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサー、サーバー、CD、DVD、グラフィックカード、特殊I/Oデバイス(例えば、シーケンサー、フォトセル、光電子増倍管、光学式リーダー、センサーなど)、1つまたは複数のフローセル、流体ハンドリングコンポーネント、ネットワークインタフェースコントローラー、ROM、RAM、無線転送方法およびデバイス(Bluetooth(登録商標)、WiFiなど)、ワールドワイドウェブ(www)、インターネット、コンピュータおよび/または別のモジュールが挙げられる。
ソフトウェアは、コンピュータ可読媒体に記録されているプログラム命令を含有するプログラム製品上に提供される場合が多く、コンピュータ可読媒体としては、これらに限定されないが、フロッピー(登録商標)ディスク(floppy disk)、ハードディスク、および磁気テープを含む磁気媒体;ならびにCD-ROMディスク、DVDディスク、光磁気ディスクを含む光学式媒体、フラッシュメモリデバイス(例えば、フラッシュドライブ)、RAM、フロッピー(登録商標)ディスク(floppy disc)など、およびプログラム命令を記録することができる他のこのような媒体が挙げられる。オンラインでの実現において、編成によって維持されるサーバーおよびウェブサイトは、ソフトウェアダウンロードをリモートユーザーに提供するように構成され得るか、またはリモートユーザーは、編成によって維持されるリモートシステムにアクセスして、遠隔的にソフトウェアにアクセスしてもよい。ソフトウェアは、インプット情報を得るかまたは受信することができる。ソフトウェアは、データを具体的に得るかまたは受信するモジュール(例えば、配列リードデータおよび/またはマッピングされたリードを受信するデータ受信モジュール)を含んでもよく、データを具体的に処理するモジュール(例えば、受信したデータを処理する処理モジュール(例えば、アウトカムおよび/または報告をフィルタリングする、正規化する、提供する))を含んでもよい。用語、インプット情報を「得る」および「受信する」は、ローカル、もしくはリモートサイトから、ヒトがデータ入力するコンピュータ通信手段、または任意の他のデータ受信方法によって、データ(例えば、配列リード、マッピングされたリード)を受信することを指す。インプット情報は、受信されるのと同じ場所で生成されてもよく、または異なる場所で生成され、受信場所に伝送されてもよい。一部の実施形態では、インプット情報は、処理される前に修正される(例えば、処理しやすいフォーマット(例えば、表形式)に配置される)。
ソフトウェアは、ある特定の実施形態では、1つまたは複数のアルゴリズムを含み得る。アルゴリズムは、データを処理するため、および/または有限シーケンスの命令に従ってアウトカムもしくは報告を提供するために使用され得る。アルゴリズムは、タスクを完了するための定義された命令のリストである場合が多い。初期状態から開始し、命令は、定義された一連の連続した状態を通じて進行し、最終的に最終エンディング状態で終了する計算を記載し得る。1つの状態から次の状態への移行は必ずしも確定的ではない(例えば、一部のアルゴリズムには、偶然性を組み込んでいる)。例として、これらに限定されないが、アルゴリズムは、サーチアルゴリズム、ソーティングアルゴリズム、マージアルゴリズム、数値アルゴリズム、グラフアルゴリズム、ストリングアルゴリズム、モデリングアルゴリズム、計算幾何学アルゴリズム、コンビナトリアルアルゴリズム、機械学習アルゴリズム、クリプトグラフィーアルゴリズム、データ圧縮アルゴリズム、パージングアルゴリズムなどであってもよい。アルゴリズムは、1つのアルゴリズムまたは組み合わせて作業する2つもしくはそれよりも多いアルゴリズムを含んでもよい。アルゴリズムは、任意の適切な複雑性クラス、および/またはパラメーター化された複雑性のものであってもよい。アルゴリズムは、計算および/またはデータ処理するために使用することができ、一部の実施形態では、確定的または確率的/予測的なアプローチで使用することができる。アルゴリズムは、適切なプログラミング言語の使用によって、コンピューティング環境内で実現することができ、そのような言語の非限定的な例は、C、C++、Java(登録商標)、Perl、Python、Fortranなどである。一部の実施形態では、アルゴリズムは、許容誤差、統計分析、統計的有意性、および/または他の情報もしくはデータセットとの比較(例えば、ニューラルネットまたはクラスタリングアルゴリズムを使用する場合に適用可能)を含むように構成または修正され得る。
ある特定の実施形態では、いくつかのアルゴリズムは、ソフトウェア内で使用するために実現され得る。これらのアルゴリズムは、一部の実施形態では、生データを用いてトレーニングされ得る。新しい生データ試料ごとに、トレーニングされたアルゴリズムは、代表的な処理済みデータセットまたはアウトカムを生じ得る。処理済みデータセットは、時には、処理された親データセットと比較して複雑性が低減されたものである。処理済みのセットに基づき、一部の実施形態では、トレーニングされたアルゴリズムの性能が、感度および特異度に基づいて評価されてもよい。最高の感度および/または特異度を有するアルゴリズムは、ある特定の実施形態では、識別および利用されてもよい。
ある特定の実施形態では、シミュレーションされた(またはシミュレーション)データは、例えばアルゴリズムをトレーニングするか、またはアルゴリズムを試験することによって、データ処理を補助することができる。一部の実施形態では、シミュレーションされたデータには、配列リードの異なるグルーピングの、仮想的な種々の試料採取が含まれる。シミュレーションされたデータは、何が真の集団から予測され得るか、またはアルゴリズムを試験する、および/または正しい分類を割り当てるのに何に歪みが生じ得るかが基準となり得る。また、シミュレーションされたデータは、本明細書において、「仮想」データとも称される。シミュレーションは、ある特定の実施形態では、コンピュータプログラムにより実施され得る。シミュレーションされたデータセットを使用する際の1つの可能なステップは、識別された結果の信頼度を評価すること、例えばランダム試料採取がどのくらい良好にオリジナルデータと一致するか、またはオリジナルデータを最良に代表するかを、評価することである。1つのアプローチは、確率値(p値)を計算することであり、この値は、ランダム試料が選択された試料よりも良好なスコアを有する確率を推定する。一部の実施形態では、経験的モデルが評価される場合があり、この場合、少なくとも1つの試料が参照試料と一致することを前提とする(変動の解消(resolved variation)ありまたはなし)。一部の実施形態では、例えばポアソン分布などの別の分布を使用して、確率分布を定義することができる。
システムは、ある特定の実施形態では、1つまたは複数のマイクロプロセッサーを含み得る。マイクロプロセッサーは、通信バスと接続されてもよい。コンピュータシステムは、メインメモリ、多くの場合ランダムアクセスメモリ(RAM)を含んでもよく、二次メモリも含み得る。メモリは、一部の実施形態では、非一時的コンピュータ可読記憶媒体を含む。二次メモリは、例えばハードディスクドライブおよび/またはリムーバブル記憶ドライブを含むことができ、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学式ディスクドライブ、メモリカードなどがこれに該当する。リムーバブル記憶ドライブは、リムーバブル記憶ユニットから読み取る、および/またはこれに書き込むことが多い。リムーバブル記憶ユニットの非限定的な例としては、フロッピー(登録商標)ディスク、磁気テープ、光学式ディスクなどが挙げられ、例えばリムーバブル記憶ドライブによって、読取りおよび書き込み可能である。リムーバブル記憶ユニットは、コンピュータソフトウェアおよび/またはデータを内蔵するコンピュータ使用可能記憶媒体を含み得る。
マイクロプロセッサーは、システム内でソフトウェアを実現することができる。一部の実施形態では、マイクロプロセッサーは、ユーザーが実施できる、本明細書に記載されるタスクを自動的に実施するようにプログラムされ得る。したがって、マイクロプロセッサー、またはこのようなマイクロプロセッサーによって行われるアルゴリズムは、ユーザーからの監視またはインプットを、ほとんどまたはまったく必要としない可能性がある(例えば、ソフトウェアは、機能を自動的に実現するようにプログラムされ得る)。一部の実施形態では、処理はあまりにも複雑であり、一人の人間であっても、または人間の群であっても、遺伝的変異または遺伝的変更の存在または非存在を決定するために十分短いタイムフレーム内で処理を行うことできない。
一部の実施形態では、二次メモリは、コンピュータプログラムまたは他の命令をコンピュータシステムにロードできるようにするための、他の類似する手段を含み得る。例えば、システムは、リムーバブル記憶ユニットおよびインタフェースデバイスを含み得る。このようなシステムの非限定的な例としては、プログラムカートリッジおよびカートリッジインタフェース(ビデオゲームデバイスに見出されるものなど)、リムーバブルメモリチップ(EPROMまたはPROMなど)および関連するソケット、ならびにソフトウェアおよびデータをリムーバブル記憶ユニットからコンピュータシステムに転送できるようにする、他のリムーバブル記憶ユニットおよびインタフェースが挙げられる。
図6は、本明細書に記載される種々のシステム、方法、アルゴリズム、およびデータ構造が実現され得るコンピューティング環境610の非限定的な例を示す。コンピューティング環境610は、適切なコンピューティング環境の1つの例に過ぎず、本明細書に記載されるシステム、方法、およびデータ構造の使用または機能性の範囲について何らかの制限を示唆することを意図するものではない。また、コンピューティング環境610は、コンピューティング環境610に示すコンポーネントの任意の1つまたは組合せと関連する何らかの依存性または要件を有するものと解釈されるべきではない。図6に示されているシステム、方法、およびデータ構造のサブセットは、ある特定の実施形態で利用され得る。本明細書に記載されるシステム、方法、およびデータ構造は、非常に多くの他の汎用または専用のコンピューティングシステム環境または構成と共に操作可能である。適切であり得る公知のコンピューティングシステム、環境、および/または構成の例としては、これらに限定されないが、パーソナルコンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、携帯式またはラップトップデバイス、マルチプロセッサーシステム、マイクロプロセッサーベースのシステム、セットトップボックス、プログラム可能な一般消費者用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを含む分散型コンピューティング環境などが挙げられる。
図6の操作環境610は、コンピュータ620の形態の汎用コンピューティングデバイスを含み、これには、処理ユニット621、システムメモリ622、およびシステムメモリ622を含む種々のシステムコンポーネントを処理ユニット621に作動可能に連結するシステムバス623が含まれる。コンピュータ620のプロセッサーが、単一の中央処理装置(CPU)、または並列処理環境と一般的に呼ばれる複数の処理ユニットを含むように、処理ユニット621は1つのみ存在し得るか、または2つ以上存在し得る。コンピュータ620は、従来型コンピュータ、分散型コンピュータ、または任意の他の型のコンピュータであってもよい。
システムバス623は、メモリバスまたはメモリコントローラー、周辺バス、および種々のバスアーキテクチャーのいずれかを使用するローカルバスを含む、任意の数種類のバス構造であり得る。システムメモリは、単にメモリと呼ばれる場合もあり、リードオンリーメモリ(ROM)624およびランダムアクセスメモリ(RAM)を含む。立ち上げの間などに、コンピュータ620内のエレメント間の情報転送に役立つ基本ルーチンを含有する基本インプット/アウトプットシステム(BIOS)626は、ROM624に記憶される。コンピュータ620は、図示しないが、ハードディスクからの読み出し、これへの書き込みのためのハードディスクドライブインタフェース627、リムーバブル磁気ディスク629からの読み出し、これへの書き込みのための磁気ディスクドライブ628、およびリムーバブル光学式ディスク631、例えばCD ROMまたは他の光学式媒体からの読み出し、これへの書き込みのための光学式ディスクドライブ630をさらに含み得る。
ハードディスクドライブ627、磁気ディスクドライブ628、および光学式ディスクドライブ630は、それぞれ、ハードディスクドライブインタフェース632、磁気ディスクドライブインタフェース633、および光学式ディスクドライブインタフェース634によって、システムバス623と接続される。ドライブおよびそれに関連するコンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ620用の他のデータの不揮発性記憶を提供する。コンピュータがアクセス可能なデータを記憶することができる、あらゆる種類のコンピュータ可読媒体、例えば磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)などが、操作環境内で使用され得る。
いくつかのプログラムモジュールは、操作システム635、1つまたは複数のアプリケーションプログラム636、他のプログラムモジュール637、およびプログラムデータ638を含む、ハードディスク、磁気ディスク629、光学式ディスク631、ROM624、またはRAM上に記憶され得る。ユーザーは、コマンドおよび情報を、インプットデバイス、例えばキーボード640およびポインティングデバイス642を通じてパーソナルコンピュータ620に入力することができる。他のインプットデバイス(図示せず)として、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディシュ、スキャナーなどを挙げることができる。これらおよび他のインプットデバイスは、システムバスに連結したシリアルポートインタフェース646を経由して処理ユニット621と接続されることが多いが、他のインタフェース、例えばパラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)によって接続される場合もある。モニター647または他の種類のディスプレイデバイスも、インタフェース、例えばビデオアダプター648を介してシステムバス623に接続される。モニターに加えて、コンピュータは、典型的には、他の周辺アウトプットデバイス(図示せず)、例えばスピーカーおよびプリンターを含む。
コンピュータ620は、1つまたは複数のリモートコンピュータ、例えばリモートコンピュータ649への論理接続を使用して、ネットワーク化された環境内で作動可能である。これらの論理接続は、コンピュータ620もしくはその一部に連結している通信デバイスによって、または他の方式で達成され得る。図6では、メモリ記憶デバイス650しか示さなかったが、リモートコンピュータ649は、別のコンピュータ、サーバー、ルーター、ネットワークPC、クライアント、ピアデバイスまたは他の一般的なネットワークノードであってもよく、典型的には、コンピュータ620と関連して上記エレメントの多くまたは全てを含む。図6に示す論理接続としては、ローカルエリアネットワーク(LAN)651およびワイドエリアネットワーク(WAN)652が挙げられる。このようなネットワーク環境は、オフィスネットワーク、企業全体のコンピュータネットワーク、イントラネットおよびインターネットでは普通であり、そのいずれも典型的なネットワークである。
LAN-ネットワーク環境で使用される場合、コンピュータ620は、通信デバイスの一種であるネットワークインタフェースまたはアダプター653を介してローカルネットワーク651に接続される。WAN-ネットワーク環境で使用される場合、コンピュータ620は、通信デバイスの一種であるモデム654、またはワイドエリアネットワーク652全体にわたり通信を確立するための他の任意の種類の通信デバイスを含むことが多い。モデム654は、内部または外部に存在してもよいが、シリアルポートインタフェース646を介してシステムバス623に接続される。ネットワーク化された環境では、パーソナルコンピュータ620またはその一部と関連して示されるプログラムモジュールは、リモートメモリ-記憶デバイス内に記憶されてもよい。示されているネットワーク接続は非限定的な例であり、コンピュータ間の通信リンクを確立するための他の通信デバイスが使用されてもよいことが認識される。
変換
上記のように、データは1つの形態から別の形態に変換されることがある。用語「変換された」、「変換」、およびその文法的な派生物または等価物は、本明細書で使用される場合、物理的な出発材料(例えば、試験対象および/または参照対象の試料核酸)から物理的な出発材料のデジタル表示(例えば、配列リード)へのデータの変更を指し、一部の実施形態では、アウトカムを提供するのに利用され得る1つもしくは複数の数値への、またはデジタル表示の図形表示へのさらなる変換を含む。ある特定の実施形態では、1つまたは複数の数値および/またはデジタル的に表示されたデータの図形表示は、試験対象の物理的なゲノムの外観を表すのに利用され得る(例えば、ゲノムの挿入、重複または欠失の存在または非存在を仮想的に表すかまたは可視的に表す;医学的状態と関連した配列の物理量の変動の存在または非存在を表す)。仮想表示は、1つもしくは複数の数値、または出発材料のデジタル表示の図形表示にさらに変換されることもある。これらの方法は、物理的な出発材料を、数値もしくは図形表示に、または試験対象の核酸の物理的外観表示に変換することができる。
一部の実施形態では、データセットを変換すると、データの複雑性および/またはデータの次元性が低減することによって、アウトカムの提供を促進する。データセットの複雑性は、物理的な出発材料を出発材料の仮想表示に変換する処理の間に低減することもある(例えば、物理的な出発材料を表わす配列リード)。適切な特色または変数は、データセットの複雑性および/または次元性を低減するために利用され得る。データ処理のための標的特色として使用するのに選択され得る特色の非限定的な例としては、GC含有量、胎児の性別予測、断片サイズ(例えば、CCF断片の長さ、リードまたはその適切な表示(例えば、FRS))、断片配列、コピー数変更の識別、染色体異数性の識別、特定の遺伝子またはタンパク質の識別、がん、疾患、遺伝性の遺伝子/形質、染色体異常の識別、生物学的カテゴリー、化学的カテゴリー、生化学的カテゴリー、遺伝子またはタンパク質のカテゴリー、遺伝子オントロジー、タンパク質オントロジー、共制御された遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、上記遺伝子に関するタンパク質、遺伝子変異体、タンパク質変異体、共制御された遺伝子、共制御されたタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データなど、および上記の組合せが挙げられる。データセットの複雑性および/または次元性の低減についての非限定的な例としては;複数の配列リードのプロファイルプロットへの低減、複数の配列リードの数値(例えば、正規化された値、Z-スコア、p値)への低減;複数の分析方法の確率プロットもしくは単一ポイントへの低減;導出された量の主成分分析など、またはその組合せが挙げられる。
遺伝的変異/遺伝的変更および医学的状態
遺伝的変異の存在または非存在は、本明細書に記載される方法または装置を使用して決定することができる。遺伝的変異は、遺伝的変更と称されてもよく、これらの用語は、本明細書および当該技術分野において交換可能に使用されることが多い。ある特定の場合には、「遺伝的変更」は、それによって、対象における細胞のサブセット中のゲノムが変更を含有する(例えば、腫瘍またはがん細胞中など)体細胞変更について説明するために使用され得る。ある特定の場合には、「遺伝的変異」は、一方または両方の親から遺伝した変異について説明するために使用され得る(例えば、胎児における遺伝的変異)。
ある特定の実施形態では、1つまたは複数の遺伝的変異または遺伝的変更の存在または非存在は、本明細書に記載される方法および装置によって提供されるアウトカムに従って決定される。遺伝的変異は、一般的に、ある特定の個体中に存在する特定の遺伝的表現型であり、遺伝的変異は、個体の統計的に有意なサブ集団中に存在する。一部の実施形態では、遺伝的変異または遺伝的変更は、染色体異常またはコピー数変更である(例えば、異数性、1つもしくは複数の染色体の重複、1つもしくは複数の染色体の喪失、部分的な染色体異常またはモザイク現象(例えば、染色体の1つまたは複数の領域の喪失または獲得)、転座、逆位であり、そのそれぞれについて、本明細書でより詳細に説明される)。遺伝的変異/遺伝的変更の非限定的な例としては、1つまたは複数のコピー数変更/変異、欠失(例えば、微小欠失)、重複(例えば、微小重複)、挿入、突然変異(例えば、単一ヌクレオチド変異、単一ヌクレオチド変更)、多型(例えば、単一ヌクレオチド多型)、融合、リピート(例えば、ショートタンデムリピート)、異なるメチル化部位、異なるメチル化パターンなど、およびその組合せが挙げられる。挿入、リピート、欠失、重複、突然変異または多型は、任意の長さのものであってもよく、一部の実施形態では、長さ約1塩基または塩基対(bp)~約250メガ塩基(Mb)である。一部の実施形態では、挿入、リピート、欠失、重複、変異、または多型は、長さ約1塩基または塩基対(bp)~約50,000キロ塩基(kb)である(例えば、長さ約10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb、1000kb、5000kbまたは10,000kb)。
遺伝的変異または遺伝的変更は、欠失であることもある。ある特定の場合には、欠失は、染色体またはDNA配列の一部分が欠損している突然変異(例えば、遺伝子異常)である。欠失は、遺伝物質の喪失であることが多い。任意の数のヌクレオチドが欠失し得る。欠失は、1つもしくは複数の染色体全体、染色体の領域、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、その一部またはそれらの組合せの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。
遺伝的変異または遺伝的変更は、重複であることもある。ある特定の場合には、重複は染色体またはDNA配列の一部分がコピーされ、ゲノムへと逆挿入される突然変異(例えば、遺伝子異常)である。ある特定の実施形態では、遺伝子の重複(例えば、重複)は、DNA領域の任意の重複である。一部の実施形態では、重複は、ゲノムまたは染色体内の、多くの場合タンデムに反復した核酸配列である。一部の実施形態では、重複は、1つもしくは複数の染色体全体、染色体の領域、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、その一部またはそれらの組み合わせのコピーを含み得る。重複は、微小重複を含み得る。重複は、1つまたは複数の重複した核酸のコピーを含むこともある。重複は、1回または複数回反復した(例えば、1、2、3、4、5、6、7、8、9、または10回反復した)遺伝子領域として特徴付けられることもある。重複は、小領域(数千塩基対)から、一部の場合には染色体全体の範囲であり得る。重複は、相同組換えにおける誤差の結果として、またはレトロトランスポゾンイベントに起因して高頻度で生ずる。重複は、ある特定の種類の増殖性疾患と関連している。重複は、ゲノムマイクロアレイまたは比較遺伝的ハイブリダイゼーション(CGH)を使用して特徴付けすることができる。
遺伝的変異または遺伝的変更は、挿入のこともある。挿入は、1つまたは複数のヌクレオチド塩基対の核酸配列への付加のこともある。挿入は、微小挿入のこともある。ある特定の実施形態では、挿入は、染色体の領域の、ゲノム、染色体、またはその一部への付加を含む。ある特定の実施形態では、挿入は、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、その一部またはそれらの組合せの、ゲノムまたはその一部への付加を含む。ある特定の実施形態では、挿入は、起源が不明の核酸の、ゲノム、染色体、またはその一部への付加(例えば、挿入)を含む。ある特定の実施形態では、挿入は、単一塩基の付加(例えば、挿入)を含む。
本明細書で使用される場合、「コピー数変更」は、一般的に、遺伝的変異、遺伝的変更または染色体異常のクラスまたは型である。コピー数変更は、コピー数変異と称されてもよく、これらの用語は、本明細書および当該技術分野において交換可能に使用される場合が多い。ある特定の場合には、「コピー数変更」は、それによって、対象における細胞のサブセット中のゲノムが変更を含有する、体細胞変更について説明するために使用され得る(例えば、腫瘍またはがん細胞中など)。ある特定の場合には、「コピー数変異」は、一方または両方の親から遺伝した変異(例えば、胎児におけるコピー数変異など)について説明するために使用され得る。コピー数変更は、欠失(例えば、微小欠失)、重複(例えば、微小重複)または挿入(例えば、微小挿入)であり得る。本明細書で使用される場合、接頭辞「微小」は、長さ5Mb未満の核酸の領域であることが多い。コピー数変更は、染色体の一部の1つまたは複数の欠失(例えば、微小欠失)、重複、および/または挿入(例えば、微小重複、微小挿入)を含み得る。ある特定の実施形態では、重複は挿入を含む。ある特定の実施形態では、挿入は重複である。ある特定の実施形態では、挿入は重複ではない。
一部の実施形態では、コピー数変更は、腫瘍またはがん細胞からのコピー数変更である。一部の実施形態では、コピー数変更は、非がん細胞からのコピー数変更である。ある特定の実施形態では、コピー数変更は、対象(例えば、がん患者)のゲノム内、および/または対象におけるがん細胞もしくは腫瘍細胞のゲノム内のコピー数変更である。コピー数変更は、変異(例えば、重複または欠失)がゲノムの1つの対立遺伝子上に存在する、ヘテロ接合性のコピー数変更であってもよい。コピー数変更は、変更がゲノムの両方の対立遺伝子上に存在する、ホモ接合性のコピー数変更であってもよい。一部の実施形態では、コピー数変更は、ヘテロ接合性またはホモ接合性のコピー数変更である。一部の実施形態では、コピー数変更は、がん細胞または非がん細胞からのヘテロ接合性またはホモ接合性のコピー数変更である。コピー数変更は、がん細胞ゲノムおよび非がん細胞ゲノム中に存在するか、がん細胞ゲノム中には存在するが非がん細胞ゲノム中には存在しないか、または非がん細胞ゲノム中には存在するががん細胞ゲノム中には存在することがある。
一部の実施形態では、コピー数変更は、胎児コピー数変更である。胎児コピー数変更は、胎児のゲノム中のコピー数変更である場合が多い。一部の実施形態では、コピー数変更は、母方および/または胎児コピー数変更である。ある特定の実施形態では、母方および/または胎児コピー数変更は、妊娠雌性(例えば、胎児を有する雌性対象)、出産した雌性対象または胎児を有することが可能な雌性のゲノム内のコピー数変更である。コピー数変更は、変更(例えば、重複または欠失)がゲノムの1つの対立遺伝子上に存在する、ヘテロ接合性のコピー数変更であってもよい。コピー数変更は、変更がゲノムの両方の対立遺伝子上に存在する、ホモ接合性のコピー数変更であってもよい。一部の実施形態では、コピー数変更は、ヘテロ接合性またはホモ接合性の胎児コピー数変更である。一部の実施形態では、コピー数変更は、ヘテロ接合性またはホモ接合性の母方および/または胎児コピー数変更である。コピー数変更は、母方ゲノムおよび胎児ゲノム中に存在するか、母方ゲノム中には存在するが胎児ゲノム中には存在しないか、または胎児ゲノム中には存在するが母方ゲノム中には存在しないこともある。
「倍数性」とは、対象中に存在する染色体の数への言及である。ある特定の実施形態では、「倍数性」は、「染色体倍数性」と同じである。ヒトでは、例えば常染色体は、対で存在する場合が多い。例えば、遺伝的変異または遺伝的変更の非存在下で、ほとんどのヒトは各常染色体(例えば、第1~22染色体)のうちの2つを有する。ヒトにおける2つの常染色体の正常な相補体の存在は、正倍数体または二倍体と呼ばれる。「微小倍数性」は、意味上では、倍数性に類似する。「微小倍数性」は、染色体の一部の倍数性を指す場合が多い。用語「微小倍数性」は、染色体内のコピー数変更(例えば、欠失、重複および/または挿入)の存在または非存在(例えば、ホモ接合性またはヘテロ接合性の欠失、重複、または挿入など、またはその非存在)への言及であることがある。
その存在または非存在が対象について識別される遺伝的変異または遺伝的変更は、ある特定の実施形態では、医学的状態に関連する。したがって、本明細書に記載される技術は、医学的状態または病状と関連する1つまたは複数の遺伝的変異または遺伝的変更の存在または非存在を識別するために使用することができる。医学的状態の非限定的な例としては、知的障害(例えば、ダウン症候群)、異常な細胞増殖(例えば、がん)、微生物核酸(例えば、ウイルス、細菌、真菌、酵母)の存在、および子癇前症と関連した状態が挙げられる。
遺伝的変異/遺伝的変更、医学的状態および状態の非限定的な例は、以降に記載される。
染色体異常
一部の実施形態では、染色体異常の存在または非存在は、本明細書に記載される方法および/または装置を使用することによって決定することができる。染色体異常としては、これらに限定しないが、コピー数変更、染色体全体または1つもしくは複数の遺伝子を含む染色体の領域の獲得または喪失が挙げられる。染色体異常には、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の喪失、転座、不均衡な転座によって引き起こされる欠失および重複を含む、1つまたは複数のヌクレオチド配列(例えば、1つまたは複数の遺伝子)の欠失および/または重複が含まれる。用語「染色体異常」または「異数性」は、本明細書で使用される場合、対象の染色体構造と正常な相同染色体構造との間の偏差を指す。用語「正常」は、特定の種の健康な個体に見出される優勢な核型またはバンディングパターン、例えば正倍数体ゲノム(例えば、ヒトでの二倍体、例えば、46、XXまたは46、XY)を指す。異なる生物は、染色体の相補性も幅広く異なるので、用語「異数性」は特定数の染色体を指すものではなく、むしろ、生物の所与の細胞の1つまたは複数内の染色体含量が異常である状況を指す。一部の実施形態では、用語「異数性」は、本明細書において、染色体全体または染色体の一部の喪失または獲得によって引き起こされる遺伝物質の不均衡を指す。「異数性」は、染色体の領域の1つまたは複数の欠失および/または挿入を指し得る。用語「正倍数体」は、一部の実施形態では、染色体の正常な相補体を指す。
用語「モノソミー」は、本明細書で使用される場合、正常な相補体のうちの1つの染色体が欠如していることを指す。単一のコピー内に染色体の一部のみが存在する、不均衡な転座または欠失においては、部分的モノソミーが生じ得る。性染色体のモノソミー(45、X)は、例えばターナー症候群を引き起こす。用語「ダイソミー」は、染色体の2つのコピーが存在することを指す。各染色体のうちの2つのコピーを有するヒトなどの生物(二倍体または「正倍数体」の生物)の場合、ダイソミーは正常な状態である。各染色体の3つまたはそれよりも多いコピーを通常有する生物(三倍体またはそれを上回る生物)の場合、ダイソミーは異数体の染色体の状態である。片親性ダイソミーでは、染色体の両方のコピーは同一の親に由来する(他方の親の寄与はない)。
用語「トリソミー」は、本明細書で使用される場合、特定の染色体の2つのコピーの代わりに、3つのコピーが存在することを指す。ヒトのダウン症候群に見られる余分な第21染色体の存在は、「21トリソミー」と呼ばれる。18トリソミーおよび13トリソミーは、他の2つのヒト常染色体トリソミーである。性染色体のトリソミーは、雌性(例えば、トリプルX症候群の47、XXX)または雄性(例えば、クラインフェルター症候群の47、XXY;またはジェイコブス症候群の47、XYY)に見られ得る。一部の実施形態では、トリソミーは、ほとんどまたは全ての常染色体の重複である。ある特定の実施形態では、トリソミーは全染色体異数性であり、特定の型の染色体について3つのインスタンス(例えば、3つのコピー)をもたらす(例えば、正倍数体についての特定の型の染色体の2つのインスタンス(即ち、対)の代わりに)。
用語「テトラソミー」および「ペンタソミー」は、本明細書で使用される場合、それぞれ、4つまたは5つの染色体コピーが存在することを指す。常染色体ではほとんど認められないが、性染色体のテトラソミーおよびペンタソミーが、XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYY、およびXYYYYを含め、ヒトで報告されている。
用語「モザイク現象」は、本明細書で使用される場合、生物の全ての細胞ではないが、一部の細胞内の異数性を指す。ある特定の染色体異常は、モザイク性および非モザイク性の染色体異常として存在し得る。例えば、ある特定の21トリソミー個体はモザイクダウン症候群を有し、一部は非モザイクダウン症候群を有する。異なる機構が、モザイク現象をもたらし得る。例えば、(i)最初の接合体は、3つの第21染色体を有し得るが、これは、通常、単純な21トリソミーをもたらすが、細胞分裂の過程で、1つまたは複数の細胞系が、第21染色体の1つを喪失した;および(ii)最初の接合体は、2つの第21染色体を有し得るが、細胞分裂の過程で、第21染色体の1つが重複した。モザイク現象に関連する他の状態としては、モザイククラインフェルター症候群、モザイクターナー症候群、パリスター-キリアンモザイク症候群、紙吹雪を伴う魚鱗癬、クリッペル-トレノネー症候群、環状第14染色体症候群、SOX2無眼球症候群、トリプルX症候群、および18トリソミーモザイクが挙げられる。体細胞モザイク現象は、完全なまたはモザイク性の異数性を伴う遺伝的症候群と典型的に関連する機構とは異なる機構を通じて生じる傾向がある。体細胞モザイク現象は、例えば、ある特定の型のがんやニューロンにおいて識別されている。ある特定の場合には、12トリソミーは、慢性リンパ球性白血病(CLL)において識別されており、8トリソミーは、急性骨髄性白血病(AML)において識別されている。また、個体が染色体を破断しやすい傾向を有する遺伝的症候群(染色体不安定症候群)は、種々の型のがんについてリスクの増加と高頻度で関連し、したがって、発癌性における体細胞異数性の役割が強調される。本明細書に記載される方法およびプロトコールは、非モザイク性およびモザイク性の染色体異常の存在または非存在を識別することができる。
コピー数変異に関するモザイク現象は、胎児に存在するか、胎盤に存在するか、または胎児と胎盤に存在し得る。胎盤に存在するが胎児には存在しないコピー数変異についてのモザイク現象は、胎盤限局性モザイク(CPM)と呼ばれることがある。CPMについては、しばしば、胎盤の細胞の一部または全てがコピー数変異を有し、胎児はコピー数変異を有さない。コピー数変異を有する一部の細胞が絨毛膜絨毛試料採取で検出され、その後の胎盤試験、例えば胎児の血液試料採取または羊水穿刺では正常細胞のみが見られる場合に、CPMが診断される場合がある。
胎児の性
一部の実施形態では、胎児の性または性関連の障害(例えば、性染色体異数性)の予測は、本明細書に記載される方法、機械または装置によって決定することができる。性の決定は、一般に、性染色体に基づく。ヒトでは、2つの性染色体、X染色体およびY染色体が存在する。Y染色体は、雄性としての胚発生を引き起こす遺伝子、SRYを含有する。ヒトおよび他の哺乳動物のY染色体は、正常な精子産生に必要とされる他の遺伝子も含有する。XXを有する個体は雌性であり、XYは雄性であり、しばしば性染色体異数性と呼ばれる非限定的な変異としては、X0、XYY、XXX、およびXXYが挙げられる。ある特定の実施形態では、雄性は、2つのX染色体および1つのY染色体(XXY;クラインフェルター症候群)、または1つのX染色体および2つのY染色体(XYY症候群;ジェイコブス症候群)を有し、一部の雌性は、3つのX染色体(XXX;トリプルX症候群)または2つの代わりに単一のX染色体(X0;ターナー症候群)を有する。ある特定の実施形態では、個体内の一部の細胞のみが、性染色体異数性により影響を受け、モザイク現象(例えば、ターナーモザイク現象)と呼ばれ得る。他の症例としては、SRYが損傷を受けている症例(XYの雌性となる)、またはXにコピーされた症例(XXの雄性となる)が挙げられる。
医学的障害および医学的状態
本明細書に記載される方法は、任意の適切な医学的障害または医学的状態に適用可能であり得る。医学的障害および医学的状態の非限定的な例としては、細胞増殖性障害および状態、消耗性障害および状態、変性障害および状態、自己免疫障害および状態、子癇前症、化学的または環境的毒性、肝損傷または肝疾患、腎損傷または腎疾患、血管疾患、高血圧、ならびに心筋梗塞が挙げられる。
一部の実施形態では、細胞増殖性障害または状態は、がん、腫瘍、新生物、転移性疾患など、またはそれらの組合せであることがある。細胞増殖性障害または状態は、肝臓、肺、脾臓、膵臓、結腸、皮膚、膀胱、眼、脳、食道、頭部、頸部、卵巣、精巣、前立腺など、またはそれらの組合せの障害または状態であることがある。がんの非限定的な例としては、造血器起源の(例えば、骨髄、リンパ球または赤血球系統、またはそれらの前駆体細胞から生じる)過形成/新生物細胞に関与する疾患であり、低分化型急性白血病(例えば、赤芽球性白血病および急性巨核芽球性白血病)から生じ得る、造血器新生物障害が挙げられる。ある特定の骨髄性障害としては、これらに限定されないが、急性前骨髄球性白血病(APML)、急性骨髄性白血病(AML)および慢性骨髄性白血病(CML)が挙げられる。ある特定のリンパ系悪性腫瘍としては、これらに限定されないが、B系統ALLおよびT系統ALLを含む急性リンパ芽急性白血病(ALL)、慢性リンパ球性白血病(CLL)、前リンパ球性白血病(PLL)、ヘアリー細胞白血病(HLL)およびワルデンシュトレーム型マクログロブリン血症(WM)が挙げられる。悪性リンパ腫のある特定の形態としては、これらに限定されないが、非ホジキンリンパ腫およびその変異体、末梢性T細胞リンパ腫、成人T細胞白血病/リンパ腫(ATL)、皮膚T細胞リンパ腫(CTCL)、大顆粒リンパ球性白血病(LGF)、ホジキン病およびリード-ステンベルグ病が挙げられる。細胞増殖性障害は、非内分泌腫瘍であるか内分泌腫瘍であることがある。非内分泌腫瘍の例示的な例としては、これらに限定されないが、腺癌、腺房細胞癌、腺扁平上皮癌、巨細胞腫、膵管内乳頭粘液性腫瘍、粘液性嚢胞腺癌、膵芽腫、漿液性嚢胞腺腫、固形腫瘍および偽乳頭腫瘍が挙げられる。内分泌腫瘍は、膵島細胞腫瘍であることがある。
一部の実施形態では、消耗性障害もしくは状態、または変性障害もしくは状態は、硬変、筋萎縮性側索硬化症(ALS)、アルツハイマー病、パーキンソン病、多系統萎縮症、アテローム性動脈硬化、進行性核上性麻痺、テイ-サックス病、糖尿病、心疾患、円錐角膜、炎症性腸疾患(IBD)、前立腺炎、骨関節炎、骨粗しょう症、関節リウマチ、ハンチントン病、慢性外傷性脳症、慢性閉塞性肺疾患(COPD)、肺結核、慢性下痢、後天性免疫不全症候群(AIDS)、上腸間膜動脈症候群など、またはそれらの組合せである。
一部の実施形態では、自己免疫障害または状態は、急性散在性脳脊髄炎(ADEM)、アディソン病、円形脱毛症、強直性脊椎炎、抗リン脂質抗体症候群(APS)、自己免疫性溶血性貧血、自己免疫性肝炎、自己免疫性内耳疾患、水疱性類天疱瘡、セリアック病、シャーガス病、慢性閉塞性肺疾患、クローン病(特発性炎症性腸疾患「IBD」の一種)、皮膚筋炎、真性1型糖尿病、子宮内膜症、グッドパスチャー症候群、グレーブス病、ギランバレー症候群(GBS)、橋本病、化膿性汗腺炎、特発性血小板減少性紫斑病、間質内浮腫、エリテマトーデス、混合性結合組織病、モルフェア、多発性硬化症(MS)、重症筋無力症、ナルコレプシー、神経性筋強直症(euromyotonia)、尋常性天疱瘡、悪性貧血、多発性筋炎、原発性胆汁性肝硬変、関節リウマチ、統合失調症、強皮症、シューグレン症候群、側頭動脈炎(「巨細胞動脈炎」としても公知)、潰瘍性大腸炎(特発性炎症性腸疾患「IBD」の一種)、血管炎、白斑症、ウェゲナー肉芽腫症など、またはそれらの組合せである。
子癇前症
一部の実施形態では、子癇前症の存在または非存在は、本明細書に記載される方法または装置を使用することによって決定される。子癇前症は、妊娠中に高血圧症が生じる状態(例えば、妊娠誘発高血圧)であり、尿中の相当量のタンパク質と関連する。ある特定の場合には、子癇前症は、細胞外核酸のレベル上昇および/またはメチル化パターンの変更とも関連する場合がある。例えば、細胞外の胎児由来過剰メチル化RASSF1Aレベルと子癇前症の重症度との間に正の相関が観察されている。ある特定の場合には、子癇前症の胎盤内のH19遺伝子について、正常な対照と比較して、DNAのメチル化の増加が観察される。
病原体
一部の実施形態では、病態の存在または非存在は、本明細書に記載される方法または装置によって決定される。病態は、細菌、ウイルスまたは真菌を含むがこれらに限定されない、病原体による宿主の感染によって引き起こされ得る。病原体は、典型的には、宿主核酸と識別可能な核酸(例えば、ゲノムDNA、ゲノムRNA、mRNA)を有するため、本明細書で提供される方法、機械および装置は、病原体の存在または非存在を決定するために使用され得る。しばしば、病原体は、例えばエピジェネティックな状態ならびに/または1つもしくは複数の配列の変異、重複、および/もしくは欠失などの、特定の病原体に対して固有の特徴を伴う核酸を有する。したがって、本明細書で提供される方法は、特定の病原体または病原体バリアント(例えば、株)を識別するために使用され得る。
無細胞核酸の使用
ある特定の場合には、特定の状態または障害に関連する異常なまたは罹患した細胞由来の核酸が、循環する無細胞核酸(CCF-NA)として、細胞から放出される。例えば、がん細胞核酸は、CCF-NAに存在し、本明細書で提供される方法を使用するCCF-NAの分析は、対象ががんを有するか、またはがんを有するリスクを有するかどうかを決定するために使用することができる。CCF-NAにおけるがん細胞核酸の存在または非存在の分析は、例えば、がんのスクリーニングのために使用することができる。ある特定の場合には、血清中のCCF-NAのレベルは、健康な患者と比較して、種々の型のがんを有する患者において上昇し得る。例えば、転移性疾患を有する患者は、非転移性の患者のおよそ2倍高い血清中DNAレベルを有することがあり得る。したがって、本明細書に記載される方法は、対象(例えば、特定の状態または疾患を有するか、それを有することが疑われるか、それに罹りやすいか、またはそれに罹りやすいことが疑われる対象)由来の試料から抽出されたCCF-NAから得られた配列リードカウントを処理することによって、アウトカムを提供することができる。
マーカー
ある特定の場合には、異常なまたは罹患した細胞におけるポリヌクレオチドは、正常なまたは罹患していない細胞における核酸に対して改変されている(例えば、単一ヌクレオチド変更、単一ヌクレオチド変異、コピー数変更、コピー数変異)。一部の場合には、ポリヌクレオチドは、異常なまたは罹患した細胞中に存在し、正常なまたは罹患していない細胞中に存在せず、時には、ポリヌクレオチドは、異常なまたは罹患した細胞中に存在せず、正常なまたは罹患していない細胞中に存在する。したがって、マーカーは、単一ヌクレオチド変更/変異および/またはコピー数変更/変異である(例えば、差次的に発現されたDNAまたはRNA(例えば、mRNA))。例えば、転移性疾患を有する患者は、例えば、がん特異的マーカーおよび/またはある特定の単一ヌクレオチド多型もしくはショートタンデムリピートによって識別され得る。循環DNAレベルの上昇と正に相関し得るがん型の非限定的な例としては、乳がん、結腸直腸がん、胃腸がん、肝細胞がん、肺がん、黒色腫、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱がん、肝細胞腫、子宮頚がん、食道がん、膵臓がん、および前立腺がんが挙げられる。種々のがんは、非がん性の健康な細胞由来の核酸と識別可能である特徴、例えば、エピジェネティックな状態ならびに/または配列の変異、重複および/もしくは欠失を有する核酸を有し得、血流中に放出し得ることがある。このような特徴は、例えば、特定の型のがんに対して特異的であり得る。したがって、本明細書に記載される方法は、特定のマーカーの存在または非存在の決定に基づいてアウトカムを提供することがあり、アウトカムは、特定の型の状態(例えば、特定の型のがん)の存在または非存在であることもある。
本明細書に記載されるある特定の方法は、例えば以下に記載の方法と併せて実施され得る:国際特許出願公開番号WO2013/052913号、国際特許出願公開番号WO2013/052907号、国際特許出願公開番号WO2013/055817号、国際特許出願公開番号WO2013/109981号、国際特許出願公開番号WO2013/177086号、国際特許出願公開番号WO2013/192562号、国際特許出願公開番号WO2014/116598号、国際特許出願公開番号WO2014/055774号、国際特許出願公開番号WO2014/190286号、国際特許出願公開番号WO2014/205401号、国際特許出願公開番号WO2015/051163号、国際特許出願公開番号WO2015/138774号、国際特許出願公開番号WO2015/054080号、国際特許出願公開番号WO2015/183872号、国際特許出願公開番号WO2016/019042号、および国際特許出願公開番号WO2016/057901号、全てのテキスト、表、等式および図面を含む各々の全内容が、これにより参照により本明細書に組み込まれる。
以下に示される実施例は、ある特定の実施形態を示すものであり、技術を限定するものではない。
(実施例1および2)
多胎児妊娠に対する無細胞DNA(cfDNA)スクリーニングからのモザイク現象比の適用
単生児妊娠では、モザイク現象比は、陽性無細胞DNA(cfDNA)スクリーニングの事象において計算される実験室メトリックである。これは、異数性によって影響を受けたcfDNA分率を、検体の全胎児分率によって除算することによって導出される。このメトリックは、モザイク現象、双子の相手の死亡、または他の生物学的要因によって、胎児の遺伝的状態と一致しない傾向のより高い結果を識別する助けとなり得る。拡大解釈すると、このメトリックは、結果に関連する陽性的中率(PPV)を改良する助けとなり得る。
モザイク現象比(MR)メトリックは、単生児妊娠だけに限られない。多胎児妊娠では、結果が異数性を示唆するcfDNAの過剰提示を示す場合に、MRは、1人または複数の胎児が影響を受けるかどうかを予測するのに有用であり得る。さらに、Y染色体物質が多胎児妊娠において検出される場合、Y染色体に関連するMRは、1人または複数の胎児が雄性であるかどうかを予測するのに有用であり得る。以前の研究は、双子妊娠に関する胎児の性別予測モデルを開発するために、同様のデータメトリックに焦点を当てている。
実施例1および2は、2つの内容で多胎児妊娠におけるMRの挙動を調査する:異数性が確認された場合には「罹患した染色体」のMR、およびY物質が検出され、染色体性別が全ての胎児に関して既知の場合にはY染色体に関連するMR。cfDNAスクリーニングからの結果は診断アウトカムに適合し、データを使用して、多胎児妊娠におけるMRの臨床的有用性を評価した。新たなcfDNAスクリーニング試験(MaterniT(登録商標)GENOME)を開発し、7Mbと等しいかまたはそれよりも大きいコピー数変異、およびサイズが7Mbよりも小さい微小欠失の選択された群のゲノムワイド分析を可能にすることによって、非侵襲性試験のこの検出ギャップを狭めた。スクリーニング試験は、より多くの情報が望まれる場合のための、標準的cfDNAスクリーニングに対する代替として提案され得る。臨床実験室においていくらか経験した後に、10,000の症例からの結果をここに報告する。
(実施例1)
方法
この実施例のある特定の態様に関して、以下に記載される方法を使用した。
試料コホート
ここで報告したデータは、CLIA認定かつCAP公認の実験室におけるMaterniT(登録商標)GENOME実験室で開発された試験の臨床使用から生成された。試験を行う理由となった徴候は、高齢出産、家族歴もしくは個人歴、超音波異常、異常血清スクリーニング、その他、またはそれらの組合せとして、依頼臨床医によって試験申込書に示された。妊娠期間を、依頼臨床医によって報告された通り、最終月経(LMP)または超音波によって決定した。試料を実験室に届け、結果を依頼臨床医に報告した。サイズが7Mb以上のゲノムワイドコピー数変異に対して、ならびに1p36欠失症候群、ウォルフ-ヒルショルン症候群、ネコ鳴き症候群、ランガー-ギーディオン症候群、ヤコブセン症候群、プラダーウィリ症候群、アンジェルマン症候群、およびディジョージ症候群に関連する、サイズが7Mb未満の微小欠失の選択された群に対して、試料を試験した。7Mbのカットオフは、MaterniT(登録商標)GENOME試験の特色であり、この分析に対してカスタマイズされたものではなかった。
試料の実験室での処理
無細胞DNA BCT管(Streck Inc.;Omaha、NE)に収集された全血試料を使用して、または輸送され、凍結状態で受け取った処理済血漿に関して、試験を実施した。MyOne(商標)Dynabeads(登録商標)(Thermofisher Scientific;Waltham、MA)を使用する自動化抽出方法を使用して、cfDNAを血漿から抽出した。血漿DNAを使用して、Tynan et al. (2016) Prenat. Diagn. 36:56-62に記載されるように、索引付き配列決定ライブラリーを作成した。配列決定ライブラリーを、Lefkowitz et al. (2016) Am. J. Obstet. Gynecol. 215:227に記載されるように、HISEQ 2000またはHISEQ 2500機器(Illumina,Inc.;San Diego、CA)で、多重化、クラスター化、および配列決定した。配列決定結果を正規化し、Zhao et al. (2015) Clin Chem. 2015;61(4):608-616;Lefkowitz et al. (2016) Am. J. Obstet. Gynecol. 215:227;およびKim et al. (2015) Prenat Diagn. 2015;35(8):810-815に記載されるようにバイオインフォマティクスアルゴリズムを使用して、胎児分率、第21、18、および13染色体トリソミー、性染色体異数性、ならびに他のゲノムワイド全染色体および亜染色体のコピー数変異体について分析した。
データ評価
臨床実験室の管理者は、依頼臨床医に対する結果の最終報告に先立って、各試料からの配列決定データを検討した。必要な場合には、臨床実験室の管理者は、試験申込書で提供された徴候および臨床情報にアクセスした。不十分な胎児分率のDNA濃度を有する試料を「数量不足」として分類し、報告を出さなかった。ライブラリー濃度および配列決定特異的メトリックを含む他の実験室の品質管理メトリックに落ちる試料を、「その他報告不能なもの」として分類した。
このレトロスペクティブな例に対して分析されたデータは、試験申込書で収集された、匿名の個体を識別できない患者のデータから入手した。さらに、MaterniT(登録商標)GENOME実験室で開発された試験の結果として生成された患者特異的データの全ては、医療保険の相互運用性と説明責任に関する法律(Health Insurance Portability and Accountability Act)(HIPAA)および2005年4月のFDAガイダンス文書「Informed Consent for In Vitro Diagnostic Device Studies Using Leftover Human Specimens that are Not Individually Identifiable」に従って、ならびに分析のために組み合わせて、匿名化した。この報告は、試験に関する全体的な臨床使用および所見について記載する。
分析カテゴリー
分析カテゴリー(AMA、US±その他、AS±その他、HIST±その他)は、以下のように定義される。高齢出産(AMA)は、35歳またはそれを超える年齢であり、かつ他の高リスクの徴候を何も有さなかった患者を指す。超音波の所見(US±その他)は、高リスクの徴候のうちの少なくとも1つとして超音波の所見を有した患者を指す。これらの患者は、唯一の高リスクの徴候としてUSを有してもよく、または他の高リスクの徴候を有していてもよい。異常血清のスクリーニング(AS±その他)は、高リスクの徴候のうちの少なくとも1つとして異常血清のスクリーニングを有した患者を指す。これらの患者は、唯一の高リスクの徴候としてASを有してもよく、または他の高リスクの徴候を有していてもよい。家族歴(HIST±その他)は、高リスクの徴候のうちの少なくとも1つとして家族歴を有した患者を指す。これらの患者は、唯一の高リスクの徴候としてHISTを有してもよく、または他の高リスクの徴候を有していてもよい。
結果
以下の6つの症例は、AMAによるMaterniT(登録商標)21 PLUS試験のために提出され、結果は21トリソミーについて陽性であった。
症例1:双子、21トリソミーに関するMR:1.17、Y染色体に関するMR:0.53。cfDNAは雄性1、雌性1の両方が21トリソミーに罹患していることを示唆する。
症例2:双子、21に関するMR:0.54、Yに関するMR:0.55、雄性1、雌性1のうち、一方の胎児が罹患していることを示唆する。
症例3:双子、21に関するMR:0.44、Yに関するMR:<0.01、雌性2のうち、一方が罹患していることを示唆する。
症例4:双子、21に関するMR:0.60、Yに関するMR:1.24、雄性2のうち、一方が罹患していることを示唆する。
症例5:12週齢で死亡1を含む三つ子、試料採取時の在胎週数13週、21に関するMR:0.33、Yに関するMR:0.18、雄性胎児1および雌性胎児2のうち、罹患している胎児1を示唆する。
症例6:胎児1の死亡を含む三つ子、試料採取時の在胎週数10週、21に関するMR:0.62、Yに関するMR:0.0、雌性胎児3で、3のうち2人が罹患していることを示唆する。
CVSからの核型または羊水穿刺によって、全ての症例における予測結果を確認した。
考察
以前に考察したように、MRは、胎盤/胎児モザイク現象または双子の相手の死亡のいずれかによって、モザイク現象に影響を与え得る異常な結果を識別するためのメトリックである。しかし、この同じメトリックが、以下のために多胎児妊娠に関与する妊娠に適用される可能性を有することが最近発見された:1)1人より多くの胎児に対して1人がいつ異数性に罹患するかを予測する、および2)胎児の性別の予測についての情報を提供する。ここで提示された症例は、MRが双子またはより多くの多胎児を身ごもっている個体に対して有効な臨床的有用性を有することを実証する。
表1は、前述の6症例に関するMR予測を表す。
Figure 2022553829000002
Figure 2022553829000003
表2は、前述の6症例に関する全ての症例において予測された結果を確認したCVSからの核型または羊水穿刺を表す。
Figure 2022553829000004
Figure 2022553829000005
(実施例2)
材料および方法
実施例2では、cfDNA試料は、以下の2つの供給源由来の多胎児妊娠から収集した:1)2013年9月から2020年2月までにMaterniT(登録商標)21 PLUS試験のために提出された臨床検体、および2)IRB臨床研究(NCT01429389)下で収集された研究検体。
臨床検体
2013年9月から2020年2月に日常的な臨床ケアの過程でcfDNAスクリーニングのために提出された多胎児妊娠からの母方血液試料を収集した。多胎児妊娠は、cfDNA試験申込書で依頼者によって示される「2」またはそれよりも多い胎児数によって識別した。分析される臨床検体の数および型に関する詳細は、図7および8に示される。
研究検体
絨毛膜絨毛試料採取または羊水穿刺による出生前診断試験を受ける前に、多胎児妊娠を有する女性から収集した母方血液試料を、IRBプロトコールSQNM-T21-107により血漿を処理するためにSequenom Clinical Affairs (San Diego、USA)に提出した。試料を、処理を経た収集から識別し、固有の5桁の識別子によって、将来の使用のために-70℃以下で保存し、いずれの患者の識別情報も完全になくした。
研究検体を冷凍庫から取り出し、検体識別番号を割り当て、超並列配列決定を使用する日常的な臨床試験のために提出された検体と同じ様式で処理および試験した。これらの研究検体に関する診断アウトカムを、検体の処理、試験、および報告に関与する全ての実験室職員に対して盲検化した。
結果が報告されると、試料のcfDNAの結果を試料の5桁の識別子に基づいて以前に文書化された診断結果と適合させた。分析される研究検体の数および型に関する詳細は、図7および8に示される。
cfDNA分析およびモザイク現象比の計算
以前に記載したように、母方血液試料を、DNA抽出、ライブラリー調製、およびゲノムワイド超並列配列決定に供した。各検体について、胎児分率を評価した。
以前に記載したように、全染色体または亜染色体領域に関与する検出されたコピー数変異体(CNV)を有する試料中では、「罹患した分率」は、CNV領域において観察された配列決定カウントの変化を生成するのに必要とされるcfDNAの分率を計算することによって決定することができる。「罹患した分率」が導出されると、モザイク現象比を計算することができる。以前に記載したように、MRは、全染色体に関して推定された胎児分率で、異常染色体または染色体セグメントに関して推定された「罹患した分率」を除算することによって導出される。
一絨毛膜性の双子の胎盤全体に影響を及ぼすか、または二絨毛膜性の双子妊娠の両方の胎盤に影響を及ぼす非モザイクCNVの場合には、罹患した分率は、胎児分率全体と概ね等しいはずであり、MRはおおよそ1.0であると予測される。二絨毛膜性の双子妊娠の1つの胎盤に影響を及ぼす非モザイクCNVの事象では、罹患した分率は、理論的に、胎児分率全体のおよそ半分であることが予測される。これは、双子妊娠における2つの胎盤が妊娠中の不均等量のcfDNAに寄与し得るために、近似であると考えられるに過ぎない。MRの抑制は、胎児分率の存在よりも異数体のcfDNA寄与がより少ないことを示唆し、これは、多胎児妊娠、胎盤のモザイク現象、またはさらなる胎児の事前の死亡などの他の生物学的現象における1人の影響を受けた胎児を示し得る。
診断アウトカム
研究検体では、核型および/またはマイクロアレイからの診断アウトカムが、提出する臨床医によって提供され、これらのアウトカムを、検体を処理、試験、および報告した実験室職員に対して盲検化した。
臨床検体では、診断アウトカムを2つの供給源から得た。第1に、ad hocフィードバックから、利用可能であれば、依頼者から、アウトカム情報を収集した。臨床医のフィードバックに基づくアウトカムを、異数体コホート(本明細書に記載される)における真陽性の双子の症例の21の診断情報の供給源として使用した。第2に、陽性のcfDNA試料を、対応する時間枠中の、絨毛膜絨毛、羊水穿刺、出生後血液、および受胎検体の生成物に由来する、LabCorp and Integrated Geneticsに提出した細胞遺伝学的かつSNPマイクロアレイ診断の結果と相互参照した。cfDNAによって検出された異数性を確認する、モザイク診断結果を伴う症例が含まれた。データセット(cfDNA結果、細胞遺伝学の結果、マイクロアレイの結果、およびad hoc臨床医のフィードバック)にわたるデータの統合および比較のプロセスは、臨床プロトコールSCMM-RND-402(NCT04364503)によりAspire IRBに認可された。
細胞遺伝学および/またはマイクロアレイの検体と一致すると考えられるcfDNA試料では、診断およびスクリーニングの結果は、同一の患者識別子(名称および誕生日)を有することが必要とされ、診断試験のための収集日は、患者のcfDNAのスクリーニング日から90日以内でなければならなかった。複数の診断結果(例えば、細胞遺伝学およびマイクロアレイの結果、またはCVSおよび羊水穿刺の結果)が同じ患者に対して利用可能である場合、結果を1つの最終的な特徴付けにより組み合わせた。
この実施例の目的として、妊娠が一絨毛膜/一卵性であることが明らかに指摘されていなければ、または診断的羊水穿刺を行う理由となった徴候が、一絨毛膜性の双子にのみ存在する状態である、双子間輸血症候群(TTTS)でなければ、診断結果は双子のペアの各胎児に対して必要とされる。双子の相手の死亡が既知の場合および一方の診断結果しか有さない場合(一絨毛膜性の双子の証拠文書なし)は除外された。
分析されるコホート
2つのコホートをアセンブルし、研究検体および臨床検体から分析した:「異数体コホート」および「Yコホート」。
「異数体コホート」と表示される第1のコホートを、罹患した胎児/胎盤の数に基づいて、異数体染色体のMRを調査するために収集した。このコホートで、3つの群を分析した。第1の群は、cfDNAの結果が21トリソミー、18トリソミー、または13トリソミーに関して陽性であり、診断試験により1人の胎児において予測異数性が確認された双子の症例を含んだ。第2の群は、両方の胎児が同じ異数性(21トリソミー、18トリソミー、または13トリソミー)を有することが確認された双子から構成された。このコホートに関して識別された臨床症例は4つしか存在しなかった:性別混合の、二絨毛膜性双子の、いずれも21トリソミーを有する1つのセット;21トリソミーを有する一絨毛膜性双子の2症例;および18トリソミーを有する一絨毛膜性の双子の1症例。膜性診断に関する情報は、実験室の試験申込書において依頼者から通常引き出されないため、この群には少数の症例しか存在しない。2人の胎児が罹患した双子症例の数が限定されることを考慮して、21トリソミー、18トリソミー、または13トリソミーに対して陽性結果が確認された単生児の第3の群もアセンブルされた。この単生児群をアセンブルし、罹患した一絨毛膜の双子のシナリオを生物学的に模倣した。単生児妊娠と一絨毛膜性の双子の両方は、単一の胎盤からのcfDNA分析に関与し、以前の研究によって、一絨毛膜性の双子妊娠が、cfDNAスクリーニングの文脈で単生児と類似して挙動することが実証されている。拡大解釈すると、二絨毛膜妊娠の両方の胎盤が、同一の非モザイク異数性に罹患している(即ち、独立した性染色体不分離事象からの)稀な状況下では、単一の胎盤が罹患している場合に、非モザイク異数性が挙動する方法に類似して、2つの胎盤は、おそらく、胎児分率に比例するレベルで、異数体cfDNAに寄与していることになる。図9は:[異数体コホート:臨床+研究検体]トリソミーに罹患している単生児対罹患している双子における異数体染色体に関するモザイク現象比の分布を示す。
「Yコホート」と表示される第2のコホートをアセンブルし、両方の胎児の染色体性別が、核型および/またはマイクロアレイから既知であり、少なくとも一方が雄性である双子妊娠におけるY染色体のMR挙動を分析した。図10は:[Yコホート:臨床+研究検体]XX/XYおよびXY/XY双子妊娠におけるY染色体モザイク現象比の分布を示す。
cfDNAスクリーニングが陽性であり、部分的または完全な診断アウトカム情報を有する5つの三つ子妊娠の追加の群を、研究検体から3つの正倍数体の三つ子症例および1つの正倍数体の四つ子症例と共に、臨床試料から収集した。
両側t検定を使用して、平均(mean)モザイク現象比の比較を実施した。VassarStatsのウェブサイトによって、信頼区間を計算した。
結果
研究検体
先を見越して試験した31の研究検体のうち、30個の試料が報告可能であった。1人の胎児が21トリソミーに罹患した双子妊娠では胎児分率が低いことにより、報告できない結果が1つ存在した。Y MR分析のための全ての正倍数体検体(双子19、三つ子3、四つ子1セット)は、陰性、雄性の結果に関して適切に報告した。異数体症例について、4つの21トリソミーの症例のうちの3つが、21トリソミーに関して陽性として正しく報告し、1つは報告できない結果であった(上記の通り)。13トリソミーの症例はそれ自体正確に報告し、3つの18トリソミー検体は全て、18トリソミーに関して陽性と正しく報告した。これらの検体のうちの1つもまた、16トリソミーモザイクに関して陽性と報告し、このことは胎児において確認されなかった。Y染色体物質の存在または非存在に関する胎児の性別コールは、全ての症例で正確であった。
異数体コホート
21トリソミーに関しては、2人の胎児が罹患している双子(1.22±0.12、n=3)、p=.58と比較した場合、単生児(1.13±0.28、n=454)における平均(mean)モザイク現象比(MR)間に有意差はなかった。双子ペアのうちの1人の胎児だけが21トリソミーに罹患している場合、平均(mean)MRは0.59±0.20(n=54)であったが、これは、2人の胎児が罹患している症例と同様に、罹患している単生児群の平均(mean)MRよりも有意に低かった(p<.001)。(表3)
18トリソミーに関しては、単生児の平均(mean)MRは0.90±0.29(n=179)であった。MRが0.73である、18トリソミーに罹患している一絨毛膜性の双子の症例も1つ存在した。双子ペアのうちの1人の胎児だけが18トリソミーに罹患している場合では、平均(mean)MRは0.38±0.12(n=19)であったが、これは、罹患している単生児群の平均(mean)MRよりも有意に低い(p<.001)。(表3)
13トリソミーに関しては、単生児の平均(mean)MRは0.89±0.29(n=67)であった。双子の両方が13トリソミーに罹患していると識別された症例は存在しなかった。双子ペアのうちの1人の胎児だけが13トリソミーに罹患している場合では、平均(mean)MRは0.43±0.18(n=9)であったが、これは、罹患している単生児群の平均(mean)MRよりも有意に低い(p<.001)。(表3)
トリソミーによる異数体MRの分布の分析を表4に示すことができる。
表3: [異数体コホート:臨床+研究検体]異数性に罹患した単生児、2人が罹患している双子、および1人が罹患している双子の間の異数体の染色体モザイク現象比の比較。
Figure 2022553829000006
Figure 2022553829000007
表4: [異数体コホート:臨床+研究検体]トリソミーによる異数体のMRの分布。陰付き部分は、異数性に罹患した両胎児に対する一方の胎児の予測のために提案された閾値(21トリソミーに関しては0.7、18/13トリソミーに関しては0.5)を示す。
Figure 2022553829000008
Yコホート
正倍数体症例に関する平均(mean)Y MRは、XX/XY双子(n=45)に関しては0.51±0.15、およびXY/XY双子(n=53)に関しては1.04±0.18であった。異数体症例に関する平均(mean)Y MRは、XX/XY双子(n=18)に関しては0.54±0.25、およびXY/XY双子(n=14)に関しては1.11±0.27であった。正倍数体症例と異数体症例(XX/XY症例に関してはp=0.56およびXY/XY症例に関してはp=0.28)との平均(mean)Y MR間に有意差はなかった。
臨床検体と研究検体(n=130)の両方からの正倍数体および異数体を含むコホート全体では、XX/XY症例に関する平均(mean)Y MRは0.51±0.19(n=63)であり、およびXY/XY症例に関する平均(mean)Y MRは1.06±0.20(n=67)であった。(表5)
2人の雌性胎児を有する52の正倍数体と11の異数体の双子についても調査したが、全てのY MR値は本質的にゼロであり、平均(mean)Y MRは0.00±0.01であったことに注目されたい。Y染色体物質が、cfDNA検体に存在しなかった場合のXX/XXアウトカムの確率は、この実施例集団において100%であった。
表5: [Yコホート:臨床+研究検体]正倍数体、異数体、および組み合わせた症例における、XX/XYとXY/XYとの間のY染色体モザイク現象比の比較。
Figure 2022553829000009
三つ子および四つ子
上記双子の症例に加えて、cfDNAの結果が陽性の5つの三つ子症例および少なくとも部分的な臨床情報または診断アウトカム情報を、臨床検体から識別した。モザイク現象比(異数体染色体およびY染色体に関する)および臨床情報の概要が表6に示される。
表6: [異数体コホート:臨床検体]cfDNAの結果が陽性の三つ子症例およびアウトカム情報。
Figure 2022553829000010
さらに、3つの正倍数体の三つ子妊娠からの試料および1つの正倍数体の四つ子の試料を、研究検体から試験した。これらの検体に関するY MRの概要は、診断アウトカム情報と共に、表7に示される。
表7: [Yコホート:研究検体]三つ子および四つ子の研究検体に関するcfDNAおよび診断情報。
Figure 2022553829000011
考察
異数体コホート
双子妊娠における異数性に関するリスク評価は固有のものであり、膜性診断の超音波評価より始める。二絨毛膜は双子妊娠の約80%に存在し、一絨毛膜性の双子は残りの約20%を含む。11二卵性の双子は、典型的には、超音波評価で二絨毛膜性(DC)、二羊膜性(DA)として存在するが、一部の場合には、胎盤が融合され得るようである。一卵性の双子の多数派(約75%)は、超音波で一絨毛膜性(MC)および二羊膜性(DA)となり、より少ない症例(約25%)が、自発的な胚分裂のタイミングに応じて、DC/DA、または一絨毛膜性(MC)および一羊膜性(MA)を表す(<1%)。アメリカ産科婦人科学会(American College of Obstetricians and Gynecologists)による、「1つの胎盤しか可視化されない場合、膜性診断を識別するための最良の超音波検査の特徴は、2つのピークサインである[別名 ラムダサインまたはデルタサイン]」。
一般に、cfDNAスクリーニングが一絨毛膜性の双子妊娠において陽性である場合、結果は、双子が同じ接合体を起源としたと推定されるため、両方の胎児に反映されることが予測される。二絨毛膜妊娠における陽性のcfDNA結果について、少なくとも一方の胎児において異数性のリスクは増加している。これらの妊娠の大多数は、2つの別々の接合体に由来するため、ほとんどの起こりそうなシナリオでは、双子の一方が罹患する。あまり一般的ではないが、両方の双子は、二絨毛膜妊娠が単一の接合体に由来するか、または両方の胎児が二卵性の双子のそれぞれにおいて生じる独立した性染色体不分離事象の結果として影響を受ける場合に、罹患する可能性がある。
異常なcfDNAスクリーニング結果を有する二絨毛膜妊娠の文脈では、超並列配列決定からのデータ、具体的には異数体染色体に関連するMRは、一方の胎児が罹患しているのか、または両方の胎児が罹患しているのかどうかを解釈するための有用なツールであり得る。検体のうち胎児分率全体に対して「罹患した分率」を比較することによって、2つの胎盤が寄与するcfDNAの「全て」または一部のみが異常であるかどうかへの洞察が与えられ得る。
本実施例に基づき、異数性に罹患している単生児妊娠は、妊娠が一絨毛膜であるか、または二絨毛膜妊娠の両方の胎児が同じ異数性によって影響を与えられたかのいずれかの理由で、両方の胎児が異数性に罹患している双子に対する適切な代理であると考えられる。21トリソミーに関しては、罹患している単生児妊娠のMRと両方の胎児が罹患している双子のMRとの間に、注目される有意差は存在しなかった。
この実施例集団に含まれる真陽性の単生児症例では、広範囲のMRが見られることに注目することができる。この変動性はいくつかの理由で存在し得る。例えば、より低いMRは、21トリソミーと比較して、13トリソミーおよび18トリソミーの影響を受けた妊娠において通常より多く生じると考えられる胎盤モザイク現象に関連している可能性がある。生物学的には、MRのこの変動性は、単生児妊娠と多胎児妊娠の両方に同様に影響を与えると予想され、この予測は本実施例のデータにより確認される。
3つのトリソミー全てに関して、罹患している単生児(2人が罹患している双子の代理)の平均(averrage)MRは、1人の胎児が罹患している双子の平均(average)MRより有意に高かった(両側t検定、21トリソミー、18トリソミー、および13トリソミーに関して、それぞれp<.001)。21トリソミーに関しては、一方が罹患している双子に関連する平均(average)モザイク現象比は、罹患している単生児または両方の双子が罹患している症例のものの52%であった。同様に、一方が罹患している双子のMRは、18トリソミーに関しては単生児において見られるものの42%、および13トリソミーに関しては48%であった。
したがって、二絨毛膜性の双子ペアの両方の胎児において異数性の懸念がある稀な状況では、陽性のcfDNA結果に関連するモザイク現象比は、2人が罹患している胎児に対する一方が罹患している胎児の確率を決定する際に有益となり得る。これは、二絨毛膜一卵性の双子が稀にしか起こらないため、一般的ではないシナリオであることが予測され、二卵性の双子ペアの両方の胎児において生じる独立した異数性事象は、さらにより頻度が低い。
トリソミーによる異数体MRの分布の分析によって、18トリソミーおよび13トリソミーに対する21トリソミーに関する種々のMRカットオフが、両方の胎児に対して一方の胎児が、臨床的懸念の生じる稀な状況下で異数性に罹患しているかどうかを予測する際に有益であり得ることが見い出された。21トリソミーに関しては、第21染色体に関するMRカットオフ0.7を使用することにより、胎児の一方が罹患している双子試料の77.8%(54のうちの42)がこの閾値未満であり;一方、罹患している単生児試料の4.4%(454のうちの20)のみがMR<0.7を有することが見い出された。18トリソミーおよび13トリソミーに関しては、MRカットオフ0.5を使用することにより、データの最大分離が得られることが見い出された。18トリソミーに関しては、罹患している単生児の6.7%(179のうちの12)と比較して、一方が罹患している胎児を有する双子試料の84.2%(19のうちの16)がMR<0.5を示した。13トリソミーに関しては、罹患している単生児の僅か4.5%(67のうちの3)と比較して、一方が罹患している胎児を有する双子試料の77.8%(9のうちの7)がMR<0.5を示した。(表4)
Yコホート
MRの1つの適用は、異数性結果の解釈におけるものである。しかし、MRは、Y物質が検出される場合に、1人または複数の胎児が雄性であるかどうかを決定するために、胎児分率全体と比較して、多胎児妊娠に存在するY染色体物質の相対的割合を分析するためにも使用することができる。胎児の性別の決定は、X連鎖障害に対するリスク下、または胎児の性別が超音波評価からは曖昧である状況での妊娠について、臨床適用を有し得る。
Y染色体物質が検出された双子妊娠における胎児の性別分類の精度を決定するために、臨床および研究検体からのY MRを分析した。胎児の異数性状況は、胎児分率に影響を与えることができ、胎児分率は、モザイク現象比を駆動する主要な実体であり、胎児の性別予測モデルを、全体的コホート(正倍数体症例および異数体症例を含む)および正倍数体のみの症例と比較した。
少なくとも1人の染色体雄性の胎児を含む130の正倍数体および異数体の双子妊娠の全体的コホートに関して、XX/XY妊娠の平均(average)Y MRは、XY/XY妊娠に関する平均(average)Y MRの48%であった。Y染色体物質が検出された場合、双子の胎児性別を予測するために、1および2次元モデルを試験した。Y MRの分布は、異数体試料が、「中間」範囲のY MRを有する可能性が高く(XX/XYおよびXY/XY試料の重複)、これらのモデルによって誤って分類される可能性が高いことを示した。(表8)
表8
A: [Yコホート:臨床+研究検体]Y染色体物質が検出された場合に、Y MRに基づくXY/XYアウトカムに対するXX/XYの確率。正倍数体症例のみを含む。
Figure 2022553829000012
B: [Yコホート:臨床+研究検体]Y染色体物質が検出された場合に、Y MRに基づくXY/XYアウトカムに対するXX/XYの確率。正倍数体症例および異数体症例を含む
Figure 2022553829000013
Figure 2022553829000014
異数体症例が除外された場合、98の正倍数体症例が残った。このコホートにおけるXX/XY妊娠の平均(average)Y MRは、XY/XY妊娠に関する平均(average)Y MRの49%であった。正倍数体のみの検体からのY MR分布は、「中間」または「重複」領域における試料がより少ないことを示した(図11を参照されたい)。やはり、単一の値のカットオフを使用して、種々のモデルを試験すると、胎児の性別決定に関する最も高い精度は、一次元モデルからのものであった。このモデルにより、Y物質が検出され、Y MRが0.8未満である場合に、最も可能性の高いアウトカムがXX/XY胎児であり、Y MRが0.8を超える場合、最も可能性の高いアウトカムはXY/XY胎児であることが予測される。(表8)カットオフ0.8を使用することの精度は95.9%であった(表9)。カットオフが0.7~0.8の間に設定された場合に同様の精度(94.9%)が得られ、モデル/カットオフが確固たるものであることを示唆した。異数体症例が含まれた場合、カットオフ0.8を使用する精度は、92.3%まで下降することになった。
表9:種々のY MRカットオフでの正倍数体妊娠における双子の胎児性別予測の精度(Y物質が検出される場合のXX/XYアウトカム対XY/XYアウトカム)。98の正倍数体試料からのY MRに基づく分析
Figure 2022553829000015
Figure 2022553829000016
三つ子および四つ子
三つ子の5症例を、異数性に関する陽性のcfDNAスクリーニング結果を受けた臨床検体から識別し、少なくとも部分的な臨床または診断アウトカム情報を実験室に提供した。利用可能なデータは、限定されるが、モザイク現象比が双子を超えて多胎児妊娠への臨床適用も有し得ることを示唆する。例えば、1つの症例は、Y染色体物質が検出された、21トリソミーに関して陽性であった三つ子に関与した。第21染色体のMRは0.40であり、Y MRは0.63であった。羊水穿刺によって、2人の雄性の胎児(1人は21トリソミーを有し、1人は正倍数体であった)、1人の雌性の正倍数体の胎児(47、XY、+21;46、XY;46、XX)が確認された(表6)
研究コホートでは、3つの三つ子検体および1つの正倍数体の四つ子検体を分析した。(表7)双子試料で実証したように、Y MRは、妊娠中に存在する雄性の胎児の数に比例して増加した。臨床検体と組み合わせて、これらのデータは、MRがより高次の多胎cfDNAの結果の解釈に有用性を有し得ることを示唆する。
結論
データ解釈は、cfDNAスクリーニングの本質的部分であり、経時的に、実験室のバイオインフォマティクスを活用して、この評価の精度を改善することができる。1つのデータメトリックであるモザイク現象比は、単生児妊娠における異常なスクリーニング結果の陽性的中率を洗練する際に臨床的有用性を有することが示されている。多胎児妊娠に関して、1人または複数の胎児が異数性に罹患しているかどうかを決定するために、およびY染色体物質が検出された場合に各胎児の可能な性別についての情報を提供するために、同じメトリックが適用され得る。このデータは、臨床医が、カウンセリングおよび結果の解釈に関する追加の情報を患者に提供する助けとなり得る。
(実施例3)
陽性cfDNAスクリーニング結果による患者に対するパーソナライズされたリスク評価に対する、無細胞DNA(cfDNA)スクリーニングからのモザイク現象比の適用
妊娠中の胎児の異数性評価に関する無細胞DNAスクリーニングは、2011年以来、米国において臨床的に利用可能である。このスクリーニングモダリティは、部分的に、伝統的なスクリーニング方法と比較してPPVが有意に増加したことにより、人気が高まっている。1 cfDNAスクリーニングのPPVが相対的に高いにもかかわらず、「偽陽性」または不調和な結果は、このスクリーニング技術に関して十分に確立された現象である。とりわけ、モザイク現象、双子の相手の死亡、および母方の所見(染色体異常、悪性腫瘍、子宮筋腫)を含む種々の生物学的原因論が、これらの不一致の原因として識別されている。
膨大な量のデータが過去8年にわたって、cfDNAスクリーニングから生成されている。時間と共に、「偽陽性」または不調和な結果をより高い頻度でもたらすデータを有するある特定の試料が存在し得ることを示唆するパターンが出現した。具体的には、cfDNAデータは、時には、その結果に関連する陽性的中率に影響を与え得る胎盤のモザイク現象または他の生物学的現象が存在し得ることを示唆し得る。
本明細書に記載されているように、妊娠雌性に由来するcfDNA試料が、異数性を示唆する染色体材料の過剰提示を有することが識別される場合、「モザイク現象比」(MR)が計算され得る。MRは、全染色体に関して推定された胎児分率で、異常な染色体または染色体セグメントについて推定された胎児分率を除算することによって導出され得る。単生児妊娠では、MRは、結果がモザイク現象を示唆する試料を識別するために使用することができ、陽性的中率の低下に転換することができる。この方法は、目的の面積に関係なく、全ての染色体領域を分析するその広い能力によって、ゲノムワイドcfDNA分析と固有に適合する。
材料および方法
この実施例のある特定の態様に関して、以下に記載した方法を使用した。
本実施例は、1つの臨床実験室における最新バージョンのcfDNA NIPTアッセイを使用して分析された試料に注目した。MaterniT(登録商標)21 PLUSのためにSequenom Laboratories(登録商標)に提出された母方血液試料を、以前に記載したように、DNA抽出、ライブラリー調製、およびゲノムワイド超並列配列決定に供した。
出生前cfDNAスクリーニング検体における胎児分率の寄与を、本明細書に記載したように推定した。まとめると、ゲノムを50キロ塩基(kb)の連続セグメントまたは「ビン」へと分割した。母方DNA断片および胎盤の栄養膜が寄与する「胎児」DNA断片から構成される循環する無細胞DNA断片について配列決定し、ゲノムに対してアラインし、ビンカウントデータを正規化した。雄性の胎児に関して、妊娠からの試料を使用してトレーニングセットを開発した。雄性の胎児分率の直接的尺度として使用される、Y染色体に関連するビンを、常染色体にわたるビンと比較して、Y染色体胎児分率に応じて変化するゲノムビンを識別した。開発されると、この方法は、雄性の胎児または雌性の胎児のいずれかによる妊娠に関して、常染色体ビンからの胎児分率の評価を可能にした。常染色体ビンに基づいて定量した、検体の胎児分率全体を「SeqFF」と示した。
以前に記載したように、全染色体または亜染色体領域に関する検出されたCNVを有する試料では、「罹患した分率」は、CNV領域において観察された配列決定カウントの変化を生成するのに必要とされるcfDNAの分率を計算することによってCNVに関して評価することができる。非モザイク、ヘテロ接合性の、胎児CNVを仮定すると、罹患した分率の2倍が胎児分率に等しいことになる。このメトリックは、「CBSFF」または「循環バイナリセグメンテーション胎児分率」と示される。
循環バイナリセグメンテーション(CBS)を使用してコピー数変異体(CNV)を識別し、CBSFF(または「罹患した分率」)が、CNV領域において観察された配列決定カウントの変化を生成するのに必要とされるcfDNAの分率を計算することによって決定される。言い換えれば、CBSFFは、事象領域のカバレッジの中央値と参照試料のカバレッジの中央値とを比較することによって推定される。参照セットは、正倍数体の雌性試料に基づいて確立された。非モザイクの胎児CNVを仮定すると、「罹患した分率」は、胎児分率全体に等しいはずである。
全体的な試料FF(SeqFF)と罹患した分率(CBSFF)が決定されると、「モザイク現象比」(MR)を計算することができる。本明細書で記載したように、MRは、全染色体に関して推定された胎児分率で、異常染色体または染色体セグメントに関して推定された「罹患した分率」を除算することによって導出される(すなわち、CBSFFをSeqFFで除算)。これら2つの測定値がおよそ等しく、モザイク現象比がおおよそ1.0である場合、これは、胎盤が寄与するcfDNAが、非モザイク形態の異数体であることを示唆する。モザイク現象比の抑制は、胎児分率の存在よりも異数体のcfDNA寄与がより少ないことを示唆し、これは、胎盤モザイク現象、または双子の相手の事前の死亡などの他の生物学的現象を示し得る。「非モザイク」事象対「モザイク」事象から生成された実験室データの可視化表現が図12に見られ、これは、cfDNA分析からの21/18/13トリソミーに関して陽性の3,373試料のスクリーニング分析を示す。陽性的中率は、不調和の結果に関する全ての利用可能なad hoc臨床医フィードバックに基づく。
現在の実験室プロトコールは、一般に、診断テストがモザイク現象を報告するために閾値を利用する方法と同様に、MRが0.2~0.7の間にある場合に「モザイク」陽性としての結果を報告することを含む。「非モザイク」事象対「モザイク」事象から生成された実験室データの可視化表現が図13Aおよび13Bに見られる(これらは、13トリソミーに関して陽性の個々の検体から生成されたゲノムワイド配列決定データを示す。ゲノムは、染色体数で除算して、直線的に表される。1.0付近を中心とする大まかな横線は、その特定の染色体としてダイソミーを表す、正規化された配列決定データを示す。正規化されたデータの線の上および下の破線の横線は、完全な、非モザイクトリソミーまたはモノソミーの事象の場合に正規化されたデータの線がそこまで上昇するか、または下降するはずのレベルを示す(MR+1.0および-1.0))。MRのアウトカムデータとのレトロスペクティブな相関に関与する以前の研究は、MRが不調和の診断試験に反比例することを示している。
MaterniT(登録商標)21 PLUS試験からの21トリソミー、18トリソミー、または13トリソミーに関して陽性の単生児妊娠からの試料を、期間中収集した。診断アウトカムを有するこのコホートからの試料のみがPPV分析に含まれた。診断アウトカムを2つの供給源から得た。第1に、ad hocフィードバックからのアウトカム情報を、利用可能であれば、依頼者から収集した。第2に、陽性のcfDNA試料を、対応する時間枠中の、絨毛膜絨毛、羊水穿刺、出生後末梢血、および受胎検体の生成物から得た細胞遺伝学的かつSNPマイクロアレイ診断結果と相互参照した。3つのデータセット(cfDNA結果、細胞遺伝学の結果およびマイクロアレイの結果)にわたるデータの統合および比較のプロセスは、臨床プロトコールSCMM-RND-402によりAspire IRBに認可された。
細胞遺伝学および/またはマイクロアレイの検体と一致すると考えられるcfDNA試料では、診断およびスクリーニングの結果は、同一の患者識別子(名称および誕生日)を有することが必要とされ、診断試験のための収集日は、患者のcfDNAのスクリーニング日から90日以内でなければならなかった。複数の診断結果(例えば、細胞遺伝学およびマイクロアレイの結果、またはCVSおよび羊水穿刺の結果)が同じ患者に対して利用可能である場合、結果を1つの最終的な特徴付けにより組み合わせた。
cfDNAスクリーニングによって識別した異常性を診断試験からの核型またはマイクロアレイ分析によって確認した場合に、cfDNAの結果を「真陽性」と分類した。「偽陽性」の分類は、異常なスクリーニング結果が診断試験によって確認されなかった場合に割り当てられた。特定のコホートにおける真陽性結果の数を、そのコホートにおける全陽性結果(真陽性プラス偽陽性)で除算することによって、陽性的中率を計算した。統計的計算(Clinical Calculator番号1)のためにVassarStats Websiteを使用して、信頼区間を計算した。2試料、両側、比例Z検定を使用して、比率の比較を実施した。全ての計算に関して、0.05未満のp値を統計的に有意とみなした。
結果
期間中、13トリソミーに関して陽性(T13)の554の結果、18トリソミー(T18)の1,022、および21トリソミー(T21)の3,021からなる4,597の陽性結果が、3つのコアトリソミーのうちの1つに関して生じた。臨床医のフィードバックおよび内部で一致した核型およびマイクロアレイの検体からの診断アウトカムは、T13の114、T18の197、およびT21の468の検体を含む陽性試料の17%(n=779)で利用可能であった。臨床医から自発的に提供された診断アウトカムは、80症例で利用可能であった。診断検体と一致するデータは、分析のためのさらに699の固有の症例をもたらした。
異数性の型によるMRの分布は、図14に示されるように、診断アウトカムを有する症例、および各異数性に関する陽性スクリーニングコホート全体に類似し、2つのコホート間で識別された分布に統計的有意差はなかった。陽性結果全体(n=4,597)のうち、T13検体の49%、T18検体の26%、およびT21検体の5%が、「モザイク」範囲(0.2~0.7の間)にMRを示した。診断アウトカムを有するコホート(n=779)では、T13の57%、T18の31%、およびT21の6%の結果が、「モザイク」範囲にMRを有した。症例が、「高モザイク」群(MRが0.5~0.69)および「低モザイク」群(MRが0.2~0.49)へとさらに細分された場合に、コホート間に類似の分布が見られ、T18試料に関する「高モザイク」群において見られるコホートにおいてのみ統計的有意差があった(即ち、診断アウトカムを有するより多くの試料は、陽性スクリーニングコホート全体におけるよりも、0.5~0.69のMR範囲内に存在した、p=0.0455)。(例えば、表10を参照されたい)。
表10:13トリソミー、18トリソミー、および21トリソミーに関するMR範囲によって分割された、診断アウトカムを有するコホートに対する陽性スクリーニングコホート全体における症例数の比較。
Figure 2022553829000017
診断アウトカムを有するコホートにおける各異数性について、陽性的中率を計算し、次いで、0.1のMR範囲(図15A~15C)およびMR群(図16A~16C)によって階層化した。MRが0.2~0.49の間であった場合にMR群を「低モザイク」と定義し、MRが0.5~0.69の間であった場合に「高モザイク」と定義し、MRが0.7およびそれよりも高い場合に「非モザイク」と定義した(実験室が報告するプロトコールと一致する)。(例えば、表11を参照されたい)
表11:下側および上側の95パーセンタイル信頼区間を有する0.1MR範囲ずつによるPPV
Figure 2022553829000018
Figure 2022553829000019
診断アウトカムを有する779症例の分析は、T13に関する58.8%、T18に関する90.9%、およびT21に関する97.0%の全体的な陽性的中率(PPV)を示した。MRが「非モザイク」であった場合には、PPVは、3つのトリソミー全てに関して一致して高かった(T13の93.9%、T18の96.3%、T21の98.4%)。PPVは、3つのトリソミー全てに関して、非モザイクのMR(0.7およびそれを超える)に対してモザイクのMR(0.2~0.7)を有する試料に関して有意に低かった。「モザイク」範囲(0.2~0.7)のMRを有する試料を「低モザイク」群(0.2~0.49)と「高モザイク」群(0.5~0.69)に分割した。3つのトリソミー全てに関してPPVは、「高モザイク」群よりも「低モザイク」群の試料に関して有意に低かった。
診断研究に関して、モザイク現象が核型またはマイクロアレイの結果に関して文書化された場合、または提供者が診断結果がモザイクであったことを開示した場合に、この情報に注目し、この情報を作表した。13トリソミーの6つの症例、18トリソミーの4つの症例、および21トリソミーの9つの症例のモザイク現象を診断試験から識別した。モザイク診断結果を提供する症例は、広範囲のMR(0.2~1.53)を示した。(例えば、表12を参照されたい)。
表12:モザイク結果に関する診断研究
Figure 2022553829000020
考察
モザイク現象は、妊娠の1~2%で生じると推定される、一般的な生物学的所見である。絨毛膜絨毛および羊水穿刺の検体からの9回の研究は、妊娠中に存在し得る種々の型のモザイク現象への貴重な洞察を提供した。胎児と胎盤が同じ接合体に起源するとしても、胎児と胎と盤の間にだけでなく、胎盤自体の層の間にも、生物学的差異が存在し得ることが十分に確立されている。モザイク現象から生じるこれらの生物学的差異は、減数分裂または有糸分裂中のエラーによって生じ得る。
出生前のcfDNAスクリーニングによって、妊娠中の胎盤栄養膜を起源とする循環する無細胞DNAが分析される。栄養膜は、CVS検体の直接的調製中に分析される(典型的には、in situハイブリダイゼーション研究での蛍光または直接的マイクロアレイに関する)細胞の供給源でもあり、一方、間葉層は、培養されたCVS試料から分析される(通常は、培養された細胞に関する核型またはマイクロアレイ分析に関する)。モザイク現象は、胎盤(胎児が関与するかまたは関与しない)のいずれかもしくは両方の層において、または胎児(胎盤が関与するかまたは関与しない)において、生じる可能性があり、出生前スクリーニングと診断試験の種々の組合せからの不調和な結果が存在し得る。(例えば、表13を参照されたい)。
表13:胎盤性モザイク現象(CPM)および真の胎児のモザイク現象(TFM)の型ならびに各型において影響を受けた組織
Figure 2022553829000021
cfDNAスクリーニングは、異数体の染色体またはセグメントと関連するcfDNAの分率が検体の全体的な胎児分率よりも少ない場合に、胎盤のモザイク現象または他の生物学的事象を示唆する可能性があり、本実施例から生成されたデータは、cfDNAの結果のPPVが、部分的に、これら2つのメトリックを互いに比較する方法(即ち、モザイク現象比)によって影響を受ける可能性があることを示唆する。
3つのトリソミーの全ては、MRが「非モザイク」(0.7またはそれを超える)と考えられる場合に、高PPV(>90%)を実証するが、MRが低下すると、PPVの変動性が、コア異数性の間で、見られる。モザイク形態において見られる可能性の最も高いコア異数性は13トリソミーであり、続いて、それぞれ、18トリソミー、および21トリソミーである。
診断アウトカムを有する症例に注目すると、非モザイクのMR(0.7およびそれを超える)を有する13トリソミーの試料は、93.9%(CI:82.1~98.4%)の最も高いPPVを示し;結果(n=27)の24%が高モザイクのMR(0.5~0.69)を有し、このコホートのPPVは66.7%(CI:46.0~82.8%)であった;13トリソミーの症例(n=38)の33%は、PPVが7.9%(CI:2.1~22.5%)の低モザイクのMR(0.2~0.49)を有することが判明した。絨毛膜絨毛の史的研究から、13トリソミーのモザイク現象には、一般的に細胞栄養膜が関与し、間葉および胎児の関与はより少ない。したがって、これは、cfDNAが13トリソミーモザイクの結果を特定し得る可能性がより高い理由を説明する可能性があり、これらの所見に関連するより低いPPVに寄与し得る。
18トリソミーは、13トリソミーと比較して、MR範囲の全てにわたり、より高いPPVを示した。非モザイクの結果は、96.3%(CI:91.2~98.6%)のPPVを実証した。高モザイクの結果は、85.7%(CI:70.8~94.1%)のPPVを有する症例(n=42)の21%を含み、低モザイクの結果は、症例(n=19)の10%で見られたが、63.2%(CI:38.6~82.8%)の比較的高いPPVを示した。生物学的に、18トリソミーのモザイク現象には、胎盤の間葉層が関与する可能性がより高く、真の胎児のモザイク現象も関与する。したがって、モザイク現象のレベルにかかわらず、18トリソミーの所見は、診断試験によって確認される可能性がより高い場合がある。
21トリソミーに関連するデータを、他のトリソミーと固有に比較した。モザイクデータを提供する試料は非常に少なく、4%が高モザイクデータを示し、1%だけが低モザイクデータを示した。非モザイク症例に関連する(陽性T21の結果の94%を超える)PPVは98.4%(CI:96.6~99.3%)であった。高モザイクの結果は、90.0%のPPV(CI:66.9~98.2%)を示したが、このコホートにおけるデータに寄与したのは20症例に過ぎなかった。低モザイクの結果のPPVは、やはり数は少なく(n=7)、28.6%(CI:5.1~69.7%)であった。18トリソミーと同様に、胎盤組織の研究は、21トリソミーのモザイク現象には間葉および胎児が関与することが多く、潜在的に、胎盤の細胞栄養膜において観察された場合、診断確認の可能性がより高くなることを見出した。
診断アウトカムを有する本実施例のコホートにおける各異数性に関するモザイク現象比の分布の検証は、期間中に出たスクリーニング陽性結果のより広いコホートにおいて見られるMRの分布に非常に似ている。この相関は、診断アウトカムを有する現在のデータセットからの所見が、全体的な陽性スクリーニングコホートに類似する傾向を示し得ることを示唆する。
本実施例において提示された核型およびマイクロアレイのデータの検証によって、cfDNAスクリーニングからの抑制されたか、または「モザイク」のMRの事象においてさえも、診断試験が、典型的には、バイナリの、「正常な」または「異常な」、非モザイクの結果を送達することが実証される。診断アウトカムを有する779症例のうちの19(2.4%)のみが、診断試験において明白なモザイク現象を示した。生物学的には、cfDNAが、モザイク現象の明らかな非存在下で、診断試験からのモザイクデータを示し得る、いくつかの理由が存在する。第1に、絨毛膜絨毛試料採取は、胎盤の局所化生検からの細胞を分析する。したがって、胎盤においてモザイク現象が存在するとしても、モザイク負荷が、焦点を当てた生検領域において方向的に歪められていたなら見逃される可能性がある。一方、cfDNAは、胎盤組成をより包括的に表すことができ、これは、細胞栄養膜由来の細胞が、おそらく、胎盤から広範囲にcfDNAを流出させるためである。結論として、胎盤のモザイク現象は、存在する場合、絨毛膜絨毛試料採取によるよりも、cfDNAスクリーニングによって検出される可能性がより高い可能性がある。
さらに、羊水穿刺は、その結果が胎盤よりも胎児をより表していると考えられるため、異常なcfDNAスクリーニングに対する追跡としてより好ましい診断試験であり得る。cfDNAスクリーニングおよびCVSによって分析されるDNAの通常の生物学的起源を考慮すると、初期の異常なcfDNAの結果の原因であった可能性のある、胎盤限局性モザイク現象の検出を回避するために、CVSは推奨されない可能性がある。事例として、本実施例では、診断研究のおよそ58%を羊水穿刺の検体から実施した。定義によれば、これらの症例はいずれも、妊娠中に存在した場合、胎盤のモザイク現象を検出しなかったであろう。
「モザイク」cfDNAスクリーニングがモザイク診断結果と直接的に相関しない可能性がある最終的な理由は、cfDNAの結果が抑制されたMRを有し得る他の生物学的理由が存在するということである。例えば、双子の相手の死亡が妊娠のより早い段階で起こった場合、残りの胎盤からのcfDNAは、喪失後数週間、母方循環中に残ったままであり得る。11 死亡した双子が異数性に罹患していた場合、残りの胎盤が寄与しているcfDNAは、おそらく、生存している正倍数体の胎児からの正常なcfDNAへの寄与によって抑制されたMRと共に、生存している双子に関して陽性のcfDNAスクリーニングをもたらし得るであろう。
cfDNAの結果が診断研究によって確認されない場合でさえ、おそらく、モザイク現象が存在するが胎盤に限局されているため、これらの所見は臨床的に無関係であるとして却下されるべきではない。胎盤のモザイク現象は、胎児の関与が明らかに存在しなくても、多くの場合、数ある原因の中でも、胎盤機能不全、潜在的な胎児のモザイク現象、または早期のトリソミーレスキューによって起こる片親性ダイソミーを原因として、有害な妊娠アウトカムおよびある特定の異数体に関する胎児の異常に対するリスクの増加に関連している。
この実施例のデータは、臨床医が、試料特異的なメトリックに基づいて、よりパーソナライズされたリスク評価をその患者に提供する助けとなり得る。cfDNA技術の総体的な理解は進化し続けるため、結果の解釈および患者のカウンセリングに関して提供者を助けることができるデータの傾向および所見を、実験室が報告することが重要である。
さらなる検討
具体的詳細は、実施形態の全体的理解を提供するために上記に与えられる。しかし、実施形態はこれらの具体的詳細を用いずに実践することができることが理解される。例えば、回路は、実施形態を不明瞭にしないために、不必要に詳細にブロック図で示されてもよい。他の場合には、周知の回路、プロセス、アルゴリズム、構造、および技法が、実施形態を不明瞭にすることを避けるために不必要に詳細に示されなくてもよい。
上記の技法、ブロック、ステップおよび手段のインプリメンテーションは、種々の様式でなされ得る。例えば、これらの技法、ブロック、ステップおよび手段は、ハードウェア、ソフトウェア、またはそれらの組合せにおいて実現され得る。ハードウェアインプリメンテーションに関しては、処理ユニットは、1つまたは複数の特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサー(DSP)、デジタルシグナル処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドブログラマブルゲートアレイ(FPGA)、プロセッサー、コントローラー、マイクロコントローラー、マイクロプロセッサー、上記の機能を実施するために設計された他の電子ユニット、および/またはそれらの組合せ内で実現され得る。
また、実施形態が、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして記載され得ることに留意されたい。フローチャートは、順序プロセスとして操作を説明することができるが、操作の多くは、並行して、または同時に実施することができる。さらに、操作の順序は並び変えることができる。プロセスは、その操作が完了した際に終了するが、図に含まれない追加のステップを有することができる。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが機能に対応する場合、その終了は、機能の、呼び出し機能またはメイン機能へのリターンに対応する。
さらに、実施形態は、ハードウェア、ソフトウェア、スクリプト言語、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、および/またはこれらの任意の組合せによって実現され得る。ソフトウェア、ファームウェア、ミドルウェア、スクリプト言語、および/またはマイクロコードで実現される場合、必要なタスクを実施するためのプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体中に記憶され得る。コードセグメントまたは機械実行可能命令は、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、スクリプト、クラス、または指示、データ構造、および/またはプログラム記述の任意の組合せを表すことができる。コードセグメントは、情報、データ、引数、パラメーター、および/またはメモリコンテンツを通過させるおよび/または受容することによって、別のコードセグメントまたはハードウェア回路に連結され得る。情報、引数、パラメーター、データなどは、メモリ共有、メッセージ受け渡し、改札通過、ネットワーク伝送などを含む任意の適切な手段によって、通過、転送、または伝送され得る。
ファームウェアおよび/またはソフトウェアインプリメンテーションに関しては、本明細書に記載される機能を実施するモジュール(例えば、手順、機能など)により、方法論を実現することができる。指示を明白に具現化する任意の機械可読媒体は、本明細書に記載される方法論を実現する際に使用され得る。例えば、ソフトウェアコードはメモリ内に記憶され得る。メモリは、プロセッサー内またはプロセッサーの外側に装備され得る。本明細書で使用される場合、用語「メモリ」は、任意の型の、長期、短期、揮発性、不揮発性、または他の記憶媒体を指し、いずれかの特定の型のメモリもしくはいずれかの特定の数のメモリ、またはメモリが記憶される媒体の型に限定されない。
さらに、本明細書に開示されるように、用語「記憶媒体」、「記憶」または「メモリ」は、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気RAM、コアメモリ、磁気ディスク記憶媒体、光学式記憶媒体、フラッシュメモリデバイスおよび/または情報を記憶するための他の機械可読媒体を含む、データを記憶するための1つまたは複数のメモリを表し得る。用語「機械可読媒体」は、これらに限定されないが、持ち運びできるか、または固定された記憶デバイス、光学式記憶デバイス、ワイアレスチャネル、ならびに/または指示および/もしくはデータを含有もしくは運ぶ、記憶することが可能な種々の他の記憶媒体を含む。
本開示の原理は、特定の装置および方法と併せて上記に記載されているが、この記載は例としてのみなされ、本開示の範囲の限定としてなされるものではないことが明確に理解されるべきである。

Claims (78)

  1. 1人または複数の胎児における遺伝的モザイク現象の存在または非存在を分類するための方法であって、
    コンピューティングデバイスによって、多胎児妊娠を有する妊娠雌性対象由来の循環する無細胞核酸を含む試料において遺伝的コピー数変異領域を識別するステップであって、前記遺伝的コピー数変異領域が、コピー数変異を含み、前記循環する無細胞核酸が、母方核酸および胎児核酸を含む、ステップ;
    前記コンピューティングデバイスによって、前記循環する無細胞核酸中の前記コピー数変異を有する核酸の分率を決定するステップ;
    前記コンピューティングデバイスによって、前記循環する無細胞核酸中の前記胎児核酸の分率を決定するステップ;
    前記コンピューティングデバイスによって、モザイク現象比を生成するステップであって、前記モザイク現象比が、前記循環する無細胞核酸中の前記胎児核酸の前記分率によって除算した、前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率である、ステップ;ならびに
    前記コンピューティングデバイスによって、前記モザイク現象比および前記妊娠雌性対象が身ごもっている胎児の数に基づく前記モザイク現象比に従って、前記コピー数変異領域について遺伝的モザイク現象の存在または非存在を分類するステップ
    を含む、方法。
  2. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、前記コピー数変異領域について決定される、請求項1に記載の方法。
  3. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、配列決定ベースの分率推定に従って決定される、請求項1または2に記載の方法。
  4. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、多型配列の対立遺伝子比に従って決定される、請求項1または2に記載の方法。
  5. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、差次的にメチル化された核酸の定量化に従って決定される、請求項1または2に記載の方法。
  6. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、前記コピー数変異領域について決定された胎児分率である、請求項1に記載の方法。
  7. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記胎児分率が、配列決定ベースの胎児分率推定に従って決定される、請求項6に記載の方法。
  8. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記胎児分率が、前記胎児核酸および前記母方核酸における多型配列の対立遺伝子比に従って決定される、請求項6に記載の方法。
  9. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記胎児分率が、差次的にメチル化された胎児および母方核酸の定量化に従って決定される、請求項6に記載の方法。
  10. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記コピー数変異領域よりも大きいゲノム領域について決定される、請求項1に記載の方法。
  11. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記コピー数変異領域とは異なるゲノム領域について決定される、請求項1に記載の方法。
  12. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、配列決定ベースの胎児分率推定に従って決定される、請求項1、10または11に記載の方法。
  13. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記胎児核酸および前記母方核酸における多型配列の対立遺伝子比に従って決定される、請求項1、10または11に記載の方法。
  14. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、差次的にメチル化された胎児および母方核酸の定量化に従って決定される、請求項1、10または11に記載の方法。
  15. 前記モザイク現象比が、前記循環する無細胞核酸中の前記胎児核酸の前記分率によって除算した、前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率である、請求項1に記載の方法。
  16. コンピューティングシステムによって、前記モザイク現象比が最小閾値未満である場合に分類なしを提供するステップをさらに含む、請求項1または15に記載の方法。
  17. 前記最小閾値が約0.1である、請求項16に記載の方法。
  18. コンピューティングシステムによって、前記モザイク現象比が最大閾値よりも大きい場合に分類なしを提供するステップをさらに含む、請求項1または15に記載の方法。
  19. 最大閾値が約1.7である、請求項16に記載の方法。
  20. 前記コンピューティングシステムによって、前記妊娠雌性対象由来の循環する無細胞核酸を含む試料中の1つまたは複数の異数性の存在について非侵襲性出生前試験(NIPT)から陽性スクリーニング結果を得るステップをさらに含む、請求項1、16、17、18または19に記載の方法。
  21. 前記コンピューティングシステムによって、分類なしが提供され、前記モザイク現象比が前記最小閾値未満である場合に、陰性結果、または前記1つもしくは複数の異数性の非存在としての、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップをさらに含む、請求項20に記載の方法。
  22. 前記コンピューティングシステムによって、分類なしが提供され前記モザイク現象比が前記最大閾値よりも大きい場合に、過剰または不確定としての、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップをさらに含む、請求項20に記載の方法。
  23. 前記コンピューティングシステムによって、前記遺伝的モザイク現象の存在が前記コピー数変異領域について分類される場合に、モザイク提示の可能性に関するコメントと共に、陽性としての、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップをさらに含む、請求項20に記載の方法。
  24. 前記コンピューティングシステムによって、前記遺伝的モザイク現象の非存在が前記コピー数変異領域について分類される場合に、陽性としての、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップをさらに含む、請求項20に記載の方法。
  25. 試験試料についてコピー数変更の存在または非存在を分類するためのシステムであって、
    1つまたは複数のプロセッサー;および
    請求項1から24のいずれか一項に記載のプロセスを実施するように構成された命令のセットがコードされている、前記1つまたは複数のプロセッサーに連結されたメモリ
    を含む、システム。
  26. コンピューティングシステムの1つまたは複数のプロセッサーによって実行された場合に、前記コンピューティングシステムに、請求項1から24のいずれか一項に記載のプロセスを実施させる命令を記憶している、非一時的コンピュータ可読記憶媒体。
  27. 多胎児妊娠における胎児の性別を分類するための方法であって、
    コンピューティングデバイスによって、前記多胎児妊娠を有する妊娠雌性対象由来の循環する無細胞核酸を含む試料中の、Y染色体または前記Y染色体の領域を有する核酸の分率を決定するステップであって、前記循環する無細胞核酸が、母方核酸および胎児核酸を含む、ステップ;
    前記コンピューティングデバイスによって、前記循環する無細胞核酸中の前記胎児核酸の分率を決定するステップ;
    前記コンピューティングデバイスによって、モザイク現象比を生成するステップであって、前記モザイク現象比が、前記循環する無細胞核酸中の前記胎児核酸の前記分率によって除算した、前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記分率である、ステップ;ならびに
    前記コンピューティングデバイスによって、前記モザイク現象比および前記妊娠雌性対象が身ごもっている胎児の数に基づいて、前記胎児の性別を分類するステップ
    を含む、方法。
  28. 前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記分率が、配列決定ベースの分率推定に従って決定される、請求項27に記載の方法。
  29. 前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記分率が、多型配列の対立遺伝子比に従って決定される、請求項27に記載の方法。
  30. 前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記分率が、差次的にメチル化された核酸の定量化に従って決定される、請求項27に記載の方法。
  31. 前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記分率が、前記Y染色体または前記Y染色体の前記領域について決定された胎児分率である、請求項27に記載の方法。
  32. 前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記胎児分率が、配列決定ベースの胎児分率推定に従って決定される、請求項31に記載の方法。
  33. 前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記胎児分率が、前記胎児核酸および前記母方核酸における多型配列の対立遺伝子比に従って決定される、請求項31に記載の方法。
  34. 前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記胎児分率が、差次的にメチル化された胎児および母方核酸の定量化に従って決定される、請求項31に記載の方法。
  35. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記Y染色体または前記Y染色体の前記領域よりも大きいゲノム領域について決定される、請求項27に記載の方法。
  36. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記Y染色体または前記Y染色体の前記領域とは異なるゲノム領域について決定される、請求項27に記載の方法。
  37. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、配列決定ベースの胎児分率推定に従って決定される、請求項27、35または36に記載の方法。
  38. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記胎児核酸および前記母方核酸における多型配列の対立遺伝子比に従って決定される、請求項27、35または36に記載の方法。
  39. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、差次的にメチル化された胎児および母方核酸の定量化に従って決定される、請求項27、35または36に記載の方法。
  40. 前記モザイク現象比が、前記循環する無細胞核酸中の前記胎児核酸の前記分率によって除算した、前記循環する無細胞核酸中の前記Y染色体または前記Y染色体の前記領域を有する核酸の前記分率である、請求項27に記載の方法。
  41. コンピューティングシステムによって、前記試料中の1つまたは複数の異数性の存在について非侵襲性出生前試験(NIPT)から陽性スクリーニング結果を得るステップをさらに含む、請求項27に記載の方法。
  42. 試験試料についてコピー数変更の存在または非存在を分類するためのシステムであって、
    1つまたは複数のプロセッサー;および
    請求項27から41のいずれか一項に記載のプロセスを実施するように構成された命令のセットがコードされている、前記1つまたは複数のプロセッサーに連結されたメモリ
    を含む、システム。
  43. コンピューティングシステムの1つまたは複数のプロセッサーによって実行された場合に、前記コンピューティングシステムに、請求項27から41のいずれか一項に記載のプロセスを実施させる命令を記憶している、非一時的コンピュータ可読記憶媒体。
  44. 遺伝的モザイク現象の存在または非存在を分類するための方法であって、
    コンピューティングシステムによって、妊娠雌性対象由来の循環する無細胞核酸を含む第1の試料中の異数性の存在について非侵襲性出生前試験(NIPT)から陽性スクリーニング結果を得るステップであって、前記陽性スクリーニング結果が、前記第1の試料内で検出された異数性の型を含む、ステップ;
    コンピューティングデバイスによって、前記妊娠雌性対象由来の循環する無細胞核酸を含む第2の試料において前記異数性に関連する遺伝的コピー数変異領域を識別するステップであって、前記遺伝的コピー数変異領域が、コピー数変異を含み、前記循環する無細胞核酸が、母方核酸および胎児核酸を含む、ステップ;
    前記コンピューティングデバイスによって、前記循環する無細胞核酸中の前記コピー数変異を有する核酸の分率を決定するステップ;
    前記コンピューティングデバイスによって、前記循環する無細胞核酸中の前記胎児核酸の分率を決定するステップ;
    前記コンピューティングデバイスによって、モザイク現象比を生成するステップであって、前記モザイク現象比が、前記循環する無細胞核酸中の前記胎児核酸の前記分率によって除算した、前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率である、ステップ;
    前記コンピューティングデバイスによって、前記モザイク現象比に基づいて、前記コピー数変異領域について遺伝的モザイク現象の存在または非存在を分類するステップ;ならびに
    前記コンピューティングデバイスによって、前記NIPTからの前記陽性スクリーニング結果、前記モザイク現象比、および前記異数性の前記型に基づいて、前記異数性を有する前記妊娠雌性対象の胎児についてのパーソナライズされたリスク評価を提供するステップ
    を含む、方法。
  45. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、前記コピー数変異領域について決定される、請求項44に記載の方法。
  46. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、配列決定ベースの分率推定に従って決定される、請求項44または45に記載の方法。
  47. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、多型配列の対立遺伝子比に従って決定される、請求項44または45に記載の方法。
  48. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、差次的にメチル化された核酸の定量化に従って決定される、請求項44または45に記載の方法。
  49. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記分率が、前記コピー数変異領域について決定された胎児分率である、請求項44に記載の方法。
  50. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記胎児分率が、配列決定ベースの胎児分率推定に従って決定される、請求項49に記載の方法。
  51. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記胎児分率が、前記胎児核酸および前記母方核酸における多型配列の対立遺伝子比に従って決定される、請求項49に記載の方法。
  52. 前記循環する無細胞核酸中の前記コピー数変異を有する核酸の前記胎児分率が、差次的にメチル化された胎児および母方核酸の定量化に従って決定される、請求項49に記載の方法。
  53. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記コピー数変異領域よりも大きいゲノム領域について決定される、請求項44に記載の方法。
  54. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記コピー数変異領域とは異なるゲノム領域について決定される、請求項44に記載の方法。
  55. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、配列決定ベースの胎児分率推定に従って決定される、請求項44、53または54に記載の方法。
  56. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、前記胎児核酸および前記母方核酸における多型配列の対立遺伝子比に従って決定される、請求項44、53または54に記載の方法。
  57. 前記循環する無細胞核酸中の前記胎児核酸の前記分率が、差次的にメチル化された胎児および母方核酸の定量化に従って決定される、請求項44、53または54に記載の方法。
  58. 異数性の前記型が、13トリソミー、18トリソミーまたは21トリソミーである、請求項44に記載の方法。
  59. 前記コンピューティングシステムによって、前記モザイク現象比が最小閾値と等しいまたはそれ未満である場合に分類なしを提供するステップをさらに含む、請求項44または58に記載の方法。
  60. 前記最小閾値が約0.2である、請求項59に記載の方法。
  61. 前記コンピューティングシステムによって、前記モザイク現象比が最大閾値と等しいまたはそれよりも大きい場合に分類なしを提供するステップをさらに含む、請求項59に記載の方法。
  62. 前記最大閾値が約1.3である、請求項61に記載の方法。
  63. 前記第1の試料と前記第2の試料とが同じ試料である、請求項44、59、60、61または62に記載の方法。
  64. 前記第1の試料と前記第2の試料とが異なる試料である、請求項44、59、60、61または62に記載の方法。
  65. 前記遺伝的モザイク現象の存在が、前記モザイク現象比が0.2と0.7との間である場合に、前記コピー数変異領域について分類され、前記遺伝的モザイク現象の非存在が、前記モザイク現象比が0.7と等しいまたはそれよりも大きい場合に、前記コピー数変異領域について分類される、請求項61に記載の方法。
  66. 前記パーソナライズされたリスク評価を提供する前記ステップが、分類なしが提供され、前記モザイク現象比が前記最小閾値未満である場合に、陰性結果、または前記異数性の非存在としての、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項65に記載の方法。
  67. 前記パーソナライズされたリスク評価を提供する前記ステップが、分類なしが提供され、前記モザイク現象比が前記最大閾値よりも大きい場合に、過剰または不確定としての、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項65に記載の方法。
  68. 前記パーソナライズされたリスク評価を提供する前記ステップが、前記遺伝的モザイク現象の非存在が前記コピー数変異領域について分類される場合に、前記異数性が非モザイク形態であることを前記モザイク現象比が示唆するというコメントと共に、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項65に記載の方法。
  69. 前記パーソナライズされたリスク評価を提供する前記ステップが、前記遺伝的モザイク現象の存在が前記コピー数変異領域について分類される場合に、前記異数性がモザイク形態であることを前記モザイク現象比が示唆するというコメントと共に、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項65に記載の方法。
  70. 前記コンピューティングシステムによって、前記モザイク現象比が0.2と0.49との間である場合に、前記遺伝的モザイク現象の存在を、前記コピー数変異領域について「低モザイク」として分類するステップ、または前記コンピューティングシステムによって、前記モザイク現象比が0.5と0.69との間である場合に、前記遺伝的モザイク現象の存在を、前記コピー数変異領域について「高モザイク」として分類するステップをさらに含む、請求項65に記載の方法。
  71. 前記パーソナライズされたリスク評価を提供する前記ステップが、前記遺伝的モザイク現象の存在が前記コピー数変異領域について「高モザイク」として分類される場合に、前記異数性がモザイク形態であることを前記モザイク現象比が強く示唆するというコメントと共に、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項70に記載の方法。
  72. 前記パーソナライズされたリスク評価を提供する前記ステップが、前記遺伝的モザイク現象の存在が前記コピー数変異領域について「低モザイク」として分類される場合に、前記異数性がモザイク形態であることを前記モザイク現象比が弱く示唆するというコメントと共に、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項70に記載の方法。
  73. 前記パーソナライズされたリスク評価を提供する前記ステップが、前記遺伝的モザイク現象の存在が前記コピー数変異領域について「高モザイク」として分類され、異数性の前記型が13トリソミーである場合に、前記異数性がモザイク形態であることを前記モザイク現象比が僅かに示唆するというコメントと共に、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項70に記載の方法。
  74. 前記パーソナライズされたリスク評価を提供する前記ステップが、前記遺伝的モザイク現象の存在が前記コピー数変異領域について「低モザイク」として分類され、異数性の前記型が13トリソミーである場合に、前記異数性がモザイク形態であることを前記モザイク現象比が弱く示唆するというコメントと共に、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項70に記載の方法。
  75. 前記パーソナライズされたリスク評価を提供する前記ステップが、前記遺伝的モザイク現象の存在が前記コピー数変異領域について「高モザイク」として分類され、異数性の前記型が18トリソミーまたは21トリソミーである場合に、前記異数性がモザイク形態であることを前記モザイク現象比が強く示唆するというコメントと共に、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項70に記載の方法。
  76. 前記パーソナライズされたリスク評価を提供する前記ステップが、前記遺伝的モザイク現象の存在が前記コピー数変異領域について「低モザイク」として分類され、異数性の前記型が18トリソミーまたは21トリソミーである場合に、前記異数性がモザイク形態であることを前記モザイク現象比が弱く示唆するというコメントと共に、前記NIPTからの前記陽性スクリーニング結果の解釈を提供するステップを含む、請求項70に記載の方法。
  77. 試験試料についてコピー数変更の存在または非存在を分類するためのシステムであって、
    1つまたは複数のプロセッサー;および
    請求項44から76のいずれか一項に記載のプロセスを実施するように構成された命令のセットがコードされている、前記1つまたは複数のプロセッサーに連結されたメモリ
    を含む、システム。
  78. コンピューティングシステムの1つまたは複数のプロセッサーによって実行された場合に、前記コンピューティングシステムに、請求項44から76のいずれか一項に記載のプロセスを実施させる命令を記憶している、非一時的コンピュータ可読記憶媒体。
JP2022525836A 2019-10-31 2020-11-02 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用 Pending JP2022553829A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962928674P 2019-10-31 2019-10-31
US62/928,674 2019-10-31
US202063043330P 2020-06-24 2020-06-24
US63/043,330 2020-06-24
PCT/US2020/058608 WO2021087491A1 (en) 2019-10-31 2020-11-02 Application of mosaicism ratio in multifetal gestations and personalized risk assessment

Publications (2)

Publication Number Publication Date
JP2022553829A true JP2022553829A (ja) 2022-12-26
JPWO2021087491A5 JPWO2021087491A5 (ja) 2023-10-11

Family

ID=73598968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022525836A Pending JP2022553829A (ja) 2019-10-31 2020-11-02 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用

Country Status (5)

Country Link
EP (1) EP4052259A1 (ja)
JP (1) JP2022553829A (ja)
CA (1) CA3159786A1 (ja)
IL (1) IL292637A (ja)
WO (1) WO2021087491A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469958B (zh) * 2021-06-18 2023-08-04 中山大学附属第一医院 一种胚胎发育潜能预测方法、系统、设备及存储介质
WO2024186778A1 (en) * 2023-03-03 2024-09-12 Laboratory Corporation Of America Holdings Methods and systems for positive cfdna screening on genetic variations using mosaicism ratio
CN116970712B (zh) * 2023-09-04 2024-03-22 湖北省农业科学院畜牧兽医研究所 一种山羊13号染色体上与繁殖性状相关的snp分子标记及应用

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
JP4786904B2 (ja) 2002-11-27 2011-10-05 セクエノム,インコーポレイティド 配列変化検出及び発見用の断片化をベースとする方法及びシステム
US8048627B2 (en) 2003-07-05 2011-11-01 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
AU2005308918B2 (en) 2004-11-29 2012-09-27 Sequenom, Inc. Means and methods for detecting methylated DNA
US8679741B2 (en) 2006-05-31 2014-03-25 Sequenom, Inc. Methods and compositions for the extraction and amplification of nucleic acid from a sample
CA2655269A1 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
EP2195452B1 (en) 2007-08-29 2012-03-14 Sequenom, Inc. Methods and compositions for universal size-specific polymerase chain reaction
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
EP2276858A4 (en) 2008-03-26 2011-10-05 Sequenom Inc RESTRICTED ENDONUCLEASE AMPLIFIED POLYMORPHIC SEQUENCE DETECTION
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
DK2329021T3 (en) 2008-09-16 2016-10-24 Sequenom Inc Methods and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample suitable for non-invasive prenatal diagnoses
EP2848704B1 (en) 2010-01-19 2018-08-29 Verinata Health, Inc Sequencing methods for prenatal diagnoses
EP2569453B1 (en) 2010-05-14 2015-12-16 Fluidigm Corporation Nucleic acid isolation methods
WO2013019361A1 (en) 2011-07-07 2013-02-07 Life Technologies Corporation Sequencing methods
CA2850785C (en) 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK2764459T3 (da) 2011-10-06 2021-08-23 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv bedømmelse af genetiske variationer
CA2851537C (en) 2011-10-11 2020-12-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
JP6431769B2 (ja) 2012-01-20 2018-11-28 セクエノム, インコーポレイテッド 実験条件を要因として含める診断プロセス
EP4276194A3 (en) 2012-05-21 2024-03-06 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR102540202B1 (ko) 2013-05-24 2023-06-02 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
KR102299305B1 (ko) 2013-06-21 2021-09-06 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
ES2968644T3 (es) 2013-10-04 2024-05-13 Sequenom Inc Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
CN111863131A (zh) 2013-10-07 2020-10-30 塞昆纳姆股份有限公司 用于非侵入性评估染色体改变的方法和过程
WO2015138774A1 (en) 2014-03-13 2015-09-17 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3149640B1 (en) 2014-05-30 2019-09-04 Sequenom, Inc. Chromosome representation determinations
WO2016019042A1 (en) 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3204512B1 (en) 2014-10-10 2020-05-06 Sequenom, Inc. Methods for partitioning of genomic sequences
US11694768B2 (en) * 2017-01-24 2023-07-04 Sequenom, Inc. Methods and processes for assessment of genetic variations
JP7370862B2 (ja) * 2017-03-17 2023-10-30 セクエノム, インコーポレイテッド 遺伝子モザイク症のための方法およびプロセス

Also Published As

Publication number Publication date
EP4052259A1 (en) 2022-09-07
IL292637A (en) 2022-07-01
CA3159786A1 (en) 2021-05-06
WO2021087491A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
JP7446979B2 (ja) 染色体提示の決定
JP7370862B2 (ja) 遺伝子モザイク症のための方法およびプロセス
CA3049682C (en) Methods for non-invasive assessment of genetic alterations
US20240029826A1 (en) Methods and Processes for Assessment of Genetic Variations
CA3049455C (en) Sequencing adapter manufacture and use
US20240233866A1 (en) Methods for non-invasive assessment of genetic variations
JP2022553829A (ja) 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用
WO2024186778A1 (en) Methods and systems for positive cfdna screening on genetic variations using mosaicism ratio

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231002

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231002