JP2014534507A - 遺伝的変異の非侵襲的評価のための方法およびプロセス - Google Patents

遺伝的変異の非侵襲的評価のための方法およびプロセス Download PDF

Info

Publication number
JP2014534507A
JP2014534507A JP2014534806A JP2014534806A JP2014534507A JP 2014534507 A JP2014534507 A JP 2014534507A JP 2014534806 A JP2014534806 A JP 2014534806A JP 2014534806 A JP2014534806 A JP 2014534806A JP 2014534507 A JP2014534507 A JP 2014534507A
Authority
JP
Japan
Prior art keywords
nucleic acid
count
sequence
genomic
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014534806A
Other languages
English (en)
Other versions
JP2014534507A5 (ja
JP6073902B2 (ja
Inventor
コスミン デチウ,
コスミン デチウ,
ジェリコ ザクラ,
ジェリコ ザクラ,
マシアス エーリック,
マシアス エーリック,
スン キュン キム,
スン キュン キム,
Original Assignee
セクエノム, インコーポレイテッド
セクエノム, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セクエノム, インコーポレイテッド, セクエノム, インコーポレイテッド filed Critical セクエノム, インコーポレイテッド
Publication of JP2014534507A publication Critical patent/JP2014534507A/ja
Publication of JP2014534507A5 publication Critical patent/JP2014534507A5/ja
Application granted granted Critical
Publication of JP6073902B2 publication Critical patent/JP6073902B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本明細書において、遺伝的変異の非侵襲的評価の方法、プロセスおよび装置を提供する。本明細書において、以下を含む染色体異常断片もしくは胎児異数性または両方の有無を検出する方法を提供する:(a)循環無細胞核酸を含むサンプルを試験被験体から得、(b)サンプルから細胞非含有サンプル核酸を単離し、(c)細胞非含有サンプル核酸から配列リードを得、(d)ゲノム片に分割されている既知のゲノムに(c)で得られた配列リードをマッピングし、(e)ゲノム片内にマッピングされた配列リードをカウントし、(f)(e)で得られたゲノム片ためのカウントを正規化することにより、サンプル正規化されたカウントプロファイルを作製し、(g)(f)のサンプル正規化されたカウントプロファイルから染色体異常断片もしくは胎児異数性または両方の有無を決定する。

Description

関連特許出願
この特許出願は、代理人管理番号SEQ−6034−PV3によって指定される、発明者としてCosmin Deciu、Zeljko Dzakula、Mathias EhrichおよびSung Kyun Kimが挙げられる表題「METHODS AND PROCESSES FOR NON−INVASIVE ASSESSMENT OF GENETIC VARIATIONS」の2012年10月4日に出願された米国仮特許出願第61/709,899号の利益を主張し、代理人管理番号SEQ−6034−PV2によって指定される、発明者としてZeljko DzakulaおよびMathias Ehrichが挙げられる表題「METHODS AND PROCESSES FOR NON−INVASIVE ASSESSMENT OF GENETIC VARIATIONS」の2012年6月22日に出願された米国仮特許出願第61/663,477号の利益を主張し、代理人管理番号SEQ−6034−PVによって指定される、発明者としてZeljko DzakulaおよびMathias Ehrichが挙げられる表題「METHODS AND PROCESSES FOR NON−INVASIVE ASSESSMENT OF GENETIC VARIATIONS」の2011年10月6日に出願された米国仮特許出願第61/544,251号の利益を主張する。前述の仮出願の全体の内容(全ての本文、表および図面を含む)は、参考として本明細書に援用される。
本明細書において提供される技術は、部分的に遺伝的変異の非侵襲的評価のための方法、プロセスおよび装置に関する。
生体(例えば、動物、植物および微生物)および遺伝情報を複製する他の形態(例えば、ウイルス)の遺伝情報は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)にコードされる。遺伝情報は、一連のヌクレオチドまたは化学的もしくは仮想的核酸の一次構造を表す改変ヌクレオチドである。ヒトにおいて、完全なゲノムは、24本の染色体に位置する約30,000個の遺伝子を含有する(The Human Genome,T.Strachan,BIOS Scientific Publishers,1992を参照のこと)。各遺伝子は、特定のタンパク質をコードし、転写および翻訳を介して発現後、生体細胞内で特定の生化学機能を果たす。
多くの病状は、1つまたはそれより多い遺伝的変異により生じる。特定の遺伝的変異は、例えば、血友病、サラセミア、デュシェンヌ型筋ジストロフィー(DMD)、ハンチントン病(HD)、アルツハイマー病および嚢胞性線維症(CF)を含む病状を生じる(Human Genome Mutations,D.N.Cooper and M. Krawczak,BIOS Publishers,1993)。このような遺伝病は、具体的な遺伝子のDNA内の1本鎖のヌクレオチドの付加、置換または欠失により生じ得る。特定の先天異常は、異数性、例えば、トリソミー21(ダウン症)、トリソミー13(パトー症候群)、トリソミー18(エドワーズ症候群)、モノソミーX(ターナー症候群)および特定の性染色体異数性、例えば、クラインフェルター症候群(XXY)などとも呼ばれる染色体異常により生じる。別の遺伝的変異は、胎児の性別であり、これは、多くの場合、性染色体XおよびYに基づいて決定され得る。遺伝的変異の中には、個体に多くの疾患、例えば、糖尿病、動脈硬化症、肥満、種々の自己免疫疾患およびがん(例えば、直腸結腸、乳房、卵巣、肺)のいずれかにかかりやすくさせ、または生じさせ得る。
1つまたはそれより多い遺伝的変異または分散を同定することは、具体的な病状の診断またはその素因の決定につながり得る。遺伝的分散を同定することは、医学的な決定を促し、かつ/または役立つ医学的手法を使用する結果となり得る。いくつかの例において、1つまたはそれより多い遺伝的変異または分散の同定には、細胞非含有DNAの分析を含む。
細胞非含有DNA(CF−DNA)は、細胞死に由来し、末梢血を循環するDNAフラグメントからなる。高濃度のCF−DNAは、特定の臨床状態、例えば、がん、外傷、熱傷、心筋梗塞、卒中、敗血症、感染、および他の疾病を示し得る。さらに、細胞非含有胎児DNA(CFF−DNA)は、母体血流中に検出されることができ、種々の非侵襲的出生前診断に使用されることができる。
母体血漿中の胎児核酸の存在が、母体血液サンプルの分析により、非侵襲的出生前診断を可能にする。例えば、母体血漿中の胎児DNAの量的異常は、妊娠高血圧腎症、早産、分娩前出血、癒着胎盤形成、胎児のダウン症、および他の胎児染色体異数性を含む多くの妊娠関連障害と関連し得る。したがって、母体血漿中の胎児核酸の分析は、胎児母体の健康をモニタリングするのに有用な機構であり得る。
妊娠中の合併症および胎児の遺伝的異常を含む妊娠関連状態の初期の検出は、母体および胎児の両方の安全に必要な早期医学的介入を可能にするとして重要である。出生前診断はこれまで、絨毛採取(CVS)または羊水穿刺などの手法により胎児から単離された細胞を使用して行われてきた。しかし、これらの従来の方法は、侵襲的であり、母体および胎児の両方にかなりの危険が存在する。国民保健制度は現在、侵襲的羊水穿刺および絨毛採取(CVS)検査後に1〜2パーセントの流産率を挙げている。血中CFF−DNAを利用する非侵襲的スクリーニング技法の使用は、これらの侵襲的アプローチの代替えとなり得る。
本明細書において、以下を含む染色体異常断片もしくは胎児異数性または両方の有無を検出する方法を提供する:(a)循環無細胞核酸を含むサンプルを試験被験体から得、(b)サンプルから細胞非含有サンプル核酸を単離し、(c)細胞非含有サンプル核酸から配列リードを得、(d)ゲノム片に分割されている既知のゲノムに(c)で得られた配列リードをマッピングし、(e)ゲノム片内にマッピングされた配列リードをカウントし、(f)(e)で得られたゲノム片ためのカウントを正規化することにより、サンプル正規化されたカウントプロファイルを作製し、(g)(f)のサンプル正規化されたカウントプロファイルから染色体異常断片もしくは胎児異数性または両方の有無を決定する。配列リードのマッピングに関して本明細書において使用される場合、用語「既知のゲノム」は、参照またはマッピングしたゲノムまたはその断片(例えば、無傷のゲノム、1つまたはそれより多い染色体、染色体の一部、選択されたゲノム断片または片など、または上記の組み合わせ)を指す。
また、本明細書において、以下を含む遺伝的変異の有無を検出する方法を提供する:(a)核酸を含むサンプルを試験被験体から得、(b)サンプルからサンプル核酸を単離し、(c)サンプル核酸から配列リードを得、(d)ゲノム片に分割されている既知のゲノムに(c)で得られた配列リードをマッピングし、(e)ゲノム片内にマッピングされた配列リードをカウントし、(f)(e)で得られたゲノム片のためのカウントを正規化することにより、サンプル正規化されたカウントプロファイルを作製し、(g)(f)のサンプル正規化されたカウントプロファイルから遺伝的変異の有無を決定する。
いくつかの実施形態において、試験被験体を、ヒト、動物、および植物から選択する。特定の実施形態において、ヒト試験被験体は、女性、妊娠女性、男性、胎児、または新生児を含む。いくつかの実施形態において、(f)は、標準偏差の二乗の逆関数を使用して、(e)で得られたゲノム片のカウントを重み付けすることを含む。
本明細書において、以下を含む染色体異常断片もしくは胎児異数性または両方の有無を検出する方法も提供する:(a)試験被験体からの血中細胞非含有サンプル核酸の配列リードを得、(b)ゲノム片に分割されている既知のゲノムに(a)で得られた配列リードをマッピングし、(c)ゲノム片内にマッピングされた配列リードをカウントし、(d)(c)で得られたゲノム片のためのカウントを正規化することにより、サンプル正規化されたカウントプロファイルを作製し、(e)(d)のサンプル正規化されたカウントプロファイルから染色体異常断片もしくは胎児異数性または両方の有無を決定する。
本明細書において、以下を含む遺伝的変異の有無を検出する方法も提供する:(a)試験被験体からのサンプル核酸の配列リードを得、(b)ゲノム片に分割されている既知のゲノムに(a)で得られた配列リードをマッピングし、(c)ゲノム片内にマッピングされた配列リードをカウントし、(d)(c)で得られたゲノム片のためのカウントを正規化することにより、サンプル正規化されたカウントプロファイルを作製し、(e)(d)のサンプル正規化されたカウントプロファイルから遺伝的変異の有無を決定する。
いくつかの実施形態において、細胞非含有サンプル核酸を、試験被験体から得られた血液から単離する。特定の実施形態において、細胞非含有サンプル核酸を、試験被験体から得られた血清から単離し、いくつかの実施形態において、細胞非含有サンプル核酸を、試験被験体から得られた血漿から単離する。特定の実施形態において、試験被験体は、ヒト、動物、および植物から選択される。いくつかの実施形態において、ヒト試験被験体は、女性、妊娠女性、男性、胎児、または新生児を含む。特定の実施形態において、(d)は、標準偏差の二乗の逆関数を使用して、(c)で得られたゲノム片のカウントの重み付けを含む。
いくつかの実施形態において、細胞非含有サンプル核酸の配列リードは、ポリヌクレオチドフラグメントの形態である。特定の実施形態において、ポリヌクレオチドフラグメントは、約20〜約50ヌクレオチド長である。いくつかの実施形態において、ポリヌクレオチドは、約30〜約40ヌクレオチド長である。特定の実施形態において、既知のゲノムを、共通のサイズを共有するゲノム片に分割する。
いくつかの実施形態において、ゲノム片(c)内にマッピングされた配列リードのカウントを、(b)のゲノム片にマッピングされた冗長な配列リードを除去した後に行う。特定の実施形態において、サンプル正規化されたカウントプロファイルを、サンプル未処理カウントプロファイルを参照中央カウントプロファイルに対して正規化することにより作製する。いくつかの実施形態において、サンプル未処理カウントプロファイルを、ゲノムまたはその断片全体の測定カウントの分布を表すサンプル測定カウントプロファイルを構築することにより作製する。特定の実施形態において、本方法はさらに、ゲノムまたはその断片全体の非冗長マッピングカウントの合計に対してサンプル測定カウントプロファイルを正規化し、それによりサンプル未処理カウントプロファイルを作製することを含む。
いくつかの実施形態において、参照中央カウントプロファイルを、以下を含むプロセスにより作製する:(i)複数の参照被験体からの血中細胞非含有参照サンプル核酸から配列リードを得、(ii)ゲノム片に分割されている既知のゲノムに(i)で得られた配列リードをマッピングし、(iii)ゲノム片内にマッピングされた配列リードをカウントし、(iv)(iii)のカウントから未処理カウントプロファイルを作製し、(v)参照サンプルの中央値カウントがゼロのゲノム断片を除去し、ゲノム断片における中央値カウントおよび不確定要素を決定し、この場合、(i)〜(vi)を行うことにより、参照中央カウントプロファイル、不確定要素プロファイルおよび/または断片識別子を作製する。特定の実施形態において、参照被験体は、ヒト、動物、および植物から選択される。いくつかの実施形態において、ヒト参照被験体は、女性、妊娠女性、男性、胎児、または新生児を含む。特定の実施形態において、参照被験体の妊娠女性は、染色体異常のない胎児および/または正倍数体であることが知られている胎児を妊娠している。いくつかの実施形態において、参照中央カウントプロファイルの作製は、(iii)の後に不確定要素のカットオフを選択することを含む。
特定の実施形態において、不確定要素のカットオフは、以下を含むプロセスにより得られる:(iv)で作製されたプロファイルの標準偏差を算出し、プロファイルの標準偏差に定数を乗算し、この場合、定数は、選択された信頼区間(例えば、2標準偏差=2、3標準偏差=3)に等しく、それにより不確定要素のカットオフの値を作製する。いくつかの実施形態において、不確定要素のカットオフは、以下を含むプロセスにより得られる:(iv)で作製したプロファイルの中央絶対偏差を算出し、プロファイルの中央絶対偏差に定数を乗算し、この場合、定数は、選択された信頼区間に等しく、それにより不確定要素のカットオフの値を作製する。特定の実施形態において、不確定要素のカットオフを超える値を含む任意のゲノム片を除去する。いくつかの実施形態において、本方法はさらに、(vi)の後に不確定要素のカットオフを超えるカウント不確定要素を含む断片を除去することを含む。特定の実施形態において、参照中央カウントプロファイルを、ゲノムまたはその断片全体の参照測定カウントの分布を表す参照測定カウントプロファイルを構築することにより作製する。
いくつかの実施形態において、サンプル正規化されたカウントプロファイルを、(v)の参照サンプルカウントプロファイルから取り出されたサンプル未処理カウントプロファイルからゲノム断片を取り出し、(vi)で作製した不確定要素を割り当て、参照中央カウントプロファイルに残っている断片のカウントの和に対して、各残りの断片におけるサンプル測定カウントを正規化することにより、各ゲノム断片用に作製する。
特定の実施形態において、胎児染色体異常断片もしくは胎児異数性または両方を検出するための予測値を含むサンプルプロファイルピークは、以下を含むプロセスによりゲノム内の位置にて同定される:(iv)で作製された正規化されたカウントプロファイルを評価する信頼水準を選択し、この正規化されたカウントプロファイルはピークを含み、ピークを評価するための最大ゲノム断片長を選択し、ゲノム内の位置の種々の長さのゲノム断片のピーク上昇および/またはピーク幅を評価し、この胎児染色体異常断片もしくは胎児異数性または両方を検出するための予測値を含むピークは、ゲノム内の位置にて信頼水準を用いて検出される。いくつかの実施形態において、選択される信頼水準は95%である。特定の実施形態において、選択される信頼水準は99%である。いくつかの実施形態において、信頼水準は、測定カウントの質に基づき選択される。特定の実施形態において、ピークを評価する最大ゲノム断片長は、1つまたはそれより多いゲノム断片またはその部分を含む。
いくつかの実施形態において、本方法はさらに、以下を含む:ゲノムの位置を選択し、ピークを含むp値プロファイルを作製し、選択された信頼水準以下のP値を含むゲノム断片を除去し、異なる長さの冗長および/またはオーバーラッピングした断片を除去し、ピーク端の位置およびその関連の不確定要素を決定し、無作為に選択されたサンプルに共通して見つかるピークを同定して場合により除去し、この場合、胎児染色体異常断片もしくは胎児異数性または両方を検出する予測値を含むピークを、ゲノムの位置内で検出する。いくつかの実施形態において、異なる長さの冗長および/またはオーバーラッピングした断片の一部を除去する。特定の実施形態において、異なる長さの冗長および/またはオーバーラッピングした断片の全てを除去する。
いくつかの実施形態において、p値プロファイルを、以下を含むプロセスにより作製する:評価用の所望のゲノムの位置を選択し、所望のゲノム断片長を選択し、ゲノムの位置における平均プロファイル上昇およびサンプル正規化されたカウントプロファイルの平均値の関連の誤差を評価し、選択されたゲノム断片にp値を割り当て、この場合、p値プロファイルを作製する。特定の実施形態において、選択されたゲノム断片に割り当てられたp値を、式:
(式中、xおよびxは平均の値を表し、nおよびnはサンプルのサイズを表し、σおよびσは標準偏差を表す)
に従い算出する。
いくつかの実施形態において、選択されたゲノム断片にp値を割り当てることはさらに、以下を含む:(1)開始断片を選択し、(2)ゲノムの選択された位置における平均の上昇および平均値の標準誤差を決定し、(3)平均の断片上昇および対応する平均値の標準誤差を評価し、(4)ゲノムの選択された位置における平均の上昇に対しておよび/または所定の上昇値に対するZ値を評価し、(5)1つまたはそれより多い開始断片および/または断片長において1〜4を繰り返し、(6)選択された開始断片のそれぞれの全体の断片長および/または各断片長に対してt検定を行い、この場合、p値を選択されたゲノム断片に割り当てる。特定の実施形態において、
Z値を、上記の式(式中、Nおよびnは染色体全体および異常内のビンの数を指し、σおよびσは標準偏差を表し、Δは被験体1の遺伝的変異の領域の平均の上昇と、領域が被験体1のものである染色体の平均の上昇との差を表し、Δは被験体2の遺伝的変異の領域の平均の上昇と、領域が被験体2のものである染色体の平均の上昇との差を表す)を使用して算出する。数学的および/または統計関数に対して、本明細書において使用される場合、用語「差」は、2つ以上の値の間の数学的減算を指す。特定の実施形態において、所定の上昇値は1に等しい。いくつかの実施形態において、所定の上昇値は1未満である。特定の実施形態において、所定の上昇値は1より大きい。いくつかの実施形態において、本方法は、自己相関における任意選択の補正を含む。
特定の実施形態において、共通に見つかるピークを、以下を含むプロセスにより同定する:同じまたは同様の条件下において測定された複数のサンプルから細胞非含有サンプル核酸リードを得、試験サンプルのセットを選択し、ピークを含む参照中央カウントプロファイルを作製し、試験サンプルのセットのサンプル間で共通に見つかるピークを同定する。いくつかの実施形態において、複数のサンプルを無作為に選択する。特定の実施形態において、試験サンプル間に共通して見つかるピークを同定することは、以下を含む:ピークを含む参照中央カウントプロファイル、ピークを含むZ値プロファイル、ピークを含むp値プロファイルまたはそれらの組み合わせを比較し、各サンプルに共通して同定されたピークを同定する。特定の実施形態において、本方法は、ピーク端の位置を決定することを含み、プロセスによるピーク片側公差および関連の不確定要素は、以下を含む:ピークを含むサンプル正規化されたカウントプロファイルおよび/またはピークを含む参照中央カウントプロファイルの1つまたはそれより多い領域を選択し、正規化プロファイルの第1の導関数および/またはその指数を決定し、ピーク導関数を特徴付け、この場合、本プロセスは、胎児染色体異常断片もしくは胎児異数性または両方を検出するための予測値を含むピーク最大値の導関数およびピーク幅導関数を作製する。
本明細書において、2つのサンプルが同じドナーからのものであるかを決定する方法も提供もされ、本方法は以下を含む:1つまたはそれより多いドナーからのサンプルの血中細胞非含有サンプル核酸から、配列リードを得、得られた配列リードをゲノム片に分割されている既知のゲノムにマッピングし、ゲノム片内にマッピングされた配列リードをカウントし、ピークを含む正規化されたカウントプロファイルを作製し、各サンプルの予測値を含む正規化されたカウントプロファイルピークを同定し、1つのサンプルのピークと別のサンプルのピークを比較し、ピーク対の一致に基づいた結合確率を評価し、サンプルが同じドナーからのものである確率を決定し、この場合、決定はサンプルが同じドナーからのものである確率に対して行われる。いくつかの実施形態において、本方法はさらに、以下のプロセスの1つ以上を使用して、1つのサンプルのピークと別のサンプルのピークを比較し、ピーク幅導関数を使用して、ピークの端がそれらの片側公差内で一致するかどうかを決定し、ピーク最大値の導関数を使用して、ピーク上昇がそれらの平均値の標準誤差内で一致するかどうかを決定し、所与のピークの集団発生率におけるp値を調節し、この場合、プロセスの1つ以上を行うことにより、サンプルが同じドナーからのものであるかを決定する。特定の実施形態において、ピーク上昇が平均値の標準誤差内で一致するかどうかを決定することはさらに、t検定を使用することを含む。いくつかの実施形態において、t検定は、式
(式中、xおよびxは平均の値を表し、nおよびnはサンプルのサイズを表し、σおよびσは標準偏差を表す)に従い算出される。
本明細書において、以下を含む、中央カウントプロファイル上昇を使用して正倍数体または異数体としてサンプルを分類する方法も提供する:循環無細胞核酸を含む、試験被験体からサンプルを得、サンプルから細胞非含有サンプル核酸を単離し、単離された細胞非含有サンプル核酸から配列リードを得、得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、ゲノム片内にマッピングされた配列リードをカウントし、カウントされ、マッピングされた配列リードから、ゲノム片上昇を選択した中央カウントプロファイルおよび関連の不確定要素を含む正規化されたカウントプロファイルを得、評価のために、ゲノムの位置を選択し、ゲノムの位置におけるプロファイル上昇中央値および関連の不確定要素を評価し、上昇中央値が所定の値を顕著に超えるかどうかを決定し、この場合、上昇中央値が所定の値を顕著に超えるかどうかを決定することにより(determining if the median elevation significantly the predetermined value)、サンプルが正倍数体または異数体であるかどうかを決定する。いくつかの実施形態において、所定の値は1に等しい。特定の実施形態において、所定の値は1未満である。いくつかの実施形態において、所定の値は1より大きい。特定の実施形態において、本方法は、ゲノムの位置内の予測値を含む正規化されたカウントプロファイルピーク上昇を同定し、同定された場合、ゲノムの位置におけるプロファイル上昇中央値および関連の不確定要素を評価する前に欠失および/または重複のために補正することを含む。
本明細書において、以下を含む、予測値を含むピークの面積比を使用して正倍数体または異数体としてサンプルを分類する方法も提供する:循環無細胞核酸を含む試験被験体からサンプルを得、サンプルから細胞非含有サンプル核酸を単離し、単離された細胞非含有サンプル核酸から配列リードを得、配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、ゲノム片内にマッピングされた配列リードをカウントし、選択されたゲノム片におけるカウント分布を含む正規化されたカウントプロファイルを得、評価のためのゲノムの位置を選択し、予測値を含むピークにおける選択された位置およびピークにおける関連の面積比を評価し、ピークの面積比が所定の値に対して有意に異なるかどうかを決定し、この場合、ピークにおける面積比が所定の値を顕著に超えるかどうかを決定することにより、サンプルが正倍数体または異数体であるかどうかを決定する。いくつかの実施形態において、所定の値は1に等しい。特定の実施形態において、所定の値は1未満である。いくつかの実施形態において、所定の値は1より大きい。特定の実施形態において、本方法は、ゲノムの位置内のピーク面積比を同定し、同定された場合、ゲノムの位置において予測値を含む、ピークの面積比を評価する前に欠失および/または重複のために補正することを含む。
本明細書において、多重分類基準を組み合わせることにより、正倍数体または異数体としてサンプルを分類する方法も提供し、本方法は以下を含む:試験被験体および複数の既知の正倍数体の参照被験体から循環無細胞核酸を含むサンプルを得(from a sample)、サンプルから細胞非含有サンプル核酸を単離し、単離された細胞非含有サンプル核酸から配列リードを得、配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、ゲノム片内にマッピングされた配列リードをカウントし、試験および参照被験体におけるカウントから正規化されたカウントプロファイルを得、評価のためにゲノムの位置を選択し、多重分類基準を使用して、正倍数体の参照のゲノム内の選択された位置を評価し、正倍数体を除いて分布する最小N次元空間を決定し、多重分類基準を使用して試験被験体のゲノム内の位置を評価し、試験被験体におけるN次元点が、正倍数体が分布するのみの空間内にあるかどうかを決定し、この場合、試験被験体におけるN次元点が、正倍数体が分布するのみの空間内にあるかどうかを決定することにより、試験被験体が正倍数体または異数体であるかどうかを決定する。
いくつかの実施形態において、正倍数体におけるN次元空間および試験被験体におけるN次元点を、プロファイル上昇中央値、面積比、Z値、フィットさせた倍数性、フィットさせた胎児画分、残差二乗和、およびベイジアンp値から選択される1つまたはそれより多い分類基準を使用して評価する。特定の実施形態において、配列リードを得ることは、細胞非含有サンプル核酸に核酸シークエンシングプロセスを行うことを含む。いくつかの実施形態において、シークエンシングプロセスは、ハイスループットシークエンシング、ナノポアシークエンシング、合成によるシークエンシング、パイロシークエンシング、ライゲーション系シークエンシング、フローセル系シークエンシング、半導体系シークエンシング、電子顕微鏡系単分子シークエンシング、PCRシークエンシング、ジデオキシシークエンシング、またはそれらの組み合わせから選択される方法を含む。特定の実施形態において、染色体異常断片もしくは胎児異数性または両方の有無を決定することは、成果のグラフ、成果のレポート、成果を含む電子ファイル、成果の2次元表示、成果の3次元表示またはそれらの組み合わせを医療専門家に提供することを含む。いくつかの実施形態において、医療専門家は、提供された成果に基づき提言を提供する。いくつかの実施形態において、サンプル核酸、参照サンプル核酸または両方は、細胞非含有核酸である。特定の実施形態において、細胞非含有核酸は、循環無細胞核酸である。いくつかの実施形態において、遺伝的変異は、病状を決定する。
本明細書において、内蔵のコンピュータ読み取り可能プログラムコードを有するコンピュータ使用可能な媒体、ロジック処理モジュールを含む個別のソフトウェアモジュールを含むコンピュータ読み取り可能プログラムコード、シークエンシングモジュールおよびデータ表示組織化モジュール、染色体異常断片もしくは胎児異数性または両方の有無を同定するための方法の実施を実行するために適合させたコンピュータ読み取り可能プログラムコードを含むコンピュータプログラム製品も提供し、本方法は以下を含む:(a)シークエンシングモジュールにより試験被験体から血中細胞非含有サンプル核酸の配列リードを得、(b)ロジック処理モジュールにより(a)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(c)ロジック処理モジュールにより、ゲノム片内にマッピングされた配列リードをカウントし、(d)ロジック処理モジュールにより、(c)で得られたゲノム片に対するカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、(e)ロジック処理モジュールにより、(d)のサンプル正規化されたカウントプロファイルから、染色体異常断片もしくは胎児異数性または両方の有無を決定し、(f)ロジック処理モジュールにより決定されることに対してデータ表示組織化モジュールにより、染色体異常断片もしくは胎児異数性または両方の有無を示すデータ表示を組織化する。本明細書において、本明細書に記載のコンピュータプログラム製品を格納するメモリを含む装置も提供する。いくつかの実施形態において、本装置は、本明細書に明記のコンピュータプログラム製品の1つまたはそれより多い機能を実施するプロセッサを含む。
本明細書において、核酸シークエンシング装置および処理装置を含むシステムも提供し、シークエンシング装置は、サンプルから配列リードを得、処理装置は、シークエンシングデバイスから配列リードを得、以下を含む方法を行う:(a)試験被験体から血中細胞非含有サンプル核酸の配列リードを得、(b)(a)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(c)ゲノム片内にマッピングされた配列リードをカウントし、(d)(c)で得られたゲノム片に対するカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、(e)(d)のサンプル正規化されたカウントプロファイルから、染色体異常断片もしくは胎児異数性または両方の有無を決定する。
本明細書において、以下を含む胎児倍数性を決定する方法も提供する:(a)試験被験体のサンプルから得られた循環無細胞核酸の配列リードに基づき、未処理のカウントプロファイルを作製し、(b)1つまたはそれより多い参照被験体のサンプルから得られた循環無細胞核酸の配列リードに基づき、参照中央カウントプロファイルを作製し、(c)試験被験体の配列リードのカウント合計に対して、(a)からの正規化されたカウントプロファイルを作製し、(d)1例以上の参照被験体の配列リードのカウント合計に対して(b)から正規化されたカウントプロファイルを作製し、(e)正規化されたカウントプロファイルと、倍数性固定値または倍数性最適値から選択された1つまたはそれより多い仮定値と、胎児画分の固定値または胎児画分の最適値に一部基づき、残差二乗和を算出し、(f)(e)の残差二乗和に基づき、胎児倍数性を決定する。いくつかの実施形態において、試験被験体および/または1例以上の参照被験体は、ヒト、動物、および植物から選択される。特定の実施形態において、ヒト試験被験体および/または1例以上の参照被験体は、女性、妊娠女性、男性、胎児、または新生児を含む。
いくつかの実施形態において、細胞非含有サンプル核酸を、試験および/または参照被験体から得られた血液から単離する。特定の実施形態において、細胞非含有サンプル核酸を、試験および/または参照被験体から得られた血清から単離する。いくつかの実施形態において、細胞非含有サンプル核酸を、試験および/または参照被験体から得られた血漿から単離する。
特定の実施形態において、本方法はさらに、倍数性固定値が1に等しくない、測定された胎児画分を使用して、(e)の残差二乗和を算出することを含む。いくつかの実施形態において、残差二乗和の数値に基づき胎児倍数性を決定することにより、正倍数体または3倍体としての胎児の分類を可能にする。特定の実施形態において、胎児画分の固定値は、胎児画分の測定値である。いくつかの実施形態において、(c)、(d)、または(c)および(d)は、標準偏差の二乗の逆関数を使用して、(a)、(b)、または(a)および(b)で作製されたゲノム片に対するカウントの重み付けを含む。
特定の実施形態において、(a)は以下を含む:(i)試験被験体から血中細胞非含有サンプル核酸の配列リードを得、(ii)(i)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(iii)ゲノム片内にマッピングされた配列リードをカウントし、(iv)ゲノムまたはその断片全体のカウントの測定値の分布を表すサンプル測定カウントプロファイルを構築し、(v)ゲノムまたはその断片全体の非冗長マッピングカウントの総数に対して、試験被験体サンプルからのサンプル測定カウントプロファイルを正規化し、それによりサンプル未処理カウントプロファイルを作製する。いくつかの実施形態において、(iii)は、(ii)のゲノム片にマッピングされた冗長配列リードを除去した後に行われる。
いくつかの実施形態において、(b)は以下を含む:(1)正倍数体と知られている1例以上の参照被験体の血中細胞非含有参照サンプル核酸から、配列リードを得、(2)(1)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(3)ゲノム片内にマッピングされた配列リードをカウントし、(4)(2)のカウントから未処理カウントプロファイルを作製し、(5)参照サンプルの中央値カウントがゼロのゲノム断片を除去し、(6)ゲノム片における中央値カウントおよび不確定要素を決定し、(7)残りの片のカウントの和に対して、中央値カウントを正規化し、この場合、(1)〜(7)を行うことにより、参照中央カウントプロファイル、不確定要素プロファイルおよび/または断片識別子を作製する。いくつかの実施形態において、細胞非含有核酸の配列リードは、ポリヌクレオチドフラグメントの形態である。特定の実施形態において、ポリヌクレオチドフラグメントは、約20〜約50ヌクレオチド長である。いくつかの実施形態において、ポリヌクレオチドフラグメントは、約30〜約40ヌクレオチド長である。特定の実施形態において、既知のゲノムを、共通のサイズを共有するゲノム断片に分割する。
いくつかの実施形態において、本方法は、(4)の後に不確定要素のカットオフを選択することを含む。特定の実施形態において、不確定要素のカットオフは、以下を含むプロセスにより得られる:(4)で作製されたプロファイルの標準偏差を算出し、プロファイルの標準偏差に3を乗算し、それにより不確定要素のカットオフのための値を作製する。いくつかの実施形態において、不確定要素のカットオフは、以下を含むプロセスにより得られる:(4)で作製されたプロファイルの中央絶対偏差を算出し、プロファイルの中央絶対偏差に3を乗算し、それにより不確定要素のカットオフのための値を作製する。特定の実施形態において、本方法は、(7)の後に不確定要素のカットオフを超えるカウント不確定要素を含む断片を除去することを含む。
いくつかの実施形態において、参照中央カウントプロファイルを、ゲノムまたはその断片全体の参照測定カウントの分布を表す参照測定カウントプロファイルを構築することにより作製する。特定の実施形態において、正規化されたカウントプロファイルを、(5)の参照サンプルカウントプロファイルから取り出されたサンプル未処理カウントプロファイルからゲノム断片を取り出し、(6)で作製された不確定要素を割り当て、参照中央カウントプロファイルに残る断片のカウントの和に対して、各残りの断片におけるサンプル測定カウントを正規化することにより、各ゲノム断片用に作製する。特定の実施形態において、血中細胞非含有サンプル核酸から配列リードを得ることは、以下を含む:循環無細胞核酸を含むサンプルを被験体から得、サンプルから細胞非含有サンプル核酸を単離し、この場合、被験体から得られたサンプルは、血液、血清、血漿またはそれらの組み合わせを含む。
特定の実施形態において、残差二乗和を評価することは、以下を含む:式
の成果の数値を算出し、
の成果の数値を算出し、
を使用してファイにおける成果の数値を算出し、
からの数値を使用し、
ファイが所定の値未満またはこれより大きいかどうかを決定する(式中、ファイは正倍数体またはトリソミーの成果それぞれを仮定して評価した残差二乗和間の差を表し、fは参照中央カウントプロファイルを表し、エプシロンはカウント合計に対して正規化された測定カウントプロファイルを表し、Fは胎児画分を表し、Nはゲノム片の総数を表し、iは選択されたゲノム片を表し、シグマ(σ)は選択されたゲノム片におけるfと関連する不確定要素を表し、正倍数体または非正倍数体の決定は、ファイの数値に基づいた)。いくつかの実施形態において、胎児画分は測定された胎児画分である。特定の実施形態において、所定の値は0に等しい。いくつかの実施形態において、所定の値は0より大きい。特定の実施形態において、所定の値は0未満である。
いくつかの実施形態において、胎児倍数性最適値は、以下を含む:式
の成果の数値を算出し、
の成果の数値を算出し、
を使用して、倍数性(例えば、X)における成果の数値を算出し、
からの数値を使用し、
Xが所定の値未満またはこれより大きいかどうかを決定する(式中、fは参照中央カウントプロファイルを表し、yはカウント合計に対して正規化された測定カウントプロファイルを表し、Fは胎児画分を表し、Nはゲノム片の総数を表し、iは選択されたゲノム片を表し、シグマ(σ)は、選択されたゲノム片においてfと関連する不確定要素を表し、エプシロンは正倍数体サンプルから3倍体を区別するカットオフとして使用される正の数であり、正倍数体または非正倍数体の決定は、Xの数値に基づき行われる)。特定の実施形態において、所定の値は(1+エプシロン)である。いくつかの実施形態において、Xは(1+エプシロン)より大きい。特定の実施形態において、Xは(1+エプシロン)未満である。いくつかの実施形態において、Xは(1+エプシロン)に等しい。
特定の実施形態において、胎児画分の最適値は以下を含む:式
の成果の数値を算出し、
の成果の数値を算出し、

を使用して、倍数性(例えば、X)の成果の数値を算出し、
からの数値を使用し、
フィットさせた胎児画分と測定された胎児画分との間の差の絶対値が、測定された胎児画分の誤差における所定の値より大きいかどうかを決定する(式中、Fはフィットさせた胎児画分を表し、Fは測定された胎児画分を表し、デルタF(例えば、ΔF)は測定された胎児画分の誤差を表し、Sは計算を簡易にするために導入された補助変数を表し、fは参照中央カウントプロファイルを表し、エプシロンはカウント合計に対して正規化された測定カウントプロファイルを表し、Nはゲノム片の総数を表し、iは選択されたゲノム片を表し、シグマ(σ)は選択されたゲノム片においてfと関連する不確定要素を表し、正倍数体または非正倍数体の決定は、Xの数値に基づいて行われる)。いくつかの実施形態において、所定の値を、式|F−F|<ΔFを使用して算出する。特定の実施形態において、Xは|F−F|<ΔFより大きい。いくつかの実施形態において、Xは|F−F|<ΔF未満である。特定の実施形態において、Xは|F−F|<ΔFに等しい。
特定の実施形態において、倍数性固定値および胎児画分の最適値を仮定した残差二乗和を評価することは、以下を含む:胎児画分を測定し、胎児画分の最適値を得、以下の式
の成果の数値を算出し、実施形態C12から得られた値を使用し、ファイが所定の値未満またはこれより大きいかどうかを決定する(式中、ファイは正倍数体またはトリソミーの成果それぞれを仮定して評価された残差二乗和間の差を表し、Fは測定された胎児画分を表し、デルタF(例えば、ΔF)は測定された胎児画分の誤差を表し、Sは計算を簡易にするために導入された補助変数を表し、fは参照中央カウントプロファイルを表し、yはカウント合計に対して正規化された測定カウントプロファイルを表し、正倍数体または非正倍数体の決定は、ファイの数値に基づいて行われる)。いくつかの実施形態において、所定の値は0である。特定の実施形態において、ファイは、所定の値に等しい。いくつかの実施形態において、ファイは、所定の値未満である。特定の実施形態において、ファイは所定の値より大きい。
いくつかの実施形態において、非正倍数体の決定は、トリソミーの決定である。特定の実施形態において、非正倍数体の決定は、1倍体の決定である。いくつかの実施形態において、染色体異常断片もしくは胎児異数体または両方の有無を決定することは、成果のグラフ、成果のレポート、成果を含む電子ファイル、成果の2次元表示、成果の3次元表示、またはそれらの組み合わせを医療専門家に提供することを含む。特定の実施形態において、医療専門家は、提供されたものに基づいた提言を提供する。
本明細書において、内蔵のコンピュータ読み取り可能プログラムコードを有するコンピュータ使用可能な媒体、シークエンシングモジュールを含む個別のソフトウェアモジュールを含むコンピュータ読み取り可能プログラムコード、ロジック処理モジュール、およびデータ表示組織化モジュール、胎児倍数性を決定する方法の実施を実行するために適合させたコンピュータ読み取り可能プログラムコードを含むコンピュータプログラム製品も提供し、本方法は以下を含む:(a)ロジック処理モジュールにより、試験被験体のサンプルからシークエンシングモジュールにより得られた循環無細胞核酸の配列リードに基づき、未処理カウントプロファイルを作製し、(b)ロジック処理モジュールにより、1例以上の参照被験体のサンプルからシークエンシングモジュールにより得られた循環無細胞核酸の配列リードに基づき、参照中央カウントプロファイルを作製し、(c)ロジック処理モジュールにより、試験被験体配列リードのカウント合計に対して、(a)からの正規化されたカウントプロファイルを作製し、(d)ロジック処理モジュールにより、1例以上の参照被験体配列リードのカウント合計に対して、(b)からの正規化されたカウントプロファイルを作製し、(e)ロジック処理モジュールにより、正規化されたカウントプロファイルと、倍数性固定値もしくは倍数性最適値から選択された1つまたはそれより多い仮定値と、胎児画分の固定値または胎児画分の最適値に一部基づき、残差二乗和を算出し、(f)ロジック処理モジュールにより、(e)の残差二乗和に基づき、胎児倍数性を決定し、(g)データ表示組織化モジュールにより、ロジック処理モジュールにより決定されるのに対して、染色体異常断片もしくは胎児異数性または両方の有無を示すデータ表示を組織化する。
本明細書において、本明細書に記載のコンピュータプログラム製品を格納するメモリを含む装置も提供する。いくつかの実施形態において、本装置は、本明細書に記載のコンピュータプログラム製品の1つまたはそれより多い機能を実施するプロセッサを含む。
本明細書において、核酸シークエンシング装置および処理装置を含むシステムも提供し、この場合、シークエンシング装置は、サンプルから配列リードを得、処理装置は、シークエンシングデバイスから配列リードを得、以下を含む方法を行う:(a)試験被験体のサンプルから得られた循環無細胞核酸の配列リードに基づき、未処理カウントプロフィールを作製し、(b)1例以上の参照被験体のサンプルから得られた循環無細胞核酸の配列リードに基づき、参照中央カウントプロファイルを作製し、(c)試験被験体の各配列リードのカウント合計に対して、(a)から正規化されたカウントプロファイルを作製し、(d)1例以上の参照被験体の配列リードのカウント合計に対して(b)から正規化されたカウントプロファイルを作製し、(e)正規化されたカウントプロファイルおよび倍数性固定値または倍数性最適値から選択された1つまたはそれより多い仮定値ならびに胎児画分の固定値または胎児画分の最適値に一部基づき、残差二乗和を算出し、(f)(e)の残差二乗和に基づき、胎児倍数性を決定する。
いくつかの実施形態において、シークエンシング深度(例えば、シークエンシングカバレージまたはゲノム全体がシークエンシングされる回数(例えば、倍))は、約0.1倍以上、約0.2倍以上、約0.3倍以上、約0.4倍以上、約0.5倍以上、約0.6倍以上、約0.7倍以上、約0.8倍以上、約0.9倍以上、約1.0倍以上、約1.1倍以上、約1.2倍以上、約1.3倍以上、約1.4倍以上、約1.5倍以上、約1.6倍以上、約1.7倍以上、約1.8倍以上、約1.9倍以上、約2.0倍以上、約2.5倍以上、約3.0倍以上、約3.5倍以上、約4.0倍以上、約4.5倍以上、約5.0倍以上、約5.5倍以上、約6倍以上、約6.5倍以上、約7.0倍以上、約7.5倍以上、約8.0倍以上、約8.5倍以上、約9.0倍以上、約9.5倍以上、約10倍以上、約20倍以上、約30倍以上、約40倍以上、約50倍以上、約60倍以上、約70倍以上、約80倍以上、約90倍以上、または99倍以上に等しい。特定の実施形態において、循環無細胞核酸の胎児画分は、総循環無細胞核酸の約50パーセント以下、約45パーセント以下、約40パーセント以下、約35パーセント以下、約30パーセント以下、約25パーセント以下、約20パーセント以下、約15パーセント以下、約10パーセント以下、約5パーセント以下、または約2パーセント以下である。
いくつかの実施形態において、胎児画分(例えば、測定値または推定値)を、遺伝的変異の有無の決定するために行われた1つまたはそれより多い処理操作から得られた値を改変する1つまたはそれより多い処理ステップの間に利用する。特定の実施形態において、胎児画分は、カットオフ閾値を変更するために利用されず、胎児画分は、マッピングされたリードカウントまたはその派生物を変更するために使用されることもある。
本明細書において、以下を含む、染色体異常断片もしくは胎児異数性または両方を同定する方法も提供する:(a)循環無細胞核酸を含むサンプルを試験被験体から得、(b)細胞非含有サンプル核酸をサンプルから単離し、(c)細胞非含有サンプル核酸から配列リードを得、(d)(c)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(e)ゲノム片内にマッピングされた配列リードをカウントし、(f)スライディングウィンドウ正規化に基づき、(e)のカウントされ、マッピングされた配列リードを正規化し、(g)(f)の正規化から染色体異常断片もしくは胎児異数性または両方を同定する成果を提供する。いくつかの実施形態において、(f)は以下の1つ以上を含む:(i)サンプル正規化されたカウントプロファイルを作製し、(ii)ノイズゲノム片を除去し、(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、(iv)(iii)で同定された孤立のデータ点を取り出し、(V)同じ方向に逸脱する隣り合うデータ点をグループ化し、(vi)異常の上昇および端を特徴付ける。特定の実施形態において、(v)を、予め定義されたギャップ公差を使用して行う。いくつかの実施形態において、異常の端を特徴付けることを使用し、異常の幅を決定することができる。
本明細書において、以下を含む、染色体異常断片もしくは胎児異数性または両方を同定する方法も提供する:(a)細胞非含有サンプル核酸から配列リードを得、(b)(a)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(c)ゲノム片内にマッピングされた配列リードをカウントし、(d)スライディングウィンドウ正規化に基づき、(c)のカウントされ、マッピングされた配列リードを正規化し、(e)(d)の正規化から染色体異常断片もしくは胎児異数性または両方を同定する成果を提供する。いくつかの実施形態において、(d)は以下の1つ以上を含む:(i)サンプル正規化されたカウントプロファイルを作製し、(ii)ノイズゲノム片を除去し、(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、(iv)(iii)で同定された孤立のデータ点を取り出し、(v)同じ方向に逸脱する隣り合うデータ点をグループ化し、(vi)異常の上昇および端を特徴付ける。特定の実施形態において、(v)を、予め定義されたギャップ公差を使用して行う。いくつかの実施形態において、異常の端を特徴付けることを使用し、異常の幅を決定することができる。
本明細書において、以下を含む遺伝的変異を同定する方法も提供する:(a)試験被験体から循環無細胞核酸を含むサンプルを得、(b)サンプルから細胞非含有サンプル核酸を単離し、(c)細胞非含有サンプル核酸から配列リードを得、(d)(c)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(e)ゲノム片内のマッピングされた配列リードをカウントし、(f)スライディングウィンドウ正規化に基づき、(e)のカウントされ、マッピングされた配列リードを正規化し、(g)(f)の正規化から遺伝的変異を同定する成果を提供する。いくつかの実施形態において、(f)は、以下の1つ以上を含む:(i)サンプル正規化されたカウントプロファイルを作製し、(ii)ノイズゲノム片を除去し、(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、(iv)(iii)で同定された孤立のデータ点を取り出し、(v)同じ方向に逸脱する隣り合うデータ点をグループ化し、(vi)異常の上昇および端を特徴付ける。特定の実施形態において、(v)を、予め定義されたギャップ公差を使用して行う。いくつかの実施形態において、異常の端を特徴付けることを使用し、異常の幅を決定することができる。
本明細書において、以下を含む遺伝的変異を同定する方法も提供する:(a)細胞非含有サンプル核酸から配列リードを得、(b)(a)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(c)ゲノム片内にマッピングされた配列リードをカウントし、(d)スライディングウィンドウ正規化に基づき、(c)のカウントされ、マッピングされた配列リードを正規化し、(e)(d)の正規化から遺伝的変異を同定する成果を提供する。いくつかの実施形態において、(d)は、以下の1つ以上を含む:(i)サンプル正規化されたカウントプロファイルを作製し、(ii)ノイズゲノム片を除去し、(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、(iv)(iii)で同定された孤立のデータ点を取り出し、(v)同じ方向に逸脱する隣り合うデータ点をグループ化し、(vi)異常の上昇および端を特徴付ける。いくつかの実施形態において、(v)を、予め定義されたギャップ公差を使用して行う。いくつかの実施形態において、異常の端を特徴付けることを使用し、異常の幅を決定することができる。
特定の実施形態において、異常の上昇および端を特徴付けることは、疑わしい異常およびそのすぐ周囲に対して積分を使用することを含む。いくつかの実施形態において、(vi)は以下を含む:(1)候補の異常の片側に、選択されたゲノム片の線形回帰を行い、(2)候補の異常のもう方側に、選択されたゲノム片の線形回帰を行い、(3)候補の異常内の上昇平均値および/または2つの線形回帰線をつなぐ線分の傾きを決定し、(4)異常内の上昇平均値と組み合わせて、2つの線形回帰線の切片間の差を決定し、この場合、(1)〜(4)を行うことにより、異常の幅が生成される)。いくつかの実施形態において、(1)〜(4)を、約1〜約100回の範囲で繰り返し、特定の実施形態において、(1)〜(4)を、約1〜約10回の範囲で繰り返す。本明細書において使用される場合、用語「異常の幅」または「その異常の幅」は、異常の片側と異常のもう方側とのビン、ゲノム片および/またはヌクレオチドの数を指す(例えば、微小欠失または微小重複の各端)。いくつかの実施形態において、候補の異常の片側またはもう方側の選択されたゲノム片は、隣接のゲノム片である。特定の実施形態において、隣接のゲノム片は、連続の、および/または不断のゲノム片を含み、いくつかの実施形態において、隣接のゲノム片は、所定のサイズのギャップまたは割り込みを可能にする。
本明細書において、以下を含む、表1Bに記載の状態、症候群または異常の有無を検出し、かつ/または決定する方法も提供する:(a)細胞非含有サンプル核酸から配列リードを得、(b)(a)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、(c)ゲノム片内にマッピングされた配列リードをカウントし、(d)(c)で得られたカウントおよび/またはその処理された派生物に基づき、表1Bに記載の状態、症候群または異常の有無を決定する。いくつかの実施形態において、(d)は、サンプル正規化されたカウントプロファイル(例えば、ビンワイズ正規化)を提供することを含む。いくつかの実施形態において、状態、症候群または異常の有無の決定は、表1Bに記載の状態、症候群または異常の検出であり、またはこれらの検出を含む。
いくつかの実施形態において、細胞非含有サンプル核酸を、試験被験体から得られた血液から単離する。特定の実施形態において、細胞非含有サンプル核酸を、試験被験体から得られた血清から単離する。いくつかの実施形態において、細胞非含有サンプル核酸を、試験被験体から得られた血漿から単離する。特定の実施形態において、試験被験体は、ヒト、動物、および植物から選択される。いくつかの実施形態において、ヒト試験被験体は、女性、妊娠女性、男性、胎児、または新生児から選択される。
特定の実施形態において、細胞非含有サンプル核酸の配列リードは、ポリヌクレオチドフラグメントの形態である。いくつかの実施形態において、ポリヌクレオチドフラグメントは、約20〜約50ヌクレオチド長であり、特定の実施形態において、ポリヌクレオチドは、約30〜約40ヌクレオチド長である。
いくつかの実施形態において、以下を含む、試験サンプルにおけるバイアスゲノム片レベルの減少を用いて算出する方法も提供する:(a)参照ゲノムのビンにマッピングされた配列リード(配列リードは試験サンプルからの循環無細胞核酸のリードである)のカウントを得、(b)(i)ビンのそれぞれにマッピングされた配列リードのカウントと(ii)ビンのそれぞれのGC含量との各サンプルのフィットさせた関係から複数のサンプル全体のビンのそれぞれにおけるグアニンおよびシトシン(GC)バイアスを決定し、(c)(i)GCバイアスと(ii)ビンのそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係からビンのそれぞれのゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供することにより、ビンのそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少する。ビンは、本明細書においてさらに詳述されるように、参照ゲノムの1つまたはそれより多い断片を含むこともある。
特定の実施形態において、以下を含む、胎児の異数性の有無を同定する方法を提供する:(a)参照ゲノムのビンにマッピングされた配列リードのカウントを得(配列リードは、胎児を妊娠する妊娠女性からの循環無細胞核酸のリードである)、(b)(i)ビンのそれぞれにマッピングされた配列リードのカウントと、(ii)ビンのそれぞれのGC含量との各サンプルのフィットさせた関係から複数のサンプル全体のビンのそれぞれにおけるグアニンおよびシトシン(GC)バイアスを決定し、(c)GCバイアスと、ビンのそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係からビンのそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供し、(d)95%以上の感受性および95%以上の特異性の、算出されたゲノム片レベルに従い胎児の異数性の有無を同定する。
いくつかの実施形態において、以下を含む、試験サンプルにおけるバイアスゲノム片レベルの減少を用いて算出する方法も提供する:(a)参照ゲノムのビンにマッピングされた配列リードのカウントを得(配列リードは、試験サンプルからの循環無細胞核酸のリードである)、(b)(i)ビンのそれぞれにマッピングされた配列リードのカウントと、(ii)ビンのそれぞれにおけるマッピング特徴とのフィットさせた関係から複数のサンプル全体のビンのそれぞれにおけるバイアス実験値を決定し、(c)バイアス実験値と、ビンのそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係からビンのそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供することにより、ビンのそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少する。
母体および/または胎児のコピー数多型(例えば、重複、欠失、挿入)は、染色体の異数性の有無を決定するときに、偽陽性または偽陰性の呼び出しを生じる可能性があり得る。特定の実施形態において、本明細書において、母体のコピー数多型、胎児のコピー数多型、またはゲノム断片(例えば、プロファイル)の母体のコピー数多型および胎児のコピー数多型を同定し、このようなコピー数多型と関連する信号上昇を調節することを含む方法が提供される。このような方法は、本明細書において「パディング」と呼ばれる。このような方法で調節することにより、偽陰性または偽陽性の成果の決定を生じ得る母体のコピー数多型および/または胎児のコピー数多型からの干渉を減少させ、または排除することができる。いくつかの例において、パディング方法は、異数性(例えば、トリソミー13)の可能性を示す偽陽性プロファイルを、真性陰性成果(例えば、トリソミーの非存在)を示すプロファイルに変換することができる。いくつかの例において、パディング方法は、異数性の非存在を示す偽陰性プロファイルを、真性陽性成果(例えば、トリソミーの存在)を示すプロファイルに変換することができる。
したがって、本明細書において記載される特定の態様において、以下を含む、偽陰性および偽陽性が少ない診断を用いて、胎児の染色体異数性の有無を同定する方法を提供する:(a)参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを得(配列リードは、妊娠女性からの循環無細胞核酸のリードである)、(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、(c)プロファイルの正規化されたカウントの第1の上昇が正規化されたカウントの第2の上昇に比べ有意に異なることを同定し(第1の上昇は、ゲノム片の第1のセットのものであり、第2の上昇は、ゲノム片の第2のセットのものである)、(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型の期待上昇範囲を決定し、(e)第1の上昇が期待上昇範囲の1つにあるとき、所定の値により第1の上昇を調節し、それにより第1の上昇を調節し、(f)(e)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定することにより染色体異数性の有無を決定する成果を核酸配列リードから作製する。
いくつかの態様において、以下を含む、胎児を妊娠する妊娠女性のゲノム内の母体および/または胎児のコピー数多型を同定する方法を提供する:(a)参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを得(配列リードは、妊娠女性からの循環無細胞核酸のリードである)、(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、(c)プロファイルの正規化されたカウントの第1の上昇が正規化されたカウントの第2の上昇に比べ、有意に異なることを同定し(第1の上昇は、ゲノム片の第1のセットのものであり、第2の上昇は、ゲノム片の第2のセットのものである)、(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型の期待上昇範囲を決定し、(e)期待上昇範囲の1つに基づきゲノム片内の母体および/または胎児のコピー数多型を同定し、それにより母体および/または胎児のコピー数多型を、核酸配列リードから同定する。
本明細書において使用される場合、用語、参照ゲノムの「ゲノム片」は、「参照ゲノムの部分」と同じである。
技術の特定の態様を、以下の説明、実施例、特許請求の範囲および図面において、さらに説明する。
図面は、技術の実施形態を図示し、限定されるものではない。図示を簡潔および容易にするため、図面は一定の尺度ではなく、いくつかの例において、種々の態様が、具体的な実施形態の理解を容易にするため、誇張または拡大して示され得る。
図1は、正倍数体のZ値とトリソミーのZ値とのギャップを減少させることもあるゲノム領域内のビンカウントの不確定要素の上昇の仕方について図示する。実験の詳細および結果については実施例1を参照のこと。 図2は、Zスコアの予測指数を減少させることもあるゲノム領域内のカウントの3倍体と正倍数体との差の低下の仕方についてグラフにより図示する。実験の詳細および結果については実施例1を参照のこと。 図3は、第21番染色体内のゲノムビンの位置におけるp値の従属度を図示する。実験の詳細および結果については実施例1を参照のこと。 図4は、ビンのフィルタリング法を概略的に表す。多数の正倍数体サンプルを列挙し、ビンカウント不確定要素(SDまたはMAD値)を評価し、最大の不確定要素を含むビンをフィルタリングすることもある。実験の詳細および結果については実施例1を参照のこと。 図5は、2例の患者の第21番染色体におけるカウントプロファイルをグラフにより図示する。実験の詳細および結果については実施例1を参照のこと。 図6は、第18番染色体からの無益のビンをフィルタリングするために使用される患者のカウントプロファイルをグラフにより図示する。図6において、下の2つのトレースは、第18番染色体に大きな欠失がある患者を示す。実験の詳細および結果については実施例1を参照のこと。 図7は、第18番染色体内のゲノムビンの位置におけるP値の従属度をグラフにより図示する。実験の詳細および結果については実施例1を参照のこと。 図8は、ビンカウント正規化を概略的に表す。本手法は、まず既知の正倍数体カウントプロファイルをデータセットから列挙し、カウント合計に対してそれらを正規化する。各ビンにおいて、中央値カウントおよび中央値からの偏差を評価する。かなり分散性のあるビン(3平均絶対偏差を超える(例えば、MAD))は排除されることもある。残りのビンを残りのカウント合計に対して再度正規化し、いくつかの実施形態において、中央値を再正規化の後に再評価する。最後に、得られた参照プロファイル(下のトレース、左パネルを参照のこと)を使用して、試験サンプルのビンカウントを正規化し(上部のトレース、左パネルを参照のこと)、カウントの曲線を平滑化し(右部のトレースを参照のこと)、無益のビンを考慮にいれていないギャップをそのままにする。実験の詳細および結果については実施例1を参照のこと。 図9は、正規化されたカウントプロファイルの挙動期待値を図示する。大部分の正規化ビンカウントは多くの場合、無作為なノイズが重なり、1に集中する。欠失および重複(例えば、母体もしくは胎児、または母体および胎児の欠失および重複)は、0.5の正数倍への上昇にシフトすることもある。3倍体の胎児染色体に対応するプロファイル上昇は、多くの場合、胎児画分に比例して上方にシフトする。実験の詳細および結果については実施例1を参照のこと。 図10は、第18番染色体のヘテロ接合の母体の欠失のある正規化T18カウントプロファイルをグラフにより図示する。トレースしたグラフの薄灰色の線分は、トレースしたグラフの黒色の線分より高い平均の上昇を示す。実験の詳細および結果については実施例1を参照のこと。 図11は、第18番染色体のヘテロ接合の母体の欠失のある同じ患者から採取した2つのサンプルにおける正規化ビンワイズカウントプロファイルをグラフにより図示する。実質的に同一のトレースを使用して、2つのサンプルが同じドナーからのものであるかどうかを決定することができる。実験の詳細および結果については実施例1を参照のこと。 図12は、これまでの試験からの2つのサンプルと比較し、1つの試験からのサンプルの正規化ビンワイズカウントプロファイルをグラフにより図示する。第22番染色体の重複は、一義的に患者の同一性を指摘している。実験の詳細および結果については実施例1を参照のこと。 図13は、図12に示された同じ3例の患者の第4番染色体の正規化ビンワイズカウントプロファイルをグラフにより図示する。第4番染色体の重複により、図12で確立した患者の同一性を確認した。実験の詳細および結果については実施例1を参照のこと。 図14は、正倍数体サンプルからの第5番染色体の正規化ビンカウントの分布をグラフにより図示する。実験の詳細および結果については実施例1を参照のこと。 図15は、これらの正規化されたカウントプロファイルの異なるノイズレベルの2つのサンプルをグラフにより図示する。実験の詳細および結果については実施例1を参照のこと。 図16は、ピーク上昇の信頼度を決定する因子:ノイズ標準偏差(例えば、σ)および参照基準値からの平均の偏差(例えば、Δ)を概略的に表す。実験の詳細および結果については実施例1を参照のこと。 図17は、相関関数を正規化ビンカウントに適用する結果をグラフにより図示する。図17に示される相関関数を使用し、任意に選択した正倍数体患者の第5番染色体のビンカウントを正規化した。実験の詳細および結果については実施例1を参照のこと。 図18は、サンプル推定値(■のデータ点)として評価し、平均値の標準誤差(▲のデータ点)と比較し、自己相関ρ=0.5において相関された推定値(●のデータ点)を含む、第5番染色体の平均の伸長上昇における標準偏差をグラフにより図示する。図18に示される異常は約18ビン長である。実験の詳細および結果については実施例1を参照のこと。 図19は、第4番染色体の平均のピーク上昇において算出されたZ値をグラフにより図示する。患者は、第4番染色体にヘテロ接合の母体の重複を有する(図13を参照のこと)。実験の詳細および結果については実施例1を参照のこと。 図20は、図19からのt検定およびZ値に基づき、平均のピーク上昇におけるp値をグラフにより図示する。t分布の次数は、異常の長さにより決定される。実験の詳細および結果については実施例1を参照のこと。 図21は、異なるサンプルからの一致する異常間の端比較を概略的に表す。図21に、オーバーラップ、封じ込め、および隣り合う偏差を示す。実験の詳細および結果については実施例1を参照のこと。 図22は、関連のないサンプルのかろうじて接触する異常(薄灰色の中間のトレース)と対比して、第4番染色体の一致するヘテロ接合の重複(濃灰色の上部のトレースおよび黒色の下部のトレース)をグラフにより図示する。実験の詳細および結果については実施例1を参照のこと。 図23は、数字により評価された、カウントプロファイルの第1の導関数による端検出を概略的に表す。実験の詳細および結果については実施例1を参照のこと。 図24は、実際のデータから得られたカウントプロファイルの第1の導関数をノイズと区別することが難しいことをグラフにより図示する。実験の詳細および結果については実施例1を参照のこと。 図25は、ノイズを抑制し、信号を増強させるために、1分だけシフトしたカウントプロファイルの第3の指数をグラフにより図示する(上部のトレースを参照のこと)。図25にも(下部のトレースを参照のこと)、上部のトレースの第1の導関数が示される。端は間違いなく検出可能である。実験の詳細および結果については実施例1を参照のこと。 図26は、種々の患者の第21番染色体上昇の中央値のヒストグラムをグラフにより図示する。黒色のヒストグラムは、86例の正倍数体患者における第21番染色体上昇の中央値を示す。灰色ヒストグラムは、35例のトリソミー21患者における第21番染色体上昇の中央値を示す。カウントプロファイルを、上昇の中央値を評価する前に正倍数体参照に対して正規化した。実験の詳細および結果については実施例1を参照のこと。 図27は、トリソミーサンプルの第21番染色体における正規化されたカウントの分布をグラフにより図示する。実験の詳細および結果については実施例1を参照のこと。 図28は、種々の患者の面積比をグラフにより図示する。濃灰色のヒストグラムは、86例の正倍数体患者の第21番染色体の面積比を図示する。薄灰色のヒストグラムは、35例のトリソミー21患者の第21番染色体の面積比を図示する。カウントプロファイルを、面積比を評価する前に正倍数体参照セットに対して正規化した。実験の詳細および結果については実施例1を参照のこと。 図29は、正規化されたカウント上昇の中央値に対してプロットした第21番染色体の面積比を図示する。薄灰色のデータ点は、約86例の正倍数体サンプルを表す。濃灰色のデータ点は、約35例のトリソミー患者を表す。実験の詳細および結果については実施例1を参照のこと。 図30は、トリソミー患者のセットにおいて評価する場合の異なる9個の分類基準の関係をグラフにより図示する。基準は、Zスコア、正規化されたカウント上昇の中央値、面積比、測定された胎児画分、フィットさせた胎児画分、フィットさせた胎児画分と測定値の比、フィットさせた胎児画分の残差二乗和、胎児画分の固定値および倍数性の固定値の残差二乗和、およびフィットさせた倍数性を含む。実験の詳細および結果については実施例1を参照のこと。 図31は、トリソミー例(薄灰色)および正倍数体(濃灰色)の例におけるファイ関数プロファイルのシミュレーション値をグラフにより図示する。 図32は、トリソミーの測定値(濃灰色)および正倍数体のデータセット(薄灰色)から得られたファイ関数値をグラフにより図示する。実験の詳細および結果については実施例2を参照のこと。 図33は、測定された胎児画分の関数として、線形化した二乗差の和をグラフにより図示する。図33〜35について、実験の詳細および結果については実施例2を参照のこと。 図34は、胎児数量アッセイ(例えば、FQA)の胎児画分値から得られた値に対してプロットされたYカウントに基づき、胎児画分の推定値をグラフにより図示する。図33〜35について、実験の詳細および結果については実施例2を参照のこと。 図35は、FQA測定された胎児画分に対してプロットしたT21患者におけるZ値をグラフにより図示する。図33〜35について、実験の詳細および結果については実施例2を参照のこと。 図36は、測定された胎児画分に対してプロットされたY染色体に基づき、胎児画分の推定値をグラフにより図示する。図36〜39について、実験の詳細および結果については実施例2を参照のこと。 図37は、測定された胎児画分に対してプロットされた第21番染色体(Chr21)に基づき、胎児画分の推定値をグラフにより図示する。図36〜39について、実験の詳細および結果については実施例2を参照のこと。 図38は、測定された胎児画分に対してプロットされたX染色体カウントから得られた胎児画分の推定値をグラフにより図示する。図36〜39について、実験の詳細および結果については実施例2を参照のこと。 図39は、測定された胎児画分に対してプロットされたT21の症例における正規化ビンカウントの中央値をグラフにより図示する。図36〜39について、実験の詳細および結果については実施例2を参照のこと。 図40は、誤差の固定値ΔF=+/−0.2%のFの関数としてフィットさせた3倍体の倍数性(例えば、X)のプロファイルシミュレーション値をグラフにより図示する。図40および41において、実験の詳細および結果については実施例2を参照のこと。 図41は、測定された胎児画分の関数として3倍体のフィットさせた倍数性をグラフにより図示する。図40および41について、実験の詳細および結果については実施例2を参照のこと。 図42は、測定された胎児画分内の異なる誤差レベルでのフィットさせた倍数性の確率分布をグラフにより図示する。図42の上部パネルは、測定された胎児画分の誤差を0.2%に設定する。図42の中央のパネルは、測定された胎児画分の誤差を0.4%に設定する。図42の下部のパネルは、測定された胎児画分の誤差を0.6%に設定する。実験の詳細および結果については実施例2を参照のこと。 図43は、患者サンプルから得られたデータセットにおけるフィットさせた倍数性の正倍数体およびトリソミーの分布をグラフにより図示する。図43および44において、実験の詳細および結果については実施例2を参照のこと。 図44は、測定された胎児画分に対してプロットされたフィットさせた胎児画分をグラフにより図示する。図43および44において、実験の詳細および結果については実施例2を参照のこと。 図45は、測定された胎児画分の関数として、フィットさせた胎児画分における正倍数体とトリソミーとの残差二乗和の差の予測値を概略的に図示する。図45〜47について、実験の詳細および結果については実施例2を参照のこと。 図46は、患者サンプルから得られたデータセットを使用して、測定された胎児画分の関数として正倍数体とトリソミーとの残差二乗和の差をグラフにより図示する。データ点は、測定された胎児画分内の不確定要素の固定値を仮定して胎児画分値を当て嵌めることにより得られる。図45〜47について、実験の詳細および結果については実施例2を参照のこと。 図47は、測定された胎児画分の関数として、正倍数体とトリソミーとの残差二乗和の差をグラフにより図示する。データ点は、測定された胎児画分内の不確定要素が胎児画分ΔF=2/3+F/6に比例することを仮定して胎児画分値を当て嵌めることにより得られる。図45〜47について、実験の詳細および結果については実施例2を参照のこと。 図48は、参照カウントの体系的オフセットにおける測定された胎児画分のプロファイルに対してプロットされたフィットさせた胎児画分の従属度の予測値を概略的に図示する。下部および上部の平行枝は、それぞれ正倍数体および3倍体の例を表す。図48および49において、実験の詳細および結果については実施例2を参照のこと。 図49は、実際のデータに人工的に重ねた体系的誤差Δのシミュレーション値の影響をグラフにより表す。上部パネルの主要な斜線および下部の右パネルの上部の斜線は理想的な一致を表す。全てのパネルの濃灰色の線は、それぞれ正倍数体および3倍体の例の式(51)および(53)を表す。データ点は、種々のレベルの人工的な体系的シフトを組み込んだ実際の測定値を表す。体系的シフトは、各パネル上部のオフセットとして記載される。図48および49において、実験の詳細および結果については実施例2を参照のこと。 図50は、正倍数体および3倍体のデータセット用に得られた、体系的オフセットの関数としてのフィットさせた胎児画分をグラフにより図示する。図50および51において、実験の詳細および結果については実施例2を参照のこと。 図51は、実際のデータのフィットさせた胎児画分に沿って、式(61)に基づき、シミュレーションをグラフにより図示する。黒色の線は、式(40)の上下の2つの標準偏差(式(61)の平方根として得られる)を表す。ΔFは2/3+F/6に設定される。図50および51において、実験の詳細および結果については実施例2を参照のこと。 実施例3は、図52〜61Fを扱う。図52は、第12番染色体、ビン1457のヘテロ接合の母体の微小欠失に対する累積和アルゴリズムの適用の一例をグラフにより図示する。左右の線形モデルに関連する切片の差は2.92であり、ヘテロ接合欠失が6ビン幅であることを示す。 実施例3は、図52〜61Fを扱う。図53は、仮想的ヘテロ接合欠失、およそ2ゲノム片幅およびその関連する累積和プロファイルをグラフにより図示する。左右の切片の差は−1である。 実施例3は、図52〜61Fを扱う。図54は、仮想的ホモ接合欠失、およそ2ゲノム片幅およびその関連する累積和プロファイルをグラフにより図示する。左右の切片の差は−2である。 実施例3は、図52〜61Fを扱う。図55は、仮想的ヘテロ接合欠失、およそ6ゲノム片幅およびその関連する累積和プロファイルをグラフにより図示する。左右の切片の差は−3である。 実施例3は、図52〜61Fを扱う。図56は、仮想的ホモ接合欠失、およそ6ゲノム片幅およびその関連する累積和プロファイルをグラフにより図示する。左右の切片の差は−6である。 実施例3は、図52〜61Fを扱う。図57は、仮想的ヘテロ接合重複、およそ2ゲノム片幅およびその関連する累積和プロファイルをグラフにより図示する。左右の切片の差は1である。 実施例3は、図52〜61Fを扱う。図58は、仮想的ホモ接合重複、およそ2ゲノム片幅およびその関連する累積和プロファイルをグラフにより図示する。左右の切片の差は2である。 実施例3は、図52〜61Fを扱う。図59は、仮想的ヘテロ接合重複、およそ6ゲノム片幅およびその関連する累積和プロファイルをグラフにより図示する。左右の切片の差は3である。 実施例3は、図52〜61Fを扱う。図60は、仮想的ホモ接合重複、およそ6ゲノム片幅およびその関連する累積和プロファイルをグラフにより図示する。左右の切片の差は6である。 実施例3は、図52〜61Fを扱う。図61A〜Fは、胎児画分が高値(40〜50%)の女性および幼児臨床研究から得られたデータの胎児ヘテロ接合重複における候補をグラフにより図示する。異常が母親由来であり、胎児ではない可能性を除外するため、独立母体プロファイルを使用した。罹患した領域のプロファイル上昇は、胎児画分の推定値に従い、およそ1.25である。 実施例3は、図52〜61Fを扱う。図61A〜Fは、胎児画分が高値(40〜50%)の女性および幼児臨床研究から得られたデータの胎児ヘテロ接合重複における候補をグラフにより図示する。異常が母親由来であり、胎児ではない可能性を除外するため、独立母体プロファイルを使用した。罹患した領域のプロファイル上昇は、胎児画分の推定値に従い、およそ1.25である。 実施例3は、図52〜61Fを扱う。図61A〜Fは、胎児画分が高値(40〜50%)の女性および幼児臨床研究から得られたデータの胎児ヘテロ接合重複における候補をグラフにより図示する。異常が母親由来であり、胎児ではない可能性を除外するため、独立母体プロファイルを使用した。罹患した領域のプロファイル上昇は、胎児画分の推定値に従い、およそ1.25である。 図62は、正倍数体の胎児を妊娠する妊娠女性から得られたChr20、Chr21(約55750〜約56750)およびChr22における上昇のプロファイルを示す。 図63は、トリソミー21の胎児を妊娠する妊娠女性から得られたChr20、Chr21(約55750〜約56750)およびChr22における上昇のプロファイルを示す。 図64は、正倍数体の胎児を妊娠する妊娠女性から得られたChr20、Chr21(約55750〜約56750)およびChr22における未処理カウントのプロファイルを示す。 図65は、トリソミー21の胎児を妊娠する妊娠女性から得られたChr20、Chr21(約55750〜約56750)およびChr22における未処理カウントのプロファイルを示す。 図66は、正倍数体の胎児を妊娠する妊娠女性から得られたChr20、Chr21(約55750〜約56750)およびChr22における正規化されたカウントのプロファイルを示す。 図67は、トリソミー21の胎児を妊娠する妊娠女性から得られたChr20、Chr21(約55750〜約56750)およびChr22における正規化されたカウントのプロファイルを示す。 図68は、正倍数体の胎児を妊娠する妊娠女性から得られたChr20、Chr21(約47750〜約48375)およびChr22における正規化されたカウントのプロファイルを示す。 図69は、トリソミー21の胎児を妊娠する妊娠女性から得られたChr20、Chr21(約47750〜約48375)およびChr22における正規化されたカウントのプロファイルを示す。 図70は、LOESS GC補正前(上部パネル)およびLOESS GC後(下部パネル)のカウント(y軸)対GC含量(X軸)のグラフを示す。 図71は、第1番染色体の複数のサンプルにおける、LOESS GC(Y軸)により正規化されたカウント(Y軸)対GC画分のグラフを示す。 図72は、第1番染色体の複数のサンプルにおける、LOESS GCにより正規化させ、かつ傾きを補正したカウント(Y軸)対GC画分(X軸)のグラフを示す。 図73は、第1番染色体における、傾斜前(黒色V型の線)および傾斜後(灰色下部の線)の分散(Y軸)対GC画分(X軸)のグラフを示す。 図74は、染色体における、頻度(Y軸)対GC画分(X軸)ならびに中央値(左の垂直な灰色の線)および平均値(右の垂直な太線)のグラフを示す。 図75A〜Fは、左パネルのLOESS GCにより正規化され、かつ傾斜において補正したカウント(Y軸)対GC画分(X軸)(左パネル)と、第4番染色体、第15番染色体およびX染色体(図75A、上部〜下部に記載)の、第5番染色体、第6番染色体および3(図75B、上部〜下部に記載)の、第8番染色体、第2番染色体、第7番染色体および第18番染色体(図75C、上部〜下部に記載)の、第12番染色体、第14番染色体、第11番染色体および第9番染色体(図75D、上部〜下部に記載)の、第21番染色体、第1番染色体、第10番染色体、第15番染色体および第20番染色体(図75E、上部〜下部に記載)の、および第16番染色体、第17番染色体、第22番染色体および第19番染色体(図75F、上部〜下部に記載)の頻度(Y軸)対GC画分(X軸)(右パネル)のグラフを示す。中央値(左の垂直の灰色の線)および平均値(右の垂直の太線)を右パネルに示す。 図75A〜Fは、左パネルのLOESS GCにより正規化され、かつ傾斜において補正したカウント(Y軸)対GC画分(X軸)(左パネル)と、第4番染色体、第15番染色体およびX染色体(図75A、上部〜下部に記載)の、第5番染色体、第6番染色体および3(図75B、上部〜下部に記載)の、第8番染色体、第2番染色体、第7番染色体および第18番染色体(図75C、上部〜下部に記載)の、第12番染色体、第14番染色体、第11番染色体および第9番染色体(図75D、上部〜下部に記載)の、第21番染色体、第1番染色体、第10番染色体、第15番染色体および第20番染色体(図75E、上部〜下部に記載)の、および第16番染色体、第17番染色体、第22番染色体および第19番染色体(図75F、上部〜下部に記載)の頻度(Y軸)対GC画分(X軸)(右パネル)のグラフを示す。中央値(左の垂直の灰色の線)および平均値(右の垂直の太線)を右パネルに示す。 図75A〜Fは、左パネルのLOESS GCにより正規化され、かつ傾斜において補正したカウント(Y軸)対GC画分(X軸)(左パネル)と、第4番染色体、第15番染色体およびX染色体(図75A、上部〜下部に記載)の、第5番染色体、第6番染色体および3(図75B、上部〜下部に記載)の、第8番染色体、第2番染色体、第7番染色体および第18番染色体(図75C、上部〜下部に記載)の、第12番染色体、第14番染色体、第11番染色体および第9番染色体(図75D、上部〜下部に記載)の、第21番染色体、第1番染色体、第10番染色体、第15番染色体および第20番染色体(図75E、上部〜下部に記載)の、および第16番染色体、第17番染色体、第22番染色体および第19番染色体(図75F、上部〜下部に記載)の頻度(Y軸)対GC画分(X軸)(右パネル)のグラフを示す。中央値(左の垂直の灰色の線)および平均値(右の垂直の太線)を右パネルに示す。 図76は、第19番染色体における、LOESS GCにより正規化され、かつ傾斜において補正したカウント(Y軸)対GC画分(X軸)のグラフを示す。染色体の転換点(pivot)を、右の四角の領域に示し、ゲノムの転換点を左の四角の領域に示す。 図77は、第13番染色体(上部右)、第21番染色体(上部中央)、および第18番染色体(上部右)における、p値(Y軸)対ビン(X軸)のグラフを示す。特定のビンの染色体の位置を、下部パネルに示す。 図78は、無益なビンをZスコア算出から除外した場合の第21番染色体のZスコア(Y軸)および全てのビンにおける第21番染色体のZスコア(X軸)を示す。トリソミー21の例を黒丸により示す。正倍数体を白丸により示す。 図79は、無益なビンをZスコア算出から除外した場合の第18番染色体のZスコア(Y軸)および全てのビンにおける第18番染色体のZスコア(X軸)を示す。 図80は、第18番染色体における、選択されたビン(Y軸)対全てのビン(X軸)のグラフを示す。 図81は、第21番染色体における、選択されたビン(Y軸)対全てのビン(X軸)のグラフを示す。 図82は、7サンプルにおける、カウント(Y軸)対GC含量(X軸)のグラフを示す。 図83は、未処理カウント(Y軸)対GCバイアス係数(X軸)のグラフを示す。 図84は、頻度(Y軸)対切片(X軸)のグラフを示す。 図85は、頻度(Y軸)対傾き(X軸)のグラフを示す。 図86は、ログ中央値カウント(Y軸)対ログ切片(X軸)のグラフを示す。 図87は、頻度(Y軸)対傾き(X軸)のグラフを示す。 図88は、頻度(Y軸)対GC含量(X軸)のグラフを示す。 図89は、傾き(Y軸)対GC含量(X軸)のグラフを示す。 図90は、ビンchr2_2404における交差検証誤差(Y軸)対Rワーク(X軸)のグラフを示す。 図91は、ビンchr2_2345における交差検証誤差(Y軸)対Rワーク(X軸)(上部左)、未処理カウント(Y軸)対GCバイアス係数(X軸)(上部右)、頻度(Y軸)対切片(X軸)(下部左)および頻度(Y軸)対傾き(X軸)(下部右)のグラフを示す。 図92は、ビンchr1_31における交差検証誤差(Y軸)対Rワーク(X軸)(上部左)、未処理カウント(Y軸)対GCバイアス係数(X軸)(上部右)、頻度(Y軸)対切片(X軸)(下部左)および頻度(Y軸)対傾き(X軸)(下部右)のグラフを示す。 図93は、ビンchr1_10における交差検証誤差(Y軸)対Rワーク(X軸)(上部左)、未処理カウント(Y軸)対GCバイアス係数(X軸)(上部右)、頻度(Y軸)対切片(X軸)(下部左)および頻度(Y軸)対傾き(X軸)(下部右)のグラフを示す。 図94は、ビンchr1_9における交差検証誤差(Y軸)対Rワーク(X軸)(上部左)、未処理カウント(Y軸)対GCバイアス係数(X軸)(上部右)、頻度(Y軸)対切片(X軸)(下部左)および頻度(Y軸)対傾き(X軸)(下部右)のグラフを示す。 図95は、ビンchr1_8における交差検証誤差(Y軸)対Rワーク(X軸)(上部左)、未処理カウント(Y軸)対GCバイアス係数(X軸)(上部右)、頻度(Y軸)対切片(X軸)(下部左)および頻度(Y軸)対傾き(X軸)(下部右)のグラフを示す。 図96は、頻度(Y軸)対最大値(Rcv、Rwork)(X軸)のグラフを示す。 図97は、技術的複製物(X軸)対ログ10交差検証誤差(X軸)のグラフを示す。 図98は、Chr21におけるZスコアギャップ分離(Y軸)対交差検証誤差閾値(X軸)のグラフを示す。 図99A(全てのビン)および図99B(交差検証ビン)は、実施例4に記載のビン選択により、おもにマッピング性の低いビンを除去されることを例証する。 図100は、Chr18_6における、正規化されたカウント(Y軸)対GC(X軸)バイアスのグラフを示す。 図101は、Chr18_8における、正規化されたカウント(Y軸)対GCバイアス(X軸)のグラフを示す。 図102は、頻度(Y軸)対切片誤差(X軸)のヒストグラムを示す。 図103は、頻度(Y軸)対傾き誤差(X軸)のヒストグラムを示す。 図104は、傾き誤差(Y軸)対切片(X軸)のグラフを示す。 図105は、上昇(Y軸)およびビン数(X軸)を含むChr4(約12400〜約15750)を含む正規化プロファイルを示す。 図106は、Chr20、Chr21およびChr22における、未処理カウント(上部パネル)および正規化されたカウント(下部パネル)のプロファイルを示す。また、PERUN正規化前(上部)および後(下部)のプロファイルにおける、標準偏差(X軸)対頻度(Y軸)の分布を示す。 図107は、未処理カウント(上部)、リピートマスキング(中央)および正規化されたカウント(下部)における、正倍数体およびトリソミーの例の染色体表現の分布を示す。 図108は、Chr13における、線形加法モデル(Y軸)対GCRMを用いて得られた結果のグラフを示す。 図109は、Chr18における、線形加法モデル(Y軸)対GCRMを用いて得られた結果のグラフを示す。 図110は、Chr21における線形加法モデル(Y軸)対GCRMを用いて得られた結果のグラフを示す。 図111は、Chr21における線形加法モデル(Y軸)対GCRMを用いて得られた結果のグラフを示す。 図112A〜Cは、正倍数体WIサンプルの正規化常染色体プロファイルのパディングを図示する。図112Aは、パディングされていないプロファイルの一例である。図112Bは、パディングされたプロファイルの一例である。図112Cは、パディング補正の一例である(例えば、調節されたプロファイル、調節された上昇)。 図113A〜Cは、正倍数体WIサンプルの正規化常染色体プロファイルのパディングを図示する。図113Aは、パディングされていないプロファイルの一例である。図113Bは、パディングされたプロファイルの一例である。図113Cは、パディング補正の一例である(例えば、調節されたプロファイル、調節された上昇)。 図114A〜Cは、トリソミー13WIサンプルの正規化常染色体プロファイルのパディングを図示する。図114Aは、パディングされていないプロファイルの一例である。図114Bは、パディングされたプロファイルの一例である。図114Cは、パディング補正の一例である(例えば、調節されたプロファイル、調節された上昇)。 図115A〜Cは、トリソミー18WIサンプルの正規化常染色体プロファイルのパディングを図示する。図115Aは、パディングされていないプロファイルの一例である。図115Bは、パディングされたプロファイルの一例である。図115Cは、パディング補正の一例である(例えば、調節されたプロファイル、調節された上昇)。 図116は、プロファイル内の母体の重複を示す。 図117は、プロファイル内の母体の重複を示す。 図118は、プロファイル内の母体の重複を示す。 図119は、プロファイル内の母体の重複を示す。 図120は、プロファイル内の母体の重複を示す。 図121は、プロファイル内の母体の欠失を示す。 図122は、プロファイル内の母体の重複を示す。 図123は、プロファイル内の母体の重複を示す。 図124は、プロファイル内の母体の欠失を示す。 図125は、プロファイル内の母体の欠失を示す。 図126は、プロファイル内の母体の重複を示す。 図127は、プロファイル内の母体の欠失を示す。 図128は、プロファイル内の母体の重複を示す。 図129は、プロファイル内の母体の重複を示す。 図130は、プロファイル内の母体の欠失を示す。 図131は、プロファイル内の母体の重複を示す。
遺伝的変異を同定するために有用な方法、プロセスおよび装置を提供する。遺伝的変異を同定することは、コピー数多型を検出することを含むこともあり、かつ/またはコピー数多型を含む上昇を調節することを含むこともある。いくつかの実施形態において、上昇は、偽陽性もしくは偽陰性診断の可能性が低い1つまたはそれより多い遺伝的変異または分散を同定することにより調節される。いくつかの実施形態において、本明細書に記載の方法により遺伝的変異を同定することは、具体的な病状の診断または病状の素因を決定することにつながり得る。遺伝的分散を同定することは、医学的決定を容易にし、かつ/または役立つ医学的手法を使用する結果となり得る。
サンプル
本明細書において、核酸を分析するための方法および組成物を提供する。いくつかの実施形態において、核酸フラグメントの混合物中の核酸フラグメントを分析する。核酸の混合物は、異なるヌクレオチド配列、異なるフラグメント長、異なる起源(例えば、ゲノム起源、胎児対母体起源、細胞または組織起源、サンプル起源、被験体起源など)またはその組み合わせを有する2つ以上の核酸フラグメント種を含むことができる。
本明細書に記載の方法および装置に利用される核酸または核酸混合物は、多くの場合、被験体から得られたサンプルから単離される。被験体は、ヒト、非ヒト動物、植物、細菌、真菌または原生生物を含むがそれらに限定されない任意の生体または非生体であってよい。哺乳類動物、爬虫類、鳥類、両生類、魚類、有蹄動物、反芻動物、ウシ亜科(例えば、ウシ)、ウマ科(例えば、ウマ)、ヤギ亜科およびヒツジ属(例えば、ヒツジ、ヤギ)、ブタ科(例えば、ブタ)、ラクダ類(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、シンパンジー)、クマ科(例えば、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラおよびサメを含むがそれらに限定されない任意のヒトまたは非ヒト動物を、選択することができる。被験体は雄または雌(例えば、女性)であってよい。
核酸は、任意の種類の適切な生物学的検体またはサンプル(例えば、試験サンプル)から単離され得る。サンプルまたは試験サンプルは、被験体(例えば、ヒト被験体、妊娠女性)から単離または得られた任意の検体であってよい。検体の非限定的な例として、さい帯血、柔毛膜柔毛、羊水、脳脊髄液、脊髄液、洗浄液(例えば、気管支肺胞、胃部、腹膜、管、耳部、関節鏡検査の)、生検サンプル(例えば、着床前胚由来)、体腔穿刺(celocentesis)サンプル、胎児由来有核細胞または胎児細胞の遺残物、女性生殖管の洗浄物、尿、糞便、痰、唾液、鼻粘液、前立腺液、洗浄液、精液、リンパ液、胆汁、涙液、汗、母乳、乳汁、胚細胞および胎児細胞(例えば、胎盤細胞)を含むがそれらに限定されない被験体からの体液または組織がある。いくつかの実施形態において、生物学的サンプルは、被験体の子宮頸部スワブである。いくつかの実施形態において、生物学的サンプルは、血液であってよく、かつ血漿または血清であり得ることもある。本明細書において使用される場合、用語「血液」は、全血または血液の任意の画分、例えば、従来定義される血清および血漿などを包含する。血液またはその画分は、多くの場合、ヌクレオソーム(例えば、母体および/または胎児のヌクレオソーム)を含む。ヌクレオソームは核酸を含み、細胞非含有または細胞内にあることもある。血液はまた、バフィーコートを含む。バフィーコートは、フィコール勾配を利用することにより単離されることもある。バフィーコートは、白血球細胞(例えば、白血球、T細胞、B細胞、血小板など)を含むことができる。バフィーコートは、母体および/または胎児の核酸を含むことができることもある。血漿は、抗凝血剤で処理された血液の遠心分離から得られた全血の画分を指す。血清は、血液サンプルが凝血した後に残る液体の水状部分を指す。体液または組織サンプルは、多くの場合、病院またはクリニックが一般に従う標準的なプロトコールに従い採取される。血液において、適切量の末梢血(例えば、3〜40ミリリットル)を、多くの場合採取し、標準的な手法に従い、調製前または調製後に保存することができる。核酸を抽出した体液または組織サンプルは、無細胞(例えば、細胞非含有)であり得る。いくつかの実施形態において、体液または組織サンプルは、細胞要素または細胞遺残物を含有し得る。いくつかの実施形態において、胎児細胞またはがん細胞を、サンプルに含み得る。
サンプルは、多くの場合、不均質であり、これは、1種類を超える核酸種がサンプルに存在することを意味する。例えば、不均質な核酸は、以下を含むことができるがそれらに限定されない:(i)胎児由来および母体由来の核酸、(ii)がんおよび非がん核酸、(iii)病原体および宿主核酸およびより一般的に(iv)突然変異型および野生型核酸。サンプルは、1種を超える細胞型、例えば、胎児細胞および母体細胞、がんおよび非がん細胞、または病原体および宿主細胞が存在するため不均質であり得る。いくつかの実施形態において、少数の核酸種および大多数の核酸種が存在する。
本明細書に記載の技術の出生前適用において、体液または組織サンプルを、検査に適した妊娠期間に女性から、または妊娠の可能性があるため検査する女性から採取し得る。適切な妊娠期間は、行われる出生前検査に応じて異なり得る。特定の実施形態において、妊娠女性の被験体は、妊娠の第1期、妊娠の第2期の時期にあり、または妊娠の第3期にあることもある。特定の実施形態において、体液または組織を、懐胎期間の約1〜約45週(例えば、懐胎期間1〜4、4〜8、8〜12、12〜16、16〜20、20〜24、24〜28、28〜32、32〜36、36〜40または40〜44)に妊娠女性から採取し、懐胎期間の約5〜約28週(例えば、懐胎期間の6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26または27週)に採取することもある。体液または組織サンプルを、分娩(例えば、経膣または非経膣分娩(例えば、外科的出産))中または直後(例えば、0〜72時間後)に妊娠女性から採取することもある。
核酸の単離および処理
核酸は、当技術分野において公知の方法により1つまたはそれより多い供給源(例えば、細胞、血清、血漿、バフィーコート、リンパ液、皮膚、便など)から得ることができる。細胞溶解法および試薬は当技術分野において公知であり、一般に化学的(例えば、界面活性剤、低張液、酵素による手法など、またはその組み合わせ)、物理的(例えば、フレンチプレス、超音波処理など)または電解溶解法により行われ得る。任意の適切な溶解法を利用することができる。例えば、化学的方法は、一般に、溶解剤を使用して、細胞を破壊し、細胞から核酸を抽出した後、カオトロピック塩で処理する。凍結/解凍後に粉砕などの物理的方法、つまり細胞圧迫などの使用も有用である。高塩溶解法も通常、使用される。例えば、アルカリ性溶解法が利用され得る。アルカリ性溶解法はこれまで、フェノール−クロロホルム溶液の使用が組み込まれ、代替えの3溶液を含むフェノール−クロロホルム非含有法を利用することができる。フェノール−クロロホルム非含有法において、第1の溶液は、15mMトリス、pH8.0、10mM EDTAおよび100μg/ml RnaseAを含有することができ、第2の溶液は、0.2N NaOHおよび1%SDSを含有することがき、第3の溶液は、3M KOAc、pH5.5を含有することができる。これらの方法は、Current Protocols in Molecular Biology,John Wiley&Sons,N.Y.,6.3.1−6.3.6(1989)に見つけることができ、その全体を本明細書に組み込む。
用語「核酸」および「核酸分子」を交互に使用する。用語は、任意の組成物形態の核酸、例えば、デオキシリボ核酸(DNA、例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)など)、リボ核酸(RNA、例えば、メッセージRNA(mRNA)、短鎖干渉RNA(short inhibitory RNA)(siRNA))、リボソームRNA(rRNA)、転移RNA(tRNA)、マイクロRNA、胎児または胎盤により高発現されたRNAなど)および/またはDNAまたはRNA類似体(例えば、塩基類似体、糖類似体および/または非天然骨格などを含有)、RNA/DNAハイブリッドおよびポリアミド核酸(PNA)を指し、これら全ては、1本または2本鎖形態であってよい。他に限定されない限り、核酸は、天然のヌクレオチドの公知の類似体を含むことができ、その一部は、天然のヌクレオチドと同様に機能することができる。核酸は本明細書のプロセスを行うために有用な任意に形態であってよい(例えば、線形、環状、スーパーコイル状、1本鎖、2本鎖など)。特定の実施形態において、核酸は、インビトロまたは宿主細胞、細胞、細胞、細胞核または細胞の細胞質において、プラスミド、ファージ、自己複製配列(ARS)、セントロメア、人工染色体、クロモソーム、または複製することができ、または複製される他の核酸であってよく、または由来であってよい。いくつかの実施形態における核酸は、1本の染色体またはそのフラグメントであってよい(例えば、核酸サンプルが2倍体生物から得られるサンプルの1つの染色体由来であり得る)。核酸は、ヌクレオソーム、ヌクレオソームまたはヌクレオソーム様構造のフラグメントまたは部分を含み得ることもある。核酸はタンパク質(例えば、ヒストン、DNA結合タンパク質など)を含むことができることもある。本明細書に記載のプロセスにより分析される核酸は、実質的に単離されることもあり、実質的にタンパク質または他の分子と関連しない。核酸はまた、1本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」読み取り枠または「リバース」読み取り枠)および2本鎖ポリヌクレオチドから合成され、複製され、または増幅されたRNAまたはDNAの誘導体、変異体および類似体を含む。デオキシリボ核酸は、デオキシアデノシン、デオキシシチジン、デオキシグアノシンおよびデオキシチミジンを含む。RNAにおいて、シトシン塩基をウラシルに置き換え、糖2’位がヒドロキシ部分を含む。核酸は、鋳型として被験体から得られた核酸を使用して調製され得る。
核酸は、別の核酸と比較した場合、異なる時点で単離され得、この場合、サンプルのそれぞれが同じまたは異なる供給源からのものである。核酸は、核酸ライブラリ、例えば、cDNAまたはRNAライブラリなどからのものであってよい。核酸は、核酸精製またはサンプルから核酸分子の単離および/または増幅の結果であってよい。本明細書に記載のプロセスにおいて提供される核酸は、1つのサンプルまたは2つ以上のサンプルから(例えば、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、11以上、12以上、13以上、14以上、15以上、16以上、17以上、18以上、19以上または20以上のサンプルから)の核酸を含有し得る。
特定の実施形態において、核酸は、細胞外核酸を含むことができる。本明細書において使用される場合、用語「細胞外核酸」は、実質的に細胞を含まない供給源から単離された核酸を指すことができ、「細胞非含有」核酸および/または「細胞非含有血中」核酸とも呼ばれる。細胞外核酸は、血液(例えば、妊娠女性の血液)に存在し、かつこれから得られることができる。細胞外核酸は、多くの場合、検出可能でない細胞を含み、細胞要素または細胞遺残物を含有し得る。細胞外核酸の無細胞供給源の非限定的な例は、血液、血漿、血清および尿である。本明細書において使用される場合、用語「細胞非含有血中サンプル核酸を得る」は、サンプルを直接得る(例えば、サンプル、例えば、試験サンプルを採取)またはサンプルを採取した別のものからのサンプルを得ることを含む。理論に限定されないが、細胞外核酸は、細胞アポトーシスおよび細胞破壊の生成物であり得、これは、多くの場合、スペクトラム(例えば、「ラダー」)全体に一連の長さを有する細胞外核酸の基本となる。
特定の実施形態において、細胞外核酸は、異なる核酸種を含むことができ、それゆえ、本明細書において「不均質」と呼ばれる。例えば、がんを有する者からの血清または血漿は、がん細胞からの核酸および非がん細胞からの核酸を含むことができる。別の実施例において、妊娠女性からの血清または血漿は、母体の核酸および胎児の核酸を含むことができる。いくつかの例において、胎児の核酸は、全体の核酸の約5%〜約50%(例えば、全体の核酸の約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、または49%が胎児の核酸である)であることもある。いくつかの実施形態において、核酸中の胎児の核酸の大部分が、約500塩基対以下の長さのものである(例えば、胎児の核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%が約500塩基対以下の長さのものである)。いくつかの実施形態において、核酸中の胎児の核酸の大部分が、約250塩基対以下の長さのものである(例えば、胎児の核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%が約250塩基対以下の長さのものである)。いくつかの実施形態において、核酸中の胎児の核酸の大部分が、約200塩基対以下の長さのものである(例えば、胎児の核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%が約200塩基対以下の長さのものである)。いくつかの実施形態において、核酸中の胎児の核酸の大部分が、約150塩基対以下の長さのものである(例えば、胎児の核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%が約150塩基対以下の長さのものである)。いくつかの実施形態において、核酸中の胎児の核酸の大部分が、約100塩基対以下の長さのものである(例えば、胎児の核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%が約100塩基対以下の長さのものである)。いくつかの実施形態において、核酸中の胎児の核酸の大部分が、約50塩基対以下の長さのものである(例えば、胎児の核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%が約50塩基対以下の長さのものである)。いくつかの実施形態において、核酸中の胎児の核酸の大部分が、約25塩基対以下の長さのものである(例えば、胎児の核酸の約80、85、90、91、92、93、94、95、96、97、98、99または100%が約25塩基対以下の長さのものである)。
特定の実施形態において、核酸は、核酸を含有するサンプルを処理することなく、本明細書に記載の方法を行うために提供され得る。いくつかの実施形態において、核酸は、核酸を含有するサンプルの処理の後に本明細書に記載の方法を行うために提供される。例えば、核酸をサンプルから抽出し、単離し、精製し、部分的に精製し、または増幅させることができる。本明細書において使用される場合、用語「単離される」は、その元の環境(例えば、天然の場合、天然の環境または外因的に発現する場合、宿主細胞)から取り出され、したがって、その元の環境からヒトの干渉により(「人の手により」)変更する核酸を指す。本明細書において使用される場合、用語「単離された核酸」は、被験体(例えば、ヒト被験体)から取り出された核酸を指すことができる。単離された核酸は、供給源のサンプルに存在する構成要素の量より少ない非核酸構成要素(例えば、タンパク質、脂質)とともに提供されることができる。単離された核酸を含む組成物は、非核酸構成要素を約50%〜99%を超えて非含有であり得る。単離された核酸を含む組成物は、非核酸構成要素を約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%を超えて非含有であってよい。本明細書において使用される場合、用語「精製される」は、核酸に精製方法を行う前に存在する非核酸構成要素の量より少ない非核酸構成要素(例えば、タンパク質、脂質、炭水化物)を含有する条件の核酸を指し得る。精製された核酸を含む組成物は、他の非核酸構成要素を約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%を超えて非含有であってよい。本明細書において使用される場合、用語「精製される」は、核酸が由来するサンプル供給源においてより少ない核酸種を含有する条件の核酸を指し得る。精製された核酸を含む組成物は、他の核酸種を約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%を超えて非含有であり得る。例えば、胎児の核酸は、母体および胎児の核酸を含む混合物から精製されることができる。特定の実施例において、胎児の核酸の小さいフラグメントを含むヌクレオソームを、母体の核酸の大きいフラグメントを含む大きなヌクレオソーム複合体の混合物から精製することができる。
本明細書において使用される場合、用語「増幅される」は、サンプルの標的核酸に、標的核酸もしくはその断片と同じまたは実質的に同じヌクレオチド配列を有するアンプリコン核酸を直線的にまたは指数的に生成するプロセスを行うことを指す。本明細書において使用される場合、用語「増幅される」は、(例えば、他の核酸を含むサンプル中の)標的核酸に、標的核酸もしくはその断片と同じまたは実質的に同じヌクレオチド配列を有するアンプリコン核酸を選択的および直線的にまたは指数的に生成するプロセスを行うことを指すことができる。本明細書において使用される場合、用語「増幅される」は、核酸の一集団に、増幅前にサンプルに存在した核酸またはその部分と同じまたは実質的に同じヌクレオチド配列を有するアンプリコン核酸を非選択的および直線的にまたは指数的に生成するプロセスを行うことを指すことができる。用語「増幅された」は、ポリメラーゼ連鎖反応(PCR)を含む方法を指すこともある。
特定の実施形態において、核酸はまた、本明細書に記載のプロセスに核酸を提供する前に、核酸に、核酸フラグメントを生成する方法を行うことにより処理され得る。いくつかの実施形態において、フラグメンテーションまたは切断を行った核酸は、約5〜約10,000塩基対、約100〜約1,000塩基対、約100〜約500塩基対、または約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000または9000塩基対の公称の、平均または平均値の長さを有し得る。フラグメントを、当技術分野において公知の適切な方法により生成することができ、核酸フラグメントの平均、平均値または公称の長さを、適切なフラグメント生成法を選択することにより制御することができる。特定の実施形態において、相対的に短い長さの核酸を利用し、配列の分散が小さく、かつ/または相対的に大量の公知のヌクレオチド配列情報を含有する配列を分析することができる。いくつかの実施形態において、相対的に長さのある核酸を利用し、配列の分散が大きく、かつ/または相対的に少量のヌクレオチド配列情報を含有する配列を分析することができる。
核酸フラグメントは、オーバーラップするヌクレオチド配列を含有することができ、このようなオーバーラップする配列は、非フラグメント化された対応物の核酸またはその断片のヌクレオチド配列の構築を容易にすることができる。例えば、1つのフラグメントは、部分配列xおよびyを有することができ、別のフラグメントは、部分配列yおよびzを有することができ、この場合、x、yおよびzは、5ヌクレオチド長より大きくなり得るヌクレオチド配列である。特定の実施形態において、オーバーラップする配列yを利用し、サンプルから核酸内のx−y−zヌクレオチド配列の構築を容易にすることができる。特定の実施形態において、核酸は、部分的に(例えば、不完全または完全な特異的な切断反応より)フラグメント化され、または完全にフラグメント化され得る。
核酸は、当技術分野において公知の種々の方法によりフラグメント化されることができ、これは、物理的、化学的および酵素によるプロセスを含むが限定されない。このようなプロセスの非限定的な例は、米国特許出願公開第20050112590号(Van Den Boomらによる、“Fragmentation−based methods and systems for sequence variation detection and discovery,”と題して、2005年5月26日に公開)に記載されている。特定のプロセスを選択し、非特異的に切断されるフラグメントまたは特異的に切断されるフラグメントを生成することができる。非特異的に切断されるフラグメントの核酸を生成することができるプロセスの非限定的な例として、核酸を、せん断力下に核酸をおく装置(例えば、核酸をシリンジ針に通過させる、フレンチプレスの使用)と接触させ、核酸を放射線にさらし(例えば、ガンマ、X線、UV照射、フラグメントのサイズを放射強度により制御することができる)、水中の核酸を煮沸し(例えば、約500塩基対フラグメントを生成)、核酸を酸および塩基加水分解プロセス下におくことを含むが限定されない。
本明細書において使用される場合、「フラグメンテーション」または「切断」は、核酸鋳型遺伝分子またはその増幅された生成物などの核酸分子を、2つ以上の小さい核酸分子にせん断しうる手法または状態を指す。このようなフラグメンテーションまたは切断は、配列特異的、塩基特定的、または非特異的であってよく、例えば、化学的、酵素による、物理的フラグメンテーションを含む種々の方法、試薬または状態のいずれかにより成し遂げられ得る。
本明細書において使用される場合、「フラグメント」、「切断生成物」、「切断された生成物」またはその文法的変形例は、核酸鋳型遺伝分子またはその増幅された生成物のフラグメンテーションまたは切断により得られた核酸分子を指す。このようなフラグメントまたは切断された生成物が、切断反応から得られた全ての核酸分子を指すことはできる一方で、典型的に、このようなフラグメントまたは切断された生成物は、核酸鋳型遺伝分子のフラグメンテーションまたは切断により得られた核酸分子、または核酸鋳型遺伝分子の対応するヌクレオチド配列を含有するその増幅された生成物の断片のみを指す。例えば、増幅された生成物は、核酸鋳型配列の増幅されたヌクレオチド領域を超える1つまたはそれより多いヌクレオチドを含有することができる(例えば、プライマーは、転写開始配列などの「特別な」ヌクレオチド、さらに核酸鋳型遺伝分子に相補的なヌクレオチドを含有することができ、「特別な」ヌクレオチドまたは核酸鋳型遺伝分子の増幅されたヌクレオチド領域に対応しないヌクレオチドを含有する増幅された生成物を生じる)。それに応じて、フラグメントは、少なくとも部分的に、代表的な核酸鋳型分子から、またはそれに基づくヌクレオチド配列情報を含有する増幅された核酸分子の部分から生じるフラグメントを含むことができる。
本明細書において使用される場合、用語「相補的切断反応」は、同じ核酸に、異なる切断試薬を使用して、または同じ標的または参照核酸もしくはタンパク質の代替えの切断パターンを生じるような同じ切断試薬の切断特異性を変更することにより行われる切断反応を指す。特定の実施形態において、核酸は、1つまたはそれより多い反応容器で1つまたはそれより多い特異的切断剤(例えば、1、2、3、4、5、6、7、8、9、10種以上の特異的切断剤)で処理し得る(例えば、核酸を個別の容器において、各特異的切断試薬で処理する)。
核酸は、核酸と、1つまたはそれより多い酵素による切断剤(例えば、ヌクレアーゼ、制限酵素)と接触させることにより特異的に切断し、または非特異的に切断され得る。本明細書において使用される場合、用語「特異的切断剤」は、1つまたはそれより多い特異的な部位にて核酸を切断することができる物質を指し、化学物質または酵素を指すこともある。特異的切断剤は、多くの場合、具体的な部位にて具体的なヌクレオチド配列に従い特異的に切断する。非特異的切断剤は、多くの場合、非特異的な部位にて核酸を切断し、または核酸を分解する。非特異的切断剤は、多くの場合、核酸鎖の末端(5’末端、3’末端のいずれかまたは両方)からヌクレオチドを除去することにより核酸を分解する。
任意の適切な非特異的または特異的酵素による切断剤を使用し、核酸を切断またはフラグメント化することができる。いくつかの実施形態において、適切な制限酵素を使用し、核酸を切断することができる。酵素による切断剤の例として、エンドヌクレアーゼ(例えば、DNase(例えば、DNase I、II);RNase(例えば、RNase E、F、H、P);Cleavase(商標)酵素;Taq DNAポリメラーゼ;E.coli DNAポリメラーゼIおよび真核構造特異的エンドヌクレアーゼ;マウスFEN−1エンドヌクレアーゼ;I、IIまたはIII型制限エンドヌクレアーゼ、例えば、Acc I、Afl III、Alu I、Alw44 I、Apa I、Asn I、Ava I、Ava II、BamH I、Ban II、Bcl I、Bgl I、Bgl II、Bln I、Bsm I、BssH II、BstE II、Cfo I、CIa I、Dde I、Dpn I、Dra I、EcIX I、EcoR I、EcoR I、EcoR II、EcoR V、Hae II、Hae II、Hind II、Hind III、Hpa I、Hpa II、Kpn I、Ksp I、Mlu I、MIuN I、Msp I、Nci I、Nco I、Nde I、Nde II、Nhe I、Not I、Nru I、Nsi I、Pst I、Pvu I、Pvu II、Rsa I、Sac I、Sal I、Sau3A I、Sca I、ScrF I、Sfi I、Sma I、Spe I、Sph I、Ssp I、Stu I、Sty I、Swa I、Taq I、Xba I、Xho I;グリコシラーゼ(例えば、ウラシル−DNAグリコシラーゼ(UDG)、3−メチルアデニンDNAグリコシラーゼ、3−メチルアデニンDNAグリコシラーゼII、ピリミジン水和物−DNAグリコシラーゼ、FaPy−DNAグリコシラーゼ、チミンミスマッチ−DNAグリコシラーゼ、ヒポキサンチン−DNAグリコシラーゼ、5−ヒドロキシメチルウラシルDNAグリコシラーゼ(HmUDG)、5−ヒドロキシメチルシトシンDNAグリコシラーゼ、または1,N6−エテノ−アデニンDNAグリコシラーゼ);エキソヌクレアーゼ(例えば、エキソヌクレアーゼIII);リボザイム、およびDNAzymeを含むが限定されない。核酸を、化学物質で処理することができ、その修飾核酸を切断することができる。非限定的な例において、核酸を、(i)N3−メチルアデニンおよびN3−メチルグアニン(アルキルプリンDNA−グリコシラーゼにより認識し、かつ切断される)を含むいくつかのアルキル化塩基を生成するメチルニトロウレアなどのアルキル化剤を用いて、(ii)亜硫酸水素ナトリウム(DNAのシトシン残基の脱アミノ反応を生じ、ウラシルN−グリコシラーゼにより切断することができるウラシル残基を形成する)を用いて、および(iii)グアニンをその酸化形態である8−ヒドロキシグアニンに変換する化学物質(ホルムアミドピリミジンDNA N−グリコシラーゼにより切断することができる)を用いて処理することができる。化学的切断のプロセスの例は、アルキル化(例えば、ホスホロチオエート修飾核酸のアルキル化)、P3’−N5’−ホスホロアミデート含有核酸の酸不安定性の切断、および核酸の四酸化オスミウムおよびピペリジン処理を含むが限定されない。
核酸を、本明細書に記載の方法に核酸を提供する前に核酸内の特定のヌクレオチドを修飾するプロセス下におくこともできる。例えば、核酸を、その中にあるヌクレオチドのメチル化状態に基づき、選択的に修飾するプロセスを、核酸に適用することができる。さらに、高温、紫外線照射、x線照射などの条件は、核酸分子の配列の変化を誘発することができる。核酸は、本明細書に記載の配列分析または製造プロセスを行うのに有用な任意の形態、例えば、固体または液体形態などで提供され得る。特定の実施形態において、核酸を、1つまたはそれより多い緩衝液または塩を含むが限定されない、1つまたはそれより多い他の構成要素を場合により含む液体形態で提供され得る。
核酸は、1本または2本鎖であってよい。例えば、1本鎖DNAを、例えば、加熱し、またはアルカリで処理することによって2本鎖DNAを変性させることにより生成することができる。いくつかの例において、核酸は、Dループ構造内にあり、つまりオリゴヌクレオチドまたはDNA様分子、例えば、ペプチド核酸(PNA)により2本鎖DNA分子の鎖の侵入により形成される。Dループ形成は、例えば、当技術分野において公知の方法を使用して、E.Coli RecAタンパク質の添加によりおよび/または塩濃度の変更により促進することができる。
胎児の核酸含量の決定
いくつかの実施形態において、核酸内の胎児の核酸量(例えば、濃度、相対量、絶対量、コピー数など)を決定する。いくつかの例において、サンプル内の胎児の核酸量は、「胎児画分」と呼ばれる。「胎児画分」は、妊娠女性から得られたサンプル(例えば、血液サンプル、血清サンプル、血漿サンプル)内の循環無細胞核酸の胎児の核酸の画分を指すこともある。特定の実施形態において、胎児の核酸量を、男性胎児に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS19、DYS385、DYS392マーカー);RhD陰性女性のRhDマーカー)に従い、多型配列のアレル比に従い、または胎児の核酸に特異的で、かつ母体の核酸に特異的でない1つまたはそれより多いマーカー(例えば、母親および胎児間の分化エピジェネティックバイオマーカー(例えば、メチル化、以下にさらに詳細に説明)または母体の血漿中の胎児RNAマーカー(例えば、Lo,2005,Journal of Histochemistry and Cytochemistry53(3):293−296を参照のこと))に従い決定する。
胎児の核酸量(例えば、胎児画分)の決定は、例えば、米国特許出願公開第2010/0105049号(参照により本明細書に組み込まれる)に記載の胎児数量アッセイ(FQA)を使用して行われることもある。この種のアッセイは、サンプル内の核酸のメチル化状態に基づき、母体サンプル内の胎児の核酸を検出し、定量化することを可能にする。いくつかの例において、母体サンプルからの胎児の核酸量を、存在する核酸の合計量に対して決定し、それによりサンプル内の胎児の核酸の割合を提供することができる。いくつかの例において、胎児の核酸のコピー数を、母体サンプルにおいて決定することができる。いくつかの例において、胎児の核酸量を配列特異的(または遺伝子座特異的に)に決定することができ、かつ正確な染色体用量分析を可能する(例えば、胎児異数性の有無を検出するために)十分な感受性を用いて決定することができることもある。
胎児数量アッセイ(FQA)を、本明細書に記載の方法のいずれかと合わせて行うことができる。このようなアッセイを、当技術分野において公知の、および/または米国特許出願公開第2010/0105049号に記載の任意の方法、例えば、異なるメチル化状態に基づき、母体および胎児のDNA間を区別し、胎児のDNAを定量化(すなわち、量を決定)することができる方法より行うことができる。メチル化状態に基づく核酸を分化させる方法は、例えば、MBD2のメチル結合ドメインが抗体のFcフラグメント(MBD−FC)に融合されるMBD2−Fcフラグメントを使用するメチル化感受性捕捉(Gebhardら、(2006)Cancer Res.66(12):6118−28);メチル化特異的抗体;亜硫酸水素変換法、例えば、MSP(メチル化感受性PCR)、COBRA、メチル化感受性単一ヌクレオチドプライマー伸長(Ms−SNuPE)またはSequenom MassCLEAVE(商標)技術;およびメチル化感受性制限酵素(例えば、1つまたはそれより多いメチル化感受性制限酵素を使用する母体サンプルの母体のDNAの消化により胎児のDNAを富化)の使用を含むがそれらに限定されない。また、メチル感受性酵素を使用し、メチル化状態に基づき核酸を分化することができ、例えば、これは、DNA認識配列がメチル化されない場合、この配列にて優先的にまたは実質的に切断または消化することができる。したがって、メチル化されていないDNAサンプルを、メチル化されたDNAサンプルより小さいフラグメントに切断し、高メチル化されたDNAサンプルを切断しない。明記される場合を除き、メチル化状態に基づき核酸を分化させる任意の方法を本明細書における技術の組成物および方法とともに使用することができる。胎児のDNA量を、例えば、増幅反応中に既知の濃度にて1つまたはそれより多い競合因子を導入することにより決定することができる。胎児のDNA量の決定はまた、例えば、RT−PCR、プライマー伸長、シークエンシングおよび/またはカウントによりなされ得る。特定の例において、核酸量を、米国特許出願公開第2007/0065823号に記載のBEAM技術(BEAMing technology)を使用して決定することができる。いくつかの例において、制限効果を決定することができ、効果の割合を使用し、胎児のDNA量をさらに決定する。
いくつかの例において、胎児数量アッセイ(FQA)を使用し、母体サンプルの胎児のDNA濃度を、例えば、以下の方法により決定することができる:a)母体サンプルに存在するDNA合計量を決定し、b)1つまたはそれより多いメチル化感受性制限酵素を使用して、母体サンプルの母体のDNAを選択的に消化し、それにより胎児のDNAを富化し、c)ステップb)から胎児のDNA量を決定し、d)ステップc)からの胎児のDNA量とステップa)からのDNA合計量を比較し、それにより母体サンプルの胎児のDNA濃度を決定する。いくつかの例において、母体サンプルの胎児の核酸の絶対コピー数を、例えば、質量分析および/または絶対コピー数測定のための競合的PCR法を使用する系を使用して決定することができる。例えば、Ding and Cantor(2003)Proc.Natl.Acad.Sci.USA100:3059−3064、および米国特許出願公開第2004/0081993号(ともに参照により本明細書に組み込まれる)を参照のこと。
いくつかの例において、胎児画分を、多型配列のアレイ比(例えば、一塩基多型(SNP))に基づき、例えば、米国特許出願公開第2011/0224087号に記載の方法(参照により本明細書に組み込まれる)を使用して、決定することができる。このような方法において、母体サンプルおよび胎児画分において得られたヌクレオチド配列リードを(nucleotide sequence reads are obtained for)、参照のゲノムの有益な多型部位(例えば、SNP)にて第1のアレルにマッピングされるヌクレオチド配列リードの合計数と、第2のアレルにマッピングされるヌクレオチド配列リードの合計数を比較することにより決定する。いくつかの例において、胎児のアレルは、例えば、母体の核酸の、胎児および母体の核酸の混合物への寄与が大きいことと比較したときに、サンプル内の胎児および母体の核酸の混合物への寄与が相対的に小さいことにより同定される。それに応じて、母体サンプル内の胎児の核酸の相対的な量を、多型部位の2つのアレルのそれぞれに対する、参照ゲノム上の標的核酸配列にマッピングされる独自の配列リードの合計数のパラメータとして決定することができる。
細胞外核酸の胎児の核酸量を、本明細書において提供される方法と合わせて定量し、使用することができる。したがって、特定の実施形態において、本明細書に記載の技術の方法は、胎児の核酸量を決定するさらなるステップを含む。胎児の核酸量を、サンプル核酸を調製する処理の前または後に被験体からの核酸サンプルにおいて決定することができる。特定の実施形態において、胎児の核酸量を、サンプル核酸を処理し、調製した後のサンプルにおいて決定する(この量をさらなる評価に利用する)。いくつかの実施形態において、成果は、サンプル核酸内の胎児の核酸の画分を因数分解することを含む(例えば、カウントの調節、サンプルの除去、呼び出しまたは呼び出しなし)。
決定ステップを、本明細書に記載の方法の前、間、任意の時点または本明細書に記載の特定(例えば、異数性検出、胎児性別決定)の方法の後に行うことができる。例えば、所与の感受性または特異性を用いた胎児の性別または異数性決定方法を獲得するために、胎児の核酸定量化方法を、胎児性別または異数性決定前、間または後に実施し、約2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%超、またはそれより多い胎児の核酸を含むこれらのサンプルを同定し得る。いくつかの実施形態において、特定の閾値の量の胎児の核酸(例えば、約15%以上の胎児の核酸、約4%以上の胎児の核酸)を有するとして決定されたサンプルを、胎児の性別もしくは異数性決定、または異数性もしくは遺伝的変異の有無などにおいてさらに分析する。特定の実施形態において、例えば、胎児の性別または異数性の有無の決定を、特定の閾値の量の胎児の核酸(例えば、約15%以上の胎児の核酸、約4%以上の胎児の核酸)を有するサンプルにおいてのみ選択する(例えば、選択し、患者に連絡する)。
いくつかの実施形態において、胎児画分の決定または胎児の核酸量の決定は、染色体の異数性の有無を同定するには必要でなく、または必須ではない。いくつかの実施形態において、染色体の異数性の有無を同定することは、胎児対母体のDNAの配列差を必要としない。いくつかの例において、これは、具体的な染色体、染色体部分またはその断片の母体および胎児の両方の配列の総合した寄与を分析するためである。いくつかの実施形態において、染色体の異数性の有無を同定することは、母体DNAから胎児のDNAを区別する先天的な配列情報に頼らない。
核酸の部分集合における富化
いくつかの実施形態において、核酸(例えば、細胞外核酸)を核酸の部分集合または種において富化または相対的に富化する。核酸の部分集合は、例えば、胎児の核酸、母体の核酸、具体的な長さまたは長さの範囲のフラグメントを含む核酸、あるいは具体的なゲノム領域からの核酸(例えば、1本鎖の染色体、染色体のセット、および/または特定の染色体領域)を含むことができる。このような富化されたサンプルを、本明細書において提供される方法と合わせて使用することができる。したがって、特定の実施形態において、技術の方法は、サンプルの核酸の部分集合、例えば、胎児の核酸などにおいて富化するさらなるステップを含む。いくつかの例において、上記の胎児画分を決定する方法を使用し、胎児の核酸を富化することができる。特定の実施形態において、母体の核酸を、サンプルから選択的に(部分的に、実質的に、ほぼ完全にまたは完全に)除去することができる。いくつかの例において、具体的にコピー数種の少ない核酸(例えば、胎児の核酸)における富化は、定量的感受性を改善し得る。具体的な種の核酸におけるサンプルを富化する方法は、例えば、米国特許第6,927,028号、国際特許出願公開第WO2007/140417号、国際特許出願公開第WO2007/147063号、国際特許出願公開第WO2009/032779号、国際特許出願公開第WO2009/032781号、国際特許出願公開第WO2010/033639号、国際特許出願公開第WO2011/034631号、国際特許出願公開第WO2006/056480号、および国際特許出願公開第WO2011/143659号(これら全てを参照により本明細書に組み込む)に記載される。
いくつかの実施形態において、核酸を、特定の標的フラグメント種および/または参照フラグメント種において富化する。いくつかの例において、核酸を、以下に記載の1つまたはそれより多い長さに基づいた分離方法を使用して、特定の核酸フラグメント長またはフラグメント長の範囲において富化する。いくつかの例において、核酸を、本明細書に記載のおよび/または当技術分野において公知の1つまたはそれより多い配列に基づいた分離方法を使用して、選択ゲノム領域(例えば、染色体)からのフラグメントにおいて富化する。サンプルの核酸部分集合(例えば、胎児の核酸)において富化する特定の方法を、以下に詳細に記載する。
本明細書に記載の方法とともに使用することができる核酸部分集合(例えば、胎児の核酸)において富化するいくつかの方法は、母体および胎児の核酸間のエピジェネティックな差を利用する方法を含む。例えば、胎児の核酸を、メチル化の差に基づき、母体の核酸から分化させ、かつ分離することができる。メチル化に基づいた胎児の核酸富化方法は、米国特許出願公開第2010/0105049号(参照により本明細書に組み込まれる)に記載される。このような方法は、サンプル核酸を、メチル化特異的結合剤(メチル−CpG結合タンパク質(MBD)、メチル化特異的抗体など)と結合させ、分化したメチル化状態に基づき、結合していない核酸から結合した核酸を分離することを含むこともある。このような方法はまた、メチル化感受性制限酵素(上記に記載、例えばHhaIおよびHpaII)の使用を含むことができ、これは、少なくとも1つの胎児の核酸領域におけるサンプルを富化するために母体の核酸を選択的に、および完全に、または実質的に消化する酵素を用いて、母体サンプルからの核酸を選択的に消化することにより母体サンプルの胎児の核酸領域を富化することを可能にする。
本明細書に記載の方法とともに使用することができる核酸部分集合(例えば、胎児の核酸)における富化する別の方法は、制限エンドヌクレアーゼを富化した多型配列法、例えば、米国特許出願公開第2009/0317818号(参照により本明細書に組み込まれる)に記載の方法である。このような方法は、非標的アレルを含むが、標的アレルを含まない核酸を認識する制限エンドヌクレアーゼを用いた、非標的アレルを含む核酸の切断、および切断されていない核酸を増幅するが、切断した核酸を増幅しないことを含み、この場合、切断されていない、増幅された核酸は、非標的核酸(例えば、母体の核酸)に対して標的核酸(例えば、胎児の核酸)の富化を表す。いくつかの例において、核酸を、切断剤などにより選択的に消化されやすくなった多型部位を有するアレルを含むように選択し得る。
本明細書に記載の方法とともに使用することができる核酸部分集合(例えば、胎児の核酸)において富化するいくつかの方法は、選択的酵素による分解法を含む。このような方法は、エキソヌクレアーゼ消化から標的配列を保護し、それにより所望でない配列(例えば、母体のDNA)のサンプルの排除を容易にすることを含む。例えば、一方法において、サンプル核酸を変性させ、1本鎖核酸を生成し、1本鎖核酸を、適切なアニーリング条件下において、少なくとも1つの標的特異的プライマー対と接触させ、アニーリングしたプライマーを、2本鎖標的配列を生成するヌクレオチド重合により伸長し、1本鎖(すなわち、非標的)核酸を消化するヌクレアーゼを使用して、1本鎖核酸を消化する。いくつかの例において、本方法を少なくともさらに1サイクル繰り返すことができる。いくつかの例において、同じ標的特異的プライマー対を使用して、第1および第2の伸長サイクルのそれぞれをプライムし、いくつかの例において、異なる標的特異的プライマー対を第1および第2のサイクルに使用する。
本明細書に記載の方法とともに使用することができる核酸部分集合(例えば、胎児の核酸)において富化するいくつかの方法は、超並列シグネチャーシークエンシング(MPSS)法を含む。MPSSは典型的に、アダプター(すなわち、タグ)ライゲーションを使用した後、アダプター復号し、少量の増分の核酸配列を読み取る固体相方法である。タグ付けされたPCR生成物は、典型的に、各核酸が独自のタグを含むPCR生成物を生成するように増幅される。多くの場合、タグを使用し、PCR生成物をマイクロビーズに付着させる。数ラウンドのライゲーションに基づいたシークエンシングの後、例えば、配列シグネチャーを、各ビーズから同定することができる。MPSSデータセットの各シグネチャー配列(MPSSタグ)を分析し、全ての他のシグネチャーと比較し、全ての同一のシグネチャーをカウントする。
いくつかの例において、特定のMPSSに基づいた富化方法は、増幅(例えば、PCR)に基づいた方法を含むことができる。いくつかの例において、遺伝子座特異的増幅方法を使用することができる(例えば、遺伝子座特異的増幅プライマーを使用する)。いくつかの例において、マルチプレックスSNPアレルPCR法を使用することができる。いくつかの例において、マルチプレックスSNPアレルPCR法をユニプレックスシークエンシングと組み合わせて使用することができる。例えば、このような方法は、マルチプレックスPCR(例えば、MASSARRAY系)の使用および捕捉プローブ配列をアンプリコンに組み込んだ後に、例えば、イルミナMPSS系を使用して、シークエンシングすることを含むことができる。いくつかの例において、マルチプレックスSNPアレルPCR法を、3プライマー系およびインデックスシークエンシングと組み合わせて使用することができる。例えば、このような方法は、特定の遺伝子座特異的フォワードPCRプライマーに組み込まれた第1の捕捉キャプチャープローブおよび遺伝子座特異的リバースPCRプライマーに組み込まれたアダプター配列を有するプライマーを用いたマルチプレックスPCR(例えば、MASSARRAY系)を使用し、それによりアンプリコンを生成した後、例えば、イルミナMPSS系を使用して、シークエンシング用にリバース捕捉配列および分子インデックスバーコードを組み込む二次PCRを行うことを含むことができる。いくつかの例において、マルチプレックスSNPアレルPCR法を、4つのプライマー系およびインデックスシークエンシングと組み合わせて使用することができる。例えば、このような方法は、遺伝子座特異的フォワードおよび遺伝子座特異的リバースPCRプライマーの両方に組み込まれたアダプター配列を有するプライマーを用いるマルチプレックスPCR(例えば、MASSARRAY系)を使用後、例えば、イルミナMPSS系を使用して、シークエンシング用に、フォワードおよびリバース捕捉配列および分子インデックスバーコードを組み込む二次PCRを行うことを含むことができる。いくつかの例において、マイクロフルイディクス法を使用することができる。いくつかの例において、アレイに基づいたマイクロフルイディクス法を使用することができる。例えば、このような方法は、低多重化での増幅およびインデックスおよび捕捉プローブの組み込み用の、マイクロフルイディクスアレイ(例えば、Fluidigm)の使用後、シークエンシングを行うことを含む。いくつかの例において、エマルジョンマイクロフルイディクス法、例えば、デジタルドロップレットPCRを使用することができる。
いくつかの例において、ユニバーサル増幅法を使用することができる(例えば、ユニバーサルまたは非遺伝子座特異的増幅プライマーを使用する)。いくつかの例において、ユニバーサル増幅法を、プルダウン法と組み合わせて使用することができる。いくつかの例において、方法は、ユニバーサルに増幅されたシークエンシングライブラリからのビオチン化されたウルトラマープルダウン(例えば、AgilentまたはIDTのビオチン化プルダウンアッセイ)を含むことができる。例えば、このような方法は、標準的なライブラリの調製、プルダウンアッセイにより選択された領域の富化および二次的ユニバーサル増幅ステップを含むことができる。いくつかの例において、プルダウン法を、ライゲーションに基づいた方法と組み合わせて使用することができる。いくつかの例において、方法は、配列特異的アダプターライゲーション(例えば、HALOPLEX PCR、Halo Genomics)を用いたビオチン化ウルトラマープルダウンを含むことができる。例えば、このような方法は、制限酵素により消化されるフラグメントを捕捉するセレクタープローブを使用した後、捕捉した生成物をアダプターにライゲーションし、ユニバーサル増幅した後、シークエンシングを行うことを含む。いくつかの例において、プルダウン法を、伸長およびライゲーションに基づいた方法と組み合わせて使用することができる。いくつかの例において、方法は、分子反転プローブ(MIP)の伸長およびライゲーションを含むことができる。例えば、このような方法は、配列アダプターと組み合わせた分子反転プローブを使用した後、ユニバーサル増幅およびシークエンシングを行うことを含むことができる。いくつかの例において、相補的DNAを増幅することなく合成し、シークエンシングすることができる。
いくつかの例において、伸長およびライゲーション法を、プルダウン構成要素を用いずに行うことができる。いくつかの例において、方法は、遺伝子座特異的フォワードおよびリバースプライマーハイブリダイゼーション、伸長およびライゲーションを含むことができる。このような方法はさらに、ユニバーサル増幅または増幅することなく相補的DNA合成した後、シークエンシングすることを含むことができる。いくつかの例において、このような方法は、分析中、バックグランド配列を減少または除外することができる。
いくつかの例において、プルダウン法を、最適増幅構成要素を用いて、または増幅構成要素を用いずに使用することができる。いくつかの例において、方法は、改変プルダウンアッセイおよびユニバーサル増幅することなく、捕捉プローブを十分に組み込んだライゲーションを含むことができる。例えば、このような方法は、制限酵素により消化したフラグメントを捕捉する改変セレクタープローブを使用した後、捕捉した生成物をアダプターにライゲーションし、最適増幅させ、シークエンシングすることを含むことができる。いくつかの例において、方法は、環状1本鎖ライゲーションと組み合わせたアダプター配列の伸長およびライゲーションを用いたビオチン化プルダウンアッセイを含むことができる。例えば、このような方法は、目的の領域(すなわち、標的配列)を捕捉するセレクタープローブを使用し、プローブの伸長、アダプターライゲーション、1本鎖環状ライゲーション、最適増幅およびシークエンシングすることを含む。いくつかの例において、シークエンシングの結果の分析により、バックグランドから標的配列を分離することができる。
いくつかの実施形態において、核酸を、本明細書に記載の1つまたはそれより多い配列に基づく分離方法を使用して選択ゲノム領域(例えば、染色体)からのフラグメントにおいて富化する。配列に基づく分離は一般に、目的のフラグメント(例えば、標的および/または参照フラグメント)に存在し、サンプルの他のフラグメントに実質的に存在せず、またはごくわずかな量の他のフラグメント(例えば、5%以下)に存在するヌクレオチド配列に基づく。いくつかの実施形態において、配列に基づく分離により、分離した標的フラグメントおよび/または分離した参照フラグメントを生成することができる。分離した標的フラグメントおよび/または分離した参照フラグメントは、典型的に核酸サンプルの残りのフラグメントから離して単離される。いくつかの例において、分離された標的フラグメントおよび分離された参照フラグメントも、互いに離して単離される(例えば、個別のアッセイコンパートメントにおいて単離する)。いくつかの例において、分離された標的フラグメントおよび分離された参照フラグメントをともに単離する(例えば、同じアッセイコンパートメントにおいて単離する)。いくつかの実施形態において、結合されていないフラグメントを、別々に除去し、もしくは分解し、または消化することができる。
いくつかの実施形態において、選択性核酸捕捉プロセスを使用し、核酸サンプルから離して標的および/または参照フラグメントを分離する。市販の核酸捕捉系は、例えば、Nimblegen配列捕捉系(Roche NimbleGen,Madison,WI);イルミナBEADARRAYプラットフォーム(Illumina,San Diego,CA);Affymetrix GENECHIPプラットフォーム(Affymetrix,Santa Clara,CA);Agilent SureSelect Target Enrichment System(Agilent Technologies,Santa Clara,CA);および関連のプラットフォームを含む。このような方法は典型的に、捕捉オリゴヌクレオチドを、標的または参照フラグメントのヌクレオチド配列の断片または全てにハイブリダイゼーションすることを含み、固体相(例えば、固体相アレイ)および/または溶液系プラットフォームの使用を含むことができる。捕捉オリゴヌクレオチド(“おとり”と呼ばれることもある)を、選択されたゲノム領域または遺伝子座(例えば、第21番染色体、第18番染色体、第13番染色体、X染色体もしくはY染色体または参照染色体の1つ)からの核酸フラグメントを優先してハイブリダイズするように選択または設計することができる。
いくつかの実施形態において、核酸を、具体的な核酸フラグメント長、長さの範囲、または1つまたはそれより多い長さに基づく分離方法を使用して具体的な閾値またはカットオフ以下または以上の長さにおいて富化する。核酸フラグメント長は典型的に、フラグメントのヌクレオチドの数を指す。核酸フラグメント長も、核酸フラグメントのサイズを指すこともある。いくつかの実施形態において、長さに基づく分離方法を、個々のフラグメントの長さを測定することなく行う。いくつかの実施形態において、長さに基づく分離方法を、個々のフラグメントの長さを決定する方法と合わせて行う。いくつかの実施形態において、長さに基づく分離方法は、フラグメント化されたプールの全てまたは一部を単離(例えば、保持)し、かつ/または分析することができるサイズ分別法を指す。サイズ分別法は、当技術分野において公知である(例えば、アレイの分離、分子篩による分離、ゲル電気泳動による分離、カラムクロマトグラフィーによる分離(例えば、サイズ排除カラム)およびマイクロフルイディクスに基づく方法)。いくつかの例において、長さに基づいた分離方法は、フラグメント環状化、化学処理、(例えば、ホルムアルデヒド、ポリエチレングリコール(PEG))、質量分析法および/またはサイズ特異的核酸増幅などを含むことができる。
本明細書に記載の方法とともに使用することができる特定の長さに基づいた分離方法は、選択性配列タグ付け法(selective sequence tagging approach)などを使用する。用語「配列タグ付け」は、核酸または核酸の集団に認識可能なおよび個別の配列を組み込むことを指す。本明細書において使用される場合、用語「配列タグ付け」は、本明細書において後述される用語「配列タグ」と異なる意味を有する。このような配列タグ付け方法において、フラグメントサイズの種(例えば、短いフラグメント)の核酸に、長い核酸および短い核酸を含むサンプルの選択性配列タグ付けを行う。このような方法は、典型的に、インナープライマーおよびアウタープライマーを含むネステッドプライマーのセットを使用して、核酸増幅反応を行うことを含む。いくつかの例において、インナーの1つまたは両方をタグ化し、それにより、標的増幅生成物にタグを導入することができる。アウタープライマーは一般に、(インナー)標的配列を担持する短いフラグメントにアニーリングしない。インナープライマーは、短いフラグメントにアニーリングすることができ、かつタグおよび標的配列を担持する増幅生成物を生成することができる。典型的に、長いフラグメントのタグ付けを、例えば、アウタープライマーの事前アニーリングおよび伸長によりインナープライマーをブロック伸長することを含む機構の組み合わせにより抑制される。タグ化されたフラグメントの富化は、例えば、1本鎖核酸のエキソヌクレアーゼ消化および少なくとも1つのタグに特異的な増幅プライマーを使用してタグ化されたフラグメントの増幅を含む、種々の方法のいずれかにより実現し得る。
本明細書に記載の方法とともに使用することができる別の長さに基づいた分離方法は、核酸サンプルに、ポリエチレングリコール(PEG)沈殿を行うことを含む。各方法の例として、国際特許出願公開第WO2007/140417号およびWO2010/115016号に記載のものを含む。この方法は一般に、実質的に小さい(例えば、300ヌクレオチド未満の)核酸を沈殿することなく、実質的に大きい核酸を沈殿させるのに十分な条件下において、1つまたはそれより多い一価の塩の存在下において、核酸サンプルと、PEGを接触させることを必要とする。
本明細書に記載の方法とともに使用することができる別のサイズに基づいた富化方法は、例えば、circligaseを使用する、ライゲーションによる環状化を含む。短い核酸フラグメントは典型的に、長いフラグメントより高い効率で環状化することができる。非環状化配列を、環状化配列から分離し、富化された短いフラグメントをさらなる分析に使用することができる。
配列リードの取得
いくつかの実施形態において、核酸(例えば、核酸フラグメント、サンプル核酸、細胞非含有核酸)をシークエンシングすることができる。いくつかの例において、完全または実質的に完全な配列を得、かつ部分的な配列を得ることもある。シークエンシング、マッピングおよび関連の分析方法は、当技術分野において公知である(例えば、米国特許出願公開第2009/0029377号、参照により組み込まれる)。このようなプロセスの特定の態様を以下に記載する。
本明細書において使用される場合、「リード」(すなわち、「リード」、「配列リード」)は、本明細書に記載の、または当技術分野において公知の任意のシークエンシングプロセスにより生成される短いヌクレオチド配列である。リードは、核酸フラグメントの一端から作製することができ(「シングルエンドリード」)、および核酸の両端から作製されることもある(例えば、ペアエンドリード、両端リード)。
いくつかの実施形態において、シングルエンドリードの公称の、平均の、平均値のまたは絶対長は、約20連続ヌクレオチド〜約50連続ヌクレオチドであることもあり、約30連続ヌクレオチド〜約40連続ヌクレオチドであることもあり、約35連続ヌクレオチドまたは約36連続ヌクレオチドであることもある。シングルエンドリードの公称の、平均の、平均値のまたは絶対長は、約20〜約30塩基長であることもある。シングルエンドリードの公称の、平均の、平均値のまたは絶対長は、約24〜約28塩基長であることもある。シングルエンドリードの公称の、平均の、平均値のまたは絶対長は、約21、22、23、24、25、26、27、28または約29塩基長であることもある。
特定の実施形態において、ペアエンドリードの公称の、平均の、平均値のまたは絶対長は、約10連続ヌクレオチド〜約25連続ヌクレオチド(例えば、約11、12、13、14、15、16、17、18、19、20、21、22、23または24ヌクレオチド長)であることもあり、約15連続ヌクレオチド〜約20連続ヌクレオチド長であることもあり、約17連続ヌクレオチドまたは約18連続ヌクレオチドであることもある。
リードは一般に、核酸の物理特性におけるヌクレオチド配列の表現である。例えば、配列のATGC表現を含有するリードでは、核酸の物理特性において、「A」は、アデニンヌクレオチドを表し、「T」はチミンヌクレオチドを表し、「G」はグアニンヌクレオチドを表し、「C」はシトシンヌクレオチドを表す。妊娠女性の血液から得られた配列リードは、胎児および母体の核酸の混合物からリードであり得る。相対的に短いリードの混合物を、本明細書に記載のプロセスにより、妊娠女性および/またはその胎児に存在するゲノム核酸の表現に変換することができる。相対的に短いリードの混合物を、コピー数多型(例えば、母体および/または胎児のコピー数多型)、遺伝的変異または異数性などの表現に変換することができる。母体および胎児の核酸の混合物のリードを、母体および胎児の染色体の1つまたは両方の特徴を含む複合染色体またはそのセグメントの表現に変換することができる。特定の実施形態において、被験体からのサンプルの核酸配列リードを「得ること」および/または1例以上の参照個体からの生物学的検体の核酸配列リードを「得ること」は、直接核酸をシークエンシングし、配列情報を得ることを含むことができる。いくつかの実施形態において、「得ること」は、別のものによる核酸から直接得られた配列情報を受けることを含むことができる。
配列リードはマッピングすることができ、特定の核酸領域(例えば、染色体、ビン、ゲノム片)にマッピングするリードまたは配列タグの数は、カウントと呼ばれる。いくつかの実施形態において、カウントを、操作または変換することができる(例えば、正規化する、組み合わる、付加する、フィルタリングする、選択する、平均化する、平均値を導くなど、またはその組み合わせ)。いくつかの実施形態において、カウントを変換し、正規化されたカウントを生成することができる。複数のゲノム片について正規化されたカウントを、プロファイルに提供することができる(例えば、ゲノムプロファイル、染色体プロファイル、染色体の断片または部分のプロファイル)。プロファイルの1つまたはそれより多い異なる上昇を、操作し、または変換することができ(例えば、上昇に関連するカウントを正規化することができる)、上昇を調節することができる。
いくつかの実施形態において、1個体からの1つの核酸サンプルをシークエンシングする。特定の実施形態において、2つ以上の生物学的サンプルからの核酸サンプルを、この場合、各生物学的サンプルは、1個体から、または2例以上の個体からのものであるが、プールし、そのプールをシークエンシングする。後者の特定の実施形態において、各生物学的サンプルからの核酸サンプルを、多くの場合、1つまたはそれより多い独自の同定タグにより同定する。
いくつかの実施形態において、ゲノムの画分をシークエンシングし、これは決定されたヌクレオチド配列により被覆されるゲノムの量で表現されることもある(例えば、1未満の「倍数」被覆率(“fold”coverage))。ゲノムを約1倍の被覆率でシークエンシングするときに、およそ100%のゲノムのヌクレオチド配列がリードにより表される。また、ゲノムを冗長にシークエンシングすることができ、この場合、ゲノムの所与の領域を、2つ以上のリードまたはオーバーラップするリードにより被覆することができる(例えば、1より大きい「倍数」被覆率))。いくつかの実施形態において、ゲノムを約0.1倍〜約100倍の被覆率、約0.2倍〜20倍の被覆率または約0.2倍〜約1倍の被覆率(例えば、約0.2倍、0.3倍、0.4倍、0.5倍、0.6倍、0.7倍、0.8倍、0.9倍、1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍の被覆率)でシークエンシングする。
特定の実施形態において、1試行でシークエンシングされる核酸プールの画分をさらに、シークエンシングする前に部分選択する。特定の実施形態において、ハイブリダイゼーションに基づいた技術を使用し(例えば、オリゴヌクレオチドアッセイを使用)、特定の染色体(例えば、異数体の可能性のある染色体および試験した異数性に関与しない他の染色体)からの核酸配列において、第1の部分選択をすることができる。いくつかの実施形態において、核酸を、サイズにより(例えば、ゲル電気泳動、サイズ排除クロマトグラフィーにより、またはマイクロフルイディクスに基づいた方法により)画分することができ、特定の例において、胎児の核酸を、低分子量(例えば、300塩基対未満、200塩基対未満、150塩基対未満、100塩基対未満、)の核酸を選択することにより富化することができる。いくつかの実施形態において、胎児の核酸を、母体のバックグランドの核酸を抑制することにより、例えば、ホルムアルデヒドを添加することにより、富化することができる。いくつかの実施形態において、核酸の予備選択されたプールの部分またはサブセットを無作為にシークエンシングする。いくつかの実施形態において、核酸をシークエンシングする前に増幅する。いくつかの実施形態において、核酸の部分またはサブセットをシークエンシングする前に増幅する。
いくつかの例において、シークエンシングライブラリを、シークエンシングプロセスの前または間に作製する。シークエンシングライブラリを作製する方法は、当技術分野で公知であり、市販のプラットフォームを特定の用途に使用することができる。特定の市販のライブラリプラットフォームを、本明細書に記載の特定のヌクレオチドシークエンシングプロセスに適合させることができる。例えば、1つまたはそれより多い市販のライブラリプラットフォームを合成プロセスによるシークエンシングと適合させることができる。いくつかの例において、ライゲーションに基づいたライブラリ作製方法を使用する(例えば、ILLUMINA TRUSEQ,Illumina,San Diego CA)。ライゲーションに基づいたライブラリ作製方法は典型的に、最初のライゲーションステップにてインデックス配列を組み込むことができ、多くの場合、シングルリードシークエンシング、ペアエンドシークエンシングおよびマルチプレックスシークエンシング用にサンプルを作製するために使用することができるメチル化アダプター設計を使用する。いくつかの例において、トランスポゾンに基づいたライブラリ作製方法を使用する(例えば、EPICENTRE NEXTERA,Epicentre,Madison WI)。トランスポゾンに基づいた方法は典型的に、単一管反応において、DNAを同時にフラグメント化およびタグ化するインビトロでの転位を使用し(多くの場合、プラットフォーム特異的タグおよび任意選択のバーコードの組み込みを可能にする)、シークエンサー準備ライブラリ(sequencer−ready libraries)を作製する。
本明細書に記載の方法を行うのに適した任意のシークエンシング法を利用することができる。いくつかの実施形態において、ハイスループットシークエンシング法を使用する。ハイスループットシークエンシング法は一般に、クローン増幅されたDNA鋳型またはフローセル内で超並列にシークエンシングされた1本鎖DNA分子を含む(例えば、Metzker M Nature Rev 11:31−46(2010);Volkerdingら、Clin.Chem.55:641−658(2009)に記載)。このようなシークエンシング法も、デジタル定量的情報を提供することができ、この場合、各配列リードは、個々のクローンDNA鋳型、1本鎖DNA分子、ビンまたは染色体を表すカウント可能な「配列タグ」または「カウント」である。超並列にDNAをシークエンシングすることができる次世代シークエンシング技法は、本明細書において、「超並列シークエンシング」(MPS)と総称される。ハイスループットシークエンシング技法は、例えば、リバーシブルダイターミネーターを用いた合成によるシークエンシング、オリゴヌクレオチドプローブライゲーションによるシークエンシング、パイロシークエンシングおよびリアルタイムシークエンシングを含む。MPSの非限定的な例として、超並列シグネチャーシークエンシング(MPSS)、ポロニーシークエンシング、パイロシークエンシング、イルミナ(Solexa)シークエンシング、SOLiDシークエンシング、イオン半導体シークエンシング、DNAナノボールシークエンシング、ヘリオスコープ単一分子シークエンシング、単一分子リアルタイム(SMRT)シークエンシング、ナノポアシークエンシング、ION TorrentおよびRNAポリメラーゼ(RNAP)シークエンシングがある。
ハイスループットシークエンシング法に利用される系は市販されており、例えば、Roche454プラットフォーム、Applied Biosystems SOLIDプラットフォーム、Helicos True単一分子DNAシークエンシング法、ハイブリダイゼーションによるシークエンシングプラットフォーム(Affymetrix Inc.)、単一分子リアルタイム(SMRT)法(Pacific Biosciences)、合成によるシークエンシングプラットフォーム(454 Life Sciences、Illumina/SolexaおよびHelicos Biosciences)およびライゲーションによるシークエンシングプラットフォーム(Applied Biosystems)を含む。ION TORRENT法(Life technologies)およびナノポアシークエンシングもハイスループットシークエンシング法に使用することができる。
いくつかの実施形態において、第1世代技術、例えば、自動化サンガーシークエンシングを含むサンガーシークエンシングを本明細書に提供される方法に使用することができる。発達する核酸画像技術(例えば、透過型電子顕微鏡(TEM)および原子間力顕微鏡(AFM))の使用を含むさらなるシークエンシング技術も、本明細書において考慮される。種々のシークエンシング技術の例を以下に説明する。
本明細書に記載の方法に使用し得る核酸シークエンシング技術は、合成によるシークエンシングおよびリバーシブルターミネーターに基づいたシークエンシング(例えば、イルミナのゲノム解析装置、ゲノム解析装置II、HISEQ2000、HISEQ2500(Illumina,San Diego CA))である。この技術とともに、数百万個の核酸(例えば、DNA)フラグメントを並列にシークエンシングすることができる。この種のシークエンシング技術の一例において、フローセルを使用するが、これは、表面にオリゴヌクレオチドアンカー(例えば、アダプタープライマー)を結合させた8個の個々のレーンを含む光学的に透明なスライドを含有する。フローセルは、多くの場合、結合させた被分析物に対して、試薬溶液が順に通過することを保持し、かつ/または可能にするよう構成され得る固体の支持体である。フローセルは、多くの場合、平面形状であり、光学的に透明な、一般にミリメートルまたはミリメートル以下のスケールであり、多くの場合、被分析物/試薬の相互作用が生じるチャンネルまたはレーンを有する。
特定の合成によるシークエンシング法において、例えば、鋳型DNA(例えば、血中細胞非含有DNA(ccfDNA))を、ライブラリ作製のための作製において数百塩基対の長さにフラグメント化することができることもある。いくつかの実施形態において、ライブラリ作製を、鋳型DNA(例えば、ccfDNA)のさらにフラグメント化またはサイズ選択することなく行うことができる。特定の実施形態において、サンプル単離およびライブラリ作製を、自動化方法および装置を使用して行うことができる。つまり、鋳型DNAをフィルイン反応、エキソヌクレアーゼ反応またはフィルイン反応とエキソヌクレアーゼ反応の組み合わせによりエンドリペアする。得られたブラントエンドリペアされた鋳型DNAを、アダプタープライマーの3’末端にオーバーハングする1本鎖ヌクレオチドに相補的な1本鎖ヌクレオチドにより伸長し、多くの場合、ライゲーション効率が増大する。任意の相補的ヌクレオチドを、伸長/オーバーハングヌクレオチド(例えば、A/T、C/G)に使用することができるが、多くの場合、アデニンを使用し、エンドリペアされたDNAを伸長し、多くの場合、チミンを3’末端オーバーハングヌクレオチドとして使用する。
特定の合成によるシークエンシング法において、例えば、アダプターオリゴヌクレオチドは、フローセルアンカーに相補的であり、改変鋳型DNA(例えば、エンドリペアされ、かつ1本鎖ヌクレオチドに伸長された)と、固体の支持体、例えば、フローセルの内面などが会合するのに利用することができることもある。いくつかの実施形態において、アダプターも識別子(すなわち、インデックスしているヌクレオチド、すなわち「バーコード」ヌクレオチド(例えば、サンプルおよび/または染色体の一義的な同定を可能にする識別子として利用可能なヌクレオチドの独自の配列))、1つまたはそれより多いシークエンシングプライマーハイブリダイゼーション部位(例えば、ユニバーサルシークエンシングプライマー、シングルエンドシークエンシングプライマー、ペアエンドシークエンシングプライマー、マルチプレックスシークエンシングプライマーなどに相補的な配列)またはそれらの組み合わせ(例えば、アダプター/シークエンシング、アダプター/識別子、アダプター/識別子/シークエンシング)を含む。アダプターに含有される識別子またはヌクレオチドは、多くの場合、6ヌクレオチド長以上であり、多くの場合、識別子ヌクレオチドがシークエンシング反応中にシークエンシングされる第1のヌクレオチドとなるようにアダプターに位置付けされる。特定の実施形態において、識別子ヌクレオチドは、サンプルと会合するが、個別のシークエンシング反応においてシークエンシングし、配列リードの質が落ちることを避ける。続いて、識別子シークエンシングおよびDNA鋳型シークエンシングからのリードを合わせて結合させ、リードを逆多重化する。結合および逆多重化後に、シークエンスリードおよび/または識別子を、本明細書に記載のようにさらに調節または処理する。
特定の合成によるシークエンシング法において、識別子の利用により、フローセルレーンでのシークエンシング反応の多重化が可能になり、それにより、フローセルレーン当たりに複数のサンプルの分析が可能になる。所与のフローセルレーンにおいて分析することができるサンプル数は、多くの場合、ライブラリ作製および/またはプローブ設計中に利用される独自の識別子の数に依存する。市販のマルチプレックスシークエンシングキットの非限定的な例として、イルミナの多重化サンプル作製オリゴヌクレオチドキットおよび多重化シークエンシングプライマーならびにPhiXコントロールキット(例えば、それぞれ、イルミナのカタログ番号PE−400−1001およびPE−400−1002)がある。本明細書に記載の方法を、任意の数の独自の識別子(例えば、4、8、12、24、48、96以上)を使用して行うことができる。独自の識別子の数が多いほど、例えば、単一のフローセルレーンにおいて多重化することができるサンプルおよび/または染色体の数が多くなる。例えば、12識別子を使用する多重化は、8レーンのフローセルにおいて96サンプル(例えば、96ウェルマイクロウェルプレートのウェル数に等しい)の同時分析を可能にする。同様に、48識別子を使用する多重化は、8レーンのフローセルにおいて384サンプル(例えば、384ウェルマイクロウェルプレートのウェル数に等しい)の同時分析を可能にする。
特定の合成によるシークエンシング法において、アダプター改変された、1本鎖鋳型DNAを、フローセルに添加し、限界希釈条件下において、ハイブリダイゼーションによりアンカーに固定する。エマルジョンPCRと対照的に、DNA鋳型を、「ブリッジ」増幅により、フローセルにおいて増幅させるが、これは隣接のアンカーオリゴヌクレオチド上に「アーチ」し、かつこれにハイブリダイズする捕捉されたDNA鎖によるものである。複数の増幅サイクルが、1本鎖分子DNA鋳型を、それぞれがおよそ1000クローン分子を含有するクローン増幅されたアーチ形「クラスター」に変換する。およそ50×10の個別のクラスターをフローセル当たりに生成することができる。シークエンシングにおいて、クラスターを変性させ、続く化学的切断反応および洗浄によりシングルエンドシークエンシング用にフォワード鎖のみを残す。フォワード鎖のシークエンシングを、アダプター配列に相補的なプライマーをハイブリダイズすることにより開始した後、ポリメラーゼおよび異なる4色の蛍光リバーシブルダイターミネーターの混合物を添加する。ターミネーターを、クローンクラスターの各鎖に相補的な配列に従い組み込む。組み込まれた後、過剰の試薬を洗い流し、クラスターを場合により問い合わせ、蛍光性を記録する。続く化学ステップで、リバーシブルダイターミネーターを取り除き、蛍光標識を切断し、洗い流し、次のシークエンシングサイクルを行う。この繰り返しの、合成によるシークエンシングプロセスは、36塩基のリード長を作製するためにおよそ2.5日を必要することもある。フローセル当たりに50×10個のクラスターを用いて、全体のシークエンシング出力が、分析試行当たり10億塩基対(Gb)より大きくなり得る。
本明細書に記載の方法とともに使用し得る別の核酸シークエンシング技術は、454シークエンシング(Roche)である。454シークエンシングは、試行当たり約400〜600メガ塩基のDNAをシークエンシングすることができる大規模並列パイロシークエンシング系を使用する。プロセスは典型的に2つのステップを含む。第1のステップにおいて、サンプル核酸(例えば、DNA)は、小さいフラグメント(300〜800塩基対)に画分され、研磨される(各末端で平滑化する)こともある。次いで、短いアダプターをフラグメントの末端にライゲーションする。これらのアダプターは、サンプルライブラリフラグメントの増幅およびシークエンシングの両方においてプライミング配列を提供する。1つのアダプター(アダプターB)は、ストレプトアビジン被覆ビーズにDNAライブラリを固定する5’ビオチンタグを含有する。ニックをリペア後、非ビオチン化された鎖を放出し、1本鎖鋳型DNA(sstDNA)ライブラリとして使用した。sstDNAライブラリを、力価により決定されるemPCRに必要とされるその質および最適量(ビーズ当たりのDNAコピー数)において評価した。sstDNAライブラリを、ビーズに固定する。ライブラリフラグメントを含有するビーズは、単一sstDNA分子を担持する。ビーズ結合ライブラリを、油中水型混合物中に増幅試薬を用いて乳化させる。各ビーズを、PCR増幅が生じるビーズ用のマイクロリアクター内で捕捉する。これにより、ビーズ固定した、クローン増幅されたDNAフラグメントが生じる。
454シークエンシングの第2のステップにおいて、1本鎖鋳型DNAライブラリビーズを付加し、DNAポリメラーゼを含有する混合物をインキュベーションし、ピコリットルのサイズのウェルを含有するデバイスにスルフリラーゼおよびルシフェラーゼを含有するビーズを用いて層状にする。パイロシークエンシングを、各DNAフラグメントに並列に行う。1つまたはそれより多いヌクレオチドの付加により、シークエンシング機器内のCCDカメラにより記録される光信号を生成する。信号強度は、組み込まれたヌクレオチドの数に比例する。パイロシークエンシングは、ヌクレオチド付加時に、ピロリン酸(PPi)の放出を利用する。PPiを、アデノシン5’ホスホ硫酸の存在下において、ATPスルフリラーゼによりATPに変換する。ルシフェラーゼは、ATPを使用し、ルシフェラーゼをオキシルシフェリンに変換し、この反応により、識別および分析される光を生成する(例えば、Margulies,M.ら、Nature437:376−380(2005)を参照のこと)。
本明細書において提供される方法に使用し得る別の核酸シークエンシング技術は、Applied BiosystemsのSOLiD(商標)技術である。ライゲーションによるSOLiD(商標)シークエンシングにおいて、核酸フラグメントのライブラリを、サンプルから作製し、クローンビーズ集団を作製するために使用する。この方法を用いて、核酸フラグメントの1種が、各ビーズ(例えば、磁気ビーズ)の表面に存在する。サンプル核酸(例えば、ゲノムDNA)をフラグメントにせん断し、続いて、アダプターをフラグメントの5’および3’末端に付着させ、フラグメントライブラリを作製する。アダプターは典型的に、ユニバーサルアダプター配列であるため、各フラグメントの開始配列は公知であり、同一である。エマルジョンPCRは、PCRに必要な試薬全てを含有するマイクロリアクターで行われる。次いで、ビーズに付着させ得られたPCR生成物を、ガラススライドに共有結合させる。次いで、プライマーがライブラリ鋳型内でアダプター配列にハイブリダイズする。4つ蛍光標識させた2塩基プローブのセットが、シークエンシングプライマーにライゲーションするため競合する。2塩基プローブの特異性は、各ライゲーション反応において、第1および第2の塩基毎に問い合わせすることにより得られる。複数のライゲーションサイクル、検出および切断は、最終的なリード長を決定するサイクル数を用いて行われる。一連のライゲーションサイクルの後に、伸長生成物を除去し、鋳型を第2のラウンドのライゲーションサイクルのためにn−1の位置に相補的なプライマーを用いて再設定する。多くの場合、各配列タグにおいて、5回のラウンドのプライマー再設定で完了する。プライマー再設定プロセスにより、各塩基を、2つの異なるプライマーによる2つの別個のライゲーション反応において問い合わせする。例えば、リード位置5の塩基を、ライゲーションサイクル2のプライマー番号2により、およびライゲーションサイクル1のプライマー番号3によりアッセイする。
本明細書に記載の方法に使用し得る別の核酸シークエンシング技術は、Helicos True単一分子シークエンシング(tSMS)である。tSMS技法において、ポリA配列を、サンプルからの各核酸(例えば、DNA)鎖の3’末端に付加する。各鎖を、蛍光標識されたアデノシンヌクレオチドの付加により標識する。次いで、DNA鎖を、フローセルにハイブリダイズし、これは、フローセル表面に固定される数百万のオリゴT捕捉部位を含有する。鋳型は、約1億個の鋳型/cmの密度であってよい。次いで、フローセルをシークエンシング装置に充填し、レーザーをフローセルの表面に照射し、各鋳型の位置を明らかにする。CCDカメラは、フローセル表面の鋳型の位置をマッピングすることができる。次いで、鋳型蛍光標識を切断し、洗い流す。シークエンシング反応を、DNAポリメラーゼおよび蛍光標識されたヌクレオチドを導入することにより開始する。オリゴT核酸は、プライマーとして作用する。ポリメラーゼは、標識されたヌクレオチドを鋳型特異的にプライマーに組み込む。ポリメラーゼおよび組み込まれていないヌクレオチドを除去する。蛍光標識されたヌクレオチドを特異的に組み込んだ鋳型を、フローセル表面を画像化することにより検出する。画像化後、切断ステップにより蛍光標識を除去し、このプロセスを、所望のリード長を得るまで他の蛍光標識されたヌクレオチドを用いて繰り返す。配列情報を、各ヌクレオチド付加ステップを用いて収集する(例えば、Harris T.D.ら、Science320:106−109(2008)を参照のこと)。
本明細書に提供される方法に使用し得る別の核酸シークエンシング技術は、Pacific Biosciencesの単一分子リアルタイム(SMRT(商標))シークエンシング技術である。この方法を用いて、4つのDNA塩基のそれぞれを、4つの異なる蛍光色素の1つに付着させる。これらの色素はリン酸基結合する。1本鎖DNAポリメラーゼを、ゼロモード導波路(ZMW)の底部にて鋳型1本鎖DNAの単一分子と固定する。ZMWは、ZMW外で急速(ミリ秒)に拡散する蛍光ヌクレオチドのバックグランドに対してDNAポリメラーゼにより単一のヌクレオチドの組み込みを観察することができる閉じ込め構造である。ヌクレオチドを、成長する鎖に組み込むには数ミリ秒かかる。この間、蛍光標識を、励起させ、蛍光信号を生成し、蛍光タグを切断する。色素の対応する蛍光性の検出は、塩基が組み込まれたことを示す。次いで、プロセスを繰り返す。
本明細書に記載の方法に使用し得る別の核酸シークエンシング技術は、化学的にコードされた情報(A、C、G、T)を半導体チップ上でデジタル情報(0、1)に直接翻訳する、簡易なシークエンシング化学を用いた半導体技術を組み合わせたION TORRENT(Life Technologies)単一分子シークエンシングである。ION TORRENTは、微細加工されたウェルの高密度アレイを使用し、超並列に核酸シークエンシングを行う。各ウェルは、異なるDNA分子を保持する。ウェルの下は、イオン感受性層であり、その下はイオンセンサーである。典型的に、ヌクレオチドを、ポリメラーゼによりDNAの鎖に組み込むときに、水素イオンを副生成物として放出する。ヌクレオチド、例えば、CをDNA鋳型に付加した後、DNAの鎖に組み込む場合、水素イオンが放出される。そのイオンからの電荷が溶液のpHを変化させ、これをイオンセンサーにより検出することができる。シークエンサーが、塩基を呼び出し、化学情報からデジタル情報に直接進むことができる。次いで、シークエンサーは、連続してヌクレオチドを次々とチップに送液する。チップに送液した次のヌクレオチドが一致しない場合、電圧変化を記録せず、塩基は呼び出されない。DNA鎖の2つの同一の塩基である場合、電圧を2倍にし、チップは、呼び出された2つの同一の塩基を記録する。これは、直接検出(すなわち、走査、カメラまたは光を用いずに検出)である場合、このようなヌクレオチドの組み込みを、秒単位で記録する。
本明細書に記載の方法に使用し得る別の核酸シークエンシング技術は、化学感応型電界効果トランジスタ(CHEMFET)アレイである。このシークエンシング技法の一例において、DNA分子を反応チャンバーに入れ、鋳型分子を、ポリメラーゼに結合させるシークエンシングプライマーにハイブリダイズすることができる。シークエンシングプライマーの3’末端にて、1つまたはそれより多い三リン酸を新しい核酸鎖に組み込むことにより、CHEMFETセンサーによる電流の変化により検出することができる。アレイは、複数のCHEMFETセンサーを有し得る。別の実施例において、単一の核酸をビーズに付着させ、核酸をビーズ上で増幅させることができ、個々のビーズを、CHEMFETアレイの個々の反応チャンバー(各チャンバーは、CHEMFETセンサーを有する)に移すことができ、核酸をシークエンシングすることができる(例えば、米国特許出願公開第2009/0026082号を参照のこと)。
本明細書に記載の方法に使用し得る別の核酸配列技術は、電子顕微鏡である。このシークエンシング技術の一例において、個々の核酸(例えば、DNA)分子を、電子顕微鏡を使用して識別可能である金属標識を使用して標識する。次いで、これらの分子を平坦な表面で伸長させ、電子顕微鏡を使用して画像化し、配列を測定する(例えば、Moudrianakis E.N.and Beer M.Proc Natl Acad Sci USA.1965 March;53:564−71を参照のこと)。いくつかの例において、透過型電子顕微鏡(TEM)を使用する(例えば、Halcyon MolecularのTEM法)。この方法は、Individual Molecule Placement Rapid Nano Transfer(IMPRNT)と呼ばれ、重原子マーカーで選択的に標識された高分子量(例えば、約150kb以上)のDNAの単一原子分解能透過型電子顕微鏡イメージングを利用し、塩基間の空間が一貫している超高密度(3nm鎖間)並列アレイにおいて超薄膜上にこれらの分子を整列させることを含む。電子顕微鏡を膜上の分子を画像化するために使用し、重原子マーカーの位置を決定し、DNAから特別な塩基配列情報を抽出する(例えば、国際特許出願公開第WO2009/046445号を参照のこと)。
本明細書において各方法を行うために使用し得る他のシークエンシング方法は、デジタルPCRおよびハイブリダイゼーションによるシークエンシングを含む。デジタルポリメラーゼ連鎖反応(デジタルPCRまたはdPCR)を使用し、サンプル内の核酸を直接同定し、定量化することができる。いくつかの実施形態において、デジタルPCRをエマルジョンで行うことができる。例えば、個々の核酸を、例えば、マイクロフルイディクスチャンバーデバイス内で分離し、各核酸を、PCRにより個々に増幅させる。核酸を、ウェル当たり1核酸以内であるように分離することができる。いくつかの実施形態において、異なるプローブを使用し、種々のアレル(例えば、胎児アレルおよび母体アレル)を区別することができる。アレルを列挙し、コピー数を決定することができる。ハイブリダイゼーションによるシークエンシングにおいて、方法は、複数のポリヌクレオチド配列と、複数のポリヌクレオチドプローブを接触させることを含み、この場合、複数のポリヌクレオチドプローブのそれぞれを、場合により基質に結合させることができる。いくつかの実施形態において、基質は、公知のヌクレオチド配列のアレイを含む平坦な表面であってよい。アレイにハイブリダイゼーションするパターンを使用して、サンプル内に存在するポリヌクレオチド配列を決定することができる。いくつかの実施形態において、各プローブをビーズ、例えば、磁気ビーズなどに結合させる。ビーズのハイブリダイゼーションは同定することができ、かつサンプル内の複数のポリヌクレオチド配列の同定に使用することができる。
いくつかの実施形態において、ナノポアシークエンシングを本明細書に記載の方法に使用することができる。ナノポアシークエンシングは、単一分子シークエンシング技術であり、これにより単一核酸分子(例えば、DNA)を、ナノポアを通過する時に直接シークエンシングする。ナノポアは、ほぼ1ナノメートル径の小さな孔またはチャンネルである。特定の膜貫通型細胞タンパク質が、ナノポア(例えば、アルファ−ヘモリシン)として作用することができる。いくつかの例において、ナノポアを合成することができる(例えば、シリコンプラットフォームを使用)。伝導液にナノポアを浸潤させ、それ全体に電位を加えることにより、ナノポアを通したイオンの伝導によりわずかな電流が生じる。流れる電流の量は、ナノポアのサイズに影響を受けやすい。DNA分子がナノポアを通過する時、DNA分子上の各ヌクレオチドが、異なる程度でナノポアを遮断し、電流に特徴的な変化が生じる。任意の所与の時点にてナノポアを通過することができる電流の量は、それゆえ、ナノポアがA、C、G、Tまたはいくつかの例において、メチル−Cにより遮断されるかどうかに応じて異なる。DNA分子がナノポアを通過する時に、ナノポアを介する電流の変化が、DNA配列の直接の読み取りを表す。いくつかの例において、ナノポアを使用し、正しい順でナノポアを通過する時に個々のDNA塩基を同定することができる(例えば、Soni GV and Meller A.Clin.Chem.53:1996−2001 (2007);国際特許出願公開第WO2010/004265号を参照のこと)。
ナノポアを使用し、核酸分子をシークエンシングすることができる多くの方法がある。いくつかの実施形態において、エキソヌクレアーゼ酵素、例えば、デオキシリボヌクレアーゼを使用する。この場合において、エキソヌクレアーゼ酵素を使用し、核酸(例えば、DNA)分子からのヌクレオチドを連続して分離する。次いで、ヌクレオチドを検出し、放出の順にナノポアにより識別されるため、元の鎖の配列を読み取る。このような実施形態において、エキソヌクレアーゼ酵素を、DNA分子から放出されたヌクレオチドの割合が、ナノポアのチャンネルに進入し、これと相互作用することができるようにナノポアに付着させることができる。エキソヌクレアーゼを、チャンネルの開口部を形成するナノポアの部分にかなり近接する部位にてナノポア構造に付着させることができる。いくつかの例において、エキソヌクレアーゼ酵素を、そのヌクレオチドの出口の軌道部位が、開口部の一部を形成するナノポアの部分に向かうようにナノポア構造に付着させることができる。
いくつかの実施形態において、核酸のナノポアシークエンシングは、ポアを通して核酸(例えば、DNA)分子を押し出しまたは引き出す酵素の使用を含む。この場合において、イオン電流は、DNA分子のヌクレオチドがポアを通過する場合に変動する。電流の変動は、DNA配列を示す。このような実施形態において、ポアを通るイオン電流の流れを干渉することなく、ナノポアのチャンネルを通して標的核酸を押し出しまたは引き出すことができるように、酵素をナノポア構造に付着させることができる。酵素を、開口部の部分を形成する構造の部分にかなり近接な部位にてナノポア構造に付着させることができる。酵素を、例えば、その活性部位が開口部の部分を形成する構造の部分に向かうように、サブユニットに付着させることができる。
いくつかの実施形態において、核酸のナノポアシークエンシングは、ナノポア検出器にかなり近接したポリメラーゼ副生成物の検出を含む。この場合において、ヌクレオシドリン酸(ヌクレオチド)を標識し、その結果、リン酸標識された種を、ポリメラーゼをヌクレオチド鎖に付加時に放出し、リン酸標識された種をポアにより検出する。典型的に、リン酸種は、各ヌクレオチドに特異的な標識を含有する。続いて、ヌクレオチドを核酸鎖に付加し、塩基付加の副生成物を検出する。リン酸標識された種を検出する順を使用し、核酸鎖の配列を決定することができる。
配列リードの長さは、多くの場合、具体的なシークエンシング技術と関連する。例えば、ハイスループット法は、数十から数百の塩基対(bp)のサイズで異なり得る配列リードを提供する。例えば、ナノポアシークエンシングは、数十から数十万(hundreds to thousands)の塩基対のサイズで異なり得る配列リードを提供することができる。いくつかの実施形態において、配列リードは、約15bp〜900bp長(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpの平均値、中央値または平均の長さのものである。いくつかの実施形態において、配列リードは、約1000bp以上の平均値、中央値または平均の長さである。
いくつかの実施形態において、染色体特異的シークエンシングを行う。いくつかの実施形態において、染色体特異的シークエンシングを、DANSR(選択された領域のデジタル分析)を利用して行う。選択された領域のデジタル分析は、PCR鋳型を形成する介在する「ブリッジ」オリゴを介した、2つの遺伝座特異的オリゴヌクレオチドのcfDNA依存性連鎖による数百の遺伝子座の同時定量化を可能にする。いくつかの実施形態において、染色体特異的シークエンシングを、染色体特異的配列で富化されたライブラリを作製することにより行う。いくつかの実施形態において、配列リードは、選択された染色体のセットにおいてのみ得られる。いくつかの実施形態において、配列リードは、第21番染色体、第18番染色体および第13番染色体においてのみ得られる。
いくつかの実施形態において、核酸は、蛍光信号または配列タグ情報を含み得る。信号またはタグの定量化を、種々の技法、例えば、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、遺伝子チップ分析、マイクロアレイ、質量分析、細胞蛍光測定分析、蛍光顕微鏡、共焦点レーザー走査型顕微鏡、レーザー走査型サイトメトリー、アフィニティークロマトグラフィー、マニュアルバッチモード分離、電界懸濁、シークエンシングおよびそれらの組み合わせに使用し得る。
シークエンシングモジュール
シークエンシングすることおよびシークエンシングリードを得ることは、シークエンシングモジュールにより、またはシークエンシングモジュールを含む装置により提供されることができる。本明細書において使用される場合、「配列受信モジュール」は、「シークエンシングモジュール」と同じである。シークエンシングモジュールを含む装置は、当技術分野で公知のシークエンシング技術から核酸の配列を決定する任意の装置であってよい。特定の実施形態において、シークエンシングモジュールを含む装置は、当技術分野で公知のシークエンシング反応を行う。シークエンシングモジュールは一般に、シークエンシング反応からのデータ(例えば、シークエンシング装置から作製された信号)に従い、核酸配列リードを提供する。いくつかの実施形態において、シークエンシングモジュールまたはシークエンシングモジュールを含む装置は、シークエンシングリードを提供することを要求される。いくつかの実施形態において、シークエンシングモジュールを、別のシークエンシングモジュール、コンピュータ周辺機器、オペレータ、サーバー、ハードドライブ、装置から、または適切な供給源から配列リードを受信し、取得し、アクセスし、または回収することができる。シークエンシングモジュールは、配列リードを操作することができることもある。例えば、シークエンシングモジュールは、配列リードを整列、組み立て、フラグメント化、相補配列、逆相補配列、エラーチェックまたはエラー補正することができる。シークエンシングモジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、シークエンシングリードを、シークエンシングモジュールから1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、シークエンシングリードは、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置により提供される。いくつかの実施形態において、シークエンシングモジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。シークエンシングモジュールは、別のモジュール、装置、周辺機器、コンポーネントまたは特別なコンポーネント(例えば、シークエンサー)からデータおよび/または情報を収集し、組み立て、かつ/または受信することもある。いくつかの実施形態において、シークエンシングリードは、以下の1つ以上を含む装置により提供される:1つまたはそれより多いフローセル、カメラ、光検出器、光電池、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。多くの場合、シークエンシングモジュールは、配列リードを受信し、収集し、かつ/または組み立てる。シークエンシングモジュールは、装置のオペレータから入力データおよび/または情報を承認し、収集する。例えば、装置のオペレータは、モジュールに命令、定数、閾値、式または所定の値を提供することもある。シークエンシングモジュールは、受信するデータおよび/または情報を連続核酸配列に変換することができることもある。いくつかの実施形態において、シークエンシングモジュールにより提供される核酸配列を印刷し、または表示する。いくつかの実施形態において、配列リードは、シークエンシングモジュールにより提供され、シークエンシングモジュールから装置または任意の適切な周辺機器、コンポーネントまたは特別なコンポーネントを含む装置に転送される。いくつかの実施形態において、データおよび/または情報は、シークエンシングモジュールから、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置に提供される。いくつかの例において、配列リードに関連するデータおよび/または情報を、シークエンシングモジュールから、任意の他の適切なモジュールに転送することができる。いくつかの実施形態において、シークエンシングモジュールは、配列リードをマッピングモジュールまたはカウンティングモジュールに転送することができる。
マッピングリード
ヌクレオチド配列リード(すなわち、物理的なゲノム位置がわかっていないフラグメントからの配列情報)をマッピングすることを、多くの方法で行うことができ、多くの場合、得られた配列リードと参照ゲノムの一致する配列とのアライメントを含む(例えば、Liら、“Mapping short DNA sequencing reads and calling variants using mapping quality score,”Genome Res.,2008 Aug 19.)。このようなアライメントにおいて、配列リードは一般に、参照配列および整列が「マッピング」または「配列タグ」であるとして表されているものに整列される。いくつかの例において、マッピングされた配列リードは、「ヒット」または「カウント」と呼ばれる。いくつかの実施形態において、マッピングされた配列リードは、種々のパラメータに従い、合わせてグループ化され、以下にさらに詳述される、具体的なゲノム片に割り当てられる。
本明細書において使用される場合、用語「整列された」、「アライメント」、または「整列する」は、一致(例えば、100%同一性)または部分一致として同定され得る2つ以上の核酸配列を指す。アライメントは、手動またはコンピュータアルゴリズムによりなされることができ、例として、Illumina Genomics Analysisパイプラインの一部として配布されるNucleotide Data(ELAND)コンピュータプログラムのEfficient Local Alignmentがある。配列リードのアライメントは、100%配列一致であり得る。いくつかの例において(In come cases)、アライメントは、100%未満の配列一致である(すなわち、非完全一致、部分一致、部分アライメント)。いくつかの実施形態において、アライメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%または75%一致である。いくつかの実施形態において、アライメントは、不一致を含む。いくつかの実施形態において、アライメントは、1、2、3、4または5の不一致を含む。2つ以上の配列を、いずれかの鎖を使用して整列させることができる。いくつかの例において、核酸配列を別の核酸配列の逆相補配列を用いて整列させる。
種々のコンピュータによる方法を使用し、各配列リードをゲノム片にマッピングすることができる。配列を整列させるために使用することができるコンピュータアルゴリズムの非限定的な例として、BLAST、BLITZ、FASTA、BOWTIE1、BOWTIE2、ELAND、MAQ、PROBEMATCH、SOAPもしくはSEQMAPまたはそれらの変形例、あるいはそれらの組み合わせを含むが限定されない。いくつかの実施形態において、配列リードを、参照ゲノムの配列を用いて整列させることができる。いくつかの実施形態において、配列リードを、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)およびDDBJ(日本のDNAデータバンク)を含む当技術分野で公知の核酸データベースに見つけることができ、かつ/またはそれらの配列を用いて整列させることができる。BLASTまたは同様のツールを使用し、配列データベースに対して同定された配列を検索することができる。次いで、例えば、検索ヒットを使用し、同定された配列を、適切なゲノム片(以下に記載)にソートすることができる。
本明細書において、用語「配列タグ」を、アラインメントにより大きな配列、例えば、参照ゲノムに特異的に割り当てられ、すなわち、マッピングされている配列リードを指す用語「マッピングされた配列タグ」と交換可能に使用される。マッピングされた配列タグは、参照ゲノムに独自にマッピングされ、すなわち、参照ゲノムに対して単一の位置に割り当てられる。参照ゲノムの1を超える位置にマッピングされることができるタグ、すなわち、独自にマッピングされないタグは、分析に含まれない。「配列タグ」は、具体的なゲノム片および/または染色体(すなわち、ヒト被験体における第1番染色体〜22、XまたはYの1つ)に特異的に割り当てられる核酸(例えば、DNA)配列(すなわち、リード)であってよい。配列タグは、参照ゲノムの単一の断片(例えば、染色体)内で反復または非反復であり得る。いくつかの実施形態において、反復配列タグをさらなる分析(例えば、定量化)から排除する。いくつかの実施形態において、リードは、参照ゲノムの部分に独自にまたは非独自にマッピングされ得る。リードは、参照ゲノムの単一の配列を用いて整列する場合、「独自にマッピングされる」と考慮される。リードは、参照ゲノムの2つ以上の配列を用いて整列する場合、「非独自にマッピングされる」と考慮される。いくつかの実施形態において、非独自にマッピングされるリードをさらなる分析(例えば、定量化)から排除する。特定の実施形態において、特定の少数の不一致(0〜1)は、参照ゲノムとマッピングされる個々のサンプルからのリードとの間に存在し得る一塩基多型と考慮されることが可能であり得る。いくつかの実施形態において、不一致がないことにより、リードを参照配列にマッピングすることが可能になる。
本明細書において使用される場合、用語「参照ゲノム」は、部分または完全に関わらず、被験体から同定された配列を参照するために使用し得る任意の生体またはウイルスの、任意の具体的に知られた、シークエンシングされた、または特徴付けられたゲノムを指す。例えば、ヒト被験体ならびに多くの他の生体において使用される参照ゲノムを、National Center for Biotechnology Information(www.ncbi.nlm.nih.gov)に見つけることができる。「ゲノム」は、核酸配列に発現する、生体またはウイルスの完全な遺伝情報を指す。本明細書において使用される場合、参照配列または参照ゲノムは、多くの場合、個々の、または複数の個体から組み立てられ、または部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、1例以上のヒト個体から組み立てられ、または部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。
特定の実施形態において、サンプル核酸が、妊娠女性からのものであるときに、参照配列は、胎児、胎児の母親または胎児の父親からのものでないこともあり、本明細書において、「外部参照」と呼ばれる。いくつかの実施形態において、母体参照を調製し、使用し得る。妊娠女性からの参照を、外部参照に基づき調製する(母体参照配列)ときに、実質的に胎児DNAを含有しない妊娠女性のDNAからのリードを、多くの場合、外部参照配列にマッピングし、組み立てる。特定の実施形態において、外部参照は、妊娠女性として実質的に同じ民族性を有する個体のDNAからのものである。母体参照配列は、母体ゲノムDNAを完全に包括せず(例えば、母体ゲノムDNAの約50%、60%、70%、80%、90%以上を包括し得る)、母体参照は、母体ゲノムDNA配列と完全一致し得ない(例えば、母体参照配列は、複数の不一致を含み得る)。
いくつかの例において、マッピング性を、ゲノム領域(例えば、ゲノム片、ゲノム部分、ビン)において評価する。マッピング性は、典型的には、例えば、0、1、2以上の不一致を含む特定の不一致の数まで、参照ゲノムの部分にヌクレオチド配列リードを一義的に整列させる能力である。所与のゲノム領域において、マッピング性の期待値を、プリセットのリード長のスライディングウィンドウ法を使用して、かつ得られたリードレベルのマッピング性の値を平均化して推定することができる。独自のヌクレオチド配列の伸長を含むゲノム領域が、高いマッピング性の値を有することもある。
マッピングモジュール
配列リードを、マッピングモジュールにより、またはマッピングモジュールを含む装置によりマッピングすることができ、このマッピングモジュールは一般に、参照ゲノムまたはその断片に対するリードをマッピングする。マッピングモジュールは、当技術分野において公知の適切な方法によりシークエンシングリードをマッピングすることができる。いくつかの実施形態において、マッピングモジュールまたはマッピングモジュールを含む装置は、マッピングされた配列リードを提供することを要求される。マッピングモジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、マッピングされたシークエンシングリードは、マッピングモジュールから1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、シークエンシングリードを、マルチプロセッサ、例えば、並列に協動し、かつ作業するプロセッサを含む装置によりマッピングする。いくつかの実施形態において、マッピングモジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。装置は、マッピングモジュールおよびシークエンシングモジュールを含み得る。いくつかの実施形態において、配列リードを以下の1つ以上を含む装置によりマッピングし得る:1つまたはそれより多いフローセル、カメラ、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。いくつかの実施形態において、マッピングモジュールは、シークエンシングモジュールから配列リードを受信することができる。いくつかの実施形態において、マッピングされたシークエンシングリードを、マッピングモジュールから、カウンティングモジュールまたは正規化モジュールに転送することができる。
ゲノム片
いくつかの実施形態において、マッピングされた配列リード(すなわち、配列タグ)を、種々のパラメータに従い、合わせてグループ化し、具体的なゲノム片に割り当てる。多くの場合、個々のマッピングされた配列リードを使用し、サンプルに存在するゲノム片の量を同定することができる。いくつかの実施形態において、ゲノム片の量は、サンプルの大きな配列(例えば、染色体)の量を示し得る。本明細書において、用語「ゲノム片」は、「配列ウィンドウ」、「片」、「ビン」、「遺伝子座」、「領域」、「区分」または「部分」とも呼ばれ得る。いくつかの実施形態において、ゲノム片は、染色体全体、染色体の断片、参照ゲノムのセグメント、複数の染色体部分、複数の染色体、複数の染色体からの部分、および/またはそれらの組み合わせである。ゲノム片は特定のパラメータに基づき予め定義されることもある。ゲノム片は、ゲノム(例えば、サイズにより区分されたもの、断片、連続領域、任意に定義されたサイズの連続領域など)の区分化に基づき任意に定義されることもある。いくつかの例において、ゲノム片を、例えば、長さもしくは具体的な特徴または配列の特徴を含む、1つまたはそれより多いパラメータに基づき明記される。ゲノム片を、当技術分野で公知の、または本明細書に記載の任意の適切な基準を使用して、選択し、フィルタリングし、かつ/または考慮に入れないことができる。いくつかの実施形態において、ゲノム片は、ゲノム配列の具体的な長さに基づく。いくつかの実施形態において、方法は、複数のゲノム片に対する複数のマッピングされた配列リードの分析を含むことができる。ゲノム片は、およそ同じ長さであってよく、またはゲノム片は異なる長さであってよい。ゲノム片は、大体等しい長さのものであることもある。いくつかの例において、異なる長さのゲノム片を調節し、または重み付けをする。いくつかの実施形態において、ゲノム片は約10キロ塩基(kb)〜約100kb、約20kb〜約80kb、約30kb〜約70kb、約40kb〜約60kbであり、約50kbであることもある。いくつかの実施形態において、ゲノム片は約10kb〜約20kbである。ゲノム片は配列の連続試行に限定されない。したがって、ゲノム片を、連続および/または非連続配列から作製することができる。ゲノム片は、単一の染色体に限定されない。いくつかの実施形態において、ゲノム片は、1つの染色体の全てもしくは部分、または2つ以上の染色体の全てもしくは部分を含む。いくつかの例において、ゲノム片は、1つ、2つ以上の染色体全体に及び得る。さらに、ゲノム片は、複数の染色体の接合または非接合部分に及び得る。
いくつかの実施形態において、ゲノム片は、目的の染色体、例えば、遺伝的変異(例えば、第13番染色体、第18番染色体および/または第21番染色体あるいは性染色体の異数性)を評価する染色体の具体的な染色体断片であってよい。ゲノム片はまた、病原性ゲノム(例えば、細菌、真菌またはウイルス性)またはそれらのフラグメントであってよい。ゲノム片は、遺伝子、遺伝子フラグメント、制御配列、イントロン、エクソンなどであってよい。
いくつかの実施形態において、ゲノム(例えば、ヒトゲノム)を、領域の情報内容に基づきゲノム片に区分する。得られたゲノム領域は、複数の染色体における配列を含有することができ、かつ/または複数の染色体の部分における配列を含有することができる。いくつかの例において、区分することは、ゲノム全体の同様の位置を排除し、独自の領域のみを保持し得る。排除された領域は、単一の染色体内にあってよく、または複数の染色体に及び得る。したがって、得られたゲノムを切り取り、より速いアライメントに最適化し、多くの場合、独自の同定可能な配列に集中することを可能にする。いくつかの例において、区分することは、同様の領域の重み付けを減少させ得る。ゲノム片の重み付けの減少のプロセスは、以下にさらに詳述される。いくつかの実施形態において、ゲノムを染色体の枠を超えた領域に区分することは、分類に照らして生成される情報獲得に基づき得る。例えば、情報内容を、確認済みの正常および異常被験体(例えば、それぞれ、正倍数体およびトリソミーの被験体)のグループ間で区別するための具体的なゲノム位置の有意性を測定するp値プロファイルを使用して定量化し得る。いくつかの実施形態において、ゲノムを染色体の枠を超える領域に区分することは、任意の他の基準、例えば、タグを整列させる間の速度/利便性、高値または低値のGC含量、GC含量の一様性、配列含量の他の測定(例えば、個々のヌクレオチドの画分、ピリミジンまたはプリンの画分、天然対非天然核酸の画分、メチル化ヌクレオチドの画分、およびCpG量)、メチル化状態、2本鎖融解温度、シークエンシングまたはPCRに対する適性、個々のビンに割り当てられた不確定要素の値、および/または具体的な特徴を標的にした検索に基づき得る。
配列タグ密度
「配列タグ密度」は、配列タグ密度を、異なるサンプルの比較および次の分析のために使用する場合の定義されたゲノム片の配列タグまたはリードの正規化された値を指す。配列タグ密度の値は多くの場合、サンプル内で正規化される。いくつかの実施形態において、正規化を、各ゲノム片内にあるタグの数をカウントし、各染色体の配列タグカウント合計の中央値を得、常染色体値の全ての中央値を得、異なるサンプルにおいて得られた配列タグの合計数の差を考慮するために対して正規化定数としてこの値を使用することにより行うことができる。配列タグ密度は、2染色体において約1であることがある。配列タグ密度は、シークエンシングアーチファクト、最も顕著にはG/Cバイアスに従い変化することができ、これは、外部標準または内部参照(例えば、実質的に全ての配列タグ(ゲノム配列)に由来)の使用により補正されることができ、例えば、いくつかの実施形態において、単一の染色体または全ての常染色体から算出された値であり得る)。したがって、染色体または染色体領域の量的不均衡を、検体の他のマッピング可能なシークエンシングされたタグのうち、遺伝子座の表現の割合から推論することができる。それゆえ、具体的な染色体または染色体領域の量的不均衡を、定量的に決定し、正規化することができる。配列タグ密度の正規化および定量化の方法は、以下にさらに詳述される。
いくつかの実施形態において、配列リードの全ての割合は、異数性に関与する染色体(例えば、第13番染色体、第18番染色体、第21番染色体)からであり、他の配列リードは他の染色体からである。いくつかの実施形態において、他の染色体と比較し、異数性に関与する染色体(例えば、「標的染色体」:第21番染色体)の相対的サイズを考慮することにより、参照範囲内の標的染色体特異的配列の正規化された頻度を得ることができる。胎児が標的染色体において異数性を有する場合、この時、標的染色体由来の配列の正規化頻度は、非標的染色体由来の配列の正規化頻度に比べ統計学的に大きく、したがって、異数性の検出を可能にする。いくつかの実施形態において、正規化頻度の変化の程度は、分析されたサンプルの胎児の核酸の画分濃度に依存するだろう。
カウント
いくつかの実施形態において、選択された特徴または変数に基づきマッピングされ、または区分された配列リードを定量化し、ゲノム片(例えば、ビン、区分、ゲノム部分、参照ゲノムの部分、染色体の部分など)にマッピングされたリードの数を決定することができる。ゲノム片にマッピングされた配列リードの量は、カウント(例えば、1カウント)と呼ばれることもある。多くの場合、カウントは、ゲノム片に関連する。2つまたはそれより多いゲノム片のカウント(例えば、ゲノム片のセット)は、数学的に操作(例えば、平均化され、加算され、正規化されるなどまたはそれらの組み合わせ)されることもある。いくつかの実施形態において、カウントを、ゲノム片にマッピングされる(すなわち、関連する)配列リードの一部または全てから決定する。特定の実施形態において、カウントは、マッピングされた配列リードの予め定義されたサブセットから決定される。マッピングされた配列リードの予め定義されたサブセットを、任意の適切な特徴または変数を利用して定義または選択されることができる。いくつかの実施形態において、マッピングされた配列リードの予め定義されたサブセットは、1〜n個の配列リードを含むことができ、この場合、nは、試験被験体または参照被験体サンプルから作製された全ての配列リードの和に等しい数を表す。
カウントは、当技術分野において公知の適切な方法、動作、または数学的プロセスにより処理され、または操作された配列リードから得られることもある。カウントは、配列リードの一部または全てを重み付けする、除去する、フィルタリングする、正規化する、調節する、平均化する、平均値として得る、加算する、または減算する、あるいはそれらの組み合わせにより処理されたゲノム片と関連する配列リードから得られることもある。いくつかの実施形態において、カウントは、未処理の配列リードおよびまたは(and or)フィルタリングされた配列リードから得られる。カウント(例えば、各カウント)は、適切な方法、動作、または数学的プロセスにより決定されることができる。カウント値は、数学的プロセスにより決定されることもある。カウント値は、ゲノム片にマッピングされた配列リードの平均、平均値または和であることもある。多くの場合、カウントは、各カウントの平均値である。いくつかの実施形態において、カウントは、不確定値と関連する。カウントを、当技術分野において公知の方法により処理(例えば、正規化)し、かつ/または本明細書に記載のように処理する(例えば、ビンワイズ正規化、GC含量による正規化、線形および非線形の最小二乗回帰、GC LOESS、LOWESS、PERUN、RM、GCRM、cQnおよび/またはそれらの組み合わせ)。
カウント(例えば、未処理、フィルタリングされた、および/または正規化されたカウント)を、1つまたはそれより多い上昇に処理し、正規化することができる。上昇およびプロファイルは、以下にさらに詳細に説明する。カウントを参照上昇に処理し、かつ/または正規化することができることもある。参照上昇は、本明細書において、後で取り組む。上昇に従い処理されたカウント(例えば、処理されたカウント)を不確定値(例えば、算出した分散、誤差、標準偏差、p値、平均絶対偏差など)と関連させることができる。不確定値は典型定的に、上昇以上および以下の範囲を定義する。偏差の値を不確定値の代わりに使用することができ、偏差の測定の非限定的な例として、標準偏差、平均絶対偏差、中央絶対偏差、標準スコア(例えば、Zスコア、Z値、正常スコア、標準化された変数)などがある。
カウントは多くの場合、胎児を妊娠する妊娠女性からの核酸サンプルから得られる。ゲノム片にマッピングされた核酸配列リードのカウントは、多くの場合、胎児および胎児の母親(例えば、妊娠女性被験体)の両方を表すカウントである。ゲノム片にマッピングされたカウントの一部は、胎児ゲノムからのものであることもあり、同じゲノム片にマッピングされたカウントの一部は、母体ゲノムからのものであることもある。
カウンティングモジュール
カウントを、カウンティングモジュールにより、またはカウンティングモジュールを含む装置により提供することができる。カウンティングモジュールは、当技術分野で公知のカウント方法に従い、カウントを決定し、組み立て、かつ/または表示することができる。カウンティングモジュールは一般に、当技術分野において公知のカウント方法論に従い、カウントを決定し、または組み立てる。いくつかの実施形態において、カウンティングモジュールまたはカウンティングモジュールを含む装置は、カウントを提供することを要求される。カウンティングモジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、カウントは、カウンティングモジュールから1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、リードを、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置によりカウントする。いくつかの実施形態において、カウンティングモジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、リードを、以下の1つ以上を含む装置によりカウントする:シークエンシングモジュール、マッピングモジュール、1つまたはそれより多いフローセル、カメラ、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。カウンティングモジュールは、シークエンシングモジュールおよび/またはマッピングモジュールからデータおよび/または情報を受信し、データおよび/または情報を変換し、カウント(例えば、ゲノム片にマッピングされたカウント)を提供することができる。カウンティングモジュールは、マッピングモジュールからマッピングされた配列リードを受信することができる。カウンティングモジュールは、マッピングモジュールからまたは正規化モジュールから正規化されマッピングされた配列リードを受信することができる。カウンティングモジュールは、カウント(例えば、カウント、組み立てられたカウントおよび/またはカウントの表示)に関連するデータおよび/または情報を、任意の他の適切な装置、周辺機器、またはモジュールに転送することができる。カウントに関連するデータおよび/または情報を、カウンティングモジュールから、正規化モジュール、プロットモジュール、分類モジュールおよび/または成果モジュールに転送することがある。
データ処理
カウントされているマッピングされた配列リードは、本明細書において、未処理データと呼ばれるが、それはデータが操作されていないカウント(例えば、未処理カウント)を表すためである。いくつかの実施形態において、データセット内の配列リードデータをさらに処理(例えば、数学的に、および/または統計的に操作)し、かつ/または表示し、成果の提供を容易にすることができる。特定の実施形態において、大きなデータセットを含むデータセットは、前処理を行うことで、さらに分析を容易にし得る。データセットの前処理は、冗長および/または無益のゲノム片またはビン(例えば、無益のデータのビン、冗長にマッピングされたリード、中央値カウントがゼロのゲノム片、またはビン、過剰表現された、または過小表現された配列)の除去を含むことがある。理論に限定されないが、データ処理および/または前処理は、(i)ノイズデータを除去し、(ii)無益のデータを除去し、(iii)冗長なデータを除去し、(iv)大きなデータセットの複雑性を減少させ、かつ/または(v)1つの形態から1つまたはそれより多い他の形態へのデータの変換を容易し得る。データまたはデータセットに対して利用される場合、用語「前処理する」および「処理する」は、本明細書において、「処理する」と総称する。いくつかの実施形態において、処理することは、さらなる分析をより行いやすいデータを与えることができ、成果を作製することができる。
本明細書において使用される場合、用語「ノイズデータ」は、(a)分析またはプロットしたときにデータ点からデータ点の顕著な分散を有するデータ、(b)有意な標準偏差(例えば、3標準偏差より大きい)を有するデータ、(c)平均値などの有意な標準誤差を有するデータおよび上記の組み合わせを指す。ノイズデータは、開始材料(例えば、核酸サンプル)の量および/または質により生じることもあり、配列リードを作製するために使用されるDNAを作製または複製するプロセスの一部として生じることもある。特定の実施形態において、ノイズは、PCRに基づいた方法を使用して作製されるときに、特定の配列が過剰表現されることから生じる。本明細書に記載の方法は、ノイズデータの寄与を減少または排除することができ、それゆえ、提供された成果のノイズデータの影響を減少させる。
本明細書において使用される場合、用語「無益なデータ」、「無益なビン」、および「無益なゲノム片」は、所定の閾値から有意に異なり、または所定のカットオフの範囲の値からはずれている数値を有するゲノム片、またはそこから得られるデータを指す。本明細書における用語「閾」および「閾値」は、定量するデータセットを使用して算出され、遺伝的変異(例えば、コピー数多型、異数性、染色体異常など)の診断の限界として作用する任意の数字を指す。本明細書に記載の方法により得られた結果が閾を超え、被験体が、遺伝的変異(例えば、トリソミー21)と診断されることもある。いくつかの実施形態において、閾値または値の範囲は、多くの場合、(例えば、参照および/または被験体から)数学的および/または統計学的に配列リードデータを操作することにより算出され、特定の実施形態において、閾値または値の範囲を作製するよう操作された配列リードデータは、(例えば、参照および/または被験体からの)配列リードデータである。いくつかの実施形態において、不確定要素の値を決定する。不確定要素の値は一般に、分散または誤差の一測定であり、分散または誤差の任意の適切な測定であり得る。いくつかの実施形態において、不確定要素の値は、標準偏差、標準誤差、算出された分散、p値、または平均絶対偏差(MAD)であってよい。いくつかの実施形態において、不確定要素の値を、実施例6の式に従い算出することができる。
任意の適切な手法を、本明細書に記載のデータセットを処理するために利用することができる。データセットの処理に使用するのに適した手法の非限定的な例として、フィルタリング、正規化、重み付け、ピーク高のモニタリング、ピーク面積のモニタリング、ピーク端のモニタリング、面積比の決定、データの数学的処理、データの統計学的処理、統計学的アルゴリズムの適用、変数固定値の分析、変数最適値の分析、さらに処理するためのパターンまたは傾向変動を同定するためのデータのプロットなどおよび上記の組み合わせがある。いくつかの実施形態において、データセットを、種々の特徴(例えば、GC含量、冗長なマッピングされたリード、セントロメア領域、テロメア領域など、およびそれらの組み合わせ)および/または変数(例えば、胎児の性別、母体の年齢、母体の倍数性、胎児の核酸の寄与率など、またはそれらの組み合わせ)に基づいて処理する。特定の実施形態において、本明細書に記載のように、データセットを処理することにより、大きなおよび/または複雑なデータセットの複雑性および/または次元性を減少させることができる。複雑なデータセットの非限定的な例として、異なる年齢および民族背景の1例以上の試験被験体および複数の参照被験体から作製された配列リードデータを含む。いくつかの実施形態において、データセットは、各試験被験体および/または参照被験体における数千〜数百万の配列リードを含むことができる。
特定の実施形態において、データ処理を、任意の数のステップで行うことができる。例えば、いくつかの実施形態において、データを、単一の処理法のみを使用して処理し得、特定の実施形態において、データを、1つ以上、5つ以上、10以上または20以上の処理ステップ(例えば、1つまたはそれより多い処理ステップ、2つ以上の処理ステップ、3つ以上の処理ステップ、4つ以上の処理ステップ、5つ以上の処理ステップ、6つ以上の処理ステップ、7つ以上の処理ステップ、8つ以上の処理ステップ、9つ以上の処理ステップ、10以上の処理ステップ、11以上の処理ステップ、12以上の処理ステップ、13以上の処理ステップ、14以上の処理ステップ、15以上の処理ステップ、16以上の処理ステップ、17以上の処理ステップ、18以上の処理ステップ、19以上の処理ステップ、または20以上の処理ステップ)を使用して処理することができる。いくつかの実施形態において、処理ステップは、2回以上繰り返された同じステップ(例えば、2回以上のフィルタリング、2回以上の正規化)であってよく、特定の実施形態において、処理ステップは、同時にまたは連続して行われる、2つ以上の異なる処理ステップ(例えば、フィルタリング、正規化;ピーク高およびピーク端の正規化、モニタリング;フィルタリング、正規化、参照に対する正規化、p値を決定する統計学的操作など)であってよい。いくつかの実施形態において、同じまたは異なる処理ステップの任意の適切な数および/または組み合わせを、配列リードデータを処理するために利用し、成果の提供を容易にすることができる。特定の実施形態において、本明細書に記載の基準によりデータセットを処理することにより、データセットの複雑性および/または次元性を減少させることができる。
いくつかの実施形態において、1つまたはそれより多い処理ステップは、1つまたはそれより多いフィルタリングステップを含むことができる。本明細書において使用される場合、用語「フィルタリング」は、ゲノム片またはビンを考慮に入れないことを指す。ビンを、除去するために、冗長なデータ(例えば、冗長またはオーバーラッピングするマッピングされたリード)、非有益なデータ(例えば、中央値カウントがゼロのビン)、過剰表現または過小表現された配列のビン、ノイズデータなど、または上記の組み合わせを含むがそれらに限定されない任意の適切な基準に基づいて選択することができる。フィルタリングプロセスは、多くの場合、1つまたはそれより多いビンを考慮に入れないこと、および考慮に入れたビン、染色体もしくは各染色体、ゲノムのカウントされたまたは合計したカウントから、除去するために選択されたその1つまたはそれより多いビンのカウントを減算することを含む。いくつかの実施形態において、ビンを、連続して(例えば、各個々のビンの除去の効果の評価を可能にするために1回に1つ)除去することができ、特定の実施形態において、除去のためにマークされた全てのビンを、同時に除去することができる。いくつかの実施形態において、特定のレベルより上の、または下の分散を特徴とするゲノム片を除去するが、本明細書においてこれを「ノイズ」ゲノム片をフィルタリングするとして指すこともある。特定の実施形態において、フィルタリングプロセスは、所定の複数のプロファイルの分散毎に、ゲノム片、染色体、または染色体の断片の平均値プロファイル上昇から逸脱するデータ点をデータセットから得ることを含み、特定の実施形態において、フィルタリングプロセスは、所定の複数のプロファイルの分散毎に、ゲノム片、染色体または染色体の断片の平均値プロファイル上昇から逸脱しないデータ点をデータセットから除去することを含む。いくつかの実施形態において、フィルタリングプロセスを利用し、遺伝的変異の有無において分析した候補ゲノム片の数を減少させる。遺伝的変異(例えば、微小欠失、微小重複)の有無において分析した候補ゲノム片の数を減少させることは、多くの場合、データセットの複雑性、および/または次元性を減少させ、2桁以上の大きさの、遺伝的変異および/または遺伝的異常を検索し、かつ/または同定する速度を増加させることもある。
いくつかの実施形態において、1つまたはそれより多い処理ステップは、1つまたはそれより多い正規化ステップを含むことができる。正規化を、当技術分野に公知の適切な方法により行うことができる。正規化は、異なる尺度で測定された値を理論上で共通の尺度に調節することを含むこともある。正規化は、調節した値の確率分布を整列化する専門的な数学的調節を含むこともある。いくつかの例において、正規化は、分布を正常な分布に整列することを含む。正規化は、特定の全体的な影響(例えば、誤差および異常)の作用を排除する方法で、異なるデータセットにおいて対応する正規化された値の比較を可能にする数学的調節を含むこともある。正規化は、スケーリングを含むこともある。正規化は、所定の変数または式による1つまたはそれより多いデータセットの分割を含むこともある。正規化方法の非限定的な例として、ビンワイズ正規化、GC含量による正規化、線形および非線形の最小二乗回帰、LOESS、GC LOESS、LOWESS(局所重み付け散布図平滑化法)、PERUN、リピートマスキング(RM)、GC−正規化およびリピートマスキング(GCRM)、cQnおよび/またはそれらの組み合わせがある。いくつかの実施形態において、遺伝的変異(例えば、異数性)の有無の決定は、正規化方法(例えば、ビンワイズ正規化、GC含量による正規化、線形および非線形の最小二乗回帰、LOESS、GC LOESS、LOWESS(局所重み付け散布図平滑化法)、PERUN、リピートマスキング(RM)、GC−正規化およびリピートマスキング(GCRM)、cQn、当技術分野で公知の正規化方法および/またはそれらの組み合わせ)を利用する。
例えば、LOESSは、重回帰モデルとk近傍系メタモデルを組み合わせた、当技術分野において公知の回帰モデル法である。LOESSは、局所重み付け多項回帰と呼ばれることもある。いくつかの実施形態において、GC LOESSは、LOESSモデルを、フラグメントカウント(例えば、配列リード、カウント)と、ゲノム片におけるGC組成との関係に適用する。LOESSを使用するデータ点のセットを介して滑らかな曲線をプロットすることは、具体的に、各平滑化された値が、y軸の散布図の基準変数の値の範囲に対して、重み付けされた最小二乗の二次回帰により得られたときに、LOESS曲線と呼ばれることもある。データセットの各点において、LOESS法は、低次数多項式を、応答が推定される点近くの説明的な変数値を用いてデータのサブセットに当て嵌める。多項式を、応答が推定される点近くの点をより重み付けし、さらに離れている点をあまり重み付けしない、重み付け最小二乗を使用して当て嵌める。次いで、点に対する回帰関数の値を、そのデータ点に対する説明的変数値を使用して局所多項式を評価することにより得る。LOESS当て嵌めは、回帰関数値を、データ点のそれぞれにおいて、演算処理した後に、完了すると考えられることもある。多項式モデルの次数および重み付けなど、この方法の詳細の多くは、臨機応変に対応される。
任意の適切な数の正規化を使用することができる。いくつかの実施形態において、データセットを、1回以上、5回以上、10回以上または20回以上正規化することができる。データセットを、任意の適切な特徴または変数(例えば、サンプルデータ、参照データ、または両方)を表す値(例えば、正規化する値)に対して正規化することができる。使用することができるデータ正規化の種類の非限定的な例として、1つまたはそれより多い選択された試験ゲノム片または参照ゲノム片における未処理カウントデータを、選択されたゲノム片または各片をマッピングする染色体またはゲノム全体にマッピングされたカウントの合計数に対して正規化し、1つまたはそれより多い選択されたゲノム片における未処理カウントデータを、選択されたゲノム片または断片をマッピングする1つまたはそれより多いゲノム片または染色体における参照中央値カウントに対して正規化し、未処理カウントデータを、これまでの正規化されたデータまたはその導関数に対して正規化し、これまでの正規化されたたデータを、1つまたはそれより多い他の所定の正規化変数に対して正規化することを含む。データセットを正規化することは、所定の正規化変数として選択された特徴または特性に応じて、統計学的誤差を単離する作用を有することもある。データセットを正規化することはまた、データを共通の尺度(例えば、所定の正規化変数)にすることにより、異なる尺度を有するデータのデータ特質の比較を可能にすることもある。いくつかの実施形態において、統計学的に得られた値への1つまたはそれより多い正規化を利用し、データ差を最小にし、範囲外のデータの重要度を消失することができる。正規化する値に対して、ゲノム片またはビンを正規化することは、「ビンワイズ正規化」と呼ばれることもある。
特定の実施形態において、正規化を含む処理ステップは、スタティックウィンドウに対して正規化することを含み、いくつかの実施形態において、正規化を含む処理ステップは、ムービングまたはスライディングウィンドウに対して正規化することを含む。本明細書において使用される場合、用語「ウィンドウ」は、分析のために選択された1つまたはそれより多いゲノム片を指し、比較のための参照として使用されることもある(例えば、正規化および/または他の数学的もしくは統計学的操作に使用)。本明細書において使用される場合、用語「スタティックウィンドウに対して正規化する」は、試験被験体と参照被験体のデータセット間の比較のために選択された1つまたはそれより多いゲノム片を使用する正規化プロセスを指す。いくつかの実施形態において、選択されたゲノム片を利用してプロファイルを作製する。スタティックウィンドウは一般に、操作および/または分析中に変化しない所定のセットのゲノム片を含む。本明細書において使用される場合、用語「ムービングウィンドウに対して正規化する」および「スライディングウィンドウに対して正規化する」は、選択された試験ゲノム片のゲノム領域(例えば、直接のゲノム周囲物、隣接のゲノム片または各片など)に局在するゲノム片に行われた正規化を指し、この場合、1つまたはそれより多い選択された試験ゲノム片を、選択された試験ゲノム片を直接取り巻くゲノム片に対して正規化する。特定の実施形態において、選択されたゲノム片を利用してプロファイルを作製する。スライディングまたはムービングウィンドウ正規化は、多くの場合、隣接の試験ゲノム片に繰り返し移動または滑らせること、および新たに選択された試験ゲノム片を、新たに選択された試験ゲノム片を直接取り囲み、または隣接するゲノム片に対して正規化することを含み、この場合、隣接のウィンドウは、1つまたはそれより多い共通のゲノム片を有する。特定の実施形態において、複数の選択された試験ゲノム片および/または染色体を、スライディングウィンドウプロセスにより分析することができる。
いくつかの実施形態において、スライディングまたはムービングウィンドウに対して正規化することにより、それぞれが、異なる領域のゲノム(例えば、染色体)から選択された異なるセットの参照ゲノム片への正規化を表す1つまたはそれより多い値を作製することができる。特定の実施形態において、作製された1つまたはそれより多い値は、累積和(例えば、選択されたゲノム片、ドメイン(例えば、染色体の一部)または染色体)に対する正規化されたカウントプロファイルの積分の推定値)である。スライディングまたはムービングウィンドウプロセスにより作製された値を使用し、プロファイルを作製し、成果への到達を容易にすることができる。いくつかの実施形態において、1つまたはそれより多いゲノム片の累積和を、ゲノム位置の関数として表示することができる。ムービングまたはスライディングウィンドウ分析を使用し、微小欠失および/または微小挿入の有無においてゲノムを分析することもある。特定の実施形態において、1つまたはそれより多いゲノム片の累積和を表示することを使用し、遺伝的変異(例えば、微小欠失、微小重複)の領域の有無を同定する。いくつかの実施形態において、ムービングまたはスライディングウィンドウ分析を使用し、微小欠失を含有するゲノム領域を同定し、特定の実施形態において、ムービングまたはスライディングウィンドウ分析を使用し、微小重複を含有するゲノム領域を同定する。
核酸の指標と関連する誤差を減少させるための具体的に有用な正規化方法論は、本明細書において、誤差除去のパラメータ化および不偏正規化(Parameterized Error Removal and Unbiased Normalization)(PERUN)と呼ばれる。PERUN方法論を、このような指標に基づき、予測を混乱させる誤差の影響を減少させるため、種々の核酸の指標(例えば、核酸配列リード)に適用することができる。
例えば、PERUN方法論を、サンプルからの核酸配列リードに適用し、核酸上昇の決定(例えば、ゲノム片上昇の決定)を損ない得る誤差の影響を減少させることができる。このような適用は、核酸配列リードを使用し、種々のヌクレオチド配列(例えば、ゲノム片)の上昇として表れた被験体の遺伝的変異の有無を評価するのに有用である。ゲノム片の変異の非限定的な例は、染色体異数性(例えば、トリソミー21、トリソミー18、トリソミー13)および性染色体(例えば、女性のXX対男性のXY)の有無である。常染色体(例えば、性染色体以外の染色体)のトリソミーは、罹患常染色体と呼ばれ得る。ゲノム片上昇の変異の他の非限定的な例として、微小欠失、微小挿入、重複およびモザイクがある。
特定の用途において、PERUN方法論は、ビンと呼ばれる、具体的なゲノム群における核酸の指標を正規化することによりバイアス実験値を減少させることができる。ビンは、適切な核酸の指標の集合を含み、その非限定的な例として、本明細書においてゲノム片または参照ゲノムの部分と呼ばれる連続ヌクレオチド長がある。ビンは、本明細書に記載のように、他の核酸の指標を含むことができる。このような用途において、PERUN方法論は一般に、3次元において、多くのサンプル全体の具体的なビンにて核酸の指標を正規化する。具体的なPERUN適用の詳細な説明を、本明細書の実施例4および実施例5に記載する。
特定の実施形態において、PERUN方法論は、(i)配列リードをマッピングする参照ゲノムのビンにおけるバイアス実験値と(ii)ビンにマッピングされた配列リードのカウントとの間のフィットさせた関係から各ビンのゲノム片の上昇を算出することを含む。ビンのそれぞれのバイアス実験値を、(i)ビンのそれぞれにマッピングされた配列リードのカウントと(ii)ビンのそれぞれにおけるマッピングの特徴(a mapping feature fore each of the bins)との各サンプルについてフィットさせた関係に従い複数のサンプル全体に決定することができる。各サンプルのこのフィットさせた関係を、複数のサンプルに対して3次元に組み立てることができる。アセンブリは、特定の実施形態(例えば実施例4の図82)のバイアス実験値に従い、順序付けられるが、PERUN方法論は、バイアス実験値に従い、アセンブリを順序付けすることなく、実施することができる。
関係を、当技術分野で公知の方法により作製することができる。特定の実施形態において、2次元の関係を各サンプルに対して作製することができ、誤差の可変的誘発要因(probative)または誤差の考えられる誘発要因を、1つまたはそれより多い次元において選択することができる。関係を、例えば、ユーザーにより提供される2つ以上の変数の値を使用して、グラフをプロットする、当技術分野において公知のグラフ作成ソフトウェアを使用して作製することができる。関係を、当技術分野において公知の方法(例えば、グラフ作成ソフトウェア)を使用して当て嵌めることができる。特定の関係を、線形回帰により当て嵌めることができ、線形回帰により、傾きの値および切片の値を作製することができる。特定の関係は、線形ではないこともあり、例えば、放物線関数、双曲線関数または指数関数などの非直線関数により当て嵌めることができる。
PERUN方法論において、フィットさせた関係の1つ以上は、線形であり得る。妊娠女性からの細胞非含有血中核酸の分析において、バイアス実験値がGCバイアスであり、マッピング特徴がGC含量である場合、(i)各ビンにマッピングされる配列リードのカウントと、(ii)ビンのそれぞれに対するGC含量との間のサンプルに対するフィットさせた関係は、線形であり得る。すぐ上に記載のフィットさせた関係において、傾きはGCバイアスに属し、GCバイアス係数は、フィットさせた関係を複数のサンプル全体に組み立てるときに、各ビンにおいて決定することができる。このような実施形態において、複数のサンプルと、(i)ビンに対するGCバイアス係数と、(ii)ビンにマッピングされる配列リードのカウントとの間のビンにおけるフィットさせた関係も、線形であり得る。切片および傾きを、すぐに上に記載のフィットさせた関係から得ることができる。このような適用において、傾きが、GC含量に基づいたサンプル特異的バイアスに対応し、切片が、全てのサンプルに共通のビン特異的な減衰パターンに対応する。PERUN方法論は、成果(例えば、遺伝的変異の有無、胎児の性別決定)を提供するゲノム片の上昇を算出するときに、このようなサンプル特異的バイアスおよびビン特異的減衰を顕著に減少させることができる。
したがって、並列した複数のサンプル全体の配列リードへのPERUN方法論の適用は、(i)サンプル特異的バイアス実験値(例えば、GCバイアス)および(ii)サンプルに共通するビン特異的減衰により生じる誤差を顕著に減少させることができる。これら2つの誤差源のそれぞれに、個別に、または連続して対応する他の方法は、多くの場合、PERUN方法論と同じように効率的にこれらを減少させることはできない。理論に限定されないが、PERUN方法論は、その一般的な加算法が、他の正規化方法(例えば、GC−LOESS)で利用される一般的な乗算法と同じようなかなりの広がりに拡大しないため、部分的により効率的に誤差を減少させることが期待される。
追加の正規化および統計学的技法を、PERUN方法論と組み合わせて利用することができる。追加のプロセスをPERUN方法論の使用前、後、および/または使用中に適用することができる。PERUN方法論と組み合わせて使用することができるプロセスの非限定的な例を以下に説明する。
いくつかの実施形態において、GC含量に対するゲノム片の上昇の第2の正規化または調節を、PERUN方法論と組み合わせて利用することができる。適切なGC含量の調節または正規化方法を利用することができる(例えば、GC−LOESS、GCRM)。特定の実施形態において、具体的なサンプルを、追加のGC正規化プロセスを適用するために同定することができる。例えば、PERUN方法論の適用により、各サンプルにおけるGCバイアスを決定することができ、特定の閾を超えてGCバイアスと関連するサンプルを、追加のGC正規化プロセス用に選択することができる。このような実施形態において、所定の閾の上昇を使用し、追加のGC正規化のためのこのようなサンプルを選択することができる。
特定の実施形態において、ビンフィルタリングまたは重み付けプロセスを、PERUN方法論と組み合わせて利用することができる。適切なビンフィルタリングまたは重み付けプロセスを利用することができ、非限定的な例を本明細書において説明する。実施例4および5は、ビンフィルタリングに対する誤差のR因子測定値の利用について説明する。
GCバイアスモジュール
GCバイアスを決定することを(例えば、参照ゲノム(例えば、ゲノム片)の各部分のそれぞれに対するGCバイアスを決定すること)、GCバイアスモジュールにより(例えば、GCバイアスモジュールを含む装置により)提供することができる。いくつかの実施形態において、GCバイアスモジュールは、GCバイアスの決定を提供することを要求される。GCバイアスモジュールは、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、各部分のGC含量とのフィットさせた関係(例えば、フィットさせた線形関係)からGCバイアスの決定を提供することもある。GCバイアスモジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、GCバイアスの決定(すなわち、GCバイアスデータ)は、GCバイアスモジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、GCバイアスデータは、マルチプロセッサ、例えば、並列に協動し、作用するプロセッサを含む装置により提供される。いくつかの実施形態において、GCバイアスモジュールは、1つまたはそれより多い外部のプロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、GCバイアスデータは、以下の1つ以上を含む装置により提供される:1つまたはそれより多いフローセル、カメラ、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。GCバイアスモジュールは、適切な装置またはモジュールからデータおよび/または情報を受信することができる。GCバイアスモジュールは、シークエンシングモジュール、正規化モジュール、重み付けモジュール、マッピングモジュールまたはカウンティングモジュールからデータおよび/または情報を受信することができることもある。GCバイアスモジュールは、正規化モジュール(例えば、PERUN正規化モジュール)の一部であることもある。いくつかの実施形態において、GCバイアスモジュールは、シークエンシングモジュールからシークエンシングリード、マッピングモジュールからマッピングされた配列リードおよび/またはカウンティングモジュールからカウントを受信することができる。多くの場合、GCバイアスは、ある装置または別のモジュール(例えば、カウンティングモジュール)からデータおよび/または情報を受信し、データおよび/または情報を変換し、GCバイアスデータおよび/または情報(例えば、GCバイアスの決定、フィットさせた線形関係など)を提供する。特定の実施形態において、GCバイアスデータおよび/または情報を、GCバイアスモジュールから、レベルモジュール、フィルタリングモジュール、比較モジュール、正規化モジュール、重み付けモジュール、範囲設定モジュール、調節モジュール、分類モジュール、および/または成果モジュールに転送することができる。
レベルモジュール
参照ゲノムの各部分に対してレベル(例えば、上昇)を決定すること、および/またはゲノム片レベル(例えば、ゲノム片の上昇)を算出することを、レベルモジュールにより(例えば、レベルモジュールを含む装置により)提供することができる。いくつかの実施形態において、レベルモジュールは、レベルまたは算出されたゲノム片レベルを提供することを要求される。レベルモジュールは、GCバイアスと、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係(例えば、フィットさせた線形関係)からレベルを提供することもある。レベルモジュールは、PERUNの一部としてゲノム片レベルを算出することもある。いくつかの実施形態において、レベルモジュールは、式L=(m−GS)I−1(式中、GはGCバイアスであり、mは参照ゲノムの各部分にマッピングされたカウント測定値であり、iはサンプルであり、Iは切片であり、SはGCバイアスと、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係(例えば、フィットさせた線形関係)の傾きである)に従い、ゲノム片レベル(すなわち、L)を提供する。レベルモジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、レベルの決定(すなわち、レベルデータ)は、レベルモジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、レベルデータは、マルチプロセッサ、例えば、並列に協動し、作業するプロセッサを含む装置により提供される。いくつかの実施形態において、レベルモジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、レベルデータは、以下の1つ以上を含む装置により提供される:1つまたはそれより多いフローセル、カメラ、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。レベルモジュールは、適切な装置またはモジュールからデータおよび/または情報を受信することができる。レベルモジュールは、GCバイアスモジュール、シークエンシングモジュール、正規化モジュール、重み付けモジュール、マッピングモジュールまたはカウンティングモジュールからデータおよび/または情報を受信することができることもある。いくつかの実施形態において、レベルモジュールは、シークエンシングモジュールからシークエンシングリード、マッピングモジュールからマッピングされたシークエンシングリードおよび/またはカウンティングモジュールからカウントを受信することができる。レベルモジュールは、正規化モジュール(例えば、PERUN正規化モジュール)の一部であることもある。多くの場合、レベルモジュールは、ある装置または別のモジュール(例えば、GCバイアスモジュール)からデータおよび/または情報を受信し、データおよび/または情報を変換し、レベルデータおよび/または情報(例えば、レベルの決定、フィットさせた線形関係など)を提供する。特定の実施形態において、レベルデータおよび/または情報を、レベルモジュールから、比較モジュール、正規化モジュール、重み付けモジュール、範囲設定モジュール、調節モジュール、分類モジュール、正規化モジュールのモジュールおよび/または成果モジュールに転送することができる。
フィルタリングモジュール
ゲノム片をフィルタリングすることを、フィルタリングモジュールにより(例えば、フィルタリングモジュールを含む装置により)提供することができる。いくつかの実施形態において、フィルタリングモジュールは、フィルタリングされたゲノム片データ(例えば、フィルタリングされたゲノム片)を提供し、かつ/またはゲノム片を考慮に入れないことを要求される。フィルタリングモジュールは、ゲノム片にマッピングされたカウントを考慮に入れないこともある。フィルタリングモジュールは、上昇またはプロファイルの決定からゲノム片にマッピングされたカウントを除去することもある。フィルタリングモジュールは、当技術分野において公知の、または本明細書に記載の1つまたはそれより多いフィルタリング法によりデータ(例えば、カウント、ゲノム片にマッピングされたカウント、ゲノム片、ゲノム片の上昇、正規化されたカウント、未処理カウントなど)をフィルタリングすることができる。フィルタリングモジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、フィルタリングされたデータは、フィルタリングモジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、フィルタリングされたデータは、マルチプロセッサ、例えば、並列に協動し、作業するプロセッサを含む装置により提供される。いくつかの実施形態において、フィルタリングモジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、フィルタリングされたデータは、以下の1つ以上を含む装置により提供される:1つまたはそれより多いフローセル、カメラ、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。フィルタリングモジュールは、適切な装置またはモジュールからデータおよび/または情報を受信することができる。フィルタリングモジュールは、シークエンシングモジュール、正規化モジュール、重み付けモジュール、マッピングモジュールまたはカウンティングモジュールからデータおよび/または情報を受信することができることもある。いくつかの実施形態において、フィルタリングモジュールは、シークエンシングモジュールからシークエンシングリード、マッピングモジュールからマッピングされたシークエンシングリードおよび/またはカウンティングモジュールからカウントを受信することができる。多くの場合、フィルタリングモジュールは、別の装置またはモジュールからデータおよび/または情報を受信し、データおよび/または情報を変換し、フィルタリングされたデータおよび/または情報(例えば、フィルタリングされたカウント、フィルタリングされた値、フィルタリングされたゲノム片など)を提供する。特定の実施形態において、フィルタリングされたデータおよび/または情報を、フィルタリングモジュールから、比較モジュール、正規化モジュール、重み付けモジュール、範囲設定モジュール、調節モジュール、分類モジュール、および/または成果モジュールに転送することができる。
重み付けモジュール
ゲノム片を重み付けすることを、重み付けモジュールにより(例えば、重み付けモジュールを含む装置により)提供することができる。いくつかの実施形態において、重み付けモジュールは、ゲノム片を重み付けし、かつ/または重み付けされたゲノム片値を提供することを要求される。重み付けモジュールは、当技術分野において公知の、または本明細書に記載の1つまたはそれより多い重み付け方法により、ゲノム片を重み付けすることができる。重み付けモジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、重み付けされたゲノム片は、重み付けモジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、重み付けされたゲノム片は、マルチプロセッサ、例えば、並列に協動し、作用するプロセッサを含む装置により提供される。いくつかの実施形態において、重み付けモジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、重み付けされたゲノム片は、以下の1つ以上を含む装置により提供される:1つまたはそれより多いフローセル、カメラ、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。重み付けモジュールは、適切な装置またはモジュールからデータおよび/または情報を受信することができる。重み付けモジュールは、シークエンシングモジュール、正規化モジュール、フィルタリングモジュール、マッピングモジュールおよび/またはカウンティングモジュールからデータおよび/または情報を受信することができることもある。いくつかの実施形態において、重み付けモジュールは、シークエンシングモジュールからシークエンシングリード、マッピングモジュールからマッピングされたシークエンシングリードおよび/またはカウンティングモジュールからカウントを受信することができる。いくつかの実施形態において、重み付けモジュールは、別の装置またはモジュールからデータおよび/または情報を受信し、データおよび/または情報を変換し、データおよび/または情報(例えば、重み付けされたゲノム片、重み付けされた値など)を提供する。特定の実施形態において、重み付けされたゲノム片データおよび/または情報を、重み付けモジュールから、比較モジュール、正規化モジュール、フィルタリングモジュール、範囲設定モジュール、調節モジュール、分類モジュール、および/または成果モジュールに転送することができる。
いくつかの実施形態において、挿入、重複および/または欠失に関連する誤差(例えば、母体および/または胎児のコピー数多型)を減少させる正規化技法を、PERUN方法論と合わせて利用する。
PERUN方法論により算出されたゲノム片の上昇を、成果を提供するために直接利用することができる。いくつかの実施形態において、ゲノム片の上昇を、胎児画分が約2%〜約6%以上(例えば、約4%以上の胎児画分)であるサンプルの成果を提供するために直接利用することができる。PERUN法により算出されたゲノム片の上昇を、成果を提供するためにさらに処理することもある。いくつかの実施形態において、算出されたゲノム片の上昇を標準化する。特定の実施形態において、試験ゲノム片(例えば、第21番染色体)において算出されたゲノム片の上昇の和、平均値または中央値を、試験ゲノム片以外のゲノム片(例えば、第21番染色体以外の常染色体)において算出されたゲノム片の上昇の和、平均値または中央値により除算し、ゲノム片の上昇の実験値を作製することができる。ゲノム片の上昇の実験値または未処理のゲノム片の上昇を、標準化分析、例えば、ZスコアまたはZ値の算出の一部として使用することができる。Zスコアを、ゲノム片の上昇の実験値からゲノム片の上昇の期待値を減算することによりサンプル用に作製することができ、または未処理のゲノム片の上昇および得られた値を、サンプルに対する標準偏差で除算することができる。特定の実施形態において、得られたZスコアを、異なるサンプルにおいて分布させ、分析することができ、他の変数、例えば、胎児画分などに関連させ、分析し、成果を提供することができる。
本明細書において記載されるように、PERUN方法論は、GCバイアスおよびGC含量そのものに従った正規化に限定されず、他の誤差源と関連する誤差を減少させるために使用することができる。非GC含量バイアス源の非限定的な例は、マッピング性である。GCバイアスおよび含量以外の正規化パラメータに対応するときに、フィットさせた関係の1つ以上は、非線形(例えば、双曲線、指数)であり得る。いくつかの実施形態において、バイアス実験値が非線形関係から決定される場合、例えば、バイアス実験値の曲率推定値を分析することができる。
PERUN方法論を、種々の核酸の指標に適用させることができる。核酸の指標の非限定的な例は、マイクロアレイ上の具体的な位置の核酸配列リードおよび核酸の上昇である。配列リードの非限定的な例として、細胞非含有血中DNA、細胞非含有血中RNA、細胞DNAおよび細胞RNAから得られたものを含む。PERUN方法論を、適切な参照配列、例えば、ゲノム参照DNA、細胞参照RNA(例えば、トランスクリプトーム)、およびその各部分(例えば、DNAまたはRNAトランスクリプトームのゲノム相補体の一部(各部分)、染色体の一部(各部分))にマッピングされた配列リードに適用することができる。
したがって、特定の実施形態において、細胞核酸(例えば、DNAまたはRNA)は、核酸の指標として作用することができる。参照ゲノム部分にマッピングされた細胞核酸リードを、PERUN方法論を使用して正規化することができる。
細胞核酸は、1つまたはそれより多いタンパク質との会合があることもあり、いくつかの実施形態において、タンパク質会合核酸を捕捉する物質を利用し、タンパク質会合核酸を富化することができる。特定の例において、物質は、細胞核酸と会合するタンパク質に特異的に結合する抗体または抗体フラグメント(例えば、クロマチンタンパク質(例えば、ヒストンタンパク質)に特異的に結合する抗体)である。抗体または抗体フラグメントを使用し、具体的なタンパク質に結合させる細胞核酸を富化するプロセスは、クロマチン免疫沈降(ChIP)法と呼ばれることもある。ChIP富化された核酸は、細胞タンパク質と会合する核酸、例えば、DNAまたはRNAなどである。ChIP富化された核酸のリードを、当技術分野において公知の技術を使用して得ることができる。ChIP富化された核酸のリードを、参照ゲノムの1つまたはそれより多い部分にマッピングすることができ、結果は、成果を提供するためにPERUN方法論を使用して正規化することができる。
したがって、特定の実施形態において、以下を含む、試験サンプルにおけるバイアスゲノム片の上昇の減少を算出する方法を提供する:(a)参照ゲノムのビンにマッピングされた配列リード(核酸と会合したタンパク質の単離により得られた試験サンプルからの細胞核酸のリードである)のカウントを得、(b)(i)ビンのそれぞれにマッピングされた配列リードのカウントと、(ii)ビンのそれぞれにおけるマッピング特徴とのフィットさせた関係から、複数のサンプル全体のビンのそれぞれに対するバイアス実験値を決定し、(c)バイアス実験値と、ビンのそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係からビンのそれぞれに対するゲノム片の上昇を算出し、それにより、算出されたゲノム片の上昇を提供することにより、ビンのそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片の上昇において減少する。
特定の実施形態において、細胞RNAは、核酸の指標として作用することができる。細胞RNAリードを、参照RNA部分にマッピングし、成果を提供するためにPERUN方法論を使用して正規化することができる。トランスクリプトームと呼ばれる、細胞RNAにおける既知の配列またはその断片を、サンプルからのRNAリードをマッピングすることができる参照として使用することができる。サンプルRNAのリードは、当技術分野において公知の技術を使用して得ることができる。参照にマッピングされたRNAリードの結果を、成果を提供するためにPERUN方法論を使用して正規化することができる。
したがって、いくつかの実施形態において、以下を含む、試験サンプルにおけるバイアスゲノム片の上昇の減少を算出する方法を提供する:(a)参照RNA(例えば、参照トランスクリプトームまたはその断片(各断片))のビンにマッピングされた配列リード(試験サンプルからの細胞RNAのリードである)のカウントを得、(b)(i)ビンのそれぞれにマッピングされた配列リードのカウントと、(ii)ビンのそれぞれにおけるマッピング特徴とのフィットさせた関係から、複数のサンプル全体のビンのそれぞれに対するバイアス実験値を決定し、(c)バイアス実験値と、ビンのそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係からビンのそれぞれに対するゲノム片の上昇を算出し、それにより、算出されたゲノム片の上昇を提供することにより、ビンのそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片の上昇において減少する。
いくつかの実施形態において、マイクロアレイ核酸レベルは、核酸の指標として作用することができる。アレイの具体的なアドレスに対するサンプル全体の核酸レベルまたはハイブリダイズする核酸を、PERUN方法論を使用して分析し、それによりマイクロアレイ分析により提供された核酸の指標を正規化することができる。このように、マイクロアレイ上の具体的なアドレスまたはハイブリダイズする核酸は、マッピングされた核酸配列リードに対するビンに類似し、PERUN方法論を使用して、改良された成果を提供するマイクロアレイデータを正規化することができる。
したがって、特定の実施形態において、以下を含む、試験サンプルのマイクロアレイ核酸レベルの誤差を減少させる方法を提供する:試験核酸サンプルと会合しているマイクロアレイ(捕捉核酸のアレイを含む)の核酸レベルを得、(b)(i)捕捉核酸のそれぞれに会合する試験サンプル核酸レベルと、(ii)捕捉核酸のそれぞれにおける会合特徴とのフィットさせた関係から、複数のサンプル全体の捕捉核酸のそれぞれに対するバイアス実験値を決定し、(c)バイアス実験値と、捕捉核酸のそれぞれに会合する試験サンプル核酸のレベルとのフィットさせた関係から捕捉核酸のそれぞれに対する試験サンプル核酸レベルを算出し、それにより、算出されたレベルを提供することにより、捕捉核酸に会合する試験サンプル核酸のレベルのバイアスが、算出されたレベルにおいて減少する。上記の会合の特徴は、試験サンプル核酸と捕捉核酸のハイブリダイズに相関する任意の特徴であり得、これは、捕捉核酸と会合する試験サンプル核酸のレベルを決定するときに誤差を生じ、または生じうる。
正規化モジュール
正規化されたデータ(例えば、正規化されたカウント)を、正規化モジュールにより(例えば、正規化モジュールを含む装置により)提供することができる。いくつかの実施形態において、正規化モジュールは、シークエンシングリードから得られた正規化されたデータ(例えば、正規化されたカウント)を提供することを要求される。正規化モジュールは、当技術分野において公知の1つまたはそれより多い正規化方法により、データ(例えば、カウント、フィルタリングされたカウント、未処理のカウント)を正規化することができる。正規化モジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、正規化されたデータは、正規化モジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、正規化されたデータは、マルチプロセッサ、例えば、並列に協動し、作用するプロセッサを含む装置により提供される。いくつかの実施形態において、正規化モジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、正規化されたデータは、以下の1つ以上を含む装置により提供される:1つまたはそれより多いフローセル、カメラ、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。正規化モジュールは、適切な装置またはモジュールからデータおよび/または情報を受信することができる。正規化モジュールは、シークエンシングモジュール、正規化モジュール、マッピングモジュールまたはカウンティングモジュールからデータおよび/または情報を受信することができることもある。いくつかの実施形態において、正規化モジュールは、シークエンシングモジュールからシークエンシングリード、マッピングモジュールからマッピングされたシークエンシングリードおよび/またはカウンティングモジュールからカウントを受信することができる。多くの場合、正規化モジュールは、別の装置またはモジュールからデータおよび/または情報を受信し、データおよび/または情報を変換し、正規化されたデータおよび/または情報(例えば、正規化されたカウント、正規化された値、正規化された参照値(NRV)など)を提供する。特定の実施形態において、正規化されたデータおよび/または情報を、正規化モジュールから、比較モジュール、正規化モジュール、範囲設定モジュール、調節モジュール、分類モジュール、および/または成果モジュールに転送することができる。正規化されたカウント(例えば、正規化されマッピングされたカウント)を、正規化モジュールから期待される表示モジュールおよび/または実験の表示モジュールに転送することもある。
いくつかの実施形態において、処理ステップは、重み付けを含む。本明細書において使用される場合、用語「重み付けされた」、「重み付けする」もしくは「重み付け関数」または文法的派生語あるいはその等価物は、他のデータセットの特徴または変数に対して特定のデータセットの特徴または変数の影響を変更する(例えば、選択されたビンまたは各ビンのデータの品質または有用性に基づき、1つまたはそれより多いゲノム片またはビンに含有されるデータの重要性および/または寄与を増減させる)ために利用することもあるデータセットの一部または全ての数学的操作を指す。いくつかの実施形態において、重み付け関数を使用し、測定値の分散が相対的に小さいデータの影響を増加させ、かつ/または測定値の分散が相対的に大きいデータの影響を低下させることができる。例えば、過小表示のビンまたは低品質の配列データを、「重み付けを減らし」、データセットの影響を最小限にすることができる一方で、選択されたビンを、「重み付けを増やし」、データセットの影響を増加させることができる。重み付け関数の非限定的な例は、[1/(標準偏差)]である。重み付けステップは、正規化ステップと実質的に同様な方法において行われることもある。いくつかの実施形態において、データセットを、所定の変数(例えば、重み付け変数)で除算する。所定の変数(例えば、最小標的関数、ファイ)は、多くの場合、データセットの異なる部分を別々に重み付けするよう選択される(例えば、特定の種類のデータの影響を増加させるが、他の種類のデータの影響を低下させる)。
特定の実施形態において、処理ステップは、1つまたはそれより多い数学的および/または統計学的操作を含むことができる。任意の適切な数学的および/または統計学的操作を単一または組み合わせて使用し、本明細書に記載のデータセットを分析し、かつ/または操作することができる。任意の適切な数の数学的および/または統計学的操作を使用することができる。いくつかの実施形態において、データセットを、数学的および/または統計学的に1回以上、5回以上、10回以上または20回以上操作することができる。使用することができる数学的および統計学的操作の非限定的な例として、加算、減算、乗算、除算、代数関数、最小二乗推定量、曲線のフィット、微分方程式、有理多項式、二重多項式、直交多項式、Zスコア、p値、カイ値、ファイ値、ピーク上昇の分析、ピーク端の位置決定、ピーク面積比の算出、染色体の上昇の中央値分析、平均絶対偏差の算出、残差二乗和、平均値、標準偏差、標準誤差などまたはそれらの組み合わせがある。数学的および/または統計学的操作を、配列リードデータの全てまたは一部、あるいはその処理された生成物に行うことができる。統計学的操作をすることができるデータセットの変数または特徴の非限定的な例として、未処理のカウント、フィルタリングされたカウント、正規化カウント、ピーク高、ピーク幅、ピーク面積、ピーク端、片側公差、P値、上昇中央値、上昇平均値、ゲノム領域内のカウント分布、核酸種の相対的表示など、またはそれらの組み合わせがある。
いくつかの実施形態において、処理ステップは、1つまたはそれより多い統計学的アルゴリズムの使用を含むことができる。任意の適切な統計学的アルゴリズムを、単独または組み合わせて使用し、本明細書に記載のデータセットを分析し、かつ/または操作することができる。任意の適切な数の統計学的アルゴリズムを使用することができる。いくつかの実施形態において、データセットを、1個以上、5個以上、10個以上または20個以上の統計学的アルゴリズムを使用して分析することができる。本明細書に記載の方法とともに使用するのに適した統計学的アルゴリズムの非限定的な例として、決定木、カウントヌル、多重比較、オムニバス検定、ベーレンス・フィッシャー問題、ブートストラップ法、Fisher独立有意検定合成法(Fisher’s method for combining independent tests of significance)、帰無仮説、第1種過誤、第2種過誤、正確確率検定、1サンプルZ検定、2サンプルZ検定、1サンプルt検定、対応のあるt検定、等分散の2サンプルの合併t検定、不等分散の2サンプルの非合併t検定、1比率Z検定、合併2比率Z検定、非合併2比率Z検定、1サンプルカイ二乗検定、等分散の2サンプルF検定、信頼区間、信用区間、有意差、メタ解析、線形単回帰、ロバスト線形回帰など、または上記の組み合わせがある。統計学的アルゴリズムを使用して分析することができるデータセット変数または特徴の非限定的な例として、未処理のカウント、フィルタリングされたカウント、正規化されたカウント、ピーク高、ピーク幅、ピーク端、片側公差、P値、上昇の中央値、上昇の平均値、ゲノム領域内のカウント分布、核酸種の相対的表示など、またはそれらの組み合わせがある。
特定の実施形態において、データセットを、倍数(例えば、2以上)統計学的アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、k近傍法、ロジスティック回帰および/またはLOESS平滑化(loss smoothing))および/または数学的および/または統計学的操作(例えば、本明細書において、操作と呼ばれるもの)を利用することにより分析することができる。いくつかの実施形態において、倍数操作の使用により、成果を提供するために使用することができるN次元空間を作製することができる。特定の実施形態において、倍数操作を利用することによるデータセットの分析により、データセットの複雑性および/または次元性を減少させることができる。例えば、参照データセットに倍数操作を使用することにより、参照サンプルの遺伝的状態(例えば、選択された遺伝的変異に対する陽性または陰性)に応じて、遺伝的変異の有無を表すために使用することができるN次元空間(例えば、確率プロット)を作製することができる。実質的に同様な操作セットを使用する、試験サンプルの分析を使用し、試験サンプルのそれぞれにおいて、N次元点を作製することができる。試験被験体のデータセットの複雑性および/または次元性が、参照データから作製されたN次元空間と容易に比較することができる単一値またはN次元点に帰着することもある。参照被験体データにより集められたN次元空間内にある試験サンプルデータは、参照被験体のものと実質的同様の遺伝的状態を示す。参照被験体データにより集められたN次元空間外にある試験サンプルデータは、参照被験体のものと実質的に類似していない遺伝的状態を示す。いくつかの実施形態において、参照は正倍数体であり、またはさもなければ、遺伝的変異または病状を有していない。
いくつかの実施形態において、データセットをカウントし、場合によりフィルタリングし、正規化した後、処理されたデータセットを、1回以上のフィルタリングおよび/または正規化方法によりさらに操作することができる。特定の実施形態において、1回以上のフィルタリングおよび/または正規化方法によりさらに操作されたデータセットを使用し、プロファイルを作製することができる。いくつかの実施形態において、1回以上のフィルタリングおよび/または正規化方法は、データセットの複雑性および/または次元性を減少させることができることがある。成果を、複雑性および/または次元性を減少させたデータセットに基づき提供することができる。
本明細書において、ゲノム片のフィルタリングの非限定的な例は、PERUN法において実施例4で提供される。ゲノム片を、誤差の測定値に基づきまたは一部基づき、フィルタリングすることができる。特定の実施形態において、R因子などの偏差の絶対値を含む誤差の測定値をゲノム片の除去または重み付けに使用することができる。いくつかの実施形態において、R因子は、実際の測定値からのカウント予測値で除算した、実際の測定値からのカウント予測値の絶対偏差の和として定義される(例えば、本明細書において、式B)。偏差の絶対値を含む誤差の測定値を使用するが、代替えとして、適切な誤差の測定値を使用し得る。特定の実施形態において、偏差の絶対値を含まない誤差の測定値、例えば、二乗に基づくばらつきを利用することができる。いくつかの実施形態において、ゲノム片を、マッピング性の測定値(例えば、マッピング性スコア;実施例5)に従い、フィルタリングし、または重み付けする。ゲノム片を、ゲノム片にマッピングされた、相対的に少ない数の配列リード(例えば、ゲノム片にマッピングされた0、1、2、3、4、5リード)に従い、フィルタリングし、または重み付けする。ゲノム片を、行われる分析の種類に従い、フィルタリングし、または重み付けすることができる。例えば、第13番染色体、第18番染色体および/または第21番染色体異数性分析において、性染色体をフィルタリングすることができ、常染色体または常染色体のサブセットのみを分析することができる。
具体的な実施形態において、以下のフィルタリングプロセスを使用することができる。所与の染色体(例えば、第21番染色体)内のゲノム片(例えば、ビン)の同じセットを選択し、罹患および非罹患サンプルのリード数を比較する。ギャップは、トリソミー21および正倍数体サンプルに関連し、第21番染色体の大部分を包含するゲノム片のセットを含む。ゲノム片のセットは、正倍数体と、T21サンプルとの間で同じである。ゲノム片のセットと単一の片との区別は、ゲノム片を定義することができる場合、重要ではない。同じゲノム領域を、異なる患者で比較する。このプロセスを、トリソミー分析、例えば、T21にに加え、または代わりにT13またはT18に利用することができる。
いくつかの実施形態において、データセットをカウントし、場合によりフィルタリングし、正規化した後、処理されたデータセットを、重み付けすることにより操作することができる。特定の実施形態において、1つまたはそれより多いゲノム片を、選択されたゲノム片に含有するデータの影響(例えば、ノイズデータ、無益なデータ)を減少させるよう重み付けするために選択することができ、いくつかの実施形態において、1つまたはそれより多いゲノム片を、選択されたゲノム片に含有するデータの影響(例えば、分散の測定値の小さいデータ)を強化し、または増大させるよう重み付けするために選択することができる。いくつかの実施形態において、データセットを、分散の大きいデータの影響を低下させ、分散の小さいデータの影響を増加させる単一の重み付け関数を利用して重み付けする。重み付け関数を使用し、分散の大きいデータの影響を減少させ、分散の小さいデータの影響を増大させることもある(例えば、[1/(標準偏差)])。いくつかの実施形態において、重み付けによりさらに操作され、処理されたデータのプロファイルプロットを作製し、分類および/または成果を提供することを容易にする。成果を、重み付けデータのプロファイルプロットに基づき提供することができる。
ゲノム片をフィルタリングまたは重み付けすることを、分析内の1つまたはそれより多い適切な段階にて行うことができる。例えば、ゲノム片を、配列リードが参照ゲノムの各部分にマッピングされる前または後にフィルタリングし、または重み付けすることができる。いくつかの実施形態において、ゲノム片を、個々のゲノム部分に対するバイアス実験値を決定する前または後にフィルタリングし、または重み付けすることができる。特定の実施形態において、ゲノム片を、ゲノム片の上昇を算出する前または後にフィルタリングし、または重み付けすることができる。
いくつかの実施形態において、データセットをカウントし、場合によりフィルタリングし、正規化し、場合により重み付けした後、処理されたデータセットを、1つまたはそれより多い数学的および/または統計学的(例えば、統計学的関数または統計学的アルゴリズム)操作により操作することができる。特定の実施形態において、処理されたデータセットを、1つまたはそれより多い選択されたゲノム片、染色体、または染色体の各部分に対するZスコアを算出することによりさらに操作することができる。いくつかの実施において、処理されたデータセットを、P値を算出することによりさらに操作することができる。ZスコアおよびP値を算出するための式を、実施例1に示す。特定の実施形態において、数学的および/または統計学的操作は、倍数性および/または胎児画分に関する1つまたはそれより多い推定値を含む。いくつかの実施形態において、1つまたはそれより多い統計学的および/または数学的操作によりさらに操作された、処理されたデータのプロファイルプロットを作製し、分類および/または成果を提供することを容易にする。成果を、統計学的および/または数学的に操作されたデータのプロファイルプロットに基づき、提供することができる。統計学的および/または数学的に操作されたデータのプロファイルプロットに基づき提供された成果は、多くの場合、倍数性および/または胎児画分に関する1つまたはそれより多い推定値を含む。
特定の実施形態において、複数の操作を処理されたデータセットに行い、データセットをカウントし、場合によりフィルタリングし、および正規化した後に、N次元空間および/またはN次元点を作製する。成果を、N次元で分析したデータセットのプロファイルプロットに基づき提供することができる。
いくつかの実施形態において、データセットを、データセットを処理し、かつ/または操作する一部として、または処理し、かつ/または操作した後に、1つまたはそれより多いピーク上昇分析、ピーク幅分析、ピーク端位置分析、ピーク片側公差など、その派生物または上記の組み合わせを利用して処理する。いくつかの実施形態において、1つまたはそれより多いピーク上昇分析、ピーク幅分析、ピーク端位置分析、ピーク片側公差など、その派生物または上記の組み合わせを利用して処理されたデータのプロファイルプロットを作製し、分類および/または成果を提供することを容易にする。成果を、1つまたはそれより多いピーク上昇分析、ピーク幅分析、ピーク端位置分析、ピーク片側公差など、その派生物または上記の組み合わせを利用して処理されているデータのプロファイルプロットに基づき提供することができる。
いくつかの実施形態において、目的の遺伝的変異が含有しないことが知られている1つまたはそれより多い参照サンプルを使用し、遺伝的変異の非存在を表す所定の値を生じることができ、かつ多くの場合、試験被験体が遺伝的変異を保持する場合、遺伝的変異が試験被験体内に局在するゲノム位置に対応する領域の所定の値から逸脱する参照中央カウントプロファイルを作製することができる。危険のある試験被験体または遺伝的変異に関連する病状に苦しむ試験被験体において、選択されたゲノム片または各片における数値は、非罹患ゲノム位置に対する所定の値から有意に異なることが期待される。特定の実施形態において、目的の遺伝的変異を担持することが知られている1つまたはそれより多い参照サンプルを使用し、遺伝的変異の存在を表す所定の値を生じることができ、かつ多くの場合、試験被験体が遺伝的変異を担持しない遺伝的位置に対応する領域の所定の値から逸脱する参照中央カウントプロファイルを作製することができる。危険のない試験被験体または遺伝的変異に関連する病状に苦しまない試験被験体において、選択されたゲノム片または各片における数値は、罹患ゲノム位置に対する所定の値から有意に異なることが期待される。
いくつかの実施形態において、データの分析および処理は、1つまたはそれより多い仮定の使用を含むことができる。仮定の適切な数または種類を利用し、データセットを分析または処理することができる。データ処理および/または分析に使用することができる仮定の非限定的な例として、母体倍数性、胎児の寄与、参照集団の特定の配列の発生率、民族的背景、関連する家族の選択された病状の発生率、異なる患者からの未処理のカウントプロファイルおよび/またはGC正規化後の試行と、リピートマスキング(例えば、GCRM)との平行度、PCR人工物を表す完全な一致(例えば、同一の塩基位置)、胎児数量アッセイ(例えば、FQA)に固有の仮定、双胎児に関する仮定(例えば、双胎の2例のうち、1例のみが罹患する場合、胎児画分の影響は、測定された胎児画分合計の50%にすぎない(品胎児、要胎児などにおいても同様)、ゲノム全体を均一に包含する胎児細胞非含有DNA(例えば、cfDNA)など、およびそれらの組み合わせがある。
マッピングされた配列リードの品質および/または深度により、所望の信頼水準(例えば、95%以上の信頼水準)にて遺伝的変異の有無の成果の予測が可能でないこれらの例において、正規化されたカウントプロファイルに基づき、1つまたはそれより多い追加の数学的操作アルゴリズムおよび/または統計学的予測アルゴリズムを利用し、データ分析および/または成果を提供することに有用な追加の数値を作製することができる。本明細書において使用される場合、用語「正規化されたカウントプロファイル」は、正規化されたカウントを使用して作製されたプロファイルを指す。正規化されたカウントおよび正規化されたカウントプロファイルを作製するために使用することができる方法の例を、本明細書において説明する。なお、カウントされているマッピングされた配列リードを、試験サンプルカウントまたは参照サンプルカウントに対して正規化することができる。いくつかの実施形態において、正規化されたカウントプロファイルを、プロットとして示すことができる。
プロファイル
いくつかの実施形態において、処理ステップは、データセットの種々の態様またはその派生物からの1つまたはそれより多いプロファイル(例えば、プロファイルプロット)を作製することを含むことができる(例えば、当技術分野において公知の、および/または本明細書に記載の1つまたはそれより多い数学的および/または統計学的データ処理ステップの生成物)。
本明細書において使用される場合、用語「プロファイル」は、大量のデータのパターンおよび/または相関の同定を容易にすることができるデータの数学的および/または統計学的操作の生成物を指す。「プロファイル」は、多くの場合、1つまたはそれより多い基準に基づき、データまたはデータセットの1つまたはそれより多い操作から得られる値を含む。プロファイルは、多くの場合、複数のデータ点を含む。任意の適切な数のデータ点を、データセットの性質および/または複雑性に応じてプロファイルに含むことができる。特定の実施形態において、プロファイルは、2以上のデータ点、3以上のデータ点、5以上のデータ点、10以上のデータ点、24以上のデータ点、25以上のデータ点、50以上のデータ点、100以上のデータ点、500以上のデータ点、1000以上のデータ点、5000以上のデータ点、10,000以上のデータ点、または100,000以上のデータ点を含み得る。
いくつかの実施形態において、プロファイルは、データセットの全体を表し、特定の実施形態において、プロファイルはデータセットの部分またはサブセットを表す。すなわち、プロファイルは、任意のデータを除去するフィルタリングがされていないデータを表すデータ点を含み、もしくはそれから作製されることもあり、またはプロファイルは、不必要なデータを除去するフィルタリングがされているデータを表すデータ点を含み、もしくはそこから作製されることもある。いくつかの実施形態において、プロファイルのデータ点は、ゲノム片に対するデータ操作の結果を表す。特定の実施形態において、プロファイルのデータ点は、ゲノム片の各グループに対するデータ操作の結果を含む。いくつかの実施形態において、ゲノム片の各グループを、互いに隣接することができ、特定の実施形態において、ゲノム片の各グループは、染色体またはゲノムの異なる部分からのものであってよい。
データセットから得られたプロファイルのデータ点は、任意の適切なデータ分類を表すことができる。データをグループ化し、プロファイルデータ点を作製することができる分類の非限定的な例として、以下がある:サイズに基づいたゲノム片、配列の特徴に基づいたゲノム片(例えば、GC含量、AT含量、染色体上の位置(例えば、短腕、長腕、セントロメア、テロメア)など)、発現のレベル、染色体など、またはそれらの組み合わせ。いくつかの実施形態において、プロファイルを、別のプロファイル(例えば、正規化されたデータプロファイルを作製するために、異なる正規化される値に対して正規化された正規化されたデータプロファイル)から得られたデータ点から作製することができる。特定の実施形態において、別のプロファイルから得られたデータ点から作製されたプロファイルは、データ点の数および/またはデータセットの複雑性を減少させる。データ点の数および/またはデータの複雑性を減少させることは、多くの場合、データの解釈を容易し、かつ/または成果を提供することを容易にする。
プロファイルは、多くの場合、2つまたはそれより多いゲノム片に対して正規化または非正規化されたカウントの集合である。プロファイルは、多くの場合、少なくとも1つの上昇を含み、多くの場合、2つ以上の上昇を含む(例えば、プロファイルは、多くの場合、複数の上昇を有する)。上昇は一般に、およそ同じカウントまたは正規化されたカウントを有するゲノム片のセットに対するものである。上昇について、本明細書において、さらに詳細に説明する。いくつかの例において、プロファイルは、ゲノム片を重み付けする、除去する、フィルタリングする、正規化する、調節する、平均化する、平均値として得る、加算する、減算する、処理する、またはそれらの任意の組み合わせにより変換することができる1つまたはそれより多いゲノム片を含む。プロファイルは、多くの場合、2つ以上の上昇を定義するゲノム片にマッピングされる正規化されたカウントを含み、この場合、カウントを、適切な方法により上昇の1つに従い、さらに対して正規化する。多くの場合、プロファイルのカウント(例えば、プロファイルの上昇)は、不確定値と関連する。
1つまたはそれより多い上昇を含むプロファイルは、第1の上昇および第2の上昇を含むことができる。第1の上昇は、第2の上昇と異なる(例えば、有意に異なる)こともある。いくつかの実施形態において、第1の上昇はゲノム片の第1のセットを含み、第2の上昇はゲノム片の第2のセットを含み、ゲノム片の第1のセットはゲノム片の第2のセットのサブセットではない。いくつかの例において、ゲノム片の第1のセットは第1および第2の上昇を決定するゲノム片の第2のセットと異なる。プロファイルは、プロファイル内の第2の上昇と異なる(例えば、有意に異なる、例えば、有意に異なる値を有する)複数の第1の上昇を有することができることもある。プロファイルは、プロファイル内の第2の上昇と有意に異なる1つまたはそれより多い第1の上昇を含み、第1の上昇の1つ以上を調節することもある。プロファイルは、プロファイル内の第2の上昇と有意に異なる1つまたはそれより多い第1の上昇を含むこともあり、1つまたはそれより多い第1の上昇のそれぞれが、母体のコピー数多型、胎児のコピー数多型または母体のコピー数多型および胎児のコピー数多型を含み、第1の上昇の1つ以上を調節する。プロファイル内の第1の上昇を、プロファイルから除去し、または調節することもある(例えば、パディングする)。プロファイルは、1つまたはそれより多い第2の上昇と有意に異なる1つまたはそれより多い第1の上昇を含む複数の上昇を含むことができ、多くの場合、プロファイルの上昇の大部分が第2の上昇であり、第2の上昇は、互いにほぼ等しい。プロファイルの上昇のうち50%超、60%超、70%超、80%超、90%超、95%超は、第2の上昇であることもある。
プロファイルは、プロットとして表示されることもある。例えば、ゲノム片のカウント(例えば、正規化されたカウント)を表す1つまたはそれより多い上昇をプロットし、視覚化することができる。作製することができるプロファイルプロットの非限定的な例として、未処理のカウント(例えば、未処理のカウントプロファイルまたは未処理のプロファイル)、正規化されたカウント、ビン重み付け、Zスコア、p値、面積比対フィットさせた倍数性、上昇の中央値対フィットさせた胎児画分と測定値との比、主成分など、またはそれらの組み合わせがある。いくつかの実施形態において、プロファイルプロットは、操作されたデータの視覚化を可能にする。特定の実施形態において、プロファイルプロットを利用し、成果(例えば、面積比対フィットさせた倍数性、上昇の中央値対フィットさせた胎児画分と測定値との比、主成分)を提供することができる。本明細書において使用される場合、用語「未処理のカウントプロファイルプロット」または「未処理のプロファイルプロット」は、領域内(例えば、ゲノム、ゲノム片、染色体、染色体ビンまたは染色体の断片)のカウント合計に対して正規化された、領域内の各ゲノム片のカウントのプロットを指す。いくつかの実施形態において、プロファイルを、スタティックウィンドウプロセスを使用して作製することができ、特定の実施形態において、プロファイルを、スライディングウィンドウプロセスを使用して作製することができる。
試験被験体において作製されたプロファイルを、1例以上の参照被験体において作製されたプロファイルと比較し、データセットの数学的および/または統計学的操作の解釈を容易にし、かつ/または成果を提供する。いくつかの実施形態において、プロファイルを1つまたはそれより多い開始仮定値(例えば、母体の核酸の寄与(例えば、母体画分)、胎児の核酸の寄与(例えば、胎児画分)、参照サンプルの倍数性など、またはそれらの組み合わせ)に基づき作製する。特定の実施形態において、試験プロファイルは、多くの場合、遺伝的変異の非存在を表す所定の値前後に集中し、多くの場合、試験被験体が遺伝的変異を保持する場合、遺伝的変異が試験被験体内に局在するゲノム位置に対応する領域の所定の値から逸脱する。危険のある試験被験体または遺伝的変異に関連する病状に苦しむ試験被験体において、選択されたゲノム片に対する数値は、非罹患ゲノム位置に対する所定の値から有意に異なることが期待される。開始仮定値(例えば、倍数性の固定値もしくは倍数性の最適値、胎児画分の固定値もしくは胎児画分の最適値またはそれらの組み合わせ)に応じて、遺伝的変異の有無を示す値の所定の閾もしくはカットオフまたは閾範囲は多様であるが、なお遺伝的変異の有無を決定するのに有用な成果を提供することができる。いくつかの実施形態において、プロファイルは、表現型を示し、かつ/または表現型を表す。
非限定的な例として、正規化サンプルおよび/または参照カウントプロファイルを、(a)遺伝的変異を担持しないことが知られている参照のセットから選択された染色体、ゲノム片またはその断片における参照中央値カウントを算出し、(b)参照サンプル未処理のカウントからの無益なゲノム片を除去し(例えば、フィルタリング)、(c)残りのビン全ての参照カウントを、参照サンプルの選択された染色体または選択されたゲノム位置における残りのカウント合計数(例えば、無益なビンの除去後に残るカウントの和)に対して正規化し、それにより正規化参照被験体プロファイルを作製し、(d)試験被験体サンプルから対応するゲノム片を取り出し、(e)1つまたはそれより多い選択されたゲノム位置に残る試験被験体カウントを、選択されたゲノム位置を含有する染色体または各染色体に残る参照中央値カウントの和に対して正規化し、それにより、正規化試験被験体プロファイルを作製することにより未処理の配列リードデータから得ることができる。特定の実施形態において、(b)のフィルタリングされたゲノム片により減少した、ゲノム全体に対する追加の正規化ステップを、(c)と(d)との間で含むことができる。
データセットプロファイルは、カウントされ、マッピングされた配列リードデータの1つまたはそれより多い操作により作製することができる。いくつかの実施形態は以下を含む。配列リードをマッピングし、各ゲノムビンにマッピングした配列タグの数を決定する(例えば、カウントする)。未処理のカウントプロファイルを、カウントされ、マッピングされた配列リードから作製する。特定の実施形態において、成果を、試験被験体からの未処理のカウントプロファイルを、遺伝的変異を保持しないことが知られている参照被験体のセットからの染色体、ゲノム片またはその断片に対する参照中央カウントプロファイルと比較することにより提供される。
いくつかの実施形態において、配列リードデータを、場合によりフィルタリングし、ノイズデータまたは無益なゲノム片を除去する。フィルタリング後、残りのカウントは典型的に、合計され、フィルタリングされたデータセットを作製する。特定の実施形態において、フィルタリングされたカウントプロファイルを、フィルタリングされたデータセットから作製する。
配列リードデータをカウントし、場合によりフィルタリングした後に、データセットを正規化し、上昇またはプロファイルを作製することができる。データセットを、1つまたはそれより多い選択されたゲノム片を、適切な正規化される参照値に対して正規化することにより、正規化することができる。いくつかの実施形態において、正規化される参照値は、ゲノム片を選択する染色体または各染色体に対するカウント合計を表す。特定の実施形態において、正規化される参照値は、1つまたはそれより多い対応するゲノム片、つまり遺伝的変異を保持しないことが知られる参照被験体のセットから作製された参照データセットからの染色体の部分または各染色体を表す。いくつかの実施形態において、正規化される参照値は、1つまたはそれより多い対応するゲノム片、つまり遺伝的変異の有無において分析される試験被験体から作製された試験被験体データセットからの各染色体の部分または各染色体を表す。特定の実施形態において、正規化プロセスは、スタティックウィンドウ法を利用して行われ、いくつかの実施形態において、正規化プロセスは、ムービングまたはスライディングウィンドウ法を利用して行われる。特定の実施形態において、正規化されたカウントを含むプロファイルを作製し、分類および/または成果を提供することを容易にする。成果を、正規化されたカウントを含むプロファイルのプロットに基づき(例えば、このようなプロファイルのプロットを使用して)提供することができる。
上昇
いくつかの実施形態において、値は上昇(例えば、数)に割り当てる。上昇を、適切な方法、動作または数学的プロセスにより決定することができる(例えば、処理された上昇)。本明細書において使用される場合、用語「レベル」は、本明細書において使用される場合、用語「上昇」と同義である。上昇は、多くの場合、ゲノム片のセットにおけるカウントであり、またはそのカウントから得られる(例えば、正規化されたカウント)。ゲノム片の上昇は、ゲノム片にマッピングされたカウント(例えば、正規化されたカウント)の合計に実質的に等しいこともある。多くの場合、上昇を、当技術分野において公知の、適切な方法、動作または数学的プロセスにより処理され、変換され、または操作されるカウントから決定される。上昇は、処理されるカウントから得られることもあり、処理されるカウントの非限定的な例として、重み付け、除去、フィルタリング、正規化、調節、平均化された、平均値として得られた(例えば、上昇の平均値)、加算、減算、変換されたカウントまたはそれらの組み合わせがある。上昇は、正規化されるカウント(例えば、ゲノム片の正規化されたカウント)を含むこともある。上昇は、適切なプロセスにより正規化されたカウントのものであってよく、その非限定的な例として、ビンワイズ正規化、GC含量による正規化、線形および非線形の最小二乗回帰、GC LOESS、LOWESS、PERUN、RM、GCRM、cQnなど、および/またはそれらの組み合わせがある。上昇は、正規化されたカウントまたは相対量のカウントを含むことができる。上昇は、平均化される2つまたはそれより多いゲノム片のカウントまたは正規化されたカウントのものであることもあり、その上昇は、平均の上昇と呼ばれる。上昇は、上昇の平均値と呼ばれるカウントの平均値または正規化されたカウントの平均値を有するゲノム片のセットのものであることもある。上昇は、未処理のおよび/またはフィルタリングされたカウントを含むゲノム片において得られることもある。いくつかの実施形態において、上昇は、未処理であるカウントに基づく。上昇は、不確定値と関連することもある。ゲノム片における上昇または「ゲノム片の上昇」は、本明細書における「ゲノム片レベル」と同義である。
2つ以上の上昇(例えば、プロファイルの2つ以上の上昇)に対する正規化または非正規化されたカウントを、上昇に従い、数学的に操作することができることもある(例えば、加算、乗算、平均化、正規化など、またはそれらの組み合わせ)。例えば、2つ以上の上昇に対する正規化または非正規化されたカウントを、プロファイルの上昇の1つ、一部、または全てに従い正規化することができる。プロファイルの全ての上昇の正規化または非正規化されたカウントを、プロファイルの1つの上昇に従い正規化することもある。プロファイルの第1の上昇の正規化または非正規化されたカウントを、プロファイルの第2の上昇の正規化または非正規化されたカウントに従い、正規化することもある。
上昇の非限定的な例(例えば、第1の上昇、第2の上昇)は、処理されたカウントを含むゲノム片のセットに対する上昇、カウントの平均値、中央値または平均を含むゲノム片のセットにおける上昇、正規化されたカウントを含むゲノム片のセットにおける上昇など、またはそれらの任意の組み合わせである。いくつかの実施形態において、プロファイルの第1の上昇および第2の上昇は、同じ染色体にマッピングされたゲノム片のカウントから得られる。いくつかの実施形態において、プロファイルの第1の上昇および第2の上昇は、異なる染色体にマッピングされたゲノム片のカウントから得られる。
いくつかの実施形態において、上昇を、1つまたはそれより多いゲノム片にマッピングされた正規化または非正規化されたカウントから決定する。いくつかの実施形態において、上昇を、2つまたはそれより多いゲノム片にマッピングされた正規化または非正規化されたカウントから決定し、この場合、各ゲノム片について正規化されたカウントは、多くの場合、ほぼ同じである。上昇におけるゲノム片のセットのカウント(例えば、正規化されたカウント)に分散があってよい。上昇におけるゲノム片のセットにおいて、セットの他のゲノム片(例えば、ピークおよび/またはディップ)においてより有意に異なるカウントを有する1つまたはそれより多いゲノム片であってよい。適切な数のゲノム片に関連する任意の適切な数の正規化または非正規化されたカウントは、上昇を定義することができる。
1つまたはそれより多い上昇は、ゲノムのゲノム片の全ての、または一部の正規化または非正規化されたカウントから決定することができることもある。多くの場合、上昇を、染色体、またはその断片の正規化または非正規化されたカウントの全てまたは一部から決定することができる。2つまたはそれより多いゲノム片(例えば、ゲノム片のセット)から得られた2つ以上のカウントが、上昇を決定することもある。2つ以上のカウント(例えば、2つまたはそれより多いゲノム片からのカウント)が、上昇を決定することもある。いくつかの実施形態において、2〜約100,000のゲノム片からのカウントが、上昇を決定する。いくつかの実施形態において、2〜約50,000、2〜約40,000、2〜約30,000、2〜約20,000、2〜約10,000、2〜約5000、2〜約2500、2〜約1250、2〜約1000、2〜約500、2〜約250、2〜約100または2〜約60のゲノム片からのカウントが、上昇を決定する。いくつかの実施形態において、約10〜約50のゲノム片からのカウントが、上昇を決定する。いくつかの実施形態において、約20〜約40以上のゲノム片からのカウントが、上昇を決定する。いくつかの実施形態において、上昇は、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60以上のゲノム片からのカウントを含む。いくつかの実施形態において、上昇は、ゲノム片のセットに対応する(例えば、参照ゲノムのゲノム片のセット、染色体のゲノム片のセットまたは染色体の断片のゲノム片のセット)。
いくつかの実施形態において、上昇を、連続するゲノム片の正規化または非正規化されたカウントにおいて決定する。連続するゲノム片(例えば、ゲノム片のセット)は、ゲノムまたは染色体もしくは遺伝子の隣り合う断片を表すこともある。例えば、ゲノム片の端と端を結合することにより整列させるときの2つ以上の連続するゲノム片は、各ゲノム片より長いDNA配列の配列アセンブリを表すことができる。例えば、2つ以上の連続するゲノム片は、無傷のゲノム、染色体、遺伝子、イントロン、エクソンまたはそれらの断片のものを表すことができる。上昇は、連続するゲノム片および/または連続しないゲノム片の集合(例えば、セット)から決定されることもある。
有意に異なる上昇
いくつかの実施形態において、正規化されたカウントのプロファイルは、プロファイル内の別の上昇(例えば、第2の上昇)と有意に異なる上昇(例えば、第1の上昇)を含む。第1の上昇は、第2の上昇より高くまたは低くなり得る。いくつかの実施形態において、第1の上昇は、コピー数多型(例えば、母体のコピー数多型、胎児のコピー数多型、または母体のコピー数多型および胎児のコピー数多型)を含む1つまたはそれより多いリードを含むゲノム片のセットに対するものであり、第2の上昇は、実質的にコピー数多型を有しないリードを含むゲノム片のセットに対するものである。いくつかの実施形態において、有意に異なるとは、観察可能な差を指す。有意に異なるとは、統計学的に異なること、または統計学的に有意な差を指すこともある。統計学的に有意な差は、観察された差の統計学的な評価であることもある。統計学的に有意な差を、当技術分野において適切な方法により評価することができる。任意の適切な閾または範囲を使用し、2つの上昇が有意に異なることを決定することができる。いくつかの例において、約0.01パーセント以上(例えば、上昇値の1つまたはいずれかの0.01パーセント)で異なる2つの上昇(例えば、上昇の平均値)は、有意に異なる。約0.1パーセント以上で異なる2つの上昇(例えば、上昇の平均値)は、有意に異なることもある。いくつかの例において、約0.5パーセント以上で異なる2つの上昇(例えば、上昇の平均値)は、有意に異なる。約0.5、0.75、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5または約10%超で異なる2つの上昇(例えば、上昇の平均値)は、有意に異なることもある。2つの上昇(例えば、上昇の平均値)が有意に異なることもあり、いずれかの上昇においてオーバーラップはなく、1つまたは両方の上昇において算出された不確定値により定義された範囲においてオーバーラップはない。いくつかの例において、不確定値は、シグマとして表される標準偏差である。2つの上昇(例えば、上昇の平均値)が有意に異なることもあり、約1倍以上の不確定値(例えば、1シグマ)で異なることもある。2つの上昇(例えば、上昇の平均値)が有意に異なることもあり、約2倍以上の不確定値(例えば、2シグマ)、約3倍以上、約4倍以上、約5倍以上、約6倍以上、約7倍以上、約8倍以上、約9倍以上または約10倍以上の不確定値で異なることもある。2つの上昇(例えば、上昇の平均値)は、約1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、または4.0倍の不確定値以上で異なるときに有意に異なることもある。いくつかの実施形態において、信頼水準は、2つの上昇間の差が増加するにつれて、増加する。いくつかの例において、信頼水準は、2つの上昇間の差が低下にするにつれて、かつ/または不確定値が増加するにつれて低下する。例えば、信頼水準は、各上昇と、標準偏差(例えば、MAD)との差の比とともに増加することもある。
いくつかの実施形態において、ゲノム片の第1のセットは、多くの場合、ゲノム片の第2のセットと異なる(例えば、オーバーラップしていない)ゲノム片を含む。例えば、プロファイルの、正規化されたカウントの第1の上昇は、正規化されたカウントの第2の上昇と有意に異なることもあり、第1の上昇はゲノム片の第1のセットに対してのものであり、第2の上昇はゲノム片の第2のセットに対してのものであり、ゲノム片はゲノム片の第1のセットおよび第2のセットにおいてオーバーラップしない。いくつかの例において、ゲノム片の第1のセットは、それぞれ、第1の上昇および第2の上昇を決定するゲノム片の第2のセットのサブセットではない。ゲノム片の第1のセットは、それぞれ、第1の上昇および第2の上昇を決定するゲノム片の第2のセットと異なり、かつ/または区別されることもある。
プロファイルの、ゲノム片の第1のセットは、ゲノム片の第2のセットのサブセットであることもある。例えば、プロファイルの、ゲノム片の第2のセットに対する正規化されたカウントの第2の上昇は、プロファイルの第1の上昇に対するゲノム片の第1のセットの正規化されたカウントを含むこともあり、プロファイルのゲノム片の第1のセットは、ゲノム片の第2のセットのサブセットであることもある。上昇の平均値、中間値(mean)または中央値は、第2の上昇が第1の上昇を含む場合の第2の上昇から得られることもある。第2の上昇は、染色体全体を表すゲノム片の第2のセットを含むこともあり、第1の上昇は、第1のセットがゲノム片の第2のセットのサブセットである場合のゲノム片の第1のセットを含むこともあり、第1の上昇は、染色体に存在する、母体のコピー数多型、胎児のコピー数多型、または母体のコピー数多型および胎児のコピー数多型を表すこともある。
いくつかの実施形態において、第2の上昇の値は、第1の上昇より染色体またはそのセグメントに対するカウントプロファイルの平均値、平均または中央値に近い。いくつかの実施形態において、第2の上昇は、染色体、染色体またはそのセグメントの部分の上昇の平均値である。いくつかの実施形態において、第1の上昇は、染色体またはそのセグメントを表す主要な上昇(例えば、第2の上昇)と有意に異なる。プロファイルは、第2の上昇と有意に異なる複数の第1の上昇を含むことができ、各第1の上昇は、独立して、第2の上昇より高く、または低くなり得る。いくつかの実施形態において、第1の上昇および第2の上昇は、同じ染色体から得られ、第1の上昇は、第2の上昇より高く、または低く、第2の上昇は、染色体の主要な上昇となる。第1の上昇および第2の上昇は、同じ染色体から得られることもあり、第1の上昇は、コピー数多型(例えば、母体および/または胎児のコピー数多型、欠失、挿入、重複)を示し、第2の上昇は、染色体またはそのセグメントに対するゲノム片の上昇の平均値または主要な上昇である。
いくつかの例において、第2の上昇におけるゲノム片の第2のセットのリードは、実質的に遺伝的変異(例えば、コピー数多型、母体および/または胎児のコピー数多型)を含まない。多くの場合、第2の上昇におけるゲノム片の第2のセットは、ある程度の分散性(例えば、上昇の分散性、ゲノム片におけるカウントの分散性)を含む。実質的にコピー数多型に関連しない上昇におけるゲノム片のセットの1つまたはそれより多いゲノム片は、母体および/または胎児のゲノムに存在するコピー数多型を有する1つまたはそれより多いリードを含むこともある。例えば、ゲノム片のセットは、染色体の小さな断片(例えば、10ゲノム片以下)に存在するコピー数多型を含むこともあり、ゲノム片のセットは、実質的にコピー数多型に関連しない上昇に対するものである。したがって、実質的にコピー数多型を含まないゲノム片のセットはなお、上昇の約10、9、8、7、6、5、4、3、2または1ゲノム片未満で存在するコピー数多型を含み得る。
第1の上昇は、ゲノム片の第1のセットに対するのものであることもあり、第2の上昇は、ゲノム片の第2のセットに対するのものであることもあり、ゲノム片の第1のセットおよびゲノム片の第2のセットは、連続することもある(例えば、染色体またはそのセグメントの核酸配列に対して隣接する)。ゲノム片の第1のセットおよびゲノム片の第2のセットは、連続しないこともある。
胎児および母体の核酸の混合物からの相対的に短い配列リードを利用し、上昇および/またはプロファイルに変換することができるカウントを提供することができる。カウント、上昇およびプロファイルを、電子または有形の形態で示すことができ、視覚化することができる。ゲノム片にマッピングされたカウント(例えば、上昇および/またはプロファイルとして表示)は、胎児および/または母体ゲノム、染色体、または胎児および/または妊娠女性に存在する染色体の部分または断片を視覚的に表すことができる。
比較モジュール
第1の上昇は、比較モジュールにより、または比較モジュールを含む装置により第2の上昇から有意に異なるとして同定することができる。いくつかの実施形態において、比較モジュールまたは比較モジュールを含む装置は、2つの上昇間の比較を提供することを要求される。比較モジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、上昇は、比較モジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により有意に異なることが決定される。いくつかの実施形態において、上昇は、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置により、有意に異なることが決定される。いくつかの実施形態において、比較モジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、上昇は、以下の1つ以上を含む装置により有意に異なることが決定される:1つまたはそれより多いフローセル、カメラ、流体処理コンポーネント、プリンタ、ディスプレイ(例えば、LED、LCTまたはCRT)など。比較モジュールは、適切なモジュールからデータおよび/または情報を受信することができる。比較モジュールは、シークエンシングモジュール、マッピングモジュール、カウンティングモジュール、または正規化モジュールからデータおよび/または情報を受信することができる。比較モジュールは、正規化モジュールから正規化されたデータおよび/または情報を受信することができる。比較モジュールから得られ、または変換されたデータおよび/または情報を、比較モジュールから、範囲設定モジュール、プロットモジュール、調節モジュール、分類モジュールまたは成果モジュールに転送することができる。2つ以上の上昇間の比較および/または別の上昇と有意に異なる場合の上昇の同定を、比較モジュールから、分類モジュール、範囲設定モジュールまたは調節モジュールに転送(例えば、提供)することができる。
参照上昇および正規化された参照値
プロファイルは、参照上昇(例えば、参照として使用される上昇)を含むこともある。多くの場合、正規化されたカウントのプロファイルは、上昇の期待値および期待範囲を決定する参照上昇を、提供する(以下の上昇期待値および範囲の説明を参照のこと)。参照上昇は、多く場合、母親および胎児の両方からのマッピングされたリードを含むゲノム片の正規化されたカウントに対するのものである。参照上昇は、多くの場合、胎児および母親(例えば、妊娠女性)からのマッピングされたリードの正規化されたカウントの和である。参照上昇は、正倍数体の母親および/または正倍数体の胎児からのマッピングされたリードを含むゲノム片に対するのものであることもある。参照上昇は、胎児の遺伝的変異(例えば、異数性(例えば、トリソミー))を有するマッピングされたリードおよび/または母体の遺伝的変異(例えば、コピー数多型、挿入、欠失)を有するリードを含むゲノム片に対するのものであることもある。参照上昇は、実質的に母体および/または胎児のコピー数多型を含まないゲノム片に対するのものであることもある。第2の上昇を、参照上昇として使用することもある。いくつかの例において、プロファイルは、正規化されたカウントの第1の上昇、および正規化されたカウントの第2の上昇を含み、第1の上昇は、第2の上昇と有意に異なり、第2の上昇は参照上昇である。いくつかの例において、プロファイルは、ゲノム片の第1のセットにおける正規化されたカウントの第1の上昇、ゲノム片の第2のセットにおける正規化されたカウントの第2の上昇を含み、ゲノム片の第1のセットは、母体および/または胎児のコピー数多型を有するマッピングされたリードを含み、ゲノム片の第2のセットは、実質的に母体のコピー数多型および/または胎児のコピー数多型を有さないマッピングされたリードを含み、第2の上昇は参照上昇である。
いくつかの実施形態において、プロファイルの1つまたはそれより多い上昇におけるゲノム片にマッピングされたカウントを、参照上昇のカウントに従い正規化する。いくつかの実施形態において、参照上昇のカウントに従い、上昇のカウントを正規化することは、上昇のカウントを参照上昇のカウントもしくはその倍数またはその分数で除算することを含む。参照上昇のカウントに従い正規化されたカウントは、多くの場合、別のプロセス(例えば、PERUN)に従い正規化されており、参照上昇のカウントも、多くの場合、正規化されている(例えば、PERUNにより)。上昇のカウントを、参照上昇のカウントに従い正規化することもあり、参照上昇のカウントは、正規化の前または後のいずれかで適切な値に拡大縮小が可能であることもある。参照上昇のカウントをスケーリングするプロセスは、任意の適切な定数(すなわち、数)を含むことができ、任意の適切な数学的操作を、参照上昇のカウントに適用することができる。
正規化された参照値(NRV)は、多くの場合、参照上昇の正規化されたカウントに従い決定される。NRVを決定することは、参照上昇のカウントに適用した任意の適切な正規化プロセス(例えば、数学的操作)を含むことができ、この場合、同じ正規化プロセスを使用し、同じプロファイル内の他の上昇のカウントを正規化する。NRVを決定することは、多くの場合、参照上昇をそれ自体で除算することを含む。NRVを決定することは、多くの場合、参照上昇を、その倍数で除算することを含む。NRVを決定することは、多くの場合、参照上昇を、参照上昇と定数(例えば、任意の数)の和または差で除算することを含む。
NRVはヌル値と呼ばれることもある。NRVは、任意の適切な値であってよい。いくつかの実施形態において、NRVはゼロ以外の任意の値である。NRVは、整数であることもある。NRVは正の整数であることもある。いくつかの実施形態において、NRVは1、10、100または1000である。多くの場合、NRVは1に等しい。NRVはゼロに等しいこともある。参照上昇のカウントを、任意の適切なNRVに対して正規化することができる。いくつかの実施形態において、参照上昇のカウントを、ゼロのNRVに対して正規化する。多くの場合、参照上昇のカウントを1のNRVに対して正規化する。
上昇期待値
上昇期待値は、予め定義された上昇(例えば、理論上の上昇、上昇予測値)であることもある。本明細書において「上昇期待値」は、「所定の上昇値」と呼ばれることもある。いくつかの実施形態において、上昇期待値は、コピー数多型を含むゲノム片のセットに対して正規化されたカウントの上昇において予測された値である。いくつかの例において、上昇期待値を、実質的にコピー数多型を含まないゲノム片のセットにおいて決定する。上昇期待値を、染色体倍数性(例えば、0、1、2(すなわち、2倍体)、3または4染色体)または微小倍数性(ホモ接合またはヘテロ接合の欠失、重複、挿入またはその非存在)に対して決定することができる。多くの場合、上昇期待値を、母体の微小倍数性(例えば、母体および/または胎児のコピー数多型)に対して決定する。
遺伝的変異またはコピー数多型に対する上昇期待値を、任意の適切な方法で決定することができる。多くの場合、上昇期待値を、上昇の適切な数学的操作(例えば、上昇においてゲノム片のセットにマッピングされたカウント)により決定する。上昇期待値を、上昇期待定数とよばれることもある定数を利用することにより決定することもある。コピー数多型に対する上昇期待値を、参照上昇、参照上昇の正規化されたカウントまたはNRVを上昇期待定数で乗算し、上昇期待定数を加算し、上昇期待定数を減算し、上昇期待定数で除算することにより、またはそれらの組み合わせにより算出することもある。多くの場合、同じ被験体、サンプルまたは試験グループにおいて決定された上昇期待値(例えば、母体および/または胎児のコピー数多型の上昇期待値)を、同じ参照上昇またはNRVに従い決定する。
多くの場合、上昇期待値を、参照上昇、参照上昇の正規化されたカウントまたはNRVを、上昇期待定数で乗算することにより決定し、この場合、参照上昇、参照上昇の正規化されたカウントまたはNRVはゼロに等しくない。上昇期待値は、上昇期待定数を、参照上昇、参照上昇の正規化されたカウントまたはゼロに等しいNRVに加算することにより決定されることもある。いくつかの実施形態において、上昇期待値、参照上昇の正規化されたカウント、NRVおよび上昇期待定数は、拡大縮小が可能である。スケーリングのプロセスは、任意の適切な定数(すなわち、数)および任意の適切な数学的操作を含むことができ、この場合、同じスケーリングプロセスを全ての値に適用することを考慮に入れる。
上昇期待定数
上昇期待定数を、適切な方法により決定することができる。上昇期待定数を任意に決定することもある。多くの場合、上昇期待定数を、経験的に決定する。上昇期待定数を、数学的操作に従い決定することもある。上昇期待定数を、参照(例えば、参照ゲノム、参照サンプル、参照試験データ)に従い決定することもある。いくつかの実施形態において、上昇期待定数を、遺伝的変異またはコピー数多型(例えば、重複、挿入または欠失)の有無を表す上昇に対して予め決定する。いくつかの実施形態において、上昇期待定数を、母体のコピー数多型、胎児のコピー数多型または母体のコピー数多型および胎児のコピー数多型の有無を表す上昇に対して予め決定する。コピー数多型に対する上昇期待定数は、任意の適切な定数または定数のセットであってよい。
いくつかの実施形態において、ホモ接合重複(例えば、ホモ接合重複)に対する上昇期待定数は、約1.6〜約2.4、約1.7〜約2.3、約1.8〜約2.2、または約1.9〜約2.1であってよい。ホモ接合重複に対する上昇期待定数は、約1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3または約2.4であることもある。多くの場合、ホモ接合重複に対する上昇期待定数は、約1.90、1.92、1.94、1.96、1.98、2.0、2.02、2.04、2.06、2.08または約2.10である。多くの場合、ホモ接合重複に対する上昇期待定数は、約2である。
いくつかの実施形態において、ヘテロ接合重複(例えば、ホモ接合重複(homozygous duplication))に対する上昇期待定数は、約1.2〜約1.8、約1.3〜約1.7、または約1.4〜約1.6である。ヘテロ接合重複に対する上昇期待定数は、約1.2、1.3、1.4、1.5、1.6、1.7または約1.8であることもある。多くの場合、ヘテロ接合重複に対する上昇期待定数は、約1.40、1.42、1.44、1.46、1.48、1.5、1.52、1.54、1.56、1.58または約1.60である。いくつかの実施形態において、ヘテロ接合重複に対する上昇期待定数は、約1.5である。
いくつかの実施形態において、コピー数多型の非存在(例えば、母体のコピー数多型および/または胎児のコピー数多型の非存在)に対する上昇期待定数は、約1.3〜約0.7、約1.2〜約0.8、または約1.1〜約0.9である。コピー数多型の非存在に対する上昇期待定数は、約1.3、1.2、1.1、1.0、0.9、0.8または約0.7であることもある。多くの場合、コピー数多型の非存在に対する上昇期待定数は、約1.09、1.08、1.06、1.04、1.02、1.0、0.98、0.96、0.94、または約0.92である。いくつかの実施形態において、コピー数多型の非存在に対する上昇期待定数は、約1である。
いくつかの実施形態において、ヘテロ接合欠失(例えば、母体、胎児、または母体および胎児のヘテロ接合欠失)に対する上昇期待定数は、約0.2〜約0.8、約0.3〜約0.7、または約0.4〜約0.6である。ヘテロ接合欠失に対する上昇期待定数は、約0.2、0.3、0.4、0.5、0.6、0.7または約0.8であることもある。多くの場合、ヘテロ接合欠失に対する上昇期待定数は、約0.40、0.42、0.44、0.46、0.48、0.5、0.52、0.54、0.56、0.58または約0.60である。いくつかの実施形態において、ヘテロ接合欠失に対する上昇期待定数は、約0.5である。
いくつかの実施形態において、ホモ接合欠失(例えば、ホモ接合欠失)に対する上昇期待定数は、約−0.4〜約0.4、約−0.3〜約0.3、約−0.2〜約0.2、または約−0.1〜約0.1である。ホモ接合欠失に対する上昇期待定数は、約−0.4、−0.3、−0.2、−0.1、0.0、0.1、0.2、0.3または約0.4であることもある。多くの場合、ホモ接合欠失に対する上昇期待定数は、約−0.1、−0.08、−0.06、−0.04、−0.02、0.0、0.02、0.04、0.06、0.08または約0.10である。多くの場合、ホモ接合欠失に対する上昇期待定数は、約0である。
上昇期待範囲
遺伝的変異またはコピー数多型(例えば、母体のコピー数多型、胎児のコピー数多型または母体のコピー数多型および胎児のコピー数多型)の有無を、上昇期待範囲内または外にある上昇により決定することもある。上昇期待範囲は、多くの場合、上昇期待値に従い決定される。上昇期待範囲を、実質的に遺伝的変異を含まず、または実質的にコピー数多型を含まない上昇に対して決定することもある。適切な方法を使用し、上昇期待範囲を決定することができる。
上昇期待範囲を、上昇に対して算出された適切な不確定値に従い定義する。不確定値の非限定的な例は、標準偏差、標準誤差、算出された分散、p値、および平均絶対偏差(MAD)である。遺伝的変異またはコピー数多型に対する上昇期待範囲を、一部、上昇(例えば、第1の上昇、第2の上昇、第1の上昇および第2の上昇)に対する不確定値を算出することにより決定することもある。上昇期待範囲を、プロファイル(例えば、染色体またはそのセグメントに対する正規化されたカウントのプロファイル)に対して算出された不確定値に従い定義する。いくつかの実施形態において、不確定値を、実質的に遺伝的変異を含まず、または実質的にコピー数多型を含まない上昇に対して算出する。いくつかの実施形態において、不確定値を、第1の上昇、第2の上昇または第1の上昇および第2の上昇に対して算出する。いくつかの実施形態において、不確定値を、第1の上昇、第2の上昇または第1の上昇を含む第2の上昇に対して決定する。
上昇期待範囲は、一部、不確定値を、定数(例えば、所定の定数)nで乗算し、加算し、減算し、または除算することにより算出することもある。適切な数学的手法または手法の組み合わせを使用することができる。定数n(例えば、所定の定数n)は、信頼区間と呼ばれることもある。選択された信頼区間を、選択される定数nに従い決定する。定数n(例えば、所定の定数n、信頼区間)を、適切な方法により決定することができる。定数nは、任意の数またはゼロより大きい数の分数であってよい。定数nは、整数であってよい。多くの場合、定数nは、10未満の数である。定数nは、約10未満、約9未満、約8未満、約7未満、約6未満、約5未満、約4未満、約3未満、または約2未満の数であることもある。定数nは、約10、9.5、9、8.5、8、7.5、7、6.5、6、5.5、5、4.5、4、3.5、3、2.5、2または1であることもある。定数nは、既知の遺伝的配置を有する被験体(妊娠女性および/または胎児)から得られたデータから経験的に決定することができる。
多くの場合、不確定値および定数nは、範囲(例えば、不確定要素カットオフ)を定義する。例えば、不確定値は標準偏差(例えば、+/−5)であることもあり、定数n(例えば、信頼区間)で乗算され、それにより、範囲または不確定要素カットオフ(例えば、5n〜−5n)を定義することもある。
いつかの実施形態において、遺伝的変異(例えば、母体のコピー数多型、胎児のコピー数多型または母体のコピー数多型および胎児のコピー数多型)に対する上昇期待範囲は、上昇期待値と定数n倍の不確定要素(例えば、n×シグマ(例えば、6シグマ))の和である。kで示された、遺伝的変異またはコピー数多型の上昇期待範囲を、以下の式:
式R:(上昇期待範囲)=(上昇期待値)+nσ
により定義することができることもある。
式中、σは不確定値であり、nは定数(例えば、所定の定数)であり、上昇期待範囲および上昇期待値は、遺伝的変異k(例えば、k=ヘテロ接合欠失、例えば、k=遺伝的変異の非存在)に対するものである。例えば、1に等しい上昇期待値(例えば、コピー数多型の非存在)、+/−0.05に等しい不確定値(すなわち、σ)、およびn=3において、上昇期待範囲を1.15〜0.85に定義する。いくつかの実施形態において、ヘテロ接合重複に対する上昇期待範囲は、ヘテロ接合重複に対する上昇期待値が1.5、n=3、および不確定値σが+/−0.05であるときに、1.65〜1.35と決定される。いくつかの実施形態において、ヘテロ接合欠失に対する上昇期待範囲は、ヘテロ接合重複に対する上昇期待値が0.5、n=3、および不確定値σが+/−0.05であるときに0.65〜0.35と決定される。いくつかの実施形態において、ホモ接合重複に対する上昇期待範囲は、ヘテロ接合重複に対する上昇期待値が2.0であり、n=3および不確定値σが+/−0.05であるときに、2.15〜1.85と決定される。いくつかの実施形態において、ホモ接合欠失に対する上昇期待範囲は、ヘテロ接合重複に対する上昇期待値が0.0、n=3および不確定値σが+/−0.05であるときに、0.15〜−0.15と決定される。
ホモ接合のコピー数多型(例えば、母体、胎児、または母体および胎児のホモ接合のコピー数多型)に対する上昇期待範囲を、一部、対応するヘテロ接合のコピー数多型に対する上昇期待範囲に従い決定することもある。例えば、ホモ接合重複に対する上昇期待範囲は、ヘテロ接合重複に対する上昇期待範囲の上限より大きい全ての値を含むこともある。ホモ接合重複に対する上昇期待範囲は、ヘテロ接合重複に対する上昇期待範囲の上限以上の全ての値を含むこともある。ホモ接合重複に対する上昇期待範囲は、ヘテロ接合重複に対する上昇期待範囲の上限より大きく、式R(式中、σは不確定値および正の値であり、nは定数であり、kはホモ接合重複である)により定義される上限未満の全ての値を含むこともある。ホモ接合重複に対する上昇期待範囲は、ヘテロ接合重複に対する上昇期待範囲の上限以上の、式R(式中、σは不確定値であり、σは正の値であり、nは定数であり、kはホモ接合重複である)により定義される上限以下の全ての値を含むこともある。
いくつかの実施形態において、ホモ接合欠失に対する上昇期待範囲は、ヘテロ接合欠失に対する上昇期待範囲の下限未満の全ての値を含む。ホモ接合欠失に対する上昇期待範囲は、ヘテロ接合欠失に対する上昇期待範囲の下限以下の全ての値を含むこともある。ホモ接合欠失に対する上昇期待範囲は、ヘテロ接合欠失に対する上昇期待範囲の下限未満の、および式R(式中、σは不確定値であり、σは負の値であり、nは定数であり、kはホモ接合欠失である)により定義される下限より大きい全ての値を含むこともある。ホモ接合欠失に対する上昇期待範囲は、ヘテロ接合欠失に対する上昇期待範囲の下限以下の、および式R(式中、σは不確定値であり、σは負の値であり、nは定数であり、kはホモ接合欠失である)により定義される下限以上の全ての値を含むこともある。
不確定値を利用し、閾値を決定することができる。いくつかの実施形態において、範囲(例えば、閾範囲)を、未処理のカウント、フィルタリングされたカウント、および/または正規化されたカウントから決定された不確定値を算出することにより得られる。いくつかの実施形態において、範囲を、上昇(例えば、上昇の正規化されたカウント)に対する不確定値に、カットオフ閾値として選択された不確定要素(例えば、標準偏差の数)の倍数を表す所定の定数(例えば、1、2、3、4、5、6など)を乗算すること(例えば、3標準偏差に対して3を乗算する)より決定することができ、それにより範囲を作製する。いくつかの実施形態において、範囲を、値(例えば、所定の値、不確定値、所定の定数で乗算した不確定値)を、上昇に、および/または上昇から加算し、かつ/または減算することにより決定することができ、それにより範囲を作製する。例えば、1に等しい上昇、+/−0.2の標準偏差、所定の定数が3に対して、範囲を、(1+3(0.2))〜(1+3(−0.2))、または1.6〜0.4として算出することができる。範囲が、コピー数多型に対する期待範囲または上昇期待範囲を定義することができることもある。特定の実施形態において、閾値を超え、値の範囲外にあり、または値の範囲内にあるゲノム片の一部または全てを、正規化プロセスの一部として、その前または後に、除去する。いくつかの実施形態において、算出された閾値を超え、範囲外にあり、または範囲内にあるゲノム片の一部または全てを、正規化または分類プロセスの一部として、またはその前に重み付けし、または調節する。重み付けの例を、本明細書において説明する。本明細書において使用される場合、用語「冗長なデータ」および「冗長なマッピングされたリード」は、既にゲノム位置(例えば、塩基位置)に割り当てられ、かつ/またはゲノム片に対してカウントされている場合に同定されるサンプルから得られた配列リードを指す。
いくつかの実施形態において、不確定値を、以下の式:
に従い、決定する。
式中、Zは、2つの上昇間の標準偏差を表し、Lは上昇の平均値(または中央値)であり、シグマは標準偏差(またはMAD)である。下付き文字Oは、プロファイルのセグメント(例えば、第2の上昇、染色体、NRV、「正倍数体レベル」、コピー数多型が存在しないレベル)を示し、Aはプロファイルの別のセグメント(例えば、第1の上昇、コピー数多型を表す上昇、異数性(例えば、トリソミー)を表す上昇を示す。変数Nは、下付き文字Oにより示されたプロファイルのセグメントのゲノム片の総数を表す。Nは、下付き文字Aにより示されたプロファイルのセグメントのゲノム片の総数を表す。
コピー数多型の分類
別の上昇(例えば、第2の上昇)と有意に異なる上昇(例えば、第1の上昇)は、多くの場合、上昇期待範囲に従い、コピー数多型(例えば、母体および/または胎児のコピー数多型、胎児のコピー数多型、欠失、重複、挿入)として分類されることができる。いくつかの実施形態において、コピー数多型の存在を、第1の上昇が第2の上昇と有意に異なり、第1の上昇がコピー数多型に対する上昇期待範囲にあるときに分類する。例えば、コピー数多型(例えば、母体および/または胎児のコピー数多型、胎児のコピー数多型)を、第1の上昇が第2の上昇と有意に異なり、第1の上昇がコピー数多型に対して上昇期待範囲内にあるときに分類することができる。ヘテロ接合重複(例えば、母体もしは胎児の、または母体および胎児のヘテロ接合重複)またはヘテロ接合欠失(例えば、母体もしくは胎児の、または母体および胎児のヘテロ接合欠失)を、第1の上昇が第2の上昇と有意に異なり、第1の上昇がヘテロ接合重複またはヘテロ接合欠失それぞれに対して上昇期待範囲内にあるときに分類することもある。ホモ接合重複またはホモ接合欠失を、第1の上昇が第2の上昇と有意に異なり、第1の上昇がホモ接合重複またはホモ接合欠失それぞれに対して上昇期待範囲内にあるときに分類することもある。
範囲設定モジュール
種々のコピー数多型(例えば、重複、挿入および/または欠失)に対する期待範囲(例えば、上昇期待範囲)またはコピー数多型の非存在に対する範囲を、範囲設定モジュールにより、または範囲設定モジュールを含む装置により提供することができる。いくつかの例において、上昇期待値は、範囲設定モジュールにより、または範囲設定モジュールを含む装置により提供される。いくつかの実施形態において、範囲設定モジュールまたは範囲設定モジュールを含む装置は、上昇期待値および/または範囲を提供することを要求される。範囲設定モジュールは、別のモジュールまたは装置からデータおよび/または情報を収集し、組み立て、かつ/または受信することもある。範囲設定モジュールまたは範囲設定モジュールを含む装置は、別のモジュールまたは装置にデータおよび/または情報を提供し、かつ/または転送することもある。範囲設定モジュールは、コンポーネントまたは周辺機器からデータおよび/または情報を承認し、収集することもある。多くの場合、範囲設定モジュールは、上昇、参照上昇、不確定値、および/または定数を収集し、かつ組み立てる。範囲設定モジュールは、装置のオペレータから入力データおよび/または情報を承認し、かつ収集することもある。例えば、装置のオペレータは、モジュールに定数、閾値、式、または所定の値を提供することもある。範囲設定モジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、上昇期待値および期待範囲は、範囲設定モジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、期待範囲および上昇は、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置により提供される。いくつかの実施形態において、範囲設定モジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、期待範囲は、適切な周辺機器またはコンポーネントを含む装置により提供される。範囲設定モジュールは、正規化モジュールから正規化されたデータまたは比較モジュールから比較データを受信することができる。範囲設定モジュール(例えば、設定範囲、範囲限界、上昇期待範囲、閾、および/または閾範囲)から得られ、またはそれにより変換されたデータおよび/または情報を、範囲設定モジュールから、調節モジュール、成果モジュール、分類モジュール、プロットモジュールまたは他の適切な装置および/またはモジュールに転送することができる。
分類モジュール
コピー数多型(例えば、母体および/または胎児のコピー数多型、胎児のコピー数多型、重複、挿入、欠失)を、分類モジュールにより、または分類モジュールを含む装置により分類することができる。コピー数多型(例えば、母体および/または胎児のコピー数多型)を、分類モジュールにより分類することもある。別の上昇(例えば、第2の上昇)と有意に異なると決定された上昇(例えば、第1の上昇)を、分類モジュールによりコピー数多型を表すものとして同定することもある。コピー数多型の非存在を、分類モジュールにより決定することもある。いくつかの実施形態において、コピー数多型の決定を、分類モジュールを含む装置により決定することができる。分類モジュールを、母体および/または胎児のコピー数多型、胎児のコピー数多型、重複、欠失もしくは挿入またはその欠如あるいは上記の組み合わせを分類するために特化することができる。例えば、母体の欠失を同定する分類モジュールは、胎児の重複を同定する分類モジュールと異なり、かつ/または区別することがきる。いくつかの実施形態において、分類モジュールまたは分類モジュールを含む装置は、コピー数多型またはコピー数多型を決定する成果を同定することを要求される。分類モジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、コピー数多型またはコピー数多型を決定する成果は、分類モジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により分類される。いくつかの実施形態において、コピー数多型またはコピー数多型を決定する成果を、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含み得る装置により分類する。いくつかの実施形態において、分類モジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。分類モジュールは、コンポーネントまたは周辺機器に、またはそこからデータおよび/または情報を転送し、または受信し、かつ/または収集することもある。多くの場合、分類モジュールは、カウント、上昇、プロファイル、正規化されたデータおよび/または情報、参照上昇、上昇期待値、期待範囲、不確定値、調節、調節された上昇、プロット、比較および/または定数を受信し、収集し、かつ/または組み立てる。分類モジュールは、装置のオペレータから入力データおよび/または情報を承認し、収集することもある。例えば、装置のオペレータは、モジュールに定数、閾値、式または所定の値を提供することもある。いくつかの実施形態において、データおよび/または情報は、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置により提供される。いくつかの実施形態において、コピー数多型またはコピー数多型を決定する成果の同定または分類は、適切な周辺機器またはコンポーネントを含む装置により提供される。分類モジュールは、別のモジュールまたは装置からデータおよび/または情報を収集し、組み立て、かつ/または受信することもある。分類モジュールは、正規化モジュールから正規化されたデータ、範囲設定モジュールから上昇期待値および/または範囲、比較モジュールから比較データ、プロットモジュールからプロット、および/または調節モジュールから調節データを受信することができる。分類モジュールは、受信するデータおよび/または情報を、コピー数多型の有無の決定に変換することができる。分類モジュールは、受信するデータおよび/または情報を、上昇がコピー数多型または特殊な種類のコピー数多型(例えば、母体のホモ接合欠失)を含むゲノム片を表す決定に変換することができる。コピー数多型またはコピー数多型を決定する成果に関連するデータおよび/または情報を、分類モジュールから、適切な装置および/またはモジュールに転送することができる。本明細書に記載の方法により分類されたコピー数多型またはコピー数多型を決定する成果を、さらなる試験(例えば、母体および/または胎児の核酸の標的化シークエンシング)により独立して検証することができる。
上昇に基づく胎児画分の決定
いくつかの実施形態において、胎児画分を母体および/または胎児のコピー数多型を表すものとして分類された上昇に従い決定する。例えば、胎児画分を決定することは、多くの場合、胎児画分の決定に利用される母体および/または胎児のコピー数多型に対する上昇期待値を評価することを含む。胎児画分を、同じ種類のコピー数多型に対して決定された上昇期待範囲に従い、コピー数多型を表すものとして分類された上昇(例えば、第1の上昇)に対して決定することもある。多くの場合、胎児画分を、上昇期待範囲内にある上昇観察値に従い決定し、それにより母体および/または胎児のコピー数多型として分類する。胎児画分を、母体および/または胎児のコピー数多型として分類された上昇観察値(例えば、第1の上昇)が同じ母体および/または胎児のコピー数多型に対して決定された上昇期待値と異なるときに決定することもある。
いくつかの実施形態において、上昇(例えば、第1の上昇、上昇観察値)は、第2の上昇と有意に異なり、第1の上昇が母体および/または胎児のコピー数多型として分類され、胎児画分が第1の上昇に従い決定される。第1の上昇は、プロファイルの第2の上昇と有意に異なる上昇観察値および/または実験的に得られた上昇であり、胎児画分を、第1の上昇に従い決定することもある。第1の上昇は、上昇の平均、平均値または合計値であり、胎児画分を第1の上昇に従い決定することもある。いくつかの例において、第1の上昇および第2の上昇は、上昇観察値および/または実験的に得られた上昇であり、胎児画分を第1の上昇に従い決定する。いくつかの例において、第1の上昇は、ゲノム片の第1のセットに対する正規化されたカウントを含み、第2の上昇は、ゲノム片の第2のセットに対する正規化されたカウントを含み、胎児画分を第1の上昇に従い決定する。第1の上昇のゲノム片の第1のセットは、コピー数多型を含み(例えば、第1の上昇は、コピー数多型を表す)、胎児画分を第1の上昇に従い決定することもある。第1の上昇のゲノム片の第1のセットは、ホモ接合の、またはヘテロ接合の母体のコピー数多型を含み、胎児画分を第1の上昇に従い決定することもある。プロファイルは、ゲノム片の第1のセットに対する第1の上昇およびゲノム片の第2のセットに対する第2の上昇を含み、ゲノム片の第2のセットは、実質的にコピー数多型(例えば、母体のコピー数多型、胎児のコピー数多型、または母体のコピー数多型および胎児のコピー数多型)を含まず、胎児画分を第1の上昇に従い決定することもある。
いくつかの実施形態において、上昇(例えば、第1の上昇、上昇観察値)は、第2の上昇と有意に異なり、第1の上昇を、母体および/または胎児のコピー数多型用として分子類し、胎児画分を、第1の上昇および/またはコピー数多型の上昇期待値に従い決定する。第1の上昇を、コピー数多型の上昇期待値に従い、コピー数多型用として分類し、胎児画分を、第1の上昇と上昇期待値との差に従い、決定することもある。いくつかの例において、上昇(例えば、第1の上昇、上昇観察値)を、母体および/または胎児のコピー数多型として分類し、胎児画分を、第1の上昇と、コピー数多型の上昇期待値との差の2倍として決定する。上昇(例えば、第1の上昇、上昇観察値)を、母体および/または胎児のコピー数多型として分類し、第1の上昇を、上昇期待値から減算し、それにより差を提供し、胎児画分を差の2倍として決定することもある。上昇(例えば、第1の上昇、上昇観察値)を、母体および/または胎児のコピー数多型として分類し、上昇期待値を第1の上昇から減算し、それにより差を提供し、胎児画分を差の2倍として決定することもある。
多くの場合、胎児画分を、百分率として提供する。例えば、胎児画分を、100で除算し、それにより百分率値を提供することができる。例えば、母体のホモ接合重複を表し、かつ上昇155を有する第1の上昇と、上昇150を有する、母体のホモ接合重複に対する上昇予測値に対して、胎児画分を10%(例えば、(胎児画分=2×(155−150))として決定することができる。
いくつかの実施形態において、胎児画分を、コピー数多型として分類されるプロファイル内の2つ以上の上昇から決定する。例えば、プロファイルの2つ以上の上昇(例えば、2つ以上の第1の上昇)を、参照上昇(例えば、第2の上昇、実質的にコピー数多型を含まない上昇)と有意に異なるとして同定し、2つ以上の上昇を、母体および/または胎児のコピー数多型を表すものとして分類し、胎児画分を、2つ以上の上昇のそれぞれから決定することもある。胎児画分を、プロファイル内の約3以上、約4以上、約5以上、約6以上、約7以上、約8以上、約9以上の胎児画分の決定から決定することもある。胎児画分を、プロファイル内の約10以上、約20以上、約30以上、約40以上、約50以上、約60以上、約70以上、約80以上、約90以上の胎児画分の決定から決定することもある。胎児画分を、プロファイル内の約100以上、約200以上、約300以上、約400以上、約500以上、約600以上、約700以上、約800以上、約900以上、約1000以上の胎児画分の決定から決定することもある。胎児画分を、プロファイル内の約10〜約1000、約20〜約900、約30〜約700、約40〜約600、約50〜約500、約50〜約400、約50〜約300、約50〜約200、または約50〜約100の胎児画分の決定から決定することもある。
いくつかの実施形態において、胎児画分を、プロファイル内の複数の胎児画分の決定の平均または平均値として決定する。いくつかの例において、複数の胎児画分の決定から決定された胎児画分は、複数の胎児画分の決定の平均値(例えば、平均、平均値、標準平均値、中央値など)である。多くの場合、複数の胎児画分の決定から決定された胎児画分は、当技術分野において公知の、または本明細書に記載の適切な方法により決定された平均値である。胎児画分の決定の平均値は、重み付けされた平均値であることもある。胎児画分の決定の平均値は、重み付けされていない平均値であることもある。複数の胎児画分の決定から収集された胎児画分の決定の平均値、中央値または平均(すなわち、胎児画分の決定の平均値、中央値または平均)は、不確定値(例えば、分散、標準偏差、MADなど)と関連することもある。いくつかの実施形態において、複数の決定から胎児画分の平均値、中央値または平均を決定する前に、1つまたはそれより多い逸脱した決定を除去する(本明細書においてさらに詳述する)。
プロファイル内のいくつかの胎児画分の決定は、胎児画分の全体の決定(例えば、胎児画分の決定の平均値または平均)に含まれないこともある。胎児画分の決定は、プロファイルの第1の上昇(例えば、第2の上昇と有意に異なる第1の上昇)から得られ、第1の上昇は遺伝的変異を示さない。例えば、プロファイルのいくつかの第1の上昇(例えば、スパイクまたはディップ)は、異常または不明の原因から作製される。このような値は、多くの場合、真性のコピー数多型から得られる他の胎児画分の決定と有意に異なる胎児画分の決定を作製する。プロファイルの他の胎児画分の決定と有意に異なる胎児画分の決定を同定し、胎児画分の決定から除去することもある。例えば、異常なスパイクおよびディップから得られるいくつかの胎児画分の決定を、プロファイル内の他の胎児画分の決定と比較することにより同定し、胎児画分の決定全体から除外する。
胎児画分の決定の平均値、中央値または平均と有意に異なる、独立した胎児画分の決定は、同定され、認識され、かつ/または観察可能な差であることもある。いくつかの例において、用語「有意に異なる」は、統計学的に異なり、かつ/または統計学的に有意な差を意味し得る。「独立した」胎児画分の決定は、コピー数多型として分類された特定の上昇から決定された胎児画分(例えば、いくつかの例において、単一の決定)であってよい。任意の適切な閾または範囲を使用し、胎児画分の決定が胎児画分の決定の平均値、中央値または平均と有意に異なることを決定することができる。いくつかの例において、胎児画分の決定は、胎児画分の決定の平均値、中央値または平均と有意に異なり、決定を、平均または平均値からの逸脱の割合として表現することができる。いくつかの例において、胎児画分の決定の平均値、中央値または平均と有意に異なる胎児画分の決定は、約10パーセント以上異なる。胎児画分の決づけ定の平均値、中央値または平均と有意に異なる胎児画分の決定は、約15パーセント以上異なることもある。胎児画分の決定の平均値、中央値または平均と有意に異なる胎児画分の決定は、約15%〜約100%以上異なることもある。
いくつかの例において、胎児画分の決定は、胎児画分の決定の平均値または平均と関連する不確定値の倍数に従って、胎児画分の決定の平均値、中央値または平均と有意に異なる。多くの場合、不確定値および定数n(例えば、信頼区間)は、範囲(例えば、不確定要素のカットオフ)を定義する。例えば、不確定値は、胎児画分の決定に対する標準偏差(例えば、+/−5)であり、定数n(例えば、信頼区間)で乗算し、それにより、範囲または不確定要素のカットオフ(例えば、5n〜−5n、5シグマと呼ばれることもある)を定義することもある。独立した胎児画分の決定は、不確定要素のカットオフにより定義された範囲外にあり、胎児画分の決定の平均値、中央値または平均と有意に異なると考慮されることもある。例えば、平均値10および不確定要素のカットオフ3に対して、13より大きく、または7未満の独立した胎児画分は、有意に異なる。胎児画分の決定の平均値、中央値または平均と有意に異なる胎児画分の決定は、不確定値(例えば、n×シグマ)のn倍以上異なることもある(nは約1、2、3、4、5、6、7、8、9または10以上である)。胎児画分の決定の平均値、中央値または平均と有意に異なる胎児画分の決定は、不確定値(例えば、n×シグマ)のn倍以上異なることもある(nは約1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、または4.0.以上である)。
いくつかの実施形態において、上昇は、胎児および/または母体の微小倍数性を表す。上昇(例えば、第1の上昇、上昇観察値)は第2の上昇と有意に異なり、第1の上昇を母体および/または胎児のコピー数多型として分類し、第1の上昇および/または第2の上昇は胎児の微小倍数性および/または母体の微小倍数性を表すこともある。いくつかの例において、第1の上昇は胎児の微小倍数性を表す。第1の上昇は母体の微小倍数性を表すこともある。多くの場合、第1の上昇は胎児の微小倍数性および母体の微小倍数性を表す。上昇(例えば、第1の上昇、上昇観察値)は第2の上昇と有意に異なり、第1の上昇を母体および/または胎児のコピー数多型として分類し、第1の上昇は胎児および/または母体の微小倍数性を表し、胎児画分を胎児および/または母体の微小倍数性に従い決定することもある。いくつかの例において、第1の上昇を母体および/または胎児のコピー数多型として分類し、第1の上昇は胎児の微小倍数性を表し、胎児画分を胎児の微小倍数性に従い決定する。第1の上昇を母体および/または胎児のコピー数多型として分類し、第1の上昇は母体の微小倍数性を表し、胎児画分を母体の微小倍数性に従い決定することもある。第1の上昇を母体および/または胎児のコピー数多型として分類し、第1の上昇は母体および胎児の微小倍数性を表し、胎児画分を母体および胎児の微小倍数性に従い決定することもある。
いくつかの実施形態において、胎児画分の決定は、胎児および/または母体の微小倍数性を決定することを含む。上昇(例えば、第1の上昇、上昇観察値)は第2の上昇と有意に異なり、第1の上昇を母体および/または胎児のコピー数多型として分類し、胎児および/または母体の微小倍数性を第1の上昇および/または第2の上昇に従い決定し、胎児画分を決定することもある。第1の上昇を母体および/または胎児のコピー数多型として分類し、胎児の微小倍数性を第1の上昇および/または第2の上昇に従い決定し、胎児画分を胎児の微小倍数性に従い決定することもある。いくつかの例において、第1の上昇を母体および/または胎児のコピー数多型として分類し、母体の微小倍数性を第1の上昇および/または第2の上昇に従い決定し、胎児画分を母体の微小倍数性に従い決定する。第1の上昇を母体および/または胎児のコピー数多型として分類し、母体および胎児の微小倍数性を第1の上昇および/または第2の上昇に従い決定し、胎児画分を母体および胎児の微小倍数性に従い決定することもある。
胎児画分を、多くの場合、母親の微小倍数性が、所与の上昇に対して、またはコピー数多型として分類された上昇に対して、胎児の微小倍数性と異なる(例えば、同じではない)ときに決定する。胎児画分を、母親が重複(例えば、微小倍数性2)においてホモ接合であり、胎児が同じ重複(例えば、微小倍数性1.5)においてヘテロ接合であるときに決定することもある。胎児画分を、母親が重複(例えば、微小倍数性1.5)においてヘテロ接合であり、胎児が同じ重複(例えば、微小倍数性2)においてホモ接合であり、または重複が胎児において存在しない(例えば、微小倍数性1)ときに決定することもある。胎児画分を、母親が欠失(例えば、微小倍数性0)においてホモ接合であり、胎児が同じ欠失(例えば、微小倍数性0.5)においてヘテロ接合であるときに決定することもある。胎児画分を、母親が欠失(例えば、微小倍数性0.5)においてヘテロ接合であり、胎児が同じ欠失(例えば、微小倍数性0)においてホモ接合であり、または欠失が胎児に存在しない(例えば、微小倍数性1)ときに決定することもある。
いくつかの例において、胎児画分を、母親の微小倍数性が、コピー数多型として同定された所与の上昇において、胎児の微小倍数性と同じである(例えば、同じと同定される)ときに決定することができない。例えば、いくつかの実施形態において、母親および胎児の両方が同じ数のコピーのコピー数多型を担持する場合の所与の上昇において、胎児画分は決定されない。例えば、胎児画分を、母親および胎児の両方が同じ欠失においてホモ接合であり、または同じ重複においてホモ接合であるときに、コピー数多型として分類された上昇に対して決定することができない。いくつかの例において、胎児画分を、母親および胎児の両方が同じ欠失においてヘテロ接合であり、同じ重複においてヘテロ接合であるときに、コピー数多型として分類された上昇に対して決定することができない。各実施形態において、複数の胎児画分の決定が1サンプルにおいてなされる場合、平均値、中央値または平均から有意に逸脱する決定は、母体倍数性が胎児の倍数性と等しいコピー数多型から生じ得、このような決定を考慮に入れないことができる。
いくつかの実施形態において、母体のコピー数多型および胎児のコピー数多型の微小倍数性は、不明である。コピー数多型において胎児および/または母体の微小倍数性が決定されない例において、胎児画分を作製し、胎児画分の決定の平均、中央値または平均に比較することもある。胎児画分の決定の平均値、中央値または平均と有意に異なるコピー数多型における胎児画分の決定は、母親および胎児の微小倍数性がコピー数多型において同じであるためであることもある。胎児画分の決定の平均値、中央値または平均と有意に異なる胎児画分の決定は、多くの場合、供給源または差の原因に関わらず、全体の胎児画分の決定から除外される。いくつかの実施形態において、母親および/または胎児の微小倍数性を、当技術分野において公知の方法により(例えば、標的化シークエンシング方法により)決定し、かつ/または検証する。
上昇調節
いくつかの実施形態において、1つまたはそれより多い上昇を調節する。上昇を調節する方法は、多くの場合、パディングと呼ばれる。いくつかの実施形態において、プロファイル(例えば、ゲノムのプロファイル、染色体プロファイル、染色体の部分または断片のプロファイル)の複数の上昇を調節する。プロファイルの約1〜約10,000以上の上昇を調節することもある。プロファイルの約1〜約1000、1〜約900、1〜約800、1〜約700、1〜約600、1〜約500、1〜約400、1〜約300、1〜約200、1〜約100、1〜約50、1〜約25、1〜約20、1〜約15、1〜約10、または1〜約5の上昇を調節することもある。1つの上昇を調節することもある。いくつかの実施形態において、第2の上昇と有意に異なる上昇(例えば、正規化されたカウントプロファイルの第1の上昇)を調節する。コピー数多型として分類された上昇を調節することもある。第2の上昇と有意に異なる上昇(例えば、正規化されたカウントプロファイルの第1の上昇)を、コピー数多型(例えば、コピー数多型、例えば、母体のコピー数多型)として分類し、調節することもある。いくつかの実施形態において、上昇(例えば、第1の上昇)は、母体のコピー数多型、胎児のコピー数多型、または母体のコピー数多型および胎児のコピー数多型の上昇期待範囲内にあり、上昇を調節する。1つまたはそれより多い上昇(例えば、プロファイルの上昇)を調節しないこともある。いくつかの実施形態において、上昇(例えば、第1の上昇)は、コピー数多型において上昇期待範囲外にあり、上昇を調節しない。多くの場合、コピー数多型の非存在において、上昇期待範囲内の上昇を調節しない。任意の適切な数の調節を、プロファイルの1つまたはそれより多い上昇に行うことができる。いくつかの実施形態において、1つまたはそれより多い上昇を調節する。2以上、3以上、5以上、6以上、7以上、8以上、9以上および10以上の上昇を調節することもある。
いくつかの実施形態において、第1の上昇の値を、第2の上昇の値に従い調節する。コピー数多型を表すものとして同定される第1の上昇を、第2の上昇が、多くの場合、コピー数多型と関連しない場合、第2の上昇の値に調節することもある。いくつかの例において、コピー数多型を表すものとして同定される第1の上昇の値を、第1の上昇の値が第2の上昇の値にほぼ等しくなるように調節する。
調節は、適切な数学的動作を含み得る。調節は、1つまたはそれより多い数学的動作を含むこともある。上昇を正規化、フィルタリング、平均化、乗算、除算、加算もしくは減算またはその組み合わせにより調節することもある。上昇を所定の値または定数により調節することもある。上昇をその上昇の値を別の上昇の値に改変することにより調節することもある。例えば、第1の上昇をその値を第2の上昇の値に改変することにより調節することができる。このような例の値は、処理された値(例えば、平均値、正規化された値など)であってよい。
上昇を、コピー数多型(例えば、母体のコピー数多型)として分類し、所定の調節値(PAV)として本明細書において言及される所定の値に従い調節することもある。多くの場合、PAVを、特定のコピー数多型に対して決定する。多くの場合、特定のコピー数多型(例えば、ホモ接合重複、ホモ接合欠失、ヘテロ接合重複、ヘテロ接合欠失)に対して決定されたPAVを使用し、特定のコピー数多型(例えば、ホモ接合重複、ホモ接合欠失、ヘテロ接合重複、ヘテロ接合欠失)として分類された上昇を調節する。いくつかの例において、上昇をコピー数多型として分類後、分類されたコピー数多型の種類に特異的なPAVに従い調節する。上昇(例えば、第1の上昇)を、母体のコピー数多型、胎児のコピー数多型または母体のコピー数多型および胎児のコピー数多型として分類し、上昇からPAVを加算または減算することにより調節することもある。多くの場合、上昇(例えば、第1の上昇)を母体のコピー数多型として分類し、上昇にPAVを加算することにより調節する。例えば、重複(例えば、母体の、胎児の、または母体および胎児のホモ接合重複)として分類された上昇を、特定の重複(例えば、ホモ接合重複)に対して決定されPAVを加算することにより調節し、それにより調節された上昇を提供する。多くの場合、コピー数重複に対して決定されたPAVは、負の値である。いくつかの実施形態において、重複に対して決定されたPAVを利用することによる、重複を表す上昇に対する調節は、上昇の値を減少させる。いくつかの実施形態において、第2の上昇と有意に異なる上昇(例えば、第1の上昇)を、コピー数欠失(例えば、ホモ接合欠失、ヘテロ接合欠失、ホモ接合重複、ホモ接合重複)として分類し、第1の上昇を、コピー数欠失に対して決定されたPAVを加算することにより調節する。多くの場合、コピー数欠失に対して決定されたPAVは、正の値である。いくつかの実施形態において、欠失に対して決定されたPAVを利用することによる、欠失を表す上昇に対する調節は、上昇の値を増加させる。
PAVは任意の適切な値であってよい。多くの場合、PAVは、コピー数多型(例えば、分類されたコピー数多型)に従い決定され、かつそれに特異的である。いくつかの例において、PAVを、コピー数多型(例えば、分類されたコピー数多型)および/またはPAV係数に対する上昇期待値に従い決定する。PAVは、上昇期待値をPAV係数で乗算することにより決定されることもある。例えば、コピー数多型に対するPAVを、コピー数多型(例えば、ヘテロ接合欠失)に対して決定された上昇期待値を、同じコピー数多型(例えば、ヘテロ接合欠失)に対して決定されたPAV係数で乗算することにより決定することができる。例えば、PAVを、コピー数多型k(例えば、k=ヘテロ接合欠失)に対する以下の式により決定することができる:
PAV=(上昇期待値)×(PAV係数)
PAV係数は、任意の適切な値であり得る。ホモ接合重複におけるPAV係数は、約−0.6〜約−0.4であることもある。ホモ接合重複におけるPAVは、約−0.60、−0.59、−0.58、−0.57、−0.56、−0.55、−0.54、−0.53、−0.52、−0.51、−0.50、−0.49、−0.48、−0.47、−0.46、−0.45、−0.44、−0.43、−0.42、−0.41および−0.40であることもある。多くの場合、ホモ接合重複におけるPAVは、約−0.5である。
例えば、約1のNRVおよび約2に等しいホモ接合重複の上昇期待値に対して、ホモ接合重複におけるPAVを、上記の式に従い、約−1と決定する。この場合において、例えば、ホモ接合重複として分類された第1の上昇を、第1の上昇の値に約−1を加算することにより調節する。
ヘテロ接合重複におけるPAV係数は、約−0.4〜約−0.2であることもある。ヘテロ接合重複におけるPAV係数は、約−0.40、−0.39、−0.38、−0.37、−0.36、−0.35、−0.34、−0.33、−0.32、−0.31、−0.30、−0.29、−0.28、−0.27、−0.26、−0.25、−0.24、−0.23、−0.22、−0.21および−0.20であることもある。多くの場合、ヘテロ接合重複におけるPAV係数は、約−0.33である。
例えば、約1のNRVおよび約1.5に等しいヘテロ接合重複の上昇期待値に対して、ホモ接合重複におけるPAVを、上記の式に従い、約−0.495と決定する。この場合において、例えば、ヘテロ接合重複として分類された第1の上昇を、第1の上昇の値に約−0.495を加算することにより調節する。
ヘテロ接合欠失におけるPAV係数は、約0.4〜約0.2であることもある。ヘテロ接合欠失におけるPAV係数は、約0.40、0.39、0.38、0.37、0.36、0.35、0.34、0.33、0.32、0.31、0.30、0.29、0.28、0.27、0.26、0.25、0.24、0.23、0.22、0.21および0.20であることもある。多くの場合、ヘテロ接合欠失におけるPAV係数は、約0.33である。
例えば、約1のNRVおよび約0.5に等しいヘテロ接合欠失の上昇期待値に対して、ヘテロ接合欠失におけるPAVを、上記の式に従い、約0.495と決定する。この場合において、例えば、ヘテロ接合欠失として分類された第1の上昇を、第1の上昇の値に約0.495を加算することにより調節する。
ホモ接合欠失におけるPAV係数は、約0.6〜約0.4であることもある。ホモ接合欠失におけるPAV係数は、約0.60、0.59、0.58、0.57、0.56、0.55、0.54、0.53、0.52、0.51、0.50、0.49、0.48、0.47、0.46、0.45、0.44、0.43、0.42、0.41および0.40であることもある。多くの場合、ホモ接合欠失におけるPAV係数は、約0.5である。
例えば、約1のNRVおよび約0に等しいホモ接合欠失の上昇期待値に対して、ホモ接合欠失におけるPAVを、上記の式に従い、約1と決定する。この場合において、例えば、ホモ接合欠失として分類された第1の上昇を、第1の上昇の値に約1を加算することにより調節する。
いくつかの例において、PAVは、コピー数多型(例えば、コピー数多型の上昇期待値)に対する上昇期待値にほぼ等しく、または等しい。
いくつかの実施形態において、上昇のカウントを、調節する前に対して正規化する。いくつかの例において、プロファイルの一部または全ての上昇のカウントを、調節する前に対して正規化する。例えば、上昇のカウントを、参照上昇またはNRVのカウントに従い正規化することができる。いくつかの例において、上昇(例えば、第2の上昇)のカウントを、参照上昇またはNRVのカウントに従い正規化し、プロファイルの他の全ての上昇(例えば、第1の上昇)のカウントを、調節する前に同じ参照上昇またはNRVのカウントに対して正規化する。
いくつかの実施形態において、プロファイルの上昇は、1回以上の調節から生じる。いくつかの例において、プロファイルの上昇を、プロファイルの1つまたはそれより多い上昇を調節した後に決定する。いくつかの実施形態において、プロファイルの上昇を、1回以上の調節がなされた後に再計算する。
いくつかの実施形態において、コピー数多型(例えば、母体のコピー数多型、胎児のコピー数多型、または母体のコピー数多型および胎児のコピー数多型)を、調節から決定する(例えば、直接または間接的に決定する)。例えば、調節されたプロファイルの上昇(例えば、調節された第1の上昇)を、母体のコピー数多型として同定することができる。いくつかの実施形態において、調節の大きさは、コピー数多型の種類(例えば、ヘテロ接合欠失、ホモ接合重複など)を示す。いくつかの例において、プロファイルの調節された上昇を、コピー数多型についてのPAVの値に従い、コピー数多型を表すものとして同定することができる。例えば、所与のプロファイルに対して、PAVは、ホモ接合重複に対して約−1、ヘテロ接合重複に対して約−0.5、ヘテロ接合欠失に対して約0.5およびホモ接合欠失に対して約1である。上記の例において、例えば、約−1で調節された上昇を、ホモ接合重複として同定することができる。いくつかの実施形態において、1つまたはそれより多いコピー数多型を、プロファイルまたは1回以上の調節を含む上昇から決定することができる。
いくつかの例において、プロファイル内の調節された上昇を比較する。異常および誤差を、調節された上昇を比較することにより同定することもある。例えば、多くの場合、プロファイルの1つまたはそれより多い調節された上昇を比較し、具体的な上昇を異常または誤差として同定することができる。異常または誤差を、上昇が作られる1つまたはそれより多いゲノム片内に同定することもある。異常または誤差を、同じ上昇内(例えば、プロファイルに)または隣接、連続、接合または接触するゲノム片を表す1つまたはそれより多い上昇において同定し得る。1回以上の調節された上昇は、隣接、連続、接合または接触するゲノム片の上昇であることもあり、この場合、1回以上の調節された上昇を比較し、異常または誤差を同定する。異常または誤差は、プロファイルまたは上昇のピークまたはディップであり得、この場合、ピークまたはディップの原因は既知または不明である。いくつかの例において、調節された上昇を比較し、異常または誤差が確率的、体系的、無作為またはユーザーエラーによる場合、異常または誤差を同定する。調節された上昇を比較し、異常または誤差をプロファイルから除去することもある。いくつかの例において、調節された上昇を比較し、異常または誤差を調節する。
調節モジュール
いくつかの実施形態において、調節(例えば、上昇またはプロファイルに対する調節)は、調節モジュールにより、または調節モジュールを含む装置によりなされる。いくつかの実施形態において、調節モジュールまたは調節モジュールを含む装置は、上昇を調節することを要求される。調節モジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、調節された上昇は、調節モジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、上昇は、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含み得る装置により調節される。いくつかの実施形態において、調節モジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。調節モジュールを含む装置は、別のモジュールまたは装置からデータおよび/または情報を収集し、組み立て、かつ/または受信することもある。調節モジュールを含む装置は、別のモジュールまたは装置にデータおよび/または情報を提供し、かつ/または転送することもある。
調節モジュールは、コンポーネントまたは周辺機器からデータおよび/または情報を受信し、収集することもある。多くの場合、調節モジュールは、カウント、上昇、プロファイル、参照上昇、上昇期待値、上昇期待範囲、不確定値、調節および/または定数を受信し、収集し、かつ/または組み立てる。多くの場合、調節モジュールは、コピー数多型(例えば、母体のコピー数多型、胎児のコピー数多型または母体のコピー数多型および胎児のコピー数多型)であると分類され、または決定された上昇(例えば、第1の上昇)を受信し、収集し、かつ/または組み立てる。調節モジュールは、装置のオペレータから入力データおよび/または情報を承認し、収集することもある。例えば、装置のオペレータは、モジュールに定数、閾値、式または所定の値を提供することもある。いくつかの実施形態において、データおよび/または情報は、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置により提供される。いくつかの実施形態において、上昇は、適切な周辺機器またはコンポーネントを含む装置により調節される。調節モジュールを含む装置は、正規化モジュールから正規化されたデータ、範囲設定モジュールから範囲、比較モジュールから比較データ、分類モジュールから同定(例えば、コピー数多型として同定)された上昇、および/または別の調節モジュールから調節データを受信することができる。調節モジュールは、データおよび/または情報を受信し、受信したデータおよび/または情報を変換し、調節を行うことができる。調節モジュールから得られた、またはそれより変換されたデータおよび/または情報を、調節モジュールから、分類モジュールに、または適切な装置および/またはモジュールに転送することができる。本明細書に記載の方法により調節された上昇を、さらなる試験(例えば、母体およびまたは(and or)胎児の核酸の標的化シークエンシングにより)、独立して検証し、かつ/または調節することができる。
プロットモジュール
いくつかの実施形態において、カウント、上昇、および/またはプロファイルをプロット(例えば、グラフ作成)する。プロット(例えば、グラフ)は、調節を含むこともある。プロットは、カウント、上昇、および/またはプロファイルの調節を含むこともある。カウント、上昇、および/またはプロファイルをプロットし、カウント、上昇、および/またはプロファイルは調節を含むこともある。多くの場合、カウント、上昇、および/またはプロファイルをプロットし、カウント、上昇、および/またはプロファイルを比較する。コピー数多型(例えば、異数性、コピー数多型)を、カウント、上昇、および/またはプロファイルのプロットから同定し、かつ/または分類することもある。成果を、カウント、上昇、および/またはプロファイルのプロットから決定することもある。いくつかの実施形態において、プロット(例えば、グラフ)を、プロットモジュールまたはプロットモジュールを含む装置により作られる(例えば、作製される)。いくつかの実施形態において、プロットモジュールまたはプロットモジュールを含む装置は、カウント、上昇またはプロファイルをプロットすることを要求される。プロットモジュールは、プロットを表示し、またはプロットをディスプレイ(例えば、表示モジュール)に送信することができる。プロットモジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、プロットは、プロットモジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、プロットは、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含み得る装置により作られる。いくつかの実施形態において、プロットモジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。プロットモジュールを含む装置は、別のモジュールまたは装置からデータおよび/または情報を収集し、組み立て、かつ/または受信することもある。プロットモジュールは、コンポーネントまたは周辺機器からデータおよび/または情報を受信し、収集することもある。多くの場合、プロットモジュールは、配列リード、ゲノム片、マッピングされたリード、カウント、上昇、プロファイル、参照上昇、上昇期待値、上昇期待範囲、不確定値、比較、分類された上昇(例えば、コピー数多型として同定された上昇)および/または成果、調節ならびに/または定数を受信し、収集し、組み立て、かつ/またはプロットする。プロットモジュールは、装置のオペレータから入力データおよび/または情報を承認し、収集することもある。例えば、装置のオペレータは、定数、閾値、式または所定の値をプロットモジュールに提供することもある。いくつかの実施形態において、データおよび/または情報は、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置により提供される。いくつかの実施形態において、カウント、上昇および/またはプロファイルを、適切な周辺機器またはコンポーネントを含む装置によりプロットする。プロットモジュールを含む装置は、正規化モジュールから正規化されたデータ、範囲設定モジュールから範囲、比較モジュールから比較データ、分類モジュールから分類データおよび/または調節モジュールから調節データを受信することができる。プロットモジュールは、データおよび/または情報を受信し、データおよび/または情報を変換することができ、プロットされたデータを提供した。プロットモジュールを含む装置は、データおよび/または情報を別のモジュールまたは装置に提供し、かつ/または転送することもある。プロットモジュールを含む装置は、カウント、上昇および/またはプロファイルをプロットし、プロットに関連するデータおよび/または情報を適切な装置および/またはモジュールに提供し、または転送することができる。多くの場合、プロットモジュールは、上昇(例えば、プロファイル、第1の上昇)を受信し、収集し、組み立て、かつ/またはプロットし、プロットされたデータおよび/または情報を調節モジュールおよび/または比較モジュールに転送し、かつそこから転送する。プロットされたデータおよび/または情報を、プロットモジュールから、分類モジュールおよび/または周辺機器(例えば、ディスプレイまたはプリンタ)に転送することもある。いくつかの実施形態において、プロットが分類され、および/または遺伝的変異(例えば、異数性)またはコピー数多型(例えば、母体および/または胎児のコピー数多型)を含むと決定される。本明細書に記載の方法によりプロットされたカウント、上昇および/またはプロファイルを、さらなる試験により(例えば、母体およびまたは(and or)胎児の核酸の標的化シークエンシングにより)、独立して検証し、かつ/または調節することができる。
成果を、1つまたはそれより多い上昇に従い決定することもある。いくつかの実施形態において、遺伝的変異(例えば、染色体異数性)の有無の決定を、1つまたはそれより多い調節された上昇に従い決定する。遺伝的変異(例えば、染色体異数性)の有無の決定を、1〜約10,000の調節された上昇を含むプロファイルに従い決定することもある。多くの場合、遺伝的変異(例えば、染色体異数性)の有無の決定を、約1〜約1000回、1〜約900回、1〜約800回、1〜約700回、1〜約600回、1〜約500回、1〜約400回、1〜約300回、1〜約200回、1〜約100回、1〜約50回、1〜約25回、1〜約20回、1〜約15回、1〜約10回、または1〜約5回の調節を含むプロファイルに従い決定する。遺伝的変異(例えば、染色体異数性)の有無の決定を、約1回の調節(例えば、1回調節された上昇)を含むプロファイルに従い決定することもある。成果を、1回以上、2回以上、3回以上、5回以上、6回以上、7回以上、8回以上、9回以上、または10回以上の調節を含む1つまたはそれより多いプロファイル(例えば、染色体またはそのセグメントのプロファイル)に従い決定することもある。遺伝的変異(例えば、染色体異数性)の有無の決定を、プロファイルのいくつかの上昇が調節されていないプロファイルに従い決定することもある。遺伝的変異(例えば、染色体異数性)の有無の決定を、調節がされていないプロファイルに従い決定することもある。
いくつかの実施形態において、プロファイルの上昇(例えば、第1の上昇)の調節は、偽性の決定または偽性成果を減少させる。いくつかの実施形態において、プロファイルの上昇(例えば、第1の上昇)の調節は、偽性の決定または偽性成果の頻度および/または確率(例えば、統計学的確率、尤度)を減少させる。偽性の決定または成果は、正確でない決定または成果であり得る。偽性の決定または成果は、被験体(例えば、妊娠女性、胎児および/またはその組み合わせ)の実際もしくは真性の遺伝的作製、または実際もしくは真性の遺伝的配置(例えば、遺伝的変異の有無)を反映しない決定または成果であり得る。偽性の決定または成果は、偽陰性の決定であることもある。いくつかの実施形態において、陰性の決定または陰性成果は、遺伝的変異(例えば、異数性、コピー数多型)が存在しない。偽性の決定または偽性成果は、偽陽性の決定または偽陽性成果であることもある。いくつかの実施形態において、陽性の決定または陽性成果は、遺伝的変異(例えば、異数性、コピー数多型)が存在する。いくつかの実施形態において、決定または成果を診断に利用する。いくつかの実施形態において、決定または成果は、胎児に対するものである。
成果
本明細書に記載の方法は、サンプルの遺伝的変異(例えば、胎児異数性)の有無の決定を提供することができ、それにより成果を提供することができる(例えば、それにより、遺伝的変異(例えば、胎児異数性)の有無を決定する成果を提供する)。遺伝的変異は、多くの場合、参照に対する試験被験体のゲノムまたは遺伝情報の検出可能な変化を生ずる遺伝情報(例えば、染色体、染色体の断片、多型領域、転座領域、改変ヌクレオチド配列など、または上記の組み合わせ)の増加、減少および/または変更(例えば、重複、欠失、融合、挿入、突然変異、再構成、置換または異常なメチル化)を含む。遺伝的変異の有無は、ゲノム片(例えば、ゲノムビン)にマッピングされている配列リードを変換し、分析し、かつ/または操作することにより決定することができる。
本明細書に記載の方法は、胎児を妊娠する妊娠女性からの試験サンプルに対して胎児異数性(例えば、完全な染色体異数性、部分的な染色体異数性または、染色体異常の断片(例えば、モザイク、欠失および/または挿入))の有無を決定することもある。本明細書に記載の方法は、胎児を妊娠する妊娠女性からのサンプルに対する正倍数性または正倍数性の欠如(非正倍数性)を検出することもある。本明細書に記載の方法は、1つまたはそれより多い染色体(例えば、第13番染色体、第18番染色体、第21番染色体またはそれらの組み合わせ)またはその断片に対するトリソミーを検出することもある。
いくつかの実施形態において、遺伝的変異(例えば、胎児異数性)の有無を、本明細書に記載の方法により、当技術分野で公知の方法により、またはそれらの組み合わせにより決定する。遺伝的変異の有無は一般に、参照ゲノムのゲノム片にマッピングされた配列リードのカウントから決定される。遺伝的変異の有無を決定するために利用される配列リードのカウントは、未処理のカウントおよび/またはフィルタリングされたカウントであり、多くの場合、正規化されたカウントであることもある。適切な正規化プロセスまたは各プロセスを使用し、正規化されたカウントを作製することができ、その非限定的な例として、ビンワイズ正規化、GC含量による正規化、線形および非線形の最小二乗回帰、LOESS、GC LOESS、LOWESS、PERUN、RM、GCRMおよびそれらの組み合わせがある。正規化されたカウントを、ゲノム片の具体的なセットまたは各セットにおけるプロファイルの1つまたはそれより多いレベルまたは上昇として表すこともある。正規化されたカウントを、遺伝的変異の有無を決定する前に調節し、またはパディングすることもある。
遺伝的変異(例えば、胎児異数性)の有無を、ゲノム片のセットにおけるカウントと参照を比較することなく決定することもある。試験サンプルに対して測定され、試験領域(例えば、目的のゲノム片のセット)にあるカウントは、本明細書において「試験カウント」と呼ばれる。試験カウントは、本明細書に記載のように、処理されたカウント、平均化または合計されたカウント、表示、正規化されたカウント、または1つまたはそれより多いレベルもしく上昇であることもある。試験カウントを、ゲノム片のセットに対して、平均化または合計し(例えば、平均、平均値、中央値、最頻値または合計を算出)、平均化または合計されたカウントを閾または範囲と比較することもある。試験カウントを、表示として表し、ゲノム片の第1のセットに対するカウントと、ゲノム片の第2のセットに対するカウントの比または百分率として表すことができることもある。ゲノム片の第1のセットは、1つまたはそれより多い試験染色体(例えば、第13番染色体、第18番染色体、第21番染色体、またはそれらの組み合わせ)のためのものであり、ゲノム片の第2のセットは、ゲノムまたはゲノムの一部(例えば、常染色体または常染色体および性染色体)のためのものであることもある。表示を閾または範囲と比較することもある。試験カウントを、ゲノム片のセットに対して正規化されたカウントにおける1つまたはそれより多いレベルまたは上昇として表し、1つまたはそれより多いレベルまたは上昇と閾または範囲と比較することもある。具体的な閾より上の、または下の試験カウント(例えば、平均化または合計されたカウント、表示、正規化されたカウント、1つまたはそれより多いレベルまたは上昇)が、具体的な範囲において、または具体的な範囲外で、遺伝的変異が存在し、または正倍数性が欠如(例えば、正倍数性ではない)することを決定することもある。具体的な閾より下の、または上の試験カウント(例えば、平均化または合計されたカウント、表示、正規化されたカウント、1つまたはそれより多いレベルまたは上昇)が、具体的な範囲において、または具体的な範囲外で、遺伝的変異が存在せず、または正倍数性であることを決定することもある。
遺伝的変異(例えば、胎児異数性)の有無を、試験カウント(例えば、ゲノム片のセットに対する未処理カウント、フィルタリングされたカウント、平均化または合計されたカウント、表示、正規化されたカウント、1つまたはそれより多いレベルまたは上昇)と参照を比較することにより決定することもある。参照は、カウントの適切な決定であり得る。参照におけるカウントは、ゲノム片のセットに対して、未処理カウント、フィルタリングされたカウント、平均化または合計されたカウント、表示、正規化されたカウント、1つまたはそれより多いレベルまたは上昇であることもある。参照カウントは、多くの場合、正倍数性の試験領域におけるカウントである。
特定の実施形態において、試験カウントは、ゲノム片の第1のセットについてのものであることもあり、参照は、ゲノム片の第1のセットと異なるゲノム片の第2のセットに対するカウントを含む。参照カウントは、試験サンプルを得る同じ妊娠女性からの核酸サンプルのためのものであることもある。参照カウントは、試験サンプルを得た女性と異なる1例以上の妊娠女性からの核酸サンプルのためのものであることもある。いくつかの実施形態において、ゲノム片の第1のセットは、第13番染色体、第18番染色体、第21番染色体、それらの断片または上記の組み合わせにおいてであり、ゲノム片の第2のセットは、別の染色体もしくは各染色体またはそのセグメントにおいてである。非限定的な例において、ゲノム片の第1のセットが、第21番染色体またはそのセグメントにおいてであり、ゲノム片の第2のセットが、別の染色体(例えば、第1番染色体、第13番染色体、第14番染色体、第18番染色体、第19番染色体、その断片または上記の組み合わせ)においてである。参照は、多くの場合、典型的に正倍数体である、染色体またはそのセグメントに局在する。例えば、第1番染色体および第19番染色体は、多くの場合、早期胎児死亡率の高さと第1番染色体および第19番染色体の異数性が関連するため、胎児において正倍数性である。試験カウントと参照カウントとの偏差の測定値を作製することができる。
参照は、試験カウントに関して、ゲノム片の同じセットに対するカウントを含むこともあり、この場合、参照におけるカウントは、1つまたはそれより多い参照サンプル(例えば、多くの場合、複数の参照被験体からの複数の参照サンプル)からである。参照サンプルは、多くの場合、試験サンプルを得る女性と異なる1例以上の妊娠女性からである。試験カウントと参照カウントとの偏差の測定値を作製することができる。
試験カウントと参照カウントとの偏差の適切な測定値を選択することができ、その非限定的な例として、標準偏差、平均絶対偏差、中央絶対偏差、最大絶対偏差、標準スコア(例えば、z値、zスコア、正規のスコア、標準化された変数)などがある。いくつかの実施形態において、参照サンプルは試験領域において正倍数体であり、試験カウントと参照カウントとの偏差を評価する。試験カウントと参照カウントとの間の3未満の偏差(例えば、標準偏差において3シグマ)は、多くの場合、正倍数体の試験領域(例えば、遺伝的変異の非存在)を示す。試験カウントと参照カウントとの間の3より大きい偏差は、多くの場合、非正倍数体の試験領域(例えば、遺伝的変異の存在)を示す。正倍数性を示す参照カウントよりかなり下の試験カウントは、モノソミーを決定することもある。正倍数性を示す参照カウントよりかなり上の試験カウントは、トリソミーを決定することもある。試験サンプルにおける試験カウントと、複数の参照被験体における参照カウントとの偏差の測定値をプロットし、視覚化することができる(例えば、zスコアプロット)。
任意の他の適切な参照を、試験サンプルの試験領域における遺伝的変異の有無の決定(または正倍数体または非正倍数体の決定)のための試験カウントを用いて因数分解することができる。例えば、胎児画分の決定は、遺伝的変異の有無を決定する試験カウントを用いて因数分解することができる。胎児画分を定量するために適切なプロセスを利用することができ、その非限定的な例として、質量分析プロセス、シークエンシングプロセス、またはその組み合わせがある。
実験室従事者(例えば、実験室管理者)は、遺伝的変異の有無の決定(または試験領域における正倍数体または非正倍数体の決定)の基礎となる値(例えば、試験カウント、参照カウント、偏差のレベル)を分析することができる。近い、つまり疑わしい遺伝的変異の有無に関する呼び出しに対して、実験室従事者は、同じ試験を再度指示し、かつ/または異なる試験(例えば、胎児異数性決定の場合において、核型分類および/または羊水穿刺)を指示することができ、試験被験体からの同じまたは異なるサンプル核酸を使用する。
遺伝的変異は、病状と関連することもある。遺伝的変異を決定する成果は、状態(例えば、病状)、疾患、症候群もしくは異常の有無を決定する成果であることもあり、または状態、疾患、症候群もしくは異常の検出を含むこともある(例えば、表1に記載の非限定的な例)。いくつかの例において、診断は、成果の評価を含む。本明細書に記載の方法により、状態(例えば、病状)、疾患、症候群または異常の有無を決定する成果を、さらなる試験により(例えば、核型分類および/または羊水穿刺により)独立して検証することができることもある。
データの分析および処理は、1つまたはそれより多い成果を提供することができる。本明細書において使用される場合、用語「成果」は、遺伝的変異(例えば、異数性、コピー数多型)の有無の決定を容易にするデータ処理の結果を指すことができる。本明細書において使用される場合、用語「成果」は、遺伝的変異(例えば、異数性、コピー数多型)の有無を予測し、かつ/または決定する結論を指すこともある。本明細書において使用される場合、用語「成果」は、被験体(例えば、胎児)の遺伝的変異(例えば、異数性、コピー数多型)の有無の危険または確率を予測し、かつ/または決定する結論を指すこともある。診断は、成果の使用を含むこともある。例えば、健常な従事者が成果を分析し、成果に基づき、または一部基づき診断することができる。いくつかの実施形態において、状態、症候群または異常(例えば、表1に記載)の決定、検出または診断は、遺伝的変異の有無を決定する成果の使用を含む。いくつかの実施形態において、カウントされ、マッピングされた配列リードまたはその変換物に基づいた成果が、遺伝的変異の有無を決定する。特定の実施形態において、本明細書に記載の1つまたはそれより多い方法(例えば、データ処理方法)を利用して作製された成果は、表1に記載の1つまたはそれより多い状態、症候群または異常の有無を決定する。診断は、状態、症候群または異常の有無の決定を含むこともある。多くの場合、診断は、状態、症候群または異常の性質および/または原因として遺伝的変異の決定を含む。成果は、診断ではないこともある。成果は、多くの場合、1つまたはそれより多い確率を考慮に入れる上で、本明細書に記載の処理方法を使用して作製された1つまたはそれより多い数値を含む。危険または確率の考慮には、以下を含むことができるが、それらに限定されない:不確定値、分散性の測定値、信頼水準、感受性、特異性、標準偏差、変動係数(CV)および/または信頼水準、Zスコア、カイ値、ファイ値、倍数性値、フィットさせた胎児画分、面積比、上昇中央値など、またはそれらの組み合わせ。確率の考慮は、被験体が遺伝的変異を有する危険があるか、または有するかどうかを決定することを容易にすることができ、遺伝的障害の有無を決定する成果は、多くの場合、このような考慮を含む。
成果は、表現型であることもある。成果は、関連の信頼水準を伴う表現型である(例えば、不確定値、例えば、胎児が99%の信頼水準でトリソミー21に対して陽性である、試験被験体が95%の信頼水準で遺伝的変異に関連するがんに対して陰性である)こともある。成果の値を作製する異なる方法は、異なる種類の結果を生じ得ることもある。一般に、本明細書に記載の方法を使用して作製される成果値に基づき作製され得ると考えられるスコアまたは呼び出しは、真性陽性、偽陽性、真性陰性および偽陰性の4種類がある。本明細書において使用される場合、用語「スコア」、「各スコア」、「呼び出し」および「各呼び出し」は、具体的な遺伝的変異が、被験体/サンプルに存在し、または存在しない確率を算出することを指す。スコアの値を使用し、例えば、遺伝的変異に対応し得るマッピングされた配列リードの分散、差または比を決定することができる。例えば、参照ゲノムに対して、データセットから選択された遺伝的変異またはゲノム片選択における陽性スコアを算出することは、病状(例えば、がん、妊娠高血圧腎症、トリソミー、モノソミーなど)に関連することもある遺伝的変異の有無の同定につながり得る。いくつかの実施形態において、成果は、上昇、プロファイルおよび/またはプロット(例えば、プロファイルプロット)を含む。成果がプロファイルを含むこれらの実施形態において、適切なプロファイルまたはプロファイルの組み合わせを成果に使用することができる。成果に使用することができるプロファイルの非限定的な例として、Zスコアプロファイル、p値プロファイル、カイ値プロファイル、ファイ値プロファイルなど、およびそれらの組み合わせがある。
遺伝的変異の有無を決定するために作製された成果は、ヌル結果(例えば、2つのクラスター間のデータ点、遺伝的変異の有無の両方における値を包含する標準偏差を含む数値、調べている遺伝的変異を有し、または含まない被験体のプロファイルプロットに類似しないプロファイルプロットを含むデータセット)を含むこともある。いくつかの実施形態において、ヌル結果を示す成果はなお、決定的な結果となり、決定は、遺伝的変異の有無を決定するデータ作製および/または分析の追加の情報および/または繰り返しを必要とすることを含み得る。
いくつかの実施形態において、成果を、本明細書に記載の1つまたはそれより多い処理ステップを行った後に作製することができる。特定の実施形態において、成果を、本明細書に記載の処理ステップの1つの結果として作製し、いくつかの実施形態において、成果を、データセットの各統計学的および/または数学的操作を行った後に作製することができる。遺伝的変異の有無の決定に関する成果を、被験体またはサンプルにおける遺伝的変異の有無に関連する、確率(例えば、オッズ比、p値)、尤度、クラスター内または外の値、閾値以上または以下の値、範囲(例えば、閾範囲)内の値、分散もしくは信頼の測定値、または危険因子を含むが、限定されない適切な形態において表すことができる。特定の実施形態において、サンプル間の比較により、サンプル同一性の確認が可能になる(例えば、繰り返しのサンプルおよび/または混合しているサンプル(例えば、誤標識、組み合わせなど)の同定を可能にする)。
いくつかの実施形態において、成果は、所定の閾またはカットオフ値より上の、または下の(例えば、1より大きい、1未満)値、およびその値に関連する不確定要素または信頼水準を含む。所定の閾またはカットオフ値は、上昇期待値または上昇期待範囲であることもある。成果はまた、データ処理に使用される仮定を説明することができる。特定の実施形態において、成果は、所定の値の範囲(例えば、閾範囲)内または外にある値、およびその範囲内または外にある値における関連の不確定要素または信頼水準を含む。いくつかの実施形態において、成果は、所定の値に等しい(例えば、1に等しい、ゼロに等しい)もしくは所定の値の範囲内の値に等しい値、およびその等しく、もしくは範囲内または外にある値におけるその関連の不確定要素または信頼水準を含む。成果は、プロットとしてグラフにより表されることもある(例えば、プロファイルプロット)。
上記に記載のように、成果を、真性陽性、真性陰性、偽陽性または偽陰性として特徴付けることができる。本明細書において使用される用語「真性陽性」は、遺伝的変異を有するとして正しく診断される被験体を指す。本明細書において使用される場合、用語「偽陽性」は、遺伝的変異を有するとして間違って同定される被験体を指す。本明細書において使用される場合、用語「真陰性」は、遺伝的変異を有さないとして正しく同定される被験体を指す。本明細書において使用される場合、用語「偽陰性」は、遺伝的変異を有さないとして間違って同定される被験体を指す。任意の所与の方法に対する動作の2つの測定値を、これらの発生比に基づき算出することができる:(i)感受性値(一般に、陽性であるとして正しく同定される陽性予測値の分数である)および(ii)感受性値(一般に、陰性として正しく同定される陰性予測値の分数である)。本明細書において使用される場合、用語「感受性」は、真性陽性の数と偽陰性の数で除算した真性陽性の数を指し、この場合、感受性(sens)は、0≦sens≦1の範囲内にあり得る。理想的に、偽陰性の数は、ゼロに等しくまたはゼロに近く、その結果、被験体は実際に少なくとも1つの遺伝的変異を有するときに、少なくとも1つの遺伝的変異を有さないと間違って同定されない。反対に、評価は、多くの場合、予測アルゴリズムが正しく陰性に分類することができる、つまり感受性に相補的に測定することからなる。本明細書において使用される場合、用語「特異性」は、真性陰性の数と偽陽性の数で除算した真性陰性の数を指し、この場合、感受性(spec)は、0≦spec≦1の範囲内にあり得る。理想的に、偽陽性の数はゼロに等しく、またはゼロに近く、その結果、被験体は評価される遺伝的変異を有さないときに、少なくとも1つの遺伝的変異を有すると間違って同定されない。
特定の実施形態において、1つまたはそれより多い感受性、特異性および/または信頼水準を、百分率で表す。いくつかの実施形態において、独立して各変数に対する百分率は、約90%より大きく(例えば、約90、91、92、93、94、95、96、97、98もしくは99%、または99%より大きい(例えば、約99.5%以上、約99.9%以上、約99.95%以上、約99.99%以上))。いくつかの実施形態において、変動係数(CV)を、百分率として表し、その百分率は、約10%以下(例えば、約10、9、8、7、6、5、4、3、2もしくは1%、または1%未満(例えば、約0.5%以下、約0.1%以下、約0.05%以下、約0.01%以下))であることもある。特定の実施形態において、確率(例えば、具体的な成果が偶然によるものではない)を、Zスコア、p値、またはt検定の結果として表す。いくつかの実施形態において、成果における分散測定値、信頼区間、感受性、特異性など(例えば、信頼パラメータと総称)を、本明細書に記載の1つまたはそれより多いデータ処理操作を使用して、作製することができる。成果および関連の信頼水準を作製する具体的な例を実施例の節において説明する。
1もしくは100%、または1近く(例えば、約90%〜約99%)に等しい感受性および特異性を有する方法を選択することもある。いくつかの実施形態において、1または100%に等しい感受性を有する方法を選択し、特定の実施形態において、1に近い感受性を有する方法を選択する(例えば、約90%の感受性、約91%の感受性、約92%の感受性、約93%の感受性、約94%の感受性、約95%の感受性、約96%の感受性、、約97%の感受性、約98%の感受性、または約99%の感受性)。いくつかの実施形態において、1または100%に等しい特異性を有する方法を選択し、特定の実施形態において、1に近い特異性を有する方法を選択する(例えば、約90%の特異性、約91%の特異性、約92%の特異性、約93%の特異性、約94%の特異性、約95%の特異性、約96%の特異性、約97%の特異性、約98%の特異性、または約99%の特異性)。
成果モジュール
遺伝的変異の有無(異数性、胎児異数性、コピー数多型)を、成果モジュールにより、または成果モジュールを含む装置により同定することができる。遺伝的変異を成果モジュールにより同定することもある。多くの場合、異数性の有無の決定を、成果モジュールにより同定する。いくつかの実施形態において、遺伝的変異(異数性、コピー数多型)を決定する成果を、成果モジュールにより、または成果モジュールを含む装置により同定することができる。成果モジュールを、特定の遺伝的変異(例えば、トリソミー、トリソミー21、トリソミー18)を決定するために特殊化することができる。例えば、トリソミー21を同定する成果モジュールは、トリソミー18を同定する成果モジュールと異なり、かつ/または区別され得る。いくつかの実施形態において、成果モジュールまたは成果モジュールを含む装置は、遺伝的変異または遺伝的変異を決定する成果(例えば、異数性、コピー数多型)を同定することを要求される。成果モジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの実施形態において、遺伝的変異または遺伝的変異を決定する成果は、成果モジュールから1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、遺伝的変異または遺伝的変異を決定する成果は、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含み得る装置により同定される。いくつかの実施形態において、成果モジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。成果モジュールを含む装置は、別のモジュールまたは装置からデータおよび/または情報を収集し、組み立て、かつ/または受信することもある。成果モジュールを含む装置は、別のモジュールまたは装置にデータおよび/または情報を提供し、かつ/または転送することもある。成果モジュールは、コンポーネントまたは周辺機器に、またはそこからデータおよび/または情報を転送し、受信し、または収集することもある。多くの場合、成果モジュールは、カウント、上昇、プロファイル、正規化されたデータおよび/または情報、参照上昇、上昇期待値、期待範囲、不確定値、調節、上昇調節値、プロット、分類された上昇、比較および/または定数を受信し、収集し、かつ/または組み立てる。成果モジュールは、装置のオペレータから入力データおよび/または情報を承認し、収集する。例えば、装置のオペレータは、定数、閾値、式または所定の値を、成果モジュールに提供することもある。いくつかの実施形態において、データおよび/または情報は、マルチプロセッサ、例えば、並列に協動し、かつ作用するプロセッサを含む装置により提供される。いくつかの実施形態において、遺伝的変異または遺伝的変異を決定する成果の同定は、適切な周辺機器またはコンポーネントを含む装置により提供される。成果モジュールを含む装置は、正規化モジュールからの正規化されたデータ、範囲設定モジュールからの上昇期待値および/または範囲、比較モジュールからの比較データ、分類モジュールからの分類された上昇、プロットモジュールからのプロットおよび/または調節モジュールからの調節データを受信することができる。成果モジュールは、データおよび/または情報を受信し、データおよび/または情報を変換し、成果を提供することができる。成果モジュールは、遺伝的変異または遺伝的変異を決定する成果に関連するデータおよび/または情報を、適切な装置および/またはモジュールに提供し、または転送することができる。本明細書に記載の方法により同定された遺伝的変異または遺伝的変異を決定する成果を、さらなる試験により(例えば、母体および/または胎児の核酸の標的化シークエンシングにより)独立して検証することができる。
1つまたはそれより多い成果を作製した後、成果は、多くの場合、遺伝的変異および/または関連の病状の有無を決定するために使用される。成果は典型的に、医療専門家(例えば、実験室技術者または管理者、医師または助手)に提供される。多くの場合、成果は、成果モジュールにより提供される。成果は、プロットモジュールにより提供されることもある。成果は装置の周辺機器またはコンポーネントに提供されることもある。例えば、成果は、プリンタまたはディスプレイにより提供されることもある。いくつかの実施形態において、遺伝的変異の有無を決定する成果は、レポートの形態で医療専門家に提供され、特定の実施形態において、そのレポートは、成果の値の表示および関連の信頼パラメータを含む。一般に、成果を、遺伝的変異および/または病状の有無の決定を容易にする適切なフォーマットに表示することができる。データセットを報告し、かつ/または表示し、または成果を報告するための使用に適切なフォーマットの非限定的な例として、デジタルデータ、グラフ、2Dグラフ、3Dグラフ、および4Dグラフ、写真、統計図表、チャート、棒グラフ、円グラフ、図式、フローチャート、散布図、マップ、ヒストグラム、密度チャート、機能グラフ、回路図、ブロック図、バブルマップ、信号空間ダイヤグラム、等値線図、統計地図、レーダーチャート、ベン図、ノモグラムなど、および上記の組み合わせがある。成果表示の種々の例を、図面に示し、実施例において説明する。
特定の実施形態において、成果を作製することは、核酸配列リードデータなどの、対象の細胞核酸の表示への変換として見なすことができる。例えば、対象からの核酸の配列リードを分析し、染色体プロファイルおよび/または成果を作製することは、相対的に小さな配列リードフラグメントの、相対的に大きな染色体構造の表示への変換として見なされるとができる。いくつかの実施形態において、成果は、対象(例えば、妊娠女性)からの配列リードの、対象(例えば、母体および/または胎児の核酸)に存在する既存の構造(例えば、ゲノム、染色体またはそのセグメント)の表示への変換から生じる。いくつかの実施形態において、成果は、第1の対象(例えば、妊娠女性)からの配列リードの、構造(例えば、ゲノム、染色体またはそのセグメント)の複合的な表示への変換、および第1の対象(例えば、妊娠女性)および/または第2の対象(例えば、胎児)に存在する構造の表示を生成する複合表示の第2の変換を含む。
成果の使用
遺伝的変異の有無を決定する1つまたはそれより多い成果を含むレポートを受け取る、医療専門家または他の有資格者は、レポート内に表示されたデータを使用し、試験被験体または患者の状態に関する呼び出しを作製することができる。いくつかの実施形態において、医療専門家は、提供された成果に基づき提言を作製することができる。いくつかの実施形態において、医療専門家または有資格者は、レポートに提供された成果値または各値および関連の信頼パラメータに基づき、遺伝的変異の有無に関する呼び出しまたはスコアを試験被験体または患者に提供することができる。特定の実施形態において、スコアまたは呼び出しを、提供されたレポートの目視観察を使用して、医療専門家または有資格者により手入力で作製する。特定の実施形態において、スコアまたは呼び出しを、ソフトウェアに組み込まれることもある自動ルーティンにより作製し、試験被験体または患者に情報を提供する前に精度を医療専門家または有資格者が再検討する。本明細書において使用される場合、用語「レポートを受け取る」は、医療専門家または他の有資格者が再検討した上で、試験被験体または患者の遺伝的変異の有無に関する決定を行うことを可能にする成果を含む、書面のおよび/またはグラフ表示を通信手段により得ることを指す。レポートを、コンピュータにより、またはヒトのデータ入力により作製することができ、電子手段により(例えば、インターネット上、コンピュータを介して、ファックスを介して、同じまたは異なる物理的な地域での1つのネットワークの場所から別の場所)またはデータを送受信する他の方法(メールサービス、宅配サービスなど)により通信することができる。いくつかの実施形態において、成果を、口頭、文書、またはファイル形態を含むが限定されない適切な媒体において医療専門家に伝送する。ファイルは、例えば、可聴ファイル、コンピュータ読み取り可能ファイル、紙面ファイル、実験室ファイルまたは医療記録ファイルであり得るが、それらに限定されない。
本明細書において使用される場合、用語「成果を提供する」およびその文法的等価物も、実験室からの情報(例えば、実験室ファイル)を得ることを含むが限定されないこのような情報を得るための方法を指す。実験室ファイルを、病状の有無を決定する1つまたはそれより多いアッセイまたは1つまたはそれより多いデータ処理ステップを実行した実験室により作製することができる。実験室は、実験室ファイルからの病状の有無を同定する従事者と同じ場所または異なる場所(例えば、別の国)であってよい。例えば、実験室ファイルを、ある場所で作製し、その中の情報を妊娠女性対象に伝送する別の場所に伝送することができる。特定の実施形態において、実験室ファイルは、有形の形態または電子形態(例えば、コンピュータ読み取り可能形態)であってよい。
いくつかの実施形態において、成果を、実験室から医療専門家、医師または有資格者に提供することができ、医療専門家、医師または有資格者が、成果に基づき診断を行うことができる。いくつかの実施形態において、成果を、実験室から医療専門家、医師または有資格者に提供することができ、医療専門家、医師または有資格者が、追加のデータおよび/または情報に沿った成果および他の成果に一部基づいて診断を行うことができる。
医療専門家または有資格者は、レポートに提供された成果または各成果に基づき適切な提言を提供することができる。提供された成果レポートに基づいて提供されることができる提言の非限定的な例として、外科手術、放射線治療、化学療法、遺伝相談、出生後の治療解決法(例えば、人生計画、長期介護、薬物、対症療法)、妊娠中絶、臓器移植、輸血など、または上記の組み合わせがある。いくつかの実施形態において、提言は、提供された分類(例えば、ダウン症、ターナー症候群、T13の遺伝的変異に関連する病状、T18の遺伝的変異に関連する病状)に基づいた成果に依存する。
ソフトウェアを使用し、以下を含むがそれらに限定されない、本明細書に記載のプロセセスの1つまたはそれより多いステップを行うことができる:以下にさらに詳細に記載されるように、カウンティング、データ処理、成果を作製、かつ/または作製された成果に基づいた1つまたはそれより多い提言。
変換
上記に記載のように、データを、ある形態から別の形態に変換することもある。本明細書において使用される場合、用語「変換した」、「変換」および文法的派生語またはその等価物は、物理的開始材料(例えば、試験被験体および/または参照被験体サンプル核酸)から、物理的開始材料(例えば、配列リードデータ)のデジタル表示へのデータの変更を指し、いくつかの実施形態において、成果を提供するために利用することができるデジタル表示の1つまたはそれより多い数値またはグラフ表示へのさらなる変換を含む。特定の実施形態において、デジタル表示されたデータの1つまたはそれより多い数値および/またはグラフ表示を利用し、試験被験体の物理的ゲノム(例えば、ゲノム挿入、重複または欠失の有無を仮想的に表し、または視覚的に表し、病状に関連する配列の物理量の分散の有無を表す)の様子を表すことができる。仮想的な表示は、開始材料のデジタル表示の1つまたはそれより多い数値またはグラフ表示にさらに変換されることもある。これらの方法は、物理的開始材料を、数値もしくはグラフ表示または試験被験体のゲノムの物理的な様子の表示に変換することができる。
いくつかの実施形態において、データセットの変換は、データの複雑性および/またはデータの次元性を減少させることにより成果を提供することを容易にする。データセットの複雑性は、物理的開始材料を、開始材料(例えば、物理的開始材料を表す配列リード)の視覚表示に変換するプロセスの間に減少することもある。適切な特徴または変数を利用し、データセットの複雑性および/または次元性を減少させることができる。データ処理のための標的特徴として使用するために選択することができる特徴の非限定的な例として、GC含量、胎児性別予測、染色体異数性の同定、具体的な遺伝子またはタンパク質の同定、がんの同定、疾患、先天性遺伝子/形質、染色体異常、生物学的分類、化学的分類、生化学的分類、遺伝子またはタンパク質の分類、遺伝子オントロジー、タンパク質オントロジー、同時調節遺伝子、細胞信号遺伝子、細胞周期遺伝子、上記遺伝子に関するタンパク質、遺伝子変異体、タンパク質変異体、同時調節遺伝子、同時調節タンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データなど、および上記の組み合わせがある。データセットの複雑性および/または次元性の減少の非限定的な例として、以下がある:複数の配列リードのプロファイルプロットへの減少、複数の配列リードの数値への減少(例えば、正規化された値、Zスコア、p値)、複数の分析方法の確率プロットまたは単一点の減少、得られた量の主成分分析など、またはそれらの組み合わせ。
ゲノム片正規化システム、装置およびコンピュータプログラム製品
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムのゲノム片にマッピングされた試験被験体からの血中細胞非含有サンプル核酸の配列リードのカウントを含み、1つまたはそれより多いプロセッサにより実行可能な命令を、(a)ゲノム片のそれぞれに対して配列リードのカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、(b)(a)のサンプル正規化されたカウントプロファイルから染色体異常断片もしくは胎児の異数性または両方の有無を決定するよう構成されるシステムを提供される。
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含む装置であって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムのゲノム片にマッピングされた試験被験体からの血中細胞非含有サンプル核酸の配列リードのカウントを含み、1つまたはそれより多いプロセッサにより実行可能な命令を、(a)ゲノム片のそれぞれに対して配列リードのカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、(b)(a)のサンプル正規化されたカウントプロファイルから染色体異常断片もしくは胎児の異数性または両方の有無を決定するよう構成される装置も提供される。
特定の態様において、コンピュータ読み取り可能な媒体上に具体化された有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、(a)参照ゲノムのゲノム片にマッピングされた試験被験体からの血中細胞非含有サンプル核酸の配列リードのカウントにアクセスし、(b)ゲノム片のそれぞれに対して配列リードのカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、(c)(b)のサンプル正規化されたカウントプロファイルからの染色体異常断片もしくは胎児の異数性または両方の有無を決定するよう構成される命令を含むコンピュータプログラム製品も提供される。
いくつかの実施形態において、参照ゲノムのセグメント(例えば、断片は染色体である)のゲノム片それぞれについて配列リードのカウントを個々に、断片のゲノム片の配列リードのカウント合計に従い正規化する。断片の特定のゲノム片を除去することもあり(例えば、フィルタリング)、断片の残りのゲノム片を正規化する。
特定の実施形態において、システム、装置および/またはコンピュータプログラム製品は、(i)核酸配列リードを得るよう構成されたシークエンシングモジュール、(ii)参照ゲノムの各部分に核酸配列リードをマッピングするよう構成されたマッピングモジュール、(iii)ゲノム片を重み付けするよう構成された重み付けモジュール、(iv)ゲノム片またはゲノム片にマッピングされたカウントをフィルタリングするよう構成されたフィルタリングモジュール、(v)参照ゲノムの各部分にマッピングされた核酸配列リードのカウントを提供するよう構成されたカウンティングモジュール、(vi)正規化されたカウントを提供するよう構成された正規化モジュール、(vii)第2の上昇と有意に異なる第1の上昇を同定するよう構成された比較モジュール、(Viii)1つまたはそれより多いレベル期待範囲を提供するよう構成される範囲設定モジュール、(ix)コピー数多型を表す上昇を同定するよう構成された分類モジュール、(x)コピー数多型として同定されたレベルを調節するよう構成された調節モジュール、(xi)レベルおよび/またはプロファイルをグラフにし、かつ表示するよう構成されたプロットモジュール、(xii)成果(例えば、胎児異数性の有無を決定する成果)を決定するよう構成された成果モジュール、(xiii)染色体異常断片もしくは胎児異数体または両方の有無を示すよう構成されたデータ表示組織化モジュール、(xiv)配列リードをマッピングし、マッピングした配列リードをカウントし、カウントを正規化し、成果を作製することの1つ以上を行うよう構成されるロジック処理モジュールまたは(xv)上記の2つ以上の組み合わせを含む。
いくつかの実施形態において、シークエンシングモジュールおよびマッピングモジュールは、シークエンシングモジュールからマッピングモジュールに配列リードを転送するよう構成される。マッピングモジュールおよびカウンティングモジュールは、マッピングモジュールからカウンティングモジュールに、マッピングされた配列リードを転送するよう構成されることもある。カウンティングモジュールおよびフィルタリングモジュールは、カウンティングモジュールからフィルタリングモジュールにカウントを転送するよう構成されることもある。カウンティングモジュールおよび重み付けモジュールは、カウンティングモジュールから重み付けモジュールにカウントを転送するよう構成されることもある。マッピングモジュールおよびフィルタリングモジュールは、マッピングモジュールからフィルタリングモジュールに、マッピングされた配列リードを転送するよう構成されることもある。マッピングモジュールおよび重み付けモジュールは、マッピングモジュールから重み付けモジュールに、マッピングされた配列リードを転送するよう構成されることもある。重み付けモジュール、フィルタリングモジュールおよびカウンティングモジュールは、重み付けモジュールおよびフィルタリングモジュールからカウンティングモジュールに、フィルタリングされ、かつ/または重み付けされたゲノム片を転送するよう構成されることもある。重み付けモジュールおよび正規化モジュールは、重み付けモジュールから正規化モジュールに、重み付けされたゲノム片を転送するよう構成されることもある。フィルタリングモジュールおよび正規化モジュールは、フィルタリングモジュールから正規化モジュールに、フィルタリングされたゲノム片を転送するよう構成されることもある。いくつかの実施形態において、正規化モジュールおよび/または比較モジュールは、比較モジュールおよび/または範囲設定モジュールに、正規化されたカウントを転送するよう構成される。いくつかの実施形態において、比較モジュール、範囲設定モジュールおよび/または分類モジュールは、独立して、(i)第2の上昇と有意に異なる第1の上昇の同定および/または(ii)比較モジュールおよび/または範囲設定モジュールから分類モジュールにレベル期待範囲を転送するよう構成される。特定の実施形態において、分類モジュールおよび調節モジュールは、分類モジュールから調節モジュールにコピー数多型として分類される上昇を転送するよう構成される。いくつかの実施形態において、調節モジュール、プロットモジュールおよび成果モジュールは、調節モジュールからプロットモジュールまたは成果モジュールに1つまたはそれより多い調節されたレベルを転送するよう構成される。正規化モジュールは、マッピングされた正規化配列リードカウントを、比較モジュール、範囲設定モジュール、分類モジュール、調節モジュール、成果モジュールまたはプロットモジュールの1つ以上に転送するよう構成されることもある。
誤差除去のパラメータ化および不偏正規化システム、装置およびコンピュータプログラム製品
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムの各部分にマッピングされた配列リードのカウントを含み、配列リードが、試験サンプルからの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの各部分のそれぞれにグアニンおよびシトシン(GC)バイアスを決定し、(b)(i)GCバイアスと、(ii)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供することにより、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成されるシステムが提供される。
いくつかの態様において、1つまたはそれより多いプロセッサおよびメモリを含む装置であって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムの各部分にマッピングされた配列リードのカウントを含み、配列リードが、試験サンプルからの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルに対する参照ゲノムの各部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、(b)(i)GCバイアスと、(ii)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれに対するゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供することにより、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される装置も提供される。
特定の態様において、コンピュータ読み取り可能な媒体上に具体化された有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、(a)参照ゲノムの各部分にマッピングされた配列リードのカウントにアクセスし(配列リードは試験サンプルからの血中細胞非含有サンプル核酸のリードである)、(b)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの各部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、(c)(i)GCバイアスと、(ii)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供することにより、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される命令を含む、コンピュータプログラム製品も提供される。
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムの各部分にマッピングされた配列リードのカウントを含み、配列リードが、胎児を妊娠する妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの各部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、(b)GCバイアスと、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれにおけるゲノム片レベルを算出し、それによりゲノム片レベルを算出し、(c)95%以上の感受性および95%以上の特異性の算出されたゲノム片レベルに従い胎児における異数性の有無を同定するよう構成されるシステムが提供される。
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含む装置であって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムの各部分にマッピングされた配列リードのカウントを含み、配列リードが、胎児を妊娠する妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの各部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、(b)GCバイアスと、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれにおけるゲノム片レベルを算出し、それによりゲノム片レベルを算出し、(c)95%以上の感受性および95%以上の特異性の算出されたゲノム片レベルに従い胎児における異数性の有無を同定するよう構成される装置も提供される。
特定の態様において、コンピュータ読み取り可能な媒体上に具体化された有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、(a)参照ゲノムの各部分にマッピングされた配列リードのカウントにアクセスし(配列リードは胎児を妊娠する妊娠女性からの血中細胞非含有サンプル核酸のリードである)、(b)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの各部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、(c)GCバイアスと、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれにおけるゲノム片レベルを算出し、それによりゲノム片レベルを算出し、(d)95%以上の感受性および95%以上の特異性の算出されたゲノム片レベルに従い、胎児における異数体の有無を同定するよう構成される命令を含む、コンピュータプログラム製品も提供される。
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムの各部分にマッピングされた配列リードのカウントを含み、配列リードが、胎児を妊娠する妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるマッピングされた特徴との間のフィットさせた関係から複数のサンプルにおける参照ゲノムの各部分のそれぞれのバイアス実験値を決定し、(b)バイアス実験値と、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供することにより、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成されるシステムも提供される。
いくつかの態様において、1つまたはそれより多いプロセッサおよびメモリを含む装置であって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムの各部分にマッピングされた配列リードのカウントを含み、配列リードが、胎児を妊娠する妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるマッピング特徴との間のフィットさせた関係から複数のサンプルにおける参照ゲノムの各部分のそれぞれのバイアス実験値を決定し、(b)バイアス実験値と、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供することにより、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される装置も提供される。
特定の態様において、コンピュータ読み取り可能な媒体上に具体化された有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、(a)参照ゲノムの各部分にマッピングされた配列リードのカウントにアクセスし(配列リードは試験サンプルからの循環無細胞核酸のリードである)、(b)(i)参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントと、(ii)各部分のそれぞれにおけるマッピング特徴との間のフィットさせた関係から複数のサンプルにおける参照ゲノムの各部分のそれぞれのバイアス実験値を決定し、(c)バイアス実験値と、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの各部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供することにより、参照ゲノムの各部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される命令を含む、コンピュータプログラム製品も提供される。
特定の実施形態において、システム、装置および/またはコンピュータプログラム製品は、(i)核酸配列リードを得るよう構成されたシークエンシングモジュール、(ii)参照ゲノムの各部分に核酸配列リードをマッピングするよう構成されたマッピングモジュール、(iii)ゲノム片を重み付けするよう構成された重み付けモジュール、(iv)ゲノム片またはゲノム片にマッピングされたカウントをフィルタリングするよう構成されたフィルタリングモジュール、(v)参照ゲノムの各部分にマッピングされた核酸配列リードのカウントを提供するよう構成されたカウンティングモジュール、(vi)正規化されたカウントを提供するよう構成された正規化モジュール、(vii)第2の上昇と有意に異なる第1の上昇を同定するよう構成された比較モジュール、(Viii)1つまたはそれより多いレベル期待範囲を提供するよう構成される範囲設定モジュール、(ix)コピー数多型を表す上昇を同定するよう構成された分類モジュール、(x)コピー数多型として同定されたレベルを調節するよう構成された調節モジュール、(xi)レベルおよび/またはプロファイルをグラフにし、かつ表示するよう構成されたプロットモジュール、(xii)成果(例えば、胎児異数性の有無を決定する成果)を決定するよう構成された成果モジュール、(xiii)染色体異常断片もしくは胎児異数性または両方の有無を示すよう構成されたデータ表示組織化モジュール、(xiv)配列リードをマッピングし、マッピングされた配列リードをカウントし、カウントを正規化し、成果を作製することの1つ以上を行うよう構成されるロジック処理モジュールまたは(xv)上記の2つ以上の組み合わせを含む。
いくつかの実施形態において、シークエンシングモジュールおよびマッピングモジュールは、シークエンシングモジュールからマッピングモジュールに配列リードを転送するよう構成される。マッピングモジュールおよびカウンティングモジュールは、マッピングモジュールからカウンティングモジュールに、マッピングされた配列リードを転送するよう構成されることもある。カウンティングモジュールおよびフィルタリングモジュールは、カウンティングモジュールからフィルタリングモジュールにカウントを転送するよう構成されることもある。カウンティングモジュールおよび重み付けモジュールは、カウンティングモジュールから重み付けモジュールにカウントを転送するよう構成されることもある。マッピングモジュールおよびフィルタリングモジュールは、マッピングモジュールからフィルタリングモジュールに、マッピングされた配列リードを転送するよう構成されることもある。マッピングモジュールおよび重み付けモジュールは、マッピングモジュールから重み付けモジュールに、マッピングされた配列リードを転送するよう構成されることもある。重み付けモジュール、フィルタリングモジュールおよびカウンティングモジュールは、重み付けモジュールおよびフィルタリングモジュールからカウンティングモジュールに、フィルタリングされ、かつ/または重み付けされたゲノム片を転送するよう構成されることもある。重み付けモジュールおよび正規化モジュールは、重み付けモジュールから正規化モジュールに、重み付けされたゲノム片を転送するよう構成されることもある。フィルタリングモジュールおよび正規化モジュールは、フィルタリングモジュールから正規化モジュールに、フィルタリングされたゲノム片を転送するよう構成されることもある。いくつかの実施形態において、正規化モジュールおよび/または比較モジュールは、比較モジュールおよび/または範囲設定モジュールに、正規化されたカウントを転送するよう構成される。いくつかの実施形態において、比較モジュール、範囲設定モジュールおよび/または分類モジュールは、独立して、(i)第2の上昇と有意に異なる第1の上昇の同定および/または(ii)比較モジュールおよび/または範囲設定モジュールから分類モジュールに、レベル期待範囲を転送するよう構成される。特定の実施形態において、分類モジュールおよび調節モジュールは、分類モジュールから調節モジュールにコピー数多型として分類される上昇を転送するよう構成される。いくつかの実施形態において、調節モジュール、プロットモジュールおよび成果モジュールは、調節モジュールからプロットモジュールまたは成果モジュールに1つまたはそれより多い調節されたレベルを転送するよう構成される。正規化モジュールは、マッピングされた正規化配列リードカウントを、比較モジュール、範囲設定モジュール、分類モジュール、調節モジュール、成果モジュールまたはプロットモジュールの1つ以上に転送するよう構成されることもある。
調節システム、装置およびコンピュータプログラム製品
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードが、妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(c)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(d)第1の上昇が上昇期待範囲の1つ内にあるときに所定の値により第1の上昇を調節し、それにより、第1の上昇を調節し、(e)(d)の調節を含むゲノム片の上昇に従い胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果を核酸配列リードから作製するよう構成されるシステムが提供される。
いくつかの態様において、1つまたはそれより多いプロセッサおよびメモリを含む装置であって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードが、妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(c)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(d)第1の上昇が上昇期待範囲の1つ内にあるときに所定の値により第1の上昇を調節し、それにより、第1の上昇を調節し、(e)(d)の調節を含むゲノム片の上昇に従い胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果を核酸配列リードから作製するよう構成される装置も提供される。
特定の態様において、コンピュータ読み取り可能な媒体上に具体化された有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、(a)参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントにアクセスし(配列リードは、妊娠女性からの循環無細胞核酸のリードである)、(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(d)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(e)第1の上昇が上昇期待範囲の1つ内にあるときに所定の値により第1の上昇を調節し、それにより、第1の上昇を調節し、(f)(e)の調節を含むゲノム片の上昇に従い胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果を核酸配列リードから作製するよう構成されるコンピュータプログラム製品も提供される。
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードが、妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(c)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(d)上昇期待範囲の1つに基づき、ゲノム片内の母体および/または胎児のコピー数多型を同定し、それにより、母体および/または胎児のコピー数多型が核酸配列リードから同定するよう構成されるシステムも提供される。
いくつかの態様において、1つまたはそれより多いプロセッサおよびメモリを含む装置であって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードが、妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(c)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(d)上昇期待範囲の1つに基づき、ゲノム片内の母体および/または胎児のコピー数多型を同定し、それにより、母体および/または胎児のコピー数多型を核酸配列リードから同定するよう構成される装置も提供される。
特定の態様において、コンピュータ読み取り可能な媒体上に具体化された有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、(a)参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントにアクセスし(配列リードは、妊娠女性からの循環無細胞核酸のリードである)、(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片に対する正規化されたカウントのプロファイルを提供し、(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(d)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(e)上昇期待範囲の1つに基づき、ゲノム片内の母体および/または胎児のコピー数多型を同定し、それにより、母体および/または胎児のコピー数多型を核酸配列リードから同定するよう構成されるコンピュータプログラム製品も提供される。
いくつかの態様において、1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードが、妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(c)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(d)第2の上昇に従い第1の上昇を調節し、それにより、第1の上昇を調節し、(e)(d)の調節を含むゲノム片の上昇に従い胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果を核酸配列リードから作製するよう構成されるシステムも提供される。
特定の態様において、1つまたはそれより多いプロセッサおよびメモリを含む装置であって、メモリが、1つまたはそれより多いプロセッサにより実行可能な命令を含み、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードが、妊娠女性からの循環無細胞核酸のリードであり、1つまたはそれより多いプロセッサにより実行可能な命令が、(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(c)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(d)第2の上昇に従い第1の上昇を調節し、それにより、第1の上昇を調節し、(e)(d)の調節を含むゲノム片の上昇に従い胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果を核酸配列リードから作製するよう構成される装置が提供される。
いくつかの態様において、コンピュータ読み取り可能な媒体上に具体化された有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、(a)参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントにアクセスし(配列リードは、妊娠女性からの循環無細胞核酸のリードである)、(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し(第1の上昇がゲノム片の第1のセットについてのものであり、第2の上昇がゲノム片の第2のセットについてのものである)、(d)ゲノムのセグメントについての不確定値に従いホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、(e)第2の上昇に従い第1の上昇を調節し、それにより、第1の上昇を調節し、(f)(e)の調節を含むゲノム片の上昇に従い胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果を核酸配列リードから作製するよう構成されるコンピュータプログラム製品が提供される。
特定の実施形態において、システム、装置および/またはコンピュータプログラム製品は、(i)核酸配列リードを得るよう構成されたシークエンシングモジュール、(ii)参照ゲノムの各部分に核酸配列リードをマッピングするよう構成されたマッピングモジュール、(iii)ゲノム片を重み付けするよう構成された重み付けモジュール、(iv)ゲノム片またはゲノム片にマッピングされたカウントをフィルタリングするよう構成されたフィルタリングモジュール、(v)参照ゲノムの各部分にマッピングされた核酸配列リードのカウントを提供するよう構成されたカウンティングモジュール、(vi)正規化されたカウントを提供するよう構成された正規化モジュール、(vii)第2の上昇と有意に異なる第1の上昇を同定するよう構成された比較モジュール、(Viii)1つまたはそれより多いレベル期待範囲を提供するよう構成される範囲設定モジュール、(ix)コピー数多型を表す上昇を同定するよう構成された分類モジュール、(x)コピー数多型として同定されたレベルを調節するよう構成された調節モジュール、(xi)レベルおよび/またはプロファイルをグラフにし、かつ表示するよう構成されたプロットモジュール、(xii)成果(例えば、胎児異数性の有無を決定する成果)を決定するよう構成された成果モジュール、(xiii)染色体異常断片もしくは胎児異数性または両方の有無を示すよう構成されたデータ表示組織化モジュール、(xiv)配列リードをマッピングし、マッピングされた配列リードをカウントし、カウントを正規化し、成果を作製することの1つ以上を行うよう構成されるロジック処理モジュールまたは(xv)上記の2つ以上の組み合わせを含む。
いくつかの実施形態において、シークエンシングモジュールおよびマッピングモジュールは、シークエンシングモジュールからマッピングモジュールに配列リードを転送するよう構成される。マッピングモジュールおよびカウンティングモジュールは、マッピングモジュールからカウンティングモジュールに、マッピングされた配列リードを転送するよう構成されることもある。カウンティングモジュールおよびフィルタリングモジュールは、カウンティングモジュールからフィルタリングモジュールにカウントを転送するよう構成されることもある。カウンティングモジュールおよび重み付けモジュールは、カウンティングモジュールから重み付けモジュールにカウントを転送するよう構成されることもある。マッピングモジュールおよびフィルタリングモジュールは、マッピングモジュールからフィルタリングモジュールに、マッピングされた配列リードを転送するよう構成されることもある。マッピングモジュールおよび重み付けモジュールは、マッピングモジュールから重み付けモジュールに、マッピングされた配列リードを転送するよう構成されることもある。重み付けモジュール、フィルタリングモジュールおよびカウンティングモジュールは、重み付けモジュールおよびフィルタリングモジュールからカウンティングモジュールに、フィルタリングされ、かつ/または重み付けされたゲノム片を転送するよう構成されることもある。重み付けモジュールおよび正規化モジュールは、重み付けモジュールから正規化モジュールに、重み付けされたゲノム片を転送するよう構成されることもある。フィルタリングモジュールおよび正規化モジュールは、フィルタリングモジュールから正規化モジュールに、フィルタリングされたゲノム片を転送するよう構成されることもある。いくつかの実施形態において、正規化モジュールおよび/または比較モジュールは、比較モジュールおよび/または範囲設定モジュールに、正規化されたカウントを転送するよう構成される。いくつかの実施形態において、比較モジュール、範囲設定モジュールおよび/または分類モジュールは、独立して、(i)第2の上昇と有意に異なる第1の上昇の同定および/または(ii)比較モジュールおよび/または範囲設定モジュールから分類モジュールにレベル期待範囲を転送するよう構成される。特定の実施形態において、分類モジュールおよび調節モジュールは、分類モジュールから調節モジュールにコピー数多型として分類される上昇を転送するよう構成される。いくつかの実施形態において、調節モジュール、プロットモジュールおよび成果モジュールは、調節モジュールからプロットモジュールまたは成果モジュールに1つまたはそれより多い調節されたレベルを転送するよう構成される。正規化モジュールは、マッピングされた正規化配列リードカウントを、比較モジュール、範囲設定モジュール、分類モジュール、調節モジュール、成果モジュールまたはプロットモジュールの1つ以上に転送するよう構成されることもある。
マシン、ソフトウェアおよびインターフェース
本明細書に記載の特定のプロセスおよび方法(例えば、配列リード、カウント、上昇(例えば、各上昇)および/またはプロファイルを定量し、マッピングし、正規化し、範囲設定し、調節し、分類し、カウントし、かつ/または決定する)は、多くの場合、コンピュータ、プロセッサ、ソフトウェア、モジュールまたは他の装置を用いずに行うことはできない。本明細書に記載の方法は、典型的に、コンピュータ実行方法であり、方法の1つまたはそれより多い部分が、1つまたはそれより多いプロセッサにより行われることもある。本明細書に記載の方法に関する実施形態は、一般に、本明細書に記載のシステム、装置およびコンピュータプログラム製品の命令により実行される同じまたは関連のプロセスに利用可能である。いくつかの実施形態において、本明細書に記載のプロセスおよび方法(例えば、配列リード、カウント、上昇および/またはプロファイルの定量、カウントおよび/または決定)を、自動化方法により行うことができる。いくつかの実施形態において、自動化方法は、配列リード、カウント、マッピング、マッピングされた配列タグ、上昇、プロファイル、正規化、比較、範囲設定、分類、調節、プロット、成果、変換および同定を決定するソフトウェア、モジュール、プロセッサ、周辺機器および/または同様のものを含む装置において具体化される。本明細書において使用される、ソフトウェアは、プロセッサにより実行されるときに、本明細書に記載のようにコンピュータ動作を行うコンピュータ読み取り可能プログラム命令を指す。
試験被験体(例えば、患者、妊娠女性)および/または参照被験体から得られた配列リード、カウント、上昇、およびプロファイルを、さらに分析し、処理し、遺伝的変異の有無を決定することができる。配列リード、カウント、上昇および/またはプロファイルは、「データ」または「データセット」と呼ばれることもある。いくつかの実施形態において、データまたはデータセットは、1つまたはそれより多い特徴または変数(例えば、配列系[例えば、GC含量、特異的ヌクレオチド配列など]、機能特異的[例えば、発現した遺伝子、がん遺伝子など]、局在系[ゲノム特異的、染色体特異的、ゲノム片またはビン特異的)などおよびそれらの組み合わせ]を特徴とすることができる。特定の実施形態において、データまたはデータセットを、1つまたはそれより多い特徴または変数に基づき、2つ以上の次元を有するマトリクスに組織化することができる。マトリクスに組織化されたデータを、任意の適切な特徴または変数を使用して組織化することができる。マトリクスのデータの非限定的な例として、母体の年齢、母体の倍数性、および胎児の寄与により組織化されたデータがある。特定の実施形態において、1つまたはそれより多い特徴または変数を特徴とするデータセットを、カウントの後に処理することもある。
装置、ソフトウェアおよびインターフェースを使用し、本明細書に記載の方法を行うことができる。装置、ソフトウェアおよびインターフェースを使用して、ユーザーは、具体的な情報、プログラムまたはプロセス(例えば、配列リードのマッピング、マッピングされたデータの処理および/または成果の提供)を使用するための選択肢を入力し、要求し、問い合わせまたは決定することができ、これは、例えば、統計学的分析アルゴリズム、統計学的有意性アルゴリズム、統計学的アルゴリズム、繰り返しステップ、検証アルゴリズム、およびグラフ表示を実行することを含むことができる。いくつかの実施形態において、データセットを、入力情報としてユーザーが入力し、ユーザーが適切なハードウェア媒体(例えば、フラッシュドライブ)により1つまたはそれより多いデータセットをダウンロードすることができ、かつ/またはユーザーが1つのシステムから、次の成果の処理および/または提供のための別のものにデータセットを送信することができる(例えば、シークエンサーから、配列リードマッピングのためのコンピュータシステムに配列リードデータを送信し、成果および/またはレポートの処理および作製のためのコンピュータシステムにマッピングされた配列データを送信する)。
システムは、典型的に、1つまたはそれより多い装置を含む。各装置は、メモリ、1つまたはそれより多いプロセッサ、および命令の1つ以上を含む。システムが2つ以上の装置を含む場合、装置の一部または全てを、同じ場所に配置することができ、装置の一部または全てを、異なる場所に配置することができ、装置の全てを、1つの場所に配置することができ、かつ/または装置の全てを異なる場所に配置することができる。システムが2つ以上の装置を含む場合、装置の一部または全てを、ユーザーと同じ場所に配置することができ、装置の一部または全てを、ユーザーと異なる場所に配置することができ、装置の全てをユーザーと同じ場所に配置することができ、かつ/または装置の全てをユーザーと異なる1つまたはそれより多い場所に配置することができる。
システムは、演算装置およびシークエンシング装置を含むこともあり、この場合、シークエンシング装置は、物理的核酸を受信し、配列リードを作製するよう構成され、演算装置は、シークエンシング装置からのリードを処理するよう構成される。演算装置は、配列リードから遺伝的変異(例えば、コピー数多型、胎児の染色体異数性)の有無を決定するよう構成されることもある。
ユーザーは、例えば、後からインターネットアクセスを介してデータセットを取得することができるソフトウェアに問い合わせを入力することができ、特定の実施形態において、プログラム可能なプロセッサを指示し、所与のパラメータに基づき、適切なデータセットを取得することができる。プログラム可能なプロセッサはまた、ユーザーに、所与のパラメータに基づき、プロセッサにより選択された1つまたはそれより多いデータセットの選択肢を選択するよう指示することができる。プログラム可能なプロセッサは、ユーザーに、インターネットを介して見つけた情報、他の内部または外部情報などに基づき、プロセッサにより選択された1つまたはそれより多いデータセットの選択肢を選択するよう指示することができる。方法、装置またはコンピュータプログラムの1つまたはそれより多いデータ特徴選択、1つまたはそれより多い統計学的アルゴリズム、1つまたはそれより多い統計学的分析アルゴリズム、1つまたはそれより多い統計学的有意性アルゴリズム、繰り返しステップ、1つまたはそれより多い検証アルゴリズム、および1つまたはそれより多いグラフ表示を選択するための選択肢を選択することができる。
本明細書において対応するシステムは、コンピュータシステム、例えば、ネットワークサーバー、ラップトップシステム、デスクトップシステム、ノートシステム、携帯端末、演算キオスクなどの汎用コンポーネントを含むことができる。コンピュータシステムは、キーボード、タッチスクリーン、マウス、音声認識などの1つまたはそれより多い入力手段またはユーザーがシステムにデータを入力することが可能な他の手段を含むことができる。システムは、さらに、表示スクリーン(例えば、CRTまたはLCD)、スピーカー、FAX機、プリンタ(例えば、レーザー、インクジェット式、インパクト式、白黒またはカラープリンタ)、または情報(例えば、成果および/またはレポート)の視覚化、可聴化および/またはハードコピー出力するのに有用な他の出力を含むがそれらに限定されない1つまたはそれより多い出力を含むことができる。
システムにおいて、入力および出力手段を、他のコンポーネントのうち、プログラム命令を実行するマイクロプロセッサおよび、プログラムコードおよびデータを格納するメモリを含むことができる中央処理装置に接続することができる。いくつかの実施形態において、プロセスを、一カ所に配置された単一のユーザーシステムとして実行することができる。特定の実施形態において、プロセスを、マルチユーザーシステムとして実行することができる。マルチユーザーの実行の場合において、マルチ中央処理装置を、ネットワークの手段に接続することができる。ネットワークは、局所、建物の一カ所の単一の部署を含み、建物全体、複数の建物に及び、一地域に及び、国全体に及び、または世界中であってよい。ネットワークは、個人用、所有されたものであってよく、プロバイダーにより制御され得、またはユーザーが情報を入力および検索するウェブページにアクセスするインターネット系サービスとして実行することができる。それに応じて、特定の実施形態において、システムは、1つまたはそれより多いマシンを含み、これは局所にあり、またはユーザーに対して遠隔であってよい。1つの場所または複数の場所の1つまたはそれより多いマシンをユーザーがアクセスし、データを、連続し、かつ/または並列にマッピングし、かつ/または処理することができる。したがって、適切な構成および制御を、複数のマシン、例えば、局所のネットワーク、遠隔ネットワークおよび/または「クラウド」演算プラットフォームを使用して、データをマッピングかつ/または処理するために利用することができる。
いくつかの実施形態において、システムは、通信インターフェースを含むことができる。通信インターフェースは、ソフトウェアの転送およびコンピュータシステムと1つまたはそれより多い外部デバイスとの間のデータの転送を可能にする。通信インターフェースの非限定的な例として、モデム、ネットワークインターフェース(例えば、イーサネット(登録商標)カード)、通信ポート、PCMCIAスロットおよびカードなどを含む。通信インターフェースを介して転送されるソフトウェアおよびデータは一般に、信号の形態であり、通信インターフェースにより受信されることができる電子、電磁、光学および/または他の信号であってよい。信号は、多くの場合、チャンネルを介して通信インターフェースに提供される。チャンネルは、多くの場合、信号を伝え、ワイヤまたはケーブル、光ファイバー、電話線、携帯電話接続、RF接続および/または他の通信チャンネルを使用して実行することができる。したがって、一例において、通信インターフェースを使用し、信号検出モジュールにより検出することができる信号情報を受信することができる。
データを、マニュアル入力デバイスまたは直接データ入力デバイス(DDE)を含むがそれに限定されない適切なデバイスおよび/または方法により入力することができる。マニュアルデバイスの非限定的な例として、キーボード、コンセプトキーボード、タッチ感応スクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナ、デジタルカメラ、ビデオデジタイザーおよび音声認識デバイスがある。DDEの非限定的な例として、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学文字認識、光学マーク認識およびターンアラウンドドキュメントがある。
いくつかの実施形態において、シークエンシング装置からの出力は、入力デバイスを介して入力することができるデータとして機能することができる。特定の実施形態において、マッピングされた配列リードは、入力デバイスを介して入力することができるデータとして機能することができる。特定の実施形態において、シミュレーションされたデータを、コンピュータ内のプロセスにより作製し、シミュレーションされたデータは、入力デバイスを介して入力することができるデータとして機能する。用語「コンピュータ内の」は、コンピュータを使用して行われる研究および実験を指す。コンピュータ内のプロセスは、本明細書に記載のプロセスに従った、配列リードのマッピングおよびマッピングされた配列リードの処理を含むがそれらに限定されない。
システムは、本明細書に記載のプロセスを行うために有用なソフトウェアを含むことができ、ソフトウェアは、このようなプロセス(例えば、シークエンシングモジュール、ロジック処理モジュール、データ表示組織化モジュール)を行うための1つまたはそれより多いモジュールを含むことができる。用語「ソフトウェア」は、コンピュータにより実行されるときに、コンピュータ動作を行うコンピュータ読み取り可能なプログラム命令を指す。1つまたはそれより多いプロセッサにより実行可能な命令を、実行されるときに、1つまたはそれより多いプロセッサに本明細書に記載の方法を実行させることができる実行可能なコードとして提供されることもある。本明細書に記載のモジュールは、ソフトウェアとして存在することができ、ソフトウェアにおいて具体化された命令(例えば、プロセス、ルーティン、サブルーティン)を、プロセッサにより実行し、または行うことができる。例えば、モジュール(例えば、ソフトウェアモジュール)は、具体的なプロセスまたはタスクを行うプログラムの一部であってよい。用語「モジュール」は、大型の装置またはソフトウェアシステムに使用され得る自己充足機能ユニットを指す。モジュールは、モジュールの機能を行うための命令のセットを含むことができる。モジュールは、データおよび/または情報を変換することができる。データおよび/または情報は、適切な形態であってよい。例えば、データおよび/または情報はデジタルまたはアナログであってよい。いくつかの例においてにおいて、データおよび/または情報は、パケット、バイト、文字またはビットであってよい。いくつかの実施形態において、データおよび/または情報は、任意の収集された、組み立てられた、または利用可能なデータまたは情報であってよい。データおよび/または情報の非限定的な例として、適切な媒体、写真、ビデオ、音声(例えば、周波数、可聴式または非可聴式)、数字、定数、値、オブジェクト、時間、関数、命令、マップ、参照、配列、リード、マッピングされたリード、上昇、範囲、閾、信号、ディスプレイ、表示またはそれらの変換物がある。モジュールは、データおよび/または情報を承認し、または受信し、データおよび/または情報を第2の形態に変換し、第2の形態を、装置、周辺機器、コンポーネントまたは別のモジュールに提供または転送することができる。モジュールは、以下の非限定的な機能の1つ以上を行うことができる:配列リードのマッピング、カウントの提供、ゲノム片の組み立て、上昇の提供または決定、カウントプロファイルの提供、正規化(例えば、リードの正規化、カウントの正規化など)、正規化されたカウントプロファイルまたは正規化されたカウントの上昇の提供、2つ以上の上昇の比較、不確定値の提供、上昇期待値および期待範囲(例えば、上昇期待範囲、閾範囲および上昇閾)の提供または決定、上昇(例えば、第1の上昇の調節、第2の上昇の調節、染色体またはそのセグメントのプロファイルの調節、および/またはパディング)に対する調節の提供、同定(例えば、コピー数多型、遺伝的変異または異数性の同定)の提供、分類、プロット、および/または成果の決定など。いくつかの例において、プロセッサは、モジュールにおいて命令を行う。いくつかの実施形態において、1つまたはそれより多いプロセッサは、モジュールまたはモジュールのグループにおいて命令を行うことを要求される。モジュールは、別のモジュール、装置またはソースにデータおよび/または情報を提供することができ、別のモジュール、装置またはソースからデータおよび/または情報を受信することができる。
コンピュータプログラム製品は、有形のコンピュータ読み取り可能な媒体に具体化されることもあり、固定コンピュータ読み取り可能な媒体に有形に具体化されることもある。モジュールは、コンピュータ読み取り可能な媒体(例えば、ディスク、ドライブ)上にまたはメモリ(例えば、ランダムアクセスメモリ)に格納されることもある。モジュールからの命令を実行することができるモジュールおよびプロセッサを、装置内または異なる装置内に配置することができる。モジュールに対する命令を実行することができるモジュールおよび/またはプロセッサを、ユーザーと同じ場所(例えば、局所のネットワーク)に、またはユーザーと異なる場所(例えば、遠隔ネットワーク、クラウドシステム)に配置することができる。方法を2つ以上のモジュールと合わせて行う実施形態において、モジュールを、同じ装置に配置することができ、1つまたはそれより多いモジュールを同じ物理的な場所にある異なる装置に配置することができ、1つまたはそれより多いモジュールを、異なる物理的な場所にある異なる装置に配置することができる。
いくつかの実施形態において、装置は、モジュールの命令を行うための少なくとも1つのプロセッサを含む。参照ゲノムのゲノム片にマッピングされた配列リードのカウントが、本明細書に記載の方法を行うよう構成された命令を実行するプロセッサによりアクセスされる。プロセッサによりアクセスされるカウントは、システムのメモリ内であってよく、カウントがアクセスされ、得られた後にシステムのメモリに入れられる。いくつかの実施形態において、装置は、モジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む。いくつかの実施形態において、装置は、マルチプロセッサ、例えば、並列に協動し、作業するプロセッサを含む。いくつかの実施形態において、装置は、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。いくつかの実施形態において、装置はモジュールを含む。装置は、1つまたはそれより多いモジュールを含むこともある。モジュールを含む装置は、多くの場合、他のモジュールに、およびそこからデータおよび/または情報の1つ以上を受信し、転送することができる。いくつかの例において、装置は、周辺機器および/またはコンポーネントを含む。装置は、他のモジュール、周辺機器および/またはコンポーネントに、およびそこからデータおよび/または情報を転送することができる1つまたはそれより多い周辺機器またはコンポーネントを含むことができることもある。装置は、データおよび/または情報を提供する周辺機器および/またはコンポーネントと相互作用することもある。周辺機器およびコンポーネントは、機能を行い、またはモジュールと直接相互作用するときに装置を補助することもある。周辺機器および/またはコンポーネントの非限定的な例として、適切なコンピュータ周辺機器があり、I/Oまたは格納方法またはデバイスは以下を含むがそれらに限定されない:スキャナ、プリンタ、ディスプレイ(例えば、モニター、LED、LCTまたはCRT)、カメラ、マイクロフォン、パッド(例えば、iパッド、タブレット)、タッチスクリーン、スマートフォン、携帯、USB I/Oデバイス、USB大容量記憶デバイス、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、プロセッサ、サーバー、CD、DVD、グラフィックカード、特定のI/Oデバイス(例えば、シークエンサー、フォトセル、光電子増倍管、光学式リーダー、センサーなど)、1つまたはそれより多いフローセル、流体処理コンポーネント、ネットワークインターフェースコントローラ、ROM、RAM、ワイヤレス転送法およびデバイス(Bluetooth(登録商標)、WiFiなど)、ワールドワイドウェブ(WWW)、インターネット、コンピュータモジュールおよび/または別のモジュール。
シークエンシングモジュール、ロジック処理モジュールおよびデータ表示組織化モジュールの1つ以上を、本明細書に記載の方法において利用することができる。ロジック処理モジュール、シークエンシングモジュールまたはデータ表示組織化モジュール、または1つまたはそれより多いこのようなモジュールを含む装置は、別のモジュール、装置、コンポーネント、周辺機器または装置のオペレータに、またはそれらからデータおよび/または情報を収集し、組み立て、受信し、提供し、かつ/または転送することもある。例えば、装置のオペレータは、定数、閾値、式または所定の値を、ロジック処理モジュール、シークエンシングモジュールまたはデータ表示組織化モジュールに提供することもある。ロジック処理モジュール、シークエンシングモジュールまたはデータ表示組織化モジュールは、別のモジュールからデータおよび/または情報を受信することができ、その非限定的な例として、ロジック処理モジュール、シークエンシングモジュール、データ表示組織化モジュール、シークエンシングモジュール、シークエンシングモジュール、マッピングモジュール、カウンティングモジュール、正規化モジュール、比較モジュール、範囲設定モジュール、分類モジュール、調節モジュール、プロットモジュール、成果モジュール、データ表示組織化モジュールおよび/またはロジック処理モジュールなど、またはそれらの組み合わせがある。ロジック処理モジュール、シークエンシングモジュールまたはデータ表示組織化モジュールから得られ、またはこれらより変換されたデータおよび/または情報を、ロジック処理モジュール、シークエンシングモジュールまたはデータ表示組織化モジュールから、シークエンシングモジュール、シークエンシングモジュール、マッピングモジュール、カウンティングモジュール、正規化モジュール、比較モジュール、範囲設定モジュール、分類モジュール、調節モジュール、プロットモジュール、成果モジュール、データ表示組織化モジュール、ロジック処理モジュールまたは他の適切な装置および/またはモジュールに転送することができる。シークエンシングモジュールは、例えば、ロジック処理モジュールおよび/またはシークエンシングモジュールから(form)のデータおよび/または情報を受信し、ロジック処理モジュールおよび/またはマッピングモジュールにデータおよび/または情報を転送することができる。ロジック処理モジュールは、データおよび/または情報を統合し、制御し、制限し、組織化し、指令し、分配し、区画化し、変換し、かつ/または調節することもあり、あるいは1つまたはそれより多いモジュール、周辺機器またはデバイスに、およびそれらからデータおよび/または情報の転送。データ表示組織化モジュールは、ロジック処理モジュールおよび/またはプロットモジュールから(form)データおよび/または情報を受信し、ロジック処理モジュール、プロットモジュール、ディスプレイ、周辺機器またはデバイスにデータおよび/または情報を転送することができる。ロジック処理モジュール、シークエンシングモジュールまたはデータ表示組織化モジュールを含む装置は、少なくとも1つのプロセッサを含むことができる。いくつかの例において、データおよび/または情報は、ロジック処理モジュール、シークエンシングモジュールおよび/またはデータ表示組織化モジュールからの1つまたはそれより多い命令(例えば、プロセス、ルーティンおよび/またはサブルーティン)を行い、かつ/または実行することができるプロセッサ(例えば、1つまたはそれより多いプロセッサ)を含む装置により提供される。いくつかの実施形態において、ロジック処理モジュール、シークエンシングモジュールまたはデータ表示組織化モジュールは、1つまたはそれより多い外部プロセッサ(例えば、内部または外部ネットワーク、サーバー、記憶デバイスおよび/または記憶ネットワーク(例えば、クラウド))とともに動作する。
ソフトウェアは、多くの場合、フロッピー(登録商標)ディスク、ハードディスク、および磁気テープを含む磁気媒体、CD−ROMディスク、DVDディスク、光磁気ディスク、フラッシュドライブ、RAM、フロッピー(登録商標)ディスクなどを含む光学媒体、およびプログラム命令を記録することができる他のこのような媒体を含むがそれらに限定されない、コンピュータ読み取り可能な媒体上に記録されるプログラム命令を含有するプログラム製品に提供される。オンラインの実行において、組織化により維持されるサーバーおよびウェブサイトは、ソフトウェアのダウンロードを遠隔ユーザーに提供するよう構成されることができ、遠隔ユーザーは、組織化により維持された遠隔システムにアクセスし、ソフトウェアに遠隔操作によりアクセスすることができる。ソフトウェアは、入力情報を得、または受信することができる。ソフトウェアは、データを特に得、または受信するモジュールを含むことができ(例えば、配列リードデータおよび/またはマッピングされたリードデータを受信するデータ受信モジュール)、特にデータを処理するモジュール(例えば、受信したデータを処理する処理モジュール)を含むことができる(例えば、成果および/またはレポートをフィルタリングし、正規化し、提供する)。用語、入力情報を「得る」および「受信する」は、局所、もしくは遠隔地、ヒトによるデータ入力からのコンピュータ通信手段、または任意の他のデータを受信する方法により、データ(例えば、配列リード、マッピングされたリード)を受信することを指す。入力情報を、受信する同じ場所で収集することができ、または異なる場所で収集し、受信する場所に転送することができる。いくつかの実施形態において、入力情報を、処理する前に改変する(例えば、処理しやすいフォーマットに入力する(例えば、表にする))。
いくつかの実施形態において、コンピュータプログラム製品、例えば、コンピュータ読み取り可能なプログラムコードを中に具体化するコンピュータ利用な可能な媒体を含むコンピュータプログラム製品などを提供し、コンピュータ読み取り可能なプログラムコードは、以下を含む方法を実行するよう、実行に適応させた:(a)試験被験体からサンプル核酸の配列リードを得、(b)ゲノム片に分割されている既知のゲノムに(a)で得られた配列リードをマッピングし、(c)ゲノム片内にマッピングされた配列リードをカウントし、(d)(c)で得られたゲノム片におけるカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、(e)(d)のサンプル正規化されたカウントプロファイルから遺伝的変異の有無を決定する。
特定の実施形態において、ソフトウェアは、1つまたはそれより多いアルゴリズムを含むことができる。アルゴリズムを、有限数列の命令に従い、データを処理し、かつ/または成果またはレポートを提供するために使用することができる。アルゴリズムは、多くの場合、タスクを完了するための定義された命令の一覧である。初期状態から開始すると、命令は、定義された一連の連続した状態を通してプロセスし、最後に最終のエンド状態で終了する演算を書き込むことができる。一状態から次への移動は、必ずしも決定論的ではない(例えば、アルゴリズムの中には、乱数度を組み込んでいる)。例として、限定されないが、アルゴリズムは、検索アルゴリズム、ソートアルゴリズム、マージアルゴリズム、数値アルゴリズム、グラフアルゴリズム、文字列アルゴリズム、モデリングアルゴリズム、演算幾何学アルゴリズム、組み合わせアルゴリズム、機械学習アルゴリズム、暗号アルゴリズム、データ比較アルゴリズム、構文解析アルゴリズムなどであってよい。アルゴリズムは、1つのアルゴリズムまたは組み合わせて作業する2つ以上のアルゴリズムを含むことができる。アルゴリズムは、任意の適切な複雑性のクラスおよび/またはパラメータ化された複雑性のものであってよい。アルゴリズムを、計算および/またはデータ処理に使用しすることができ、いくつかの実施形態において、決定論的または確率/予測アプローチに使用することができる。アルゴリズムを、適切なプログラミング言語の使用により、演算環境において実行することができ、その非限定的な例は、C、C++、Java(登録商標)、Perl、Python、Fortranなどである。いくつかの実施形態において、アルゴリズムを、誤差のマージン、統計学的分析、統計学的有意性、および/または他の情報もしくはデータセットに対する比較を含むよう構成または改変することができる(例えば、ニューラルネットまたはクラスタリングアルゴリズムを使用するときに適用可能)。
特定の実施形態において、いくつかのアルゴリズムを、ソフトウェアの使用のために実行することができる。いくつかの実施形態において、これらのアルゴリズムを、未処理データで訓練することができる。それぞれの新たな未処理データサンプルに対して、訓練されたアルゴリズムは、代表的なプロセスしたデータセットまたは成果を生成することができる。プロセスされたデータセットは、プロセスされた親データセットに比較して複雑性が減少したものであることもある。いくつかの実施形態において、プロセスされたセットに基づき、訓練されたアルゴリズムの動作を、感受性および特異性に基づき評価することができる。特定の実施形態において、最も高い感受性および/または特異性のアルゴリズムを同定し、利用することができる。
特定の実施形態において、シミュレートした(またはシミュレーション)データは、例えば、アルゴリズムを訓練し、またはアルゴリズムを試験することによりデータ処理を補助することができる。いくつかの実施形態において、シミュレートしたデータは、異なるグループ分けの配列リードの仮想の種々のサンプリングを含む。シミュレートしたデータは、実際の集団から期待され得るもの、またはアルゴリズムを試験および/また正確な分類に割り当てるためにスキューさせ得るものに基づくことができる。シミュレートしたデータも、本明細書において、「仮想」データと呼ばれる。特定の実施形態において、シミュレーションを、コンピュータプログラムにより行うことができる。シミュレートしたデータセットを使用するときの1つの考えられるステップは、同定された結果の信頼性、例えば、無作為のサンプリングが元のデータ十分に一致するか、または最もよく表すかを評価することである。1つの方法は、確率値(p値)を算出することであり、これは、選択されたサンプルに比べ良いスコアを有する無作為のサンプルの確率を評価する。いくつかの実施形態において、少なくとも1つのサンプルが参照サンプルと(分散を分解し、または分解せずに)一致することを仮定する、経験的モデルを評価することができる。いくつかの実施形態において、別の分布、例えば、ポアソン分布などを使用し、確率分布を定義することができる。
特定の実施形態において、システムは、1つまたはそれより多いプロセッサを含むことができる。プロセッサを、通信バスに接続することができる。コンピュータシステムは、メインメモリ、多くの場合、ランダムアクセスメモリ(RAM)を含むことができ、また、セカンダリメモリを含むことができる。いくつかの実施形態において、メモリは、固定コンピュータ読み取り可能な記憶媒体を含む。セカンダリメモリは、例えば、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、メモリカードなどを表す、ハードディスクドライブおよび/またはリムーバブル記憶ドライブなどを含むことができる。リムーバブル記憶ドライブは、多くの場合、リムーバブル記憶ユニットから読み取り、かつ/またはそこに書き込む。リムーバブル記憶ユニットの非限定的な例として、フロッピー(登録商標)ディスク、磁気テープ、光学ディスクなどがあり、これらは、例えば、リムーバブル記憶ドライブにより読み取られ、かつそこに書き込まれることができる。リムーバブル記憶ユニットをコンピュータソフトウェアおよび/またはデータに格納されているコンピュータ使用可能な記憶媒体を含むことができる。
プロセッサは、システムのソフトウェアを実行することができる。いくつかの実施形態において、プロセッサをプログラミングし、ユーザーが行うことができる本明細書に記載のタスクを自動で行うことができる。それに応じて、プロセッサまたはこのようなプロセッサにより行われるアルゴリズムは、ユーザーからの監視または入力をほとんどか全く必要としない(例えば、ソフトウェアをプログラミングし、自動的に関数を実行することができる)。いくつかの実施形態において、プロセスの複雑性は、一人またはグループで、遺伝的変異の有無を決定するにはあまりに短い時間枠でプロセスを行うことができないほど大きい。
いくつかの実施形態において、セカンダリメモリは、コンピュータプログラムまたは他の命令をコンピュータシステムにロードすることを可能にする他の同様の手段を含むことができる。例えば、システムは、リムーバブル記憶ユニットおよびインターフェースデバイスを含むことができる。このようなシステムの非限定的な例として、プログラムカートリッジおよびカートリッジインターフェース(例えば、ビデオゲームデバイスに見られるもの)、リムーバブルメモリチップ(例えば、EPROM、またはPROM)および関連のソケット、ならびにソフトウェアおよびデータをリムーバブル記憶ユニットからコンピュータシステムに転送することを可能にする他のリムーバブル記憶ユニットおよびインターフェースがある。
いくつかの実施形態において、本明細書に記載の方法、システム、装置またはコンピュータプログラム製品において、1つのエンティティが、配列リードのカウントを作製し、配列リードをゲノム片にマッピングし、マッピングされたリードをカウントし、カウントされ、マッピングされたリードを利用することができる。特定の実施形態において、本明細書に記載の方法、システム、装置またはコンピュータプログラム製品において、第2のエンティティにより使用するため、第1のエンティティが第2のエンティティに、ゲノム片にマッピングされた配列リードのカウントを転送することもある。
いくつかの実施形態において、第1のエンティティが配列リードを作製し、いくつかの実施形態において、第2のエンティティがこれらの配列リードを参照ゲノムのゲノム片にマッピングする。本明細書に記載の方法、システム、装置またはコンピュータプログラム製品において、第2のエンティティがマッピングされたリードをカウントし、カウントされ、マッピングされたリードを利用することもある。本明細書に記載の方法、システム、装置またはコンピュータプログラム製品において、第2のエンティティが、マッピングされたリードを第3のエンティティに転送し、第3のエンティティが、マッピングされたリードをカウントし、マッピングされたリードを利用することもある。本明細書に記載の方法、システム、装置またはコンピュータプログラム製品において、第2のエンティティが、マッピングされたリードをカウントし、カウントされ、マッピングされたリードを第3のエンティティに転送し、第3のエンティティが、カウントされ、マッピングされたリードを利用することもある。第3のエンティティを含む実施形態において、第3のエンティティが第1のエンティティと同じであることもある。すなわち、第1のエンティティが、配列リードを第2のエンティティに転送することもあり、この第2のエンティティが、配列リードを、参照ゲノムのゲノム片にマッピングし、かつ/またはマッピングされたリードをカウントすることができ、第2のエンティティが、マッピングされ、かつ/またはカウントされたリードを第3のエンティティに転送することができる。本明細書に記載の方法、システム、装置またはコンピュータプログラム製品において、第3のエンティティが、マッピングされ、かつ/またはカウントされたリードを利用することができ、この場合、第3のエンティティが第1のエンティティと同じであることもあり、第3のエンティティが第1または第2のエンティティと異なることもある。
いくつかの実施形態において、第1のエンティティは、妊娠女性からの血液を得、場合により血液から(例えば、血漿または血清から)核酸を単離し、血液または核酸を、核酸から配列リードを作製する第2のエンティティに転送する。
遺伝的変異および病状
遺伝的分散の有無を、本明細書に記載の方法または装置を使用して決定することができる。特定の実施形態において、1つまたはそれより多い遺伝的変異の有無を、本明細書に記載の方法および装置により提供される成果に従い決定する。遺伝的変異は、一般に、特定の個体に存在する具体的な遺伝表現型であり、多くの場合、遺伝的変異は、個体の統計学的有意な部分集合に存在する。いくつかの実施形態において、遺伝的変異は、染色体異常(例えば、異数性)、部分的染色体異常またはモザイクであり、これらのそれぞれを本明細書においてさらに詳細に説明する。遺伝的変異の非限定的な例として、1つまたはそれより多い欠失(例えば、微小欠失)、重複(例えば、微小重複)、挿入、突然変異、多型(例えば、一塩基多型)、融合、繰り返し(例えば、縦列型反復配列)、個別のメチル化部位、個別のメチル化パターンなど、およびそれらの組み合わせがある。挿入、繰り返し、欠失、重複、突然変異または多型は、任意の長さであってよく、いくつかの実施形態において、約1塩基または塩基対(bp)〜約250メガ塩基長(Mb)である。いくつかの実施形態において、挿入、繰り返し、欠失、重複、突然変異または多型は、約1塩基または塩基対(bp)〜約1,000キロ塩基長(例えば、約10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb、または1000kb長)である。
遺伝的変異は欠失であることもある。欠失は、染色体またはDNAの配列の一部を失う突然変異(例えば、遺伝的異常)であることもある。欠失は、多くの場合、遺伝物質の消失である。あらゆる数のヌクレオチドを欠失し得る。欠失は、1つまたはそれより多い染色体全体、染色体の断片、アレル、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、それらの断片またはそれらの組み合わせを含み得る。欠失は、微小欠失を含み得る。欠失は、一塩基の欠失を含み得る。
遺伝的変異は、遺伝子重複であることもある。重複は、染色体またはDNAの配列の一部をコピーし、ゲノムに挿入して戻す突然変異(例えば、遺伝子異常)である。遺伝子重複(すなわち、重複)は、DNAの領域の任意の重複であることもある。いくつかの実施形態において、重複は、ゲノムまたは染色体内で、多くの場合、縦に並んで繰り返される核酸配列である。いくつかの実施形態において、重複は、1つまたはそれより多い染色体全体、染色体の断片、アレル、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、それらの断片またはそれらの組み合わせのコピーを含むことができる。重複は、微小重複を含み得る。重複は、重複された核酸の1つまたはそれより多いコピーを含むこともある。重複は、1回以上繰り返された(例えば、1、2、3、4、5、6、7、8、9または10回繰り返された)遺伝子領域として特徴付けられることもある。いくつかの例において、重複は、小範囲(数千の塩基対)から、染色体全体に及び得る。重複は、多くの場合、相同組み換えにおいて、またはレトロトランスポゾン事象による誤差の結果として生じる。重複は、特定の種類の増殖性疾患と関連している。重複は、遺伝子マイクロアレイまたは比較遺伝子ハイブリダイゼーション(CGH)を使用して特徴付けることができる。
遺伝的変異は、挿入であることもある。挿入は、1つまたはそれより多いヌクレオチド塩基対の核酸配列への添加であることもある。挿入は、微小挿入であることもある。挿入は、染色体の断片の、ゲノム、染色体、またはそれらの断片への添加を含むこともある。挿入は、アレル、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、それらの断片またはそれらの組み合わせの、ゲノムまたはその断片への添加を含むこともある。挿入は、未知の起点の核酸の、ゲノム、染色体、またはそれらの断片への添加(すなわち、挿入)を含むこともある。挿入は、一塩基の添加(すなわち、挿入)を含むこともある。
本明細書において使用される場合、「コピー数多型」は、一般に、遺伝的変異または染色体異常のクラスまたは種類である。コピー数多型は、欠失(例えば、微小欠失)、重複(例えば、微小重複)または挿入(例えば、微小挿入)であり得る。多くの場合、本明細書において使用される場合、接頭語「微小」は、5Mb長未満の核酸の断片であることもある。コピー数多型は、染色体の断片の1つまたはそれより多い欠失(例えば、微小欠失)、重複および/または挿入(例えば、微小重複、微小挿入)を含み得る。いくつかの例において、重複は挿入を含む。挿入は重複であることもある。挿入は重複でないこともある。例えば、多くの場合、ゲノム片の配列の重複は、重複が見つかるゲノム片に対するカウントを増加させる。多くの場合、ゲノム片の配列の重複は、上昇を増大させる。第1の上昇を作製するゲノム片に存在する重複は、重複が存在しない第2の上昇に対する上昇を増大させることもある。挿入は、ゲノム片のカウントを増加させ、挿入を表す配列は、同じゲノム片内の別の位置に存在する(すなわち、重複する)こともある。挿入は、ゲノム片のカウントまたは上昇を顕著に増大させず、挿入される配列は、同じゲノム片内の配列の重複ではないこともある。挿入は、重複として検出されず、または表現されず、挿入を表す重複配列は、同じゲノム片に存在しないこともある。
いくつかの実施形態において、コピー数多型は、胎児のコピー数多型である。多くの場合、胎児のコピー数多型は、胎児のゲノムのコピー数多型である。いくつかの実施形態において、コピー数多型は、母体のコピー数多型である。母体および/または胎児のコピー数多型は、妊娠女性(例えば、胎児を妊娠する女性対象)、出産した女性対象または胎児を妊娠することができる女性のゲノム内のコピー数多型であることもある。コピー数多型は、多型(例えば、重複または欠失)がゲノムの1つのアレルに存在する場合、ヘテロ接合のコピー数多型であり得る。コピー数多型は、多型がゲノムの両方のアレルに存在する場合、ホモ接合のコピー数多型であり得る。いくつかの実施形態において、コピー数多型は、ヘテロ接合の、またはホモ接合の胎児のコピー数多型である。いくつかの実施形態において、コピー数多型は、ヘテロ接合の、またはホモ接合の母体および/または胎児のコピー数多型である。コピー数多型は、母体のゲノムおよび胎児のゲノムに存在し、母体のゲノムに存在し、かつ胎児のゲノムに存在せず、または胎児のゲノムに存在し、かつ母体のゲノムに存在しないこともある。
「倍数性」は、胎児または母親に存在する染色体の数を指す。「倍数性」は「染色体倍数性」と同じであることもある。ヒトにおいて、例えば、常染色体は、多くの場合、対で存在する。例えば、遺伝的変異の非存在において、ほとんどのヒトは、2本のそれぞれの常染色体(例えば、第1番染色体〜22)を有する。ヒトにおける2本の常染色体の正常な相補体の存在は、多くの場合、正倍数性と呼ばれる。「微小倍数性」は、倍数性の意味に類似する。「微小倍数性」は、多くの場合、染色体の断片の倍数性を指す。用語「微小倍数性」は、染色体(例えば、ホモ接合の、またはヘテロ接合の欠失、重複、または挿入など、あるいはそれらの非存在)内のコピー数多型(例えば、欠失、重複および/または挿入)の有無を指すこともある。「倍数性」および「微小倍数性」は、プロファイルの上昇のカウントの正規化の後(例えば、1のNRVに上昇のカウントを正規化した後)に決定される。したがって、常染色体対(例えば、正倍数体)を表す上昇は、多くの場合、1のNRVに対して正規化され、1の倍数性と呼ばれる。同様に、重複、欠失または挿入の非存在を表す染色体の断片内の上昇は、多くの場合、1のNRVに対して正規化され、1の微小倍数性と呼ばれる。正倍数性および微小倍数性は、多くの場合、ビン特異的(例えば、ゲノム片特異的)およびサンプル特異的である。倍数性は、多くの場合、1、1/2、0、3/2および2の値の1/2の整数倍が、それぞれ、正倍数性(例えば、2本の染色体)、1本の染色体の存在(例えば、染色体の欠失)、染色体の非存在、3本の染色体(例えば、トリソミー)および4本の染色体を表すとして定義される。同様に、微小倍数性は、多くの場合、1、1/2、0、3/2および2の値の1/2の整数倍が、それぞれ、正倍数性(例えば、コピー数多型がない)、ヘテロ接合欠失、ホモ接合欠失、ヘテロ接合重複およびホモ接合重複を表すとして定義される。1のNRVに対する胎児の倍数性値のいくつかの例を、表2に記載する。
胎児の微小倍数性は、胎児の母親(すなわち、妊娠女性対象)の微小倍数性に一致することもある。胎児の微小倍数性は、胎児の母親の微小倍数性と一致し、同じヘテロ接合のコピー数多型、ホモ接合のコピー数多型または両方を担持する母親および胎児の両方は正倍数体であることもある。胎児の微小倍数性は、胎児の母親の微小倍数性と異なることもある。例えば、胎児の微小倍数性がコピー数多型に対してヘテロ接合であり、母親がコピー数多型に対してホモ接合であり、胎児の微小倍数性が、特定のコピー数多型に対して母親の微小倍数性と一致しない(例えば、等しくない)こともある。
微小倍数性は、多くの場合、上昇期待値と関連する。例えば、上昇(例えば、プロファイルの上昇、実質的にコピー数多型を含まない上昇もある)を、1のNRVに対して正規化し、ホモ接合重複の倍数性が2であり、ヘテロ接合重複が1.5であり、ヘテロ接合欠失が0.5であり、ホモ接合欠失がゼロである。
特定の実施形態において、遺伝的変異は、その有無を対象において同定されるが、病状と関連がある。したがって、本明細書に記載の技術を使用し、病状または医学的状況と関連する1つまたはそれより多い遺伝的変異の有無を同定することができる。病状の非限定的な例は、知的障害(例えば、ダウン症)、異常細胞増殖(例えば、がん)、微生物核酸(例えば、ウイルス、細菌、真菌、酵母)の存在および妊娠高血圧腎症と関連するものがある。
遺伝的変異、病状および状況の非限定的な例を、以下に記載する。
胎児の性別
いくつかの実施形態において、胎児の性別または性関連障害(例えば、性染色体異数性)の予測を、本明細書に記載の方法または装置により決定することができる。性別決定は、一般に、性染色体に基づく。ヒトにおいて、性染色体は2つ、XおよびY染色体がある。Y染色体は、遺伝子、SRYを含有し、これは、男性としての胚発育を誘発する。ヒトおよび他の哺乳類動物のY染色体はまた、正常な精子産生に必要な他の遺伝子を含有する。XXの個体は女性であり、XYは男性であり、非限定的な多型は、多くの場合、性染色体異数性と呼ばれ、X0、XYY、XXXおよびXXYを含む。いくつかの例において、男性は、2本のX染色体および1本染色体(XXY;クラインフェルター症候群)または1本のX染色体および2本のY染色体(XYY症候群;ヤコブ症)を有し、一部の女性は、3本のX染色体(XXX;トリプルX症候群)または2本の代わりに1本のX染色体(X0;ターナー症候群)を有する。いくつかの例において、個体の細胞の一部のみが、モザイク(例えば、ターナーモザイク)と呼ばれ得る性染色体異数性により影響される。他の例は、SRYが損傷し(XY女性を生じる)またはXにコピーされる(XX男性を生じる)ものを含む。
特定の例において、子宮内で胎児の性別を決定することは有益であり得る。例えば、1つまたはそれより多い性連鎖障害の家族歴を有する患者(例えば、妊娠女性)は、このような障害を受け継ぐ胎児の危険を評価するのに役立てるために、患者が妊娠する胎児の性別を決定することを望むことができる。性連鎖障害は、X連鎖およびY連鎖障害を含むが、限定されない。X連鎖障害は、X連鎖劣性およびX連鎖優性障害を含む。X連鎖劣性障害の例として、免疫障害(例えば、慢性肉芽腫症(CYBB)、ヴィスコット・アルドリッチ症候群、X連鎖重症複合免疫不全症、X連鎖無ガンマグロブリン血症、1型高IgM症候群、IPEX、X連鎖リンパ増殖性疾患、プロペルジン欠乏症)、血液障害(例えば、血友病A,血友病B、X連鎖性鉄芽球性貧血)、内分泌障害(例えば、アンドロゲン不応症/ケネディ症候群、KAL1カルマン症候群、X連鎖先天性副腎低形成)、代謝障害(例えば、オルニチントランスカルバミラーゼ欠損症、眼脳腎症候群、副腎白質萎縮症、グルコース−6−リン酸脱水素酵素欠損症、ピルビン酸デヒドロゲナーゼ欠損症、ダノン病/IIb型糖原病、ファブリー病、ハンター症候群、レッシュ・ナイハン症候群、メンケス病/後角症候群)、中枢神経障害(例えば、コフィン−ローリー症候群、MASA症候群、X連鎖αサラセミア・精神遅滞症候群、シデリウス型X連鎖性精神遅滞症候群、色盲、眼白子症、ノリエ病、先天性脈絡膜欠如、シャルコー・マリー・トゥース病(CMTX2−3)、ペリツェウス・メルツバッハー病、SMAX2)、皮膚および関連組織障害(例えば、先天性角化不全症、無汗性外胚葉形成不全(EDA)、X連鎖性魚鱗癬、X連鎖性角膜内皮変性症)、神経筋障害(例えば、ベッカー型筋ジストロフィー/デュシェンヌ型筋ジストロフィー、中心核ミオパシー(MTM1)、コンラーディ・ヒューネルマン症候群、エメリ・ドレフュス型筋ジストロフィー1)、泌尿器疾患(例えば、アルポート症候群、デント病、X連鎖性腎性尿崩症)、骨/歯科障害(例えば、AMELXエナメル質形成不全症)、および他の障害(例えば、バース症候群、マクロード症候群、スミス‐ファインマン‐マイヤーズ症候群、シンプソン・ゴラビ・ベーメル症候群、モーア−トラネジャーグ症候群(Mohr−Tranebjaerg syndrome)、ナソディジトアコースティック症候群(Nasodigitoacoustic syndrome))を含むが限定されない。X連鎖優性障害の例として、X連鎖性低リン酸血症、巣状皮膚低形成、脆弱X症候群、アイカルディ症候群、色素失調症、レット症候群、小児症候群、ルハン−フリンス症候群(Lujan−Fryns syndrome)、および口顔面指症候群1を含むが限定されない。Y連鎖障害の例として、男性不妊、網膜色素変性、および無精子症を含むが限定されない。
染色体異常
いくつかの実施形態において、胎児染色体異常の有無を、本明細書に記載の方法または装置を使用することにより決定することができる。染色体異常は、染色体全体または1つまたはそれより多い遺伝子を含む染色体の領域の増加または消失を含むが限定されない。染色体異常は、不均衡転座により生じる欠失および重複を含む、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の消失、1つまたはそれより多いヌクレオチド配列(例えば、1つまたはそれより多い遺伝子)の欠失および/または重複を含む。本明細書において使用される場合、用語「異数性」および「異数体」は、生体の細胞の異常な数の染色体を指す。異なる生体が広範囲の異なる染色体相補体を有する場合、用語「異数性」は、具体的な数の染色体を指さず、むしろ生体の所与の細胞または各細胞内の染色体含量が異常である状況を指す。いくつかの実施形態において、本明細書における用語「異数性」は、染色体全体または染色体の一部の消失または増加により生じた遺伝物質の不均衡さを指す。「異数性」は、染色体の断片の1つまたはそれより多い欠失および/または挿入を指し得る。
本明細書において使用される用語「モノソミー」は、1本の染色体の正常な相補体の欠如を指す。部分的なモノソミーは、不均衡転座または欠失に生じ得、この場合、染色体の断片のみが1つのコピーに存在する。性染色体のモノソミー(45、X)は、例えば、ターナー症候群を生じる。
用語「ダイソミー」は、染色体の2つのコピーの存在を指す。各染色体の2つのコピー(2倍体または「正倍数体」であるもの)を有するヒトなどの生体において、ダイソミー正常な状態である。通常、各染色体の3つ以上のコピー(3倍体以上であるもの)を有する生体において、ダイソミーは異数体染色体状況である。片親のダイソミーにおいて、染色体の両方のコピーは、同じ親から生じる(もう一方の親からの寄与がない)。
いくつかの実施形態において、用語「正倍数体」は、染色体の正常な相補体を指す。
本明細書において使用される場合、用語「トリソミー」は、具体的な染色体の2つのコピーに代わりに、3つのコピーの存在を指す。ヒトダウン症に見つかる特別な第21番染色体の存在は、「トリソミー21」と呼ばれる。トリソミー18およびトリソミー13は、2つの他のヒト常染色体トリソミーである。性染色体のトリソミーは、女性(例えば、47、トリプルX症候群のXXX)または男性(例えば、47、クラインフェルター症候群のXXY、または47、ヤコブ症候群のXYY)が見られ得る。
本明細書において使用される場合、用語「テトラソミー」および「ペンタソミー」は、それぞれ、染色体の4つまたは5つのコピーの存在を指す。常染色体にまれにしか見られないが、性染色体テトラソミーおよびペンタソミーは、ヒトにおいて、XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYYおよびXYYYYを含むと報告されている。
染色体異常は、種々のメカニズムにより生じ得る。メカニズムは、以下を含むがそれらに限定されない:(i)脆弱な有糸分裂チェックポイントの結果として生じる不分離、(ii)複数の染色体にて不分離を生じる不活性の有糸分裂チェックポイント、(iii)1つの動原体が有糸分裂の紡錘体極の両方に結合するときに生じるメロテリック結合、(iv)2つを超える紡錘体極が形成されるときに形成される多極紡錘体、(v)単一の紡錘体極のみが形態されるときに形成される単極紡錘体および(vi)単極紡錘体メカニズムの最終的な結果として生じる4倍体の中間体。
本明細書において使用される場合、用語「部分モノソミー」および「部分トリソミー」は、染色体の一部の消失または増加により生じる遺伝物質の不均衡を指す。部分モノソミーまたは部分トリソミーは、不平衡の転座から生じ得、この場合、個体は、2本の異なる染色体の破損および融合により形成される派生染色体を担持する。この状況において、個体は、1本の染色体の一部の3つのコピー(派生染色体上に存在する2つの正常なコピーおよび断片)および派生染色体に含まれる他の染色体の一部の1つのみのコピーを有する。
本明細書において使用される場合、用語「モザイク」は、生体の全ての細胞ではないが、一部の細胞の異数性を指す。特定の染色体異常は、モザイクおよび非モザイク染色体異常として存在し得る。例えば、特定のトリソミー21の個体は、モザイクダウン症であり、一部は、非モザイクダウン症である。異なるメカニズムがモザイクを生じ得る。例えば、(i)初期の接合体が3本の21染色体を有し得、これが通常、単一のトリソミー21を生じるが、細胞分裂の過程において、1つまたはそれより多い細胞株が、21番目の染色体の1つ消失し、かつ(ii)初期の接合体が2本の21番目の染色体を有し得るが、細胞分裂の過程において、21番目の染色体の1つが重複された。体細胞モザイクは、完全な、またはモザイク異数性を含む遺伝症候群に典型的に関連するものとは別のメカニズムにより生じるようである。体細胞モザイクは、例えば、特定の種類のがんにおいて、およびニューロンにおいて、同定されている。特定の例において、トリソミー12は、慢性リンパ性白血病(CLL)において同定されており、トリソミー8は、急性骨髄性白血病(AML)において同定されている。また、個体が染色体を破損しやすい遺伝症候群(染色体不安定症状群)は、多くの場合、種々の種類のがんに対する危険を増大させることに関連があるため、発がんにおける体細胞異数性の役割が強調される。本明細書に記載の方法およびプロトコールは、非モザイクおよびモザイク染色体異常の有無を同定することができる。
表1Aおよび1Bは、本明細書に記載の方法および装置により潜在的に同定され得る染色体状態、症候群および/または異常の非限定的な一覧を表す。表1Bは、2011年10月6日のDECIPHERデータベースによるものである(例えば、バージョン5.1、GRCh37にマッピングされた位置に基づく。ユニフォームリソースロケータ(URL)dechipher.sanger.ac.ukにて利用可能)。
グレード1の状態は、多くの場合、以下の特質の1つ以上を有す;病原性異常、遺伝学者間での強い一致、高い浸透率、表現型の多様性をなお有するが、いくつかの共通の特徴を有する、文献の全ての症例が臨床的表現型を有する、異常のある健常個体の例がない、DVGデータベースに報告されておらず、または健常集団で見つかっていない、単一遺伝子または複数遺伝子投与効果を確認する機能的データがある、確認済みまたは強力な候補遺伝子がある、臨床管理の関連事項が定義される、監視の意味も含めてがんの危険率が知られている、複数の情報源がある(OMIM、GeneReviews、Orphanet、Unique、Wikipedia)、および/または診断的用途に利用可能である(妊娠に関するカウンセリング)。
グレード2の状態は、多くの場合、以下の特質の1つ以上を有する;同様な病原性異常、高い浸透率、DD以外の一貫した特徴がない表現型の多様性、文献における症例/報告が少ない、報告された症例全ては、臨床的表現型を有する、機能的データまたは確認済みの病原性遺伝子がない、複数の情報源がある(OMIM、GeneReviews、Orphanet、Unique、Wikipedia)、および/または診断的目的および妊娠に関するカウンセリングに使用することができる。
グレード3の状態は、多くの場合、以下の特質の1つ以上を有する;感受性遺伝子座、発端者と記載されている者が健常個体または罹患していない親、対照集団に存在する、浸透しない、軽度であり、特異的でない表現型、あまり一貫しない特徴、機能的データまたは確認済みの病原性遺伝子がない、かなり限定されたデータ源、大多数から逸脱する症例において、または新規の臨床所見が存在する場合の可能性として(a possibility)、二次診断の可能性が残る、および/または診断目的に使用し、妊娠に関するカウンセリングのための助言を保護するときに注意を必要とする。
妊娠高血圧腎症
いくつかの実施形態において、妊娠高血圧腎症の有無を、本明細書に記載の方法または装置を使用することにより決定する。妊娠高血圧腎症は、高血圧が妊娠中に生じ(すなわち、妊娠誘発性高血圧)、かなりの量の尿タンパク質を伴う状態である。いくつかの例において、妊娠高血圧腎症はまた、細胞外核酸レベルの上昇および/またはメチル化パターンの変更を伴う。例えば、細胞外の胎児由来の高メチル化RASSF1Aレベルと、妊娠高血圧腎症の重症度との間に正の相関が認められている。特定の例において、DNAメチル化の増大が、正常な対照と比較して妊娠高血圧腎症の胎盤のH19遺伝子において認められている。
妊娠高血圧腎症は、世界中で母体および胎児/新生児の罹病率および死亡率の主要な原因の1つとなっている。血漿および血清の循環無細胞核酸は、出生前診断を含み、異なる医学分野において臨床適用が期待される新規のバイオマーカーである。差し迫った妊娠高血圧腎症の指標として、母体血漿の細胞非含有胎児(cff)DNAの定量的変化が、異なる試験において、例えば、男性特異的SRYまたはDYS14遺伝子座におけるリアルタイム定量的PCRを使用して、報告されている。早期発症妊娠高血圧腎症の例において、レベルの増加は、第1期において認めら得る。発症前のcffDNAのレベルの増加は、組織酸化ストレスおよび胎盤のアポトーシスおよび壊死の増加につながる絨毛間腔内の低酸素/再酸素化に起因し得る。母体の血中にcffDNAの脱落が増加することが証明されているのに加え、妊娠高血圧腎症のcffDNAの腎クリアランスの低下も証明されている。現在、胎児DNAの量を、Y染色体特異的配列を定量することにより決定する場合に、総細胞非含有DNAの測定または性別非依存性胎児エピジェネティックマーカー、例えば、DNAメチル化の使用などの代替えの方法が代替えとして提供される。胎盤由来の細胞非含有RNAは、臨床における妊娠高血圧腎症をスクリーニングおよび診断するために使用され得る別の代替えのバイオマーカーである。胎児RNAは、分解から保護する細胞内胎盤粒子を伴う。胎児RNAレベルは、対照と比較して妊娠高血圧腎症の妊娠女性では10倍高値となることもあり、それゆえ、臨床において妊娠高血圧腎症をスクリーニングし、診断するために使用され得る代替えのバイオマーカーである。
病原
いくつかの実施形態において、病原性状態の有無を、本明細書に記載の方法または装置により決定する。病原性状態は、細菌、ウイルスまたは真菌を含むがそれらに限定されない病原による宿主の感染により生じ得る。病原は、典型的に、宿主の核酸と区別することができる核酸(例えば、ゲノムDNA、ゲノムRNA、mRNA)を保持するため、本明細書において提供される方法および装置を使用し、病原の有無を決定することができる。多くの場合、病原は、具体的な病原に特有の特質、例えば、エピジェネティック状態および/または1つまたはそれより多い配列の変異、重複および/または欠失を含む核酸を保持する。したがって、本明細書において提供される方法を使用し、具体的な病原または病原変異体(例えば、株)を同定することができる。
がん
いくつかの実施形態において、細胞増殖障害(例えば、がん)の有無を、本明細書に記載の方法または装置により決定する。例えば、血清中の細胞非含有核酸のレベルは、健常な患者と比較して種々の種類のがん患者において上昇し得る。転移性疾患の患者は、例えば、非転移性患者のおよそ2倍高い血清DNAレベルを有し得ることもある。転移性疾患の患者はまた、がん特異的マーカーおよび/または特定の一塩基多型または縦列型反復配列などにより同定することができる。血中DNAの高値と正に相関し得るがんの種類の非限定的な例として、乳癌、結直腸癌、消化器癌、肝細胞癌、肺癌、悪性黒色腫、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱癌、肝細胞癌、子宮頚部癌、食道癌、膵臓癌、および前立線癌がある。種々のがんは、非がん性の健常細胞からの核酸と区別可能な特質、例えば、エピジェネティック状態および/または配列の変異、重複および/または欠失を含む核酸を保持することができ、血中に放出することができることもある。このような特質は、例えば、具体的な種類のがんに特異的であり得る。したがって、本明細書において提供される方法を使用し、具体的な種類のがんを同定することができることをさらに考慮に入れる。
以下に記載の実施例は、特定の実施形態を図示し、技術を限定しない。
実施例1:遺伝的変異に関連する状態を検出する一般的方法
本明細書に記載の方法および基本的理論を利用し、遺伝的変異に関連する種々の状態を検出し、かつ遺伝的変異の有無を決定することができる。本明細書に記載の方法を用いて検出することができる遺伝的変異の非限定的な例として、染色体異常断片(例えば、欠失、重複)、異数性、性別、サンプル同定、遺伝的変異に関連する疾患状態など、または上記の組み合わせがある。
ビンフィルタリング
標的染色体のゲノム領域の情報量を、染色体位置の関数として、不確定要素の組み合わせにより正規化された、正倍数体とトリソミーのカウントとの間の平均分離の結果をプロットすることにより視覚化することができる。不確定要素の増加(図1を参照のこと)または3倍体と正倍数体(例えば、3倍体の妊娠および正倍数体の妊娠)との間のギャップの減少(図2を参照のこと)はともに、Zスコアの予測指数を低下させることもある、罹患症例におけるZ値の低下を生じる。
図3は、第21番染色体に沿った染色体位置の関数としてプロットされた、t分布に基づく、p値プロファイルをグラフにより図示する。図3に示されたデータの分析は、36個の無益な第21番染色体ビン(それぞれ約50キロ塩基対(kbp)長)を同定する。無益な領域を、セントロメアに近いp腕に配置する(21p11.2−21p11.1)。図4に概略的に示すように、Zスコアの算出から全ての36個のビンを除去することにより、全てのトリソミーの例に対してZ値を顕著に増加させることができることもあるが、正倍数体のZ値に不規則な分散のみを導入し得る。
36個の無益なビンの除去により得られた予測指数の改善は、第21番染色体におけるカウントプロファイルを検査することにより説明することができる(図5を参照のこと)。図5において、2つの任意に選択されたサンプルは、カウント対(vs)ビンプロファイルの一般的傾向変動が、近距離ノイズから離れて実質的に類似の傾向変動に追随することを示す。図5に示されるプロファイルは、実質的に平行である。図5に示されたプロファイルプロットの強調領域(例えば、楕円の領域)はまた、なお平行性を示すが、染色体の残りに対して大きな変動を示す。いくつかの実施形態において、変動するビン(例えば、36個の無益なビン)の除去により、Z統計の精度および一貫性を改善することができる。
ビン正規化
実施例1に記載のように、無益なビンをフィルタリングすることは、Z値の予測指数に対する所望の改善を提供しないこともある。実施例1に記載のように、第18番染色体のデータをフィルタリングし、無益なビンを除去するときに、Z値は、実質的に改善しなかった(図6を参照のこと)。実施例1に示される第21番染色体のカウントプロファイルでわかるように、第18番染色体のカウントプロファイルも、短距離ノイズに関わらず実質的に平行である。しかし、ビンワイズカウントの不確定要素を評価するために使用される2つの第18番染色体のサンプル(図6の下部を参照のこと)は、カウントプロファイルの一般的な平行から顕著に逸脱する。2つのトレースの中央のディップは、楕円により強調されているが、大きな欠失を表す。実験過程に試験した他のサンプルは、この欠失を示さなかった。欠失は、図7に示される楕円により図示された、第18番染色体におけるp値プロファイルのディップの位置と一致する。すなわち、第18番染色体におけるp値に観察されたディップは、第18番染色体のサンプルの欠失の存在により説明され、これは、罹患領域のカウントの分散の増加を生じる。カウントの分散は不規則ではないが、まれな事象を表し(例えば、第18番染色体の断片の欠失)、他のサンプルを含む場合、他のサンプルからの不規則な変動は、ビンフィルタリング方法の予測指数(the predictive power bin filtering procedure)を低下させる。
この実施例から2つの疑問が生じる;(1)p値信号が意味のある、および/または有用であるとどのように決定するか、および(2)本明細書に記載のp値法を、任意のビンデータとともに使用するために一般化することができるか(例えば、任意の染色体の内から、第13番染色体、第18番染色体または第21番染色体内からのビンのみではない)。一般化した方法を使用し、全体のゲノムにおけるカウント合計の分散性を除去することができ、これは、多くの場合、Zスコアを評価するときに対して正規化因子として使用することができる。図8に示されるデータを使用し、参照中央値カウントを各ビンに割り当てることによりデータの一般的な曲線を再構築し、試験サンプルの各ビンカウントを、割り当てられた参照中央値カウントに対して正規化することにより、上記の疑問に対する答えを探すことができる。
中央値を、既知の正倍数体の参照のセットから抽出する。参照中央カウントを演算する前に、ゲノム全体の無益なビンをフィルタリングする。残りのビンカウントを、残りのカウント総数に対して正規化する。試験サンプルはまた、フィルタリングされていないビンにおいて観察されたカウントの和に対して正規化される。得られた試験プロファイルは、多くの場合、母体の欠失または重複の領域および胎児が3倍体である領域を除いて、1の値前後に集中する(図9を参照のこと)。図10に図示されたビンワイズ正規化されたプロファイルは、正規化方法の妥当性を確かにし、第18番染色体のヘテロ接合の母体欠失(例えば、プロファイルトレーシングの灰色の区分の中央のディップ)および試験サンプルの第18番染色体の染色体表現の上昇値(図10のプロファイルトレーシングの灰色領域を参照のこと)を明らかに表す。図10からわかるように、トレーシングの灰色の区分における中央値は、約1.1前後に集中し、トレーシングの黒色の区分における中央値は、1.0前後に集中する。
ピーク上昇
図11は、認識可能な特徴または形質(例えば、母体の重複、母体の欠失など、またはそれらの組み合わせ)を有する患者から、ビンワイズ正規化を使用して、複数のサンプルを分析した結果をグラフにより図示する。サンプルの同定は、多くの場合、それぞれの正規化されたカウントプロファイルを比較することにより決定することができる。図11に図示された実施例において、正規化されたプロファイルおよびその上昇ならびにその希少性におけるディップの位置は、両サンプルが同じ患者に由来することを示す。法医学的パネルデータを、多くの場合、これらの所見を立証するために使用することができる。
図12および13は、患者の同一性またはサンプルの同一性を同定するための正規化されたビンプロファイルを使用した結果をグラフにより図示する。図12および13において分析されたサンプルは、第4番染色体および22の、広範囲の母体異常を担持し、これは、プロファイルトレーシングの他のサンプルにおいては存在せず、上部および下部のトレースの共有の由来を確かにする。このような結果は、具体的なサンプルが特定の患者に属する決定につながることができ、また、具体的なサンプルが既に分析されているかどうかを決定するために使用することができる。
ビンワイズ正規化は、異常の検出を容易にするが、異なるサンプルからのピークの比較は、多くの場合、ピーク上昇および位置(例えば、ピーク端)の定量的測定を分析することによりさらに容易となる。ピークの最も突出した記述子は、多くの場合、その上昇であり、次いで、その端の位置である。異なるカウントプロフィールからの特徴は、多くの場合、以下の非限定的分析を使用して比較することができる。
(a)単一の試験サンプルにおいてピークを検出した特徴の信頼度を決定する。特徴がバックグランドノイズまたは処理人工物から区別可能である場合、特徴を、一般的集団に対してさらに分析することができる。
(b)母集団において検出された特徴の広がりを決定する。特徴が希少である場合、それを希少な異常のためのマーカーとして使用することができる。母集団で頻繁に見つけられる特徴は、分析にあまり有用ではない。民族的な起源は、検出された特徴のピーク上昇の妥当性の決定に関与し得る。したがって、いくつかの特徴は、特定の民族的起源からのサンプルに対して有用な情報を提供する。
(c)異なるサンプルに認められる特徴間の比較の信頼度を得る。
図14において、正倍数体の対象から第5番染色体の正規化されたビンカウントを図示する。いくつかの実施形態において、平均上昇は、一般的に、異常の上昇を測定する参照基準である。小さくかつ/または狭い偏差は、広く、顕著な異常に比べ、あまり信頼性のない予測因子である。したがって、胎児の低い寄与および/または処理人工物からのバックグランドノイズまたは分散は、異常が大きくなく、またはバックグランドより顕著なピーク上昇がないときに考慮に入れることが重要である。この例を、図15に示し、この場合、上部のトレースにおいて顕著であるピークは、下部のプロファイルトレースの観察されるバックグランドノイズにおいてマスクされ得る。ピーク上昇の信頼度(図16を参照のこと)を、正倍数体分布の幅(例えば、分散(シグマ記号として示す)と平均偏差の組み合わせ)に対する参照からの平均偏差(デルタ記号として示す)により決定することができる。平均伸長上昇の誤差を、平均値の誤差において公知の式から得ることができる。1ビンより長い伸長を、染色体内の全てのビンの不規則な(非連続の)サンプルとして処理する場合、平均上昇の誤差は、異常の範囲内のビンの数の平方根とともに減少する。この根拠では、隣り合うビンの間の相関、つまり、図17に示される相関関数により確定された仮定が無視される(例えば、G(n)の式)。非正規化されたプロファイルは、中位の範囲の強い相関(例えば、基準の波状の分散)を示すことがあるが、正規化されたプロファイルは、相関を平準化し、不規則なノイズのみを除外する。平均値の標準誤差、つまり自己相関の相関と、第5番染色体の上昇の平均値の標準偏差の実際のサンプル評価との間の緊密な一致(図18を参照のこと)は、相関の欠如の仮定値の有効性を確かにする。次いで、Zスコア(図19を参照のこと)および1の上昇期待値からの偏差に関連する、Zスコアから算出したp値(図20を参照のこと)を、平均の上昇の不確定要素に対する推定値に照らして評価することができる。p値は、ピークのビン数により次数を決定するt分布に基づく。所望のレベルの信頼度に応じて、カットオフがノイズを抑制することができ、実際の信号の絶対的な検出を可能にする。
式1を使用し、2つの異なるサンプルのピーク上昇を直接比較することができ、式中、Nは染色体全体のビンの数を指し、およびnは、異常の範囲内のビンの数を指す。2つのサンプル間の類似性を測定するp値を生成するt検定の次数を、2つの逸脱した伸長の短い方のビンの数により決定する。
ピーク端
サンプルの異常の平均の上昇の比較に加え、比較された伸長の開始および終了も、統計学的分析に有用な情報を提供することができる。ピーク端の比較における分解能の上限を、多くの場合、ビンの大きさ(例えば、本明細書に記載の実施例の50kbp)により決定する。図21は、3つの考えられるピーク端のシナリオ;(a)1つのサンプルからのピークを、別のサンプルからの一致するピーク内に完全に含有することができ、(b)1つのサンプルからの端が別のサンプルからの端に部分的にオーバーラップすることができ、または(c)1つのサンプルからの主要な端は、別のサンプルの末端にほんのわずか接触し、またはオーバーラップすることができることを図示する。図22は、(c)に記載のシナリオの一例(and example)を図示する(例えば、中間のトレースの末端が上部のトレースの主要な末端にほんのわずか接触する、中間の薄灰色のトレースを参照のこと)。
端に関連する片側公差を、多くの場合、使用し、実際の異常端から不規則な分散を区別することができる。端の位置および幅を、図23に示すように、異常なカウントプロファイルの第1の導関数を数値で評価することにより定量することができる。
異常を、2つのヘビサイド関数の合成数として表す場合、その導関数は、2つのディラックデルタ関数の和となる。開始端は、上方向の吸収形状のピークに相関するが、終了端は、下方向の180度転換した吸収ピークとなる。異常が狭い場合、2つのスパイクは互いに近づき、分散型の曲線を形成する。端の位置を、第1のスパイクの導関数の極値により概算することができる一方、端の公差は、その幅により決定される。
異なるサンプル間の比較は、多くの場合、端の不確定要素の合成数で除算した、2つの一致する端の位置間の差を決定することに帰着することができる。しかし、図24に図示されるように、導関数は、バックグランドノイズに消されることもある。異常自体には、そのビン全てから寄与される総合的な情報が有効であるが、第1の導関数のみが、異常の端の数点から情報を得ることができ、これは、ノイズに打ち勝つには不十分となり得る。図24を作製するために使用された、スライディングウィンドウ平均化は、この状況に限定された値のものである。ノイズを、第1の導関数(例えば、点推定値に類似)とピーク上昇(例えば、積分推定値に相当)を組み合わせることにより、抑制することができる。いくつかの実施形態において、第1の導関数およびピーク上昇を、ともに乗算することにより合成することができ、これは、図25に示されるように、ピーク上昇の指数の第1の導関数とすることに等しい。図25に示された結果は、異常の外のノイズを抑制するのに成功するが、異常の範囲内のノイズは、この操作により増強する。第1のピークの導関数は、なお明らかに区別可能であり、これを正確な端の位置および片側公差の抽出に使用することが可能であり、それにより、異常をより低いプロファイルトレーシングにおいて明らかに同定することが可能である。
染色体上昇中央値
正倍数体患者の標的染色体内の正規化された上昇中央値は、胎児画分に関わらず、1に近いままであることが期待される。しかし、図9および10に示されるように、トリソミー患者の上昇中央値は、胎児画分とともに増加する。この増加は、一般に、傾き0.5の実質的な線形である。実験測定値により、これらの期待値を確認する。図26は、86個の正倍数体のサンプル(図26の黒色で示す)における上昇中央値のヒストグラムを図示する。中央値は、1前後に緊密に集められている(中央値=1.0000、中央絶対偏差(MAD)=0.0042、平均値=0.9996、標準偏差(SD)=0.0046)。図26に示されるヒストグラムに示されるように、1.012を超える正倍数体の上昇中央値はない。対照的に、図26に示される35個のトリソミーサンプルの中から(灰色のサンプル)、1つを除いて全てが、正倍数体の範囲のかなり上の1.02を超える上昇中央値を有する。この例の2群の患者間のギャップは、正倍数体または異数体としての分類を可能にするのに十分大きいものである。
分類精度における限定因子としての胎児画分
いくつかの実施形態において、胎児画分と、正倍数体(例えば、正倍数体の妊娠)における正規化されたカウントの中央値の分布の幅との間の比を使用し、正規化された上昇の中央値を使用して、分類の信頼性を決定することができる。正規化されたカウントの中央値ならびにZ値などの他の記述子は、比例定数0.5の胎児画分とともに線形に増加するため、胎児画分は、分類において95%の信頼度を得るため、正規化されたカウントの中央値の分布の4標準偏差または分類において99%の信頼度を得るため、6標準偏差を超える必要がある。特定の実施形態において、整列した配列タグの数を増加させることは、プロファイル測定値の誤差を減少させ、正規化された上昇の中央値の分布を急峻にするよう作用し得る。したがって、ますます正確な測定を行うことは、胎児画分と、正倍数体の正規化された上昇の中央値の分布の幅との間の比を改善することである。
面積比
正規化されたカウントの分布の中央値は、一般に、点推定値であり、それ自体は、多くの場合、積分推定値に比べ、あまり信頼性のない推定値、例えば、分布下面積(例えば、曲線下面積)である。高値の胎児画分を含有するサンプルは、点推定値を使用することにより影響される程ではないが、低値の胎児画分にて、不規則誤差によるわずかに増加した中央値カウントを有する正倍数体サンプルからの実際に上昇した正規化されたプロファイルを区別することが困難になる。胎児画分が相対的に低い(例えば、F=約7%、F(7%))トリソミー例からの正規化されたカウントの分布の中央値を図示するヒストグラムを、図27に示す。分布の中央値は、1+F/2=1.035から遠くない1.021である。しかし、分布の幅(MAD=0.054、SD=0.082)は、正倍数体値の1からの中央値の偏差をかなり超え、サンプルが異常であるという任意の主張は除外される。分布の視覚的に判断し、代替えの分析を提案する:ピークの右へのシフトは相対的に小さいが、1の正倍数体期待値から左への面積(濃灰色)と右への面積(薄灰色)との間の均衡をかなり摂動させる。したがって、2つの面積間の比は、積分推定値であり、分類が胎児画分の低値により困難である例において有利となり得る。曲線下の薄灰色および濃灰色の面積における積分推定値の計算を、以下にさらに詳細に説明する。
正規化されたカウントのガウス分布を仮定する場合、この時、
正倍数体の例において、正規化されたカウントにおける期待値は1である。トリソミー患者において、期待値は、
である。
面積比を算出するための参照点が1であるため、指数関数に対する引数はzであり、
である。
参照点の左の面積は、
である。
誤差関数erf(z)を、そのテイラー展開を使用して評価することができる:
参照点から右の面積は1−Bである。それゆえ、2つの面積間の比は、
である。
測定された胎児画分から面積比Rへの誤差伝播を、単に、式7のFを、F−ΔFおよびF+ΔFで置き換えることにより推定することができる。図28は、480サンプルのセットの正倍数体およびトリソミーの面積比の頻度を示す。2グループ間のオーバーラップは、胎児画分の低いトリソミーサンプルを含む。
分類基準の組み合わせ
図29は、実質的には類似の現象と説明される、上昇中央値および面積比の相互関係および相互依存の両方を図示する。類似の関係として、上昇中央値および面積比を、他の分類基準、例えば、Zスコア、フィットさせた胎児画分、種々の残差二乗和およびベイジアンp値と関連付ける(図30を参照のこと)。個々の分類基準は、ギャップ領域の正倍数体分布とトリソミー分布との間の部分的オーバーラップから生じる曖昧さに苦しみ得るが、複数の基準の組み合わせにより、いずれかの曖昧さを減少させ、または排除することができる。いくつかの実施形態において、複数の次元に沿った信号の広がりは、オーバーラップするピークを、十分に定義された容易に同定可能なエンティティに分解する、異なるの核のNMR周波数を測定するのと同じ効果を有し得る。相互相関記述子を使用して、任意の理論的パラメータを定量的に予測する試みはなされていないため、異なる分類基準間に観察される相互相関は干渉されない。正倍数体が集合するのみの多次元空間の領域を定義することにより、その領域の特定の表面以外に配置される任意のサンプルの分類を可能にする。したがって、分類スキームを、正倍数体のコンセンサスな票に減少させる。
分類基準法の組み合わせを利用するいくつかの実施形態において、本明細書に記載の分類基準を、当技術分野において公知の追加の分類基準と組み合わせることができる。特定の実施形態は、本明細書に挙げる分類基準のサブセットを使用することができる。特定の実施形態は、1つまたはそれより多い分類基準をその中からおよび/または胎児画分と数学的に組み合わせ(例えば、加算、減算、除算、乗算など)、新たな分類基準を得ることができる。いくつかの実施形態は、多次元分類空間の次元性を少なくする主成分分析を適応することができる。いくつかの実施形態は、1つまたはそれより多い分類を使用し、罹患と非罹患患者との間のギャップを定義し、かつ新たなデータセットを分類することができる。分類基準の任意の組み合わせを使用し、罹患と非罹患患者との間のギャップを定義し、新たなデータセットを分類することができる。他の分類基準と組み合わせて使用し、罹患と非罹患患者との間のギャップを定義し、新たなデータセットを分類することができる分類基準の非限定的な例として、以下がある:線形判別分析、二次判別分析、可変判別分析、混合判別分析、k近傍法、分類木、バギング、ブースティング、ニューラルネットワーク、サポートベクターマシン、および/またはランダムフォレスト。
実施例2:測定された胎児画分およびビン重み付けされた残差二乗和を使用した、胎児異数性に関連する遺伝的変異の検出方法
Z値統計および他の配列リードデータの統計分析は、多くの場合、胎児異数性に対する遺伝的変異の有無を決定する成果の決定または提供に適切であるが、いくつかの例において、胎児画分の寄与および倍数性の仮定に基づく追加の分析を含むことが有用であり得る。分類スキームに胎児画分の寄与を含むときに、既知の正倍数体(正倍数体の妊娠)のセットからの参照中央カウントプロファイルを、一般に比較のために利用する。参照中央カウントプロファイルを、ゲノム全体をNビンに分割することにより作製することができ、この場合、Nはビンの数である。各ビンiは、割り当てられた2つの数字:(i)参照カウントFおよび(ii)ビン参照カウントの不確定要素(例えば、標準偏差、つまりσ)である。
以下の関係を利用し、胎児画分、母体の倍数性、および参照カウントの中央値を、胎児異数体に対する遺伝的変異の有無を決定する分類スキームに組み込むことができる。
式中、Yは、カウントプロファイルの中央値のビンに対応する試験サンプルのビンにおいて測定されたカウントを表し、Fは胎児画分を表し、Xは胎児倍数性を表し、Mは各ビンに割り当てられた母体倍数性を表す。式(8)のXにおいて使用される可能な値は、胎児が正倍数体である場合1であり、胎児が3倍体である場合3/2であり、双胎の胎児であり、1例が罹患し、もう1例が罹患していない場合5/4である。5/4は、1例の胎児が罹患し、もう1例が罹患していない双胎の場合に使用され、それは、式(8)の項Fが総胎児DNAを表すため、全ての胎児DNAを考慮する必要があるためである。いくつかの実施形態において、母体ゲノムの大きな欠失および/または重複を、母体倍数性Mを、各ビンまたはゲノム片に割り当てることにより、考慮することができる。いくつかの実施形態において、母体倍数性は、多くの場合、1/2の倍数として割り当てられ、ビンワイズ正規化を使用して推定することができる。母体倍数性は、多くの場合、1/2の倍数であるため、母体倍数性を容易に考慮することができ、それゆえ、微分を簡易化するさらなる式に含まれない。
胎児倍数性を、任意の適切な方法を使用して評価することができる。いくつかの実施形態において、胎児倍数性を、式(8)またはその微分を使用して評価することができる。特定の実施形態において、胎児倍数性を、以下の式(8)を基にした非限定的方法の1つを使用して分類することができる:
1)胎児画分Fを測定し、2つの残差二乗和を形成する値を使用する。残差二乗和を算出するために、式(8)の右側(RHS)を左側(LHS)から減算し、その差を平方し、選択されたゲノムビンに対して合計し、またはこれらの実施形態において、全てのビン、つまり全てのビンに対する和を使用する。このプロセスを、2つの残差二乗和のそれぞれを算出するために行う。残差二乗和の1つを、胎児倍数性のセットを用いて1(例えば、X=1)に評価し、もう一方の残差二乗和を、胎児倍数性のセットを用いて3/2(例えば、X=3/2)に評価する。胎児試験被験体が正倍数性である場合、2つの残差二乗和の間の差は、負になり、さもなければ、差は正になる。
2)測定値にて胎児画分を固定し、倍数性値を最適化する。胎児倍数性は、一般に、2つの個別の値、1または3/2の1つのみとなり得るが、倍数性は、連続関数として処理され得ることもある。線形回帰を使用し、倍数性の推定値を作製することができる。線形回帰分析から得られる推定値が1に近い場合、胎児の試験サンプルを、正倍数体として分類することができる。推定値が3/2に近い場合、胎児は3倍体として分類することができる。
3)胎児倍数性を固定し、線形回帰分析を使用して胎児画分を最適化する。胎児画分を測定し、拘束項は、測定された胎児画分の誤差推定値に相互に比例する重み付け関数を用いて、測定された胎児画分に近いフィットさせた胎児画分を維持するために含まれることができる。式(8)を2回、3/2にて正倍数性セットで1回および胎児倍数性セットを1にして1回解く。式(8)を、倍数性セットを1にして解くときに、胎児画分を当て嵌める必要はない。残差二乗和を、各結果に対して形成し、残差二乗和を減算する。その差が負である場合、胎児試験被験体は正倍数体である。その差が正である場合、胎児試験被験体は3倍体である。
1)、2)および3)に記載の一般化された方法を、本明細書においてさらに詳細に説明する。
倍数性の固定値、胎児画分の固定値:残差二乗和
いくつかの実施形態において、胎児異数性を、2つの変数、胎児倍数性(例えば、X)および胎児核酸画分(例えば、胎児画分;F)を分析するモデルを使用して決定することができる。特定の実施形態において、胎児倍数性を、個別の値とすることができ、いくつかの実施形態において、胎児画分は、値の連続体であってよい。胎児画分を測定することができ、測定された値を使用し、胎児倍数性として考えられる各値に対する式(8)の結果を作製する。式(8)の結果を作製するために使用され得る胎児倍数性の値は、単胎の胎児妊娠において1および3/2を含み、双胎の胎児妊娠の例において、1例の胎児が罹患し、もう1例の胎児が罹患していない場合、5/4を使用することができる。いくつかの実施形態において、各胎児倍数性値に対して得られた残差二乗和により、その方法が測定値を再生する成功率を測定する。X=1(例えば、正倍数体の仮定値)にて式(8)を評価するときに、胎児画分を取り消し、以下の式により残差二乗和を得る:
式(9)および次の計算を簡易化するために、以下の概念を利用する:
X=3/2(例えば、3倍体の仮定値)にて式(8)を評価するときに、以下の式により、残差二乗和を得る:
式(9)と(13)との差は、代替えの仮説(例えば、トリソミーシングルトン、X=3/2)に対して帰無仮説(例えば、正倍数体、X=1)を試験するために使用することができる関数結果(例えば、ファイ)を形成する。
Fに対するファイのプロファイルは、縦座標の右に定義される放物線である(Fが0以上であるため)。ファイは、モデルパラメータの実験誤差および不確定要素に関わらず、Fがゼロに近づくときに起点に収束する。
いくつかの実施形態において、ファイ関数は、負の二階二次係数の測定された胎児画分Fに依存する(式(14)を参照のこと)。測定された胎児画分のファイ従属度は、正倍数体および3倍数体の両方の例において凸形状を暗示するようである。この分析が正しい場合、トリソミーの例は、高いF値にて形を反転させるが、式(12)はFに依存する。式(8)および(14)を組み合わせ、母体倍数性を考慮せず、X=3/2を設定し、実験誤差を無視すると、トリソミーの例における式は以下になる:
3倍体における式(11)と(12)との関係は、任意の測定誤差がないときに理想の状況下で成り立つ。式(14)と(15)を組み合わせることにより、以下の式を得、これは多くの場合、3倍体の例の凹型放物線を生成する:
正倍数体において、式(11)および(12)は、測定誤差を除き、同じ値を有するものとし、これは凸型放物線を生成することもある:
トリソミー(灰色)および正倍数体(青色)の例において、典型的なモデルパラメータ値におけるファイ関数プロファイルのシミュレート値を、図31に示す。図32は、実際のデータを使用する例を示す。図31および32において、横座標の下のデータ点は、一般に、正倍数体として分類される例を表す。横座標より上のデータ点は、一般にトリソミー21(T21)の例として分類される例を表す。図32において、第4象限(例えば、中央下部の象限)の孤立のデータ点は、1例が罹患した胎児の双胎妊娠である。図32を作製するために利用されたデータセットは、他の罹患した双胎サンプルを同様に含み、横座標へのT21のデータ点の広がりを説明する。
式(9)および(10)は、多くの場合、以下のように解釈され得る:3倍体において、正倍数体モデルは、ファイ(式(9)を参照のこと)がファイ(式(13)を参照のこと)より大きいことを意味する、大きな誤差を作製することもある。結果として、ファイ関数(式(7)を参照のこと)は、第1象限(例えば、上部左の象限)を占める。正倍数体において、トリソミーモデルは、大きな誤差を作製することもあり、式(2)および(6)のランクはそのままであり、関数ファイ(式(7))は、第4象限を占める。したがって、おもに、正倍数体または3倍体としてのサンプルの分類は、ファイの記号の評価に帰着することもある。
いくつかの実施形態において、図31および32に示されるデータ点の曲率を、ファイ関数(式(7))を、その記号を乗算するファイ関数の絶対値の平方根に置き換えることにより減少させ、または排除することができる。Fに対して作製された線形関係は、図33に示されるように、低値の胎児画分にて、3倍体と正倍数体との分離を改善することができることもある。Fに対する関係を直線化することは、低値の胎児画分(例えば、F)にて不確定要素間隔の増加を生じ、それゆえ、このプロセスから実現される増加は、差の視覚的判断を実質的に容易にさせること、つまり灰色領域が変化しないことに関連する。双胎妊娠に分析にこのプロセスを拡大させることは、相対的に簡単である。式(9)を作製するために使用される理由は、1例の罹患した胎児および1例の正常な胎児を有する双胎妊娠において、Fに関わらず、ファイ関数が、ゼロ、プラスまたはマイナス実験誤差に帰着するものであることを意味する。双胎妊娠は、一般に、単胎妊娠より多くの胎児DNAを生成する。
倍数性の最適値、胎児画分の固定値:線形回帰
特定の実施形態において、胎児異数性を、胎児画分をその測定値で固定し、倍数性を、残差二乗和を最適化するよう多様化させるモデルを使用して決定することができる。いくつかの実施形態において、得られたフィットさせた胎児画分を使用し、双胎の例において値が1、3/2、または5/4に近いかどうかに応じて、トリソミーまたは正倍数体として症例を分類することができる。
式(8)から開始すると、残差二乗和を以下のように形成することができる:
Xの関数としてファイを最小にするために、Xに対するファイの第1の導関数を作製し、ゼロに等しく設定し、得られた式をXに対して解く。得られた式を、式(19)に示す。
倍数性の最適値を、以下の式により得られることもある:
先に記載したように、母体倍数性に対する項、Mを、さらなる数学的微分から省略することができる。Xに対して得られた式は、母親に評価される染色体または各染色体の欠失または重複がないときの、相対的に簡易な、および多くの場合、頻繁に生じる特定の症例に対応する。得られた式を、図21に示す。
XiffおよびXifyは、それぞれ、式(11)および(12)により得られる。全ての実験誤差が無視できる実施形態において、式(21)を解くことにより、Xiff=Xifyである場合、正倍数体において1の値を得る。全ての実験誤差が無視できる特定の実施形態において、式(21)を解くことにより、3倍体に対して3/2の値を得る(XiffとXifyとの間の3倍体の関係における式(15)を参照のこと)。
倍数性の最適値、胎児画分の固定値:誤差伝播
倍数性の最適値は、多くの場合、種々の誤差源により不正確である。誤差源の3つの、非限定的な例として、以下がある:参照ビンカウントf、ビンカウントの測定値yおよび胎児画分F。誤差の非限定的な例の寄与を、個別に試験する。
測定された胎児画分の誤差:フィットさせた胎児画分の質
Y染色体にマッピングされた配列タグの数(例えば、Yカウント)に基づいた胎児画分の推定値は、FQA胎児画分値に対して相対的に大きな偏差を示すこともある(図34を参照のこと)。3倍体におけるZ値も、多くの場合、図35に示される斜線の周りに相対的な広がりを示す。図35の斜線は、トリソミー21の例における胎児画分の増加を伴う、第21番染色体における染色体表現の理論的増加の期待値を表す。胎児画分を、適切な方法を使用して評価することができる。胎児画分を推定するために利用することができる方法の非限定的な例は、胎児数量アッセイ(例えば、FQA)である。胎児画分を推定する他の方法は、当技術分野において公知である。胎児画分を推定するために利用される種々の方法も、図36〜39に示されるように中央斜線の周りに実質的に同様な広がりを示すこともある。図36において、偏差は、フィットさせた胎児画分において観察されるものと実質的に類似する(例えば、高値のFにおいて負)(式(33)を参照のこと)。いくつかの実施形態において、0%〜20%の範囲の平均の染色体Y(例えば、染色体Y)の胎児画分(図36の濃灰色の線を参照のこと)に対する線形の近似値の傾きは、約3/4である。特定の実施形態において、標準偏差に対する線形の近似値(図36、薄灰色の線を参照のこと)は、約2/3+F/6である。いくつかの実施形態において、第21番染色体(例えば、第21番染色体)に基づく胎児画分の推定値は、胎児画分を当て嵌めることにより得られたものに実質的に類似する(図37を参照のこと)。性別に基づく胎児画分の推定値の別の定量的に類似のセットを、図38に示す。図39は、T21の例における正規化されたビンカウントの中央値を図示し、これは、線形の近似値が1+F/2に実質的に類似する傾きを有すると期待される(図39のグラフにおける起点から上部の中間点までの灰色の線を参照のこと)。
図36〜39は、以下の共通の特徴を共有する:
a)1に等しくない傾き(Z値を除き、方法に応じて、1より大きいまたは1未満のいずれか)
b)大きな広がりの胎児画分の推定値および、
c)広がりの範囲が胎児画分とともに増加。
いくつかの実施形態において、これらの観察を考慮するため、測定された胎児画分の誤差を、式ΔF=2/3+F/6を使用して、モデル化する。
測定された胎児画分の誤差:測定された胎児画分からフィットさせた倍数性までの誤差伝播
分析を簡略化するため、fおよびyが誤差がないと仮定する場合、胎児画分Fの測定値は、F(例えば、真の胎児画分)およびΔF(例えば、測定された胎児画分の誤差)からなる:
いくつかの例において、フィットさせたXの値の不確定要素は、測定された胎児画分Fの誤差から生じる。Xに最適な値を、式(21)により得るが、実際の倍数性値をXより得、この場合、X=1または3/2である。Xは個別に変化する一方、Xは連続的に変化し、好適な条件下において(例えば、相対的に誤差が少ない)、Xの周りに蓄積するにすぎない。
およびYが誤差のないことを再び仮定すると、式(8)は以下になる:
式(21)から(23)を組み合わせることにより、実際の倍数性Xと、誤差ΔFを含む倍数性推定値Xとの間の以下の関係が作製される。関係はまた、母体倍数性が1に等しく(例えば、正倍数体)、母体倍数性における項、Mを1に置き換えるという仮定を含む。
いくつかの例において、項X−1は、正倍数体において実質的にゼロと同一であり、ΔFは、Xの誤差に寄与しない。3倍体の例において、誤差の項は、ゼロに帰着しない(例えば、実質的にゼロと同一ではない)。したがって、いくつかの実施形態において、倍数性の推定値を、誤差ΔFの関数として見なすことができる。
誤差の固定値ΔF=プラスまたはマイナス0.2%のFの関数として、フィットさせた3倍体Xのプロファイルのシミュレート値を、図40に示す。実際のデータを使用して得られる結果を、図41に示す。データ点は一般に、式(24)により予測される非対称のトランペット型曲線に一致する。
小さい胎児画分は、多くの場合、大きな倍数性に誤差と定量的に関連する。過小評価された胎児画分は、倍数性の過大評価により相殺されることもあり、過大評価された胎児画分は、多くの場合、倍数性において過小評価につながる。効果は、多くの場合、胎児画分が過小評価されるときに大きくなる。これは、図40および41に示されるグラフにおいて非対称に見られることに一致する(例えば、Fが低下するにつれて、上部の分岐の増加は、下部の分岐の低下より実質的に速くなる)。Fの誤差の異なるレベルのシミュレーションは、Xvからの偏差の範囲がΔFとともに増加する同じパターンを追随する。
Xにおける確率分布を使用し、これらの観察値を定量することができる。いくつかの実施形態において、ΔFの分布を使用し、以下の式を使用してXにおける密度関数を得ることができる:
式26において、xはΔFであり、yはXであり(例えば、倍数体の推定値)、g(x)は式(24)により得られる。導関数を、以下の式に従い評価する:
いくつかの実施形態において、逆関数g−1(y)を、式(24)から得ることができる。
Fの誤差がガウシアン分布に一致する場合、式(26)のf(x)を以下の式と置き換えることができる:
特定の実施形態において、式(26)から(29)を組み合わせることにより、図42に示されるように、異なるレベルのΔFにてXに対する確率分布を生じる。
いくつかの例において、Fの誤差が高値のときに顕著となることもある、より高い倍数性値に向かうバイアスは、多くの場合、図42のパネルA〜Cに示されるように、密度関数の非対称形状:相対的に長く、薄灰色の線の右にゆっくり低下する尾部、Xの線に垂直であり、X軸に沿っている形状に反映される。いくつかの実施形態において、ΔFの任意の値に対して、薄灰色の線(X=3/2)の左の、確率密度関数の下の面積は、薄灰色の線の右の面積に等しい。すなわち、全てのフィットさせた倍数性の半分が、多くの場合、過大推定値であるが、全てのフィットさせた倍数性のもう半分は、過小推定値であることもある。いくつかの例において、バイアスは、一般に、一方の、または他方の方向の広がりではなく、Xの誤差の範囲を考慮するにすぎない。いくつかの実施形態において、分布の中央値は、Xに等しい。図43は、実際のデータにおいて得られた正倍数体およびトリソミーの分布を図示している。測定された胎児画分における不確定要素は、3倍体についてフィットさせた倍数性の値に見られる分散の一部を説明することもあるが、正倍数体におけるXの推定値の誤差は、多くの場合、ビンカウントからの誤差伝播を試験することを必要とする。
倍数性の固定値、胎児画分の最適値:線形回帰
多くの場合、限定された数の既知の個別の値をとることができるフィットさせた倍数性とは反対に、倍数性をその考えられる値(例えば、正倍数体では1、シングルトン3倍体では3/2、双胎3倍体では5/4)の1つに固定させて、連続して変化する胎児画分を、多くの場合、最適化することができる。測定された胎児画分(F)が既知である実施形態において、胎児画分の最適化を、フィットさせたFが、実験誤差(例えば、ΔF)内で、Fに近いままであるように制限することができる。いくつかの例において、胎児画分の観察値(例えば、測定値)Fは、式(22)〜(28)に記載の、胎児画分Fと異なることもある。強固な誤差伝播分析は、FとFとの間で区別することを可能とするはずである。以下の微分を簡易化するために、胎児画分の観察値と真の胎児画分との間の差は、無視される。
式(8)を、以下の、母体倍数性の項(例えば、M)も省略する再調整したフォーマットにおいて示す。
いくつかの実施形態において、最小化される必要のある関数項を、以下に定義する:
式(31)が正倍数体(例えば、X=1)において評価されるときに、項
は、多くの場合、Fに依存し、したがって、フィットさせたFは、多くの場合、Fに等しい。いくつかの例において、式(24)を、正倍数体において評価するときに、式は、
に帰着することもある。
式(24)を、シングルトンのトリソミーの例(例えば、X=3/2)において、評価するときに、Fを乗算する係数が測定された胎児画分とビンカウントの両方を含有し、それゆえ、Fにおける最適値は、多くの場合、両方のパラメータに依存する。いくつかの例において、Fに対する式(24)の第1の導関数は、ゼロに帰着する。
いくつかの実施形態において、X=3/2を置き換え、Fにおいて、式(32)を解くことにより、Fの最適値を生成する。
さらに計算および/または微分を簡易化するため、以下の補助変数を利用する:
補助変数を利用したとき、式(33)におけるX=3/2の胎児画分の最適値はこの時、以下に帰着する:
フィットさせたFは、多くの場合、測定値Fに直線的に比例するが、必ずしも、Fに等しいと限らないこともある。いくつかの実施形態において、測定された胎児画分の誤差と、ビンカウントの不確定要素との比により、個々のビンに対する測定値Fに与えられた相対的重み付けを決定する。いくつかの例において、誤差ΔFが大きいほど、ビンカウントがフィットさせたFに及ぼす影響は強くなる。代替えとして、小さいΔFは、一般に、フィットさせたFが、Fで占められることを意味する。いくつかの実施形態において、データセットが、トリソミーサンプルからのものであり、全ての誤差を無視できる場合、式(40)は、FとFとの間の同一性に帰着する。数学的証明により、X=3/2に設定された胎児倍数性を使用し、F(観察値)およびF(実際)が同じ値と仮定すると、式(30)は、以下になる:
およびFといった仮定値は、一般に、本明細書において示された定量的分析のための許容し得る仮定値である。式(39)および(41)を組み合わせることにより、以下を生成する
式(40)および(42)を組み合わせることにより、FとFの間の同一性を生じる:
理論的モデルをさらに図示するために、実際の倍数性が1(例えば、正倍数体)であるが、式(40)における正倍数性値の使用をX=3/2(例えば、3倍体シングルトン)に設定する場合、得られたフィットさせたFは、Fに等しくもなく、ゼロに帰着せず、以下の式が一般に当てはまる:
したがって、特定の実施形態において、正倍数体の例を試験するときの3倍体の式の適用は、一般に、参照ビンカウントおよび関連の不確定要素(式(38)を参照)に応じて、0〜1(両端を含まない)の比例係数でFに比例する非ゼロフィットさせたFを生じる。類似の分析を、参照として86個の既知の正倍数体からの実際のデータを使用して、図44に示す。図44に示されるように、式(44)からの直線の傾きは、20度に近い。
正倍数体とT21の例の孤立のデータ点(例えば、測定された胎児画分がおよそ40%、フィットさせた画分がおよそ20%)は、T21双胎を表す。定数ΔFを仮定するときに、図44に示されるグラフの正倍数体の分岐は、一般に傾斜するが、ΔF=2/3+F/6を使用するときに、グラフの正倍数体の分岐が、多くの場合、「倍数体の固定値、胎児画分の最適値、誤差伝播:フィットさせた胎児画分」と題した節において本明細書において説明されるように、実質的に水平となる。
倍数体の固定値、胎児画分の最適値:残差二乗和
正倍数体の例におけるいくつかの例において、式(32)のフィットさせたFがFに等しく、X=1であった場合、正倍数体モデルの残差二乗和は、式(31)から追随する:
これは、式(9)と実質的に同じ結果である。正倍数体の例における特定の例において、式(40)を、式(31)に組み合わせることができる。いくつかの実施例において、得られた数式は、二次的にFに依存する。特定の実施形態において、遺伝的変異の分類を、3倍体の残差二乗和を正倍数体の残差二乗和から減算することにより行う。3倍体の残差二乗和を正倍数体の残差二乗和から減算することにより得られる分類の結果も、多くの場合、以下のFに依存する:
項Sfyは、一般に、式(14)においても見られるように、胎児画分に依存する。いくつかの実施形態において、
の測定された胎児画分における従属度を、胎児画分を考慮することにより分析することができる。胎児画分は、多くの場合、測定された胎児画分Fが真の胎児画分Fに等しいと仮定することにより考慮することができる。いくつかの実施形態において、サンプルの核型が正倍数体である場合、SfyおよびSffは、同じ値を有する(例えば、実験誤差を除く)。結果として、2つの残差二乗和間の差は、多くの場合、以下に帰着する:
特定の実施形態において、サンプルの核型が3倍体である場合、式(41)および(42)を、式(46)と組み合わせることができ、以下を生成する:
したがって、いくつかの実施形態において、
の差が、正である場合、胎児は3倍体であり、特定の実施形態において、差が負である場合、胎児は罹患していない。正または負の結果のグラフ表示は、多くの場合、放物線状、3倍体では凹型および正倍数体では凸型である。両方の分岐は、Fが低下するにつれて、ゼロに向かう傾向があり、実験誤差はグラフの形状にほとんど影響しない。多くの例において、分岐は、実質的に線形または自由項でもないが、第2の次数係数は、サイズが異なることに加え、異なる記号を有する。ΔFがおよそ2%では、86個の正倍数体のセットから抽出された参照カウントおよび不確定要素を使用して、項Sffの値が3.7に近づく(図45を参照のこと)。
図45に示される例において、2つの分岐は、多くの場合、式(47)および(48)の測定された胎児画分の平方を乗算する異なる係数により非対称である。3倍体の(例えば、正の)分岐は、相対的に急速に増加し、実質的に正倍数体の分岐より早くゼロと区別可能になる。実際のデータセットを使用して得られた図46は、図45に示される定量的結果を確かにする。図46において、第4象限の孤立の濃灰色の点(例えば、下部中央の象限)は、罹患した双胎である。図46を作製するために使用されるデータセットにおいて、グラフの正倍数体およびT21の分岐はともに、曲率を示し、それは、ともに式(31)のトリソミーのバージョンからのFの二次従属度を示すためである。
いくつかの実施形態において、グラフの両方の分岐を直線化し、視覚的判断を容易にすることができる。直線化の値は、多くの場合、誤差伝播分析に馴化させる。図45および46に示される結果は、測定された胎児画分の誤差が胎児画分の全範囲で均一であるという仮定に基づいた。しかし、仮定は、必ずしも、その例ではない。いくつかの例において、誤差ΔFと測定された胎児画分F(ΔF=2/3+F/6)との線形関係に基づき、より現実的な仮定が、図47に示される結果を生成する。図47において、正倍数体の分岐は、実質的に平坦、つまりほぼ定数(例えば、放物線状の特徴が実質的に存在しない)であるが、トリソミーの分岐は放物線状のままである。トリソミーの分岐の濃灰色の点で散在する薄灰色の3点は、双胎からのデータを表す。双胎のデータは、誤差モデル固定値に対して上昇することもある。
サンプルが遺伝的変異により罹患しているかどうかの分類を、多くの場合、以下の3つプロセスの1つを使用して行う:(1)残差二乗和の放物線状の差に基づく分類(図45および46を参照のこと)、(2)残差二乗和の直線的な差に基づく分類(図47および48を参照のこと)、および(3)フィットさせた胎児画分に基づく分類(式(33)を参照のこと)。いくつかの実施形態において、選択された方法は、誤差伝播を考慮する。
倍数体の固定値、胎児画分の最適値:システムエラー−参照オフセット
理想的には、ビンカウント参照値および測定値は、ゼロのシステムエラー(例えば、オフセット)を含有するものとするが、実際には、ビンカウントの参照値および測定値は、互いに対してシフトすることもある。いくつかの例において、互いに対するシフトの影響を、シフトΔが目的の染色体全体の定数であると仮定して、式(33)を使用して分析することができる。いくつかの実施形態において、正倍数体の例において、不規則誤差を無視する場合、以下の関係が成り立つ:
は、実際のビンカウント参照値iを表し、fは、任意のシステムエラーΔを含む、使用されたビンカウント参照値を表す。特定の実施形態において、式(49)および(50)を式(33)に置き換えることにより、フィットさせた胎児画分のグラフの正倍数体の分岐における以下の式を作製する:
いくつかの実施形態において、係数S 、S およびS を、fをf に置き換えることにより、式(33)〜(39)から作製する。特定の実施形態において、正倍数体のフィットさせたFと、測定値Fとの線形関数の関係の逆の傾きが、1+S +2S +S Δに等しく、これは、多くの場合、相対的に簡易な二次方程式を解くことによりシステムエラーΔの推定を可能にする。3倍体において、FがFと等しいと仮定すると、ビンカウントの測定値は、以下になることもある:
式(52)、(49)および(33)を組み合わせることにより、フィットさせた胎児画分のグラフの3倍体の分岐の以下の式を作製する:
いくつかの実施形態において、式(51)および(53)は、フィットさせた3倍体および正倍数体の胎児画分が、図48に示すように挙動することを予測する。図48において、黒色の線(例えば、3本の線の各セットの上部の線)は、負のオフセットΔに対応し、濃灰色の線(例えば、3本の線の各セットの下部の線)は、正のオフセットΔに対応し、薄灰色の線(例えば、3本の線の各セットの中央の線)は、オフセットが存在しない状態に対応する。図49は、実際のデータに人工的に重ねたシステムエラーのシミュレート値Δの影響を図示する。
図50は、正倍数体および3倍体のデータセットにおけるシステムエラーのオフセットにおける、フィットさせた胎児画分の従属度を図示する。正倍数体および3倍体の両方の例において、式(51)および(53)の理論的な式は、多くの場合、測定された胎児画分上の、およびシステムエラーオフセット上のフィットさせた胎児画分の定量的従属度を捉える。図49および50のグラフに使用される係数は、任意の潜在的システムバイアスを除去することなく、未処理の参照ビンカウントから得た。
倍数体の固定値、胎児画分の最適値、誤差伝播:フィットさせた胎児画分
フィットさせた胎児画分における誤差の寄与は、多くの場合、2種類の誤差:1)測定された胎児画分からの誤差、および2)ビンカウント測定値および参照値からの誤差の1つにある。2種類の誤差を、異なる方法を使用して、個々に分析し、後に組み合わせて最終誤差範囲を作製する。測定された胎児画分からの伝播した誤差を、式(40)のFをまずF−2ΔF(例えば、下部の誤差境界において)と、次いでF+2ΔF(例えば、上部の誤差境界において)と置き換えることにより評価することができる。特定の実施形態において、この相対的に簡易な方法は、95%の信頼区間にて定量的挙動を補正する。異なる所望の信頼水準において、より一般的な境界の組、F−nΔFおよびF+nΔFを利用することができる。上部および下部の誤差境界を作製するために使用される項は、ビンカウントの測定値および参照値の誤差からの寄与が、多くの場合、無視されるため、誤差全体を過小評価することもある。
いくつかの実施形態において、フィットさせた胎児画分の誤差の、ビンカウント測定値および参照値からの寄与をさらに評価するために、式(38)〜(40)を利用することができる。特定の実施形態において、式(33)を、第1の次数、平方および平均に切り捨てられるfおよびyに対して、フィットさせた胎児画分においてテイラー級数に展開することができる。いくつかの例において、yの不確定要素が、多くの場合、fの不確定要素と同じであることを仮定することができる。分析を容易にするために、交差項および高次項を、平均化する上でゼロに帰着すると仮定する。テイラー展開係数は、多くの場合、連鎖法則を利用して得られる。次いで、フィットさせた胎児画分の二乗平均の分散を、以下に示す式(54)により得る。いくつかの実施形態において、式により表されるモデルは、ΔFの推定値からの寄与を無視する。部分的な導関数を、以下の式(54)に示される式を使用して評価することができる。
式(54)〜(59)を組み合わせることにより以下の式を作製する:
いくつかの実施形態において、式(60)を95%信頼区間にて評価するために、以下の上部および下部の境界を使用することができる:
実質的に全ての考えられる誤差源(例えば、F、f、y)がテイラー展開級数に含まれる実施形態において、同じ式が、多くの場合、得られる。いくつかの例において、FにおけるFの従属度を、Sfyより考慮することができる。いくつかの実施形態において、Fに対応する冪級数項は、多くの場合、以下となる;
は、3倍体において、1に等しい。したがって、ΔFが多くの場合、Fとともに増加し、高値のFにて大きくなるけれども、相対的に簡易なΔFをFに減算および加算することが、正当である。いくつかの実施形態において、成果は、FおよびSfyがともにFに直線的に依存することによる。試験被験体から得られたデータから得られるフィットさせた胎児画分とともに、式(61)に基づくシミュレーションを図51に示す。図51に示されたシミュレーションにおいて、本明細書において記載のようにΔF=2/3+F/6である。
実施例3:ゲノム位置の関数としてのスライディングウィンドウ分析および累積和
正規化されたカウントプロファイルの認識可能な特徴(例えば、遺伝的変異の領域、コピー数多型の領域)の同定は、相対的に時間がかかり、かつ/または相対的に費用がかかるプロセスであることもある。認識可能な特徴を同定するプロセスは、多くの場合、ノイズデータおよび/または胎児核酸の寄与が低いことを含有するデータセットにより複雑化する。真性の遺伝的変異またはコピー数多型を表す認識可能な特徴の同定は、大きく、特徴のないゲノム領域の検索を回避するのに役に立ち得る。認識可能な特徴の同定を、検索および得られたデータセットから、残りのゲノム片から、非常に可変的なゲノム片を除去することにより、つまり所定の複数のプロファイル分散毎に、平均プロファイル上昇から逸脱するデータ点を除去することにより獲得することができる。
いくつかの実施形態において、所定の複数のプロファイル分散毎に、プロファイル上昇の平均値から逸脱するデータ点を得ることを使用し、50,000超または100,000超のゲノム片から、実際のシグナルまたは孤立のノイズスパイクを表す約100〜約1000の候補ゲノム片(例えば、約100ゲノム片、約200ゲノム片、約300ゲノム片、約400ゲノム片、約500ゲノム片、約600ゲノム片、約700ゲノム片、約800ゲノム片、約900ゲノム片、または約1000ゲノム片)の範囲まで候補ゲノム片の数を少なくすることができる。候補ゲノム片の数を少なくすることは、相対的に急速に、容易に獲得することができ、多くの場合、2桁以上の大きさによる遺伝的異常の検索および/同定を迅速化する。遺伝的変異の候補領域の有無を検索するゲノム片の数が少ないことは、多くの場合、データセットの複雑性および/または次元性を減少させる。
いくつかの実施形態において、所定の複数のプロファイル分散毎に、プロファイル上昇の平均値から逸脱するデータ点を含有するデータセットを少なくした後に、少なくなったデータセットをフィルタリングし、孤立のノイズスパイクを排除する。少なくなったデータセットをフィルタリングし、孤立のノイズスパイクを除去することにより、多くの場合、フィルタリングされた、少なくなったデータセットを作製する。いくつかの実施形態において、フィルタリングされた、少なくなったデータセットは、連続のデータ点のクラスターを保持し、特定の実施形態において、フィルタリングされた、少なくなったデータセットは、ギャップの所定の数および/またはサイズについての許容差を有するかなり連続するデータ点のクラスターを保持する。いくつかの実施形態において、実質的に同じ方向の平均のプロファイル上昇から逸脱するフィルタリングされた、少なくなったデータセットからのデータポイントを、合わせてグループ化する。
バックグランドノイズが、多くの場合、核酸サンプルに存在することにより(例えば、サンプルの総核酸と比較した目的の領域の比)、バックグランドノイズから遺伝的変異または遺伝的異常の領域を区別することは、多くの場合、困難を要する。信号対ノイズ比を改善する方法は、多くの場合、真性の遺伝的変異および/または遺伝的異常の領域を表す候補領域の同定を容易にするのに有用である。ゲノムバックグランドノイズに対する真性の遺伝的変異の領域の信号対ノイズ比を改善する任意の方法を使用することができる。ゲノムバックグランドノイズに対する真性の遺伝的変異の領域の信号対ノイズ比を改善するときに使用されるのに適切な方法の非限定的な例は、疑わしい異常およびそ中間体周囲物に対する積分の使用である。いくつかの実施形態において、疑わしい異常およびその中間体周囲物に対する積分の使用は有益であり、それは、合計することにより不規則なノイズが削除されるためである。いくつかの実施形態において、ノイズを少なくし、または排除している場合、さらに相対的に少量の信号が、候補ピークおよびその周囲物の累積和を使用して、容易に検出可能となり得る。累積和は、ピークから(例えば、片側またはもう一方に)外れた任意に選択された起点に対して定義されることもある。累積和は、多くの場合、選択された遺伝片または各片に対する正規化されたカウントプロファイルの積分の推定値である。
異常が存在しない場合、ゲノム位置の関数としての累積和は、多くの場合、単位傾き(例えば、1に等しい傾き)を有する直線として挙動する。欠失または重複が存在する場合、累積和プロファイルは、多くの場合、2本以上の線分からなる。いくつかの実施形態において、異常から外れた領域は、単位傾きを有する線分にマッピングする。特定の実施形態において、異常の範囲内の領域において、線分を、傾きが異常の範囲内のカウントプロファイル上昇または下降に等しい他の線分と結合する。
母体異常を有するこれらのサンプルにおいて、傾き(例えば、カウントプロファイル上昇に等しい)を、相対的に容易に決定する:ホモ接合の母体欠失では0、ヘテロ接合の母体欠失では0.5、ヘテロ接合重複では1.5、ホモ接合重複では2.0。胎児異常を有するこれらのサンプルにおいて、実際の傾きは、異常の種類(例えば、ホモ接合欠失、ヘテロ接合欠失、ホモ接合重複またはヘテロ接合重複)および胎児画分の両方に依存する。いくつかの実施形態において、胎児による母体異常の受け継ぎは、遺伝的変異において胎児サンプルを評価するときに考慮される。
いくつかの実施形態において、単位傾きを有する線分は、異常の左および右の正常なゲノム領域に対応しており、互いに対して垂直にシフトする。これらの切片間の差(例えば、減算の結果)は、異常の幅(罹患ゲノム片の数)と異常のレベル(例えば、ホモ接合の母体欠失では−1、ヘテロ接合の母体欠失では−0.5、ヘテロ接合重複では+0.5、ホモ接合重複では+1など)との積に等しい。ゲノム位置の関数として累積和を使用して処理したデータセットの例において、図52〜61Fを参照のこと(例えば、スライディングウィンドウ分析)。
実施例4:誤差除去のパラメータ化および不偏正規化(PERUN)
カウント測定値の分散性
理想的に、染色体上昇の測定値は、図62において見られるように、正倍数体において1の上昇の直線の水平線である。トリソミー妊娠において、染色体上昇の測定値の所望の挙動は、図63で15%に等しい胎児画分においてシミュレートしたように、胎児画分に比例した1からの偏差を用いた階段関数である。母体欠失/重複は除外されるが、これは1/2の倍数の大きさに基づく胎児異常から容易に認識され、区別される。
実際に測定したものは、理想的ではなかった。図64は、1093例の正倍数体妊娠から採取した第20番染色体、第21番染色体および第22番染色体における重ね合わせた未処理カウントを示し、図65は、134例のトリソミー21妊娠から採取された第20番染色体、第21番染色体および第22番染色体における重ね合わせた未処理カウントを示す。2つのプロフィイルのセットの視覚的判断では、トリソミーの例の第21番染色体のトレースが上昇したことを確認できなかった。確率的ノイズおよび体系的バイアスの両方が第21番染色体の上昇の可視化を難しくさせた。さらに、第21番染色体のさらに右の線分は、トリソミープロファイルよりむしろ、正倍数体の第21番染色体のトレースが上昇したことを誤って示唆した。体系的バイアスの大部分は、具体的なゲノム領域に関連したGC含量に由来した。
GC含量に起因する、体系的バイアスを除去する試みは、乗法LOESS GC平滑化、リピートマスキング(RM)、LOESSおよびRMの組み合わせ(GCRM)およびcQNなどの他のものを含んだ。図66は、1093個の正倍数体のトレースに適用した場合の、GCRMの結果を示し、図67は、134例のトリソミーの例におけるGCRMプロファイルを示す。GCRMは、正倍数体における第21番染色体のGC富化された最も右の線分の上昇値を平坦化することに成功した。しかし、この方法では、明らかに全体の確率的ノイズを増加させた。さらに、未処理測定値(第20番染色体(Chr20)の最も左の領域)から消失している新たな体系的バイアスを作製した。GCRMに起因した改善は、増加したノイズおよびバイアスにより相殺され、方法の有用性に疑問を示した。図63に観察されるような第21番染色体からのわずかな上昇は、図66および図67において示されるように、大きなノイズの中に消失した。
PERUN(誤差除去のパラメータ化および不偏正規化)を、これまでに記載されたGC正規化方法の実行可能な代替えとして開発した。図68および図69は、図64〜67に示されるものに対するPERUN方法の結果を対比する。PERUNの結果は、図64〜67において分析されたデータの同じ2つの部分集合上に得られた。体系的バイアスのほとんどが、PERUNトレースから消失し、正倍数体サンプルの1つの第20番染色体の顕著な欠失などの確率的ノイズおよび生物学的変動を残すにすぎない(図68)。第20番染色体の欠失も、未処理カウントプロファイルにおいて観察可能であったが(図64)、GCRMトレースにおいて完全にマスクされた。GCRMがこの大きな偏差を明らかにできないことは、極めて小さい胎児のT21の上昇を測定するには明らかに不適切となる。PERUNトレースは、未処理またはGCRMプロファイルよりも含有するビンが少ない。図62〜63に示されるように、PERUNの結果は、少なくとも測定誤差が許容するのと同様であるようである。
参照中央カウントプロファイルに対する正規化
従来のGC正規化方法は、最適下により行うことができる。その理由の一部は、GCバイアスが唯一の変動源ではないことがあった。多くの個々の未処理のカウントプロファイルの積み重ねられたプロットは、異なるサンプル間の平行性を表す。いくつかのゲノム領域が一貫して過剰に表されるが、他では、480v2試験のトレースにより図示されるように(図6)、一貫して過小に表される。GCバイアスはサンプル間で異なるが、これらのプロファイルに観察される体系的、ビン特異的バイアスは、全てのサンプルにおいて同じパターンとなる。図6のプロファイル全ては、協調するようにジグザグであった。唯一の例外は、下部の2つのサンプルの中央部分であり、これは、母体欠失に由来することがわかった。このビン特異的バイアスを補正するために、参照プロファイルの中央値を使用した。参照プロファイルの中央値は、既知の正倍数体のセット(例えば、正倍数体妊娠)またはフローセルの全てのサンプルから構築された。方法は、参照サンプルのセットにおいて、ビン当たりの中央値カウントを評価することにより参照プロファイルを作製した。ビンと関連するMADが、ビンの信頼性を測定した。かなり変動可能なビンおよび一貫して表現が消失しているビンを、さらなる分析から除去した(図4)。次いで、試験データセットのカウント測定値を、図8に図示したように、参照プロファイルの中央値に対して正規化した。かなり可変なビンを正規化されたプロファイルから除去し、2倍体片においておよそ1、ヘテロ接合重複の領域において1.5、ヘテロ接合欠失の領域において0.5などとなるトレースを残した(図9)。得られた正規化されたプロファイルは、合理的に分散性を減少させ、母体欠失および重複の検出ならびにサンプル同一性のトレースを可能にした(図12、22、13、11)。カウントプロファイルの中央値に基づいた正規化は、成果を明確にすることができるが、GCバイアスはなお、このような方法において負の効果を有する。本明細書に記載のPERUN法を使用し、GCバイアスに対処し、より感受性および特異性の高い成果を提供することができる。
LOESS補正乗算法の有害な影響
図11は、ビンワイズカウントがGC−LOESSまたはGCRM適用前(図64〜65)より適用後(図66〜67)にさらに変動するかについて図示した。LOESS GC補正は、回帰直線(直線、図70、上部パネル)で未処理カウントを除算することにより未処理カウント(図70、上部パネル)からの傾向変動を除去した。点を中央値カウントにより定義し、ゲノムGC含量の中央値を固定した。平均の、中央値カウントより下のカウントを、小さい数で除算するが、中央値カウントを超えるカウントは、大きい数で除算した。いずれの例においても、平均のカウントを拡大し、または縮小し、1に一致させた(図70、下部パネル)。カウントの増大に加え、小さいカウントの拡大縮小も、分散性を増大させた。GCゲノム含量の中央値から左の最終結果(図70、下部パネル)は、対応する未処理カウント(図70、上部パネル)よりかなりの広がりを示し、典型的な三角形の形状(図70、下部パネル、三角)を形成した。カウントの傾向変動を除去するため、GC LOESS/GCRMは精度をあきらめ、それゆえ、補正方法は一般に乗算法であり、加算法でない。PERUNにより提供された正規化は一般に、本来は加算法であり、乗算技法に対する精度を強化する。
GCバイアススケーリングにおけるゲノムワイド転換点の不十分
代替えの方法は、ゲノム全体に総合的なGCバイアススケーリングを行う代わりに、個々の染色体に個別にLOESS補正を適用した。個々の染色体のスケーリングは、過剰表現された染色体からの信号を削除するため、正倍数体またはトリソミーとしてサンプルを分類するためには実用的ではなかった。しかし、この試験の結論では、PERUNアルゴリズムを開発するための媒介因子として最終的に有用であった。図71は、複数のサンプルからの同じ染色体において得られたLOESS曲線が、共通の交点(転換点)を共有することを図示する。
図72は、転換点の周りの染色体特異的LOESS曲線を、これらのサンプルにおいて測定されたGCバイアス係数に比例する角度で傾斜させることにより、曲線全てを融合させたことを示す。染色体特異的LOESS曲線を、サンプル特異的GCバイアス係数により傾斜させることにより、図73に示されるように、複数のサンプルにおいて得られたLOESS曲線のファミリーの広がりを顕著に減少させた(黒色のv形状の線(傾斜前)および灰色の下部の線(傾斜後))。黒色および灰色の曲線が接触する点は、転換点と一致した。さらに、染色体特異的転換点のGC含量の軸上の位置は、所与の染色体のGC含量の中央値と一致したことが明らかとなった(図74、左の垂直な灰色の線の中央値、右の垂直な太線:平均値)。同様の結果を、図75A〜図75Fに示されるように、全ての染色体において得られた(左の垂直な灰色の線:中央値、右の垂直な太線:平均値)。全ての常常染色体およびX染色体を、GC含量の中央値に従い、順序付けた。
図76に示されるように、ゲノムワイドGC LOESSスケーリングは、ゲノム全体のGC含量の中央値の変換を旋回させた。転換点は、ゲノム全体のGC含量に類似のGC含量の中央値を有する染色体に許容可能であったが、極端なGC含量を含む染色体、例えば、第19番染色体、第20番染色体、第17番染色体、および第16番染色体(極度に高GC含量)においては最適下となった。ゲノム全体のGC含量の中央値に集中したこれらの染色体の転換点は、図76の左の四角内に観察される広がりを維持し、図76の右の四角により囲まれた分散性の低い領域を消失した(染色体特異的転換点)。
しかし、染色体特異的GC含量の中央値の転換点は、分散性をかなり減少させた(図75)。以下のように観察した:
1)GC補正は、分散性を減少させるために、ゲノム全体によりむしろ、小さいゲノム片または断片に行われるべきである。片または断片が小さいほど、GC補正にさらに焦点が当てられ、残差誤差を最小にする。
2)この具体的な例において、これらの小さいゲノム片または断片は、染色体と同一である。おもに、概念はさらに一般的であり、片または断片が50kbpのビンを含む任意のゲノム領域であってよい。
3)個々のゲノム領域内のGCバイアスを、ゲノム全体において評価したサンプル特異的な、ゲノムワイドGC係数を使用して、修正することができる。この概念は重要であり、ゲノム片のいくつかの記述子(例えば、転換点点の位置、GC含量分布、GC含量の中央値、LOESS曲線の形状など)は、各片に特異的であり、サンプルから独立し、つまりバイアスを修正するために使用されるGC係数値は、片全てにおいて同じであり、各サンプルにおいて異なる。
これらの一般的な結論が、その方法の詳細な説明から明らかとなるように、PERUNの開発を導いた。
体系的バイアス源の分離性
多くの、異なるライブラリ作製の化学物質を使用して測定された未処理カウントプロファイル、クラスター環境、シークエンシング技術およびサンプルコホートを慎重に調査し、少なくとも2つの独立した体系的分散性源の存在を一貫して確認した:
1)全てのビンに、所与のサンプル内で同じように影響を与え、各サンプル間で変化する、GC含量に基づいたサンプル特異的バイアス、および
2)全てのサンプルに共通のビン特異的減衰パターン。
2つの分散性の供給源をデータに混合する。両方の完全な除去には解析が必要であった。PERUNより前から存在する誤差除去方法の不備は、2つの体系的なバイアスの供給源の一方に対してのみ補正し、もう一方を無視しているという事実により生じる。
例えば、GCRM(またはGC LOESS)法は、狭いGC含量の範囲内にあるGC含量値を含むビン全てを理想的に処理した。そのサブセットに属するビンは、参照中央カウントプロファイルにより反映されるように、広範囲の異なる本来の上昇により特徴付けることができる。しかし、GCRMは、GC含量以外の本来の特性に左右されなかった。それゆえ、GCRMは、ビンサブセットにすでに存在する広がりを維持する(またはさらに拡大する)。
一方で、ビンワイズ参照中央カウントは、GCバイアスによるビン特異的減衰パターンの調節について無視し、異なるGC含量により生じる広がりを維持した。
対極の誤差スペクトラムを取り扱う方法を連続的に適用することにより、全体的(ゲノムワイド)に2つのバイアスを分解する試みが不成功に終わり、ビン上昇における2つのバイアスを分離する必要性が無視された。理論に限定されないが、PERUNの成功は、明らかに、ビン上昇において、2つのバイアス源を局所的に分離することによる。
無益なビンの除去
無益なビンを除去する多くの試みにより、ビン選択に分類を改善する可能性を有することが示されている。第1のこのような方法では、全ての480v2トリソミーの例におけるビン当たりの第21番染色体、第18番染色体、および第13番染色体のカウントの平均値を評価し、全ての480v2正倍数体におけるビン当たりのカウント平均値と比較した。罹患と非罹患例との間のギャップは、両グループにおいて測定されたビンカウントから得られたビンワイズ不確定要素の合成値を用いて拡大縮小した。得られたt統計値を使用し、図77に示されるように、ビンワイズp値プロファイルを評価した。第21番染色体の例において、方法は、36個の無益なビンを同定した(図77の楕円形で標識された中央パネル)。Zスコアの計算からこれらのビンを除外することにより、罹患例におけるZ値が顕著に増加したが、非罹患のZスコア(図78)を不規則に摂動させ、それにより、正倍数体とトリソミー21の例との間のギャップを増大させた。
第18番染色体において、この方法は、2つの罹患例におけるZスコアを改善するにすぎなかった(図79)。
ポストホック分析は、これらの2つのサンプルのZスコアの改善が、第18番染色体(図11)の大きな母体欠失の除去から生じ、2つのサンプルが実際に同じ患者のものであることを示した。これらの改善は、サンプル特異的であり、指数が一般化されない。第13番染色体において、この方法は、Zスコアのいかなる改善も生じかなった。
代替えのビンフィルタリングスキームは、極度に低いまたは極度に高いGC含量を含むビンを除去する。この方法は、第9番染色体、第15番染色体、第16番染色体、第19番染色体、および第22番染色体(カットオフに応じて)において顕著に変動を減少させるが、第13番染色体および第18番染色体において不利に影響する、混合した結果を生成した。
さらに別の簡易なビン選択スキームは、一貫して低いカウントのビンを排除する。この方法は、2つのLDTv2CE第18番染色体偽陰性(図80)および2つの第21番染色体偽陰性(図81)を補正した。少なくとも3つの第18番染色体偽陽性も補正したが、少なくとも1つの新たな第18番染色体偽陽性を作製した(図80):
結論として、無益なビンをフィルタリングするために使用される異なる基準は、データ処理が、ビンが分類に寄与する有用な情報の量に基づいたビン選択によって有益となることを明らかにした。
体系的ビンワイズバイアスからのGCバイアスの分離
カウント測定値に見つかる異なる体系的バイアスを分解し、かつ排除するために、データ処理ワークフローが、「参照中央カウントプロファイルに対する正規化」と題した前述の節から「無益なバイアスの除去」と題した節までに記載の部分的方法を最適に組み合わせるために必要であった。第1のステップは、GCバイアス係数値に従い、異なるサンプルを順序付けた後、カウント対GC含量のプロットを重ねる。結果は、図82に概略的に示された、プロペラのようにねじれた3次元の面となる。
こうして整列された、測定値は、サンプル特異的GCバイアス係数のセットを、個々のゲノム片または断片内の誤差を修正するために適用することができることを示唆する。図82において、各片または断片を、GC含量により定義する。ゲノムの代替えの区分は、連続の、オーバーラッピングしないビンとなる。ビンの連続の開始位置は、均一にゲノムを包含する。このような一例の50kbp長のビンにおいて、図83は、サンプルのセットにおいて、そのビン内で測定されたカウント値の挙動を調べている。カウントを、これらのサンプルに観察されるGCバイアス係数に対してプロットする。ビン内のカウントは、サンプル特異的GCバイアスとともに明らかに直線的に増加する。同じパターンが圧倒的に主要なビンにおいて観察される(in observed)。観察値を簡易な線形関係を使用してモデル化することができる:
式Aの種々の項は、以下の意味を有する:
M:不必要な変動により混入した主要な情報を表すカウント測定値。
L:染色体上昇−これは、データ処理方法からの所望の出力である。Lは、正倍数性からの胎児および/または母体異常を示す。これは、確率的誤差により、および体系的バイアスの両方によりマスクされる量である。染色体上昇Lは、サンプル特異的およびビン特異的の両方である。
G:線形モデルのLOESSまたた任意の等価の方法を使用して測定されたGCバイアス係数。Gは、Mから、およびビン特異的GC含量値のセットから抽出され、通常、参照ゲノムから得られる(が、同様に実際のGC含量の観察値から得られ得る)、二次的な情報を表す。Gはサンプル特異的であり、ゲノム位置に沿って変化しない。不必要な変動の一部を包含する。
I:線形モデルの切片(図83の緑色の線)。このモデルパラメータを、所与の実験設定において、サンプルに独立し、ビン特異的に固定する。
S:線形モデルの傾き(図83の緑色の線)。このモデルパラメータを、所与の実験設定において、サンプルに独立し、ビン特異的に固定する。
量MおよびGを測定する。最初、ビン特異的な値IおよびSは未知である。未知のIおよびSを評価するために、正倍数体のサンプルの全てのビンにおいて、L=1を仮定する必要がある。仮定は、必ずしも当てはまらないが、欠失/重複を含む任意のサンプルよりも、正常な染色体上昇を含むサンプルのほうが圧倒的になるであろうことを合理的に予期することができる。正倍数体サンプルに適用された線形モデルは、選択されたビンに特異的なIおよびSパラメータ値を抽出する(L=1を仮定)。同じ方法をヒトゲノムのビン全てに適用し、各ゲノム位置における切片Iおよび傾きSのセットを生成する。交差検証は、全てのLDTv2CE正倍数体の90%を含有するワークセットを無作為に選択し、そのサブセットを使用し、モデルを訓練する。無作為の選択を100回繰り返し、各ビンにおいて、100個の傾きおよび100個の切片のセットを生成する。「PERUNパラメータの交差検証」と題した前述の節は、より詳細に交差検証の方法について説明している。
図84〜85は、それぞれ、第2番染色体のビン番号2404において評価した、100個の切片値および100個の傾き値を示す。2つの分布は、図83に示される1093個のLDTv2CE正倍数体の100個の異なる90%サブセットに対応する。両方の分布が、相対的に狭く、不規則な形状である。これらの広がりは、線形モデルにより報告された場合の係数の誤差に類似する。原則として、傾きは、切片よりあまり信頼性がなく、それは、少ないサンプルにGCバイアス範囲の極端な部分が集合するためである。
PERUNパラメータIおよびSの解釈
切片Iの意味を図86により図示する。グラフは、1つのLDTv2CEフローセルに3回の別個のシークエンシング試行を行ったときに得られる、技術的反復物のセットから抽出されたデータを含むビン切片の推定値と相関する。y軸は、これらの3つの測定値からのビンワイズカウントの中央値を含有する。これらの中央値は、概念上、参照プロファイルの中央値に関連し、これは既に「参照中央カウントプロファイルに対する正規化」と題した節に記載のようにプロファイルを正規化するために使用された。ビンワイズ切片をx軸に沿ってプロットする。2つの量間の著しい相関は、GCバイアスの非存在下において、ビン当たりのカウント期待値としての切片の本当の意味を表す。参照カウントプロファイルの中央値を含む問題は、GCバイアスを考慮しないことである(「参照中央カウントプロファイルに対する正規化」と題した節を参照のこと)。PERUNにおいて、理論に限定されないが、切片Iの課題は、ビン特異的減衰を扱うことであるが、GCバイアスは、他のモデルパラメータである傾きSの二の次となる。
図86は、技術的反復物のセットが男性妊娠の母集団を反映しないため、相関からY染色体を除外する。
傾きSの分布(図87)は、そのモデルパラメータの意味を図示する。
図87の分布と、ゲノムワイドのGC含量の分布との間の著しい類似(図88)は、傾きSが、含有する染色体のGC含量の中央値によりシフトした、ビンのGC含量に近似することを示す。図88の細い垂直線は、ゲノム全体のGC含量の中央値を示す。
図89は、傾きSと、ビン当たりのGC含量との間の密接な関係を再確認させる。わずかな湾曲であるが、観察された傾向変動は、ほんの少量の顕著な外れ値のビンと極めて密接であり、かつ一致する。
カウント測定値からの染色体上昇の抽出
モデルパラメータ値IおよびSが各ビンに利用可能であることを仮定し、新たな試験サンプルで採取された測定値Mを使用し、以下の式に従い染色体上昇を評価する:
式Aと同じく、GCバイアス係数Gを、ビンワイズ未処理カウントの測定値Mと、参照ゲノムのGC含量との間の回帰の傾きとして評価する。次いで、染色体上昇Lを、さらなる分析(Z値、母体欠失/重複、胎児の微小欠失/微小重複、胎児の性別、性別異数性など)に使用する。式Bにより包含される方法は、誤差除去のパラメータ化および不偏正規化(PERUN)と呼ばれる。
PERUNパラメータの交差検証
「体系的ビンワイズバイアスからのGCバイアスの分離」と題した節で推論したように、IおよびSの評価に、既知の正倍数体の10%(図83の1093個のLDTv2のセット)を無作為に選択し、交差検証用に別においておく。残りの正倍数体の90%に適用した線形モデルは、選択されたビンに特異的なIおよびSパラメータ値を抽出する(L=1と仮定)。次いで、交差検証は、所与のビンにおけるIおよびSの推定値を使用し、ワークセットおよび残りの10%正倍数体の両方におけるG測定値から測定値Mを再び作製する(繰り返すが、L=1と仮定)。交差検証のサブセットの無作為の選択を、何回か繰り返す(図83において100回であるが、10回の繰り返しで十分である)。図83の100個の斜線は、100個の異なる90%ワークサブセット選択における線形モデルを表す。同じ方法を、ヒトゲノムの全てのビンに適用し、各ゲノム位置において、切片Iおよび傾きSのセットを生成する。
モデルの成功を定量化し、結果のバイアスを回避するため、以下に定義されるR因子を使用する:
式Bの分子は、実際の測定値(M)からカウント予測値(式BのP)の絶対偏差を合計したものである。分子は、単に測定値を合計したものである。R因子を、モデルの残差誤差または不測の変動として解釈することができる。R因子は、バイアスに脆弱な、結晶学的モデルの改善された方法を直接取り入れる。結晶学において、バイアスを検出し、観察値の交差検証サブセット内で評価されたR因子により測定する。同じ概念を、ゲノムワイドのカウントバイアス除去において適用する。
図90は、R因子が、第2番染色体からのビン番号2404のワーク(訓練)セットにおいて評価されたR因子に対してプロットされた交差検証サブセット(y軸)において評価したことを示す。交差検証サブセットの無作為の選択を100回繰り返したので、100個のデータ点がある。Rworkの低下を伴い、Rcv値が増加する(バイアスを測定)、典型的な線形関係が観察される。
図90は、この具体的なビンにおけるモデルの誤差の割合(または相対的誤差)の観点から解釈され得る。Rcvは常にRworkを通常約1%超える。本明細書において、RcvおよびRworkの両方は、6%より低いままであり、上記の方法からGCバイアス測定値係数GおよびモデルパラメータIおよびSを使用して、予測値Mにおける約6%の誤差を期待することができることを意味する。
交差検証誤差値
図90〜91は、それぞれ、ビンchr2_2404およびchr2_2345における交差検証誤差を示す。これらの、および他の多くのビンにおいて、誤差は決して6%を超えない。chr1_31などの一部のビン(図92)は、8%に近い交差検証誤差を有する。さらに他(図93〜95)では、100%を超えるかなり大きな交差検証誤差を有することもある(図93のchr1_10では40%、図94のchr1_9では350%、および図95のchr1_8では800%)。
図96は、全てのビンにおける最大値(Rcv、Rwork)の分布を示す。ほんのわずかなビンが5%より小さい誤差を有する。ほとんどのビンは、7%より小さい誤差(XおよびYを含む合計61927本のうち48956本の常染色体)を有する。数個のビンは、7%〜10%の誤差を有する。尾部は、10%を超える誤差を含むビンからなる。
図97は、交差検証誤差と、技術的反復物のセットから推定されたビン当たりの相対的誤差を相関させる。青色の領域のデータ点は、7%〜10%の交差検証誤差に対応する。赤色の領域のデータ点は、10%を超える交差検証誤差を含むビンを示す。灰色の領域のデータ点(誤差<7%)は、ビンの塊を表す。
図91〜95において、上部右の差し込み図の上のビン名に続く括弧内の数字は、その具体的なビンにおいて見つかった切片と、ビン当たりのゲノムワイズの中央値カウントとの間の比を示す。交差検証誤差は、明らかに、その比の値の低下とともに増加する。例えば、ビン、chr1_8は、3カウント以上には決してならず、その相対的誤差は800%に近づく。所与のビンにおけるカウントの期待値が小さいほど、ビンはあまり信頼性がない。
交差検証に基づくビン選択
「無益なビンの除去」と題した前述の節に記載の観察値に基づき(図78および図80〜81)、交差検証誤差を、ビンフィルタリングのための基準として使用した。選択方法として、7%を超える交差検証誤差を含む全てのビンを捨てる。フィルタリングはまた、一貫してゼロカウントを含有する全てのビンを排除する。残りのサブセットは、48956個の常染色体のビンを含有する。これらは、染色体表現を評価するため、かつ罹患または正倍数体のサンプルを分類するために使用されるビンである。7%のカットオフは、トリソミーのZスコアから正倍数体のZスコアを分離するギャップが、7%の交差検証誤差にて安定することにより正当化される(図98)。
図99A(全てのビン)および99B(交差検証されたビン)は、上記のビン選択がおもに、マッピング性が低いビンをほとんど除去することを例証する。
期待されるように、ほとんどの除去されるビンは、ゲノムワイドのビンカウントの中央値よりかなり小さい切片を有する。驚くことではないが、ビン選択は、「無益なビンの除去」と題した前述の節に記載の選択とかなりオーバーラップする(図25および27〜28)。
モデルパラメータの誤差
図100〜101は、2つのビン(chr18_6およびchr18_8)のフィットさせた線形モデル(細い直線)の95%信頼区間(曲線)を示す。太い灰色の直線は、Sパラメータをこれらの2つのビンのGC含量と、第18番染色体のGC含量の中央値との間の差と置き換えることにより得られる。誤差範囲は、線形モデルにより報告されるように、これらの2つのビンにおけるモデルパラメータIおよびSの誤差に基づいて評価される。さらに、大きなGCバイアス係数も大きな誤差を含有する。極端に大きいGCバイアス係数に対応する大きな不確定要素は、改変されていないPERUNの適用性の範囲を適度のGCバイアス係数に限定することを示唆する。その範囲を超えて、残りのGCバイアスを除去するためにさらなる測定を行うことが必要とされる。幸いにも、ごく少量のサンプルが罹患しているにすぎない(LDTv2CE集団のおよそ10%)。
図102〜104は、モデルパラメータIおよびSの誤差およびSの誤差と、切片の値との相関を示す。
二次正規化
高値のGCバイアス係数は、PERUNモデルにより仮定された線形範囲を超え、PERUN正規化後のさらなるLOESS GC正規化ステップにより是正される。LOESS法の乗法の性質により、正規化されたカウントがすでにかなり1に近いため、分散性を大きく増大させない。代替えとして、LOESSを、残差を減算する追加の方法と置き換えることができる。任意選択の二次正規化は、多くの場合、少量のサンプルに対して必要とされるのみで利用される(およそ10%)。
ホールパディング(パディング)
図68〜69は、サイズおよび位置に応じて、偽陽性または偽陰性を作製する可能性のある多数の母体欠失および重複の存在を確認する。ホールパディングと呼ばれる任意選択の方法を考案し、これらの母体異常から干渉を排除した。この方法は、単に対して正規化プロファイルをパディングし、1.3を超えて、または0.7より下で逸脱するときに、1に近いままにする。LDTv2CEにおいて、ホールパディング(すなわち、パディング)は、分類に顕著に影響しなかった。しかし、図105は、第4番染色体の大きな欠失を含有するWIプロファイルを示す。ホールパディングは、そのプロファイルを、第13番染色体の偽陽性から第13番染色体の真性陰性に変換する。
結果
この節では、トリソミー13、トリソミー18およびトリソミー21(それぞれ、T13、T18およびT21)、性別決定、および性別異数性におけるPERUNの結果について考察する。
分散性の低下
図106は、PERUN正規化前後のビンワイズカウントプロファイルの標準偏差の分布を比較する。得られた正倍数体およびトリソミーの例における染色体表現の分布を、図107に示す。
T13、T18、およびT21の分類の改善
図108〜111は、LDTv2CEのPERUN分類結果を、GCRMカウントを使用して得られたものと比較する。2つの第18番染色体偽陽性、2つの第18番染色体偽陰性、および2つの第21番染色体偽陰性を除去するのに加え、PERUNでは、高次のn乗の上昇がサンプル当たりのカウント数を減少させたことにも関わらず、正倍数体と罹患例とのギャップがほぼ2倍になる(ELANDデータ)。同様の結果を、LDTv2CE Elandデータに訓練させたPERUNパラメータを、WI測定値に適用するときに得る。Bowtieアライメントは、一部のビンの低マッピング性を考慮して、異なるパラメータのセットおよび追加のビンフィルタリングを必要とするが、その結果は、ELANDアライメントで見られたものに近づく。
実施例5:PERUNの追加の説明
誤差除去のパラメータ化および不偏正規化(PERUN)法の例は、実施例4に説明され、このような方法の追加の説明を実施例5に記載する。
細胞非含有の血中DNA(例えば、母体血漿から)の超並列シークエンシングは、理想的な条件下において、一義的に参照ヒトゲノムに整列された場合に、シークエンシングされたリードをカウントすることにより染色体上昇を定量することができる。いくつかの例において、大量の反復物データを組み込むこのような方法は、異数性を意味し得る染色体上昇の測定値と期待値との統計的に有意な偏差を示す(Chiuら、Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma.Proc.Natl.Acad.Sci USA.2008;105:20458−20463;Fanら、Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood.Proc.Natl.Acad.Sci USA.2008;105:16266−16271;Ehrichら、Noninvasive detection of fetal trisomy 21 by sequencing of DNA in maternal blood:a study in a clinical setting,American Journal of Obstetrics and Gynecology−AMER J OBSTET GYNECOL,vol.204,no.3,pp.205.e1−205.e11,2011 DOI:10.1016/j.ajog.2010.12.060]。理想的に、配列されたリードの分布は、一定のレベルにてゲノムの正倍数体の片を包含するものとする(図62および図63)。に、多重化次世代シークエンシング(NGS)の測定が、典型的に、リード開始位置をまばらに分散させる、低いカバレージ(約0.1)を生成するため、均一性を獲得することは困難であり得る。いくつかの実施形態において、この問題を、ゲノムを、等しい長さのオーバーラップしていない片(ビン)に区分し、各ビンに、その中に配列されるリードの数を割り当てることにより部分的に克服する。いくつかの実施形態において、GCバイアスから生じる残りの不均一性[Dohm JC,Lottaz C,Borodina T,Himmelbauer H.Substantial biases in ultra−short read data sets from high−throughput DNA sequencing.Nucleic Acids Res.2008 Sep;36(16):e105.Epub 2008 Jul 26.]は、ビンワイズGC含量に対して傾向変動を除去する乗法を使用してかなり抑制される(Fan HC,Quake SR(2010)Sensitivity of Noninvasive Prenatal Detection of Fetal Aneuploidy from Maternal Plasma Using Shotgun Sequencing Is Limited Only by Counting Statistics.PLoS ONE 5(5):e10439.doi:10.1371/journal.pone.0010439)。いくつかの実施形態において、得られたカウントプロファイルの平坦化は、四重鎖バーコーディングを使用して、臨床環境における胎児トリソミーの分類の成功を可能にする[Palomakiら、DNA sequencing of maternal plasma to detect Down syndrome:an international clinical validation study.Genet Med.,2011 Nov;13(11):913−20.]。
四重鎖(すなわち、4個同時のサンプルリード)から高次のサンプル多重鎖レベル(例えば、十二重鎖(すなわち、12個同時のサンプルリード))への移行により、試験被験体(例えば、妊娠女性)の遺伝的変異(例えば、異数体、トリソミーなど)のNGSに基づく検出の限界が強調され、サンプル当たりのリード数および遺伝的変異を分離するギャップ(例えば、トリソミーサンプルの正倍数体)の両方が減少する。多重化の増加により促進されたダウンサンプリングは、データ処理アルゴリズムにおける新たな、よりストリンジェントな必要条件を課すことができる(図64、図65および実施例4)。いくつかの実施形態において、リピートマスキングと結びつけた場合でも、GCの傾向変動を除去することには、いくつかの改善を必要とする(図66、図67および実施例4)。いくつかの実施形態において、四重鎖バーコーディング(例えば、四重鎖インデキシング)を用いて獲得した感受性を維持するために、以下および図7、図8および実施例4に図示および説明するように、目的の微細な信号を、かなりのバックグランドノイズから抽出することができる方法およびアルゴリズムが示される。いくつかの実施形態において、「PERUN」(誤差除去のパラメータ化および不偏正規化)と名付けた新規の方法を説明する。
従来のGCの傾向変動を除去することは、自然数の乗法であってよく(図17および実施例4)、図6に図示される、追加の体系的バイアス源を対処することができない。いくつかの例において、既知の正倍数体サンプルのセットから構築された参照中央カウントプロファイルは、追加のバイアスを排除することができ、定量的改善に導くことができる。いくつかの例において、既知の正倍数体サンプルのセットから構築された参照中央カウントプロファイルは、参照サンプルからGCバイアスの残りの混合物を引き継ぐことができる。いくつかの実施形態において、正規化は、ビンを塊で取り扱うよりむしろ、ビン上昇にてバイアスを互いから分離することにより1つまたはそれより多い直交型のバイアスを除去する。いくつかの実施形態において、GCバイアスを除去し、位置依存性減衰からGCバイアスのビンワイズ分離を獲得する(図68、図69および実施例4)。いくつかの実施形態において、正倍数体と、トリソミーのZスコアとの実質的に増加したギャップは、四重鎖および十二重鎖GCRMの両方の結果に対して得られる。いくつかの実施形態において、母体および胎児の微小欠失および重複を検出する。いくつかの実施形態において、胎児画分を正確に測定する。いくつかの実施形態において、性別を容易に決定する。いくつかの実施形態において、性別異数性(例えば、胎児性別異数性)を同定する。
PERUN法および定義
いくつかの実施形態において、参照ゲノム全体を順序付けられたセットBのビンJに区分する:
ビンの長さを抑制し、相対的に均一なGC含量のゲノム伸長に調整することができる。いくつかの実施形態において、隣接のビンをオーバーラップすることができる。いくつかの実施形態において、隣接のビンはオーバーラップしない。いくつかの実施形態において、ビンの両端を等距離にすることができ、または変更し、ヌクレオチド組成物または信号減衰など体系的バイアスをオフセットすることができる。いくつかの実施形態において、ビンは、一本の染色体に内のゲノム位置を含む。各ビンbは、参照ゲノムの対応する部分のGC含量g を特徴とする。いくつかの実施形態において、ゲノム全体を参照GC含量プロファイルに割り当てる:
同じgプロファイルを、選択された参照ゲノムに整列させた全てのサンプルに適用することができる。
ビンbの妥当または明白なサブセット、
を特定の基準を満たすよう選択することができ、例えば、g =0のビン、極値g 値を含むビン、複雑性が低く、またはマッピング性が低いことを特徴とするビン(Derrien T,Estelle’J,Marco Sola S,Knowles DG,Raineri E,ら、(2012)Fast Computation and Applications of Genome Mappability.PLoS ONE 7(1):e30377,doi:10.1371/journal.pone.0030377)、高い変数またはさもなければ、無益なビン、一貫して信号が減衰する領域、母体異常の観察値あるいは、染色体全体(X、Y、3倍体染色体、および/またはGC含量の極値を含む染色体)を除外するよう選択することができる。記号
はbのサイズを示す。
ビンb内に一義的に整列させたサンプルiからの全てのシークエンシングしたリードは、セットaijを形成し、この濃度Mijは、そのビンに割り当てられた未処理カウントの測定値を表す。いくつかの実施形態において、サンプルiのビンカウントの測定値のベクターは、そのサンプルの未処理のカウントプロファイルを構成する。いくつかの実施形態において、これは、PERUNにおいて、おもに観察される。
異なるサンプル間の比較を可能にするため、スケーリング定数Nは、ビンのサブセットに対する未処理ビンカウントの和として評価される:
いくつかの実施形態において、式Hのbを常染色体のビンに制限する。いくつかの実施形態において、式Hのbを、常染色体のビンに制限しない。Mを、カウントNの合計で除算し、拡大縮小した未処理ビンカウントmijを生成する:
セットaijのヌクレオチド組成物は、ビンのGC含量gijの観察値で説明される。サンプル特異的GC含量プロファイルgの観察値は、個々のビン特異的GC含量をベクターに集める。
いくつかの実施形態において、g≠gおよびgi1≠gi2≠i1。記号gは、その起源に関わらず、GC含量プロファイルを示し、すなわち、参照ゲノムから得られ、またはサンプル特異的リードアライメントから得られる。いくつかの実施形態において、各式モデルはgを使用する。いくつかの実施形態において、実際の実行は、gをgまたはgのいずれかで置換することができる。
単一のサンプルiにおいて、mと、gとの線形関係をGおよびrを用いて仮定し、それぞれ、回帰線のサンプル特異的な傾きおよび残りのアレイを示す:
回帰を、全体のセットB(式D)、またはその妥当なサブセットb(式F)に拡大することができる。傾きの観察値Gは、拡大縮小されたGCバイアス係数とも呼ばれる。Gは、サンプルiの体系的GCバイアスへの脆弱性のバルクを表す。いくつかの実施形態において、モデルパラメータの数を最小にするため、関係m(g)の曲率と関連し、かつ残りrに包含される高次項は、明示的に対応されない。いくつかの実施形態において、サンプル特異的カウントNの合計は、異なるサンプルで記録された観察値間の相互作用を混乱させ、Mをgに関連づける拡大縮小していないGの等価物はあまり有用ではなく、考慮に入れないだろう。
真の染色体上昇lijのベクターは、サンプルiのビン
に対応するが、サンプル特異的染色体上昇プロファイルを形成する:
いくつかの実施形態において、lの推定値を、mからmに存在する体系的バイアスを除去することにより得ることが目的である。
各値lijは、ビン特異的であり、サンプル特異的でもある。これらは、母体および胎児の両方の寄与を構成し、各倍数性P ijおよびP ijに比例する。
ビン特異的およびサンプル特異的倍数性Pijを、1/2の整数倍として、それぞれ正倍数体、ヘテロ接合欠失、ホモ接合欠失、ヘテロ接合重複、およびホモ接合重複を表す1、1/2、0、3/2、および2の値を用いて定義することができる。いくつかの例において、所与の染色体のトリソミーは、染色体全体またはその実質的な部分に沿って、3/2の倍数性値を意味する。
母親および胎児の両方が2倍体(P ij=P ij=1)であるときに、lijは、一部の任意に選択された正倍数体上昇Eに等しい。いくつかの実施形態において、簡便な選択として、Eを
に設定し、したがって、確実にプロファイルlを正規化する。ビン選択が存在しない場合、
である。いくつかの実施形態において、Eは、視覚化のため1に設定することができる。いくつかの実施形態において、以下の関係を満たす:
記号fは、サンプルiの母体血漿からの細胞非含有血中DNAに存在する胎児DNAの画分を表す。胎児(P ij≠1)または母体(P ij≠1)のいずれかの正倍数性からの任意の偏差は、lijとfを推定するために利用することができるEとの差を生じ、微小欠失/微小重複またはトリソミーを検出する。
をmから抽出するために、線形関係が、所与のサンプルで測定された、ビン特異的に拡大縮小された未処理カウントmijと、サンプル特異的に拡大縮小されたGCバイアス係数との間で想定される:
対角マトリクスIおよびベクターSは、式Nに要約される線形式のセットのビン特定的な切片および傾きを集める:
IおよびSはともに、サンプル非依存性である。切片Iは、GCバイアスが存在しない場合(すなわち、G=0のとき)に、拡大縮小された未処理カウントの正倍数体期待値として見なすことができる。
これらの実際の値は、Eに採用された慣例を反映する(上記参照)。切片Sは、差
に関連して非線形であり、式中、
は、ビンjを含有する染色体のGC含量の中央値を表す。
パラメータIおよびSの値がわかると、実際の染色体上昇プロファイルlは、拡大縮小された未処理カウントプロファイルm、および拡大縮小されたGCバイアス係数Gから、式Nを再配列することにより推定される:
切片マトリクスIの対角文字が、式Qのマトリクス逆関数を行う。
パラメータの推定
モデルパラメータIおよびSを、正倍数体の妊娠として核型化されたサンプルにおいて採取されたNスケールの未処理カウントプロファイルのセットから評価する。Nは10桁のものである。拡大縮小されたGCバイアス係数Gは、各サンプル(i=1、...、N)において決定される。全てのサンプルを、これらのG値のサイズおよび記号に従い少数のクラスに分離する。層化は、各シェル内のG値を表す十分な数と十分に小さい範囲を含む相反する要求のバランスをとる。4層の妥協案として、陰性、ほぼゼロ、やや陽性、および極めて陽性のGCバイアスに調整し、ほぼゼロのシェルが最も密度が集中している。各層からのサンプルの画分(典型的には10%)を、無作為に選択し、交差検証のために取っておくことができる。残りのサンプルは、モデルの訓練に使用されるワークセットを作製する。訓練および続く交差検証はともに、ゲノム全体に沿って、全てのサンプルに母体および胎児欠失または重複が含まれないことを仮定する:
大量のサンプルにより、仮定値Rからの母体偏差の偶然値が相殺される。各ビンjにおいて、lijを、Eに設定し、切片Iおよび傾きSを、式Nに従い、訓練に適用した線形回帰の係数として評価することを可能にする。IおよびSにおける不確定要素の推定値を同様に記録する。
該当機能および交差検証サブセットへの無作為の区分を、複数回(例えば、10回)繰り返し、IおよびSパラメータの値の分布を生成する。いくつかの実施形態において、無作為の区分を約10〜約10回繰り返す。いくつかの実施形態において、無作為の区分を、約10、約10、約10、約10または約10回繰り返す。
交差検証
ワークセットから得られると、モデルパラメータIおよびSを使用し、拡大縮小した未処理カウントを拡大縮小したGCバイアス係数から式Nおよび仮定値Rを使用して逆算出する。記号pijは、サンプルiのビンbにおける拡大縮小した未処理カウントの予測値を示す。さらに明細書内のインデックスWおよびCVは、それぞれワークサブセットおよび交差検証サブセットを表す。逆算出を全てのサンプルに、WおよびCVの両方から適用する。結晶学的構造の改善された法から取り入れたR因子(Brunger,Free R value:a novel statistical quantity for assessing the accuracy of crystal structures,Nature355,472−475(30 January 1992);doi:10.1038/355472a0)をサンプルの2つのサブセットにおいて個別に定義する:
R因子はともにビン特異的である。結晶学と同じく、R因子16〜17を、モデルの残りの相対的誤差として解釈することができる。パラメータの推定から除外しているので、交差検証R因子RCV は、所与のW/CV除算における誤差の実際の測定値を提供するが、R CVとR との差は、ビンjにおけるモデルバイアスを反映する。R値の個々の対を、各ビンにおいて、およびサンプルのセットをWおよびCVに無作為に区分するために評価する。全てのRCV およびR の最大値は、WおよびCVへの異なる無作為の区分において得られるが、ビンjをその全体のモデル誤差εに割り当てる。
ビン選択
ゼロのGC含量g の全てのビンを、大量のサンプル全体に一貫してゼロカウントとなるビンのセット
であるとしてさらなる考慮から排除する。さらに、交差検証許容誤差値εの最大値を、全てのビンに重ねることができる。いくつかの実施形態において、モデル誤差εが上限εを超えるビンを拒絶する。いくつかの実施形態において、フィルタリングはビンマッピング性のスコア
を使用し、マッピング性の許容値μの最小値に重ね、μ<μのビンを拒絶する(Derrien T,Estelle’J,Marco Sola S,Knowles DG,Raineri E,ら、(2012)Fast Computation and Applications of Genome Mappability.PLoS ONE7(1):e30377,doi:10.1371/journal.pone.0030377)。第21番染色体、第18番染色体および第13番染色体の胎児トリソミーを決定するために、性染色体を同様に除外することができる。ビン選択の相の全てを存続させるビンのサブセットβにさらに演算を行うことができる。いくつかの実施形態において、同じサブセットβを全てのサンプルに使用する。
正規化および標準化
いくつかの実施形態において、所与のサンプルiにおいて、ビン選択βに対応する染色体上昇lijを式Qに従い推定する。いくつかの実施形態において、第2の正規化を適用し、lij対GC含量の相関からの任意の曲率を除去する。いくつかの実施形態において、lijは、すでにほぼバイアスされておらず、第2の傾向変動を除去することは確実であり、誤差ブースティングに影響されない。いくつかの実施形態において、標準的なテキストブック法で十分である。
いくつかの実施形態において、正規化の結果を各染色体内で合計する:
サンプルiの常染色体材料の合計を個々のLin項全ての合計として評価することができる:
目的の各染色体の染色体表現を、LinをLで除算することにより得ることができる:
染色体nの表現の分散性σを、複数のフローセルに及ぶサンプルの選択全体のMADの無修正値χinとして推定することができる。いくつかの実施形態において、期待値
は、試験サンプルと同じフローセルからのサンプルの選択に対応するχinの中央値として評価する。サンプル選択はともに、高値の陽性対照、低値の陽性対照、高値の陰性対照、空白、QC基準を満たさないサンプル、およびSD(l)が予め定義されたカットオフ(典型的に0.10)を超えるサンプルを除外することができる。合わせて、σ値および
は、Zスコアを使用して、異なるサンプル間の染色体表現の標準化および比較のためのコンテキストを提供する:
いくつかの実施形態において、トリソミー13、18、および21などの異常を、所望の信頼水準により決定される、予め定義された値を超えるZ値により示す。
実施例6:式の例
本明細書に記載の方法に使用することができる数学的および/または統計学的式の非限定的例を以下に記載する。
実施例7:上昇の同定および調節(パディング)
母体の欠失および重複は、多くの場合、プロファイルの第1の上昇として表されるが、T21、T18、またはT13を検出するときに分散性を減少させるためPERUNを用いて正規化されたカウントプロファイルから除去することができる。プロファイルからの欠失および重複の除去は、母体異常を由来とする染色体表現の測定値に見つかる分散性(例えば、生物学的分散性)を減少させることができる。
1の染色体上昇期待値から顕著に逸脱する全てのビンを最初に同定する。本実施例において、いくつかの単離されたビンを選択から除去する。これは任意選択とする。本実施例において、連続のビン外れ値の十分に大きなグループのみを維持する。これも任意選択とする。ビン外れ値に割り当てられた上昇または連続のビン外れ値のグループに応じて、補正因子を上昇測定値に加算し、1の上昇期待値に近づけるよう調節する。本実施例で使用されるPAV値は+1(ホモ接合の母体欠失)、+0.5(ヘテロ接合の母体欠失)、−0.5(ヘテロ接合重複)、−1(ホモ接合重複)、またはそれ以上(大きなスパイク)である。大きなスパイクは、多くの場合、母体欠失および重複として同定されない。
このパディング法により、大きな母体異常を含有するサンプルにおける分類(例えば、異数性、例えば、トリソミーとしての分類)を補正した。パディングにより、Chr4の大きな母体欠失を除去するため、WIサンプルを偽陽性T13から真性陰性に変換した(図112〜115)。
実験データの過去のシミュレーションは、染色体、胎児画分、および異常の種類(ホモ接合またはヘテロ接合、重複または欠失)に応じて、20〜40ビン長の母体異常が、分類の端(例えば、閾)全体のZ値を推し進め、偽陽性または偽陰性を生じ得ることを示している。パディング(例えば、調節)はこの危険を回避することができる。
このパディング法により、目的でない母体異常(混乱因子)を除去し、正倍数体の分散性を減少させ、Zスコアを標準化するために使用されるシグマ値をより厳密に作製することができ、それゆえ、正倍数体とトリソミーの例とのギャップを拡大させることができる。
実施例8:母体および/または胎児コピー数多型からの胎児画分の決定
本明細書に記載の方法の際立った特徴は、胎児(例えば、正倍数体の胎児)を妊娠している妊娠女性の例において、母体異常(例えば、母体および/または胎児コピー数多型)を、胎児画分を確認するプローブとして使用することである。母体異常の検出および定量化は、典型的に、未処理カウントの正規化の助けを借りてなされている。本実施例において、未処理カウントを、PERUNを使用して正規化する。代替えとして、参照中央カウントプロファイルに対する正規化を、同じ方法で、および同じ目的において使用することができる。
未処理カウントのPERUN正規化により、サンプル特異的ビンワイズ染色体レベルlij(iはサンプルをカウントし、jはビンをカウントする)を生成する。これらが母体および胎児の両方の寄与を構成し、それぞれの倍数性P ijとP ijに比例する。
ビン特異的およびサンプル特異的倍数性Pijを、1/2の整数倍として、それぞれ、正倍数性、ヘテロ接合欠失、ホモ接合欠失、ヘテロ接合重複、およびホモ接合重複を表す値の1、1/2、0、3/2、および2を用いて定義する。具体的に、所与の染色体のトリソミーは、染色体全体またはその実質的な部分に沿って、3/2の倍数性の値となる。
母親および胎児の両方が2倍体(P ij=P ij=1)であるときに、lijは、いくつかの任意に選択された正倍数体のレベルEに等しい。簡便な選択により、Eを
に設定し、式中、bは全てのビンのセット(B)の妥当または明白なサブセットを表す。したがって、確実にプロファイルlを正規化する。ビン選択が存在しない場合は、
である。代替えとして、および優先的には、Eは、視覚化のため1に設定され得る。一般に、以下の関係を満たす:
記号fは、サンプルiの母体血漿からの細胞非含有血中DNAに存在する胎児DNAの画分を表す。胎児(P ij≠1)または母体(P ij≠1)のいずれかの正倍数性からの任意の偏差は、lijと、fを推定し、かつ微小欠失/微小重複またはトリソミーを検出するために利用することができるEとの間の差を生じる。
異なる4種の母体異常を個別に考慮に入れる。胎児が母体異常を受け継ぐ可能性がある(またはホモ接合の場合、受け継がなければならない)場合、4種全てが、考えられる胎児遺伝子型において説明される。さらに、胎児は、同様に父親から一致する異常を受け継ぐ可能性がある。一般に、胎児画分は、P ij≠P ijのときにのみ測定され得る。
A)ホモ接合の母体欠失(P ij=0)。2つの考えられる、随伴する胎児倍数性は以下を含む:
a.P ij=0、この場合、lij=0、および胎児画分は、欠失から評価することができない
b.P ij=1/2、この場合、lij=f/2、および胎児画分は、欠失内の平均上昇の2倍として評価される。
B)ヘテロ接合の母体欠失(P ij=1/2)。3つの考えられる、随伴する胎児倍数性は以下を含む:
a.P ij=0、この場合、lij=(1−f)/2、および胎児画分は、1/2と、欠失内の平均上昇との差の2倍として評価される
b.P ij=1/2、この場合、lij=1/2、および胎児画分は、欠失から評価することができない
c.P ij=1、この場合、lij=(1+f)/2、および胎児画分は、1/2と、欠失内の平均上昇との差の2倍として評価される。
C)ヘテロ接合の母体重複(P ij=3/2)、3つの考えられる、随伴する胎児倍数性は以下を含む:
a.P ij=1、この場合、lij=(3−f)/2、および胎児画分は、3/2と、重複内の平均上昇との差の2倍として評価される
b.P ij=3/2、この場合、lij=3/2、および胎児画分は重複から評価することができない
c.P ij=2、この場合、lij=(3+f)/2、および胎児画分は、3/2と、重複内の平均上昇との差の2倍として評価される。
D)ホモ接合の母体重複(P ij=2)、2つの考えられる、随伴する胎児倍数性は以下を含む:
a.P ij=2、この場合、lij=2、および胎児画分は、重複から評価することができない
b.P ij=3/2、この場合、lij=2−f/2、および胎児画分は、2と、重複内の平均上昇との差の2倍として評価される。
以下のLDTv2CEサンプル(図116〜131)は、母体および/または胎児のコピー数多型から胎児画分を決定する用途について図示する。患者は、無作為に選択されておらず、FQA胎児画分値との何らかの一致は、いずれかの技法の長所の尺度として解釈されるものではない。
実施例9:実施形態の実施例
以降に、本技術の特定の実施形態の非限定的な例を挙げる。
A0.染色体異常断片もしくは胎児異数性または両方の有無を検出する方法であって、以下を含む方法:
(a)試験被験体から、循環無細胞核酸を含むサンプルを得、
(b)サンプルから細胞非含有サンプル核酸を単離し、
(c)細胞非含有サンプル核酸から配列リードを得、
(d)ゲノム片に分割されている既知のゲノムに、(c)で得られた配列リードをマッピングし、
(e)ゲノム片内にマッピングされた配列リードをカウントし、
(f)(e)で得られたゲノム片におけるカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(g)(f)のサンプル正規化されたカウントプロファイルから、染色体異常断片もしくは胎児異数性または両方の有無を決定する。
A0.1.試験被験体が、ヒト、動物、および植物から選択される、実施形態A0の方法。
A0.2.ヒト試験被験体が、女性、妊娠女性、男性、胎児、または新生児を含む、実施形態A0.1の方法。
A0.3.(f)が、標準偏差の二乗の逆関数を使用して、(e)で得られたゲノム片におけるカウントを重み付けすることを含む、実施形態A0〜A0.2のいずれか1つの方法。
A1.染色体異常断片もしくは胎児異数性または両方の有無を検出する方法であって、以下を含む方法:
(a)試験被験体から血中細胞非含有サンプル核酸の配列リードを得、
(b)ゲノム片に分割されている既知のゲノムに、(a)で得られた配列リードをマッピングし、
(c)ゲノム片内にマッピングされた配列リードをカウントし、
(d)(c)で得られたゲノム片におけるカウントを正規化することにより、サンプル正規化されたカウントプロファイルを作製し、
(e)(d)のサンプル正規化されたカウントプロファイルから、染色体異常断片もしくは胎児異数性または両方の有無を決定する。
A1.01.染色体異常断片もしくは胎児異数性または両方の有無を検出方法であって、以下を含む方法:
(a)参照ゲノムのゲノム片にマッピングされた試験被験体から、血中細胞非含有サンプル核酸の配列リードを得、
(b)ゲノム片について配列リードのカウントを正規化することにより、サンプル正規化されたカウントプロファイルを作製し、
(c)(b)のサンプル正規化されたカウントプロファイルから、染色体異常断片もしくは胎児異数性または両方の有無を決定する。
A1.1.細胞非含有サンプル核酸が、試験被験体から得られた血液から単離される、実施形態A0〜A1.01のいずれか1つの方法。
A1.2.細胞非含有サンプル核酸が、試験被験体から得られた血清から単離される、実施形態A0〜A1.01のいずれか1つの方法。
A1.3.細胞非含有サンプル核酸が、試験被験体から得られた血漿から単離される、実施形態A0〜A1.01のいずれか1つの方法。
A1.4.試験被験体が、ヒト、動物、および植物から選択される、実施形態A1またはA1.01の方法。
A1.5.ヒト試験被験体が、女性、妊娠女性、男性、胎児、または新生児を含む、実施形態A1.4の方法。
A1.6.(d)が、標準偏差の二乗の逆関数を使用して、(c)で得られたゲノム片におけるカウントを重み付けすることを含む、実施形態A1〜A1.5のいずれか1つの方法。
A2.細胞非含有サンプル核酸の配列リードがポリヌクレオチドフラグメントの形態である、実施形態A1〜A1.6のいずれか1つの方法。
A2.1.ポリヌクレオチドフラグメントが、約20〜約50ヌクレオチド長である、実施形態A2の方法。
A2.2.ポリヌクレオチドが、約30〜約40ヌクレオチド長である、実施形態A2.1の方法。
A3.既知のゲノムが、共通のサイズを共有するゲノム片に分割される、実施形態A1の方法。
A4.(c)が、(b)のゲノム片にマッピングされた冗長な配列リードを除去した後に行われる、実施形態A1〜A3のいずれか1つの方法。
A5.サンプル正規化されたカウントプロファイルが、サンプル未処理カウントプロファイルを参照中央カウントプロファイルに対して正規化することにより作製される、実施形態A1〜A4のいずれか1つの方法。
A5.1.サンプル未処理カウントプロファイルがゲノムまたはその断片全体のカウント測定値の分布を表すサンプル測定カウントプロファイルを構築することにより作製される、実施形態A5の方法。
A6.さらに、ゲノムまたはその断片全体に非冗長にマッピングされたカウントの合計数に対して、サンプル測定カウントプロファイルを正規化し、それによりサンプル未処理カウントプロファイルを作製することを含む、実施形態A5またはA5.1の方法。
A7.参照中央カウントプロファイルが以下を含むプロセスにより作製される、実施形態A3の方法:
(i)複数の参照被験体からの血中細胞非含有参照サンプル核酸から、配列リードを得、
(ii)ゲノム片に分割されている既知のゲノムに(i)で得られた配列リードをマッピングし、
(iii)ゲノム片内にマッピングされた配列リードをカウントし、
(iv)(iii)のカウントから未処理カウントプロファイルを作製し、
(v)参照サンプルの中央値カウントがゼロのゲノム断片を除去し、
(vi)ゲノム断片における中央値カウントおよび不確定要素を決定し、この場合、(i)〜(vi)を行うことにより、参照中央カウントプロファイル、不確定要素プロファイルおよび/または断片識別子を作製する。
A7.1.参照被験体が、ヒト、動物、および植物から選択される、実施形態A7の方法。
A7.2.ヒト参照被験体が、女性、妊娠女性、男性、胎児、または新生児を含む、実施形態A7.1の方法。
A7.3.参照被験体の妊娠女性が、染色体異常がない胎児および/または正倍数体であることが知られている胎児を妊娠している、実施形態A7.2の方法。
A8.(iii)の後に不確定要素のカットオフを選択することを含む、実施形態A7〜A7.3のいずれか1つの方法。
A8.1.不確定要素のカットオフが以下を含むプロセスにより得られる、実施形態A8の方法:
(iv)で作製されたプロファイルの標準偏差を算出し、
選択された信頼区間に等しい定数を、プロファイルの標準偏差に乗算し、
それにより、不確定要素のカットオフにおける値を作製する。
A8.2.不確定要素のカットオフが以下を含むプロセスにより得られる、実施形態A8の方法:
(iv)で作製されたプロファイルの中央絶対偏差を算出し、
選択された信頼区間に等しい定数を、プロファイルの中央絶対偏差に乗算し、
それにより不確定要素のカットオフにおける値を作製する。
A8.3.不確定要素のカットオフを超える値を含む任意のゲノム片を除去する、実施形態A8〜A8.2のいずれか1つの方法。
A8.4.選択された信頼区間を表す定数が、信頼区間のカットオフとして選択された標準偏差の数に等しい、実施形態A8.2またはA8.3の方法。
A8.5.定数が2であり、この定数が2標準偏差を表す、実施形態A8.4の方法。
A8.6.定数が3であり、この定数が3標準偏差を表す、実施形態A8.4の方法。
A9.(vi)の後に不確定要素のカットオフを超えるカウント不確定要素を含む断片を除去することを含む、実施形態A7〜A8.6のいずれか1つの方法。
A10.参照中央カウントプロファイルが、ゲノムまたはその断片全体の参照測定カウントの分布を表す参照測定カウントプロファイルを構築することにより作製される、実施形態A7〜A9のいずれか1つの方法。
A11.サンプル正規化されたカウントプロファイルが、ゲノム断片を、(v)の参照サンプルカウントプロファイルから除去されたサンプル未処理カウントプロファイルから除去し、(vi)で作製された不確定要素を割り当て、参照中央カウントプロファイルに残る断片のカウントの和に対して各残りの断片におけるサンプルカウント測定値を正規化することにより各ゲノム片において作製される、実施形態A7〜A10のいずれか1つの方法。
A12.胎児の染色体異常断片もしくは胎児異数性または両方を検出する予測値を含むサンプルプロファイルピークを、以下を含むプロセスによりゲノムの位置にて同定する、実施形態A1〜A11のいずれか1つの方法:
ピークを含む、(iv)で作製された正規化されたカウントプロファイルを評価する信頼水準を選択し、
ピークを評価するゲノム断片長の最大値を選択し、
ゲノム内の位置の種々の長さのゲノム断片において、ピーク上昇および/またはピーク幅を評価し、
それにより、胎児の染色体異常断片もしくは胎児異数性または両方を検出する予測値を含むピークが、ゲノムの位置にて信頼水準を用いて検出される。
A12.1.選択された信頼水準が95%である、実施形態A12の方法。
A12.2.選択された信頼水準が99%である、実施形態A12の方法。
A12.3.信頼水準が、カウント測定値の品質に基づき選択される、実施形態A12〜A12.2のいずれか1つの方法。
A12.4.ピークを評価するゲノム断片長の最大値が1つまたはそれより多いゲノム断片またはその部分を含む、実施形態A12の方法。
A13.さらに、以下を含む、実施形態A12〜A12.4のいずれか1つの方法:
ゲノムの位置を選択し、
ピークを含むp値プロファイルを作製し、
選択された信頼水準以下のp値を含むゲノム断片を除去し、
異なる長さの冗長な、および/またはオーバーラップする断片を除去し、
ピーク端の位置およびそれらの関連の不確定要素を決定し、
無作為に選択されたサンプル間で共通して見つかるピークを同定し、場合により除去し、
それにより、胎児の染色体異常断片もしくは胎児異数性または両方を検出する予測値を含むピークを、ゲノムの位置内に検出する。
A13.1.異なる長さの冗長な、および/またはオーバーラップする断片の部分を除去する、実施形態A13の方法。
A13.2.異なる長さの冗長な、および/またはオーバーラップする断片全てを除去する。実施形態A13の方法。
A14.p値プロファイルが、以下を含むプロセスにより作製される、実施形態A13〜A13.2のいずれか1つの方法:
評価のためにゲノムの所望の位置を選択し、
所望のゲノム断片長を選択し、
ゲノムの位置における平均プロファイル上昇およびサンプル正規化されたカウントプロファイル内の平均値の関連誤差を評価し、
p値を、選択されたゲノム断片に割り当て、
それによりp値プロファイルが作製される。
A14.1.選択されたゲノム断片に割り当てられたp値を、式
に従い算出し、式中、xおよびxは平均の値を表し、nおよびnはサンプルサイズを表し、σおよびσは標準偏差を表す、実施形態A14の方法。
A15.p値を、選択されたゲノム断片に割り当てることは、さらに以下を含む、実施形態A14またはA14.1の方法:
(1)開始断片を選択し、
(2)ゲノムの選択された位置における平均の上昇および平均値の標準誤差を決定し、
(3)平均の断片上昇および平均値の対応する標準誤差を評価し、
(4)ゲノムの選択された位置における平均の上昇に対して、および/または所定の上昇値に対してZ値を評価し、
(5)1つまたはそれより多い開始断片および/または断片長において1〜4を繰り返し、
(6)選択された開始断片のそれぞれの断片長全体および/または各断片長に対してt検定を行い、
それにより、p値が選択されたゲノム断片に割り当てられる。
A15.1.Z値を、式
を使用して算出し、式中、Nおよびnは染色体全体の、および異常の範囲内のビンの数を指し、σおよびσは標準偏差を表し、Δは被験体1の遺伝的変異の領域の平均の上昇と、被験体1の対応する染色体の平均の上昇との差を表し、Δは被験体2の遺伝的変異の領域の平均の上昇と、被験体2の対応する染色体の平均の上昇との差を表す、実施形態A15の方法。
A15.2.所定の値が1に等しい、実施形態A15の方法。
A15.3.所定の値が1未満である、実施形態A15の方法。
A15.4.所定の値が1より大きい、実施形態A15の方法。
A16.自己相関における任意選択の補正を含む、実施形態A15〜A15.4のいずれか1つの方法。
A17.共通に見つかるピークは、以下を含むプロセスにより同定される、実施形態A13の方法:
同じまたは同様の条件下において測定された複数のサンプルから、細胞非含有サンプル核酸リードを得、
試験サンプルのセットを選択し、
ピークを含む参照中央カウントプロファイルを作製し、
試験サンプルのセットのサンプル間に共通して見つかるピークを同定する。
A17.1.複数のサンプルを無作為に選択する、実施形態A17の方法。
A17.2.試験サンプル間に共通して見つかるピークを同定することは、以下を含む、実施形態A17およびA17.1の方法:
ピークを含む参照中央カウントプロファイル、ピークを含むZ値プロファイル、ピークを含むp値プロファイル、またはそれらの組み合わせを比較し、
各サンプルにおいて共通して同定されたピークを同定する。
A18.以下を含むプロセスにより、ピーク端の位置、ピーク片側公差および関連の不確定要素を決定することを含む、実施形態A1〜A17.2のいずれか1つの方法:
ピークを含むサンプル正規化されたカウントプロファイルおよび/またはピークを含む参照中央カウントプロファイルの1つまたはそれより多い領域を選択し、
正規化プロファイルの第1の導関数および/またはその指数を決定し、
ピーク導関数を特徴付け、
それにより、プロセスは、胎児の染色体異常断片もしくは胎児の異数性または両方を検出する予測値を含む、ピーク最大値の導関数およびピーク幅の導関数を作製する。
A19.2つのサンプルが同じドナーからのものであるかを決定する方法であって、以下を含む方法:
1つまたはそれより多いドナーのサンプルからの血中細胞非含有サンプル核酸から配列リードを得、
ゲノム片に分割されている既知のゲノムに、得られた配列リードをマッピングし、
ゲノム片内にマッピングされた配列リードをカウントし、
ピークを含む正規化されたカウントプロファイルを作製し、
各サンプル内の予測値を含む正規化されたカウントプロファイルのピークを同定し、
1サンプルのピークと、別のサンプルのピークを比較し、
ピーク対の一致に基づき、結合確率を評価し、
サンプルが同じドナーからのものである確率を決定し、
それにより、サンプルが同じドナーからのものである確率に対して決定がなされる。
A20.さらに、以下のプロセスの1つ以上を使用して、1サンプルのピークと別のサンプルのピークを比較することを含む、実施形態A19の方法:
ピーク幅の導関数を使用して、ピークの端が、片側公差内で一致するかを決定し、
ピーク最大値の導関数を使用して、ピーク上昇が、平均値の標準誤差内で一致するかを決定し、
所与のピークの集団の広がりにおいてp値を調節し、
それにより、プロセスの1つ以上を行うことにより、サンプルが同じドナーからのものであるかを決定する。
A21.ピーク上昇が、平均値の標準誤差内で一致するかどうかを決定することが、さらにt検定を使用することを含む、実施形態A20の方法。
A22.t検定が式
に従い算出され、式中、xおよびxは平均の値を表し、nおよびnはサンプルのサイズを表し、σおよびσは標準偏差を表す、実施形態A20およびA21の方法。
A23.中央カウントプロファイルの上昇を使用して、正倍数体または異数体としてサンプルを分類する方法であって、以下を含む方法:
循環無細胞核酸を含む試験被験体からサンプルを得、
サンプルから、細胞非含有サンプル核酸を単離し、
単離された細胞非含有サンプル核酸から、配列リードを得、
ゲノム片に分割されている既知のゲノムに、得られた配列リードをマッピングし、
ゲノム片内にマッピングされた配列リードをカウントし、
カウントされ、マッピングされた配列リードから、ゲノム片上昇を選択したカウントプロファイルの中央値および関連の不確定要素を含む正規化されたカウントプロファイルを得、
評価のためのゲノムの位置を選択し、
ゲノムの位置におけるプロファイル上昇の中央値および関連の不確定要素を評価し、
上昇中央値が所定の値を顕著に超えるかどうかを決定し、
それにより、上昇中央値が所定の値を顕著に超えるかどうかを決定することにより、サンプルが正倍数体または異数体であるかを決定する。
A23.1.所定の値が1に等しい、実施形態A23の方法。
A23.2.所定の値が1未満である、実施形態A23の方法。
A23.3.所定の値が1より大きい、実施形態A23の方法。
A24.ゲノムの位置内の予測値を含む、正規化されたカウントプロファイルピークの上昇を同定し、同定された場合、ゲノムの位置におけるプロファイル上昇の中央値および関連の不確定要素を評価する前に、母体、胎児、および/または母体および胎児の欠失および/または重複において補正することを含む、実施形態A23〜A23.3のいずれか1つの方法。
A25.以下を含む予測値を含むピークの面積比を使用して、正倍数体または異数体としてサンプルを分類する方法:
循環無細胞核酸を含む試験被験体から、サンプルを得、
サンプルから、細胞非含有サンプル核酸を単離し、
単離された細胞非含有サンプル核酸から、配列リードを得、
ゲノム片に分割されている既知のゲノムに配列リードをマッピングし、
ゲノム片内にマッピングされた配列リードをカウントし、
選択されたゲノム片におけるカウントの分布を含む正規化されたカウントプロファイルを得、
評価のためのゲノムの位置を選択し、
予測値を含むピークのための選択された位置およびピークに関連の面積比を評価し、
ピークにおける面積比が所定の値に対して有意に異なるかどうかを決定し、
それにより、ピークにおける面積比が所定の値を顕著に超えるかどうかを決定することにより、サンプルが正倍数体または異数体であるかを決定する。
A25.1.所定の値が1に等しい、実施形態A25の方法。
A25.2.所定の値が1未満である、実施形態A25の方法。
A25.3.所定の値が1より大きい、実施形態A25の方法。
A26.ゲノムの位置内のピーク面積比を同定し、同定された場合、ゲノムの位置においける予測値を含むピークの面積比を評価する前に母体もしくは胎児、または母体および胎児の欠失および/または重複を補正することを含む、実施形態A25の方法。
A27.複数の分類基準を組み合わせることにより正倍数体または異数体としてサンプルを分類する方法であって、以下を含む方法:
試験被験体および複数の既知の正倍数体参照被験体から、循環無細胞核酸を含むサンプルを得、
サンプルから、細胞非含有サンプル核酸を単離し、
単離された細胞非含有サンプル核酸から配列リードを得、
ゲノム片に分割されている既知のゲノムに、得られた配列リードをマッピングし、
ゲノム片内にマッピングされた配列リードをカウントし、
試験および参照被験体におけるカウントから正規化されたカウントプロファイルを得、
評価のためのゲノムの位置を選択し、
複数の分類基準を使用して、正倍数体の参照のゲノムの選択された位置を評価し、
正倍数体が分布するのみの最小のN次元空間を決定し、
複数の分類基準を使用して試験被験体のゲノムの位置を評価し、
試験被験体のN次元点が、正倍数体が分布するのみの空間内にあるかどうかを決定し、
それにより、試験被験体のN次元点が、正倍数体が分布するのみの空間にあるかどうかを決定することにより、試験被験体が正倍数体または異数体であるかどうかを決定する。
A28.正倍数体におけるN次元空間および試験被験体におけるN次元点を、プロファイル上昇の中央値、面積比、Z値、フィットさせた倍数性、フィットさせた胎児画分、残差二乗和、およびベイジアンp値から選択された1つまたはそれより多い分類基準を使用して評価する、実施形態A27の方法。
A29.配列リードを得ることは、細胞非含有サンプル核酸に核酸シークエンシングプロセスを行うことを含む、A1〜A28のいずれか1つの方法。
A30.シークエンシングプロセスが、ナノポアシークエンシング、合成によるシークエンシング、パイロシークエンシング、PCRシークエンシング、ジデオキシシークエンシング、またはそれらの組み合わせから選択される方法を含む、実施形態A29の方法。
A31.染色体異常断片もしくは胎児異数性または両方の有無を決定することは、成果のグラフ、成果のレポート、成果を含む電子ファイル、成果の2次元表示、成果の3次元表示、またはそれらの組み合わせを医療専門家に提供することを含む、実施形態A0〜A30のいずれか1つの方法。
A32.医療専門家が、実施形態A31で提供された成果に基づき提言を提供する、A31の実施形態。
A33.内蔵のコンピュータ読み取り可能なプログラムコードを有するコンピュータ使用可能な媒体、配列受信モジュールを含む個別のソフトウェアモジュールを含むコンピュータ読み取り可能なプログラムコード、ロジック処理モジュールおよびデータ表示組織化モジュール含むコンピュータプログラム製品であって、コンピュータ読み取り可能なプログラムコードが染色体異常断片もしくは胎児異数性または両方の有無を同定する方法を実行するよう、実行に適合し、方法が以下を含む、コンピュータプログラム製品:
(a)配列受信モジュールにより、試験被験体から、血中細胞非含有サンプル核酸の配列リードを得、
(b)ロジック処理モジュールにより、(a)で得られた配列リードを、ゲノム片に分割されている既知のゲノムにマッピングし、
(c)ロジック処理モジュールにより、ゲノム片内にマッピングされた配列リードをカウントし、
(d)ロジック処理モジュールにより、(c)で得られたゲノム片におけるカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(e)ロジック処理モジュールにより、(d)のサンプル正規化されたカウントプロファイルから、染色体異常断片もしくは胎児異数性または両方の有無を決定し、
(f)ロジック処理モジュールにより決定されたことに対してデータ表示組織化モジュールにより、染色体異常断片もしくは胎児異数性または両方の有無を示すデータ表示を組織化する。
A34.実施形態A33のコンピュータプログラム製品を格納するメモリを含む、装置。
A35.実施形態A33に明記されたコンピュータプログラム製品の1つまたはそれより多い機能を実行するプロセッサを含む、実施形態A34の装置。
A36.核酸シークエンシング装置および処理装置を含むシステムであって、シークエンシング装置がサンプルから配列リードを得、処理装置がシークエンシングデバイスから配列リードを得、以下を含む方法を行うシステム:
(a)試験被験体から、血中細胞非含有サンプル核酸の配列リードを得、
(b)ゲノム片に分割されている既知のゲノムに、(a)で得られた配列リードをマッピングし、
(c)ゲノム片内にマッピングされた配列リードをカウントし、
(d)(c)で得られたゲノム片におけるカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(e)(d)のサンプル正規化されたカウントプロファイルから、染色体異常断片もしくは胎児異数性または両方の有無を決定する。
B0.遺伝的変異の有無を検出する方法であって、以下を含む方法:
(a)試験被験体から、核酸を含むサンプルを得、
(b)サンプルから、サンプル核酸を単離し、
(c)サンプル核酸から、配列リードを得、
(d)ゲノム片に分割されている既知のゲノムに、(c)で得られた配列リードをマッピングし、
(e)ゲノム片内にマッピングされた配列リードをカウントし、
(f)(e)で得られたゲノム片におけるカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(g)(f)のサンプル正規化されたカウントプロファイルから、遺伝的変異の有無を決定する。
B0.1.試験被験体が、ヒト、動物、および植物から選択される、実施形態B0の方法。
B0.2.ヒト試験被験体が、女性、妊娠女性、男性、胎児、または新生児を含む、実施形態B0.1の方法。
B0.3.(f)が、標準偏差の二乗の逆関数を使用して、(e)で得られたゲノム片におけるカウントを重み付けすることを含む、実施形態B0〜B0.2のいずれか1つの方法。
B1.遺伝的変異の有無を検出する方法であって、以下を含む方法:
(a)試験被験体から、サンプル核酸の配列リードを得、
(b)ゲノム片に分割されている既知のゲノムに、(a)で得られた配列リードをマッピングし、
(c)ゲノム片内にマッピングされた配列リードをカウントし、
(d)(c)で得られたゲノム片におけるカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(e)(d)のサンプル正規化されたカウントプロファイルから、遺伝的変異の有無を決定する。
B1.01.遺伝的変異の有無を検出する方法であって、以下を含む方法:
(a)参照ゲノムのゲノム片にマッピングされた試験被験体から、血中細胞非含有サンプル核酸の配列リードを得、
(b)ゲノム片について配列リードのカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(c)(b)のサンプル正規化されたカウントプロファイルから、遺伝的変異の有無を決定する。
B1.1.サンプル核酸が、試験被験体から得られた血液から単離される、実施形態B0またはB1.01.のいずれか1つの方法。
B1.2.サンプル核酸が、試験被験体から得られた血清から単離される、実施形態B0またはB1.01のいずれか1つの方法。
B1.3.サンプル核酸が、試験被験体から得られた血漿から単離される、実施形態B0またはB1.01のいずれか1つの方法。
B1.4.試験被験体が、ヒト、動物、および植物から選択される、実施形態B1またはB1.01の方法。
B1.5.ヒト試験被験体が、女性、妊娠女性、男性、胎児、または新生児を含む、実施形態B1.4の方法。
B1.6.(d)が、標準偏差の二乗の逆関数を使用して、(c)で得られたゲノム片におけるカウントを重み付けすることを含む、実施形態B1〜B1.5のいずれか1つの方法。
B2.サンプル核酸の配列リードが、ポリヌクレオチドフラグメントの形態である、実施形態B1〜B1.6のいずれか1つの方法。
B2.1.ポリヌクレオチドフラグメントが、約20〜約50ヌクレオチド長である、実施形態B2の方法。
B2.2.ポリヌクレオチドが、約30〜約40ヌクレオチド長である、実施形態B2.1の方法。
B3.既知のゲノムが、共通のサイズを共有するゲノム片に分割される、実施形態B1の方法。
B4.(c)が、(b)のゲノム片にマッピングされた冗長な配列リードを除去した後に行われる、実施形態B1〜B3のいずれか1つの方法。
B5.サンプル正規化されたカウントプロファイルが、サンプル未処理カウントプロファイルを参照中央カウントプロファイルに対して正規化することにより作製される、実施形態B1〜B4のいずれか1つの方法。
B5.1.サンプル未処理カウントプロファイルが、ゲノムまたはその断片全体のカウント測定値の分布を表すサンプル測定カウントプロファイルを構築することにより作製される、実施形態B5の方法。
B6.さらに、ゲノムまたはその断片全体に非冗長にマッピングされたカウントの合計数に対してサンプル測定カウントプロファイルを正規化し、それによりサンプル未処理カウントプロファイルを作製することを含む、実施形態B5またはB5.1の方法。
B7.参照中央カウントプロファイルが、以下を含むプロセスにより作製される、実施形態B3の方法:
(i)複数の参照被験体からの参照サンプル核酸から、配列リードを得、
(ii)ゲノム片に分割されている既知のゲノムに、(i)で得られた配列リードをマッピングし、
(iii)ゲノム片内にマッピングされた配列リードをカウントし、
(iv)(iii)のカウントから、未処理カウントプロファイルを作製し、
(v)参照サンプルの中央値カウントがゼロであるゲノム断片を除去し、
(vii)ゲノム断片における中央値カウントおよび不確定要素を決定し、
(i)〜(vi)を行うことにより、参照中央カウントプロファイル、不確定要素プロファイルおよび/または断片識別子を作製する。
B7.1.参照被験体が、ヒト、動物、および植物から選択される、実施形態B7の方法。
B7.2.ヒト参照被験体が、女性、妊娠女性、男性、胎児、または新生児を含む、実施形態B7.1の方法。
B7.3.参照被験体が、遺伝的変異を担持しない、実施形態B7.2の方法。
B8.(iii)の後に不確定要素のカットオフを選択することを含む、実施形態B7〜B7.3のいずれか1つの方法。
B8.1.不確定要素のカットオフが、以下を含むプロセスにより得られる、実施形態B8の方法:
(iv)で作製されたプロファイルの標準偏差を算出し、
プロファイルの標準偏差に、選択された信頼区間に等しい定数を乗算し、
それにより、不確定要素のカットオフにおける値を作製する。
B8.2.不確定要素のカットオフが、以下を含むプロセスにより得られる、実施形態B8の方法:
(iv)で作製されたプロファイルの中央絶対偏差を算出し、
プロファイルの中央絶対偏差に、選択された信頼区間に等しい定数を乗算し、
それにより、不確定要素のカットオフにおける値を作製する。
B8.3.不確定要素のカットオフを超える値を含む任意のゲノム片が除去される、実施形態B8〜B8.2のいずれか1つの方法。
B8.4.選択された信頼区間を表す定数が、信頼区間のカットオフとして選択された標準偏差の数に等しい、実施形態B8.2またはB8.3の方法。
B8.5.定数が2であり、この定数が2標準偏差を表す、実施形態B8.4の方法。
B8.6.定数が3であり、この定数が3標準偏差を表す、実施形態B8.4の方法。
B9.(vi)の後に、不確定要素のカットオフを超えるカウントの不確定要素を含む断片を除去することを含む、実施形態B7〜B8.6のいずれか1つの方法。
B10.参照中央カウントプロファイルが、ゲノムまたはその断片全体の参照測定カウントの分布を表す参照測定カウントプロファイルを構築することにより作製される、実施形態B7〜B9のいずれか1つの方法。
B11.サンプル正規化されたカウントプロファイルが、(v)の参照サンプルカウントプロファイルから除去されたサンプル未処理カウントプロファイルからゲノム断片を除去し、(vi)で作製された不確定要素を割り当て、参照中央カウントプロファイルに残る断片のカウントの和に対して各残りの断片におけるサンプル測定カウントを正規化することにより各ゲノム断片において作製される、実施形態B7〜B10のいずれか1つの方法。
B12.遺伝的変異を検出するための予測値を含むサンプルプロファイルピークを、以下を含むプロセスによりゲノムの位置にて同定する、実施形態B1〜B11のいずれか1つの方法:
(iv)で作製された、ピークを含む正規化されたカウントプロファイルを評価する信頼水準を選択し、
ピークを評価するゲノム断片長の最大値を選択し、
ゲノムの位置の種々の長さのゲノム断片におけるピーク上昇および/またはピーク幅を評価し、
それにより、遺伝的変異を検出するための予測値を含むピークがゲノムの位置にて信頼水準を用いて検出される。
B12.1.選択された信頼水準が95%である、実施形態B12の方法。
B12.2.選択された信頼水準が99%である、実施形態B12の方法。
B12.3.信頼水準が、カウント測定値の品質に基づき選択される、実施形態B12〜B12.2のいずれか1つの方法。
B12.4.ピークを評価するゲノム断片長の最大値が、1つまたはそれより多いゲノム断片またはその部分を含む、実施形態B12の方法。
B13.さらに、以下を含む、実施形態B12〜B12.4のいずれか1つの方法:
ゲノムの位置を選択し、
ピークを含むp値プロファイルを作製し、
選択された信頼水準より下のp値を含むゲノム断片を除去し、
異なる長さの冗長な、および/またはオーバーラップする断片を除去し、
ピーク端の位置およびそれらの関連の不確定要素を決定し、
無作為に選択されたサンプルに共通して見つかるピークを同定し、かつ場合により除去し、
それにより、遺伝的変異を検出するための予測値を含むピークがゲノムの位置内に検出される。
B13.1.異なる長さの冗長な、および/またはオーバーラップする断片の部分が除去される、実施形態B13の方法。
B13.2.異なる長さの全ての冗長な、および/またはオーバーラップする断片が除去される、実施形態B13の方法。
B14.p値プロファイルが、以下を含むプロセスにより作製される、B13〜B13.2のいずれか1つの方法:
評価のためのゲノムの所望の位置を選択し、
所望のゲノム断片長を選択し、
ゲノムの位置における平均のプロファイル上昇およびサンプル正規化されたカウントプロファイルにおける平均値の関連の誤差を評価し、
選択されたゲノム断片にp値を割り当て、
それによりp値プロファイルが作製される。
B14.1.選択されたゲノム断片に割り当てられたp値が式
に従い算出され、式中、xおよびxは平均の値を表し、nおよびnはサンプルサイズを表し、σおよびσは標準偏差を表す、実施形態B14の方法。
B15.p値を選択されたゲノム断片に割り当てることは、さらに以下を含む、実施形態B14またはB14.1の方法:
(1)開始断片を選択し、
(2)ゲノムの選択された位置における平均の上昇および平均値の標準誤差を決定し、
(3)平均の断片上昇および対応する平均値の標準誤差を評価し、
(4)ゲノムの選択された位置における平均の上昇に対する、および/または所定の上昇期待値に対するZ値を評価し、
(5)1つまたはそれより多い開始断片および/または断片長において1〜4を繰り返し、
(6)選択された開始断片のそれぞれの断片長全体および/または各断片長に対してt検定を行い、
それにより、p値が1つまたはそれより多い選択されたゲノム断片に割り当てられる。
B15.1.所定の値が1に等しい、実施形態B15の方法。
B15.2.所定の値が1未満である、実施形態B15の方法。
B15.3.所定の値が1より大きい、実施形態B15の方法。
B15.4.Z値が式
を使用して算出され、式中、Nおよびnは染色体全体および異常の範囲内のビンの数を指し、σおよびσは標準偏差を表し、Δは被験体1における遺伝的変異の領域の平均の上昇と、被験体1における対応する染色体の平均の上昇との差を表し、Δは被験体2における遺伝的変異の領域の平均の上昇と、被験体2における対応する染色体の平均の上昇との差を表す、実施形態B15の方法。
B16.自己相関における任意選択の補正を含む、実施形態B15〜B15.4のいずれか1つの方法。
B17.共通にみつかるピークが、以下を含むプロセスにより同定される、実施形態B13の方法:
同じまたは同様の条件下において測定された複数のサンプルから細胞非含有サンプル核酸リードを得、
試験サンプルのセットを選択し、
ピークを含む参照中央カウントプロファイルを作製し、
試験サンプルのセットのサンプル間に共通して見つかるピークを同定する。
B17.1.複数のサンプルが無作為に選択される、実施形態B17の方法。
B17.2.試験サンプル間に共通して見つかるピークを同定することが、以下を含む、実施形態B17およびB17.1の方法:
ピークを含む参照中央カウントプロファイル、ピークを含むZ値プロファイル、ピークを含むp値プロファイル、またはそれらの組み合わせを比較し、
各サンプルで共通して同定されたピークを同定する。
B18.以下を含むプロセスによりピーク端の位置、ピーク片側公差および関連の不確定要素を決定することを含む、実施形態B1〜B17.2のいずれか1つの方法:
ピークを含むサンプル正規化されたカウントプロファイルおよび/またはピークを含む参照中央カウントプロファイルの1つまたはそれより多い領域を選択し、
正規化プロファイルの第1の導関数および/またはその指数を決定し、
ピーク導関数を特徴付け、
それにより、プロセスが、遺伝的変異を検出する予測値を含むピーク最大値の導関数およびピーク幅の導関数を作製する。
B19.2つのサンプルが同じドナーからのものであるどうかを決定する方法であって、以下を含む方法:
1つまたはそれより多いドナーのサンプルからの血中細胞非含有サンプル核酸から、配列リードを得、
ゲノム片に分割されている既知のゲノムに、得られた配列リードをマッピングし、
ゲノム片内にマッピングされた配列リードをカウントし、
ピークを含む正規化されたカウントプロファイルを作製し、
各サンプルの予測値を含む正規化されたカウントプロファイルピークを同定し、
1サンプルのピークを別のサンプルからのピークと比較し、
一致するピーク対に基づき、結合確率を決定し、
サンプルが同じドナーからのものである確率を決定し、
それにより、サンプルが同じドナーからのものである確率に対して決定がなされる。
B20.さらに、1サンプルのピークを別のサンプルのピークと以下のプロセスの1つ以上を使用して比較することを含む、実施形態B19の方法:
ピーク幅の導関数を使用して、ピークの端が片側公差内で一致するかどうかを決定し、
ピーク最大値の導関数を使用して、ピーク上昇が標準誤差内に一致するかどうかを決定し、
所与のピークの集団の広がりにおいてp値を調節し、
それにより、プロセスの1つ以上を行うことにより、サンプルが同じドナーからのものであるかどうかを決定する。
B21.ピーク上昇が、平均値の標準誤差内に一致するかどうかを決定することが、さらにt検定を使用することを含む、実施形態B20の方法。
B22.t検定が式
に従い算出され、式中、xおよびxは平均の値を表し、nおよびnがサンプルのサイズを表し、σおよびσは標準偏差を表す、実施形態B20およびB21の方法。
B23.遺伝的変異を有する場合に以下を含む中央カウントプロファイルの上昇を使用して、サンプルを分類する方法:
核酸を含む試験被験体から、サンプルを得、
サンプルからサンプル核酸を単離し、
単離されたサンプル核酸から、配列リードを得、
ゲノム片に分割されている既知のゲノムに、得られた配列リードをマッピングし、
ゲノム片内にマッピングされた配列リードをカウントし、
カウントされ、マッピングされた配列リードから、選択されたゲノム片上昇における中央カウントプロファイルを含む正規化されたカウントプロファイルおよび関連の不確定要素を得、
評価のためのゲノムの位置を選択し、
ゲノムの位置において中央プロファイル上昇および関連の不確定要素を評価し、
上昇中央値が顕著に、所定の値に対して有意に異なるかどうかを決定し、
それにより、上昇中央値が所定の値に対して有意に異なるかどうかを決定することにより、遺伝的変異を有する場合のサンプルかどうかを決定する。
B23.1.所定の値が1に等しい、実施形態B23の方法。
B23.2.所定の値が1未満である、実施形態B23の方法。
B23.3.所定の値が1より大きい、実施形態B23の方法。
B24.ゲノムの位置内の予測値を含む正規化されたカウントプロファイルピーク上昇を同定し、同定された場合、ゲノムの位置における中央プロファイル上昇および関連の不確定要素を評価する前に、参照サンプルに存在する欠失および/または重複において補正することを含む、実施形態B23〜B23.3のいずれか1つの方法。
B25.遺伝的変異を有する場合のサンプルを、以下を含む予測値を含むピークの面積比を使用して分類する方法:
核酸を含む試験被験体からサンプルを得、
サンプルからサンプル核酸を単離し、
単離されたサンプル核酸から配列リードを得、
ゲノム片に分割されている既知のゲノムに配列リードをマッピングし、
ゲノム片内にマッピングされた配列リードをカウントし、
選択されたゲノム片におけるカウントの分布を含む正規化されたカウントプロファイルを得、
評価のためのゲノムの位置を選択し、
予測値を含むピークにおける選択された位置およびピークにおける関連の面積比を評価し、
ピークにおける面積比が所定の値に対して有意に異なるかどうかを決定し、
それにより、ピークにおける面積比が所定の値を顕著に超えるかどうかを決定することにより、サンプルが参照サンプルに対して遺伝的変異を有するかどうかを決定する。
B25.1.所定の値が1に等しい、実施形態B25の方法。
B25.2.処置の値が1未満である、実施形態B25の方法。
B25.3.所定の値が1より大きい、実施形態B25の方法。
B26.ゲノムの位置内のピーク面積比を同定し、同定された場合、ゲノムの位置において予測値を含むピークの面積比を評価する前に参照サンプルに存在する欠失および/または重複において補正することを含む、実施形態B25の方法。
B27.複数の分類基準を組み合わせることにより遺伝的変異を分類する方法であって、以下を含む方法:
試験被験体および複数の参照被験体から、核酸を含むサンプルを得、
サンプルから、サンプル核酸を単離し、
単離されたサンプル核酸から、配列リードを得、
ゲノム片に分割されている既知のゲノムに、得られた配列リードをマッピングし、
ゲノム片内にマッピングされた配列リードをカウントし、
試験および参照被験体におけるカウントから、正規化されたカウントプロファイルを得、
評価のためにゲノムの位置を選択し、
複数の分類基準を使用して、参照サンプルのゲノムの選択された位置を評価し、
参照サンプルのみが分布する最小のN次元空間を決定し、
複数の分類基準を使用して、試験被験体のゲノムの位置を評価し、
試験被験体におけるN次元点が、参照サンプルのみが分布する空間内にあるかどうかを決定し、
それにより、試験被験体におけるN次元点が参照サンプルのみが分布する空間にあるかどうか決定することにより、試験被験体が遺伝的変異を有するか(is has)どうかを決定する。
B27.1.参照被験体が遺伝的変異を担持しないことが知られている、実施形態B27の方法。
B27.2.参照被験体が遺伝的変異を担持することが知られている、実施形態B27の方法。
B28.参照被験体におけるN次元空間および試験被験体におけるN次元点がプロファイル上昇の中央値、面積比、Z値、フィットさせた倍数性、フィットさせた胎児画分、残差二乗和、およびベイジアンp値から選択される1つまたはそれより多い分類基準を使用して評価される、実施形態B27〜B27.2のいずれか1つの方法。
B29.配列リードを得ることは、サンプル核酸に核酸シークエンシングプロセスを行うことを含む、実施形態B1〜B28のいずれか1つの方法。
B30.シークエンシングプロセスが、ナノポアシークエンシング、合成によるシークエンシング、パイロシークエンシング、PCRシークエンシング、ジデオキシシークエンシング、またはそれらの組み合わせから選択される方法を含む、実施形態B29の方法。
B31.染色体異常断片もしくは胎児異数性または両方の有無を決定することは、成果のグラフ、成果のレポート、成果を含む電子ファイル、成果の2次元表示、成果の3次元表示、またはそれらの組み合わせを医療専門家に提供することを含む、実施形態B0〜B30のいずれか1つの方法。
B32.医療専門家が、実施形態B31で提供された成果に基づき提言を提供する、B31の実施形態。
B33.サンプル核酸、参照サンプル核酸、または両方が細胞非含有核酸である、実施形態B0〜B32のいずれか1つの方法。
B34.細胞非含有核酸が循環無細胞核酸である、実施形態B33の方法。
B35.遺伝的変異が病状を決定する、実施形態B0〜B34のいずれか1つの方法。
B36.内蔵のコンピュータ読み取り可能なプログラムコードを有するコンピュータ利用可能な媒体、配列受信モジュールを含む個別のソフトウェアモジュールを含むコンピュータ読み取り可能なプログラムコード、ロジック処理モジュールおよびデータ表示組織化モジュールを含むコンピュータプログラム製品であって、コンピュータ読み取り可能プログラムコードが遺伝的変異の有無を同定する方法を実行するよう、実行に適応し、方法が以下を含む、コンピュータプログラム製品:
(a)配列受信モジュールにより、試験被験体から、血中細胞非含有サンプル核酸の配列リードを得、
(b)ロジック処理モジュールにより、ゲノム片に分割されている既知のゲノムに、(a)で得られた配列リードをマッピングし、
(c)ロジック処理モジュールにより、ゲノム片内にマッピングされた配列リードをカウントし、
(d)ロジック処理モジュールにより、(c)で得られたゲノム片におけるカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(e)ロジック処理モジュールにより、(d)のサンプル正規化されたカウントプロファイルから、染色体異常断片もしくは胎児異数性または両方の有無を決定し、
(f)ロジック処理モジュールにより決定されたことに対してデータ表示組織化モジュールにより、遺伝的変異の有無を示すデータ表示を組織化する。
B37.実施形態B36のコンピュータプログラム製品が格納されるメモリを含む、装置。
B38.実施形態B36に明記されたコンピュータプログラム製品の1つまたはそれより多い機能を実行するプロセッサを含む、実施形態B37の装置。
B39.核酸シークエンシング装置および処理装置を含むシステムであって、シークエンシング装置がサンプルから配列リードを得、処理装置がシークエンシングデバイスから配列リードを得、以下を含む方法を行うシステム:
(a)試験被験体から、サンプル核酸の配列リードを得、
(b)ゲノム片に分割されている既知のゲノムに、(a)で得られた配列リードをマッピングし、
(c)ゲノム片内にマッピングされた配列リードをカウントし、
(d)(c)で得られたゲノム片におけるカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(e)(d)のサンプル正規化されたカウントプロファイルから遺伝的変異の有無を決定する。
C1.胎児倍数性を決定する方法であって、以下を含む方法:
(a)試験被験体のサンプルから得られた循環無細胞核酸の配列リードに基づき、未処理のカウントプロファイルを作製し、
(b)1例以上の参照被験体のサンプルから得られた循環無細胞核酸の配列リードに基づき、参照中央カウントプロファイルを作製し、
(c)試験被験体の配列リードのカウント合計に対して、(a)から正規化されたカウントプロファイルを作製し、
(d)1例以上の参照被験体の配列リードのカウント合計に対して、(b)から正規化されたカウントプロファイルを作製し、
(e)一部、正規化されたカウントプロファイルおよび倍数性固定値または倍数性の最適値、および胎児画分の固定値または胎児画分の最適値から選択された1つまたはそれより多い仮定値に基づき、残差二乗和を算出し、
(f)(e)の残差二乗和に基づき胎児倍数性を決定する。
C1.1.試験被験体および/または1例以上の参照被験体が、ヒト、動物、および植物から選択される、実施形態C1の方法。
C1.2.ヒト試験被験体および/または1例以上の参照被験体が、女性、妊娠女性、男性、胎児、または新生児を含む、実施形態C1.1の方法。
C1.3.細胞非含有サンプル核酸が、試験および/または参照被験体から得られる血液から単離される、実施形態C1〜C1.2のいずれか1つの方法。
C1.4.細胞非含有サンプル核酸が、試験および/または参照被験体から得られた血清から単離される、実施形態C1〜C1.2のいずれか1つの方法。
C1.5.細胞非含有サンプル核酸が、試験および/または参照被験体から得られた血漿から単離される、実施形態C1〜C1.2のいずれか1つの方法。
C1.6.さらに、(e)の残差二乗和を、測定された胎児画分を使用して算出することを含み、倍数性の固定値が1に等しくない、実施形態C1〜C1.5のいずれか1つの方法。
C1.7.残差二乗和の数値に基づき、胎児倍数性を決定することにより、正倍数体または3倍体として胎児を分類することが可能になる、実施形態C1〜C1.6のいずれか1つの方法。
C1.8.胎児画分の固定値が測定された胎児画分である、実施形態C1の方法。
C1.9.(c)、(d)、または(c)および(d)が、標準偏差の二乗の逆関数を使用して、(a)、(b)、または(a)および(b)で作製されたゲノム片におけるカウントを重み付けすることを含む、実施形態C1〜C1.8のいずれか1つの方法。
C2.(a)が以下を含む、実施形態C1〜C1.9のいずれか1つの方法:
(i)試験被験体から、血中細胞非含有サンプル核酸の配列リードを得、
(ii)ゲノム片に分割されている既知のゲノムに、(i)で得られた配列リードをマッピングし、
(iii)ゲノム片内にマッピングされた配列リードをカウントし、
(iv)ゲノムまたはその断片全体のカウント測定値の分布を表すサンプル測定カウントプロファイルを構築し、
(v)ゲノムまたはその断片全体の非冗長なマッピングされたカウントの合計数に対して、試験被験体サンプルからサンプル測定カウントプロファイルを正規化し、それによりサンプル未処理カウントプロファイルを作製する。
C3.(iii)が(ii)のゲノム片にマッピングされた冗長な配列リードを除去した後に行われる、実施形態C2の方法。
C4.(b)が以下を含む、実施形態C1の方法:
(1)正倍数体であることが知られている1例以上の参照被験体の血中細胞非含有参照サンプル核酸から配列リードを得、
(2)ゲノム片に分割されている既知のゲノムに、(1)で得られた配列リードをマッピングし、
(3)ゲノム片内にマッピングされた配列リードをカウントし、
(4)(2)のカウントから未処理カウントプロファイルを作製し、
(5)参照サンプルにおける中央値カウントがゼロであるゲノム断片を除去し、
(6)ゲノム片における中央値カウントおよび不確定要素を決定し、
(7)残りの片におけるカウント合計に対してカウントの中央値を正規化し、
(1)〜(7)を行うことにより、参照中央カウントプロファイル、不確定要素プロファイルおよび/または断片識別子を作製する。
C4.1.細胞非含有核酸の配列リードが、ポリヌクレオチドフラグメントの形態である、実施形態C1〜C4のいずれか1つの方法。
C4.2.ポリヌクレオチドフラグメントが、約20〜約50ヌクレオチド長である、実施形態C4.1の方法。
C4.3.ポリヌクレオチドフラグメントが、約30〜約40ヌクレオチド長である、実施形態C4.2の方法。
C4.4.既知のゲノムが共通のサイズを共有するゲノム断片に分割される、実施形態C1〜C4.3のいずれか1つの方法。
C5.(4)の後に不確定要素のカットオフを選択することを含む、実施形態C4の方法。
C5.1.不確定要素のカットオフが、以下を含むプロセスにより得られる、実施形態C5の方法:
(4)で作製されたプロファイルの標準偏差を算出し、
プロファイルの標準偏差に3を乗算し、
それにより、不確定要素のカットオフにおける値を作製する。
C5.2.不確定要素のカットオフが、以下を含むプロセスにより得られる、実施形態C5の方法:
(4)で作製されたプロファイルの中央絶対偏差を算出し、
プロファイルの中央絶対偏差に3を乗算し、
それにより、不確定要素のカットオフにおける値を作製する。
C6.(7)の後に不確定要素のカットオフを超えるカウント不確定要素を含む断片を除去することを含む、実施形態C4またはC5.2の方法。
C7.参照中央カウントプロファイルが、ゲノムまたはその断片全体の参照測定カウントの分布を表す参照測定カウントプロファイルを構築することにより作製される、実施形態C4〜C6のいずれか1つの方法。
C8.正規化されたカウントプロファイルが、(5)の参照サンプルカウントプロファイルから除去されたサンプル未処理カウントプロファイルからゲノム断片を除去し、(6)で作製された不確定要素を割り当て、参照中央カウントプロファイルに残る断片のカウントの和に対して、各残りの断片のサンプル測定カウントを正規化することにより各ゲノム断片において作製される、実施形態C4〜C7のいずれか1つの方法。
C9.血中細胞非含有サンプル核酸から配列リードを得ることは、以下を含む、実施形態C1〜C8のいずれか1つの方法:
対象から、循環無細胞核酸を含むサンプルを得、サンプルから細胞非含有サンプル核酸を単離し、
被験体から得られたサンプルが血液、血清、血漿またはそれらの組み合わせを含む。
C10.残差二乗和を評価することは以下を含む、実施形態C1の方法:
の成果値を算出し、
の成果値を算出し、
を使用して、ファイにおける成果値を算出し、
からの数値を使用し、
ファイが所定の値未満またはそれより大きいかどうかを決定し、
式中、ファイはそれぞれ正倍数体またはトリソミーの成果を仮定して評価される残差二乗和間の差を表し、fは参照中央カウントプロファイルを表し、エプシロンはカウント合計に対して正規化された測定カウントプロファイルを表し、Fは胎児画分を表し、Nはゲノム片の合計数を表し、iは選択されたゲノム片を表し、シグマ(σ)は選択されたゲノム片におけるfと関連する不確定要素を表し、
正倍数体または非正倍数体の決定がファイの数値に基づく。
C10.1.胎児画分が測定された胎児画分である、実施形態C10の方法。
C10.2.所定の値が0に等しい、実施形態C10またはC10.1の方法。
C10.3.所定の値が0より大きい、実施形態C10またはC10.1の方法。
C10.4.所定の値が0未満である、実施形態C10またはC10.1の方法。
C11.胎児倍数性の最適値が以下を含む、実施形態C1の方法:
の成果値を算出し、
の成果値を算出し、
を使用して、倍数性(例えば、X)における成果値を算出し、
からの数値を使用し、
Xが所定の値未満またはそれより大きいかどうかを決定し、
式中、fは参照中央カウントプロファイルを表し、yはカウント合計に対して正規化された測定カウントプロファイルを表し、Fは胎児画分を表し、Nはゲノム片の合計数を表し、iは選択されたゲノム片を表し、シグマ(σ)は選択されたゲノム片におけるfと関連する不確定要素を表し、エプシロンは正倍数体サンプルから3倍体を区別するカットオフとして使用される正の数であり、
正倍数体または非正倍数体の決定は、Xの数値に基づきなされる。
C11.1.所定の値が(1+エプシロン)である、実施形態C11の方法。
C11.2.Xが(1+エプシロン)より大きい、実施形態C11またはC11.1の方法。
C11.3.Xが(1+エプシロン)未満である、実施形態C11またはC11.1の方法。
C11.4.Xが(1+エプシロン)に等しい、実施形態C11またはC11.1の方法。
C12.胎児画分の最適値が以下を含む、実施形態C1の方法:
の成果値を算出し、
の成果値を算出し、
倍数性(例えば、X)における成果値を、式
を使用して算出し、
からの数値を使用し、
フィットさせた胎児画分と、測定された胎児画分との差の絶対値が、測定された胎児画分における誤差における所定の値より大きいかどうかを決定し、
式中、Fは、フィットさせた胎児画分を表し、Fは胎児画分の測定値を表し、デルタF(例えば、ΔF)は胎児画分の測定値の誤差を表し、Sは計算を簡易化するために導入された補助変数を表し、fは参照中央カウントプロファイルを表し、エプシロンはカウント合計に対して正規化された測定カウントプロファイルを表し、Nはゲノム片の合計数を表し、iは選択されたゲノム片を表し、シグマ(σ)は選択されたゲノム片においてfと関連する不確定要素を表し、
正倍数体または非正倍数体の決定は、Xの数値に基づいてなされる。
C12.1.所定の値を、式
を使用して算出する、実施形態C11の方法。
C12.2.Xが
より大きい、実施形態C12またはC12.1の方法。
C12.3.Xが
未満である、実施形態C12またはC12.1の方法。
C12.4.Xが
に等しい、実施形態C12またはC12.1の方法。
C13.倍数性の固定値および胎児画分の最適値を仮定する残差二乗和を評価することは以下を含む、実施形態C1の方法:
胎児画分を測定し、
胎児画分の最適値を得、
の成果値を算出し、
実施形態C12から得られた値を使用し、
ファイが所定の値未満またはそれより大きいかどうかを決定し、
式中、ファイはそれぞれ正倍数体またはトリソミーの成果を仮定して評価される残差二乗和間の差を表し、Fは測定された胎児画分を表し、デルタF(例えば、ΔF)は測定された胎児画分の誤差を表し、Sは計算を簡易化するために導入された補助変数を表し、fは参照中央カウントプロファイルを表し、yはカウント合計に対して正規化された測定カウントプロファイルを表し、
正倍数体または非正倍数体の決定がファイの数値に基づきなされる。
C13.1.所定の値が0である、実施形態C13の方法。
C13.2.ファイが所定の値に等しい、実施形態C13.1の方法。
C13.3.ファイが所定の値未満である、実施形態C13.1の方法。
C13.4.ファイが所定の値より大きい、実施形態C13.1の方法。
C14.非正倍数体の決定がトリソミーの決定である、実施形態C1〜C13.4のいずれか1つの方法。
C14.1.非正倍数体の決定が1倍体の決定である、実施形態C1〜C13のいずれか1つの方法。
C15.染色体異常断片もしくは胎児異数性または両方の有無を決定することは、成果のグラフ、成果のレポート、成果を含む電子ファイル、成果の2次元表示、成果の3次元表示、またはそれらの組み合わせを医療専門家に提供することを含む、実施形態C1〜C14.1のいずれか1つの方法。
C16.医療専門家が、実施形態C15で提供された成果に基づき提言を提供する、C15の実施形態。
C17.内蔵のコンピュータ読み取り可能なプログラムコードを有するコンピュータ使用可能な媒体、配列受信モジュールを含む個別のソフトウェアモジュールを含むコンピュータ読み取り可能なプログラムコード、ロジック処理モジュールおよびデータ表示組織化モジュールを含むコンピュータプログラム製品であって、コンピュータ読み取り可能プログラムコードが胎児倍数性を決定する方法を実行するよう、実行に適応し、方法が以下を含む、コンピュータプログラム製品:
(a)ロジック処理モジュールにより、試験被験体のサンプルから配列受信モジュールにより得られた循環無細胞核酸の配列リードに基づき、未処理カウントプロファイルを作製し、
(b)ロジック処理モジュールにより、1例以上の参照被験体のサンプルから配列受信モジュールにより得られた循環無細胞核酸の配列リードに基づき、参照中央カウントプロファイルを作製し、
(c)ロジック処理モジュールにより、試験被験体の配列リードのカウント合計に対して(a)から正規化されたカウントプロファイルを作製し、
(d)ロジック処理モジュールにより、1例以上の参照被験体の配列リードのカウント合計に対して(b)から正規化されたカウントプロファイルを作製し、
(e)ロジック処理モジュールにより、一部、正規化されたカウントプロファイルおよび倍数性の固定値または倍数性の最適値および胎児画分の固定値または胎児画分の最適値から選択された1つまたはそれより多い仮定値に基づき、残差二乗和を算出し、
(f)ロジック処理モジュールにより、(e)の残差二乗和に基づき、胎児倍数性を決定し、
(g)ロジック処理モジュールにより決定されたことに対してデータ表示組織化モジュールにより、染色体異常断片もしくは胎児異数性または両方の有無を示すデータ表示を組織化する。
C18.実施形態C17のコンピュータプログラム製品が格納されるメモリを含む、装置。
C19.実施形態C17に明記されるコンピュータプログラム製品の1つまたはそれより多い機能を実行するプロセッサを含む、実施形態C18の装置。
C20.核酸シークエンシング装置および処理装置を含むシステムであって、シークエンシング装置がサンプルから配列リードを得、処理装置がシークエンシングデバイスから配列リードを得、以下を含む方法を行うシステム:
(a)試験被験体のサンプルから得られた循環無細胞核酸の配列リードに基づき、未処理カウントプロファイルを作製し、
(b)1例以上の参照被験体のサンプルから得られた循環無細胞核酸の配列リードに基づき、参照中央カウントプロファイルを作製し、
(c)試験被験体の配列リードのカウント合計に対して(a)から正規化されたカウントプロファイルを作製し、
(d)1例以上の参照被験体の配列リードのカウント合計に対して(b)から正規化されたカウントプロファイルを作製し、
(e)一部、正規化されたカウントプロファイルおよび倍数性の固定値または倍数性の最適値および胎児画分の固定値または胎児画分の最適値から選択される1つまたはそれより多い仮定値に基づき、残差二乗和を算出し、
(f)(e)の残差二乗和に基づき、胎児倍数性を決定する。
D0.染色体異常断片もしくは胎児異数性または両方の有無を同定する方法であって、以下を含む方法:
(a)試験被験体から、循環無細胞核酸を含むサンプルを得、
(b)サンプルから、細胞非含有サンプル核酸を単離し、
(c)細胞非含有サンプル核酸から、配列リードを得、
(d)ゲノム片に分割されている既知のゲノムに、(c)において得られた配列リードをマッピングし、
(e)ゲノム片内にマッピングされた配列リードをカウントし、
(f)スライディングウィンドウ正規化に基づき、(e)のカウントされ、マッピングされた配列リードを正規化し、
(g)(f)の正規化から染色体異常断片もしくは胎児異数性または両方を同定する成果を提供する。
D0.1.(f)が以下を含む、実施形態D0の方法:
(i)サンプル正規化されたカウントプロファイルを作製し、
(ii)ノイズゲノム片を除去し、
(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、
(iv)(iii)において同定された孤立のデータ点を除去し、
(v)同じ方向に逸脱する隣り合うデータ点をグループ化し、
(vi)異常上昇および端を特徴付ける。
D0.11.遺伝的変異、染色体異常断片または胎児異数性の有無を検出する方法であって、以下を含む方法:
(a)参照ゲノムのゲノム片にマッピングされた試験被験体から、血中細胞非含有サンプル核酸の配列リードを得、
(b)スライディングウィンドウ正規化に基づき、ゲノム片について配列リードのカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(c)(b)のサンプル正規化されたカウントプロファイルから、遺伝的変異、染色体異常断片または胎児異数性の有無を決定する。
D0.12.(b)が以下を含む、実施形態D0.11の方法:
(j)サンプル正規化されたカウントプロファイルを作製し、
(ii)ノイズゲノム片を除去し、
(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、
(iv)(iii)において同定された孤立のデータ点を除去し、
(v)同じ方向に逸脱する隣り合うデータ点をグループ化し、
(vi)異常上昇および端を特徴付ける。
D0.2.(v)が予め定義されたギャップ公差を使用して行われる、実施形態D0.1またはD0.12の方法。
D0.3.異常上昇および端を特徴付けることは、疑わしい異常およびそのすぐ周囲に対して積分を使用することを含む、実施形態D0.1、D0.12およびD0.2のいずれか1つの方法。
D0.4.(vi)が以下を含む、実施形態D0.1〜D0.3の実施形態にいずれか1つの方法:
(1)候補異常の片側の選択されたゲノム片に線形回帰を行い、
(2)候補異常のもう一方の側の選択されたゲノム片に線形回帰を行い、
(3)候補異常の範囲内の上昇平均値および/または2本の線形回帰線をつなぐ線分の傾きを決定し、
(4)異常の範囲内の上昇平均値と組み合わせて、2本の線形回帰線の切片間の差を決定し、
(1)〜(4)を行うことにより、異常の幅を生成する。
D1.染色体異常断片もしくは胎児異数性または両方を同定する方法であって、以下を含む方法:
(a)細胞非含有サンプル核酸から配列リードを得、
(b)ゲノム片に分割されている既知のゲノムに、(a)において得られた配列リードをマッピングし、
(c)ゲノム片内にマッピングされた配列リードをカウントし、
(d)スライディングウィンドウ正規化に基づき、(c)のカウントされ、マッピングされた配列リードを正規化し、
(e)(d)の正規化から染色体異常断片もしくは胎児異数性または両方を同定する成果を提供する。
D1.1.(d)が以下を含む、実施形態D1の方法:
(i)サンプル正規化されたカウントプロファイルを作製し、
(ii)ノイズゲノム片を除去し、
(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、
(iv)(iii)において同定された孤立のデータ点を除去し、
(v)同じ方向に逸脱する隣り合うデータ点をグループ化し、
(vi)異常上昇および端を特徴付ける。
D1.2.(v)が予め定義されたギャップ公差を使用して行われる、実施形態D0.1またはD1.1の方法。
D1.3.異常上昇および端を特徴付けることは、疑わしい異常およびそのすぐ周囲に対して積分を使用することを含む、実施形態D0〜D1.2のいずれか1つの方法。
D1.4.(vi)が以下を含む、実施形態D1.1〜D1.3のいずれか1つの方法:
(1)候補異常の片側の選択されたゲノム片に線形回帰を行い、
(2)候補異常のもう一方の側の選択されたゲノム片に線形回帰を行い、
(3)候補異常の範囲内の上昇平均値および/または2本の線形回帰線をつなぐ線分の傾きを決定し、
(4)異常の範囲内の上昇平均値と組み合わせて、2本の線形回帰線の切片間の差を決定し、
(1)〜(4)を行うことにより、異常の幅を生成する。
D1.5.(1)〜(4)を約1回〜約100回繰り返す、実施形態D0.4およびD1.4の方法。
D1.6.(1)〜(4)を約1回〜約10回繰り返す、実施形態D0.4およびD1.4の方法。
D2.細胞非含有サンプル核酸を、試験被験体から得られた血液から単離する、実施形態D0〜D1.6のいずれか1つの方法。
D2.1.細胞非含有サンプル核酸を、被験体から得られた血清から単離する、実施形態D0〜D1.6のいずれか1つの方法。
D2.2.細胞非含有サンプル核酸を、試験被験体から得られた血漿から単離する、実施形態D0〜D1.6のいずれか1つの方法。
D3.試験被験体が、ヒト、動物、および植物から選択される、実施形態D0〜D2.2のいずれか1つの方法。
D3.1.ヒト試験被験体が、女性、妊娠女性、男性、胎児、または新生児から選択される、実施形態D3の方法。
E0.遺伝的変異を同定する方法であって、以下を含む方法:
(a)試験被験体から、循環無細胞核酸を含むサンプルを得、
(b)サンプルから細胞非含有サンプル核酸を単離し、
(c)細胞非含有サンプル核酸から配列リードを得、
(d)ゲノム片に分割されている既知のゲノムに、(c)において得られた配列リードをマッピングし、
(e)ゲノム片内にマッピングされた配列リードをカウントし、
(f)スライディングウィンドウ正規化に基づき、(e)のカウントされ、マッピングされた配列リードを正規化し、
(g)(f)の正規化から遺伝的変異を同定する成果を提供する。
E0.1.(f)が以下を含む、実施形態E0の方法:
(i)サンプル正規化されたカウントプロファイルを作製し、
(ii)ノイズゲノム片を除去し、
(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、
(iv)(iii)において同定された孤立のデータ点を除去し、
(v)同じ方向に逸脱する隣り合うデータ点をグループ化し、
(vi)異常上昇および端を特徴付ける。
E0.2.(v)が予め定義されたギャップ公差を使用して行われる、実施形態E0.1の方法。
E0.3.異常上昇および端を特徴付けることは、疑わしい異常およびそのすぐ周囲に対して積分を使用することを含む、実施形態E0.1またはE0.2の方法。
E0.4.(vi)が以下を含む、実施形態E0.1〜E0.3の実施形態にいずれか1つの方法:
(1)候補異常の片側の選択されたゲノム片に線形回帰を行い、
(2)候補異常のもう一方の側の選択されたゲノム片に線形回帰を行い、
(3)候補異常の範囲内の上昇平均値および/または2本の線形回帰線をつなぐ線分の傾きを決定し、
(4)異常の範囲内の上昇平均値と組み合わせて、2本の線形回帰線の切片間の差を決定し、
(1)〜(4)を行うことにより、異常の幅を生成する。
E1.遺伝的変異を同定する方法であって、以下を含む方法:
(a)細胞非含有サンプル核酸から配列リードを得、
(b)ゲノム片に分割されている既知のゲノムに、(a)において得られた配列リードをマッピングし、
(c)ゲノム片内にマッピングされた配列リードをカウントし、
(d)スライディングウィンドウ正規化に基づき、(c)のカウントされ、マッピングされた配列リードを正規化し、
(e)(d)の正規化から遺伝的変異を同定する成果を提供する。
E1.1.(d)が以下を含む、実施形態E1の方法:
(i)サンプル正規化されたカウントプロファイルを作製し、
(ii)ノイズゲノム片を除去し、
(iii)上昇平均値から顕著に逸脱するゲノム片を同定し、
(iv)(iii)において同定された孤立のデータ点を除去し、
(v)同じ方向に逸脱する隣り合うデータ点をグループ化し、
(vi)異常上昇および端を特徴付ける。
E1.2.(v)が予め定義されたギャップ公差を使用して行われる、実施形態E0.1またはE1.1の方法。
E1.3.異常上昇および端を特徴付けることは、疑わしい異常およびそのすぐ周囲に対して積分を使用することを含む、実施形態E0〜E1.2のいずれか1つの方法。
E1.4.(vi)が以下を含む、実施形態E1.1〜E1.3のいずれか1つの方法:
(1)候補異常の片側の選択されたゲノム片に線形回帰を行い、
(2)候補異常のもう一方の側の選択されたゲノム片に線形回帰を行い、
(3)候補異常の範囲内の上昇平均値および/または2本の線形回帰線をつなぐ線分の傾きを決定し、
(4)異常の範囲内の上昇平均値と組み合わせて、2本の線形回帰線の切片間の差を決定し、
(1)〜(4)を行うことにより、異常の幅を生成する。
E1.5.(1)〜(4)を約1回〜約100回繰り返す、実施形態E0.4およびE1.4の方法。
E1.6.(1)〜(4)を約1回〜約10回繰り返す、実施形態E0.4およびE1.4の方法。
E2.細胞非含有サンプル核酸を、試験被験体から得られた血液から単離する、実施形態E0〜E1.6のいずれか1つの方法。
E2.1.細胞非含有サンプル核酸を、試験被験体から得られた血清から単離する、実施形態E0〜E1.6のいずれか1つの方法。
E2.2.細胞非含有サンプル核酸を、試験被験体から得られた血漿から単離する、実施形態E0〜E1.6のいずれか1つの方法。
E3.試験被験体が、ヒト、動物、および植物から選択される、実施形態E0〜E2.2のいずれか1つの方法。
E3.1.ヒト試験被験体が、女性、妊娠女性、男性、胎児、または新生児から選択される、実施形態E3の方法。
E4.細胞非含有サンプル核酸の配列リードが、ポリヌクレオチドフラグメントの形態である、実施形態D0〜E3.1のいずれか1つの方法。
E4.1.ポリヌクレオチドフラグメントが、約20〜約50ヌクレオチド長である、実施形態E4の方法。
E4.2.ポリヌクレオチドが、約30〜約40ヌクレオチド長である、実施形態E4.1.の方法。
F1.表1Bに記載の状態、症候群または異常の有無を検出し、かつ/または決定する方法であって、以下を含む方法:
(a)細胞非含有サンプル核酸から、配列リードを得、
(b)ゲノム片に分割されている既知のゲノムに、(a)において得られた配列リードをマッピングし、
(c)ゲノム片内にマッピングされた配列リードをカウントし、
(d)(c)において得られたカウントおよび/またはその処理された派生物に基づき、表1Bに挙げる状態、症候群または異常の有無を決定する。
F1.1.表1Bに挙げる状態、症候群または異常の有無の決定は、表1Bに挙げる状態、症候群または異常の有無を検出することを含む、実施形態F1の方法。
F2.(d)がサンプル正規化されたカウントプロファイルを提供し、プロファイルに基づき、成果を決定することを含む、実施形態F1またはF1.1の方法。
F3.細胞非含有サンプル核酸が、試験被験体から得られた血液から単離される、実施形態F1〜F2のいずれか1つの方法。
F3.1.細胞非含有サンプル核酸が、試験被験体から得られた血清から単離される、実施形態F1〜F3のいずれか1つの方法。
F3.2.細胞非含有サンプル核酸が、被験体から得られた血漿から単離される、実施形態F1〜F3のいずれか1つの方法。
F4.試験被験体が、ヒト、動物、および植物から選択される、実施形態F1〜F3.2のいずれか1つの方法。
F4.1.ヒト試験被験体が、女性、妊娠女性、男性、胎児、または新生児から選択される、実施形態F4の方法。
F5.細胞非含有サンプル核酸の配列リードが、ポリヌクレオチドフラグメント形態である、実施形態F1〜F4.1のいずれか1つの方法。
F5.1.ポリヌクレオチドフラグメントが、約20〜約50ヌクレオチド長である、実施形態F5の方法。
F5.2.ポリヌクレオチドが、約30〜約40ヌクレオチド長である、実施形態F5.1の方法。
G1.試験サンプルにおけるバイアスゲノム片レベルの減少を用いて算出する方法であって、以下を含む方法:
(a)試験サンプルからの循環無細胞核酸のリードである、参照ゲノムの部分にマッピングされた配列リードのカウントを得、
(b)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(c)(i)GCバイアスと、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれにおけるゲノム選択レベルを算出し、それにより、算出されたゲノム片レベルを提供することにより、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルに減少する。
G2.参照ゲノムの部分が染色体内にある、実施形態G1の方法。
G3.参照ゲノムの部分が染色体の部分内にある、実施形態G1の方法。
G4.染色体が第21番染色体である、実施形態G2またはG3の方法。
G5.染色体が第18番染色体である、実施形態G2またはG3の方法。
G6.染色体が第13番染色体である、実施形態G2またはG3の方法。
G7.(b)の前に、参照ゲノムの部分の一部または全てにマッピングされた配列リードのカウントに対する誤差の測定値を算出し、誤差の測定値の閾値に従い、参照のゲノムの特定の部分について配列リードのカウントを除去するか、または重み付けすることを含む、実施形態G1〜G6のいずれか1つの方法。
G8.閾値が、第1のゲノム片レベルと、3.5以上の第2のゲノム片レベルとの標準偏差のギャップに従い選択される、実施形態G7の方法。
G9.誤差の測定値がR因子である、実施形態G7またはG8の方法。
G10.約7%〜約10%のR因子を有する参照ゲノムの部分について配列リードのカウントが、(b)の前に除去される、実施形態G9の方法。
G11.(b)のフィットさせた関係がフィットさせた線形関係である、実施形態G1〜G10のいずれか1つの方法。
G12.関係の傾きが線形回帰により決定される、実施形態G11の方法。
G13.各GCバイアスがGCバイアス係数であり、GCバイアス係数が、(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との線形関係の傾きである、実施形態G11またはG12の方法。
G14.(b)のフィットさせた関係がフィットさせた非線形関係である、実施形態G1〜G10のいずれか1つの方法。
G15.各GCバイアスがGC曲率の推定値を含む、実施形態G14の方法。
G16.(c)のフィットさせた関係が線形である、実施形態G1〜G15のいずれか1つの方法。
G17.関係の傾きを線形回帰により決定する、実施形態G16の方法。
G18.(b)のフィットさせた関係が線形であり、(c)のフィットさせた関係が線形であり、ゲノム片レベルLが式α:
=(m−GS)I−1 式α
に従い参照ゲノムの部分のそれぞれにおいて決定され、式中、GはGCバイアスであり、Iは(c)のフィットさせた関係の切片であり、Sは(c)の関係の傾きであり、mは参照ゲノムの各部分にマッピングされたカウントの測定値であり、iはサンプルである、実施形態G1〜G17のいずれか1つの方法。
G19.参照ゲノムの部分の数が約40,000以上の部分である、実施形態G1〜G18のいずれか1つの方法。
G20.参照ゲノムの各部分が所定の長さのヌクレオチド配列を含む、実施形態G1〜G19のいずれか1つの方法。
G21.所定の長さが約50キロ塩基である、実施形態G20の方法。
H1.胎児の異数性の有無を同定する方法であって、以下を含む方法:
(a)胎児を妊娠する妊娠女性からの循環無細胞核酸のリードである、参照ゲノムの部分にマッピングされた配列リードのカウントを得、
(b)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(c)GCバイアスと、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供し、
(d)95%以上の感受性および95%以上の特異性の算出されたゲノム片レベルに従い、胎児における異数性の有無を同定する。
H2.参照ゲノムの部分が染色体内にある、実施形態H1の方法。
H2.1.異数性が染色体異数性である、実施形態H1またはH2の方法。
H3.参照ゲノムの部分が染色体の部分内にある、実施形態H1の方法。
H3.1.異数性が染色体の部分の異数性である、実施形態H1またはH3の方法。
H4.染色体が第21番染色体である、実施形態H2〜H3.1のいずれか1つの方法。
H5.染色体が第18番染色体である、実施形態H2〜H3.1のいずれか1つの方法。
H6.染色体が第13番染色体である、実施形態H2〜H3.1のいずれか1つの方法。
H7.(b)の前に、参照ゲノムの部分の一部または全てにマッピングされた配列リードのカウントに対する誤差の測定値を算出し、誤差の測定値の閾値に従い、参照のゲノムの特定の部分について配列リードのカウントを除去するか、または重み付けすることを含む、実施形態H1〜H6のいずれか1つの方法。
H8.閾値が、第1のゲノム片レベルと、3.5以上の第2のゲノム片レベルとの標準偏差のギャップに従い選択される、実施形態H7の方法。
H9.誤差の測定値がR因子である、実施形態H7またはH8の方法。
H10.約7%〜約10%のR因子を有する参照ゲノムの一部について配列リードのカウントが(b)の前に除去される、実施形態H9の方法。
H11.(b)のフィットさせた関係がフィットさせた線形関係である、実施形態H1〜H10のいずれか1つの方法。
H12.関係の傾きが線形回帰により決定される、実施形態H11の方法。
H13.各GCバイアスがGCバイアス係数であり、GCバイアス係数が、(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との線形関係の傾きである、実施形態H11またはH12の方法。
H14.(b)のフィットさせた関係がフィットさせた非線形関係である、実施形態H1〜H10のいずれか1つの方法。
H15.各GCバイアスがGC曲率の推定値を含む、実施形態H14の方法。
H16.(c)のフィットさせた関係が線形である、実施形態H1〜H15のいずれか1つの方法。
H17.関係の傾きが線形回帰により決定される、実施形態H16の方法。
H18.(b)のフィットさせた関係が線形であり、(c)のフィットさせた関係が線形であり、ゲノム片レベルLが式β:
=(m−GS)I−1 式β
に従い参照ゲノム部分のそれぞれにおいて決定され、式中、GはGCバイアスであり、Iは(c)のフィットさせた関係の切片であり、Sは(c)の関係の傾きであり、mは参照ゲノムの各部分にマッピングされたカウントの測定値であり、iはサンプルである、実施形態H1〜H17のいずれか1つの方法。
H19.参照ゲノムの部分の数が約40,000以上の部分である、実施形態H1〜H18のいずれか1つの方法。
H20.参照ゲノムの各部分が所定の長さのヌクレオチド配列を含む、実施形態H1〜H19のいずれか1つの方法。
H21.所定の長さが約50キロ塩基である、実施形態H20の方法。
I1.試験サンプルにおけるバイアスゲノムレベルの減少を用いて算出する方法であって、以下を含む方法:
(a)試験サンプルからの循環無細胞核酸のリードである、参照ゲノムの部分にマッピングされた配列リードのカウントを得、
(b)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるマッピング特徴とのフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのバイアス実験値を決定し、
(c)バイアス実験値と、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供することにより、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルで減少する。
I2.参照ゲノムの部分が染色体内にある、実施形態I1の方法。
I3.参照ゲノムの部分が染色体の部分内にある、実施形態I1の方法。
I4.染色体が第21番染色体である、実施形態I2またはI3の方法。
I5.染色体が第18番染色体である、実施形態I2またはI3の方法。
I6.染色体が第13番染色体である、実施形態I2またはI3の方法。
I7.(b)の前に、参照ゲノムの部分の一部または全てにマッピングされた配列リードのカウントに対する誤差の測定値を算出し、誤差の測定値の閾値に従い、参照のゲノムの特定の部分について配列リードのカウントを除去するか、または重み付けすることを含む、実施形態I1〜I6のいずれか1つの方法。
I8.閾値が、第1のゲノム片レベルと、3.5以上の第2のゲノム片レベルとの標準偏差のギャップに従い選択される、実施形態I7の方法。
I9.誤差の測定値がR因子である、実施形態I7またはI8の方法。
I10.約7%〜約10%のR因子を有する参照ゲノムの部分について配列リードのカウントが(b)の前に除去される、実施形態I9の方法。
I11.(b)のフィットさせた関係がフィットさせた線形関係である、実施形態I1〜I10のいずれか1つの方法。
I12.関係の傾きが線形回帰により決定される、実施形態I11の方法。
I13.各バイアス実験値がバイアス実験値係数であり、バイアス実験値係数が、(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるマッピング特徴との線形関係の傾きである、実施形態I11またはI12の方法。
I14.(b)のフィットさせた関係がフィットさせた非線形関係である、実施形態I1〜I10のいずれか1つの方法。
I15.各バイアス実験値がバイアス実験値曲率の推定値を含む、実施形態I14の方法。
I16.(c)のフィットさせた関係が線形である、実施形態I1〜I15のいずれか1つの方法。
I17.関係の傾きが線形回帰により決定される、実施形態I16の方法。
I18.(b)のフィットさせた関係が線形であり、(c)のフィットさせた関係が線形であり、ゲノム片レベルLが式γ:
=(m−GS)I−1 式γ
に従い参照ゲノム部分のそれぞれにおいて決定され、式中、Gはバイアス実験値であり、Iは(c)のフィットさせた関係の切片であり、Sは(c)の関係の傾きであり、mは参照ゲノムの各部分にマッピングされたカウント測定値であり、iはサンプルである、実施形態I1〜I17のいずれか1つの方法。
I19.参照ゲノムの部分の数が約40,000以上の部分である、実施形態I1〜I18のいずれか1つの方法。
I20.マッピング特徴がGC含量であり、バイアス実験値がGCバイアスである、実施形態I1〜I19のいずれか1つの方法。
I21.マッピング特徴がマッピング性の測定値であり、バイアス実験値がマッピング性バイアスである、実施形態I1〜I19のいずれか1つの方法。
I22.(c)の関係が非線形である、実施形態I1〜I21のいずれか1つの方法。
I23.参照ゲノムの各部分が所定の長さのヌクレオチド配列を含む、実施形態I1〜I22のいずれか1つの方法。
I24.所定の長さが約50キロ塩基である、実施形態I23の方法。
J1.偽陰性の少ない、かつ偽陽性の少ない決定を含む、胎児の染色体異数性の有無を決定する方法であって、以下を含む方法:
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを得、
(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、
(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(e)第1の上昇が上昇期待範囲のうちの1つにあるときに、所定の値により第1の上昇を調節し、それにより第1の上昇を調節し、
(f)(e)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果が、核酸配列リードから作製される。
J1.1.第1の上昇がゲノム片のためのものであり、その一部または全てが、母体もしくは胎児、または母体および胎児のコピー数多型を含む、実施形態J1の方法。
J1.2.レベル期待範囲が、母体もしくは胎児、または母体および胎児のホモ接合のコピー数多型および母体もしくは胎児、または母体および胎児のヘテロ接合のコピー数多型に関して決定される、実施形態J1またはJ1.1の方法。
J2.胎児の染色体異数性の有無の偽陽性または偽陰性の同定の尤度を減少させる方法であって、以下を含む方法:
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを得、
(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、ゲノム片において正規化されたカウントのプロファイルを提供し、
(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(e)第1の上昇が上昇期待範囲内にあるときに所定の値により第1の上昇を調節し、それにより、第1の上昇を調節し、
(f)(e)の調節を含むゲノム片におけるゲノム片上昇に従い、胎児の染色体異数性の有無を決定し、それにより染色体異数性の有無を決定する成果が、偽陽性または偽陰性である尤度が減少した核酸配列リードから作製される。
J2.1.第2のセットが実質的に母体および/または胎児のコピー数多型を含まない、実施形態J1またはJ2の方法。
J3.ゲノム全体またはゲノムのセグメントにおいて配列リードのカウントを得ることを含む、実施形態J1〜J2.1のいずれか1つの方法。
J4.性染色体を除くゲノム全体において配列リードのカウントを得ることを含む、実施形態J1〜J3のいずれか1つの方法。
J5.カウントが、GC含量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはそれらの組み合わせにより、(b)において正規化される、実施形態J1〜J4のいずれか1つの方法。
J6.(b)の正規化されたカウントが、正規化モジュールにより提供される、実施形態J1〜J5のいずれか1つの方法。
J7.第2の上昇と有意に異なる第1の上昇が、比較モジュールにより(c)において同定される、実施形態J1〜J6のいずれか1つの方法。
J8.上昇期待範囲が、範囲設定モジュールにより(d)において決定される、実施形態J1〜J7のいずれか1つの方法。
J9.(e)の調節が、調節モジュールにより行われる、実施形態J1〜J8のいずれか1つの方法。
J10.(f)の成果が、成果モジュールにより決定される、実施形態J1〜J9のいずれか1つの方法。
J11.ゲノム片のセットの上昇が、比較モジュールから正規化モジュールに転送される、実施形態J7〜J10のいずれか1つの方法。
J12.第1の上昇が、比較モジュールから調節モジュールに転送される、実施形態J9〜J11のいずれか1つの方法。
J13.上昇期待範囲が、範囲設定モジュールから調節モジュールに転送される、実施形態J9〜J12のいずれか1つの方法。
J14.調節が、調節モジュールから成果モジュールに転送される、実施形態J10〜J13のいずれか1つの方法。
J15.核酸配列リードを得ることを含む、実施形態J1〜J14のいずれか1つの方法。
J16.核酸配列リードが、シークエンシングモジュールにより作製される、実施形態J15の方法。
J17.核酸シークエンシングリードが、超並列シークエンシング(MPS)により作製される、実施形態J15またはJ16の方法。
J18.核酸配列リードを参照ゲノムのゲノム片に、または参照ゲノム全体にマッピングすることを含む、実施形態J15〜J17のいずれか1つの方法。
J19.核酸配列リードが、マッピングモジュールによりマッピングされる、実施形態J18の方法。
J20.参照ゲノムのゲノム片にマッピングされた核酸配列リードが、カウンティングモジュールによりカウントされる、実施形態J1〜J19のいずれか1つの方法。
J21.配列リードが、シークエンシングモジュールからマッピングモジュールに転送される、実施形態J19またはJ20の方法。
J22.参照ゲノムのゲノム片にマッピングされた核酸配列リードが、マッピングモジュールからカウンティングモジュールに転送される、実施形態J20またはJ21の方法。
J23.参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントが、カウンティングモジュールから正規化モジュールに転送される、実施形態J20〜J22のいずれか1つの方法。
J24.装置が、シークエンシングモジュール、マッピングモジュール、カウンティングモジュール、正規化モジュール、比較モジュール、範囲設定モジュール、分類モジュール、調節モジュール、プロットモジュール、成果モジュール、データ表示組織化モジュールまたはロジック処理モジュールの1つ以上を含み、装置が、モジュールの1つ以上からの命令を実行することができるプロセッサを含み、または通信する、実施形態J20〜J23のいずれか1つの方法。
J24.1.第1の装置が、正規化モジュール、比較モジュール、範囲設定モジュール、調節モジュール、および成果モジュールのうちの1つまたはそれより多くを含む、実施形態J24の方法。
J25.第2の装置が、マッピングモジュールおよびカウンティングモジュールを含む、実施形態J20〜J24.1のいずれか1つの方法。
J26.第3の装置がシークエンシングモジュールを含む、実施形態J16〜J25のいずれか1つの方法。
J27.(b)の正規化されたカウントが未処理カウントである、実施形態J1〜J26のいずれか1つの方法。
J28.(b)の正規化されたカウントがフィルタリングされる、実施形態J1〜J27のいずれか1つの方法。
J29.(b)の正規化されたカウントがフィルタリングされない、実施形態J1〜J27のいずれか1つの方法。
J30.プロファイルの第1の上昇および第2の上昇が上昇中央値である、実施形態J1〜J29のいずれか1つの方法。
J31.第2の上昇が、染色体またはそのセグメントにおけるゲノム片のセットを含む、実施形態J1〜J30のいずれか1つの方法。
J32.第1のセット、第2のセット、または第1のセットおよび第2のセットが、2つまたはそれより多いゲノム片を含む、実施形態J1〜J31のいずれか1つの方法。
J33.各ゲノム片が連続ヌクレオチドの長さにほぼ等しいものである、実施形態J32の方法。
J34.各ゲノム片が約50kbである、実施形態J32またはJ33の方法。
J35.各セットが2つまたはそれより多いゲノム片を含む、実施形態J1〜J34のいずれか1つの方法。
J36.各セットが20〜40個のゲノム片を含む、実施形態J1〜J35のいずれか1つの方法。
J37.成果が、90%と等しいかそれより高い特異性および90%と等しいかそれより高い感度とともに提供される、実施形態J1〜J36のいずれか1つの方法。
J38.染色体異数性が染色体の欠失または付加である、実施形態J1〜J37のいずれか1つの方法。
J39.染色体異数性がトリソミーである、実施形態J1〜J39のいずれか1つの方法。
J40.トリソミーがトリソミー21、トリソミー18、またはトリソミー13である、実施形態J39の方法。
J41.不確定値が平均絶対偏差または標準偏差である、実施形態J1〜J40のいずれか1つの方法。
J42.不確定値が第1の上昇から得られる、実施形態J1〜J41のいずれか1つの方法。
J43.不確定値が第2の上昇から得られる、実施形態J1〜J41のいずれか1つの方法。
J43.1.不確定値が、第1の上昇および第2の上昇から得られる、実施形態J1〜J41のいずれか1つの方法。
J44.(d)において上昇期待範囲を決定することが、3回の不確定値による、実施形態J1〜J43のいずれか1つの方法。
J45.ヘテロ接合のコピー数多型またはホモ接合のコピー数多型が、母体もしくは胎児、または母体および胎児の欠失あるいは母体もしくは胎児、または母体よび胎児の重複である、実施形態J1〜J44のいずれか1つの方法。
J46.第2の上昇が参照上昇である、実施形態J1〜J45のいずれか1つの方法。
J47.第1の上昇および第2の上昇が参照上昇に対して正規化される、実施形態J46の方法。
J48.正規化された参照値(NRV)が、参照上昇に対して正規化される第2のレベルに従い決定される、実施形態J47の方法。
J49.コピー数多型についての上昇期待値が、NRVおよびコピー数多型の上昇期待定数に従い決定される、実施形態J48の方法。
J50.NRVに上昇期待値定数が乗算される、実施形態J49の方法。
J51.ホモ接合重複における上昇期待定数が2であり、ヘテロ接合重複が1.5であり、ヘテロ接合欠失が0.5であり、ホモ接合欠失がゼロである、実施形態J49またはJ50の方法。
J52.母体および/または胎児のコピー数多型の非存在における上昇期待定数が1である、実施形態J49〜J51のいずれか1つの方法。
J53.上昇期待範囲が、コピー数多型および不確定値における上昇期待値に従い決定される、実施形態J49〜J52のいずれか1つの方法。
J54.第1の上昇の調節が、所定の値を第1の上昇から減算することを含む、実施形態J1〜J53のいずれか1つの方法。
J55.ゲノム片の第1のセットにマッピングされた1つまたはそれより多い配列リードが、母体もしくは胎児、または母体および胎児の重複を含む、実施形態J54の方法。
J56.第1の上昇の調節が、所定の値を第1の上昇に加算することを含む、実施形態J1〜J53のいずれか1つの方法。
J56.1.所定の値が、コピー数多型において予め決定される所定の調節値(PAV)である、実施形態J1〜J56のいずれか1つの方法。
J56.2.コピー数多型についてのPAVが、コピー数多型についての上昇期待値およびコピー数多型についてのPAV係数に従い決定される、実施形態J56.1の方法。
J56.3.ホモ接合重複におけるPAV係数が−1であり、ヘテロ接合重複が−0.5であり、ヘテロ接合欠失が0.5であり、ホモ接合欠失が1である、実施形態J56.2の方法。
J56.4.PAV係数が、PAV係数を乗算したPAVの積である、実施形態J56.2またはJ56.3の方法。
J57.ゲノム片の第1のセットにマッピングされた配列リードのうちの1つまたはそれより多くが、母体もしくは胎児、または母体および胎児の欠失を含む、J56の方法。
J58.妊娠女性からの循環無細胞核酸の配列リードが、妊娠女性から得られたサンプルからのものである、実施形態J1〜J57のいずれか1つの方法。
J59.サンプルが妊娠女性からの血液を含む、実施形態J58の方法。
J60.サンプルが妊娠女性からの血漿を含む、実施形態J58の方法。
J61.サンプルが妊娠女性からの血清を含む、実施形態J58の方法。
J62.プロファイルが染色体またはそのセグメントのプロファイルである、実施形態J1〜J61のいずれか1つの方法。
J63.プロファイルが複数の第1の上昇を含む、実施形態J1〜J62のいずれか1つの方法。
J64.複数の第1の上昇において、(c)、(d)および(e)を繰り返すことを含む、実施形態J1〜J63のいずれか1つの方法。
J65.ゲノム片の第1のセットが、ゲノム片の第2のセットと異なり、かつ/または区別される、実施形態J1〜J64のいずれか1つの方法。
J66.ゲノム片の第2のセットがゲノム片の第1のセットを含む、実施形態J1〜J64のいずれか1つの方法。
J67.第2の上昇が、ゲノム片の第2のセットにおける上昇の平均値、中間値または中央値である、実施形態J66の方法。
J68.不確定値が第2の上昇の平均値、中間値または中央値から得られ、不確定値が標準偏差またはMADである、実施形態J67の方法。
J69.第2の上昇が染色体全体を表し、第1の上昇が母体もしくは胎児、または母体および胎児のコピー数多型を表す、実施形態J1〜J68のいずれか1つの方法。
K1.胎児を妊娠する妊娠女性のゲノム内の母体および/または胎児のコピー数多型を同定する方法であって、以下を含む方法:
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを得、
(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、
(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(e)上昇期待範囲の1つに基づき、ゲノム片内の母体および/または胎児のコピー数多型を同定し、それにより母体および/または胎児のコピー数多型が核酸配列リードから同定される。
K1.1.第1の上昇がゲノム片のためのものであり、その一部または全てが母体もしくは胎児、または母体および胎児のコピー数多型を含む、実施形態K1の方法。
K1.2.レベル期待範囲が、母体もしくは胎児、または母体および胎児のホモ接合のコピー数多型および母体もしくは胎児、または母体および胎児のヘテロ接合のコピー数多型に関して決定される、実施形態K1またはK1.1の方法。
K2.第2のセットが実質的にコピー数多型を含まない、実施形態K1〜K1.2のいずれか1つの方法。
K3.第1の上昇が上昇期待範囲内にあるときに、所定の値により第1の上昇を調節し、それにより第1の上昇を調節することを含み、母体および/または胎児のコピー数多型がゲノム片の第1のセット内で同定される、実施形態K1またはK2の方法。
K3.1.ゲノム全体またはゲノムのセグメントについて配列リードのカウントを得ることを含む、実施形態K1〜K3のいずれか1つの方法。
K4.性染色体を除くゲノム全体について配列リードのカウントを得ることを含む、実施形態K1〜K3.1のいずれか1つの方法。
K5.カウントが、GC含量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはそれらの組み合わせにより(b)において正規化される、実施形態K1〜K4のいずれか1つの方法。
K6.(b)において正規化されたカウントが、正規化モジュールにより提供される、実施形態K1〜K5のいずれか1つの方法。
K7.第2の上昇と有意に異なる第1の上昇が、比較モジュールにより(c)において同定される、実施形態K1〜K6のいずれか1つの方法。
K8.上昇期待範囲が、範囲設定モジュールにより(d)において決定される、実施形態K1〜K7のいずれか1つの方法。
K9.調節が調節モジュールにより行われる、実施形態K3〜K8のいずれか1つの方法。
K10.(e)において同定することは、分類モジュールにより決定される、実施形態K1〜A9のいずれか1つの方法。
K11.ゲノム片のセットの上昇が、正規化モジュールから比較モジュールに転送される、実施形態K7〜K10のいずれか1つの方法。
K12.第1の上昇が、比較モジュールから調節モジュールに転送される、実施形態K9〜K11のいずれか1つの方法。
K13.上昇期待範囲が、範囲設定モジュールから調節モジュールに転送される、実施形態K9〜K12のいずれか1つの方法。
K14.調節が、調節モジュールから分類モジュールに転送される、実施形態K10〜K13のいずれか1つの方法。
K15.核酸配列リードを得ることを含む、実施形態K1〜K14のいずれか1つの方法。
K16.核酸配列リードが、シークエンシングモジュールにより作製される、実施形態K15の方法。
K17.核酸シークエンシングリードが、超並列シークエンシング(MPS)により作製される、実施形態K15またはK16の方法。
K18.核酸配列リードを、参照ゲノムのゲノム片に、または参照ゲノム全体にマッピングすることを含む、実施形態K15〜K17のいずれか1つの方法。
K19.核酸配列リードがマッピングモジュールによりマッピングされる、実施形態K18の方法。
K20.参照ゲノムのゲノム片にマッピングされた核酸配列リードが、カウンティングモジュールによりカウントされる、実施形態K1〜K19のいずれか1つの方法。
K21.配列リードが、シークエンシングモジュールからマッピングモジュールに転送される、実施形態K19またはK20の方法。
K22.参照ゲノムのゲノム片にマッピングされた核酸配列リードが、マッピングモジュールからカウンティングモジュールに転送される、実施形態K20またはK21の方法。
K23.参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントが、カウンティングモジュールから正規化モジュールに転送される、実施形態K20〜K22のいずれか1つの方法。
K24.装置が、シークエンシングモジュール、マッピングモジュール、カウンティングモジュール、正規化モジュール、比較モジュール、範囲設定モジュール、分類モジュール、調節モジュール、プロットモジュール、成果モジュール、データ表示組織化モジュールまたはロジック処理モジュールの1つ以上を含み、装置がモジュールの1つ以上からの命令を実行することができるプロセッサを含み、または通信する、実施形態K20〜K23のいずれか1つの方法。
K24.1.第1の装置が、正規化モジュール、比較モジュール、範囲設定モジュール、調節モジュールおよび成果モジュールのうちの1つまたはそれより多くを含む、実施形態K24の方法。
K25.第2の装置が、マッピングモジュールおよびカウンティングモジュールを含む、実施形態K20〜K24.1のいずれか1つの方法。
K26.第3の装置がシークエンシングモジュールを含む、実施形態K16〜K25のいずれか1つの方法。
K27.(b)において正規化されたカウントが未処理カウントである、実施形態K1〜K26のいずれか1つの方法。
K28.(b)において正規化されたカウントがフィルタリングされる、実施形態K1〜K27のいずれか1つの方法。
K29.(b)において正規化されたカウントがフィルタリングされない、実施形態K1〜K27のいずれか1つの方法。
K30.プロファイルの第1の上昇および第2の上昇が、上昇中央値である、実施形態K1〜K29のいずれか1つの方法。
K31.ゲノム片について正規化されたカウントのプロファイルが、染色体またはそのセグメントのプロファイルである、実施形態K1〜K30のいずれか1つの方法。
K32.第1のセット、第2のセット、または第1のセットおよび第2のセットが、2つまたはそれより多いゲノム片を含む、実施形態K1〜K31のいずれか1つの方法。
K33.各ゲノム片が連続ヌクレオチドの長さにほぼ等しいものである、実施形態K32の方法。
K34.各ゲノム片が約50kbである、実施形態K32またはK33の方法。
K35.各セットが2つまたはそれより多いゲノム片を含む、実施形態K1〜K34のいずれか1つの方法。
K36.各セットが20〜40個のゲノム片を含む、実施形態K1〜K35のいずれか1つの方法。
K37.(e)において同定されることは、90%と等しいかそれより高い特異性および90%と等しいかそれより高い感度とともに提供される、実施形態K1〜K36のいずれか1つの方法。
K38.プロファイルが異数性を含む、実施形態K1〜K37のいずれか1つの方法。
K39.異数性がトリソミーである、実施形態K38の方法。
K40.トリソミーがトリソミー21、トリソミー18、またはトリソミー13である、実施形態K39の方法。
K41.不確定値が平均絶対偏差または標準偏差である、実施形態K1〜K40のいずれか1つの方法。
K42.不確定値が第1の上昇から得られる、実施形態K1〜K41のいずれか1つの方法。
K43.不確定値が第2の上昇から得られる、実施形態K1〜K41のいずれか1つの方法。
K43.1.不確定値が、第1の上昇および第2の上昇から得られる、実施形態K1〜K41のいずれか1つの方法。
K44.(d)の上昇期待範囲を決定することは3回の不確定値による、実施形態K1〜K43のいずれか1つの方法。
K45.ヘテロ接合のコピー数多型またはホモ接合のコピー数多型が、母体もしくは胎児、または母体および胎児の欠失あるいは母体もしくは胎児、または母体よび胎児の重複である、実施形態K1〜K44のいずれか1つの方法。
K46.第2の上昇が参照上昇である、実施形態K1〜K45のいずれか1つの方法。
K47.第1の上昇および第2の上昇が参照上昇に対して正規化される、実施形態K46の方法。
K48.正規化された参照値(NRV)は、参照上昇に対して正規化される第2のレベルに従い決定される、実施形態K47の方法。
K49.コピー数多型についての上昇期待値は、NRVおよびコピー数多型の上昇期待定数に従い決定される、実施形態K48の方法。
K50.NRVに上昇期待定数が乗算される、実施形態K49の方法。
K51.ホモ接合重複における上昇期待定数が2であり、ヘテロ接合重複が1.5であり、ヘテロ接合欠失が0.5であり、ホモ接合欠失がゼロである、実施形態K49またはK50の方法。
K52.母体および/または胎児のコピー数多型の非存在における上昇期待定数が1である、実施形態K49〜K51のいずれか1つの方法。
K53.上昇期待範囲が、コピー数多型および不確定値における上昇期待値に従い決定される、実施形態K49〜K52のいずれか1つの方法。
K54.第1の上昇の調節が、所定の値を第1の上昇から減算することを含む、実施形態K3〜K54のいずれか1つの方法。
K55.ゲノム片の第1のセットにマッピングされた1つまたはそれより多い配列リードが、母体もしくは胎児、または母体および胎児の重複を含む、実施形態K54の方法。
K56.第1の上昇の調節が、所定の値を第1の上昇に加算することを含む、実施形態K3〜K53のいずれか1つの方法。
K56.1.所定の値が、コピー数多型において予め決定される所定の調節値(PAV)である、実施形態K1〜K56のいずれか1つの方法。
K56.2.コピー数多型についてのPAVが、コピー数多型についての上昇期待値およびコピー数多型についてのPAV係数に従い決定される、実施形態K56.1の方法。
K56.3.ホモ接合重複におけるPAV係数が−1であり、ヘテロ接合重複が−0.5であり、ヘテロ接合欠失が0.5であり、ホモ接合欠失が1である、実施形態K56.2の方法。
K56.4.PAV係数が、PAV係数を乗算したPAVの積である、実施形態K56.2またはK56.3の方法。
K57.ゲノム片の第1のセットにマッピングされた配列リードのうちの1つまたはそれより多くが、母体もしくは胎児、または母体および胎児の欠失を含む、K56の方法。
K58.妊娠女性からの循環無細胞核酸の配列リードが、妊娠女性から得られたサンプルからのものである、実施形態K1〜K57のいずれか1つの方法。
K59.サンプルが妊娠女性からの血液を含む、実施形態K58の方法。
K60.サンプルが妊娠女性からの血漿を含む、実施形態K58の方法。
K61.サンプルが妊娠女性からの血清を含む、実施形態K58の方法。
K62.プロファイルが染色体またはそのセグメントのプロファイルである、実施形態K1〜K61のいずれか1つの方法。
K63.プロファイルが複数の第1の上昇を含む、実施形態K1〜K62のいずれか1つの方法。
K64.複数の第1の上昇において、(c)、(d)および(e)を繰り返すことを含む、実施形態K1〜K63のいずれか1つの方法。
K65.ゲノム片の第1のセットが、ゲノム片の第2のセットと異なり、かつ/または区別される、実施形態K1〜K64のいずれか1つの方法。
K66.ゲノム片の第2のセットがゲノム片の第1のセットを含む、実施形態K1〜K64のいずれか1つの方法。
K67.第2の上昇が、ゲノム片の第2のセットにおける上昇の平均値、中間値または中央値である、実施形態K66の方法。
K68.不確定値が、第2の上昇の平均値、中間値または中央値から得られ、不確定値が標準偏差またはMADである、実施形態K67の方法。
K69.第2の上昇が染色体全体を表し、第1の上昇が母体もしくは胎児、または母体および胎児のコピー数多型を表す、実施形態K1〜K68のいずれか1つの方法。
L1.偽陰性が少なく、偽陽性が少ない決定を含む、胎児の染色体異数性の有無を決定する方法であって、以下を含む方法:
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを得、
(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、
(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(e)第2の上昇に従い第1の上昇を調節し、それにより第1の上昇を調節し、
(f)(e)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果が、核酸配列リードから作製される、。
L2.胎児の染色体異数性の有無の偽陽性または偽陰性決定の尤度を減少させる方法であって、以下を含む方法:
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを得、
(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それによりゲノム片について正規化されたカウントのプロファイルを提供し、
(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(e)第2の上昇に従い第1の上昇を調節し、それにより第1の上昇を調節し、
(f)(e)の調節を含むゲノム片のゲノム片上昇に従い、胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無を決定する成果が、偽陽性または偽陰性である尤度が少ない核酸配列リードから作製される。
L2.1.第1の上昇がゲノム片のためのものであり、その一部または全てが母体もしくは胎児、または母体および胎児のコピー数多型を含む、実施形態L1またはL2の方法。
L2.2.レベル期待範囲が、母体もしくは胎児、または母体および胎児のホモ接合のコピー数多型および母体もしくは胎児、または母体および胎児のヘテロ接合のコピー数多型に関して決定される、実施形態L1からL2.1のいずれか1つの方法。
L3.第2のセットが実質的に母体および/または胎児のコピー数多型を含まない、実施形態L1〜L2.2のいずれか1つの方法。
L4.第1のレベルが第2のレベルに調節される、実施形態L1〜L3のいずれか1つの方法。
L4.1.第1の上昇が上昇期待範囲内にあるときに、所定の値により第1の上昇を調節し、それにより第1の上昇を調節することを含み、母体および/または胎児のコピー数多型がゲノム片の第1のセット内で同定される、実施形態L1〜L4のいずれか1つの方法。
L4.2.ゲノム全体またはゲノムのセグメントについて配列リードのカウントを得ることを含む、実施形態L1〜L4.1のいずれか1つの方法。
L4.3.性染色体を除くゲノム全体について配列リードのカウントを得ることを含む、実施形態L1〜L4.2のいずれか1つの方法。
L5.カウントが、GC含量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはそれらの組み合わせにより、(b)において正規化される、実施形態L1〜L4.3のいずれか1つの方法。
L6.(b)の正規化されたカウントが、正規化モジュールにより提供される、実施形態L1〜L5のいずれか1つの方法。
L7.第2の上昇と有意に異なる第1の上昇が、比較モジュールにより(c)において同定される、実施形態L1〜L6のいずれか1つの方法。
L8.上昇期待範囲が、範囲設定モジュールにより(d)において決定される、実施形態L1〜L7のいずれか1つの方法。
L9.調節が調節モジュールにより行われる、実施形態L3〜L8のいずれか1つの方法。
L10.(e)において同定することは、分類モジュールにより決定される、実施形態L1〜A9のいずれか1つの方法。
L11.ゲノム片のセットの上昇が、正規化モジュールから比較モジュールに転送される、実施形態L7〜L10のいずれか1つの方法。
L12.第1の上昇が、比較モジュールから調節モジュールに転送される、実施形態L9〜L11のいずれか1つの方法。
L13.上昇期待範囲が、範囲設定モジュールから調節モジュールに転送される、実施形態L9〜L12のいずれか1つの方法。
L14.調節が、調節モジュールから分類モジュールに転送される、実施形態L10〜L13のいずれか1つの方法。
L15.核酸配列リードを得ることを含む、実施形態L1〜L14のいずれか1つの方法。
L16.核酸配列リードが、シークエンシングモジュールにより作製される、実施形態L15の方法。
L17.核酸シークエンシングリードが超並列シークエンシング(MPS)により作製される、実施形態L15またはL16の方法。
L18.核酸配列リードを参照ゲノムのゲノム片に、または参照ゲノム全体にマッピングすることを含む、実施形態L15〜L17のいずれか1つの方法。
L19.核酸配列リードがマッピングモジュールによりマッピングされる、実施形態L18の方法。
L20.参照ゲノムのゲノム片にマッピングされた核酸配列リードが、カウンティングモジュールによりカウントされる、実施形態L1〜L19のいずれか1つの方法。
L21.配列リードが、シークエンシングモジュールからマッピングモジュールに転送される、実施形態L19またはL20の方法。
L22.参照ゲノムのゲノム片にマッピングされた核酸配列リードが、マッピングモジュールからカウンティングモジュールに転送される、実施形態L20またはL21の方法。
L23.参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントが、カウンティングモジュールから正規化モジュールに転送される、実施形態L20〜L22のいずれか1つの方法。
L24.装置が、シークエンシングモジュール、マッピングモジュール、カウンティングモジュール、正規化モジュール、比較モジュール、範囲設定モジュール、分類モジュール、調節モジュール、プロットモジュール、成果モジュール、データ表示組織化モジュールまたはロジック処理モジュールの1つ以上を含み、装置がモジュールの1つ以上からの命令を実行することができるプロセッサを含み、または通信する、実施形態L20〜L23のいずれか1つの方法。
L24.1.第1の装置が、正規化モジュール、比較モジュール、範囲設定モジュール、調節モジュールおよび成果モジュールのうちの1つまたはそれより多くを含む、実施形態L24の方法。
L25.第2の装置が、マッピングモジュールおよびカウンティングモジュールを含む、実施形態L20〜L24.1のいずれか1つの方法。
L26.第3の装置がシークエンシングモジュールを含む、実施形態L16〜L25のいずれか1つの方法。
L27.(b)で正規化されたカウントが未処理カウントである、実施形態L1〜L26のいずれか1つの方法。
L28.(b)で正規化されたカウントがフィルタリングされる、実施形態L1〜L27のいずれか1つの方法。
L29.(b)で正規化されたカウントがフィルタリングされない、実施形態L1〜L27のいずれか1つの方法。
L30.プロファイルの第1の上昇および第2の上昇が、上昇中央値である、実施形態L1〜L29のいずれか1つの方法。
L31.ゲノム片について正規化されたカウントのプロファイルが、染色体またはそのセグメントのプロファイルである、実施形態L1〜L30のいずれか1つの方法。
L32.第1のセット、第2のセット、または第1のセットおよび第2のセットが、2つまたはそれより多いゲノム片を含む、実施形態L1〜L31のいずれか1つの方法。
L33.各ゲノム片が連続ヌクレオチドの長さにほぼ等しいものである、実施形態L32の方法。
L34.各ゲノム片が約50kbである、実施形態L32またはL33の方法。
L35.各セットが2つまたはそれより多いゲノム片を含む、実施形態L1〜L34のいずれか1つの方法。
L36.各セットが20〜40個のゲノム片を含む、実施形態L1〜L35のいずれか1つの方法。
L37.(e)において同定されることが、90%と等しいかそれより高い特異性および90%と等しいかそれより高い感度とともに提供される、実施形態L1〜L36のいずれか1つの方法。
L38.プロファイルが異数性を含む、実施形態L1〜L37のいずれか1つの方法。
L39.異数性がトリソミーである、実施形態L38の方法。
L40.トリソミーがトリソミー21、トリソミー18、またはトリソミー13である、実施形態L39の方法。
L41.不確定値が平均絶対偏差または標準偏差である、実施形態L1〜L40のいずれか1つの方法。
L42.不確定値が第1の上昇から得られる、実施形態L1〜L41のいずれか1つの方法。
L43.不確定値が第2の上昇から得られる、実施形態L1〜L41のいずれか1つの方法。
L43.1.不確定値が、第1の上昇および第2の上昇から得られる、実施形態L1〜L41のいずれか1つの方法。
L44.(d)において上昇期待範囲を決定することが、3回の不確定要素による、実施形態L1〜L43のいずれか1つの方法。
L45.ヘテロ接合のコピー数多型またはホモ接合のコピー数多型は、母体もしくは胎児、または母体および胎児の欠失あるいは母体もしくは胎児、または母体よび胎児の重複である、実施形態L1〜L44のいずれか1つの方法。
L46.第2の上昇が参照上昇である、実施形態L1〜L45のいずれか1つの方法。
L47.第1の上昇および第2の上昇が、参照上昇に対して正規化される、実施形態L46の方法。
L48.正規化された参照値(NRV)は、参照上昇に対して正規化される第2のレベルに従い決定される、実施形態L47の方法。
L49.コピー数多型についての上昇期待値は、NRVおよびコピー数多型の上昇期待定数に従い決定される、実施形態L48の方法。
L50.NRVに上昇期待定数が乗算される、実施形態L49の方法。
L51.ホモ接合重複における上昇期待定数が2であり、ヘテロ接合重複が1.5であり、ヘテロ接合欠失が0.5であり、ホモ接合欠失がゼロである、実施形態L49またはL50の方法。
L52.母体および/または胎児のコピー数多型の非存在における上昇期待定数が1である、実施形態L49〜L51のいずれか1つの方法。
L53.上昇期待範囲が、コピー数多型および不確定値における上昇期待値に従い決定される、実施形態L49〜L52のいずれか1つの方法。
L54.第1の上昇の調節が、所定の値を第1の上昇から減算することを含む、実施形態L3〜L54のいずれか1つの方法。
L55.ゲノム片の第1のセットにマッピングされた1つまたはそれより多い配列リードが、母体もしくは胎児、または母体および胎児の重複を含む、実施形態L54の方法。
L56.第1の上昇の調節が、所定の値を第1の上昇に加算することを含む、実施形態L3〜L53のいずれか1つの方法。
L56.1.所定の値が、コピー数多型において予め決定される所定の調節値(PAV)である、実施形態L1〜L56のいずれか1つの方法。
L56.2.コピー数多型についてのPAVが、コピー数多型についての上昇期待値およびコピー数多型についてのPAV係数に従い決定される、実施形態L56.1の方法。
L56.3.ホモ接合重複におけるPAV係数が−1であり、ヘテロ接合重複が−0.5であり、ヘテロ接合欠失が0.5であり、ホモ接合欠失が1である、実施形態L56.2の方法。
L56.4.PAV係数が、PAV係数を乗算したPAVの積である、実施形態L56.2またはL56.3の方法。
L57.ゲノム片の第1のセットにマッピングされた配列リードのうちの1つまたはそれより多くが、母体もしくは胎児、または母体および胎児の欠失を含む、実施形態L56の方法。
L58.妊娠女性からの循環無細胞核酸の配列リードが、妊娠女性から得られたサンプルからのものである、実施形態L1〜L57のいずれか1つの方法。
L59.サンプルが妊娠女性からの血液を含む、実施形態L58の方法。
L60.サンプルが妊娠女性からの血漿を含む、実施形態L58の方法。
L61.サンプルが妊娠女性からの血清を含む、実施形態L58の方法。
L62.プロファイルが、染色体またはそのセグメントのプロファイルである、実施形態L1〜L61のいずれか1つの方法。
L63.プロファイルが複数の第1の上昇を含む、実施形態L1〜L58のいずれか1つの方法。
L64.複数の第1の上昇において、(c)、(d)および(e)を繰り返すことを含む、実施形態L1〜L59のいずれか1つの方法。
L65.ゲノム片の第1のセットが、ゲノム片の第2のセットと異なり、かつ/または区別される、実施形態L1〜L64のいずれか1つの方法。
L66.ゲノム片の第2のセットがゲノム片の第1のセットを含む、実施形態L1〜L64のいずれか1つの方法。
L67.第2の上昇が、ゲノム片の第2のセットにおける上昇の平均値、中間値または中央値である、実施形態L66の方法。
L68.不確定値が第2の上昇の平均値、中間値または中央値から得られ、不確定値が標準偏差またはMADである、実施形態L67の方法。
L69.第2の上昇が染色体全体を表し、第1の上昇が母体もしくは胎児、または母体および胎児のコピー数多型を表す、実施形態L1〜L68のいずれか1つの方法。
M1.1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムの部分にマッピングされた配列リードのカウントを含み、配列リードは試験サンプルからの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(b)(i)GCバイアスと、(ii)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれにおけるゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供することにより、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される、システム。
M2.1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムの部分にマッピングされた配列リードのカウントを含み、配列リードは試験サンプルからの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(b)(i)GCバイアスと、(ii)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれにおけるゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供することにより、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される、装置。
M3.コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)試験サンプルからの循環無細胞核酸のリードである、参照ゲノムの部分にマッピングされた配列リードのカウントにアクセスし、
(b)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(c)(i)GCバイアスと、(ii)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供することにより、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される命令を含む、コンピュータプログラム製品。
N1.1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムの部分にマッピングされた配列リードのカウントを含み、配列リードは胎児を妊娠する妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(b)GCバイアスと、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供し、
(c)95%以上の感受性および95%以上の特異性の算出されたゲノム片レベルに従い、胎児における異数性の有無を同定するよう構成される、システム。
N2.1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムの部分にマッピングされた配列リードのカウントを含み、配列リードは胎児を妊娠する妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(b)GCバイアスと、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供し、
(c)95%以上の感受性および95%以上の特異性の算出されたゲノム片レベルに従い、胎児における異数性の有無を同定するよう構成される、装置。
N3.コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)胎児を妊娠する妊娠女性からの循環無細胞核酸のリードである、参照ゲノムの部分にマッピングされた配列リードのカウントにアクセスし、
(b)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(c)GCバイアスと、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供し、
(d)95%以上の感受性および95%以上の特異性の算出されたゲノム片レベルに従い、胎児における異数性の有無を同定するよう構成される命令を含む、コンピュータプログラム製品。
O1.1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムの部分にマッピングされた配列リードのカウントを含み、配列リードは胎児を妊娠する妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるマッピング特徴とのフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのバイアス実験値を決定し、
(b)バイアス実験値と、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供することにより、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される、システム。
O2.1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムの部分にマッピングされた配列リードのカウントを含み、配列リードは胎児を妊娠する妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるマッピング特徴とのフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのバイアス実験値を決定し、
(b)バイアス実験値と、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれにおけるゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供することにより、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される、装置。
O3.コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)試験サンプルからの循環無細胞核酸のリードである、参照ゲノムの部分にマッピングされた配列リードのカウントにアクセスし、
(b)(i)参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントと、(ii)部分のそれぞれにおけるマッピング特徴とのフィットさせた関係から複数のサンプルにおける参照ゲノムの部分のそれぞれのバイアス実験値を決定し、
(c)バイアス実験値と、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントとの間のフィットさせた関係から参照ゲノムの部分のそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供することにより、参照ゲノムの部分のそれぞれにマッピングされた配列リードのカウントにおけるバイアスが、算出されたゲノム片レベルにおいて減少するよう構成される命令を含む、コンピュータプログラム製品。
P1.1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードは妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(c)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(d)第1の上昇が上昇期待範囲のうちの1つにあるときに、所定の値により第1の上昇を調節し、それにより第1の上昇を調節し、
(e)(d)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無の決定が、核酸配列リードから作製されるよう構成される、システム。
P2.1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードは妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇は、ゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(c)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(d)第1の上昇が上昇期待範囲のうちの1つにあるときに、所定の値により第1の上昇を調節し、それにより第1の上昇を調節し、
(e)(d)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無の決定が、核酸配列リードから作製されるよう構成される、装置。
P3.コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントにアクセスし、
(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(e)第1の上昇が上昇期待範囲のうちの1つにあるときに、所定の値により第1の上昇を調節し、それにより第1の上昇を調節し、
(f)(e)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定し、それにより、染色体異数性の有無の決定が、核酸配列リードから作製されるよう構成される命令を含む、コンピュータプログラム製品。
Q1.1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードは妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(c)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(d)上昇期待範囲の1つに基づくゲノム片内の母体および/または胎児のコピー数多型を同定し、それにより母体および/または胎児のコピー数多型が、核酸配列リードから同定されるよう構成される、システム。
Q2.1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードは妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この(第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(c)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(d)上昇期待範囲の1つに基づくゲノム片内の母体および/または胎児のコピー数多型を同定し、それにより母体および/または胎児のコピー数多型が、核酸配列リードから同定されるよう構成される、装置。
Q3.コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントにアクセスし、
(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(e)上昇期待範囲の1つに基づくゲノム片内の母体および/または胎児のコピー数多型を同定し、それにより母体および/または胎児のコピー数多型が、核酸配列リードから同定されるよう構成される命令を含む、コンピュータプログラム製品。
R1.1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードは妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(c)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(d)第2の上昇に従い第1の上昇を調節し、それにより、第1の上昇を調節し、
(e)(d)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定し、それにより染色体異数性の有無の決定が、核酸配列リードから作製されるよう構成される、システム。
R2.1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、配列リードは妊娠女性からの循環無細胞核酸のリードであり、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(b)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(c)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(d)第2の上昇に従い第1の上昇を調節し、それにより、第1の上昇を調節し、
(e)(d)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定し、それにより染色体異数性の有無の決定が、核酸配列リードから作製されるよう構成される、装置。
R3.コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントにアクセスし、
(b)参照ゲノムのゲノム片にマッピングされたカウントを正規化し、それにより、ゲノム片について正規化されたカウントのプロファイルを提供し、
(c)プロファイルの正規化されたカウントの第2の上昇と有意に異なる正規化されたカウントの第1の上昇を同定し、この第1の上昇はゲノム片の第1のセットについてのものであり、この第2の上昇はゲノム片の第2のセットについてのものであり、
(d)ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定し、
(e)第2の上昇に従い第1の上昇を調節し、それにより、第1の上昇を調節し、
(f)(e)の調節を含むゲノム片の上昇に従い、胎児の染色体異数性の有無を決定し、それにより染色体異数性の有無の決定が、核酸配列リードから作製されるよう構成される命令を含む、コンピュータプログラム製品。
S1.1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムのゲノム片にマッピングされた試験被験体からの血中細胞非含有サンプル核酸の配列リードのカウントを含み、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)ゲノム片のそれぞれについて配列リードのカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(b)(a)のサンプル正規化されたカウントプロファイルから染色体異常断片もしくた胎児異数性または両方の有無を決定するよう構成される、システム。
S2.1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
メモリは1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ参照ゲノムのゲノム片にマッピングされた試験被験体からの血中細胞非含有サンプル核酸の配列リードのカウントを含み、
1つまたはそれより多いプロセッサにより実行可能な命令は、
(a)ゲノム片のそれぞれについて配列リードのカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(b)(a)のサンプル正規化されたカウントプロファイルから染色体異常断片もしくた胎児異数性または両方の有無を決定するよう構成される、装置。
S3.コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)参照ゲノムのゲノム片にマッピングされた試験被験体からの血中細胞非含有サンプル核酸の配列リードのカウントにアクセスし、
(b)ゲノム片のそれぞれについて配列リードのカウントを正規化することによりサンプル正規化されたカウントプロファイルを作製し、
(c)(b)のサンプル正規化されたカウントプロファイルから染色体異常断片もしくは胎児の異数性または両方の有無を決定するよう構成される命令を含む、コンピュータプログラム製品。
本明細書において参照された各特許、特許出願、公報および明細書の全体は、参照により本明細書に組み込まれる。上記の特許、特許出願、公報および明細書の引用は、上記のいずれかが関連の従来技術であるという承認ではなく、これらの公報または明細書の内容または日付に関し何らかの承認を構成することもない。
技術の基本的な態様から逸脱することなく、上記を修正することができる。技術は、1つまたはそれより多い特定の実施形態を参照して、実質的に詳細に説明しているが、当業者であれば、本出願に特に開示される実施形態を変更することができ、さらにこれらの修正および改善が技術の範囲および趣旨内であることが理解されるだろう。
本明細書において図により説明した技術は、本明細書に特に開示されていない任意の要素(各要素)の存在しない場合に適切に実施することができる。したがって、例えば、本明細書における各例において、用語「含む」、「本質的に〜からなる」および「〜からなる」は、他の2つの用語のいずれかと置き換えることができる。使用されている用語および表現は、説明の用語として使用され、限定されず、このような用語および表現の使用は、示され、かつ説明される特徴の任意の等価物またはその部分を除外せず、種々の修正が主張される技術の範囲内で可能である。用語、不定冠詞(「a」または「an」)は、要素の1つまたは要素の1つまたはそれより多いいずれかを説明することが文脈上、明らかでない限り、修正する要素の1つまたは複数を指すことができる(例えば、「試薬」は複数の試薬を意味することができる)。本明細書において使用される場合、用語「約」は基本となるパラメータの10%以内の値を指し(すなわち、プラスまたはマイナス10%)、一連の値の始めの用語「約」の使用は、各値を修飾する(すなわち、「約1、2および3」は、約1、約2および約3を指す)。例えば、「約100グラム」は、90グラム〜110グラムの重さを含むことができる。さらに、本明細書において、値の列挙が記載されるとき(例えば、約50%、60%、70%、80%、85%または86%)、列挙は、その全ての中間および分数の値(例えば、54%、85.4%)を含む。したがって、本技術が、当業者が利用し得る、本明細書に開示された概念の代表的な実施形態、任意選択の特徴、修正および変形により特に開示されているが、このような修正および変形は本技術の範囲であると考慮されると理解されるものとする。
本技術の特定の実施形態を、以下に続く特許請求の範囲に記載する。
(項目1)
試験サンプルについて、バイアスゲノム片レベルの減少を用いて算出するための方法であって、上記方法は:
(a)参照ゲノムの部分にマッピングされた配列リードのカウントを得る工程であって、上記配列リードは、試験サンプルからの循環無細胞核酸のリードである、工程;
(b)(i)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントと、(ii)上記部分のそれぞれにおけるGC含量との間の、各サンプルについてフィットさせた関係から、複数のサンプルについての上記参照ゲノムの上記部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定する工程、
(c)(i)上記GCバイアスと、(ii)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントとの間のフィットさせた関係から上記参照ゲノムの上記部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供する工程であって、ここで上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントにおけるバイアスが、上記算出されたゲノム片レベルにおいて減少する、工程
を包含する、方法。
(項目2)
上記参照ゲノムの上記部分が染色体内にある、項目1に記載の方法。
(項目3)
上記参照ゲノムの上記部分が染色体の一部にある、項目1に記載の方法。
(項目4)
上記染色体が第21番染色体である、項目2または3の方法。
(項目5)
上記染色体が第18番染色体である、項目2または3の方法。
(項目6)
上記染色体が第13番染色体である、項目2または3の方法。
(項目7)
(b)の前に、上記参照ゲノムの上記部分の一部または全てにマッピングされた上記配列リードのカウントにおける誤差の測定値を算出する工程、および上記誤差の測定値の閾値に従い上記参照ゲノムの特定の部分について上記配列リードのカウントを除去するか、または重み付けする工程を含む、項目1〜6のいずれか1項に記載の方法。
(項目8)
上記閾値が、第1のゲノム片レベルと第2のゲノム片レベルとの間の、3.5またはそれより大きい標準偏差のギャップに従い選択される、項目7に記載の方法。
(項目9)
上記誤差の測定値がR因子である、項目7または8に記載の方法。
(項目10)
約7%〜約10%のR因子を有する上記参照ゲノムの上記部分についての上記配列リードのカウントが(b)の前に除去される、項目9に記載の方法。
(項目11)
(b)の上記フィットさせた関係がフィットさせた線形関係である、項目1〜10のいずれか1項に記載の方法。
(項目12)
上記関係の傾きが線形回帰により決定される、項目11に記載の方法。
(項目13)
各GCバイアスがGCバイアス係数であり、上記GCバイアス係数は、(i)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントと、(ii)上記部分のそれぞれにおける上記GC含量との間の上記線形関係の傾きである、項目11または12に記載の方法。
(項目14)
(b)の上記フィットさせた関係がフィットさせた非線形関係である、項目1〜10のいずれか1項に記載の方法。
(項目15)
各GCバイアスがGC曲率の推定値を含む、項目14に記載の方法。
(項目16)
(c)の上記フィットさせた関係が線形である、項目1〜15のいずれか1項に記載の方法。
(項目17)
上記関係の傾きが線形回帰により決定される、項目16に記載の方法。
(項目18)
(b)の上記フィットさせた関係が線形であり、(c)の上記フィットさせた関係が線形であり、上記ゲノム片レベルLが、式α:
Li=(m−GS)I−1 式α
に従い、上記参照ゲノムの上記部分のそれぞれについて決定され、ここで式中、Gは上記GCバイアスであり、Iは(c)の上記フィットさせた関係の切片であり、Sは(c)の上記関係の傾きであり、mは上記参照ゲノムの各部分にマッピングされたカウント測定値であり、iはサンプルである、項目1〜17のいずれか1項に記載の方法。
(項目19)
上記参照ゲノムの上記部分の数が約40,000以上の部分である、項目1〜18のいずれか1項に記載の方法。
(項目20)
上記参照ゲノムの各部分が所定の長さのヌクレオチド配列を含む、項目1〜19のいずれか1項に記載の方法。
(項目21)
上記所定の長さが約50キロ塩基である、項目20に記載の方法。
(項目22)
(b)の上記GCバイアスがGCバイアスモジュールにより決定される、項目1〜21のいずれか1項に記載の方法。
(項目23)
(c)の上記ゲノム片レベルがレベルモジュールにより算出される、項目1〜22のいずれか1項に記載の方法。
(項目24)
上記(c)のゲノム片レベルが式αに従い上記レベルモジュールにより提供される、項目23に記載の方法。
(項目25)
上記レベルモジュールが上記GCモジュールからGCバイアスの決定を受信する、項目23または24の方法。
(項目26)
1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
上記メモリは、上記1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ上記メモリは、参照ゲノムの部分にマッピングされた配列リードのカウントを含み、上記配列リードは、試験サンプルからの循環無細胞核酸のリードであり、
上記1つまたはそれより多いプロセッサにより実行可能な上記命令は、
(a)(i)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントと、(ii)上記部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から、複数のサンプルについての上記参照ゲノムの上記部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、かつ
(b)(i)上記GCバイアスと、(ii)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントとの間のフィットさせた関係から上記参照ゲノムの上記部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供するように構成され、ここで上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントにおけるバイアスが上記算出されたゲノム片レベルにおいて減少する、
システム。
(項目27)
1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
上記メモリは、上記1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ上記メモリは、参照ゲノムの部分にマッピングされた配列リードのカウントを含み、上記配列リードは、試験サンプルからの循環無細胞核酸のリードであり、
上記1つまたはそれより多いプロセッサにより実行可能な上記命令は、
(a)(i)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントと、(ii)上記部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から、複数のサンプルについての上記参照ゲノムの上記部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、
(b)(i)上記GCバイアスと、(ii)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントとの間のフィットさせた関係から上記参照ゲノムの上記部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供するように構成され、ここで上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントにおけるバイアスが、上記算出されたゲノム片レベルにおいて減少する、
装置。
(項目28)
コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)試験サンプルからの循環無細胞核酸のリードである、参照ゲノムの部分にマッピングされた配列リードのカウントにアクセスし、
(b)(i)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントと、(ii)上記部分のそれぞれにおけるGC含量との間の各サンプルについてフィットさせた関係から複数のサンプルについての上記参照ゲノムの上記部分のそれぞれのグアニンおよびシトシン(GC)バイアスを決定し、そして
(c)(i)上記GCバイアスと、(ii)上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントとの間のフィットさせた関係から上記参照ゲノムの上記部分のそれぞれのゲノム片レベルを算出し、それにより、算出されたゲノム片レベルを提供するよう構成される命令を含み、ここで上記参照ゲノムの上記部分のそれぞれにマッピングされた上記配列リードの上記カウントにおけるバイアスが、上記算出されたゲノム片レベルにおいて減少する、
コンピュータプログラム製品。
(項目29)
胎児の染色体異数性の有無を決定するための方法であって、上記方法は:
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを得る工程、
(b)上記参照ゲノムの上記ゲノム片にマッピングされた上記カウントを正規化し、それにより上記ゲノム片について正規化されたカウントのプロファイルを提供する工程、
(c)上記プロファイルの上記正規化されたカウントの第2の上昇と有意に異なる上記正規化されたカウントの第1の上昇を同定する工程であって、ここで、上記第1の上昇はゲノム片の第1のセットについてのものであり、かつ上記第2の上昇はゲノム片の第2のセットについてのものである、工程、
(d)上記ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型における上昇期待範囲を決定する工程、
(e)上記第1の上昇が上記上昇期待範囲のうちの1つにあるときに上記第1の上昇を調節し、それにより上記第1の上昇の調節を提供する工程、
(f)(e)の上記調節を含む上記のゲノム片の上昇に従い、上記胎児の染色体異数性の有無を決定する工程であって、ここで上記染色体異数性の有無を決定する成果が、上記核酸配列リードから作製される、工程
を包含する、方法。
(項目30)
上記ゲノム片の第1のセットにマッピングされた上記配列リードの上記カウントが、母体もしくは胎児、または母体および胎児の重複を含む、項目29に記載の方法。
(項目31)
上記レベル期待範囲が、母体もしくは胎児、または母体および胎児のホモ接合のコピー数多型、ならびに母体もしくは胎児、または母体および胎児のヘテロ接合のコピー数多型に関して決定される、項目29または30に記載の方法。
(項目32)
上記第1の上昇が、所定の値により(e)において調節される、項目29〜31のいずれか1項に記載の方法。
(項目33)
上記第1の上昇が、上記第2の上昇に対して(e)において調節される、項目29〜31のいずれか1項の方法。
(項目34)
上記第2のセットにマッピングされた上記リードの上記カウントが、実質的に母体および/または胎児のコピー数多型を含まない、項目29〜33のいずれか1項に記載の方法。
(項目35)
ゲノム全体またはゲノムのセグメントについて配列リードのカウントを得る工程を含む、項目29〜34のいずれか1項に記載の方法。
(項目36)
性染色体を除くゲノム全体について配列リードのカウントを得る工程を含む、項目29〜35のいずれか1項に記載の方法。
(項目37)
上記カウントが、GC含量、ビンワイズ正規化、GC LOESS、PERUN、GCRM、またはそれらの組み合わせにより(b)において正規化される、項目29〜36のいずれか1項に記載の方法。
(項目38)
(b)における上記正規化されたカウントが、正規化モジュールにより提供される、項目29〜37のいずれか1項に記載の方法。
(項目39)
上記第2の上昇と有意に異なる上記第1の上昇が、比較モジュールにより(c)において同定される、項目29〜38のいずれか1項に記載の方法。
(項目40)
上記上昇期待範囲が、範囲設定モジュールにより(d)において決定される、項目29〜39のいずれか1項に記載の方法。
(項目41)
(e)の上記調節が、調節モジュールにより行われる、項目29〜40のいずれか1項に記載の方法。
(項目42)
(f)の上記染色体異数性の有無の決定が、成果モジュールにより決定される、項目29〜41のいずれか1項に記載の方法。
(項目43)
上記ゲノム片のセットの上昇が、上記正規化モジュールから上記比較モジュールに転送される、項目39〜42のいずれか1項に記載の方法。
(項目44)
上記第1の上昇が、上記比較モジュールから上記調節モジュールに転送される、項目41〜43のいずれか1項に記載の方法。
(項目45)
上記上昇期待範囲が、上記範囲設定モジュールから上記調節モジュールに転送される、項目41〜44のいずれか1項に記載の方法。
(項目46)
上記調節が、上記調節モジュールから上記成果モジュールに転送される、項目42〜45のいずれか1項に記載の方法。
(項目47)
核酸配列リードを得る工程を含む、項目29〜46のいずれか1項に記載の方法。
(項目48)
上記核酸配列リードがシークエンシングモジュールにより作製される、項目47に記載の方法。
(項目49)
上記核酸配列リードが超並列シークエンシング(MPS)により作製される、項目47または48に記載の方法。
(項目50)
上記核酸配列リードを、上記参照ゲノムの上記ゲノム片に、または参照ゲノム全体にマッピングする工程を含む、項目47〜49のいずれか1項に記載の方法。
(項目51)
上記核酸配列リードがマッピングモジュールによりマッピングされる、項目50に記載の方法。
(項目52)
上記参照ゲノムの上記ゲノム片にマッピングされた上記核酸配列リードがカウンティングモジュールによりカウントされる、項目29〜51のいずれか1項に記載の方法。
(項目53)
上記配列リードが、上記シークエンシングモジュールから上記マッピングモジュールに転送される、項目51または52に記載の方法。
(項目54)
上記参照ゲノムの上記ゲノム片にマッピングされた上記核酸配列リードが、上記マッピングモジュールから上記カウンティングモジュールに転送される、項目52または53に記載の方法。
(項目55)
上記参照ゲノムの上記ゲノム片にマッピングされた上記核酸配列リードの上記カウントが、上記カウンティングモジュールから上記正規化モジュールに転送される、項目52〜54のいずれか1項に記載の方法。
(項目56)
装置は、上記シークエンシングモジュール、上記マッピングモジュール、上記カウンティングモジュール、上記正規化モジュール、上記比較モジュール、上記範囲設定モジュール、分類モジュール、上記調節モジュール、プロットモジュール、上記成果モジュール、データ表示組織化モジュールまたはロジック処理モジュールのうちの1つまたはそれより多くを含み、上記装置は、上記モジュールのうちの1つまたはそれより多くからの命令を実行することができるプロセッサを含むか、またはこれと通信する、項目53〜55のいずれか1項に記載の方法。
(項目57)
第1の装置は、上記正規化モジュール、上記比較モジュール、上記範囲設定モジュール、上記調節モジュール、および上記成果モジュールのうちの1つまたはそれより多くを含む、項目42〜56のいずれか1項に記載の方法。
(項目58)
第2の装置は、上記マッピングモジュールおよび上記カウンティングモジュールを含む、項目52〜57のいずれか1項に記載の方法。
(項目59)
第3の装置は、上記シークエンシングモジュールを含む、項目53〜58のいずれか1項に記載の方法。
(項目60)
(b)における上記正規化されたカウントが、未処理カウントである、項目29〜59のいずれか1項に記載の方法。
(項目61)
(b)における上記正規化されたカウントが、フィルタリングされる、項目29〜60のいずれか1項に記載の方法。
(項目62)
(b)における上記正規化されたカウントが、フィルタリングされない、項目29〜61のいずれか1項に記載の方法。
(項目63)
上記プロファイルの上記第1の上昇および上記第2の上昇が上昇中央値である、項目29〜62のいずれか1項に記載の方法。
(項目64)
上記第2の上昇が、染色体またはそのセグメントにおけるゲノム片のセットを含む、項目29〜63のいずれか1項に記載の方法。
(項目65)
第1のセット、第2のセットまたは上記第1のセットおよび上記第2のセットが2つまたはそれより多いゲノム片を含む、項目29〜64のいずれか1項に記載の方法。
(項目66)
各ゲノム片は、連続ヌクレオチドの長さがほぼ等しいものである、項目29〜65のいずれか1項に記載の方法。
(項目67)
各ゲノム片が約50kbである、項目29〜66のいずれか1項に記載の方法。
(項目68)
各セットが2つまたはそれより多いゲノム片を含む、項目29〜67のいずれか1項に記載の方法。
(項目69)
各セットが20〜40個のゲノム片を含む、項目29〜68のいずれか1項に記載の方法。
(項目70)
上記染色体異数性の有無の決定が、90%と等しいかそれより高い特異性および90%と等しいかそれより高い感度とともに提供される、項目29〜69のいずれか1項に記載の方法。
(項目71)
上記染色体異数性が染色体の欠失または付加である、項目29〜70のいずれか1項に記載の方法。
(項目72)
上記染色体異数性がトリソミーである、項目29〜71のいずれか1項に記載の方法。
(項目73)
上記トリソミーがトリソミー21、トリソミー18、またはトリソミー13である、項目72に記載の方法。
(項目74)
上記不確定値が平均絶対偏差または標準偏差である、項目29〜73のいずれか1項に記載の方法。
(項目75)
上記不確定値が上記第1の上昇から得られる、項目29〜74のいずれか1項に記載の方法。
(項目76)
上記不確定値が上記第2の上昇から得られる、項目29〜74のいずれか1項に記載の方法。
(項目77)
上記不確定値が上記第1の上昇および上記第2の上昇から得られる、項目29〜74のいずれか1項に記載の方法。
(項目78)
(d)の上記上昇期待範囲を決定する工程は、上記不確定値の3倍による、項目29〜77のいずれか1項に記載の方法。
(項目79)
上記ヘテロ接合のコピー数多型または上記ホモ接合のコピー数多型が、母体もしくは胎児、または母体および胎児の欠失、あるいは母体もしくは胎児、または母体および胎児の重複である、項目29〜78のいずれか1項に記載の方法。
(項目80)
上記第2の上昇が参照上昇である、項目29〜79のいずれか1項の方法。
(項目81)
上記第1の上昇および上記第2の上昇が上記参照上昇に対して正規化される、項目80に記載の方法。
(項目82)
正規化された参照値(NRV)が上記参照上昇に対して正規化される上記第2のレベルに従い決定される、項目81に記載の方法。
(項目83)
上記コピー数多型についての上昇期待値が、上記NRVと、上記コピー数多型の上昇期待定数に従い決定される、項目82に記載の方法。
(項目84)
上記NRVに上記上昇期待定数が乗算される、項目83に記載の方法。
(項目85)
ホモ接合重複についての上記上昇期待定数が2であり、ヘテロ接合重複についての上記上昇期待定数が1.5であり、ヘテロ接合欠失についての上記上昇期待定数が0.5であり、ホモ接合欠失についての上記上昇期待定数がゼロである、項目83または84に記載の方法。
(項目86)
母体および/または胎児のコピー数多型の非存在についての上記上昇期待定数が、1である、項目83〜85のいずれか1項に記載の方法。
(項目87)
上昇期待範囲が、上記コピー数多型についての上記上昇期待値および不確定値に従い決定される、項目83〜86のいずれか1項に記載の方法。
(項目88)
上記第1の上昇の上記調節が、上記第1の上昇から上記所定の値を減算することを含む、項目32〜87のいずれか1項に記載の方法。
(項目89)
上記第1の上昇の上記調節が、上記第1の上昇に上記所定の値を加算することを含む、項目32〜87のいずれか1項に記載の方法。
(項目90)
上記所定の値が、コピー数多型において予め決定される所定の調節値(PAV)である、項目32〜89のいずれか1項に記載の方法。
(項目91)
コピー数多型についての上記PAVが、上記コピー数多型についての上記上昇期待値と、上記コピー数多型についてのPAV係数に従い決定される、項目90に記載の方法。
(項目92)
ホモ接合重複についての上記PAV係数が−1であり、ヘテロ接合重複についての上記PAV係数が−0.5であり、ヘテロ接合欠失についての上記PAV係数が0.5であり、ホモ接合欠失についての上記PAV係数が1である、項目91に記載の方法。
(項目93)
上記PAV係数が上記PAV係数を乗算した上記PAVの積である、項目91または92に記載の方法。
(項目94)
上記ゲノム片の第1のセットにマッピングされた上記配列リードのうちの1つまたはそれより多くが、母体もしくは胎児、または母体および胎児の欠失を含む、項目29〜93のいずれか1項に記載の方法。
(項目95)
上記妊娠女性からの循環無細胞核酸の上記配列リードが、上記妊娠女性から得たサンプルからのものである、項目29〜94のいずれか1項に記載の方法。
(項目96)
上記サンプルが上記妊娠女性からの血液を含む、項目95に記載の方法。
(項目97)
上記サンプルが上記妊娠女性からの血漿を含む、項目95に記載の方法。
(項目98)
上記サンプルが上記妊娠女性からの血清を含む、項目95に記載の方法。
(項目99)
上記プロファイルが染色体またはそのセグメントのプロファイルである、項目29〜98のいずれか1項に記載の方法。
(項目100)
上記プロファイルが複数の第1の上昇を含む、項目29〜99のいずれか1項に記載の方法。
(項目101)
複数の第1の上昇に対して、(c)、(d)および(e)を繰り返すことを含む、項目29〜100のいずれか1項に記載の方法。
(項目102)
上記ゲノム片の第1のセットが、上記ゲノム片の第2のセットと異なり、かつ/または区別できる、項目29〜101のいずれか1項に記載の方法。
(項目103)
上記ゲノム片の第2のセットが、上記ゲノム片の第1のセットを含む、項目29〜101のいずれか1項に記載の方法。
(項目104)
上記第2の上昇が、上記ゲノム片の第2のセットについての上昇の平均値、中間値または中央値である、項目29〜103のいずれか1項に記載の方法。
(項目105)
上記不確定値が、上記第2の上昇の平均値、中間値または中央値から得られ、上記不確定値が標準偏差またはMADである、項目104に記載の方法。
(項目106)
上記第2の上昇が染色体全体を表し、上記第1の上昇が母体もしくは胎児、または母体および胎児のコピー数多型を表す、項目29〜105のいずれか1項に記載の方法。
(項目107)
1つまたはそれより多いプロセッサおよびメモリを含むシステムであって、
上記メモリは、上記1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ上記メモリは、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、上記配列リードは、妊娠女性からの循環無細胞核酸のリードであり、
上記1つまたはそれより多いプロセッサにより実行可能な上記命令は、
(a)上記参照ゲノムの上記ゲノム片にマッピングされた上記カウントを正規化し、それにより上記ゲノム片について正規化されたカウントのプロファイルを提供し、
(b)上記プロファイルの上記正規化されたカウントの第2の上昇と有意に異なる上記正規化されたカウントの第1の上昇を同定し、ここで上記第1の上昇がゲノム片の第1のセットについてのものであり、上記第2の上昇がゲノム片の第2のセットについてのものであり、
(c)上記ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、
(d)上記第1の上昇が上記上昇期待範囲のうちの1つにあるときに、所定の値により上記第1の上昇を調節し、それにより、上記第1の上昇の調節を提供し、そして
(e)(d)の上記調節を含む上記ゲノム片の上昇に従い、上記胎児の染色体異数性の有無を決定するよう構成され、ここで上記染色体異数性の有無の決定が、上記核酸配列リードから作製される、
システム。
(項目108)
1つまたはそれより多いプロセッサおよびメモリを含む装置であって、
上記メモリは、上記1つまたはそれより多いプロセッサにより実行可能な命令を含み、かつ上記メモリは、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントを含み、上記配列リードは、妊娠女性からの循環無細胞核酸のリードであり、
上記1つまたはそれより多いプロセッサにより実行可能な上記命令が、
(a)上記参照ゲノムの上記ゲノム片にマッピングされた上記カウントを正規化し、それにより上記ゲノム片について正規化されたカウントのプロファイルを提供し、
(b)上記プロファイルの上記正規化されたカウントの第2の上昇と有意に異なる上記正規化されたカウントの第1の上昇を同定し、ここで上記第1の上昇がゲノム片の第1のセットについてのものであり、上記第2の上昇がゲノム片の第2のセットについてのものであり、
(c)上記ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、
(d)上記第1の上昇が上記上昇期待範囲のうちの1つにあるときに、所定の値により上記第1の上昇を調節し、それにより、上記第1の上昇の調節を提供し、そして
(e)(d)の上記調節を含む上記ゲノム片の上昇に従い、上記胎児の染色体異数性の有無を決定するよう構成され、ここで上記染色体異数性の有無の決定が、上記核酸配列リードから作製される、
装置。
(項目109)
コンピュータ読み取り可能な媒体に組み込まれた有形のコンピュータプログラム製品であって、1つまたはそれより多いプロセッサにより実行されるときに、
(a)妊娠女性からの循環無細胞核酸のリードである、参照ゲノムのゲノム片にマッピングされた核酸配列リードのカウントにアクセスし、
(b)上記参照ゲノムの上記ゲノム片にマッピングされた上記カウントを正規化し、それにより上記ゲノム片について正規化されたカウントのプロファイルを提供し、
(c)上記プロファイルの上記正規化されたカウントの第2の上昇と有意に異なる上記正規化されたカウントの第1の上昇を同定し、ここで上記第1の上昇がゲノム片の第1のセットについてのものであり、上記第2の上昇がゲノム片の第2のセットについてのものであり、
(d)上記ゲノムのセグメントについての不確定値に従い、ホモ接合およびヘテロ接合のコピー数多型の上昇期待範囲を決定し、
(e)上記第1の上昇が上記上昇期待範囲のうちの1つにあるときに、所定の値により上記第1の上昇を調節し、それにより、上記第1の上昇の調節を提供し、
(f)(e)の上記調節を含む上記ゲノム片の上昇に従い、上記胎児の染色体異数性の有無を決定するよう構成される命令を含み、ここで上記染色体異数性の有無の決定が、上記核酸配列リードから作製される、
コンピュータプログラム製品。

Claims (52)

  1. メモリおよび1つまたはそれより多いマイクロプロセッサを含むシステムであって、前記1つまたはそれより多いマイクロプロセッサは、前記メモリ内の命令にしたがって、試験サンプルについて、バイアスゲノム片レベルの減少を用いて算出するためのプロセスを実行するように構成され、前記プロセスは:
    (a)参照ゲノムの部分にマッピングされた配列リードのカウントを得る工程であって、前記配列リードは、試験サンプルからの循環無細胞核酸のリードである、工程;
    (b)(i)前記部分のそれぞれにマッピングされた前記配列リードの前記カウントと、(ii)前記部分のそれぞれにおけるGC含量との間の、フィットさせた関係に基づいて、前記試験サンプルについてのグアニンおよびシトシン(GC)バイアス係数を決定する工程、
    (c)(a)の前記カウント、(b)の前記GCバイアス係数、および(i)複数のサンプルのそれぞれについての前記GCバイアス係数と、(ii)前記複数のサンプルについての前記部分のそれぞれにマッピングされた前記配列リードの前記カウントとの間の、前記部分のそれぞれについてフィットさせた関係に基づいて、前記部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供する工程であって、ここで前記参照ゲノムの前記部分のそれぞれにマッピングされた前記配列リードの前記カウントにおけるバイアスが、前記算出されたゲノム片レベルにおいて減少する、工程
    を包含する、システム。
  2. 前記GCバイアス係数が、線形フィットさせた関係の傾きまたは非線形フィットさせた関係の曲率の推定値である、請求項1に記載のシステム。
  3. (b)の前記フィットさせた関係および(c)の前記フィットさせた関係が線形のものである、請求項1または2に記載のシステム。
  4. (b)の前記フィットさせた関係および(c)の前記フィットさせた関係のそれぞれが、独立して線形回帰によりフィットされる、請求項1〜3のいずれか1項に記載のシステム。
  5. (c)(i)における前記複数のサンプルのそれぞれについての前記GCバイアス係数が、(i)前記部分のそれぞれにマッピングされた前記配列リードの前記カウントと、(ii)前記部分のそれぞれにおけるGC含量との間の、前記複数のサンプルのそれぞれについてフィットさせた線形関係の傾きである、請求項1〜4のいずれか1項に記載のシステム。
  6. 前記算出されたゲノム片レベルLが、式B:
    L=(M−GS)/I 式B
    に従い、前記参照ゲノムのそれぞれの部分に関して、前記試験サンプルについて決定され、ここで式中、Mは、前記試験サンプルについて前記部分にマッピングされた前記配列リードの前記カウントであり、Gは前記試験サンプルについての前記GCバイアス係数であり、Iは、前記部分について(c)の前記フィットさせた線形関係の切片であり、Sは、前記部分について(c)の前記フィットさせた線形関係の傾きである、請求項1〜5のいずれか1項に記載のシステム。
  7. (b)の前記フィットさせた関係が非線形のものである、請求項1または2に記載のシステム。
  8. 前記参照ゲノムの前記部分のそれぞれが、所定の長さのヌクレオチド配列を含む、請求項1〜7のいずれか1項に記載のシステム。
  9. 前記プロセスが、(a)の前に、前記試験サンプルから循環無細胞核酸をシークエンシングすることによって前記配列リードを決定する工程を含む、請求項1〜8のいずれか1項に記載のシステム。
  10. 前記プロセスが、(a)の前に、前記参照ゲノムの前記部分に前記配列リードをマッピングする工程を含む、請求項1〜9のいずれか1項に記載のシステム。
  11. 前記試験サンプルが、ヒト妊娠女性に由来し、かつ前記プロセスが、前記算出されたゲノム片レベルにしたがって、前記試験サンプルについて胎児の染色体異数性の有無を決定する工程を含む、請求項1〜10のいずれか1項に記載のシステム。
  12. 前記胎児の染色体異数性がトリソミーである、請求項11に記載のシステム。
  13. 前記トリソミーが、第21番染色体のトリソミー、第18番染色体のトリソミー、第13番染色体のトリソミーまたはこれらの組み合わせから選択される、請求項12に記載のシステム。
  14. 前記トリソミーの有無が、96%もしくはそれより高い感度または96%もしくはそれより高い特異性、あるいは96%もしくはそれより高い感度および96%もしくはそれより高い特異性で決定される、請求項12または13に記載のシステム。
  15. 前記プロセスが、(b)の前に、前記参照ゲノムの前記部分の一部または全てにマッピングされた前記配列リードのカウントにおける誤差の測定値を算出する工程、および前記誤差の測定値の閾値に従い前記参照ゲノムの特定の部分について前記配列リードのカウントを除去するか、または重み付けする工程を含む、請求項1〜14のいずれか1項に記載のシステム。
  16. 前記閾値が、第1のゲノム片レベルと第2のゲノム片レベルとの間の、3.5またはそれより大きい標準偏差のギャップに従い選択される、請求項15に記載のシステム。
  17. 前記誤差の測定値がR因子である、請求項15または16に記載のシステム。
  18. 約7%またはそれより大きいR因子を有する前記参照ゲノムの部分についての前記配列リードのカウントが(b)の前に除去される、請求項17に記載のシステム。
  19. 試験サンプルについて、バイアスゲノム片レベルの減少を用いて算出するための方法であって、前記方法は:
    (a)参照ゲノムの部分にマッピングされた配列リードのカウントを得る工程であって、前記配列リードは、試験サンプルからの循環無細胞核酸のリードである、工程;
    (b)(i)前記部分のそれぞれにマッピングされた前記配列リードの前記カウントと、(ii)前記部分のそれぞれにおけるGC含量との間の、フィットさせた関係に基づいて、前記試験サンプルについてのグアニンおよびシトシン(GC)バイアス係数を決定する工程;ならびに
    (c)マイクロプロセッサを使用して、(a)の前記カウント、(b)の前記GCバイアス係数、および(i)複数のサンプルのそれぞれについての前記GCバイアス係数と、(ii)前記複数のサンプルについての前記部分のそれぞれにマッピングされた前記配列リードの前記カウントとの間の、前記部分のそれぞれについてフィットさせた関係に基づいて、前記部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供する工程であって、ここで前記参照ゲノムの前記部分のそれぞれにマッピングされた前記配列リードの前記カウントにおけるバイアスが、前記算出されたゲノム片レベルにおいて減少する、工程
    を包含する、方法。
  20. 前記GCバイアス係数が、線形フィットさせた関係の傾きまたは非線形フィットさせた関係の曲率の推定値である、請求項19に記載の方法。
  21. (b)の前記フィットさせた関係および(c)の前記フィットさせた関係が線形のものである、請求項19または20に記載の方法。
  22. (b)の前記フィットさせた関係および(c)の前記フィットさせた関係のそれぞれが、独立して線形回帰によりフィットされる、請求項19〜21のいずれか1項に記載の方法。
  23. (c)(i)における前記複数のサンプルのそれぞれについての前記GCバイアス係数が、(i)前記部分のそれぞれにマッピングされた前記配列リードの前記カウントと、(ii)前記部分のそれぞれにおけるGC含量との間の、前記複数のサンプルのそれぞれについてフィットさせた線形関係の傾きである、請求項19〜22のいずれか1項に記載の方法。
  24. 前記算出されたゲノム片レベルLが、式B:
    L=(M−GS)/I 式B
    に従い、前記参照ゲノムのそれぞれの部分に関して、前記試験サンプルについて決定され、ここで式中、Mは、前記試験サンプルについて前記部分にマッピングされた前記配列リードの前記カウントであり、Gは前記試験サンプルについての前記GCバイアス係数であり、Iは、前記部分について(c)の前記フィットさせた線形関係の切片であり、Sは、前記部分について(c)の前記フィットさせた線形関係の傾きである、請求項19〜23のいずれか1項に記載の方法。
  25. (b)の前記フィットさせた関係が非線形のものである、請求項19または20に記載の方法。
  26. 前記参照ゲノムの前記部分のそれぞれが、所定の長さのヌクレオチド配列を含む、請求項19〜25のいずれか1項に記載の方法。
  27. (a)の前に、前記試験サンプルから循環無細胞核酸をシークエンシングすることによって前記配列リードを決定する工程を含む、請求項19〜26のいずれか1項に記載の方法。
  28. (a)の前に、前記参照ゲノムの前記部分に前記配列リードをマッピングする工程を含む、請求項19〜27のいずれか1項に記載の方法。
  29. 前記試験サンプルが、ヒト妊娠女性に由来し、かつ前記方法が、前記算出されたゲノム片レベルにしたがって、前記試験サンプルについて胎児の染色体異数性の有無を決定する工程を含む、請求項19〜28のいずれか1項に記載の方法。
  30. 前記胎児の染色体異数性がトリソミーである、請求項29に記載の方法。
  31. 前記トリソミーが、第21番染色体のトリソミー、第18番染色体のトリソミー、第13番染色体のトリソミーまたはこれらの組み合わせから選択される、請求項30に記載の方法。
  32. 前記トリソミーの有無が、96%もしくはそれより高い感度または96%もしくはそれより高い特異性、あるいは96%もしくはそれより高い感度および96%もしくはそれより高い特異性で決定される、請求項30または31に記載の方法。
  33. (b)の前に、前記参照ゲノムの前記部分の一部または全てにマッピングされた前記配列リードのカウントにおける誤差の測定値を算出する工程、および前記誤差の測定値の閾値に従い前記参照ゲノムの特定の部分について前記配列リードのカウントを除去するか、または重み付けする工程を含む、請求項19〜32のいずれか1項に記載の方法。
  34. 前記閾値が、第1のゲノム片レベルと第2のゲノム片レベルとの間の、3.5またはそれより大きい標準偏差のギャップに従い選択される、請求項33に記載の方法。
  35. 前記誤差の測定値がR因子である、請求項33または34に記載の方法。
  36. 約7%またはそれより大きいR因子を有する前記参照ゲノムの部分についての前記配列リードのカウントが(b)の前に除去される、請求項35に記載の方法。
  37. シークエンシング装置および1つまたはそれより多い演算装置を含むシステムであって、
    前記シークエンシング装置は、前記シークエンシング装置にロードされた核酸のヌクレオチド塩基に対応するシグナルを生成するよう構成され、前記核酸は、胎児を有する妊娠したヒト女性からの試験サンプルに由来する循環無細胞核酸である、あるいは前記シークエンシング装置にロードされる前記循環無細胞核酸は、処理または改変され、そして
    前記1つまたはそれより多い演算装置は、メモリおよび1つまたはそれより多いプロセッサを含み、前記メモリは、前記1つまたはそれより多いプロセッサによって実行可能な命令を含み、前記1つまたはそれより多いプロセッサによって実行可能な前記命令は、以下:
    (a)前記シグナルから配列リードを生成して、前記配列リードを参照ゲノムにマッピングし;
    (b)前記参照ゲノムの部分にマッピングされた配列リードのカウントを得;
    (c)(i)前記部分のそれぞれにマッピングされた前記配列リードの前記カウントと、(ii)前記部分のそれぞれにおけるGC含量との間の、フィットさせた関係に基づいて、前記試験サンプルについてのグアニンおよびシトシン(GC)バイアス係数を決定し;そして
    (d)(b)の前記カウント、(c)の前記GCバイアス係数、および(i)複数のサンプルのそれぞれについての前記GCバイアス係数と、(ii)前記複数のサンプルについての前記部分のそれぞれにマッピングされた前記配列リードの前記カウントとの間の、前記部分のそれぞれについてフィットさせた関係に基づいて、前記部分のそれぞれにおけるゲノム片レベルを算出し、それにより算出されたゲノム片レベルを提供するよう構成され、ここで前記参照ゲノムの前記部分のそれぞれにマッピングされた前記配列リードの前記カウントにおけるバイアスが、前記算出されたゲノム片レベルにおいて減少する、
    システム。
  38. 前記GCバイアス係数が、線形フィットさせた関係の傾きまたは非線形フィットさせた関係の曲率の推定値である、請求項37に記載のシステム。
  39. (c)の前記フィットさせた関係および(d)の前記フィットさせた関係が線形のものである、請求項37または38に記載のシステム。
  40. (c)の前記フィットさせた関係および(d)の前記フィットさせた関係のそれぞれが、独立して線形回帰によりフィットされる、請求項37〜39のいずれか1項に記載のシステム。
  41. (d)(i)における前記複数のサンプルのそれぞれについての前記GCバイアス係数が、(i)前記部分のそれぞれにマッピングされた前記配列リードの前記カウントと、(ii)前記部分のそれぞれにおけるGC含量との間の、前記複数のサンプルのそれぞれについてフィットさせた線形関係の傾きである、請求項37〜40のいずれか1項に記載のシステム。
  42. 前記算出されたゲノム片レベルLが、式B:
    L=(M−GS)/I 式B
    に従い、前記参照ゲノムのそれぞれの部分に関して、前記試験サンプルについて決定され、ここで式中、Mは、前記試験サンプルについて前記部分にマッピングされた前記配列リードの前記カウントであり、Gは前記試験サンプルについての前記GCバイアス係数であり、Iは、前記部分について(d)の前記フィットさせた線形関係の切片であり、Sは、前記部分について(d)の前記フィットさせた線形関係の傾きである、請求項37〜41のいずれか1項に記載のシステム。
  43. (c)の前記フィットさせた関係が非線形のものである、請求項37または38に記載のシステム。
  44. 前記参照ゲノムの前記部分のそれぞれが、所定の長さのヌクレオチド配列を含む、請求項37〜43のいずれか1項に記載のシステム。
  45. 前記メモリが、前記算出されたゲノム片レベルにしたがって、前記試験サンプルについて胎児の染色体異数性の有無を決定するよう構成された命令を含む、請求項37〜44のいずれか1項に記載のシステム。
  46. 前記胎児の染色体異数性がトリソミーである、請求項45に記載のシステム。
  47. 前記トリソミーが、第21番染色体のトリソミー、第18番染色体のトリソミー、第13番染色体のトリソミーまたはこれらの組み合わせから選択される、請求項46に記載のシステム。
  48. 前記トリソミーの有無が、96%もしくはそれより高い感度または96%もしくはそれより高い特異性、あるいは96%もしくはそれより高い感度および96%もしくはそれより高い特異性で決定される、請求項46または47に記載のシステム。
  49. 前記メモリが、(c)の前に、前記参照ゲノムの前記部分の一部または全てにマッピングされた前記配列リードのカウントにおける誤差の測定値を算出し、そして前記誤差の測定値の閾値に従い前記参照ゲノムの特定の部分について前記配列リードのカウントを除去するか、または重み付けするよう構成された命令を含む、請求項37〜48のいずれか1項に記載のシステム。
  50. 前記閾値が、第1のゲノム片レベルと第2のゲノム片レベルとの間の、3.5またはそれより大きい標準偏差のギャップに従い選択される、請求項49に記載のシステム。
  51. 前記誤差の測定値がR因子である、請求項49または50に記載のシステム。
  52. 約7%またはそれより大きいR因子を有する前記参照ゲノムの部分についての前記配列リードのカウントが(c)の前に除去される、請求項51に記載のシステム。
JP2014534806A 2011-10-06 2012-10-05 遺伝的変異の非侵襲的評価のための方法およびプロセス Active JP6073902B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201161544251P 2011-10-06 2011-10-06
US61/544,251 2011-10-06
US201261663477P 2012-06-22 2012-06-22
US61/663,477 2012-06-22
US201261709899P 2012-10-04 2012-10-04
US61/709,899 2012-10-04
PCT/US2012/059123 WO2013052913A2 (en) 2011-10-06 2012-10-05 Methods and processes for non-invasive assessment of genetic variations

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016216922A Division JP6227095B2 (ja) 2011-10-06 2016-11-07 遺伝的変異の非侵襲的評価のための方法およびプロセス

Publications (3)

Publication Number Publication Date
JP2014534507A true JP2014534507A (ja) 2014-12-18
JP2014534507A5 JP2014534507A5 (ja) 2015-10-29
JP6073902B2 JP6073902B2 (ja) 2017-02-01

Family

ID=47073532

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2014534806A Active JP6073902B2 (ja) 2011-10-06 2012-10-05 遺伝的変異の非侵襲的評価のための方法およびプロセス
JP2016216922A Active JP6227095B2 (ja) 2011-10-06 2016-11-07 遺伝的変異の非侵襲的評価のための方法およびプロセス
JP2017045068A Withdrawn JP2017099419A (ja) 2011-10-06 2017-03-09 遺伝的変異の非侵襲的評価のための方法およびプロセス

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2016216922A Active JP6227095B2 (ja) 2011-10-06 2016-11-07 遺伝的変異の非侵襲的評価のための方法およびプロセス
JP2017045068A Withdrawn JP2017099419A (ja) 2011-10-06 2017-03-09 遺伝的変異の非侵襲的評価のための方法およびプロセス

Country Status (9)

Country Link
US (1) US20230112134A1 (ja)
EP (2) EP3922731A3 (ja)
JP (3) JP6073902B2 (ja)
AU (1) AU2012318371B2 (ja)
CA (1) CA2850781C (ja)
DK (1) DK2764459T3 (ja)
ES (1) ES2886508T3 (ja)
HK (1) HK1200934A1 (ja)
WO (1) WO2013052913A2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015521482A (ja) * 2012-06-22 2015-07-30 セクエノム, インコーポレイテッド 遺伝的変異の非侵襲的評価のための方法およびプロセス
JP2018512048A (ja) * 2015-02-10 2018-05-10 ザ チャイニーズ ユニバーシティ オブ ホンコン 癌スクリーニング及び胎児分析のための変異検出
US10633713B2 (en) 2017-01-25 2020-04-28 The Chinese University Of Hong Kong Diagnostic applications using nucleic acid fragments
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US11437121B2 (en) 2011-10-06 2022-09-06 Sequenom, Inc. Methods and processes for non-invasive detection of a microduplication or a microdeletion with reduced sequence read count error
US11492659B2 (en) 2011-10-06 2022-11-08 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US11560586B2 (en) 2011-10-06 2023-01-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
JP2023504139A (ja) * 2019-11-29 2023-02-01 ジーシー ジェノム コーポレーション 人工知能ベースの染色体異常検出方法
US11581063B2 (en) 2015-07-23 2023-02-14 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free DNA

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US8962247B2 (en) 2008-09-16 2015-02-24 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non invasive prenatal diagnoses
WO2011087760A2 (en) 2009-12-22 2011-07-21 Sequenom, Inc. Processes and kits for identifying aneuploidy
TWI611186B (zh) * 2011-02-24 2018-01-11 香港中文大學 多重妊娠之分子檢驗
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
US20140242588A1 (en) 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2805280B1 (en) 2012-01-20 2022-10-05 Sequenom, Inc. Diagnostic processes that factor experimental conditions
ES2930180T3 (es) 2012-03-02 2022-12-07 Sequenom Inc Métodos para enriquecer ácido nucleico canceroso a partir de una muestra biológica
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK3663409T3 (da) 2012-05-21 2021-12-13 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv bedømmelse af genetiske variationer
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
CA2878979C (en) 2012-07-13 2021-09-14 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US10482994B2 (en) * 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA3120521A1 (en) * 2012-10-04 2014-04-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2901460A1 (en) 2013-02-20 2014-08-28 Bionano Genomics, Inc. Characterization of molecules in nanofluidics
WO2015130696A1 (en) 2014-02-25 2015-09-03 Bionano Genomics, Inc. Reduction of bias in genomic coverage measurements
US10844424B2 (en) 2013-02-20 2020-11-24 Bionano Genomics, Inc. Reduction of bias in genomic coverage measurements
WO2014168711A1 (en) 2013-03-13 2014-10-16 Sequenom, Inc. Primers for dna methylation analysis
HUE061261T2 (hu) 2013-04-03 2023-05-28 Sequenom Inc Eljárások és folyamatok genetikai variánsok nem invazív értékelésére
JP6561046B2 (ja) * 2013-05-24 2019-08-14 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲性評価のための方法および処理
US20160117440A1 (en) * 2013-05-30 2016-04-28 Memorial Sloan-Kettering Cancer Center System and method for automated prediction of vulnerabilities in biological samples
SI3011051T1 (sl) * 2013-06-21 2019-05-31 Sequenom, Inc. Postopek za neinvazivno oceno genetskih variacij
CN104450872A (zh) * 2013-09-25 2015-03-25 上海市肿瘤研究所 一种高通量多样本多靶点单碱基分辨率的甲基化水平检测方法
IL289974B (en) * 2013-10-04 2022-09-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations
JP6680680B2 (ja) 2013-10-07 2020-04-15 セクエノム, インコーポレイテッド 染色体変化の非侵襲性評価のための方法およびプロセス
US10851414B2 (en) * 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
WO2015061359A1 (en) 2013-10-21 2015-04-30 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
CN103540672B (zh) * 2013-10-29 2015-04-08 中国科学技术大学 一种亲和核酸分子的快速鉴定和分离方法
KR101516976B1 (ko) * 2013-10-30 2015-05-04 에스케이텔레콤 주식회사 표적 염기 서열 해독에서의 바이어스 제거 방법
EP3736344A1 (en) 2014-03-13 2020-11-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2015183872A1 (en) * 2014-05-30 2015-12-03 Sequenom, Inc. Chromosome representation determinations
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
JP2016042836A (ja) * 2014-08-25 2016-04-04 富士フイルム株式会社 検査通知出力装置、検査通知出力方法、検査通知出力プログラム、及び遺伝子染色体検査システム
CA2970501C (en) 2014-12-12 2020-09-15 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
RU2613021C1 (ru) * 2015-11-20 2017-03-14 Общество С Ограниченной Ответственностью "Стриж Телематика" Способ кодирования и декодирования сообщений
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
WO2017205826A1 (en) 2016-05-27 2017-11-30 Sequenom, Inc. Methods for detecting genetic variations
SG11201811556RA (en) * 2016-07-06 2019-01-30 Guardant Health Inc Methods for fragmentome profiling of cell-free nucleic acids
US11200963B2 (en) 2016-07-27 2021-12-14 Sequenom, Inc. Genetic copy number alteration classifications
WO2018022906A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
RU2768718C2 (ru) * 2016-09-22 2022-03-24 Иллумина, Инк. Обнаружение соматического варьирования числа копий
CA3049457C (en) 2017-01-20 2023-05-16 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
CA3049455C (en) 2017-01-20 2023-06-13 Sequenom, Inc. Sequencing adapter manufacture and use
US11929145B2 (en) 2017-01-20 2024-03-12 Sequenom, Inc Methods for non-invasive assessment of genetic alterations
JP7237003B2 (ja) 2017-01-24 2023-03-10 セクエノム, インコーポレイテッド 遺伝子片の評価のための方法およびプロセス
EP3998350A1 (en) 2017-03-17 2022-05-18 Sequenom, Inc. Methods and processes for assessment of genetic mosaicism
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
CA3107467A1 (en) 2018-09-07 2020-03-12 Sequenom, Inc. Methods, and systems to detect transplant rejection
CA3128894A1 (en) 2019-02-19 2020-08-27 Sequenom, Inc. Compositions, methods, and systems to detect hematopoietic stem cell transplantation status
KR102452413B1 (ko) * 2019-08-19 2022-10-11 주식회사 지씨지놈 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
AU2020333348B2 (en) * 2019-08-19 2023-11-23 Green Cross Genome Corporation Method for detecting chromosomal abnormality by using information about distance between nucleic acid fragments
EP4035161A1 (en) 2019-09-23 2022-08-03 Grail, LLC Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data
EP4052259A1 (en) 2019-10-31 2022-09-07 Sequenom, Inc. Application of mosaicism ratio in multifetal gestations and personalized risk assessment
EP4022646A4 (en) * 2019-12-25 2022-11-02 Idea Teknoloji Çözümleri Bilgisayar Sanayi ve Ticaret Anonim Sirketi PRIORITY AND RATING PROCEDURE
US20230120825A1 (en) 2020-02-28 2023-04-20 Laboratory Corporation Of America Holdings Compositions, Methods, and Systems for Paternity Determination
WO2024186778A1 (en) 2023-03-03 2024-09-12 Laboratory Corporation Of America Holdings Methods and systems for positive cfdna screening on genetic variations using mosaicism ratio

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110177517A1 (en) * 2010-01-19 2011-07-21 Artemis Health, Inc. Partition defined detection methods

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
CA2497988C (en) 2002-09-06 2011-03-29 The Trustees Of Boston University Quantification of gene expression
CN1774511B (zh) 2002-11-27 2013-08-21 斯昆诺有限公司 用于序列变异检测和发现的基于断裂的方法和系统
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
CN101243191B (zh) 2004-11-29 2014-04-16 塞昆纳姆股份有限公司 用于检测甲基化dna的手段和方法
US8679741B2 (en) 2006-05-31 2014-03-25 Sequenom, Inc. Methods and compositions for the extraction and amplification of nucleic acid from a sample
AU2007260750A1 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP3770275A1 (en) 2007-07-23 2021-01-27 The Chinese University of Hong Kong Determining a fetal aneuploidy
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
US9404150B2 (en) 2007-08-29 2016-08-02 Sequenom, Inc. Methods and compositions for universal size-specific PCR
CN101889074A (zh) 2007-10-04 2010-11-17 哈尔西恩莫尔丘勒公司 采用电子显微镜对核酸聚合物测序
CA2718137A1 (en) 2008-03-26 2009-10-01 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
CN102245760A (zh) 2008-07-07 2011-11-16 牛津纳米孔技术有限公司 酶-孔构建体
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
ES2599967T3 (es) 2008-09-16 2017-02-06 Sequenom, Inc. Procedimientos y composiciones para el enriquecimiento basado en metilación de ácido nucleico fetal de una muestra materna útiles para diagnósticos prenatales no invasivos
LT2562268T (lt) * 2008-09-20 2017-04-25 The Board Of Trustees Of The Leland Stanford Junior University Neinvazinis fetalinės aneuploidijos diagnozavimas sekvenavimu
EP3514244B1 (en) 2009-04-03 2021-07-07 Sequenom, Inc. Nucleic acid preparation methods
US8574842B2 (en) * 2009-12-22 2013-11-05 The Board Of Trustees Of The Leland Stanford Junior University Direct molecular diagnosis of fetal aneuploidy
ES2704701T3 (es) * 2010-01-19 2019-03-19 Verinata Health Inc Nuevo protocolo de preparación de bibliotecas de secuenciación
EP2569453B1 (en) 2010-05-14 2015-12-16 Fluidigm Corporation Nucleic acid isolation methods

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110177517A1 (en) * 2010-01-19 2011-07-21 Artemis Health, Inc. Partition defined detection methods

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6016030462; H. Christina Fan ET AL: 'Sensitivity of Noninvasive Prenatal Detection of Fetal Aneuploidy from Maternal Plasma Using Shotgun' PLOS ONE 2010 5(5) e10439 , 20100303, pp.1-7 *
JPN6016030464; Can Alkan ET AL: 'Personalized copy number and segmental duplication maps using next-generation sequencing' Nature Genetics 41 , 20090830, pp.1061-1067 *
JPN7016002330; T. CHU ET AL: 'Statistical model for whole genome sequencing and its application to minimally invasive diagnosis of' Bioinformatics (2009) 25 (10) , 20090323, pp.1244-1250 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11560586B2 (en) 2011-10-06 2023-01-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US11492659B2 (en) 2011-10-06 2022-11-08 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US11437121B2 (en) 2011-10-06 2022-09-06 Sequenom, Inc. Methods and processes for non-invasive detection of a microduplication or a microdeletion with reduced sequence read count error
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
JP2015521482A (ja) * 2012-06-22 2015-07-30 セクエノム, インコーポレイテッド 遺伝的変異の非侵襲的評価のための方法およびプロセス
US11168370B2 (en) 2015-02-10 2021-11-09 The Chinese University Of Hong Kong Detecting mutations for cancer screening
JP2021061861A (ja) * 2015-02-10 2021-04-22 ザ チャイニーズ ユニバーシティ オブ ホンコン 癌スクリーニング及び胎児分析のための変異検出
JP7168247B2 (ja) 2015-02-10 2022-11-09 ザ チャイニーズ ユニバーシティ オブ ホンコン 癌スクリーニング及び胎児分析のための変異検出
JP2022185149A (ja) * 2015-02-10 2022-12-13 ザ チャイニーズ ユニバーシティ オブ ホンコン 癌スクリーニング及び胎児分析のための変異検出
JP2018512048A (ja) * 2015-02-10 2018-05-10 ザ チャイニーズ ユニバーシティ オブ ホンコン 癌スクリーニング及び胎児分析のための変異検出
US11581063B2 (en) 2015-07-23 2023-02-14 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free DNA
US11605445B2 (en) 2015-07-23 2023-03-14 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free DNA
US11615865B2 (en) 2015-07-23 2023-03-28 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free DNA
US11479825B2 (en) 2017-01-25 2022-10-25 The Chinese University Of Hong Kong Diagnostic applications using nucleic acid fragments
US10633713B2 (en) 2017-01-25 2020-04-28 The Chinese University Of Hong Kong Diagnostic applications using nucleic acid fragments
JP2023504139A (ja) * 2019-11-29 2023-02-01 ジーシー ジェノム コーポレーション 人工知能ベースの染色体異常検出方法
JP7539985B2 (ja) 2019-11-29 2024-08-26 ジーシー ジェノム コーポレーション 人工知能ベースの染色体異常検出方法

Also Published As

Publication number Publication date
HK1200934A1 (en) 2015-08-14
JP6227095B2 (ja) 2017-11-08
US20230112134A1 (en) 2023-04-13
ES2886508T3 (es) 2021-12-20
DK2764459T3 (da) 2021-08-23
JP2017073144A (ja) 2017-04-13
EP3922731A3 (en) 2022-01-05
CA2850781A1 (en) 2013-04-11
JP2017099419A (ja) 2017-06-08
EP2764459A2 (en) 2014-08-13
EP3922731A2 (en) 2021-12-15
JP6073902B2 (ja) 2017-02-01
CA2850781C (en) 2020-09-01
WO2013052913A4 (en) 2013-12-27
WO2013052913A2 (en) 2013-04-11
WO2013052913A3 (en) 2013-11-07
EP2764459B1 (en) 2021-06-30
AU2012318371A1 (en) 2014-04-17
AU2012318371B2 (en) 2018-03-22

Similar Documents

Publication Publication Date Title
JP6227095B2 (ja) 遺伝的変異の非侵襲的評価のための方法およびプロセス
US11560586B2 (en) Methods and processes for non-invasive assessment of genetic variations
JP6854272B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
US11001884B2 (en) Methods and processes for non-invasive assessment of genetic variations
US20200105372A1 (en) Methods and processes for non-invasive assessment of genetic variations
US20200160934A1 (en) Methods and processes for non-invasive assessment of genetic variations
US20200075126A1 (en) Methods and processes for non-invasive assessment of genetic variations
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
JP6561046B2 (ja) 遺伝子の変動の非侵襲性評価のための方法および処理
DK2766496T3 (en) METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONS
US8688388B2 (en) Methods and processes for non-invasive assessment of genetic variations
EP2805280A1 (en) Diagnostic processes that factor experimental conditions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150904

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170105

R150 Certificate of patent or registration of utility model

Ref document number: 6073902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250