JP2023022220A - 遺伝子の変動の非侵襲的評価のための方法および処理 - Google Patents

遺伝子の変動の非侵襲的評価のための方法および処理 Download PDF

Info

Publication number
JP2023022220A
JP2023022220A JP2022191456A JP2022191456A JP2023022220A JP 2023022220 A JP2023022220 A JP 2023022220A JP 2022191456 A JP2022191456 A JP 2022191456A JP 2022191456 A JP2022191456 A JP 2022191456A JP 2023022220 A JP2023022220 A JP 2023022220A
Authority
JP
Japan
Prior art keywords
item
nucleic acid
length
fetal
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022191456A
Other languages
English (en)
Inventor
デチウ コスミン
Deciu Cosmin
ザオ チェン
Chen Zhao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sequenom Inc
Original Assignee
Sequenom Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequenom Inc filed Critical Sequenom Inc
Publication of JP2023022220A publication Critical patent/JP2023022220A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Chemical Kinetics & Catalysis (AREA)

Abstract

【課題】遺伝子の変動を非侵襲的に評価するための方法、処理、および装置を提供する。【解決手段】本発明では、循環型無細胞核酸に由来する核酸断片を使用することができる。本発明の方法は、カバレッジの可変性(比例性)、局所的な胎仔フラクション、および/またはCGプロファイルに従って、参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するステップに基づく。遺伝子の変動は、例えば、染色体の異数性、微小重複、または微小欠失であり、遺伝子の変動を識別することによって、特定の医学的状態の診断をもたらすこと、または特定の医学的状態の素因を決定し得る。【選択図】なし

Description

(関連特許出願)
本特許出願は、2014年10月10日に出願され、METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONSと題し、発明者がCosmin DeciuおよびChen Zhaoであり、そして代理人書類番号SEQ-6081-PVによって指定される米国仮特許出願第62/062,748号の利益を主張している。この先行する出願の全体の内容は、すべてのテキスト、表、および図面を含みすべての目的のために参考として本明細書中に援用される。
(分野)
本明細書において提供する技術は、一部は、遺伝子の変動を非侵襲性に評価するための方法、処理および装置に関する。
(背景)
生きている生物(例えば、動物、植物および微生物)ならびに遺伝情報を複製するその他の形態(例えば、ウイルス)の遺伝情報は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)中にコードされる。遺伝情報は連続的なヌクレオチドまたは修飾ヌクレオチドであり、これらは化学的なまたは仮定上の核酸の一次構造を示す。ヒトの場合、完全なゲノムは、24本の染色体上に位置する約30,000個の遺伝子を含有する(The Human Genome、T.Strachan、BIOS Scientific Publishers、1992年を参照されたい)。各遺伝子が特定のタンパク質をコードし、タンパク質は、生きている細胞内で転写および翻訳を経て発現した後、特定の生化学的機能を果たす。
多くの医学的状態が、1つまたは複数の遺伝子の変動により引き起こされる。特定の遺伝子の変動が医学的状態を引き起こし、これらとして、例えば、血友病、サラセミア、デュシェンヌ型筋ジストロフィー(DMD)、ハンチントン病(HD)、アルツハイマー病および嚢胞性線維症(CF)が挙げられる(Human Genome Mutations、D.N.CooperおよびM.Krawczak、BIOS Publishers、1993年)。そのような遺伝性疾患は、特定の遺伝子のDNA中の単一ヌクレオチドの付加、置換または欠失の結果生じ得る。例えば、特定の先天性欠損が、異数性とも呼ばれる染色体異常、例として、21トリソミー(ダウン症候群)、13トリソミー(パトー症候群)、18トリソミー(エドワーズ症候群)、16トリソミー、22トリソミー、Xモノソミー(ターナー症候群)、および特定の性染色体異数性、例として、クラインフェルター症候群(XXY)により引き起こされる。別の遺伝子の変動は胎仔の性別であり、これはしばしば、性染色体のXおよびYに基づいて決定され得る。いくつかの遺伝子の変動により、例えば、糖尿病、動脈硬化、肥満、種々の自己免疫疾患およびがん(例えば、結腸直腸がん、乳がん、卵巣がん、肺がん)等のいくつかの疾患のうちのいずれかに、個体が、罹患しやすくなる恐れ、またはそうした疾患を発症する恐れがある。
The Human Genome、T.Strachan、BIOS Scientific Publishers、1992年 Human Genome Mutations、D.N.CooperおよびM.Krawczak、BIOS Publishers、1993年
1つまたは複数の遺伝子の変動または分散の識別が、特定の医学的状態の診断またはそうした状態に対する素因の決定につながり得る。遺伝子の分散の識別は、医学的決定の促進および/または有用な医学的手順の利用をもたらすことができる。特定の実施形態では、1つまたは複数の遺伝子の変動または分散の識別が、無細胞DNAの分析を含む。無細胞DNA(CF-DNA)は、細胞死から生じ、抹消血中を循環するDNA断片から構成される。高い濃度のCF-DNAは、特定の臨床状態、例として、がん、外傷、熱傷、心筋梗塞、脳卒中、敗血症、感染およびその他の疾病の指標となり得る。さらに、無細胞胎性DNA(CFF-DNA)を、母体の血流中で検出し、種々の非侵襲性の出生前診断法のために使用することもできる。
(要旨)
本明細書において、ある特定の態様では、参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;b)初期の部分の長さを選択するステップと;c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化するステップと;d)(a)において決定された配列決定カバレッジの可変性を少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;e)部分の数をゲノム領域の少なくとも1つについて、(d)における比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;f)ゲノム領域の少なくとも1つを複数の部分に、(e)における最適化された部分の長さに従って再区分化するステップとを含む方法が提示される。
本明細書において、ある特定の態様ではまた、参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;b)初期の部分の長さを選択するステップと;c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化するステップと;d)(a)において決定された配列決定カバレッジの可変性を少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;e)部分の数をゲノム領域の少なくとも1つについて、(d)における比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;f)ゲノム領域の少なくとも1つを複数の部分に、(e)における最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定するステップと;h)最小のゲノム領域のサイズを決定するステップと;i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップとを含む方法も提示される。
本明細書において、ある特定の態様ではまた、参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;b)初期の部分の長さを選択するステップと;c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化するステップと;d)(a)において決定された配列決定カバレッジの可変性を少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;e)部分の数をゲノム領域の少なくとも1つについて、(d)における比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;f)ゲノム領域の少なくとも1つを複数の部分に、(e)における最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;g)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定するステップと;h)局所的な最小のゲノム領域のサイズを決定するステップと;i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップとを含む方法も提示される。
本明細書において、ある特定の態様ではまた、参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;b)初期の部分の長さを選択するステップと;c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化するステップと;d)(a)において決定された配列決定カバレッジの可変性を少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;e)部分の数をゲノム領域の少なくとも1つについて、(d)における比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;f)ゲノム領域の少なくとも1つを複数の部分に、(e)における最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定するステップと;h)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定するステップと;i)局所的な最小のゲノム領域のサイズを決定するステップと;j)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップとを含む方法も提示される。
本明細書において、ある特定の態様ではまた、参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;b)初期の部分の長さを選択するステップと;c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化するステップと;d)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定するステップと;e)局所的な最小のゲノム領域のサイズを決定するステップと;f)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、再区分化されたゲノム領域を生成するステップとを含む方法も提示される。
本明細書において、ある特定の態様ではまた、参照ゲノム、またはそのパートを複数の部分へと区分化するための方法であって、a)グアニンおよびシトシン(GC)のプロファイルを、参照ゲノム、またはそのパートについて生成するステップと;b)セグメント化処理を、(a)において生成されたGCプロファイルへと適用し、これにより、個別セグメントをもたらすステップと;c)参照ゲノム、またはそのパートを複数の部分に、(b)において提供された個別セグメントに従って区分化し、これにより、GC区分化された参照ゲノム、またはそのパートを生成するステップとを含む方法も提示される。
以下の記載、実施例、特許請求の範囲、および図面では、ある特定の実施形態について、さらに記載する。
図面は、本技術のある特定の実施形態を例示するものであり、限定するものではない。記載を明確にし、また分かりやすくするために、図面は正確な縮尺では作成されず、一部の事例では、特定の実施形態を理解しやすくするために、様々な側面が、誇張または拡大して示される場合もある。
本発明は、例えば、以下の項目を提供する。
(項目1)
参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化するステップと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化するステップと
を含む方法。
(項目2)
遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化することと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成することと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定することと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化することと
を含む処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされている方法。
(項目3)
(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りについてのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、項目1または2に記載の方法。
(項目4)
(b)における前記初期の部分の長さが、配列決定の深さに従って、前記トレーニングセットのために選択される、項目3に記載の方法。
(項目5)
(b)における前記初期の部分の長さが、平均の胎仔フラクションに従って、前記トレーニングセットのために選択される、項目3または4に記載の方法。
(項目6)
前記平均の胎仔フラクションが、前記トレーニングセットを使用して決定される、項目5に記載の方法。
(項目7)
前記初期の部分の長さが、約1kb~約1000kbの間である、項目1から6のいずれか一項に記載の方法。
(項目8)
前記初期の部分の長さが、約30kbである、項目1から7のいずれか一項に記載の方法。
(項目9)
前記初期の部分の長さが、約40kbである、項目1から7のいずれか一項に記載の方法。
(項目10)
前記初期の部分の長さが、約50kbである、項目1から7のいずれか一項に記載の方法。
(項目11)
前記初期の部分の長さが、50kbではない、項目1から7のいずれか一項に記載の方法。
(項目12)
前記初期の部分の長さが、約60kbである、項目1から7のいずれか一項に記載の方法。
(項目13)
前記初期の部分の長さが、約70kbである、項目1から7のいずれか一項に記載の方法。
(項目14)
ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、項目1から13のいずれか一項に記載の方法。
(項目15)
前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、項目1から14のいずれか一項に記載の方法。
(項目16)
前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、項目15に記載の方法。
(項目17)
(d)における前記配列決定カバレッジの可変性を比較するステップが、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、前記第1のゲノム領域の前記配列決定カバレッジの可変性であり、varは、前記第2のゲノム領域の前記配列決定カバレッジの可変性である]
に従って計算することを含む、項目15または16に記載の方法。
(項目18)
前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、項目17に記載の方法。
(項目19)
前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、項目17に記載の方法。
(項目20)
各ゲノム領域についての前記平均のヌクレオチドの配列決定の読取りのカウント数が、前記トレーニングセットを使用して決定される、項目19に記載の方法。
(項目21)
前記ヌクレオチド配列の読取りのカウント数が、正規化されたヌクレオチド配列の読取りのカウント数である、項目18に記載の方法。
(項目22)
前記平均のヌクレオチド配列の読取りのカウント数が、平均の正規化されたヌクレオチド配列の読取りのカウント数である、項目19または20に記載の方法。
(項目23)
(e)における前記部分の数を前記ゲノム領域の少なくとも1つについて再計算するステップが、前記比例係数と、(b)における前記初期の部分の長さから決定された部分の前記総数とに従って実施される、項目17から22のいずれか一項に記載の方法。
(項目24)
(f)における前記複数の部分が、一定のサイズの部分を含む、項目1から23のいずれか一項に記載の方法。
(項目25)
(f)における前記複数の部分が、変動するサイズの部分を含む、項目1から23のいずれか一項に記載の方法。
(項目26)
(f)における前記複数の部分が、約1kb~約1000kbの間の部分の長さを含む、項目24または25に記載の方法。
(項目27)
(f)における前記複数の部分が、約30kbの部分を含む、項目24または25に記載の方法。
(項目28)
(f)における前記複数の部分が、約40kbの部分を含む、項目24または25に記載の方法。
(項目29)
(f)における前記複数の部分が、約50kbの部分を含む、項目24または25に記載の方法。
(項目30)
(f)における前記複数の部分が、50kbの部分を含まない、項目24または25に記載の方法。
(項目31)
(f)における前記複数の部分が、約60kbの部分を含む、項目24または25に記載の方法。
(項目32)
(f)における前記複数の部分が、約70kbの部分を含む、項目24または25に記載の方法。
(項目33)
ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、項目1から32のいずれか一項に記載の方法。
(項目34)
前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、項目33に記載の方法。
(項目35)
試験試料に由来するヌクレオチド配列の読取りを、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、項目1から34のいずれか一項に記載の方法。
(項目36)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、項目35に記載の方法。
(項目37)
前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、項目36に記載の方法。
(項目38)
前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、項目36または37に記載の方法。
(項目39)
前記配列の読取りのカウント数が、中央値の部分のカウント数に従って調整される、項目38に記載の方法。
(項目40)
前記正規化するステップが、主成分正規化を含む、項目36から39のいずれか一項に記載の方法。
(項目41)
前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分正規化を含む、項目36から40のいずれか一項に記載の方法。
(項目42)
遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、項目36から41のいずれか一項に記載の方法。
(項目43)
染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、項目36から42のいずれか一項に記載の方法。
(項目44)
前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、項目36から43のいずれか一項に記載の方法。
(項目45)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目44に記載の方法。
(項目46)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目42から45のいずれか一項に記載の方法。
(項目47)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、項目35に記載の方法。
(項目48)
遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目47に記載の方法。
(項目49)
染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目47または48に記載の方法。
(項目50)
前記未加工のカウント数が、前記試験試料についての染色体量を表示する、項目48または49に記載の方法。
(項目51)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目50に記載の方法。
(項目52)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目48から51のいずれか一項に記載の方法。
(項目53)
参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化するステップと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;
g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定するステップと;
h)最小のゲノム領域のサイズを決定するステップと;
i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップと
を含む方法。
(項目54)
遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化することと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成することと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定することと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成することと;
g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定することと;
h)最小のゲノム領域のサイズを決定することと;
i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成することと
を含む処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされている方法。
(項目55)
(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りについてのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、項目53または54に記載の方法。
(項目56)
(b)における前記初期の部分の長さが、配列決定の深さに従って、前記トレーニングセットのために選択される、項目55に記載の方法。
(項目57)
(b)における前記初期の部分の長さが、平均の胎仔フラクションに従って、前記トレーニングセットのために選択される、項目55または56に記載の方法。
(項目58)
前記平均の胎仔フラクションが、前記トレーニングセットを使用して決定される、項目57に記載の方法。
(項目59)
前記初期の部分の長さが、約1kb~約1000kbの間である、項目53から58のいずれか一項に記載の方法。
(項目60)
前記初期の部分の長さが、約30kbである、項目53から59のいずれか一項に記載の方法。
(項目61)
前記初期の部分の長さが、約40kbである、項目53から59のいずれか一項に記載の方法。
(項目62)
前記初期の部分の長さが、約50kbである、項目53から59のいずれか一項に記載の方法。
(項目63)
前記初期の部分の長さが、50kbではない、項目53から59のいずれか一項に記載の方法。
(項目64)
前記初期の部分の長さが、約60kbである、項目53から59のいずれか一項に記載の方法。
(項目65)
前記初期の部分の長さが、約70kbである、項目53から59のいずれか一項に記載の方法。
(項目66)
ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、項目53から65のいずれか一項に記載の方法。
(項目67)
前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、項目53から66のいずれか一項に記載の方法。
(項目68)
前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、項目67に記載の方法。
(項目69)
(d)における前記配列決定カバレッジの可変性を比較するステップが、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、前記第1のゲノム領域の前記配列決定カバレッジの可変性であり、varは、前記第2のゲノム領域の前記配列決定カバレッジの可変性である]
に従って計算することを含む、項目67または68に記載の方法。
(項目70)
前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、項目69に記載の方法。
(項目71)
前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、項目70に記載の方法。
(項目72)
各ゲノム領域についての前記平均のヌクレオチドの配列決定の読取りのカウント数が、前記トレーニングセットを使用して決定される、項目71に記載の方法。
(項目73)
前記ヌクレオチド配列の読取りのカウント数が、正規化されたヌクレオチド配列の読取りのカウント数である、項目70に記載の方法。
(項目74)
前記平均のヌクレオチド配列の読取りのカウント数が、平均の正規化されたヌクレオチド配列の読取りのカウント数である、項目71または72に記載の方法。
(項目75)
(e)における前記部分の数を前記ゲノム領域の少なくとも1つについて再計算するステップが、前記比例係数と、(b)における前記初期の部分の長さから決定された部分の前記総数とに従って実施される、項目69から74のいずれか一項に記載の方法。
(項目76)
(f)における前記複数の部分が、一定のサイズの部分を含む、項目53から75のいずれか一項に記載の方法。
(項目77)
(f)における前記複数の部分が、変動するサイズの部分を含む、項目53から75のいずれか一項に記載の方法。
(項目78)
(f)における前記複数の部分が、約1kb~約1000kbの間の部分の長さを含む、項目76または77に記載の方法。
(項目79)
(f)における前記複数の部分が、約30kbの部分を含む、項目76または77に記載の方法。
(項目80)
(f)における前記複数の部分が、約40kbの部分を含む、項目76または77に記載の方法。
(項目81)
(f)における前記複数の部分が、約50kbの部分を含む、項目76または77に記載の方法。
(項目82)
(f)における前記複数の部分が、50kbの部分を含まない、項目76または77に記載の方法。
(項目83)
(f)における前記複数の部分が、約60kbの部分を含む、項目76または77に記載の方法。
(項目84)
(f)における前記複数の部分が、約70kbの部分を含む、項目76または77に記載の方法。
(項目85)
(g)における胎仔フラクションを推定するステップが、誤差値を決定することを含む、項目53から84のいずれか一項に記載の方法。
(項目86)
(h)における最小のゲノム領域のサイズを決定するステップが、(g)において推定された胎仔フラクションを有する試料について検出可能な、最小のゲノム領域のサイズを決定することを含む、項目53から85のいずれか一項に記載の方法。
(項目87)
最小のゲノム領域のサイズが、胎仔フラクションの上位95%の信頼区間に従って決定される、項目86に記載の方法。
(項目88)
(j)胎仔フラクションを、前記精緻化された、再区分化されたゲノム領域から再推定するステップをさらに含む、項目53から87のいずれか一項に記載の方法。
(項目89)
(g)における推定された胎仔フラクションを、(j)における再推定された胎仔フラクションと比較するステップを含む、項目88に記載の方法。
(項目90)
(g)における推定された胎仔フラクションが、(j)における再推定された胎仔フラクションと、所定のトレランス値だけ異なる場合に、パート(g)、(h)、および(i)を反復するステップを含む、項目89に記載の方法。
(項目91)
前記所定のトレランス値が、約1%~約25%の間である、項目90に記載の方法。
(項目92)
ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、項目53から91のいずれか一項に記載の方法。
(項目93)
前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、項目92に記載の方法。
(項目94)
試験試料に由来するヌクレオチド配列の読取りを、精緻化された、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、項目53から93のいずれか一項に記載の方法。
(項目95)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、項目94に記載の方法。
(項目96)
前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、項目95に記載の方法。
(項目97)
前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、項目95または96に記載の方法。
(項目98)
前記配列の読取りのカウント数が、中央値の部分カウント数に従って調整される、項目97に記載の方法。
(項目99)
前記正規化するステップが、主成分正規化を含む、項目95から98のいずれか一項に記載の方法。
(項目100)
前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分正規化を含む、項目95から99のいずれか一項に記載の方法。
(項目101)
遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、項目95から100のいずれか一項に記載の方法。
(項目102)
染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、項目95から101のいずれか一項に記載の方法。
(項目103)
前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、項目95から102のいずれか一項に記載の方法。
(項目104)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目103に記載の方法。
(項目105)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目101から104のいずれか一項に記載の方法。
(項目106)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、項目94に記載の方法。
(項目107)
遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目106に記載の方法。
(項目108)
染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目106または107に記載の方法。
(項目109)
前記未加工のカウント数が、前記試験試料についての染色体量を表示する、項目107または108に記載の方法。
(項目110)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目109に記載の方法。
(項目111)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目107から110のいずれか一項に記載の方法。
(項目112)
参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化するステップと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;
g)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定するステップと;
h)局所的な最小のゲノム領域のサイズを決定するステップと;
i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップと
を含む方法。
(項目113)
遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化することと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成することと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定することと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成することと;
g)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定することと;
h)局所的な最小のゲノム領域のサイズを決定することと;
i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成することと
を含む処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされている方法。
(項目114)
(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、項目112または113に記載の方法。
(項目115)
(b)における前記初期の部分の長さが、配列決定の深さに従って、前記トレーニングセットのために選択される、項目114に記載の方法。
(項目116)
(b)における前記初期の部分の長さが、平均の胎仔フラクションに従って、前記トレーニングセットのために選択される、項目114または115に記載の方法。
(項目117)
前記平均の胎仔フラクションが、前記トレーニングセットを使用して決定される、項目116に記載の方法。
(項目118)
前記初期の部分の長さが、約1kb~約1000kbの間である、項目112から117のいずれか一項に記載の方法。
(項目119)
前記初期の部分の長さが、約30kbである、項目112から118のいずれか一項に記載の方法。
(項目120)
前記初期の部分の長さが、約40kbである、項目112から118のいずれか一項に記載の方法。
(項目121)
前記初期の部分の長さが、約50kbである、項目112から118のいずれか一項に記載の方法。
(項目122)
前記初期の部分の長さが、50kbではない、項目112から118のいずれか一項に記載の方法。
(項目123)
前記初期の部分の長さが、約60kbである、項目112から118のいずれか一項に記載の方法。
(項目124)
前記初期の部分の長さが、約70kbである、項目112から118のいずれか一項に記載の方法。
(項目125)
ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、項目112から124のいずれか一項に記載の方法。
(項目126)
前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、項目112から125のいずれか一項に記載の方法。
(項目127)
前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、項目126に記載の方法。
(項目128)
(d)における前記配列決定カバレッジの可変性を比較するステップが、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、前記第1のゲノム領域の前記配列決定カバレッジの可変性であり、varは、前記第2のゲノム領域の前記配列決定カバレッジの可変性である]
に従って計算することを含む、項目126または127に記載の方法。
(項目129)
前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、項目128に記載の方法。
(項目130)
前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、項目128に記載の方法。
(項目131)
各ゲノム領域についての前記平均のヌクレオチドの配列決定の読取りのカウント数が、前記トレーニングセットを使用して決定される、項目130に記載の方法。
(項目132)
前記ヌクレオチド配列の読取りのカウント数が、正規化されたヌクレオチド配列の読取りのカウント数である、項目129に記載の方法。
(項目133)
前記平均のヌクレオチド配列の読取りのカウント数が、平均の正規化されたヌクレオチド配列の読取りのカウント数である、項目130または131に記載の方法。
(項目134)
(e)における前記部分の数を前記ゲノム領域の少なくとも1つについて再計算するステップが、前記比例係数と、(b)における前記初期の部分の長さから決定された部分の前記総数とに従って実施される、項目128から133のいずれか一項に記載の方法。
(項目135)
(f)における前記複数の部分が、一定のサイズの部分を含む、項目112から134のいずれか一項に記載の方法。
(項目136)
(f)における前記複数の部分が、変動するサイズの部分を含む、項目112から134のいずれか一項に記載の方法。
(項目137)
(f)における前記複数の部分が、約1kb~約1000kbの間の部分の長さを含む、項目135または136に記載の方法。
(項目138)
(f)における前記複数の部分が、約30kbの部分を含む、項目135または136に記載の方法。
(項目139)
(f)における前記複数の部分が、約40kbの部分を含む、項目135または136に記載の方法。
(項目140)
(f)における前記複数の部分が、約50kbの部分を含む、項目135または136に記載の方法。
(項目141)
(f)における前記複数の部分が、50kbの部分を含まない、項目135または136に記載の方法。
(項目142)
(f)における前記複数の部分が、約60kbの部分を含む、項目135または136に記載の方法。
(項目143)
(f)における前記複数の部分が、約70kbの部分を含む、項目135または136に記載の方法。
(項目144)
(h)における局所的な最小のゲノム領域のサイズを決定するステップが、平均の胎仔フラクションを有する試料について検出可能な、局所的なゲノム領域のサイズを決定することを含む、項目112から143のいずれか一項に記載の方法。
(項目145)
ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、項目112から144のいずれか一項に記載の方法。
(項目146)
前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、項目145に記載の方法。
(項目147)
試験試料に由来するヌクレオチド配列の読取りを、精緻化され、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、項目112から146のいずれか一項に記載の方法。
(項目148)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、項目147に記載の方法。
(項目149)
前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、項目148に記載の方法。
(項目150)
前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、項目148または149に記載の方法。
(項目151)
前記配列の読取りのカウント数が、中央値の部分カウント数に従って調整される、項目150に記載の方法。
(項目152)
前記正規化するステップが、主成分正規化を含む、項目148から151のいずれか一項に記載の方法。
(項目153)
前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分による正規化を含む、項目148から152のいずれか一項に記載の方法。
(項目154)
遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、項目148から153のいずれか一項に記載の方法。
(項目155)
染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、項目148から154のいずれか一項に記載の方法。
(項目156)
前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、項目148から155のいずれか一項に記載の方法。
(項目157)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目156に記載の方法。
(項目158)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目154から157のいずれか一項に記載の方法。
(項目159)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、項目147に記載の方法。
(項目160)
遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目159に記載の方法。
(項目161)
染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目159または160に記載の方法。
(項目162)
前記未加工のカウント数が、前記試験試料についての染色体量を表示する、項目160または161に記載の方法。
(項目163)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目162に記載の方法。
(項目164)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目160から163のいずれか一項に記載の方法。
(項目165)
参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化するステップと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;
e)部分の数を、前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;
g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定するステップと;
h)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定するステップと;
i)局所的な最小のゲノム領域のサイズを決定するステップと;
j)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップと
を含む方法。
(項目166)
遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化することと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成することと;
e)部分の数を、前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定することと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成することと;
g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定することと;
h)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定することと;
i)局所的な最小のゲノム領域のサイズを決定することと;
j)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成することと
を含む処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされる方法。
(項目167)
(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りについてのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、項目165または166に記載の方法。
(項目168)
(b)における前記初期の部分の長さが、配列決定の深さに従って、前記トレーニングセットのために選択される、項目167に記載の方法。
(項目169)
(b)における前記初期の部分の長さが、平均の胎仔フラクションに従って、前記トレーニングセットのために選択される、項目167または168に記載の方法。
(項目170)
前記平均の胎仔フラクションが、前記トレーニングセットを使用して決定される、項目169に記載の方法。
(項目171)
前記初期の部分の長さが、約1kb~約1000kbの間である、項目165から170のいずれか一項に記載の方法。
(項目172)
前記初期の部分の長さが、約30kbである、項目165から171のいずれか一項に記載の方法。
(項目173)
前記初期の部分の長さが、約40kbである、項目165から171のいずれか一項に記載の方法。
(項目174)
前記初期の部分の長さが、約50kbである、項目165から171のいずれか一項に記載の方法。
(項目175)
前記初期の部分の長さが、50kbではない、項目165から171のいずれか一項に記載の方法。
(項目176)
前記初期の部分の長さが、約60kbである、項目165から171のいずれか一項に記載の方法。
(項目177)
前記初期の部分の長さが、約70kbである、項目165から171のいずれか一項に記載の方法。
(項目178)
ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、項目165から177のいずれか一項に記載の方法。
(項目179)
前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、項目165から178のいずれか一項に記載の方法。
(項目180)
前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、項目179に記載の方法。
(項目181)
(d)における前記配列決定カバレッジの可変性を比較するステップが、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、前記第1のゲノム領域の前記配列決定カバレッジの可変性であり、varは、前記第2のゲノム領域の前記配列決定カバレッジの可変性である]
に従って計算することを含む、項目179または180に記載の方法。
(項目182)
前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、項目181に記載の方法。
(項目183)
前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、項目181に記載の方法。
(項目184)
各ゲノム領域についての前記平均のヌクレオチドの配列決定の読取りのカウント数が、前記トレーニングセットを使用して決定される、項目183に記載の方法。
(項目185)
前記ヌクレオチド配列の読取りのカウント数が、正規化されたヌクレオチド配列の読取りのカウント数である、項目182に記載の方法。
(項目186)
前記平均のヌクレオチド配列の読取りのカウント数が、平均の正規化されたヌクレオチド配列の読取りのカウント数である、項目183または184に記載の方法。
(項目187)
(e)における前記部分の数を前記ゲノム領域の少なくとも1つについて再計算するステップが、前記比例係数と、(b)における前記初期の部分の長さから決定された部分の前記総数とに従って実施される、項目181から186のいずれか一項に記載の方法。
(項目188)
(f)における前記複数の部分が、一定のサイズの部分を含む、項目165から187のいずれか一項に記載の方法。
(項目189)
(f)における前記複数の部分が、変動するサイズの部分を含む、項目165から187のいずれか一項に記載の方法。
(項目190)
(f)における前記複数の部分が、約1kb~約1000kbの間の部分の長さを含む、項目188または189に記載の方法。
(項目191)
(f)における前記複数の部分が、約30kbの部分を含む、項目188または189に記載の方法。
(項目192)
(f)における前記複数の部分が、約40kbの部分を含む、項目188または189に記載の方法。
(項目193)
(f)における前記複数の部分が、約50kbの部分を含む、項目188または189に記載の方法。
(項目194)
(f)における前記複数の部分が、50kbの部分を含まない、項目188または189に記載の方法。
(項目195)
(f)における前記複数の部分が、約60kbの部分を含む、項目188または189に記載の方法。
(項目196)
(f)における前記複数の部分が、約70kbの部分を含む、項目188または189に記載の方法。
(項目197)
(g)における胎仔フラクションを推定するステップが、誤差値を決定することを含む、項目165から196のいずれか一項に記載の方法。
(項目198)
(i)における局所的な最小のゲノム領域のサイズを決定するステップが、(g)において推定された胎仔フラクションを有する試料について検出可能な、最小の局所的なゲノム領域のサイズを決定することを含む、項目165から197のいずれか一項に記載の方法。
(項目199)
局所的な最小のゲノム領域のサイズが、胎仔フラクションについての上位95%の信頼間隔に従って決定される、項目198に記載の方法。
(項目200)
(k)胎仔フラクションを、前記精緻化された、再区分化されたゲノム領域から再推定するステップをさらに含む、項目165から199のいずれか一項に記載の方法。
(項目201)
(g)における推定された胎仔フラクションを、(k)における再推定された胎仔フラクションと比較するステップを含む、項目200に記載の方法。
(項目202)
(g)における推定された胎仔フラクションが、(k)における再推定された胎仔フラクションと、所定のトレランス値だけ異なる場合に、パート(g)、(h)、(i)、および(j)を反復するステップを含む、項目201に記載の方法。
(項目203)
前記所定のトレランス値が、約1%~約25%の間である、項目202に記載の方法。
(項目204)
ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、項目165から203のいずれか一項に記載の方法。
(項目205)
前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、項目204に記載の方法。
(項目206)
試験試料に由来するヌクレオチド配列の読取りを、精緻化された、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、項目165から205のいずれか一項に記載の方法。
(項目207)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、項目206に記載の方法。
(項目208)
前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、項目207に記載の方法。
(項目209)
前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、項目207または208に記載の方法。
(項目210)
前記配列の読取りのカウント数が、中央値の部分カウント数に従って調整される、項目209に記載の方法。
(項目211)
前記正規化するステップが、主成分正規化を含む、項目207から210のいずれか一項に記載の方法。
(項目212)
前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分正規化を含む、項目207から211のいずれか一項に記載の方法。
(項目213)
遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、項目207から212のいずれか一項に記載の方法。
(項目214)
染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、項目207から213のいずれか一項に記載の方法。
(項目215)
前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、項目207から214のいずれか一項に記載の方法。
(項目216)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目215に記載の方法。
(項目217)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目213から216のいずれか一項に記載の方法。
(項目218)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、項目206に記載の方法。
(項目219)
遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目218に記載の方法。
(項目220)
染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目218または219に記載の方法。
(項目221)
前記未加工のカウント数が、前記試験試料についての染色体量を表示する、項目219または220に記載の方法。
(項目222)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目221に記載の方法。
(項目223)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目219から222のいずれか一項に記載の方法。
(項目224)
参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化するステップと;
d)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定するステップと;
e)局所的な最小のゲノム領域のサイズを決定するステップと;
f)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、再区分化されたゲノム領域を生成するステップと
を含む方法。
(項目225)
遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化することと;
d)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定することと;
e)局所的な最小のゲノム領域のサイズを決定することと;
f)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、再区分化されたゲノム領域を生成することと
を含む処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされる方法。
(項目226)
(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、項目224または225に記載の方法。
(項目227)
(b)における前記初期の部分の長さが、配列決定の深さに従って選択される、項目224または226に記載の方法。
(項目228)
(b)における前記初期の部分の長さが、平均の胎仔フラクションに従って選択される、項目224、226、または227に記載の方法。
(項目229)
前記平均の胎仔フラクションが、前記トレーニングセットを使用して決定される、項目228に記載の方法。
(項目230)
前記初期の部分の長さが、約1kb~約1000kbの間である、項目224から229のいずれか一項に記載の方法。
(項目231)
前記初期の部分の長さが、約30kbである、項目224から230のいずれか一項に記載の方法。
(項目232)
前記初期の部分の長さが、約40kbである、項目224から230のいずれか一項に記載の方法。
(項目233)
前記初期の部分の長さが、約50kbである、項目224から230のいずれか一項に記載の方法。
(項目234)
前記初期の部分の長さが、50kbではない、項目224から230のいずれか一項に記載の方法。
(項目235)
前記初期の部分の長さが、約60kbである、項目224から230のいずれか一項に記載の方法。
(項目236)
前記初期の部分の長さが、約70kbである、項目224から230のいずれか一項に記載の方法。
(項目237)
ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、項目224から236のいずれか一項に記載の方法。
(項目238)
前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、項目224から237のいずれか一項に記載の方法。
(項目239)
前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、項目238に記載の方法。
(項目240)
(f)における前記再区分化されたゲノム領域が、一定のサイズの部分を含む、項目224から239のいずれか一項に記載の方法。
(項目241)
(f)における前記再区分化されたゲノム領域が、変動するサイズの部分を含む、項目224から239のいずれか一項に記載の方法。
(項目242)
(f)における前記再区分化されたゲノム領域が、約1kb~約1000kbの間のサイズを有する部分を含む、項目240または241に記載の方法。
(項目243)
(f)における前記再区分化されたゲノム領域が、約30kbのサイズを有する部分を含む、項目240または241に記載の方法。
(項目244)
(f)における前記再区分化されたゲノム領域が、約40kbのサイズを有する部分を含む、項目240または241に記載の方法。
(項目245)
(f)における前記再区分化されたゲノム領域が、約50kbのサイズを有する部分を含む、項目240または241に記載の方法。
(項目246)
前記再区分化されたゲノム領域が、50kbの部分を含まない、項目240または241に記載の方法。
(項目247)
(f)における前記再区分化されたゲノム領域が、約60kbのサイズを有する部分を含む、項目240または241に記載の方法。
(項目248)
(f)における前記再区分化されたゲノム領域が、約70kbのサイズを有する部分を含む、項目240または241に記載の方法。
(項目249)
(e)における局所的な最小のゲノム領域のサイズを決定するステップが、平均の胎仔フラクションを有する試料について検出可能な、局所的なゲノム領域のサイズを識別することを含む、項目224から248のいずれか一項に記載の方法。
(項目250)
(g)胎仔フラクションを、前記再区分化されたゲノム領域から再推定するステップをさらに含む、項目224から249のいずれか一項に記載の方法。
(項目251)
(d)における領域特異的胎仔フラクションを、(g)における再推定された胎仔フラクションと比較するステップを含む、項目250に記載の方法。
(項目252)
(d)における領域特異的胎仔フラクションが、(g)における再推定された胎仔フラクションと、所定のトレランス値だけ異なる場合に、パート(d)、(e)、および(f)を反復するステップを含む、項目251に記載の方法。
(項目253)
前記所定のトレランス値が、約1%~約25%の間である、項目252に記載の方法。
(項目254)
ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、項目224から253のいずれか一項に記載の方法。
(項目255)
前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、項目254に記載の方法。
(項目256)
試験試料に由来するヌクレオチド配列の読取りを、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、項目224から255のいずれか一項に記載の方法。
(項目257)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、項目256に記載の方法。
(項目258)
前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、項目257に記載の方法。
(項目259)
前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、項目257または258に記載の方法。
(項目260)
前記配列の読取りのカウント数が、中央値の部分のカウント数に従って調整される、項目259に記載の方法。
(項目261)
前記正規化するステップが、主成分正規化を含む、項目257から260のいずれか一項に記載の方法。
(項目262)
前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分のカウント数に従う正規化、それに続く主成分正規化を含む、項目257から261のいずれか一項に記載の方法。
(項目263)
遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、項目257から262のいずれか一項に記載の方法。
(項目264)
染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、項目257から263のいずれか一項に記載の方法。
(項目265)
前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、項目257から264のいずれか一項に記載の方法。
(項目266)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目265に記載の方法。
(項目267)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目263から266のいずれか一項に記載の方法。
(項目268)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、項目256に記載の方法。
(項目269)
遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目268に記載の方法。
(項目270)
染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目268または269に記載の方法。
(項目271)
前記未加工のカウント数が、前記試験試料についての染色体量を表示する、項目269または270に記載の方法。
(項目272)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目271に記載の方法。
(項目273)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目269から272のいずれか一項に記載の方法。
(項目274)
参照ゲノム、またはそのパートを複数の部分へと区分化するための方法であって、
a)グアニンおよびシトシン(GC)のプロファイルを参照ゲノム、またはそのパートについて生成するステップと;
b)セグメント化処理を、(a)において生成された前記GCプロファイルへと適用し、これにより、個別セグメントを提供するステップと;
c)前記参照ゲノム、またはそのパートを複数の部分に、(b)において提供された前記個別セグメントに従って区分化し、これにより、GC区分化された参照ゲノム、またはそのパートを生成するステップと
を含む方法。
(項目275)
遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)グアニンおよびシトシン(GC)のプロファイルを参照ゲノム、またはそのパートについて生成することと;
b)セグメント化処理を、(a)において生成された前記GCプロファイルへと適用し、これにより、個別セグメントを提供することと;
c)前記参照ゲノム、またはそのパートを複数の部分に、(b)において提供された前記個別セグメントに従って区分化し、これにより、GCにより区分化された参照ゲノム、またはそのパートを生成することと
を含む処理により区分化された参照ゲノム、またはそのパートへとマッピングされる方法。
(項目276)
染色体、または染色体のセグメントを、前記参照ゲノムから区分化し、これにより、GC区分化された染色体、またはGC区分化された染色体セグメントを生成するステップを含む、項目274または275に記載の方法。
(項目277)
(a)における前記GCプロファイルが、前記参照ゲノム中の1kbずつのヌクレオチド配列について決定されたGC含有量レベルを含む、項目274、275、または276に記載の方法。
(項目278)
(b)における前記セグメント化処理が、前記GC含有量レベルに対して実施される、項目277に記載の方法。
(項目279)
GC含有量レベルが類似する、1kbのヌクレオチド配列が、前記個別セグメントに統合される、項目278に記載の方法。
(項目280)
(b)における、前記セグメント化処理が、前記個別セグメントを含む分解レンダリングを生成する、項目274から279のいずれか一項に記載の方法。
(項目281)
(b)における前記セグメント化処理が、染色体の長さ(Lchr)および最小の部分の長さ(Lmin)に基づく分解のレベルに従って実施される、項目274から280のいずれか一項に記載の方法。
(項目282)
(b)における前記セグメント化処理が、ハールウェーブレットセグメンテーションを含む、項目274から281のいずれか一項に記載の方法。
(項目283)
前記複数の部分が、変動するサイズの部分を含む、項目274から282のいずれか一項に記載の方法。
(項目284)
前記複数の部分が、約30kb~約300kbの間のサイズを有する部分を含む、項目283に記載の方法。
(項目285)
前記複数の部分が、約32kbの部分を含む、項目283に記載の方法。
(項目286)
前記複数の部分が、約64kbの部分を含む、項目283に記載の方法。
(項目287)
前記複数の部分が、約128kbの部分を含む、項目283に記載の方法。
(項目288)
前記複数の部分が、約256kbの部分を含む、項目283に記載の方法。
(項目289)
前記複数の部分が、50kbの部分を含まない、項目283に記載の方法。
(項目290)
GC含有量を、(b)における前記個別セグメントについて決定するステップを含む、項目274から289のいずれか一項に記載の方法。
(項目291)
ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、項目274から290のいずれか一項に記載の方法。
(項目292)
前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、項目291に記載の方法。
(項目293)
試験試料に由来するヌクレオチド配列の読取りを、GC区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、項目274から292のいずれか一項に記載の方法。
(項目294)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、項目293に記載の方法。
(項目295)
前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、項目294に記載の方法。
(項目296)
前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、項目293または294に記載の方法。
(項目297)
前記配列の読取りのカウント数が、中央値の部分カウント数に従って調整される、項目296に記載の方法。
(項目298)
前記正規化するステップが、主成分正規化を含む、項目293から297のいずれか一項に記載の方法。
(項目299)
前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分正規化を含む、項目293から298のいずれか一項に記載の方法。
(項目300)
遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、項目293から299のいずれか一項に記載の方法。
(項目301)
染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、項目294から300のいずれか一項に記載の方法。
(項目302)
前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、項目294から301のいずれか一項に記載の方法。
(項目303)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目302に記載の方法。
(項目304)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目300から303のいずれか一項に記載の方法。
(項目305)
前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、項目293に記載の方法。
(項目306)
遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目305に記載の方法。
(項目307)
染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、項目305または306に記載の方法。
(項目308)
前記未加工のカウント数が、前記試験試料についての染色体量を表示する、項目306または307に記載の方法。
(項目309)
遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、項目308に記載の方法。
(項目310)
遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、項目306から309のいずれか一項に記載の方法。
図1は、ウェーブレットビニング法を使用して、GC含有量が同様であるセグメントに区分化されたゲノム領域を示す図である。
図2は、ウェーブレットビニング法を使用して、ビンサイズ分布の例を示す図である。
図3は、LDTv4CE2研究における、ウェーブレットビニング法および50kbビニング法を使用する、第21染色体、第18染色体、および第13染色体についての分類結果を示す図である。精度は、2つの方法について同一である。
図4は、LDTv4CE2研究のための、第21染色体、第18染色体、および第13染色体についての真偽表を示す図である。
図5は、ウェーブレットビニング法を使用するワークフローの例を示す図である。
図6は、正倍数性イベント(左ピーク)およびトリソミーイベント(右ピーク)についてのzスコアの分布を示す図である。影を付した帯域は、偽陰性(FN)率αを表示する。
図7は、集団レベル偽陰性(FN)率1%を達成する、微小欠失および/または微小重複の検出のための、最小の胎仔フラクションを示す図である。
図8は、微小欠失および微小重複のある特定の例のリストを提示する図である。
図9は、3つの試料について、正規化されたカウント数を、enet(Elastic Net)によるビン係数(係数が0であるビンを除外する)と対比させた、LOESS回帰プロットを示す図である。試料1の胎仔フラクションは小さく(約5%)、試料2の胎仔フラクションは中程度(約10%)であり、試料3の胎仔フラクションは大きかった(約20%)。
図10は、最適の離散化法において使用されうる、ある特定のステップを示す図である。
図11は、図10に明示されるある特定のステップを使用する、最適の離散化法のためのワークフローの例を示す図である。
図12は、本技術のある特定の実施形態を実装しうるシステムの例示的な実施形態を示す図である。
(詳細な説明)
本明細書では、遺伝子の変動(例えば、染色体の異数性、微小重複、または微小欠失)の存在または非存在を決定するための方法であって、決定が、核酸配列に部分的に従って、かつ/または完全に従って下される方法が提示される。本明細書ではまた、配列決定カバレッジの可変性および/または配列含有量(例えば、グアニンおよびシトシン(GC)の含有量)に従って、参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法も提示される。一部の実施形態では、核酸配列を、妊娠中の雌から得られた試料(例えば、妊娠中の雌の血液)から得る。また、本明細書では、改善されたデータ操作法、ならびにシステム、装置およびモジュールも提供し、これらは一部の実施形態では、本明細書に記載する方法を実施する。一部の実施形態では、本明細書に記載する方法により遺伝子の変動を識別することによって、特定の医学的状態の診断をもたらすこと、または特定の医学的状態の素因を決定することができる。遺伝子の分散を識別することによって、医学的決定の促進および/または有用な医学的手順の利用をもたらすことができる。
試料
本明細書では、核酸を分析するための方法および組成を提供する。一部の実施形態では、核酸断片の混合物中の核酸断片を分析する。核酸の混合物は、異なるヌクレオチド配列、異なる断片長、異なる起源(例えば、ゲノム起源、胎仔起源対母体起源、細胞起源もしくは組織起源、試料起源、被験体起源等)、またはそれらの組合せを有する2つまたはそれ超の核酸断片種を含むことができる。
しばしば、本明細書に記載する方法および装置において利用する核酸または核酸混合物を、対象から得られた試料から単離する。対象は、これらに限定されないが、ヒト、非ヒト動物、植物、細菌、真菌または原生生物を含めた、任意の生きているまたは生きていない生物であり得る。これらに限定されないが、哺乳動物、爬虫類、トリ、両生類、魚、有蹄動物、反芻動物、ウシ科(例えば、ウシ)、ウマ科(例えば、ウマ)、ヤギ(caprine)およびヒツジ(ovine)(例えば、ヒツジ、ヤギ)、ブタ(swine)(例えば、ブタ)、ラクダ科(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(例えば、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラおよびサメを含めて、任意のヒトまたは非ヒト動物を選択することができる。対象は、雄または雌(例えば、女性、妊婦)であり得る。対象は、任意の年齢(例えば、胚、胎仔、乳仔、小児、成体)であり得る。
核酸を、任意のタイプの適切な生物学的検体または試料(例えば、試験試料)から単離することができる。試料または試験試料は、対象またはそのパート(例えば、ヒト対象、妊娠中の雌、胎仔)から単離されるまたは得られる任意の検体であり得る。検体の非限定的な例として、対象から得られた体液または組織が挙げられ、これらには、非限定的に、血液または血液生成物(例えば、血清、血漿等)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄した液(例えば、気管支肺胞、胃、腹腔、管、耳、関節鏡検査に由来するもの)、生検試料(例えば、着床前胚生検試料から得られた試料)、腹腔穿刺試料、細胞(血液細胞、胎盤細胞、胚もしくは胎性細胞、胎性有核細胞もしくは胎性細胞残余物)またはそれらのパート(例えば、ミトコンドリア、核、抽出物等)、雌の生殖器系の洗浄物、尿、糞便、痰、唾液、鼻粘液、前立腺液、洗浄液、精液、リンパ液、胆汁、涙、汗、乳汁、乳房液等、あるいはそれらの組合せが含まれる。一部の実施形態では、生物学的試料は、対象から得られた子宮頚部スワブである。一部の実施形態では、生物学的試料は、血液であり得、時には、血漿または血清であり得る。用語「血液」は、本明細書で使用する場合、妊婦または妊娠の可能性について試験されている女性から得られた血液の試料または調製物を指す。この用語は、全血、血液生成物または血液の任意の画分、例として、従来の定義に従う血清、血漿、バフィーコート等を包含する。血液またはその画分はしばしば、ヌクレオソーム(例えば、母体および/または胎仔のヌクレオソーム)を含む。ヌクレオソームは、核酸を含み、時には、無細胞または細胞内ヌクレオソームである。血液はまた、バフィーコートも含む。バフィーコートを時には、フィコール勾配を利用することによって単離する。バフィーコートは、白血球細胞(例えば、白血球、T細胞、B細胞、血小板等)を含むことができる。特定の実施形態では、バフィーコートは、母体核酸および/または胎仔核酸を含む。血漿は、抗凝固剤で処理した血液の遠心分離の結果得られた、全血の画分を指す。血清は、血液試料が凝固した後に残存する水性の液体部分を指す。体液または組織試料をしばしば、病院または外来が一般に従う標準的なプロトコールに従って収集する。血液の場合、抹消血の適切な量(例えば、3~40ミリリットル)をしばしば収集し、調製する前または調製した後に標準的な手順に従って保存することができる。核酸を抽出する体液または組織試料は、細胞を伴わない場合がある(例えば、無細胞)。一部の実施形態では、体液または組織試料は、細胞要素または細胞残余物を含有する場合がある。一部の実施形態では、胎性細胞またはがん性細胞を、試料中に含む場合がある。
しばしば、試料は不均一であり、これは、1つ超のタイプの核酸種が試料中に存在することを意味する。例えば、不均一核酸として、これらに限定されないが、(i)胎仔由来の核酸および母体由来の核酸、(ii)がん性の核酸および非がん性の核酸、(iii)病原体の核酸および宿主の核酸、より一般的には、(iv)突然変異した核酸および野生型の核酸を挙げることができる。試料は、不均一であり得、これは、1つ超の細胞型、例として、胎性細胞および母体細胞、がん性細胞および非がん性細胞、または病原体細胞および宿主細胞が存在するからである。一部の実施形態では、少量の核酸種および多量の核酸種が存在する。
本明細書に記載する技術を出生前に適用する場合、体液または組織試料を、試験するのに適切な在胎週数において雌から、または妊娠の可能性について試験されている雌から収集することができる。適切な在胎週数は、実施されている出生前試験に応じて変化し得る。特定の実施形態では、妊娠中の雌の対象は、時には妊娠第一期にあり、時には妊娠第二期にあり、または時には妊娠第三期にある。特定の実施形態では、体液または組織を、妊娠中の雌から、在胎約1~約45週(例えば、在胎1~4、4~8、8~12、12~16、16~20、20~24、24~28、28~32、32~36、36~40または40~44週)において、時には、在胎約5~約28週(例えば、在胎6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26または27週)において収集する。特定の実施形態では、体液または組織試料を、妊娠中の雌から、出産(例えば、経膣分娩または非経膣分娩(例えば、外科的分娩))の間または直後(例えば、0~72時間後)に収集する。
血液試料の入手およびDNAの抽出
本明細書の方法はしばしば、妊娠中および時には妊娠後に、母体および/もしくは胎仔の遺伝子の変動の有無を検出するため、ならびに/または胎仔および/もしくは妊娠中の雌の健康状態をモニターするための非侵襲性手段として、母体の血液中に見出される胎仔のDNAの分離、濃縮および分析を含む。したがって、本明細書の特定の方法を実行する最初のステップはしばしば、妊婦から血液試料を得ること、および試料からDNAを抽出することを含む。
血液試料の入手
血液試料を、本技術による方法を使用して、妊婦から試験するのに適切な在胎週数において得ることができる。適切な在胎週数は、下記に論じるように、試験する障害に応じて変化させることができる。女性からの血液の収集はしばしば、病院または外来が一般に従う標準的なプロトコールに従って実施される。抹消血の適切な量、例えば、典型的には5~50mlをしばしば収集し、さらに調製する前に、標準的な手順に従って保存することができる。血液試料は、試料中に存在する核酸の品質の劣化を最小限に留める様式で、収集し、保存し、または輸送することができる。
血液試料の調製
母体の血液中に見出される胎仔のDNAの分析を、例えば、全血、血清または血漿を使用して行うことができる。母体の血液から血清または血漿を調製する方法が公知である。例えば、妊婦の血液を、Vacutainer SST(Becton Dickinson、Franklin Lakes、N.J.)等の、EDTAまたは特殊な市販製品を含有するチューブ中に入れて、血液凝固を阻止することができ、次いで、血漿を、全血から遠心分離により得ることができる。血清は、血液凝固後の遠心分離の有無にかかわらず得ることができる。遠心分離を使用する場合には、典型的には、適切なスピード、例えば、1,500~3,000回gで実施するが、必ずしもそうではない。血漿または血清を、DNA抽出のための新しいチューブに移す前に、追加の遠心分離のステップに付してもよい。
全血の、細胞を伴わない部分に加えて、また、DNAも、細胞画分から回収し、バフィーコート部分中で濃縮することができ、このバフィーコート部分は、女性から得られた全血試料を遠心分離し、血漿を除去して得ることができる。
DNAの抽出
血液を含めた、生物学的試料からDNAを抽出するための多数の公知の方法がある。DNAの調製の一般な方法(例えば、SambrookおよびRussell、Molecular Cloning:A Laboratory Manual第3版2001年による記載)に従うことができ、また、種々の市販されている試薬またはキット、例として、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini Kit、またはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、ドイツ)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)を使用して、妊婦から得られた血液試料からDNAを得ることもできる。また、これらの方法のうちの1つ超の組合せを使用することもできる。
一部の実施形態では、最初に、1つまたは複数の方法により、試料を、胎仔核酸について濃縮またはある程度まで濃縮することもできる。例えば、本技術の組成および処理を、単独で、またはその他の識別因子と組み合わせて使用して、胎仔のDNAと母体のDNAとの識別を行うことができる。これらの因子の例として、X染色体とY染色体との間の単一ヌクレオチドの差、Y染色体に特異的な配列、ゲノム中の他の箇所に位置する多型、胎仔のDNAと母体のDNAとの間のサイズの差、および母体組織と胎仔組織との間のメチル化パターンの差が挙げられるが、これらに限定されない。
試料を核酸の特定の種について濃縮するためのその他の方法が、2007年5月30日出願のPCT特許出願第PCT/US07/69991号、2007年6月15日出願のPCT特許出願第PCT/US2007/071232号、米国仮出願第60/968,876号および第60/968,878号(本出願人に譲渡)(2005年11月28日出願のPCT特許出願第PCT/EP05/012707号)に記載されており、これらは全て、参照により本明細書に組み込まれている。特定の実施形態では、母体核酸を、試料から、選択的に(部分的、実質的、ほとんど完全、または完全に)除去する。
用語「核酸」および「核酸分子」を、本開示全体を通して交換可能に使用することができる。これらの用語は、DNA(例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)等)、RNA(例えば、メッセンジャーRNA(mRNA)、低分子干渉RNA(siRNA)、リボゾームRNA(rRNA)、tRNA、マイクロRNA、胎仔または胎盤が高度に発現するRNA等)、ならびに/またはDNAもしくはRNAのアナログ(例えば、塩基のアナログ、糖のアナログおよび/もしくは外から加えた骨格等を含有するもの)、RNA/DNAのハイブリッドおよびポリアミド核酸(PNA)等に由来する任意の組成の核酸を指し、これらは全て、一本鎖または二本鎖の形態であり得、別段の限定的がない限り、天然に存在するヌクレオチドに類似する様式で機能することができる天然ヌクレオチドの公知のアナログを包含することができる。特定の実施形態では、核酸は、プラスミド、ファージ、自律複製性配列(ARS)、セントロメア、人工染色体、染色体、あるいはin vitroで、または宿主細胞、細胞、細胞核もしくは細胞の細胞質中で、複製し得るまたは複製され得るその他の核酸であってもよく、あるいはそれらに由来してもよい。鋳型核酸は、一部の実施形態では、単一の染色体に由来し得る(例えば、核酸試料は、二倍体生物から得られた試料の1つの染色体に由来し得る)。特段の限定がない限り、この用語は、参照核酸に類似する結合特性を有し、天然に存在するヌクレオチドに類似する様式で代謝される天然ヌクレオチドの公知のアナログを含有する核酸を包含する。別段の記載がない限り、特定の核酸配列は、明確に示す配列のみならず、また、その保存的改変バリアント(例えば、縮重コドン置換体)、対立遺伝子、オルソログ、一塩基多型(SNP)および相補配列も暗に包含する。具体的には、1つまたは複数の選択された(または全ての)コドンの第3の位置が、混合性塩基の残基および/またはデオキシイノシン残基で置換されている配列を生成することによって、縮重コドン置換体を得ることができる。核酸という用語は、座位、遺伝子、cDNA、および遺伝子がコードするmRNAと交換可能に使用する。この用語はまた、均等物として、ヌクレオチドのアナログから合成されたRNAまたはDNAの誘導体、バリアントおよびアナログ、一本鎖(「センス」鎖または「アンチセンス」鎖、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)、および二本鎖ポリヌクレオチドも含むことができる。用語「遺伝子」は、ポリペプチド鎖の生成に関わるDNAのセグメントを意味し、これは、遺伝子産物の転写/翻訳および転写/翻訳の調節に関わる、コード領域に先行する領域およびコード領域に続く領域(リーダーおよびトレーラー)、ならびに個々のコードセグメント(エクソン)間の介在配列(イントロン)を含む。
デオキシリボヌクレオチドは、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンを含む。RNAの場合、塩基シトシンが、ウラシルで置き換えられる。対象から得られた核酸を鋳型として使用して、鋳型核酸を調製することができる。
核酸の単離および処理
核酸を、1つまたは複数の供給源(例えば、細胞、血清、血漿、バフィーコート、リンパ液、皮膚、土壌等)から、当技術分野で公知の方法により得ることができる。任意の適切な方法を使用して、生物学的試料(例えば、血液または血液生成物)からのDNAの単離、抽出および/または精製を行うことができ、それらの非限定的な例として、DNAの調製の方法(例えば、SambrookおよびRussell、Molecular Cloning:A Laboratory Manual第3版2001年による記載)、種々の市販されている試薬またはキット、例として、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini Kit、またはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、ドイツ)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)等、またはそれらの組合せが挙げられる。
細胞溶解の手順および試薬は、当技術分野で公知であり、一般に、化学的方法(例えば、洗剤、低張溶液、酵素による手順等、もしくはそれらの組合せ)、物理的方法(例えば、フレンチプレス、超音波処理等)、または電解質による溶解方法により行うことができる。任意の適切な溶解手順を利用することができる。例えば、化学的方法は一般に、溶解剤を利用して、細胞を破壊し、細胞から核酸を抽出し、続いて、カオトロピック塩を用いて処理する。物理的方法、例として、凍結/解凍、それに続く、粉砕;細胞プレスの使用等もまた有用である。高い塩濃度による溶解の手順もまた、一般に使用される。例えば、アルカリによる溶解の手順を利用することができる。後者の手順には従来、フェノール-クロロホルム溶液の使用が組み込まれており、3つの溶液が関与する、代替のフェノール-クロロホルムを用いない手順も利用することができる。後者の手順の場合、1つの溶液が、15mMトリス、pH8.0;10mM EDTA、および100μg/mlリボヌクレアーゼAを含有することができ;第2の溶液が、0.2N NaOHおよび1%SDSを含有することができ;第3の溶液が、3M KOAc、pH5.5を含有することができる。これらの手順は、Current Protocols in Molecular Biology、John Wiley & Sons、N.Y.、6.3.1~6.3.6巻(1989年)に見出すことができ、その全体が本明細書に組み込まれている。
核酸を、別の核酸と比較する場合、異なる時点で単離することができ、試料のそれぞれが、同じ供給源または異なる供給源に由来する。例えば、核酸は、核酸ライブラリー、例として、cDNAライブラリーまたはRNAライブラリーに由来し得る。核酸は、核酸の精製もしくは単離、および/または試料から得られた核酸分子の増幅の結果であり得る。本明細書に記載する処理に提供される核酸は、1つの試料に由来する核酸、あるいは2つまたはそれ超の試料(例えば、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、10個もしくはそれ超、11個もしくはそれ超、12個もしくはそれ超、13個もしくはそれ超、14個もしくはそれ超、15個もしくはそれ超、16個もしくはそれ超、17個もしくはそれ超、18個もしくはそれ超、19個もしくはそれ超、または20個もしくはそれ超の試料)に由来する核酸を含有することができる。
特定の実施形態では、核酸は、細胞外核酸を含むことができる。用語「細胞外核酸」は、本明細書で使用する場合、実質的に細胞を有さない供給源から単離された核酸を指すことができ、また、「無細胞」核酸および/または「無細胞循環型」核酸とも呼ぶ。細胞外核酸は、血液(例えば、妊娠中の雌の血液)中に存在し、そこから得ることができる。細胞外核酸はしばしば、検出可能な細胞を含まず、細胞要素または細胞残余物を含有する場合がある。細胞外核酸を得るための、細胞を伴わない供給源の非限定的な例が、血液、血漿、血清および尿である。本明細書で使用する場合、用語「無細胞循環型試料核酸を得る」は、試料を直接得ること(例えば、試料、例えば、試験試料を収集すること)、または試料を収集した他者から試料を得ることを含む。理論により制限されることなく、細胞外核酸は、細胞アポトーシスおよび細胞分解の産物であり得、これらは、スペクトル(例えば、「ラダー」)にわたる一連の長さをしばしば有する細胞外核酸の基になる。
特定の実施形態では、細胞外核酸は、異なる核酸種を含むことができ、したがって、本明細書では、「不均一である」と呼ばれる。例えば、がんを有する人から得られた血清または血漿は、がん性細胞に由来する核酸および非がん性細胞に由来する核酸を含む場合がある。別の例では、妊娠中の雌から得られた血清または血漿は、母体核酸および胎仔核酸を含む場合がある。一部の事例では、胎仔核酸は時には、核酸全体の約5%~約50%である(例えば、全ての核酸の約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48または49%が、胎仔核酸である)。一部の実施形態では、核酸中の胎仔核酸の大半の長さが、約500塩基対もしくはそれ未満、約250塩基対もしくはそれ未満、約200塩基対もしくはそれ未満、約150塩基対もしくはそれ未満、約100塩基対もしくはそれ未満、約50塩基対もしくはそれ未満、または約25塩基対もしくはそれ未満である。一部の実施形態では、核酸中の胎仔核酸の大部分は、約500塩基対またはそれ未満の長さである(例えば、胎仔核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約500塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎仔核酸の大部分は、約250塩基対またはそれ未満の長さである(例えば、胎仔核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約250塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎仔核酸の大部分は、約200塩基対またはそれ未満の長さである(例えば、胎仔核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約200塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎仔核酸の大部分は、約150塩基対またはそれ未満の長さである(例えば、胎仔核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約150塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎仔核酸の大部分は、約100塩基対またはそれ未満の長さである(例えば、胎仔核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約100塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎仔核酸の大部分は、約50塩基対またはそれ未満の長さである(例えば、胎仔核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約50塩基対またはそれ未満の長さである)。一部の実施形態では、核酸中の胎仔核酸の大部分は、約25塩基対またはそれ未満の長さである(例えば、胎仔核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約25塩基対またはそれ未満の長さである)。
一部の実施形態では、ある特定の長さ、長さの範囲、または特定の閾値もしくはカットオフを下回るかもしくは上回る長さの核酸断片について分析する。一部の実施形態では、特定の閾値またはカットオフ(例えば、500bp、400bp、300bp、200bp、150bp、100bp)を下回る長さを有する断片を、「短い」断片と称し、特定の閾値またはカットオフ(例えば、500bp、400bp、300bp、200bp、150bp、100bp)を上回る長さを有する断片を、「長い」断片と称する。例えば、200bpを下回る長さを有する断片を、「短い」断片と称し、200bpと等しいかまたはそれを上回る長さを有する断片を、「長い」断片と称する。一部の実施形態では、ある特定の長さ、長さの範囲、または特定の閾値もしくはカットオフを下回るかもしくは上回る長さの断片は分析するが、異なる長さ、長さの範囲、または閾値もしくはカットオフを下回るかもしくは上回る長さの断片は分析しない。一部の実施形態では、ある特定の長さ、長さの範囲、または特定の閾値もしくはカットオフを下回る長さの断片を、異なる長さ、長さの範囲、または特定の閾値もしくはカットオフを上回る長さの断片と別個に分析する。
一部の実施形態では、約500bp未満の断片について分析する。一部の実施形態では、約400bp未満の断片について分析する。一部の実施形態では、約300bp未満の断片について分析する。一部の実施形態では、約200bp未満の断片について分析する。一部の実施形態では、約150bp未満の断片について分析する。例えば、約200bp、190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp、110bp、または100bp未満の断片について分析する。一部の実施形態では、約100bp~約200bpの断片について分析する。例えば、約190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp、または110bpである断片について分析する。一部の実施形態では、約100bp~約200bpの範囲にある断片について分析する。例えば、約110bp~約190bp、130bp~約180bp、140bp~約170bp、140bp~約150bp、150bp~約160bp、145bp~約155bp、または130bp~140bpの範囲にある断片について分析する。一部の実施形態では、約135bpである断片について分析する。一部の実施形態では、約200bpまたはそれを超える断片について分析する。一部の実施形態では、約200bpである断片について分析する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より、約10bp~約30bp短い断片について分析する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より、約10bp~約20bp短い断片について分析する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より、約10bp~約15bp短い断片について分析する。
特定の実施形態では、核酸を含有する試料を処理せずに、核酸を提供して、本明細書に記載する方法を実施することができる。一部の実施形態では、核酸を含有する試料を処理してから、核酸を提供して、本明細書に記載する方法を実施する。例えば、核酸を、試料から、抽出し、単離し、精製し、部分的に精製し、または増幅することができる。用語「単離」は、本明細書で使用する場合、核酸をその元々の環境(例えば、天然に存在する場合の天然の環境、または外因性に発現させる場合の宿主細胞)から取り出すことを指し、したがって、ヒトの介入により(例えば、「人の手により」)その元々の環境から離されている点で、核酸は変化している。用語「単離核酸」は、本明細書で使用する場合、対象(例えば、ヒト対象)から取り出された核酸を指すことができる。単離核酸は、供給源の試料中に存在する成分の量よりも少ない非核酸成分(例えば、タンパク質、脂質)を伴って提供され得る。単離核酸を含む組成は、その約50%~99%超が非核酸成分を含有しない場合がある。単離核酸を含む組成は、その約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超が非核酸成分を含有しない場合がある。用語「精製」は、本明細書で使用する場合、核酸を精製手順に付す前に存在した非核酸成分(例えば、タンパク質、脂質、炭水化物)の量よりも少ない非核酸成分を含有する核酸を提供することを指すことができる。精製核酸を含む組成は、その約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超がその他の非核酸成分を含有しない場合がある。用語「精製」は、本明細書で使用する場合、核酸が由来する試料供給源中よりも少ない核酸種を含有する核酸を提供することを指すことができる。精製核酸を含む組成は、その約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超がその他の核酸種を含有しない場合がある。例えば、胎仔核酸を、母体核酸および胎仔核酸を含む混合物から精製することができる。特定の例では、胎仔核酸の小さな断片を含むヌクレオソームを、母体核酸のより大きな断片を含むより大きなヌクレオソーム複合体の混合物から精製することができる。
一部の実施形態では、本明細書に記載する方法の前、間または後に、核酸を断片化または切断する。断片化または切断した核酸は、約5~約10,000塩基対、約100~約1,000塩基対、約100~約500塩基対、または約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000もしくは9000塩基対の名目上、平均値(average)または平均(mean)の長さを有することができる。断片を、当技術分野で公知の適切な方法により生成することができ、核酸断片の平均値、平均または名目上の長さを、適切な断片生成手順を選択することによって制御することができる。
核酸断片は、オーバーラップするヌクレオチド配列を含有することができ、そのようなオーバーラップする配列は、断片化されていない、対応する核酸のヌクレオチド配列、またはそのセグメントの構築を促進することができる。例えば、1つの断片が、サブ配列xおよびyを有する場合があり、別の断片が、サブ配列yおよびzを有する場合があり、x、yおよびzは、5ヌクレオチド長またはそれ超であり得るヌクレオチド配列である。特定の実施形態では、オーバーラップ配列yを利用して、試料に由来する核酸中のx-y-zのヌクレオチド配列の構築を促進することができる。特定の実施形態では、核酸は、部分的に(例えば、不完全なもしくは打ち切られた特定の切断反応から)断片化させてもよく、または完全に断片化させてもよい。
一部の実施形態では、核酸を、適切な方法により断片化または切断し、それらの非限定的な例として、物理的方法(例えば、せん断、例えば、超音波処理、フレンチプレス、加熱、UV照射等)、酵素処理(例えば、酵素切断剤(例えば、適切なヌクレアーゼ、適切な制限酵素、適切なメチル化感受性制限酵素))、化学的方法(例えば、アルキル化、DMS、ピペリジン、酸加水分解、塩基加水分解、加熱等、もしくはそれらの組合せ)、米国特許出願公開第20050112590号に記載されている処理等、またはそれらの組合せが挙げられる。
本明細書で使用する場合、「断片化」または「切断」は、核酸分子、例として、核酸鋳型遺伝子分子またはその増幅産物を、2つまたはそれ超のより小さな核酸分子に分断することができる手順または条件を指す。そのような断片化または切断は、配列特異的、塩基特異的、または非特異的であり得、例えば、化学的、酵素的、物理的断片化を含めた、多様な方法、試薬または条件のうちのいずれかにより達成することができる。
本明細書で使用する場合、「断片」、「切断産物」、「切断された産物」、またはそれらの文法上の変型は、核酸鋳型遺伝子分子の断片化もしくは切断の結果として得られた核酸分子、またはそれらの増幅産物を指す。そのような断片または切断された産物は、切断反応の結果として得られた全ての核酸分子を指す場合があるが、典型的には、そのような断片または切断された産物は、核酸鋳型遺伝子分子のうちの対応するヌクレオチド配列を含有する、核酸鋳型遺伝子分子の断片化もしくは切断の結果として得られた核酸分子またはそれらの増幅産物セグメントのみを指す。用語「増幅」は、本明細書で使用する場合、試料中の標的核酸を、標的核酸またはそのセグメントと同じまたは実質的に同じヌクレオチド配列を有するアンプリコン核酸を線形にまたは指数関数的に生成する処理に付すことを指す。特定の実施形態では、用語「増幅」は、ポリメラーゼ連鎖反応(PCR)を含む方法を指す。例えば、増幅産物は、核酸鋳型配列の増幅されるヌクレオチド領域よりもヌクレオチドを1つまたは複数多く含有することができる(例えば、プライマーは、核酸鋳型遺伝子分子に相補的なヌクレオチドに加えて、「余分な」ヌクレオチド、例として、転写開始配列を含有することができ、その結果、「余分な」ヌクレオチド、または核酸鋳型遺伝子分子のうちの増幅されるヌクレオチド領域に対応しないヌクレオチドを含有する増幅産物が生じる)。したがって、断片は、表示される核酸鋳型分子から得られたまたはそれに基づくヌクレオチド配列情報を、少なくとも一部において含有する、増幅された核酸分子のセグメントまたはパートから生じる断片を含むことができる。
本明細書で使用する場合、用語「補完的切断反応」は、異なる切断試薬を使用して、または同じ切断試薬の切断特異性を変化させることによって、同じ核酸に対して行われる切断反応を指し、したがって、同じ標的または参照の核酸またはタンパク質の代替の切断パターンを生成させる。特定の実施形態では、核酸を、1つまたは複数の反応槽中で、1つまたは複数の特異的切断剤(例えば、1、2、3、4、5、6、7、8、9、10個またはそれ超の特異的切断剤)を用いて処理することができる(例えば、核酸を、別個の槽中でそれぞれの特異的切断剤を用いて処理する)。用語「特異的切断剤」は、本明細書で使用する場合、核酸を1つまたは複数の特異的な部位において切断することができる作用剤、時には、化学物質または酵素を指す。
また、本明細書に記載する方法に核酸を提供する前に、核酸中の特定のヌクレオチドを改変する処理に、核酸を曝露させることができる。例えば、核酸をその中のヌクレオチドのメチル化状況に基づいて選択的に改変する処理を、核酸に適用することができる。加えて、高温、紫外放射線、X放射線等の条件が、核酸分子の配列中に変化を引き起こすことができる。核酸を、適切な配列分析を行うのに有用な任意の適切な形態で提供することができる。
核酸は、一本鎖であっても、または二本鎖であってもよい。例えば、二本鎖DNAを、例えば、加熱またはアルカリを用いる処理により変性させることによって、一本鎖DNAを生成することができる。特定の実施形態では、核酸は、二重鎖DNA分子の鎖へオリゴヌクレオチドを侵入させることによって形成されるD-ループ構造をとるか、またはDNA様分子、例として、ペプチド核酸(PNA)である。Dループの形成は、E.Coli RecAタンパク質を添加すること、および/または塩濃度を、例えば、当技術分野で公知の方法を使用して変化させることによって促進することができる。
胎仔核酸の含有量の決定
一部の実施形態では、核酸中の胎仔核酸の量(例えば、濃度、相対量、絶対量、コピー数等)を決定する。特定の実施形態では、試料中の胎仔核酸の量を、「胎仔フラクション」と呼ぶ。一部の実施形態では、「胎仔フラクション」は、妊娠中の雌から得られた試料(例えば、血液試料、血清試料、血漿試料)中の循環型無細胞核酸中の胎仔核酸のフラクションを指す。特定の実施形態では、雄の胎仔に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS19、DYS385、DYS392マーカー);RhD陰性の雌中のRhDマーカー)、多型配列の対立遺伝子の比に従って、または胎仔核酸に特異的であり、母体核酸にはそうでない1つもしくは複数のマーカー(例えば、母親と胎仔との間のエピジェネティックなバイオマーカーの差(例えば、メチル化;下記にさらに詳細に記載する)、もしくは母体の血漿中の胎仔のRNAマーカー(例えば、Lo、2005年、Journal of Histochemistry and Cytochemistry、53巻(3号):293~296頁を参照されたい))に従って、胎仔核酸の量を決定する。
胎仔核酸の含有量(例えば、胎仔フラクション)の決定は時には、例えば、参照により本明細書に組み込まれている米国特許出願公開第2010/0105049号の記載に従って、胎仔定量化アッセイ(fetal quantifier assay)(FQA)を使用して行う。このタイプのアッセイにより、母体試料中の胎仔核酸を、試料中の核酸のメチル化状況に基づいて検出および定量化することが可能になる。特定の実施形態では、母体試料に由来する胎仔核酸の量を、存在する核酸の総量に比して決定することができ、それにより、試料中の胎仔核酸のパーセントが得えられる。特定の実施形態では、母体試料中の胎仔核酸のコピー数を決定することができる。特定の実施形態では、配列に特異的(または部分に特異的)な様式で、時には、正確な染色体量分析を可能にする(例えば、胎仔の異数性、微小重複または微小欠失の有無を検出する)のに十分な感受性を伴って、胎仔核酸の量を決定することができる。
胎仔定量化アッセイ(FQA)を、本明細書に記載する方法のうちのいずれかと併せて行うことができる。任意の当技術分野で公知の方法、および/または米国特許出願公開第2010/0105049号の記載により、例えば、メチル化状況の差に基づいて母体のDNAと胎仔のDNAとを区別し、胎仔のDNAを定量化する(すなわち、その量を決定する)ことができる方法等により、そのようなアッセイを行うことができる。メチル化状況に基づいて核酸を差別化するための方法として、これらに限定されないが、メチル化感受性による、例えば、MBD2-Fc断片(MBD2のメチル結合性ドメインが、抗体のFc断片に融合している(MBD-FC))を使用する捕捉(Gebhardら(2006年)Cancer Res.66巻(12号):6118~28頁);メチル化特異的抗体;亜硫酸水素塩により変換する方法、例えば、MSP(メチル化感受性PCR)、COBRA、メチル化感受性単一ヌクレオチドによるプライマーの伸長(Ms-SNuPE)、またはSequenom MassCLEAVE(商標)技術;およびメチル化感受性制限酵素の使用(例えば、母体試料中の母体のDNAを、1つまたは複数のメチル化感受性制限酵素を使用して消化し、それにより、胎仔のDNAを濃縮する)が挙げられる。また、メチル感受性酵素を使用して、メチル化状況に基づいて核酸を差別化することもでき、これらの酵素は、例えば、後者がメチル化されていない場合には、それらのDNA認識配列において優先的または実質的に切断または消化を行うことができる。したがって、非メチル化DNA試料は、メチル化DNA試料よりも小さな断片に切られ、高度メチル化DNA試料は切断されない。明確な記述がない場合には、メチル化状況に基づいて核酸を差別化するための任意の方法を、本明細書の技術の組成および方法と共に使用することができる。胎仔のDNAの量を、増幅反応の間に、例えば、1つまたは複数の競合物質を既知の濃度で導入することによって決定することができる。胎仔のDNAの量の決定はまた、例えば、RT-PCR、プライマーの伸長、配列決定および/または計数により行うこともできる。特定の事例では、核酸の量は、米国特許出願公開第2007/0065823号の記載に従ってBEAMing技術を使用して決定することができる。特定の実施形態では、制限効率を決定することができ、効率の比率を使用して、胎仔のDNAの量をさらに決定する。
特定の実施形態では、胎仔定量化アッセイ(FQA)を使用して、母体試料中の胎仔のDNAの濃度を、例えば、以下の方法により決定することができる:a)母体試料中に存在するDNAの総量を決定し;b)母体試料中の母体のDNAを、1つまたは複数のメチル化感受性制限酵素を使用して選択的に消化し、それにより、胎仔のDNAを濃縮し;c)ステップb)から得られた胎仔のDNAの量を決定し;d)ステップc)から得られた胎仔のDNAの量を、ステップa)から得られたDNAの総量と比較し、それにより、母体試料中の胎仔のDNAの濃度を決定する。特定の実施形態では、母体試料中の胎仔核酸の絶対コピー数を、例えば、質量分析および/または絶対コピー数を測定するために競合PCRのアプローチを使用するシステムを使用して決定することができる。例えば、いずれも参照により本明細書に組み込まれているDingおよびCantor(2003年)Proc.Natl.Acad.Sci.USA、100巻:3059~3064頁、ならびに米国特許出願公開第2004/0081993号を参照されたい。
特定の実施形態では、多型配列(例えば、一塩基多型(SNP))の対立遺伝子の比に基づいて、例えば、参照により本明細書に組み込まれている米国特許出願公開第2011/0224087号に記載の方法等を使用して、胎仔フラクションを決定することができる。そのような方法では、ヌクレオチド配列の読取りを、母体試料について得、参照ゲノム中の参考にする多型の部位(例えば、SNP)において、第1の対立遺伝子に対してマッピングされるヌクレオチド配列の読取りの総数と、第2の対立遺伝子に対してマッピングされるヌクレオチド配列の読取りの総数とを比較することによって、胎仔フラクションを決定する。特定の実施形態では、例えば、試料中の胎仔核酸と母体核酸との混合物に対して、母体核酸はそうした混合物に大きく寄与し、これと比較して、胎仔の対立遺伝子の寄与は相対的に小さいことにより、胎仔の対立遺伝子を識別する。したがって、母体試料中の胎仔核酸の相対的な存在量を、多型の部位のそれら2つの対立遺伝子のそれぞれについての参照ゲノム上の標的核酸配列に対してマッピングしたユニークな配列の読取りの総数のパラメータとして決定することができる。
一部の実施形態では、母体の染色体異常に由来する情報を組み込む方法であって、例えば、参照により本明細書に組み込まれる、国際特許出願公開第WO2014/055774号に記載されている方法を使用して、胎仔フラクションを決定することができる。一部の実施形態では、性染色体に由来する情報を組み込む方法を使用して、胎仔フラクションを決定することができる。
一部の実施形態では、断片長情報(例えば、参照により本明細書に組み込まれている国際出願公開第WO2013/177086号の記載に従う断片長比(fragment length ratio)(FLR)の分析、胎仔比統計値(fetal ratio statistic)(FRS)の分析)を組み込む方法を使用して、胎仔フラクションを決定することができる。無細胞胎性核酸の断片は一般に、母体に由来する核酸の断片よりも短い(例えば、Chanら、(2004年)Clin. Chem. 50巻:88~92頁;Loら(2010年)Sci. Transl. Med. 2巻:61ra91を参照されたい)。したがって、一部の実施形態では、特定の長さの閾値を下回る断片を計数し、それらのカウント数を、例えば、特定の長さの閾値を上回る断片から得られたカウント数、および/または試料中の全ての核酸の量と比較することによって、胎仔フラクションを決定することができる。特定の長さの核酸断片を計数するための方法が、国際出願公開第WO2013/177086号にさらに詳細に記載されている。
一部の実施形態では、部分特異的胎仔フラクションの推定値に従って、胎仔フラクションを決定することができる。部分特異的胎仔フラクションはまた、ビン方式の胎仔フラクション(BFF)、Elastic Netによるビン係数、および配列ベースの胎仔フラクション(SeqFF)とも称する場合がある。理論に制限されることなく、胎仔のCCF断片(例えば、特定の長さまたは範囲の長さの断片)から得られる読取りの量はしばしば、部分に対する頻度範囲(例えば、同じ試料内、例えば、同じ配列決定のラン内)を用いてマッピングされる。また、理論に制限されることなく、特定の部分は、複数の試料間で比較する場合、胎仔のCCF断片(例えば、特定の長さまたは範囲の長さの断片)から得られる、読取りの類似の表示を示し、その表示は、部分特異的胎仔フラクション(例えば、胎仔を起源とするCCF断片の相対量、パーセントまたは比)と相関する傾向を示す。
一部の実施形態では、部分特異的胎仔フラクションの推定値を、一つには、部分特異的パラメータ、および胎仔フラクションとのそれらの関係に基づいて決定する。部分特異的パラメータは、部分中の特定のサイズ(例えば、サイズ範囲)のCCF断片長から得られた読取りの量または比率を反映する(例えば、それと相関する)任意の適切なパラメータであり得る。部分特異的パラメータは、複数の試料について決定された部分特異的パラメータの平均値、平均または中央値であり得る。任意の適切な部分特異的パラメータを使用することができる。部分特異的パラメータの非限定的な例として、FLR(例えば、FRS)、選択された断片長未満の長さを有する読取りの量、ゲノムのカバレッジ(すなわち、カバレッジ)、マッピング可能性、カウント数(例えば、部分に対してマッピングされた配列の読取りのカウント数、例えば、正規化されたカウント数、ChAIにより正規化されたカウント数)、デオキシリボヌクレアーゼI感受性、メチル化状況、アセチル化、ヒストンの分布、グアニン-シトシン(GC)含有量、クロマチン構造等、またはそれらの組合せが挙げられる。部分特異的パラメータは、FLRおよび/またはFRSと、部分に特異的な様式で相関する任意の適切なパラメータであり得る。一部の実施形態では、一部または全部の部分特異的パラメータが、部分についての、FLRの直接的または間接的な表示である。一部の実施形態では、部分特異的パラメータは、グアニン-シトシン(GC)含有量ではない。
一部の実施形態では、部分特異的パラメータは、CCF断片から得られた読取りの量を表示するか、それと相関するか、またはそれに比例する任意の適切な値であり、この場合、部分に対してマッピングされる読取りは、選択された断片長未満の長さを有する。特定の実施形態では、部分特異的パラメータは、部分に対してマッピングされる比較的短いCCF断片(例えば、約200塩基対もしくはそれ未満)から得られた読取りの量の表示である。選択された断片長未満の長さを有するCCF断片はしばしば、比較的短いCCF断片であり、時には、選択された断片長は、約200塩基対またはそれ未満(例えば、約190、180、170、160、150、140、130、120、110、100、90または80塩基長であるCCF断片)である。任意の適切な方法(例えば、配列決定法、ハイブリダイゼーションのアプローチ)により、CCF断片の長さ、またはCCF断片から得られる読取りを決定(例えば、推定または推測)することができる。一部の実施形態では、CCF断片の長さを、両末端から読む(paired-end)配列決定法から得られた読取りにより決定(例えば、推定または推測)する。特定の実施形態では、CCF断片の鋳型の長さを、CCF断片から得られた読取り(例えば、単一末端からの読取り)の長さから直接決定する。
1つまたは複数の加重係数により、部分特異的パラメータに加重するか、またはそれを調整することができる。一部の実施形態では、加重または調整した部分特異的パラメータは、試料(例えば、試験試料)についての、部分特異的胎仔フラクションの推定値を提供することができる。一部の実施形態では、加重または調整は一般に、部分のカウント数(例えば、部分に対してマッピングされた読取り)、または別の部分特異的パラメータを、部分特異的胎仔フラクションの推定値に変換し、そのような変換は時には、転換とみなされる。
一部の実施形態では、加重係数は、一部、胎仔フラクション(例えば、複数の試料から決定した胎仔フラクション)と、複数の試料(例えば、トレーニングセット)についての部分特異的パラメータとの間の関係を記載および/または定義する係数または定数である。一部の実施形態では、加重係数を、複数の、胎仔フラクションの決定結果と、複数の部分特異的パラメータとについての関係に従って決定する。1つの関係を、1つまたは複数の加重係数により定義することができ、1つまたは複数の加重係数を、1つの関係から決定することができる。一部の実施形態では、加重係数(例えば、1つまたは複数の加重係数)を、(i)複数の試料のそれぞれについて決定した胎仔核酸のフラクションと(ii)複数の試料についての部分特異的パラメータとに従って適合させた、部分についての関係から決定する。
加重係数は、適切な関係(例えば、適切な数学的関係、代数関係、適合させた関係、回帰、回帰分析、回帰モデル)から得られる、任意の適切な係数、推定係数または定数であり得る。適切な関係に従って、そこから誘導して、またはそれから推定して、加重係数を決定することができる。一部の実施形態では、加重係数は、適合させた関係から推定された係数である。複数の試料について、関係を適合させることを時には、モデルをトレーニングすると呼ぶ。関係(relationship)を適合させる(例えば、モデルをトレーニングして、トレーニングセットを得る)任意の適切なモデルおよび/または方法を使用することができる。使用することができる適切なモデルの非限定的な例として、回帰モデル、線形回帰モデル、単純回帰モデル、通常の最小二乗回帰モデル、重回帰モデル、一般的な重回帰モデル、多項式回帰モデル、一般線形モデル、一般化線形モデル、離散選択回帰モデル、ロジスティック回帰モデル、多項ロジットモデル、混合ロジットモデル、プロビットモデル、多項プロビットモデル、順序ロジットモデル、順序プロビットモデル、ポアソンモデル、多変量応答回帰モデル、マルチレベルモデル、固定効果モデル、ランダム効果モデル、混合モデル、非線形回帰モデル、ノンパラメトリックモデル、セミパラメトリックモデル、ロバストモデル、クォンタイルモデル、アイソトニックモデル、主成分モデル、最小角モデル、ローカルモデル、セグメント化モデル、および変数誤差モデルが挙げられる。一部の実施形態では、適合された関係は、回帰モデルではない。一部の実施形態では、適合された関係は、決定木モデル、サポート-ベクターマシンモデル、およびニューラルネットワークモデルから選択される。モデルをトレーニングした結果(例えば、回帰モデル、関係)はしばしば、数学的に記載することができる関係であり、この関係は、1つまたは複数の係数(例えば、加重係数)を含む。より複雑な多変量モデルは、1、2、3つまたはそれ超の加重係数を決定することができる。一部の実施形態では、複数の試料から得られた胎仔フラクションおよび2つまたはそれ超の部分特異的パラメータ(例えば、係数)に従って、モデルをトレーニングする(例えば、複数の試料に、例えば、行列により適合させた適合関係(relationship))。
加重係数は、適切な方法により、適切な関係(例えば、適切な数学的関係、代数関係、適合させた関係、回帰、回帰分析、回帰モデル)から得ることができる。一部の実施形態では、適合関係に、推定により適合させ、この非限定的な例として、最小二乗法、通常の最小二乗法、線形回帰、部分回帰、全回帰、一般化回帰、加重回帰、非線形回帰、繰返し加重回帰、リッジ回帰、最小絶対偏差、ベイズ、ベイズ多変量、縮小ランク、LASSO、Weighted Rank Selection Criteria(WRSC)、Rank Selection Criteria(RSC)、エラスティックネット推定法(例えば、エラスティックネット回帰)、およびそれらの組合せが挙げられる。
加重係数を、ゲノムの任意の適切な部分について決定するか、またはそれと関連付けることができる。加重係数を、任意の適切な染色体の任意の適切な部分について決定するか、またはそれと関連付けることができる。一部の実施形態では、加重係数を、ゲノム中の一部または全部の部分について決定するか、またはそれらと関連付ける。一部の実施形態では、加重係数を、ゲノム中の一部または全部の染色体の部分について決定するか、またはそれらと関連付ける。加重係数を時には、選択された染色体の部分について決定するか、またはそれらと関連付ける。加重係数を、1つまたは複数の常染色体の部分について決定するか、またはそれらと関連付けることができる。加重係数を、常染色体またはそれらのサブセットの中の部分を含む複数の部分中の部分について決定するか、またはそれらと関連付けることができる。一部の実施形態では、加重係数を、性染色体(例えば、ChrXおよび/またはChrY)の部分について決定するか、またはそれらと関連付ける。加重係数を、1つまたは複数の常染色体および1つまたは複数の性染色体の部分について決定するか、またはそれらと関連付けることができる。特定の実施形態では、加重係数を、全ての常染色体ならびにX染色体およびY染色体中の複数の部分中の部分について決定するか、またはそれらと関連付ける。加重係数を、X染色体および/またはY染色体中の部分を含まない複数の部分中の部分について決定するか、またはそれらと関連付けることができる。特定の実施形態では、加重係数を、ある染色体の部分について決定するか、またはそれらと関連付け、この染色体は、異数性(例えば、全染色体異数性)を含む。特定の実施形態では、加重係数を、ある染色体の部分について決定するか、またはそれらのみと関連付け、この染色体は、異数体ではない(例えば、正倍数体染色体である)。加重係数を、第13、18および/または21染色体中の部分を含まない複数の部分中の部分について決定するか、またはそれらと関連付けることができる。
一部の実施形態では、加重係数を、1つまたは複数の試料(例えば、トレーニングセットの試料)に従って、部分について決定する。加重係数はしばしば、部分に特異的である。一部の実施形態では、1つまたは複数の加重係数を、部分に独立に割り当てる。一部の実施形態では、加重係数を、複数の試料についての胎仔フラクションの決定結果(例えば、試料に特異的な胎仔フラクションの決定結果)と複数の試料に従って決定した部分特異的パラメータとについての関係に従って決定する。加重係数はしばしば、複数の試料、例えば、約20個~約100,000個もしくはそれ超、約100個~約100,000個もしくはそれ超、約500個~約100,000個もしくはそれ超、約1000個~約100,000個もしくはそれ超、または約10,000個~約100,000個もしくはそれ超の試料から決定する。加重係数を、正倍数体である試料(例えば、正倍数体の胎仔を含む対象から得られた試料、例えば、異数体染色体が存在しない試料)から決定することができる。一部の実施形態では、加重係数を、異数体染色体を含む試料(例えば、正倍数体の胎仔を含む対象から得られた試料)から得る。一部の実施形態では、加重係数を、正倍数体の胎仔を有する対象およびトリソミーの胎仔を有する対象から得られた複数の試料から決定する。加重係数を、複数の試料から得ることができ、これらの試料は、雄の胎仔および/または雌の胎仔を有する対象から得られる。
胎仔フラクションをしばしば、トレーニングセットの1つまたは複数の試料について決定し、そこから、加重係数を誘導する。加重係数を決定する胎仔フラクションは時には、試料に特異的な胎仔フラクションの決定結果である。加重係数を決定する胎仔フラクションは、本明細書に記載するまたは当技術分野で公知である任意の適切な方法により決定することができる。一部の実施形態では、胎仔核酸の含有量(例えば、胎仔フラクション)の決定を、本明細書に記載するまたは当技術分野で公知である適切な胎仔定量化アッセイ(FQA)を使用して行い、それらの胎仔フラクションの決定の非限定的な例として、雄の胎仔に特異的なマーカーに従う決定、多型配列の対立遺伝子の比に基づく決定、胎仔核酸に特異的であり、母体核酸にはそうでない1つもしくは複数のマーカーに従う決定、メチル化に基づくDNAの識別の使用による決定(例えば、A. Nygrenら(2010年)Clinical Chemistry、56巻(10号):1627~1635頁)、競合PCRのアプローチを使用する質量分析の方法および/もしくはシステムによる決定、参照により本明細書に組み込まれている米国特許出願公開第2010/0105049号に記載の方法による決定等、またはそれらの組合せが挙げられる。しばしば胎仔フラクションを、一つには、Y染色体のレベル(例えば、1つまたは複数のゲノム区分のレベル;プロファイルのレベル)に従って決定する。一部の実施形態では、Y染色体の適切なアッセイに従って、胎仔フラクションを決定する(例えば、定量的リアルタイムPCRを使用することによって、胎仔特異的座位(例として、雄胎仔を妊娠している場合のY染色体上のSRY座位)の量を、母親および胎仔の両方に共通する任意の常染色体上の座位の量と比較する(例えば、Lo YMら(1998年)Am J Hum Genet、62巻:768~775頁))。
(例えば、試験試料についての)部分特異的パラメータに、1つまたは複数の加重係数(例えば、トレーニングセットから誘導した加重係数)により加重または調整を行うことができる。例えば、加重係数を、部分について、複数の試料のトレーニングセットについての、部分特異的パラメータと胎仔フラクションの決定結果との関係に従って誘導することができる。次いで、試験試料の部分特異的パラメータの調整および/または加重を、トレーニングセットから誘導した加重係数に従って行うことができる。一部の実施形態では、加重係数を誘導する部分特異的パラメータが、調整または加重を行う(例えば、試験試料の)部分特異的パラメータと同じである(例えば、両方のパラメータがFLRである)。特定の実施形態では、加重係数を誘導する部分特異的パラメータが、調整または加重を行う(例えば、試験試料の)部分特異的パラメータと異なる。例えば、加重係数を、トレーニングセットの試料についての、カバレッジ(すなわち、部分特異的パラメータ)と胎仔フラクションとの間の関係から決定することができ、試験試料の部分についてのFLR(すなわち、別の部分特異的パラメータ)を、カバレッジから誘導した加重係数に従って調整することができる。理論により制限されることなく、(例えば、試験試料についての)部分特異的パラメータに時には、それぞれの部分特異的パラメータと共通の部分特異的FLRとの間の関係および/または相関関係に起因して、(例えば、トレーニングセットの)異なる部分特異的パラメータから誘導された加重係数により調整および/または加重を行うことができる。
部分特異的胎仔フラクションの推定値を、試料(例えば、試験試料)について、部分特異的パラメータに対して、その部分について決定した加重係数により加重することによって決定することができる。加重は、任意の適切な数学的操作を適用することによって、部分特異的パラメータを、加重係数により調整、変換および/または転換することを含むことができ、それらの非限定的な例として、乗算、除算、加算、減算、積分、記号計算、代数的計算、アルゴリズム、三角関数もしくは幾何関数、転換(例えば、フーリエ変換)等、またはそれらの組合せが挙げられる。加重は、適切な数学的モデルによって、部分特異的パラメータを、加重係数により調整、変換および/または転換することを含むことができる。
一部の実施形態では、胎仔フラクションを、試料について、1つまたは複数の部分特異的胎仔フラクションの推定値に従って決定する。一部の実施形態では、胎仔フラクションを、試料(例えば、試験試料)について、1つまたは複数の部分についての部分特異的パラメータの加重または調整に従って決定(例えば、推定)する。特定の実施形態では、試験試料についての胎仔核酸のフラクションを、調整したカウント数または調整したサブセットのカウント数に基づいて推定する。特定の実施形態では、試験試料についての胎仔核酸のフラクションを、部分についての、調整したFLR、調整したFRS、調整したカバレッジおよび/または調整したマッピング可能性に基づいて推定する。一部の実施形態では、約1~約500,000個、約100~約300,000個、約500~約200,000個、約1000~約200,000個、約1500~約200,000個、または約1500~約50,000個の部分特異的パラメータの加重または調整を行う。
(例えば、試験試料についての)胎仔フラクションを、任意の適切な方法により、(例えば、同じ試験試料についての)複数の部分特異的胎仔フラクションの推定値に従って決定する。一部の実施形態では、妊娠中の雌から得られたある試験試料中の胎仔核酸のフラクションの推定の精度を向上させるための方法は、1つまたは複数の部分特異的胎仔フラクションの推定値を決定するステップを含み、この試料についての胎仔フラクションの推定値は、これら1つまたは複数の部分特異的胎仔フラクションの推定値に従って決定される。一部の実施形態では、胎仔核酸のフラクションを、試料(例えば、試験試料)について推定または決定するステップは、1つまたは複数の部分特異的胎仔フラクションの推定値を合計するサブステップを含む。合計のサブステップは、複数の部分特異的胎仔フラクションの推定値に従って、平均値、平均、中央値、AUCまたは積分値を決定することを含むことができる。
一部の実施形態では、妊娠中の雌から得られた試験試料中の胎仔核酸のフラクションの推定の精度を向上させるための方法は、参照ゲノムの部分に対してマッピングした配列の読取りのカウント数を得るステップを含み、これらの配列の読取りは、妊娠中の雌に由来する試験試料から得られた循環型無細胞核酸の読取りであり、得られたカウント数の少なくとも1つのサブセットは、ゲノムのある領域から得られ、この領域が提供する、この領域に由来する全カウント数と比べた胎仔核酸から得られたカウント数は、ゲノムの別の領域の全カウント数と比べた胎仔核酸のカウント数よりも多い。一部の実施形態では、胎仔核酸のフラクションの推定値を、部分のあるサブセットに従って決定し、部分のこのサブセットは、別の部分の胎仔核酸のカウント数よりも多い数の、胎仔核酸から得られたカウント数がマッピングされる部分に従って選択される。一部の実施形態では、部分のこのサブセットは、別の部分の非胎仔核酸と比べた胎仔核酸のカウント数よりも多い数の、非胎仔核酸と比べた胎仔核酸から得られたカウント数がマッピングされる部分に従って選択される。部分の全てまたはサブセットに対してマッピングされたカウント数に加重することができ、それにより、加重したカウント数が得られる。加重したカウント数を利用して、胎仔核酸のフラクションを推定することができ、別の部分の胎仔核酸のカウント数よりも多い数の、胎仔核酸から得られたカウント数がマッピングされる部分に従って、カウント数に加重することができる。一部の実施形態では、別の部分の非胎仔核酸と比べた胎仔核酸のカウント数よりも多い数の、非胎仔核酸と比べた胎仔核酸から得られたカウント数がマッピングされる部分に従って、カウント数に加重する。
胎仔フラクションを、試料(例えば、試験試料)について、試料についての複数の部分特異的胎仔フラクションの推定値に従って決定することができ、部分に特異的な推定値は、ゲノムの任意の適切な領域またはセグメントの部分から得られる。部分特異的胎仔フラクションの推定値を、適切な染色体(例えば、1つもしくは複数の選択された染色体、1つもしくは複数の常染色体、性染色体(例えば、ChrXおよび/もしくはChrY)、異数体染色体、正倍数体染色体等、またはそれらの組合せ)の1つまたは複数の部分について決定することができる。
一部の実施形態では、胎仔フラクションを決定するステップは、(a)参照ゲノムの部分に対してマッピングした配列の読取りのカウント数を得るサブステップ(これらの配列の読取りは、妊娠中の雌に由来する試験試料から得られた循環型無細胞核酸の読取りである)と、(b)例えば、マイクロプロセッサを使用して、胎仔核酸の部分特異的フラクションに関して、(i)それぞれの部分に対してマッピングした配列の読取りのカウント数、または(ii)その他の部分特異的パラメータを、それぞれの部分と独立に関連付けた加重係数に従って加重し、それにより、加重係数に従う、部分特異的胎仔フラクションの推定値を得るサブステップ(複数の試料について、加重係数のそれぞれは、(i)複数の試料のそれぞれについての胎仔核酸のフラクションと、(ii)それぞれの部分に対してマッピングした配列の読取りのカウント数またはその他の部分特異的パラメータとの間でそれぞれの部分について適合させた関係から決定されている)と、(c)試験試料についての胎仔核酸のフラクションを、部分特異的胎仔フラクションの推定値に基づいて推定するサブステップとを含む。
本明細書に提供する方法と併せて、細胞外核酸中の胎仔核酸の量を、定量化し、使用することができる。したがって、特定の実施形態では、本明細書に記載する技術の方法は、胎仔核酸の量を決定する追加のステップを含む。対象から得られた核酸試料中の胎仔核酸の量を、試料核酸を調製するための処理の前または後で決定することができる。特定の実施形態では、試料核酸を処理し、調製した後で、試料中の胎仔核酸の量を決定し、この量を利用して、さらなる評価を行う。一部の実施形態では、アウトカムは、試料核酸中の胎仔核酸のフラクションをファクタリングする(例えば、カウント数を調整する、試料を除去する、判定(call)を行う、または判定を行わない)ことを含む。
決定のステップを、本明細書に記載する方法の前、その間、その中の任意の一点、または本明細書に記載する特定(例えば、異数性の検出、微小重複もしくは微小欠失の検出、胎仔の性別の決定)の方法の後に行うことができる。例えば、胎仔の性別または異数性、微小重複もしくは微小欠失の決定方法を所与の感受性または特異性で行うために、胎仔核酸を定量化する方法を、胎仔の性別または異数性、微小重複もしくは微小欠失の決定の前、間または後に実行して、約2%超、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%またはそれ超の胎仔核酸を有する試料を識別することができる。一部の実施形態では、例えば、特定の閾値量の胎仔核酸(例えば、約15%またはそれ超の胎仔核酸;約4%またはそれ超の胎仔核酸)を有すると決定された試料を、胎仔の性別または異数性、微小重複もしくは微小欠失の決定のために、あるいは異数性または遺伝子の変動の有無について、さらに分析する。特定の実施形態では、試料が、特定の閾値量の胎仔核酸(例えば、約15%またはそれ超の胎仔核酸;約4%またはそれ超の胎仔核酸)を有する場合のみに、例えば、胎仔の性別または異数性、微小重複もしくは微小欠失の有無の決定を選択する(例えば、選択し、患者に伝える)。
一部の実施形態では、染色体の異数性、微小重複または微小欠失の有無を識別するために、胎仔フラクションの決定または胎仔核酸の量の決定が、要求されることも、必要になることもない。一部の実施形態では、染色体の異数性、微小重複または微小欠失の有無の識別が、胎仔のDNAと母体のDNAとの配列の差別化を必要としない。特定の実施形態では、この理由は、特定の染色体、染色体部分またはそのセグメントにおける母体配列および胎仔配列の両方の合計された寄与を分析するからである。一部の実施形態では、染色体の異数性、微小重複または微小欠失の有無の識別は、胎仔のDNAと母体のDNAとを区別するであろう先験的な配列情報に依存しない。
核酸の濃縮
一部の実施形態では、核酸(例えば、細胞外核酸)を、濃縮し、または相対的に濃縮して、核酸の亜集団または種を得る。核酸の亜集団は、例えば、胎仔核酸、母体核酸、特定の長さもしくは範囲の長さの断片を含む核酸、または特定のゲノム領域(例えば、単一の染色体、一連の染色体および/もしくは特定の染色体領域)に由来する核酸を含むことができる。そのような濃縮試料は、本明細書に提供する方法と併せて使用することができる。したがって、特定の実施形態では、本技術の方法は、試料中の核酸の亜集団、例えば、胎仔核酸等について濃縮する追加のステップを含む。特定の実施形態では、濃縮して、胎仔核酸を得るために、上記に記載した、胎仔フラクションを決定するための方法もまた使用することができる。特定の実施形態では、母体核酸を、試料から、選択的に(部分的、実質的、ほとんど完全または完全に)除去する。特定の実施形態では、濃縮して、特定の低いコピー数の種の核酸(例えば、胎仔核酸)を得ることによって、定量的感受性を改善することができる。試料を核酸の特定の種について濃縮するための方法が、例えば、米国特許第6,927,028号、国際特許出願公開第WO2007/140417号、国際特許出願公開第WO2007/147063号、国際特許出願公開第WO2009/032779号、国際特許出願公開第WO2009/032781号、国際特許出願公開第WO2010/033639号、国際特許出願公開第WO2011/034631号、国際特許出願公開第WO2006/056480号および国際特許出願公開第WO2011/143659号に記載されており、これらは全て、参照により本明細書に組み込まれている。
一部の実施形態では、核酸を濃縮して、特定の標的断片種および/または参照断片種を得る。特定の実施形態では、下記に記載する1つまたは複数の、長さに基づく分離の方法を使用して、核酸を濃縮して、特定の核酸の断片長または範囲の断片長を得る。特定の実施形態では、本明細書に記載するおよび/または当技術分野で公知である1つまたは複数の、配列に基づく分離方法を使用して、核酸を濃縮して、選択されたゲノム領域(例えば、染色体)に由来する断片を得る。下記に、試料中の核酸の亜集団(例えば、胎仔核酸)について濃縮するための特定の方法を詳細に記載する。
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎仔核酸)について濃縮するためのいくつかの方法は、母体核酸と胎仔核酸との間のエピジェネティックな差を活用する方法を含む。例えば、メチル化の差に基づいて、胎仔核酸を、母体核酸と差別化し、それから分離することができる。メチル化に基づく胎仔核酸の濃縮方法が、参照により本明細書に組み込まれている米国特許出願公開第2010/0105049号に記載されている。そのような方法は時には、試料核酸を、メチル化特異的結合剤(メチル-CpG結合性タンパク質(MBD)、メチル化特異的抗体等)に結合させるステップと、メチル化状況の差に基づいて、未結合の核酸から、結合した核酸を分離するステップとを含む。そのような方法はまた、メチル化感受性制限酵素(上記に記載;例えば、HhaIおよびHpaII)の使用を含むこともでき、この方法により、母体核酸を選択的かつ完全または実質的に消化して、試料を少なくとも1つの胎仔核酸の領域について濃縮する酵素を用いて、母体試料に由来する核酸を選択的に消化することによって、母体試料中の胎仔核酸の領域の濃縮が可能になる。
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎仔核酸)について濃縮するための別の方法が、参照により本明細書に組み込まれている米国特許出願公開第2009/0317818号に記載の方法等の制限エンドヌクレアーゼにより多型配列を増強するアプローチである。そのような方法は、非標的対立遺伝子を含む核酸を、非標的対立遺伝子を含むが、標的対立遺伝子は含まない核酸を認識する制限エンドヌクレアーゼを用いて切断するステップと、切断された核酸は増幅せずに、未切断の核酸を増幅するステップとを含み、未切断の、増幅された核酸は、非標的核酸(例えば、母体核酸)と比べて濃縮された標的核酸(例えば、胎仔核酸)である。特定の実施形態では、例えば、切断剤による選択的消化を受けやすい多型の部位を有する対立遺伝子を含むように、核酸を選択することができる。
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎仔核酸)について濃縮するためのいくつかの方法は、選択的酵素分解のアプローチを含む。そのような方法は、エキソヌクレアーゼ消化から標的配列を保護し、それにより、試料中の望まれない配列(例えば、母体のDNA)の排除を促進するステップを含む。例えば、1つのアプローチでは、試料核酸を変性させて、一本鎖核酸を生成し、一本鎖核酸を、適切なアニーリング条件下で、少なくとも1つの、標的特異的プライマーの対と接触させ、アニールさせたプライマーを、ヌクレオチドの重合により伸長して、二本鎖標的配列を生成し、一本鎖(すなわち、非標的)の核酸を消化するヌクレアーゼを使用して、一本鎖核酸を消化する。特定の実施形態では、少なくとも1回の追加のサイクルにおいて、この方法を繰り返すことができる。特定の実施形態では、同じ、標的特異的プライマーの対を使用して、第1サイクルおよび第2サイクルのそれぞれにおいてプライマーの伸長を行い、特定の実施形態では、第1サイクルおよび第2サイクルのために、異なる、標的特異的プライマーの対を使用する。
本明細書に記載する方法と共に使用することができる、核酸の亜集団(例えば、胎仔核酸)について濃縮するためのいくつかの方法は、大規模並行シグネチャー配列決定(MPSS)のアプローチを含む。MPSSは典型的には、アダプター(すなわち、タグ)のライゲーションを使用し、続いて、アダプターのデコーディングを行い、核酸配列を小分けして読み取る固相法である。典型的には、タグを付けたPCR産物が増幅され、結果として、それぞれの核酸から、ユニークなタグを有するPCR産物が生成する。しばしば、PCR産物をマイクロビーズにつなぐために、タグを使用する。ライゲーションに基づく配列決定を数回行った後に、例えば、配列のシグネチャーを、それぞれのビーズから識別することができる。MPSSデータセット中のそれぞれのシグネチャー配列(MPSSタグ)を、分析し、全てのその他のシグネチャーと比較し、全ての同一のシグネチャーを計数する。
特定の実施形態では、特定の濃縮方法(例えば、特定の、MPSおよび/またはMPSSに基づく濃縮方法)は、増幅(例えば、PCR)に基づくアプローチを含むことができる。特定の実施形態では、座位に特異的な増幅方法を使用することができる(例えば、座位に特異的な増幅プライマーを使用する)。特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを使用することができる。特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、ユニプレックス配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、マルチプレックスPCR(例えば、MASSARRAYシステム)の使用、および捕捉プローブ配列のアンプリコン中への組込み、続いて、例えば、Illumina MPSSシステムを使用する配列決定を含むことができる。特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、3つのプライマーからなるシステムおよびインデックス配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、例えば、Illumina MPSSシステムを使用する配列決定のために、特定の座位に特異的なフォワードPCRプライマー中に組み込まれた第1の捕捉プローブ、および座位に特異的なリバースPCRプライマー中に組み込まれたアダプター配列を有するプライマーを用いる、マルチプレックスPCR(例えば、MASSARRAYシステム)を使用し、それにより、アンプリコンを生成し、続いて、リバース捕捉配列および分子インデックスバーコードを組み込むための第2のPCRを行うことを含むことができる。特定の実施形態では、マルチプレックスSNP対立遺伝子PCRのアプローチを、4つのプライマーからなるシステムおよびインデックス配列決定と組み合わせて使用することができる。例えば、そのようなアプローチは、例えば、Illumina MPSSシステムを使用する配列決定のために、座位に特異的なフォワードPCRプライマーおよび座位に特異的なリバースPCRプライマーの両方中に組み込まれたアダプター配列を有するプライマーを用いる、マルチプレックスPCR(例えば、MASSARRAYシステム)を使用し、続いて、フォワード捕捉配列およびリバース捕捉配列の両方ならびに分子インデックスバーコードを組み込むための第2のPCRを行うことを含むことができる。特定の実施形態では、マイクロ流体技術のアプローチを使用することができる。特定の実施形態では、アレイに基づくマイクロ流体技術のアプローチを使用することができる。例えば、そのようなアプローチは、マイクロ流体技術によるアレイ(例えば、Fluidigm)を使用して、低いプレックスでの増幅ならびにインデックスおよび捕捉プローブの組込みを行い、続いて、配列決定を行うことを含むことができる。特定の実施形態では、例えば、デジタル小滴PCR等のエマルジョンマイクロ流体技術のアプローチを使用することができる。
特定の実施形態では、(例えば、ユニバーサルプライマーまたは座位に特異的でない増幅プライマーを使用して)ユニバーサル増幅法を使用することができる。特定の実施形態では、ユニバーサル増幅法を、プルダウンのアプローチと組み合わせて使用することができる。特定の実施形態では、方法は、ユニバーサルに増幅された配列決定ライブラリーからのビオチン化ウルトラマーによるプルダウン(例えば、AgilentまたはIDT製のビオチン化プルダウンアッセイ)を含むことができる。例えば、そのようなアプローチは、標準ライブラリーの調製、プルダウンアッセイによる選択された領域についての濃縮、および第2のユニバーサル増幅のステップを含むことができる。特定の実施形態では、プルダウンのアプローチは、ライゲーションに基づく方法と組み合わせて使用することができる。特定の実施形態では、方法は、配列特異的アダプターのライゲーションを用いるビオチン化ウルトラマーによるプルダウン(例えば、HALOPLEX PCR、Halo Genomics)を含むことができる。例えば、そのようなアプローチは、制限酵素消化断片を捕捉するためのセレクタープローブの使用、続いて、捕捉された産物のアダプターへのライゲーション、およびユニバーサル増幅、続いて、配列決定を含むことができる。特定の実施形態では、プルダウンのアプローチを、伸長およびライゲーションに基づく方法と組み合わせて使用することができる。特定の実施形態では、方法は、分子反転プローブ(MIP)による伸長およびライゲーションを含むことができる。例えば、そのようなアプローチは、配列アダプターと組み合わせた分子反転プローブの使用、続いて、ユニバーサル増幅および配列決定を含むことができる。特定の実施形態では、相補的DNAを、合成し、増幅せずに配列決定することができる。
特定の実施形態では、伸長およびライゲーションのアプローチを、プルダウンのコンポーネントなしで行うことができる。特定の実施形態では、方法は、座位に特異的なフォワードプライマーおよびリバースプライマーによるハイブリダイゼーション、伸長、ならびにライゲーションを含むことができる。そのような方法は、ユニバーサル増幅、または増幅なしの相補的DNA合成、続いて、配列決定をさらに含むことができる。特定の実施形態では、そのような方法は、分析の間のバックグラウンドの配列を低下させるか、または排除することができる。
特定の実施形態では、プルダウンのアプローチを、任意選択の増幅コンポーネントを伴わせて、または増幅コンポーネントなしで使用することができる。特定の実施形態では、方法は、改変されたプルダウンアッセイおよびライゲーションを含むことができ、捕捉プローブを十分に組み込み、ユニバーサル増幅は行わない。例えば、そのようなアプローチは、制限酵素消化断片を捕捉するための、改変されたセレクタープローブの使用、続いて、捕捉された産物のアダプターへのライゲーション、任意選択の増幅、および配列決定を含むことができる。特定の実施形態では、方法は、環状一本鎖ライゲーションと組み合わせた、アダプター配列の伸長およびライゲーションを伴う、ビオチン化プルダウンアッセイを含むことができる。例えば、そのようなアプローチは、目的の捕捉領域(すなわち、標的配列)に対するセレクタープローブの使用、プローブの伸長、アダプターのライゲーション、一本鎖環状ライゲーション、任意選択の増幅、および配列決定を含むことができる。特定の実施形態では、配列決定結果の分析により、バックグラウンドから標的配列を分離することができる。
一部の実施形態では、本明細書に記載する1つまたは複数の、配列に基づく分離方法を使用して、核酸を濃縮して、選択されたゲノム領域(例えば、染色体)に由来する断片を得る。配列に基づく分離は一般に、ヌクレオチド配列が、目的の断片(例えば、標的および/または参照の断片)中には存在し、試料のその他の断片中に実質的に存在しない、またはその他の断片はごくわずかな量でしか存在しない(例えば、5%もしくはそれ未満)ことに基づく。一部の実施形態では、配列に基づく分離は、標的断片の分離および/または参照断片の分離を行うことができる。分離された標的断片および/または分離された参照断片をしばしば、核酸試料中の残存する断片から単離し、取り出す。特定の実施形態では、また、分離された標的断片と分離された参照断片とを、相互に単離し、取り出す(例えば、分離アッセイのコンパートメントとして単離する)。特定の実施形態では、分離された標的断片と分離された参照断片とを、一緒に単離する(例えば、同じアッセイコンパートメントとして単離する)。一部の実施形態では、未結合断片を、示差的に除去または分解または消化することができる。
一部の実施形態では、選択的に核酸を捕捉する処理を使用して、核酸試料から、標的断片および/または参照断片を分離し、取り出す。市販されている、核酸を捕捉するシステムとして、例えば、Nimblegen配列捕捉システム(Roche NimbleGen、Madison、WI);Illumina BEADARRAYプラットフォーム(Illumina、San Diego、CA);Affymetrix GENECHIPプラットフォーム(Affymetrix、Santa Clara、CA);Agilent SureSelect Target Enrichment System(Agilent Technologies、Santa Clara、CA);および関連のプラットフォームが挙げられる。そのような方法は典型的には、標的断片または参照断片のヌクレオチド配列のセグメントまたは全てに対する捕捉オリゴヌクレオチドのハイブリダイゼーションを含み、固相(例えば、固相アレイ)および/または溶液に基づくプラットフォームの使用を含むことができる。選択されたゲノム領域または座位(例えば、第21、18、13、XもしくはY染色体のうちの1つ、または参照の染色体)に由来する核酸断片に優先的にハイブリダイズするように、捕捉オリゴヌクレオチド(時には、「おとり」と呼ぶ)を、選択するか、または設計する。特定の実施形態では、(例えば、オリゴヌクレオチドアレイを使用する)ハイブリダイゼーションに基づく方法を使用し、濃縮して、特定の染色体(例えば、異数体の可能性がある染色体、参照の染色体、もしくは目的のその他の染色体)、またはそれらの目的のセグメントに由来する核酸配列を得ることができる。
一部の実施形態では、1つまたは複数の、長さに基づく分離の方法を使用して、核酸を、特定の核酸断片の長さ、範囲の長さ、または特定の閾値もしくはカットオフを下回るもしくは上回る長さについて濃縮する。核酸断片の長さは典型的には、断片中のヌクレオチドの数を指す。また、核酸断片の長さは時には、核酸断片のサイズとも呼ぶ。一部の実施形態では、長さに基づく分離の方法を、個々の断片の長さを測定することなく実施する。一部の実施形態では、長さに基づく分離の方法を、個々の断片の長さを決定するための方法と併せて実施する。一部の実施形態では、長さに基づく分離は、サイズ分画の手順を指し、分画されたプールの全部または一部を、単離(例えば、留保)および/または分析することができる。サイズ分画の手順は、当技術分野で公知である(例えば、アレイ上での分離、分子ふるいによる分離、ゲル電気泳動による分離、カラムクロマトグラフィー(例えば、分子ふるいカラム)による分離、およびマイクロ流体技術に基づくアプローチ)。特定の実施形態では、長さに基づく分離のアプローチとして、例えば、断片の環状化、化学物質による処理(例えば、ホルムアルデヒド、ポリエチレングリコール(PEG))、質量分析、および/またはサイズに特異的な核酸増幅を挙げることができる。
一部の実施形態では、ある特定の長さ、長さの範囲、または特定の閾値もしくはカットオフを下回るかもしくは上回る長さの核酸断片を、試料から分離する。一部の実施形態では、特定の閾値またはカットオフ(例えば、500bp、400bp、300bp、200bp、150bp、100bp)を下回る長さを有する断片を、「短い」断片と称し、特定の閾値またはカットオフ(例えば、500bp、400bp、300bp、200bp、150bp、100bp)を上回る長さを有する断片を、「長い」断片と称する。一部の実施形態では、ある特定の長さ、長さの範囲、または特定の閾値もしくはカットオフを下回るかもしくは上回る長さの断片を、分析のために保持する一方で、異なる長さ、長さの範囲、または閾値もしくはカットオフを下回るかもしくは上回る長さの断片は、分析のために保持しない。一部の実施形態では、約500bp未満の断片を保持する。一部の実施形態では、約400bp未満の断片を保持する。一部の実施形態では、約300bp未満の断片を保持する。一部の実施形態では、約200bp未満の断片を保持する。一部の実施形態では、約150bp未満の断片を保持する。例えば、約190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp、110bp、または100bp未満の断片を保持する。一部の実施形態では、約100bp~約200bpの断片を保持する。例えば、約190bp、180bp、170bp、160bp、150bp、140bp、130bp、120bp、または110bpの断片を保持する。一部の実施形態では、約100bp~約200bpの範囲にある断片を保持する。例えば、約110bp~約190bp、130bp~約180bp、140bp~約170bp、140bp~約150bp、150bp~約160bp、または145bp~約155bpの範囲にある断片を保持する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より、約10bp~約30bp短い断片を保持する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より、約10bp~約20bp短い断片を保持する。一部の実施形態では、ある特定の長さまたは長さの範囲の他の断片より、約10bp~約15bp短い断片を保持する。
一部の実施形態では、1つまたは複数のバイオインフォマティクスベースの(例えば、インシリコ)方法を使用して、核酸を、ある長さ、長さの範囲、または特定の閾値もしくはカットオフを下回るかもしくは上回る長さの、特定の核酸断片についてエンリッチする。例えば、適切なヌクレオチド配列決定処理を使用して、ヌクレオチド配列の読取りを、核酸断片について得ることができる。両末端から読む配列決定法を使用する場合など、一部の場合では、特定の断片の長さを、断片の各末端から得られる、マッピングされた配列の読取りの位置に基づき決定することができる。本明細書で記載される通り、特定の分析(例えば、遺伝子の変動の存在または非存在を決定する分析)のために使用される配列の読取りは、対応する断片についての、1つもしくは複数の選択された断片の長さ、または断片の長さの閾値に従って、エンリッチすることもでき、フィルターをかけることもできる。
本明細書に記載する方法と共に使用することができる、特定の長さに基づく分離の方法は、例えば、選択的な配列によるタグ付けのアプローチを利用する。用語「配列によるタグ付け」は、認識可能であり、かつ明確に異なる配列を、核酸または核酸の集団中に組み込むことを指す。用語「配列によるタグ付け」は、本明細書で使用する場合、本明細書で後に記載する用語「配列タグ」とは異なる意味を有する。そのような配列によるタグ付けの方法では、ある断片サイズの種(例えば、短い断片)の核酸を、長い核酸および短い核酸を含む試料中で、選択的な配列によるタグ付けに付す。そのような方法は典型的には、核酸増幅反応を、内側プライマーおよび外側プライマーを含むセットのネステッドプライマーを使用して実施するステップを含む。特定の実施形態では、内側プライマーの一方または両方にタグを付け、それにより、タグを標的の増幅産物上に導入することができる。外側プライマーは一般に、(内側の)標的配列を担持する短い断片にはアニールしない。内側プライマーは、短い断片にアニールし、タグおよび標的配列を担持する増幅産物を生成することができる。典型的には、長い断片のタグ付けは、例えば、外側プライマーの以前のアニーリングおよび伸長による、内側プライマーの伸長の遮断を含む、機構の組合せを通して阻害される。例えば、一本鎖核酸のエキソヌクレアーゼ消化、および少なくとも1つのタグに特異的な増幅プライマーを使用する、タグを付けた断片の増幅を含めた、多様な方法のうちのいずれかにより、タグを付けた断片についての濃縮を行うことができる。
本明細書に記載する方法と共に使用することができる、別の、長さに基づく分離の方法は、核酸試料を、ポリエチレングリコール(PEG)沈殿に付すステップを含む。方法の例として、国際特許出願公開第WO2007/140417号および第WO2010/115016号に記載されているものが挙げられる。この方法は一般に、小さな(例えば、300ヌクレオチド未満の)核酸を実質的に沈澱させることなく、大きな核酸を実質的に沈殿させるのに十分な条件下において、1つまたは複数の一価の塩の存在下で、核酸試料をPEGと接触させることを必要とする。
本明細書に記載する方法と共に使用することができる、別の、サイズに基づく濃縮方法は、ライゲーション、例えば、circligaseを使用するライゲーションによる環状化を含む。短い核酸断片は典型的には、長い断片よりも高い効率で環状化させることができる。環状化しなかった配列を、環状化した配列から分離することができ、濃縮した短い断片を使用して、さらなる分析を行うことができる。
核酸ライブラリー
一部の実施形態では、核酸ライブラリーは、特定の処理(それらの非限定的な例として、固相(例えば、固体の支持体、例えば、フローセル、ビーズ)上への固定化、濃縮、増幅、クローニング、検出が挙げられる)のために、および/または核酸の配列決定のために、調製され、集められ、かつ/または改変される複数のポリヌクレオチド分子(例えば、核酸の試料)である。特定の実施形態では、核酸ライブラリーを、配列決定の処理の前または間に調製する。核酸ライブラリー(例えば、配列決定ライブラリー)を、当技術分野で公知の適切な方法により調製することができる。核酸ライブラリーを、標的化する調製処理または標的化しない調製処理により調製することができる。
一部の実施形態では、核酸のライブラリーを改変して、固体の支持体への核酸の固定化のために構成される化学的部分(例えば、官能基)を含める。一部の実施形態では、核酸のライブラリーを改変して、固体の支持体へのライブラリーの固定化のために構成される、生物学的分子(例えば、官能基)および/または結合対のメンバーを含め、それらの非限定的な例として、チロキシン結合性グロブリン、ステロイド結合性タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、リプレッサー、プロテインA、プロテインG、アビジン、ストレプトアビジン、ビオチン、補体成分C1q、核酸結合性タンパク質、受容体、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補的核酸配列等、およびそれらの組合せが挙げられる。特異的な結合対のいくつかの例として、非限定的に、アビジン部分とビオチン部分;抗原性エピトープと、抗体もしくはその免疫学的反応性断片;抗体とハプテン;ジゴキシゲニン(digoxigen)部分と抗ジゴキシゲニン(anti-digoxigen)抗体;フルオレセイン部分と抗フルオレセイン抗体;オペレーターとリプレッサー;ヌクレアーゼとヌクレオチド;レクチンと多糖;ステロイドとステロイド結合性タンパク質;活性化合物と活性化合物の受容体;ホルモンとホルモン受容体;酵素と基質;免疫グロブリンとプロテインA;オリゴヌクレオチドもしくはポリヌクレオチドと、それに対応する相補体等、またはそれらの組合せが挙げられる。
一部の実施形態では、核酸のライブラリーを改変して、既知の組成の1つまたは複数のポリヌクレオチドを含め、それらの非限定的な例として、識別子(例えば、タグ、インデックスタグ)、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製開始点、ステムループ、相補配列(例えば、プライマー結合部位、アニーリング部位)、適切な組入れ部位(例えば、トランスポゾン、ウイルス組入れ部位)、改変ヌクレオチド等、またはそれらの組合せが挙げられる。既知の配列のポリヌクレオチドを、適切な位置、例えば、核酸配列の5’末端、3’末端または内部に付加することができる。既知の配列のポリヌクレオチドは、同じ配列であっても、または異なる配列であってもよい。一部の実施形態では、既知の配列のポリヌクレオチドを、表面(例えば、フローセル中の表面)上に固定化された1つまたは複数のオリゴヌクレオチドにハイブリダイズするように構成する。例えば、5’既知配列を含む核酸分子を、第1の、複数のオリゴヌクレオチドにハイブリダイズさせることができ、一方、その分子の3’既知配列を、第2の、複数のオリゴヌクレオチドにハイブリダイズさせることができる。一部の実施形態では、核酸のライブラリーは、染色体に特異的なタグ、捕捉配列、標識および/またはアダプターを含むことができる。一部の実施形態では、核酸のライブラリーは、1つまたは複数の検出可能な標識を含む。一部の実施形態では、1つまたは複数の検出可能な標識を、核酸ライブラリー中に、5’末端において、3’末端において、かつ/またはライブラリー中の核酸の内部の任意のヌクレオチドの位置において組み込むことができる。一部の実施形態では、核酸のライブラリーは、ハイブリダイズさせたオリゴヌクレオチドを含む。特定の実施形態では、ハイブリダイズさせたオリゴヌクレオチドは、標識されたプローブである。一部の実施形態では、核酸のライブラリーは、固相上への固定化の前にハイブリダイズさせたオリゴヌクレオチドプローブを含む。
一部の実施形態では、既知の配列のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列は、2つもしくはそれ超の核酸分子、または核酸分子の2つもしくはそれ超のサブセット中に組み入れる特異的なヌクレオチド配列であり、ユニバーサル配列は、それが組み入られている分子またはサブセットの分子全てについて同じである。ユニバーサル配列はしばしば、ユニバーサル配列に対して相補性を示す単一のユニバーサルプライマーを使用して、複数の異なる配列にハイブリダイズし、かつ/またはそれらを増幅するように設計される。一部の実施形態では、2つ(例えば、対)またはそれ超のユニバーサル配列および/またはユニバーサルプライマーを使用する。ユニバーサルプライマーはしばしば、ユニバーサル配列を含む。一部の実施形態では、アダプター(例えば、ユニバーサルアダプター)は、ユニバーサル配列を含む。一部の実施形態では、1つまたは複数のユニバーサル配列を使用して、核酸の複数の種またはサブセットを、捕捉、識別および/または検出する。
核酸ライブラリーの調製の特定の実施形態では(例えば、合成の手順による特定の配列決定の場合には)、核酸を、サイズにより、選択および/または断片化して、数百塩基対またはそれ未満の長さを得る(例えば、ライブラリーの生成のための調製の場合)。一部の実施形態では、ライブラリーの調製を、断片化せずに行う(例えば、ccfDNAを使用する場合)。
特定の実施形態では、ライゲーションに基づくライブラリーの調製方法を使用する(例えば、ILLUMINA TRUSEQ、Illumina、San Diego CA)。ライゲーションに基づくライブラリーの調製方法はしばしば、アダプター(例えば、メチル化アダプター)の設計を活用し、この設計は、最初のライゲーションのステップにおいて、インデックス配列を組み込むことができ、しばしば、単一末端から読む配列決定、両末端から読む配列決定、およびマルチプレックス配列決定のための試料を調製するために使用することができる。例えば、fill-in反応、エキソヌクレアーゼ反応、またはそれらの組合せにより、時には、核酸(例えば、断片化核酸またはccfDNA)の末端の修復を行う。一部の実施形態では、次いで、得られた平滑末端修復核酸を、アダプター/プライマーの3’末端上の単一ヌクレオチドのオーバーハングに対して相補性を示す単一ヌクレオチドにより伸長することができる。任意のヌクレオチドを、伸長/オーバーハングヌクレオチドのために使用することができる。一部の実施形態では、核酸ライブラリーの調製は、アダプターオリゴヌクレオチドのライゲーションを含む。アダプターオリゴヌクレオチドはしばしば、フローセルアンカーに対して相補性を示し、時には、例えば、核酸ライブラリーを、固体の支持体、例として、フローセルの内側表面に固定化するために利用される。一部の実施形態では、アダプターオリゴヌクレオチドは、識別子、1つもしくは複数の配列決定プライマーハイブリダイゼーション部位(例えば、ユニバーサル配列決定プライマーに対して相補性を示す配列、単一末端配列決定プライマー、両末端配列決定プライマー、マルチプレックス配列決定プライマー等)、またはそれらの組合せ(例えば、アダプター/配列決定、アダプター/識別子、アダプター/識別子/配列決定)を含む。
識別子は、核酸(例えば、ポリヌクレオチド)中に組み込むまたはそれにつなぐ、適切な検出可能な標識であり、識別子により、それを含む核酸の検出および/または識別が可能になる。一部の実施形態では、識別子を、配列決定法の間に、(例えば、ポリメラーゼにより)核酸中に組み込むまたはそれにつなぐ。識別子の非限定的な例として、核酸タグ、核酸のインデックスもしくはバーコード、放射標識(例えば、同位体)、金属標識、蛍光標識、化学発光標識、リン光標識、フルオロフォアクエンチャー、染料、タンパク質(例えば、酵素、抗体もしくはそのパート、リンカー、結合対のメンバー)等、またはそれらの組合せが挙げられる。一部の実施形態では、識別子(例えば、核酸のインデックスまたはバーコード)は、ユニークな、既知のおよび/または識別可能な配列のヌクレオチドまたはヌクレオチド類似体である。一部の実施形態では、識別子は、6つまたはそれ超の近接ヌクレオチドである。多様な異なる励起スペクトルおよび発光スペクトルを有する多数のフルオロフォアが入手可能である。任意の適切なタイプおよび/または数のフルオロフォアを、識別子として使用することができる。一部の実施形態では、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、10個もしくはそれ超、20個もしくはそれ超、30個もしくはそれ超、または50個もしくはそれ超の異なる識別子が、本明細書に記載する方法(例えば、核酸の検出および/または配列決定法)において利用される。一部の実施形態では、1つまたは2つのタイプの識別子(例えば、蛍光標識)を、ライブラリー中のそれぞれの核酸に連結する。識別子の検出および/または定量化を、適切な方法または装置により行うことができ、それらの非限定的な例として、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、ルミノメーター、蛍光光度計、分光光度計、適切な遺伝子チップもしくはマイクロアレイによる分析、ウエスタンブロット、質量分析、クロマトグラフィー、細胞蛍光測定法による分析、蛍光顕微鏡法、適切な蛍光法もしくはデジタル撮像法、共焦点レーザー走査顕微鏡法、レーザー走査細胞数測定、親和性クロマトグラフィー、手作業バッチモードによる分離、電場懸濁、適切な核酸配列決定法および/または核酸配列決定装置等、ならびにそれらの組合せが挙げられる。
一部の実施形態では、トランスポゾンに基づくライブラリーの調製方法を使用する(例えば、EPICENTRE NEXTERA、Epicentre、Madison WI)。トランスポゾンに基づく方法は典型的には、in vitroでの転位を使用して、単一チューブ中での反応においてDNAの断片化およびタグ付けを同時に行い(しばしば、プラットフォームに特異的なタグおよび任意選択のバーコードの組込みが可能である)、配列決定装置で使用できるライブラリーを調製する。
一部の実施形態では、核酸ライブラリーまたはそのパートを増幅する(例えば、PCRに基づく方法により増幅する)。一部の実施形態では、配列決定法は、核酸ライブラリーの増幅を含む。核酸ライブラリーを、固体の支持体(例えば、フローセル中の固体の支持体)上への固定化の前または後に増幅することができる。核酸増幅は、(例えば、核酸ライブラリー中に)存在する核酸鋳型および/またはその相補体の数を、鋳型および/またはその相補体の1つまたは複数のコピーを生成することによって増幅するまたは増加させる処理を含む。増幅は、適切な方法により行うことができる。核酸ライブラリーを、サーモサイクリング法または等温増幅法により増幅することができる。一部の実施形態では、ローリングサークル増幅法を使用する。一部の実施形態では、増幅は、核酸ライブラリーまたはその部分が固定化されている、固体の支持体(例えば、フローセルの内部)上で起きる。特定の配列決定法では、核酸ライブラリーを、フローセルに添加し、適切な条件下でのアンカーへのハイブリダイゼーションによりに固定化する。このタイプの核酸増幅をしばしば、固相増幅と呼ぶ。固相増幅の一部の実施形態では、全部または一部の増幅産物を、固定化されたプライマーから開始する伸長により合成する。固相増幅反応は、増幅オリゴヌクレオチド(例えば、プライマー)のうちの少なくとも1つを固体の支持体上に固定化する点を除き、標準的な溶液相の増幅に類似する。
一部の実施形態では、固相増幅は、表面に固定化された、1つの種のオリゴヌクレオチドプライマーのみを含む核酸増幅反応を含む。特定の実施形態では、固相増幅は、複数の異なる固定化されたオリゴヌクレオチドプライマー種を含む。一部の実施形態では、固相増幅は、固体表面上に固定化された1つの種のオリゴヌクレオチドプライマー、および溶液中の第2の異なるオリゴヌクレオチドプライマー種を含む核酸増幅反応を含むことができる。固定化されたプライマーまたは溶液に基づくプライマーの複数の異なる種を使用することができる。固相核酸増幅反応の非限定的な例として、界面増幅、ブリッジ増幅、エマルジョンPCR、WildFire増幅(例えば、米国特許公報第US20130012399号)等、またはそれらの組合せが挙げられる。
配列決定
一部の実施形態では、核酸(例えば、核酸断片、試料核酸、無細胞核酸)の配列決定を行う。特定の実施形態では、完全または実質的に完全な配列を得、時には、部分的な配列を得る。
一部の実施形態では、断片の長さを、配列決定法を使用して決定する。一部の実施形態では、断片の長さを、両末端から読む配列決定プラットフォームを使用して決定する。このようなプラットフォームは、核酸断片の両端の配列決定を伴う。一般に、断片の両端に対応する配列は、参照ゲノム(例えば、参照ヒトゲノム)へとマッピングすることができる。ある特定の実施形態では、両端を、各断片の末端について個別に、参照ゲノムへとマッピングするのに十分な読取りの長さで、配列決定する。両末端から読む配列の読取り長さの例を、下記に記載する。ある特定の実施形態では、配列の読取りの全部または一部を、ミスマッチを伴わずに、参照ゲノムへとマッピングすることができる。一部の実施形態では、各読取りを、独立にマッピングする。一部の実施形態では、両方の配列の読取りに由来する(すなわち、各末端に由来する)情報を、マッピング処理に織り込む。断片の長さは、例えば、マッピングされた、両末端から読むリードの各々へと割り当てられたゲノム座標の間の差違を計算することにより決定することができる。
一部の実施形態では、断片の長さは、これにより、断片についての完全なヌクレオチド配列、または実質的に完全なヌクレオチド配列を得る配列決定処理を使用して決定することができる。このような配列決定処理は、比較的長い読取りの長さを生成するプラットフォーム(例えば、Roche 454、Ion Torrent、単一分子(Pacific Biosciences)プラットフォーム、リアルタイムSMRT技術など)を含む。
一部の実施形態では、試料中の一部または全部の核酸を、配列決定の前または間に(例えば、非特異的に、例えば、PCRに基づく方法により)濃縮および/または増幅する。特定の実施形態では、試料中の特異的な、核酸の部分またはサブセットを、配列決定の前または間に濃縮および/または増幅する。一部の実施形態では、核酸のあらかじめ選択されたプールの部分またはサブセットの配列決定をランダムに行う。一部の実施形態では、配列決定の前または間に、試料中の核酸の濃縮および/または増幅を行わない。
本明細書で使用する場合、「読取り」(reads)(すなわち、「読取り」(a read)、「配列の読取り」(a sequence read))は、本明細書に記載されるか、または当技術分野で公知である、任意の配列決定の処理により生成された短いヌクレオチド配列である。読取りは、核酸断片の一方の末端から生成させることができ(「単一末端からの読取り」)、時には、核酸の両方の末端から生成させる(例えば、両末端からの読取り、2つの末端からの読取り)。
配列の読取りの長さはしばしば、特定の配列決定の技術と関連する。例えば、高スループット法は、塩基対(bp)のサイズが数十から数百まで変化し得る配列の読取りを提供する。例えば、ナノポア配列決定は、塩基対のサイズが数十から数百または数千まで変化し得る配列の読取りを提供することができる。一部の実施形態では、配列の読取りの平均、中央値、平均の長さまたは絶対長が、約15bp~約900bp長である。特定の実施形態では、配列の読取りの平均、中央値、平均の長さまたは絶対長が、約1000bpまたはそれ超である。
一部の実施形態では、単一末端からの読取りの名目上、平均値、平均の長さまたは絶対長が、時には、約15個の連続ヌクレオチド~約50個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド~約40個もしくはそれ超の連続ヌクレオチドであり、時には、約15個の連続ヌクレオチド、または約36個もしくはそれ超の連続ヌクレオチドである。特定の実施形態では、単一末端からの読取りの名目上、平均値、平均の長さまたは絶対長が、約20~約30塩基長、または約24~約28塩基長である。特定の実施形態では、単一末端からの読取りの名目上、平均値、平均の長さまたは絶対長が、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約21、約22、約23、約24、約25、約26、約27、約28、もしくは約29塩基長またはそれ超である。
ある特定の実施形態では、両末端から読む読取りの名目上、平均値、平均の長さまたは絶対長は、場合によって、約10連続ヌクレオチド~約25連続ヌクレオチドまたはそれ超(例えば、約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、または25ヌクレオチドの長さまたはそれ超)、約15連続ヌクレオチド~約20連続ヌクレオチドまたはそれ超であり、場合によって、約17連続ヌクレオチド、約18連続ヌクレオチド、約20連続ヌクレオチド、約25連続ヌクレオチド、約36連続ヌクレオチド、または約45連続ヌクレオチドである。
読取りは一般に、ヌクレオチド配列の、物理的な核酸で示す表示である。例えば、ATGCと描写される配列を含有する読取りでは、物理的な核酸として、「A」はアデニンヌクレオチドを表示し、「T」はチミンヌクレオチドを表示し、「G」はグアニンヌクレオチドを表示し、「C」はシトシンヌクレオチドを表示する。妊娠中の雌の血液から得られた配列の読取りは、胎仔核酸と母体核酸との混合物に由来する読取りであり得る。比較的短い読取りの混合物を、本明細書に記載する処理により、妊娠中の雌および/または胎仔中に存在するゲノム核酸の表示に転換することができる。比較的短い読取りの混合物を、例えば、コピー数の変動(例えば、母体および/もしくは胎仔のコピー数の変動)、遺伝子の変動、または異数性、微小重複もしくは微小欠失の表示に転換することができる。母体核酸と胎仔核酸との混合物の読取りを、母体の染色体および胎仔の染色体の一方または両方の特徴を含む複合染色体またはそのセグメントの表示に転換することができる。特定の実施形態では、対象から得られた試料の核酸配列の読取りを「得」ること、かつ/または1人もしくは複数の参照の人から得られた生物学的検体の核酸配列の読取りを「得る」ことには、核酸の配列決定を直接行って、配列情報を得ることを含むことができる。一部の実施形態では、「得る」ことは、他者が核酸から直接得た配列情報を受け取ることを含むことができる。
一部の実施形態では、ゲノムの代表的なフラクションが、配列決定され、時には、「カバレッジ」または「カバレッジ倍率」と呼ばれる。例えば、1倍のカバレッジは、ゲノムのヌクレオチド配列のおおよそ100%が、読取りにより表示されることを示す。一部の実施形態では、「カバレッジ倍率」は、参照としての以前の配列決定のランを参照して比較する用語である。例えば、第2の配列決定のランが、第1の配列決定のランのカバレッジの1/2である場合がある。一部の実施形態では、冗長性をもたせて、ゲノムの配列決定を行い、この場合、ゲノムの所与の領域を、2つもしくはそれ超の読取り、またはオーバーラップする読取りがカバーすることができる(例えば、1超の「カバレッジ倍率」、例えば、2倍のカバレッジ)。
一部の実施形態では、1つの個体から得られた1つの核酸試料の配列決定を行う。特定の実施形態では、2つまたはそれ超の試料のそれぞれから得られた核酸の配列決定を行い、この場合、試料は、1つの個体から得られるか、または異なる個体から得られる。特定の実施形態では、2つまたはそれ超の生物学的試料から得られた核酸試料をプールし、この場合、それぞれの生物学的試料が、1つの個体、または2つもしくはそれ超の個体から得られ、プールした試料の配列決定を行う。後者の実施形態では、それぞれの生物学的試料から得られた核酸試料をしばしば、1つまたは複数のユニークな識別子により識別する。
一部の実施形態では、配列決定法は、配列決定の処理における配列決定反応のマルチプレックス化を可能にする識別子を利用する。ユニークな識別子の数が多くなるほど、例えば、配列決定の処理においてマルチプレックス化することができる、検出される試料および/または染色体の数が増える。任意の適切な数(例えば、4、8、12、24、48、96個またはそれ超)のユニークな識別子を使用して、配列決定の処理を行うことができる。
配列決定の処理は、時には固相を使用し、固相は、時にはフローセルを含み、その上に、ライブラリーに由来する核酸をつなぐことができ、試薬を、流し、つなげた核酸と接触させることができる。フローセルは時には、フローセルのレーンを含み、識別子の使用により、それぞれのレーン中のいくつかの試料の分析を促進することができる。フローセルはしばしば、結合させた分析対象を保持し、かつ/または結合させた分析対象上を試薬溶液が整然と通過するのを可能にするように構成することができる固体の支持体である。フローセルは、多くの場合、平面形状をとり、光学的に透明であり、一般に、ミリメートルのまたはミリメートルを下回るスケールであり、しばしば、チャネルまたはレーンを有し、それらの中で、分析対象と試薬との相互作用が発生する。一部の実施形態では、フローセルの所与のレーン中の分析される試料の数は、ライブラリーの調製および/またはプローブの設計の間に利用されるユニークな識別子の数に依存する。単一のフローセルのレーン。例えば、12個の識別子を使用するマルチプレックス化により、8レーンのフローセル中の(例えば、96ウエルのマイクロウエルプレート中のウエルの数に等しい)96個の試料を同時に分析するのが可能になる。同様に、例えば、48個の識別子を使用するマルチプレックス化により、8レーンのフローセル中の(例えば、384ウエルのマイクロウエルプレート中のウエルの数に等しい)384個の試料を同時に分析するのも可能になる。市販されているマルチプレックス配列決定キットの非限定的な例として、Illuminaのマルチプレックス化試料調製オリゴヌクレオチドキット、ならびにマルチプレックス化配列決定プライマーおよびPhiX制御キット(例えば、それぞれ、Illuminaのカタログ番号PE-400~1001およびPE-400~1002)が挙げられる。
核酸の配列決定を行う任意の適切な方法を使用することができ、それらの非限定的な例として、Maxim & Gilbert、鎖停止法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡法に基づく技法等、またはそれらの組合せが挙げられる。一部の実施形態では、本明細書に提供する方法では、第一世代の技術、例えば、サンガー配列決定法等(これらとして、マイクロ流体サンガー配列決定を含めた、自動化サンガー配列決定法が挙げられる)を使用することができる。一部の実施形態では、核酸の撮像技術(例えば、透過型電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の使用を含む配列決定の技術を使用することができる。一部の実施形態では、高スループット配列決定法を使用する。高スループット配列決定法は一般に、DNA鋳型または単一のDNA分子をクローン的に増幅することを含み、これらの鋳型または分子の配列決定を、大規模に並行して、時にはフローセルの内部で行う。大規模に並行してDNAの配列決定を行うことが可能な次世代(例えば、第2世代および第3世代)の配列決定の技法を、本明細書に記載する方法のために使用することができ、本明細書では、これらをまとめて「大規模並行配列決定」(MPS)と呼ぶ。一部の実施形態では、MPS配列決定法は、標的化のアプローチを利用し、この場合、特定の染色体、遺伝子、または目的の領域の配列決定を行う。特定の実施形態では、標的化しないアプローチを使用し、この場合、ランダムに、試料中のほとんどまたは全ての核酸の配列決定を行い、それらを増幅し、かつ/または捕捉する。
一部の実施形態では、濃縮、増幅および/または配列決定の標的化アプローチを使用する。標的化のアプローチはしばしば、試料中の核酸のサブセットを単離、選択および/または濃縮して、配列に特異的なオリゴヌクレオチドの使用によりさらなる処理を行う。一部の実施形態では、配列に特異的なオリゴヌクレオチドのライブラリーを利用して、試料中の核酸の1つまたは複数のセットを標的にする(例えば、それらにハイブリダイズさせる)。しばしば、配列に特異的なオリゴヌクレオチドおよび/またはプライマーは、目的の染色体、遺伝子、エクソン、イントロンおよび/または調節領域の1つまたは複数中に存在する特定の配列(例えば、ユニークな核酸配列)選択的である。任意の適切な方法または方法の組合せを使用して、標的とされる核酸の1つまたは複数のサブセットの濃縮、増幅および/または配列決定を行うことができる。一部の実施形態では、標的とされる配列を、1つまたは複数の配列特異的アンカーを使用して固相(例えば、フローセル、ビーズ)に捕捉することにより単離および/または濃縮する。一部の実施形態では、配列に特異的なプライマーおよび/またはプライマーセットを使用する、ポリメラーゼに基づく方法(例えば、ポリメラーゼに基づく任意の適切な伸長によるPCRに基づく方法)により、標的とされる配列を濃縮および/または増幅する。配列特異的アンカーはしばしば、配列特異的プライマーとして使用することができる。
MPS配列決定は時には、合成による配列決定および特定の可視化処理を使用する。本明細書に記載する方法において使用することができる核酸の配列決定の技術は、合成による配列決定および可逆的鎖停止ヌクレオチドに基づく配列決定(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ2000;HISEQ2500(Illumina、San Diego CA))である。この技術を用いれば、数百万個の核酸(例えば、DNA)断片に対して、並行して配列決定を行うことができる。このタイプの配列決定の技術の1つの例では、8つの個々のレーンを有する光学的に透明なスライドを含有するフローセルを使用し、それらの表面上に、オリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合している。フローセルはしばしば、結合させた分析対象を保持し、かつ/または結合させた分析対象上を試薬溶液が整然と通過するのを可能にするように構成することができる固体の支持体である。フローセルは、多くの場合、平面形状をとり、光学的に透明であり、一般に、ミリメートルのまたはミリメートルを下回るスケールであり、しばしば、チャネルまたはレーンを有し、それらの中で、分析対象と試薬との相互作用が発生する。
一部の実施形態では、合成による配列決定は、鋳型に導かれて、プライマーまたは既存の核酸鎖に、ヌクレオチドを反復して(例えば、共有結合性の付加により)付加することを含む。ヌクレオチドが反復付加される度に、検出を行い、核酸鎖の配列が得られるまで、この処理を複数回繰り返す。得られる配列の長さは一つには、実施される付加および検出のステップの数に依存する。合成による配列決定の一部の実施形態では、1回のヌクレオチド付加で、同じタイプ(例えば、A、G、CまたはT)の1、2、3つまたはそれ超のヌクレオチドを、付加し、検出する。ヌクレオチドは、任意の適切な(例えば、酵素または化学的)方法によりにより付加することができる。例えば、一部の実施形態では、ポリメラーゼまたはリガーゼが、鋳型に導かれて、プライマーまたは既存の核酸鎖にヌクレオチドを付加する。合成による配列決定の一部の実施形態では、異なるタイプのヌクレオチド、ヌクレオチド類似体および/または識別子を使用する。一部の実施形態では、可逆的鎖停止ヌクレオチドおよび/または除去可能(例えば、切断可能)な識別子を使用する。一部の実施形態では、蛍光標識されたヌクレオチドおよび/またはヌクレオチド類似体を使用する。特定の実施形態では、合成による配列決定は、切断(例えば、識別子の切断および除去)ならびに/または洗浄ステップを含む。一部の実施形態では、1つまたは複数のヌクレオチドの付加を、本明細書に記載するまたは当技術分野で公知である適切な方法により検出し、それらの非限定的な例として、任意の適切な撮像装置、適切なカメラ、デジタルカメラ、CCD(チャージカップリングデバイス)に基づく撮像装置(例えば、CCDカメラ)、CMOS(相補型金属酸化膜半導体(Complementary Metal Oxide Silicon))に基づく撮像装置(例えば、CMOSカメラ)、光ダイオード(例えば、光電子増倍管)、電子顕微鏡法、電界効果トランジスタ(例えば、DNA電界効果トランジスタ)、ISFETイオンセンサー(例えば、CHEMFETセンサー)等、またはそれらの組合せが挙げられる。本明細書の方法を実施するために使用することができるその他の配列決定法には、デジタルPCRおよびハイブリダイゼーションによる配列決定が含まれる。
本明細書の方法を実施するために使用することができるその他の配列決定法には、デジタルPCRおよびハイブリダイゼーションによる配列決定が含まれる。デジタルポリメラーゼ連鎖反応(デジタルPCRまたはdPCR)を使用して、試料中の核酸の識別および定量化を直接行うことができる。一部の実施形態では、デジタルPCRを、エマルジョン中で行うことができる。例えば、個々の核酸を、例えば、マイクロ流体チャンバーデバイス中で分離し、それぞれの核酸を、PCRにより個々に増幅する。1個のウエル当たり1つの核酸のみが存在するように核酸を分離することができる。一部の実施形態では、異なるプローブを使用して、種々の対立遺伝子(例えば、胎仔の対立遺伝子と母体の対立遺伝子と)を区別することができる。対立遺伝子を数え上げて、コピー数を決定することができる。
特定の実施形態では、ハイブリダイゼーションによる配列決定を使用することができる。この方法は、複数のポリヌクレオチド配列を、複数のポリヌクレオチドプローブと接触させるステップを含み、複数のポリヌクレオチドプローブのそれぞれを、基材に任意選択でつなぎ止めることができる。一部の実施形態では、基材は、多数の既知のヌクレオチド配列を有する平らな表面であり得る。アレイへのハイブリダイゼーションのパターンを使用して、試料中に存在するポリヌクレオチド配列を決定することができる。一部の実施形態では、それぞれのプローブを、ビーズ、例えば、電磁ビーズ等につなぎ止める。ビーズへのハイブリダイゼーションを識別し、試料内の複数のポリヌクレオチド配列を識別するために使用することができる。
一部の実施形態では、本明細書に記載する方法において、ナノポア配列決定を使用することができる。ナノポア配列決定は、単一分子の配列決定の技術であり、それにより、単一の核酸分子(例えば、DNA)がナノポアを通過する度に、その配列を直接決定する。
本明細書に記載する実施方法に適切なMPSの方法、システムまたは技術プラットフォームを使用して、核酸を配列決定した読取りを得ることができる。MPSプラットフォームの非限定的な例として、Illumina/Solex/HiSeq(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ2000;HISEQ)、SOLiD、Roche/454、PACBIOおよび/またはSMRT、Helicos True Single Molecule Sequencing、Ion Torrentおよびイオン半導体に基づく配列決定(例えば、Life Technologiesが開発したもの)、WildFire、5500、5500xl Wおよび/または5500xl W Genetic Analyzerに基づく技術(例えば、Life Technologiesが開発し、販売するもの、米国特許公報第US20130012399号);ポロニー配列決定、パイロ配列決定、大規模並行シグネチャー配列決定(MPSS)、RNAポリメラーゼ(RNAP)配列決定、LaserGenのシステムおよび方法、ナノポアに基づくプラットフォーム、化学感応性電界効果トランジスタ(CHEMFET)アレイ、電子顕微鏡法に基づく配列決定(例えば、ZS Genetics、Halcyon Molecularが開発したもの)、ナノボール配列決定が挙げられる。
一部の実施形態では、染色体に特異的な配列決定を行う。一部の実施形態では、DANSR(選択された領域のデジタル分析)を利用して、染色体に特異的な配列決定を行う。PCR鋳型を形成するための、介在「ブリッジ」オリゴヌクレオチドを介する、2つの座位特異的オリゴヌクレオチドのcfDNAに依存するカテネーションにより、選択された領域のデジタル分析を行うことによって、数百個の座位を同時に定量化することが可能になる。一部の実施形態では、染色体に特異的な配列が濃縮されたライブラリーを生成することによって、染色体に特異的な配列決定を行う。一部の実施形態では、配列の読取りを、選択された一連の染色体のみについて得る。一部の実施形態では、配列の読取りを、第21、18および13染色体のみについて得る。
読取りのマッピング
配列の読取りをマッピングすることができ、特定の核酸領域(例えば、染色体、その部分またはセグメント)に対してマッピングする読取りの数を、カウント数と呼ぶ。任意の適切なマッピングの方法(例えば、処理、アルゴリズム、プログラム、ソフトウェア、モジュール等、またはそれらの組合せ)を使用することができる。下記に、マッピング処理の特定の態様を記載する。
ヌクレオチド配列の読取り(すなわち、ゲノムの物理的な位置が不明である断片から得られた配列情報)のマッピングを、いくつかの方法で実施することができ、これはしばしば、得られた配列の読取りの、参照ゲノム中の一致する配列とのアラインメントを含む。そのようなアラインメントでは、配列の読取りを一般に、参照配列に対して整列させ、整列させた読取りを、「マッピング」されている、「マッピングされた配列の読取り」または「マッピングされた読取り」と呼ぶ。特定の実施形態では、マッピングされた配列の読取りを、「ヒット」または「カウント数」と呼ぶ。一部の実施形態では、マッピングされた配列の読取りを、種々のパラメータに従って、一緒にしてグループ化し、特定の部分に割り当てるが、これに関しては、下記にさらに詳細に論じる。
本明細書で使用する場合、用語「整列させた(aligned)」、「アラインメント(alignment)」または「整列する(aligning)」により、一致(例えば、100%同一)または部分一致と識別され得る2つまたはそれ超の核酸配列について言及する。アラインメントは、手作業でまたはコンピュータ(例えば、ソフトウェア、プログラム、モジュールもしくはアルゴリズム)により行うことができ、それらの非限定的な例として、Illumina Genomics Analysisパイプラインの一部として流通されているEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムが挙げられる。配列の読取りのアラインメントは、100%配列一致であり得る。場合によっては、アラインメントは、100%配列一致よりも低い(すなわち、不完全一致、部分一致、部分アラインメント)。一部の実施形態では、アラインメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%または75%一致である。一部の実施形態では、アラインメントは、不一致を含む。一部の実施形態では、アラインメントは、1、2、3、4または5つの不一致を含む。2つまたはそれ超の配列は、いずれかの鎖を使用して整列させることができる。特定の実施形態では、核酸配列を、別の核酸配列の逆相補体と整列させる。
種々の計算方法を使用して、配列のそれぞれの読取りをある部分に対してマッピングすることができる。配列を整列させるために使用することができるコンピュータアルゴリズムの非限定的な例として、BLAST、BLITZ、FASTA、BOWTIE1、BOWTIE2、ELAND、MAQ、PROBEMATCH、SOAPもしくはSEQMAP、またはそれらの変更形態もしくはそれらの組合せが挙げられるが、これらに限定されない。一部の実施形態では、配列の読取りを、参照ゲノム中の配列と整列させることができる。一部の実施形態では、配列の読取りを、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)およびDDBJ(DNA Databank of Japan)を含めた、当技術分野で公知の核酸のデータベース中に見出し、かつ/またはそれらの中の配列と整列させることができる。BLASTまたは類似のツールを使用して、識別された配列を配列データベースに照らして検索することができる。次いで、例えば、(下記に記載するように)検索ヒットを使用して、識別された配列を適切な部分に選別することができる。
一部の実施形態では、マッピングされた配列の読取りおよび/またはマッピングされた配列の読取りと関連する情報は、適切なコンピュータ可読フォーマットの非一時的なコンピュータ可読記憶媒体上に記憶させ、かつ/またはそこからアクセスされる。本明細書では、「コンピュータ可読フォーマット」は時には、大まかにフォーマットと呼ぶ。一部の実施形態では、マッピングされた配列の読取りは、適切なバイナリフォーマット、テキストフォーマット等またはそれらの組合せで記憶させ、かつ/またはアクセスされる。バイナリフォーマットは時には、BAMフォーマットである。テキストフォーマットは時には、配列アラインメント/マップ(SAM)フォーマットである。バイナリフォーマットおよび/またはテキストフォーマットの非限定的な例として、BAM、SAM、SRF、FASTQ、Gzip等、またはそれらの組合せが挙げられる。一部の実施形態では、マッピングされた配列の読取りは、従来のフォーマット(例えば、SAMフォーマットまたはBAMフォーマット)よりも少ない記憶空間(例えば、より少ないバイト)を必要とするフォーマットで記憶させ、かつ/またはそれに変換される。一部の実施形態では、第1のフォーマットのマッピングされた配列の読取りは、第1のフォーマットよりも少ない記憶空間を必要とする第2のフォーマットに圧縮される。用語「圧縮される」は、本明細書で使用する場合、コンピュータ可読データファイルのサイズを低下させる、データ圧縮、情報源符号化および/またはビットレート削減の処理を指す。一部の実施形態では、マッピングされた配列の読取りは、バイナリフォーマットのSAMフォーマットから圧縮される。ファイルを圧縮すると、いくつかのデータが時には失われる。時には、圧縮処理でデータは失われない。ファイル圧縮の一部の実施形態では、いくつかのデータは、マッピングされた配列の読取りに関する情報を含む別のデータファイルへのインデックスおよび/またはリファレンスで置き換えられる。一部の実施形態では、マッピングされた配列の読取りを、読取りのカウント数、(例えば、読取りがマッピングされる染色体を識別する)染色体の識別子、および(例えば、読取りがマッピングされる染色体上の位置を識別する)染色体位置の識別子を含むか、またはそれらからなるバイナリフォーマットで記憶させる。一部の実施形態では、バイナリフォーマットは、20バイト配列、16バイト配列、8バイト配列、4バイト配列または2バイト配列を含む。一部の実施形態では、マッピングされた読取り情報を、10バイトフォーマット、9バイトフォーマット、8バイトフォーマット、7バイトフォーマット、6バイトフォーマット、5バイトフォーマット、4バイトフォーマット、3バイトフォーマットまたは2バイトフォーマットの配列で記憶させる。時には、マッピングされた読取りデータを、5バイトフォーマットを含む4バイト配列で記憶させる。一部の実施形態では、バイナリフォーマットは、1バイトの染色体の順序数および4バイトの染色体の位置を含む5バイトのフォーマットを含む。一部の実施形態では、マッピングされた読取りを、配列アラインメント/マップ(SAM)フォーマットの約1/100、約1/90、約1/80、約1/70、約1/60、約1/55、約1/50、約1/45、約1/40または約1/30である圧縮されたバイナリフォーマットで記憶させる。一部の実施形態では、マッピングされた読取りを、GZipフォーマットの約1/2~約1/50(例えば、約1/30、1/25、1/20、1/19、1/18、1/17、1/16、1/15、1/14、1/13、1/12、1/11、1/10、1/9、1/8、1/7、1/6または約1/5)である圧縮バイナリフォーマットで記憶させる。
一部の実施形態では、システムは、圧縮モジュールを含む。一部の実施形態では、コンピュータ可読フォーマットの非一時的なコンピュータ可読記憶媒体上に記憶させたマッピングされた配列の読取り情報を、圧縮モジュールにより圧縮する。圧縮モジュールは時には、マッピングされた配列の読取りを、適切なフォーマットに変換したり、適切なフォーマットから変換したりする。一部の実施形態では、圧縮モジュールは、第1のフォーマットのマッピングされた配列の読取りを受け取り、これらを圧縮されたフォーマット(例えば、バイナリフォーマット、5)に変換し、圧縮された読取りを別のモジュール(例えば、偏り密度モジュール、6)に移すことができる。圧縮モジュールはしばしば、配列の読取りをバイナリフォーマット、5(例えば、BReadsフォーマット)で提供する。圧縮モジュールの非限定的な例として、GZIP、BGZFおよびBAM等、またはそれらの改変形態が挙げられる。
以下に、javaを使用する、整数の4バイト配列への変換の例を示す。
public static final byte[ ]
convertToByteArray(int value)
{
return new byte[ ] {
(byte)(value >>> 24),
(byte)(value >>> 16),
(byte)(value >>> 8),
(byte)value};
}
一部の実施形態では、読取りを、参照ゲノム中の部分に対してユニークまたは非ユニークにマッピングすることができる。参照ゲノム中の単一配列との整列の場合であれば、読取りは、「ユニークにマッピングされる」とみなされる。参照ゲノム中の2つまたはそれ超の配列との整列の場合であれば、読取りは、「非ユニークにマッピングされる」とみなされる。一部の実施形態では、非ユニークにマッピングされた読取りは、さらなる分析(例えば、定量化)から排除される。特定の実施形態では、特定の、低い程度の不一致(0~1つ)は、参照ゲノムと、マッピングされている、個々の試料から得られた読取りとの間に存在し得る単一ヌクレオチド多型であると説明することができる場合がある。一部の実施形態では、参照配列に対してマッピングされる読取りには、いかなる程度の不一致も許されない。
本明細書で使用する場合、用語「参照ゲノム」は、部分配列であれ、完全配列であれ、任意の生物またはウイルスの任意の特定の公知の配列決定されたまたは特徴付けられたゲノムであって、対象由来の識別された配列を照会するために使用することができるゲノムを指すことができる。例えば、ヒト対象および多くのその他の生物のために使用する参照ゲノムを、World Wide Web URL ncbi.nlm.nih.govにおけるNational Center for Biotechnology Informationにおいて見出すことができる。「ゲノム」は、核酸配列として表される、生物またはウイルスの完全な遺伝情報を指す。本明細書で使用する場合、参照配列または参照ゲノムはしばしば、1つの個体または複数の個体から得られた、集められたまたは部分的に集められたゲノム配列である。一部の実施形態では、参照ゲノムは、1つまたは複数のヒト個体から得られた、集められたまたは部分的に集められたゲノム配列である。一部の実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。
特定の実施形態では、試料核酸が妊娠中の雌に由来する場合、参照配列が時には、胎仔にも、胎仔の母親にも、胎仔の父親にも由来せず、これを本明細書では「外部参照」と呼ぶ。一部の実施形態では、母体の参照を準備し、使用することができる。外部参照に基づいて、妊娠中の雌からの参照(「母体の参照配列」)を準備する場合、胎仔のDNAを実質的に含有しない、妊娠中の雌のDNAから得られた読取りをしばしば、外部参照配列に対してマッピングし、集める。特定の実施形態では、外部参照は、妊娠中の雌と実質的に同じ民族性を有する個体のDNAに由来する。母体の参照配列は、母体のゲノムDNAを完全にはカバーしない場合があり(例えば、母体のゲノムDNAの約50%、60%、70%、80%、90%またはそれ超をカバーする場合がある)、母体の参照は、母体のゲノムDNA配列と完全には一致しない場合がある(例えば、母体の参照配列は、複数の不一致を含む場合がある)。
特定の実施形態では、マッピング可能性を、ゲノム領域(例えば、部分、ゲノム部分、部分)について評価する。マッピング可能性は、ヌクレオチド配列の読取りを、参照ゲノムのある部分に対して、典型的には、例えば、0、1、2つまたはそれ超の不一致を含めた、特定の数の不一致が存在するだけで、明確に整列させることができることである。所与のゲノム領域について、事前にセットされた、読取りの長さのスライディングウィンドウのアプローチを使用し、得られた、読取りレベルのマッピング可能性の値を平均化して、予想されるマッピング可能性を推定することができる。ユニークなヌクレオチド配列のストレッチを含むゲノム領域が時には、高いマッピング可能性の値を有する。
部分
一部の実施形態では、マッピングされた配列の読取り(すなわち、配列タグ)を、種々のパラメータに従って、一緒にしてグループ化し、特定の部分(例えば、参照ゲノムの部分)に割り当てる。しばしば、個々のマッピングされた配列の読取りを使用して、試料中に存在する、ある部分(例えば、ある部分の存在、不在または量)を識別することができる。一部の実施形態では、部分の量は、試料中のより大きな配列(例えば、染色体)の量を示す。用語「部分」はまた、本明細書では、「ゲノム区分」、「ビン」、「領域」、「区画」、「参照ゲノム部分」、「染色体の部分」または「ゲノム部分」と呼ぶこともできる。一部の実施形態では、部分は、染色体全体、染色体のセグメント、参照ゲノムのセグメント、複数の染色体に広がるセグメント、複数の染色体のセグメント、および/またはそれらの組合せである。一部の実施形態では、部分は、特定のパラメータに基づいてあらかじめ定義される。一部の実施形態では、部分は、ゲノムの区分化(例えば、サイズ、GC含有量、配列決定カバレッジの可変性、連続領域、任意に規定されたサイズの連続領域などによる区分化)に基づき、任意に規定される。ゲノム(例えば、参照ゲノム、またはそのパート)を区分化するための方法については、本明細書で提示され、下記でさらに詳細に記載される。
一部の実施形態では、部分は、例えば、配列の長さまたは1つもしくは複数の特定の特徴を含む、1つまたは複数のパラメータに基づいて描写される。当技術分野で公知であるか、または本明細書に記載する任意の適切な判断基準を使用して、部分は、選択され、フィルターをかけ、かつ/または検討から除去することができる。一部の実施形態では、部分は、ゲノム配列の特定の長さに基づく。一部の実施形態では、方法は、複数の部分に対してマッピングされた、配列の複数の読取りの分析を含むことができる。部分はおよそ同じ長さであってもよく、または部分は異なる長さであってもよい。一部の実施形態では、部分は、ほぼ等しい長さである。一部の実施形態では、部分は、等しい長さではない。一部の実施形態では、部分は、目的のある特定のゲノム領域中の、第1の等しい長さであり、目的の異なるゲノム領域中の、第2の等しい長さである。例えば、部分は、ゲノム領域A中の30kbの長さであることが可能であり、ゲノム領域B中の70kbでありうる。目的のゲノム領域中の部分の長さを最適化するための方法については、本明細書で提示され、下記でさらに詳細に記載される。一部の実施形態では、異なる長さの部分を調整するか、またはこれらに重みづけする。一部の実施形態では、ゲノムを、初期の部分の長さに従って区分化し、次いで、1つまたは複数の最適の部分の長さに従って再区分化する。一部の実施形態では、部分は、約1キロベース(kb)~約1000kb、約1kb~約500kb、約10kb~約300kb、約10kb~約100kb、約20kb~約80kb、約30kb~約70kb、約40kb~約60kbであり、場合によって、約50kbである。一部の実施形態では、部分は、50kbではない。一部の実施形態では、部分は、約10kb~約20kbである。一部の実施形態では、部分は、約30kbである。一部の実施形態では、部分は、約10kbである。一部の実施形態では、部分は、約20kbである。一部の実施形態では、部分は、約30kbである。一部の実施形態では、部分は、約40kbである。一部の実施形態では、部分は、約50kbである。一部の実施形態では、部分は、約60kbである。一部の実施形態では、部分は、約70kbである。一部の実施形態では、部分は、約80kbである。一部の実施形態では、部分は、約90kbである。一部の実施形態では、部分は、約100kbである。一部の実施形態では、部分は、約30kb~約300kbである。一部の実施形態では、部分は、約32kbである。一部の実施形態では、部分は、約64kbである。一部の実施形態では、部分は、約128kbである。一部の実施形態では、部分は、約256kbである。部分は、配列の連続するランに限定されない。したがって、部分は、連続するおよび/または連続しない配列から構成され得る。部分は、単一の染色体に限定されない。一部の実施形態では、部分は、1つの染色体の全部もしくは一部、または2つもしくはそれ超の染色体の全部もしくは一部を含む。一部の実施形態では、部分は、1、2つまたはそれ超の染色体全体に広がり得る。さらに、部分は、複数の染色体のつながっているまたは散在する領域にも広がり得る。
一部の実施形態では、部分は、目的の染色体、例えば、遺伝子の変動(例えば、第13、18および/もしくは21染色体、または性染色体の異数性)を評価する染色体等中の特定の染色体セグメントであり得る。部分はまた、病原体のゲノム(例えば、細菌、真菌もしくはウイルス)、またはその断片であり得る。部分は、遺伝子、遺伝子の断片、調節配列、イントロン、エクソン等であり得る。
染色体の「セグメント」は、一般に染色体のパートであり、典型的には部分とは異なる染色体のパートである。染色体のセグメントは、時には部分とは異なる染色体の領域中にあり、時には部分とはポリヌクレオチドを共有せず、時には部分中にあるポリヌクレオチドを含む。染色体のセグメントは、しばしば部分よりも大きな数のヌクレオチドを含有し(例えば、セグメントは、時には部分を含む)、染色体のセグメントは、時には部分よりも小さな数のヌクレオチドを含有する(例えば、セグメントは、時には部分の内部にある)。本明細書で使用される「ゲノム領域」とは、部分より大きな数のヌクレオチドを含有することが多い(例えば、ゲノム領域は、場合によって、1つまたは複数の部分を含む)。
ゲノムの区分化
一部の実施形態では、ゲノム(例えば、ヒトゲノム、参照ゲノム、参照ゲノムのパート、ゲノム領域、1つまたは複数の染色体、染色体のセグメント)を、特定の領域および/または他のパラメータの情報内容に基づき、部分へと区分化する。ゲノムの区分化は、場合によって、離散化、ビニング、セグメント化、セグメンテーション、部分化、分割、群分け、集約、およびアグリゲーションと称する。一部の実施形態では、ゲノムを、グアニンおよびシトシン(GC)の含有量に従って区分化する。一部の実施形態では、ゲノムを、配列決定カバレッジの可変性に従って区分化する。一部の実施形態では、ゲノムを区分化することにより、特定の領域および/または他のパラメータの情報内容と関連する偏りを消失させるかまたは低減することができる。一部の実施形態では、ゲノムを区分化することにより、ある特定の領域については、細かなグリッド(すなわち、小さな部分)を確立し、他の領域については、粗いグリッド(すなわち、大きな部分)を確立することができる。一部の実施形態では、ゲノムを区分化することにより、ゲノムにわたり、類似する領域(例えば、同一な領域もしくは相同な領域または同一な配列もしくは相同な配列)を消失させ、ユニークな領域だけを保つことができる。区分化において除外される領域は、単一の染色体中の場合もあり、複数の染色体にわたる場合もある。一部の実施形態では、区分化されたゲノムを、迅速なアラインメントのためにトリミングし、最適化することから、ユニークに識別可能な配列に焦点を当てることが可能となることが多い。
一部の実施形態では、染色体の限界を超える領域へのゲノムの区分化は、分類の状況で得られた情報のゲインに基づいて行うことができる。例えば、正常と確認された対象群と異常と確認された対象群と(例えば、それぞれ、正倍数体の対象とトリソミーの対象と)を区別するための特定のゲノムの場所の有意性を測定するp値プロファイルを使用して、情報内容を定量化することができる。一部の実施形態では、例えば、タグを整列させる際のスピード/利便性、GC含有量(例えば、高いもしくは低いGC含有量)、GC含有量の一様性、配列の含有量のその他の尺度(例えば、個々のヌクレオチドの割合、ピリミジンもしくはプリンの割合、天然核酸対非天然核酸の割合、メチル化ヌクレオチドの割合、およびCpG含有量)、配列決定カバレッジの可変性、メチル化状況、二重鎖の融解温度、配列決定もしくはPCRに対する従順性、参照ゲノムの個々の部分に割り当てられた不確実性の値、ならびに/または特定の特徴を標的とする検索結果等の任意のその他の判断基準に基づいて、染色体の限界を超える領域へのゲノムの区分化を行うことができる。本明細書では、例えば、ゲノムを、GC含有量に従って区分化するための方法が提示される。本明細書ではまた、例えば、ゲノムを、配列決定カバレッジの可変性に従って区分化するための方法も提示される。
GCによる区分化
一部の実施形態では、ゲノムを、グアニンおよびシトシン(GC)の含有量に従って区分化する。GC区分化を、本明細書では場合によって、「ウェーブレットビニング」と称する。各染色体、または各染色体の部分は、参照ゲノム中の他の染色体と別個に(すなわち、一度に1つずつ)区分化されることが多い。下記で記載される方法は一般に、単一の染色体に適用されるが、参照ゲノム中の1つもしくは複数の染色体または全ての染色体を、以下の方法に従って区分化することもできる。
一部の実施形態では、GC含有量に従うゲノムの区分化は、GCプロファイルを、染色体、または染色体のセグメントについて生成することを含む。GCプロファイルは、参照ゲノム中の染色体、またはそのパートを通して、所与の長さのゲノム配列(すなわち、ウィンドウ)について、GC含有量(すなわち、グアニン塩基およびシトシン塩基の数)を定量化することにより生成することができる。ウィンドウは一般に、比較的短い長さのゲノム配列(例えば、100ベース~10キロベース(kb))である。GC含有量は一般に、染色体またはそのセグメントを通して、連続的なウィンドウについて決定される。ある特定の場合には、ウィンドウは、1kbである。したがって、例えば、GCプロファイルは、参照ゲノム中の染色体を通して、1kbの連続的なウィンドウ1つ当たりのGC含有量を定量化することにより生成することができる。
一部の実施形態では、GC含有量に従うゲノムの区分化は、セグメント化することを含む。一部の実施形態では、セグメント化により、プロファイル(例えば、GCプロファイル)を改変および/または変換し、これにより、プロファイルの1つまたは複数の分解レンダリングをもたらす。セグメント化処理にかけられたプロファイルは、参照ゲノム内またはこれらの部分(例えば、常染色体および性染色体)中のGC含有量のプロファイルであることが多い。プロファイルの分解レンダリングは、プロファイルの変換であることが多い。プロファイルの分解レンダリングは、場合によって、プロファイルの、ゲノム、染色体またはそのセグメントの表示への変換である。
ある特定の実施形態では、セグメント化のために利用されるセグメント化処理により、プロファイル中の1つまたは複数のGC含有量レベルであって、プロファイル中の1つまたは複数の他のGC含有量レベルと異なる(例えば、実質的または有意に異なる)レベルを位置特定および識別する。本明細書では、プロファイル中でセグメント化処理に従って識別されるGC含有量レベルであって、プロファイル中の別のGC含有量レベルと異なり、プロファイル中の別のGC含有量レベルと異なるエッジを有するGC含有量レベルを、ウェーブレットと称し、より一般に、個別セグメントについてのGC含有量レベルと称する。セグメント化処理により、GC含有量またはGC含有量レベルのプロファイルから、1つまたは複数の個別セグメントまたはウェーブレットを識別しうる、分解レンダリングを生成することができる。個別セグメントは一般に、セグメント化されるもの(例えば、染色体、染色体(複数)、常染色体)より短い。
一部の実施形態では、セグメント化することにより、プロファイル中の個別セグメントおよびウェーブレットのエッジを位置特定および識別する。ある特定の実施形態では、1つまたは複数の個別セグメントのエッジおよび1つまたは複数のウェーブレットのエッジの一方または両方を識別する。例えば、セグメント化処理により、プロファイル中の個別セグメントまたはウェーブレットの右エッジおよび/または左エッジの位置(例えば、ゲノム座標、例えば、部分の位置)を識別することができる。個別セグメントまたはウェーブレットは、2つのエッジを含むことが多い。例えば、個別セグメントまたはウェーブレットは、左エッジおよび右エッジを含みうる。一部の実施形態では、表示または図示に応じて、左エッジは、5’-エッジであることが可能であり、右エッジは、プロファイル中の核酸セグメントの3’-エッジでありうる。一部の実施形態では、左エッジは、3’-エッジであることが可能であり、右エッジは、プロファイル中の核酸セグメントの5’-エッジでありうる。プロファイルのエッジは、セグメント化の前に既知であることが多く、したがって、一部の実施形態では、プロファイルのエッジにより、レベルのどのエッジが、5’-エッジであり、どのエッジが3’-エッジであるのかを決定する。一部の実施形態では、プロファイルのエッジおよび/または個別セグメント(例えば、ウェーブレット)の一方または両方は、染色体のエッジである。
一部の実施形態では、個別セグメントまたはウェーブレットのエッジを、参照試料(例えば、参照プロファイル)について生成された分解レンダリングに従って決定する。一部の実施形態では、ヌルエッジの高さの分布を、参照プロファイル(例えば、染色体またはそのセグメントのプロファイル)の分解レンダリングに従って決定する。ある特定の実施形態では、プロファイル中の個別セグメントまたはウェーブレットのエッジを、個別セグメントまたはウェーブレットのレベルが、ヌルエッジの高さの分布の外側にある場合に識別する。一部の実施形態では、プロファイル中の個別セグメントまたはウェーブレットのエッジを、参照プロファイルについての分解レンダリングに従って計算されたZスコアに従って識別する。
場合によって、セグメント化することにより、プロファイル中の、2つまたはそれ超の個別セグメントまたはウェーブレット(例えば、2つまたはそれ超の断片化レベル、2つまたはそれ超の断片化セグメント)を生成する。一部の実施形態では、セグメント化処理から導出された分解レンダリングは、過剰セグメント化または断片化されており、複数の個別セグメントまたはウェーブレットを含む。場合によって、セグメント化することにより生成される個別セグメントまたはウェーブレットは、実質的に異なり、場合によって、セグメント化することにより生成される個別セグメントまたはウェーブレットは、実質的に同様である。実質的に同様な個別セグメントまたはウェーブレット(例えば、実質的に同様なレベル)とは、各々が、所定の不確定性のレベル未満異なるGC含有量レベルを有する、セグメント化されたプロファイル中の、2つまたはそれ超の隣接する個別セグメントまたはウェーブレットを指すことが多い。一部の実施形態では、実質的に同様な個別セグメントまたはウェーブレットとは、互いと隣接し、介在セグメントまたは介在ウェーブレットで隔てられていない。一部の実施形態では、実質的に同様な個別セグメントまたはウェーブレットは、1つまたは複数の小型のセグメントまたはウェーブレットで隔てられている。一部の実施形態では、実質的に異なる個別セグメントまたはウェーブレットは、隣接しない。実質的に異なる個別セグメントまたはウェーブレットのGC含有量レベルは一般に、実質的に異なる。
一部の実施形態では、セグメント化処理は、プロファイル内またはそのセグメント中の1つまたは複数の個別セグメントまたはウェーブレット(例えば、GC含有量レベル)についての、GC含有量レベル(例えば、定量的値、例えば、平均または中央値レベル)、不確定性のレベル(例えば、不確定値)、Zスコア、Z値、p値など、またはこれらの組合せの決定(例えば、計算)を含む。一部の実施形態では、GC含有量レベル(例えば、定量的値、例えば、平均または中央値レベル)、不確定性のレベル(例えば、不確定値)、Zスコア、Z値、p値など、またはこれらの組合せを、個別セグメントまたはウェーブレットについて決定する(例えば、計算する)。
一部の実施形態では、セグメント化を、1つの処理または複数の下位処理であって、その非限定的な例が、分解生成処理(例えば、ウェーブレット分解生成処理)、閾値化、レベル化、スムージングなど、またはこれらの組合せを含む下位処理を含む処理により達成する。閾値化、レベル化、スムージングなどは、分解生成処理と共に実施することができ、ウェーブレット分解レンダリング処理に言及する、本明細書の下記で記載される。
一部の実施形態では、セグメント化を、ウェーブレット分解生成処理に従って実施する。一部の実施形態では、セグメント化を、2つまたはそれ超のウェーブレット分解生成処理に従って実施する。一部の実施形態では、ウェーブレット分解生成処理により、プロファイル中の1つまたは複数のウェーブレットを識別し、プロファイルの分解レンダリングを提示する。
セグメント化は、本明細書で記載されるかまたは当技術分野で公知である、任意の適切なウェーブレット分解生成処理により、完全にまたは部分的に実施することができる。ウェーブレット分解生成処理の非限定的な例は、ハールウェーブレットセグメンテーション(Haar, Alfred(1910年)、「Zur Theorie der orthogonalen Funktionensysteme」、Mathematische Annalen、69巻(3号):331~371頁;Nason, G.P.(2008年)、「Wavelet methods in Statistics」、R. Springer、New York)(例えば、WaveThresh)であるWavethresh、適切なバイナリ再帰的セグメンテーション処理であるサーキュラーバイナリセグメンテーション(CBS)(Olshen, AB、Venkatraman, ES、Lucito, R、Wigler, M(2004年)、「Circular binary segmentation for the analysis of array-based DNA copy number data」、Biostatistics、5巻、4号:557~72頁;Venkatraman, ES、Olshen, AB(2007年)、「A faster circular binary segmentation algorithm for the analysis of array CGH data」、Bioinformatics、23巻、6号:657~63頁)、MODWT(Maximal Overlap Discrete Wavelet Transform)(L. Hsu、S. Self、D. Grove、T. Randolph、K. Wang、J. Delrow、L. Loo、およびP. Porter、「Denoising array-based comparative genomic hybridization data using wavelets」、Biostatistics(Oxford、England)、6巻、2号、211~226頁、2005年)、定常ウェーブレット(SWT)(Y. WangおよびS. Wang、「A novel stationary wavelet denoising algorithm for array-based DNA copy number data」、International Journal of Bioinformatics Research and Applications、3巻、2号、206~222頁、2007年)、双対木複素ウェーブレット変換(DTCWT)(Nha, N.、H. Heng、S. Oraintara、およびW. Yuhang(2007年)、「Denoising of Array-Based DNA Copy Number Data Using The Dual-tree Complex Wavelet Transform」、137~144頁)、エッジ検出カーネルによるコンボリューション、ジェンセンシャノンダイバージェンス、カルバックライブラーダイバージェンス、バイナリ再帰的セグメンテーション、フーリエ変換など、またはこれらの組合せを含む。
ウェーブレット分解生成処理は、その非限定的な例が、UNIX(登録商標)、Linux(登録商標)、Oracle、Windows(登録商標)、Ubuntu、ActionScript、C、C++、C#、Haskell、Java(登録商標)、JavaScript(登録商標)、Objective-C、Perl、Python、Ruby、Smalltalk、SQL、Visual Basic、COBOL、Fortran、UML、HTML(例えば、PHPによる)、PGP、G、R、Sなど、またはこれらの組合せを含む、適切な言語(例えば、当技術分野で公知のコンピュータプログラミング言語)および/またはオペレーティングシステムで書かれた適切なソフトウェア、モジュール、および/またはコードにより表示または実施することができる。一部の実施形態では、適するウェーブレット分解生成処理を、SコードもしくはRコードまたはパッケージ(例えば、Rパッケージ)で表示する。CRANまたはCRANミラーサイト(例えば、Comprehensive R Archive Network(CRAN);インターネットURL:cran.us.r-project.org)からのダウンロードのためには、ウェーブレット分解生成処理のためのR、Rソースコード、Rプログラム、Rパッケージ、およびRドキュメンテーションが利用可能である。CRANは、世界中のRのためのコードおよびドキュメンテーションの、同一の最新バージョンを保存する、ftpサーバーおよびウェブサーバーのネットワークである。例えば、WaveThresh(WaveThresh: Wavelets statistics and transforms;インターネットURL:cran.r-project.org/web/packages/wavethresh/index.html)およびWaveThreshについての詳細な記載(「WaveThresh」パッケージ;インターネットURL:cran.r-project.org/web/package/wavethresh/wavethresh.pdf)が、ダウンロードのために利用可能でありうる。CBS法のためのRコードの例は、ダウンロードすることができる(例えば、DNAcopy;インターネットURL:bioconductor.org/packages/2.12/bioc/html/DNAcopy.htmlまたは「DNAcopy」パッケージ;インターネットURL:bioconductor.org/packages/release/bioc/manuals/DNAcopy/man/DNAcopy.pdf)。
一部の実施形態では、ウェーブレット分解生成処理(例えば、ハールウェーブレットセグメンテーション、例えば、WaveThresh)は、閾値化を含む。一部の実施形態では、閾値化により、シグナルをノイズから識別する。ある特定の実施形態では、閾値化により、どのウェーブレット係数(例えば、ノード)が、シグナルを指し示し、保持すべきであり、どのウェーブレット係数が、ノイズの反映を指し示し、除外すべきであるのかを決定する。一部の実施形態では、閾値化は、1つまたは複数の変数パラメータを含み、ここで、使用者は、パラメータの値を定める。一部の実施形態では、閾値化パラメータ(例えば、閾値化パラメータ、ポリシーパラメータ)により、ウェーブレット分解生成処理で活用されるセグメント化の量について記載または規定することができる。任意の適切なパラメータ値を使用することができる。一部の実施形態では、閾値化パラメータを使用する。一部の実施形態では、閾値化パラメータ値は、ソフトな閾値化である。ある特定の実施形態では、ソフトな閾値化を活用して、小さな係数および有意でない係数を除外する。ある特定の実施形態では、ハードな閾値化を活用する。ある特定の実施形態では、閾値化は、ポリシーパラメータを含む。任意の適切なポリシー値を使用することができる。一部の実施形態では、使用されるポリシーは、「ユニバーサル」ポリシーであり、一部の実施形態では、使用されるポリシーは、「シュア」ポリシーである。
一部の実施形態では、ウェーブレット分解生成処理(例えば、ハールウェーブレットセグメンテーション、例えば、WaveThresh)は、レベル化を含む。一部の実施形態では、閾値化の後で、いくつかの高レベルの係数が残る。これらの係数は、元のシグナル中の急勾配の変化または大きなスパイクを表示し、ある特定の実施形態では、レベル化により除外される。一部の実施形態では、レベル化は、値の、分解レベルcとして公知のパラメータへの割当てを含む。ある特定の実施形態では、最適の分解レベルを、染色体の長さ(例えば、プロファイルの長さ)、所望のウェーブレット長さなど、1つまたは複数の決定値に従って決定して、胎仔フラクション、配列カバレッジ(例えば、プレックスレベル)、および正規化されたプロファイルのノイズレベルを検出する。ゲノム、染色体、またはプロファイルのセグメントの所与の長さ(Lchr)について、ウェーブレット分解レベルcは、場合によって、式Lmin=Lchr/2c+1に従って、最小のウェーブレットの長さまたは最小の部分の長さLminと関係づけられる。一部の実施形態では、分解レベルcを、以下の式:c=log(Lchr/Lmin);c=log(Lchr/Lmin)+1;c=log(Lchr/Lmin)-1の1つに従って決定する。一部の実施形態では、分解レベルcは、約1、2、3、4、5、6、7、8、9、または10である。一部の実施形態では、Lminは、所定のLminである。一部の実施形態では、Lminは、実施例1で記載される検出限界(LoD)分析に従ってあらかじめ定められる。一部の実施形態では、配列カバレッジの量(例えば、プレックスレベル)および胎仔フラクションは、Lminに反比例する。例えば、試料中の胎仔フラクションの量が増大すると、所望される最小のウェーブレットの長さ(例えば、最小の部分の長さ)は減少する(すなわち、分解能が増大する)。一部の実施形態では、配列決定カバレッジが増大すると、所望される最小のウェーブレットの長さ(例えば、最小の部分の長さ)は減少する(すなわち、分解能が増大する)。一部の実施形態では、閾値化は、レベル化の前に実施し、場合によって、閾値化は、レベル化の後で実施する。
一部の実施形態では、分解レンダリングを仕上げし、これにより、仕上げされた分解レンダリングをもたらす。一部の実施形態では、分解レンダリングを、2回またはそれ超にわたり仕上げする。一部の実施形態では、セグメント化処理の1つまたは複数のステップの前に、かつ/またはこれらの後で、分解レンダリングを仕上げする。一部の実施形態では、ゲノムの区分化は、2つまたはそれ超のセグメント化処理を含み、各セグメント化処理は、1つまたは複数の仕上げ処理を含む。分解レンダリングは、仕上げされた分解レンダリングを指す場合もあり、仕上げされない分解レンダリングを指す場合もある。
したがって、一部の実施形態では、セグメント化処理は、仕上げを含む。一部の実施形態では、仕上げ処理により、2つまたはそれ超の実質的に同様な個別セグメントまたはウェーブレット(例えば、分解レンダリング中の)を識別し、それらを、単一の個別セグメントまたはウェーブレットへと統合する。一部の実施形態では、仕上げ処理により、実質的に同様な、2つまたはそれ超の隣接セグメントまたはウェーブレットを識別し、それらを、単一のレベル、セグメント、またはウェーブレットへと統合する。したがって、一部の実施形態では、仕上げ処理は、統合処理を含む。ある特定の実施形態では、隣接する断片化された個別セグメントまたはウェーブレットを、それらのGC含有量レベルに従って統合する。一部の実施形態では、2つまたはそれ超の隣接する個別セグメントまたはウェーブレットの統合は、最終的に統合する、2つまたはそれ超の隣接する個別セグメントまたはウェーブレットについての中央値レベルの計算を含む。一部の実施形態では、実質的に同様な、2つまたはそれ超の隣接する個別セグメントまたはウェーブレットを統合し、これにより、仕上げする結果として、単一のセグメント、ウェーブレット、またはGC含有量レベルをもたらす。ある特定の実施形態では、2つまたはそれ超の隣接する個別セグメントまたはウェーブレットを、WillenbrockおよびFridly(Willenbrock H、Fridlyand J、A comparison study: applying segmentation to array CGH data for downstream analyses、Bioinformatics(2005年11月15日)、21巻(22号):4084~91頁)により記載されている処理により統合する。一部の実施形態では、2つまたはそれ超の隣接する個別セグメントまたはウェーブレットを、GLADとして公知であり、Hupe,P.ら(2004年)、「Analysis of array CGH data:from signal ratio to gain and loss of DNA regions」、Bioinformatics、20巻、3413~3422頁において記載されている処理により統合する。
一部の実施形態では、セグメント化処理は、「スライディングエッジ」処理または「スライディングウィンドウ」処理を含む。適切な「スライディングエッジ」処理は、分解レンダリング中の個別セグメントの妥当性を確認するために直接使用することもでき、そのために適応させることもできる。一部の実施形態では、「スライディングエッジ」処理は、個別セグメントを、部分の複数のサブセットにセグメント化することを含む。一部の実施形態では、個別セグメントは、全染色体または染色体のセグメントについての部分のセットである。
ある特定の実施形態では、「スライディングエッジ」処理は、識別された個別セグメントを、部分の複数のサブセットへとセグメント化することを含み、ここで、部分のサブセットの各々は、同様であるが異なるエッジを有する個別セグメントを表示する。一部の実施形態では、元の識別された個別セグメントを、分析に組み入れる。例えば、元の識別された個別セグメントを、部分の複数のサブセットのうちの1つとして組み入れる。部分のサブセットは、元の識別された個別セグメントの一方または両方のエッジを、任意の適切な方法により変化させることにより決定することができる。一部の実施形態では、左エッジを変化させ、これにより、異なる左エッジを有する個別セグメントを生成することができる。一部の実施形態では、右エッジを変化させ、これにより、異なる右エッジを有する個別セグメントを生成することができる。一部の実施形態では、右エッジおよび左エッジのいずれも変化させることができる。一部の実施形態では、エッジを、1つまたは複数の隣接する参照ゲノム部分だけ、元のエッジの左または右へと移動させることにより、エッジを変化させる。
一部の実施形態では、一方または両方のエッジを、5~30参照ゲノム部分だけ変化させる。一部の実施形態では、エッジを、いずれかの方向に、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30参照ゲノム部分だけ移動させる。一部の実施形態では、部分のサイズに関わらず、一方または両方のエッジについて、エッジを変化させて、約100,000~約2,000,000塩基対、250,000~約1,500,000塩基対、または約500,000~約1,000,000塩基対の範囲のエッジを生成する。一部の実施形態では、部分のサイズに関わらず、一方または両方のエッジについて、エッジを変化させて、約500,000、600,000、700,000、750,000、800,000、900,000、または約1,000,000塩基対の範囲のエッジを生成する。
一部の実施形態では、識別された個別セグメントは、第1の末端および第2の末端を含み、セグメント化は、(i)再帰的除外により、1つまたは複数の部分を、部分のセットの第1の末端から除外し、これにより、部分のサブセットに各々の再帰的除外を施すことと、(ii)n回にわたる反復の後で、(i)の再帰的除外を終結させ、これにより、n+1の部分のサブセットをもたらし、ここで、部分のセットは、サブセットであり、各サブセットは、異なる数の部分、第1のサブセットの末端、および第2のサブセットの末端を含むことと、(iii)1つまたは複数の部分を、(ii)で再帰的除外によりもたらされた、n+1の部分のサブセットの各々のうちの、第2のサブセットの末端から除外することと、(iv)n回にわたる反復の後で、(iii)の再帰的除外を終結させ、これにより、部分の複数のサブセットをもたらすこととを含む。一部の実施形態では、複数のサブセットは、(n+1)2サブセットに等しい。一部の実施形態では、nは、5~30の間の整数に等しい。一部の実施形態では、nは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30に等しい。
スライディングエッジ法のある特定の実施形態では、有意性のレベル(例えば、Zスコア、p値)を、参照ゲノムの部分のサブセットの各々について決定し、平均値、平均、または中央値による有意性のレベルを、サブセットの全てについて決定された有意性のレベルに従って決定する。
一部の実施形態では、有意性のレベルは、Zスコアまたはp値である。一部の実施形態では、Zスコアを、以下の式:
=(E-Med.E(n))/MAD
[式中、Eは、個別セグメントiのレベルの定量的決定であり、Med.E(n)は、スライディングエッジ処理により生成された全ての個別セグメントについての中央値レベルであり、MADは、Med.E(n)についての中央値絶対偏差であり、Zは、個別セグメントiについて結果として得られるZスコアである]に従って計算する。一部の実施形態では、MADは、任意の適切な不確定性の尺度で置きかえることができる。一部の実施形態では、Eは、その非限定的な例が、部分についてのカウント数の、中央値レベル、平均値レベル、平均レベル、合計などを含む、レベルの任意の適切な尺度である。
一部の実施形態では、上記で記載したセグメント化処理を、GCプロファイルへと適用して、個別セグメントをもたらす。セグメント化処理は、本明細書で記載される通り、GC含有量レベルに対して実施することができる。ある特定の場合には、同様なGC含有量レベルを有するウィンドウは、セグメント化処理時に、個別セグメントへと統合する。ある特定の実施形態では、セグメント化処理は、個別セグメントを含む分解レンダリングを生成する。ある特定の実施形態では、染色体を、複数の部分に、個別セグメントに従って区分化する。したがって、ある特定の実施形態では、個別セグメントの場所および長さは、GCにより区分化された染色体中の部分の場所および長さと同じであるか、または同様である。
配列決定カバレッジの可変性による区分化
一部の実施形態では、ゲノムを、配列決定カバレッジの可変性に従って区分化する。ある特定の場合には、母体の遺伝子素材と胎仔の遺伝子素材と(例えば、ccfDNA)の混合物を含む核酸の配列決定は、ゲノムにおける場所の関数としての配列決定カバレッジの変動により特徴づけることができる。理論により限定されることなしに述べると、ある特定のゲノム領域が、豊富な配列決定データを提示しうるのに対し、他の領域は、希少な配列決定データを提示しうる。ある特定の領域について、配列決定カバレッジの可変性の点で、部分の長さを最適化することにより、ある特定の領域については、細かなグリッド(すなわち、小さな部分)の使用を可能とし、他の領域については、粗いグリッド(すなわち、大きな部分)の使用を可能とすることができる。細かなグリッドは、例えば、小さな遺伝子の変動(例えば、小さな微小欠失または微小重複)を検出するために有用でありうる。粗いグリッドは、例えば、粗いグリッドでなく、小さなグリッドまたは標準的なグリッドを使用すると、フィルターにより除外されうる、配列の読取りデータを捕捉するために有用でありうる。
一部の実施形態では、ゲノムの区分化は、配列決定カバレッジの可変性を参照ゲノムにわたり決定することを含む。一部の実施形態では、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りについてのトレーニングセットを、配列決定カバレッジの可変性を決定するために使用する。トレーニングセットは、例えば、母体核酸と胎仔ccf核酸と(例えば、ccfDNA)の混合物を含む複数の試料に由来するヌクレオチド配列の読取りを含みうる。参照ゲノムにわたる配列決定カバレッジの可変性は、トレーニングセットのための、配列の読取りの定量化により決定することができる。配列の読取りの定量化は、本明細書で記載される、1つまたは複数の部分または領域についての、未加工の配列の読取りの定量化および/または正規化された配列の読取りの定量化を含みうる。ある特定の場合には、平均の配列の読取りのカウント数を決定する。ある特定の場合には、平均の正規化された配列の読取りのカウント数を決定する。
一部の実施形態では、ゲノムの区分化は、初期の部分の長さを選択することを含む。初期の部分の長さを、例えば、トレーニングセットのある特定の特徴に従って選択することができる。例えば、初期の部分の長さを、トレーニングセットのために、配列決定の深さに従って選択することができる。ある特定の場合には、初期の部分の長さを、平均の胎仔フラクションに従って、トレーニングセットのために選択することができる。一部の実施形態では、初期の部分の長さを、トレーニングセットのために、配列決定の深さおよび平均の胎仔フラクションに従って選択する。トレーニングセットのための平均の胎仔フラクションは、胎仔フラクションを決定するための任意の適切な方法であって、当技術分野で公知であるか、または本明細書で記載される方法(例えば、部分特異的胎仔フラクションの決定)を使用して決定することができる。一部の実施形態では、トレーニングセットのための平均の胎仔フラクションは、公知であるか、または試料記録に基づき計算することができる。初期の部分の長さは、約1kb~約1000kbの間でありうる。一部の実施形態では、初期の部分の長さは、約10kbである。一部の実施形態では、初期の部分の長さは、約20kbである。一部の実施形態では、初期の部分の長さは、約30kbである。一部の実施形態では、初期の部分の長さは、約40kbである。一部の実施形態では、初期の部分の長さは、約50kbである。一部の実施形態では、初期の部分の長さは、約60kbである。一部の実施形態では、初期の部分の長さは、約70kbである。一部の実施形態では、初期の部分の長さは、約80kbである。一部の実施形態では、初期の部分の長さは、約90kbである。一部の実施形態では、初期の部分の長さは、約100kbである。一部の実施形態では、初期の部分の長さは、50kbではない。一般に、大きな初期の部分の長さ(例えば、50kbより大きい)は、平均の胎仔フラクションが小さく(例えば、10%未満)、かつ/または配列決定の深さも小さいトレーニングセットのために選択することができ、小さな初期の部分の長さ(例えば、50kbより短い)は、平均の胎仔フラクションが大きく(例えば、10%~20%)、かつ/または配列決定の深さも大きなトレーニングセットのために選択することができる。一部の実施形態では、参照ゲノムについての部分の総数は、初期の部分の長さおよび総ゲノムサイズに従って決定することができる。
一部の実施形態では、ゲノムの区分化は、少なくとも2つのゲノム領域を初期の部分のサイズに従って区分化することを含む。ゲノム領域は、領域(例えば、微小欠失、微小重複、異数性)中に存在しうる、1つまたは複数の公知の遺伝子の変動(例えば、任意の形態のコピー数変動)に従って選択することもでき、ランダムに選択することもできる。ゲノム領域は、染色体の場合もあり、染色体のセグメントの場合もある。一般に、ゲノム領域の対を、下記で記載される、配列決定カバレッジの可変性の比較のために選択する。必要に応じて、ゲノム領域のさらなる対合を選択することができる。第1のゲノム領域の対は、第1のゲノム領域および第2のゲノム領域を含みうる。第1のゲノム領域および第2のゲノム領域は、サイズ(すなわち、長さ)が実質的に同様であるか、または等しいことが多い。例えば、第1のゲノム領域および第2のゲノム領域は、長さが約1kbまたはそれ未満異なりうる。
一部の実施形態では、ゲノムの区分化は、配列決定カバレッジの可変性を各ゲノム領域の対について比較することを含む。配列決定カバレッジの可変性を比較することは、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、第1のゲノム領域の配列決定カバレッジの可変性であり、varは、第2のゲノム領域の配列決定カバレッジの可変性である]
に従って計算することを含みうる。一部の実施形態では、第1のゲノム領域の配列決定カバレッジの可変性を、第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定し、第2のゲノム領域の配列決定カバレッジの可変性を、第2のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定する。本明細書で使用された、配列の読取りのカウント数の誘導値は、加工された配列の読取りのカウント数(例えば、本明細書で記載される、フィルターをかけ、調整され、かつ/または正規化された配列の読取りのカウント数)でありうる。一部の実施形態では、第1のゲノム領域の配列決定カバレッジの可変性を、第1のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定し、第2のゲノム領域の配列決定カバレッジの可変性を、第2のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定する。一部の実施形態では、各ゲノム領域についての、平均のヌクレオチドの配列決定の読取りのカウント数を、トレーニングセットを使用して決定する。一部の実施形態では、ヌクレオチド配列の読取りのカウント数は、正規化されたヌクレオチド配列の読取りのカウント数である。一部の実施形態では、平均のヌクレオチド配列の読取りのカウント数は、平均の正規化されたヌクレオチド配列の読取りのカウント数である。
一部の実施形態では、ゲノムの区分化は、ゲノム領域について部分の数を再計算することを含む。ゲノム領域について部分の数を再計算することは、上記で記載した配列カバレッジの可変性の比較に従うことが典型的である。ある特定の場合には、ゲノム領域について部分の数を再計算することは、比例係数(例えば、上記で記載した比例係数)に従う。一部の実施形態では、ゲノム領域について部分の数を再計算することは、比例係数と、上記で記載した通りに、初期の部分のサイズから決定された部分の総数(例えば、参照ゲノムについての)とに従って実施される。例えば、N1を、ゲノム領域1についての部分の数とし、N2を、ゲノム領域2についての部分の数とし、N3を、ゲノム領域3についての部分の数とする。Nを、領域の総数とし、これらの数間の比(上記の式Aに由来する)を、以下:
N1/N2=P1
N1/N3=P2
の通りとすると、
N1+N2+N3=N
であり、N2=N1/P1およびN3=N1/P2が与えられることから、
N1=N×P1×P2/(P1×P2+P1+P2)、
N2=N×P2/(P1×P2+P1+P2)、および
N3=N×P1/(P1×P2+P1+P2)
となる。
一部の実施形態では、ゲノムの区分化は、最適化された部分の長さを、ゲノム領域について、再計算された部分の数に従って決定することを含む。最適化された部分の長さは、約1キロベース(kb)~約1000kbの間でありうる。一部の実施形態では、最適化された部分の長さは、約1kb~約500kbの間、約10kb~約300kbの間、約10kb~約100kbの間、約20kb~約80kbの間、約30kb~約70kbの間、または約40kb~約60kbの間である。一部の実施形態では、最適化された部分の長さは、50kbではない。一部の実施形態では、最適化された部分の長さは、約10kb~約20kbである。一部の実施形態では、最適化された部分の長さは、約30kbである。一部の実施形態では、最適化された部分の長さは、約10kbである。一部の実施形態では、最適化された部分の長さは、約20kbである。一部の実施形態では、最適化された部分の長さは、約30kbである。一部の実施形態では、最適化された部分の長さは、約40kbである。一部の実施形態では、最適化された部分の長さは、約50kbである。一部の実施形態では、最適化された部分の長さは、約60kbである。一部の実施形態では、最適化された部分の長さは、約70kbである。一部の実施形態では、最適化された部分の長さは、約80kbである。一部の実施形態では、最適化された部分の長さは、約90kbである。一部の実施形態では、最適化された部分の長さは、約100kbである。
一部の実施形態では、ゲノムの区分化は、ゲノム領域を、複数の部分に、最適化された部分のサイズに従って再区分化することを含む。一部の実施形態では、複数の部分は、一定の(すなわち、等しいかまたは実質的に等しい)長さの部分を含む。一部の実施形態では、複数の部分は、変動するサイズの部分を含む。ある特定の場合には、ゲノムの区分化法は、さらなるゲノムの区分化法(例えば、本明細書で記載される、GCによる区分化)を共に含む場合があり、これにより、変動するサイズの部分をもたらすことができる。一部の実施形態では、ゲノムの区分化は、本明細書で記載される方法を使用して、参照ゲノムの1つまたは複数のさらなるゲノム領域を再区分化することを含む。一部の実施形態では、ゲノムの区分化は、本明細書で記載される方法を使用して、参照ゲノムのゲノム領域の全てまたは実質的に全てを再区分化することを含む。
一部の実施形態では、ゲノムの区分化は、胎仔フラクションを、試験試料について推定することを含む。胎仔フラクションは、胎仔フラクションを推定するための任意の適切な方法であって、当技術分野で公知であるか、または本明細書で記載される方法(例えば、部分特異的胎仔フラクション推定、胎仔定量化アッセイ、SNPベースの胎仔フラクション推定、Y染色体による胎仔フラクション推定)を使用して推定することができる。胎仔フラクションの推定は、場合によって、誤差値を決定することを含む。誤差値は、例えば、不確実性値、計算された分散、標準偏差、Zスコア、p値、平均絶対偏差(mean absolute deviation)、平均値絶対偏差(average absolute deviation)、中央値絶対偏差などとして表すことができる(またはこれらを表示する)。一部の実施形態では、誤差値は、推定された胎仔フラクションを上回る範囲およびこれを下回る範囲を規定する。一部の実施形態では、誤差を、値の範囲(例えば、信頼区間)として表す。一部の実施形態では、領域特異的胎仔フラクションを、ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数(例えば、未加工の配列の読取りのカウント数、正規化された配列の読取りのカウント数)と、加重係数との間の相関に従って決定する(例えば、本明細書で記載される、部分特異的胎仔フラクションの決定)。
一部の実施形態では、ゲノムの区分化は、最小のゲノム領域のサイズ(すなわち、長さ)を決定することを含む。一部の実施形態では、ゲノムの区分化は、所与の胎仔フラクション(例えば、上記で記載した方法に従って推定される)を有する試料について検出可能な、最小のゲノム領域のサイズを決定することを含む。ある特定の場合には、最小のゲノム領域のサイズを、実施例1で記載され、図7に提示される検出限界(LoD)分析であって、ある特定の遺伝子異常についてのLoD分析に従って決定する。ある特定の場合には、最小のゲノム領域のサイズを、胎仔フラクションについての特定の信頼区間に従って決定する。例えば、最小のゲノム領域のサイズは、胎仔フラクションについての上位80%の信頼区間に従って決定することができる。ある特定の実施形態では、最小のゲノム領域のサイズは、胎仔フラクションについての上位90%の信頼区間に従って決定することができる。ある特定の実施形態では、最小のゲノム領域のサイズは、胎仔フラクションについての上位95%の信頼区間に従って決定することができる。ある特定の実施形態では、最小のゲノム領域のサイズは、胎仔フラクションについての上位99%の信頼区間に従って決定することができる。
一部の実施形態では、ゲノムの区分化は、局所的な最小のゲノム領域のサイズ(すなわち、長さ)を決定することを含む。「局所的」とは、再区分化された特定のゲノム領域中を指す。一部の実施形態では、ゲノムの区分化は、平均の胎仔フラクションを有する試料について検出可能な、局所的なゲノム領域のサイズを決定することを含む。平均の胎仔フラクションは、約5%~約20%の間でありうる。例えば、平均の胎仔フラクションは、約5.5%、6%、6.5%、7%、7.5%、8%、8.5%、9%、9.5%、10%、10.5%、11%、11.5%、12%、12.5%、13%、13.5%、14%、14.5%、15%、15.5%、16%、16.5%、17%、17.5%、18%、18.5%、19%、または19.5%でありうる。ある特定の場合には、局所的な最小のゲノム領域のサイズを、実施例1で記載され、図7に提示される検出限界(LoD)分析であって、ある特定の遺伝子異常についてのLoD分析に従って決定する。
一部の実施形態では、ゲノムの区分化は、局所的な最小のゲノム領域のサイズ(すなわち、長さ)を決定することを含む。一部の実施形態では、ゲノムの区分化は、所与の胎仔フラクション(例えば、上記で記載した方法に従って推定される)を有する試料について検出可能な、局所的な最小のゲノム領域のサイズを決定することを含む。ある特定の場合には、局所的な最小のゲノム領域のサイズを、実施例1で記載され、図7に提示される検出限界(LoD)分析であって、ある特定の遺伝子異常についてのLoD分析に従って決定する。ある特定の場合には、局所的な最小のゲノム領域のサイズを、胎仔フラクションについての特定の信頼区間に従って決定する。例えば、局所的な最小のゲノム領域のサイズは、胎仔フラクションについての上位80%の信頼区間に従って決定することができる。ある特定の実施形態では、局所的な最小のゲノム領域のサイズは、胎仔フラクションについての上位90%の信頼区間に従って決定することができる。ある特定の実施形態では、局所的な最小のゲノム領域のサイズは、胎仔フラクションについての上位95%の信頼区間に従って決定することができる。ある特定の実施形態では、局所的な最小のゲノム領域のサイズは、胎仔フラクションについての上位99%の信頼区間に従って決定することができる。
ある特定の場合には、最小のゲノム領域のサイズまたは局所的な最小のゲノム領域のサイズは、単一の部分にわたる場合もある。この可能性に対処するため、ゲノムの区分化は、各領域が、少なくとも2つの部分を含むように、各ゲノム領域について、部分の数を調整することをさらに含みうる。部分の数を各ゲノム領域について調整することは、精緻化されたグリッド(すなわち、精緻化された、再区分化されたゲノム)を生成しうる。
一部の実施形態では、ゲノムの区分化は、胎仔フラクションを、精緻化され、再区分化されたゲノム領域から再推定することを含む。一部の実施形態では、再推定された胎仔フラクションを、試料についての初期の胎仔フラクションの推定値と比較する。一部の実施形態では、再推定された胎仔フラクションを、領域特異的胎仔フラクションの推定値と比較する。一部の実施形態では、初期の推定された胎仔フラクションまたは領域特異的胎仔フラクションが、再推定された胎仔フラクションと、所定のトレランス値だけ異なる場合は、ある特定の方法の構成要素を反復する。所定のトレランス値は、約1%~約25%の間でありうる。例えば、所定のトレランス値は、約2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、または24%でありうる。
カウント数
一部の実施形態では、選択された特徴または変数に基づいてマッピングまたは区分化される配列の読取りを定量化して、1つまたは複数の部分(例えば、参照ゲノム部分)に対してマッピングされる読取りの数を決定することができる。特定の実施形態では、部分に対してマッピングされる配列の読取りの分量をカウント数と呼ぶ(例えば、1カウント)。しばしば、カウント数を、部分と関連付ける。特定の実施形態では、2つまたはそれ超の部分(例えば、一連の部分)についてのカウント数は、数学的に操作される(例えば、平均化、加算、正規化等、またはそれらの組合せ)。一部の実施形態では、カウント数は、部分に対してマッピングされる(すなわち、部分と関連付けられる)配列の読取りの一部または全部から決定される。特定の実施形態では、カウント数は、マッピングされた配列の読取りのあらかじめ定義されたサブセットから決定される。任意の適切な特徴または変数を利用して、マッピングされる配列の読取りのあらかじめ定義されるサブセットを定義または選択することができる。一部の実施形態では、マッピングされる配列の読取りのあらかじめ定義されたサブセットは、1~n個の配列の読取りを含むことができ、ここで、nは、試験対象または参照対象の試料から生成された全ての配列の読取りの合計に等しい数を意味する。
特定の実施形態では、カウント数は、当技術分野で公知の適切な方法、演算または数学的処理により処理または操作される配列の読取りから誘導される。カウント数(例えば、数カウント)は、適切な方法、演算または数学的処理により決定することができる。特定の実施形態では、カウント数を、ある部分と関連付けた配列の読取りから誘導し、この場合、配列の読取りの一部または全部に対して、加重、除去、フィルターをかけること、正規化、調整、平均化、平均として誘導すること、加算もしくは減算、またはそれらの組合せによる処理が行われる。一部の実施形態では、カウント数を、配列の未加工の読取りおよび/または配列の、フィルターをかけた読取りから誘導する。特定の実施形態では、カウント数の値を、数学的処理により決定する。特定の実施形態では、カウント数の値は、ある部分に対してマッピングされた配列の読取りの平均値、平均または合計である。しばしば、カウント数は、カウント数の平均の数である。一部の実施形態では、カウント数は、不確実性の値と関連付けられる。
一部の実施形態では、カウント数を操作または転換することができる(例えば、正規化する、組み合わせる、加算する、フィルターをかける、選択する、平均化する、平均として誘導する等、またはそれらの組合せ)。一部の実施形態では、カウント数を転換して、正規化されたカウント数を得ることができる。カウント数は、当技術分野で公知の方法および/または本明細書で記載される方法(例えば、部分に関する正規化、中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS(例えば、GC LOESS)、LOWESS、ChAI、主成分による正規化、RM、GCRM、cQn、ならびに/またはこれらの組合せ)により処理する(例えば、正規化する)ことができる。ある特定の実施形態では、カウント数は、LOESS、中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、および主成分による正規化の1つまたは複数により処理する(例えば、正規化する)ことができる。ある特定の実施形態では、カウント数は、LOESS、およびそれに続く中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化により処理する(例えば、正規化する)ことができる。ある特定の実施形態では、カウント数は、LOESS、およびそれに続く中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、およびそれに続く主成分による正規化により処理する(例えば、正規化する)ことができる。
カウント数(例えば、未加工の、フィルターをかけた、および/または正規化されたカウント数)を、1つまたは複数のレベルに対して処理し、正規化することができる。下記に、レベルおよびプロファイルについてより詳細に記載する。特定の実施形態では、カウント数を、参照レベルに対して処理し、かつ/または正規化することができる。本明細書では後に、参照レベルについて述べる。レベルに従って処理したカウント数(例えば、処理したカウント数)を、不確実性の値(例えば、計算した分散、誤差、標準偏差、Zスコア、p値、平均絶対偏差(mean absolute deviation)等)と関連付けることができる。一部の実施形態では、不確実性の値が、あるレベルを上回る範囲および下回る範囲を定義する。偏差についての値を、不確実性の値の代わりに使用することができ、偏差の尺度の非限定的な例として、標準偏差、平均値絶対偏差(average absolute deviation)、絶対偏差の中央値、標準スコア(例えば、Zスコア、Zスコア、正常スコア、標準化した変数)等が挙げられる。
カウント数はしばしば、胎仔を有する妊娠中の雌に由来する核酸試料から得られる。1つまたは複数の部分に対してマッピングされた核酸配列の読取りのカウント数はしばしば、胎仔および胎仔の母親の両方を表示する(例えば、妊娠中の雌の対象の)カウント数である。特定の実施形態では、ある部分に対してマッピングされたカウント数の一部は、胎仔のゲノムに由来し、同じ部分に対してマッピングされたカウント数の一部は、母体のゲノムに由来する。
データの処理および正規化
本明細書では、計数されるに至った、マッピングされた配列の読取りを、未加工データと呼び、その理由は、これらのデータが、操作されていないカウント数(例えば、未加工カウント数)を表示するからである。一部の実施形態では、データセット中の配列の読取りのデータを、さらに処理し(例えば、数学的および/もしくは統計学的に操作し)、かつ/または示して、アウトカムを得るのを促進することができる。特定の実施形態では、より大きなデータセットを含めて、データセットは、さらなる分析を促進するために、前処理が役立つ場合がある。データセットの前処理は時には、重複し、かつ/または情報を与えない部分または参照ゲノムの部分(例えば、情報を与えないデータを有する参照ゲノムの部分、重複する、マッピングされた読取り、カウント数の中央値がゼロである部分、過大表示されているまたは過小表示されている配列)の除去を含む。理論により制限されることなく、データの処理および/または前処理は、(i)ノイズの多いデータを除去し、(ii)情報を与えないデータを除去し、(iii)重複するデータを除去し、(iv)より大きなデータセットの複雑性を低下させ、かつ/または(v)データの1つの形態から1つもしくは複数のその他の形態への転換を促進することができる。本明細書では、用語「前処理」および「処理」は、データまたはデータセットに関して用いる場合には、まとめて「処理」と呼ぶ。処理は、データをさらなる分析に、より適した状態になすことができ、一部の実施形態では、アウトカムをもたらすことができる。一部の実施形態では、1つまたは複数または全ての処理方法(例えば、正規化の方法、部分にフィルターをかけること、マッピング、妥当性確認等、またはそれらの組合せ)が、メモリと併せたプロセッサ、マイクロプロセッサ、コンピュータにより、かつ/またはマイクロプロセッサが制御する装置により行われる。
用語「ノイズの多いデータ」は、本明細書で使用する場合、(a)分析またはプロットした場合にデータ点間に顕著な分散を示すデータ、(b)顕著な標準偏差を有する(例えば、3標準偏差よりも大きい)データ、(c)平均の顕著な標準誤差を有するデータ等、および上記の組合せを指す。ノイズの多いデータは、時には出発物質(例えば、核酸試料)の分量および/または品質に起因して発生し、時には配列の読取りを得るために使用するDNAを調製または複製するための処理の一部から発生する。特定の実施形態では、ノイズは、PCRに基づく方法を使用して調製する場合の、過大表示されている特定の配列から生じる。本明細書に記載する方法は、ノイズの多いデータの寄与を低下させるまたは排除することができ、したがって、ノイズの多いデータの、得られたアウトカムに対する作用を低下させる。
用語「情報を与えないデータ」、「情報を与えない、参照ゲノムの部分」、および「情報を与えない部分」は、本明細書で使用する場合、所定の閾値の値とは顕著に異なる数値、または値のあらかじめ定義された値の限界範囲の外側に存在する数値を有する部分、またはそこから誘導されたデータを指す。用語「閾値」および「閾値の値」は、本明細書では、適格なデータセットを使用して計算される任意の数を指し、遺伝子の変動(例えば、コピー数の変動、異数性、微小重複、微小欠失、染色体異常等)の診断の限界として役立つ。特定の実施形態では、本明細書に記載する方法により得られた結果が閾値を上回り、対象が、遺伝子の変動(例えば、21トリソミー)を有すると診断される。一部の実施形態では、閾値の値または値の範囲はしばしば、(例えば、参照および/または対象から得られた)配列の読取りのデータを数学的および/または統計学的に操作することによって計算され、特定の実施形態では、閾値の値または値の範囲を得るために操作される配列の読取りのデータは、(例えば、参照および/または対象から得られた)配列の読取りのデータである。一部の実施形態では、不確実性の値を決定する。不確実性の値は、一般に分散または誤差の尺度であり、分散または誤差の任意の適切な尺度であってよい。一部の実施形態では、不確実性の値は、標準偏差、標準誤差、計算した分散、p値または平均絶対偏差(MAD)である。一部の実施形態では、不確実性の値を、本明細書に記載する方式に従って計算することができる。
本明細書に記載するデータセットを処理するために、任意の適切な手順を利用することができる。データセットを処理するために使用するのに適切な手順の非限定的な例として、フィルターをかけること、正規化すること、加重すること、ピークの高さをモニタリングすること、ピークの面積をモニタリングすること、ピークのエッジをモニタリングすること、面積比を決定すること、データを数学的に処理すること、データを統計学的に処理すること、統計学的アルゴリズムを適用すること、一定の変数を用いて分析すること、最適化された変数を用いて分析すること、データをプロットし、パターンまたは傾向を識別して、さらなる処理を行うこと等、および上記の組合せが挙げられる。一部の実施形態では、種々の特徴(例えば、GC含有量、重複する、マッピングされた読取り、セントロメア領域、テロメア領域等、およびそれらの組合せ)、ならびに/または変数(例えば、胎仔の性別、母体の年齢、母体の倍数性、胎仔核酸のパーセント寄与等、またはそれらの組合せ)に基づいて、データセットは処理される。特定の実施形態では、本明細書の記載に従ってデータセットを処理することによって、大きいおよび/または複雑なデータセットの複雑性および/または次元性を低下させることができる。複雑なデータセットの非限定的な例として、異なる年齢および民族性の背景の1つまたは複数の試験対象および複数の参照対象から生成された配列の読取りのデータが挙げられる。一部の実施形態では、データセットは、それぞれの試験対象および/または参照対象について、数千~数百万個の配列の読取りを含むことができる。
特定の実施形態では、データ処理を、任意の数のステップで行うことができる。例えば、一部の実施形態では、単一の処理手順のみを使用して、データを処理することができ、特定の実施形態では、1つもしくは複数、5つもしくはそれ超、10個もしくはそれ超、または20個もしくはそれ超の処理ステップ(例えば、1つもしくは複数の処理ステップ、2つもしくはそれ超の処理ステップ、3つもしくはそれ超の処理ステップ、4つもしくはそれ超の処理ステップ、5つもしくはそれ超の処理ステップ、6つもしくはそれ超の処理ステップ、7つもしくはそれ超の処理ステップ、8つもしくはそれ超の処理ステップ、9つもしくはそれ超の処理ステップ、10個もしくはそれ超の処理ステップ、11個もしくはそれ超の処理ステップ、12個もしくはそれ超の処理ステップ、13個もしくはそれ超の処理ステップ、14個もしくはそれ超の処理ステップ、15個もしくはそれ超の処理ステップ、16個もしくはそれ超の処理ステップ、17個もしくはそれ超の処理ステップ、18個もしくはそれ超の処理ステップ、19個もしくはそれ超の処理ステップ、または20個もしくはそれ超の処理ステップ)を使用して、データを処理することができる。一部の実施形態では、処理ステップは、2回またはそれ超回繰り返される同じステップであり得(例えば、2回またはそれ超回フィルターをかける、2回またはそれ超回正規化する)、特定の実施形態では、処理ステップは、同時または順次に行われる2つまたはそれ超の異なる処理ステップであり得る(例えば、フィルターをかけ、正規化する;正規化し、ピークの高さおよびエッジをモニタリングする;フィルターをかけ、正規化し、参照に対して正規化し、統計学的に操作して、p値を決定する等)。一部の実施形態では、同じまたは異なる処理ステップの任意の適切な数および/または組合せを利用し、配列の読取りのデータを処理して、アウトカムを得るのを促進することができる。特定の実施形態では、本明細書に記載する判断基準によりデータセットを処理することによって、データセットの複雑性および/または次元性を低下させることができる。
一部の実施形態では、1つまたは複数の処理ステップは、1つまたは複数のフィルターをかけるステップを含むことができる。用語「フィルターをかける」は、本明細書で使用する場合、部分または参照ゲノムの部分を検討から除去することを指す。これらに限定されないが、重複するデータ(例えば、重複またはオーバーラップする、マッピングされた読取り)、情報のないデータ(例えば、カウント数の中央値がゼロである参照ゲノムの部分)、過大表示されているもしくは過小表示されている配列を有する参照ゲノムの部分、ノイズの多いデータ等、または上記の組合せを含めた、任意の適切な判断基準に基づいて、参照ゲノムの部分を選択して、除去することができる。フィルターをかける処理はしばしば、参照ゲノムの1つまたは複数の部分を検討から除去し、除去するために選択された参照ゲノムの1つまたは複数の部分におけるカウント数を、検討中の参照ゲノム、1つもしくは複数の染色体、またはゲノムの部分について計数または合計されたカウント数から減算することを含む。一部の実施形態では、参照ゲノムの部分を、逐次的に除去する(例えば、1つずつ除去して、それぞれの個々の部分の除去の作用の評価を可能にする)ことができ、特定の実施形態では、除去するためにマークされた、参照ゲノムの部分全てを、同時に除去することができる。一部の実施形態では、特定のレベルを上回るまたは下回る分散により特徴付けられた参照ゲノムの部分を除去し、本明細書では、これを時には、参照ゲノムの「ノイズの多い」部分にフィルターをかけると呼ぶ。特定の実施形態では、フィルターをかける処理は、部分、染色体または染色体セグメントの平均プロファイルレベルから、プロファイルの分散の所定の倍数だけ逸脱するデータ点を、データセットから得ることを含み、特定の実施形態では、フィルターをかける処理は、部分、染色体または染色体セグメントの平均プロファイルレベルから、プロファイルの分散の所定の倍数だけ逸脱しないデータ点を、データセットから除去することを含む。一部の実施形態では、フィルターをかける処理を利用して、遺伝子の変動の有無について分析する、参照ゲノムの候補となる部分の数を低下させる。遺伝子の変動(例えば、微小欠失、微小重複)の有無について分析する、参照ゲノムの候補となる部分の数を低下させることによって、しばしばデータセットの複雑性および/または次元性を低下させ、時には遺伝子変動および/または遺伝子異常の検索および/または識別のスピードを2桁またはそれ超だけ増加させる。
一部の実施形態では、1つまたは複数の処理ステップは、1つまたは複数の正規化ステップを含むことができる。正規化は、本明細書に記載するまたは当技術分野で公知である適切な方法により行うことができる。特定の実施形態では、正規化は、異なるスケールで測定された値を、概念的に共通のスケールに調整することを含む。特定の実施形態では、正規化は、調整された値の確率分布をアラインメントにもち込むための高度な数学的調整を含む。一部の実施形態では、正規化は、分布を正規分布に合わせることを含む。特定の実施形態では、正規化は、特定の全体的な影響(例えば、誤差および異常)の作用を排除する方法で、異なるデータセットについて正規化された対応する値を比較するのを可能にする数学的調整を含む。特定の実施形態では、正規化は、スケーリングを含む。正規化は時には、所定の変数または式による1つまたは複数のデータセットの除算を含む。正規化は、場合によって、所定の変数または式による1つまたは複数のデータセットの除算を含む。正規化法の非限定的な例は、部分に関する正規化、GC含有量による正規化、中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所加重散布図平坦化)、ChAI、主成分による正規化、リピートマスクキング(RM)、GC正規化リピートマスクキング(GCRM)、cQn、ならびに/またはこれらの組合せを含む。一部の実施形態では、遺伝子の変動の存在または非存在(例えば、異数性、微小重複、微小欠失)の決定は、正規化法(例えば、部分に関する正規化、GC含有量による正規化、中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所加重散布図平坦化)、ChAI、主成分による正規化、リピートマスクキング(RM)、GC正規化リピートマスクキング(GCRM)、cQn、当技術分野で公知の正規化法、ならびに/またはこれらの組合せ)を利用する。一部の実施形態では、遺伝子の変動の存在または非存在(例えば、異数性、微小重複、微小欠失)の決定は、LOESS、中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、および主成分による正規化の1つまたは複数を利用する。一部の実施形態では、遺伝子の変動の存在または非存在の決定は、LOESSに続く、中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化を利用する。一部の実施形態では、遺伝子の変動の存在または非存在の決定は、LOESS、およびそれに続く中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、およびそれに続く主成分による正規化を利用する。
任意の適切な数の正規化を使用することができる。一部の実施形態では、データセットを、1回もしくは複数回、5回もしくはそれ超回、10回もしくはそれ超回、または20回またはそれ超回さえ正規化することができる。データセットを、任意の適切な特徴または変数(例えば、試料データ、参照データ、または両方)を表示する値(例えば、正規化値)に対して正規化することができる。使用することができるデータの正規化のタイプの非限定的な例として、1つまたは複数の選択された試験部分または参照部分についての未加工カウント数データを、その上で、選択された部分または区分がマッピングされる染色体またはゲノム全体に対してマッピングされるカウント数の総数に対して正規化すること;1つまたは複数の選択された部分についての未加工カウント数データを、その上で、選択された部分またはセグメントがマッピングされる1つもしくは複数の部分または染色体についての参照のカウント数の中央値に対して正規化すること;未加工カウント数データを、あらかじめ正規化されたデータまたはそれらの誘導値に対して正規化すること;およびあらかじめ正規化されたデータを、1つまたは複数のその他の所定の正規化変数に対して正規化することが挙げられる。データセットの正規化は時には、所定の正規化変数として選択された特徴または特性に応じて、統計学的誤差を単離する作用を有する。また、データセットの正規化は時には、異なるスケールを有するデータのデータとしての特徴の比較を、データに共通のスケール(例えば、所定の正規化変数)を与えることによって可能にする。一部の実施形態では、統計学的に誘導された値に対する1回または複数回の正規化を利用して、データの差を最小化し、異常値データの重要性を減少させることができる。部分または参照ゲノムの部分を正規化値に関して正規化することを時には、「部分に関する正規化」と呼ぶ。
特定の実施形態では、正規化を含む処理ステップは、静止したウィンドウに対して正規化することを含み、一部の実施形態では、正規化を含む処理ステップは、移動するウィンドウまたはスライディングウィンドウに対して正規化することを含む。用語「ウィンドウ」は、本明細書で使用する場合、分析のために選ばれた1つまたは複数の部分を指し、時には、比較のための参照として使用される(例えば、正規化および/またはその他の数学的もしくは統計学的な操作ために使用される)。用語「静止したウィンドウに対して正規化する」は、本明細書で使用する場合、試験対象のデータセットと参照対象のデータセットとを比較するために選択された1つまたは複数の部分を使用する正規化の処理を指す。一部の実施形態では、選択された部分を利用して、プロファイルを生成する。静止したウィンドウは一般に、操作および/または分析の間に変化しない所定の一連の部分を含む。用語「移動するウィンドウに対して正規化する」および「スライディングウィンドウに対して正規化する」は、本明細書で使用する場合、選択された試験部分のゲノム領域に限局される部分(例えば、遺伝子の直近の周囲の、隣接する部分または区分等)に対して行われる正規化を指し、この場合、1つまたは複数の選択された試験部分は、選択された試験部分の直近の周囲の部分に対して正規化される。特定の実施形態では、選択された部分を利用して、プロファイルを生成する。スライディングウィンドウまたは移動するウィンドウの正規化はしばしば、隣接する試験部分に向けて繰り返し移動またはスライディングさせ、新たに選択された試験部分を、新たに選択された試験部分の直近の周囲のまたは新たに選択された試験部分に隣接する部分に対して正規化することを含み、この場合、隣接するウィンドウは、共通する1つまたは複数の部分を有する。特定の実施形態では、複数の選択された試験部分および/または染色体を、スライディングウィンドウ処理により分析することができる。
一部の実施形態では、スライディングウィンドウまたは移動するウィンドウに対して正規化することによって、1つまたは複数の値を生成することができ、この場合、それぞれ値は、ゲノムの異なる領域(例えば、染色体)から選択された異なる一連の参照部分に対する正規化の結果を表示する。特定の実施形態では、生成された1つまたは複数の値は、累積合計(例えば、選択された部分、ドメイン(例えば、染色体のパート)または染色体にわたり正規化されたカウント数プロファイルの積分の数的な推定値)である。スライディングウィンドウまたは移動するウィンドウの処理により生成された値を使用して、プロファイルを生成し、アウトカムに到達するのを促進することができる。一部の実施形態では、1つまたは複数の部分の累積合計を、ゲノムの位置の関数として示すことができる。時には、移動するウィンドウまたはスライディングウィンドウの分析を使用して、ゲノムを微小欠失および/または微小挿入の有無について分析する。特定の実施形態では、1つまたは複数の部分の累積合計を示すことを使用して、遺伝子の変動(例えば、微小欠失、微小重複)の領域の有無を識別する。一部の実施形態では、移動するウィンドウまたはスライディングウィンドウの分析を使用して、微小欠失を含有するゲノム領域を識別し、特定の実施形態では、移動するウィンドウまたはスライディングウィンドウの分析を使用して、微小重複を含有するゲノム領域を識別する。
下記に、利用することができる正規化の処理の特定の例、例えば、LOESS、ChAIおよび主成分正規化の方法等をより詳細に記載する。
一部の実施形態では、処理ステップは、加重を含む。用語「加重される」、「加重する」もしくは「加重関数」、またはそれらの文法上の派生語もしくは相当語句は、本明細書で使用する場合、特定のデータセットの特徴または変数の影響を、その他のデータセットの特徴または変数に比して変化させる(例えば、1つもしくは複数の部分または参照ゲノムの部分中に含有されるデータの有意性および/または寄与を、参照ゲノムの選択された1つまたは複数の部分中のデータの品質または有用性に基づいて増加または減少させる)ために利用することがあるデータセットの一部または全部の数学的操作を指す。一部の実施形態では、加重関数を使用して、比較的小さな測定値の分散を有するデータの影響を増加させること、および/または比較的大きな測定値の分散を有するデータの影響を減少させることができる。例えば、過小表示されているまたは低い品質の配列データを有する参照ゲノムの部分の「加重を減らし」て、データセットに対する影響を最小化することができ、一方、参照ゲノムの選択された部分の「加重を増やし」て、データセットに対する影響を増加させることもできる。加重関数の非限定的な例が、[1/(標準偏差)]である。加重ステップは時には、正規化ステップに実質的に類似する様式で行われる。一部の実施形態では、データセットは、所定の変数(例えば、加重変数)により除算される。しばしば、所定の変数(例えば、最小化目的関数、Phi)を選択して、データセットの異なるパートに異なる加重を加える(例えば、特定のデータのタイプの影響を増加させ、一方、その他のデータのタイプの影響を減少させる)。
特定の実施形態では、処理ステップは、1つまたは複数の数学的および/または統計学的な操作を含むことができる。任意の適切な数学的および/または統計学的な操作を、単独でまたは組み合わせて使用して、本明細書に記載するデータセットを分析および/操作することができる。任意の適切な数の数学的および/または統計学的な操作を使用することができる。一部の実施形態では、データセットを、数学的および/または統計学的に、1回もしくは複数回、5回もしくはそれ超回、10回もしくはそれ超回、または20回もしくはそれ超回操作することができる。使用することができる数学的および統計学的な操作の非限定的な例として、加算、減算、乗算、除算、代数関数、最小二乗推定量、曲線近似、微分方程式、有理多項式、二重多項式、直交多項式、zスコア、p値、カイ値、phi値、ピークレベルの分析、ピークのエッジの場所の決定、ピーク面積比の計算、染色体レベルの中央値の分析、平均絶対偏差の計算、残余の二乗の合計、平均、標準偏差、標準誤差等、またはそれらの組合せが挙げられる。数学的および/または統計学的な操作を、配列の読取りのデータまたはそれらの処理された生成物の全部または一部に対して行うことができる。統計学的に操作することができるデータセットの変数または特徴の非限定的な例として、未加工カウント数、フィルターをかけたカウント数、正規化されたカウント数、ピークの高さ、ピークの幅、ピークの面積、ピークのエッジ、ラテラルトレランス(lateral tolerance)、P値、レベルの中央値、平均レベル、ゲノム領域内のカウント数の分布、核酸種の相対的な表示等、またはそれらの組合せが挙げられる。
一部の実施形態では、処理ステップは、1つまたは複数の統計学的アルゴリズムの使用を含むことができる。任意の適切な統計学的アルゴリズムを、単独でまたは組み合わせて使用して、本明細書に記載するデータセットを分析および/操作することができる。任意の適切な数の統計学的アルゴリズムを使用することができる。一部の実施形態では、1つもしくは複数、5つもしくはそれ超、10個もしくはそれ超、または20個もしくはそれ超の統計学的アルゴリズムを使用して、データセットを分析することができる。本明細書に記載する方法と共に使用するのに適切な統計学的アルゴリズムの非限定的な例として、決定木、対立仮説、多重比較、オムニバス検定、ベーレンス-フィッシャー検定、ブートストラッピング、有意性の独立性検定を組み合わせるためのフィッシャー法、帰無仮説、第一種の過誤、第二種の過誤、直接検定、1標本Z検定、2標本Z検定、1標本t検定、対応のあるt検定、等分散を有する2標本併合型t検定、不等分散を有する2標本非併合型t検定、1比率z検定、2比率z検定併合型、2比率z検定非併合型、1標本カイ二乗検定、分散の一様性についての2標本F検定、信頼区間、信頼区間(credible interval)、有意性、メタ分析、単回帰、ロバスト線形回帰等、または上記の組合せが挙げられる。統計学的アルゴリズムを使用して分析することができるデータセットの変数または特徴の非限定的な例として、未加工カウント数、フィルターをかけたカウント数、正規化されたカウント数、ピークの高さ、ピークの幅、ピークのエッジ、ラテラルトレランス、P値、レベルの中央値、平均レベル、ゲノム領域内のカウント数の分布、核酸種の相対的な表示等、またはそれらの組合せが挙げられる。
特定の実施形態では、複数(例えば、2つもしくはそれ超)の統計学的アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K最近傍、ロジスティック回帰および/もしくは損失平滑化)、ならびに/または(例えば、本明細書では操作と呼ぶ)数学的および/もしくは統計学的な操作を利用することによって、データセットを分析することができる。一部の実施形態では、複数の操作の使用により、アウトカムをもたらすために使用することができるN次元空間を生成することができる。特定の実施形態では、複数の操作を利用することによりデータセットを分析することによって、データセットの複雑性および/または次元性を低下させることができる。例えば、複数の操作を参照データセットに対して使用することによって、参照試料の遺伝子の状況(例えば、選択された遺伝子の変動について陽性または陰性)に応じて、遺伝子の変動の有無を表示するために使用することができるN次元空間(例えば、確率プロット)を生成することができる。実質的に類似する一連の操作を使用する試験試料の分析を使用して、試験試料のそれぞれについてN次元の点を生成することができる。試験対象のデータセットの複雑性および/または次元性は時には、参照データから生成されたN次元空間と容易に比較することができる単一の値またはN次元の点に単純化される。参照対象のデータが存在するN次元空間に属する試験試料データは、参照対象の遺伝子の状況に実質的に類似する遺伝子の状況を示す。参照対象のデータが存在するN次元空間の外側に存在する試験試料データは、参照対象の遺伝子の状況に実質的に類似しない遺伝子の状況を示す。一部の実施形態では、参照は、正倍数体であるか、または別段に、遺伝子の変動も医学的状態も有していない。
一部の実施形態では、データセットが、計数され、任意選択でフィルターをかけ正規化された後で、フィルターをかけ、かつ/または正規化する1つまたは複数の手順により、これらの処理されたデータセットをさらに操作することができる。特定の実施形態では、フィルターをかけ、かつ/または正規化する1つまたは複数の手順によりさらに操作されているデータセットを使用して、プロファイルを生成することができる。一部の実施形態では、時には、フィルターをかけ、かつ/または正規化する1つまたは複数の手順により、データセットの複雑性および/または次元性を低下させることができる。低下させた複雑性および/または次元性のデータセットに基づいて、アウトカムをもたらすことができる。
一部の実施形態では、誤差の尺度(例えば、標準偏差、標準誤差、計算した分散、p値、平均絶対誤差(mean absolute error)(MAE)、平均値絶対偏差および/または平均絶対偏差(MAD))に従って、部分にフィルターをかけることができる。特定の実施形態では、誤差の尺度は、カウント数の可変性を指す。一部の実施形態では、カウント数の可変性に従って、部分にフィルターをかける。特定の実施形態では、カウント数の可変性は、複数の試料(例えば、複数の対象、例えば、50人/匹もしくはそれ超、100人/匹もしくはそれ超、500人/匹もしくはそれ超、1000人/匹もしくはそれ超、5000人/匹もしくはそれ超、または10,000人/匹もしくはそれ超の対象から得られた複数の試料)について、参照ゲノムのある部分(すなわち、部分)に対してマッピングされたカウント数について決定した誤差の尺度である。一部の実施形態では、所定の上範囲を上回るカウント数の可変性を有する部分にフィルターをかける(例えば、検討から排除する)。一部の実施形態では、所定の上範囲は、約50に等しいもしくはそれ超、約52に等しいもしくはそれ超、約54に等しいもしくはそれ超、約56に等しいもしくはそれ超、約58に等しいもしくはそれ超、約60に等しいもしくはそれ超、約62に等しいもしくはそれ超、約64に等しいもしくはそれ超、約66に等しいもしくはそれ超、約68に等しいもしくはそれ超、約70に等しいもしくはそれ超、約72に等しいもしくはそれ超、約74に等しいもしくはそれ超、または約76に等しいもしくはそれ超のMAD値である。一部の実施形態では、所定の下範囲を下回るカウント数の可変性を有する部分にフィルターをかける(例えば、検討から排除する)。一部の実施形態では、所定の下範囲は、約40に等しいもしくはそれ未満、約35に等しいもしくはそれ未満、約30に等しいもしくはそれ未満、約25に等しいもしくはそれ未満、約20に等しいもしくはそれ未満、約15に等しいもしくはそれ未満、約10に等しいもしくはそれ未満、約5に等しいもしくはそれ未満、約1に等しいもしくはそれ未満、または約0に等しいもしくはそれ未満のMAD値である。一部の実施形態では、所定の範囲の外側にあるカウント数の可変性を有する部分にフィルターをかける(例えば、検討から排除する)。一部の実施形態では、所定の範囲は、ゼロ超から、約76未満、約74未満、約73未満、約72未満、約71未満、約70未満、約69未満、約68未満、約67未満、約66未満、約65未満、約64未満、約62未満、約60未満、約58未満、約56未満、約54未満、約52未満または約50未満までのMAD値である。一部の実施形態では、所定の範囲は、ゼロ超から約67.7未満までのMAD値である。一部の実施形態では、所定の範囲内のカウント数の可変性を有する部分を選択する(例えば、遺伝子の変動の有無を決定するために使用する)。
一部の実施形態では、部分のカウント数の可変性が、分布(例えば、正規分布)を示す。一部の実施形態では、部分は、分布のクォンタイル内で選択される。一部の実施形態では、分布の約99.9%に等しいもしくはそれ未満、約99.8%に等しいもしくはそれ未満、約99.7%に等しいもしくはそれ未満、約99.6%に等しいもしくはそれ未満、約99.5%に等しいもしくはそれ未満、約99.4%に等しいもしくはそれ未満、約99.3%に等しいもしくはそれ未満、約99.2%に等しいもしくはそれ未満、約99.1%に等しいもしくはそれ未満、約99.0%に等しいもしくはそれ未満、約98.9%に等しいもしくはそれ未満、約98.8%に等しいもしくはそれ未満、約98.7%に等しいもしくはそれ未満、約98.6%に等しいもしくはそれ未満、約98.5%に等しいもしくはそれ未満、約98.4%に等しいもしくはそれ未満、約98.3%に等しいもしくはそれ未満、約98.2%に等しいもしくはそれ未満、約98.1%に等しいもしくはそれ未満、約98.0%に等しいもしくはそれ未満、約97%に等しいもしくはそれ未満、約96%に等しいもしくはそれ未満、約95%に等しいもしくはそれ未満、約94%に等しいもしくはそれ未満、約93%に等しいもしくはそれ未満、約92%に等しいもしくはそれ未満、約91%に等しいもしくはそれ未満、約90%に等しいもしくはそれ未満、約85%に等しいもしくはそれ未満、約80%に等しいもしくはそれ未満、または約75%に等しいもしくはそれ未満のクォンタイル内の部分が選択される。一部の実施形態では、カウント数の可変性の分布の99%クォンタイル内の部分が選択される。一部の実施形態では、99%クォンタイル内で、MAD>0の部分およびMAD<67.725の部分が選択され、その結果、参照ゲノムの一連の安定な部分が識別される。
誤差の尺度に基づいて、または誤差の尺度の一部に基づいて、部分にフィルターをかけることができる。特定の実施形態では、R因子等の偏差の絶対値を含む誤差の尺度を使用して、部分の除去または部分への加重を行うことができる。R因子は、一部の実施形態では、実際の測定値から予測されるカウント数の値の絶対偏差の合計を、実際の測定値から予測されるカウント数の値(例えば、本明細書の式II)で除算した結果と定義する。偏差の絶対値を含む誤差の尺度を使用することができるが、誤差の適切な尺度もそれに代わって利用することができる。特定の実施形態では、偏差の絶対値を含まない誤差の尺度、例として、二乗に基づくばらつきを利用することができる。一部の実施形態では、マッピング可能性の尺度(例えば、マッピング可能性スコア)に従って、部分にフィルターをかけるまたは加重する。時には、部分に対してマッピングされた、比較的低い数の配列の読取り(例えば、部分に対してマッピングされた、0、1、2、3、4、5つの読取り)に従って、その部分にフィルターをかけるまたは加重する。実施している分析のタイプに従って、部分にフィルターをかけるまたは加重することができる。例えば、第13、18および/または21染色体の異数性の分析の場合、性染色体にフィルターをかけることができ、常染色体のみまたは常染色体のサブセットを分析することができる。
特定の実施形態では、以下のフィルターをかける処理を利用することができる。所与の染色体(例えば、第21染色体)内の同じ一連の部分(例えば、参照ゲノムの部分)を選択し、読取りの数を、罹患試料と非罹患試料とで比較する。ギャップにより、21トリソミー試料と正倍数体試料とを関係付け、これには、ほとんどの第21染色体をカバーする一連の部分を含める。これらの一連の部分は、正倍数体試料とT21試料との間で同じである。部分を定義することができるので、一連の部分と単一区分との区別はあまり重要でない。同じゲノム領域を、異なる患者において比較する。この処理を、トリソミーの分析、例として、T21に加えてまたはその代わりに、T13またはT18のために利用することができる。
一部の実施形態では、データセットが、計数され、任意選択でフィルターをかけ正規化された後で、加重することによって、これらの処理されたデータセットを操作することができる。特定の実施形態では、1つまたは複数の部分を選択し、それらに加重して、選択された部分中に含有されるデータ(例えば、ノイズの多いデータ、情報を与えないデータ)の影響を低下させることができ、一部の実施形態では、1つまたは複数の部分を選択し、それらに加重して、選択された部分中に含有されるデータ(例えば、小さな分散が測定されたデータ)の影響を増強または増大させることができる。一部の実施形態では、大きな分散を有するデータの影響を減少させ、小さな分散を有するデータの影響を増加させる単一の加重関数を利用して、データセットに加重する。時には、加重関数を使用して、大きな分散を有するデータの影響を低下させ、小さな分散を有するデータの影響を増大させる(例えば、[1/(標準偏差)])。一部の実施形態では、加重によりさらに操作して処理したデータのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。加重されたデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
部分にフィルターをかけることまたは加重することは、分析における1つまたは複数の適切な点で行うことができる。例えば、配列の読取りを、参照ゲノムの部分に対してマッピングする前または後に、部分にフィルターをかけるまたは加重することができる。一部の実施形態では、個々のゲノム部分についての実験の偏りを決定する前または後に、部分にフィルターをかけるまたは加重することができる。特定の実施形態では、ゲノム区分のレベルを計算する前または後に、部分にフィルターをかけるまたは加重することができる。
一部の実施形態では、データセットが、計数され、任意選択でフィルターをかけられ、正規化され、任意選択で加重された後に、これらの処理されたデータセットを、1つまたは複数の数学的および/または統計学的な(例えば、統計学的関数または統計学的アルゴリズムによる)操作により操作することができる。特定の実施形態では、1つまたは複数の選択された部分、染色体、または染色体の部分についてZスコアを計算することによって、処理されたデータセットをさらに操作することができる。一部の実施形態では、P値を計算することによって、処理されたデータセットをさらに操作することができる。特定の実施形態では、数学的および/または統計学的な操作は、倍数性および/または胎仔フラクションに関する1つまたは複数の仮定を含む。一部の実施形態では、1つまたは複数の統計学的および/または数学的な操作によりさらに操作して処理したデータのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。統計学的および/または数学的に操作したデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。統計学的および/または数学的に操作したデータのプロファイルのプロットに基づいてもたらされたアウトカムはしばしば、倍数性および/または胎仔フラクションに関する1つまたは複数の仮定を含む。
特定の実施形態では、データセットが、計数され、任意選択でフィルターをかけ正規化された後で、複数の操作を、処理されたデータセットに対して行って、N次元空間および/またはN次元の点を生成する。N次元で分析したデータセットのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
一部の実施形態では、データセットの処理および/または操作の一部としてまたはその後に、1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して、データセットを処理する。一部の実施形態では、1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して処理したデータのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。1つまたは複数のピークレベルの分析、ピーク幅の分析、ピークのエッジの場所の分析、ピークのラテラルトレランス等、それらの誘導物、または上記の組合せを利用して処理してあるデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。
一部の実施形態では、問題の遺伝子変動を実質的に含有しない1つまたは複数の参照試料を使用して、参照のカウント数プロファイルの中央値を得ることができ、この中央値は、遺伝子の変動の不在を表示する所定の値になり得、しばしば、もし試験対象が遺伝子の変動を保有するならば、その遺伝子の変動が試験対象において位置するゲノムの場所に対応する領域における所定の値から、当該中央値は逸脱する。遺伝子の変動と関連する医学的状態のリスクがあるか、またはそうした医学的状態に罹患している試験対象において、選択された部分または区分についての数値は、罹患していない場合のゲノムの場所についての所定の値とは顕著に異なるものになることが予想される。特定の実施形態では、問題の遺伝子変動を担持することが分かっている1つまたは複数の参照試料を使用して、参照のカウント数プロファイルの中央値を得ることができ、この中央値は、遺伝子の変動の存在を表示する所定の値になり得、しばしば、試験対象がその遺伝子の変動を担持しないゲノムの場所に対応する領域における所定の値から、当該中央値は逸脱する。遺伝子の変動と関連する医学的状態のリスクがないか、またはそうした医学的状態に罹患していない試験対象においては、選択された部分または区分についての数値は、罹患している場合のゲノムの場所についての所定の値とは顕著に異なるものになることが予想される。
一部の実施形態では、データの分析および処理は、1つまたは複数の仮定の使用を含むことができる。適切な数またはタイプの仮定を利用して、データセットを分析または処理することができる。データの処理および/または分析のために使用することができる仮定の非限定的な例として、母体の倍数性、胎仔の寄与、参照集団中の特定の配列の存在率、民族性背景、血縁の家族における選択された医学的状態の存在率、異なる患者から得られた未加工カウント数のプロファイル間の平行度および/またはGC正規化リピートマスクキング(例えば、GCRM)後のラン、PCRの不自然な結果を意味する同一の一致(例えば、同一塩基の位置)、胎仔定量化アッセイ(例えば、FQA)に固有の仮定、双子に関する仮定(例えば、双子の両方のうち、一方のみが罹患している場合、有効な胎仔フラクションは、測定された全胎仔フラクションの50%のみである(三つ子、四つ子等についても同様))、ゲノム全体を一様にカバーする胎性の無細胞DNA(例えば、cfDNA)等、ならびにそれらの組合せが挙げられる。
正規化されたカウント数プロファイルに基づいて、遺伝子の変動の有無のアウトカムを信頼性の所望のレベル(例えば、95%またはそれ超の信頼性のレベル)で予測することが、マッピングされた配列の読取りの品質および/または深さでは可能でない事例では、1つまたは複数の追加の数学的操作のアルゴリズムおよび/または統計学的予測アルゴリズムを利用して、データ分析および/またはアウトカムの提供に有用な追加の数値を生成することができる。用語「正規化されたカウント数プロファイル」は、本明細書で使用する場合、正規化されたカウント数を使用して生成されたプロファイルを指す。正規化されたカウント数および正規化されたカウント数プロファイルを生成するために使用することができる方法の例を、本明細書に記載する。上記で述べたように、計数されるに至った、マッピングされた配列の読取りを、試験試料のカウント数または参照試料のカウント数に関して正規化することができる。一部の実施形態では、正規化されたカウント数プロファイルは、プロットして示すことができる。
LOESS正規化
LOESSとは、当技術分野で公知の回帰モデル化法であって、多重回帰モデルを、k最近傍法ベースのメタモデル内で組み合わせる回帰モデル化法である。LOESSは、場合によって、局所重み付け多項式回帰と称する。一部の実施形態では、GC LOESSでは、LOESSモデルを、断片のカウント数(例えば、配列の読取り、配列のカウント数)と、参照ゲノム部分についてのGC組成との間の関係へと適用する。データ点のセットを通る滑らかな曲線のプロッティングであって、LOESSを使用するプロッティングは、場合によって、LOESS曲線と呼ばれ、特に、各平滑値が、y軸の散布図基準変数の値の区間にわたる、重み付き二次最小二乗回帰により与えられる場合、そう呼ばれる。データセット中の各点について、LOESS法は、低次多項式を、説明変数値がその応答が推定される点の近傍にあるデータのサブセットへと適合させる。多項式は、その応答が推定される点の近傍の点には大きな重みを与え、遠く離れた点には小さな重みを与える、重み付き最小二乗法を使用して適合させる。次いで、点についての回帰関数値を、そのデータ点についての説明変数値を使用して、局所多項式の値を求めることにより得る。LOESS適合は、場合によって、回帰関数値を、データ点の各々について計算した後において、完全であると考えられる。多項式モデルの次数および重みなど、この方法の詳細の多くは、適応性がある。
ChAIによる正規化
本明細書では、核酸指標と関連する誤差を低減するのに使用されうる別の正規化法を、ChAIと称し、これには主成分分析を使用することが多い。ある特定の実施形態では、主成分分析は、(a)読取り密度分布に従って、参照ゲノムの部分をフィルタリングし、これにより、試験試料についての読取り密度プロファイルであって、フィルタリングされた部分の読取り密度を含み、読取り密度が、妊娠中の雌による試験試料に由来する循環型無細胞核酸の配列の読取りを含み、読取り密度の分布が、複数の試料についての部分の読取り密度について決定されるプロファイルを提供するステップと、(b)1つまたは複数の主成分であって、主成分分析により公知の正倍数体試料のセットから得られる主成分に従って、試験試料についての読取り密度プロファイルを調整し、これにより、調整された読取り密度を含む試験試料プロファイルを提供するステップと、(c)試験試料プロファイルを、参照プロファイルと比較し、これにより、比較をもたらすステップとを含む。一部の実施形態では、主成分分析は、(d)比較に従って、遺伝子の変動の存在または非存在を、試験試料について決定するステップを含む。
部分のフィルタリング
ある特定の実施形態では、1つまたは複数の部分(例えば、ゲノム部分)を、フィルタリング処理により検討から除外する。ある特定の実施形態では、1つまたは複数の部分をフィルタリングし(例えば、フィルタリング処理にかけ)、これにより、フィルタリングされた部分を提供する。一部の実施形態では、フィルタリング処理により、ある特定の部分を除外し、部分(例えば、部分のサブセット)を保持する。本明細書では、フィルタリング処理の後で保持された部分を、フィルタリングされた部分と称することが多い。一部の実施形態では、参照ゲノム部分をフィルタリングする。一部の実施形態では、フィルタリング処理により除外された参照ゲノム部分は、遺伝子の変動(例えば、染色体の異数性、微小重複、微小欠失)の存在または非存在の決定に含まれない。一部の実施形態では、読取り密度と関連する部分(例えば、読取り密度が部分についての読取り密度である場合)は、フィルタリング処理により除外され、除外された部分と関連する読取り密度は、遺伝子の変動(例えば、染色体の異数性、微小重複、微小欠失)の存在または非存在の決定に含まれない。一部の実施形態では、読取り密度プロファイルは、フィルタリングされた部分の読取り密度を含み、かつ/またはこれからなる。部分は、任意の適切な基準および/または当技術分野で公知の方法もしくは本明細書で記載される方法を使用して、選択し、フィルタリングし、かつ/または検討から除外することができる。部分のフィルタリングに使用される基準の非限定的な例は、冗長データ(例えば、マッピングした読取りの冗長または重複)、情報のないデータ(例えば、マッピングしたカウント数がゼロである参照ゲノム部分)、過大表示されている配列または過小表示されている配列を有する参照ゲノム部分、GC含有量、ノイズデータ、マッピング可能性、カウント数、カウント数の可変性、読取り密度、読取り密度の可変性、不確定性の尺度、再現性の尺度など、または前出の組合せを含む。部分は、場合によって、カウント数の分布および/または読取り密度の分布に従ってフィルタリングされる。一部の実施形態では、部分を、カウント数および/または読取り密度が、1つまたは複数の参照試料から得られる場合の、カウント数の分布および/または読取り密度に従ってフィルタリングする。本明細書では、場合によって、1つまたは複数の参照試料を、トレーニングセットと称する。一部の実施形態では、部分を、カウント数および/または読取り密度が、1つまたは複数の試験試料から得られる場合の、カウント数の分布および/または読取り密度に従ってフィルタリングする。一部の実施形態では、部分を、読取り密度分布についての不確定性の尺度に従ってフィルタリングする。ある特定の実施形態では、読取り密度の大きな偏差を裏付ける部分を、フィルタリング処理により除外する。例えば、分布中の各読取り密度が、同じ部分へとマッピングされる場合は、読取り密度の分布(例えば、読取り密度の平均値、読取り密度の平均、または読取り密度の中央値の分布)を決定することができる。ゲノムの各部分が、不確定性の尺度と関連する場合は、読取り密度の分布を複数の試料について比較することにより、不確定性の尺度(例えば、MAD)を決定することができる。前出の例によれば、部分は、各部分と関連する不確定性の尺度(例えば、標準偏差(SD)、MAD)および所定の閾値に従ってフィルタリングすることができる。所定の閾値を、許容可能なMAD値の範囲を取り囲む垂直方向の破線で指し示す。ある特定の場合には、許容可能な範囲中のMAD値を含む部分を保持し、許容可能な範囲外のMAD値を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、前出の例に従って、所定の不確定性の尺度外の読取り密度値(例えば、読取り密度の中央値、平均値、または平均)を含む部分を、フィルタリング処理により検討から除外することが多い。一部の実施形態では、分布の四分位範囲外の読取り密度値(例えば、読取り密度の中央値、平均値、または平均)を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、分布の四分位範囲を2倍、3倍、4倍、または5倍を超えて外れる読取り密度値を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、2シグマ、3シグマ、4シグマ、5シグマ、6シグマ、7シグマ、または8シグマ(例えば、シグマが、標準偏差により規定される範囲である場合)を超えて外れる読取り密度値を含む部分を、フィルタリング処理により検討から除外する。
一部の実施形態では、システムは、フィルタリングモジュールを含む。フィルタリングモジュールは、部分(例えば、所定のサイズおよび/または重複の部分、参照ゲノム中の部分の位置)および部分と関連する読取り密度であって、別の適切なモジュールに由来することが多い読取り密度を、受容、回収、および/または保存することが多い。一部の実施形態では、選択部分(例えば、フィルタリングされた部分)は、フィルタリングモジュールにより提示される。一部の実施形態では、フィルタリングモジュールは、フィルタリングされた部分を提示し、かつ/または部分を検討から除外するように要請される。ある特定の実施形態では、読取り密度が除外された部分と関連する場合は、フィルタリングモジュールにより、読取り密度を検討から除外する。フィルタリングモジュールは、選択部分(例えば、フィルタリングされた部分)を、別の適切なモジュールへと提示することが多い。
偏りの推定値
配列決定技術は、複数の偏り発生源に対して脆弱でありうる。場合によって、配列決定の偏りは、局所的な偏り(例えば、局所的なゲノムの偏り)である。局所的な偏りは、配列の読取りのレベルで顕在化することが多い。局所的なゲノムの偏りは、任意の適切な局所的な偏りでありうる。局所的な偏りの非限定的な例は、配列の偏り(例えば、GCの偏り、ATの偏りなど)、DNアーゼI感度、エントロピー、反復配列の偏り、クロマチン構造の偏り、ポリメラーゼエラー率の偏り、回分配列の偏り、逆位リピートの偏り、PCR関連の偏りなど、またはこれらの組合せと相関する偏りを含む。一部の実施形態では、局所的な偏りの発生源は、決定されていないか、または公知ではない。
一部の実施形態では、局所的なゲノムの偏りの推定値を決定する。本明細書では、場合によって、局所的なゲノムの偏りの推定値を、局所的なゲノムの偏りの推定と称する。局所的なゲノムの偏りの推定値は、参照ゲノム、そのセグメントまたは部分について決定することができる。一部の実施形態では、局所的なゲノムの偏りの推定値を、1つまたは複数の配列の読取り(例えば、試料の一部または全部の配列の読取り)について決定する。局所的なゲノムの偏りの推定値は、参照基準(例えば、参照ゲノム)の対応する位置および/または地点についての局所的なゲノムの偏りの推定に従って、配列の読取りについて決定することが多い。一部の実施形態では、局所的なゲノムの偏りの推定値は、配列(例えば、参照ゲノムの配列の読取り、配列)の偏りの定量的尺度を含む。局所的なゲノムの偏りの推定は、適切な方法または数学的処理により決定することができる。一部の実施形態では、局所的なゲノムの偏りの推定値を、適切な分布および/または適切な分布関数(例えば、PDF)により決定する。一部の実施形態では、局所的なゲノムの偏りの推定値は、PDFの定量的表示を含む。一部の実施形態では、局所的なゲノムの偏りの推定値(例えば、確率密度推定(PDE:probability density estimation)、カーネル密度推定)を、局所的な偏りの含有量の確率密度関数(例えば、PDF:probability density function、例えば、カーネル密度関数)により決定する。一部の実施形態では、密度推定は、カーネル密度推定を含む。局所的なゲノムの偏りの推定値は、場合によって、分布の平均値、平均、または中央値として表す。場合によって、局所的なゲノムの偏りの推定値は、適切な分布の合計または積分(例えば、曲線下面積(AUC:area under a curve)として表す。
PDF(例えば、カーネル密度関数、例えば、エパネクニコフカーネル密度関数)は、バンド幅変数(例えば、バンド幅)を含むことが多い。バンド幅変数は、PDFを使用する場合の確率密度推定値(PDE)を導出するウィンドウのサイズおよび/または長さを規定することが多い。PDEを導出するウィンドウは、規定された長さのポリヌクレオチドを含むことが多い。一部の実施形態では、PDEを導出するウィンドウは、部分である。部分(例えば、部分のサイズ、部分の長さ)は、バンド幅変数に従って決定することが多い。バンド幅変数により、局所的なゲノムの偏りの推定値を決定するのに使用されるウィンドウの長さまたはサイズであって、そこから局所的なゲノムの偏りの推定値を決定する、ポリヌクレオチドセグメントの長さ(例えば、ヌクレオチド塩基の連続的なセグメント)である、ウィンドウの長さまたはサイズを決定する。その非限定的な例が、約5塩基~約100,000塩基、約5塩基~約50,000塩基、約5塩基~約25,000塩基、約5塩基~約10,000塩基、約5塩基~約5,000塩基、約5塩基~約2,500塩基、約5塩基~約1000塩基、約5塩基~約500塩基、約5塩基~約250塩基、約20塩基~約250塩基などのバンド幅を含む、任意の適切なバンド幅を使用して、PDE(例えば、読取り密度、局所的なゲノムの偏りの推定値(例えば、GC密度))を決定することができる。一部の実施形態では、局所的なゲノムの偏りの推定値(例えば、GC密度)は、約400塩基もしくはそれ未満、約350塩基もしくはそれ未満、約300塩基もしくはそれ未満、約250塩基もしくはそれ未満、約225塩基もしくはそれ未満、約200塩基もしくはそれ未満、約175塩基もしくはそれ未満、約150塩基もしくはそれ未満、約125塩基もしくはそれ未満、約100塩基もしくはそれ未満、約75塩基もしくはそれ未満、約50塩基もしくはそれ未満、または約25塩基もしくはそれ未満のバンド幅を使用して決定する。ある特定の実施形態では、局所的なゲノムの偏りの推定値(例えば、GC密度)は、所与の対象および/または試料について得られた配列の読取りの平均値読取り長さ、平均読取り長さ、中央値読取り長さ、または最大読取り長さに従って決定されたバンド幅を使用して決定する。場合によって、局所的なゲノムの偏りの推定値(例えば、GC密度)は、所与の対象および/または試料について得られた配列の読取りの平均値読取り長さ、平均読取り長さ、中央値読取り長さ、または最大読取り長さとほぼ等しいバンド幅を使用して決定する。一部の実施形態では、局所的なゲノムの偏りの推定値(例えば、GC密度)は、約250、240、230、220、210、200、190、180、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20、または約10塩基のバンド幅を使用して決定する。
局所的なゲノムの偏りの推定値は、単一塩基分解で決定しうるが、局所的なゲノムの偏りの推定値(例えば、局所的なGC含有量)は、低分解度でも決定することができる。一部の実施形態では、局所的なゲノムの偏りの推定値を、局所的な偏りの含有量について決定する。局所的なゲノムの偏りの推定値(例えば、PDFを使用して決定される)は、ウィンドウを使用して決定することが多い。一部の実施形態では、局所的なゲノムの偏りの推定値は、あらかじめ選択された数の塩基を含むウィンドウの使用を含む。場合によって、ウィンドウは、連続的な塩基のセグメントを含む。場合によって、ウィンドウは、1つまたは複数の非連続的な塩基の部分を含む。場合によって、ウィンドウは、1つまたは複数の部分(例えば、ゲノム部分)を含む。ウィンドウのサイズまたは長さは、バンド幅により、かつ、PDFに従って決定することが多い。一部の実施形態では、ウィンドウは、バンド幅の長さの約10倍もしくはそれ超、8倍もしくはそれ超、7倍もしくはそれ超、6倍もしくはそれ超、5倍もしくはそれ超、4倍もしくはそれ超、3倍もしくはそれ超、または約2倍もしくはそれ超である。PDF(例えば、カーネル密度関数)を使用して、密度推定値を決定する場合、ウィンドウは、場合によって、選択されたバンド幅の長さの2倍である。ウィンドウは、任意の適切な数の塩基を含みうる。一部の実施形態では、ウィンドウは、約5塩基~約100,000塩基、約5塩基~約50,000塩基、約5塩基~約25,000塩基、約5塩基~約10,000塩基、約5塩基~約5,000塩基、約5塩基~約2,500塩基、約5塩基~約1000塩基、約5塩基~約500塩基、約5塩基~約250塩基、または約20塩基~約250塩基を含む。一部の実施形態では、ゲノムまたはそのセグメントを、複数のウィンドウへと区分化する。ゲノムの領域を包摂するウィンドウは、重複する場合もあり、重複しない場合もある。一部の実施形態では、互いから等距離にウィンドウを配置する。一部の実施形態では、互いから異なる距離にウィンドウを配置する。ある特定の実施形態では、ゲノムまたはそのセグメントを、ウィンドウを、ゲノムまたはそのセグメントにわたり徐々にスライドさせる、複数のスライディングウィンドウへと区分化する。各インクリメントの各ウィンドウは、局所的なゲノムの偏りの推定値(例えば、局所GC密度)を含む。ウィンドウは、ゲノムにわたり、任意の適切なインクリメントでスライドさせることもでき、任意の数値パターンに従ってスライドさせることもでき、任意の無主題の規定配列に従ってスライドさせることもできる。一部の実施形態では、局所的なゲノムの偏りの推定値を決定するために、ゲノムまたはそのセグメントにわたり、約10,000bpまたはそれ超、約5,000bpまたはそれ超、約2,500bpまたはそれ超、約1,000bpまたはそれ超、約750bpまたはそれ超、約500bpまたはそれ超、約400塩基またはそれ超、約250bpまたはそれ超、約100bpまたはそれ超、約50bpまたはそれ超、または約25bpまたはそれ超のインクリメントでウィンドウをスライドさせる。一部の実施形態では、局所的なゲノムの偏りの推定値を決定するために、ゲノムまたはそのセグメントにわたり、約25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2、または約1bpのインクリメントでウィンドウをスライドさせる。例えば、局所的なゲノムの偏りの推定値を決定するために、ウィンドウは、約400bp(例えば、200bpのバンド幅)を含むことが可能であり、1bpのインクリメントでゲノムにわたりスライドさせることができる。一部の実施形態では、カーネル密度関数および約200bpのバンド幅を使用して、局所的なゲノムの偏りの推定値を、ゲノム内またはそのセグメント中の各塩基について決定する。
一部の実施形態では、局所的なゲノムの偏りの推定値は、局所的なGC含有量および/または局所的なGC含有量の表示である。本明細書で使用される「局所」という用語(例えば、局所的な偏り、局所的な偏りの推定値、局所的な偏りの含有量、局所的なゲノムの偏り、局所的なGC含有量などについて記載するのに使用される)は、10,000bpまたはそれ未満のポリヌクレオチドセグメントを指す。一部の実施形態では、「局所」という用語は、5000bpまたはそれ未満、4000bpまたはそれ未満、3000bpまたはそれ未満、2000bpまたはそれ未満、1000bpまたはそれ未満、500bpまたはそれ未満、250bpまたはそれ未満、200bpまたはそれ未満、175bpまたはそれ未満、150bpまたはそれ未満、100bpまたはそれ未満、75bpまたはそれ未満、または50bpまたはそれ未満のポリヌクレオチドセグメントを指す。局所的なGC含有量は、ゲノム、配列の読取り、配列の読取りアセンブリー(例えば、コンティグ、プロファイルなど)の局所セグメントについてのGC含有量の表示(例えば、数学的表示、定量的表示)であることが多い。例えば、局所的なGC含有量は、局所的なGCの偏りの推定値の場合もあり、局所的なGC密度の場合もある。
1つまたは複数のGC密度は、参照基準または試料(例えば、試験試料)のポリヌクレオチドについて決定することが多い。一部の実施形態では、GC密度は、局所的なGC含有量(例えば、5000bpまたはそれ未満のポリヌクレオチドセグメントについての)の表示(例えば、数学的表示、定量的表示)である。一部の実施形態では、GC密度は、局所的なゲノムの偏りの推定値である。GC密度は、本明細書で記載される適切な処理および/または当技術分野で公知の適切な処理を使用して決定することができる。GC密度は、適切なPDF(例えば、カーネル密度関数(例えば、エパネクニコフカーネル密度関数))を使用して決定することができる。一部の実施形態では、GC密度は、PDE(例えば、カーネル密度推定)である。ある特定の実施形態では、GC密度は、1つまたは複数のグアニン(G)ヌクレオチドおよび/またはシトシン(C)ヌクレオチドの存在または非存在により規定する。逆に、一部の実施形態では、GC密度は、1つまたは複数のアデニン(A)ヌクレオチドおよび/またはチミジン(T)ヌクレオチドの存在または非存在により規定することもできる。一部の実施形態では、局所的なGC含有量についてのGC密度を、全ゲノムまたはそのセグメント(例えば、常染色体、染色体のセット、単一の染色体、遺伝子)について決定されたGC密度に従って正規化する。1つまたは複数のGC密度は、試料(例えば、試験試料)または参照試料のポリヌクレオチドについて決定することができる。GC密度は、参照ゲノムについて決定することが多い。一部の実施形態では、GC密度を、参照ゲノムに従って、配列の読取りについて決定する。読取りのGC密度は、読取りがマッピングされる参照ゲノムの対応する位置および/または地点について決定されたGC密度に従って決定することが多い。一部の実施形態では、参照ゲノム上の位置について決定されたGC密度を、読取りについて割り当て、かつ/または提示するが、ここで、読取りまたはそのセグメントは、同じ参照ゲノム上の位置へとマッピングされる。任意の適切な方法を使用して、読取りについてのGC密度を生成する目的で、参照ゲノム上にマッピングした読取りの位置を決定することができる。一部の実施形態では、マッピングした読取りの中央値地点により、参照ゲノム上の位置であって、それに由来する読取りについてのGC密度を決定する位置が決定される。例えば、読取りの中央値地点が、参照ゲノムの塩基番号xにおける第12染色体へとマッピングされる場合、読取りのGC密度は、参照ゲノムの塩基番号xまたはその近傍における第12染色体上に位置する地点についてのカーネル密度推定により決定されるGC密度として提示されることが多い。一部の実施形態では、GC密度を、参照ゲノムに従った、読取りの一部または全部の塩基地点について決定する。場合によって、読取りのGC密度は、参照ゲノム上の複数の塩基地点について決定された、2つまたはそれ超のGC密度の平均値、合計、中央値、または積分を含む。
一部の実施形態では、局所的なゲノムの偏りの推定(例えば、GC密度)は、値として定量化および/または提示される。局所的なゲノムの偏りの推定(例えば、GC密度)は、場合によって、平均値、平均、および/または中央値として表される。局所的なゲノムの偏りの推定(例えば、GC密度)は、場合によって、PDEの最大ピーク高さとして表される。場合によって、局所的なゲノムの偏りの推定(例えば、GC密度)は、適切なPDEの合計または積分(例えば、曲線下面積(AUC))として表される。一部の実施形態では、GC密度は、カーネル重みを含む。ある特定の実施形態では、読取りのGC密度は、カーネル重みの平均値、平均、合計、中央値、最大ピーク高さ、または積分とほぼ等しい値を含む。
偏り頻度
偏り頻度は、場合によって、1つまたは複数の局所的なゲノムの偏りの推定値(例えば、GC密度)に従って決定される。偏り頻度は、場合によって、試料、参照基準(例えば、参照ゲノム、参照配列)、またはこれらの一部についての局所的なゲノムの偏りの推定値の発生数のカウント数または合計である。偏り頻度は、場合によって、試料、参照基準、またはこれらの一部についての、局所的なゲノムの偏りの推定値(例えば、各局所的なゲノムの偏りの推定値)の発生数のカウント数または合計である。一部の実施形態では、偏り頻度は、GC密度頻度である。GC密度頻度は、1つまたは複数のGC密度に従って決定することが多い。例えば、GC密度頻度は、値xのGC密度が全ゲノムまたはそのセグメントにわたり表示される回数を表示しうる。偏り頻度は、局所的なゲノムの偏りの推定値の分布であることが多く、ここで、各局所的なゲノムの偏りの推定値の発生数は、偏り頻度として表示される。偏り頻度は、場合によって、数学的に操作および/または正規化される。偏り頻度は、適切な方法により数学的に操作および/または正規化することができる。一部の実施形態では、偏り頻度を、試料、参照基準、またはこれらの一部についての、局所的なゲノムの偏りの推定値(例えば、常染色体、染色体のサブセット、単一の染色体、またはこれらの読取り)の表示(例えば、フラクション、百分率)に従って正規化する。偏り頻度は、試料または参照基準の、一部または全部の局所的なゲノムの偏りの推定値について決定することができる。一部の実施形態では、偏り頻度は、試験試料の、一部または全部の配列の読取りについての、局所的なゲノムの偏りの推定値について決定することができる。
一部の実施形態では、システムは、偏り密度モジュール6を含む。偏り密度モジュールは、マッピングした配列の読取り5および参照配列2を、任意の適切なフォーマットで受容、回収、および/または保存し、局所的なゲノムの偏りの推定値、局所的なゲノムの偏り分布、偏り頻度、GC密度、GC密度分布、および/またはGC密度頻度(併せて、ボックス7により表示された)を生成することが可能である。一部の実施形態では、偏り密度モジュールにより、データおよび/または情報(例えば、7)を、別の適切なモジュール(例えば、関係モジュール8)へと転送する。
関係
一部の実施形態では、1つまたは複数の関係を、局所的なゲノムの偏りの推定値と、偏り頻度との間で生成する。本明細書で使用される「関係」という用語は、2つまたはそれ超の変数または値の間の数学的関係および/またはグラフ的関係を指す。関係は、適切な数学的処理および/またはグラフ的処理により生成することができる。関係の非限定的な例は、関数、相関、分布、線形式または非線形式、直線、回帰、適合させた回帰など、またはこれらの組合せの数学的表示および/またはグラフ表示を含む。場合によって、関係は、適合させた関係を含む。一部の実施形態では、適合させた関係は、適合させた回帰を含む。場合によって、関係は、2つまたはそれ超の変数または値であって、重み付き変数または重み付き値を含む。一部の実施形態では、関係は、適合させた回帰を含み、ここで、関係の1つまたは複数の変数または値が重み付けされている。場合によって、回帰は、重み付き様式で適合させる。場合によって、回帰は、重み付けされずに適合させる。ある特定の実施形態では、関係の生成は、プロッティングまたはグラフ作成を含む。
一部の実施形態では、適切な関係を、局所的なゲノムの偏りの推定値と、偏り頻度との間で決定する。一部の実施形態では、試料についての(i)局所的なゲノムの偏りの推定値と、(ii)偏り頻度との関係を生成することにより、試料偏り関係を提示する。一部の実施形態では、参照基準についての(i)局所的なゲノムの偏りの推定値と、(ii)偏り頻度との関係を生成することにより、参照偏り関係を提示する。ある特定の実施形態では、関係を、GC密度とGC密度頻度との間で生成する。一部の実施形態では、試料についての(i)GC密度と、(ii)GC密度頻度との関係を生成することにより、試料GC密度関係を提示する。一部の実施形態では、参照についての(i)GC密度と、(ii)GC密度頻度との関係を生成することにより、参照GC密度関係を提示する。一部の実施形態では、局所的なゲノムの偏りの推定値がGC密度である場合、試料偏り関係は、試料GC密度関係であり、参照偏り関係は、参照GC密度関係である。参照GC密度関係および/または試料GC密度関係のGC密度は、局所的なGC含有量についての表示(例えば、数学的表示または定量的表示)であることが多い。一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、分布を含む。一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、適合させた関係(例えば、適合させた回帰)を含む。一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、線形適合回帰または非線形適合回帰(例えば、多項式回帰)を含む。ある特定の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、重み付き関係を含み、ここで、局所的なゲノムの偏りの推定値および/または偏り頻度は、適切な処理により重み付けされる。一部の実施形態では、重み付き適合させた関係(例えば、重み付き適合)は、四分位回帰、パラメータ付きの確率分布、または補間を有する経験的分布を含む処理により得ることができる。ある特定の実施形態では、試験試料、参照基準、またはこれらの一部についての、局所的なゲノムの偏りの推定値と偏り頻度との関係は、多項式回帰を含み、局所的なゲノムの偏りの推定値は、重み付けされている。一部の実施形態では、重み付き適合モデルは、分布値を重み付けすることを含む。分布値は、適切な処理により重み付けすることができる。一部の実施形態では、分布のテールの近傍に位置する値には、分布中央値に近い値より小さな重みを施す。例えば、局所的なゲノムの偏りの推定値(例えば、GC密度)と、偏り頻度(例えば、GC密度頻度)との分布については、重みを、所与の局所的なゲノムの偏りの推定値についての偏り頻度に従って決定し、ここで、分布の平均に近接した偏り頻度を含む局所的なゲノムの偏りの推定値には、平均から遠い偏り頻度を含む局所的なゲノムの偏りの推定値より大きな重みを施す。
一部の実施形態では、システムは、関係モジュール8を含む。関係モジュールにより、関係のほか、関係を規定する関数、係数、定数、および変数を生成することができる。関係モジュールにより、データおよび/または情報(例えば、7)を、適切なモジュール(例えば、偏り密度モジュール6)から受容、保存、および/または回収し、関係を生成することができる。関係モジュールにより、局所的なゲノムの偏りの推定値の分布を生成および比較することが多い。関係モジュールにより、データセットを比較し、場合によって、回帰および/または適合させた関係を生成することができる。一部の実施形態では、関係モジュールにより、1つまたは複数の分布(例えば、試料および/または参照基準の局所的なゲノムの偏りの推定値の分布)を比較し、配列の読取りのカウント数についての加重係数および/または重み割当て9を、別の適切なモジュール(例えば、偏り補正モジュール)へと提示する。場合によって、関係モジュールにより、正規化された配列の読取りのカウント数を、分布モジュール21へと直接提示し、ここで、カウント数を、関係および/または比較に従って正規化する。
比較の生成およびその使用
一部の実施形態では、配列の読取り中の局所的な偏りを低減するための処理は、配列の読取りのカウント数を正規化することを含む。配列の読取りのカウント数は、試験試料の参照基準との比較に従って正規化されることが多い。例えば、場合によって、配列の読取りのカウント数は、試験試料の配列の読取りの局所的なゲノムの偏りの推定値を、参照基準(例えば、参照ゲノムまたはその一部)の局所的なゲノムの偏りの推定値と比較することにより正規化する。一部の実施形態では、配列の読取りのカウント数は、試験試料の局所的なゲノムの偏りの推定値の偏り頻度を、参照基準の局所的なゲノムの偏りの推定値の偏り頻度と比較することにより正規化する。一部の実施形態では、配列の読取りのカウント数は、試料偏り関係と参照偏り関係とを比較することにより正規化し、これにより、比較を生成する。
配列の読取りのカウント数は、2つまたはそれ超の関係の比較に従って正規化されることが多い。ある特定の実施形態では、2つまたはそれ超の関係について比較し、これにより、配列の読取り中の局所的な偏りを低減する(例えば、カウント数を正規化する)ために使用される比較を提示する。適切な方法により、2つまたはそれ超の関係について比較することができる。一部の実施形態では、比較は、第1の関係に第2の関係を加算すること、第1の関係から第2の関係を減算すること、第1の関係に第2の関係を乗算すること、および/または第1の関係を第2の関係で除算することを含む。ある特定の実施形態では、2つまたはそれ超の関係の比較は、適切な線形回帰および/または非線形回帰の使用を含む。ある特定の実施形態では、2つまたはそれ超の関係の比較は、適切な多項式回帰(例えば、三次多項式回帰)を含む。一部の実施形態では、比較は、第1の回帰に第2の回帰を加算すること、第1の回帰から第2の回帰を減算すること、第1の回帰に第2の回帰を乗算すること、および/または第1の回帰を第2の回帰で除算することを含む。一部の実施形態では、2つまたはそれ超の関係について、多重回帰の推論フレームワークを含む処理により比較する。一部の実施形態では、2つまたはそれ超の関係について、適切な多変量分析を含む処理により比較する。一部の実施形態では、2つまたはそれ超の関係について、基底関数(例えば、ブレンディング関数、例えば、多項式基底、フーリエ基底など)、スプライン、放射基底関数、および/またはウェーブレットを含む処理により比較する。
ある特定の実施形態では、試験試料および参照基準についての偏り頻度を含む、局所的なゲノムの偏りの推定値の分布を、多項式回帰を含む処理により比較するが、ここで、局所的なゲノムの偏りの推定値は、重み付けされている。一部の実施形態では、多項式回帰を、(i)比の各々が、参照基準の局所的なゲノムの偏りの推定値の偏り頻度および試料の局所的なゲノムの偏りの推定値の偏り頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との間で生成する。一部の実施形態では、多項式回帰を、(i)参照基準の局所的なゲノムの偏りの推定値の偏り頻度の、試料の局所的なゲノムの偏りの推定値の偏り頻度に対する比と、(ii)局所的なゲノムの偏りの推定値との間で生成する。一部の実施形態では、試験試料および参照基準の読取りについての局所的なゲノムの偏りの推定値の分布の比較は、参照基準および試料についての、局所的なゲノムの偏りの推定値の偏り頻度の対数比(例えば、log2比)を決定することを含む。一部の実施形態では、局所的なゲノムの偏りの推定値の分布の比較は、参照基準についての、局所的なゲノムの偏りの推定値の偏り頻度対数比(例えば、log2比)を、試料についての局所的なゲノムの偏りの推定値の偏り頻度の対数比(例えば、log2比)で除算することを含む。
比較に従ったカウント数を正規化することでは、あるカウント数は調整されるが、他のカウント数は調整されないことが典型的である。カウント数を正規化することでは、ある場合には、全カウント数が調整され、ある場合には、いかなる配列の読取りのカウント数も調整されない。配列の読取りについてのカウント数は、ある場合には、加重係数を決定することを含む処理により正規化し、ある場合には、処理は、加重係数の直接的な生成および活用を含まない。比較に従ったカウント数を正規化することは、場合によって、各配列の読取りのカウント数についての加重係数を決定することを含む。加重係数は、配列の読取りに特異的であり、特異的配列の読取りのカウント数へと適用されることが多い。加重係数は、2つまたはそれ超の偏り関係の比較(例えば、参照偏り関係と比較した試料偏り関係)に従って決定することが多い。正規化されたカウント数は、カウント数値を、加重係数に従って調整することにより決定することが多い。加重係数に従ったカウント数の調整は、場合によって、配列の読取りについてのカウント数に加重係数を加算すること、配列の読取りについてのカウント数から加重係数を減算すること、配列の読取りについてのカウント数に加重係数を乗算すること、および/または配列の読取りについてのカウント数を加重係数で除算することを含む。加重係数および/または正規化されたカウント数は、場合によって、回帰(例えば、回帰直線)から決定する。正規化されたカウント数は、場合によって、参照基準の局所的なゲノムの偏りの推定値の偏り頻度(例えば、参照ゲノム)と、試験試料の局所的なゲノムの偏りの推定値の偏り頻度との間の比較の結果として得られる、回帰直線(例えば、適合させた回帰直線)から直接得る。一部の実施形態では、試料の読取りの各カウント数を、(i)読取りの局所的なゲノムの偏りの推定値の偏り頻度の、(ii)参照基準の局所的なゲノムの偏りの推定値の偏り頻度と比較した比較に従って、正規化されたカウント数値として提示する。ある特定の実施形態では、試料について得られる配列の読取りのカウント数を正規化し、配列の読取り中の偏りを低減する。
場合によって、システムは、偏り補正モジュール10を含む。一部の実施形態では、偏り補正モジュールの機能は、関係モデル化モジュール8により果たされる。偏り補正モジュールにより、マッピングした配列の読取りおよび加重係数(例えば、9)を、適切なモジュール(例えば、関係モジュール8、圧縮モジュール4)から受容、回収、および/または保存することができる。一部の実施形態では、偏り補正モジュールにより、マッピングした読取りへとカウント数を提示する。一部の実施形態では、偏り補正モジュールにより、重み割当ておよび/または偏り補正因子を、配列の読取りのカウント数へと適用し、これにより、正規化および/または調整されたカウント数を提示する。偏り補正モジュールにより、正規化されたカウント数を、別の適切なモジュール(例えば、分布モジュール21)へと提示することが多い。
ある特定の実施形態では、カウント数を正規化することは、GC密度に加えた、1つまたは複数の特徴をファクタリングすることと、配列の読取りのカウント数を正規化することとを含む。ある特定の実施形態では、カウント数を正規化することは、1つまたは複数の異なる局所的なゲノムの偏りの推定値をファクタリングすることと、配列の読取りのカウント数を正規化することとを含む。ある特定の実施形態では、配列の読取りのカウント数を、1つまたは複数の特徴(例えば、1つまたは複数の偏り)に従って決定された重み付けに従って重み付けする。一部の実施形態では、カウント数を、1つまたは複数の組み合わされた重みに従って正規化する。場合によって、1つまたは複数の組み合わされた重みに従って、1つまたは複数の特徴をファクタリングすることおよび/またはカウント数を正規化することは、多変量モデルの使用を含む処理を介する。任意の適切な多変量モデルを使用して、カウント数を正規化することができる。多変量モデルの非限定的な例は、多変量線形回帰、多変量四分位回帰、経験データの多変量補間、非線形多変量モデルなど、またはこれらの組合せを含む。
一部の実施形態では、システムは、多変量補正モジュール13を含む。多変量補正モジュールは、偏り密度モジュール6、関係モジュール8、および/または偏り補正モジュール10の機能を、複数回にわたり果たし、これにより、複数の偏りについてのカウント数を調整することができる。一部の実施形態では、多変量補正モジュールは、1つまたは複数の偏り密度モジュール6、関係モジュール8、および/または偏り補正モジュール10を含む。場合によって、多変量補正モジュールにより、正規化されたカウント数11を、別の適切なモジュールへと提示する(例えば、分布モジュール21)。
重み付き部分
一部の実施形態では、部分を、重み付けする。一部の実施形態では、1つまたは複数の部分を、重み付けし、これにより、重み付き部分を提示する。重み付き部分は、場合によって、部分依存性を除去する。部分は、適切な処理により重み付けすることができる。一部の実施形態では、1つまたは複数の部分を、固有関数(eigen function(またはeigenfunction))により重み付けする。一部の実施形態では、固有関数は、部分を直交固有部分により置きかえることを含む。一部の実施形態では、システムは、部分重み付けモジュール42を含む。一部の実施形態では、重み付けモジュールにより、読取り密度、読取り密度プロファイル、および/または調整された読取り密度プロファイルを受容、回収、および/または保存する。一部の実施形態では、重み付き部分を、部分重み付けモジュールにより提示する。一部の実施形態では、重み付けモジュールは、部分を重み付けするように要請される。重み付けモジュールでは、当技術分野で公知であるかまたは本明細書で記載される1つまたは複数の重み付け法により、部分を重み付けすることができる。重み付けモジュールにより、重み付き部分を、別の適切なモジュール(例えば、スコアリングモジュール46、PCA統計モジュール33、プロファイル生成モジュール26など)へと提示することが多い。
主成分分析
一部の実施形態では、読取り密度プロファイル(例えば、試験試料の読取り密度プロファイル)を、主成分分析(PCA:pricipal component analysis)に従って調整する。1もしくは複数の参照試料の読取り密度プロファイルおよび/または試験対象の読取り密度プロファイルは、PCAに従って調整することができる。本明細書では、場合によって、PCA関連処理を介する、読取り密度プロファイルからの偏りの除去を、プロファイルの調整と称する。PCAは、適切なPCA法またはその変化形により実施することができる。PCA法の非限定的な例は、カノニカル相関分析(CCA)、KL(Karhunen-Loeve)変換(KLT)、ホテリング変換、固有直交分解(POD)、Xの特異値分解(SVD)、XTXの固有値分解(EVD)、因子分析、エッカートヤングの定理、シュミットミルスキーの定理、経験的直交関数(EOF)、経験的固有関数分解、経験的成分分析、準調和モード、スペクトル分解、経験的モード分析など、これらの変化形または組合せを含む。PCAにより、読取り密度プロファイル中の1つまたは複数の偏りを識別することが多い。本明細書では、場合によって、PCAにより識別された偏りを、主成分と称する。一部の実施形態では、適切な方法を使用して、1つまたは複数の主成分に従って読取り密度プロファイルを調整することにより、1つまたは複数の偏りを除外することができる。読取り密度プロファイルは、読取り密度プロファイルに1つまたは複数の主成分を加算すること、読取り密度プロファイルから1つまたは複数の主成分を減算すること、読取り密度プロファイルに1つまたは複数の主成分を乗算すること、および/または読取り密度プロファイルを1つまたは複数の主成分で除算することにより調整することができる。一部の実施形態では、1つまたは複数の主成分を、読取り密度プロファイルから減算することにより、1つまたは複数の偏りを、読取り密度プロファイルから除外することができる。読取り密度プロファイル中の偏りは、プロファイルのPCAにより識別および/または定量化されることが多いが、主成分は、読取り密度のレベルでプロファイルから減算されることが多い。PCAにより、1つまたは複数の主成分を識別することが多い。一部の実施形態では、PCAにより、第1、第2、第3、第4、第5、第6、第7、第8、第9、および第10、またはそれ超の順位の主成分を識別する。ある特定の実施形態では、1、2、3、4、5、6、7、8、9、10またはそれ超の主成分を使用して、プロファイルを調整する。主成分は、PCA中のそれらの出現の順序でプロファイルを調整するのに使用することが多い。例えば、3つの主成分を、読取り密度プロファイルから減算する場合、第1、第2、および第3の主成分を使用する。場合によって、主成分により識別される偏りは、プロファイルの特徴であって、プロファイルを調整するのに使用されない特徴を含む。例えば、PCAにより、主成分としての遺伝子の変動(例えば、異数性、微小重複、微小欠失、欠失、転位、挿入)および/または性差を識別する。したがって、一部の実施形態では、1つまたは複数の主成分は、プロファイルを調整するのに使用されない。例えば、場合によって、第1、第2、および第4の主成分を使用して、プロファイルを調整するが、ここで、第3の主成分は、プロファイルを調整するのに使用されない。主成分は、任意の適切な試料または参照基準を使用して、PCAから得ることができる。一部の実施形態では、主成分を、試験試料(例えば、試験対象)から得る。一部の実施形態では、主成分を、1つまたは複数の参照基準(例えば、参照試料、参照配列、参照セット)から得る。ある特定の場合には、PCAは、第1の主成分および第2の主成分の識別を結果としてもたらす複数の試料を含むトレーニングセットから得られる中央値読取り密度プロファイルに対して実施される。一部の実施形態では、主成分を、問題の遺伝子の変動を欠くことが既知である対象のセットから得る。一部の実施形態では、主成分を、公知の正倍数体のセットから得る。主成分は、参照基準の1つまたは複数の読取り密度プロファイル(例えば、トレーニングセット)を使用して実施されるPCAに従って識別することが多い。参照基準から得られる1つまたは複数の主成分を、試験対象の読取り密度プロファイルから減じ、これにより、調整プロファイルを提示することが多い。
一部の実施形態では、システムは、PCA統計モジュール33を含む。PCA統計モジュールにより、読取り密度プロファイルを、別の適切なモジュール(例えば、プロファイル生成モジュール26)から受容するおよび/または回収することができる。PCAは、PCA統計モジュールにより実施することが多い。PCA統計モジュールにより、読取り密度プロファイルを受容、回収、および/または保存し、読取り密度プロファイルを、参照セット32、トレーニングセット30、および/または1もしくは複数の試験対象28から加工することが多い。PCA統計モジュールにより、主成分を生成および/もしくは提示し、かつ/または1つまたは複数の主成分に従って、読取り密度プロファイルを調整することができる。調整された読取り密度プロファイル(例えば、40、38)は、PCA統計モジュールによりもたらされることが多い。PCA統計モジュールにより、調整された読取り密度プロファイル(例えば、38、40)を、別の適切なモジュール(例えば、部分重み付けモジュール42、スコアリングモジュール46)へと提示および/または転送することができる。一部の実施形態では、PCA統計モジュールにより、性別判定36を提示することができる。性別判定は、場合によって、PCAに従って、かつ/または1もしくは複数の主成分に従って決定された、胎仔の性別の決定である。一部の実施形態では、PCA統計モジュールは、下記に示されるRコードの一部、全部、または1つの修飾を含む。主成分を計算するためのRコードは一般に、データのクリーニング(例えば、中央値を減算すること、部分をフィルタリングすること、および極値をトリミングすること)で始まる。
#PCAのために、データの外れ値をクリーニングする
dclean <- (dat - m)[mask,]

for (j in 1:ncol(dclean))
{
q <- quantile(dclean[,j],c(.25,.75))
qmin <- q[1] - 4*(q[2]-q[1])
qmax <- q[2] + 4*(q[2]-q[1])
dclean[dclean[,j] < qmin,j] <- qmin
dclean[dclean[,j] > qmax,j] <- qmax
}
次いで、主成分を計算する。
#主成分を計算する
pc <- prcomp(dclean)$x
最後に、各試料のPCA調整プロファイルは、
#残差を計算する
mm <- model.matrix(~pc[,1:numpc])
for (j in 1:ncol(dclean))
dclean[,j] <- dclean[,j] - predict(lm(dclean[,j]~mm))
で計算することができる。
プロファイルの比較
一部の実施形態では、アウトカムの決定は、比較を含む。ある特定の実施形態では、読取り密度プロファイルまたはその部分を活用して、アウトカムを提示する。一部の実施形態では、アウトカムの決定(例えば、遺伝子の変動の存在または非存在の決定)は、2つまたはそれ超の読取り密度プロファイルの比較を含む。読取り密度プロファイルの比較は、選択されたゲノムのセグメントについてなされた読取り密度プロファイルの比較を含むことが多い。例えば、試験プロファイルは、参照プロファイルと比較することが多く、試験プロファイルおよび参照プロファイルを、実質的に同じセグメントであるゲノムのセグメント(例えば、参照ゲノム)について決定された。読取り密度プロファイルの比較は、場合によって、読取り密度プロファイルの部分の2つまたはそれ超のサブセットの比較を含む。読取り密度プロファイルの部分のサブセットは、ゲノムのセグメント(例えば、染色体またはそのセグメント)を表しうる。読取り密度プロファイルは、部分の任意の量のサブセットを含みうる。場合によって、読取り密度プロファイルは、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、または5つもしくはそれ超のサブセットを含む。ある特定の実施形態では、読取り密度プロファイルは、部分の2つのサブセットを含み、ここで、各部分は、隣接する参照ゲノムのセグメントを表示する。一部の実施形態では、試験プロファイルを、参照プロファイルと比較することができ、ここで、試験プロファイルおよび参照プロファイルはいずれも、部分の第1のサブセットおよび部分の第2のサブセットを含み、ここで、第1のサブセットおよび第2のサブセットは、ゲノムの異なるセグメントを表示する。読取り密度プロファイルの部分のあるサブセットは、遺伝子の変動を含むことが可能であり、他の部分のサブセットは、場合によって、遺伝子の変動を実質的に含まない。場合によって、プロファイル(例えば、試験プロファイル)の部分の全てのサブセットは、遺伝子の変動を実質的に含まない。場合によって、プロファイル(例えば、試験プロファイル)の部分の全てのサブセットは、遺伝子の変動を含む。一部の実施形態では、試験プロファイルは、遺伝子の変動を含む部分の第1のサブセット、および遺伝子の変動を実質的に含まない部分の第2のサブセットを含みうる。
一部の実施形態では、本明細書で記載される方法は、比較(例えば、試験プロファイルを参照プロファイルと比較すること)をあらかじめ形成することを含む。適切な方法により、2つもしくはそれ超のデータセット、2つもしくはそれ超の関係、および/または2つもしくはそれ超のプロファイルについて比較することができる。データセット、関係、および/またはプロファイルの比較に適切な統計学的方法の非限定的な例は、ベーレンスフィッシャー法、ブートストラップ法、独立の有意性検定を組み合わせるためのフィッシャー法、ネイマンピアソン検定、確認的データ分析、探索的データ分析、正確検定、F検定、Z検定、T検定、不確定性の尺度、帰無仮説、対立仮説(counternull)などの計算および/もしくは比較、カイ二乗検定、オムニバス検定、有意性(例えば、統計学的有意性)のレベルの計算および/もしくは比較、メタ分析、多変量分析、回帰、線形単回帰、頑健な線形回帰など、または前出の組合せを含む。ある特定の実施形態では、2つまたはそれ超のデータセット、関係、および/またはプロファイルの比較は、不確定性の尺度の決定および/または比較を含む。本明細書で使用される「不確定性の尺度」とは、有意性(例えば、統計学的有意性)の尺度、誤差の尺度、分散の尺度、信頼性の尺度など、またはこれらの組合せを指す。不確定性の尺度は、値(例えば、閾値)の場合もあり、値の範囲(例えば、区間、信頼区間、ベイズ信頼区間、閾値範囲)の場合もある。不確定性の尺度の非限定的な例は、p値、偏差の適切な尺度(例えば、標準偏差、シグマ、絶対偏差、平均絶対偏差など)、適切な誤差の尺度(例えば、標準誤差、二乗平均誤差、二乗平均平方根誤差など)、分散の適切な尺度、適切な標準スコア(例えば、標準偏差、累積百分率、百分位数同等物、Zスコア、Tスコア、Rスコア、標準的9段階法(スタナイン)、スタナインパーセントなど)など、またはこれらの組合せを含む。一部の実施形態では、有意性のレベルの決定は、不確定性の尺度(例えば、p値)を決定することを含む。ある特定の実施形態では、2つまたはそれ超のデータセット、関係、および/またはプロファイルは、複数の(例えば、2つまたはそれ超の)統計学的方法(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バッギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K近傍法、ロジスティック回帰および/またはLOESSスムージング)、ならびに/または任意の適切な数学的操作および/もしくは統計学的操作(例えば、本明細書では操作と称する)を活用することにより分析および/または比較することができる。
ある特定の実施形態では、2つまたはそれ超の読取り密度プロファイルの比較は、2つまたはそれ超の読取り密度プロファイルについての、不確定性の尺度の決定および/または比較を含む。場合によって、読取り密度プロファイルおよび/または関連する不確定性の尺度を比較して、データセットの数学的操作および/もしくは統計学的操作の解釈を容易とし、かつ/またはアウトカムを提示する。場合によって、試験対象について生成された読取り密度プロファイルは、1つまたは複数の参照基準(例えば、参照試料、参照対象など)について生成された読取り密度プロファイルと比較する。一部の実施形態では、アウトカムを、試験対象に由来する読取り密度プロファイルの、染色体、部分、またはこれらのセグメントについての参照基準に由来する読取り密度プロファイルとの比較により提示し、ここで、参照基準の読取り密度プロファイルは、遺伝子の変動を保有しないことが既知である、参照対象のセット(例えば、参照基準)から得る。一部の実施形態では、アウトカムを、試験対象に由来する読取り密度プロファイルの、染色体、部分、またはこれらのセグメントについての参照基準に由来する読取り密度プロファイルとの比較により提示し、ここで、参照基準の読取り密度プロファイルは、特異的遺伝子の変動(例えば、染色体の異数性、トリソミー、微小重複、微小欠失)を保有することが既知である、参照対象のセットから得られる。
ある特定の実施形態では、試験対象の読取り密度プロファイルは、遺伝子の変動の非存在を表示する所定の値と比較され、場合によって、遺伝子の変動が位置するゲノム位置に対応する1つまたは複数のゲノム位置(例えば、部分)において、所定の値から逸脱する。例えば、試験対象(例えば、遺伝子の変動と関連する医学的状態の危険性があるか、またはこれを患っている対象)では、読取り密度プロファイルは、試験対象が、問題の遺伝子の変動を含む場合の選択部分について、参照基準の読取り密度プロファイル(例えば、参照配列、参照対象、参照セット)から有意に異なることが期待される。試験対象の読取り密度プロファイルは、試験対象が、問題の遺伝子の変動を含まない場合の選択部分について、参照基準の読取り密度プロファイル(例えば、参照配列、参照対象、参照セット)と実質的に同じであることが多い。読取り密度プロファイルは、所定の閾値および/または閾値範囲と比較されることが多い。本明細書で使用される「閾値」という用語は、定性的データセットを使用して計算され、遺伝子の変動(例えば、コピー数の変動、異数性、染色体の異常、微小重複、微小欠失など)についての診断の限界として用いられる、任意の数を指す。ある特定の実施形態では、閾値は、本明細書で記載される方法により得られる結果により超えられ、対象は、遺伝子の変動(例えば、トリソミー)を有すると診断される。一部の実施形態では、閾値の値または閾値の値の範囲は、配列の読取りデータ(例えば、参照基準および/または対象に由来する)を、数学的および/または統計学的に操作することを介して計算されることが多い。遺伝子の変動の存在または非存在を指し示す所定の閾値または閾値の範囲は、遺伝子の変動の存在または非存在を決定するために有用なアウトカムをやはり提示しながらも、変化しうる。ある特定の実施形態では、正規化された読取り密度および/または正規化されたカウント数を含む読取り密度プロファイルを生成して、アウトカムの分類および/または提示を容易とする。アウトカムは、正規化されたカウント数を含む読取り密度プロファイルのプロットに基づき(例えば、このような読取り密度プロファイルのプロットを使用して)提示することができる。
一部の実施形態では、システムは、スコアリングモジュール46を含む。スコアリングモジュールは、読取り密度プロファイル(例えば、調整された、正規化された読取り密度プロファイル)を、別の適切なモジュール(例えば、プロファイル生成モジュール26、PCA統計モジュール33、部分重み付けモジュール42など)から受容、回収、および/または保存しうる。スコアリングモジュールは、2つまたはそれ超の読取り密度プロファイル(例えば、試験プロファイル、参照プロファイル、トレーニングセット、試験対象)を受容、回収、保存、および/または比較しうる。スコアリングモジュールにより、スコア(例えば、プロット、プロファイル統計、比較(例えば、2つまたはそれ超のプロファイルの間の差違)、Zスコア、不確定性の尺度、判定域、試料判定50(例えば、遺伝子の変動の存在または非存在の決定)、および/またはアウトカム)を提示しうることが多い。スコアリングモジュールにより、スコアを、末端使用者および/または別の適切なモジュール(例えば、ディスプレイ、プリンターなど)へと提示することができる。一部の実施形態では、スコアリングモジュールは、下記に示されるRコードであって、具体的な検定(例えば、第21染色体カウント数が大きいこと)のためのカイ二乗統計を計算するためのR関数を含むRコードの一部、全部、または1つの修飾を含む。
3つのパラメータは、
x=試料の読取りデータ(部分xの試料)
m=部分についての中央値
y=検定ベクター(例えば、第21染色体について真であることを除き、全ての部分について偽)
である。
getChisqP <- function(x,m,y)
{
ahigh <- apply(x[!y,],2,function(x) sum((x>m[!y])))
alow <- sum((!y))-ahigh
bhigh <- apply(x[y,],2,function(x) sum((x>m[y])))
blow <- sum(y)-bhigh
p <- sapply(1:length(ahigh), function(i) {
p <- chisq.test(matrix(c(ahigh[i],alow[i],bhigh[i],blow[i]),2))$p.value/2
if (ahigh[i]/alow[i] > bhigh[i]/blow[i]) p <- max(p,1-p)
else p <- min(p,1-p); p})

return(p)
回帰のハイブリッド正規化
一部の実施形態では、ハイブリッド正規化法を使用する。一部の実施形態では、ハイブリッド正規化法により、偏り(例えば、GCの偏り)を低減する。一部の実施形態では、ハイブリッド正規化は、(i)2つの変数(例えば、カウント数およびGC含有量)の関係についての分析と、(ii)分析に従った正規化法の選択および適用とを含む。ある特定の実施形態では、ハイブリッド正規化は、(i)回帰(例えば、回帰分析)と、(ii)回帰に従った正規化法の選択および適用とを含む。一部の実施形態では、第1の試料について得られたカウント数(例えば、第1の試料セット)を、別の試料(例えば、第2の試料セット)から得られるカウント数とは異なる方法により正規化する。一部の実施形態では、第1の試料について得られたカウント数(例えば、第1の試料セット)を、第1の正規化法により正規化し、第2の試料(例えば、第2の試料セット)から得られるカウント数を、第2の正規化法により正規化する。例えば、ある特定の実施形態では、第1の正規化法は、線形回帰の使用を含み、第2の正規化法は、非線形回帰(例えば、LOESS、GC-LOESS、LOWESS回帰、LOESSスムージング)の使用を含む。
一部の実施形態では、ハイブリッド正規化法を使用して、ゲノムまたは染色体の部分へとマッピングした配列の読取り(例えば、カウント数、マッピングしたカウント数、マッピングした読取り)を正規化する。ある特定の実施形態では、生のカウント数を正規化し、一部の実施形態では、調整されるか、重み付けされるか、フィルタリングされるか、または既に正規化されたカウント数を、ハイブリッド正規化法により正規化する。ある特定の実施形態では、ゲノム区分のレベルまたはZスコアを、正規化する。一部の実施形態では、選択されたゲノム部分または染色体へとマッピングしたカウント数を、ハイブリッド正規化法により正規化する。カウント数は、ゲノムの部分へとマッピングした配列の読取りの適切な尺度であって、その非限定的な例が、生のカウント数(例えば、加工されていないカウント数)、正規化されたカウント数(例えば、ChAI、または適切な方法により正規化された)、部分レベル(例えば、平均値レベル、平均レベル、中央値レベルなど)、Zスコアなど、またはこれらの組合せを含む尺度を指す場合がある。カウント数は、1つまたは複数の試料(例えば、試験試料、妊娠中の雌からの試料)に由来する生のカウント数の場合もあり、加工されたカウント数の場合もある。一部の実施形態では、カウント数を、1つまたは複数の対象から得られる1つまたは複数の試料から得る。
一部の実施形態では、正規化法(例えば、正規化法の種類)を、回帰(例えば、回帰分析)および/または相関係数に従って選択する。回帰分析とは、変数(例えば、カウント数およびGC含有量)間の関係を推定するための統計学的技法を指す。一部の実施形態では、回帰を、参照ゲノムの複数の部分のうちの各部分についてのGC含有量のカウント数および尺度に従って生成する。GC含有量の適切な尺度であって、その非限定的な例が、グアニン含有量、シトシン含有量、アデニン含有量、チミン含有量、プリン(GC)含有量、またはピリミジン(ATまたはATU)含有量の尺度、融解温度(T)(例えば、変性温度、アニーリング温度、ハイブリダイゼーション温度)、自由エネルギーの尺度など、またはこれらの組合せを含む尺度を使用することができる。グアニン(G)含有量、シトシン(C)含有量、アデニン(A)含有量、チミン(T)含有量、プリン(GC)含有量、またはピリミジン(ATまたはATU)含有量の尺度は、比または百分率として表すことができる。一部の実施形態では、任意の適する比または百分率であって、その非限定的な例が、GC/AT、GC/全ヌクレオチド、GC/A、GC/T、AT/全ヌクレオチド、AT/GC、AT/G、AT/C、G/A、C/A、G/T、G/A、G/AT、C/Tなど、またはこれらの組合せを含む比または百分率を使用する。一部の実施形態では、GC含有量の尺度は、GC含有量の、全ヌクレオチド含有量に対する比または百分率である。一部の実施形態では、GC含有量の尺度は、参照ゲノムの部分へとマッピングした配列の読取りについての、GC含有量の、全ヌクレオチド含有量に対する比または百分率である。ある特定の実施形態では、GC含有量は、各参照ゲノム部分へとマッピングした配列の読取りに従って、かつ/または各参照ゲノム部分へとマッピングした配列の読取りから決定し、配列の読取りは、試料(例えば、妊娠中の雌から得られた試料)から得る。一部の実施形態では、GC含有量の尺度は、配列の読取りに従って、かつ/または配列の読取りから決定されない。ある特定の実施形態では、GC含有量の尺度を、1つまたは複数の対象から得られる1つまたは複数の試料について決定する。
一部の実施形態では、回帰を生成することは、回帰分析または相関分析を生成することを含む。その非限定的な例が、回帰分析、(例えば、線形回帰分析)、適合の良さについての分析、ピアソン相関分析、ランク相関、説明されていない分散の割合、NS(Nash-Sutcliffe)モデルによる効率解析、回帰モデルの妥当性の確認、PRL(proportional reduction in loss)、二乗平均平方根偏差など、またはこれらの組合せを含む、適切な回帰を使用することができる。一部の実施形態では、回帰直線を生成する。ある特定の実施形態では、回帰を生成することは、線形回帰を生成することを含む。ある特定の実施形態では、回帰を生成することは、非線形回帰(例えば、LOESS回帰、LOWESS回帰)を生成することを含む。
一部の実施形態では、回帰により、例えば、GC含有量のカウント数および尺度の間の相関(例えば、線形相関)の存在または非存在を決定する。一部の実施形態では、回帰(例えば、線形回帰)を生成し、相関係数を決定する。一部の実施形態では、その非限定的な例が、決定係数、R値、ピアソン相関係数などを含む、適切な相関係数を決定する。
一部の実施形態では、適合の良さを、回帰(例えば、回帰分析、線形回帰)について決定する。適合の良さは、場合によって、目視分析または数学的分析により決定する。評価は、場合によって、適合の良さが、非線形回帰で大きいのか、線形回帰で大きいのかについて決定することを含む。一部の実施形態では、相関係数は、適合の良さの尺度である。一部の実施形態では、回帰についての適合の良さの評価を、相関係数および/または相関係数のカットオフ値に従って決定する。一部の実施形態では、適合の良さの評価は、相関係数と相関係数のカットオフ値との比較を含む。一部の実施形態では、回帰についての適合の良さの評価は、線形回帰を指し示す。例えば、ある特定の実施形態では、適合の良さは、非線形回帰についてより、線形回帰について大きく、適合の良さの評価は、線形回帰を指し示す。一部の実施形態では、評価は、線形回帰を指し示し、線形回帰を使用して、カウント数を正規化する。一部の実施形態では、回帰についての適合の良さの評価は、非線形回帰を指し示す。例えば、ある特定の実施形態では、適合の良さは、線形回帰についてより、非線形回帰について大きく、適合の良さの評価は、非線形回帰を指し示す。一部の実施形態では、評価は、非線形回帰を指し示し、非線形回帰を使用して、カウント数を正規化する。
一部の実施形態では、適合の良さの評価は、相関係数が、相関係数カットオフに等しいかまたはそれ超の場合に線形回帰を指し示す。一部の実施形態では、適合の良さの評価は、相関係数が相関係数カットオフ未満である場合に非線形回帰を指し示す。一部の実施形態では、相関係数カットオフは、所定のカットオフである。一部の実施形態では、相関係数カットオフは、約0.5もしくはそれ超、約0.55もしくはそれ超、約0.6もしくはそれ超、約0.65もしくはそれ超、約0.7もしくはそれ超、約0.75もしくはそれ超、約0.8もしくはそれ超、または約0.85もしくはそれ超である。
例えば、ある特定の実施形態では、相関係数が、約0.6に等しいかまたはそれ超の場合に、線形回帰を含む正規化法を使用する。ある特定の実施形態では、相関係数が、0.6の相関係数カットオフに等しいかまたはそれ超の場合は、試料(例えば、参照ゲノム部分1つ当たりのカウント数、部分1つ当たりのカウント数)のカウント数を、線形回帰に従って正規化し、そうでない場合は、カウント数を、非線形回帰に従って正規化する(例えば、係数が、0.6の相関係数カットオフ未満である場合)。一部の実施形態では、正規化処理は、参照ゲノムの複数の部分のうちの各部分に対する(i)カウント数および(ii)GC含有量について線形回帰または非線形回帰を生成することを含む。ある特定の実施形態では、相関係数が、0.6の相関係数カットオフ未満である場合に、非線形回帰(例えば、LOWESS、LOESS)を含む正規化法を使用する。一部の実施形態では、相関係数(例えば、相関係数)が約0.7、約0.65未満、約0.6未満、約0.55未満、または約0.5未満の相関係数カットオフ未満である場合に、非線形回帰(例えば、LOWESS)を含む正規化法を使用する。例えば、一部の実施形態では、相関係数が約0.6の相関係数カットオフ未満である場合に、非線形回帰(例えば、LOWESS、LOESS)を含む正規化法を使用する。
一部の実施形態では、回帰の具体的な種類(例えば、線形または非線形回帰)を選択し、回帰を生成した後で、回帰をカウント数から減算することにより、カウント数を正規化する。一部の実施形態では、回帰をカウント数から減算することにより、偏り(例えば、GCの偏り)の低減された、正規化されたカウント数を提示する。一部の実施形態では、線形回帰をカウント数から減算する。一部の実施形態では、非線形回帰(例えば、LOESS、GC-LOESS、LOWESS回帰)をカウント数から減算する。任意の適切な方法を使用して、回帰直線をカウント数から減算することができる。例えば、カウント数xを、0.5のGC含有量を含む部分i(例えば、部分i)から導出し、回帰直線により、0.5のGC含有量でのカウント数yを決定し、よって、x-y=部分iについての正規化されたカウント数である。一部の実施形態では、回帰を減算する前に、かつ/または回帰を減算した後で、カウント数を正規化する。一部の実施形態では、ハイブリッド正規化法により正規化されたカウント数を使用して、ゲノム区分のレベル、Zコア、ゲノムまたはそのセグメントのレベルおよび/またはプロファイルを生成する。ある特定の実施形態では、ハイブリッド正規化法により正規化されたカウント数を、本明細書で記載される方法により分析して、遺伝子の変動(例えば、胎仔における)の存在または非存在を決定する。
一部の実施形態では、ハイブリッド正規化法は、正規化の前または後における、1つまたは複数の部分をフィルタリングすることまたは重み付けすることを含む。本明細書で記載される部分(例えば、参照ゲノム部分)のフィルタリング法を含む、適切な部分のフィルタリング法を使用することができる。一部の実施形態では、部分(例えば、参照ゲノム部分)は、ハイブリッド正規化法を適用する前にフィルタリングする。一部の実施形態では、選択部分(例えば、カウント数の可変性に従って選択された部分)へとマッピングした配列決定読取りのカウント数だけを、ハイブリッド正規化により正規化する。一部の実施形態では、ハイブリッド正規化法を活用する前に、フィルタリングされた参照ゲノム部分(例えば、カウント数の可変性に従ってフィルタリングされた部分)へとマッピングした配列決定読取りのカウント数を除外する。一部の実施形態では、ハイブリッド正規化法は、適切な方法(例えば、本明細書で記載される方法)に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、複数の試験試料について部分の各々へとマッピングしたカウント数についての不確定値に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、カウント数の可変性に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、GC含有量、反復エレメント、反復配列、イントロン、エクソンなど、またはこれらの組合せに従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。
例えば、一部の実施形態では、複数の妊娠中の雌対象に由来する複数の試料を分析し、部分(例えば、参照ゲノム部分)のサブセットを、カウント数の可変性に従って選択する。ある特定の実施形態では、線形回帰を使用して、(i)カウント数および(ii)GC含有量についての相関係数を、妊娠中の雌対象から得られた試料についての選択部分の各々について決定する。一部の実施形態では、所定の相関カットオフ値(例えば、約0.6の相関カットオフ値)を超える相関係数を決定し、適合の良さの評価により、線形回帰を指し示し、線形回帰をカウント数から減算することによりカウント数を正規化する。ある特定の実施形態では、所定の相関カットオフ値(例えば、約0.6の相関カットオフ値)未満の相関係数を決定し、適合の良さの評価により、非線形回帰を指し示し、LOESS回帰を生成し、LOESS回帰をカウント数から減算することによりカウント数を正規化する。
プロファイル
一部の実施形態では、加工するステップは、データセットまたはその派生形の多様な側面(例えば、当技術分野で公知であり、かつ/または本明細書で記載される、1つまたは複数の数学的データ加工ステップおよび/または統計学的データ加工ステップの成果)からの、1つまたは複数のプロファイルの生成(例えば、プロファイルのプロット)を含みうる。
本明細書で使用される「プロファイル」という用語は、大量のデータ中のパターンおよび/または相関の識別を容易としうるデータに対する数学的操作および/または統計学的操作の成果を指す。「プロファイル」は、データまたはデータセットに対する、1つまたは複数の参照基準に基づく、1つまたは複数の操作から結果として得られる値を含むことが多い。プロファイルは、複数のデータ点を含むことが多い。データセットの性格および/または複雑性に応じて、任意の適切な数のデータ点を、プロファイルに組み入れることができる。ある特定の実施形態では、プロファイルには、2つまたはそれ超のデータ点、3つもしくはそれ超のデータ点、5つもしくはそれ超のデータ点、10もしくはそれ超のデータ点、24もしくはそれ超のデータ点、25もしくはそれ超のデータ点、50もしくはそれ超のデータ点、100もしくはそれ超のデータ点、500もしくはそれ超のデータ点、1000もしくはそれ超のデータ点、5000もしくはそれ超のデータ点、10,000もしくはそれ超のデータ点、または100,000もしくはそれ超のデータ点を組み入れることができる。
一部の実施形態では、プロファイルは、データセットの全体を表示し、ある特定の実施形態では、プロファイルは、データセットの一部またはサブセットを表示する。すなわち、プロファイルは、ある場合には、いかなるデータも除外するようにフィルタリングされていないデータを表示するデータ点を含むかまたはこれらから生成されており、プロファイルは、ある場合には、望ましくないデータを除外するようにフィルタリングされたデータを表示するデータ点を含むかまたはこれらから生成されている。一部の実施形態では、プロファイル中のデータ点は、部分についてのデータ操作の結果を表示する。ある特定の実施形態では、プロファイル中のデータ点は、部分の群についてのデータ操作の結果を含む。一部の実施形態では、部分の群は、互いと隣接することが可能であり、ある特定の実施形態では、部分の群は、染色体またはゲノムの異なる部分に由来しうる。
データセットから導出されたプロファイル中のデータ点は、任意の適切なデータの類別を表示しうる。プロファイルデータ点を生成するようにデータを群分けしうる部類の非限定的な例は、サイズに基づく部分、配列特徴(例えば、GC含有量、AT含有量、染色体上の地点(例えば、短腕部、長腕部、セントロメア、テロメア)など)に基づく部分、発現のレベル、染色体など、またはこれらの組合せを含む。一部の実施形態では、プロファイルは、別のプロファイルから得られるデータ点から生成することができる(例えば、再正規化データプロファイルを生成するように、異なる正規化値に従って再正規化された正規化データプロファイル)。ある特定の実施形態では、別のプロファイルから得られるデータ点から生成されたプロファイルにより、データ点の数および/またはデータセットの複雑性を低減する。データ点の数および/またはデータセットの複雑性の低減により、データの解釈が容易となり、かつ/またはアウトカムの提示が容易となることが多い。
プロファイル(例えば、ゲノムプロファイル、染色体プロファイル、染色体のセグメントのプロファイル)は、2つまたはそれ超の部分の正規化されたカウント数または正規化されていないカウント数のコレクションであることが多い。プロファイルは、少なくとも1つのレベル(例えば、ゲノム区分のレベル)を含むことが多く、2つまたはそれ超のレベルを含むことが多い(例えば、プロファイルは、複数のレベルを有することが多い)。レベルは一般に、ほぼ同じカウント数または正規化されたカウント数を有する部分のセットについてのレベルである。レベルについては、本明細書でより詳細に記載される。ある特定の実施形態では、プロファイルは、1つまたは複数の部分であって、重み付けするか、除外するか、フィルタリングするか、正規化するか、調整するか、平均するか、平均として導出するか、加算するか、減算するか、加工するか、またはこれらの任意の組合せにより変換しうる部分を含む。プロファイルは、2つまたはそれ超のレベルを規定する部分へとマッピングした正規化されたカウント数を含むことが多く、ここで、カウント数は、適切な方法により、レベルのうちの1つに従ってさらに正規化される。プロファイル(例えば、プロファイルレベル)のカウント数は、不確定値と関連することが多い。
1つまたは複数のレベルを含むプロファイルは、場合によって、穴埋め(例えば、ホールの穴埋め)される。穴埋め(例えば、ホールの穴埋め)とは、母体の微小欠失または母体の重複(例えば、コピー数の変動)に起因するプロファイル中のレベルを識別および調整する処理を指す。一部の実施形態では、胎仔の微小重複または胎仔の微小欠失に起因するレベルを穴埋めする。一部の実施形態では、プロファイル中の微小重複または微小欠失により、プロファイル(例えば、染色体プロファイル)の全体的なレベルを人工的に上昇または低下させ、染色体の異数性(例えば、トリソミー)についての、偽陽性または偽陰性の決定をもたらすことができる。一部の実施形態では、微小重複および/または欠失に起因するプロファイル中のレベルを識別し、場合によって、穴埋めまたはホールの穴埋めと称する処理により調整する(例えば、穴埋めおよび/または除外する)。ある特定の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、1つまたは複数の第1のレベルの各々は、母体のコピー数の変動、胎仔のコピー数の変動、または母体のコピー数の変動および胎仔のコピー数の変動を含み、第1のレベルのうちの1または複数を調整する。
1つまたは複数のレベルを含むプロファイルは、第1のレベルおよび第2のレベルを含みうる。一部の実施形態では、第1のレベルは、第2のレベルと異なる(例えば、有意に異なる)。一部の実施形態では、第1のレベルは、第1の部分のセットを含み、第2のレベルは、第2の部分のセットを含み、第1の部分のセットは、第2の部分のセットのサブセットではない。ある特定の実施形態では、第1の部分のセットは、第2の部分のセットと異なり、これらから第1のレベルおよび第2のレベルが決定される。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと異なる(例えば、有意に異なる、例えば、有意に異なる値を有する)複数の第1のレベルを有しうる。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、第1のレベルのうちの1または複数を調整する。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、1つまたは複数の第1のレベルの各々は、母体のコピー数の変動、胎仔のコピー数の変動、または母体のコピー数の変動および胎仔のコピー数の変動を含み、第1のレベルのうちの1または複数を調整する。一部の実施形態では、プロファイル中の第1のレベルを、プロファイルから除外するかまたは調整する(例えば、穴埋めする)。プロファイルは、1つまたは複数の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含む複数のレベルを含むことが可能であり、プロファイル中のレベルの大半は、互いとほぼ等しい第2のレベルであることが多い。一部の実施形態では、プロファイル中のレベルのうちの50%超、60%超、70%超、80%超、90%超または95%超は、第2のレベルである。
プロファイルは、場合によって、プロットとして示される。例えば、部分のカウント数(例えば、正規化されたカウント数)を表示する1つまたは複数のレベルは、プロットし、視覚化することができる。生成されうるプロファイルのプロットの非限定的な例は、生のカウント数(例えば、生のカウント数プロファイルまたは生のプロファイル)、正規化されたカウント数、重み付けられた部分、zスコア、p値、適合させた倍数性と対比した面積比、適合させた胎仔フラクションと測定胎仔フラクションとの比と対比した中央値レベル、主成分など、またはこれらの組合せを含む。一部の実施形態では、プロファイルのプロットにより、操作データの視覚化が可能となる。ある特定の実施形態では、プロファイルのプロットを活用して、アウトカム(例えば、適合させた倍数性と対比した面積比、適合させた胎仔フラクションと測定胎仔フラクションとの間の比と対比した中央値レベル、主成分)を提示することができる。本明細書で使用される「生のカウント数プロファイルのプロット」または「生のプロファイルのプロット」という用語は、領域中の全カウント数に正規化された、領域中の各部分(例えば、ゲノム、部分、染色体、参照ゲノムの染色体部分、または染色体のセグメント)中のカウント数のプロットを指す。一部の実施形態では、プロファイルは、スタティックウィンドウ処理を使用して生成することができ、ある特定の実施形態では、プロファイルは、スライディングウィンドウ処理を使用して生成することができる。
試験対象について生成されたプロファイルは、場合によって、1つまたは複数の参照対象について生成されたプロファイルと比較して、データセットの数学的操作および/もしくは統計学的操作の解釈を容易とし、かつ/またはアウトカムを提示する。一部の実施形態では、プロファイルは、1つまたは複数の出発仮定(例えば、母体の核酸寄与(例えば、母体のフラクション)、胎仔の核酸寄与(例えば、胎仔フラクション)、参照試料の倍数性など、またはこれらの組合せ)に基づき生成する。ある特定の実施形態では、試験プロファイルは、遺伝子の変動の非存在を表示する所定の値を中心とすることが多く、試験対象が遺伝子の変動を保有したとする場合に、試験対象において遺伝子の変動が位置するゲノム位置に対応するエリア中の所定の値からは逸脱することが多い。遺伝子の変動と関連する医学的状態の危険性があるか、またはこれを患っている試験対象では、選択部分についての数値が、罹患していないゲノム位置についての所定の値から有意に変化することが期待される。出発仮定(例えば、一定の倍数性もしくは最適化された倍数性、一定の胎仔フラクションもしくは最適化された胎仔フラクション、またはこれらの組合せ)に応じて、遺伝子の変動の存在または非存在を指し示す所定の閾値もしくはカットオフ値または閾値の範囲は、遺伝子の変動の存在または非存在を決定するために有用なアウトカムをやはり提示しながらも、変化しうる。一部の実施形態では、プロファイルは、表現型を指し示し、かつ/またはこれを表示する。
非限定的な例として述べると、正規化された試料および/または参照カウント数プロファイルは、(a)遺伝子の変動を保有しないことが既知である参照基準のセットから選択された、染色体、部分、またはこれらのセグメントについての、参照中央値カウント数を計算すること、(b)情報をもたらさない部分の、参照試料の生のカウント数からの除外(例えば、フィルタリング)、(c)残りの全ての参照ゲノム部分についての参照カウント数を、参照試料、選択された染色体、または選択されたゲノム位置についての、残りカウント数の総数(例えば、情報を与えない参照ゲノム部分を除外した後の残りのカウント数の合計)に正規化し、これにより、正規化された参照対象プロファイルを生成すること、(d)対応する部分を試験対象試料から除外すること、および(e)1つまたは複数の選択されたゲノム位置についての、残りの試験対象カウント数を、選択されたゲノム位置を含有する1つまたは複数の染色体についての、残りの参照中央値カウント数の合計に正規化し、これにより、正規化された試験対象プロファイルを生成することにより、生の配列の読取りデータから得ることができる。ある特定の実施形態では、(b)における部分のフィルタリングにより縮減された全ゲノムに関する、さらなる正規化ステップを、(c)と(d)との間に組み入れることができる。
データセットプロファイルは、カウントされたマッピングした配列の読取りデータに対する1つまたは複数の操作により生成することができる。一部の実施形態は、以下を含む:配列の読取りをマッピングし、各ゲノム部分へとマッピングされる配列タグの数を決定する(例えば、カウントする)。生のカウント数プロファイルを、カウントされたマッピングした配列の読取りから生成する。ある特定の実施形態では、試験対象に由来する生のカウント数プロファイルを、遺伝子の変動を保有しないことが既知である、参照対象のセットに由来する、染色体、部分、またはこれらのセグメントについての、参照中央値カウント数プロファイルと比較することにより、アウトカムを提示する。
一部の実施形態では、配列の読取りデータは、ノイズデータまたは情報をもたらさない部分を除外するように、任意選択でフィルタリングする。フィルタリングの後、残りのカウント数を足し合わせて、フィルタリングされたデータセットを生成することが典型的である。ある特定の実施形態では、フィルタリングされたカウント数プロファイルを、フィルタリングされたデータセットから生成する。
配列の読取りデータをカウントし、任意選択でフィルタリングした後で、データセットを正規化して、レベルまたはプロファイルを生成することができる。1つまたは複数の選択部分を、適切な正規化された参照値に正規化することにより、データセットを正規化することができる。一部の実施形態では、正規化された参照値は、部分が選択される1つまたは複数の染色体についての全カウント数を表示する。ある特定の実施形態では、正規化された参照値は、遺伝子の変動を保有しないことが既知である、参照対象のセットから調製された、参照データセットに由来する1つまたは複数の染色体の部分である、1つまたは複数の対応する部分を表示する。一部の実施形態では、正規化された参照値は、遺伝子の変動の存在または非存在について分析される試験対象から調製された、試験対象データセットに由来する、1つまたは複数の染色体の部分である、1つまたは複数の対応する部分を表示する。ある特定の実施形態では、正規化処理は、スタティックウィンドウ法を活用して実施し、一部の実施形態では、正規化処理は、ムービングウィンドウ法またはスライディングウィンドウ法を活用して実施する。ある特定の実施形態では、正規化されたカウント数を含むプロファイルを生成して、アウトカムの分類および/または提示を容易とする。アウトカムは、正規化されたカウント数を含むプロファイルのプロットに基づき(例えば、このようなプロファイルのプロットを使用して)提示することができる。
レベル
一部の実施形態では、値(例えば、数、定量的値)を、レベルに割り当てる。レベルは、適切な方法、演算、または数学的処理(例えば、加工されたレベル)により決定することができる。レベルは、部分のセットについてのカウント数(例えば、正規化されたカウント数)であるか、またはこれから導出されることが多い。一部の実施形態では、部分のレベルは、部分へとマッピングしたカウント数(例えば、カウント数、正規化されたカウント数)の総数と実質的に等しい。レベルは、当技術分野で公知の適切な方法、演算、または数学的処理により加工、変換、または操作されたカウント数から決定することが多い。一部の実施形態では、レベルは、加工されたカウント数から導出し、加工されたカウント数の非限定的な例は、重み付けされるか、除外されるか、フィルタリングされるか、正規化されるか、調整されるか、平均されるか、平均として導出される(例えば、平均レベル)か、加算されるか、減算されるか、変換されたカウント数、またはこれらの組合せを含む。一部の実施形態では、レベルは、正規化されたカウント数(例えば、部分の正規化されたカウント数)を含む。レベルは、適切な処理により正規化されたカウント数のためであり得、その非限定的例は、部分に関する正規化、GC含有量による正規化、中央値のカウント数による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS(例えば、GC LOESS)、LOWESS、ChAI、主成分による正規化、RM、GCRM、cQnなど、ならびに/またはこれらの組合せを含む。レベルは、正規化されたカウント数またはカウント数の相対量を含みうる。一部の実施形態では、レベルは、平均された、2つもしくはそれ超の部分のカウント数または正規化されたカウント数についてのレベルであり、レベルを、平均値レベルと称する。一部の実施形態では、レベルは、平均カウント数または正規化されたカウント数の平均を有する部分のセットについてのレベルであり、これを、平均レベルと称する。一部の実施形態では、レベルを、生のカウント数および/またはフィルタリングされたカウント数を含む部分について導出する。一部の実施形態では、レベルは、生のカウント数であるカウント数に基づく。一部の実施形態では、レベルは、不確定値(例えば、標準偏差、MAD)と関連する。一部の実施形態では、レベルを、Zスコアまたはp値により表示する。本明細書では、1つまたは複数の部分についてのレベルは、「ゲノム区分のレベル」と同義である。
本明細書では、1つまたは複数の部分についてのレベルは、「ゲノム区分のレベル」と同義である。本明細書で使用される用語「レベル」は、場合によって、用語「上昇」と同義である。用語「レベル」の意味の決定は、それが使用される文脈から決定することができる。例えば、ゲノム区分、プロファイル、読取り、および/またはカウント数の文脈で使用される場合の用語「レベル」は、上昇を意味することが多い。物質または組成物の文脈で使用される場合の用語「レベル」(例えば、RNAのレベル、プレクシングレベル)は、量を指すことが多い。不確実性(例えば、誤差のレベル、信頼性のレベル、偏差のレベル、不確実性のレベル)の文脈で使用される場合の用語「レベル」は、量を指すことが多い。
2つまたはそれ超のレベル(例えば、2つまたはそれ超のプロファイル中のレベル)についての正規化されたカウント数または正規化されていないカウント数は、場合によって、レベルに従って、数学的に操作する(例えば、これに加算する、これに乗算する、これを平均する、これを正規化するなど、またはこれらの組合せ)ことができる。例えば、2つまたはそれ超のレベルについての正規化されたカウント数または正規化されていないカウント数は、プロファイル中のレベルの1つ、一部、または全部に従って正規化することができる。一部の実施形態では、プロファイル中の全てのレベルについての正規化されたカウント数または正規化されていないカウント数を、プロファイル中の1つのレベルに従って正規化する。一部の実施形態では、プロファイル中の第1のレベルについての正規化されたカウント数または正規化されていないカウント数を、プロファイル中の第2のレベルについての正規化されたカウント数または正規化されていないカウント数に従って正規化する。
レベル(例えば、第1のレベル、第2のレベル)の非限定的な例は、加工されたカウント数を含む部分のセットについてのレベル、カウント数の平均、中央値、もしくは平均値を含む部分のセットについてのレベル、正規化されたカウント数を含む部分のセットについてのレベルなど、またはこれらの任意の組合せである。一部の実施形態では、第1のレベルおよびプロファイル中の第2のレベルは、同じ染色体へとマッピングした部分のカウント数から導出する。一部の実施形態では、プロファイル中の第1のレベルおよび第2のレベルは、異なる染色体へとマッピングした部分のカウント数から導出する。
一部の実施形態では、レベルを、1つまたは複数の部分へとマッピングした正規化されたカウント数または正規化されていないカウント数から決定する。一部の実施形態では、レベルを、2つまたはそれ超の部分へとマッピングした正規化されたカウント数または正規化されていないカウント数から決定するが、ここで、各部分の正規化されたカウント数は、ほぼ同じであることが多い。レベルについての部分のセット中のカウント数(例えば、正規化されたカウント数)には、ばらつきが見られる場合がある。レベルについての部分のセット内には、セットの他の部分内とは、カウント数が有意に異なる1つまたは複数の部分(例えば、ピークおよび/またはディップ)が見られる場合がある。任意の適切な数の部分と関連する、任意の適切な数の正規化されたカウント数または正規化されていないカウント数は、レベルを規定しうる。
一部の実施形態では、1つまたは複数のレベルは、ゲノムの部分の全部または一部の正規化されたカウント数または正規化されていないカウント数から決定することができる。レベルは、染色体またはそのセグメントの正規化されたカウント数または正規化されていないカウント数の全部または一部から決定しうることが多い。一部の実施形態では、2つまたはそれ超の部分(例えば、部分のセット)から導出された、2つまたはそれ超のカウント数により、レベルを決定する。一部の実施形態では、2つまたはそれ超のカウント数(例えば、2つまたはそれ超の部分に由来するカウント数)により、レベルを決定する。一部の実施形態では、2~約100,000の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、2~約50,000、2~約40,000、2~約30,000、2~約20,000、2~約10,000、2~約5000、2~約2500、2~約1250、2~約1000、2~約500、2~約250、2~約100、または2~約60の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、約10~約50の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、約20~約40またはそれ超の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、レベルは、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60またはそれ超の部分に由来するカウント数を含む。一部の実施形態では、レベルは、部分のセット(例えば、参照ゲノムの部分のセット、染色体の部分のセット、または染色体のセグメントの部分のセット)に対応する。
一部の実施形態では、レベルを、連続的な部分の正規化されたカウント数または正規化されていないカウント数について決定する。一部の実施形態では、連続的な部分(例えば、部分のセット)は、ゲノムの隣接セグメントまたは染色体もしくは遺伝子の隣接セグメントを表示する。例えば、2つまたはそれ超の連続的な部分は、部分を末端から末端へと統合することにより配列決定する場合、各部分より長いDNA配列の配列アセンブリーを表示する可能性がある。例えば、2つまたはそれ超の連続的な部分は、無傷ゲノム、染色体、遺伝子、イントロン、エクソン、またはそのセグメントを表示しうる。一部の実施形態では、レベルを、連続的な部分および/または非連続的な部分のコレクション(例えば、セット)から決定する。
アウトカム
本明細書で記載される方法により、試料についての、遺伝子の変動の存在または非存在の決定(例えば、胎仔の異数性)をもたらすことができ、これにより、アウトカムを提示する(例えば、これにより、遺伝子の変動(例えば、胎仔の異数性)の存在または非存在を決定するアウトカムを提示する)ことができる。遺伝子の変動は、遺伝子情報(例えば、染色体、染色体のセグメント、多型領域、転座領域、ヌクレオチド配列の変化など、または前出の組合せ)の獲得、喪失、および/または変化(例えば、重複、欠失、統合、挿入、突然変異、再構成、置換、またはメチル化の異常)であって、参照基準に対する、試験対象のゲノム情報または遺伝子情報の検出可能な変化を結果としてもたらす、遺伝子情報の獲得、喪失、および/または変化を含むことが多い。遺伝子の変動の存在または非存在は、部分へとマッピングした配列の読取り(例えば、カウント数、参照ゲノムのゲノムの部分のカウント数)を変換、分析、および/または操作することにより決定することができる。一部の実施形態では、アウトカムを決定することは、妊娠中の雌に由来する核酸を分析することを含む。ある特定の実施形態では、アウトカムを、妊娠中の雌から得られたカウント数(例えば、正規化されたカウント数)であって、妊娠中の雌から得られた核酸によるカウント数に従って決定する。
本明細書で記載される方法は、場合によって、胎仔を出産する妊娠中の雌からの試験試料について、胎仔の異数性の存在または非存在(例えば、完全な染色体異数性、部分的な染色体異数性、またはセグメント的な染色体異常(例えば、モザイク、欠失、および/または挿入))を決定する。ある特定の実施形態では、本明細書で記載される方法により、胎仔を出産する妊娠中の雌からの試料について、正倍数性または正倍数性の欠如(非正倍数性)を検出する。本明細書で記載される方法では、場合によって、1つもしくは複数の染色体(例えば、第13染色体、第18染色体、第21染色体またはこれらの組合せ)またはそのセグメントについて、トリソミーを検出する。
一部の実施形態では、遺伝子の変動(例えば、胎仔の異数性)の存在または非存在を、本明細書で記載される方法、当技術分野で公知の方法、またはこれらの組合せにより決定する。遺伝子の変動の存在または非存在は一般に、参照ゲノム部分へとマッピングした配列の読取りのカウント数から決定する。遺伝子の変動の存在または非存在を決定するのに活用される配列の読取りのカウント数は、場合によって、生のカウント数および/またはフィルタリングされたカウント数であり、正規化されたカウント数であることが多い。1つまたは複数の適切な正規化処理を使用して、その非限定的な例が、部分に関する正規化、GC含有量による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS、ChAI、RM、GCRM、およびこれらの組合せを含む、正規化されたカウント数を生成することができる。正規化されたカウント数は、場合によって、特定のセットまたは部分のセットについてのプロファイル中の1つまたは複数のレベルとして表される。正規化されたカウント数は、場合によって、遺伝子の変動の存在または非存在を決定する前に、調整または穴埋めされる。
一部の実施形態では、アウトカムを、1つまたは複数のレベルに従って決定する。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、1つまたは複数の調整されたレベルに従って決定する。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、1つ~約10,000の調整されたレベルを含むプロファイルに従って決定する。遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定は、約1つ~約1000、1つ~約900、1つ~約800、1つ~約700、1つ~約600、1つ~約500、1つ~約400、1つ~約300、1つ~約200、1つ~約100、1つ~約50、1つ~約25、1つ~約20、1つ~約15、1つ~約10、または1つ~約5つの調整を含むプロファイルに従って決定することが多い。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、約1つの調整(例えば、1つの調整されたレベル)を含むプロファイルに従って決定する。一部の実施形態では、アウトカムを、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、または、場合によって、10もしくはそれ超の調整を含む、1つまたは複数のプロファイル(例えば、染色体またはそのセグメントのプロファイル)に従って決定する。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、プロファイルに従って決定するが、ここで、プロファイル中の一部のレベルは調整しない。一部の実施形態では、遺伝子の変動(例えば、染色体異数性)の存在または非存在の決定を、プロファイルに従って決定するが、ここで、調整は施さない。
一部の実施形態では、プロファイル中のレベル(例えば、第1のレベル)の調整により、偽決定または偽アウトカムを低減する。一部の実施形態では、プロファイル中のレベル(例えば、第1のレベル)の調整により、偽決定または偽アウトカムの頻度および/または確率(例えば、統計学的確率、尤度)を低減する。偽決定または偽アウトカムは、正確ではない決定またはアウトカムでありうる。偽決定または偽アウトカムは、対象(例えば、妊娠中の雌、胎仔、および/またはこれらの組合せ)の、実際の遺伝子構成もしくは真の遺伝子構成または実際の遺伝的素質もしくは真の遺伝的素質(例えば、遺伝子の変動の存在または非存在)を反映しない決定またはアウトカムでありうる。一部の実施形態では、偽決定または偽アウトカムは、偽陰性決定である。一部の実施形態では、陰性決定または陰性アウトカムとは、遺伝子の変動(例えば、異数性、コピー数の変動)の非存在である。一部の実施形態では、偽決定または偽アウトカムは、偽陽性決定または偽陽性アウトカムである。一部の実施形態では、陽性決定または陽性アウトカムとは、遺伝子の変動(例えば、異数性、コピー数の変動)の存在である。一部の実施形態では、決定またはアウトカムを診断で活用する。一部の実施形態では、決定またはアウトカムは、胎仔についての決定またはアウトカムである。
遺伝子の変動(例えば、胎仔の異数性)の存在または非存在は、場合によって、部分のセットについてのカウント数を参照基準と比較せずに決定する。本明細書では、試験試料について測定されたカウント数であり、試験領域(例えば、目的の部分のセット)中のカウント数を、「試験カウント数」と称する。試験カウント数は、場合によって、本明細書で記載される、加工されたカウント数、平均されたカウント数もしくは合計されたカウント数、表示、正規化されたカウント数、または1つもしくは複数のレベルである。ある特定の実施形態では、部分のセットについて、試験カウント数を平均または合計し(例えば、平均値、平均、中央値、モード、または合計を計算し)、平均されたカウント数または合計されたカウント数を、閾値または範囲と比較する。試験カウント数は、場合によって、第1の部分のセットについてのカウント数の、第2の部分のセットについてのカウント数に対する比または百分率として表されうる、表示として表される。ある特定の実施形態では、第1の部分のセットは、1つまたは複数の試験染色体(例えば、第13染色体、第18染色体、第21染色体、またはこれらの組合せ)についてのセットであり、場合によって、第2の部分のセットは、ゲノムまたはゲノムの部分(例えば、常染色体または常染色体および性染色体)についてのセットである。ある特定の実施形態では、表示を、閾値または範囲と比較する。ある特定の実施形態では、試験カウント数を、部分のセットにわたり正規化されたカウント数についての1つまたは複数のレベルとして表し、1つまたは複数のレベルを、閾値または範囲と比較する。特定の閾値を上回るかまたは下回り、場合によって、特定の範囲内または特定の範囲外にある、試験カウント数(例えば、平均されたカウント数または合計されたカウント数、表示、正規化されたカウント数、1つまたは複数のレベル)により、遺伝子の変動の存在または正倍数性の欠如(例えば、非正倍数性)を決定する。特定の閾値を上回るかまたは下回り、場合によって、特定の範囲内または特定の範囲外にある、試験カウント数(例えば、平均されたカウント数または合計されたカウント数、表示、正規化されたカウント数、1つまたは複数のレベル)により、遺伝子の変動または正倍数性の非存在を決定する。
遺伝子の変動(例えば、胎仔の異数性)の存在または非存在は、場合によって、その非限定的な例が、試験カウント数、参照カウント数、生のカウント数、フィルタリングされたカウント数、平均されたカウント数または合計されたカウント数、表示(例えば、染色体表示)、正規化されたカウント数、1つまたは複数のレベル(例えば、部分のセットについて、例えば、ゲノム区分のレベル、プロファイル)、Zスコアなど、またはこれらの組合せを含む、カウント数を比較することにより決定する。一部の実施形態では、試験カウント数を、参照基準(例えば、参照カウント数)と比較する。参照基準(例えば、参照カウント数)は、その非限定的な例が、生のカウント数、フィルタリングされたカウント数、平均されたカウント数または合計されたカウント数、表示(例えば、染色体表示)、正規化されたカウント数、1つまたは複数のレベル(例えば、部分のセットについて、例えば、ゲノム区分のレベル、プロファイル)、Zスコアなど、またはこれらの組合せを含む、カウント数の適切な決定でありうる。参照カウント数は、正倍数性の試験領域についてのカウント数または正倍数性であるゲノムのセグメントもしくは染色体によるカウント数であることが多い。一部の実施形態では、参照カウント数および試験カウント数を、同じ試料および/または同じ対象から得る。一部の実施形態では、参照カウント数は、異なる試料および/または異なる対象による。一部の実施形態では、参照カウント数は、試験カウント数を導出および/または決定する、対応するゲノムのセグメントから決定し、かつ/またはそれと比較する。対応するセグメントとは、参照ゲノムの同じ位置へとマッピングされる、セグメント、部分、または部分のセットを指す。一部の実施形態では、参照カウント数は、試験カウント数を導出および/または決定する、異なるゲノムのセグメントから決定し、かつ/またはそれと比較する。
ある特定の実施形態では、試験カウント数は、場合によって、第1の部分のセットについてのカウント数であり、参照基準は、第1の部分のセットと異なる、第2の部分のセットについてのカウント数を含む。参照カウント数は、場合によって、試験試料を得る同じ妊娠中の雌に由来する核酸試料についてのカウント数である。ある特定の実施形態では、参照カウント数は、試験試料を得た雌と異なる、1例または複数例の妊娠中の雌に由来する核酸試料についてのカウント数である。一部の実施形態では、第1の部分のセットは、第13染色体中、第18染色体中、第21染色体中、これらのセグメント中、または前出の組合せ中にあり、第2の部分のセットは、別の1つまたは複数の染色体中またはそのセグメント中にある。第1の部分のセットが、第21染色体中またはそのセグメント中にある、非限定的な例では、第2の部分のセットは、別の染色体(例えば、第1染色体、第13染色体、第14染色体、第18染色体、第19染色体、そのセグメント、または前出の組合せ)中にあることが多い。参照基準は、正倍数体であることが典型的な染色体中またはそのセグメント中に位置することが多い。例えば、第1染色体および第19染色体は、胎仔では、第1染色体異数性および第19染色体異数性と関連する、早期の胎仔の死亡率が高率であることに起因して、正倍数体であることが多い。試験カウント数と参照カウント数との偏差の尺度は、生成することができる。
ある特定の実施形態では、参照基準は、試験カウント数の場合と同じ部分のセットについてのカウント数を含み、参照基準についてのカウント数は、1つまたは複数の参照試料(例えば、複数の参照対象に由来する複数の参照試料であることが多い)によるカウント数である。参照試料は、試験試料を得る雌と異なる、1例または複数例の妊娠中の雌に由来することが多い。試験カウント数と参照カウント数との偏差の尺度(例えば、不確定性の尺度、不確定値)は、生成することができる。一部の実施形態では、偏差の尺度を、試験カウント数から決定する。一部の実施形態では、偏差の尺度を、参照カウント数から決定する。一部の実施形態では、偏差の尺度を、全プロファイルまたはプロファイル中の部分のサブセットから決定する。
偏差の適切な尺度であって、その非限定的な例が、標準偏差、平均値絶対偏差、中央値絶対偏差、最大絶対偏差、標準スコア(例えば、z値、zスコア、正規スコア、標準化された変数)などを含む尺度を選択することができる。一部の実施形態では、参照試料は、試験領域について正倍数体であり、試験カウント数と参照カウント数との間の偏差を評価する。一部の実施形態では、遺伝子の変動の存在または非存在の決定は、ゲノムまたは染色体のセグメントまたは部分についての、試験カウント数と参照カウント数との間の偏差(例えば、偏差の尺度、MAD)の数に従う。一部の実施形態では、試験カウント数と参照カウント数との間の偏差の数が、約1超、約1.5超、約2超、約2.5超、約2.6超、約2.7超、約2.8超、約2.9超、約3超、約3.1超、約3.2超、約3.3超、約3.4超、約3.5超、約4超、約5超、または約6超である場合に、遺伝子の変動の存在を決定する。例えば、場合によって、試験カウント数が、参照カウント数と、偏差の尺度(例えば、3シグマ、3MAD)で3超異なれば、遺伝子の変動の存在を決定する。一部の実施形態では、妊娠中の雌から得られる試験カウント数が、参照カウント数より、偏差の尺度(例えば、3シグマ、3MAD)で3超大きければ、胎仔の染色体異数性(例えば、胎仔のトリソミー)の存在が決定される。試験カウント数と参照カウント数との間の3超の偏差は、非正倍数性の試験領域(例えば、遺伝子の変動の存在)を指し示すことが多い。場合によって、正倍数性を指し示す参照カウント数を有意に上回る試験カウント数により、トリソミーが決定される。一部の実施形態では、妊娠中の雌から得られる試験カウント数が、参照カウント数より偏差の尺度(例えば、3シグマ、3MAD)で3超小さければ、胎仔の染色体異数性(例えば、胎仔のモノソミー)の存在が決定される。場合によって、正倍数性を指し示す参照カウント数を有意に下回る試験カウント数により、モノソミーが決定される。
一部の実施形態では、試験カウント数と参照カウント数との間の偏差の数が、約3.5未満、約3.4未満、約3.3未満、約3.2未満、約3.1未満、約3.0未満、約2.9未満、約2.8未満、約2.7未満、約2.6未満、約2.5未満、約2.0未満、約1.5未満、または約1.0未満である場合に、遺伝子の変動の非存在を決定する。例えば、場合によって、試験カウント数が、参照カウント数と、偏差の尺度(例えば、3シグマ、3MAD)で3未満異なれば、遺伝子の変動の非存在が決定される。一部の実施形態では、妊娠中の雌から得られる試験カウント数が、参照カウント数と、偏差の尺度(例えば、3シグマ、3MAD)で3未満異なれば、胎仔の染色体異数性の非存在(例えば、胎仔の正倍数体)が決定される。一部の実施形態では、(例えば、試験カウント数と参照カウント数との3未満の偏差(例えば、標準偏差では、3シグマ)は、正倍数体の試験領域(例えば、遺伝子の変動の非存在)を指し示すことが多い。試験試料についての試験カウント数と、1つまたは複数の参照対象についての参照カウント数との間の偏差の尺度は、プロットし、視覚化する(例えば、zスコアプロット)ことができる。
試験試料の試験領域について、遺伝子の変動の存在または非存在を決定する(または正倍数体もしくは非正倍数体の決定の)ために、他の任意の適切な参照基準も、試験カウント数と共に織り込むことができる。例えば、胎仔フラクションの決定を、試験カウント数と共に織り込んで、遺伝子の変動の存在または非存在を決定することができる。胎仔フラクションを定量化するための適切な処理であって、その非限定的な例が、質量分析処理、配列決定処理、またはこれらの組合せを含む処理を活用することができる。
一部の実施形態では、胎仔の染色体異数性(例えば、トリソミー)の存在または非存在は、胎仔の倍数性の決定から部分的に決定される。一部の実施形態では、胎仔の倍数性を、本明細書で記載される適切な方法により決定する。一部のある特定の実施形態では、約1.20もしくはそれ超、1.25もしくはそれ超、1.30もしくはそれ超、約1.35もしくはそれ超、約1.4もしくはそれ超、または約1.45もしくはそれ超の胎仔の倍数性の決定は、胎仔の染色体異数性の存在(例えば、胎仔のトリソミーの存在)を指し示す。一部の実施形態では、約1.20~約2.0、約1.20~約1.9、約1.20~約1.85、約1.20~約1.8、約1.25~約2.0、約1.25~約1.9、約1.25~約1.85、約1.25~約1.8、約1.3~約2.0、約1.3~約1.9、約1.3~約1.85、約1.3~約1.8、約1.35~約2.0、約1.35~約1.9、約1.35~約1.8、約1.4~約2.0、約1.4~約1.85、または約1.4~約1.8の胎仔の倍数性の決定は、胎仔の染色体異数性の存在(例えば、胎仔のトリソミーの存在)を指し示す。一部の実施形態では、胎仔の異数性は、トリソミーである。一部の実施形態では、胎仔の異数性は、第13染色体、第18染色体、および/または第21染色体のトリソミーである。
一部の実施形態では、約1.35未満、約1.30未満、約1.25未満、約1.20未満、または約1.15未満の胎仔の倍数性は、胎仔の異数性の非存在(例えば、胎仔のトリソミーの非存在、例えば、正倍数体)を指し示す。一部の実施形態では、約0.7~約1.35、約0.7~約1.30、約0.7~約1.25、約0.7~約1.20、約0.7~約1.15、約0.75~約1.35、約0.75~約1.30、約0.75~約1.25、約0.75~約1.20、約0.75~約1.15、約0.8~約1.35、約0.8~約1.30、約0.8~約1.25、約0.8~約1.20、または約0.8~約1.15の胎仔の倍数性の決定は、胎仔の染色体異数性の非存在(例えば、胎仔のトリソミーの非存在、例えば、正倍数体)を指し示す。
一部の実施形態では、約0.8未満、約0.75未満、約0.70未満、または約0.6未満の胎仔の倍数性は、胎仔の異数性の存在(例えば、染色体欠失の存在)を指し示す。一部の実施形態では、約0~約0.8、約0~約0.75、約0~約0.70、約0~約0.65、約0~約0.60、約0.1~約0.8、約0.1~約0.75、約0.1~約0.70、約0.1~約0.65、約0.1~約0.60、約0.2~約0.8、約0.2~約0.75、約0.2~約0.70、約0.2~約0.65、約0.2~約0.60、約0.25~約0.8、約0.25~約0.75、約0.25~約0.70、約0.25~約0.65、約0.25~約0.60、約0.3~約0.8、約0.3~約0.75、約0.3~約0.70、約0.3~約0.65、約0.3~約0.60の胎仔の倍数性の決定は、胎仔の染色体異数性の存在(例えば、染色体欠失の存在)を指し示す。一部の実施形態では、決定される胎仔の異数性は、全染色体欠失である。
一部の実施形態では、胎仔の異数性の存在または非存在の決定(例えば、上記の倍数性の決定の範囲のうちの1または複数に従う)を、判定域に従って決定する。ある特定の実施形態では、値(例えば、倍数性値、胎仔フラクション値、不確定性のレベル)または値のコレクションが、あらかじめ規定された範囲(例えば、帯域、判定域)内にある場合に、判定(例えば、遺伝子の変動の存在または非存在を決定する判定、例えば、アウトカム)を下す。一部の実施形態では、判定域を、同じ患者試料から得られる値のコレクションに従って規定する。ある特定の実施形態では、判定域を、同じ染色体またはそのセグメントから導出される値のコレクションに従って規定する。一部の実施形態では、倍数性の決定に基づく判定域を、信頼性レベル(例えば、高い信頼性レベル、例えば、低い不確定性のレベル)および/または胎仔フラクションに従って規定する。一部の実施形態では、判定域を、倍数性の決定および約2.0%もしくはそれ超、約2.5%もしくはそれ超、約3%もしくはそれ超、約3.25%もしくはそれ超、約3.5%もしくはそれ超、約3.75%もしくはそれ超、または約4.0%もしくはそれ超の胎仔フラクションに従って規定する。例えば、一部の実施形態では、胎仔を出産する妊娠中の雌から得られた試料についての、2%もしくはそれ超または4%もしくはそれ超の胎仔フラクションの決定を伴う、1.25超の倍数性の決定に基づき、胎仔は、トリソミー21を含むという判定を下す。ある特定の実施形態では、例えば、胎仔を出産する妊娠中の雌から得られた試料についての、2%もしくはそれ超または4%もしくはそれ超の胎仔フラクションの決定を伴う、1.25未満の倍数性の決定に基づき、胎仔は、正倍数体であるという判定を下す。一部の実施形態では、判定域は、約99%もしくはそれ超、約99.1%もしくはそれ超、約99.2%もしくはそれ超、約99.3%もしくはそれ超、約99.4%もしくはそれ超、約99.5%もしくはそれ超、約99.6%もしくはそれ超、約99.7%もしくはそれ超、約99.8%もしくはそれ超、または約99.9%もしくはそれ超の信頼性レベルにより規定する。一部の実施形態では、判定域を使用せずに判定を下す。一部の実施形態では、判定域およびさらなるデータまたは情報を使用して判定を下す。一部の実施形態では、判定域の使用を伴わずに、倍数性値に基づき判定を下す。一部の実施形態では、倍数性値を計算せずに判定を下す。一部の実施形態では、プロファイルの目視(例えば、ゲノム区分のレベルの目視)に基づき判定を下す。判定は、その非限定的な例が、胎仔の倍数性の決定、胎仔フラクションの決定、母体の倍数性、不確定性および/または信頼区間決定、部分レベル、レベル、プロファイル、zスコア、期待された染色体表示、測定された染色体表示、カウント数(例えば、正規化されたカウント数、生のカウント数)、胎仔のまたは母体のコピー数の変動(例えば、類別されたコピー数の変動)、有意に異なるレベル、調整されたレベル(例えば、穴埋め)など、またはこれらの組合せを含む、本明細書で記載される方法により得られた決定、値、および/またはデータに完全に、または部分的に基づく任意の適切な方法により下すことができる。
一部の実施形態では、判定を下さない場合、判定域は存在しない。一部の実施形態では、判定域が存在しないことは、低い精度、高い危険性、大きな誤差、低い信頼性レベル、高い不確定性のレベルなど、またはこれらの組合せを指し示す値または値のコレクションにより規定される。一部の実施形態では、判定域が存在しないことは、約5%もしくはそれ未満、約4%もしくはそれ未満、約3%もしくはそれ未満、約2.5%もしくはそれ未満、約2.0%もしくはそれ未満、約1.5%もしくはそれ未満、または約1.0%もしくはそれ未満の胎仔フラクションにより部分的に規定される。
遺伝子の変動は、場合によって、医学的状態と関連する。遺伝子の変動を決定するアウトカムは、場合によって、状態(例えば、医学的状態)、疾患、症候群、もしくは異常の存在または非存在を決定するアウトカムであるか、または状態、疾患、症候群、もしくは異常(例えば、表1に列挙された非限定的な例)の検出を含む。ある特定の実施形態では、診断は、アウトカムについての評価を含む。本明細書で記載される方法により状態(例えば、医学的状態)、疾患、症候群、または異常の存在または非存在を決定するアウトカムは、場合によって、さらに調べることにより(例えば、核型分析および/または羊水穿刺により)、独立に検証することができる。データの分析および加工は、1つまたは複数のアウトカムを提示しうる。本明細書で使用される「アウトカム」という用語は、遺伝子の変動(例えば、異数性、コピー数の変動)の存在または非存在を決定することを容易とする、データ加工の結果を指す場合がある。ある特定の実施形態では、本明細書で使用される「アウトカム」という用語は、遺伝子の変動(例えば、異数性、コピー数の変動)の存在または非存在を予測および/または決定する結論を指す。ある特定の実施形態では、本明細書で使用される「アウトカム」という用語は、対象(例えば、胎仔)における遺伝子の変動の存在または非存在(例えば、異数性、コピー数の変動)の危険性または確率を予測および/または決定する結論を指す。診断は、場合によって、アウトカムの使用を含む。例えば、医療関係者は、アウトカムを分析し、アウトカムに基づくか、またはアウトカムに部分的に基づき、診断を提示することができる。一部の実施形態では、状態、症候群、または異常(例えば、表1に列挙された)についての決定、検出、または診断は、遺伝子の変動の存在または非存在を決定するアウトカムの使用を含む。一部の実施形態では、カウントされた、マッピングした配列の読取りまたはその変換に基づくアウトカムは、遺伝子の変動の存在または非存在を決定する。ある特定の実施形態では、本明細書で記載される1つまたは複数の方法(例えば、データ加工法)を活用して生成されたアウトカムは、表1に列挙された1つまたは複数の状態、症候群、または異常の存在または非存在を決定する。ある特定の実施形態では、診断は、状態、症候群、または異常の存在または非存在の決定を含む。診断は、状態、症候群、または異常の性質および/または原因としての遺伝子の変動の決定を含むことが多い。ある特定の実施形態では、アウトカムは、診断ではない。1つまたは複数の確率の検討の文脈では、アウトカムは、本明細書で記載される加工法を使用して生成される1つまたは複数の数値を含むことが多い。危険性または確率の検討は、不確定値、可変性の尺度、信頼性レベル、感度、特異度、標準偏差、変動係数(CV)および/または信頼性レベル、Zスコア、カイ値、phi値、倍数性値、適合させた胎仔フラクション、面積比、中央値レベルなど、またはこれらの組合せを含みうるがこれらに限定されない。確率の検討は、対象に遺伝子の変動を有する危険性があるかまたは対象が遺伝子の変動を有するのかどうかを決定することを容易とすることが可能であり、遺伝子障害の存在または非存在を決定するアウトカムは、このような検討を含むことが多い。
アウトカムは、場合によって、表現型である。アウトカムは、場合によって、関連する信頼性レベル(例えば、不確定値、例えば、胎仔は、99%の信頼性レベルでトリソミー21について陽性であり、試験対象は、95%の信頼性レベルで、遺伝子の変動と関連するがんについて陰性である)を有する表現型である。アウトカム値を生成する異なる方法は、場合によって、異なる種類の結果をもたらしうる。一般に、本明細書で記載される方法を使用して生成されるアウトカム値に基づき下されうる4種類の可能なスコアまたは判定:真陽性、偽陽性、真陰性、および偽陰性が存在する。本明細書で使用される「スコア(score)」、「スコア(scores)」、「判定(call)」、および「判定(calls)」という用語は、特定の遺伝子の変動が、対象/試料に存在するかまたは非存在である確率を計算することを指す。スコアの値を使用して、例えば、遺伝子の変動に対応しうる、マッピングした配列の読取りの変動、差違、または比を決定することができる。例えば、データセットに由来する、選択された遺伝子の変動または部分について、参照ゲノムに対して正のスコアを計算することにより、場合によって、医学的状態と関連する、遺伝子の変動(例えば、がん、子癇前症、トリソミー、モノソミーなど)の存在または非存在の識別をもたらすことができる。一部の実施形態では、アウトカムは、レベル、プロファイル、および/またはプロット(例えば、プロファイルのプロット)を含む。アウトカムが、プロファイルを含む実施形態では、適切なプロファイルまたはプロファイルの組合せを、アウトカムのために使用することができる。アウトカムのために使用されうる、プロファイルの非限定的な例は、zスコアプロファイル、p値プロファイル、カイ値プロファイル、phi値プロファイルなど、およびこれらの組合せを含む。
遺伝子の変動の存在または非存在を決定するために生成されたアウトカムは、場合によって、ヌルの結果(例えば、2つのクラスター間のデータ点、遺伝子の変動の存在および非存在の両方についての値を包摂する標準偏差を有する数値、探索される遺伝子の変動を有するかまたは含まない対象についてのプロファイルのプロットと同様ではないプロファイルのプロットを有するデータセット)を含む。一部の実施形態では、ヌルの結果を指し示すアウトカムもやはり決定をもたらす結果であり、決定は、遺伝子の変動の存在または非存在を決定するためのさらなる情報および/またはデータ生成の反復および/または分析に対する必要を含みうる。
一部の実施形態では、アウトカムは、本明細書で記載される、1つまたは複数の加工ステップを実施した後で生成することができる。ある特定の実施形態では、アウトカムは、本明細書で記載される加工ステップのうちの1つの結果として生成し、一部の実施形態では、アウトカムは、データセットの各統計学的操作および/または各数学的操作を実施した後で生成することができる。遺伝子の変動の存在または非存在の決定に関するアウトカムは、限定せずに述べると、確率(例えば、オッズ比、p値)、尤度、クラスター中またはクラスター外の値、閾値を上回る値または閾値を下回る値、範囲(例えば、閾値範囲)内の値、分散の尺度または信頼性を有する値、または対象もしくは試料についての遺伝子の変動の存在もしくは非存在と関連する危険性因子を含む、適切な形態で表すことができる。ある特定の実施形態では、試料間の比較は、試料の識別の確認を可能とする(例えば、反復された試料および/または混合された試料(例えば、誤標識された試料、組み合わされた試料など)の識別を可能とする)。
一部の実施形態では、アウトカムは、所定の閾値またはカットオフ値を上回るかまたは下回る値(例えば、1超の値、1未満の値)、および値と関連する不確定性のレベルまたは信頼性レベルを含む。ある特定の実施形態では、所定の閾値またはカットオフ値は、期待レベルまたは期待レベルの範囲である。アウトカムはまた、データ加工において使用される仮定についても記載しうる。ある特定の実施形態では、アウトカムは、所定の値の範囲(例えば、閾値範囲)内または範囲外にある値、および範囲内または範囲外にあるその値についての、関連する不確定性のレベルまたは信頼性レベルを含む。一部の実施形態では、アウトカムは、所定の値に等しい(例えば、1に等しい、ゼロに等しい)か、または所定の値の範囲内の値に等しい値、および等しいかまたは範囲内にあるかもしくは範囲外にあるその値についての、その関連する不確定性のレベルまたは信頼性レベルを含む。アウトカムは、場合によって、プロット(例えば、プロファイルのプロット)としてグラフ的に表される。
上記で注目した通り、アウトカムは、真陽性、真陰性、偽陽性、または偽陰性として特徴づけることができる。本明細書で使用される「真陽性」という用語は、遺伝子の変動を有する対象と正しく診断された対象を指す。本明細書で使用される「偽陽性」という用語は、遺伝子の変動を有する対象として誤って識別された対象を指す。本明細書で使用される「真陰性」という用語は、遺伝子の変動を有さない対象として正しく識別された対象を指す。本明細書で使用される「偽陰性」という用語は、遺伝子の変動を有さない対象として誤って識別された対象を指す。任意の所与の方法についての効能の2つの尺度は、(i)一般に、予測された陽性のフラクションであって、陽性として正しく識別されたフラクションである感度値;および(ii)一般に、予測された陰性のフラクションであって、陰性として正しく識別されたフラクションである特異度値の発生比に基づき計算することができる。
ある特定の実施形態では、感度、特異度、および/または信頼性レベルのうちの1または複数は、百分率として表される。一部の実施形態では、百分率は、各変数について独立に、約90%超(例えば、約90、91、92、93、94、95、96、97、98、もしくは99%、または99%超(例えば、約99.5%またはそれ超、約99.9%またはそれ超、約99.95%またはそれ超、約99.99%またはそれ超))である。一部の実施形態では、変動係数(CV)は、百分率として表され、場合によって、百分率は、約10%またはそれ未満(例えば、約10、9、8、7、6、5、4、3、2、もしくは1%、または1%未満(例えば、約0.5%またはそれ未満、約0.1%またはそれ未満、約0.05%またはそれ未満、約0.01%またはそれ未満))である。ある特定の実施形態では、確率(例えば、特定のアウトカムが、偶然に起因しない確率)は、Zスコア、p値、またはt検定の結果として表される。一部の実施形態では、アウトカムについての、測定された分散、信頼区間、感度、特異度など(例えば、併せて、信頼性パラメータと称する)は、本明細書で記載される、1つまたは複数のデータ加工操作を使用して生成することができる。
本明細書で使用される「感度」という用語は、真陽性の数を、真陽性の数に偽陰性の数を加算して得た数で除算して得た数を指し、ここで感度(sens)は、0≦sens≦1の範囲内でありうる。本明細書で使用される「特異度」という用語は、真陰性の数を、真陰性の数に偽陽性の数を加算して得た数で除算して得た数を指し、ここで感度(spec)は、0≦spec≦1の範囲内でありうる。一部の実施形態では、場合によって、感度および特異度が1もしくは100%に等しいか、または1の近傍にある(例えば、約90%~約99%間にある)方法を選択する。一部の実施形態では、感度が1または100%に等しい方法を選択し、ある特定の実施形態では、感度が1の近傍にある(例えば、約90%の感度、約91%の感度、約92%の感度、約93%の感度、約94%の感度、約95%の感度、約96%の感度、約97%の感度、約98%の感度、または約99%の感度である)方法を選択する。一部の実施形態では、特異度が1または100%に等しい方法を選択し、ある特定の実施形態では、特異度が1の近傍にある(例えば、約90%の特異度、約91%の特異度、約92%の特異度、約93%の特異度、約94%の特異度、約95%の特異度、約96%の特異度、約97%の特異度、約98%の特異度、または約99%の特異度である)方法を選択する。
一部の実施形態では、遺伝子の変動の存在または非存在(例えば、染色体異数性)を、胎仔について決定する。このような実施形態では、胎仔の遺伝子の変動(例えば、胎仔の染色体異数性)の存在または非存在を決定する。
ある特定の実施形態では、試料についての、遺伝子の変動の存在または非存在(例えば、染色体異数性)を決定する。このような実施形態では、試料核酸(例えば、染色体異数性)中の、遺伝子の変動の存在または非存在を決定する。一部の実施形態では、検出される変動または検出されない変動は、1つの供給源に由来する試料核酸中には存在するが、別の供給源に由来する試料核酸中には存在しない。供給源の非限定的な例は、胎盤の核酸、胎仔核酸、母体核酸、がん細胞の核酸、がん細胞以外の核酸など、およびこれらの組合せを含む。非限定的な例では、特定の遺伝子の検出される変動または検出されない変動は、(i)胎盤の核酸中には存在するが、胎仔核酸中には存在せず、母体核酸中にも存在しないか、(ii)胎仔核酸中には存在するが、母体核酸中には存在しないか、または(iii)母体核酸中には存在するが、胎仔核酸中には存在しない。
1つまたは複数のアウトカムを生成した後で、アウトカムを使用して、遺伝子の変動の存在もしくは非存在および/または関連する医学的状態の決定をもたらすことが多い。アウトカムは、医療従事者(例えば、検査室技師または管理者;医師または助手)へと提示することが典型的である。アウトカムは、アウトカムモジュールにより提示することが多い。ある特定の実施形態では、アウトカムを、プロッティングモジュールにより提示する。ある特定の実施形態では、アウトカムは、装置の周辺機器上または構成要素上に提示される。例えば、場合によって、アウトカムを、プリンターまたはディスプレイにより提示する。一部の実施形態では、遺伝子の変動の存在または非存在を決定するアウトカムは、医療従事者へと、報告書の形態で提示され、ある特定の実施形態では、報告書は、アウトカム値および関連する信頼性パラメータの提示を含む。一般に、アウトカムは、遺伝子の変動の存在もしくは非存在および/または医学的状態の決定を容易とする、適切なフォーマットで示すことができる。データセットを報告および/もしくは提示するか、またはアウトカムを報告するための使用に適するフォーマットの非限定的な例は、デジタルデータ、グラフ、2Dグラフ、3Dグラフ、および4Dグラフ、写真、統計図表、図表、棒グラフ、円グラフ、概略図、フローチャート、散布図、マップ、ヒストグラム、密度図、関数グラフ、回路図、ブロック図、バブルマップ、信号空間ダイアグラム、コンターダイアグラム、カルトグラム、レーダーチャート、ベン図、ノモグラムなど、および前出の組合せを含む。アウトカム表示の多様な例については、図面で示し、実施例で記載する。
ある特定の実施形態では、アウトカムの生成は、核酸配列の読取りデータなどの、対象の細胞内核酸の表示への変換と考えることができる。例えば、対象に由来する核酸の配列の読取りを分析し、染色体のプロファイルおよび/またはアウトカムを生成することは、比較的小さな配列の読取り断片の、比較的大きな染色体構造の表示への変換と考えることができる。一部の実施形態では、アウトカムは、対象(例えば、妊娠中の雌)に由来する配列の読取りの、対象(例えば、母体核酸および/または胎仔核酸)内に存在する既存の構造(例えば、ゲノム、染色体またはそのセグメント)の表示への変換の結果として得られる。一部の実施形態では、アウトカムは、第1の対象(例えば、妊娠中の雌)に由来する配列の読取りの、構造(例えば、ゲノム、染色体またはそのセグメント)の複合表示への変換、ならびに第1の対象(例えば、妊娠中の雌)内および/または第2の対象(例えば、胎仔)内に存在する構造の表示をもたらす複合表示の第2の変換を含む。
ある特定の実施形態では、アウトカムは、1つまたは複数の候補セグメントの分析に従って生成することができる。一部の実施形態では、遺伝子の変動の存在または非存在を、個別セグメント、候補セグメント、または複合候補セグメント(例えば、個別セグメント、候補セグメント、または複合候補セグメントの存在または非存在)に従って決定する。一部の実施形態では、同じプロファイルの2つの分解レンダリングから導出された2つの候補セグメントは、実質的に同じであり(例えば、比較に従う)、染色体異数性、微小重複、または微小欠失の存在が決定される。一部の実施形態では、複合候補セグメントの存在により、染色体異数性、微小重複、または微小欠失の存在を指し示す。一部の実施形態では、全染色体異数性の存在は、プロファイル中の個別セグメント、候補セグメント、または複合候補セグメントの存在に従って決定され、プロファイルは、ゲノムのセグメント(例えば、染色体より大きいセグメント、例えば、2つまたはそれ超の染色体を表示するセグメント、全ゲノムを表示するセグメント)である。一部の実施形態では、全染色体異数性の存在は、プロファイル中の個別セグメント、候補セグメント、または複合候補セグメントの存在に従って決定され、個別セグメントのエッジは、染色体のエッジと実質的に同じである。ある特定の実施形態では、プロファイル中の個別セグメント、候補セグメント、または複合候補セグメントの少なくとも1つのエッジが、染色体および/または染色体中の個別セグメントのエッジと異なる場合に、微小重複または微小欠失の存在を決定する。一部の実施形態では、微小重複の存在が決定され、個別セグメント、候補セグメント、または複合候補セグメントについてのレベルまたはAUCは、参照レベル(例えば、正倍数体の領域)より実質的に大きい。一部の実施形態では、微小欠失の存在が決定され、個別セグメント、候補セグメント、または複合候補セグメントについてのレベルまたはAUCは、実質的に参照レベル(例えば、正倍数体の領域)未満である。一部の実施形態では、2つまたはそれ超の異なる分解レンダリング中で識別される候補セグメントは、実質的に同じでなく(例えば、異なり)、染色体異数性、微小重複、および/または微小欠失の非存在が決定される。一部の実施形態では、プロファイル中の個別セグメント、候補セグメント、もしくは複合候補セグメント、またはプロファイルの分解レンダリングの非存在により、染色体異数性、微小重複、または微小欠失の非存在を指し示す。
アウトカムの使用
1つまたは複数の遺伝子の変動の存在または非存在を決定するアウトカムを含む報告書を受け取る医療従事者または他の有資格者は、報告書内に示されたデータを使用して、試験対象または患者の状態についての判定を下すことができる。一部の実施形態では、医療従事者は、提示されたアウトカムに基づき、推奨を行うことができる。一部の実施形態では、医療従事者または有資格者は、報告書で提示された、1つまたは複数のアウトカム値および関連する信頼性パラメータに基づき、試験対象または患者に、遺伝子の変動の存在または非存在に関する判定またはスコアを提示することができる。ある特定の実施形態では、提示された報告書の目視観察を使用して、医療従事者または有資格者が、手作業でスコアを作成するかまたは判定を下す。ある特定の実施形態では、場合によって、ソフトウェア内に埋め込まれた自動式のルーチンにより、スコアを作成するかまたは判定を下し、試験対象または患者へと情報を提供する前に、医療従事者または有資格者が、精度について再検討する。本明細書で使用される「報告書を受け取ること」という用語は、再検討されると、医療従事者または他の有資格者が、試験対象または患者における遺伝子の変動の存在または非存在について決定することを可能とする、アウトカムを含む通信手段、文章表示、および/またはグラフ表示を介して得ることを指す。報告書は、コンピュータにより作成することもでき、手作業によるデータ入力により作成することもでき、電子的手段(例えば、インターネットを介する、コンピュータを介する、ファックスを介する、同じ物理的施設または異なる物理的施設における1つのネットワーク拠点から別の拠点への)を使用して通信することもでき、データを送付または受領する別の方法(例えば、郵便、宅急便(登録商標)など)により通信することもできる。一部の実施形態では、アウトカムは、限定せずに述べると、音声言語形態、文書形態、またはファイル形態を含む適切な媒体により、医療従事者へと伝送する。ファイルは、例えば、音声ファイル、コンピュータ読取り用ファイル、書類ファイル、検査室ファイル、または医療記録ファイルでありうるがこれらに限定されない。
本明細書で使用される、「アウトカムを提示すること」という用語およびその文法的な同等物はまた、このような情報を得るための方法であって、限定せずに述べると、情報を検査室から得る(例えば、検査室ファイル)ステップを含む方法も指す場合がある。検査室ファイルは、1つまたは複数のアッセイを実行した検査室により作成することもでき、医学的状態の存在または非存在を決定する、1つまたは複数のデータ加工ステップにより作成することもできる。検査室は、医学的状態の存在または非存在を検査室ファイルから識別する医療関係者と同じ場所にある場合もあり、異なる場所(例えば、別の国内)にある場合もある。例えば、検査室ファイルは、1つの場所で作成し、その中の情報が妊娠中の雌対象へと伝送される別の場所へと伝送することができる。ある特定の実施形態では、検査室ファイルは、実体的形態の場合もあり、電子的形態(例えば、コンピュータ読取り用形態)の場合もある。
一部の実施形態では、アウトカムは、検査室から、医療従事者、医師、または有資格者へと提示することができ、医療従事者、医師、または有資格者は、アウトカムに基づき、診断を下すことができる。一部の実施形態では、アウトカムは、検査室から、医療従事者、医師、または有資格者へと提示することができ、医療従事者、医師、または有資格者は、さらなるデータおよび/または情報、ならびに他のアウトカムと共に、アウトカムに部分的に基づき、診断を下すことができる。
医療従事者または有資格者は、報告書で提示された1つまたは複数のアウトカムに基づき、適切な推奨を提示することができる。提示されたアウトカム報告書に基づき提示されうる、推奨の非限定的な例は、手術、放射線療法、化学療法、遺伝子カウンセリング、生後処置ソリューション(例えば、人生設計、長期にわたる介護ケア、医薬、対症的処置)、妊娠中絶、臓器移植、輸血など、または前出の組合せを含む。一部の実施形態では、推奨は、提示されたアウトカムベースの分類(例えば、ダウン症候群、ターナー症候群、T13における遺伝子の変動と関連する医学的状態、T18における遺伝子の変動と関連する医学的状態)に依存する。
検査室関係者(例えば、検査室管理者)は、遺伝子の変動の存在または非存在の決定(または試験領域についての正倍数体もしくは非正倍数体の決定)の根底をなす値(例えば、試験カウント数、参照カウント数、偏差のレベル)を分析することができる。遺伝子の変動の存在または非存在に関する判定であって、微妙であるかまたは問題含みである判定のために、検査室関係者は、同じ試験を再発注することもでき、かつ/または試験対象に由来する同じ試料核酸または異なる試料核酸を使用する、異なる試験(例えば、胎仔の異数性の決定の場合における核型分析および/または羊水穿刺)を発注することもできる。
遺伝子の変動および医学的状態
遺伝子の差異の有無は、本明細書に記載する方法または装置を使用して決定することができる。ある特定の実施形態では、1つまたは複数の遺伝子の変動の有無は、本明細書に記載する方法および装置により提供されるアウトカムにより判定される。遺伝子の変動は、一般的に、ある特定の個体中に存在する特定の遺伝的表現型であり、多くの場合、遺伝子の変動は、個体の統計的に有意な部分母集団の中に存在する。一部の実施形態では、遺伝子の変動は、染色体異常(例えば、染色体異数性)、部分的染色体異常、またはモザイク症であり、そのそれぞれについて、本明細書でより詳細に記載する。遺伝子の変動の非限定的な例として、1つまたは複数の欠失(例えば、微小欠失)、重複(例えば、微小重複)、挿入、突然変異、多型(例えば、一塩基多型)、融合、リピート(例えば、短いタンデムリピート)、異なるメチル化部位、異なるメチル化パターン等、およびその組合せが挙げられる。挿入、リピート、欠失、重複、突然変異、または多型は、任意の長さのものであり得、一部の実施形態では、長さ約1塩基または塩基対(bp)~約250メガ塩基(Mb)である。一部の実施形態では、挿入、リピート、欠失、重複、突然変異、または多型は、長さ約1塩基または塩基対(bp)~約1,000キロ塩基(kb)である(例えば、長さ約10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb、または1000kb)。
遺伝子の変動は、欠失の場合もある。ある特定の実施形態では、欠失は染色体またはDNA配列の一部が欠損している突然変異である(例えば、遺伝子異常)。欠失は、多くの場合、遺伝物質の喪失である。任意の数のヌクレオチドが欠失し得る。欠失は、1つもしくは複数の染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメント、またはその組合せの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。
遺伝子の変動は、遺伝子の重複の場合もある。ある特定の実施形態では、重複は染色体またはDNA配列の一部がコピーされ、ゲノムに再挿入される突然変異(例えば、遺伝子異常)である。ある特定の実施形態では、遺伝子の重複(すなわち、重複)は、DNA領域の任意の重複である。一部の実施形態では、重複は、ゲノムまたは染色体内の、多くの場合タンデムに反復した核酸配列である。一部の実施形態では、重複は、1つもしくは複数の染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメント、またはその組み合わせのコピーを含み得る。重複は、微小重複を含み得る。重複は、1つまたは複数の重複した核酸のコピーを含む場合もある。重複は、1回または複数回反復した(例えば、1、2、3、4、5、6、7、8、9、または10回反復した)遺伝子領域として特徴付けられる場合もある。重複は、小領域(数千塩基対)から一部の事例では染色体全体の範囲であり得る。重複は、相同的組換えにおける誤差の結果として、またはレトロトランスポゾンイベントに起因して高頻度で生ずる。重複は、ある特定の種の増殖性疾患と関連していた。重複は、ゲノムマイクロアレイまたは比較遺伝子交雑法(CGH)を使用して特徴付けできる。
遺伝子の変動は、挿入の場合もある。挿入は、1つまたは複数のヌクレオチド塩基対の核酸配列への付加の場合もある。挿入は、微小挿入の場合もある。ある特定の実施形態では、挿入は、染色体のセグメントのゲノム、染色体、またはそのセグメントへの付加を含む。ある特定の実施形態では、挿入は、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、そのセグメントまたはその組合せの、ゲノムまたはそのセグメントへの付加を含む。ある特定の実施形態では、挿入は、起源が不明の核酸の、ゲノム、染色体、またはそのセグメントへの付加(すなわち、挿入)を含む。ある特定の実施形態では、挿入は、単一塩基の付加(すなわち、挿入)を含む。
本明細書で使用する場合、「コピー数の変動」は、一般的に遺伝子の変動または染色体異常のクラスまたは種類である。コピー数の変動は、欠失(例えば、微小欠失)、重複(例えば、微小重複)、または挿入(例えば、微小挿入)であり得る。多くの場合、本明細書で時に使用される接頭辞「微小」は、長さ5Mb未満の核酸のセグメントである。コピー数の変動は、染色体のセグメントの1つまたは複数の欠失(例えば、微小欠失)、重複、および/または挿入(例えば、微小重複、微小挿入)を含み得る。ある特定の実施形態では、重複は挿入を含む。ある特定の実施形態では、挿入は重複である。ある特定の実施形態では、挿入は重複ではない。例えば、多くの場合、ある部分で配列が重複すると、重複が見出される部分に関するカウント数が増加する。多くの場合、ある部分で配列が重複するとレベルが高まる。特定の実施形態では、第1のレベルを構成する部分に重複が存在すると、重複が存在しない第2のレベルと比較してレベルが高まる。ある特定の実施形態では、挿入は、部分のカウント数を増加させ、挿入を表す配列が同一部分内の別の場所に存在する(すなわち、重複される)。ある特定の実施形態では、挿入は、部分のカウント数、またはレベルを有意に増加させず、挿入された配列は、同一部分内の配列の重複ではない。ある特定の実施形態では、挿入は重複として検出または表示されず、挿入を表す重複配列は、同一部分に存在しない。
一部の実施形態では、コピー数の変動は、胎仔のコピー数の変動である。多くの場合、胎仔のコピー数の変動は、胎仔のゲノム内のコピー数の変動である。一部の実施形態では、コピー数の変動は、母体および/または胎仔のコピー数の変動である。ある特定の実施形態では、母体および/または胎仔のコピー数の変動は、妊娠中の雌(例えば、胎仔を有する雌の対象)、分娩経験のある雌の対象、または胎仔を有する能力を有する雌のゲノム内のコピー数の変動である。コピー数の変動は、ヘテロ接合性のコピー数の変動であり得、この場合、変動(例えば、重複または欠失)は、ゲノムの1方の対立遺伝子上に存在する。コピー数の変動は、ホモ接合性のコピー数の変動であり得、この場合、変動は、ゲノムの両方の対立遺伝子に存在する。一部の実施形態では、コピー数の変動はヘテロ接合性またはホモ接合性の胎仔のコピー数の変動である。一部の実施形態では、コピー数の変動は、ヘテロ接合性またはホモ接合性の母体および/または胎仔のコピー数の変動ある。コピー数の変動は、母体ゲノムおよび胎仔ゲノムに存在する、母体ゲノムに存在するが胎仔ゲノムに存在しない、または胎仔ゲノムに存在するが母体ゲノムに存在しない場合がある。
「倍数性」とは、胎仔または母親中に存在する染色体の数を指す。ある特定の実施形態では、「倍数性」は、「染色体倍数性」と同じである。ヒトでは、例えば常染色体は、多くの場合、対で存在する。例えば、遺伝子の変動が存在しない場合、ほとんどのヒトは各常染色体(例えば、第1~22染色体)を2つ有する。ヒトでは2つの常染色体について正常な補体が存在し、これは多くの場合、正倍数体と呼ばれる。「微小倍数性」は、意味上では、倍数性に類似する。「微小倍数性」は、多くの場合、染色体のセグメントの倍数性を指す。用語「微小倍数性」とは、染色体内のコピー数の変動(例えば、欠失、重複、および/または挿入)の有無(例えば、ホモ接合性またはヘテロ接合性の欠失、重複、または挿入等またはその不存在)を指す場合もある。「倍数性」および「微小倍数性」は、プロファイル内のレベルのカウント数を正規化した後に決定される場合もある。したがって、常染染色体の対を表すレベル(例えば、正倍数体)は、多くの場合、倍数性1に正規化される。同様に、重複、欠失、または挿入が存在しないことを表す染色体セグメント内のレベルは、多くの場合、微小倍数性1に正規化される。倍数性および微小倍数性は、多くの場合、部分-特異的(例えば、部分特異的)および試料-特異的である。倍数性は、多くの場合、1/2の整数倍として規定され、正倍数体(例えば、2つの染色体)、染色体1つ存在(例えば、染色体欠失)、染色体不存在、染色体3つ(例えば、トリソミー)、および染色体4つをそれぞれ表す、1、1/2、0、3/2、および2の値を有する。同様に、微小倍数性は、多くの場合、1/2の整数倍として規定され、正倍数体(例えば、コピー数の変動無し)、ヘテロ接合性の欠失、ホモ接合性の欠失、ヘテロ接合性の重複、およびホモ接合性の重複をそれぞれ表す、1、1/2、0、3/2、および2の値を有する。胎仔に関する倍数性の値についての一部の例を表2に提示する。
ある特定の実施形態では、胎仔の微小倍数性は、胎仔の母親(すなわち、妊娠中の雌の対象)の微小倍数性と一致する。ある特定の実施形態では、胎仔の微小倍数性は、胎仔の母親の微小倍数性と一致し、母親および胎仔いずれも、同一のヘテロ接合性のコピー数の変動、ホモ接合性のコピー数の変動を担持する、または両方とも正倍数体である。ある特定の実施形態では、胎仔の微小倍数性は、胎仔の母親の微小倍数性と異なる。例えば、胎仔の微小倍数性は、コピー数の変動についてヘテロ接合性であり、母親は、コピー数の変動についてホモ接合性であり、胎仔の微小倍数性は、特定のコピー数の変動に関して母親の微小倍数性と一致しない(例えば、等しくない)場合もある。
微小倍数性は、多くの場合、予想されるレベルと関連する。例えば、レベル(例えば、プロファイル内のレベル、時にコピー数の変動を実質的に含まないレベル)は、値1に正規化される場合もあり(例えば、倍数性1、微小倍数性1)、ホモ接合性の重複の微小倍数性は2、ヘテロ接合性の重複は1.5、ヘテロ接合性の欠失は0.5、およびホモ接合性の欠失は0である。
対象について有無が識別された遺伝子の変動は、ある特定の実施形態では医学的状態と関連する。したがって、本明細書に記載する技術は、医学的状態または病状と関連する1つまたは複数の遺伝子の変動の有無を識別するのに使用することができる。医学的状態の非限定的な例として、知的障害(例えば、ダウン症候群)、細胞増殖異常(例えば、がん)、微生物核酸(例えば、ウイルス、細菌、真菌、酵母)の存在、および子癇前症と関連した状態が挙げられる。
遺伝子の変動、医学的状態および病状の非限定的な例は、以下に記載されている。
胎仔の性別
一部の実施形態では、胎仔の性別または性別関連の障害(例えば、性染色体異数性)の予測は、本明細書に記載する方法または装置により決定することができる。性別の決定は、性染色体に一般的に基づく。ヒトでは、2つの性染色体、XおよびY染色体が存在する。Y染色体は、雄として胚が発生する契機となる遺伝子、SRYを含有する。ヒトおよび他の哺乳動物のY染色体は、正常な精子産生に必要とされる他の遺伝子も含有する。XXを有する個体は雌であり、XYは雄であり、多くの場合、性染色体異数性と呼ばれる非限定的な変動として、X0、XYY、XXX、およびXXYが挙げられる。ある特定の実施形態では、雄は、2つのX染色体および1つのY染色体(XXY;クラインフェルター症候群)、または1つのX染色体および2つのY染色体(XYY症候群;ジェイコブス症候群)を有し、ならびに一部の雌は、3つのX染色体(XXX;トリプルX症候群)または2つではなく単一のX染色体(X0;ターナー症候群)を有する。ある特定の実施形態では、個体内の一部の細胞のみが、性染色体異数性により影響を受け、モザイク症(例えば、ターナーモザイク症)と呼ばれる場合もある。他の症例として、SRYが損傷を受けている症例(XYの雌となる)、またはXにコピーされた症例(XXの雄となる)が挙げられる。
ある特定の症例では、子宮内の胎仔の性別を決定することが有益な場合もある。例えば、1つまたは複数の性関連障害の家族歴を有する患者(例えば、妊娠中の雌)は、かかる障害を受け継ぐ胎仔のリスクを評価するのに役立つように、身ごもっている胎仔の性別を決定したいと欲する場合がある。性関連障害として、非限定的に、X連鎖およびY連鎖障害が挙げられる。X連鎖障害として、X連鎖劣性障害およびX連鎖優性障害が挙げられる。X関連劣性障害の例として、非限定的に、免疫障害(例えば、慢性肉芽腫性疾患(CYBB)、ヴィスコット・アルドリッチ症候群、X連鎖重症複合型免疫欠損、X連鎖無ガンマグロブリン血症、1型高IgM症候群、IPEX、X連鎖リンパ増殖性疾患、プロパージン欠損症)、血液障害(例えば、血友病A、血友病B、X連鎖担鉄赤芽球性貧血)、内分泌障害(例えば、アンドロゲン不感性症候群/ケネディ病、KAL1カルマン症候群、X連鎖先天性副腎低形成)、代謝障害(例えば、オルニチントランスカルバミラーゼ欠損症、眼脳腎症候群、副腎白質ジストロトフィー、グルコース-6-リン酸デヒドロゲナーゼ欠損症、ピルビン酸デヒドロゲナーゼ欠損症、ダノン病/IIb型グリコーゲン蓄積症、ファブリー病、ハンター症候群、レッシュ-ナイハン症候群、メンケス病/オクシピタル・ホーン症候群)、神経系障害(例えば、コフィン-ローリー症候群、MASA症候群、X連鎖アルファサラセミア精神遅滞症候群、シデリウスX連鎖精神遅滞症候群、色盲、眼球白子症、ノリエ病、コロイデレミア、シャルコー-マリー-トゥース病(CMTX2-3)、ペリツェウス-メルツバッハー病、SMAX2)、皮膚および関連の組織障害(例えば、先天性角化異常症、無汗性外胚葉形成不全(EDA)、X連鎖魚鱗癬、X連鎖角膜内皮変性症)、神経筋障害(例えば、ベッカー型筋ジストロフィー/デュシェンヌ型筋ジストロフィー、中心核ミオパシー(MTM1)、コンラーディ-ヒューネルマン症候群、エメリー-ドレフュス型筋ジストロフィー1)、泌尿器系障害(例えば、アルポート症候群、デント病、X連鎖腎性尿崩症)、骨/歯の障害(例えば、AMELXエナメル質形成不全症)、および他の障害(例えば、バース症候群、マクロード症候群、スミス-ファインマン-マイヤーズ症候群、シンプソン-ゴラビ-ベーメル症候群、Mohr-Tranebjaerg症候群、鼻指聴覚症候群)。X連鎖優性障害の例として、非限定的に、X連鎖低リン酸血症、巣状皮膚低形成、脆弱X症候群、アイカルディ症候群、色素失調症、Rett症候群、CHILD症候群、Lujan-Fryns症候群、および口腔・顔面・指趾症候群1が挙げられる。Y連鎖障害の例として、非限定的に、雄不妊症、網膜色素変性、および無精子症が挙げられる。
染色体異常
一部の実施形態では、胎仔染色体異常の有無は、本明細書に記載する方法または装置を使用して決定することができる。染色体異常として、非限定的に、染色体全体または1つもしくは複数の遺伝子を含む染色体の領域の取得または喪失が挙げられる。染色体異常には、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の喪失、転座、不均衡な転座により引き起こされた欠失および重複を含む、1つまたは複数のヌクレオチド配列(例えば、1つまたは複数の遺伝子)の欠失および/または重複が含まれる。用語「染色体異常」または「染色体異数性」は、本明細書で使用する場合、対象の染色体構造と正常な相同染色体構造の間の乖離を指す。用語「正常」とは、特定の種の健康な個体に見出される優勢な核型またはバンディングパターン、例えば正倍数体ゲノム(ヒトでは、46、XXまたは46、XY)を指す。生物が異なれば染色体の補体も幅広く変化し、用語「染色体異数性」は特定の染色体の数を指すものではなく、生物の所与の細胞の1つまたは複数内の染色体含有量が異常である状況を指す。一部の実施形態では、用語「染色体異数性」は、本明細書では、染色体の全部または染色体の一部の喪失または取得により引き起こされた遺伝物質の不均衡を指す。「染色体異数性」は、染色体のセグメントの1つまたは複数の欠失および/または挿入を指し得る。用語「正倍数体」は、一部の実施形態では、染色体の正常な補体を指す。
用語「モノソミー」は、本明細書で使用する場合、正常な補体の1つの染色体が欠如していることを指す。単一のコピー内に染色体のセグメントのみが存在する、不均衡な転座または欠失においては、部分的モノソミーが生じ得る。性染色体のモノソミー(45、X)は、例えばターナー症候群を引き起こす。用語「ダイソミー」は、染色体のコピーが2つ存在することを指す。各染色体の2つのコピーを有するヒト等の生物(二倍体または「正倍数体」の生物)の場合、ダイソミーは正常な状態である。各染色体の3つまたはそれ超のコピーを通常有する生物(三倍体またはそれ超の生物)の場合、ダイソミーは異数染色体の状態である。片親性のダイソミーでは、染色体の両方のコピーは同一の親に由来する(他方の親の寄与はない)。
用語「トリソミー」は、本明細書で使用する場合、特定の染色体の2つのコピーではなく3つのコピーが存在することを指す。ヒトのダウン症候群に見出される余分な第21染色体の存在は、「トリソミー21」と呼ばれる。トリソミー18およびトリソミー13は、他の2つのヒト常染色体トリソミーである。性染色体のトリソミーは、雌(例えば、トリプルX症候群の47、XXX)または雄(例えば、クラインフェルター症候群の47、XXY;またはジェイコブス症候群の47、XYY)に認められる場合がある。一部の実施形態では、トリソミーは、ほとんどまたは全ての常染色体の重複である。ある特定の実施形態では、トリソミーは全染色体異数性であり、特定の種類の染色体について3つのインスタンス(例えば、3つのコピー)をもたらす(例えば、正倍数体についての特定の種類の染色体の2つのインスタンス(すなわち対)ではなく)。
用語「テトラソミー」および「ペンタソミー」は、本明細書で使用する場合、4つまたは5つの染色体のコピーがそれぞれ存在することを指す。常染色体ではほとんど認められないが、性染色体のテトラソミーおよびペンタソミーが、XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYY、およびXYYYYを含め、ヒトで報告されている。
染色体異常は、様々な機構により引き起こされ得る。機構には、(i)有糸分裂チェックポイントが脆弱化した結果として生ずる染色体不分離、(ii)複数の染色体において染色体不分離を引き起こす不活性な有糸分裂チェックポイント、(iii)1つの動原体が両方の有糸分裂紡錘体極に結合したときに生ずるメロテリック結合、(iv)2つ超の紡錘体極が形成されたときの多極紡錘体形成、(v)単一の紡錘体極しか形成されなかったときの単極紡錘体形成、および(vi)単極紡錘体機構の最終結果として生ずる四倍体中間体が含まれるが、これらに限定されない。
用語「部分的モノソミー」および「部分的トリソミー」は、本明細書で使用する場合、染色体の一部の喪失または取得により引き起こされた遺伝物質の不均衡を指す。部分的モノソミーまたは部分的トリソミーは、不均衡な転座に起因し得るが、この場合、個体は2つの異なる染色体の破断および融合により形成された誘導染色体を担持する。この状況では、個体は1つの染色体の一部の3つのコピー(2つの正常なコピー、および誘導染色体上に存在するセグメント)、および誘導染色体に含まれる他の染色体の一部のる1つのコピーのみを有することになる。
用語「モザイク症」は、本明細書で使用する場合、生物の全ての細胞ではなく、一部の細胞内の染色体異数性を指す。ある特定の染色体異常は、モザイク性および非モザイク性の染色体異常として存在し得る。例えば、ある特定のトリソミー21個体はモザイクダウン症候群を有し、一部は非モザイクダウン症候群を有する。異なる機構が、モザイク症を引き起こしている可能性がある。例えば、(i)最初の接合体は、3つの第21染色体を有すると考えられ、これは単純なトリソミー21を通常もたらすが、細胞分裂の過程で、1つまたは複数の細胞系統が、第21染色体の1つを喪失する;および(ii)最初の接合体は、2つの第21染色体を有すると考えられるが、細胞分裂の過程で、第21染色体の1つが重複した。体細胞モザイク症は、完全なまたはモザイク性の染色体異数性を伴う遺伝的症候群と一般的に関連する機構とは異なる機構を通じて生ずる可能性がある。体細胞モザイク症は、例えばある特定の種類のがんやニューロンにおいて識別された。ある特定の事例では、トリソミー12は、慢性リンパ球性白血病(CLL)において識別され、トリソミー8は、急性骨髄性白血病(AML)において識別された。また、個体が染色体の破断しやすい傾向を有するような遺伝的症候群(染色体不安定症候群)では、様々な種類のがんに対するリスクの増大と高頻度で関連し、したがって発癌性における体細胞染色体異数性の役割が注目される。本明細書に記載する方法およびプロトコールは、非モザイク性およびモザイク性の染色体異常の有無を識別することができる。
表1Aおよび1Bは、本明細書に記載する方法および装置により識別される可能性があり得る染色体の状態、症候群、および/または異常の非限定的なリストを提示する。表1Bは、2011年10月6日時点のDECIPHERデータベースに由来する(例えば、バージョン5.1、GRCh37に対してマッピングされた位置に基づく;ユニフォームリソースロケーター(URL)dechipher.sanger.ac.ukにて入手可能)。
Figure 2023022220000001
Figure 2023022220000002
Figure 2023022220000003
Figure 2023022220000004
Figure 2023022220000005
Figure 2023022220000006
Figure 2023022220000007
Figure 2023022220000008
グレード1の状態は、多くの場合、1つまたは複数の以下の特徴を有する;病原的異常;遺伝学者の間で強く合意されている;高い浸透性;なおも多様な表示型を有し得るが、いくつかの一般的な特性も有する;文献中の全ての症例は臨床表示型を有する;異常を有する健康な個体の症例を認めない;DVGデータベースに報告されていない、または健常母集団では見出されない;単一遺伝子または多重遺伝子の量的効果を確認する機能的データ;確認済みまたは強固な候補遺伝子;臨床マネジメント案が規定済み;がんのリスクが公知でサーベイの案を有する;複数の情報源(OMIM、Genereviews、Orphanet、Unique、Wikipedia);および/または診断用途で利用可能(妊娠カウンセリング)。
グレード2の状態は、多くの場合、1つまたは複数の下記の特徴を有する;病原的異常の可能性;高い浸透性;DDを除き一貫した特性を有さない多様な表示型;文献では症例/報告の数が少ない;報告された全ての症例は臨床表示型を有する;機能的データまたは確認済みの病原性遺伝子を認めない;複数の情報源(OMIM、Genereviews、Orphanet、Unique、Wikipedia);および/または診断目的および妊娠カウンセリングのために使用できる。
グレード3の状態は、多くの場合、1つまたは複数の下記の特徴を有する;感受性遺伝子座;健常な個体または発端者の未罹患の両親が記載されている;対照母集団中に存在する;非浸透性;表示型が軽度で特異的ではない;特性はあまり一貫していない;機能的データまたは確認済みの病原性遺伝子を認めない;データの原典がより限定的;大部分から乖離している症例に関して、または新規臨床所見が存在する場合、第2の診断の可能性は、可能性の状態のままである;および/または診断目的で使用する際には要注意、および妊娠カウンセリングの場合、助言には慎重を期す。
子癇前症
一部の実施形態では、子癇前症の有無は、本明細書に記載する方法または装置を使用して決定される。子癇前症は、妊娠中に高血圧症が発生する状態(すなわち、妊娠誘発性高血圧症)であり、尿中の相当量のタンパク質と関連する。ある特定の実施形態では、子癇前症は、細胞外核酸のレベル上昇および/またはメチル化パターン変化とも関連する。例えば、細胞外の胎仔由来過剰メチル化RASSF1Aレベルと子癇前症の重症度の間に正の相関が認められた。ある特定の例では、子癇前症の胎盤内のH19遺伝子について、正常な対照と比較してDNAのメチル化の増加が認められる。
子癇前症は、世界的に、母体および胎仔/新生児の死亡率および疾病率の主因の1つである。血漿および血清中の循環型無細胞核酸は新規バイオマーカーであり、出生前診断を含む異なる医学分野における臨床用途として有望である。母体血漿中の無細胞胎仔(cff)DNAについて、例えば雄特異的SRYまたはDYS14遺伝子座に関するリアルタイム定量的PCRを使用して定量したとき、その変化が急迫した子癇前症に関する指標となることが、異なる試験で報告されている。早期発症型の子癇前症の症例では、妊娠初期にレベルの上昇が認められる場合がある。症状発現前のcffDNAのレベルの上昇は、組織の酸化ストレスおよび胎盤アポトーシスの増加および壊死を引き起こす絨毛間腔内の低酸素状態/再酸素負荷に起因する場合もある。cffDNAの母体循環への流出増加に関する証拠に加えて、子癇前症では、cffDNAの腎臓排出の低下に関する証拠も存在する。胎仔DNAの量は、現在のところ、Y-染色体特異的配列の定量により決定されるので、代替的アプローチ、例えば無細胞総DNAの測定または性別に依存しない胎仔エピジェネティックマーカー、例えばDNAメチル化の使用により、代替法が提供される。胎盤由来の無細胞RNAは、臨床診療において子癇前症をスクリーニングおよび診断するのに使用できる別の代替的バイオマーカーである。胎仔RNAは、これを分解から保護する細胞内胎盤粒子と関連する。胎仔のRNAレベルは、対照と比較して子癇前症の妊娠中の雌では10倍高い場合があり、したがって、臨床診療において子癇前症をスクリーニングおよび診断するのに使用できる代替的バイオマーカーである。
病原体
一部の実施形態では、病態の有無は、本明細書に記載する方法または装置により決定される。病態は、細菌、ウイルス、または真菌を含むが、これらに限定されない病原体に宿主が感染することにより引き起こされ得る。病原体は宿主の核酸と区別可能な核酸(例えば、ゲノムDNA、ゲノムRNA、mRNA)を一般的に有するので、本明細書において提供される方法および装置が、病原体の有無を決定するのに使用できる。多くの場合、病原体は、例えばエピジェネティックな状態および/または1つもしくは複数の配列の変動、重複、および/または欠失等の、特定の病原体に固有の特徴を持つ核酸を有する。したがって、本明細書において提供される方法は、特定の病原体または病原体の変異体(例えば、株)を識別するのに使用できる。
がん
一部の実施形態では、細胞増殖障害(例えば、がん)の有無が、本明細書に記載する方法または装置を使用して決定される。例えば、血清中の無細胞核酸のレベルは、健康な患者と比較して様々な種類のがんを有する患者で上昇し得る。例えば、転移性の疾患を有する患者は、非転移性の患者の約2倍高い血清DNAレベルを有する場合があり得る。転移性の疾患を有する患者は、がん特異的マーカー、および/または、例えばある特定の一塩基多型または短いタンデムリピートによっても識別される可能性がある。循環型DNAのレベル上昇と正に相関し得るがんの種類の非限定的な例として、乳がん、結腸直腸がん、胃腸がん、肝細胞がん、肺がん、メラノーマ、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱がん、ヘパトーマ、子宮頚がん、食道がん、膵臓がん、および前立腺がんが挙げられる。様々ながんは、非がん性の健康な細胞に由来する核酸から区別可能な特徴、例えばエピジェネティックな状態、ならびに/または配列の変動、重複、および/もしくは欠失等を伴う核酸を有し得、これを血流中に放出し得る。かかる特徴は、例えば特定の種類のがんに固有であり得る。したがって、本明細書において提供される方法は、特定の種類のがんを識別するのに使用できることがさらに考えられる。
本明細書において以後より詳細に記載するように、ソフトウェアが、本明細書に記載する処理において、下記を含むが、これに限定されない1つまたは複数のステップを行うために使用できる;カウント数計測、データ処理、アウトカムの生成、および/または生成されたアウトカムに基づく1つもしくは複数の勧告案の提供。
機械、ソフトウェア、およびインターフェース
本明細書に記載するある特定の処理および方法(例えば、定量、区分化、マッピング、正規化、範囲の設定、調整、分類、カウント数計測、ならびに/または配列の読取り、カウント数、レベル(例えば、レベル)、および/もしくはプロファイルの決定)は、多くの場合、コンピュータ、プロセッサ、ソフトウェア、モジュールまたは他の装置なしで行うことができない。本明細書に記載する方法は、一般的にコンピュータが実施する方法であり、方法の1つまたは複数の部分が、1つまたは複数のプロセッサ(例えば、マイクロプロセッサ)、コンピュータ、またはマイクロプロセッサ制御式装置により行われ得る。本文書に記載されている方法に関連する実施形態は、一般的に、本明細書に記載するシステム、装置、およびコンピュータプログラム製品でインストラクションにより実施される同一のまたは関連する処理に適用可能である。一部の実施形態では、本明細書に記載する処理および方法(例えば、定量、区分化、カウント数計測、ならびに/または配列の読取り、カウント数、レベル、および/もしくはプロファイルの決定)は、自動化された方法により行われる。一部の実施形態では、本明細書に記載する1つまたは複数のステップおよび方法は、プロセッサおよび/もしくはコンピュータにより行われる、および/またはメモリと併せて行われる。一部の実施形態では、自動化された方法は、配列の読取り、区分化、カウント数、マッピング、マッピングされた配列タグ、レベル、プロファイル、正規化、比較、範囲の設定、分類、調整、プロッティング、結果、変換、および識別を決定するソフトウェア、モジュール、プロセッサ、周辺機器、および/またはそのようなものを含む装置に組み込まれる。本明細書で使用する場合、ソフトウェアとは、本明細書に記載するように、プロセッサにより実行されたときにコンピュータの操作を行う、コンピュータ読取り可能なプログラムインストラクションを指す。
試験対象(例えば、患者、妊娠中の雌)に由来する、および/または参照対象に由来する配列の読取り、カウント数、レベル、およびプロファイルは、遺伝子の変動の有無を決定するためにさらに分析および処理することができる。配列の読取り、カウント数、レベル、および/またはプロファイルは、「データ」または「データセット」と呼ばれる場合もある。一部の実施形態では、データまたはデータセットは、1つまたは複数の特性または変数(例えば、配列に基づく[例えば、GC含有量、特異的ヌクレオチド配列等]、機能特異的[例えば、発現した遺伝子、がん遺伝子等]、場所に基づく[ゲノム特異的、染色体特異的、部分または部分特異的]特性または変数等およびその組合せ)により特徴付けることができる。ある特定の実施形態では、データまたはデータセットは、1つまたは複数の特性または変数に基づく2次元またはそれ超の次元を有するマトリックスに組織化され得る。マトリックスに組織化されたデータは、任意の適する特性または変数を使用して組織化され得る。マトリックス中のデータの非限定的な例として、母体の年齢、母体の倍数性、および胎仔の寄与により組織化されるデータが挙げられる。ある特定の実施形態では、1つまたは複数の特性または変数により特徴付けられるデータセットは、カウント数計測後に処理される場合もある。
装置、ソフトウェア、およびインターフェースが、本明細書に記載する方法を実施するのに使用できる。装置、ソフトウェア、およびインターフェースを使用して、ユーザーは、特定の情報、プログラム、または処理(例えば、配列の読取りのマッピング、マッピングされたデータの処理、および/またはアウトカムアウトカムの提供)を使用するためのオプションを入力、要求、照会、または決定することができ、例えば統計分析アルゴリズム、統計的有意性アルゴリズム、統計的アルゴリズム、反復ステップ、妥当性の確認アルゴリズム、および図形表示の実施が含まれ得る。一部の実施形態では、データセットは、インプット情報としてユーザーが入力可能であり、ユーザーは、適するハードウェアメディア(例えば、フラッシュドライブ)により1つもしくは複数のデータセットをダウンロードすることができ、ならびに/またはユーザーは、後続する処理のために、および/もしくはアウトカムを得るために、1つのシステムから別のシステムにデータセットを送信することができる(例えば、シーケンサーからコンピュータシステムに、配列の読取りのマッピング用として配列の読取りデータを送信する;マッピングされた配列データを、処理用として、ならびにアウトカムおよび/またはレポートの取得用としてコンピュータシステムに送信する)。
システムは、1つまたは複数の装置を一般的に含む。各装置は、1つまたは複数のメモリ、1つまたは複数のプロセッサ、およびインストラクションを含む。システムが2つまたはそれ超の装置を含む場合、装置の一部または全部は同一の場所に位置し得るか、装置の一部または全部は異なる場所に位置し得るか、全ての装置は1つの場所に位置し得るか、および/または全ての装置は異なる場所に位置し得る。システムが2つまたはそれ超の装置を含む場合、装置の一部もしくは全部はユーザーと同じ場所に位置し得るか、装置の一部もしくは全部はユーザーと異なる場所に位置し得るか、全ての装置はユーザーと同じ場所に位置し得るか、および/または全ての装置はユーザーとは異なる1つもしく複数の場所に位置し得る。
システムは、演算装置および配列決定装置を含む場合があり、この場合、配列決定装置は、身体由来の核酸を入手し、配列の読取りを生成するように構成され、演算装置は、配列決定装置から得られた読取りを処理するように構成される。演算装置は、配列の読取りから遺伝子の変動(例えば、コピー数の変動;胎仔染色体異数性)の有無を決定するように構成され得る。
ユーザーは、例えばソフトウェアに照会を行うことができ、ソフトウェアは、次にインターネットにアクセスしてデータセットを取得することができ、ある特定の実施形態では、プログラム可能なプロセッサは、与えられたパラメータに基づいて、適するデータセットを取得するように催促され得る。また、プログラム可能なプロセッサは、与えられたパラメータに基づいてプロセッサにより選択された1つまたは複数のデータセットオプションを選択するようにユーザーを催促する場合もある。プログラム可能なプロセッサは、インターネット、他の内部または外部の情報等を経由して見出される情報に基づき、プロセッサにより選択された1つまたは複数のデータセットオプションを選択するようにユーザーを催促し得る。オプションは、1つまたは複数のデータ特性セレクション、1つまたは複数の統計的アルゴリズム、1つまたは複数の統計分析アルゴリズム、1つまたは複数の統計的有意性アルゴリズム、反復ステップ、1つまたは複数の妥当性確認アルゴリズム、ならびに方法、装置、またはコンピュータプログラムの1つまたは複数の図形表示を選択するために選ばれ得る。
本明細書が取り上げるシステムは、コンピュータシステムの一般的なコンポーネント、例えばネットワークサーバー、ラップトップシステム、デスクトップシステム、ハンドヘルドシステム、パーソナルデジタルアシスタント、公衆コンピュータ(computing kiosk)等を含み得る。コンピュータシステムは、ユーザーがデータをシステムに入力できるようにする1つまたは複数のインプット手段、例えばキーボード、タッチスクリーン、マウス、音声認識手段、または他の手段等を含み得る。システムは、ディスプレイスクリーン(例えば、CRTまたはLCD)、スピーカー、ファックス機、プリンター(例えば、レーザー式、インクジェット式、インパクト式、白黒またはカラープリンター)、または情報の視覚的、聴覚的および/もしくはハードコピーアウトプットを提供するのに有用な他のアウトプット(例えば、結果および/またはレポート)を含むが、これらに限定されない、1つまたは複数のアウトプットをさらに含み得る。
システムでは、インプットおよびアウトプット手段は、コンポーネントの中でもとりわけ、プログラムインストラクションを実行するマイクロプロセッサ、ならびにプログラムコードおよびデータを保管するメモリを含み得る中央処理ユニットと接続され得る。一部の実施形態では、処理は、単一の地理的箇所に所在する単一のユーザーシステムとして実施され得る。ある特定の実施形態では、処理は、マルチユーザーシステムとして実施され得る。マルチユーザーで実施される場合、複数の中央処理ユニットが、ネットワークによって接続され得る。ネットワークは、建物の一部内の一部門、建物全体に波及するようにローカルであり、複数の建物にまたがり、1つの領域にまたがり、国全体にまたがり、または世界規模であり得る。ネットワークは個人的であり、プロバイダーにより所有、および管理され得る、またはユーザーが情報を入力および取り出すためにウェブページにアクセスするような、インターネットに基づくサービスとして実施され得る。したがって、ある特定の実施形態では、システムは、ユーザーにとってローカルまたはリモートであり得る1つまたは複数の機械を含む。1つの場所または複数の場所にある1つ超の機械に、ユーザーはアクセスでき、データは、連続しておよび/または並行してマッピングおよび/または処理され得る。したがって、適する構成および制御法が、ローカルネットワーク、リモートネットワーク、および/または「クラウド」コンピューティングプラットフォーム等において、複数の機械を使用してデータをマッピングおよび/または処理するのに利用できる。
システムは、一部の実施形態では、コミュニケーションインターフェースを含み得る。コミュニケーションインターフェースは、コンピュータシステムと1つまたは複数の外部デバイスの間で、ソフトウェアおよびデータを移送できるようにする。コミュニケーションインターフェースの非限定的な例として、モデム、ネットワークインターフェース(イーサーネットカード等)、コミュニケーションポート、PCMCIAスロットとカード等が挙げられる。コミュニケーションインターフェース経由で移送したソフトウェアおよびデータは、一般的にシグナルの形態を取り、これは、電子シグナル、電磁気シグナル、光学シグナル、および/またはコミュニケーションインターフェースにより受信される他のシグナルであり得る。シグナルは、多くの場合、チャネルを介してコミュニケーションインターフェースに提供される。チャネルは、多くの場合、シグナルを担持し、ワイヤーまたはケーブル、ファイバーオプティックス、電話線、携帯電話リンク、RFリンク、および/または他のコミュニケーションチャネルを使用して実施され得る。したがって、1つの例では、コミュニケーションインターフェースは、シグナル検出モジュールにより検出できるシグナル情報を受信するのに使用できる。
データは、マニュアルインプットデバイスまたはダイレクトデータ入力デバイス(DDE)を含むが、これらに限定されない、適するデバイスおよび/または方法によりインプットできる。マニュアルデバイスの非限定的な例として、キーボード、コンセプトキーボード、タッチ感応式スクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナー、デジタルカメラ、ビデオデジタイザー、および音声認識デバイスが挙げられる。DDEの非限定的な例として、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学式文字認識、光学式マーク認識、およびターンアラウンドドキュメントが挙げられる。
一部の実施形態では、配列決定装置からのアウトプットは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、マッピングされた配列の読取りは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、シミュレーションデータは、インシリコ処理により生成され、またシミュレーション後のデータは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。用語「インシリコ」とは、コンピュータを使用して行う研究および実験を指す。インシリコ処理は、本明細書に記載する処理により、配列の読取りをマッピングすること、およびマッピングされた配列の読取りを処理することを含むが、これらに限定されない。
システムには、本明細書に記載する処理を行うために有用なソフトウェアを含むことができ、ソフトウェアは、かかる処理を行う1つまたは複数のモジュールを含み得る(例えば、配列決定モジュール、論理処理モジュール、データディスプレイ組織化モジュール)。用語「ソフトウェア」は、コンピュータにより実行されると、コンピュータ操作を行う、コンピュータ読取り可能プログラムのインストラクションを指す。1つまたは複数のプロセッサにより実行可能なインストラクションは、実行されると、1つまたは複数のプロセッサに本明細書に記載する方法を実施させることができる実行可能なコードとして提供される場合もある。本明細書に記載するモジュールは、ソフトウェアとして存在し得、ソフトウェアに組み込まれたインストラクション(例えば、処理、ルーチン、サブルーチン)が、プロセッサにより実施または行われ得る。例えば、モジュール(例えば、ソフトウェアモジュール)は、特定の処理またはタスクを行うプログラムの一部であり得る。用語「モジュール」は、より大型の装置またはソフトウェアシステムで使用できる自己完結型の機能ユニットを指す。モジュールは、モジュールの機能を実施する一連のインストラクションを含み得る。モジュールは、データおよび/または情報を変換することができる。データおよび/または情報は、適する形態であり得る。例えば、データおよび/または情報は、デジタルまたはアナログであり得る。ある特定の実施形態では、データおよび/または情報は、パケット、バイト、符号、またはビットであり得る。一部の実施形態では、データおよび/または情報は、任意の収集、集積された、または使用可能なデータまたは情報であり得る。データおよび/または情報の非限定的な例として、適するメディア、画像、ビデオ、音声(例えば、周波数、可聴または非可聴)、番号、定数、値、物体、時間、機能、インストラクション、マップ、参照、配列、読取り、マッピングされた読取り、レベル、範囲、閾値、シグナル、ディスプレイ、表示、またはそれらの変換物が挙げられる。モジュールは、データおよび/または情報を受け入れまたは受信し、データおよび/または情報を第2の形態に変換し、第2の形態を装置、周辺機器、コンポーネント、または別のモジュールに提供または移送することができる。モジュールは、1つまたは複数の下記の非限定的な機能を行うことができる:例えば、参照ゲノム、またはそのパートを区分化する、配列の読取りをマッピングする、カウント数を得る、部分を集積する、レベルを得るまたは決定する、カウント数プロファイルを得る、正規化する(例えば、読取りの正規化、カウント数の正規化等)、正規化されたカウント数プロファイルまたは正規化されたカウント数のレベルを得る、2つまたはそれ超のレベルを比較する、不確実性の値を得る、予想されるレベルおよび予想される範囲(例えば、予想されるレベル範囲、閾値範囲、および閾値レベル)を得るまたは決定する、レベルに調整を施す(例えば、第1のレベルの調整、第2のレベルの調整、染色体もしくはそのセグメントのプロファイルの調整、および/またはパディング)、識別情報を得る(例えば、コピー数の変動、遺伝子の変動、または染色体異数性を識別する)、分類する、プロットする、および/または結果を決定する。プロセッサは、ある特定の実施形態では、モジュール内でインストラクションを実施することができる。一部の実施形態では、1つまたは複数のプロセッサは、モジュールまたはモジュール群内でインストラクションを実施するように要求される。モジュールは、データおよび/または情報を別のモジュール、装置、またはソースに提供することができ、ならびにデータおよび/または情報を別のモジュール、装置、またはソースから受信することができる。
コンピュータプログラム製品は、実体的なコンピュータ読取り可能メディアに組み込まれる場合もあれば、また非一時的コンピュータ読取り可能メディアに実体的に組み込まれる場合もある。モジュールは、コンピュータ読取り可能メディア(例えば、ディスク、ドライブ)上またはメモリ(例えば、ランダムアクセスメモリ)内に保管される場合もある。モジュールからのインストラクションを実施する能力を有するモジュールおよびプロセッサは、ある装置内または異なる装置内に所在し得る。モジュールに関するインストラクションを実施する能力を有するモジュールおよび/またはプロセッサは、ユーザーと同じ場所(例えば、ローカルネットワーク)、またはユーザーとは異なる場所(例えば、リモートネットワーク、クラウドシステム)に所在し得る。方法が、2つまたはそれ超のモジュールと併せて実施される複数の実施形態では、モジュールは、同一装置内に所在してもよく、1つまたは複数のモジュールは、物理的な場所が同一である異なる装置内に所在してもよく、1つまたは複数のモジュールは、物理的な場所が異なる、異なる装置内に所在してもよい。
装置は、一部の実施形態では、モジュール内のインストラクションを実施する少なくとも1つのプロセッサを含む。参照ゲノムの部分に対してマッピングされた配列の読取りのカウント数には、本明細書に記載する方法を実施するように構成されたインストラクションを実行するプロセッサからアクセスする場合がある。プロセッサがアクセスするカウント数は、システムのメモリ内にあってもよく、カウント数は、その取得後にアクセス可能およびシステムのメモリ内に配置可能である。一部の実施形態では、装置はプロセッサ(例えば、1つまたは複数のプロセッサ)を含み、同プロセッサは、モジュールからの1つまたは複数のインストラクション(例えば、処理、ルーチン、および/またはサブルーチン)を行うおよび/また実施することができる。一部の実施形態では、装置は、並行同調化作動型のプロセッサ等の複数のプロセッサを含む。実施おの実施形態では、装置は、1つまたは複数の外部プロセッサ(例えば、内部または外部のネットワーク、サーバー、保管デバイス、および/または保管ネットワーク(例えば、クラウド))と共に稼働する。一部の実施形態では、装置はモジュールを含む。ある特定の実施形態では、装置は、1つまたは複数のモジュールを含む。モジュールを含む装置は、多くの場合、1つまたは複数のデータおよび/または情報を、他のモジュールから受信し、またそれに対して移送することができる。ある特定の実施形態では、装置は周辺機器および/またはコンポーネントを含む。ある特定の実施形態では、装置は、データおよび/または情報を、他のモジュール、周辺機器、および/またはコンポーネントに対して、およびこれらから移送することができる1つまたは複数の周辺機器またはコンポーネントを含み得る。ある特定の実施形態では、装置は、データおよび/または情報を提供する周辺機器および/またはコンポーネントと相互作動する。ある特定の実施形態では、周辺機器およびコンポーネントは、装置がある機能を実施するのを支援する、またはモジュールと直接相互作動する。周辺機器および/またはコンポーネントの非限定的な例として、適したコンピュータ周辺機器、I/Oもしくは保管方法、またはデバイスが挙げられ、これにはスキャナー、プリンター、ディスプレイ(例えば、モニター、LED、LCT、またはCRT)、カメラ、マイクロフォン、パッド(例えば、ipad、タブレット)、タッチスクリーン、スマートフォン、携帯電話、USB I/Oデバイス、USB大容量記憶デバイス、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、プロセッサ、サーバー、CD、DVD、グラフィックカード、特殊I/Oデバイス(例えば、シーケンサー、フォトセル、光電子増倍管、光学読取り装置、センサー等)、1つまたは複数のフローセル、流体ハンドリングコンポーネント、ネットワークインターフェースコントローラー、ROM、RAM、無線転送方法およびデバイス(ブルートゥース(登録商標)、WiFi等)、ワールドワイドウェブ(www)、インターネット、コンピュータおよび/または別のモジュールが含まれるが、これらに限定されない。
ソフトウェアは、多くの場合、コンピュータ読取り可能メディアに記録されているプログラムインストラクションを含有するプログラム製品上に提供され、そのようなメディアとして、フロッピー(登録商標)ディスク、ハードディスク、および磁気テープを含む磁気メディア;ならびにCD-ROMディスク、DVDディスク、光磁気ディスクを含む光学式メディア、フラッシュドライブ、RAM、フロッピー(登録商標)ディスク等、およびプログラムインストラクションが記録可能である他のそのようなメディアが挙げられるが、これらに限定されない。オンラインで実施する際には、組織により維持されるサーバーおよびウェブサイトは、ソフトウェアダウンロードをリモートユーザーに提供するように構成され得る、またはリモートユーザーは、組織により維持されるリモートシステムにアクセスして、遠隔的にソフトウェアにアクセスすることができる。ソフトウェアはインプット情報を取得または受信することができる。ソフトウェアは、データを具体的に取得または受信するモジュール(例えば、配列の読取りデータおよび/またはマッピングされた読取りデータを受信するデータ受信モジュール)を含み得、データを具体的に処理するモジュール(例えば、受信したデータを処理する処理モジュール(例えば、結果および/またはレポートをフィルター処理する、正規化する、提供する))を含み得る。用語、インプット情報を「取得する」および「受信する」とは、ローカルもしくはリモートサイトからコンピュータコミュニケーション手段により、ヒトがデータ入力することにより、または任意の他のデータ受信方法により、データ(例えば、配列の読取り、マッピングされた読取り)を受信することを指す。インプット情報は、受信した場所と同一の場所で生成される場合もあれば、異なる場所で生成され、受信場所に移転される場合もある。一部の実施形態では、インプット情報は、処理される前に修正される(例えば、処理しやすいフォーマット(例えば、表形式)に配置される)。
一部の実施形態では、例えば、その中に、コンピュータ読取り型プログラムコードであって、(a)試験対象に由来する試料核酸の配列の読取りを得るステップと;(b)参照ゲノム、またはそのパートを区分化するステップと;(c)(a)において得られた配列の読取りを参照ゲノムへとマッピングするステップであり、参照ゲノムが、部分へと、(b)における区分化に従って分割されているステップと;(d)部分中の、マッピングされた配列の読取りをカウントするステップと;(e)(d)において得られた部分について、カウント数を正規化することにより、試料の正規化されたカウント数プロファイルを生成するステップと;(f)(e)における、試料の正規化されたカウント数プロファイルから、遺伝子の変動の存在または非存在を決定するステップとを含む方法を実装するのに実行されるよう適合させたコンピュータ読取り型プログラムコードを組み込んだ、コンピュータ使用型メディアを含む、コンピュータプログラム製品などのコンピュータプログラム製品が提供される。
ある特定の実施形態では、ソフトウェアは1つまたは複数のアルゴリズムを含み得る。アルゴリズムは、データを処理するのに、および/または有限列のインストラクションにより、結果またはレポートを得るのに使用できる。アルゴリズムは、多くの場合、タスクを完了するための規定されたインストラクションのリストである。初期状態から開始し、インストラクションは、規定された一連の連続した状態を経由して進行し、最終的に最終エンディング状態で終了する演算について記載し得る。1つの状態から次の状態への移行は必ずしも確定的ではない(例えば、一部のアルゴリズムには、偶然性が取り込まれる)。例として、アルゴリズムは、非限定的にサーチアルゴリズム、ソーティングアルゴリズム、統合アルゴリズム、数値アルゴリズム、グラフアルゴリズム、ストリングアルゴリズム、モデリングアルゴリズム、計算型幾何アルゴリズム、コンビナトリアルアルゴリズム、機械学習アルゴリズム、クリプトグラフィーアルゴリズム、データ圧縮アルゴリズム、パージングアルゴリズム等であり得る。アルゴリズムは、1つのアルゴリズムまたは組み合わせて作動する2つもしくはそれ超のアルゴリズムを含み得る。アルゴリズムは、任意の適する複雑性クラス、および/またはパラメータ化された複雑性のものであってもよい。アルゴリズムは計算および/またはデータ処理するのに使用することができ、一部の実施形態では、確定的または確率的/予測的なアプローチで使用することができる。アルゴリズムは、適するプログラミング言語を使用することにより、演算環境内で実施可能であり、そのような言語の非限定的な例として、C、C++、Java(登録商標)、Perl、Python、Fortran等がある。一部の実施形態では、アルゴリズムは、許容誤差、統計分析、統計的有意性、および/または他の情報もしくはデータセットとの比較(例えば、ニューラルネットまたはクラスタリングアルゴリズムを使用する際に適用可能)を含むように構成または修正され得る。
ある特定の実施形態では、いくつかのアルゴリズムが、ソフトウェア内で使用するために実施され得る。これらのアルゴリズムは、一部の実施形態では、生データを用いてトレーニング可能である。新しい生データ試料毎に、トレーニングされたアルゴリズムは、代表的な処理済みデータセットまたは結果を生成し得る。処理済みのデータセットは、処理された親データセットと比較して複雑性が低減されたものの場合もある。処理済みのセットに基づき、一部の実施形態では、感度および特異性に基づきトレーニングされたアルゴリズムの性能を評価することができる。最高の感度および/または特異性を有するアルゴリズムが、ある特定の実施形態では、識別および利用され得る。
ある特定の実施形態では、シミュレーションされた(またはシミュレーション)データが、例えばアルゴリズムをトレーニングするまたはアルゴリズムを試験することによりデータ処理を補助することができる。一部の実施形態では、シミュレーションされたデータには、配列の読取りの異なるグルーピングの、仮想的な様々なサンプリングが含まれる。シミュレーションされたデータでは、何が真の母集団から予想されるか、またはアルゴリズムを試験する、および/または正しい分類を割り当てる際に何に歪みが生じ得るか、が基準となり得る。また、シミュレーションされたデータは、本明細書では、「仮想」データとも呼ばれる。シミュレーションは、ある特定の実施形態では、コンピュータプログラムにより行われ得る。シミュレーションされたデータセットを使用する際の1つの考え得るステップは、識別された結果の信頼度を評価すること、例えばランダムサンプリングが、どのくらい良好にオリジナルデータと一致するか、またはオリジナルデータを最好に代表するか、評価することである。1つのアプローチは、確率値(p値)を計算することであり、この値は、ランダム試料が選択された試料より良好なスコアを有する確率を推定する。一部の実施形態では、経験的モデルが評価される場合があり、この場合、少なくとも1つの試料が参照試料と一致することを前提とする(分解変動の有無を問わない)。一部の実施形態では、例えばポアソン分布等の別の分布が、確率分布を規定するのに使用することができる。
システムは、ある特定の実施形態では、1つまたは複数のプロセッサを含み得る。プロセッサは、コミュニケーションバスと接続され得る。コンピュータシステムは、メインメモリ、多くの場合ランダムアクセスメモリ(RAM)を含み得、二次メモリも含むことができる。一部の実施形態では、メモリは、非一時的コンピュータ読取り可能保管メディアを含む。二次メモリは、例えばハードディスクドライブおよび/またはリムーバブルストレージドライブを含み、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学式ディスクドライブ、メモリカード等がこれに該当し得る。リムーバブルストレージドライブは、多くの場合、リムーバブルストレージユニットから読み取る、および/またはこれに書き込む。リムーバブルストレージユニットの非限定的な例として、フロッピー(登録商標)ディスク、磁気テープ、光学式ディスク等が挙げられ、例えばリムーバブルストレージドライブにより、読取りおよび書き込み可能である。リムーバブルストレージユニットは、コンピュータソフトウェアおよび/またはデータを内蔵するコンピュータ使用可能ストレージメディアを含み得る。
プロセッサは、システム内でソフトウェアを実施可能である。一部の実施形態では、プロセッサは、ユーザーが行うことができる、本明細書に記載するタスクを自動的に行うようにプログラムされ得る。したがって、プロセッサまたはかかるプロセッサにより実施されるアルゴリズムは、ユーザーによる監視またはインプットを、ほとんどまたはまったく必要としないと考えられる(例えば、ソフトウェアは、機能を自動的に実施するようにプログラムされ得る)。一部の実施形態では、処理はあまりにも複雑であり、一人の個人であっても、また個人の群であっても、遺伝子の変動の有無を決定するのに十分短いタイムフレーム内で処理を行うことは不可能である。
一部の実施形態では、二次メモリは、コンピュータプログラムまたは他のインストラクションをコンピュータシステムにロードできるようにするために、他の類似した手段を含み得る。例えば、システムは、リムーバブルストレージユニットおよびインターフェースデバイスを含み得る。かかるシステムの非限定的な例として、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲームデバイスに見出されるもの等)、リムーバブルメモリチップ(EPROMまたはPROM等)、および関連するソケット、ならびにソフトウェアおよびデータをリムーバブルストレージユニットからコンピュータシステムに移動できるようにする、他のリムーバブルストレージユニットおよびインターフェースが挙げられる。
1つの実体は、配列の読取りのカウント数を生成し、参照ゲノム、またはそのパートを区分化し、配列の読取りを、部分へとマッピングし、マッピングされた読取りをカウントし、カウントされた、マッピングされた読取りを、本明細書の一部の実施形態で記載される方法、システム、装置、またはコンピュータプログラム製品において利用しうる。ある特定の実施形態では、部分に対してマッピングされた配列の読取りのカウント数は、本明細書に記載する方法、システム、装置、またはコンピュータプログラム製品において、第2の実体が使用するために、1つの実体により、第2の実体に移動される場合もある。
一部の実施形態では、1つの実体は配列の読取りを生成し、一部の実施形態では、第2の実体はその配列の読取りを参照ゲノム内の部分に対してマッピングする。第2の実体は、マッピングされた読取りをカウント数計測し、カウント数計測後のマッピングされた読取りを、本明細書に記載する方法、システム、装置、またはコンピュータプログラム製品において利用する場合がある。ある特定の実施形態では、第2の実体は、マッピングされた読取りを第3の実体に移送し、第3の実体は、マッピングされた読取りをカウント数計測し、マッピングされた読取りを、本明細書に記載する方法、システム、装置、またはコンピュータプログラム製品において利用する。ある特定の実施形態では、第2の実体は、マッピングされた読取りをカウント数計測し、カウント数計測後のマッピングされた読取りを第3の実体に移送し、第3の実体は、カウント数計測後のマッピングされた読取りを、本明細書に記載する方法、システム、装置、またはコンピュータプログラム製品において利用する。第3の実体が関与する実施形態では、第3の実体は、第1の実体と同一である場合もある。すなわち、第1の実体は、場合によって、配列の読取りを、第2の実体へと転送し、この第2の実体は、配列の読取りを、参照ゲノム(例えば、区分化された参照ゲノム、またはそのパート)中の部分へとマッピングし、かつ/またはマッピングされた読取りをカウントし、第2の実体は、マッピングおよび/またはカウントされた読取りを、第3の実体へと転送しうる。第3の実体は、マッピング後および/またはカウント数計測後の読取りを本明細書に記載する方法、システム、装置、またはコンピュータプログラム製品において利用することができる場合もあり、この場合、第3の実体は第1の実体と同一である場合もあれば、第3の実体は第1または第2の実体とは異なる場合もある。一部の実施形態では、第4の実体は、区分化された参照ゲノム、またはそのパートを生成する。
一部の実施形態では、1つの実体は、妊娠中の雌から血液を取得し、任意選択で血液から(例えば、血漿または血清から)核酸を単離し、核酸から配列の読取りを生成する第2の実体に血液または核酸を移送する。
図12は、本明細書に記載する様々なシステム、方法、アルゴリズム、およびデータ構造の実施が可能である演算環境510の非限定的な例を示す。演算環境510は、適する演算環境の1つの例に過ぎず、本明細書に記載するシステム、方法、およびデータ構造の使用の範囲または機能性について何らかの制限を示唆するようには意図されない。また、演算環境510は、演算環境510に示すコンポーネントの任意の1つまたはその組合せと関連する何らかの依存性または要件を有するものと解釈してはならない。図12に示すシステム、方法、およびデータ構造のサブセットは、ある特定の実施形態で利用可能である。本明細書に記載するシステム、方法、およびデータ構造は、非常に多くの他の汎用または専用の演算システム環境またはコンフィギュレーションと共に運用可能である。適すると考えられる公知の演算システム、環境、および/またはコンフィギュレーションの例として、パーソナルコンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、携帯式またはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサに基づくシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを含む分散型演算環境等が挙げられるが、これらに限定されない。
図12のオペレーティング環境510はコンピュータ520の形態の汎用演算デバイスを含み、これには、処理ユニット521、システムメモリ522、およびシステムメモリ522を含む様々なシステムコンポーネントを処理ユニット521に作動可能に連結させるシステムバス523が含まれる。コンピュータ520のプロセッサが、単一の中央処理ユニット(CPU)または並列処理環境と一般的に呼ばれる複数の処理ユニットを含むように、処理ユニット521は1つのみ存在し得る、または1つ超存在し得る。コンピュータ520は、従来型コンピュータ、分散型コンピュータ、またはあらゆる他の種類のコンピュータであり得る。
システムバス523は、メモリバスまたはメモリコントローラー、周辺バス、および様々なバスアーキテクチャーのいずれかを使用するローカルバスを含む、任意の数種類のバス構造であり得る。また、システムメモリは、単にメモリと呼ばれる場合もあり、リードオンリメモリ(ROM)524およびランダムアクセスメモリ(RAM)を含む。立ち上げ時等に、コンピュータ520内のエレメント間の情報移送に役立つ基本ルーチンを含む基本入出力システム(BIOS)526は、ROM524に保管される。コンピュータ520は、図示しないがハードディスクから読み出し、これに書き込むハードディスクドライブインターフェース527、リムーバブル磁気ディスク529から読み出し、これに書き込む磁気ディスクドライブ528、およびリムーバブル光学式ディスク531、例えばCD ROMまたは他の光学式メディアから読み出し、これに書き込む光学式ディスクドライブ530をさらに含み得る。
ハードディスクドライブ527、磁気ディスクドライブ528、および光学式ディスクドライブ530は、ハードディスクドライブインターフェース532、磁気ディスクドライブインターフェース533、および光学式ディスクドライブインターフェース534により、システムバス523とそれぞれ接続される。ドライブおよびその関連するコンピュータ読取り可能メディアは、コンピュータ読取り可能インストラクション、データ構造、プログラムモジュール、およびコンピュータ520用の他のデータの不揮発性の保管を提供する。コンピュータがアクセス可能なデータを保管することができる、あらゆる種類のコンピュータ読取り可能メディア、例えば磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)等が、オペレーティング環境内で使用することができる。
いくつかのプログラムモジュールが、オペレーティングシステム535、1つまたは複数のアプリケーションプログラム536、他のプログラムモジュール537、およびプログラムデータ538を含む、ハードディスク、磁気ディスク529、光学式ディスク531、ROM524、またはRAM上に保管され得る。ユーザーは、コマンドおよび情報を、インプットデバイス、キーボード540およびポインティングデバイス542等を通じてパーソナルコンピュータ520に入力することができる。他のインプットデバイス(図示せず)として、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディシュ、スキャナー等を挙げることができる。これらおよび他のインプットデバイスが、多くの場合、システムバスに連結したシリアルポートインターフェース546を経由して処理ユニット521と接続されるが、他のインターフェース、例えばパラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)により接続される場合もある。モニター547または他の種類のディスプレイデバイスも、インターフェース、例えばビデオアダプター548を介してシステムバス523と接続される。モニターに加えて、コンピュータは、他の周辺アウトプットデバイス(図示せず)、例えばスピーカーおよびプリンターを一般的に含む。
コンピュータ520は、1つまたは複数のリモートコンピュータ、例えばリモートコンピュータ549との論理接続を使用して、ネットワーク化した環境内で作動可能である。これらの論理接続は、コンピュータ520もしくはその一部と連結しているコミュニケーションデバイスにより、または他の方式で達成され得る。図12ではメモリストレージデバイス550しか示さなかったが、リモートコンピュータ549は、別のコンピュータ、サーバー、ルーター、ネットワークPC、クライアント、ピアデバイス、もしくは他の一般的なネットワークノードであり得、コンピュータ520と関連して上記エレメントの多くまたは全てを一般的に含む。図12に示す論理接続として、ローカルエリアネットワーク(LAN)551およびワイドエリアネットワーク(WAN)552が挙げられる。かかるネットワーク環境は、オフィスネットワーク、全社的コンピュータネットワーク、イントラネット、およびインターネットでは普通であり、そのいずれも典型的なネットワークである。
LAN-ネットワーク環境で使用する場合、コンピュータ520は、コミュニケーションデバイスの一種であるローカルネットワーク551と、ネットワークインターフェースまたはアダプター553を介して接続される。WAN-ネットワーク環境で使用する場合、コンピュータ520は、多くの場合、コミュニケーションデバイスの一種であるモデム554、またはワイドエリアネットワーク552全体にわたりコミュニケーションを確立するために他の任意の種類のコミュニケーションデバイスを含む。モデム554は、内部または外部であってもよいが、シリアルポートインターフェース546を介してシステムバス523と接続される。ネットワーク化された環境では、パーソナルコンピュータ520またはその一部と関連して示されるプログラムモジュールは、リモートメモリストレージデバイス内に保管され得る。示すようなネットワーク接続は非限定的な例であり、またコンピュータ間のコミュニケーションリンクを確立するための他のコミュニケーションデバイスも使用することができると認識される。
モジュール
1つまたは複数のモジュールが本明細書に記載する方法で利用可能であり、その非限定的な例として、論理処理モジュール、配列決定モジュール、区分化モジュール、マッピングモジュール、カウント数計測モジュール、フィルタリングモジュール、重み付けモジュール、正規化モジュール、GC偏りモジュール、レベルモジュール、比較モジュール、範囲設定モジュール、分類モジュール、プロッティングモジュール、表示モジュール、関連性モジュール、アウトカムモジュール、および/またはデータディスプレイ組織化モジュール等、またはその組合わが挙げられる。モジュールは、マイクロプロセッサにより管理される場合もある。ある特定の実施形態では、モジュールまたは1つもしくは複数のモジュールを含む装置は、別のモジュール、装置、コンポーネント、周辺機器、または装置のオペレーターに、またはそれらから、データおよび/または情報を収集、集積、受信、取得、アクセス、回収、提供、および/または移送する。一部の実施形態では、データおよび/または情報(例えば、配列決定の読取り)は、下記の1つまたは複数を含む装置によりモジュールに提供される:1つまたは複数のフローセル、カメラ、検出器(例えば、光検出器、フォトセル、電気的検出器(例えば、振幅変調検出器、周波数および位相変調検出器、位相ロックループ検出器)、カウンター、センサー(例えば、圧力、温度、容積、フロー、重量のセンサー)、流体ハンドリングデバイス、プリンター、ディスプレイ(例えば、LED、LCT、またはCRT)等またはその組合せ。例えば、装置のオペレーターは、定数、閾値、式、または事前に決定された値をモジュールに提供する場合もある。モジュールは、多くの場合、データおよび/または情報を、別のモジュールもしくは装置に、またはそれから移送するように構成される。モジュールは、別のモジュールからデータおよび/または情報を受信することができ、その非限定的な例として、論理処理モジュール、配列決定モジュール、区分化モジュール、マッピングモジュール、カウント数計測モジュール、フィルタリングモジュール、重み付けモジュール、正規化モジュール、GC偏りモジュール、レベルモジュール、比較モジュール、範囲設定モジュール、分類モジュール、プロッティングモジュール、表示モジュール、関連性モジュール、アウトカムモジュール、および/またはデータディスプレイ組織化モジュール等またはその組合せが挙げられる。モジュールは、データおよび/または情報を操作および/または変換することができる。モジュールに由来する、またはモジュールにより変換されたデータおよび/または情報は、別の適する装置および/またはモジュールに移送することができ、その非限定的な例として、論理処理モジュール、配列決定モジュール、区分化モジュール、マッピングモジュール、カウント数計測モジュール、フィルタリングモジュール、重み付けモジュール、正規化モジュール、GC偏りモジュール、レベルモジュール、比較モジュール、範囲設定モジュール、分類モジュール、プロッティングモジュール、表示モジュール、関連性モジュール、アウトカムモジュール、および/またはデータディスプレイ組織化モジュール等またはその組合せが挙げられる。モジュールを含む装置は、少なくとも1つのプロセッサを含み得る。一部の実施形態では、データおよび/または情報は、モジュールを含む装置により受信および/または提供される。モジュールを含む装置は、プロセッサを含むことができ(例えば、1つまたは複数のプロセッサ)、そのようなプロセッサは、モジュールの1つまたは複数のインストラクション(例えば、処理、ルーチン、および/またはサブルーチン)を行うおよび/または実施することができる。一部の実施形態では、モジュールは、1つまたは複数の外部プロセッサ(例えば、内部または外部のネットワーク、サーバー、ストレージデバイス、および/またはストレージネットワーク(例えば、クラウド))と共に作動する。
論理処理モジュール
ある特定の実施形態では、論理処理モジュールは、データおよび/もしくは情報、またはデータおよび/もしくは情報を1つもしくは複数のその他のモジュール、周辺機器、もしくはデバイスに対し、およびそれから移送する際のその移送について、統合、管理、制限、組織化、命令、流布、分割、変換、および/もしくは制御する。
データディスプレイ組織化モジュール
ある特定の実施形態では、データディスプレイ組織化モジュールは、データおよび/または情報を適する可視的メディアに処理および/または変換するが、そのメディアの非限定的な例として、画像、ビデオおよび/またはテキスト(例えば、数字、文字、およびシンボル)が挙げられる。一部の実施形態では、データディスプレイ組織化モジュールは、適するディスプレイ(例えば、モニター、LED、LCD、CRT等、またはその組合せ)、プリンター、適する周辺機器、またはデバイス上に表示するために、データおよび/または情報を、処理、変換、および/または移送する。一部の実施形態では、データディスプレイ組織化モジュールは、胎仔または母体のゲノム、染色体、またはその一部のデータおよび/または情報を可視的表示に処理、変換する。
配列決定モジュール
一部の実施形態では、配列モジュールは、配列の読取りを取得、生成、収集、集積、操作、変換、処理、変換、および/または移送する。「配列受信モジュール」は、本明細書で使用する場合、「配列決定モジュール」と同じである。配列決定モジュールを含む装置は、当技術分野において公知の配列決定技術を利用して核酸の配列を決定するあらゆる装置であり得る。一部の実施形態では、配列決定モジュールは、配列の読取りを整列、集積、断片化、補完、逆補完、エラーチェック、またはエラー修正することができる。
区分化モジュール
参照ゲノムまたはそのパート(例えば、参照ゲノム中の染色体、またはそのパート)は、区分化モジュールにより区分化することができる。区分化モジュールは、本明細書で記載される方法により、参照ゲノム、またはそのパートを区分化することができる。一部の実施形態では、区分化モジュールまたは区分化モジュールを含む装置は、区分化された参照ゲノム、またはそのパートをもたらすのに必要とされる。
マッピングモジュール
配列の読取りは、マッピングモジュールにより、またはマッピングモジュールを含む装置によりマッピング可能であり、このマッピングモジュールは、一般的に、参照ゲノムまたはそのセグメントに対して読取りをマッピングする。マッピングモジュールは、配列決定の読取りを、当技術分野において公知の適する方法によりマッピング可能である。一部の実施形態では、マッピングモジュールまたはマッピングモジュールを含む装置は、マッピングされた配列の読取りを提供するように要求される。
カウント数計測モジュール
カウント数は、カウント数計測モジュールまたはカウント数計測モジュールを含む装置により提供され得る。一部の実施形態では、カウント数計測モジュールは、参照ゲノムに対してマッピングされた配列の読取りをカウント数計測する。一部の実施形態では、カウント数計測モジュールは、当技術分野において公知のカウント数計測法により、カウント数を生成、集積、および/または提供する。一部の実施形態では、カウント数計測モジュールまたはカウント数計測モジュールを含む装置は、カウント数を提供するように要求される。
フィルタリングモジュール
フィルタリング部分(例えば、参照ゲノムの部分)は、フィルタリングモジュールにより(例えば、フィルタリングモジュールを含む装置により)提供され得る。一部の実施形態では、フィルタリングモジュールは、フィルター処理された部分のデータ(例えば、フィルター処理された部分)を提供する、および/または検討から部分を除去するように要求される。ある特定の実施形態では、フィルタリングモジュールは、部分に対してマッピングされたカウント数を検討から除去する。ある特定の実施形態では、フィルタリングモジュールは、部分に対してマッピングされたカウント数を、レベルまたはプロファイルの決定から除去する。フィルタリングモジュールは、当技術分野において公知の、または本明細書に記載する1つまたは複数のフィルタリング法により、データ(例えば、カウント数、部分に対してマッピングされたカウント数、部分、部分のレベル、正規化されたカウント数、未処理のカウント数等)をフィルタリングすることができる。
重み付けモジュール
重み付け部分(例えば、参照ゲノムの部分)は、重み付けモジュールにより(例えば、重み付けモジュールを含む装置により)提供され得る。一部の実施形態では、重み付けモジュールは、ゲノム区分を重み付けする、および/または重み付けされた部分の値を提供するように要求される。重み付けモジュールは、当技術分野において公知の、または本明細書に記載する1つまたは複数の重み付け法により、部分を重み付けすることができる。
正規化モジュール
正規化されたデータ(例えば、正規化されたカウント数)は、正規化モジュールにより(例えば、正規化モジュールを含む装置により)提供され得る。一部の実施形態では、正規化モジュールは、配列決定の読取りから得られた正規化されたデータ(例えば、正規化されたカウント数)を提供するように要求される。正規化モジュールは、本明細書に記載する、または当技術分野において公知の1つまたは複数の正規化法(例えば、ChAI、ハイブリッド式の正規化等またはその組合せ)により、データ(例えば、カウント数、フィルター処理されたカウント数、未処理のカウント数)を正規化することができる。
GC偏りモジュール
GCの偏りを決定すること(例えば、参照ゲノムの部分(例えば、部分、参照ゲノムの部分)のそれぞれについてGCの偏りを決定すること)は、GC偏りモジュールにより(例えば、GC偏りモジュールを含む装置により)提供され得る。一部の実施形態では、GC偏りモジュールは、GCの偏りの決定を提供するように要求される。一部の実施形態では、GC偏りモジュールは、参照ゲノムの部分のそれぞれに対してマッピングした配列の読取りのカウント数と各部分のGC含有量との間で適合させた関係(例えば、線形適合関係)からGCの偏りの決定を提供する。GC偏りモジュールは、正規化モジュール(例えば、ChAI正規化モジュール)の一部分である場合もある。
レベルモジュール
参照ゲノムの部分についてレベル(例えば、レベル)を決定すること、および/またはゲノム区分のレベルを計算することは、レベルモジュールにより(例えば、レベルモジュールを含む装置により)提供され得る。一部の実施形態では、レベルモジュールは、レベルまたは計算されたゲノム区分のレベル(例えば、式IまたはIIによる)を提供するように要求される。一部の実施形態では、レベルモジュールは、GCの偏りと参照ゲノムの部分のそれぞれに対してマッピングした配列の読取りのカウント数との間で適合させた関係(例えば、線形適合関係)からレベルを提供する。一部の実施形態では、レベルモジュールは、式L=(m-GS)I-1により、ゲノム区分のレベル(すなわち、L)を提供し、式中GはGCの偏り、mは参照ゲノムの各部分に対してマッピングした測定カウント数であり、iは試料であり、Iは切片、SはGCの偏りと参照ゲノムの部分のそれぞれに対してマッピングした配列の読取りのカウント数との間で適合させた関係(例えば、線形適合関係)の勾配である。
比較モジュール
第1のレベルは、比較モジュールまたは比較モジュールを含む装置により、第2のレベルとは有意に異なるものとして識別され得る。一部の実施形態では、比較モジュールまたは比較モジュールを含む装置は、2つレベル間の比較を提供するように要求される。
範囲設定モジュール
様々なコピー数の変動(例えば、重複、挿入、および/または欠失)に関する予想される範囲(例えば、予想されるレベル範囲)、またはコピー数の変動が存在しない範囲は、範囲設定モジュールまたは範囲設定モジュールを含む装置により提供され得る。ある特定の実施形態では、予想されるレベルは、範囲設定モジュールまたは範囲設定モジュールを含む装置により提供される。一部の実施形態では、範囲設定モジュールまたは範囲設定モジュールを含む装置は、予想されるレベルおよび/または範囲を提供するように要求される。
分類モジュール
コピー数の変動(例えば、母体および/または胎仔のコピー数の変動、胎仔のコピー数の変動、重複、挿入、欠失)は、分類モジュールまたは分類モジュールを含む装置により分類され得る。ある特定の実施形態では、コピー数の変動(例えば、母体および/または胎仔のコピー数の変動)は、分類モジュールにより分類される。ある特定の実施形態では、別のレベル(例えば、第2のレベル)とは有意に異なると決定されたレベル(例えば、第1のレベル)は、分類モジュールによりコピー数の変動の代表例として識別される。ある特定の実施形態では、コピー数の変動の不存在が分類モジュールにより決定される。一部の実施形態では、コピー数の変動の決定は、分類モジュールを含む装置により決定され得る。分類モジュールは、母体および/または胎仔のコピー数の変動、胎仔のコピー数の変動、重複、欠失、または挿入もしくはその欠如、または上記組合せを分類することに特化し得る。例えば、母体の欠失を識別する分類モジュールは、胎仔の重複を識別する分類モジュールとは異なるおよび/または相違し得る。一部の実施形態では、分類モジュールまたは分類モジュールを含む装置は、コピー数の変動を識別すること、またはコピー数の変動を決定する結果が要求される。
プロッティングモジュール
一部の実施形態では、プロッティングモジュールは、データおよび/または情報を適する可視的メディアに処理および/または変換するが、その非限定的な例として、チャート、プロット、グラフ等またはその組合せが挙げられる。一部の実施形態では、プロッティングモジュールは、適するディスプレイ(例えば、モニター、LED、LCD、CRT等またはその組合せ)、プリンター、適する周辺機器、またはデバイス上に表示するために、データおよび/または情報を処理、変換、および/または移送する。ある特定の実施形態では、プロッティングモジュールは、カウント数、レベル、および/またはプロファイルのビジュアルディスプレイを提供する。一部の実施形態では、データディスプレイ組織化モジュールが、データおよび/または情報を、胎仔または母体のゲノム、染色体、またはその一部について、可視的表示に処理、変換する。
一部の実施形態では、プロッティングモジュールまたはプロッティングモジュールを含む装置は、カウント数、レベル、またはプロファイルをプロットするように要求される。
関連性モジュール
ある特定の実施形態では、関連性モジュールが、データおよび/または情報を、関連性に処理および/または変換する。ある特定の実施形態では、関連性は、関連性モジュールにより生成されるおよび/またはこれから移送される。
アウトカムモジュール
遺伝子の変動の有無(染色体異数性、胎仔の染色体異数性、コピー数の変動、微小欠失、微小重複)は、一部の実施形態では、アウトカムモジュールまたはアウトカムモジュールを含む装置により識別される。ある特定の実施形態では、遺伝子の変動は、アウトカムモジュールにより識別される。多くの場合、染色体異数性、微小欠失および/または微小重複の有無の決定は、アウトカムモジュールにより識別される。一部の実施形態では、遺伝子の変動(染色体異数性、コピー数の変動、微小欠失、微小重複)の決定的な結果は、アウトカムモジュールまたはアウトカムモジュールを含む装置により識別され得る。アウトカムモジュールは、特異的な遺伝子の変動(例えば、トリソミー、トリソミー21、トリソミー18、ある特定の微小欠失または微小重複)の決定に特化し得る。例えば、トリソミー21を識別するアウトカムモジュールは、トリソミー18を識別するアウトカムモジュールとは異なるおよび/または相違し得る。一部の実施形態では、アウトカムモジュールまたはアウトカムモジュールを含む装置は、遺伝子の変動または遺伝子の変動の決定的な結果(例えば、染色体異数性、コピー数の変動、微小欠失、微小重複)を識別するように要求される。一部の実施形態では、アウトカムモジュールは、遺伝子の変動(例えば、微小重複または微小欠失)が、母体の遺伝子の変動であるのか、胎仔の遺伝子の変動であるのかを識別しうる。本明細書に記載する方法により識別される遺伝子の変動または遺伝子の変動の決定的な結果は、さらなる試験により(例えば、母体核酸および/または胎仔核酸の標的化配列決定法により)独立して検証され得る。
変換
上記のように、データは1つの形態から別の形態に変換される場合もある。用語「変換された」、「変換」、およびその文法的な派生物または同等物は、本明細書で使用する場合、物理的な出発物質(例えば、試験対象および/または参照対象試料の核酸)から物理的な出発物質のデジタル表示(例えば、配列の読取りデータ)へのデータの変更を指し、一部の実施形態では、結果を提供するのに利用できる1つもしくは複数の数値への、またはデジタル表示の図形表示へのさらなる変換を含む。ある特定の実施形態では、1つまたは複数の数値および/またはデジタル的に表示されたデータの図形表示は、試験対象の物理的なゲノムの状況を表すのに利用できる(例えば、ゲノムの挿入、重複、または欠失の有無を仮想的に表すまたは可視的に表す;医学的状態と関連した配列の物理量の変動の有無を表す)。仮想表示は、1つもしくは複数の数値、または出発物質のデジタル表示の図形表示にさらに変換される場合もある。これらの方法は、物理的な出発物質を、数値もしくは図形表示に、または試験対象ゲノムの物理的状況表示に変換することができる。
一部の実施形態では、データセットを変換すると、データの複雑性および/またはデータの次元数が低減し、これにより結果の提供がし易くなる。データセットの複雑性は、物理的な出発物質を出発物質の仮想表示に変換する処理の際に低減する場合もある(例えば、物理的な出発物質を表わす配列の読取り)。適する特性または変数が、データセットの複雑性および/または次元数を低減するのに利用できる。データ処理するための標的特性として使用するのに選択できる特性の非限定的な例として、GC含有量、胎仔の性別予測、染色体異数性の識別、特定の遺伝子またはタンパク質の識別、がん、疾患、遺伝性の遺伝子/特性、染色体異常の識別、生物学的カテゴリー、化学的カテゴリー、生化学的カテゴリー、遺伝子またはタンパク質のカテゴリー、遺伝子オントロジー、タンパク質オントロジー、同時制御された遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、上記遺伝子に関連するタンパク質、遺伝子変異体、タンパク質変異体、同時制御された遺伝子、同時制御されたタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データ等、および上記組合せが挙げられる。データセットの複雑性および/または次元数の低減に関する非限定的な例として;複数の配列読取りをプロファイルプロットに低減化すること、複数の配列読取りを数値に低減化すること(例えば、値、Zスコア、p値の正規化);複数の分析方法を確率プロットまたは単一ポイントに低減化すること;導き出された数量の主成分分析等、またはその組合せが挙げられる。
本明細書で記載されるある特定の方法は、例えば、それらの各々がその全体において参照により本明細書に組み込まれる、国際特許出願公開第WO2013/052907号、国際特許出願公開第WO2013/055817号、国際特許出願公開第WO2013/109981号、国際特許出願公開第WO2013/177086号、国際特許出願公開第WO2013/192562号、国際特許出願公開第WO2014/116598号、国際特許出願公開第WO2014/055774号、国際特許出願公開第WO2014/190286号、国際特許出願公開第WO2014/205401号、および国際特許出願公開第WO2015/051163号において記載されている方法と共に実施することができる。
下記に明示される実施例は、ある特定の実施形態を例示するものであり、本技術を限定するものではない。
(実施例1)
任意のサイズの微小欠失/微小重複についての検出限界
含有量についての広範な調査研究(例えば、微小欠失または微小重複の存在または非存在の決定)のための1つの側面は、任意のサイズのイベントについての検出限界(LoD)を理解することである。4つの因子:胎仔フラクション、イベントのサイズ、配列決定の深さ、およびゲノムにおけるイベントの場所が、所与のイベントのLoDに影響を及ぼしうる。最初の3つの因子に関しては、イベントは一般に、胎仔フラクションが大きく、サイズが大きく、配列決定の深さが大きいとき、よりたやすく検出することができる。第4の因子は一般に、配列決定の性格:ある特定の領域は、多様な理由(例えば、グアニンおよびシトシン(GC)の偏り、反復エレメント、マッピング可能性など)に起因して、他の領域より不安定でありうるので、ある特定の領域中のイベントは、検出が困難でありうることに関する。本実施例では、前述の因子を組み込み、LoDを計算する分析式を導出するための、理論的枠組みを構築した。
研究を通して、イベントの場所およびサイズは既知(すなわち、標的化された検出)である。目的のイベントを、小児についてトリソミーとし、母体について正倍数体とする試料を選択したが、また、理論を、母体-胎仔の他の倍数性の組合せへも拡張することができる。
独立のビンカウント数
ゲノムを、Ntotalの等間隔でオーバーラップしないビンへと分けたとする。罹患していない正倍数体の試料について、xは、ビンiについてのビンカウント数∈{1、・・・、Ntotal}を表すとする。
配列決定における固有のランダム性に起因して、xは、x~f(μxi,σxi)[式中、μxiおよびσxiは、ビンiについての平均および標準偏差であり、f(*)は、ある分布関数である]とするランダム変数である。同様に、罹患したトリソミー試料について、トリソミー領域についてのビンカウント数は、y~f(μyi,σyi)[
式中、μyi=μxi(1+f/2)]であり、fは、胎仔フラクションである。ビンカウント数の可変性は、場所特異的であり、これは、上記で記載した第4の因子をなすことに注目されたい。
ビンp~qにわたるサイズNのイベントについて、ビンカウント数の合計を、
Figure 2023022220000009
と規定する。
ビンカウント数は、独立であり、
Figure 2023022220000010
[式中、μ、σ、μ、およびσは、イベント領域についての、平均のビンカウント数の平均および標準偏差を表す]とする。
イベントのzスコアは、
Figure 2023022220000011
として計算することができる。
これより、
Figure 2023022220000012
となる。
さらに、ビンの数Nが、妥当な程度に大きい場合は、中央極限定理により、Zを、正規分布により近似することができる。まとめると、任意のサイズのイベントについてのzスコアの分布
Figure 2023022220000013
[式中、Nは、イベントについてのビンの数であり、μおよびσは、正倍数体試料中の、イベント領域についての、平均ビンカウント数の平均および標準偏差であり、f
は、胎仔フラクションである]を導出した。
偽陰性率をαとするとき、必要とされる最小の胎仔フラクションは、式(2)
Figure 2023022220000014
[式中、cは、正倍数体についての所定のzスコアカットオフ(例えば、T21を検出するためのc=3)であり、Zαは、テール確率をαとする標準的な正規分布についての臨界値である]から導出することができる。
非独立のビンカウント数
上記で記載した方法は、ビンが独立であることを仮定するが、場合によっては、正規化データについて、異なるビンの間で弱い相関が観察される。このような場合では、
Figure 2023022220000015
となる。LoDを計算するために、
Figure 2023022220000016
と定義し直す。
Figure 2023022220000017
とすると、zスコアの分布は、
Figure 2023022220000018
と書き直すことができ、所定の偽陰性率αであるとき、最小の胎仔フラクションは、
Figure 2023022220000019
となる。
μおよびσは、正倍数体試料の大きなプールから経験的に査定しうることに注目されたい。
検出計算の集団レベルにおける限界
集団レベルの偽陰性(FN)率は、以下の式
Figure 2023022220000020
[式中、FN(f)は、fを与えたときのFN率(図6において影を付した帯域)を表し、p(f)は、胎仔フラクションの分布を表す]により計算することができる。したがって、集団レベルのFN率αを確保するには、以下の式
Figure 2023022220000021
を、fについて解くことができる。
結果
図8中の表は、一般的な微小欠失症候群のリストを示す。この表を踏まえ、式(7)を適用して、最小の胎仔フラクションを計算して、異なる配列決定カバレッジにおける集団レベルのFN率1%を達成した(図7)。一般に、大きな症候群および広範な配列決定カバレッジに必要とされる最小の胎仔フラクションは小さい。
(実施例2)
配列決定データの最適の離散化
本実施例は、非侵襲的出生前試験(NIPT)のために、配列決定データの最適の離散化を導出するための方法を提示する。ある特定の種類の分子診断法のために、コピー数の変動を、対象について検出する。ある特定の場合には、ヌクレオチド配列決定法(例えば、超並列配列決定)を、ゲノム素材に適用する。ヌクレオチド配列決定の1つのパラメータは、配列決定の深さである。ある特定の種類の診断法およびある特定の種類のコピー数の変動は、異なるレベルの配列決定の深さを必要としうる。一般に、小さな配列決定の深さを使用して、大きなコピー数の変動を検出することができる。分析物が、非侵襲的出生前試験(NIPT)などのためのゲノムの素材の混合物に対応する、ある特定の場合には、ある特定のレベルのコピー数の変動(CNV)の検出を達成するのに必要とされる配列決定の深さは、混合物の特性と関連しうる。
配列決定データは、元のゲノム素材の特性を反映する可能性があり、また、実験処理中の多様なステップの影響を受ける場合もある(例えば、ヌクレオチド組成の関数としての、ある特定の領域の優先的増幅)。実験処理により導入される特徴は、場合によって、「偏り」と称する。これらの特徴を定量化することは、コピー数の変動(CNV)を評価するための全体的な定量化スキームにおける、重要なステップでありうる。このような特徴は、参照ゲノムのヌクレオチド組成など、参照データセットの他の特性と相関しうる。配列決定の深さに応じて(そして、おそらく、分析物の複雑性に応じて)、配列決定データを、参照データセットに由来する特異的領域(参照ゲノムに由来する領域など)により群分けまたは集約しうるであろう。ゲノムのデータの離散化(また、「群分け」、「アグリゲーション」、「セグメント化」、「区分化」、または「ビニング」とも称する)は、所定の長さおよび等しい長さの領域を使用することが典型的である。本実施例では、配列決定データのより高度な群分けを実施するための方法が明示される。
ウェーブレットGCビニングを使用する離散化
上記で注目した通り、コピー数の変動を決定する能力に影響を及ぼしうる1つの因子は、目的のゲノム領域の関数としての、ヌクレオチド組成の可変性である。配列決定データの最適の離散化のための1つの方法は、ヌクレオチド組成の可変性を直接説明する方法である。参照ゲノムを使用して、平均ヌクレオチド組成(例えば、GC含有量など)を、一定の分解能(例えば、1kbのサイズ)で推定し、次いで、全ゲノムを含む、拡張されたゲノム領域の文脈で分析することができる。本実施例では、GC含有量を、参照ゲノムについて、1kbの分解能で推定した。あらかじめ確立された分解のレベルを使用して、これらのデータの変換であって、ハールウェーブレットベースのウェーブレットなどの変換を適用することができる。適正な分解レベルの選択は、染色体の長さLchrおよび所望される最小のビンサイズLminに依存しうる。ウェーブレット分解レベルCは、C=log(Lchr/Lmin)により算出することができる。ある特定の場合には、C+1またはC-1の分解レベルもまた使用することができる。Lmin=T×LGenome/T[式中、Tは、ビン1つ当たりの平均カウント数(例えば、250)であり、Lgenomeは、ゲノムの長さであり、Tは、カウント数の総数である]である。このベースを使用するとき、ウェーブレット変換されたデータにより、それにより配列決定データを集約しうる、ゲノム領域のセグメンテーションを決定することができる。ある特定の場合には、本明細書で記載されるスライディングウィンドウ方法を適用することができる。
上記で記載したセグメンテーションに関して、実験データを集約した後で、観察された読取り密度が、異常値挙動を有する領域に、さらにフィルターをかけるように、任意選択のステップを踏む。このようなフィルタリングの利点は、臨床試験から推定される、CNV検出の精度に基づき判断することができる。
図1は、ウェーブレットGCビニング法について例示する。ピーク/トラフは、第18染色体における、1kbのオーバーラップしないウィンドウについて、GC含有量を表し、水平方向の直線は、ウェーブレットにより区分化されたビンについてのGC含有量を表す。図1に示される通り、ウェーブレットビニングは一般に、一定のサイズビンをもたらさず(50kbのビニングとは対照的に)、GC含有量が同様であるビンを併せて群分けすることにより、局所的なGC効果を捕捉する。図2は、ウェーブレット方法を使用して、ビンサイズの分布を例示するが、この場合、ビンの大部分は、32kbまたは64kbの長さである。
ウェーブレットビニングの後で、試料を、さらなる1つのステップにより正規化(例えば、LOESS、ビンの中央値、および/またはPCA)して、ビンのサイズを補正することができる。図3は、LDTv4CE2データに対する、ウェーブレットビニング法および50kbのビニング法についての分類結果を示す。分類結果は、同一であった。図4は、LDTv4CE2研究のための、第21染色体、第18染色体、および第13染色体についての真偽表を示す。
カバレッジの可変性に基づく離散化
配列決定データの最適の離散化のための別の方法は、既に収集された配列決定データを使用して導出することができる。ゲノムにおける場所の関数としての、配列決定カバレッジの変動を、母体のccfDNAと胎仔のccfDNAとの混合物に由来する配列決定の結果について観察した。この可変性は、アラインメントアーチファクトまたは実験因子(場合によって、実験による偏りと称する)の一因となる場合にも存在しうる。
コピー数の変動は、目的の多様なゲノム領域に由来する配列決定データの密度を分析することにより決定することができる。密度推定についての一般的な統計学理論に従うと、1つの方法は、ヒストグラムを導出することである。ヒストグラム中のウィンドウ(また、「ブレーク」または「ビン」または「部分」としても公知である)の数は変動しうるが、ウィンドウの最適の数を決定するのに使用しうる、いくつかの理論的方法が存在する。これらの方法の例は、スコットの規則またはフリードマン-ディアコニスの規則を含む。ほぼ等しいサイズ(参照ゲノムを使用して決定される)に及び、特定の試料について、または平均のいずれかで、Nの読取り、およびこれに対応するMの読取りによりカバーされる、目的の2つのゲノム領域が与えられる場合、第1の領域をカバーするウィンドウの最適の数と、第2の領域をカバーするウィンドウの最適の数との比は、(M/N)1/3に等しいと推定することができる。この比はまた、(var/var))1/3[式中、varは、領域1のカバレッジの可変性であり、varは、領域2のカバレッジの可変性である]としても表すことができる。この比を、比例係数と称することができる。平均の配列決定の深さについての所定の値および分析物の複雑性についての所定の値(目的の胎仔フラクションのこのような値)を使用して、所定の精度で検出されうる、CNVの平均サイズを推定するように、検出限界(LoD)の計算を実行することができる。この値を使用して、上記の計算で使用した値と同等の複雑性を有する試料中のCNVを検出するための一般的なスケールまたは分解能レベルを確立することができる。この値を使用し、かつ、それにわたりCNVを探索しうる、目的のゲノム領域の広がり(これはまた、全ゲノムも含みうる)を知ると、ビン全体の総数を計算することができる。ビンのこの総数を一定に保つ制限下で、かつ、上記で列挙した比例係数を使用して、目的の多様なゲノム領域についてのウィンドウの数を計算することができる。
上記の手順を適用して、平均の離散化を決定することができる。この手順はまた、胎仔フラクションなど、試料特異的な分析物の複雑性を考慮に入れることにより、試料特異的な離散化を計算するのにも使用することができる。この複雑性は、他の実験データ(例えば、胎仔定量化アッセイ)から得ることもでき、離散化されるべき配列決定データ自体から得ることもできる。後者の場合では、反復法をとることができる。あらかじめ規定されたグリッドから出発して、まず、試料の複雑性を推定する。(例えば、胎仔フラクションは、BFFアルゴリズム(例えば、本明細書で記載される、部分特異的胎仔フラクション推定)を使用して推定することができる)。次いで、統計学計算を実行して、この値についての信頼区間を推定することができる。次いで、この値についての点推定値または信頼区間を使用して、上記で記載した、最適の離散化を再計算することができる。
1つの領域から別の領域にわたる、配列決定カバレッジの可変性に加えて、ある特定の場合には、ゲノム領域の文脈で考えた場合、局所的な分析物の複雑性の可変性も存在する。例えば、分析物が、母体のccfDNAと胎仔のccfDNAとの混合物であるNIPT試料中には、他の領域と比較した場合の、あるゲノム領域と関連する胎仔フラクションの差違が存在しうる。図9は、3つの試料について、正規化されたカウント数を、Elastic Netによる(BFF;部分特異的胎仔フラクション)ビン係数(係数が0であるビンを除外する)と対比させた、LOESS回帰プロットを示す。試料1の胎仔フラクションは小さく(約5%)、試料2の胎仔フラクションは中程度(約10%)であり、試料3の胎仔フラクションは大きかった(約20%)。このプロットは、カバレッジの差違を、Elastic Netによる(BFF;部分特異的胎仔フラクション)ビン係数および胎仔フラクションによる関数として強調し、ある特定の領域が、他の領域より多くの胎仔DNAをもたらすという観察を裏付ける。したがって、例えば、多くの胎仔DNAをもたらす領域については、細かなグリッドを構築し、少ない胎仔DNAをもたらす領域については、粗いグリッドを構築することができる。
上記で記載された離散化法は、例えば、胎仔フラクションについての局所的な推定値を使用して、LoD計算を反復することにより、分析物の複雑性の、領域と関連する可変性を説明することにより、さらに精緻化することができる。試料特異的な離散化はまた、まず、配列決定の深さを推定し(読取りの総数を使用して)、次いで、上記で記載した計算を実行することによっても達成することができる。
図10は、最適の離散化法において使用されうる、ある特定のステップを示し、図11は、図10に明示されるある特定のステップを使用する、最適の離散化法のためのワークフローの例を示す。
(実施例3)
実施形態の例
A1.参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化するステップと;
d)(a)において決定された配列決定カバレッジの可変性を少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;
e)部分の数を、ゲノム領域の少なくとも1つについて、(d)における比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;
f)ゲノム領域の少なくとも1つを複数の部分に、(e)における最適化された部分の長さに従って再区分化するステップと
を含む方法。
A1.1 遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、この配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化することと;
d)(a)において決定された配列決定カバレッジの可変性を少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成することと;
e)部分の数を、ゲノム領域の少なくとも1つについて、(d)における比較に従って再計算し、これにより、最適化された部分の長さを決定することと;
f)ゲノム領域の少なくとも1つを複数の部分に、(e)における最適化された部分の長さに従って再区分化することと
を含む処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされている方法。
A2.(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りについてのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、実施形態A1またはA1.1に記載の方法。
A3.(b)における前記初期の部分の長さが、配列決定の深さに従って、前記トレーニングセットのために選択される、実施形態A2に記載の方法。
A4.(b)における前記初期の部分の長さが、平均値の平均の胎仔フラクションに従って、前記トレーニングセットのために選択される、実施形態A2またはA3に記載の方法。
A5.前記平均値の平均の胎仔フラクションが、前記トレーニングセットを使用して決定される、実施形態A4に記載の方法。
A6.前記初期の部分の長さが、約1kb~約1000kbの間である、実施形態A1からA5のいずれか一つに記載の方法。
A7.前記初期の部分の長さが、約30kbである、実施形態A1からA6のいずれか一つに記載の方法。
A8.前記初期の部分の長さが、約40kbである、実施形態1からち6のいずれか一つに記載の方法。
A9.前記初期の部分の長さが、約50kbである、実施形態A1からA6のいずれか一つに記載の方法。
A9.1 前記初期の部分の長さが、50kbではない、実施形態A1からA6のいずれか一つに記載の方法。
A10.前記初期の部分の長さが、約60kbである、実施形態A1からA6のいずれか一つに記載の方法。
A11.前記初期の部分の長さが、約70kbである、実施形態A1からA6のいずれか一つに記載の方法。
A11.1 ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、実施形態A1からA11のいずれか一つに記載の方法。
A12.前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、実施形態A1からA11.1のいずれか一つに記載の方法。
A13.前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、実施形態A12に記載の方法。
A14.(d)における前記配列決定カバレッジの可変性を比較するステップが、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、前記第1のゲノム領域の前記配列決定カバレッジの可変性であり、varは、前記第2のゲノム領域の前記配列決定カバレッジの可変性である]
に従って計算することを含む、実施形態A12またはA13に記載の方法。
A15.前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、実施形態A14に記載の方法。
A16.前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についての平均値の平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についての平均値の平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、実施形態A14に記載の方法。
A17.各ゲノム領域についての前記平均値の平均のヌクレオチドの配列決定の読取りのカウント数が、前記トレーニングセットを使用して決定される、実施形態A16に記載の方法。
A18.前記ヌクレオチド配列の読取りのカウント数が、正規化されたヌクレオチド配列の読取りのカウント数である、実施形態A15に記載の方法。
A19.前記平均値の平均のヌクレオチド配列の読取りのカウント数が、平均値の平均の正規化されたヌクレオチド配列の読取りのカウント数である、実施形態A16またはA17に記載の方法。
A20.(e)における前記部分の数を前記ゲノム領域の少なくとも1つについて再計算するステップが、前記比例係数と、(b)における前記初期の部分の長さから決定された部分の前記総数とに従って実施される、実施形態A14からA19のいずれか一つに記載の方法。
A21.(f)における前記複数の部分が、一定のサイズの部分を含む、実施形態A1からA20のいずれか一つに記載の方法。
A22.(f)における前記複数の部分が、変動するサイズの部分を含む、実施形態A1からA20のいずれか一つに記載の方法。
A23.(f)における前記複数の部分が、約1kb~約1000kbの間の部分の長さを含む、実施形態A21またはA22に記載の方法。
A24.(f)における前記複数の部分が、約30kbの部分を含む、実施形態A21またはA22に記載の方法。
A25.(f)における前記複数の部分が、約40kbの部分を含む、実施形態A21またはA22に記載の方法。
A26.(f)における前記複数の部分が、約50kbの部分を含む、実施形態A21またはA22に記載の方法。
A27.(f)における前記複数の部分が、50kbの部分を含まない、実施形態A21またはA22に記載の方法。
A28.(f)における前記複数の部分が、約60kbの部分を含む、実施形態A21またはA22に記載の方法。
A29.(f)における前記複数の部分が、約70kbの部分を含む、実施形態A21またはA22に記載の方法。
A30.ヌクレオチド配列決定処理処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、実施形態A1からA29のいずれか一つに記載の方法。
A31.前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、実施形態A30に記載の方法。
A32.試験試料に由来するヌクレオチド配列の読取りを、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、実施形態A1からA31のいずれか一つに記載の方法。
A33.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、実施形態A32に記載の方法。
A34.前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、実施形態A33に記載の方法。
A35.前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、実施形態A33またはA34に記載の方法。
A35.1 前記配列の読取りのカウント数が、中央値の部分のカウント数に従って調整される、実施形態A35に記載の方法。
A36.前記正規化するステップが、主成分による正規化を含む、実施形態A33からA35.1のいずれか一つに記載の方法。
A37.前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分による正規化を含む、実施形態A33からA36のいずれか一つに記載の方法。
A38.遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、実施形態A33からA37のいずれか一つに記載の方法。
A38.1 染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、実施形態A33からA38のいずれか一つに記載の方法。
A38.2 前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、実施形態A33からA38.1のいずれか一つに記載の方法。
A38.3 遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、実施形態A38.2に記載の方法。
A38.4 遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態A38からA38.3のいずれか一つに記載の方法。
A39.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、実施形態A32に記載の方法。
A40.遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態A39に記載の方法。
A41.染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態A39またはA40に記載の方法。
A42.前記未加工のカウント数が、前記試験試料についての染色体量を表示する、実施形態A40またはA41に記載の方法。
A43.遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、実施形態A42に記載の方法。
A44.遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態A40からA43のいずれか一つに記載の方法。
B1.参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化するステップと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;
g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定するステップと;
h)最小のゲノム領域のサイズを決定するステップと;
i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップと
を含む方法。
B1.1 遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化することと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成することと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定することと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成することと;
g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定することと;
h)最小のゲノム領域のサイズを決定することと;
i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成することと
を含む処理処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされている方法。
B2.(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りについてのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、実施形態B1またはB1.1に記載の方法。
B3.(b)における前記初期の部分の長さが、配列決定の深さに従って、前記トレーニングセットのために選択される、実施形態B2に記載の方法。
B4.(b)における前記初期の部分の長さが、平均値の平均の胎仔フラクションに従って、前記トレーニングセットのために選択される、実施形態B2またはB3に記載の方法。
B5.前記平均値の平均の胎仔フラクションが、前記トレーニングセットを使用して決定される、実施形態B4に記載の方法。
B6.前記初期の部分の長さが、約1kb~約1000kbの間である、実施形態B1からB5のいずれか一つに記載の方法。
B7.前記初期の部分の長さが、約30kbである、実施形態B1からB6のいずれか一つに記載の方法。
B8.前記初期の部分の長さが、約40kbである、実施形態B1からB6のいずれか一つに記載の方法。
B9.前記初期の部分の長さが、約50kbである、実施形態B1からB6のいずれか一つに記載の方法。
B9.1 前記初期の部分の長さが、50kbではない、実施形態B1からB6のいずれか一つに記載の方法。
B10.前記初期の部分の長さが、約60kbである、実施形態B1からB6のいずれか一つに記載の方法。
B11.前記初期の部分の長さが、約70kbである、実施形態B1からB6のいずれか一つに記載の方法。
B11.1 ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、実施形態B1からB11のいずれか一つに記載の方法。
B12.前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、実施形態B1からB11.1のいずれか一項に記載の方法。
B13.前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、実施形態B12に記載の方法。
B14.(d)における前記配列決定カバレッジの可変性を比較するステップが、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、前記第1のゲノム領域の前記配列決定カバレッジの可変性であり、varは、前記第2のゲノム領域の前記配列決定カバレッジの可変性である]
に従って計算することを含む、実施形態B12またはB13に記載の方法。
B15.前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、実施形態B14に記載の方法。
B16.前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についての平均値の平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についての平均値の平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、実施形態B14に記載の方法。
B17.各ゲノム領域についての前記平均値の平均のヌクレオチドの配列決定の読取りのカウント数が、前記トレーニングセットを使用して決定される、実施形態B16に記載の方法。
B18.前記ヌクレオチド配列の読取りのカウント数が、正規化されたヌクレオチド配列の読取りのカウント数である、実施形態B15に記載の方法。
B19.前記平均値の平均のヌクレオチド配列の読取りのカウント数が、平均値の平均の正規化されたヌクレオチド配列の読取りのカウント数である、実施形態B16またはB17に記載の方法。
B20.(e)における前記部分の数を前記ゲノム領域の少なくとも1つについて再計算するステップが、前記比例係数と、(b)における前記初期の部分の長さから決定された部分の前記総数とに従って実施される、実施形態B14からB19のいずれか一項に記載の方法。
B21.(f)における前記複数の部分が、一定のサイズの部分を含む、実施形態B1からB20のいずれか一つに記載の方法。
B22.(f)における前記複数の部分が、変動するサイズの部分を含む、実施形態B1からB20のいずれか一つに記載の方法。
B23.(f)における前記複数の部分が、約1kb~約1000kbの間の部分の長さを含む、実施形態B21またはB22に記載の方法。
B24.(f)における前記複数の部分が、約30kbの部分を含む、実施形態B21またはB22に記載の方法。
B25.(f)における前記複数の部分が、約40kbの部分を含む、実施形態B21またはB22に記載の方法。
B26.(f)における前記複数の部分が、約50kbの部分を含む、実施形態B21またはB22に記載の方法。
B27.(f)における前記複数の部分が、約50kbの部分を含まない、実施形態B21またはB22に記載の方法。
B28.(f)における前記複数の部分が、約60kbの部分を含む、実施形態A21またはB22に記載の方法。
B29.(f)における前記複数の部分が、約70kbの部分を含む、実施形態B21またはB22に記載の方法。
B30.(g)における胎仔フラクションを推定するステップが、誤差値を決定することを含む、実施形態B1からB29のいずれか一つに記載の方法。
B31.(h)における最小のゲノム領域のサイズを決定するステップが、(g)において推定された胎仔フラクションを有する試料について検出可能な、最小のゲノム領域のサイズを決定することを含む、実施形態B1からB30のいずれか一つに記載の方法。
B32.最小のゲノム領域のサイズが、胎仔フラクションについての上位95%の信頼区間に従って決定される、実施形態B31に記載の方法。
B33.(j)胎仔フラクションを、前記精緻化された、再区分化されたゲノム領域から再推定するステップをさらに含む、実施形態B1からB32のいずれか一つに記載の方法。
B34.(g)における推定された胎仔フラクションを、(j)における再推定された胎仔フラクションと比較するステップを含む、実施形態B33に記載の方法。
B35.(g)における推定された胎仔フラクションが、(j)における再推定された胎仔フラクションと、所定のトレランス値だけ異なる場合に、パート(g)、(h)、および(i)を反復するステップを含む、実施形態B34に記載の方法。
B35.1 前記所定のトレランス値が、約1%~約25%の間である、実施形態B35に記載の方法。
B36.ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、実施形態B1からB35.1のいずれか一つに記載の方法。
B37.前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、実施形態B36に記載の方法。
B38.試験試料に由来するヌクレオチド配列の読取りを、精緻化された、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、実施形態B1からB37のいずれか一つに記載の方法。
B39.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、実施形態B38に記載の方法。
B40.前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、実施形態B39に記載の方法。
B41.前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、実施形態B39またはB40に記載の方法。
B41.1 前記配列の読取りのカウント数が、中央値の部分カウント数に従って調整される、実施形態B41に記載の方法。
B42.前記正規化するステップが、主成分による正規化を含む、実施形態B39からB41.1のいずれか一つに記載の方法。
B43.前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分による正規化を含む、実施形態B39からB42のいずれか一つに記載の方法。
B44.遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、実施形態B39からB43のいずれか一つに記載の方法。
B44.1 染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、実施形態B39からB44のいずれか一つに記載の方法。
B44.2 前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、実施形態B39からB44.1のいずれか一つに記載の方法。
B44.3 遺伝子の変動の存在または非存在を決定するステップが、染色体量に従う、実施形態B44.2に記載の方法。
B44.4 遺伝子の変動の存在または非存在を試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態B44からB44.3のいずれか1つに記載の方法。
B45.マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、実施形態B38に記載の方法。
B46.遺伝子の変動の存在または非存在を試験試料について、マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態B45に記載の方法。
B47.染色体構造を、マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態B45またはB46に記載の方法。
B48.未加工のカウント数が、試験試料についての染色体量を表示する、実施形態B46またはB47に記載の方法。
B49.遺伝子の変動の存在または非存在を決定するステップが、染色体量に従う、実施形態B48に記載の方法。
B50.遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態B46からB49のいずれか一つに記載の方法。
C1.参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化するステップと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;
g)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との加重係数との間の相関に従って決定するステップと;
h)局所的な最小のゲノム領域のサイズを決定するステップと;
i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップと
を含む方法。
C1.1 遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化することと;
d)(a)において決定された前記配列決定カバレッジの可変性を前記少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成することと;
e)部分の数を前記ゲノム領域の少なくとも1つについて、(d)における前記比較に従って再計算し、これにより、最適化された部分の長さを決定することと;
f)前記ゲノム領域の少なくとも1つを複数の部分に、(e)における前記最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成することと;
g)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との加重係数との間の相関に従って決定することと;
h)局所的な最小のゲノム領域のサイズを決定することと;
i)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成することと
を含む処理処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされている方法。
C2.(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りについてのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、実施形態C1またはC1.1に記載の方法。
C3. (b)における前記初期の部分の長さが、配列決定の深さに従って、前記トレーニングセットのために選択される、実施形態C2に記載の方法。
C4. (b)における前記初期の部分の長さが、平均値の胎仔フラクションに従って、前記トレーニングセットのために選択される、実施形態C2またはC3に記載の方法。
C5.前記平均値の胎仔フラクションが、前記トレーニングセットを使用して決定される、実施形態C4に記載の方法。
C6.前記初期の部分の長さが、約1kb~約1000kbの間である、実施形態C1からC5のいずれか一つに記載の方法。
C7.前記初期の部分の長さが、約30kbである、実施形態C1からC6のいずれか一つに記載の方法。
C8.前記初期の部分の長さが、約40kbである、実施形態C1からC6のいずれか一つに記載の方法。
C9.前記初期の部分の長さが、約50kbである、実施形態C1からC6のいずれか一つに記載の方法。
C9.1 前記初期の部分の長さが、50kbではない、実施形態C1からC6のいずれか一つに記載の方法。
C10.前記初期の部分の長さが、約60kbである、実施形態C1からC6のいずれか一つに記載の方法。
C11.前記初期の部分の長さが、約70kbである、実施形態C1からC6のいずれか一つに記載の方法。
C11.1 ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、実施形態C1からC11のいずれか一つに記載の方法。
C12.前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、実施形態C1からC11.1のいずれか一つに記載の方法。
C13.前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、実施形態C12に記載の方法。
C14.(d)における前記配列決定カバレッジの可変性を比較するステップが、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、前記第1のゲノム領域の前記配列決定カバレッジの可変性であり、varは、前記第2のゲノム領域の前記配列決定カバレッジの可変性である]
に従って計算することを含む、実施形態C12またはC13に記載の方法。
C15.前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、実施形態C14に記載の方法。
C16.前記第1のゲノム領域の前記配列決定カバレッジの可変性が、前記第1のゲノム領域についての平均値の平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、前記第2のゲノム領域の配列決定カバレッジの可変性が、前記第2のゲノム領域についての平均値の平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、実施形態C14に記載の方法。
C17.各ゲノム領域についての前記平均値の平均のヌクレオチドの配列決定の読取りのカウント数が、前記トレーニングセットを使用して決定される、実施形態C16に記載の方法。
C18.前記ヌクレオチド配列の読取りのカウント数が、正規化されたヌクレオチド配列の読取りのカウント数である、実施形態C15に記載の方法。
C19.前記平均値の平均のヌクレオチド配列の読取りのカウント数が、平均値の平均の正規化されたヌクレオチド配列の読取りのカウント数である、実施形態C16またはC17に記載の方法。
C20.(e)における前記部分の数を前記ゲノム領域の少なくとも1つについて再計算するステップが、前記比例係数と、(b)における前記初期の部分の長さから決定された部分の前記総数とに従って実施される、実施形態C14からC19のいずれか一つに記載の方法。
C21.(f)における前記複数の部分が、一定のサイズの部分を含む、実施形態C1からC20のいずれか一つに記載の方法。
C22.(f)における前記複数の部分が、変動するサイズの部分を含む、実施形態C1からC20のいずれか一つに記載の方法。
C23.(f)における前記複数の部分が、約1kb~約1000kbの間の部分の長さを含む、実施形態C21またはC22に記載の方法。
C24.(f)における前記複数の部分が、約30kbの部分を含む、実施形態C21またはC22に記載の方法。
C25.(f)における前記複数の部分が、約40kbの部分を含む、実施形態C21またはC22に記載の方法。
C26.(f)における前記複数の部分が、約50kbの部分を含む、実施形態C21またはC22に記載の方法。
C27.(f)における前記複数の部分が、50kbの部分を含まない、実施形態C21またはC22に記載の方法。
C28.(f)における前記複数の部分が、約60kbの部分を含む、実施形態C21またはC22に記載の方法。
C29.(f)における前記複数の部分が、約70kbの部分を含む、実施形態C21またはC22に記載の方法。
C30.(h)における局所的な最小のゲノム領域のサイズを決定するステップが、平均値の平均の胎仔フラクションを有する試料について検出可能な、局所的なゲノム領域のサイズを決定することを含む、実施形態C1からC29のいずれか一つに記載の方法。
C31.ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、実施形態C1からC30のいずれか一つに記載の方法。
C32.前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、実施形態C31に記載の方法。
C33.試験試料に由来するヌクレオチド配列の読取りを、精緻化され、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、実施形態C1からC32のいずれか一つに記載の方法。
C34.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、実施形態C33に記載の方法。
C35.前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、実施形態C34に記載の方法。
C36.前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、実施形態C34に記載の方法。
C36.1 前記配列の読取りのカウント数が、中央値の部分カウント数に従って調整される、実施形態C36に記載の方法。
C37.前記正規化するステップが、主成分による正規化を含む、実施形態C34からC36.1のいずれか一つに記載の方法。
C38.前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分による正規化を含む、実施形態C34からC37のいずれか一つに記載の方法。
C39.遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、実施形態C34からC38のいずれか一項に記載の方法。
C39.1 染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、実施形態C34からC39のいずれか一つに記載の方法。
C39.2 前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、実施形態C34からC39.1のいずれか一項に記載の方法。
C39.3 遺伝子の変動の存在または非存在を決定するステップが、染色体量に従う、実施形態C39.2に記載の方法。
C39.4 遺伝子の変動の存在または非存在を試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態C39からC39.3のいずれか1つに記載の方法。
C40.マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、実施形態C33に記載の方法。
C41.遺伝子の変動の存在または非存在を試験試料について、マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態C40に記載の方法。
C42.染色体構造を、マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態C40またはC41に記載の方法。
C43.未加工のカウント数が、試験試料についての染色体量を表示する、実施形態C41またはC42に記載の方法。
C44.遺伝子の変動の存在または非存在を決定するステップが、染色体量に従う、実施形態C43に記載の方法。
C45.遺伝子の変動の存在または非存在を試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態C41からC44のいずれか1つに記載の方法。
D1.参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化するステップと;
d)(a)において決定された配列決定カバレッジの可変性を少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成するステップと;
e)部分の数を、ゲノム領域の少なくとも1つについて、(d)における比較に従って再計算し、これにより、最適化された部分の長さを決定するステップと;
f)ゲノム領域の少なくとも1つを複数の部分に、(e)における最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成するステップと;
g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定するステップと;
h)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定するステップと;
i)局所的な最小のゲノム領域のサイズを決定するステップと;
j)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成するステップと
を含む方法。
D1.1 遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、この配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における初期の部分の長さに従って区分化することと;
d)(a)において決定された配列決定カバレッジの可変性を少なくとも2つのゲノム領域の各々について比較し、これにより、比較を生成することと;
e)部分の数を、ゲノム領域の少なくとも1つについて、(d)における比較に従って再計算し、これにより、最適化された部分の長さを決定することと;
f)ゲノム領域の少なくとも1つを複数の部分に、(e)における最適化された部分の長さに従って再区分化し、これにより、再区分化されたゲノム領域を生成することと;
g)胎仔フラクションを、胎仔を有する妊娠中の雌に由来する試験試料について推定することと;
h)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との間の相関に従って決定することと;
i)局所的な最小のゲノム領域のサイズを決定することと;
j)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、精緻化された、再区分化されたゲノム領域を生成することと
を含む処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされている方法。
D2.(a)における配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りのトレーニングセットの使用を含み、この配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、実施形態D1またはD1.1に記載の方法。
D3.(b)における初期の部分の長さが、配列決定の深さに従って、トレーニングセットのために選択される、実施形態D2に記載の方法。
D4.(b)における初期の部分の長さが、平均の胎仔フラクションに従って、トレーニングセットのために選択される、実施形態D2またはD3に記載の方法。
D5.平均の胎仔フラクションが、トレーニングセットを使用して決定される、実施形態D4に記載の方法。
D6.初期の部分の長さが、約1kb~約1000kbの間である、実施形態D1からD5のいずれか1つに記載の方法。
D7.初期の部分の長さが、約30kbである、実施形態D1からD6のいずれか1つに記載の方法。
D8.初期の部分の長さが、約40kbである、実施形態D1からD6のいずれか1つに記載の方法。
D9.初期の部分の長さが、約50kbである、実施形態D1からD6のいずれか1つに記載の方法。
D9.1 初期の部分の長さが、50kbではない、実施形態D1からD6のいずれか1つに記載の方法。
D10.初期の部分の長さが、約60kbである、実施形態D1からD6のいずれか1つに記載の方法。
D11.初期の部分の長さが、約70kbである、実施形態D1からD6のいずれか1つに記載の方法。
D11.1 ゲノムについての部分の総数が、(b)における初期の部分の長さに従って決定される、実施形態D1からD11のいずれか1つに記載の方法。
D12.少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、実施形態D1からD11.1のいずれか1つに記載の方法。
D13.第1のゲノム領域および第2のゲノム領域のサイズが、実質的に同様である、実施形態D12に記載の方法。
D14.(d)における配列決定カバレッジの可変性を比較するステップが、比例係数(P)を以下の式:
P=(var/var1/3 式A
[式中、varは、第1のゲノム領域の配列決定カバレッジの可変性であり、varは、第2のゲノム領域の配列決定カバレッジの可変性である]
に従って計算することを含む、実施形態D12またはD13に記載の方法。
D15.第1のゲノム領域の配列決定カバレッジの可変性が、第1のゲノム領域についてのヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、第2のゲノム領域の配列決定カバレッジの可変性が、第2のゲノム領域についての、ヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、実施形態D14に記載の方法。
D16.第1のゲノム領域の配列決定カバレッジの可変性が、第1のゲノム領域についての平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定され、第2のゲノム領域の配列決定カバレッジの可変性が、第2のゲノム領域についての、平均のヌクレオチド配列の読取りのカウント数、またはその誘導値から決定される、実施形態D14に記載の方法。
D17.各ゲノム領域についての平均のヌクレオチドの配列決定の読取りのカウント数が、トレーニングセットを使用して決定される、実施形態D16に記載の方法。
D18.ヌクレオチド配列の読取りのカウント数が、正規化されたヌクレオチド配列の読取りのカウント数である、実施形態D15に記載の方法。
D19.平均のヌクレオチド配列の読取りのカウント数が、平均の正規化されたヌクレオチド配列の読取りのカウント数である、実施形態D16またはD17に記載の方法。
D20.(e)における部分の数をゲノム領域の少なくとも1つについて再計算するステップが、比例係数と、(b)における初期の部分の長さから決定された部分の総数とに従って実施される、実施形態D14からD19のいずれか1つに記載の方法。
D21.(f)における複数の部分が、一定のサイズの部分を含む、実施形態D1からD20のいずれか1つに記載の方法。
D22.(f)における複数の部分が、変動するサイズの部分を含む、実施形態D1からD20のいずれか1つに記載の方法。
D23.(f)における複数の部分が、約1kb~約1000kbの間の部分の長さを含む、実施形態D21またはD22に記載の方法。
D24.(f)における複数の部分が、約30kbの部分を含む、実施形態D21またはD22に記載の方法。
D25.(f)における複数の部分が、約40kbの部分を含む、実施形態D21またはD22に記載の方法。
D26.(f)における複数の部分が、約50kbの部分を含む、実施形態D21またはD22に記載の方法。
D27.(f)における複数の部分が、50kbの部分を含まない、実施形態D21またはD22に記載の方法。
D28.(f)における複数の部分が、約60kbの部分を含む、実施形態D21またはD22に記載の方法。
D29.(f)における複数の部分が、約70kbの部分を含む、実施形態D21またはD22に記載の方法。
D30.(g)における胎仔フラクションを推定するステップが、誤差値を決定することを含む、実施形態D1からD29のいずれか1つに記載の方法。
D31.(i)における局所的な最小のゲノム領域のサイズを決定するステップが、(g)において推定された胎仔フラクションを有する試料について検出可能な、最小の局所的なゲノム領域のサイズを決定することを含む、実施形態D1からD30のいずれか1つに記載の方法。
D32.局所的な最小のゲノム領域のサイズが、胎仔フラクションの上位95%の信頼区間に従って決定される、実施形態D31に記載の方法。
D33.(k)胎仔フラクションを、精緻化され、再区分化されたゲノム領域から再推定するステップをさらに含む、実施形態D1からD32のいずれか1つに記載の方法。
D34.(g)における推定された胎仔フラクションを、(k)における再推定された胎仔フラクションと比較するステップを含む、実施形態D33に記載の方法。
D35.(g)における推定された胎仔フラクションが、(k)における再推定された胎仔フラクションと、所定のトレランス値だけ異なる場合に、パート(g)、(h)、(i)、および(j)を反復するステップを含む、実施形態D34に記載の方法。
D35.1 所定のトレランス値が、約1%~約25%の間である、実施形態D35に記載の方法。
D36.ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、実施形態D1からD35.1のいずれか1つに記載の方法。
D37.核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、実施形態D36に記載の方法。
D38.試験試料に由来するヌクレオチド配列の読取りを、精緻化され、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、実施形態D1からD37のいずれか1つに記載の方法。
D39.マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、実施形態D38に記載の方法。
D40.正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、実施形態D39に記載の方法。
D41.正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、実施形態D39またはD40に記載の方法。
D41.1 配列の読取りのカウント数が、中央値の部分カウント数に従って調整される、実施形態D41に記載の方法。
D42.正規化するステップが、主成分による正規化を含む、実施形態D39からD41.1のいずれか1つに記載の方法。
D43.正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分による正規化を含む、実施形態D39からD42のいずれか1つに記載の方法。
D44.遺伝子の変動の存在または非存在を試験試料について、正規化されたカウント数に従って決定するステップを含む、実施形態D39からD43のいずれか1つに記載の方法。
D44.1 染色体構造を、正規化されたカウント数に従って決定するステップを含む、実施形態D39からD44のいずれか1つに記載の方法。
D44.2 正規化されたカウント数が、試験試料についての染色体量を表示する、実施形態D39からD44.1のいずれか1つに記載の方法。
D44.3 遺伝子の変動の存在または非存在を決定するステップが、染色体量に従う、実施形態D44.2に記載の方法。
D44.4 遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態D44からD44.3のいずれか一つに記載の方法。
D45.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、実施形態D38に記載の方法。
D46.遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態D45に記載の方法。
D47.染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態D45またはD46に記載の方法。
D48.前記未加工のカウント数が、前記試験試料についての染色体量を表示する、実施形態D46またはD47に記載の方法。
D49.遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、実施形態D48に記載の方法。
D50.遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態D46からD49のいずれか一つに記載の方法。
E1.参照ゲノムの1つまたは複数のゲノム領域を複数の部分に区分化するための方法であって、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定するステップと;
b)初期の部分の長さを選択するステップと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化するステップと;
d)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との加重係数との間の相関に従って決定するステップと;
e)局所的な最小のゲノム領域のサイズを決定するステップと;
f)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、再区分化されたゲノム領域を生成するステップと
を含む方法。
E1.1 遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、前記配列の読取りが、
a)配列決定カバレッジの可変性を参照ゲノムにわたり決定することと;
b)初期の部分の長さを選択することと;
c)少なくとも2つのゲノム領域を(b)における前記初期の部分の長さに従って区分化することと;
d)領域特異的胎仔フラクションを各ゲノム領域について、部分1つ当たりのヌクレオチド配列の読取りのカウント数と加重係数との加重係数との間の相関に従って決定することと;
e)局所的な最小のゲノム領域のサイズを決定することと;
f)部分の数を各ゲノム領域について、少なくとも2つの部分を含むように調整し、これにより、再区分化されたゲノム領域を生成することと
を含む処理処理により区分化された、参照ゲノムの1つまたは複数のゲノム領域へとマッピングされている方法。
E2.(a)における前記配列決定カバレッジの可変性を決定するステップが、参照ゲノムの部分へとマッピングされたヌクレオチド配列の読取りについてのトレーニングセットの使用を含み、前記配列の読取りが、胎仔を有する妊娠中の雌に由来する、複数の試料に由来する、循環型無細胞核酸の読取りである、実施形態E1またはE1.1に記載の方法。
E3.(b)における前記初期の部分の長さが、配列決定の深さに従って選択される、実施形態E1またはE2に記載の方法。
E4.(b)における前記初期の部分の長さが、平均値の平均の胎仔フラクションに従って選択される、実施形態E1、E2、またはE3に記載の方法。
E5.前記平均値の平均の胎仔フラクションが、前記トレーニングセットを使用して決定される、実施形態E4に記載の方法。
E6.前記初期の部分の長さが、約1kb~約1000kbの間である、実施形態E1からE5のいずれか一つに記載の方法。
E7.前記初期の部分の長さが、約30kbである、実施形態E1からE6のいずれか一つに記載の方法。
E8.前記初期の部分の長さが、約40kbである、実施形態E1からE6のいずれか一つに記載の方法。
E9.前記初期の部分の長さが、約50kbである、実施形態E1からE6のいずれか一つに記載の方法。
E9.1 前記初期の部分の長さが、50kbではない、実施形態E1からE6のいずれか一つに記載の方法。
E10.前記初期の部分の長さが、約60kbである、実施形態E1からE6のいずれか一つに記載の方法。
E11.前記初期の部分の長さが、約70kbである、実施形態E1からE6のいずれか一つに記載の方法。
E11.1 ゲノムについての部分の総数が、(b)における前記初期の部分の長さに従って決定される、実施形態E1からE11のいずれか一つに記載の方法。
E12.前記少なくとも2つのゲノム領域が、第1のゲノム領域および第2のゲノム領域を含む、実施形態E11からE11.1のいずれか一つに記載の方法。
E13.前記第1のゲノム領域および前記第2のゲノム領域のサイズが、実質的に同様である、実施形態E12に記載の方法。
E14.(f)における再区分化されたゲノム領域が、一定のサイズの部分を含む、実施形態E1からE13のいずれか1つに記載の方法。
E15.(f)における再区分化されたゲノム領域が、変動するサイズの部分を含む、実施形態E1からE13のいずれか1つに記載の方法。
E16.(f)における再区分化されたゲノム領域が、約1kb~約1000kbの間のサイズを有する部分を含む、実施形態E14またはE15に記載の方法。
E17.(f)における再区分化されたゲノム領域が、約30kbのサイズを有する部分を含む、実施形態E14またはE15に記載の方法。
E18.(f)における再区分化されたゲノム領域が、約40kbのサイズを有する部分を含む、実施形態E14またはE15に記載の方法。
E18.1 (f)における再区分化されたゲノム領域が、約50kbのサイズを有する部分を含む、実施形態E14またはE15に記載の方法。
E19.再区分化されたゲノム領域が、50kbの部分を含まない、実施形態E14またはE15に記載の方法。
E20.(f)における再区分化されたゲノム領域が、約60kbのサイズを有する部分を含む、実施形態E14またはE15に記載の方法。
E21.(f)における再区分化されたゲノム領域が、約70kbのサイズを有する部分を含む、実施形態E14またはE15に記載の方法。
E22.(e)における局所的な最小のゲノム領域のサイズを決定するステップが、平均の胎仔フラクションを有する試料について検出可能な、局所的なゲノム領域のサイズを識別することを含む、実施形態E1からE21のいずれか1つに記載の方法。
E23.(g)胎仔フラクションを、前記再区分化されたゲノム領域から再推定するステップをさらに含む、実施形態E1からE22のいずれか一つに記載の方法。
E24.(d)における領域特異的胎仔フラクションを、(g)における再推定された胎仔フラクションと比較するステップを含む、実施形態E23に記載の方法。
E25.(d)における領域特異的胎仔フラクションが、(g)における再推定された胎仔フラクションと、所定のトレランス値だけ異なる場合に、パート(d)、(e)、および(f)を反復するステップを含む、実施形態E24に記載の方法。
E25.1 前記所定のトレランス値が、約1%~約25%の間である、実施形態E25に記載の方法。
E26.ヌクレオチド配列決定処理処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、実施形態E1からE25.1のいずれか一つに記載の方法。
E27.前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、実施形態E26に記載の方法。
E28.試験試料に由来するヌクレオチド配列の読取りを、再区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、実施形態E1からE27のいずれか一つに記載の方法。
E29.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、実施形態E28に記載の方法。
E30.前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、実施形態E29に記載の方法。
E31.前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、実施形態E29またはE30に記載の方法。
E31.1 前記配列の読取りのカウント数が、中央値の部分のカウント数に従って調整される、実施形態E31に記載の方法。
E32.前記正規化するステップが、主成分による正規化を含む、実施形態E29からE31.1のいずれか一つに記載の方法。
E33.前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分のカウント数に従う正規化、それに続く主成分による正規化を含む、実施形態E29からE32のいずれか一つに記載の方法。
E34.遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、実施形態E29からE33のいずれか一つに記載の方法。
E34.1 染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、実施形態E29からE34のいずれか一つに記載の方法。
E34.2 前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、実施形態E29からE34.1のいずれか一つに記載の方法。
E34.3 遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、実施形態E34.2に記載の方法。
E34.4 遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態E34からE34.3のいずれか一項に記載の方法。
E35.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、実施形態E28に記載の方法。
E36.遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態E35に記載の方法。
E37.染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態E35またはE36に記載の方法。
E38.前記未加工のカウント数が、前記試験試料についての染色体量を表示する、実施形態E36またはE37に記載の方法。
E39.遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、実施形態E38に記載の方法。
E40.遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態E36からE39のいずれか一つに記載の方法。
F1.参照ゲノム、またはそのパートを複数の部分へと区分化するための方法であって、
a)グアニンおよびシトシン(GC)のプロファイルを参照ゲノム、またはそのパートについて生成するステップと;
b)セグメント化処理を、(a)において生成されたGCプロファイルへと適用し、これにより、個別セグメントをもたらすステップと;
c)参照ゲノム、またはそのパートを複数の部分に、(b)において提供された個別セグメントに従って区分化し、これにより、GC区分化された参照ゲノム、またはそのパートを生成するステップと
を含む方法。
F1.1 遺伝子の変動の存在または非存在を識別するための方法であって、ヌクレオチド配列の読取りを試験試料について定量化するステップを含み、この配列の読取りが、
a)グアニンおよびシトシン(GC)のプロファイルを参照ゲノム、またはそのパートについて生成することと;
b)セグメント化処理を、(a)において生成されたGCプロファイルへと適用し、これにより、個別セグメントをもたらすことと;
c)参照ゲノム、またはそのパートを複数の部分に、(b)においてもたらされた個別セグメントに従って区分化し、これにより、GC区分化された参照ゲノム、またはそのパートを生成することと
を含む処理により区分化された参照ゲノム、またはそのパートへとマッピングされている方法。
F1.2 染色体、または染色体のセグメントを、参照ゲノムから区分化し、これにより、GC区分化された染色体、またはGC区分化された染色体セグメントを生成するステップを含む、実施形態F1またはF1.1に記載の方法。
F2.(a)におけるGCプロファイルが、参照ゲノム中の1kbずつのヌクレオチド配列について決定されたGC含有量レベルを含む、実施形態F1、F1.1、またはF1.2に記載の方法。
F3.(b)におけるセグメント化処理が、GC含有量レベルに対して実施される、実施形態F2に記載の方法。
F4.GC含有量レベルが類似する、1kbのヌクレオチド配列が、個別セグメントに統合される、実施形態F3に記載の方法。
F5.(b)におけるセグメント化処理が、個別セグメントを含む分解レンダリングを生成する、実施形態F1からF4のいずれか1つに記載の方法。
F5.1 (b)におけるセグメント化処理が、染色体の長さ(Lchr)および最小の部分の長さ(Lmin)に基づく分解のレベルに従って実施される、実施形態F1からF5のいずれか1つに記載の方法。
F6.(b)におけるセグメント化処理が、ハールウェーブレットセグメンテーションを含む、実施形態F1からF5.1のいずれか1つに記載の方法。
F7.複数の部分が、変動するサイズの部分を含む、実施形態F1からF6のいずれか1つに記載の方法。
F8.複数の部分が、約30kb~約300kbの間のサイズを有する部分を含む、実施形態F7に記載の方法。
F9.複数の部分が、約32kbの部分を含む、実施形態F7に記載の方法。
F10.複数の部分が、約64kbの部分を含む、実施形態F7に記載の方法。
F11.複数の部分が、約128kbの部分を含む、実施形態F7に記載の方法。
F12.複数の部分が、約256kbの部分を含む、実施形態F7に記載の方法。
F13.複数の部分が、50kbの部分を含まない、実施形態F7に記載の方法。
F14.GC含有量を、(b)における個別セグメントについて決定するステップを含む、実施形態F1からF13のいずれか1つに記載の方法。
F15.ヌクレオチド配列決定処理により、試験試料に由来する核酸を配列決定して、ヌクレオチド配列の読取りを生成するステップを含む、実施形態F1からF14のいずれか一つに記載の方法。
F16.前記核酸が、胎仔を有する妊娠中の雌に由来する循環型無細胞核酸である、実施形態F15に記載の方法。
F17.試験試料に由来するヌクレオチド配列の読取りを、GCにより区分化された参照ゲノムの部分へとマッピングし、これにより、マッピングされたヌクレオチド配列の読取りを生成するステップを含む、実施形態F1からF16のいずれか一つに記載の方法。
F18.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化し、これにより、正規化されたカウント数を生成するステップを含む、実施形態F17に記載の方法。
F19.前記正規化するステップが、グアニンおよびシトシン(GC)の偏りについてのLOESS正規化(GC-LOESS正規化)を含む、実施形態F18に記載の方法。
F20.前記正規化するステップが、配列の読取りのカウント数を中央値カウント数に従って調整することを含む、実施形態F17またはF18に記載の方法。
F20.1 前記配列の読取りのカウント数が、中央値の部分カウント数に従って調整される、実施形態F20に記載の方法。
F21.前記正規化するステップが、主成分による正規化を含む、実施形態F17からF20.1のいずれか一つに記載の方法。
F22.前記正規化するステップが、GC-LOESS正規化、それに続く中央値の部分カウント数に従う正規化、それに続く主成分による正規化を含む、実施形態F18からF21のいずれか一つに記載の方法。
F23.遺伝子の変動の存在または非存在を前記試験試料について、前記正規化されたカウント数に従って決定するステップを含む、実施形態F18からF22のいずれか一つに記載の方法。
F23.1 染色体構造を、前記正規化されたカウント数に従って決定するステップを含む、実施形態F18からF23のいずれか一つに記載の方法。
F23.2 前記正規化されたカウント数が、前記試験試料についての染色体量を表示する、実施形態F18からF23.1のいずれか一つに記載の方法。
F23.3 遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、実施形態F23.2に記載の方法。
F23.4 遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態F23からF23.3のいずれか一つに記載の方法。
F24.前記マッピングされたヌクレオチド配列の読取りのカウント数を正規化するステップを含まない、実施形態F17に記載の方法。
F25.遺伝子の変動の存在または非存在を前記試験試料について、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態F24に記載の方法。
F26.染色体構造を、前記マッピングされたヌクレオチド配列の読取りの未加工のカウント数に従って決定するステップを含む、実施形態F24またはF25に記載の方法。
F27.前記未加工のカウント数が、前記試験試料についての染色体量を表示する、実施形態F25またはF26に記載の方法。
F28.遺伝子の変動の存在または非存在を決定するステップが、前記染色体量に従う、実施形態F27に記載の方法。
F29.遺伝子の変動の存在または非存在を前記試験試料について決定するステップが、染色体の1つのコピー、染色体の2つのコピー、染色体の3つのコピー、染色体の4つのコピー、染色体の5つのコピー、染色体の1つもしくは複数のセグメントの欠失、または染色体の1つもしくは複数のセグメントの挿入の存在または非存在を識別することを含む、実施形態F25からF28のいずれか一項に記載の方法。
本明細書において参照される特許、特許出願、出版物、および文書それぞれについて、その全体を、本明細書により参照によって援用する。上記特許、特許出願、出版物、および文書を引用は、上記資料のいずれかが、関連する先行技術であることを承認するものではなく、またこれらの出版物または文書の内容または日付に関して何らかの承認となるものでもない。
本技術の基本的な態様から逸脱せずに、上記について修正を行うことができる。本技術は、1つまたは複数の特定の実施形態を参照しながら、かなり詳細に記載されており、当業者は、本出願で具体的に開示されている実施形態に変更を行うことが可能であると認識するであろうが、これらの修正および改良は、依然として本技術の範囲および精神内である。
本明細書に実例として記載する本技術は、本明細書に特に開示されないエレメント(複数可)のいずれかが存在しなくても好適に実践可能である。したがって、例えば、本明細書の各事例において、用語「を含む(comprising)」、「本質的に~からなる(consisting essentially of)」、および「からなる(consisting of)」のいずれも、他方の2つの用語と置き換え可能である。採用された用語および語句は、制限ではなく説明の用語として使用され、またかかる用語および語句の使用が、示され記載された特性、またはその部分と等価なものをいずれも除外するものではなく、様々な修正が、特許請求された技術の範囲内で可能である。用語「1つの(a)」または「1つの(an)」は、エレメントのうちの1つ、またはエレメントのうちの1つ超が記載されていることが文脈上明白でない限り、それが修飾する1つまたは複数のエレメントを指し得る(例えば、「試薬(a reagent)」は、1つまたは複数の試薬を意味し得る)。用語「約(about)」は、本明細書で使用する場合、基礎となるパラメータの10%以内の値を指す(すなわち、プラスまたはマイナス10%)、および連なった値の最初で用語「約」を使用する場合、その用語は値のそれぞれを修飾する(すなわち、「約1、2、および3」は、約1、約2、および約3を指す)。例えば、「約100グラム」の重量は、90グラム~110グラムの間の重量を含み得る。さらに、値の列挙が本明細書に記載される場合(例えば、約50%、60%、70%、80%、85%、または86%)、列挙には、全ての中間の値およびその分数の値(例えば、54%、85.4%)が含まれる。したがって、本技術は、代表的な実施形態および任意選択的な特性により具体的に開示されているものの、本明細書で開示する概念の修正および変更は当業者により実施可能であると理解すべきであり、かかる修正および変更は本技術の範囲内とみなされる。
本技術のある特定の実施形態を、後続する特許請求の範囲に記載する。

Claims (1)

  1. 図面に記載の発明。
JP2022191456A 2014-10-10 2022-11-30 遺伝子の変動の非侵襲的評価のための方法および処理 Pending JP2023022220A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462062748P 2014-10-10 2014-10-10
US62/062,748 2014-10-10
JP2020187745A JP2021035387A (ja) 2014-10-10 2020-11-11 遺伝子の変動の非侵襲的評価のための方法および処理

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020187745A Division JP2021035387A (ja) 2014-10-10 2020-11-11 遺伝子の変動の非侵襲的評価のための方法および処理

Publications (1)

Publication Number Publication Date
JP2023022220A true JP2023022220A (ja) 2023-02-14

Family

ID=54352504

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2017518990A Active JP6971845B2 (ja) 2014-10-10 2015-10-09 遺伝子の変動の非侵襲的評価のための方法および処理
JP2020187745A Pending JP2021035387A (ja) 2014-10-10 2020-11-11 遺伝子の変動の非侵襲的評価のための方法および処理
JP2022191456A Pending JP2023022220A (ja) 2014-10-10 2022-11-30 遺伝子の変動の非侵襲的評価のための方法および処理

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2017518990A Active JP6971845B2 (ja) 2014-10-10 2015-10-09 遺伝子の変動の非侵襲的評価のための方法および処理
JP2020187745A Pending JP2021035387A (ja) 2014-10-10 2020-11-11 遺伝子の変動の非侵襲的評価のための方法および処理

Country Status (6)

Country Link
US (2) US10892035B2 (ja)
EP (2) EP3730629A1 (ja)
JP (3) JP6971845B2 (ja)
AU (2) AU2015330734B2 (ja)
CA (1) CA2964158A1 (ja)
WO (1) WO2016057901A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9605313B2 (en) 2012-03-02 2017-03-28 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2946345B1 (en) 2013-01-17 2024-04-03 Personalis, Inc. Methods and systems for genetic analysis
EP3117011B1 (en) 2014-03-13 2020-05-06 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3212808B1 (en) 2014-10-30 2022-03-02 Personalis, Inc. Methods for using mosaicism in nucleic acids sampled distal to their origin
US11299783B2 (en) 2016-05-27 2022-04-12 Personalis, Inc. Methods and systems for genetic analysis
EP3464626B1 (en) 2016-05-27 2022-04-06 Sequenom, Inc. Methods for detecting genetic variations
US11515003B2 (en) 2016-07-27 2022-11-29 Sequenom, Inc. Copy number alteration and reference genome mapping
WO2018022890A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Genetic copy number alteration classifications
WO2018136881A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Sequencing adapter manufacture and use
CA3049457C (en) 2017-01-20 2023-05-16 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
CA3198931A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Methods for non-invasive assessment of genetic alterations
EP3574424A1 (en) 2017-01-24 2019-12-04 Sequenom, Inc. Methods and processes for assessment of genetic variations
US20200087710A1 (en) 2017-03-17 2020-03-19 Sequenom, Inc. Methods and processes for assessment of genetic mosaicism
GB2564847A (en) * 2017-07-18 2019-01-30 Congenica Ltd Knowledgebase for non-invasive prenatal genetic screening and diagnosis
EP3655954A1 (en) 2017-07-18 2020-05-27 Congenica Ltd. Screening system and method
PL3658689T3 (pl) * 2017-07-26 2021-10-18 Trisomytest, S.R.O. Sposób nieinwazyjnego wykrywania prenatalnego aneuploidii chromosomów płodu z krwi matki w oparciu o sieć bayesowską
SK862017A3 (sk) * 2017-08-24 2020-05-04 Grendar Marian Doc Mgr Phd Spôsob použitia fetálnej frakcie a chromozómovej reprezentácie pri určovaní aneuploidného stavu v neinvazívnom prenatálnom testovaní
EP3814480A4 (en) * 2018-05-24 2022-03-09 The Trustees of Columbia University in the City of New York PLATFORM FOR CAPTURE AND SEQUENCING BACTERIA AND METHODS OF DESIGN, CONSTRUCTION AND USE
KR102287096B1 (ko) * 2019-01-04 2021-08-09 테라젠지놈케어 주식회사 모체 시료 중 태아 분획을 결정하는 방법
WO2020180424A1 (en) 2019-03-04 2020-09-10 Iocurrents, Inc. Data compression and communication using machine learning
US20200303033A1 (en) * 2019-03-18 2020-09-24 Nantomics, Llc System and method for data curation
US20210366569A1 (en) * 2019-06-03 2021-11-25 Illumina, Inc. Limit of detection based quality control metric
US11403641B2 (en) * 2019-06-28 2022-08-02 Paypal, Inc. Transactional probability analysis on radial time representation
WO2021087491A1 (en) 2019-10-31 2021-05-06 Sequenom, Inc. Application of mosaicism ratio in multifetal gestations and personalized risk assessment
EP4168569A1 (en) * 2020-06-18 2023-04-26 Personalis, Inc. Machine-learning techniques for predicting surface-presenting peptides
EP4192981A1 (en) * 2020-08-09 2023-06-14 Myriad Women's Health, Inc. Bayesian sex caller
US11688507B2 (en) * 2020-12-29 2023-06-27 Kpn Innovations, Llc. Systems and methods for generating a metabolic dysfunction nourishment program
CN113158950B (zh) * 2021-04-30 2022-04-05 天津深析智能科技发展有限公司 一种重叠染色体自动分割方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
CN1703521B (zh) 2002-09-06 2011-11-16 波士顿大学信托人 基因表达的定量
EP1613723B1 (en) 2002-11-27 2013-05-15 Sequenom, Inc. Fragmentation-based methods for sequence variation detection and discovery
EP2532745B1 (en) 2003-07-05 2015-09-09 The Johns Hopkins University Method and Compositions for Detection and Enumeration of Genetic Variations
WO2006056480A2 (en) 2004-11-29 2006-06-01 Klinikum Der Universität Regensburg Means and methods for detecting methylated dna
EP2602321B1 (en) 2006-05-31 2017-08-23 Sequenom, Inc. Methods and compositions for the extraction and amplification of nucleic acid from a sample
CN101501251A (zh) 2006-06-16 2009-08-05 塞昆纳姆股份有限公司 扩增、检测和定量样品中核酸的方法和组合物
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
WO2009032781A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for universal size-specific polymerase chain reaction
US8206926B2 (en) 2008-03-26 2012-06-26 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
JP5727375B2 (ja) 2008-09-16 2015-06-03 セクエノム, インコーポレイテッド 非侵襲性の出生前診断のために有用な、母体サンプル由来の胎児核酸のメチル化に基づく濃縮のためのプロセスおよび組成物
EP3211095B1 (en) 2009-04-03 2019-01-02 Sequenom, Inc. Nucleic acid preparation compositions and methods
GB2485645B (en) 2010-01-19 2012-11-21 Verinata Health Inc Improved identification of partial aneuploidies using a normalising sequence
AU2011207561B2 (en) * 2010-01-19 2014-02-20 Verinata Health, Inc. Partition defined detection methods
WO2011143659A2 (en) 2010-05-14 2011-11-17 Fluidigm Corporation Nucleic acid isolation methods
WO2013019361A1 (en) 2011-07-07 2013-02-07 Life Technologies Corporation Sequencing methods
EP2764458B1 (en) 2011-10-06 2021-04-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK2766496T3 (en) 2011-10-11 2017-05-15 Sequenom Inc METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONS
LT2805280T (lt) 2012-01-20 2022-12-27 Sequenom, Inc. Diagnostikos būdai, kurie atsižvelgia į eksperimentines sąlygas
DK2852680T3 (da) 2012-05-21 2020-03-16 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv evaluering af genetiske variationer
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3004383B1 (en) 2013-05-24 2019-04-24 Sequenom, Inc. Methods for non-invasive assessment of genetic variations using area-under-curve (auc) analysis
KR20220133309A (ko) 2013-06-21 2022-10-04 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
US10964409B2 (en) 2013-10-04 2021-03-30 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR102373647B1 (ko) * 2013-10-21 2022-03-11 베리나타 헬스, 인코포레이티드 사본수 변동을 결정함에 있어서 검출의 감수성을 향상시키기 위한 방법
WO2016019042A1 (en) * 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Also Published As

Publication number Publication date
JP2021035387A (ja) 2021-03-04
US20210272650A1 (en) 2021-09-02
AU2015330734B2 (en) 2021-10-28
EP3204512B1 (en) 2020-05-06
AU2021282416B2 (en) 2024-05-09
EP3730629A1 (en) 2020-10-28
JP2018500876A (ja) 2018-01-18
WO2016057901A1 (en) 2016-04-14
US20170316150A1 (en) 2017-11-02
CA2964158A1 (en) 2016-04-14
US10892035B2 (en) 2021-01-12
JP6971845B2 (ja) 2021-11-24
EP3204512A1 (en) 2017-08-16
AU2021282416A1 (en) 2021-12-23
AU2015330734A1 (en) 2017-04-20

Similar Documents

Publication Publication Date Title
JP7159270B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
AU2021282416B2 (en) Methods and processes for non-invasive assessment of genetic variations
US11462298B2 (en) Methods and processes for non-invasive assessment of genetic variations
US20210174894A1 (en) Methods and processes for non-invasive assessment of genetic variations
JP7182353B2 (ja) 染色体提示の決定
EP3175000B1 (en) Methods and processes for non-invasive assessment of genetic variations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240522