JP7506060B2 - 検出限界ベースの品質管理メトリック - Google Patents

検出限界ベースの品質管理メトリック Download PDF

Info

Publication number
JP7506060B2
JP7506060B2 JP2021517942A JP2021517942A JP7506060B2 JP 7506060 B2 JP7506060 B2 JP 7506060B2 JP 2021517942 A JP2021517942 A JP 2021517942A JP 2021517942 A JP2021517942 A JP 2021517942A JP 7506060 B2 JP7506060 B2 JP 7506060B2
Authority
JP
Japan
Prior art keywords
sequence
fetal fraction
sample
coverage
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021517942A
Other languages
English (en)
Other versions
JP2022534634A (ja
JPWO2020247411A5 (ja
Inventor
サラ エル. キニング
コズミン デチウ
バドリ パズカサハシラム
ディミトリ スクウォルツォフ
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2022534634A publication Critical patent/JP2022534634A/ja
Publication of JPWO2020247411A5 publication Critical patent/JPWO2020247411A5/ja
Application granted granted Critical
Publication of JP7506060B2 publication Critical patent/JP7506060B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

参照による援用
PCT請求書式は、本出願の一部として本明細書と同時に出願される。本出願が同時に出願されたPCT請求書式で特定されたものの利益又は優先権を主張する各出願は、あらゆる目的のため全文を参照により本明細書に組み込む。
ヒトの医学的研究における重要な試みの1つは、有害な健康結果をもたらす遺伝的異常を発見することである。多くの場合、特定の遺伝子及び/又は重要な診断マーカーが、異常なコピー数で存在するゲノムの部分において特定されている。例えば、出生前診断では、染色体全体の余分な又は欠落したコピーは、頻繁に発生する遺伝子病変である。癌において、染色体全体又は染色体断片のコピーの欠失又は増殖、及びゲノムの特定領域のより高レベルの増幅が、一般的に発生する。
コピー数多型(CNV)に関する大半の情報は、構造的異常の認識を可能にした細胞遺伝学的解像度によって提供されている。遺伝的スクリーニング及び生物学的量測定のための従来の手順は、侵襲的処置、例えば、羊水穿刺、臍帯穿刺、又は絨毛生検(CVS)を利用して、核型の分析のための細胞を得る。細胞培養を必要としないより迅速な試験方法が必要であるという認識のもとに、蛍光in situハイブリダイゼーション(FISH)、定量蛍光PCR(QF-PCR)、及びアレイ比較ゲノムハイブリダイゼーション(アレイ-CGH)が、コピー数多型の分析のための分子細胞遺伝法として開発されてきた。
ヒトの医学的研究における重要な試みの1つは、有害な健康結果をもたらす遺伝的異常を発見することである。多くの場合、特定の遺伝子及び/又は重要な診断マーカーが、異常なコピー数で存在するゲノムの部分において特定されている。例えば、出生前診断では、染色体全体の余分な又は欠落したコピーは、頻繁に発生する遺伝子病変である。癌において、染色体又は染色体セグメント全体のコピーの欠失又は増殖、及びゲノムの特定領域のより高レベルの増幅が、一般的に発生する。
コピー数多型(CNV)に関する大半の情報は、構造的異常の認識を可能にした細胞遺伝学的解像度によって提供されている。遺伝的スクリーニング及び生物学的量測定のための従来の手順は、侵襲的処置、例えば、羊水穿刺、臍帯穿刺、又は絨毛生検(CVS)を利用して、核型の分析のための細胞を得る。細胞培養を必要としないより迅速な試験方法が必要であるという認識のもとに、蛍光in situハイブリダイゼーション(FISH)、定量蛍光PCR(QF-PCR)、及びアレイ比較ゲノムハイブリダイゼーション(アレイ-CGH)が、コピー数多型の分析のための分子細胞遺伝法として開発されてきた。
比較的短時間でゲノム全体のシーケンシングを可能にする技術の出現、及び循環セルフリーDNA(cfDNA)の発見は、侵襲的なサンプリング方法に関連するリスクなしに、1つの染色体に由来する遺伝物質を、別の染色体由来の遺伝物質と比較する機会を提供しており、これが、対象遺伝子配列の様々な種類のコピー数多型を診断するためのツールを提供する。
限定的なレベルのcfDNAからの不十分な感度や、ゲノム情報の固有の性質から生じる上記技術のシーケンシングバイアスなどを含む、非侵襲性の出生前診断における既存の方法の制約が、様々な臨床設定におけるコピー数多型を確実に診断するために、特異性、感度、及び適用性のいずれか又は全てを提供する非侵襲性方法の継続的な必要性の根底にある。胎児cfDNA断片の平均長は、妊婦の血漿中の母体cfDNA断片よりも短いことが証明されている。母体cfDNAと胎児cfDNAとの間のこの差異が、CNV及び/又は胎児フラクションを決定するために、本明細書の実施態様において利用される。本明細書に開示される実施形態は、上記の必要性の一部を満たす。いくつかの実施形態は、CNV検出におけるサンプル品質を制御する方法及びシステムを提供することにより、低すぎる胎児フラクション又はリードカバレッジを有するサンプルを、リシーケンシングなどの更なる処理のために特定する。いくつかの実施形態は、様々な疾患の非侵襲性の出生前診断及び確定にとって高い分析感度及び特異性を提供する。
本明細書の実施例はヒトに関し、言葉遣いは主にヒトの問題を対象としているが、本明細書に記載される概念は、任意の植物又は動物のゲノムにも適用可能である。本開示のこれらの及び他の目的及び特徴は、以下の説明及び添付の特許請求の範囲からより完全に明らかとなる、又は以下に記載される本開示の実施によって学習されてもよい。
本開示の一態様は、それぞれが母親及び胎児に由来するセルフリー核酸断片を含む試験サンプルを処理するための方法に関する。本方法は、1つ以上のプロセッサとメモリとを含むコンピュータシステムを使用して実行される。いくつかの実施態様では、本方法は、(a)試験サンプルの胎児フラクション値を決定することであって、試験サンプルの胎児フラクションが、試験サンプル中の胎児由来セルフリー核酸断片の相対量を示す、ことと、(b)コンピュータシステムによって、試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取ることと、(c)コンピュータシステムによって、セルフリー核酸断片の配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供することと、(d)コンピュータシステムによって、参照ゲノムの少なくとも一部についての配列タグのカバレッジを決定することと、(e)試験サンプルが、(d)で決定された配列タグのカバレッジ及び(a)で決定された胎児フラクションに基づいて、試験サンプルが除外領域内にあると判定することであって、除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、胎児フラクションLOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要な最小胎児フラクション値を示す、ことと、(f)試験サンプルを、対象配列のCNVのコールを行うための使用から除外すること、又は、試験サンプルをリシーケンシングして、対象配列のCNVのコールを行うためのリシーケンシングされた配列リードを取得することと、を含む。
いくつかの実施態様では、本方法は、(f)の前に、試験サンプルが対象配列のCNVについて陰性であると判定することを更に含む。
いくつかの実施態様では、本方法は、リシーケンシングされた配列リードを使用して(a)~(d)を繰り返すことと、試験サンプルが除外領域の外側にあると判定することと、対象配列のCNVを有する、又は対象配列のCNVを有さないのいずれかとして、試験サンプルをコールすることと、を更に含む。
いくつかの実施態様では、胎児フラクションLOD曲線は、CNVによって影響を受けている影響ありトレーニングサンプルのLODに基づいて取得される。いくつかの実施態様では、影響ありサンプルは、インシリコサンプルを含む。いくつかの実施態様では、影響ありサンプルは、インビトロサンプルを含む。いくつかの実施態様では、影響ありサンプルは、2つ以上の胎児フラクションを有するサンプルを組み合わせることによって取得される。
いくつかの実施態様では、検出基準は、観察された胎児フラクションについてグランドトゥルース胎児フラクションが指定LODよりも大きい、所望の信頼度である。いくつかの実施態様では、検出基準は、観察された胎児フラクションについてグランドトゥルース胎児フラクションがLOD Y%よりも大きい、X%信頼度である。いくつかの実施態様では、Xは、約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%、又は99.5%である。いくつかの実施態様では、Yは、約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、又は99%の検出信頼度である。いくつかの実施態様では、Xは50%であり、Yは95%である。いくつかの実施態様では、指定LODは、影響ありサンプルのY%が検出され得る最小の観察された胎児フラクションとして決定される。いくつかの実施態様では、観察されたカバレッジにおける観察された胎児フラクションについての検出基準が、観察されたカバレッジにおける観察された胎児フラクションのグランドトゥルース胎児フラクションの分布を用いて取得される。
いくつかの実施態様では、除外領域は、胎児フラクションLOD曲線の下にある。
いくつかの実施態様では、除外領域は、胎児フラクションLOD曲線及びカバレッジ閾値によって定義される。
いくつかの実施態様では、除外領域は、胎児フラクションLOD曲線及びカバレッジ閾値の両方の下にある。
いくつかの実施態様では、参照ゲノムの一部の配列タグのカバレッジを決定することは、(i)参照ゲノムを複数のビンに分割することと、(ii)各ビンに位置合わせする配列タグの数を決定することと、(iii)参照ゲノムの一部におけるビン内の配列タグの数を使用して配列タグのカバレッジを決定することと、を含む。いくつかの実施態様では、本方法は、(iii)の前に、コピー数多型以外の要因によるビン間変動を考慮することによって、ビンに位置合わせする配列タグの数を調整することを更に含む。
いくつかの実施態様では、試験サンプルの胎児フラクション値は、セルフリー核酸断片のサイズに基づいて決定される。いくつかの実施態様では、試験サンプルの胎児フラクション値は、セルフリー核酸断片のサイズの頻度分布を取得し、胎児フラクションを断片のサイズの頻度に関連付けるモデルに頻度分布を適用することによって決定される。
いくつかの実施態様では、試験サンプルの胎児フラクション値は、参照ゲノムのビンについてのカバレッジ情報に基づいて決定される。いくつかの実施態様では、胎児フラクション値は、胎児フラクションをビンのカバレッジに関連付けるモデルに参照ゲノムの複数のビンのカバレッジ値を適用して、胎児フラクション値を取得することによって計算される。いくつかの実施態様では、参照ゲノムの複数のビンは、他のビンよりも高い割合の胎児セルフリー核酸断片を有する。
いくつかの実施態様では、試験サンプルの胎児フラクション値は、性染色体のビンについてのカバレッジ情報に基づいて決定される。
本開示の別の態様は、1つ以上のプロセッサとシステムメモリとを含むコンピュータシステムに関する。1つ以上のプロセッサは、上述の方法のいずれかを実行するように構成されている。
本開示の更なる態様は、コンピュータシステムの1つ以上のプロセッサによって実行されるとき、コンピュータシステムに上記の方法のいずれかを実行させるコンピュータ実行可能命令を記憶した1つ以上のコンピュータ可読非一時的記憶媒体を含むコンピュータプログラム製品に関する。
[本発明1001]
母親及び胎児に由来するセルフリー核酸断片を含む試験サンプルを処理するために、1つ以上のプロセッサとメモリとを含むコンピュータシステムを使用して実行される方法であって、
(a)前記試験サンプルの胎児フラクション値を決定することであって、前記試験サンプルの胎児フラクションが、前記試験サンプル中の胎児由来セルフリー核酸断片の相対量を示す、ことと、
(b)前記コンピュータシステムによって、前記試験サンプル中の前記セルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取ることと、
(c)前記コンピュータシステムによって、前記セルフリー核酸断片の前記配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供することと、
(d)前記コンピュータシステムによって、参照ゲノムの少なくとも一部についての配列タグのカバレッジを決定することと、
(e)(d)で決定された配列タグの前記カバレッジ及び(a)で決定された前記胎児フラクションに基づいて、前記試験サンプルが除外領域内にあると判定することであって、前記除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、前記胎児フラクションLOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要な最小胎児フラクション値を示す、ことと、
(f)前記試験サンプルを、前記対象配列のCNVのコールを行うための使用から除外すること、又は、前記試験サンプルをリシーケンシングして、前記対象配列のCNVのコールを行うためのリシーケンシングされた配列リードを取得することと
を含む、方法。
[本発明1002]
前記(f)の前に、前記試験サンプルが前記対象配列の前記CNVについて陰性であると判定することを更に含む、本発明1001の方法。
[本発明1003]
前記リシーケンシングされた配列リードを使用して、(a)~(d)を繰り返すことと、
前記試験サンプルが前記除外領域の外側にあると判定することと、
前記対象配列の前記CNVを有する、又は前記対象配列の前記CNVを有さないのいずれかとして、前記試験サンプルをコールすることと
を更に含む、前記本発明のいずれかの方法。
[本発明1004]
前記胎児フラクションLOD曲線が、前記CNVに影響を受けている影響ありトレーニングサンプルのLODに基づいて取得される、前記本発明のいずれかの方法。
[本発明1005]
前記影響ありサンプルが、インシリコサンプルを含む、本発明1004の方法。
[本発明1006]
前記影響ありサンプルが、インビトロサンプルを含む、本発明1004の方法。
[本発明1007]
前記影響ありサンプルが、2つ以上の胎児フラクションを有するサンプルを組み合わせることによって取得される、本発明1004の方法。
[本発明1008]
前記検出基準が、観察された胎児フラクションについてグランドトゥルース胎児フラクションが指定LODよりも大きい、所望レベルの信頼度である、前記本発明のいずれかの方法。
[本発明1009]
前記検出基準が、前記観察された胎児フラクションについて前記グランドトゥルース胎児フラクションがLOD Y%よりも大きい、X%信頼度である、本発明1008の方法。
[本発明1010]
Xが、約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%、又は99.5%である、本発明1008の方法。
[本発明1011]
Yが、約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、又は99%検出信頼度である、本発明1008の方法。
[本発明1012]
Xが50%であり、Yが95%である、本発明1008の方法。
[本発明1013]
前記指定LODが、影響ありサンプルのY%が検出され得る最小の観察された胎児フラクションとして決定される、本発明1008~1012のいずれかの方法。
[本発明1014]
観察されたカバレッジにおける観察された胎児フラクションについての検出基準が、前記観察されたカバレッジにおける前記観察された胎児フラクションのグランドトゥルース胎児フラクションの分布を用いて取得される、本発明1008~1013のいずれかの方法。
[本発明1015]
前記除外領域が、前記胎児フラクションLOD曲線の下にある、前記本発明のいずれかの方法。
[本発明1016]
前記除外領域が、前記胎児フラクションLOD曲線及びカバレッジ閾値によって画定される、前記本発明のいずれかの方法。
[本発明1017]
前記除外領域が、前記胎児フラクションLOD曲線及び前記カバレッジ閾値の両方の下にある、前記本発明のいずれかの方法。
[本発明1018]
前記参照ゲノムの前記一部について、前記配列タグの前記カバレッジを決定することが、
(i)前記参照ゲノムを複数のビンに分割することと、
(ii)各ビンに位置合わせする配列タグの数を決定することと、
(iii)前記参照ゲノムの前記一部におけるビン内の前記配列タグの数を使用して、前記配列タグの前記カバレッジを決定することと
を含む、前記本発明のいずれかの方法。
[本発明1019]
(iii)の前に、コピー数多型以外の要因によるビン間変動を考慮することによって、前記ビンに位置合わせする前記配列タグの数を調整することを更に含む、本発明1018の方法。
[本発明1020]
前記試験サンプルの前記胎児フラクション値が、前記セルフリー核酸断片のサイズに基づいて決定される、前記本発明のいずれかの方法。
[本発明1021]
前記試験サンプルの前記胎児フラクション値が、
前記セルフリー核酸断片の前記サイズの頻度分布を取得することと、
胎児フラクションをフラグメントサイズの頻度に関連付けるモデルに前記頻度分布を適用して、前記胎児フラクション値を取得することと
によって決定される、本発明1020の方法。
[本発明1022]
前記試験サンプルの前記胎児フラクション値が、前記参照ゲノムのビンについてのカバレッジ情報に基づいて決定される、前記本発明のいずれかの方法。
[本発明1023]
前記胎児フラクション値が、
胎児フラクションをビンのカバレッジに関連付けるモデルに前記参照ゲノムの複数のビンのカバレッジ値を適用して、前記胎児フラクション値を取得すること
によって計算される、本発明1022の方法。
[本発明1024]
前記参照ゲノムの前記複数のビンが、他のビンよりも高い割合の胎児セルフリー核酸断片を有する、本発明1023の方法。
[本発明1025]
前記試験サンプルの前記胎児フラクション値が、性染色体の前記ビンについてのカバレッジ情報に基づいて決定される、前記本発明のいずれかの方法。
[本発明1026]
試験サンプル中の対象核酸配列のコピー数を評価するためのシステムであって、
プロセッサと、
(a)試験サンプルの胎児フラクション値を決定し、ここで、前記試験サンプルの前記胎児フラクションが、前記試験サンプル中の胎児由来セルフリー核酸断片の相対量を示し、
(b)コンピュータシステムによって、前記試験サンプル中の前記セルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取り、
(c)前記コンピュータシステムによって、前記セルフリー核酸断片の前記配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供し、
(d)前記コンピュータシステムによって、前記参照ゲノムの少なくとも一部に対する前記配列タグのカバレッジを決定し、そして、
(e)(d)で決定された配列タグの前記カバレッジ及び(a)で決定された前記胎児フラクションに基づいて、前記試験サンプルが除外領域内にあると判定し、ここで、前記除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、ここで、前記胎児フラクションLOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要な最小胎児フラクション値を示す
ために、前記プロセッサ上で実行するための命令を記憶した1つ以上のコンピュータ可読記憶媒体と
を含む、システム。
[本発明1027]
コンピュータシステムの1つ以上のプロセッサによって実行されるとき、前記コンピュータシステムが
(a)試験サンプルの胎児フラクション値を決定し、ここで、前記試験サンプルの前記胎児フラクションが、前記試験サンプル中の胎児由来セルフリー核酸断片の相対量を示し、
(b)前記コンピュータシステムによって、前記試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取り、
(c)前記コンピュータシステムによって、前記セルフリー核酸断片の前記配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供し、
(d)前記コンピュータシステムによって、前記参照ゲノムの少なくとも一部に対する前記配列タグのカバレッジを決定し、そして、
(e)(d)で決定された配列タグの前記カバレッジ及び(a)で決定された前記胎児フラクションに基づいて、前記試験サンプルが除外領域内にあると判定し、ここで、前記除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、ここで、前記胎児フラクションLOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要な最小胎児フラクション値を示す
ようにさせる、プログラムコード
を記憶する非一時的機械可読媒体を備えるコンピュータプログラム製品。
参照による援用
全ての特許、特許出願、及び他の刊行物は、これらの文献に開示され、本明細書で言及される全ての配列を含めて、各公開物、特許、又は特許出願が参照により組み込まれることが具体的かつ個別に示されているのと同程度に、参照により本明細書に明示的に組み込まれる。引用された全ての文献は、関連部分において、本明細書の引用の文脈によって示される目的のために、参照により全文が本明細書に組み込まれる。しかしながら、いずれの文献の引用も、それが本開示に対する先行技術であることを容認するものとして解釈されるべきではない。
カバレッジの関数としての検出を確保するために必要な最小胎児フラクションを概略的に示す。
サンプルを除外するための2段階カバレッジ閾値を示す。
3つの集団又はそのサンプルの胎児フラクション分布を示す。
いくつかの実施態様によるCNVを判定するための検出限界(LOD)QC法を使用するワークフロー200を示す。
CNV検出のための別のLOD QCプロセスを示す。
LODの根拠をなす統計的概念を示す経験及び仮説データを示す。
胎児フラクションの関数としての検出確率を示す。
推定された胎児フラクションが、推定胎児フラクションを真の胎児フラクションから逸脱させる誤差を含むことを示す。
カバレッジ及び胎児フラクション値による胎児フラクション誤差を示す。
8つのレベルの観察された胎児フラクションについて真の胎児フラクションをシミュレートする。
3つの異なるレベルの誤差又はカバレッジについて、観察された胎児フラクションに対する真の胎児フラクションの分布を示す。
異なる誤差又はカバレッジを与えた、2%の観察された胎児フラクションとシミュレートされた真の胎児フラクション分布を示す。
観察された胎児フラクションの関数としての真の胎児フラクション分布の20パーセンタイルを示す。
LOD、カバレッジ、及び観察された胎児フラクションの表である。
図13に示されるものと同様のデータから取得され得る2つの胎児フラクションLOD曲線を含む。
いくつかの実施形態によるコピー数多型の存在を判定するための方法を示す。
コピー数を評価するための3パスプロセスのフローチャートである。
本開示のいくつかの実施態様による、カバレッジ情報から胎児フラクションを決定するための例示的なプロセス800を示す。
いくつかの実施態様による、サイズ分布情報から胎児フラクションを決定するためのプロセスを示す。
本開示のいくつかの実施態様による、8mer頻度情報から胎児フラクションを決定するための例示的なプロセス1000を示す。
試験サンプルからのコール又は診断を生成するための分散システムの一実施例を示す。
異なる場所で様々な動作を実行するためのオプションを示す。
合成生成サンプルのY染色体カバレッジ(左図)及びFFフラクション推定値(右図)を、希釈フラクションの関数として示す。
LOD対カバレッジの線形適合の結果を示す。
観察されたLODに重ねられた予測LODの結果を示す。
NESの確率密度関数を示す。
観察された胎児フラクションの関数としてのNESカバレッジを示す。
LOD曲線及びリード閾値によって画定される除外領域を使用するデータ除外を示す。
従来の方法及びLOD QC法の第1の実行及び第2の実行についての合否率を示す。
2段階閾値によって除外され、胎児フラクションLOD曲線法によって救出されたデータを示す。
LOD QC法によって救出されたサンプルを示す。
LOD QC法によって除外されたサンプルを示す。
既存の従来の方法及びLODQC法に関する2回の実行の合否率を示す。
75%信頼度のLOD曲線が救出したサンプルを示す。
いくつかの実施態様の方法を使用してT21サンプルを検出するための感度を示す。
詳細な説明
定義
本明細書で使用するとき、数値に関して用語「約」は、±10%を指す。
用語「からなる」は、「包含し、限定される」ことを意味する。
用語「から本質的になる」は、組成物、方法、又は構造が、追加成分、工程、及び/又は部分が特許請求される組成物、方法、又は構造の基本的及び新規の特性を実質的に変更しない場合にのみ、追加成分、工程、及び/又は部分を含み得ることを意味する。
別途記載のない限り、本明細書に開示される方法及びシステムの実施は、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質及びDNAシーケンシング、及び組み換えDNA分野において一般的に使用される従来の技術及び装置を含み、これらは現状技術に属する。このような技術及び装置は当業者に既知であり、多数のテキスト及び参照論文に記載されている(例えば、Sambrook et al.、「Molecular Cloning:A Laboratory Manual」第3版(Cold Spring Harbor)、[2001];及びAusubel et al.、「Current Protocols in Molecular Biology」[1987]を参照されたい)。
数値範囲は、その範囲を画定する数字を含む。本明細書全体を通して与えられるあらゆる上限値は、あらゆる下限値を、そのような下限値が本明細書に明示的に記載されているかのように含むことが意図される。本明細書全体を通して与えられるあらゆる下限値は、あらゆる上限値を、そのような上限値が本明細書に明示的に記載されているかのように含む。本明細書全体を通して与えられるあらゆる数値範囲は、広い数値範囲に属するあらゆる狭い数値範囲を、そのような狭い数値範囲が本明細書に明示的に記載されているかのように含む。
別途定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、当業者によって一般的に理解されるものと同じ意味を有する。本明細書に含まれる用語を含む様々な科学的辞書は、技術分野において周知であり、利用可能である。本明細書に記載されるものと同様又は同等の方法及び材料を本発明の実施又は試験に使用することができるが、いくつかの方法及び材料が以下に記載されている。
以下に定義される用語は、全体として明細書を参照することによって、より完全に記載される。本開示は、当業者によって使用される文脈に応じて変動し得るため、記載される特定の方法論、プロトコル、及び試薬に限定されないことを理解されたい。本明細書で使用するとき、単数形「a」、「an」、及び「the」は、文脈上そうでないことが明確に示されない限り、複数の言及を含む。
別途記載のない限り、核酸は、5’~3’配向で左から右に書かれ、アミノ酸配列はそれぞれ、アミノからカルボキシへの配向で左から右に書かれる。
検出限界(LOD)は、所定の信頼度で検出することができる最小レベルの信号(例えば、検体、胎児フラクション、状態を示すスコアなど)である。本出願では、LODは、所定の信頼度を有する、異数体/CNVを検出するために必要とされる最小レベルの胎児フラクション(又は他の検体)である。
本明細書で使用される用語「パラメータ」は、その値又は他の特性がコピー数多型などの関連条件に影響を及ぼす物理的特徴を表す。いくつかの場合において、パラメータという用語は、数学的関係又はモデルの出力に影響を及ぼす変数を参照して使用され、変数は、独立変数(すなわち、モデルへの入力)又は1つ以上の独立変数に基づく中間変数であってもよい。モデルの範囲に応じて、1つのモデルの出力は、別のモデルの入力になることによって他のモデルへのパラメータとなり得る。
用語「断片サイズパラメータ」は、断片又は核酸断片、例えば体液から得られるcfDNA断片の集合のサイズ又は長さに関連するパラメータを指す。本明細書で使用するとき、1)パラメータが、断片サイズ又はサイズ範囲に関して有利に重み付けされる、例えば、サイズ又はサイズ範囲の断片に関連付けられるときに他のサイズ又は範囲の場合よりも重く重み付けされるカウントであるとき、又は、2)パラメータが、例えば、断片サイズ又はサイズ範囲に関して有利に重み付けされる値から得られる、例えば、サイズ又はサイズ範囲の断片に関連付けられるときに他のサイズ又は範囲の場合よりも重く重み付けされるカウントから得られる比率であるとき、パラメータは「断片サイズ又はサイズ範囲に向けてバイアスがかかっている」。断片サイズ又はサイズ範囲は、ゲノムが、別のゲノム又は同じゲノムの別の部分からの核酸断片に対して、濃縮された又はより高濃度のサイズ又はサイズ範囲を有する核酸断片を生成する場合、ゲノム又はその一部の特徴であり得る。
用語「重み付け」は、「重み」と見なされる1つ以上の値又は関数を使用してパラメータ又は変数などの量を修正することを指す。特定の実施形態では、パラメータ又は変数は、重みで乗算される。他の実施形態では、パラメータ又は変数は、指数関数的に変更される。いくつかの実施形態では、関数は、線形関数であってもよく、又は非線形関数であってもよい。適用可能な非線形関数の例としては、これらに限定されるものではないが、ヘビサイドステップ関数、ボックスカー関数、ステアケース関数、又はシグモイド関数が挙げられる。元のパラメータ又は変数を重み付けすることで、重み付き変数の値を体系的に増加又は減少させることができる。様々な実施形態では、重み付けは、正、負、又は負の値をもたらし得る。
本明細書における用語「コピー数多型」は、基準サンプル中に存在する核酸配列のコピー数と比較して、試験サンプル中に存在する核酸配列のコピー数が変動することを指す。特定の実施形態では、核酸配列は、1kb以上である。場合によっては、核酸配列は、染色体全体又はその有意な部分である。「コピー数変異体」は、試験サンプル中の対象核酸配列と対象核酸配列の予想レベルとを比較することにより、コピー数差が見出される核酸配列を指す。例えば、試験サンプル中の対象核酸配列のレベルが、適格サンプル中に存在するものと比較される。コピー数変異体/変動は、微小欠失を含む欠失、微小挿入を含む挿入、複製、増殖、及び転位を含む。CNVは、染色体異数体及び部分的異数体を包含する。
本明細書における用語「異数体」は、染色体全体又は染色体の一部の喪失又は獲得によって引き起こされる遺伝物質の不均衡を指す。
本明細書における用語「染色体異数体」及び「完全染色体異数体」は、染色体全体の喪失又は獲得によって引き起こされる遺伝物質の不均衡を指し、生殖細胞異数体及びモザイク異数体を含む。
本明細書において、用語「部分異数体」及び「部分染色体異数体」は、染色体、例えば、部分モノソミー及び部分トリソミーの一部の喪失又は獲得によって引き起こされる遺伝物質の不均衡を指し、転位、欠失、及び挿入から生じる不均衡を包含する。
用語「複数」は、2つ以上の要素を指す。例えば、この用語は、本明細書に開示される方法を使用して、試験サンプル及び適格サンプルにおけるコピー数多型の有意な差異を特定するのに十分な多数の核酸分子又は配列タグを参照して使用される。いくつかの実施形態では、各試験サンプルについて、約20~40bpの少なくとも約3×10の配列タグが得られる。いくつかの実施形態では、各試験サンプルは、少なくとも約5×10、8×10、10×10、15×10、20×10、30×10、40×10、又は50×10の配列タグのデータを提供し、各配列タグは、約20~40bpを含む。
用語「ペアエンドリード」は、核酸断片の各末端から1つのリードを取得する、ペアエンドシーケンシングからのリードを指す。ペアエンドシーケンシングは、ポリヌクレオチドの鎖を、インサートと呼ばれる短い配列に断片化することを含んでもよい。断片化は、セルフリーDNA分子などの比較的短いポリヌクレオチドの場合は任意選択的又は不要である。
用語「ポリヌクレオチド」、「核酸」、及び「核酸分子」は、互換的に使用され、1つのヌクレオチドのペントースの3’位置が、ホスホジエステル基によって次のペントースの5’位置に結合されるヌクレオチドの共有結合配列(すなわち、RNAの場合はリボヌクレオチド、及びDNAの場合はデオキシリボヌクレオチド)を指す。ヌクレオチドは、cfDNA分子などのRNA及びDNA分子を含むがこれらに限定されない、任意の形態の核酸の配列を含む。用語「ポリヌクレオチド」は、一本鎖及び二本鎖ポリヌクレオチドを含むが、これらに限定されない。
本明細書における用語「試験サンプル」は、典型的には、コピー数多型に関してスクリーニングされる少なくとも1つの核酸配列を含有する生物液、細胞、組織、器官、又は生物に由来するサンプルを指す。特定の実施形態では、サンプルは少なくとも1つの核酸配列を含み、そのコピー数は、変動したものと疑われる。このようなサンプルとしては、痰/口腔流体、羊水、血液、血液画分、又は細針生検サンプル(例えば、外科生検、細針生検など)、尿、腹膜流体、胸膜流体などが挙げられるが、これらに限定されない。サンプルは、多くの場合、ヒト被験者(例えば、患者)から採取されるが、分析物は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない哺乳動物からのサンプル内のコピー数多型(CNV)に対して使用することができる。サンプルは、生物学的ソースから得られるように、又はサンプルの特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法には、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。このような前処理方法がサンプルに対して採用される場合、そのような前処理方法では、典型的には、対象核酸が試験サンプル中に残存し、時には、未処理の試験サンプル(例えば、そのような前処理方法に供されないサンプル)中の濃度に比例する濃度で、試験サンプル中に残存する。そのような「処理済み」又は「処理された」サンプルは、本明細書に記載される方法に関して、生物学的「試験」サンプルであると考えられる。
本明細書において、用語「適格サンプル」又は「影響なしサンプル」は、試験サンプル中の核酸の比較対象である、既知のコピー数で存在する核酸の混合物を含むサンプルを指し、対象核酸配列に対して正常である、すなわち、異数体ではないサンプルである。いくつかの実施形態では、適格サンプルは、配列マスク又は配列プロファイルを導出するために、トレーニングセットの影響なしトレーニングサンプルとして使用される。特定の実施形態では、適格サンプルは、検討中の染色体に関して1つ又はそれ以上の正規化染色体又はセグメントを特定するために使用される。例えば、適格サンプルは、21番染色体の正規化染色体を特定するために使用されてもよい。そのような場合、適格サンプルは、トリソミー21のサンプルではないサンプルである。別の例は、X染色体について適格サンプルとして女性のみを使用することを含む。適格サンプルは、影響ありサンプルをコールするための閾値を決定すること、参照配列上にマスク領域を画定するための閾値を特定すること、ゲノムの異なる領域についての予測カバレッジ量を決定することなど他の目的で使用されてもよい。
本明細書における用語「トレーニングセット」は、影響ありサンプル及び/又は影響なしサンプルを含むことができ、試験サンプルを分析するためのモデルを開発するために使用されるトレーニングサンプルのセットを指す。いくつかの実施形態では、トレーニングセットは、影響なしサンプルを含む。これらの実施形態では、CNVを判定するための閾値は、対象コピー数多型について影響なしサンプルのトレーニングセットを使用して確定される。トレーニングセット内の影響なしサンプルは、適格サンプルとして使用されて、正規化染色体などの正規化配列を特定することができ、影響なしサンプルの染色体量を使用して、対象配列、例えば、染色体のそれぞれについて閾値を設定する。いくつかの実施形態では、トレーニングセットは、影響ありサンプルを含む。トレーニングセット内の影響ありサンプルを使用して、影響あり試験サンプルが影響なしサンプルと容易に区別できることを確認することができる。
トレーニングセットはまた、対象集団における統計サンプルであり、この統計サンプルは、生物学的サンプルと混同すべきではない。統計サンプルは多くの場合、複数の個体を含み、個体のデータは、母集団に一般化可能な1つ又はそれ以上の定量値を決定するために使用される。統計サンプルは、対象母集団における個体のサブセットである。個体は、人、動物、組織、細胞、他の生物学的サンプル(すなわち、統計サンプルは複数の生物学的サンプルを含んでもよい)、及び統計分析のためのデータ点を提供する他の個々のエンティティであってもよい。
通常、トレーニングセットは、検証セットと併せて使用される。用語「検証セット」は、統計サンプル中の個体のセットを指すために使用され、個体のデータは、トレーニングセットを使用して決定された対象の定量値を検証又は評価するために使用される。いくつかの実施形態では、例えば、トレーニングセットが、参照配列のマスクを計算するためのデータを提供する一方、検証セットは、マスクの妥当性又は有効性を評価するためのデータを提供する。
「コピー数の評価」は、本明細書では、配列のコピー数に関連する遺伝子配列の状態の統計的評価を参照して使用される。例えば、いくつかの実施形態では、評価は、遺伝子配列の有無の判定を含む。いくつかの実施形態では、評価は、遺伝子配列の部分又は完全異数体の判定を含む。他の実施形態では、評価は、遺伝子配列のコピー数に基づいて2つ以上のサンプルの区別を含む。いくつかの実施形態では、評価は、遺伝子配列のコピー数に基づく統計分析、例えば、正規化及び比較を含む。
用語「適格核酸」は、「適格配列」と互換的に使用され、これは、対象配列又は核酸と量が比較される配列である。適格配列は、好ましくは既知の表現で生物学的サンプル中に存在するものであり、すなわち、適格配列の量は既知である。一般に、適格配列は、「適格サンプル」に存在する配列である。「対象適格配列」は、適格サンプルにおいて量が既知である適格配列であり、制御対象と医学的状態を有する個体との間の該当配列の差に関連付けられる配列である。
本明細書において、用語「対象配列」又は「対象核酸配列」は、健康な個体と疾病のある個体との間の配列表現の差に関連付けられる核酸配列を指す。対象配列は、疾患又は遺伝的状態において、誤って発現された、すなわち過剰又は過小に発現された染色体上の配列であり得る。対象配列は、染色体の一部、すなわち、染色体セグメントであってもよく、染色体全体であってもよい。例えば、対象配列は、異数体状態において過剰に発現された染色体、又は癌において過小に発現された腫瘍抑制因子をコードする遺伝子であってもよい。対象配列としては、集団全体又は被験者の細胞のサブ集団において過剰又は過小に発現された配列が挙げられる。「対象適格配列」は、適格サンプル中の対象配列である。「対象試験配列」は、試験サンプル中の対象配列である。
本明細書における用語「正規化配列」は、正規化配列に関連付けられた対象配列にマッピングされる配列タグの数を正規化するために使用される配列を指す。いくつかの実施形態では、正規化配列は、ロバストな染色体を含む。「ロバストな染色体」は、異数体である可能性が低いものである。ヒト染色体に関与する場合では、ロバストな染色体は、X染色体、Y染色体、13番染色体、18番染色体、及び21番染色体以外の任意の染色体である。いくつかの実施形態では、正規化配列は、それが正規化パラメータとして使用される対象配列の変動性に近似するサンプル及びシーケンシング実行の中で、正規化配列にマッピングされる配列タグの数の変動性を示す。正規化配列は、影響ありサンプルと1つ又はそれ以上の影響なしサンプルとを区別することができる。いくつかの実施態様では、正規化配列は、他の染色体などの他の潜在的な正規化配列と比較されるとき、影響ありサンプルと1つ又はそれ以上の影響なしサンプルとを、最良又は効果的に区別する。いくつかの実施形態では、正規化配列の変動性は、サンプル及びシーケンシング実行全体にわたって対象配列に関する染色体量の変動性として計算される。いくつかの実施形態では、正規化配列は、影響なしサンプルのセットにおいて特定される。
「正規化染色体」、「正規化基準染色体」、又は「正規化染色体配列」は、「正規化配列」の例である。「正規化染色体配列」は、単一の染色体又は染色体群から構成され得る。いくつかの実施形態では、正規化配列は、2つ以上のロバストな染色体を含む。特定の実施形態では、ロバストな染色体は、X、Y、13番、18番、及び21番染色体以外の全ての常染色体である。「正規化セグメント」は、「正規化配列」の別の例である。「正規化セグメント配列」は、染色体の単一セグメントから構成されてもよく、又は同じ又は異なる染色体の2つ又はそれ以上のセグメントから構成されてもよい。特定の実施形態では、正規化配列は、プロセス関連、染色体間(実行間)、及びシーケンシング間(実行間)変動性などの変動性について正規化することが意図される。
本明細書における用語「差異性」は、1つ又はそれ以上の影響なし、すなわち、正常サンプルと、1つ以上の影響ありサンプル、すなわち、異数体サンプルとの区別を可能にする正規化染色体の特徴を指す。最大の「差異性」を示す正規化染色体は、1セットの適格サンプル中の対象染色体に関する染色体量と、1つ又はそれ以上の影響ありサンプル中の対応する染色体における同じ対象染色体に関する染色体量との分布間の最大の統計的差異を提供する染色体又は染色体群である。
本明細書における用語「変動性」は、1つ又はそれ以上の影響なし、すなわち、正常サンプルと、1つ以上の影響ありサンプル、すなわち、異数体サンプルとの区別を可能にする正規化染色体の別の特徴を指す。正規化染色体の変動性は、適格サンプルのセット内で測定され、正規化パラメータとして機能する対象染色体にマッピングされる配列タグの数の変動性に近似する配列タグの数の変動性を指す。
本明細書における用語「配列タグ密度」は、参照ゲノム配列にマッピングされる配列リードの数を指し、例えば、21番染色体の配列タグ密度は、参照ゲノムの21番染色体にマッピングされる、シーケンシング方法によって生成される配列リードの数である。
本明細書における用語「配列タグ密度比」は、21番染色体などの参照ゲノムの染色体にマッピングされる配列タグの数と、参照ゲノム染色体の長さとの比を指す。
本明細書における用語「配列量」は、対象配列について特定された配列タグの数又は別のパラメータ、及び正規化配列について特定された配列タグの数又は他のパラメータに関連するパラメータを指す。場合によっては、配列量は、対象配列についての配列タグカバレッジ又は他のパラメータと、正規化配列についての配列タグカバレッジ又は他のパラメータとの比である。場合によっては、配列量は、対象配列の配列タグ密度を、正規化配列の配列タグ密度に関連付けるパラメータを指す。「試験配列量」は、21番染色体などの対象配列の配列タグ密度又は他のパラメータを、試験サンプルにおいて決定された9番染色体などの正規化配列の配列タグ密度又は他のパラメータに関連付けるパラメータである。同様に、「適格配列量」は、対象配列の配列タグ密度又は他のパラメータを、適格サンプルにおいて決定された配列タグ密度又は他のパラメータに関連付けるパラメータである。
用語「カバレッジ」は、定義された配列にマッピングされた配列タグの存在度を指す。カバレッジは、配列タグ密度(又は配列タグのカウント)、配列タグ密度比、正規化カバレッジ量、調節されたカバレッジ値などによって定量的に示すことができる。
用語「カバレッジ量」は、生カバレッジの改変を指し、多くの場合、ビンなどのゲノムの領域内の配列タグの相対量(カウントと称されることもある)を表す場合が多い。カバレッジ量は、ゲノムの領域について生カバレッジ又はカウントを正規化、調整、及び/又は補正することによって得ることができる。例えば、ある領域の正規化カバレッジ量は、該領域にマッピングされた配列タグカウントを、ゲノム全体にマッピングされた総配列タグ数で除算することによって得ることができる。正規化カバレッジは、異なるシーケンシングの深度を有し得る様々なサンプルにわたるビンのカバレッジの比較を可能にする。正規化カバレッジは配列量と異なり、後者は典型的には、ゲノム全体のサブセットにマッピングされたタグカウントで除算することによって得られる。サブセットは、1つ以上の正規化セグメント又は染色体である。正規化されているか否かにかかわらず、カバレッジ量は、ゲノム上の領域間の全体的なプロファイル変動、G-Cフラクション変動、ロバストな染色体における外れ値などについて補正されてもよい。
本明細書における用語「次世代シーケンシング(NGS)」は、クローンウイルス増幅分子及び単一核酸分子の超並列シーケンシングを可能にするシーケンシング方法を指す。NGSの非限定的な例としては、可逆染色ターミネータを用いた合成によるシーケンシング、及びライゲーションによるシーケンシングが挙げられる。
本明細書における用語「パラメータ」は、システムの特性を特徴付ける数値を指す。しばしば、パラメータは、定量データセット及び/又は定量データセット間の数値関係を数値的に特徴付ける。例えば、染色体にマッピングされる配列タグの数と、タグがマッピングされる染色体の長さとの比(又は比の関数)がパラメータである。
本明細書における用語「閾値」及び「適格閾値」は、医学的状態を有する疑いのある生物からの核酸を含有する試験サンプルなどのサンプルを特徴付けるカットオフとして使用される任意の数を指す。この閾値をパラメータ値と比較して、そのようなパラメータ値を生じさせるサンプルが、生物の医学的状態を示唆するか否かを判定することができる。特定の実施形態では、適格閾値は、適格データセットを使用して計算され、生物内のコピー数多型、例えば、異数体の診断限界として機能する。本明細書に開示される方法から得られた結果が閾値を超える場合、被験者は、トリソミー21などのコピー数多型と診断され得る。本明細書に記載される方法の適切な閾値は、サンプルのトレーニングセットについて計算された正規化値(例えば、染色体量、NCV、又はNSV)を分析することによって特定することができる。閾値は、適格(すなわち、影響なし)サンプル及び影響ありサンプルの両方を含むトレーニングセット内の適格(すなわち、影響なし)サンプルを使用して特定することができる。染色体異数体(すなわち、影響ありサンプル)を有することが知られているトレーニングセット内のサンプルを使用して、選択された閾値が、影響ありサンプルと試験セット内の影響なしサンプルとを区別するのに有用であるのを確認することができる(本明細書の実施例を参照されたい)。閾値の選択は、ユーザが分類を行う必要があることを望む信頼度に依存する。いくつかの実施形態では、適切な閾値を特定するために使用されるトレーニングセットは、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、又はそれ以上の適格サンプルを備える。より大きなセットの適格サンプルを使用して、閾値の診断有用性を改善することが有利であり得る。
用語「ビン」は、配列のセグメント又はゲノムのセグメントを指す。いくつかの実施形態では、ビンは、ゲノム又は染色体内で互いに隣接している。各ビンは、参照ゲノム中のヌクレオチド配列を定義することができる。ビンのサイズは、特定の用途及び配列タグ密度によって必要とされる分析に応じて、1kb、100kb、1Mbなどであってもよい。参照配列内の位置に加えて、ビンは、サンプルカバレッジ及びG-Cフラクションなどの配列構造特性などの他の特性を有してもよい。
本明細書における用語「マスキング閾値」は、配列ビン内の配列タグの数に基づく値が比較される量を指すために使用され、マスキング閾値を超える値を有するビンがマスクされる。いくつかの実施形態では、マスキング閾値は、パーセンタイルランク、絶対数、マッピング品質スコア、又は他の好適な値であり得る。いくつかの実施形態では、マスキング閾値は、複数の影響なしサンプルにわたる変動係数のパーセンタイルランクとして定義され得る。他の実施形態では、マスキング閾値は、配列リードを参照ゲノムに位置合わせする信頼度に関連するマッピング品質スコア、例えばMapQスコアとして定義することができる。なお、マスキング閾値は、コピー数多型(CNV)閾値とは異なり、後者は、CNVに関連する医学的状態を有する疑いのある生物からの核酸を含有するサンプルを特徴付ける限度値である。いくつかの実施形態では、CNV閾値は、本明細書の他の箇所に記載される正規化染色体値(NCV)又は正規化セグメント値(NSV)に対して定義される。
本明細書における用語「正規化値」は、対象配列(例えば、染色体又は染色体セグメント)について特定された配列タグの数を、正規化配列(例えば、正規化染色体又は正規化染色体セグメント)について特定された配列タグの数に関連付ける数値を指す。例えば、「正規化値」は、本明細書の他の箇所に記載されるような染色体量とする、又はNCVとする、又は本明細書の他の箇所に記載されるようにNSVとすることができる。
用語「リード」は、核酸サンプルの一部から得られる配列を指す。典型的には、必ずしもそうではないが、リードは、サンプル内の連続的な塩基対の短い配列を表す。リードは、サンプル部分の塩基対配列(A、T、C、又はG)によって記号的に表されてもよい。リードは、メモリデバイスに記憶され適宜処理されて、参照配列と一致する、又は他の基準を満たすか否かを判定してもよい。読み取りは、配列決定機器から直接、又はサンプルに関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きな配列又は領域を識別するために使用することができる十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
用語「ゲノムリード」は、個体のゲノム全体における任意のセグメントのリードに関連して使用される。
本明細書における用語「配列タグ」は、用語「マッピング配列タグ」と互換的に使用され、位置合わせによって、より大きな配列、例えば、参照ゲノムに明確に割り当てられた、すなわちマッピングされた配列リードを指す。マッピング配列タグは、参照ゲノムに固有にマッピングされる、すなわち、参照ゲノムに対して単一の位置に割り当てられる。特に指定のない限り、参照配列上の同じ配列にマッピングされるタグは、1回カウントされる。タグは、データ構造又は他のデータの集合として提供されてもよい。特定の実施形態では、タグは、リード配列及びそのリードに関する関連情報、例えば、染色体上の位置などのゲノム内の配列の位置を含む。特定の実施形態では、位置は、正鎖配向で指定される。タグは、参照ゲノムに位置合わせする際の限られた量のミスマッチを可能にするように定義されてもよい。いくつかの実施形態では、参照ゲノム上の2つ以上の位置にマッピングすることができるタグ、すなわち、一意にマッピングしないタグは、分析に含めなくてもよい。
用語「非冗長配列タグ」は、いくつかの実施形態では正規化染色体値(NCV)を特定する目的でカウントされる、同一部位にマッピングしない配列タグを指す。場合によっては、複数の配列リードが参照ゲノム上の同じ位置に位置合わせされ、冗長又は複製配列タグを生成する。いくつかの実施形態では、NCVを決定する目的で、同じ位置にマッピングされる複製配列タグが省略される、又は1つの「非冗長配列タグ」としてカウントされる。いくつかの実施形態では、NCVを決定するために、非除外部位に位置合わせされた非冗長配列タグをカウントして、非除外部位カウント(NESカウント)を得る。
用語「部位」は、参照ゲノム上の固有の位置(すなわち、染色体ID、染色体位置及び配向)を指す。いくつかの実施形態では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。
「除外部位」は、配列タグをカウントする目的で除外された参照ゲノムの領域内に見出される部位である。いくつかの実施形態では、除外部位は、セントロメア及びテロメアなどの反復配列、並びにY染色体上にもX染色体上にも存在する領域などの2つ以上の染色体に共通する染色体領域に見出される。
「非除外部位」(NES)は、配列タグをカウントする目的で参照ゲノム中で除外されない部位である。
「非除外部位カウント」(NESカウント)は、参照ゲノム上のNESにマッピングされる配列タグの数である。いくつかの実施形態では、NES数は、NESにマッピングされた非冗長配列タグの数である。いくつかの実施形態では、正規化カバレッジ量、全体プロファイル除去カバレッジ量、及び染色体量などのカバレッジ及び関連パラメータは、NESカウントに基づく。一実施例では、染色体量は、対象染色体に関するNESカウントと、正規化染色体に関するカウントの比として計算される。
正規化染色体値(NCV)は、試験サンプルのカバレッジと、トレーニング/適格サンプルのセットのカバレッジに関連する。いくつかの実施形態では、NCVは、染色体量に基づく。いくつかの実施形態では、NCVは、試験サンプル中の対象染色体の染色体量と、適格サンプルのセット中の対応する染色体量の平均との間の差に関し、以下のように計算することができる。
Figure 0007506060000001
式中、
Figure 0007506060000002
は、それぞれ、適格サンプルセット中のj番目の染色体量についての推定平均及び標準偏差であり、xijは、試験サンプルiについて観察されたj番目の染色体比(量)である。
いくつかの実施形態では、NCVは、試験サンプル中の対象染色体の染色体量を、同じフローセル上でシーケンシングされた多重化サンプル中の対応する染色体量の平均値に関連させることによって、以下のように「その場で」計算することができる。
Figure 0007506060000003
式中、Mは、同じフローセル上でシーケンシングされた多重化サンプルのセットにおけるj番目の染色体量の推定中央値であり、
Figure 0007506060000004
は、1つ以上のフローセル上でシーケンシングされた多重化サンプルの1つ以上のセットにおけるj番目の染色体量の標準偏差であり、xijは、試験サンプルiについて観察されたj番目の染色体量である。本実施形態では、試験サンプルiは、Mが決定される同じフローセル上でシーケンシングされた多重化サンプルのうちの1つである。
例えば、1つのフローセル上の64の多重化サンプルのうちの1つとシーケンシングされる試験サンプルAの対象染色体21については、試験サンプルA中の21番染色体のNCVは、サンプルA中の21番染色体の量から64の多重化サンプルにおいて決定された21番染色体の量の中央値を減算し、フローセル1又は追加のフローセルの64の多重化サンプルについて決定された21番染色体の量の標準偏差で除算することによって計算される。
本明細書で使用するとき、用語「位置合わせされた」、「位置合わせ」、又は「位置合わせする」は、リード又はタグを参照配列と比較することによって、参照配列がリード配列を含むか否かを判定するプロセスを指す。参照配列がリードを含む場合、リードは参照配列にマッピングされてもよく、又は特定の実施形態では、参照配列内の特定の位置にマッピングされてもよい。いくつかの場合において、位置合わせは、読み取りが特定の参照配列のメンバーであるか否か(すなわち、読み取りが参照配列中に存在するか又は存在していないか)を単に伝える。例えば、ヒト染色体13についての参照配列に対する読み取りの位置合わせは、13番染色体の参照配列中に読み取りが存在するかどうかを伝える。この情報を提供するツールは、設定メンバシップ試験機と呼ばれることがある。場合によっては、位置合わせは、読み取り又はタグマップがある参照配列内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、位置合わせは、染色体13上にリードが存在することを示してもよく、更に、読み取られたものが染色体13の特定の鎖及び/又は部位にあることを更に示してもよい。
位置合わせされたリード又はタグは、参照ゲノムから既知の配列までの核酸分子の順序に関して一致として特定される1つ以上の配列である。位置合わせは手動で行うことができるが、本明細書に開示される方法を実行するために妥当な時間周期でリードを位置合わせすることは不可能だと思われるため、典型的にはコンピュータアルゴリズムによって実施される。配列の位置合わせからのアルゴリズムの一例は、Illumina Genomics Analysisパイプラインの一部として配布されているEfficient Local Alignment of Nucleotide Data(ヌクレオチドデータの効率的な局所位置合わせ)(ELAND)コンピュータプログラムである。あるいは、ブルームフィルタ又は同様のセットメンバシップテスタを用いて、リードを参照ゲノムに位置合わせすることができる。参照により本明細書に全文が組み込まれる、2011年10月27日に出願された米国特許出願第61/552,374号を参照されたい。位置合わせの際の配列リードのマッチングは、100%配列一致又は100%未満(非完璧一致)であり得る。
本明細書で使用される用語「マッピング」は、位置合わせによって、配列リードをより大きな配列、例えば、参照ゲノムに明確に割り当てることを指す。
用語「参照ゲノム」又は「参照配列」は、被験者から特定された配列を参照するために使用され得る、任意の生物又はウイルスの部分又は完全な特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くの他の生物が、National Center for Biotechnology Information at ncbi.nlm.nih.govで見出される。「ゲノム」は、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を指す。
様々な実施形態では、参照配列は、それに位置合わせされたリードよりも相当大きくてもよい。例えば、参照配列は、少なくとも約100倍大きい、又は少なくとも約1000倍大きい、又は少なくとも約10000倍大きい、又は少なくとも約10倍大きい、又は少なくとも約10倍大きい、又は少なくとも約10倍大きい場合がある。
一例では、参照配列は、完全長ヒトゲノムのものである。このような配列は、ゲノム参照配列と呼ばれることがある。別の例では、参照配列は、13番染色体などの特定のヒト染色体に限定される。いくつかの実施形態では、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。このような配列は、染色体参照配列と称されてもよい。参照配列の他の例としては、他の種のゲノム、並びに任意の種の染色体、サブ染色体領域(ストランドなど)などが挙げられる。
様々な実施形態では、参照配列は、複数の個体に由来するコンセンサス配列又は他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。
本明細書における用語「臨床関連配列」は、遺伝的若しくは疾患状態に関連又は関係することが既知である、又は疑われる核酸配列を指す。臨床関連配列の有無の判定は、診断の判定、又は医学的状態の診断の確認、又は疾患の発症予測の提供に有用であり得る。
用語「由来する」は、核酸又は核酸の混合物の文脈で使用される場合、本明細書では、核酸の起源となるソースからそれを取得する手段を指す。例えば、一実施形態では、2つの異なるゲノムに由来する核酸の混合物は、核酸、例えば、cfDNAが、壊死又は枯死などの自然発生プロセスを通じて細胞によって自然に放出されたことを意味する。別の実施形態では、2つの異なるゲノムに由来する核酸の混合物は、核酸が、被験者の2つの異なる種類の細胞から抽出されたことを意味する。
用語「基づく」は、特定の定量値を取得する文脈において使用される場合、特定の定量値を出力として計算するための入力として別の量を使用することを指す。
本明細書における用語「患者サンプル」は、患者、すなわち、医療、ケア、又は治療を受ける者から得られる生物学的サンプルを指す。患者サンプルは、本明細書に記載されるサンプルのうちのいずれかであり得る。特定の実施形態では、患者サンプルは、非侵襲的処置、例えば、末梢血サンプル又は糞便サンプルによって得られる。本明細書に記載される方法は、ヒトに限定される必要はない。したがって、患者サンプルが非ヒト哺乳動物(例えば、ネコ、ブタ、ウマ、ウシなど)からのサンプルであり得る、様々な獣医学的用途が想到される。
本明細書における用語「混合サンプル」は、異なるゲノム由来の核酸の混合物を含有するサンプルを指す。
本明細書における用語「母体サンプル」は、妊婦被験者、例えば、女性から得られる生物学的サンプルを指す。
本明細書における用語「生物学的流体」は、生物学的ソースから採取される液体を指し、例えば、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液などを含む。本明細書で使用するとき、用語「血液」、「血漿」、及び「血清」は、その画分又はその加工部分を明示的に包含する。同様に、サンプルが生検、綿棒、塗抹標本などから採取される場合、「サンプル」は、生検、綿棒、塗抹標本などから得られる処理された画分又は部分を明示的に包含する。
本明細書における用語「母体核酸」及び「胎児核酸」は、妊娠中の女性の被験者の核酸、及び妊娠中の女性が身ごもっている胎児の核酸を指す。
本明細書で使用するとき、用語「対応する」は、様々な被験者のゲノム中に存在し、必ずしも全てのゲノムにおいて同じ配列を有するわけではないが、対象配列、例えば、遺伝子又は染色体の遺伝情報ではなく同一性を提供する役割を果たす、核酸配列、例えば、遺伝子又は染色体を指す。
本明細書で使用するとき、用語「胎児フラクション」は、胎児核酸及び母体核酸を含むサンプル中に存在する胎児核酸のフラクションを指す。胎児フラクションは、母親の血液中のcfDNAを特徴付けるために使用されることが多い。
本明細書で使用するとき、用語「染色体」は、DNA及びタンパク質成分(特にヒストン)を含むクロマチン鎖に由来する、生きている細胞の遺伝的特質を有する遺伝子キャリアを指す。本明細書では、従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。
本明細書で使用するとき、用語「ポリヌクレオチド長」は、参照ゲノムの配列又は領域中のヌクレオチドの絶対数を指す。用語「染色体長」は、例えば、ワールドワイドウェブ上の|genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=に見出されるヒト染色体のNCBI36/hg18において提供される、塩基対で与えられる染色体の既知の長さを指す。
本明細書における用語「被験者」は、ヒト被験者だけでなく、哺乳類、脊椎動物、脊椎動物、真菌、酵母、細菌、及びウイルスなどの非ヒト被験体を指す。本明細書の実施例はヒトに関し、言語は主にヒトの問題を対象としているが、本明細書に開示される概念は、任意の植物又は動物からのゲノムにも適用可能であり、獣医学、動物科学、研究室などの分野において有用である。
本明細書における用語「状態」は、全ての疾患及び障害を含む広範な用語として「医学的状態」を指すが、人の健康や医療補助からの恩恵に影響を及ぼし得る、又は医療処置に影響を及ぼし得る、傷害や妊娠などの正常な健康状況も含むことができる。
本明細書では、染色体異数体に関連して使用されるとき、用語「完全」は、染色体全体の獲得又は損失を指す。
用語「部分」は、本明細書では、染色体の一部、すなわちセグメントの獲得又は喪失を指す。
本明細書における用語「モザイク」は、単一の受精卵から成長した1つの個体における、異なる核型を有する2つの細胞集団の存在を示すことを指す。モザイク現象は、成人細胞のサブセットのみに伝播される成長中の突然変異から生じ得る。
本明細書における用語「非モザイク」は、1つの核型の細胞から構成される生物、例えば、ヒト胎児を指す。
本明細書で使用するとき、用語「感度」は、対象状態が存在するときに試験結果が陽性となる確率を指す。感度は、真陽性の数を真陽性と偽陰性との合計で除算することによって計算することができる。
本明細書で使用するとき、用語「特異性」は、対象状態が存在しない場合に試験結果が陰性である確率を指す。特異性は、真陰性の数を真陰性と偽陽性との合計で除算することによって計算することができる。
本明細書における用語「濃縮」は、母体サンプルの一部に含まれる多型標的核酸を増幅し、増幅された産物と、その部分が除去された母体サンプルの残部とを組み合わせるプロセスを指す。例えば、母体用サンプルの残部は元の母体サンプルであり得る。
本明細書における用語「元の母体サンプル」は、多型標的核酸を増幅するために一部が除去されるソースとして機能する、妊婦の被験者、例えば、女性から得られる非濃縮生物学的サンプルを指す。「元のサンプル」は、妊娠した被験者から得られた任意のサンプル、及びその処理された画分、例えば、母体血漿サンプルから抽出された精製cfDNAサンプルであってもよい。
本明細書で使用するとき、用語「プライマー」は、延長産物の合成を誘導する条件下(例えば、条件は、ヌクレオチド、DNAポリメラーゼなどの誘導剤、及び好適な温度及びpHを含む)に置かれたときに合成の開始点として作用することができる、単離オリゴヌクレオチドを指す。プライマーは、好ましくは最大増幅効率のために一本鎖であるが、二本鎖であってもよい。二本鎖である場合、プライマーはまず、拡張産物を調製するために使用される前に、その鎖を分離するように処理される。好ましくは、プライマーは、オリゴデオキシリボヌクレオチドである。プライマーは、誘導剤の存在下で拡張産物の合成をプライミングするのに十分な長さを有していなければならない。プライマーの正確な長さは、温度、プライマー源、方法の使用、及びプライマー設計に使用されるパラメータを含む多くの要因に依存する。
概論及びコンテキスト
ヒトゲノム中のCNVは、ヒトの多様性及び疾病に対する体質に有意に影響する(Redon et al.,Nature 23:444-454[2006],Shaikh et al.,Genome Res 19:1682-1690[2009])。かかる疾患としては、癌、感染性及び自己免疫疾患、神経系疾患、代謝性及び/又は心臓血管疾患などが挙げられるが、これらに限定されない。
CNVは、異なる機構を介して遺伝的疾患に寄与することが知られており、ほとんどの場合、遺伝子量の不均衡又は遺伝子破壊を引き起こす。遺伝的障害との直接的な相関に加えて、CNVは、有害であり得る表現型変化を媒介することが知られている。近年、いくつかの研究は、正常制御と比較して、自閉症、ADHD、及び統合失調症などの複雑な障害における希少又はデノボCNVの負担増を報告しており、希少又は固有のCNVの潜在的な病原性を強調している(Sebat et al.,316:445-449[2007];Walsh et al.,Science 320:539-543[2008])。CNVは、主に欠失、重複、挿入、及び不均衡転座事象によるゲノム再配置から生じる。
胎児由来のcfDNA断片は、母体由来のものよりも平均して短いことが示されている。NGSデータに基づくNIPT(非侵襲性出生前検査)が成功裏に実行されている。現在の方法は、短リード(25bp~36bp)を用いて母体サンプルをシーケンシングすること、ゲノムに位置合わせすること、サブ染色体カバレッジを計算し正規化すること、及び最後に、正常な二倍体ゲノムに関連付けられる予想正規化カバレッジと比較して、標的染色体(13/18/21/X/Y)の過剰表現を評価することを含む。したがって、伝統的なNIPTアッセイ及び分析は、カウント又はカバレッジに応じて、胎児性改善の可能性を評価する。
母体血漿サンプルは母体cfDNAと胎児cfDNAの混合物を表すので、任意の所与のNIPT法の成功は、低胎児フラクションサンプルにおけるコピー数多型を検出する感度に依存する。カウントベースの方法に関しては、感度は、(a)シーケンシング深度及び(b)技術的分散を低減するデータ正規化能力によって決定される。本開示は、例えば、ペアエンドリードから断片サイズ情報を導出し、この情報を分析パイプラインに使用することによって、NIPT及び他の用途のための分析方法を提供する。分析感度の向上により、低カバレッジ(例えば、低シーケンシング深度)でNIPT法を適用することができて、低コストな平均リスク妊娠検査のための技術の使用を可能にする。
いくつかの実施形態では、母体及び胎児のセルフリーDNAを含有する母体サンプルを使用して、胎児のコピー数多型(CNV)を判定する方法が提供される。
本開示の態様は、コピー数多型のコールを確実に行うことができるサンプル測定値、及びかかるコールを確実に行うことができないサンプル測定値を識別することができる方法及びシステムに関する。換言すれば、開示される実施形態は、信頼のおけるコールを行うのに十分な情報を有するサンプル測定値と、十分な情報を持たないサンプル測定値とを区別することができる。
信頼できるサンプル測定値と信頼できないサンプル測定とを区別するためのいくつかの現在のアプローチでは、胎児フラクションが、サンプルをコールから除外するか否かを判定するためのメトリックとして使用される。このようなアプローチは、NIPTサンプルについて特定の方法でシーケンシングルーチンを実行することを採用し得る。得られたサンプルは、ゲノム又は染色体の非除外領域に対するカバレッジ又はリード値の数を有する。このようなアプローチはまた、胎児フラクション値を決定することができる。決定された胎児フラクション値が何らかの閾値、例えば3%未満である場合、サンプル測定値は除外される。このような図の下部には、かなり低い有効リードカウント及び/又は低い決定胎児フラクション値を有するサンプル測定値を対象として含むサンプル除外領域が存在する。いくつかの実施態様では、除外領域は、特に低い胎児フラクションの場合、比較的多数の有効リードが除外される工程を含む。
以下の特定の図に示されるようなデータは、決定された胎児フラクション値が様々な理由で不正確である状況の様々な例を示す。データは、(低カバレッジから生じる可能性がある)コール誤差増加を伴う胎児フラクション誤差や、真の胎児フラクション値の大きさの減少を伴う胎児フラクション誤差などの胎児フラクション誤差の特定の傾向を示す。どのサンプルを除外すべきかを判定するモードとしてのこれらの胎児フラクションの問題により、どのサンプルを除外すべきかを判定するための別の方法が採用されるべきである。
胎児フラクションは、NIPTにおける胎児セルフリーDNA存在量及びコピー数多型の判定に影響を及ぼす。サンプル中で胎児フラクションが減少すると、胎児フラクションの減少につれて信号が減少し、相対ノイズが増加するため、胎児セルフリーDNAの相対カバレッジを正確に決定することがより困難になる。カバレッジ又はシーケンシング深度はまた、CNV検出にも同様の効果を及ぼす。2つの要因が併せてCNV検出に影響を及ぼすため、検出を確保するのに必要とされる最小胎児性フラクションは、図1に示されるような双曲線形状を有するカバレッジの関数として変動する。
既存の方法は、低カバレッジのサンプルを除外することによって品質管理を実行する。例えば、いくつかの既存の方法は、胎児フラクション値に応じて、2つのレベルのカバレッジ閾値を設定する。図2に示される例では、第1のカバレッジ閾値は、約5%より小さい胎児フラクション(線2002)に関しては約4.5Mの非除外部位NES又は有効リードに設定され、第2のカバレッジ閾値は、約5%よりも大きい胎児フラクション(線2006)に関しては約2Mに設定される。線又は曲線(2004)は、2つの閾値レベルを接続する。
しかしながら、かかる方法は、様々な制約を有する。それらの方法は、CNV検出に及ぼす効果に関して、カバレッジと胎児フラクションとの間の関係を十分には捕捉しない。更に、これらの既存の方法で使用される閾値は静的であり、同じ閾値が、異なるサンプル、集団、及びプラットフォームに適用される。図3に示すように、異なるサンプル集団は、異なる胎児フラクション分布を有する。図3は、3つの母集団又はそのサンプルの胎児フラクション分布を示す。左パネルは、3つの集団の確率密度関数を示す。右パネルは、3つの集団の累積分布を示す。累積分布が明確に示すように、0.04の固定胎児フラクション閾値は、3つの集団からのサンプルの異なる部分を除外する。
本開示は、図4A、4B、15、及び16Aに示されるようなCNV検出プロセスにおける品質管理(QC)の方法及びシステムを提供する。QCは、CNVコールを行う前又は後のいずれかで実行して、信頼のおける結果を得るには低すぎる胎児フラクションレベルを有するサンプルを特定することができる。特定されたサンプルを再実行して、新たなリードを取得することができる。シーケンシング深度が再実行中に増加する場合、カバレッジが増加して、サンプルの信号を改善するか、又はノイズを低減する。開示される実施態様は、異なるサンプル集団に適用される場合、サンプル及び集団間の変動を考慮に入れることができる。また、それらの実施態様は、低胎児性フラクション及び/又は低リードカバレッジのサンプルをより効果的に特定することができる。
例示的なワークフロー
本開示におけるワークフロー及び標示付き工程は、特に指定のない限り、図、実施例、及び特許請求の範囲に記載されているものとは異なる順序で実行することができる。例えば、ボックス204に示される胎児フラクション値を決定する動作は、202、206、208、及び210に示される動作の前又は後に実行されてもよい。図4Aは、いくつかの実施態様によるCNVを判定するための検出限界(LOD)QC方法を使用するワークフロー200を示す。このワークフローでは、品質チェックがボックス212で行われて、試験サンプルが少なくとも胎児フラクションLOD曲線によって画定される除外領域内にあるか否かをチェックする。多くの実施態様では、除外領域は、LOD曲線及びカバレッジ閾値又は胎児フラクション閾値によって画定される。この工程及びその下流工程は、以下に記載される他のCNV検出プロセスに適用され得る。この例示的なワークフローは、配列リードを取得するために母体及び胎児セルフリー核酸断片を含む試験サンプルをシーケンシングすることを含む。ボックス202を参照。以下に記載されるシーケンシング技術を含むがこれらに限定されない様々な技術を使用して、配列リードを取得することができる。
次いで、プロセス200は、試験サンプルの胎児フラクション値を決定する。いくつかの実施態様では、202から得られた配列リードを使用して、胎児フラクションを決定する。しかしながら、同じ個体由来の他の核酸も使用されてもよい。いくつかの実施態様では、以下に記載される技術を含むがこれらに限定されない様々な技術を使用して、試験サンプルの胎児フラクションを決定することができる。簡潔に述べると、いくつかの実施態様では、試験サンプルの胎児フラクション値は、セルフリー核酸断片のサイズに基づいて決定される。いくつかの実施態様では、セルフリー核酸断片のサイズの頻度分布を取得し、胎児フラクションを断片のサイズの頻度に関連付けるモデルに頻度分布を適用することによって、胎児フラクション値を取得する。いくつかの実施態様では、胎児フラクション値は、参照ゲノムのビンについてのカバレッジ情報に基づいて決定され、参照ゲノムはセグメント又はビンに分割される。いくつかの実施態様では、胎児フラクション値は、胎児フラクションをビンのカバレッジに関連付けるモデルに参照ゲノムの複数のビンのカバレッジ値を適用して、胎児フラクション値を取得することによって計算される。いくつかの実施態様では、ビンに位置合わせされた過剰出現胎児セルフリー核酸断片を有するビンが、トレーニングサンプルから選択される。ビンに位置合わせされた試験リードを使用して、胎児フラクションを決定する。いくつかの実施態様では、試験サンプルの胎児フラクション値は、男性胎児を身ごもっている母親から得られた母体サンプル中のY染色体などの、性染色体のビンに関するカバレッジ情報に基づいて決定される。
プロセス200は、試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取ることを更に含む。ボックス206を参照。次いで、該プロセスは、セルフリー核酸断片の配列リードを、対象配列を含む参照ゲノムと位置合わせし、それによって、配列タグを提供する。ボックス208を参照。
プロセス200は、対象配列について、配列タグのカバレッジを決定する。210を参照。カバレッジは、サンプル毎に決定される。様々な実施態様では、カバレッジは、全ての染色体(参照ゲノム全体)にわたって、染色体のサブセットにわたって、又はサブ染色体レベルで決定される。以下に示すものを含むがこれらに限定されない、様々な技術を使用して、カバレッジを決定することができる。いくつかの実施態様では、カバレッジは、参照ゲノムを複数のビンに分割することと、各ビンに位置合わせする配列タグの数を決定することと、対象配列中のビン内の配列タグの数を使用して配列タグのカバレッジを決定することとによって決定される。いくつかの実施態様では、本方法は、コピー数多型以外の要因によるビン間変動を考慮することによって、ビンに位置合わせされる配列タグの数を調整することを更に含む。カバレッジを決定する方法のより詳細な説明を以下提供する。
プロセス200における次の工程は、QC工程である。この工程は、208において決定された配列タグのカバレッジ及び204において決定された胎児フラクションに基づいて、試験サンプルが除外領域内にあるか否かを判定することを含む。除外領域は、少なくとも胎児フラクションLOD曲線によって画定される。胎児フラクションLOD曲線は、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要な胎児フラクションの最小値を示す。LOD曲線の例については図14を参照されたい。
いくつかの実施態様では、胎児フラクションLOD曲線は、CNVによって影響を受けているトレーニングサンプルを使用して得られる。影響ありサンプルは、異なる個人からの配列リードを組み合わせることによって得られるインシリコサンプルを含んでもよい。いくつかの実施態様では、影響ありサンプルは、2つ以上の胎児フラクションを有する物理的サンプルを組み合わせて、中間の胎児フラクション値を有する合成サンプルを提供することによって得られる。いくつかの実施態様では、胎児フラクションLOD曲線は、CNVに関して影響ありサンプルと影響なしサンプルとを使用して得られる。いくつかの実施態様では、LOD曲線は、物理的又はシミュレートされたサンプルを使用して導出することができる。
いくつかの実施態様では、検出基準は、観察された胎児フラクションを所与としてグランドトゥルース胎児フラクションが指定LODよりも大きい、所望の信頼度である。LODは、所定の信頼度で検出することができる最小レベルの信号(検体、胎児フラクション、状態を示すスコアなど)である。本出願の文脈において、LODは、所定の信頼度で異数体/CNVを検出するために必要とされる最小レベルの胎児フラクション(又は他の検体)である。なお、2つの信頼度値が関与し、第1の信頼度は、指定LOD胎児フラクションよりも大きいグランドトゥルース胎児フラクションに関し、第2の信頼度はLOD自体に関する。いくつかの実施態様では、検出基準は、観察された胎児フラクションについては、グランドトゥルース胎児フラクションがLOD Y%よりも大きい、X%信頼度である。グランドトゥルース胎児フラクションは、推定される胎児フラクションの根拠となる実際の胎児フラクションである。いくつかの実施態様では、Xは、約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%、又は99.5%である。いくつかの実施態様では、Yは、約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、又は99%の検出信頼度である。いくつかの実施態様では、Xは80%であり、Yは95%である。換言すれば、検出基準は、観測された胎児フラクションについては、グランドトゥルース胎児フラクションがLOD95%又は単にLOD95よりも大きい、80%信頼度であり、LOD95は、CNV又は異数体が時間の95%を検出することができる最小の胎児フラクション値である。他の実施態様では、Xは50%であり、Yは95%である。
いくつかの実施態様では、指定LODは、影響ありサンプルのYパーセントが検出され得る最小の観察された胎児フラクションとして決定される。いくつかの実施態様では、観察された胎児フラクション及び観察されたカバレッジの検出基準は、観察されたカバレッジにおける観察された胎児フラクションの真の胎児フラクション(又はシミュレートされた胎児フラクション)の分布を使用して得られる。図5は、LODの根拠をなす統計的概念を示す経験及び仮説データを示す。CNV検出は、サンプルがCNVを含む可能性を示す対数尤度比に基づく。上パネルは、Y軸上のLLR軸及びX軸上の胎児フラクションを示す。各胎児フラクションレベルで、複数のサンプルを測定し、平均及び標準偏差を取得することができる。サンプルデータを与えて、各胎児フラクションレベルでのLLRの集団分布を推測することができる。上パネルが示すように、CNVをコールする限界値(標識502A)が適用される。胎児フラクション値が増加するにつれて、LLRスコアも増加し、限界値から更に離れるように移動し、より多くのサンプルを検出することができる。
この例では、2.3%は、異数体/CNVを95%信頼度で検出することができる(片側)最低の胎児フラクションである。胎児フラクション2.3%における影響ありサンプルについて観察されたLLRは、上部パネルでは504A及び下パネルでは504Bで示される。観察されたデータの基本的な母集団分布は、下部パネルでは506で示される。限界LLRは、上パネルでは502A、下パネルでは502Bで示される。下パネルが示すように、胎児フラクション2.3%では、基本的な母集団の5%が限界LLRを下回り、母集団の95%がLLR閾値502Bを上回る。したがって、母集団中のサンプルの95%がCNVを有するものとして検出される。
図5の上パネルに示されるように、胎児フラクションが増加するにつれて、LLR及び検出確率も増加する。図6は、胎児フラクションの関数としての検出確率を示す。この例では、2.3%の胎児フラクションは、95%の検出確率を有する。したがって、ここでは、胎児フラクションLOD95は2.3%である。
図4Aに戻り、試験サンプルが、胎児フラクションLOD曲線によって画定された除外領域内にないと判定された場合、プロセスは次に、対象配列のカバレッジを評価してCNVを判定する。ボックス212からボックス14への「いいえ」の分岐を参照。この経路でプロセスを終了させる。試験サンプルがLOD除外領域内にあると判定され、サンプルがリシーケンシングされるべきであると判定される場合、ボックス212では「はい」に分岐し、ボックス216では「はい」に分岐する。次いで、サンプルがリシーケンシングされ、プロセスは202~212を繰り返す。ボックス216において、例えば、既にリシーケンシングされているなど、配列がリシーケンシングされる必要がないと判定された場合、プロセスは終了する。
実験データで以下示されるように、開示されるQC方法は、感度及び特異性の両方を向上させる助けとなり得る。感度の改善のみを望む場合、まず、試験サンプルが陰性又は陽性であると判定することができる。陰性にコールされるサンプルのみが、図4Bに示されるようなQCプロセスを経る。
図4Bは、サンプルが除外領域内にあるかどうかを判定する前にコールが最初に実行されることを除いて、図4Aのプロセスと同様であるCNV検出のLOD QCプロセスを示す。ブロック211を参照。コールが陰性である場合、プロセスは、次いで、サンプルがLOD曲線によって画定された除外領域内にあるか否かを判定する。ブロック212を参照。そうでない場合、プロセスは終了する。ボックス216の「いいえ」の分岐を参照。試験サンプルが除外領域内にあり(ボックス212の「はい」の分岐)、リシーケンシングが必要であると判定された場合、サンプルはリシーケンシングされ、プロセスを繰り返す。サンプルがリシーケンシングされる必要がないと判定された場合、例えば、既にリシーケンシングされた場合、プロセスは終了する。ボックス216の「いいえ」の分岐を参照。
LOD及びLOD曲線
図7は、推定された胎児フラクションが、推定胎児フラクションを真の胎児フラクションから逸脱させる誤差を含むことを示す。実線は、観察された胎児フラクション分布を示す。破線は、真の胎児フラクション分布を示す。観察された胎児フラクションは、胎児DNA断片及び母体DNA断片から直接測定される代わりに、他の変数から推測される。灰色の線は、胎児のY染色体から直接測定される胎児フラクションの分布である。直接測定されるため、観察された胎児フラクションよりも真の胎児フラクションに近い。
図8は、カバレッジ及び胎児フラクション値による胎児フラクション誤差を示す。左パネルが示すように、カバレッジが増加するにつれて、胎児フラクション推定値の標準偏差(誤差に関連する測定値)が減少する。右パネルが示すように、真の胎児フラクションが増加するにつれて、胎児フラクション推定値の標準偏差が減少する。
図9は、8つのレベルの観察された胎児フラクションについて真の胎児フラクションをシミュレートする。同図は、0%~8%の1%間隔で観察された胎児フラクションを示す。また、観察された胎児フラクションに関するグランドトゥルース分布も示す。縦破線9002は、0%の観察された胎児フラクションを示す。実線9004は、0%で観察された胎児フラクションに関する真の胎児フラクションの分布である。破線9006は、8%の観察された胎児フラクションを示す。実線9008は、8%の観察された胎児フラクションに関する真の胎児フラクションの分布を示す。これらの図が示すように、例えば、線9002及び0%のように、観察された胎児フラクションが低い場合、グランドトゥルース胎児フラクション分布9004は、8%での真の胎児フラクション(9008)が8%の観察された胎児フラクション(9006)から逸脱するよりも更に遠くへ観察された胎児フラクションから逸脱する。また、低い胎児フラクション分布ほど、尖度が大きくなる傾向がある。換言すれば、観察された胎児フラクションが増加するにつれて、真の胎児フラクションの分布はより平坦になり、観察された胎児フラクションからあまり逸脱しなくなる。
図10は、3つの異なるレベルの誤差又はカバレッジについて観察された胎児フラクションに対する真の胎児フラクションの分布を示す(カバレッジが誤差と逆相関することに留意されたい)。図10の左パネルは、図9と同じである。同図は、1%の胎児フラクション誤差でシミュレートされている。中間パネルは、1.5%誤差での胎児フラクションの分布を示す。右パネルは、2%誤差を伴うにおける胎児フラクションの分布を示す。この図から分かるように、観察された胎児フラクションと真の胎児フラクションとの間の差はカバレッジの影響を受けるため、誤差が大きいほど、観察された胎児フラクションと真の胎児フラクションとの間の差が大きくなる。
図11は、異なる誤差又はカバレッジを与えた、2%の観察された胎児フラクションとシミュレートされた真の胎児フラクション分布を示す。観察された胎児フラクションは、線1102で示される。分布1112は、最小誤差1%(又は最高カバレッジ)での真の胎児フラクション分布である。分布1114は、1.5%誤差又は中間カバレッジでの真の胎児フラクション分布である。分布1116は、最高2%の誤差又は最低のカバレッジでの真の胎児フラクション分布である。分布1112、1114、1116についての5パーセンタイル又は95%信頼度は、それぞれ線1122、1124、及び1126によってマークされる。これらが示すように、誤差が増加する又はカバレッジが減少するにつれて、真の胎児フラクションは、観察された胎児フラクションから更に逸脱し、95%信頼度も増加する。また、図11には、分布1116の20パーセンタイル(1128)及び25パーセンタイル(1130)が示されている。それらは、それぞれ80%信頼度及び75%信頼度に対応する。同様に、50%信頼度などの他の信頼度が決定されてもよい。
図12は、観察された胎児フラクションの関数としての真の胎児フラクション分布の20パーセンタイルを示す。観察される胎児フラクションが増加するにつれて、真の胎児フラクションの20パーセンタイルもそれに応じて増加する。左パネルは、80%信頼度データ、すなわち真の胎児フラクション分布の20パーセンタイルを示す。右パネルは、75%信頼度データを示す。左パネルでは、20パーセンタイルの真の胎児フラクションと観察された胎児フラクションとの間の関係は、異なる線で示され、各線は、異なるカバレッジレベル(及び対応するFF誤差レベル)を示す。10の異なるレベルのカバレッジ(1M~10M)が示されている。同図は、3つの変数:観察された胎児フラクション、20パーセンタイル(又は80%信頼度)における真の胎児フラクション、及びカバレッジの間の関係を示す。例えば、左パネルを調べると、2%で観察されたFF(図11の観察されたFFに対応する)で以下の2つのパターンが見られる。(a)真のFFの20パーセンタイル(又は80%信頼度)が2%よりも高く、(b)カバレッジが減少する(又は誤差が増加する)につれて、真のFFの20パーセンタイル(又は80%信頼度)が増加する。これらの2つのパターンは図11でも見られる。
観察された胎児フラクションの下端では、カバレッジが減少するにつれて、真の胎児フラクションの20パーセンタイルが増加する。観察された胎児フラクションの上端では、その関係は逆転した。LOD曲線を計算するために、LOD95はまず、(胎児フラクションとして)特定のカバレッジについて経験的に決定される。このLOD95値は、所望の値、例えば、20パーセンタイルの真胎児性フラクション値である。この値により、観察された胎児フラクションを、真対観察された関数(図12の左側パネルの線)から決定することができる。
例えば、カバレッジ100万のLOD95は、経験的に6.50%FFであると決定され、これは1202において真の胎児フラクションの20パーセンタイルでもある。観察された胎児フラクションは、(1204で示されるように)8%であることを図から決定することができる。カバレッジ200万のLOD95は、経験的に4.59%FFであると決定され、これは1206において真の胎児フラクションの20パーセンタイルでもある。観察された胎児フラクションは、(1208に示されるように)4.2%であることを図から決定することができる。同様に、他のカバレッジについての観察された胎児フラクションを、図中の他の線から取得することができる。これらの点は、真の胎児フラクションが様々なカバレッジについてLOD95を超えるという80%信頼度を有する必要がある観察された胎児フラクションである。
図13は、LOD、カバレッジ、及び観察された胎児フラクションの表である。この表は、左から第1のカラムに有効リードカウント、第3のカラムにLOD95、及び第4のカラムに、真の胎児フラクションがLOD95を超える80%信頼度を達成するのに必要な観察された胎児フラクションを示す。75%信頼度を有するために必要な観察された胎児フラクションは右カラムに示されており、これは図12の右パネルに示されるデータから取得することができる。第2のカラムには、様々な有効リードカウントについてのFF誤差が示されており、カバレッジが増加するにつれて誤差が減少することが例示される。
図14は、図13に示されるものと同様のデータから取得され得る2つの胎児フラクションLOD曲線を含む。いくつかの実施態様では、LOD曲線は、図14に示す1Mカバレッジ閾値などのカバレッジ閾値と併せて使用される。
いくつかの実施態様では、図14に示されるように、除外領域は、胎児フラクションLOD曲線下にある。数値的には、除外領域は、各点が、胎児フラクションLOD曲線上の対応する点よりも胎児フラクション及び/又はカバレッジにおいてより低い値を有する領域である。いくつかの実施態様では、除外領域は、胎児フラクションLOD曲線及びカバレッジ閾値によって画定される。除外領域は、胎児フラクションLOD曲線及びカバレッジ閾値の両方の下にある。
いくつかの実施態様では、LOD曲線を生成する方法は、以下のように要約され得る。LOD曲線は、「サンプル」をシミュレートすることで得られ、各「サンプル」は以下を含む。
・臨床サンプルにおけるカバレッジ値の既知の正規分布からサンプリングされたカバレッジ値
・臨床サンプルにおける観察されたFF分布から決定される、既知の基本的な真のFF分布からサンプリングされた基本的な真のFF値
・(カバレッジ値に対応する)誤差を基本的な真のFF値に追加することによって決定される観察されたFF値
非常に多数のこのような「サンプル」をシミュレートした。観察された各胎児フラクション値(小数刻みで)、及び各カバレッジレベル(1~10M刻みで)で、このデータセット内の全ての対応する真のFF値を収集し、100-これらの真のFF値のXパーセンタイル を選択した。各可能な観察されたFF値及びカバレッジの組み合わせについて、ここでは単一の真のFF値が存在し、我々は、この観察されたFF値を前提とし、真のFFが少なくとも選択された真FFの高さであることをX%確信している。
カバレッジレベル毎に、観察されたFFを、選択された真のFFに対して描き、カバレッジレベル当たり1つの曲線を描いた。
これとは別に、実施例1のようなLOD試験は、カバレッジとLOD95との間の関係を記載する(この関係の導出は、影響ありサンプルを伴う)。次いで、この図からのカバレッジレベル1~10M(刻み)に対応するLOD95(Y)値を、上記の観察されたFF対真FFの図上に重ね合わせた。これらの水平LOD95(Y)線のそれぞれが、観察されたFF対真のFFのプロット上の対応する(カバレッジによる)曲線と交差する点がx軸外で読み取られ、真のFFがLOD95(Y)を超えることをX%確信するのに必要な観察されたFFを標示した。
次いで、カバレッジ値を、LODQC曲線を取得するために必要とされる観察されたFFに対してプロットした。
CNVの評価
CNVの判定方法
本明細書に開示される方法によって提供される配列カバレッジ値、断片サイズパラメータ、及び/又はメチル化レベルを使用することで、従来の方法によって得られる配列カバレッジ値の使用と比べて改善された感度、選択性、及び/又は効率で、配列、染色体、又は染色体セグメントのコピー数及びCNVに関する様々な遺伝的条件を判定することができる。例えば、いくつかの実施形態では、マスクされた参照配列は、胎児及び母体の核酸分子を含む母体試験サンプル中の任意の2つ以上の異なる完全胎児染色体異数体の有無を判定するために使用される。以下に提供される例示的な方法は、リードを参照配列(参照ゲノムを含む)に位置合わせする。マスクされていない又はマスクされた参照配列で位置合わせを行うことによって、参照配列にマッピングされた配列タグを生成することができる。いくつかの実施形態では、参照配列のマスクされていないセグメントに属する配列タグのみが、コピー数多型を判定するために考慮される。
いくつかの実施形態では、CNVについての核酸サンプルを評価することは、3種類のコール:「正常」又は「影響なし」、「影響あり」、及び「ノーコール」のうちの1つによって、染色体又はセグメントの異数体の状態を特徴付けることを含む。通常、正常及び影響ありをコールするための閾値が設定される。異数体又は他のコピー数多型に関連するパラメータがサンプル中で測定され、測定値が閾値と比較される。重複タイプの異数体については、染色体又はセグメント量(又は他の測定値配列含有量)が、影響ありサンプルについて定義された閾値セットを上回る場合に、影響ありのコールが行われる。このような異数体については、染色体又はセグメント量が正常サンプルについて設定された閾値未満である場合、通常のコールが行われる。欠失型の異数体とは対照的に、染色体又はセグメント量が影響ありサンプルについて定義された閾値を下回る場合、染色体又はセグメント量が正常サンプルについて設定された閾値を上回る場合、正常のコールが行われる。例えば、トリソミーの存在下では、「正常」コールは、パラメータ値、例えば、信頼性のユーザ定義閾値を下回る試験染色体量によって決定され、「影響あり」コールは、パラメータ値、例えば、信頼性のユーザ定義閾値を上回る試験染色体量によって決定される。「ノーコール」結果は、パラメータ、例えば、「正常」又は「影響あり」コールを行うための閾値間の試験染色体量によって決定される。用語「ノーコール」は、「未分類」と互換的に使用される。
CNVを判定するために使用され得るパラメータとしては、限定するものではないが、カバレッジ、断片サイズバイアス/加重カバレッジ、所定サイズ範囲における断片のフラクション又は比率、及び断片のメチル化レベルが挙げられるが、これらに限定されない。本明細書で論じられるように、カバレッジは、参照ゲノムの領域に位置合わせされたリードのカウントから取得され、任意選択的に、配列タグカウントを生成するように正規化される。いくつかの実施形態では、配列タグカウントは、断片サイズによって重み付けされ得る。
いくつかの実施形態では、断片サイズパラメータは、ゲノムのうちの1つに特徴的な断片サイズに向けてバイアスがかけられる。断片サイズパラメータは、断片のサイズに関連するパラメータである。1)パラメータが、断片サイズに好適に重み付けされる、例えば、カウントが、他のサイズよりもそのサイズに対してより重く重み付けされる、又は、2)パラメータが、断片サイズに対して好適に重み付けされた値から得られる、例えば、比率が、そのサイズに対してより重く重み付けされたカウントから得られるとき、パラメータは断片サイズに向けてバイアスがかけられている。サイズは、ゲノムが、別のゲノム又は同じゲノムの別の部分に対して、そのサイズの濃縮された又はより高濃度の核酸を有する場合のゲノムの特徴である。
いくつかの実施形態では、母体試験サンプル中の任意の完全胎児染色体異数体の有無を判定するための方法は、(a)母体用試験サンプル中の胎児及び母体核酸についての配列情報を取得することと、(b)上記の配列情報及び方法を使用して、配列タグ、配列カバレッジ量、断片サイズパラメータ、又は1~22番、X、及びY染色体から選択される対象染色体のそれぞれについて、配列タグの数、配列カバレッジ量、断片サイズパラメータ、又は別のパラメータを特定し、1つ以上の正規化染色体配列について配列タグの数又は別のパラメータを特定することと、(c)対象染色体のそれぞれについて特定された配列タグの数又はその他のパラメータ、及び正規化染色体のそれぞれについて特定された配列タグの数又は他のパラメータを使用して、対象染色体のそれぞれについて単一の染色体量を計算することと、(d)各染色体量と閾値とを比較することによって、母体試験サンプル中の任意の完全胎児染色体異数体の有無を判定することと、を含む。
いくつかの実施形態では、上記の工程(a)は、試験サンプルの核酸分子の少なくとも一部をシーケンシングして、試験サンプルの胎児及び母体核酸分子に関する当該配列情報を取得することを含み得る。いくつかの実施形態では、工程(c)は、対象染色体のそれぞれについて単一の染色体量を、対象染色体のそれぞれについて特定された配列タグの数又は他のパラメータと、正規化染色体配列について特定された配列タグの数又は他のパラメータの数との比として計算することを含む。いくつかの他の実施形態では、染色体量は、配列タグ又は別のパラメータの数から導出される処理された配列カバレッジ量に基づく。いくつかの実施形態では、固有の非冗長配列タグのみが、処理された配列カバレッジ量又は別のパラメータを計算するために使用される。いくつかの実施形態では、処理された配列カバレッジ量は、配列長により標準化された配列タグの数である配列タグ密度比である。いくつかの実施形態では、処理された配列カバレッジ量又は他のパラメータは、正規化された配列タグ又は別の正規化されたパラメータであり、これは、対象配列の配列タグの数又はその他のパラメータを、ゲノムの全て若しくは実質的な部分で割ったものである。いくつかの実施形態では、処理された配列カバレッジ量又は断片サイズパラメータなどの他のパラメータは、対象配列の全体的プロファイルに従って調整される。いくつかの実施形態では、処理された配列カバレッジ量又は他のパラメータは、試験されるサンプルについてのGC含量と配列カバレッジとの間のサンプル内相関に従って調整される。いくつかの実施形態では、処理された配列カバレッジ量又は他のパラメータは、これらのプロセスの組み合わせから得られ、これについては本明細書の他の箇所で更に説明する。
いくつかの実施形態では、染色体量は、対象染色体のそれぞれについての処理された配列カバレッジ又は他のパラメータと、正規化染色体配列についての処理された配列カバレッジ又は他のパラメータとの比として計算される。
上記の実施形態のいずれか1つにおいて、完全染色体異数体は、完全染色体トリソミー、完全染色体モノソミー、及び完全染色体ポリソミーから選択される。完全染色体異数体は、染色体1~22、X及びYのいずれか1つの完全異数体から選択される。例えば、当該異なる完全胎児染色体異数体は、トリソミー2、トリソミー8、トリソミー9、トリソミー20、トリソミー21、トリソミー13、トリソミー16、トリソミー18、トリソミー22、47、XXX、47、XYY、及びモノソミーXから選択される。
上記の実施形態のいずれかにおいても、工程(a)~(d)が、異なる母体被験者からの試験サンプルについて繰り返され、該方法は、試験サンプルのそれぞれにおける任意の2つ以上の異なる完全胎児染色体異数体の有無を判定することを含む。
上記の実施形態のいずれにおいても、本方法は、正規化染色体値(NCV)を計算することを更に含み得、NCVは、染色体量を、適格サンプルのセットにおける対応する染色体量の平均に関連付ける。
Figure 0007506060000005
式中、
Figure 0007506060000006
は、それぞれ、適格サンプルセット中のj番目の染色体量についての推定平均及び標準偏差であり、xijは、試験サンプルiについて観察されたj番目の染色体量である。
いくつかの実施形態では、NCVは、試験サンプル中の対象染色体の染色体量を、同じフローセル上でシーケンシングされた多重化サンプル中の対応する染色体量の平均値に関連させることによって、以下のように「その場で」計算することができる。
Figure 0007506060000007
式中、Mは、同じフローセル上でシーケンシングされた多重化サンプルのセットにおけるj番目の染色体量の推定中央値であり、
Figure 0007506060000008
は、1つ以上のフローセル上でシーケンシングされた多重化サンプルの1つ以上のセットにおけるj番目の染色体量の標準偏差であり、xは、試験サンプルiについて観察されたj番目の染色体量である。本実施形態では、試験サンプルiは、Mが決定される同じフローセル上でシーケンシングされた多重化サンプルのうちの1つである。
いくつかの実施形態では、胎児及び母体の核酸を含む母体用試験サンプル中の異なる部分的な胎児染色体異数体の有無を判定するための方法が提供される。本方法は、上で概説したような完全異数体を検出するための方法と同様の手順を含む。しかしながら、完全染色体を分析する代わりに、染色体のセグメントを分析する。参照により組み込まれる米国特許出願公開第2013/0029852号を参照されたい。
図15は、いくつかの実施形態によるコピー数多型の存在を判定するための方法を示す。図15に示されるプロセス100は、配列タグ(すなわち、配列タグ数)の数に基づく配列タグのカバレッジを使用してCNVを判定する。しかしながら、NCVの計算のための上述の説明と同様に、サイズ、サイズ比、及びメチル化レベルなどの他の変数又はパラメータが、カバレッジの代わりに使用されてもよい。いくつかの実施態様では、2つ以上の変数が組み合わされてCNVを判定する。更に、カバレッジ及び他のパラメータは、タグが導出される断片のサイズに基づいて重み付けされてもよい。読みやすくするため、図1に示すプロセス100ではカバレッジのみが言及されるが、サイズ、サイズ比、及びメチル化レベルなどの他のパラメータ、サイズによって重み付けされたカウントなどの他のパラメータが、カバレッジの代わりに使用されてもよいことに留意されたい。
動作130及び135では、適格配列タグカバレッジ(又は別のパラメータの値)及び試験配列タグカバレッジ(又は別のパラメータの値)が決定される。本開示は、従来の方法と比較して感度及び選択性が改善された、カバレッジ量決定プロセスを提供する。操作130及び135は、これらの動作が従来技術の改善に寄与することを示すために、アスタリスクでマークされ、太線によってボックスが強調されている。いくつかの実施形態では、配列タグカバレッジ量は、分析の感度及び選択性を改善するために正規化、調整、微調整、及び他の方法で処理される。これらのプロセスは、本明細書の他の箇所で更に説明する。
簡潔化の観点から、本方法は、試験サンプルのCNVを判定する際に、適格トレーニングサンプルの配列の正規化を利用する。いくつかの実施形態では、適格トレーニングサンプルは影響を受けておらず、正常なコピー数を有する。正規化配列は、実行中及び実行間の変量の測定値を正規化する機構を提供する。正規化配列は、任意の対象配列、例えば、染色体又はそのセグメントについての正常なコピー数を有する細胞を含むことが分かっている被験者から得られた適格サンプルのセットからの配列情報を使用して特定される。正規化配列の判定は、図1に示される方法の実施形態の工程110、120、130、145、及び146に概説される。いくつかの実施形態では、正規化配列は、試験配列についての配列量を計算するために使用される。工程150を参照。いくつかの実施形態では、正規化配列は、試験配列の配列量と比較する閾値を計算するためにも使用される。工程150を参照。正規化配列及び試験配列から取得された配列情報が、試験サンプル中の染色体異数体の統計的に有意な同一性を判定するために使用される(工程160)。
いくつかの実施形態によるコピー数多型の存在を判定するための方法の詳細を参照すると、図15は、生物学的サンプル中の、対象配列、例えば、その染色体又はそのセグメントのCNVを判定するための実施形態のフローチャート100を提供する。いくつかの実施形態では、生物学的サンプルは被験者から得られ、異なるゲノムに寄与する核酸の混合物を含む。異なるゲノムが、2つの個体によってサンプルに提供され、例えば、異なるゲノムが、胎児及び胎児を身ごもっている母親によって提供され得る。また、異なるゲノムが、3つ以上の個体によってサンプルに提供され、例えば、異なるゲノムが、2以上の胎児及び胎児を身ごもっている母親によって提供され得る。あるいは、ゲノムは、同じ被験者からの異数体癌細胞と正常な正倍数体細胞、例えば、癌患者からの血漿サンプルによってサンプルに供される。
患者の試験サンプルを分析することとは別に、1つ以上の正規化染色体又は1つ以上の正規化染色体セグメントが、各可能な対象染色体について選択される。正規化染色体又はセグメントは、臨床環境で行われ得る患者サンプルの正常な試験から非同期的に特定される。換言すれば、正規化染色体又はセグメントは、患者サンプルを試験する前に特定される。正規化染色体又はセグメントと、対象染色体又はセグメントとの間の関連付けは、試験中の使用のために記憶される。以下に説明するように、このような関連付けは、典型的には、多くのサンプルの試験に及ぶ期間にわたって維持される。以下の記載は、個々の対象染色体又はセグメントについて正規化染色体又はセグメントを選択するための実施形態に関する。
適格サンプルのセットは、適格正規化配列を特定するためおよび、試験サンプル中のCNVの統計的に有意な特定を判定する際に使用される分散値を提供するために取得される。工程110では、複数の生物学的適格サンプルが、任意の対象配列の通常のコピー数を有する細胞を含むことが分かっている複数の被験者から得られる。一実施形態では、適格サンプルは、正常なコピー数の染色体を有することが細胞遺伝学的手段を用いて確認された胎児を有する母親から得られる。生物学的適格サンプルは、生物学的流体、例えば、血漿、又は以下に記載される任意の好適なサンプルであってもよい。いくつかの実施形態では、適格サンプルは、核酸分子、例えば、cfDNA分子の混合物を含有する。いくつかの実施形態では、適格サンプルは、胎児cfDNA分子と母体cfDNA分子の混合物を含有する母体血漿サンプルである。染色体及び/又はそのセグメントを正規化するための配列情報は、任意の既知のシーケンシング方法を使用して、核酸、例えば、胎児及び母体核酸の少なくとも一部のシーケンシングによって得られる。好ましくは、本明細書の他の箇所に記載される次世代シーケンシング(NGS)方法のうちのいずれか1つを使用して、単一又はクローン増幅分子として胎児及び母体核酸の配列を決定する。様々な実施形態において、適格サンプルは、シーケンシング前及びシーケンシング中に以下に開示されるように処理される。適格サンプルは、本明細書に開示される装置、システム、及びキットを使用して処理されてもよい。
工程120では、適格サンプルに含まれる全ての適格核酸のそれぞれの少なくとも一部をシーケンシングして、何百万もの配列リード(例えば、36bpのリード)を生成し、これを参照ゲノム(例えば、hg18)に位置合わせする。いくつかの実施形態では、配列リードは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130,約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bpである。技術的進歩により、500bp超のシングルエンドリードが可能になることで、ペアエンドリードが生成されるときに約1000bp超のリードが可能になると予想される。一実施形態では、マッピングされた配列リードは36bpを含む。別の実施形態では、マッピングされた配列リードは25bpを含む。
配列リードは参照ゲノムに位置合わせされ、参照ゲノムに固有にマッピングされるリードは配列タグとして知られている。マスクされた基準配列のマスクされたセグメント上にある配列タグは、CNVの分析のためにカウントされない。
一実施形態では、20~40bpのリードを含む、少なくとも約3×10の適格配列タグ、少なくとも約5×10の適格配列タグ、少なくとも約8×10の適格配列タグ、少なくとも約10×10の適格配列タグ、少なくとも約15×10の適格配列タグ、少なくとも約20×10の適格配列タグ、少なくとも約30×10の適格配列タグ、少なくとも約40×10の適格配列タグ、又は少なくとも約50×10の適格配列タグが、参照ゲノムに固有にマッピングされるリードから得られる。
工程130では、適格サンプル中の核酸のシーケンシングから得られた全てのタグをカウントして、適格配列タグのカバレッジを取得する。同様に、動作135において、試験サンプルから得られた全てのタグをカウントして、試験配列タグカバレッジを取得する。本開示は、従来の方法と比較して改善された感度及び選択性を提供するカバレッジ量を決定するプロセスを提供する。操作130及び135は、これらの動作が従来技術の改善に寄与することを示すために、アスタリスクでマークされ、太線によってボックスが強調されている。いくつかの実施形態では、配列タグカバレッジ量は、分析の感度及び選択性を改善するために正規化、調整、微調整、及び他の方法で処理される。これらのプロセスは、本明細書の他の箇所で更に説明する。
全ての適格配列タグが、適格サンプルのそれぞれにおいてマッピング及びカウントされるので、適格サンプルにおける、対象配列、例えば、臨床関連配列の配列タグカバレッジが決定され、続いて、正規化配列を判定する追加の配列についての配列タグカバレッジが決定される。
いくつかの実施形態では、対象配列は、完全染色体異数体(例えば、21番染色体)に関連する染色体であり、適格正規化配列は、染色体の異数体に関連していない完全染色体であり、配列タグのカバレッジの変動は、対象配列(すなわち、染色体)の配列、例えば、21番染色体の変動に近似する。選択された正規化染色体(複数可)は、対象配列の配列タグのカバレッジの変動に最も近い1つ又は群であり得る。1~22番、X、及びY染色体のうちの任意の1つ又はそれ以上が、対象配列であり得、1つ又はそれ以上の染色体が、適格サンプル中の任意の1つの1~22番、X、及びY染色体のそれぞれについての正規化配列として特定され得る。正規化染色体は、個々の染色体であり得る、又は本明細書の他の箇所に記載されるような染色体の群であり得る。
別の実施形態では、対象配列は、部分的な異数体、例えば、染色体欠失若しくは挿入、又は不均衡染色体の転座に関連する染色体のセグメントであり、正規化配列は、部分異数体に関連しない染色体セグメント(又はセグメント群)であり、配列タグのカバレッジの変動は、部分異数体に関連する染色体セグメントのものに近似する。選択された正規化染色体セグメントは、対象配列の配列タグのカバレッジの変動に最も近い1つ以上であり得る。任意の1つ以上の1~22番、X、及びY染色体の任意の1つ以上のセグメントは、対象配列であってもよい。
他の実施形態では、対象配列は、部分異数体に関連付けられる染色体のセグメントであり、正規化配列は、1つ又は複数の染色体全体である。更に他の実施形態では、対象配列は、異数体に関連付けられる染色体全体であり、正規化配列は、異数体に関連付けられない染色体セグメント又は複数のセグメントである。
任意の1つ以上の対象配列についての正規化配列として、適格サンプルにおいて単一の配列又は配列群のいずれが特定されようが、適格正規化配列は、適格サンプルにおいて判定される対象配列の変動と最良又は有効に近似する配列タグカバレッジ又は断片サイズパラメータの変動を有するように選択されてもよい。例えば、適格正規化配列は、対象配列を正規化するために使用されるとき、適格サンプルにわたって最小の変動性を生成する配列であり、すなわち、正規化配列の変動性は、適格サンプルにおいて判定された対象配列の変動性に最も近い。別の言い方をすれば、適格正規化配列は、適格サンプルにわたって(対象配列について)配列量の最も小さな変動を生成するように選択される配列である。したがって、このプロセスは、正規化染色体として使用されるとき、対象配列についての実行間の染色体量で最小の変動性を生じることが予想される配列を選択する。
シーケンシングライブラリを生成するために必要とされる手順、及びサンプルのシーケンシングが、時間の経過と共に実質上変更されないという条件で、任意の1つ以上の対象配列について適格サンプルで特定される正規化配列は、何日間、何週間、何か月間、おそらくは何年間にわたって試験サンプル中の異数体の有無を判定するための正規化配列の選択肢を残す。上述したように、異数体の存在を判定するための正規化配列は、(おそらく他の理由の中でも)、各種サンプルなどのサンプル、及び同日及び/又は別の日に行われるシーケンシング実行の間で、正規化パラメータとして使用されるときに対象配列の変動性に最も近い、マッピングされる配列タグの数又は断片サイズパラメータ値の変動性に関して選択される。これらの手順における実質的な変更は、全ての配列にマッピングされるタグの数に影響を及ぼし、次いで、どの1つの配列又は配列群が、対象配列の変動性に最も近く近似する同日及び/又は別の日に行われる同じ及び/又は異なるシーケンシング実行におけるサンプル間の変動性を有するのかを決定し、これは、正規化配列のセットの再判定を必要とすることになる。手順における実質的な変更としては、シーケンシングライブラリを調製するために使用される実験室プロトコルにおける変化が挙げられ、これには、シングルプレックスシーケンシングの代わりにマルチプレックスシーケンシングのためのサンプルを調製することに関連する変更、及びシーケンシングに使用される化学的性質の変化を含むシーケンシングプラットフォームの変更が挙げられる。
いくつかの実施形態では、特定の対象配列を正規化するように選択される正規化配列は、1つ以上の適格サンプルを1つ以上の影響ありサンプルと最良に区別する配列であり、これは、正規化配列が最大の差異性を有する配列であることを意味する。すなわち、正規化配列の差異性は、影響あり試験サンプルを他の影響なしサンプルと容易に区別できるように影響あり試験サンプル中の対象配列への最適な差別化を提供することである。他の実施形態では、正規化配列は、最小の変動性と最大の差異性との組み合わせを有する配列である。
差異性のレベルは、適格サンプルの母集団における配列量、例えば、染色体量又はセグメント量の配列量と、以下に記載され、実施例に示されるような1つ以上の試験サンプル中の染色体量との間の統計的差として決定することができる。例えば、差異性は、t検定値として数値的に表すことができ、これは、適格サンプル集団における染色体量と1つ以上の試験サンプルにおける染色体量との間の統計的差を表す。同様に、差異性は、染色体量の代わりにセグメント量に基づくことができる。あるいは、差異性は、正規化染色体値(NCV)として数値的に表すことができ、NCVの分布が正常である限り、NCVは染色体量についてのzスコアである。同様に、染色体セグメントが対象配列である場合、セグメント量の差異性は、正規化セグメント値(NSV)として数値的に表すことができ、NSVの分布が正常である限り、NSV染色体セグメント量のzスコアである。zスコアを決定する際に、適格サンプルのセットにおける染色体又はセグメント量の平均及び標準偏差を使用することができる。あるいは、適格サンプル及び影響ありサンプルを含むトレーニングセットにおける染色体又はセグメント量の平均及び標準偏差を使用することができる。他の実施形態では、正規化配列は、最小の変動性及び最大の差異性、又は小さい変動性及び大きな差異性の最適な組み合わせを有する配列である。
本方法は、本質的に同様の特性を有し、サンプル及びシーケンシング実行間で類似の変動を起こしやすい配列であって、試験サンプル中の配列量を決定するのに有用である配列を特定する。
配列量の決定
いくつかの実施形態では、図1に示される工程146に記載されるように、1つ以上の対象染色体又はセグメントについての染色体又はセグメントの量が全ての適格サンプルにおいて決定され、工程145で正規化染色体又はセグメント配列が特定される。配列量が計算される前に、いくつかの正規化配列が提供される。次に、以下で更に説明するように、1つ以上の正規化配列が様々な基準に従って特定される(工程145を参照)。いくつかの実施形態では、例えば、特定された正規化配列は、全ての適格サンプルにわたって、対象配列の配列量の最小の変動性をもたらす。
工程146では、算出された適格タグ密度に基づいて、対象配列についての適格配列量、すなわち、適格染色体量又はセグメント量が、対象配列の配列タグカバレッジと、その後工程145で正規化配列が特定される追加配列についての適格配列タグカバレッジとの比として決定される。続いて、特定された正規化配列は、試験サンプル中の配列量を決定するために使用される。
一実施形態では、適格サンプル中の配列量は、対象染色体についての配列タグ又は断片サイズパラメータの数と、適格サンプル中の正規化染色体配列についての配列タグの数との比として計算される染色体量である。正規化染色体配列は、単一の染色体、染色体群、1つの染色体のセグメント、又は異なる染色体からのセグメント群であり得る。したがって、対象染色体の染色体の量は適格サンプルにおいて、対象染色体のタグの数と、(i)単一の染色体からなる正規化染色体配列、(ii)2つ以上の染色体からなる正規化染色体配列、(iii)染色体の単一のセグメントからなる正規化セグメント配列、(iv)1つの染色体を形成する2つ以上のセグメントからなる正規化セグメント配列、又は(v)2つ以上の染色体の2つ以上のセグメントからなる正規化セグメント配列についてのタグの数との比として決定される。(i)~(v)による21番対象染色体の染色体量を決定するための例は以下の通りである。対象染色体、例えば、21番染色体についての染色体量は、21番染色体の配列タグカバレッジと、次の配列タグカバレッジ:(i)残りの全ての染色体、すなわち、1~20番染色体、22番染色体、X染色体、及びY染色体のそれぞれ、(ii)2つ以上の残りの染色体の全ての可能な組み合わせ、(iii)別の染色体、例えば、9番染色体のセグメント、(iv)1つの他の染色体の2つのセグメント、例えば、9番染色体の2つのセグメント、(v)2つの異なる染色体の2つのセグメント、例えば、9番染色体のセグメント及び14番染色体のセグメント、のうちの1つとの比として決定される。
別の実施形態では、適格サンプル中の配列量は、染色体量とは全く異なるセグメント量であり、このセグメント量は、染色体全体ではない対象セグメントについての配列タグの数と、適格サンプル中の正規化セグメント配列についての配列タグの数との比として計算される。正規化セグメント配列は、上述の正規化染色体又はセグメント配列のいずれかであり得る。
正規化配列の特定
工程145では、正規化配列が対象配列について特定される。いくつかの実施形態では、例えば、正規化配列は、計算された配列量に基づく配列であり、例えば、全ての適格トレーニングサンプルにわたる対象配列について配列量の最小変動をもたらす配列である。本方法は、本質的に同様の特性を有し、サンプル及びシーケンシング実行間で類似の変動を起こしやすい配列であって、試験サンプル中の配列量を決定するのに有用である配列を特定する。
1つ以上の対象配列についての正規化配列は、適格サンプルのセット内で特定され得、次いで、適格サンプル中で特定された配列を使用して、試験サンプルのそれぞれにおける1つ以上の対象配列の配列量を計算して(工程150)、各試験サンプルにおける異数体の有無を判定することができる。対象染色体又はセグメントについて特定された正規化配列は、異なるシーケンシングプラットフォームが使用されるとき、及び/又はシーケンシングされる核酸の精製及び/又はシーケンシングライブラリの調整に差異が存在するとき、異なり得る。本明細書に記載される方法による正規化配列の使用は、サンプルの調製及び/又は使用されるシーケンシングプラットフォームに関係なく、染色体又はそのセグメントのコピー数多型の具体的で高感度な尺度を提供する。
いくつかの実施形態では、2つ以上の正規化配列が特定され、すなわち、1つの対象配列について異なる正規化配列を判定することができ、1つの対象配列について複数の配列量を決定することができる。例えば、14番染色体の配列タグのカバレッジが使用されるとき、21番染色体の染色体量の変動、例えば、変異係数(CV=標準偏差/平均)は最も小さい。しかしながら、試験サンプル中の対象配列に関する配列量を決定する際、2つ、3つ、4つ、5つ、6つ、7つ、8つ、又はそれ以上の正規化配列を特定して使用することができる。一例として、任意の1つの試験サンプル中の21番染色体の第2の量は、7番染色体、9番染色体、11番染色体、又は12番染色体が全て14番染色体のCV近くにあるため、これらの染色体を染色体配列として用いて決定することができる。
いくつかの実施形態では、対象染色体についての正規化染色体配列として単一の染色体が選択される場合、正規化染色体配列は、試験された全てのサンプル、例えば、適格サンプルにわたって最小の変動性を有する、対象染色体の染色体量をもたらす染色体である。いくつかの例では、最良の正規化染色体は、最小の変動を有さなくてもよいが、試験サンプルと適格サンプルとを最もよく区別する適格量の分布を有してもよい、すなわち、最良の正規化染色体は、最小の変動性を有さなくてもよいが、最大の差異性を有してもよい。
いくつかの実施形態では、正規化配列は、1つ以上のロバストな常染色体配列又はそのセグメントを含む。いくつかの実施形態では、ロバストな常染色体は、対象染色体以外の全ての常染色体を含む。いくつかの実施形態では、ロバストな常染色体は、X、Y、13、18、及び21番染色体を除いて全ての常染色体を含む。いくつかの実施形態では、ロバストな常染色体は、正常な二倍体状態から逸脱しているサンプルから判定されるものを除く全ての常染色体を含み、正常な二倍体ゲノムに対して異常なコピー数を有する癌ゲノムを判定するのに有用であり得る。
試験サンプルにおける異数体の判定
適格サンプル中の正規化配列の特定に基づいて、1つ以上の対象配列中の異なるゲノム由来の核酸の混合物を含む試験サンプル中の対象配列について、配列量が決定される。
工程115では、試験サンプルが、対象配列の臨床関連CNVを有することが疑われる、又は既知である被験者から得られる。試験サンプルは、生物学的流体、例えば、血漿、又は以下に記載される任意の好適なサンプルであってもよい。説明されるように、サンプルは、単純な採血などの非侵襲的処置を使用して得ることができる。いくつかの実施形態では、試験サンプルは、核酸分子、例えば、cfDNA分子の混合物を含有する。いくつかの実施形態では、試験サンプルは、胎児cfDNA分子と母体cfDNA分子の混合物を含有する母体血漿サンプルである。
工程125では、試験サンプル中の試験核酸の少なくとも一部を、適格サンプルについて記載されるようにシーケンシングして、何百万もの配列リード(例えば、36bpのリード)を生成する。様々な実施形態では、2×36bpのペアエンドリードが、ペアエンドシーケンシングのために使用される。工程120のように、試験サンプル中の核酸のシーケンシングから生成されたリードは、参照ゲノムに固有にマッピング又は位置合わせされて、タグを生成する。工程120に記載されるように、20~40bpのリードを含む、少なくとも約3×10の適格配列タグ、少なくとも約5×10の適格配列タグ、少なくとも約8×10の適格配列タグ、少なくとも約10×10の適格配列タグ、少なくとも約15×10の適格配列タグ、少なくとも約20×10の適格配列タグ、少なくとも約30×10の適格配列タグ、少なくとも約40×10の適格配列タグ、又は少なくとも約50×10の適格配列タグが、参照ゲノムに固有にマッピングされるリードから得られる。特定の実施形態では、シーケンシング装置によって生成されるリードは、電子フォーマットで提供される。位置合わせは、以下に記載される計算装置を使用して達成される。個々のリードは、多くの場合、膨大である(何百万の塩基対)参照ゲノムと比較されて、リードが参照ゲノムに固有に対応する部位を特定する。いくつかの実施形態では、位置合わせ手順は、リードと参照ゲノムとの間の制限された量のミスマッチを許容する。場合によっては、リード内の1、2、又は3塩基対は、参照ゲノム内の対応する塩基対のミスマッチを許容するが、マッピングも依然として行われる。
工程135では、試験サンプル中の核酸シーケンシングから得られた全て又は大部分のタグをカウントして、以下に記載される計算装置を使用して試験配列タグカバレッジを決定する。いくつかの実施形態では、各リードは、参照ゲノムの特定の領域(ほとんどの場合、染色体又はセグメント)に位置合わせされ、リードは、部位情報をリードに付加することによってタグに変換される。このプロセスが明らかにするように、計算装置は、参照ゲノムの各領域(ほとんどの場合、染色体又はセグメント)にマッピングするタグ/リードの数の実行カウントを保存することができる。このカウントは、それぞれの正規化染色体又はセグメントに対応する各対象染色体又はセグメントについて記憶される。
特定の実施形態では、参照ゲノムは、真の生物学的ゲノムの一部であるが、参照ゲノムには含まれない1つ以上の除外領域を有する。これらの除外領域に位置合わせする可能性のあるリードはカウントされない。除外領域の例としては、長い反復配列の領域、X染色体とY染色体との間の類似性の領域などが挙げられる。上述のマスキング技術によって得られたマスクされた参照配列を使用して、基準配列の非マスクセグメント上のタグのみが、CNVの分析の考慮に入れられる。
いくつかの実施形態では、本方法は、複数のリードが参照ゲノム又は配列上の同じ部位に位置合わせされるときにタグを2回以上カウントするか否かを判定する。2つのタグが同じ配列を有し、よって、参照配列上の同一の部位に位置合わせする場合がある。タグをカウントするために採用される方法は、特定の状況下で、同じシーケンシングされたサンプルから導出される同一タグのカウントから除外することができる。所与のサンプルにおいて不均衡な数のタグが同一である場合、強いバイアス又は他の欠陥が手順に存在することを示唆する。したがって、特定の実施形態によれば、カウント方法は、予めカウントされたサンプルからのタグと同一である所与のサンプルからのタグをカウントしない。
単一のサンプルからの同一のタグを無視するときを選択するための様々な基準が設定されてもよい。特定の実施形態では、カウントされるタグの所定割合は、固有でなければならない。この閾値よりも多くのタグが一意でない場合、それらは無視される。例えば、所定割合が少なくとも50%が一意であることを要求する場合、一意のタグの割合がサンプルに対して50%を超えるまで同一タグはカウントされない。他の実施形態では、固有タグの閾値数は、少なくとも約60%である。他の実施形態では、固有タグの閾値割合は、少なくとも約75%、又は少なくとも約90%、又は少なくとも約95%、又は少なくとも約98%、又は少なくとも約99%である。21番染色体に関しては、閾値を90%に設定してもよい。30Mのタグが21番染色体に位置合わせされる場合、それらの少なくとも27Mは固有でなければならない。3Mのカウントタグが一意ではなく、3000万及び第1のタグは一意ではない場合、カウントされない。更なる同一タグをカウントしないときを決定するために使用される特定の閾値又は他の基準の選択肢を、適切な統計分析を使用して選択することができる。この閾値又は他の基準に影響する1つの要因は、タグを位置合わせすることができるゲノムのサイズに対するシーケンシングされたサンプルの相対量である。他の要因としては、リードのサイズ及び同様の考慮事項が挙げられる。
一実施形態では、対象配列にマッピングされる試験配列タグの数は、試験配列タグ密度比を提供するようにマッピングされる対象配列の既知の長さに正規化される。適格サンプルについて記載されているように、対象配列の既知の長さへの正規化は必須ではなく、人の解釈を単純化するために数字の桁数を減らす工程として含まれてもよい。全てのマッピングされた試験配列タグが試験サンプル中でカウントされると、適格サンプルにおいて決定された少なくとも1つの正規化配列に対応する追加配列についての配列タグカバレッジと同様、試験サンプル中の対象配列、例えば、臨床関連配列の配列タグカバレッジが決定される。
工程150では、適格サンプル中の少なくとも1つの正規化配列の同一性に基づいて、試験サンプル中の対象配列についての試験配列量を決定する。様々な実施形態では、試験配列量は、本明細書に記載されるように、対象配列及び対応する正規化配列の配列タグカバレッジを使用して計算で決定される。この作業を担う計算装置は、対象配列と関連する正規化配列との間の関連付けに電子的にアクセスし、この関連付けは、データベース、表、グラフに記憶されてもよく、又はプログラム命令内のコードとして含まれてもよい。
本明細書の他の箇所に記載されるように、少なくとも1つの正規化配列は、単一の配列又は配列群であり得る。試験サンプル中の一連の対象配列量は、試験サンプル中の対象配列について決定された配列タグカバレッジと、試験サンプル中で決定された少なくとも1つの正規化配列の配列タグカバレッジとの比であり、試験サンプルにおける正規化配列は、特定の対象配列について、適格サンプルにおいて特定された正規化配列に対応する。例えば、適格サンプル中の21番染色体について特定された正規化配列が、染色体、例えば、14番染色体であると判定された場合、21番染色体(対象配列)についての試験配列量は、それぞれ試験サンプルにおいて決定される21番染色体の配列タグカバレッジと14番染色体の配列タグカバレッジとの比として決定される。同様に、13番、18番、X、Y染色体、及び染色体異数体に関連する他の染色体に関する染色体量が決定される。対象染色体の正規化配列は、1つの染色体若しくは染色体群、又は1つの染色体セグメント若しくは染色体セグメント群であり得る。上述したように、対象配列は、染色体の一部、例えば、染色体セグメントとすることができる。したがって、染色体セグメントの量は、試験サンプル中のセグメントについて決定された配列タグカバレッジと、試験サンプル中の正規化染色体セグメントについての配列タグカバレッジとの比として決定することができ、試験サンプルにおける正規化セグメントは、特定の対象セグメントについて適格サンプルにおいて特定された正規化セグメント(単一又はセグメント群)に対応する。染色体セグメントのサイズは、キロベース(kb)からメガベース(Mb)まで変動し得る(例えば、約1kb~10kb、又は約10kb~100kb、又は約100kb~1Mb)。
工程155では、閾値は、複数の適格サンプルで決定された適格配列量について確立された標準偏差値と、対象配列について異数体であることが分かっているサンプルについて決定された配列量とから導出される。なお、この動作は、典型的には、患者試験サンプルの分析と非同期的に実行される。例えば、適格サンプルからの正規化配列の選択と同時に実行されてもよい。正確な分類は、異なるクラス、すなわち、異数体のタイプの確率分布間の差に依存する。いくつかの実施例では、閾値は、異数体の各種類、例えば、トリソミー21の経験的分布から選択される。トリソミー13、トリソミー18、トリソミー21、及びモノソミーX異数体を分類するために確立された可能な閾値は、実施例に記載されており、実施例では、胎児及び母体の核酸の混合物を含む母体サンプルから抽出されたcfDNAをシーケンシングすることによって染色体異数体を判定する方法の使用を記載している。染色体の異数体に影響されたサンプルを区別するために決定される閾値は、異なる異数体の閾値と同じであってもよいし、又は異なっていてもよい。実施例に示されるように、各対象染色体の閾値は、サンプル及びシーケンシング実行にわたる対象染色体の量の変動性から決定される。任意の対象染色体についての染色体量の変動が少ないほど、全ての影響なしサンプルにわたる対象染色体の量の範囲が狭くなり、これは様々な異数体を判定するための閾値を設定するために使用される。
患者試験サンプルの分類に関連するプロセスフローに戻ると、工程160において、対象配列のコピー数多型が、対象配列の試験配列量を、適格配列量から確立された少なくとも1つの閾値と比較することによって、試験サンプル中で判定される。この動作は、配列タグカバレッジを測定する、及び/又はセグメント量を計算するのに採用されるのと同じ計算装置によって実行されてもよい。
工程160では、対象試験配列の計算された量を、ユーザ定義の「信頼度の閾値」に従って選択された閾値と比較して、サンプルを「正常」、「影響あり」、又は「ノーコール」として分類する。「ノーコール」サンプルは、確実な診断を信頼度をもって行えないサンプルである。影響ありサンプルの各タイプ(例えば、トリソミー21、部分トリソミー21、モノソミーX)は、自身の閾値を有し、一方は正常な(影響なし)サンプルをコールするためのものであり、他方は影響ありサンプルをコールするものである(しかしながら、場合によっては、2つの閾値は一致している)。本明細書の他の箇所に記載されるように、いくつかの状況下では、試験サンプル中の核酸の胎児フラクションが十分に高い場合、ノーコールは、コール(影響あり又は正常)に変換することができる。試験配列の分類は、このプロセスフローの他の操作に採用される計算装置によって報告されてもよい。場合によっては、分類は、電子形式で報告され、対象とする人に対して表示され、電子メールで送られ、テキスト化することができる。
いくつかの実施形態では、CNVの判定は、染色体又はセグメントの量を、上記のような適格サンプルのセット中の対応する染色体又はセグメント量の平均に関連付けるNCV又はNSVを計算することを含む。次いで、CNVは、NCV/NSVを所定のコピー数評価閾値と比較することによって判定することができる。
コピー数評価閾値は、偽陽性及び偽陰性の割合を最適化するように選択することができる。コピー数評価閾値が高いほど、偽陽性が発生する可能性は低くなる。同様に、閾値が低いほど、偽陰性が発生する可能性は低くなる。したがって、真陽性のみが分類される第1の理想閾値と、真陰性のみが分類される第2の理想閾値との間にトレードオフが存在する。
閾値は、影響なしサンプルのセットにおいて決定されるように、特定の対象染色体についての染色体量の変動性に大きく依存する。変動性は、サンプル中に存在する胎児cDNAのフラクションを含む多数の要因に依存する。変動性(CV)は、影響なしサンプルの集団にわたる染色体量の平均又は中央値及び標準偏差によって判定される。したがって、異数体を分類する閾値(複数可)は、以下のようにNCVを使用する。
Figure 0007506060000009
(式中、
Figure 0007506060000010
は、それぞれ、適格サンプルセット中のj番目の染色体量についての推定平均及び標準偏差であり、xijは、試験サンプルiについて観察されたj番目の染色体量である)。
関連する胎児フラクションは、以下である。
Figure 0007506060000011
したがって、対象染色体の全てのNCVについて、所与のNCV値に関連する予想される胎児フラクションは、影響なしサンプルの母集団にわたる対象染色体についての染色体の比の平均及び標準偏差に基づいて、CVから計算することができる。
続いて、胎児フラクションとNCV値との関係に基づいて、判定境界を選択することができ、この判定境界を超えると、サンプルは、正常な分布定量に基づき陽性(影響あり)と判定される。上述のように、いくつかの実施形態では、真陽性の検出と偽陰性結果の割合との間の最適なトレードオフのために閾値が設定される。すなわち、閾値は、真陽性及び真陰性の合計を最大化する、又は偽陽性及び偽陰性の合計を最小化するように選択される。
特定の実施形態は、胎児及び母体の核酸分子を含む生物学的サンプルにおいて、胎児染色体異数体の早期診断を提供するための方法を提供する。診断は、生物学的試験サンプル、例えば、母体血漿サンプルから誘導された胎児及び母体核酸分子の混合物の少なくとも一部から配列情報を得ること、シーケンシングデータから、1つ以上の対象染色体についての正規化染色体量及び/又は1つ以上の対象セグメントについての正規化セグメント量を計算すること、試験サンプル中の対象染色体についての染色体量及び/又は対象セグメントについてのセグメント量と、複数の適格(正常)サンプルにおいて確立された閾値との間の統計的有意差を決定すること、及び統計的差に基づいて出生前診断を提供することと、に基づき行われる。本方法の工程160に記載されるように、正常又は影響ありの診断が行われる。「ノーコール」は、正常又は影響ありに関する診断が、信頼度をもって行えない場合に提供される。
いくつかの実施形態では、2つの閾値を選択することができる。第1の閾値は、偽陽性率を最小化するように選択され、その閾値を超えると、サンプルが「影響あり」と分類され、第2の閾値は、偽陰性率を最小化するように選択され、その閾値を下回ると、サンプルは「影響なし」と分類される。第2の閾値を超えるが第1の閾値を下回るNCVを有するサンプルは、「異数体疑いあり」又は「ノーコール」サンプルとして分類することができ、別の手段によって、異数体の有無を確認することができる。第1の閾値と第2の閾値との間の領域は、「ノーコール」領域と称することができる。
いくつかの実施形態では、疑いあり及びノーコールの閾値が表1に示される。見て分かるように、NCVの閾値は、異なる染色体にわたって変動する。いくつかの実施形態では、閾値は、上述のように、サンプルについてのFFに従って変動する。本明細書で適用される閾値技術は、いくつかの実施形態では、感度及び選択性の改善に寄与する。
(表1)ノーコールの範囲を囲む疑いあり及び影響ありのNCV閾値
Figure 0007506060000012
3パスプロセス、尤度比、T統計量、及び/又は胎児フラクションを用いるコピー数決定
3パスプロセス
図16Aは、コピー数を評価するための3パスプロセスのフローチャートである。このプロセスは、ワークフロー700の3つの重複するパスを含み、全てのサイズの断片に関連付けられたリードのカバレッジのパス1(又は713A)分析、より短い断片に関連するリードのカバレッジのパス2(又は713B)分析、及び全てのリードに対するより短いリードの相対頻度のパス3(又は713C)分析を含む。
プロセス700は、全体構成はプロセス600と同様である。ブロック702、704、706、710、712によって示される動作は、ブロック602、604、606、610、及び612によって示される動作と同じ又は同様の方法で実行されてもよい。リードカウントが取得された後、パス713Aにおける全てのサイズの断片からのリードを使用してカバレッジが決定される。カバレッジは、パス713Bにおける短断片からのリードを使用して決定される。全リードに対する短断片からのリードの頻度は、パス713Cで決定される。相対頻度はまた、本明細書の他の場所ではサイズ比又はサイズ割合とも称される。これは、断片サイズ特性の一例である。いくつかの実施態様では、短断片は、約150塩基対よりも短い断片である。様々な実施態様において、短断片は、約50~150、80~150、又は110~150の塩基対のサイズ範囲であり得る。いくつかの実施態様では、第3のパス又はパス713Cは任意選択的である。
3つのパス713A、713B、及び713Cのデータは全て、正規化動作714、716、718、719、及び722を経て、対象配列のコピー数に無関係な分散を除去する。これらの正規化動作は、ブロック723に囲まれる。動作714は、分析された量を参照配列の量の合計値で除算することによって、対象配列の量を正規化することを含む。この正規化工程は、試験サンプルから得られた値を使用する。同様に、動作718及び722は、試験サンプルから得られた値を用いて分析された量を正規化する。操作716及び719は、影響なしサンプルのトレーニングセットから得られた値を使用する。
動作716は、ブロック616を参照して説明したものと同じ又は類似の方法を使用する、影響なしサンプルのトレーニングセットから得られた全波の分散を除去する。動作718は、ブロック618を参照して説明したものと同じ又は類似の方法を使用して、個々の特異的GC分散の分散を除去する。
動作719は、主成分分析(PCA)法を使用して更なる分散を除去する。PCA法によって除去される分散は、対象配列のコピー数に関係しない因子によるものである。各ビンにおける分析量(カバレッジ、断片サイズ比など)は、PCAに関する独立変数、及びこれらの独立変数についての影響なしトレーニングセットの供給値のサンプルを提供する。トレーニングセットのサンプルは全て、対象配列の同じコピー数、例えば、体染色体の2つのコピー、X染色体の1つのコピー(影響なしサンプルとして男性サンプルが使用される場合)、又はX染色体の2つのコピー(女性サンプルが影響なしサンプルとして使用される場合)を有するサンプルを含む。したがって、サンプル中の分散は、異数体又はコピー数の他の差異からはもたらされない。トレーニングセットのPCAは、対象配列のコピー数に関係しない主成分をもたらす。次いで、主成分を使用して、対象配列のコピー数に関係しない試験サンプル中の分散を除去することができる。
特定の実施形態では、主成分のうちの1つ以上の分散は、対象配列の外側の領域内の影響なしサンプルデータから推定される係数を使用して、試験サンプルのデータから除去される。いくつかの実施態様では、領域は、全てのロバストな染色体を表す。例えば、PCAが、トレーニング正常サンプルの正規化されたビンカバレッジデータに対して実施されることによって、データ内の最大分散が捕捉され得る寸法に対応する主成分を提供する。そのように捕捉された分散は、対象配列におけるコピー数多型に関連しない。主成分は、トレーニング標準サンプルから得られた後に試験データに適用される。応答変数として試験サンプル、及び従属変数として主成分を有する線形回帰モデルが、対象配列の外側の領域からビン全体にわたって生成される。得られた回帰係数を使用して、推定回帰係数によって定義される主成分の線形組み合わせを減算することによって、対象領域のビンカバレッジを正規化する。これにより、対象配列からCNVに関連しない分散が除去される。ブロック719を参照。残りのデータは、下流分析に使用される。また、動作722は、ブロック622を参照して説明された方法を使用して、外れ値データ点を除去する。
ブロック723で正規化動作を受けた後、全てのビンのカバレッジ値は「正規化」されて、異数体以外の変動および他のコピー数多型のソースを除去している。ある意味では、対象配列のビンは、コピー数多型を検出するために、他のビンに対して濃縮又は変更される。動作ではないが、結果として得られるカバレッジ値を表すブロック724を参照されたい。大きいブロック723における正規化動作は、信号を増加させる、及び/又は分析下の量のノイズを低減することができる。同様に、ビンの短断片のカバレッジ値は、ブロック728に示されるように、異数体以外の変動および他のコピー数多型のソースを除去するために正規化されており、ビンの更に短い断片の相対頻度(又はサイズ比)は、ブロック732に示されるように、異数体以外の変動および他のコピー数多型のソースを除去するために同様に正規化されている。ブロック724と同様に、ブロック728及び732は動作ではないが、処理する大ブロック723の後のカバレッジ及び相対頻度値を表す。大ブロック723における動作は、修正、再編成、又は除去され得ることを理解されたい。例えば、いくつかの実施形態では、PCA動作719は実行されない。他の実施形態では、GC動作718の補正は実行されない。他の実施形態では、動作の順序が変更され、例えば、PCA操作719は、GC動作718の補正前に実行される。
ブロック724に示される正規化及び分散除去後の全ての断片のカバレッジを使用して、ブロック726でt統計量を取得する。同様に、ブロック728に示される正規化及び分散除去後の短断片のカバレッジを使用して、ブロック730においてt統計量を取得し、ブロック732に示される正規化及び分散除去後の短断片の相対頻度を使用して、ブロック734でt統計量を取得する。
t統計量をコピー数分析に適用することは、分析の精度を改善するのに役立ち得る。2つの分布を区別するための平均のみを使用することも、平均及び分散の両方を使用することも、2つの分布間の差を捕捉しない。t統計量は、分布の平均及び分散の両方を反映することができる。
いくつかの実施態様では、動作726は、以下のようなt統計量を計算する。
Figure 0007506060000013
式中、xは対象配列のビンカバレッジであり、xは参照領域/配列のビンカバレッジであり、sは対象配列のカバレッジの標準偏差であり、sは参照領域のカバレッジの標準偏差であり、nは対象配列のビンの数であり、nは参照領域のビンの数である。
いくつかの実施態様では、参照領域は、全てのロバストな染色体(例えば、異数体を最も含みそうな染色体以外の染色体)を含む。いくつかの実施態様では、参照領域は、対象配列の外側に少なくとも1つの染色体を含む。一部の実施態様では、参照領域は、対象配列を含まないロバストな染色体を含む。他の実施態様では、参照領域は、トレーニングサンプルのセットの最良の信号検出能力を提供すると判定された染色体のセット(例えば、ロバストな染色体から選択される染色体のサブセット)を含む。いくつかの実施形態では、信号検出能力は、コピー数多型を含むビンとコピー数多型を含まないビンとを区別する基準領域の能力に基づく。いくつかの実施形態では、「正規化配列の特定」セクションに記載されているように参照領域は、「正規化配列」又は「正規化染色体」を判定するために採用される方法と同様の方法で特定される。
胎児フラクションの決定
図16Aに戻ると、1つ以上の胎児フラクション推定値(ブロック735)が、ブロック726、730、及び734におけるt統計量のいずれかと組み合わされて、倍数性の症例の尤度推定値を取得することができる。ブロック736を参照。いくつかの実施態様では、ブロック740の1つ以上の胎児フラクションは、図16Bのプロセス800、図16Cのプロセス900、又は図16Dのプロセス1000のいずれかによって得られる。プロセスは、図2Jのワークフロー1100としてワークフローを使用して並列に実行されてもよい。
図16Bは、本開示のいくつかの実施態様による、カバレッジ情報から胎児フラクションを決定するための例示的なプロセス800を示す。プロセス800は、トレーニングセットからトレーニングサンプルのカバレッジ情報(例えば、配列量値)を取得することによって開始される。ブロック802を参照。トレーニングセットの各サンプルは、男性胎児を身ごもっていることが既知である妊婦から得られる。すなわち、サンプルは、男性胎児のcfDNAを含有する。いくつかの実施態様では、動作802は、本明細書に記載されるような配列量とは異なる方法で正規化配列カバレッジを取得することができる、又は他のカバレッジ値を取得することができる。
次いで、プロセス800は、トレーニングサンプルの胎児フラクションを計算することを含む。いくつかの実施態様では、胎児フラクションは、配列量値から計算されてもよい。
Figure 0007506060000014
式中、Rxは男性サンプルの配列量であり、median(Rx)は女性サンプルの配列量の中央値である。他の実施態様では、平均又は他の中央傾向測定値が使用されてもよい。いくつかの実施態様では、FFは、X及びY染色体の相対頻度などの他の方法によって取得することができる。ブロック804を参照。
プロセス800は、参照配列を複数のサブ配列のビンに分割することを更に含む。いくつかの実施態様では、参照配列は完全ゲノムである。いくつかの実施態様では、ビンは、100kbのビンである。いくつかの実施態様では、ゲノムは約25000のビンに分割される。次いで、プロセスは、ビンのカバレッジを取得する。ブロック806を参照。いくつかの実施態様では、ブロック806で使用されるカバレッジは、図2Jのブロック1123に示す正規化動作を受けた後に得られる。他の実施態様では、異なるサイズ範囲からのカバレッジが使用されてもよい。
各ビンは、トレーニングセット内のサンプルのカバレッジと関連付けられる。したがって、各ビンについて、サンプルのカバレッジとサンプルの胎児フラクションとの間に相関関係を得ることができる。プロセス800は、全てのビンについて、胎児フラクションとカバレッジとの間の相関関係を得ることを含む。ブロック808を参照。次いで、プロセスは、閾値を上回る相関値を有するビンを選択する。ブロック810を参照。いくつかの実施態様では、6000の最高相関値を有するビンが選択される。この目的は、トレーニングサンプル中のカバレッジと胎児フラクションとの間に高い相関を示すビンを特定することである。次いで、ビンを使用して、試験サンプル中の胎児フラクションを予測してもよい。トレーニングサンプルは男性サンプルであるが、胎児フラクションとカバレッジとの間の相関は、男性及び女性試験サンプルに一般化されてもよい。
高い相関値を有する選択されたビンを使用して、プロセスは、胎児フラクションをカバレッジに関連付ける線形モデルを取得する。ブロック812を参照。各選択されたビンは、線形モデルに対して独立変数を提供する。したがって、得られた線形モデルは、各ビンのパラメータ又は重みも含む。ビンの重みは、モデルをデータに適合させるように調整される。線形モデルを取得した後、プロセス800は、試験サンプルのカバレッジデータをモデルに適用して、試験サンプルの胎児フラクションを決定することを含む。ブロック814を参照。試験サンプルの適用されたカバレッジデータは、胎児フラクションとカバレッジとの間に高い相関を有するビンに関するものである。
図2Jは、胎児フラクション推定値を取得するために使用可能な配列リード情報を処理するためのワークフロー1100を示す。ワークフロー1100は、図2Dのワークフロー600と同様の処理工程を共有する。ブロック1102、1104、1106、1110、1112、1123、1114、1116、1118、及び1122はそれぞれ、ブロック602、604、606、610、612、623、614、616、618、及び622に対応する。いくつかの実施態様では、123ブロックにおける1つ以上の正規化動作は任意選択的である。パス1は、図16Bに示すプロセス800のブロック806で使用され得るカバレッジ情報を提供する。次いで、プロセス800は、図2Jでの胎児フラクション推定1150をもたらすことができる。
いくつかの実施態様では、複数の胎児フラクション推定(例えば、図2Jの1150及び1152)を組み合わせて、複合胎児フラクション推定(例えば、1154)を提供することができる。様々な方法を使用して、胎児フラクション推定値を取得することができる。例えば、胎児フラクションは、カバレッジ情報から得られてもよい。図2Jのブロック1150及び図16Bのプロセス800を参照。いくつかの実施態様では、胎児フラクションはまた、断片のサイズ分布から推定することができる。図2Jのブロック1152及び図16Cのプロセス900を参照。いくつかの実施態様では、胎児フラクションはまた、8mer頻度分布から推定することができる。図2Jのブロック1152及び図16Dのプロセス1000を参照。
男性胎児のcfDNAを含む試験サンプルにおいて、胎児フラクションは、Y染色体及び/又はX染色体のカバレッジから推定されてもよい。いくつかの実施態様では、胎児フラクションに対する胎児フラクションの複合推定(例えば、ブロック1155を参照されたい)は、ビンのカバレッジ情報から得られた胎児フラクション、断片サイズ情報から得られた胎児フラクション、Y染色体のカバレッジから得られた胎児フラクション、X染色体から得られた胎児フラクション、及びこれらの任意の組み合わせから得られる。いくつかの実施態様では、胎児の推定性別は、Y染色体のカバレッジを使用することによって得られる。2つ以上の胎児フラクション(例えば、1150及び1152)を様々な方法で組み合わせて、胎児フラクション(例えば、1155)の複合推定を提供することができる。例えば、いくつかの実施態様では、平均又は加重平均アプローチを使用することができ、重み付けは、胎児フラクション推定の統計的信頼度に基づくことができる。
いくつかの実施態様では、女性胎児の胎児フラクションの複合推定値は、ビンのカバレッジ情報から得られた胎児フラクション、断片サイズ情報から得られた胎児フラクション、及びこれらの任意の組み合わせからなる群から選択される情報を使用することによって得られる。
図16Cは、いくつかの実施態様による、サイズ分布情報から胎児フラクションを決定するためのプロセスを示す。プロセス900は、トレーニングセットから男性トレーニングサンプルのカバレッジ情報(例えば、配列量値)を取得することによって開始される。ブロック902を参照。次いで、プロセス900は、ブロック804を参照して上述した方法を使用してトレーニングサンプルの胎児フラクションを計算することを含む。ブロック904を参照。
プロセス900は、サイズ範囲を複数のビンに分割して、断片サイズベースのビンを提供し、断片サイズベースのビンのリード頻度を決定する。ブロック906を参照。いくつかの実施態様では、断片サイズベースビンの頻度は、ブロック1123に示される因子について正規化することなく得られる。図2Jのパス1124を参照。いくつかの実施態様では、断片サイズベースビンの頻度は、図2Jのブロック1123に示される正規化動作を任意選択的に受けた後に取得される。いくつかの実施態様では、サイズ範囲は、40ビンに分割される。いくつかの実施態様では、下端のビンは、約55塩基対よりも小さいサイズの断片を含む。いくつかの実施態様では、下端のビンは、約50~55塩基対の範囲のサイズの断片を含み、50bpよりも短いリードに関する情報を除外する。いくつかの実施態様では、上端のビンは、約245塩基対よりも大きいサイズの断片を含む。いくつかの実施態様では、上端のビンは、約245~250塩基対の範囲のサイズの断片を含み、250bpより長いリードに関する情報を除外する。
次いで、プロセス900は、トレーニングサンプルのデータを使用して、胎児フラクションを断片サイズベースのビンのリードの頻度に関連付ける線形モデルを取得する。ブロック908を参照。得られた線形モデルは、サイズベースのビンのリードの頻度に関する独立変数を含む。モデルはまた、各サイズベースのビンのパラメータ又は重みを含む。ビンの重みは、モデルをデータに適合させるように調整される。線形モデルを取得した後、プロセス900は、試験サンプルのリード頻度データをモデルに適用して、試験サンプルの胎児フラクションを決定することを含む。ブロック910を参照。
いくつかの実施態様では、8mer頻度を使用して、胎児フラクションを計算することができる。図16Dは、本開示のいくつかの実施態様による、8mer頻度情報から胎児フラクションを決定するための例示的なプロセス1000を示す。プロセス1000は、トレーニングセットから男性トレーニングサンプルのカバレッジ情報(例えば、配列量値)を取得することによって開始される。ブロック1002を参照。次いで、プロセス1000は、ブロック804に記載された方法のいずれかを使用してトレーニングサンプルの胎児フラクションを計算することを含む。ブロック1004を参照。
プロセス1000は、各トレーニングサンプルのリードから8mer頻度(例えば、8つの位置での4ヌクレオチドの全ての可能な配列)を取得することを更に含む。ブロック1006を参照。いくつかの実施態様では、最大65,536又はそれに近似する多くの8mer及びその頻度が取得される。いくつかの実施態様では、8mer頻度は、ブロック1123に示される因子について正規化することなく得られる。いくつかの実施態様では、8mer頻度は、任意選択的に正規化動作を受けた後に取得される。
各8merは、トレーニングセット内のサンプルの頻度と関連付けられる。したがって、各8merについて、サンプルの8mer頻度とサンプルの胎児フラクションとの間に相関関係が得られてもよい。プロセス1000は、全ての8merについて、胎児フラクションと8mer頻度との間の相関関係を得ることを含む。ブロック1008を参照。次いで、本プロセスは、閾値を上回る相関値を有する8merを選択する。ブロック1010を参照。目的は、トレーニングサンプル中の8mer頻度と胎児フラクションとの間の高い相関を示す8merを特定することである。次いで、ビンを使用して、試験サンプル中の胎児フラクションを予測してもよい。トレーニングサンプルは男性サンプルであるが、胎児フラクションと8mer頻度との間の相関は、男性及び女性試験サンプルに一般化されてもよい。
高い相関値を有する選択された8merを使用して、本プロセスは、胎児フラクションを8mer頻度に関連させる線形モデルを取得する。ブロック1012を参照。各選択されたビンは、線形モデルに対して独立変数を提供する。したがって、得られた線形モデルは、各ビンのパラメータ又は重みも含む。線形モデルを取得した後、プロセス1000は、試験サンプルの8mer頻度データをモデルに適用して、試験サンプルの胎児フラクションを決定することを含む。ブロック1014を参照。
いくつかの実施態様では、ゲノムの様々な部分と相関関係を有するカバレッジ(又は他のパラメータ)は、胎児フラクションを計算する際にその様々な部分に対して重み付けされる。このような方法の例としては、米国特許出願公開第2015/0005176,号、Kim et al.(2015)、「出生前診断」、35、1-6に記載のSeqFF法が挙げられ、胎児フラクションを計算する目的で、参照によりその全体を本明細書に組み込む。いくつかの実施態様では、より高い割合の胎児セルフリー核酸断片を有するビンは、胎児フラクションを決定するためにより重く重み付けされる。
尤度比の決定
図16Aに戻ると、いくつかの実施態様では、プロセス700は、動作726によって提供される全断片のカバレッジに基づくt統計量、動作726によって提供される胎児フラクション推定、及び動作730によって提供される短断片のカバレッジに基づくt統計量を用いて、動作736において最終的な倍数性尤度を取得することを含む。これらの実施態様は、多変量正規モデルを使用して、パス1及びパス2の結果を組み合わせる。CNVを評価するためのいくつかの実施態様では、倍数性尤度は、異数体仮設を有するモデル(例えば、トリソミー又はモノソミー)の尤度から正倍数体仮説を有するモデルの尤度を引いた尤度である異数体尤度であり、モデルは、全断片のカバレッジに基づくt統計量、胎児フラクション推定、及び短断片に基づくt統計量を入力として使用し、出力として尤度を提供する。
いくつかの実施態様では、倍数性尤度は、尤度比として表現される。いくつかの実施態様では、尤度比は、以下のようにモデル化される。
Figure 0007506060000015
式中、pは、データが3コピー又は1コピーモデルを表す多変量正規分布から得られる尤度を表し、pは、データが2コピーモデルを表す多変量正規分布から得られる尤度を表し、Tshort、Tallは、短断片及び全断片から生成される染色体カバレッジから計算されるTスコアであり、一方、q(fftotal)は、胎児フラクション推定に関連する誤差を考慮に入れた(トレーニングデータから推定される)胎児フラクションの密度分布である。このモデルは、短断片から生成されるカバレッジと、全断片によって生成されるカバレッジとを組み合わせ、影響ありサンプルと影響なしサンプルのカバレッジスコア間の分離を向上させるのに役立つ。図示される実施形態では、本モデルはまた、胎児フラクションを利用することによって、影響ありサンプルと影響なしサンプルとを区別する能力を更に向上させる。ここで、尤度比は、全断片(726)のカバレッジに基づくt統計量、短断片(730)のカバレッジに基づくt統計量、及び上記のようなプロセス800(又はブロック726)、900、又は1000によって提供される胎児分率推定値を使用して計算される。いくつかの実施態様では、この尤度比は、染色体13、18、及び21を解析するために使用される。
いくつかの実施態様では、動作736によって得られる倍数性尤度は、パス3の動作734によって提供される短断片の相対頻度に基づくt統計量と、動作726、プロセス800、900、又は1000によって提供される胎児フラクション推定のみを使用する。尤度比は、以下の式に従って計算することができる。
Figure 0007506060000016
式中、pは、データが3コピー又は1コピーモデルを表す多変量正規分布から得られる尤度を表し、pは、データが2コピーモデルを表す多変量正規分布から得られる尤度を表し、Tshort-freqは、短断片の相対頻度から計算されるTスコアであり、一方、q(fftotal)は、胎児フラクション推定に関連する誤差を考慮に入れた(トレーニングデータから推定される)胎児フラクションの密度分布である。ここで、尤度比は、短断片(734)の相対頻度に基づくt統計量と、上記のように、プロセス800(又はブロック726)、900、又は1000によって提供される胎児フラクション推定とを用いて計算される。いくつかの実施態様では、この尤度比は、染色体Xを分析するために使用される。
いくつかの実施態様では、尤度比は、全断片(726)のカバレッジに基づくt統計量、短断片(730)のカバレッジに基づくt統計、及び短断片(734)の相対頻度を用いて計算される。更に、上記のようにして得られた胎児フラクションをt統計量と組み合わせて尤度比を計算してもよい。3パス713A、713B、及び713Cのいずれかからの情報を組み合わせることにより、倍数性評価の差別性を向上させることができる。いくつかの実施態様では、染色体についての尤度比を得るために、異なる組み合わせ、例えば、3つのパス全てからのt統計量、第1及び第2のパスからのt統計量、胎児フラクション及び3つのt統計量、胎児フラクション及び1つのt統計量などを使用することができる。次いで、モデル性能に基づいて最適な組み合わせを選択することができる。
上記で説明した様々な実施態様では、正倍数体モデル及び異数体モデルは、入力としてt統計量を利用する。しかし、当然のことながら、それらのモデルは、生の又は他の方法で変換されたカバレッジ又は存在量値を入力として利用し、出力として尤度を提供することもできる。別の方法で変換された又はt統計量の入力は、モデルの予測能力を改善するのに役立ち得るが、変換は全ての実施において必要ではない。
常染色体を評価するためのいくつかの実施態様では、モデル化尤度比は、二倍体サンプルから得られたモデル化データの尤度に対するトリソミー又はモノソミーサンプルから得られたモデル化データの尤度を表す。いくつかの実施態様では、このような尤度比を用いて、常染色体のトリソミー又はモノソミーを判定することができる。
性染色体を評価するためのいくつかの実施態様では、モノソミーXについての尤度比及びトリソミーXについての尤度比が評価される。更に、X染色体及びY染色体について染色体カバレッジ測定値(例えば、CNV又はカバレッジzスコア)も評価される。いくつかの実施態様では、4つの値が決定木を用いて評価されて、性染色体のコピー数を決定する。いくつかの実施態様では、決定木は、XX、XY、X、XXY、XXX、又はXYYの倍数性の症例の判定を可能にする。
いくつかの実施態様では、尤度比は、対数尤度比に変換され、特定の感度及び選択性を得るために、異数体又はコピー数多型をコールするための基準又は閾値を経験的に設定することができる。例えば、1.5の対数尤度比が、トレーニングセットに適用されたときのモデルの感度及び選択性に基づいて、トリソミー13又はトリソミー18を呼び出すために設定されてもよい。更に、例えば、用途によっては、染色体21のトリソミーに関して3のコール基準値が設定されてもよい。
サンプル及びサンプル処理
サンプル
CNV、例えば、染色体異数体、部分的な異数体などのCNVを判定するために使用されるサンプルは、1つ以上の対象配列のコピー数多型が判定される任意の細胞、組織、又は器官から採取されたサンプルを含むことができる。望ましくは、サンプルは、「セルフリー」(例えば、cfDNA)である細胞及び/又は核酸中に存在する核酸を含有する。
いくつかの実施形態では、セルフリー核酸、例えば、セルフリーDNA(cfDNA)を得ることが有利である。セルフリーDNAを含むセルフリー核酸は、血漿、血清、及び尿を含むがそれらに限定されない生物学的サンプルから、技術分野において既知の様々な方法によって取得することができる(例えば、Fan et al.,Proc Natl Acad Sci 105:16266-16271[2008];Koide et al.,Prenatal Diagnosis 25:604-607[2005];Chen et al.,Nature Med.2:1033-1035[1996];Lo et al.,Lancet 350:485-487[1997];Botezatu et al.,Clin Chem.46:1078-1084、2000;及びSu et al.,J Mol.Diagn.6:101-107[2004]を参照されたい)。サンプル中の細胞からセルフリーDNAを分離するために、分画、遠心分離(例えば、密度勾配遠心分離)、DNA特異的沈殿、又はハイスループット細胞選別及び/又は他の分離方法を含むがこれらに限定されない様々な方法を使用することができる。cfDNAの手動分離及び自動分離のための市販のキットが入手可能である(インディアナ州インディアナポリスRoche Diagnostics、カリフォルニア州バレンシアQiagen、ドイツ、デューレン、Macherey-Nagel)。cfDNAを含む生物学的サンプルは、染色体異数体及び/又は様々な多型を検出することができるシーケンシングアッセイによって、トリソミー21などの染色体異常の有無を判定するためにアッセイにおいて使用されてきた。
様々な実施形態では、サンプル中に存在するcfDNAは、使用前に(例えば、シーケンシングライブラリの調製前に)特異的に又は非特異的に濃縮され得る。サンプルDNAの非特異的濃縮とは、cfDNAシーケンシングライブラリの調製前にサンプルDNAのレベルを増加させるために使用することができる、サンプルのゲノムDNA断片の全ゲノム増幅を指す。非特異的濃縮は、2つ以上のゲノムを含むサンプル中に存在する2つのゲノムのうちの1つの選択的濃縮であり得る。例えば、非特異的濃縮は、母体用サンプル中の胎児ゲノムを選択し、サンプル中の母体DNAに対する胎児の相対的割合を増加させる既知の方法によって得ることができる。あるいは、非特異的濃縮は、サンプル中に存在する両方のゲノムの非選択的増幅であり得る。例えば、非特異的増幅は、胎児及び母体ゲノム由来のDNAの混合物を含むサンプル中の胎児及び母体DNAの増幅であり得る。全ゲノム増幅の方法は、技術分野において既知である。縮重オリゴヌクレオチドプライムPCR(DOP)、プライマー伸長PCR技術(PEP)、及び多重置換増幅(MDA)は、全ゲノム増幅法の例である。いくつかの実施形態では、様々なゲノムからのcfDNAの混合物を含むサンプルは、混合物中に存在するゲノムのcfDNAについて非濃縮である。他の実施形態では、様々なゲノムからのcfDNAの混合物を含むサンプルは、サンプル中に存在するゲノムのいずれか1つについて非特異的に濃縮される。
本明細書に記載される方法が適用される核酸(複数可)を含むサンプルは、例えば、上述のように、生物学的サンプル(「試験サンプル」)を含む。いくつかの実施形態では、1つ以上のCNVについてスクリーニングされる核酸が、数多くの周知の方法のいずれかによって精製又は単離される。
したがって、特定の実施形態では、サンプルは、精製又は単離されたポリヌクレオチドを含むか又はそれからなる、あるいは、サンプルは、組織サンプル、生物学的流体サンプル、細胞サンプルなどのサンプルを含むことができる。好適な生物学的流体サンプルとしては、限定するものではないが、血液、血漿、血清、汗、涙、痰、尿、痰、耳流出液、リンパ液、唾液、脳脊髄液、灌流、骨髄懸濁液、膣流、子宮頸部灌流、脳液、腹水、乳、呼吸器、腸及び生殖器の分泌物、羊水、乳、及び白血球除去サンプルが挙げられるが、これらに限定されない。いくつかの実施形態では、サンプルは、非侵襲的処置によって容易に得ることができるサンプル、例えば、血液、血漿、血清、汗、涙、喀痰、尿、痰、耳流、唾液、又は糞便などである。特定の実施形態では、サンプルは、末梢血サンプル、又は末梢血サンプルの血漿及び/又は漿液画分である。他の実施形態では、生物学的サンプルは、綿棒又は塗抹標本、生検標本、又は細胞培養物である。別の実施形態では、サンプルは、2つ以上の生物学的サンプルの混合物であり、例えば、生物学的サンプルは、生体流体サンプル、組織サンプル、及び細胞培養サンプルのうちの2つ以上を含むことができる。本明細書で使用するとき、用語「血液」、「血漿」、及び「血清」は、その画分又はその加工部分を明示的に包含する。同様に、サンプルが生検、綿棒、塗抹標本などから採取される場合、「サンプル」は、生検、綿棒、塗抹標本などから得られる処理された画分又は部分を明示的に包含する。
特定の実施形態では、サンプルは、異なる個体からのサンプル、同じ個体又は異なる個体の異なる発育段階からのサンプル、異なる疾患のある個体からのサンプル(例えば、癌を有する個体又は遺伝障害を有する疑いがある個体)、正常な個体、個体において異なる疾患ステージで取得されたサンプル、疾患に対して異なる治療を受けた個体から取得されたサンプル、異なる環境因子に供された個体からのサンプル、病状に素因を有する個体からのサンプル、感染症剤(例えば、HIV)への曝露を有するサンプルなどを含むが、それらに限定されないソースから取得することができる。
1つの例示的であるが非限定的な実施形態では、サンプルは、妊娠した雌、例えば、妊婦から得られる母体用サンプルである。この場合、胎児における潜在的な染色体異常の出生前診断を行うために、本明細書に記載の方法を使用してサンプルを分析することができる。母体サンプルは、組織サンプル、生物学的流体サンプル、又は細胞サンプルであり得る。生物学的流体は、非限定的な例として、血液、血漿、血清、汗、涙、痰、尿、痰、耳流出液、リンパ液、唾液、脳脊髄液、灌流、骨髄懸濁液、膣流、子宮頸部灌流、脳液、腹水、乳、呼吸器、腸及び生殖器の分泌物、及び白血球除去サンプルを含む。
別の例示的であるが非限定的な実施形態では、母体サンプルは、2つ以上の生物学的サンプルの混合物であり、例えば、生物学的サンプルは、生体流体サンプル、組織サンプル、及び細胞培養サンプルのうちの2つ以上を含むことができる。いくつかの実施形態では、サンプルは、非侵襲的処置によって容易に得ることができるサンプル、例えば、血液、血漿、血清、汗、涙、喀痰、尿、乳、痰、耳流、唾液、又は糞便などである。いくつかの実施形態では、生物学的サンプルは、末梢血サンプル、及び/又はその血漿及び血清画分である。他の実施形態では、生物学的サンプルは、スワブ又は塗抹標本、生検標本、又は細胞培養物のサンプルである。上述したように、用語「血液」、「血漿」、及び「血清」は、その画分又はその加工された部分を明示的に包含する。同様に、サンプルが生検、綿棒、塗抹標本などから採取される場合、「サンプル」は、生検、綿棒、塗抹標本などから得られる処理された画分又は部分を明示的に包含する。
特定の実施形態では、サンプルはまた、インビトロ培養された組織、細胞、又は他のポリヌクレオチド含有ソースから得ることもできる。培養されたサンプルは、異なる培地及び条件(例えば、pH、圧力、又は温度)、異なる期間にわたって維持された培養物(例えば、組織又は細胞)で維持された培養物(例えば、組織又は細胞)、異なる因子若しくは試薬(例えば、薬物候補、若しくはモジュレータ)で処理された培養物(例えば、組織又は細胞)、又は異なる種類の組織及び/又は細胞の培養物を含むが、それらに限定されないソースから得ることができる。
生物学的ソースから核酸を単離する方法は周知であり、ソースの性質に応じて異なる。当業者であれば、本明細書に記載される方法に必要なソースから核酸を容易に単離することができる。場合によっては、核酸サンプル中の核酸分子を断片化することが有利であり得る。断片化はランダムであってもよく、又は制限エンドヌクレアーゼ消化を使用して達成されるように特異的であってもよい。ランダム断片化のための方法は、技術分野において周知であり、例えば、限定されたDNAse消化、アルカリ処理、及び物理的剪断が挙げられる。一実施形態では、サンプル核酸は、断片化されていないcfDNAから取得される。
シーケンシングライブラリの調製
一実施形態では、本明細書に記載の方法は、単一のシーケンシング実行で、複数のサンプルをゲノム分子として(すなわち、シングルプレックスシーケンシング)、又はインデックスされたゲノム分子を含むプールされたサンプルとして(例えば、マルチプレックスシーケンシング)として個々にシーケンシングすることを可能にする、次世代シーケンシング技術(NGS)を利用することができる。これらの方法は、DNA配列の最大数億のリードを生成することができる。様々な実施形態では、ゲノム核酸配列及び/又はインデックスされたゲノム核酸の配列は、例えば、本明細書に記載される次世代シーケンシング技術(NGS)を使用して決定することができる。様々な実施形態では、NGSを使用して得られた大量の配列データの分析は、本明細書に記載されるような1つ以上のプロセッサを使用して実行することができる。
様々な実施形態では、このようなシーケンシング技術の使用は、シーケンシングライブラリの調製を伴わない。
しかしながら、特定の実施形態では、本明細書で企図されるシーケンシング法は、シーケンシングライブラリの調製を含む。1つの例示的なアプローチでは、シーケンシングライブラリの調製は、シーケンシングされる準備が整ったアダプタ修飾DNA断片(例えば、ポリヌクレオチド)のランダムな集合の生成を含む。ポリヌクレオチドのシーケンシングライブラリは、DNA又はcDNAの同等物や類似物、例えば、逆転写酵素の作用によってRNAテンプレートから産生された相補的又はコピーDNAであるDNA又はcDNAを含むDNA又はRNAから調製することができる。ポリヌクレオチドは、二本鎖形態(例えば、ゲノムDNA断片、cDNA、PCR増幅産物などのdsDNA)に由来してもよい、又は特定の実施形態では、ポリヌクレオチドは一本鎖形態(例えば、ssDNA、RNAなど)に由来してもよく、dsDNA形態に変換されている。例示として、特定の実施形態では、シーケンシングライブラリの調製に使用するのに好適な二本鎖cDNAに、一本鎖mRNA分子をコピーすることができる。一次ポリヌクレオチド分子の正確な配列は、一般に、ライブラリ調製の方法にとっては重要ではなく、既知であっても未知であってもよい。一実施形態では、ポリヌクレオチド分子はDNA分子である。より具体的には、特定の実施形態では、ポリヌクレオチド分子は、生物の遺伝的相補体全体又は生物の遺伝的相補体の略全体を表し、典型的にはイントロン配列及びエキソン配列(コード配列)、並びにプロモーター及びエンハンサー配列などの非コード調節配列を含むゲノムDNA分子である(例えば、細胞DNA、セルフリーDNA(cfDNA))。特定の実施形態では、一次ポリヌクレオチド分子は、ヒトゲノムDNA分子、例えば、妊娠被験者の末梢血中に存在するcfDNA分子を含む。
いくつかのNGSシーケンシングプラットフォームのシーケンシングライブラリの調製は、特定の断片サイズ範囲を含むポリヌクレオチドの使用によって促進される。このようなライブラリの調製は、典型的には、所望のサイズ範囲でポリヌクレオチドを得るための、大型のポリヌクレオチド(例えば、細胞ゲノムDNA)の断片化を伴う。
断片化は、当業者に既知の多数の方法のいずれかによって達成することができる。例えば、断片化は、限定するものではないが、噴霧化、音波処理、及びハイドロシェアを含む機械的手段によって達成することができる。しかしながら、機械的断片化は、典型的には、C-O結合、P-O結合、及びC-C結合でDNA骨格を切断する結果、3’及び5’の突き出した平滑末端と、切断されたC-O、P-O、及び/C-C結合との不均質混合をもたらし(例えば、Alnemri and Liwack,J Biol.Chem 265:17323-17333[1990];Richards and Boyer,J Mol Biol 11:327-240[1965]を参照)、以降の酵素反応、例えば、シーケンシングのためにDNAを調製するのに必要とされるシーケンシングアダプタのライゲーションに必須の5’リン酸塩を欠くため、修復する必要があり得る。
対照的に、cfDNAは、典型的には、約300塩基対未満の断片として存在し、その結果、断片化は、cfDNAサンプルを使用してシーケンシングライブラリを生成するためには通常必要ではない。
典型的には、ポリヌクレオチドは、強制的に断片化されるにしろ(例えば、インビトロで断片化される)、天然に断片として存在するにしろ、5’リン酸塩及び3’ヒドロキシルを有する平滑末端DNAに変換される。標準的なプロトコル、例えば、本明細書の他の箇所に記載されているIlluminaのプラットフォームを使用してシーケンシングするためのプロトコルは、ユーザに対して、サンプルDNAを末端修復し、末端修復された産物をdAテーリング前に精製し、ライブラリ調製のアダプタライゲーション工程の前にdAテーリング産物を精製するように指示する。
本明細書に記載されるシーケンシングライブラリの調製方法の様々な実施形態では、NGSによりシーケンシングされ得る修飾DNA産物を得るために標準的なプロトコルによって通常命じられる工程のうちの1つ以上を実施する必要がない。短縮法(ABB法)、1工程法、及び2工程法は、参照により全文を本明細書に組み込む、2012年7月20日に出願された特許出願第13/555,037号に見出すことができるシーケンシングライブラリの調製方法の例である。
サンプルの完全性を追跡及び検証するためのマーカー核酸
様々な実施形態では、サンプルの完全性の検証及びサンプル追跡は、サンプルゲノム核酸、例えば、cfDNAと、例えば処理前にサンプルに導入されている付随のマーカー核酸との混合物をシーケンシングすることによって達成することができる。
マーカー核酸は、試験サンプル(例えば、生物学的ソースサンプル)と組み合わされてもよく、例えば、生物学的ソースサンプルを分画する工程、例えば、全血サンプルからほぼセルフリーの血漿画分を得る工程、血漿などの分画された又は組織サンプルなどの未分画の生物学的ソースサンプルから核酸を精製する工程、及びシーケンシング工程のうちの1つ以上を含むプロセスに提供されてもよい。いくつかの実施形態では、シーケンシングは、シーケンシングライブラリを調製することを含む。ソースサンプルと組み合わされたマーカー分子の配列の配列又は配列の組み合わせは、ソースサンプルに固有であるように選択される。いくつかの実施形態では、サンプル中の固有のマーカー分子は全て同じ配列を有する。他の実施形態では、サンプル中の特異なマーカー分子は、複数の配列、例えば、2、3、4、5、6、7、8、9、10、15、20、又はそれ以上の異なる配列の組み合わせである。
一実施形態では、サンプルの完全性は、同一の配列を有する複数のマーカー核酸分子を使用して検証することができる。あるいは、サンプルの同一性は、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも50、又はそれ以上の異なる配列を有する複数のマーカー核酸分子を用いて検証することができる。複数の生物学的サンプル、すなわち、2つ以上の生物学的サンプルの完全性の検証は、2つ以上のサンプルのそれぞれを、マークされている複数の試験サンプルのそれぞれに固有の配列を有するマーカー核酸で標識する必要がある。例えば、第1のサンプルは、配列Aを有するマーカー核酸で標識することができ、第2のサンプルは、配列Bを有するマーカー核酸で標識することができる。あるいは、第1のサンプルは、全て配列Aを有するマーカー核酸分子で標識することができ、第2のサンプルは、配列B及びCの混合物で標識することができ、配列A、B、及びCは、異なる配列を有するマーカー分子である。
マーカー核酸(複数可)は、ライブラリ調製(ライブラリが調製される場合)及びシーケンシングの前の、サンプル調整の任意の段階で添加することができる。一実施形態では、マーカー分子は、未処理ソースサンプルと組み合わせることができる。例えば、マーカー核酸は、血液サンプルを採取するために使用される回収チューブ内に提供され得る。あるいは、マーカー核酸は、血液採取後に血液サンプルに添加され得る。一実施形態では、マーカー核酸は、生物学的流体サンプルを回収するために使用される容器に添加され、例えば、マーカー核酸は、血液サンプルを採取するために使用される血液採取チューブに添加される。別の実施形態では、マーカー核酸は、生物学的流体サンプルの画分に添加される。例えば、マーカー核酸は、血液サンプル、例えば、母体血漿サンプルの血漿及び/又は血清画分に添加される。更に別の実施形態では、マーカー分子は、精製サンプル、例えば、生物学的サンプルから精製された核酸のサンプルに添加される。例えば、マーカー核酸は、精製された母体及び胎児cfDNAのサンプルに添加される。同様に、マーカー核酸は、検体を処理する前に生検標本に添加することができる。いくつかの実施形態では、マーカー核酸は、マーカー分子を生物学的サンプルの細胞に送達するキャリアと組み合わせることができる。細胞送達キャリアとしては、pH感受性及びカチオン性リポソームが挙げられる。
様々な実施形態において、マーカー分子は、生物学的ソースサンプルのゲノムに存在しない配列である、抗ゲノム配列を有する。例示的な実施形態では、ヒト生物学的ソースサンプルの完全性を確認するために使用されるマーカー分子は、ヒトゲノムに存在しない配列を有する。別の実施形態では、マーカー分子は、ソースサンプル及び任意の1つ以上の他の既知のゲノムに存在しない配列を有する。例えば、ヒト生物学的ソースサンプルの完全性を確認するために使用されるマーカー分子は、ヒトゲノム及びマウスゲノムに存在しない配列を有する。この選択肢により、2つ以上のゲノムを含む試験サンプルの完全性を検証することができる。例えば、細菌などの病原体の影響を受けている被験者から得られたヒトセルフリーDNAサンプルの完全性は、ヒトゲノム及び影響を及ぼす細菌のゲノムの両方に存在しない配列を有するマーカー分子を使用して検証することができる。例えば、細菌、ウイルス、酵母、真菌、原生動物などの多数の病原体のゲノム配列は、ワールドワイドウェブ上のncbi.nlm.nih.gov/genomesで公的に入手可能である。別の実施形態では、マーカー分子は、任意の既知のゲノムに存在しない配列を有する核酸である。マーカー分子の配列は、アルゴリズムによりランダムに生成され得る。
様々な実施形態において、マーカー分子は、天然に生じるデオキシリボ核酸(DNA)、リボ核酸、又はペプチド核酸(PNA)、モルホリノ核酸、ロック核酸、グリコール核酸、及びトレオース核酸などの人工核酸類似体(核酸模倣体)であり得、人工核酸類似体は、ホスホジエステル骨格を有さない分子又はDNA模倣体の骨格への変化によって、天然に生じるDNA又はRNAとは区別される。デオキシリボ核酸は、天然に生じるゲノム由来であってもよく、又は酵素の使用によって、若しくは固相化学合成によって実験室で生成することができる。化学的方法を使用して、天然には見出されないDNA模倣体を生成することもできる。ホスホジエステル結合が置換されているが、デオキシリボースが保持されているDNAの誘導体は、チオホルムアセタール又はカルボキサミド結合により形成された骨格を有し、良好な構造DNA模倣体であることが立証されているDNA模倣体を含むが、これらに限定されない。他のDNA模倣体としては、モルホリノ誘導体及びペプチド核酸(PNA)が挙げられ、N-(2-アミノエチル)グリシン系疑似ペプチド骨格を含む(Ann Rev Biophys Biomol Struct 24:167-183[1995])。PNAは、DNA(又はリボ核酸[RNA])の非常に良好な構造模倣体であり、PNAオリゴマーは、ワトソンクリック相補的DNA及びRNA(又はPNA)オリゴマーを有する非常に安定的な二本鎖構造を形成することができ、また、ヘリックス侵入によって二本鎖DNA中の標的に結合することもできる(Mol Biotechnol 26:233-248[2004])。マーカー分子として使用することができるDNA類似体の別の良好な構造模倣体/類似体は、非架橋オキシゲンのうちの1つが硫黄で置換されるホスホロチオエートDNAである。この変更により、5’~3’及び3’~5’DNA POL 1エキソヌクレアーゼ、ヌクレアーゼS1及びP1、RNase、血清ヌクレアーゼ及びヘビ毒ホスホジエステラーゼなどのエンド及びエキソヌクレアーゼ2の作用が低減される。
マーカー分子の長さは、サンプル核酸の長さと違っても違っていなくてもよい、すなわち、マーカー分子の長さは、サンプルゲノム分子の長さと同様であってもよい、又はサンプルゲノム分子の長さよりも大きくても小さくてもよい。マーカー分子の長さは、マーカー分子を構成するヌクレオチド又はヌクレオチド類似体塩基の数によって測定される。サンプルゲノム分子の長さとは異なる長さを有するマーカー分子は、技術分野において既知の分離法を使用して、ソース核酸と区別することができる。例えば、マーカー及びサンプル核酸分子の長さの差は、電気泳動分離、例えば、キャピラリー電気泳動によって決定することができる。サイズの区別は、マーカー及びサンプル核酸の質を定量化及び評価するのに有利であり得る。好ましくは、マーカー核酸は、ゲノム核酸よりも短く、それらをサンプルのゲノムにマッピングすることから除外するのに十分な長さである。例えば、ヒトゲノムに一意にマッピングするには、30塩基ヒト配列が必要とされる。したがって、特定の実施形態では、ヒトサンプルのシーケンシングバイオアッセイに使用されるマーカー分子の長さは、少なくとも30bpであるべきである。
マーカー分子の長さの選択は、主に、ソースサンプルの完全性を検証するために使用されるシーケンシング技術によって決定される。シーケンシングされるサンプルゲノム核酸の長さも考慮することができる。例えば、いくつかのシーケンシング技術は、ポリヌクレオチドのクローン増幅を採用し、クローン増幅されるゲノムポリヌクレオチドが最小長である必要があり得る。例えば、IlluminaのGAII配列分析器を使用するシーケンシング法は、最小長110bpを有するポリヌクレオチドの架橋PCR(クラスタ増幅としても知られる)によるインビトロでのクローン増幅を含み、これにアダプタが結合されて少なくとも200bp及び600bp未満の核酸が提供され、これをクローン増幅してシーケンシングすることができる。いくつかの実施形態では、アダプタ結合マーカー分子の長さは、約200bp~約600bp、約250bp~550bp、約300bp~500bp、又は約350~450である。他の実施形態では、アダプタ結合マーカー分子の長さは、約200bpである。例えば、母体サンプル中に存在する胎児cfDNAをシーケンシングするとき、マーカー分子の長さは、胎児cfDNA分子の長さと同様に選択することができる。したがって、一実施形態では、母体サンプル中のcfDNAの超並列シーケンシングを含むアッセイにおいて使用されて、胎児染色体異数体の有無を判定するマーカー分子の長さは、約150bp、約160bp、170bp、約180bp、約190bp、又は約200bpであり得る。好ましくは、マーカー分子は、約170ppである。例えば、SOLiDシーケンシング法、ポロニ-シーケンシング、及び454シーケンシングなどの他のシーケンシングアプローチは、エマルジョンPCRを使用してシーケンシングのためにDNA分子をクローナ増幅し、各技術は、増幅される分子の最小長及び最大長を指定する。クローン増幅核酸としてシーケンシングされるマーカー分子の長さは、最大約600bpであり得る。いくつかの実施形態では、シーケンシングされるマーカー分子の長さは、600bp超であり得る。
分子のクローン増幅を採用しない単一分子シーケンシング技術は、非常に広い範囲のテンプレート長にわたって核酸をシーケンシングすることが可能であり、ほとんどの状況では、シーケンシングされる分子が任意の特定の長さであることを必要としない。しかしながら、単位質量当たりの配列の収率は、3’末端ヒドロキシル基の数に依存するため、シーケンシングのための比較的短いテンプレートを有することは、長いテンプレートを有するよりも効率的である。1000ntより長い核酸から出発する場合、核酸を100~200ntの平均長に剪断することで、より多くの配列情報を同じ質量の核酸から生成することができる。したがって、マーカー分子の長さは、数十塩基~数千塩基の範囲であり得る。単一分子シーケンシングに使用されるマーカー分子の長さは、最大約25bp、最大約50bp、最大約75bp、最大約100bp、最大約200bp、最大約300bp、最大約400bp、最大約500bp、最大約600bp、最大約700bp、最大約800bp、最大約900bp、最大約1000bp、又はそれ以上であり得る。
マーカー分子のために選択される長さはまた、シーケンシングされるゲノム核酸の長さによって決定される。例えば、cfDNAは、細胞ゲノムDNAのゲノム断片としてヒト血流中で循環する。妊婦の血漿中に見出される胎児cfDNA分子は、一般的に母体cfDNA分子よりも短い(Chan et al.,Clin Chem 50:8892[2004])。循環する胎児DNAのサイズ割合は、循環する胎児DNA断片の平均長が300bp未満であることが確認され、一方、母体DNAは、約0.5~1Kbであると推定された(Li et al.,Clin Chem,50:1002-1011[2004])。これらの所見は、NGSを使用して、胎児cfDNAが滅多に340bpを超えないと判定したFan et al.の所見と一致する(Fan et al.,Clin Chem 56:1279-1286[2010])。標準的なシリカベースの方法で尿から単離されたDNAは、剥がれた細胞に由来する高分子量DNAと、腎臓通過性DNA(Tr-DNA)の低分子量(150~250塩基対)との2画分からなる(Botezatu et al.,Clin Chem.46:1078-1084、2000;及びSu et al.,J Mol.Diagn.6:101-107、2004)。体液からセルフリー核酸と腎臓通過性核酸を単離するための新たに開発された技術の適用により、150塩基対よりもはるかに短いDNA及びRNA断片の尿中での存在が明らかになった(米国特許出願公開第20080139801号)。cfDNAがシーケンシングされるゲノム核酸である実施形態では、選択されるマーカー分子は、最大約cfDNAの長さとすることができる。例えば、単一核酸分子又はクローン増幅核酸としてシーケンシングされる母体cfDNAサンプルで使用されるマーカー分子の長さは、約100bp~600とすることができる。他の実施形態では、サンプルゲノム核酸は、より大きな分子の断片である。例えば、シーケンシングされるサンプルゲノム核酸は、断片化細胞DNAである。実施形態では、断片化細胞DNAがシーケンシングされると、マーカー分子の長さは、最大でDNA断片の長さとすることができる。いくつかの実施形態では、マーカー分子の長さは、少なくとも、配列リードを適切な参照ゲノムに固有にマッピングするために必要な最小長である。他の実施形態では、マーカー分子の長さは、マーカー分子をサンプル参照ゲノムにマッピングすることから除外するのに必要な最小長である。
更に、マーカー分子を使用して、核酸シーケンシングによって分析されていないサンプルを検証することができ、シーケンシング以外の一般的なバイオ技術、例えばリアルタイムPCRにより検証することができる。
サンプル対照(例えば、シーケンシング及び/又は分析のためのプロセス内陽性対照)。
様々な実施形態では、例えば、上述したように、サンプルに導入されるマーカー配列は、シーケンシング及びその後の処理及び分析の精度及び有効性を検証するための陽性対照として機能することができる。
したがって、サンプル中のDNAをシーケンシングするためのプロセス内陽性対照(IPC)を提供するための組成物及び方法が提供される。特定の実施形態では、ゲノムの混合物を含むサンプル中のcfDNAをシーケンシングするための陽性対照が提供される。IPCは、異なるサンプルセット、例えば、異なるシーケンシング実行上の異なる時点でシーケンシングされるサンプルから得られた配列情報のベースラインシフトを関連付けるために使用することができる。したがって、例えば、IPCは、母体試験サンプルについて得られた配列情報を、異なる時点でシーケンシングされた適格サンプルのセットから得られた配列情報に関連付けることができる。
同様に、セグメント分析の場合、IPCは、特定のセグメント(複数可)についての被験者から得られた配列情報を、異なる時間にシーケンシングされた(類似配列の)適格サンプルのセットから得られた配列に関連付けることができる。特定の実施形態では、IPCは、特定の癌関連遺伝子座について被験者から得られた配列情報を、適格サンプルのセットから得られた配列情報(例えば、既知の増幅/欠失など)に関連付けることができる。
更に、IPCは、シーケンシングプロセスを通してサンプルを追跡するためのマーカーとして使用することができる。IPCはまた、適切な解釈を提供し、かつデータの信頼度及び正確性を確保するために、対象染色体の1つ以上の異数体、例えば、トリソミー21、トリソミー13、トリソミー18の定量的陽性配列量値、例えばNCVを提供することができる。特定の実施形態では、IPCは、男性及び女性ゲノム由来の核酸を含むように作製されて、母体サンプル中のX及びY染色体の量を提供して、胎児が男性であるか否かを判定することができる。
プロセス内対照の種類及び数は、必要とされる試験の種類又は性質に依存する。例えば、ゲノムの混合物を含むサンプルからDNAをシーケンシングすることを必要とする試験については、染色体異数体が存在するか否かを判定するために、プロセス内対照は、試験されているのと同じ染色体異数体を含むことが分かっているサンプルから得られるDNAを含み得る。いくつかの実施形態では、IPCは、対象染色体の異数体を含むことが分かっているサンプルからのDNAを含む。例えば、母体用のサンプル中の胎児トリソミー、例えば、トリソミー21の有無を判定するための試験用IPCは、トリソミー21を有する個体から得られたDNAを含む。いくつかの実施形態では、IPCは、異なる異数体を有する2つ以上の個体から得られたDNAの混合物を含む。例えば、トリソミー13、トリソミー18、トリソミー21、及びモノソミーXの有無を判定する試験用に、IPCは、試験されるトリソミーのうちの1つを有する胎児を身ごもる妊婦それぞれから得られたDNAサンプルの組み合わせを含む。完全染色体異数体に加えて、IPCは、部分的異数体の有無を判定する試験用の陽性対照を提供するように作成することができる。
1つの異数体を検出するための対照として機能するIPCは、1人は異数体ゲノムの提供者である2人の被験者から得られた細胞ゲノムDNAの混合物を使用して作成することができる。例えば、胎児トリソミー、例えば、トリソミー21を判定する試験用対照として作成されるIPCは、トリソーム染色体を有する男性又は女性被験者からのゲノムDNAと、トリソーム染色体を有していないことが分かっている女性被験者のゲノムDNAとを組み合わせることによって作成することができる。ゲノムDNAは、両方の被験者の細胞から抽出され、約100~400bp、約150~350bp、又は約200~300bpの断片を提供するよう分割して、母体サンプル中の循環cfDNA断片をシミュレートすることができる。異数体、例えば、トリソミー21を有する被験者からの断片化DNAの割合を選択して、母体サンプルに見出される循環胎児cfDNAの割合をシミュレートし、異数体を有する被験者からのDNAを約5%、約10%、約15%、約20%、約25%、約30%を含む断片化DNAの混合物を含有するIPCを提供する。IPCは、それぞれが異なる異数体を有する様々な被験者からのDNAを含むことができる。例えば、IPCは、影響なし女性DNAを約80%含むことができ、残りの20%は、トリソミー染色体21、トリソミー染色体13、及びトリソミー染色体18をそれぞれ保有する3つの異なる被験者からのDNAとすることができる。断片化DNAの混合物を、シーケンシング用に調製する。断片化DNAの混合物の処理は、シーケンシングライブラリの調製を含むことができ、任意の超並列方法をシングルプレックス又はマルチプレックス式に用いてシーケンシングすることができる。ゲノムIPCのストック溶液は、複数の診断試験において保管及び使用することができる。
あるいは、IPCは、既知の染色体異数体を有する胎児を身ごもっていることが分かっている母親から得られたcfDNAを使用して作成することができる。例えば、cfDNAは、トリソミー21を有する胎児を身ごもっている妊婦から取得することができる。cfDNAが母体サンプルから抽出され、細菌ベクターにクローニングされ、細菌中で増殖されて、IPCの進行中ソースを提供する。DNAは、制限酵素を使用して細菌ベクターから抽出することができる。あるいは、クローン化cfDNAは、例えばPCRによって増幅され得る。IPC DNAは、染色体異数体の有無について分析される試験サンプルから、cfDNAと同じ手順でシーケンシングするために処理することができる。
IPCの作成は、トリソミーに関して上述されているが、IPCは、例えば、様々なセグメント増幅及び/又は欠失を含む他の部分的異数体を反映するように作成され得ることが理解されるであろう。したがって、例えば、様々な癌が特定の増幅に関連することが知られている場合(例えば、20Q13に関連する乳癌)、これらの既知の増幅を組み込むことができるIPCを作成することができる。
シーケンシング方法
上述のように、調製されたサンプル(例えば、配列ライブラリ)は、コピー数多型を特定するための手順の一部としてシーケンシングされる。いくつかのシーケンシング技術のうちのいずれかを利用することができる。
後述するように、Affymetrix Inc.(カリフォルニア州サニーベール)製のハイブリダイゼーションによるシーケンシングプラットフォーム、454Life Sciences(コネチカット州ブランフォード)、Illumina/Solexa(カリフォルニア州ヘイワード)、及びHelicos Biosciences(マサチューセッツ州ケンブリッジ)製の合成によるシーケンシングプラットフォーム、並びにApplied Biosystems(カリフォルニア州フォスターシティ)製のライゲーションによるシーケンシングプラットフォームなどのいくつかのシーケンシング技術が市販されている。Helicos Biosciencesの合成によるシーケンシングを使用して実施される単一分子シーケンシングに加えて、他の単一分子シーケンシング技術としては、限定するものではないが、Pacific BiosciencesのSMRT(商標)技術、ION TORRENT(商標)技術、及び、Oxford Nanopore Technologiesによって開発されたナノ細孔シーケンシング法が挙げられるが、これらに限定されない。
自動サンガー法は、「第1世代」技術と見なされるが、自動サンガーシーケンシングを含むサンガーシーケンシングも、本明細書に記載される方法で採用することができる。更なる好適なシーケンシング方法としては、核酸撮像技術、例えば、原子間力顕微鏡(AFM)又は透過電子顕微鏡(TEM)が挙げられるが、これらに限定されない。例示的なシーケンシング技術を、以下より詳細に記載する。
1つの例示的であるが非限定的な実施形態では、本明細書に記載の方法は、Illuminaの合成によるシーケンシング及び可逆的ターミネータベースのシーケンシング化学作用(例えば、Bentley Et al.,Nature 6:53-59[2009]に記載)を用いて、試験サンプル中の核酸、例えば、母体サンプル中のcfDNA、癌に関してスクリーニングされる被験者中のcfDNA又は細胞DNAについての配列情報を取得することを含む。テンプレートDNAは、ゲノムDNA、例えば、細胞DNA又はcfDNAであり得る。いくつかの実施形態では、単離細胞からのゲノムDNAをテンプレートとして使用し、数百塩基対の長さに断片化する。他の実施形態では、cfDNAはテンプレートとして使用され、断片化は、cfDNAが短断片として存在するために必要ではない。例えば、胎児cfDNAは、約170塩基対(bp)長の断片として血流中で循環し(Fan et al.,Clin Chem 56:1279-1286[2010])、シーケンシング前のDNAの断片化は不要である。Illuminaのシーケンシング技術は、断片化ゲノムDNAを、オリゴヌクレオチドアンカーが結合される平面的で、任意選択で光学的に透明な表面に付与することに依存する。テンプレートDNAを末端修復して、5’リン酸化平滑末端を生成し、クレノウ断片のポリメラーゼ活性を使用して、単一の塩基を、平滑なリン酸化DNA断片の3’末端に加える。この付加は、ライゲーション効率を高めるために、3’末端に単一のT塩基の突出を有するオリゴヌクレオチドアダプタへのライゲーションのためのDNA断片を準備する。アダプタオリゴヌクレオチドは、(反復増殖の分析においてアンカー/アンカーリードと混同されないように)フローセルアンカーオリゴと相補的である。制限希釈条件下で、アダプタ修飾一単鎖テンプレートDNAがフローセルに添加されて、アンカーオリゴへのハイブリダイゼーションによって固定される。付与されたDNA断片は、伸長されブリッジ増幅されて、それぞれが同じテンプレートの約1,000のコピーを含有する何億ものクラスタを有する超高密度シーケンシングフローセルを作成する。一実施形態では、ランダムに断片化されたゲノムDNAは、クラスタ増幅に供される前にPCRを用いて増幅される。あるいは、増幅フリー(例えば、PCRフリー)ゲノムライブラリ調製が使用され、ランダムに断片化されたゲノムDNAは、クラスタ増幅のみを用いて濃縮される(Kozarewa et al.,Nature Methods 6:291-295[2009])。テンプレートは、取り外し可能な蛍光染料を有する可逆的ターミネータを採用するロバストな4色DNAの合成によるシーケンシング技術を使用してシーケンシングされる。高感度蛍光検出は、レーザー励起及び全反射光学素子を使用して達成される。約数十~数百塩基対の短い配列リードは、参照ゲノムに対して位置合わせされ、短配列リードと参照ゲノムとの固有のマッピングは、特別に開発されたデータ分析パイプラインソフトウェアを使用して特定される。第1のリードが完了した後、テンプレートをその場で再生して、断片の反対端からの第2のリードを可能にすることができる。したがって、DNA断片のシングルエンド又はペアエンドシーケンシングのいずれかを使用することができる。
本開示の様々な実施形態は、ペアエンドシーケンシングを可能にする合成によるシーケンシングを使用することができる。いくつかの実施形態では、Illuminaによる合成プラットフォームによるシーケンシングは、断片のクラスタリングを含む。クラスタリングは、各断片分子が等温増幅するプロセスである。いくつかの実施形態では、本明細書に記載される例として、断片は、断片の2つの末端に取り付けられた2つの異なるアダプタを有し、アダプタにより、断片をフローセルレーンの表面上の2つの異なるオリゴとハイブリダイズすることができる。断片は、断片の2つの末端に2つのインデックス配列を更に含むか、又はそれに接続され、このインデックス配列は、マルチプレックスシーケンシングにおいて異なるサンプルを特定するための標識を提供する。いくつかのシーケンシングプラットフォームでは、シーケンシングされる断片は、インサートとも称される。
いくつかの実施態様では、Illuminaのプラットフォーム内でクラスタリングするためのフローセルは、レーンを有するスライドガラスである。各レーンは、2種類のオリゴのローンでコーティングされたガラスチャネルである。ハイブリダイゼーションは、表面上の2種類のオリゴのうちの1つ目によって有効化される。このオリゴは、断片の一端にある第1のアダプタと相補的である。ポリメラーゼは、ハイブリダイズされた断片の相補鎖を形成する。二本鎖分子は変性し、元のテンプレート鎖を洗い流される。残りの鎖は、多くの他の残りの鎖と並行して、ブリッジ適用によってクローン増幅される。
ブリッジ増幅では、鎖が上方に折り畳まれ、鎖の第2の端部上の第2のアダプタ領域は、フローセル表面上の第2の種類のオリゴとハイブリダイズする。ポリメラーゼは相補鎖を生成し、二本鎖架橋分子を形成する。この二本鎖分子は変性し、2つの異なるオリゴを介してフローセルにつながれた2つの一本鎖分子をもたらす。次いで、このプロセスが何度も繰り返されて、何百万のクラスタに対して同時に行われて、全ての断片をクローン増幅する。ブリッジ増幅後、逆鎖が切断され、洗い流されて、前方鎖のみを残す。3’末端は、望ましくないプライミングを防止するために遮断される。
クラスタリング後、シーケンシングは、第1のシーケンシングプライマーを伸長して第1のリードを生成することによって開始される。各サイクルでは、蛍光タグ付けされたヌクレオチドは、成長している鎖に添加するために競合する。テンプレートの配列に基づいて1つのみが組み込まれる。各ヌクレオチドの添加後、クラスタは光源によって励起され、特徴的な蛍光信号が放出される。サイクル数は、リードの長さを決定する。発光波長及び信号強度は、ベースコールを決定する。所与のクラスタについて、全ての同一の鎖が同時に読み取られる。数億ものクラスタが、超並列にシーケンシングされる。第1のリードの完了時に、リード産物が洗い流される。
2つのインデックスプライマーを含むプロトコルの次の工程において、インデックス1プライマーが導入され、テンプレート上のインデックス1領域にハイブリダイズされる。インデックス領域は、マルチプレックスシーケンシングプロセスにおいてサンプルを分離するのに有用な断片を特定する。インデックス1のリードは、第1のリードと同様に生成される。インデックス1のリードが完了した後、読み取られた製品が洗い流され、鎖の3’末端が脱保護される。次いで、テンプレート鎖は、折り返されて、フローセル上の第2のオリゴに結合する。インデックス2配列は、インデックス1と同じ方法で読み取られる。次いで、工程の完了時にインデックス2のリード産物が洗い流される。
2つのインデックスを読み取ると、リード2はまず、ポリマーを使用して第2のフローセルオリゴを伸長させて、二本鎖ブリッジを形成する。この二本鎖DNAは変性し、3’末端が遮断される。元の順方向鎖が切断されて、洗い流され、逆鎖を残す。リード2は、リード2シーケンシングプライマーの導入から始まる。リード1と同様に、所望の長さが達成されるまで、シーケンシング工程が繰り返される。リード2産物が洗い流される。このプロセス全体で、全ての断片を表す何百万のリードが生成される。プールされたサンプルライブラリからの配列は、サンプル調製中に導入された固有のインデックスに基づいて分離される。サンプル毎に、類似の拡張のベースコールのリードがローカルにクラスタ化される。順方向及び逆方向のリードが対にされて連続配列を作成する。これらの連続配列は、変異体特定のために参照ゲノムに位置合わせされる。
上記の合成例によるシーケンシングは、開示された方法の多くの実施形態で使用されるペアエンドリードを含む。ペアエンドシーケンシングは、断片の2つの末端からの2つのリードを含む。一対のリードが参照配列にマッピングされると、2つのリード間の塩基対距離を決定することができ、次いで、その距離を使用して、リードを取得した断片の長さを決定することができる。いくつかの例では、2つのビンをまたぐ断片では、ペアエンドリードの一方が1つのビンに位置合わせされ、他方が隣接するビンに位置合わせされる。ビンが長くなる、又はリードが短くなるほど、このことはより稀になる。様々な方法を使用して、これらの断片のビン-メンバシップを考慮することができる。例えば、それらは、ビンの断片サイズ頻度を決定する際に省略することができる、それらは、隣接するビンの両方についてカウントすることができる、それらは、2つのビンのうち、より多くの塩基対を包含するビンに割り当てることができる、又は、それらは、各ビン内の塩基対の部分に関連する重みを伴って両方のビンに割り当てることができる。
ペアエンドリードは、異なる長さ(すなわち、シーケンシングされる異なる断片サイズ)のインサートを使用してもよい。本開示におけるデフォルトの意味として、ペアエンドリードは、様々なインサート長から得られたリードを指すために使用される。場合によっては、短インサートペアエンドリードと長インサートペアエンドリードからを区別するために、後者は嵌合ペアリードとも称される。嵌合ペアリードを伴ういくつかの実施形態では、最初に2つのビオチン接合アダプタが、比較的長いインサート(例えば、数kb)の2つの末端に付与される。次いで、ビオチン接合アダプタは、インサートの2つの末端をリンクして循環分子を形成する。次いで、ビオチン接合アダプタを包含するサブ断片は、循環分子を更に断片化することによって取得することができる。次いで、反対の順序で元の断片の2つの末端を含むサブ断片を、上記の短インサートペアエンドシーケンシングと同じ手順によってシーケンシングすることができる。Illuminaプラットフォームを使用した嵌合ペアのシーケンシングの更なる詳細は、以下のURL:res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processingでオンラインで公開されており、その全体を参照により組み込む。ペアエンドシーケンシングに関する更なる情報は、ペアエンドシーケンシング方法及び装置上の材料について、米国特許出願公開第7601499号及び米国特許公開第2012/0,053,063号に見出すことができ、これらは参照により組み込まれる。
DNA断片のシーケンシング後、所定の長さ、例えば、100bpの配列リードが、既知の参照ゲノムにマッピング又は位置合わせされる。マッピング又は位置合わせされたリード及び参照配列上のそれらの対応位置はタグとも称される。一実施形態では、参照ゲノム配列は、ワールドワイドウェブ上のgenome dot ucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105で利用可能なNCBI36/hg18配列である。あるいは、参照ゲノム配列は、ワールドワイドウェブ上のgenome dot ucsc dot edu/cgi-bin/hgGatewayで利用可能なGRCh37/hg19である。公開配列情報の他の供給源としては、GenBank、dbEST、dbSTS、EMBL(欧州分子生物学研究所)、及びDDBJ(日本のDNAデータバンク)が挙げられる。配列を位置合わせするための多数のコンピュータアルゴリズムが利用可能であり、これには、BLAST(Altschul et al.,1990)、Blitz(MPsrch)(Sturrock & Collins,1993)、FASTA(Person & Lipman,1988)、BOWTIE(Langmead et al.,Genome Biology 10:R25.1~R25.10[2009])、又はELAND(Illumina,Inc.、米国カリフォルニア州サンディエゴ)等を含むがこれらに限定されない。一実施形態では、血漿cfDNA分子のクローン拡張コピーの一端が、Efficient Large-Scale Alignment of Nucleotide Databases(ELAND)ソフトウェアを使用する、Illumina Genome Analyzer用のバイオインフォマティクスアライメント分析によって、シーケンシングされ処理される。
配列リードを取得するために、他のシーケンシング方法及びシステムを使用してもよい。
CNVを判定する装置及びシステム
シーケンシングデータの分析及びそこから得られる診断は、典型的には、各種コンピュータ実行アルゴリズム及びプログラムを使用して実行される。したがって、特定の実施形態は、1つ以上のコンピュータシステム又は他の処理システム内に記憶された、又はそれらを介して転送されたデータを含むプロセスを採用する。本明細書に開示される実施形態はまた、これらの動作を実行するための装置に関する。本装置は、必要な目的のために特別に構築されてもよく、又はコンピュータに記憶されたコンピュータプログラム及び/又はデータ構造によって選択的に起動又は再構成される汎用コンピュータ(又はコンピュータ群)であってもよい。いくつかの実施形態では、プロセッサ群は、列挙された分析動作の一部又は全てを、(例えば、ネットワーク又はクラウドコンピューティングを介して)協働して及び/又は並列に実行する。本明細書に記載される方法を実行するためのプロセッサ又はプロセッサ群は、プログラマブルデバイス(例えば、CPLD及びFPGA)などのマイクロコントローラ及びマイクロプロセッサ、並びにゲートアレイASIC又は汎用マイクロプロセッサなどの非プログラム可能デバイスを含む様々な種類のものであってもよい。
更に、特定の実施形態は、様々なコンピュータ実行動作を実行するためのプログラム命令及び/又はデータ(データ構造を含む)を含む有形及び/又は非一時的コンピュータ可読媒体又はコンピュータプログラム製品に関する。コンピュータ可読媒体の例としては、半導体メモリデバイス、ディスクドライブなどの磁気媒体、磁気テープ、CDなどの光学媒体、光磁気媒体、並びに読み出し専用メモリデバイス(ROM)及びランダムアクセスメモリ(RAM)などのプログラム命令を記憶及び実行するように特別に構成されたハードウェアデバイスが挙げられるが、これらに限定されない。コンピュータ可読媒体は、エンドユーザによって直接制御されてもよく、又は媒体はエンドユーザによって間接的に制御されてもよい。直接制御される媒体の例としては、ユーザ施設に位置する媒体、及び/又は他のエンティティと共有されていない媒体が挙げられる。間接的に制御される媒体の例としては、外部ネットワークを介して、及び/又は「クラウド」などの共有リソースを提供するサービスを介してユーザに間接的にアクセス可能な媒体が挙げられる。プログラム命令の例としては、コンパイラによって生成されるものなどのマシンコード、及びインタープリタを使用してコンピュータによって実行され得るより高レベルのコードを含むファイルの両方が挙げられる。
様々な実施形態において、開示された方法及び装置に用いられるデータ又は情報は、電子フォーマットで提供される。このようなデータ又は情報は、核酸サンプルに由来するリード及びタグ、参照配列の特定の領域と位置合わせされる(例えば、染色体又は染色体セグメントに位置合わせされる)上記タグのカウント又は密度、参照配列(単独又は主に多型を提供する参照配列を含む)、染色体及びセグメント量、異数体コールなどのコール、正規化染色体及びセグメント値、染色体又はセグメントと対応する正規化染色体又はセグメントの対、カウンセリング推奨、診断などを含むことができる。本明細書で使用するとき、電子形式で提供されるデータ又は他の情報は、機械上での記憶及び機械間の送信のために利用可能である。従来のように、電子形式のデータはデジタル的に提供され、様々なデータ構造、リスト、データベースなどのビット及び/又はバイトとして記憶されてもよい。データは、電子的、光学的などに具現化されてもよい。
一実施形態は、試験サンプルにおける異数体、例えば、胎児異数体又は癌の有無を示す出力を生成するためのコンピュータプログラム製品を提供する。コンピュータ製品は、染色体異常を判定するための上記の方法のうちのいずれか1つ以上を実行するための命令を含んでもよい。上述したように、コンピュータ製品は、プロセッサが染色体量、場合によっては、胎児異数体の有無を判定できるように、コンピュータ実行可能又はコンパイル可能な論理(例えば、命令)を記録した非一時的及び/又は有形のコンピュータ可読媒体を含んでもよい。一実施例では、コンピュータ製品は、プロセッサに胎児異数体を診断させるためのコンピュータ実行可能又はコンパイル可能な論理(例えば、命令)を記録するコンピュータ可読媒体を含み、この論理は、母体生物学的サンプルからの核酸分子の少なくとも一部からシーケンシングデータを受信するための受信手順であって、当該シーケンシングデータが、計算された染色体及び/又はセグメント量を含む、受信手順と、受信されたデータから胎児異数体を分析するためのコンピュータ支援論理と、当該胎児異数体の有無又は種類を示す出力を生成するための出力手順と、を含む。
考慮中のサンプルからの配列情報は、染色体参照配列にマッピングされて、任意の1つ以上の対象染色体のそれぞれについての配列タグの数を特定し、任意の1つ以上の対象染色体のそれぞれについて、正規化セグメント配列についての配列タグの数を特定することができる。様々な実施形態では、参照配列は、例えば、リレーショナル又はオブジェクトデータベースなどのデータベースに記憶される。
人間が独力で本明細書に開示される方法の計算操作を実行することは実際的ではない、又は大半の場合、可能ですらないことを理解されたい。例えば、サンプルから読み取られた単一の30bpをヒト染色体のうちのいずれか1つにマッピングすることは、計算装置の支援なしでは何年もの努力を要する場合がある。当然のことながら、信頼度の高い異数体コールは、一般に、1つ以上の染色体へ数千(例えば、少なくとも約10,000)又は更には数百万のリードをマッピングすることを必要とするため、問題は複雑である。
本明細書に開示される方法は、試験サンプル中の対象遺伝子配列のコピー数を評価するためのシステムを使用して実施することができる。本システムは、(a)サンプルから核酸配列情報を提供する試験サンプルから核酸を受容するためのシーケンサと、(b)プロセッサと、(c)当該プロセッサ上で実行するための命令を記憶して、任意のCNV、例えば、染色体又は部分的な異数体を特定するための方法を実行する1つ以上のコンピュータ可読記憶媒体と、を備える。
いくつかの実施形態では、本方法は、任意のCNV、例えば、染色体又は部分的異数体を特定する方法を実行するためのコンピュータ可読命令を記憶したコンピュータ可読媒体によって指示される。したがって、一実施形態は、コンピュータ実行可能命令を記憶した1つ以上のコンピュータ可読非一時的記憶媒体を含むコンピュータプログラム製品を提供し、コンピュータ実行可能命令は、コンピュータシステムの1つ以上のプロセッサによって実行されると、胎児及び母体セルフリー核酸を含む試験サンプル中の対象配列のコピー数を評価する方法をコンピュータシステムに実施させる。本方法は、(a)試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取ることと、(b)セルフリー核酸断片の配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって試験配列タグを提供することであって、参照ゲノムが複数のビンに分割される、ことと、(c)試験サンプル中に存在するセルフリー核酸断片のサイズを決定することと、(d)タグが得られるセルフリー核酸断片のサイズに基づいて、試験配列タグを重み付けすることと、(e)(d)の重み付けされたタグに基づいてビンのカバレッジを計算することと、(f)計算されたカバレッジから対象配列におけるコピー数多型を特定することと、を含む。いくつかの実施態様では、試験配列タグに重み付けすることは、試験サンプル中の1つのゲノムのサイズ又はサイズ範囲特性のセルフリー核酸断片から得られた試験配列タグに向けてカバレッジにバイアスをかけることを含む。いくつかの実施態様では、試験配列タグに重み付けすることは、サイズ又はサイズ範囲のセルフリー核酸断片から得られたタグに1の値を割り当てることと、他のタグに0の値を割り当てることと、を含む。いくつかの実施態様では、本方法は、対象配列を含む参照ゲノムのビンにおいて、閾値よりも短い又は長い断片サイズを有する試験サンプル中のセルフリー核酸断片の量を含む断片サイズパラメータの値を決定することを更に含む。ここで、対象配列におけるコピー数多型を特定することは、断片サイズパラメータの値だけでなく、(e)で計算されたカバレッジを使用することを含む。いくつかの実施態様では、システムは、上述の様々な方法及びプロセスを使用して、試験サンプル中のコピー数を評価するように構成される。
いくつかの実施形態では、命令は、母体試験サンプルを提供するヒト被験者の患者の医療記録における染色体の量及び胎児染色体異数体の有無などの方法に関連する情報を自動的に記録することを更に含んでもよい。患者の医療記録は、例えば、実験室、医師のオフィス、病院、健康管理施設、保険会社、又は個人医療記録ウェブサイトによって管理され得る。更に、プロセッサが実行する分析の結果に基づいて、本方法は、母体試験サンプルが採取されたヒト被験者の治療を指示、開始、及び/又は変更することを更に含んでもよい。本方法は、被験者から採取した追加のサンプルに対して、1つ以上の追加の試験又は分析を実行することを含んでもよい。
開示された方法はまた、任意のCNV、例えば、染色体又は部分的異数体を特定するための方法を実行するように適合又は構成されたコンピュータ処理システムを使用して実行することもできる。一実施形態は、本明細書に記載される方法を実行するように適合又は構成されたコンピュータ処理システムを提供する。一実施形態では、本装置は、本明細書の他の箇所に記載される配列情報の種類を取得するために、サンプル中の核酸分子の少なくとも一部をシーケンシングするように適合又は構成されたシーケンシング装置を含む。本装置はまた、サンプルを処理するための構成要素を含んでもよい。このような構成要素は、本明細書の他の箇所に記載されている。
配列又は他のデータは、コンピュータに入力されてもよい、又は直接的又は間接的にコンピュータ可読媒体上に記憶されてもよい。一実施形態では、コンピュータシステムは、サンプルから核酸配列を読み取る及び/又は分析するシーケンシングデバイスに直接結合される。このようなツールからの配列又は他の情報は、コンピュータシステム内のインターフェースを介して提供される。あるいは、システムによって処理された配列が、データベース又は他のリポジトリなどの配列ストレージソースから提供される。いったん処理装置に利用可能になると、メモリデバイス又は大量記憶デバイスが、核酸の配列を少なくとも一時的にバッファに入れる又は記憶する。加えて、メモリデバイスは、様々な染色体又はゲノムなどのタグカウントを記憶してもよい。メモリはまた、配列又はマッピングされたデータの表示を分析するための各種ルーチン及び/又はプログラムを記憶してもよい。このようなプログラム/ルーチンは、統計分析を実行するためのプログラムなどを含んでもよい。
一実施例では、ユーザは、シーケンシング装置にサンプルを提供する。データは、コンピュータに接続されたシーケンシング装置によって収集及び/又は分析される。コンピュータ上のソフトウェアは、データ収集及び/又は分析を可能にする。データは、記憶され、表示され(モニタ又は他の同様のデバイスを介して)、及び/又は別の場所に送信することができる。コンピュータは、リモートユーザ(例えば、医師、科学者、又は分析者)によって利用される携帯デバイスにデータを送信するために使用されるインターネットに接続されてもよい。データは、送信前に記憶及び/又は分析され得ることが理解される。いくつかの実施形態では、生データが収集され、データを分析及び/又は記憶するリモートユーザ又は装置に送信される。送信は、インターネットを介して行うことができるが、衛星又は他の接続を介しても行うことができる。あるいは、データは、コンピュータ可読媒体に記憶することができ、媒体は、エンドユーザに(例えば、メールを介して)配信することができる。リモートユーザは、建物、都市、州、国、又は大陸を含むがこれらに限定されない、同じ又は異なる地理的位置に存在することができる。
いくつかの実施形態では、方法はまた、複数のポリヌクレオチド配列(例えば、リード、タグ、及び/又は参照染色体配列)に関するデータを収集することと、データをコンピュータ又は他の計算システムに送信することと、を含む。例えば、コンピュータは、実験機器、例えば、サンプル収集装置、ヌクレオチド増幅装置、ヌクレオチドシーケンシング装置、又はハイブリダイゼーション装置に接続することができる。次いで、コンピュータは、実験デバイスによって回収された適用可能なデータを収集することができる。データは、任意の工程で、例えば、リアルタイムでの収集中、送信前、送信中若しくは送信と同時に、又は送信後にコンピュータに記憶され得る。データは、コンピュータから抽出することができるコンピュータ可読媒体に記憶することができる。収集又は記憶されたデータは、コンピュータから遠隔位置に、例えば、ローカルネットワーク又はインターネットなどの広域ネットワークを介して送信することができる。遠隔位置では、以下に記載されるように、送信されたデータに対して様々な動作を実行することができる。
システム、装置、及び方法において記憶、送信、分析、及び/又は操作され得る電子的にフォーマットされたデータの種類の中でも、以下のものが、本明細書で開示されている。
試験サンプル中の核酸のシーケンシングによって得られるリード
リードを参照ゲノム又は他の参照配列又は複数配列に位置合わせすることによって得られるタグ
参照ゲノム又は配列
配列タグ密度-参照ゲノム又は他の参照配列の2つ以上の領域(典型的には染色体又は染色体セグメント)のそれぞれについてのカウント又はタグ数
特定の対象染色体又は染色体セグメントについての正規化染色体又は染色体セグメントの識別
対象染色体又はセグメント及び対応する正規化染色体又はセグメントから得られた染色体又は染色体セグメント(又は他の領域)の量
影響あり、影響なし、又はノーコールのいずれかとして染色体量をコールするための閾値
染色体量の実際のコール
診断(コールに関連する臨床的状態)
コール及び/又は診断から導出される更なる試験の推奨
コール及び/又は診断から導出される治療及び/又はモニタリング計画
これらの様々な種類のデータは、別個の装置を使用して、1つ以上の場所で取得、記憶、伝達、分析、及び/又は操作されてもよい。処理オプションは、広範囲に及ぶ。この範囲の一端では、この情報の全て又は多くが、試験サンプルが処理される場所、例えば医師の診察又は他の臨床設定で保管及び使用される。他端では、サンプルが1つの場所で取得され、異なる場所で処理され、任意選択的にシーケンシングされ、リードが位置合わせされ、コールが1つ以上の異なる場所で行われ、診断、推奨、及び/又は計画が、更に別の場所(サンプルを取得した場所であってもよい)で準備される。
様々な実施形態では、リードはシーケンシング装置で生成され、次いで、遠隔場所に送信されて、そこで処理されて異数体コールを生成する。この遠隔場所では、一例として、リードが、参照配列に位置合わせされてタグを生成し、このタグがカウントされ、対象染色体又はセグメントに割り当てられる。また、遠隔場所では、カウントは、関連する正規化染色体又はセグメントを使用して量に変換される。更に、遠隔場所では、この量を使用して、異数体コールを生成する。
以下のものは、個々の場所で採用され得る処理動作に含まれる。
サンプル収集
シーケンシングの予備的サンプル処理
シーケンシング
配列データを分析し、異数体コールを導出する
診断
診断及び/又は患者又は医療提供者へのコールを報告する
更なる処理、試験、及び/又はモニタリングのための計画を開発する
計画を実行する
カウンセリング
これらの動作のうちの任意の1つ以上は、本明細書の他の箇所に記載されるように自動化されてもよい。典型的には、配列データをシーケンシング及び分析し、異数体を導出することは、計算で実行される。他の動作は、手動で又は自動的に実行されてもよい。
サンプル採取が実行され得る場所の例としては、健康施術者のオフィス、診療所、患者の家(サンプル採取ツール又はキットが提供される場合)、及び移動医療車両が挙げられる。シーケンシング前のサンプル処理が実行され得る場所の例としては、健康施術者のオフィス、診療所、患者の家(サンプル処理装置又はキットが提供される)、移動医療車両、及び異数体分析提供者の施設が挙げられる。シーケンシングが実行され得る場所の例としては、健康施術者のオフィス、診療所、医療専門家のオフィス、診療所、患者の家(サンプルシーケンシング装置及び/又はキットが提供される)、移動医療車両、及び異数体分析提供者の施設が挙げられる。シーケンシングが実行される場所には、電子フォーマットで配列データ(典型的には、リード)を送信するための専用ネットワーク接続が提供され得る。このような接続は有線又は無線であってもよく、処理部位への送信前にデータを処理及び/又は集約することができる部位にデータを送信するように構成されてもよい。データアグリゲータは、健康管理機関(HMO)などの健康機関によって管理され得る。
分析及び/又は導出操作は、前述の場所のうちのいずれかで、あるいは、核酸配列データを解析及び/又は分析するためのサービス専用の更なる遠隔サイトで実行されてもよい。このような場所としては、例えば、汎用サーバファームなどのクラスタ、異数体分析サービス事業の施設などが挙げられる。いくつかの実施形態では、分析を実行するために採用される計算装置は、リース又はレンタルされる。計算リソースは、通称クラウドとして知られる処理リソースなどの、インターネットアクセス可能なプロセッサの集合の一部であってもよい。場合によっては、計算は、互いに関連するか又は関連しないプロセッサの並列又は大並列群によって実行される。処理は、クラスタコンピューティング、グリッドコンピューティングなどの分散処理を使用して達成され得る。このような実施形態では、計算リソースのクラスタ又はグリッドは、本明細書に記載される分析及び/又は導出を実行するために一緒に動作する複数のプロセッサ又はコンピュータから構成される超仮想コンピュータを集合的に形成する。これらの技術並びにより伝統的なスーパーコンピュータを用いて、本明細書に記載されるような配列データを処理することができる。それぞれは、プロセッサ又はコンピュータ上に依存する並列計算の形態である。グリッドコンピューティングの場合、これらのプロセッサ(多くの場合、コンピュータ全体)は、イーサネットなどの従来のネットワークプロトコルによって、ネットワーク(プライベート、パブリック、又はインターネット)を介して接続される。対照的に、スーパーコンピュータは、ローカル高速コンピュータバスによって接続された多くのプロセッサを有する。
特定の実施形態では、診断(例えば、胎児がダウン症候群を有するか、又は患者が特定の種類の癌を有する)は、分析動作と同じ場所で生成される。他の実施形態では、別々の場所で実行される。いくつかの例では、診断の報告は、サンプル採取場所で行われるが、そうである必要はない。診断の生成又は報告することができ、かつ/又は計画を開発する場所の例としては、医療施術者のオフィス、診療所、コンピュータによってアクセス可能なインターネットサイト、及びネットワークへの有線又は無線接続を有する携帯電話、タブレット、スマートフォンなどの携帯デバイスが挙げられる。カウンセリングが実行される場所の例としては、医療施術者のオフィス、診療所、コンピュータ、携帯デバイスによってアクセス可能なインターネットサイトが挙げられる。
いくつかの実施形態では、サンプル収集、サンプル処理、及びシーケンシング動作は、第1の場所で実行され、分析及び導出動作は、第2の場所で実行される。しかしながら、場合によっては、サンプル収集は1つの場所(例えば、医療施術者のオフィス又は診療所)で行われ、サンプル処理及びシーケンシングは、分析及び導出が行われる場所と任意選択的に同じ場所である異なる場所で実施される。
様々な実施形態では、上記の一連の動作は、サンプル収集、サンプル処理、及び/又はシーケンシングを開始するユーザ又はエンティティによって始動され得る。1つ以上のこれらの動作が実行を開始した後、自然に続いて他の動作が行われてもよい。例えば、シーケンシング動作により、リードを自動的に収集し、処理装置に送信することができ、その後、この処理装置は、多くの場合自動的に、おそらくは更なるユーザ介入なしに、配列分析及び異数体導出動作を実行する。いくつかの実施態様では、次いで、この処理動作の結果が、おそらく診断として再フォーマットされて、医療専門家及び/又は患者に情報を報告するシステム構成要素又はエンティティに自動的に送達される。上述するように、このような情報は、おそらくはカウンセリング情報と共に、治療、試験、及び/又はモニタリング計画を生成するように自動的に処理することもできる。したがって、早期に段階操作を開始することで、医療専門家、患者、又は他の関係者に対して、身体的状態に作用するのに有用な診断、計画、売り手、及び/又は他の情報を提供するエンドツーエンドシーケンスを開始することができる。これは、システム全体の一部が物理的に分離され、場合によっては、サンプル及び配列装置などの場所から遠隔に位置する場合であっても達成される。
図17は、試験サンプルからのコール又は診断を生成するための分散システムの一実施例を示す。サンプル採取場所01は、妊婦又は推定癌患者などの患者から試験サンプルを取得するために使用される。次いで、サンプルは、処理及びシーケンシング場所03に提供されて、上記のように試験サンプルを処理及びシーケンシングすることができる。場所03は、サンプルを処理するための装置、並びに処理されたサンプルをシーケンシングするための装置を含む。シーケンシングの結果は、本明細書の他の箇所に記載されるように、典型的には電子フォーマットで提供され、図17に参照番号05で示されるインターネットなどのネットワークに提供されるリードの集合である。
配列データは、分析及びコール生成が実行される遠隔場所07に提供される。この場所は、コンピュータ又はプロセッサなどの1つ以上の有効な計算装置を含んでもよい。場所07における計算リソースが分析を完了し、受信した配列情報からコールを生成した後、コールはネットワーク05に中継される。いくつかの実施態様では、場所07でコールが生成されるだけでなく、関連する診断も生成される。次いで、図17に示されるように、コール及び/又は診断は、ネットワークを介してサンプル収集場所01に戻される。上述するように、これは、コール又は診断の生成に関連付けられる各種動作が様々な場所の間でどのように分割され得るかについての多くの変形のうちの1つである。1つの共通の変異体は、単一の場所でサンプルの収集及び処理、及びシーケンシングを提供することを含む。別の変形例は、分析及びコール生成と同じ場所で処理及びシーケンシングを提供することを含む。
図18は、様々な場所で様々な動作を実行するための選択肢の詳細を示す。図18に示される最も概略的な意味では、以下の動作:サンプル収集、サンプル処理、シーケンシング、リード位置合わせ、コーリング、診断、並びに報告及び/又は計画策定はそれぞれ別の場所で実行される。
これらの動作のいくつかをまとめる一実施形態では、サンプル処理及びシーケンシングが1つの場所で実行され、別の場所でリード位置合わせ、コーリング、及び診断が実行される。参照符号Aで特定される図18の部分を参照されたい。図18において符号Bで特定される別の実施態様では、サンプル収集、サンプル処理、及びシーケンシングは全て同じ場所で実行される。この実施態様では、リード位置合わせ及びコーリングが第2の場所で実行される。最後に、診断、並びに報告及び/又は計画策定が第3の場所で実行される。図18の符号Cで示される実施態様では、サンプル収集が第1の場所で実行され、サンプル処理、シーケンシング、リード位置合わせ、コーリング、及び診断が全て第2の場所で一緒に実行され、報告及び/又は計画策定が第3の場所で実行される。最後に、図18でDで示される実施態様では、サンプル収集が第1の場所で実行され、サンプル処理、シーケンシング、リード位置合わせ、及びコーリングが全て第2の場所で実行され、診断、並びに報告及び/又は計画策定が第3の場所で実行される。
一実施形態は、胎児及び母体の核酸を含む試験サンプル中の異数体の有無を判定する際に使用するためのシステムを提供し、このシステムは、核酸サンプルを受け取り、サンプルからの胎児及び母体の核酸配列情報を提供するシーケンサと、(a)試験サンプル中の胎児由来セルフリー核酸断片の相対量を示す試験サンプルの胎児フラクション値を決定し、(b)コンピュータシステムによって、試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受信し、(c)コンピュータシステムによって、セルフリー核酸断片の配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供し、(d)コンピュータシステムによって、参照ゲノムの少なくとも一部に対する配列タグのカバレッジを決定し、(e)(d)で決定された配列タグ及び(a)で決定された胎児フラクションにおいて決定された配列タグのカバレッジに基づいて、試験サンプルが除外領域内にあると判定し、ここで、除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、胎児フラクションLOD曲線が、カバレッジ値と共に変動し、ここで、様々なカバレッジを与えて検出基準を達成するために必要とされる最小胎児フラクション値を示す、ように構成された1つ以上のプロセッサと、を含む。
本明細書で提供されるシステムのうちのいずれかのいくつかの実施形態では、シーケンサは、次世代シーケンシング(NGS)を実行するように構成される。いくつかの実施形態では、シーケンサは、可逆染料ターミネータでの合成によるシーケンシングを使用して、超並列シーケンシングを実行するように構成される。他の実施形態では、シーケンサは、結合によるシーケンシングを実行するように構成される。更に他の実施形態では、シーケンサは、単一分子シーケンシングを実行するように構成される。
本明細書で提供されるシステムのいずれかのいくつかの実施形態では、1つ以上のプロセッサが、上述の様々な方法を実行するようにプログラムされる。
本開示の別の態様は、プログラムコードを記憶する非一時的機械可読媒体を備えるコンピュータプログラム製品であって、コンピュータシステムの1つ以上のプロセッサによって実行されるとき、コンピュータシステムに、(a)試験サンプルの胎児フラクション値を決定させ、ここで、試験サンプルの胎児フラクションが、試験サンプル中の胎児由来セルフリー核酸断片の相対量を示し、(b)コンピュータシステムによって、試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取り、(c)コンピュータシステムによって、セルフリー核酸断片の配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供し、(d)コンピュータシステムによって、参照ゲノムの少なくとも一部に対する配列タグのカバレッジを決定し、(e)(d)で決定された配列タグ及び(a)で決定された胎児フラクションにおいて決定された配列タグのカバレッジに基づいて、試験サンプルが除外領域内にあると判定し、ここで、除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、ここで、胎児フラクションLOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要とされる最小胎児フラクション値を示す、ように構成された1つ以上のプロセッサと、を含む。
本明細書で提供されるシステムのいくつかの実施形態では、コンピュータプログラム製品は、上記の様々な方法を実行するために、1つ以上のプロセッサによって実行されるプログラムコードを記憶する永続的マシン可読媒体を含む。
実験例
実施例1
本実施例の目的は、上記の方法を使用してLOD曲線をどのように取得することができるかを例示することである。
試験設計
この試験では、VeriSeq NIPT精密試験(BRIGID-0147 VeriSeq NIPT:精密試験プロトコル及びBRIGID-0166 VeriSeq NIPT:精密試験報告)で生成されたデータの一部を使用して、VeriSeq NIPT Solutionシステムの検出限界を決定した。
VeriSeq NIPT精密試験では、トリソミー21からのプールされたcfDNA及び非妊娠血漿プールを組み合わせて、VeriSeq NIPTアッセイを介して処理された5%の胎児フラクショントリソミー21の影響ありプールを作成した。男性母体用プールもまた、そのままVeriSeq NIPTアッセイによって処理した。
表1は、LOD試験に使用された精密試験設計の室内精度部分を示す。室内精度部分は、2つのHamilton機器、2 NextSeq機器、及び3つの試薬ロットからなり、合計12回の実験が6日間行われた。
(表1)精密試験の室内精度部分
Figure 0007506060000017
自動化及びシーケンシング器具は、一貫したオペレータとペアリングされた。オペレータ及び器具の変形が組み合わされた。
検出限界を確立するために、試薬ロット1及び2で生成されたデータを使用した。T21(5%FF)からの配列データを非妊娠女性からの配列データと組み合わせることにより、様々な胎児フラクションを有するT21サンプルについての合成配列データを生成した。このプロセスを、5つの異なるレベルのシーケンシング深度(200万、400万、600万、800万、及び1千万のユニークな位置合わせリードカバレッジ、表2を参照)で繰り返した。0.25%刻みでシーケンシング深度(1.25%~4.5%)の全てのレベルについての予測検出限界を網羅するために、希釈点を広範囲の微細グリッド上で選択した。
各希釈点及び各カバレッジレベルについて、20の複製された合成サンプルを生成した(より詳細な方法の説明は、DEV REPORT-0072、対数尤度比スコアの数理モデル及び検出限界の予測に見出すことができる)。
インシリコで生成した希釈シリーズを使用して、各カバレッジレベルについて、BRIGID-0150(VeriSeq NIPT溶液設計認証プロトコル検出限界)に記載されているようなプロビット回帰法を使用して、T21のLODを確立した。更に、T13及びT18に関するLODは、DEV REPORT-0072に記載されるように、T21についてのLODの結果と、LOD T21とLOD T13及びT18との間の既知の関係とを使用して決定した。
結果
各反復実行についての定量的スコア、対数尤度比(LLR)、及び胎児フラクション推定を、研究開発臨床異数体検出及び分析セット(cADAS)v3.2によって計算した。
サンプルフィルタリング及び出力
全ての対照テンプレートなし(NTC)サンプルを分析から除外した。その後のこれらのサンプルの除外により、N=48 T21プール及びN-48非妊娠プールを有する564のサンプルが得られた。それらは更にインシリコ希釈分析で使用した。サンプルの残りは直接使用せず、分析のためにフィルタとして使用した。非妊娠サンプルのうちの1つはNES_FF_QC不合格としてマークした。サンプルが非妊娠であり(胎児DNAを有さない)ためにこのメトリックを達成しないことが予測されるため、このQC不合格は無視し、サンプルを分析に含めた。
インシリコ希釈品質検証
影響ありサンプルは、それぞれ約50%の男性及び女性血漿サンプルのプールされた混合物から調製した。したがって、染色体Y DNAはサンプル中に存在し、インシリコ希釈プロセスの検証に使用することができる。図19は、合成生成サンプルのY染色体カバレッジ(左図)及びFFフラクション推定値(右図)を、希釈フラクションの関数として示す。両方の線図は、FF(元の非妊婦FF=0%、及び影響ありFF=5%)とインシリコ希釈との間の調整値を示す。
トリソミーT21試験の検出限界の決定
特定の範囲のカバレッジについて実験観測結果からLODを決定する手順は、BRIGID 0150vA(VeriSeq NIPT溶液設計認証プロトコル検出限界)に記載されている。
各ロットについて、T21について測定したLOD及び各カバレッジレベルを表2にまとめる。
(表2)検出限界
Figure 0007506060000018
検出限界対カバレッジ
DEV REPORT-0072(対数尤度比スコアの数理モデル及び検出限界の予測)に記載される理論的モデルは、両対数スケールにおけるLOD対カバレッジが直線であることを予測する。図20は、(表6.2に列挙されるような)LOD対カバレッジの線形適合の結果を示す。我々、予測された挙動と実験データとの密接な一致を観察する。
適合されたLOD対カバレッジ線は、任意のカバレッジに関する検出限界を予測する。観察されたLODに重ねられた予測LODの結果を図21に示す。
平均ケースの検出限界
一般的なサンプルの母集団は、可変カバレッジを有する。図6.4は、VeriSeq NIPTアッセイのV2バージョンを使用して処理された多数のサンプル(N=14400)におけるカバレッジ(NES)の分布を示す。一般的な母集団の予想LODは、カバレッジ分布にわたるカバレッジの関数としてのLODの期待値として計算される:
Figure 0007506060000019
式中、LOD(NES)は、カバレッジの関数としてLODであり、p(NES)は、図22に示されるNESの確率密度関数である。得られたT21の平均ケースLODを表3に示す。
(表3)平均母集団カバレッジの検出限界
Figure 0007506060000020
他の異数体T13、T18の検出限界
以前の研究(対数尤度比スコアと検出限界の予測の数理モデル)に記載されているように、異なる染色体の異数体の検出限界は、染色体の少なくとも1つについての既知のLODから推測することができる。以前の研究との関係に基づき、表4及び表5に示される結果を有する過去に決定された乗算係数を使用して、トリソミーT13及びT18についてLODを推測することができる。
(表4)合格基準に対するT13及びT18評価の平均母集団カバレッジの推定検出限界
Figure 0007506060000021
(表5)精密%CV合格基準
Figure 0007506060000022
結論
正常な母体二倍体cfDNAのバックグラウンド上の胎児cfDNA(トリソミー13/18/21)の胎児フラクションに対するVeriSeq NIPTシステムの検出限界(LOD)が決定された。検出限界を表6に要約する。試験された全ての異数体に関して、観察されたLODは、試験要件文書における指定値よりも低いことが判明した。表6に提示されたデータに基づいて、決定された検出限界は、全ての標的異数体に関する別の研究の合格基準に合格した。
(表6)異数体胎児フラクションLOD
Figure 0007506060000023
実施例2
実施例2は、NES及び胎児フラクションLOD曲線法と称された従来の方法の様々な性能メトリックの実験データを示す。
図23は、観察された胎児フラクションの関数としてのNESカバレッジを示す。2段階カバレッジ閾値法は、サンプルを除外するために使用される。除外領域に含まれる様々なサンプルを図に見ることができる。除外されるサンプルの大部分は、0~20%の胎児フラクションを有する。また、それらのカバレッジは、2つのレベルの閾値によって制限される。
図24は、LOD曲線及びリード閾値によって画定される除外領域を使用するデータ除外を示す。左側パネルは、200万リードでリード閾値を有する。右パネルは、100万リードのカバレッジ閾値を使用してデータを示す。同図が示すように、より少ないサンプルを除外することが望ましい条件下では、より少ないサンプルを除外するために、カバレッジ閾値を低下させることができる。多くの除外されたサンプルは、比較的高いリードカバレッジ及び低い観察された胎児フラクションを有する。対照的に、図23では、多くの除外されたサンプルは、比較的高い胎児フラクション及び低いカバレッジを有する。
図25は、従来の方法及び上述のLOD QC法についての第1の実行及び第2の実行の合否率を示す。データが示すように、両方の方法とも同様の合否率を有する。従来の方法の最終不合格率は、0.42%である。LODQC法の場合、最終不合格率は0.38%である。
図26は、2段階閾値によって除外され、2604で標示された胎児フラクションLOD曲線法によって救出されたデータを示す。LOD QC法によって除外され、従来の方法によって救出されたサンプルは、領域2602に示される。図26の左パネルは、LOD曲線と組み合わされた、200万リードのカバレッジ閾値に関するデータを示す。右パネルは、100万リードの低カバレッジ閾値に関する救出データを示す。左の200万リードのカバレッジ閾値を用いて、LODQC法は61の追加サンプルを除外した。しかし、カバレッジ閾値が100万リードまで低下すると、LOD QC法によって151少ないサンプルが除外される。
図27は、LOD QC法によって救出されたサンプルを示す。左パネルは、領域2702において、従来の方法によって除外され、かつLO DQC法によって救出されたサンプルを示す。再実行後、これらのサンプルの80%が、包括領域2704に入る。一方、サンプルの10%が同じ領域2702内にとどまる。サンプルの9.7%は、LOD曲線の下の除外領域に入る。右パネルは、LOD曲線を適用された100万のカバレッジ閾値によって救出されたサンプルを示す。従来の方法によって除外され、1万リードの閾値によって救出されたサンプルは、領域2708に示される。サンプルの再実行後、80%が包接領域2710に入り、13.7%が同じ領域2708にとどまり、6.3%がLOD曲線の下の除外領域に入る。この図が示すように、LOD法のみ又はカバレッジ閾値方法と組み合わされたLOD法は、さもなければ除外されていたであろう大きい割合のサンプルを救出できることを示す。実際には、LODQC法は、救出されるサンプルを再実行する必要性を回避することによって、CNV検出のための時間、コスト、及びリソースを節約するのに役立つ。
図28は、領域2802におけるLOD QC法によって除外されたデータを示す。再実行後、LOD曲線より上に移動して包括領域2708に入るサンプルはほとんどなかった。より多くのデータが同じ領域2802領域にとどまる、又はLOD曲線2708よりも更に下方に移動する。図27及び図28の結果が示唆するように、LODQC法は、実際にQC条件を満たす多くのサンプルを含み、再実行時も、QC標準を満たすことができないサンプルを除外する。これは、LODQC法が、陽性と陰性のサンプルをインテリジェントかつ正確に分離することができることを示す。
図29は、既存の従来の方法及びLODQC法の2回の実行の合否率を示す。全体的には、第1の実行及び第2の実行の両方における合否率は、2つの方法で同様である。
図30は、トリソミー21(T21)偽陽性である75%信頼度LOD曲線の救出されたサンプル3002を示す。トリソミー18(T18)偽陰性であるサンプル3004も救出された。この結果、T21偽陽性が100%減少し、T18偽陰性が50%減少した。これが例示するように、LOD QC法は、感度及び特異性の両方を向上させることができる。
図31は、シミュレートされたT21サンプルについて、LOD QCに合格するものを99.7%感度で検出することができ、LOD QCに不合格であるものを88.1%感度で検出することができることを示す。LODQC状態にかかわらず、全てのサンプルにおける総合感度は99.7である。

Claims (20)

  1. 母親及び胎児に由来するセルフリー核酸断片を含む試験サンプルを処理するために、1つ以上のプロセッサとメモリとを含むコンピュータシステムを使用して実行される方法であって、
    (a)前記試験サンプルの胎児フラクション値を決定することであって、前記試験サンプルの胎児フラクションが、前記試験サンプル中の胎児由来セルフリー核酸断片の相対量を示す、ことと、
    (b)前記コンピュータシステムによって、前記試験サンプル中の前記セルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取ることと、
    (c)前記コンピュータシステムによって、前記セルフリー核酸断片の前記配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供することと、
    (d)前記コンピュータシステムによって、参照ゲノムの少なくとも一部についての配列タグのカバレッジを決定することと、
    (e)(d)で決定された配列タグの前記カバレッジ及び(a)で決定された前記胎児フラクションに基づいて、前記試験サンプルが除外領域内にあると判定することであって、前記除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、前記胎児フラクションLOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要な最小胎児フラクション値を示す、ことと、
    (f)前記試験サンプルを、前記対象配列のCNVのコールを行うための使用から除外すること、又は、前記試験サンプルをリシーケンシングして、前記対象配列のCNVのコールを行うためのリシーケンシングされた配列リードを取得することと
    を含む、方法。
  2. 前記(f)の前に、前記試験サンプルが前記対象配列の前記CNVについて陰性であると判定することを更に含む、請求項1に記載の方法。
  3. 前記リシーケンシングされた配列リードを使用して、(a)~(d)を繰り返すことと、
    前記試験サンプルが前記除外領域の外側にあると判定することと、
    前記対象配列の前記CNVを有する、又は前記対象配列の前記CNVを有さないのいずれかとして、前記試験サンプルをコールすることと
    を更に含む、求項1~2のいずれか一項に記載の方法。
  4. 前記胎児フラクションLOD曲線が、前記CNVに影響を受けている影響ありトレーニングサンプルのLODに基づいて取得される、求項1~3のいずれか一項に記載の方法。
  5. 前記影響ありサンプルが、インシリコサンプルを含む、請求項4に記載の方法。
  6. 前記影響ありサンプルが、インビトロサンプルを含む、請求項4に記載の方法。
  7. 前記影響ありサンプルが、2つ以上の胎児フラクションを有するサンプルを組み合わせることによって取得される、請求項4に記載の方法。
  8. 前記検出基準が、観察された胎児フラクションについてグランドトゥルース胎児フラクションが指定LODよりも大きい、所望レベルの信頼度である、求項1~7のいずれか一項に記載の方法。
  9. 前記検出基準が、前記観察された胎児フラクションについて前記グランドトゥルース胎児フラクションがLOD Y%よりも大きい、X%信頼度である、請求項8に記載の方法。
  10. Xが、約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%、又は99.5%である、請求項8に記載の方法。
  11. Yが、約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、又は99%検出信頼度である、請求項8に記載の方法。
  12. Xが50%であり、Yが95%である、請求項8に記載の方法。
  13. 前記指定LODが、影響ありサンプルのY%が検出され得る最小の観察された胎児フラクションとして決定される、請求項8~12のいずれか一項に記載の方法。
  14. 観察されたカバレッジにおける観察された胎児フラクションについての検出基準が、前記観察されたカバレッジにおける前記観察された胎児フラクションのグランドトゥルース胎児フラクションの分布を用いて取得される、請求項8~13のいずれか一項に記載の方法。
  15. 前記除外領域が、前記胎児フラクションLOD曲線の下にある、求項1~14のいずれか一項に記載の方法。
  16. 前記除外領域が、前記胎児フラクションLOD曲線及びカバレッジ閾値によって画定される、求項1~15のいずれか一項に記載の方法。
  17. 前記除外領域が、前記胎児フラクションLOD曲線及び前記カバレッジ閾値の両方の下にある、求項1~16のいずれか一項に記載の方法。
  18. 前記参照ゲノムの前記一部について、前記配列タグの前記カバレッジを決定することが、
    (i)前記参照ゲノムを複数のビンに分割することと、
    (ii)各ビンに位置合わせする配列タグの数を決定することと、
    (iii)前記参照ゲノムの前記一部におけるビン内の前記配列タグの数を使用して、前記配列タグの前記カバレッジを決定することと
    を含む、求項1~17のいずれか一項に記載の方法。
  19. 試験サンプル中の対象核酸配列のコピー数を評価するためのシステムであって、
    プロセッサと、
    (a)試験サンプルの胎児フラクション値を決定し、ここで、前記試験サンプルの前記胎児フラクションが、前記試験サンプル中の胎児由来セルフリー核酸断片の相対量を示し、
    (b)コンピュータシステムによって、前記試験サンプル中の前記セルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取り、
    (c)前記コンピュータシステムによって、前記セルフリー核酸断片の前記配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供し、
    (d)前記コンピュータシステムによって、前記参照ゲノムの少なくとも一部に対する前記配列タグのカバレッジを決定し、そして、
    (e)(d)で決定された配列タグの前記カバレッジ及び(a)で決定された前記胎児フラクションに基づいて、前記試験サンプルが除外領域内にあると判定し、ここで、前記除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、ここで、前記胎児フラクションLOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要な最小胎児フラクション値を示す
    ために、前記プロセッサ上で実行するための命令を記憶した1つ以上のコンピュータ可読記憶媒体と
    を含む、システム。
  20. コンピュータシステムの1つ以上のプロセッサによって実行されるとき、前記コンピュータシステムが
    (a)試験サンプルの胎児フラクション値を決定し、ここで、前記試験サンプルの前記胎児フラクションが、前記試験サンプル中の胎児由来セルフリー核酸断片の相対量を示し、
    (b)前記コンピュータシステムによって、前記試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取り、
    (c)前記コンピュータシステムによって、前記セルフリー核酸断片の前記配列リードを、対象配列を含む参照ゲノムに位置合わせし、それによって配列タグを提供し、
    (d)前記コンピュータシステムによって、前記参照ゲノムの少なくとも一部に対する前記配列タグのカバレッジを決定し、そして、
    (e)(d)で決定された配列タグの前記カバレッジ及び(a)で決定された前記胎児フラクションに基づいて、前記試験サンプルが除外領域内にあると判定し、ここで、前記除外領域が、少なくとも胎児フラクション検出限界(LOD)曲線によって画定され、ここで、前記胎児フラクションLOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要な最小胎児フラクション値を示す
    ようにさせる、プログラムコード
    を記憶する非一時的機械可読媒体を備えるコンピュータプログラム製品。
JP2021517942A 2019-06-03 2020-06-02 検出限界ベースの品質管理メトリック Active JP7506060B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962856651P 2019-06-03 2019-06-03
US62/856,651 2019-06-03
PCT/US2020/035787 WO2020247411A1 (en) 2019-06-03 2020-06-02 Limit of detection based quality control metric

Publications (3)

Publication Number Publication Date
JP2022534634A JP2022534634A (ja) 2022-08-03
JPWO2020247411A5 JPWO2020247411A5 (ja) 2022-10-26
JP7506060B2 true JP7506060B2 (ja) 2024-06-25

Family

ID=71842782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021517942A Active JP7506060B2 (ja) 2019-06-03 2020-06-02 検出限界ベースの品質管理メトリック

Country Status (7)

Country Link
US (1) US20210366569A1 (ja)
EP (1) EP3977459A1 (ja)
JP (1) JP7506060B2 (ja)
KR (1) KR20220013349A (ja)
AU (1) AU2020286376A1 (ja)
CA (1) CA3115513A1 (ja)
WO (1) WO2020247411A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3179883A1 (en) * 2020-12-02 2022-06-09 Illumina Software, Inc. System and method for detection of genetic alterations

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016526879A (ja) 2013-05-24 2016-09-08 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲性評価のための方法および処理
JP2016533173A (ja) 2013-06-21 2016-10-27 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲的評価のための方法および処理
US20170275689A1 (en) 2016-03-22 2017-09-28 Counsyl, Inc. Combinatorial DNA Screening
US20170316150A1 (en) 2014-10-10 2017-11-02 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007145612A1 (en) 2005-06-06 2007-12-21 454 Life Sciences Corporation Paired end sequencing
CA2668818C (en) 2006-10-10 2018-06-26 Xenomics, Inc. Compositions, methods and kits for isolating nucleic acids from body fluids using anion exchange media
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
US10095831B2 (en) * 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
GB2612911B (en) * 2019-02-14 2023-11-22 Mirvie Inc Methods and systems for determining a pregnancy-related state of a subject

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016526879A (ja) 2013-05-24 2016-09-08 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲性評価のための方法および処理
JP2016533173A (ja) 2013-06-21 2016-10-27 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲的評価のための方法および処理
US20170316150A1 (en) 2014-10-10 2017-11-02 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20170275689A1 (en) 2016-03-22 2017-09-28 Counsyl, Inc. Combinatorial DNA Screening

Also Published As

Publication number Publication date
AU2020286376A1 (en) 2021-04-22
EP3977459A1 (en) 2022-04-06
JP2022534634A (ja) 2022-08-03
CN112823391A (zh) 2021-05-18
US20210366569A1 (en) 2021-11-25
CA3115513A1 (en) 2020-12-10
KR20220013349A (ko) 2022-02-04
WO2020247411A1 (en) 2020-12-10

Similar Documents

Publication Publication Date Title
CN106795558B (zh) 检测胎儿亚染色体非整倍性和拷贝数变异
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
CN107077537B (zh) 用短读测序数据检测重复扩增
AU2014281635B2 (en) Method for determining copy number variations in sex chromosomes
JP2021035393A (ja) 染色体提示の決定
AU2018375008B2 (en) Methods and systems for determining somatic mutation clonality
JP7009516B2 (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
KR20200010464A (ko) 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
JP7506060B2 (ja) 検出限界ベースの品質管理メトリック
CN112823391B (zh) 基于检测限的质量控制度量
US20220170010A1 (en) System and method for detection of genetic alterations

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230522

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20231208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240613