JP2023552015A - 遺伝子変異を検出するためのシステム及び方法 - Google Patents

遺伝子変異を検出するためのシステム及び方法 Download PDF

Info

Publication number
JP2023552015A
JP2023552015A JP2022574704A JP2022574704A JP2023552015A JP 2023552015 A JP2023552015 A JP 2023552015A JP 2022574704 A JP2022574704 A JP 2022574704A JP 2022574704 A JP2022574704 A JP 2022574704A JP 2023552015 A JP2023552015 A JP 2023552015A
Authority
JP
Japan
Prior art keywords
nucleic acid
sample
sequencing
fetal
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022574704A
Other languages
English (en)
Inventor
サラ エル. キニングス,
コスミン デシウ,
マイケル メーハン,
Original Assignee
イルミナ ソフトウェア, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ ソフトウェア, インコーポレイテッド filed Critical イルミナ ソフトウェア, インコーポレイテッド
Publication of JP2023552015A publication Critical patent/JP2023552015A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1096Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Selective Calling Equipment (AREA)
  • Circuits Of Receivers In General (AREA)
  • Hardware Redundancy (AREA)

Abstract

開示された技術は、より有益な試験結果を得るためにサンプルを再分析するための自動流体処理システム及び自動シーケンシング方法に関する。一実施形態では、標的変異を特定するためにサンプル核酸を処理する方法は、サンプル特異性を決定するために第1のシーケンシング反応を実行することを含む。方法は、第1のシーケンシング反応からの標的変異についての第1のリードカバレッジが閾値を超えるか又は閾値未満であるかどうかを判定するための統計的尺度を決定することを更に含む。判定した第1のリードカバレッジが閾値を超えない場合、方法は、第2のシーケンシング反応を実行するのに十分な量のサンプル核酸が利用可能であるかどうかを判定して、閾値を超えてリードカバレッジを増加させることを更に含む。

Description

関連出願の相互参照
本出願は、2020年12月2日に出願された米国特許仮出願第63/120636号の優先権を主張し、その内容はその全体が参照により組み込まれる。
開示された技術は、遺伝子変異の非侵襲的評価のための自動化された方法及びシステムに関する。一態様では、システムは、推定遺伝子変異を有するサンプルが十分な信頼性で決定されたかどうかを判定し、そうでない場合、サンプルは再処理され得る。
関連技術の説明
生物(例えば、動物、植物及び微生物)の遺伝子情報及び遺伝子情報を複製する他の形態(例えば、ウイルス)は、デオキシリボ核酸(deoxyribonucleic acid、DNA)又はリボ核酸(ribonucleic acid、RNA)にコードされる。遺伝子情報は、化学的な又は仮説上の核酸の一次構造を表す一連のヌクレオチド又は修飾ヌクレオチドである。各遺伝子は特定のタンパク質をコードし、転写及び翻訳を介した発現後に、生細胞内の特定の生化学的機能を満たす。
ヒトの医学的研究における重要な試みの1つは、有害な健康結果をもたらす遺伝的異常を発見することである。多くの場合、特定の遺伝子及び/又は重要な診断マーカーが、異常なコピー数で存在するゲノムの部分において特定されている。例えば、出生前診断では、染色体全体の余分な又は欠落したコピーは、頻繁に発生する遺伝子病変である。癌において、染色体又は染色体セグメント全体のコピーの欠失又は増殖、及びゲノムの特定領域のより高レベルの増幅が、一般的に発生する。
多くの医学的状態は、1つ以上の遺伝子変異によって引き起こされる。特定の遺伝子変異は、例えば、血友病、サラセミア、デュシェンヌ型筋ジストロフィー(Duchenne Muscular Dystrophy、DMD)、ハンチントン病(Huntington’s Disease、HD)、アルツハイマー病、及び嚢胞性線維症(Cystic Fibrosis、CF)(Human Genome Mutations,D.N.Cooper and M.Krawczak,BIOS Publishers,1993)を含む医学的状態を引き起こす。そのような遺伝性疾患は、特定の遺伝子のDNAにおける単一ヌクレオチドの付加、置換、又は欠失から生じ得る。特定の先天性欠損は、例えば、トリソミー21(ダウン症候群)、トリソミー13(パトー症候群)、トリソミー18(エドワーズ症候群)、モノソミーX(ターナー症候群)、及び特定の性染色体異数性(例えば、クラインフェルター症候群(XXY)など)などの、異数性とも呼ばれる染色体異常によって引き起こされる。いくつかの遺伝子変異は、例えば、糖尿病、動脈硬化症、肥満、様々な自己免疫疾患及び癌(例えば、結腸直腸、乳房、卵巣、肺)などの多くの疾患のいずれかについて、個人をかかりやすくさせる、又は引き起こす場合がある。
本明細書に開示されるシステム、デバイス、キット、及び方法は各々、いくつかの態様を有し、そのうちの単独のいずれかが、単独でそれらの望ましい属性に関与するものではない。特許請求の範囲を限定することなく、ここで、いくつかの顕著な特徴を簡単に説明する。より少ない、追加の、及び/又は異なる構成要素、ステップ、特徴、物体、利益、及び利点を有する実施形態を含む、多数の他の実施形態も企図される。構成要素、態様、及びステップはまた、異なって配置及び順序付けられてもよい。この考察を考慮した後、特に「発明を実施するための形態」と題されたセクションを読み取った後、本明細書に開示されるデバイス及び方法の特徴が他の既知のデバイス及び方法よりも利点を提供する方法を理解するであろう。
一態様では、開示された技術は、標的変異を特定するためにサンプル核酸を処理する方法を提供する。方法は、サンプル特異性標的変異の有無を判定するために第1のシーケンシング反応を実行することを含む。方法は、サンプル特異性に基づいて、標的変異に関連する第1の統計的尺度を決定することを更に含む。方法は、第1の統計的尺度を参照することによって、第1のシーケンシング反応からの標的変異についての第1のリードカバレッジが閾値を超えるか、又は閾値未満であるかを判定することを更に含む。決定された第1のリードカバレッジが閾値を超えない場合、方法は、第2のシーケンシング反応を実行するのに十分な量のサンプル核酸が利用可能であるかどうかを判定して、閾値を超えてリードカバレッジを増加させることを更に含む。十分な量のサンプル核酸が利用可能である場合、方法は、第2の有効リードカバレッジを得るために必要なサンプル量を計算し、サンプル核酸を再シーケンシングして、閾値を超える第2のリードカバレッジを得ることを更に含む。別の態様では、開示された技術は、標的変異を特定するためにサンプル核酸を処理するシステムを提供する。システムは、サンプル核酸をシーケンシングするように構成されたシーケンサを含む。システムは、本明細書に開示される方法のうちのいずれかを実行するためにシーケンサを制御するように構成されたプロセッサを更に含む。システムは、プロセッサと動作可能に接続されたメモリを更に含む。
本明細書で開示するシステムの任意の特徴を、任意の所望の様式及び/又は構成で組み合わせることができることを理解されたい。更に、本明細書で開示する方法の任意の特徴を、任意の所望の様式で組み合わせることができることを理解されたい。更に、方法及び/若しくはシステムの特徴の任意の組み合わせを一緒に使用することができ、かつ/又は本明細書に開示される実施例のいずれかと組み合わせることができることを理解されたい。
以下でより詳細に考察される前述の概念及び追加の概念の全ての組み合わせが、本明細書に開示される発明の主題の一部であると考えられ、本明細書に記載される便益及び利点を実現するために使用されてもよいことを理解されたい。
本明細書の実施例はヒトに関し、言語は主にヒトに関するものを対象としているが、本明細書に記載された概念は、任意の植物又は動物からのゲノムに適用可能である。本開示のこれらの並びにその他の目的及び特徴は、以下の説明及び添付の特許請求の範囲からより完全に明らかとなる、又は以下に記載される本開示の実施によって学習されてもよい。
本開示の例の特徴は、以下の詳細な説明及び図面を参照することにより明らかになろう。図面において、同様の参照番号は、類似なものではあるが、おそらく同一ではない構成要素に対応している。簡潔にするために、前述の機能を有する参照番号又は特徴は、それらが現れる他の図面と関連させて記載してもよく、記載しなくてもよい。
試験サンプルを自動流体処理、ヌクレオチドシーケンシング、及び再分析するためのシステムの一実施形態を示すブロック図である。 図1に示すシステムに対応する様々な動作を実行するためのオプションを示すチャートである。 図1に示すシステムの一部として使用可能な例示的なコンピュータシステムを示すブロック図である。 標的変異を特定するためにサンプルを処理する例示的な方法を示すフローチャートである。 図4に示す方法に適合する更なる方法ステップを示すフローチャートである。 ディジョージ症候群の有効リードカバレッジ(effective read coverage、ERC)の異なるレベルでの胎児分画の関数としての対数尤度比(log-likelihood ratio、LLR)のシミュレーション結果を示す線グラフである。 胎児分画の関数として所望のLLRを達成するための最小ERCを示す線グラフである。 正常なサンプル及び第1のシーケンシング反応後のディジョージ症候群を有するサンプルについて胎児分画の関数としてのLLRのシミュレーション結果を示すチャートである。 図7の同じシミュレーション結果の上で、再シーケンシング後にLLRカットオフがどのように適用されるかの図を示すチャートである。
全ての特許、特許出願、及び他の刊行物は、これらの文献に開示され、本明細書で言及される全ての配列を含めて、各公開物、特許、又は特許出願が参照により組み込まれることが具体的かつ個別に示されているのと同程度に、参照により本明細書に明示的に組み込まれる。引用された全ての文献は、関連部分において、本明細書の引用の文脈によって示される目的のために、参照により全文が本明細書に組み込まれる。しかしながら、いずれの文献の引用も、それが本開示に対する先行技術であることを容認するものとして解釈されるべきではない。
例えば、非侵襲性出生前診断(non-invasive prenatal testing、NIPT)、核型分析、微小欠失のコーリング、セルフリー核酸断片を含む試験サンプルの処理、コピー数多型を決定するためのセルフリーDNA断片サイズの使用、品質管理のための検出限界の使用、並びに遺伝性疾患、癌、神経系疾患、及び自己免疫疾患に関連する遺伝子異常のリストなどの遺伝的変異の非侵襲的評価を実行することに関する詳細は、米国特許第10,095,831号、同第10,643,738号、米国特許出願公開第2017/0351811号、同第2016/0224724号、及び国際出願PCT/US2020/035787号に記載されおり、その開示は全体が参照により本明細書に組み込まれる。
概要
液体生検は、対象となる分析物と他の分析物との混合物である生体サンプルを分析することを含む。例えば、非侵襲的出生前診断では、母体血漿サンプルは、セルフリー胎児DNA及び母体DNAの両方を含有し得る。癌診断では、患者の血液サンプルは、循環腫瘍DNA及び正常なDNAの両方を含有し得る。混合物であるサンプルは、例えば、胎児が特定の医学的状態を有するかどうかを決定するための次世代シーケンシング技術を使用する場合の診断の感度及び特異性に影響を及ぼす。しかしながら、感度及び特異性は、サンプルを再分析するために反射分析を行うことによって改善することができ、シーケンシング深度は、特定のマーカー又は一塩基多型(SNP)のコーリングの正確な予測を行うのに十分ではない場合がある。
本発明の一実施形態は、より有益な試験結果を得るためにサンプルを自動的に再分析するためのシステム又は方法である。例えば、システムは、第1のシーケンシングラウンドを実行して、特定の遺伝子マーカーの有無を判定し、次いで、サンプルの所望の有効リードカバレッジ(ERC)に達したかどうかを計算することができる。所望のERCに到達していない場合、システムは、十分な量の生体サンプルが残っているかどうかを判定して、サンプルの閾値ERCに到達するために追加のシーケンシング反応を行う。十分な量のサンプルが残っている場合、システムは、どの程度のサンプルが必要かを決定し、計算されたサンプル量に対応する値を出力ファイルに出力する。一実施形態では、その出力ファイルをシステムによって読み取って、自動流体処理システムに指示して、所望の量の残りのサンプルを取り出し、閾値ERCに達するまで次世代シーケンシング(NGS)の別のラウンドのためのフローセル混合物に入れることができる。したがって、開示された技術は、サンプルの残りの再分析がサンプル内の遺伝情報のリードカバレッジを改善することができるかどうかを予測することに関連し、したがって、サンプルに対してシーケンシングの第2のラウンドが行われた場合に、試験結果にどの程度有益であり得るかを潜在的に改善する。
セルフリー核酸からの遺伝子変異の検出
1つ以上の遺伝子変異又は遺伝分散を特定することにより、特定の医学的状態の診断、又はそのなりやすい体質を判定できるようになり得る。遺伝分散を特定することは、医学的決定を容易にすること、及び/又は有用な医療処置を用いることをもたらし得る。比較的短時間でゲノム全体のシーケンシングを可能にする技術の出現、及び循環セルフリーDNA(cfDNA)の発見は、侵襲的なサンプリング方法に関連するリスクなしに、1つの染色体に由来する遺伝物質を、別の染色体由来の遺伝物質と比較する機会を提供しており、これが、対象遺伝子配列の様々な種類のコピー数多型を診断するためのツールを提供する。非侵襲的出生前診断では、母体血漿サンプルは、セルフリー胎児DNA及び母体DNAの両方を含有し得る。癌診断では、患者の血液サンプルは、循環腫瘍DNA及び正常なDNAの両方を含有し得る。
母体血漿中の胎児DNAの存在は、非侵襲的出生前診断に刺激的な可能性を切り開いた。最近、出生前診断目的のために循環胎児DNAを分析するための超並列シーケンシング(massively parallel sequencing、MPS)の使用に対してのかなりの関心がある。例えば、胎児トリソミー21、13、18、及び選択された性染色体異数性は、母体血漿DNA上でMPSを使用して検出され、臨床サービスに急速に導入されている。染色体全体に関わるコピー数多型に起因する異常に加えて、亜染色体の欠失又は重複を検出するための母体血漿のMPSベースの分析などの他の異常は、有用であり得る。いくつかの実施形態では、開示された技術は、次世代シーケンシング技術を使用して、胎児がある医学的状態を有するかどうか(例えば、胎児がディジョージ症候群又はダウン症候群を示す遺伝子シグネチャを有するかどうか)を判定する。
特定の実施形態では、1つ以上の遺伝子変異又は遺伝分散の特定は、セルフリーDNAの分析を伴う。セルフリーDNA(Cell-free DNA、cfDNA)は、細胞死に由来するDNA断片で構成され、末梢血中で循環する。高濃度のcfDNAは、癌、外傷、火傷、心筋梗塞、脳卒中、敗血症、感染、及び他の病気などの特定の臨床的状態を示し得る。更に、セルフリー胎児DNA(cell-free fetal DNA、cffDNA)は、母体血流中で検出され、様々な非侵襲性出生前診断に使用され得る。
いくつかの実施形態では、コピー数多型(copy number variation、CNV)として知られる特定の遺伝子又はDNA部分のコピー数に関する情報は、構造異常の認識を可能にした細胞遺伝学的分解能(cytogenetic resolution)によって提供され得る。いくつかの実施形態では、核型の分析のための細胞を得るための、遺伝的スクリーニング及び生物学的量測定のための方法は、侵襲的処置、例えば、羊水穿刺、臍帯穿刺、又は絨毛生検(chorionic villus sampling、CVS)を含む。細胞培養、蛍光in situハイブリダイゼーション(fluorescence in situ hybridization、FISH)、定量蛍光ポリメラーゼ連鎖反応(quantitative fluorescence-polymerase chain reaction、qf-PCR)、及びアレイ比較ゲノムハイブリダイゼーション(array-comparative genomic hybridization、アレイ-CGH)が、コピー数多型の分析のための分子細胞遺伝法として開発されてきた。
胎児cfDNA断片の平均長は、妊婦の血漿中の母体cfDNA断片よりも短いことが証明されている。母体cfDNAと胎児cfDNAとの間のこの差異が、CNV及び/又は胎児分画を判定するために、本明細書の実施態様において利用され得る。本明細書に開示される実施形態は、上記の必要性の一部を満たす。いくつかの実施形態は、ペアエンドDNAシーケンシングと連結されたPCRフリーライブラリ調製で実施され得る。いくつかの実施形態は、様々な疾患の非侵襲性の出生前診断(単数及び複数)にとって高い分析感度及び特異性を提供する。言い換えれば、母体血漿中の胎児DNA断片の長さ分布が母体DNA断片の長さ分布とは異なるという事実を考慮に入れることによって、感度及び特異性を改善することができる。同様に、患者の血液中の腫瘍DNA断片の長さ分布は、正常なDNA断片の長さ分布とは異なる。遺伝子シグネチャで検出されたDNA断片は、その長さに基づいて胎児DNA又は母体DNAとして特定することができ、したがって、胎児が医学的状態を有するかどうかを診断する際の感度及び特異性を改善する。
遺伝子変異を検出するための自動化された再シーケンシング
図1は、試験サンプルを自動流体処理、シーケンシング、及び再分析するためのシステムの一実施形態を示す。サンプル採取場所01は、妊婦又は推定癌患者などの患者から試験サンプルを取得するために使用される。次に、サンプルは、本明細書に記載されるように試験用サンプルを処理及びシーケンシングすることができる、処理及びシーケンシング位置03に提供される。位置03は、サンプルを処理するための特定のシステム、並びに処理されたサンプルをシーケンシングするための装置を含み得る。例えば、位置03は、Illumina,Inc.(San Diego、CA)によって作製されたものなどの、次世代シーケンシング(Next Generation Sequencing、NGS)シーケンシングシステムを含み得る。本明細書の他の箇所に記載されるような処理及びシーケンシングの結果は、典型的には電子形式で提供され、インターネットなどの内部又は外部ネットワーク05に提供されるヌクレオチドリードの集合である。
配列データはまた、分析及びコール生成が実行される遠隔位置07に提供され得る。この位置は、1つ以上の強力な計算デバイスを含んでもよい。場所07における計算リソースがそれらの分析を完了し、受信した配列情報からのコールを生成した後、遺伝子コール(genetic call)はネットワーク05に再中継される。いくつかの実施形態では、位置07でコールが生成されるだけでなく、関連する診断も生成され得る。次に、コール及び/又は診断は、図1に示されるように、ネットワークを横切って送信され、サンプル採取位置01に戻る。説明されるように、これは、コール又は診断を生成することに関連する種々の動作が、どのように種々の位置の間で分割され得るかにおける、多くの変形形態のうちの1つである。1つの共通のバリアントは、単一の位置で、サンプル採取並びに処理及びシーケンシングを提供することを含む。別の変形形態は、分析及びコールの生成と同じ場所で処理並びにシーケンシングを提供することを含む。
図2は、図1に記載されたシステムに対応する様々な動作を、別個の位置A、B、C又はDで実行するための選択肢を詳述する概略図である。図2に描かれる詳細な意味において、次の動作:サンプル採取、サンプル処理、シーケンシング、リード位置合わせ、コーリング、診断、並びに報告及び/又は計画策定の各々は、別個の位置で実行される。当然のことながら、これらの動作の各々は、同じ物理的な位置又は実験室でも実行され得ることが理解されるべきである。
これらの動作のいくつかをまとめる一実施形態では、サンプル処理及びシーケンシングが1つの場所で実行され、別の場所でリード位置合わせ、コーリング、及び診断が実行される。参照符号Aで特定される図2の部分を参照されたい。図2において参照符号Bで特定される別の実施態様では、サンプル採取、サンプル処理、及びシーケンシングは全て同じ場所で実行される。この実施態様では、リード位置合わせ及びコーリングが第2の場所で実行される。最後に、診断、並びに報告及び/又は計画策定が第3の場所で実行される。図2の参照符号Cで示される実施態様では、サンプル採取が第1の場所で実行され、サンプル処理、シーケンシング、リード位置合わせ、コーリング、及び診断が全て第2の場所で一緒に実行され、報告及び/又は計画策定が第3の場所で実行される。最後に、図2で参照符号Dで示される実施態様では、サンプル採取が第1の場所で実行され、サンプル処理、シーケンシング、リード位置合わせ、及びコーリングが全て第2の場所で実行され、診断、並びに報告及び/又は計画策定が第3の場所で実行される。
図1に示すシステムは、任意の好適なコンピュータシステム又はサブシステムを利用することができる。そのようなコンピュータシステム900の例を図3に示す。いくつかの実施形態では、コンピュータシステム900は、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々が内部構成要素を有するサブシステムである複数のコンピュータ装置を含むことができる。
図3に示されるコンピュータシステム900のサブシステムは、システムバス975を介して相互接続されている。ディスプレイアダプタ982に結合されたプリンタ974、キーボード978、記憶デバイス(複数可)979、モニタ976などの追加のサブシステムが示されている。I/Oコントローラ971に結合する周辺機器及び入出力(I/O)デバイスは、シリアルポート977などの当該技術分野で知られている任意の数の手段によってコンピュータシステムに接続することができる。例えば、シリアルポート977又は外部インターフェース981(例えば、イーサネット(登録商標)、Wi-Fiなど)を使用して、コンピュータシステム900をインターネットなどの広域ネットワーク、マウス入力デバイス、又はスキャナに接続することができる。システムバス975を介した相互接続は、中央プロセッサ973が各サブシステムと通信し、システムメモリ972又は記憶デバイス(複数可)979(例えば、ハードドライブ又は光ディスクなどの固定ディスク)からの命令の実行、並びにサブシステム間の情報の交換を制御することを可能にする。システムメモリ972及び/又は記憶デバイス(複数可)979は、コンピュータ可読媒体を具現化することができる。本明細書で言及されるデータのいずれも、1つの構成要素から別の構成要素に出力され得、ユーザに出力され得る。
コンピュータシステムは、例えば、外部インターフェース981によって又は内部インターフェースによって一緒に接続される、複数の同じ構成要素又はサブシステムを含むことができる。いくつかの実施形態では、コンピュータシステム、サブシステム、又は装置は、ネットワークを介して通信することができる。そのような場合、1つのコンピュータをクライアントと見なすことができ、別のコンピュータをサーバと見なすことができ、各々は同じコンピュータシステムの一部であり得る。クライアント及びサーバは各々、複数のシステム、サブシステム、又は構成要素を含むことができる。
図1に示すシステムは、図4に示すように、サンプルを処理して標的変異を識別する方法400を実施し得る。図4に示すように、方法400は、スタートブロック401から始まり、次いでブロック405に移行して、サンプルのマイクロリットルあたりの胎児分画及びリードカバレッジなどのサンプル特異性を決定するために第1のシーケンシング反応を実行する。いくつかの実施形態では、サンプル特異性を決定するために第1のシーケンシング反応を実行することは、第1のシーケンシング反応から配列リードを得て、配列リードを参照配列に位置合わせし、位置合わせ結果を得ることを含み得る。いくつかの実施形態では、参照配列は、代表的なゲノム又はトランスクリプトームの一部を含む。いくつかの実施形態では、第1のシーケンシング反応及び第2のシーケンシング反応は、次世代シーケンシングプロセスを利用する。いくつかの実施形態では、サンプル核酸は、未処理サンプルからのライブラリ調製プロセスによって生成され、ライブラリ調製プロセスは、次世代シーケンシングプロセスに対応している。いくつかの実施形態では、サンプル核酸は、宿主からの宿主核酸、及びゲストからのゲスト核酸を含み、宿主及びゲストは、同じ種、例えば、ヒトに由来する。いくつかの実施形態では、宿主核酸及びゲスト核酸は、宿主を循環するセルフリー核酸に由来する。例えば、宿主は母親であり、ゲストは胎児であり、胎児の標的変異は胎児の表現型又は胎児死亡の原因に対応する。そのような場合、標的変異は、胎児の異数性症候群、微小欠失症候群、又は微小重複症候群に対応し得る。別の例では、宿主は患者であり、ゲストは腫瘍であり、腫瘍の標的変異は、治療に対する癌の種類、ステージ、又は感受性に対応する。
ブロック405においてサンプル特異性を決定するために第1のシーケンシング反応を実行した後、方法400は次に、ブロック415に移行して、サンプル特異性に基づいて、標的変異に関連する第1の統計的尺度を計算し、第1の統計的尺度を参照することによって、第1のシーケンシング反応からの標的変異についての第1のリードカバレッジが閾値を超えるか又は閾値未満であるかを判定する。いくつかの実施形態では、第1の統計的尺度は、対数尤度比であり、対数尤度比を決定することは、第1のシーケンシング反応の結果に基づいて真陽性率を決定することであって、真陽性率が、ゲスト核酸中の標的変異を検出する頻度である、ことと、第1のシーケンシング反応の結果に基づいて偽陽性率を決定することであって、偽陽性率が、宿主核酸の標的変異を検出する頻度である、ことと、真陽性率を偽陽性率で割って、尤度比を得ることと、対数尤度比を得るために尤度比を対数変換することと、を含む。いくつかの実施形態では、真陽性率を決定すること、及び偽陽性率を決定することは、標的変異で検出された核酸が、宿主核酸であるかゲスト核酸であるかを、核酸の長さを核酸長の統計モデルと比較することによって推定することを伴い、統計モデルは、サンプル核酸が由来する方法と同様に導出された生体サンプルから経験的に決定される。
判定した第1のリードカバレッジがブロック415において閾値を超えない場合、方法400は次に、ブロック425に移行し(図5に詳述される更なる方法ステップを通して)、第2のシーケンシング反応を実行するのに十分な量のサンプル核酸が利用可能であるかどうかを判定して、閾値を超えてリードカバレッジを増加させる。いくつかの実施形態では、十分な量のサンプル核酸が第2のシーケンシング反応を実行するために利用可能であるかどうかを判定することは、RC2/V2=RC1/V1によって第2のリードカバレッジRC2を推定することを含み、式中、RC1は、決定された第1のリードカバレッジであり、V1は、第1のシーケンシング反応で使用されるサンプル核酸の体積であり、V2は、サンプル核酸の残余の体積である。推定したRC2が閾値を超える場合、第2のシーケンシング反応を実行するのに十分な量のサンプル核酸が利用可能であると判定する。
決定ブロック426で十分な量のサンプル核酸が利用可能である場合、方法400は次に、ブロック435に移行して、第2の有効リードカバレッジを得るために必要な量を計算し、サンプル核酸を再シーケンシングして、閾値を超える第2のリードカバレッジを得る。いくつかの実施形態では、サンプルを再シーケンシングすることは、第1のシーケンシング反応後にサンプル核酸の残余で第2のシーケンシング反応を実行することを含む。あるいは、決定ブロック426において、ブロック425での定量後に十分な量のサンプル核酸が利用可能ではない場合、方法400は次に、ブロック445に移行し、サンプル核酸を再シーケンシングすることが、標的変異に関して無益であることを報告する。
いくつかの実施形態では、図4の方法は、図5に示される更なる方法ステップのいくつかを含む。例えば、第1のシーケンシング反応からの標的変異についての第1のリードカバレッジが閾値を超えるか閾値未満であるかを判定するための第1の統計的尺度を決定する図4のブロック415は、図5のブロック505、525、及び535を含み得る。図5に示される方法415は、ブロック505で開始して、第1のシーケンシング反応の結果に基づいて第1の統計的尺度を決定する。決定した第1の統計的尺度が決定ブロック506でカットオフを超える場合、方法415はブロック515に移行し、標的変異の陽性所見を報告し、次いで方法415はエンドブロック546に移行する。あるいは、決定した第1の統計的尺度が決定ブロック506でカットオフを超えない場合、方法415は、ブロック525に移行して、第1のシーケンシング反応の結果に基づいて第1のリードカバレッジを決定し、次いで、ブロック535に移行して、決定した第1のリードカバレッジを閾値と比較する。任意選択的に、決定ブロック536で、決定した第1のリードカバレッジが閾値を超える場合、方法415は、ブロック545に移行して、標的変異の陰性所見を報告してもよく、次いで方法415は、エンドブロック546に移行する。あるいは、決定ブロック536において、決定した第1のリードカバレッジが閾値を超えない場合、方法415は、図4のブロック425に移行して戻ることができる。
いくつかの実施形態では、サンプル核酸の再シーケンシング後に、方法400は、更なる配列リードを得ることに移行し得る。次いで、方法400は、更なる配列リードを参照配列に位置合わせし、更なる位置合わせ結果を得ることに移行することができ、参照配列は、代表的なゲノム又はトランスクリプトームの一部を含む。次いで、方法400は、更なる位置合わせ結果に基づいて標的変異を有するように第2の統計的尺度を決定することに移行し得る。決定された第2の統計的尺度がカットオフを超えない場合、方法400は、次いで、標的変異の陰性所見を報告することに移行し得る。そうでなければ、方法400は、次いで、標的変異の陽性所見の報告に移行し得る。
LLRカットオフは、第1のシーケンシング反応後の胎児分画の関数としてLLRのシミュレーション結果を示す図7に示されている。図7に示されるサンプルは、LLRスコアが図7に示されるLLRカットオフに関して低下する場所に応じて、陽性、陰性とコールされ得るか、又は反射分析のためにフラグ付けされ得る(例えば、ERC<必要ERCの場合)。LLRスコアに反射分析のためにフラグ付けすることができるが、ERC>必要ERCであるサンプルについては、それらのLLRスコアは陰性と呼ばれることになり、反射分析のためにフラグ付けされない。LLRスコアが反射分析のためにフラグ付けされるサンプルについては、その残留体積を前提とした再シーケンシング反応で標的ERCを満たすことができないと判定された場合、反射されない。
図8は、図7の同じシミュレーション結果の上部で、図7に示される第1のシーケンシング反応に閾値がどのように適用されるかと比較した、再シーケンシング後にLLRカットオフがどのように適用されるかの図を示す。図8に示すように、サンプルのLLRスコアが上側LLRカットオフを超える必要ERCを達成したが、LLRスコアは依然として上側LLRカットオフを超えなかった場合、サンプルのLLRスコアは陰性と呼ばれることになる。最終LLRスコアは、再シーケンシングからの個々のスコア、又は第1のシーケンシング反応及び再シーケンシング反応の両方からのLLRスコアの合計(すなわち、「相加」LLRスコア)のいずれかであり得る。
いくつかの実施形態では、方法400のLLRカットオフは、サンプル中のゲスト核酸も宿主核酸も標的変異を含まないと仮定して、ゲスト核酸の存在量のレベルが異なるサンプルに対応する複数の配列表現を計算的に生成することと、シーケンシングが異なるリードカバレッジで実行されると仮定して、複数の配列表現から位置合わせ結果をシミュレートすることと、シミュレートされた位置合わせ結果に基づいて、存在量の各レベル及び各リードカバレッジで標的変異を有するようにゲストの第1の統計的尺度を決定することと、かかる配列表現のプリセットされた割合以上は達成することができない第1の統計的尺度の値に、カットオフを設定することと、によって設定される。
いくつかの実施形態では、方法400の閾値は、図6A及び図6Bに示されるように、サンプル核酸中のゲスト核酸が標的変異を含有することが既知であるか、又は含有すると仮定されていること、及びサンプル核酸中の宿主核酸が標的変異を含有しないことが既知であるか、又は含有しないと仮定されていることを考慮して、決定した第1の統計的尺度がカットオフを超えることを可能にする最小リードカバレッジとして設定される。いくつかの実施形態では、閾値は、標的変異の複雑さ、及びサンプル核酸中のゲスト核酸の存在量の関数である。いくつかの実施形態では、関数は、サンプル中のゲスト核酸が標的変異を含有する一方でサンプル中の宿主核酸が標的変異を含有しないと仮定して、ゲスト核酸の存在量のレベルが異なるサンプルに対応する複数の配列表現を計算的に生成することと、シーケンシングが異なるリードカバレッジで実行されると仮定して、複数の配列表現から位置合わせ結果をシミュレートすることと、シミュレートされた位置合わせ結果に基づいて、存在量の各レベル及び各リードカバレッジで標的変異を有するようにゲストの第1の統計的尺度を決定することと、標的変異について、存在量の各レベルでの閾値を、決定した第1の統計的尺度がカットオフを超えることを可能にする最小リードカバレッジに設定することと、によって得られる。いくつかの実施形態では、サンプル核酸中のゲスト核酸の存在量は、第1のシーケンシング反応の結果に基づいて、サンプル核酸中の核酸の長さ分布を得ることと、得た長さ分布を核酸長の統計モデルと比較することによって存在量を推測することと、によって推定され、統計モデルは、サンプル核酸が由来する方法と同様に導出された生体サンプルから経験的に決定される。
シーケンシングデータ分析及び診断方法
シーケンシングデータ及びそれから得られる診断の分析は、種々のコンピュータ実行アルゴリズム及びプログラムを使用して実行され得る。したがって、特定の実施形態は、1つ以上のコンピュータシステム又はその他の処理システム内に記憶された又はそれらを介して転送されたデータを含む、プロセスを採用する。本明細書に開示された実施形態はまた、これらの動作を実行するための装置に関する。本装置は、必要な目的のために特別に構築されてもよい、又はコンピュータに記憶されたコンピュータプログラム及び/若しくはデータ構造によって選択的に起動又は再構成される汎用コンピュータ(又はコンピュータのグループ)であってもよい。いくつかの実施形態では、プロセッサのグループは、列挙された分析動作の一部又は全てを協働して(例えば、ネットワーク又はクラウド算定を介して)、及び/又は並列に実行する。本明細書に記載された方法を実行するためのプロセッサ又はプロセッサのグループは、プログラム可能なデバイス(例えば、CPLD及びFPGA)などのマイクロコントローラ及びマイクロプロセッサ、並びにゲートアレイASIC又は汎用マイクロプロセッサなどのプログラム不可能なデバイスを含む種々の種類のものであってもよい。
更に、特定の実施形態は、様々なコンピュータ実行動作を実行するためのプログラム命令及び/又はデータ(データ構造を含む)を含む有形及び/又は非一時的コンピュータ可読媒体又はコンピュータプログラム製品に関する。コンピュータ可読媒体の例としては、半導体メモリデバイス、ディスクドライブなどの磁気媒体、磁気テープ、光学媒体(CD、光磁気媒体など)、並びに読み取り専用メモリデバイス(ROM)及びランダムアクセスメモリ(RAM)などの、プログラム命令を記憶及び実行するように特別に構成されたハードウエアデバイスが挙げられるが、これらに限定されない。コンピュータ可読媒体は、エンドユーザによって直接制御されてもよい、又は、媒体は、エンドユーザによって間接的に制御されてもよい。直接制御された媒体の例としては、ユーザ施設及び/又はその他の構成要素と共有されていない媒体に位置する媒体が挙げられる。間接的に制御された媒体の例としては、外部ネットワークを介して、及び/又は、「クラウド」などの共有リソースを提供するサービスを介して、ユーザに間接的にアクセス可能な媒体が挙げられる。プログラム命令の例としては、コンパイラによって生成されるものなどの機械コード、及びインタプリタを使用してコンピュータによって実行され得るものよりも高レベルのコードを含むファイルの両方が挙げられる。
様々な実施形態では、開示された方法及び装置に用いられるデータ又は情報は、電子フォーマットで提供される。このようなデータ又は情報は、核酸サンプルに由来するリード及びタグ、参照配列の特定の領域と位置合わせされる(例えば、染色体又は染色体セグメントに位置合わせされる)上記タグのカウント又は密度、参照配列(単独又は主に多型を提供する参照配列を含む)、染色体及びセグメント量、異数性コールなどのコール、正規化染色体及びセグメント値、染色体又はセグメントと対応する正規化染色体又はセグメントの対、カウンセリング推奨、診断などを含むことができる。本発明で使用する場合、電子形式で提供されるデータ又はその他の情報は、機械上での記憶及び機械間の送信のために利用可能である。従来、電子形式のデータはデジタル的に提供され、種々のデータ構造、リスト、データベースなどのビット及び/又はバイトとして記憶されてもよい。データは、電子的、光学的などに具現化されてもよい。
一実施形態は、試験サンプルにおける異数性、例えば、胎児異数性又は癌の有無を示す出力を生成するためのコンピュータプログラム製品を提供する。コンピュータ製品は、染色体異常を判定するための上記の方法のうちのいずれか1つ以上を実行するための命令を含んでもよい。上述したように、コンピュータ製品は、プロセッサが染色体量、場合によっては、胎児異数性の有無を判定できるように、コンピュータ実行可能又はコンパイル可能な論理(例えば、命令)を記録した非一時的及び/又は有形のコンピュータ可読媒体を含んでもよい。一実施例では、コンピュータ製品は、プロセッサに胎児異数性を診断させるためのコンピュータ実行可能又はコンパイル可能な論理(例えば、命令)を記録するコンピュータ可読媒体を含み、この論理は、母体生物学的サンプルからの核酸分子の少なくとも一部からシーケンシングデータを受信するための受信手順であって、当該シーケンシングデータが、計算された染色体及び/又はセグメント量を含む、受信手順と、受信されたデータから胎児異数性を分析するためのコンピュータ支援論理と、当該胎児異数性の有無又は種類を示す出力を生成するための出力手順と、を含む。
考慮中のサンプルからの配列情報は、染色体参照配列にマッピングされて、任意の1つ以上の対象染色体のそれぞれについての配列タグの数を特定し、任意の1つ以上の対象染色体のそれぞれについて、正規化セグメント配列についての配列タグの数を特定することができる。様々な実施形態では、参照配列は、例えば、リレーショナル又はオブジェクトデータベースなどのデータベースに記憶される。
ヒトが助けを借りることなく、本明細書に開示された方法の計算動作を実行することは実用的ではない、あるいは、ほとんどの場合、更に不可能である、と理解すべきである。例えば、サンプルから読み取られた単一の30bpをヒト染色体のうちのいずれか1つにマッピングすることは、計算装置の支援無しに多大な努力を要する場合がある。当然のことながら、信頼度の高い異数性コールは、一般に、1つ以上の染色体へ数千(例えば、少なくとも約10,000)又は更には数百万のリードをマッピングすることを必要とするため、問題は複雑である。
本明細書に開示される方法は、試験サンプル中の対象遺伝子配列のコピー数を評価するためのシステムを使用して実施することができる。本システムは、(a)サンプルから核酸配列情報を提供する試験サンプルから核酸を受容するためのシーケンサと、(b)プロセッサと、(c)当該プロセッサ上で実行するための命令を記憶して、任意のCNV、例えば、染色体又は部分的な異数性を特定するための方法を実行する1つ以上のコンピュータ可読記憶媒体と、を備える。
いくつかの実施形態では、本方法は、任意のCNV、例えば、染色体又は部分的異数性を特定する方法を実行するためのコンピュータ可読命令を記憶したコンピュータ可読媒体によって指示される。したがって、一実施形態は、コンピュータ実行可能命令を記憶した1つ以上のコンピュータ可読非一時的記憶媒体を含むコンピュータプログラム製品を提供し、コンピュータ実行可能命令は、コンピュータシステムの1つ以上のプロセッサによって実行されると、胎児及び母体セルフリー核酸を含む試験サンプル中の対象配列のコピー数を評価する方法をコンピュータシステムに実施させる。本方法は、(a)試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取ることと、(b)セルフリー核酸断片の配列リードを、対象配列を含む参照ゲノムに位置合わせすることによって試験配列タグを提供することであって、参照ゲノムが複数のビンに分割される、ことと、(c)試験サンプル中に存在するセルフリー核酸断片のサイズを判定することと、(d)タグが得られるセルフリー核酸断片のサイズに基づいて、試験配列タグを重み付けすることと、(e)(d)の重み付けしたタグに基づいてビンのカバレッジを計算することと、(f)計算したカバレッジから対象配列におけるコピー数多型を特定することと、を含む。いくつかの実施態様では、試験配列タグに重み付けすることは、試験サンプル中の1つのゲノムのサイズ又はサイズ範囲特性のセルフリー核酸断片から得られた試験配列タグに向けてカバレッジにバイアスをかけることを含む。いくつかの実施態様では、試験配列タグに重み付けすることは、サイズ又はサイズ範囲のセルフリー核酸断片から得られたタグに1の値を割り当てることと、他のタグに0の値を割り当てることと、を含む。いくつかの実施態様では、本方法は、対象配列を含む参照ゲノムのビンにおいて、閾値よりも短い又は長い断片サイズを有する試験サンプル中のセルフリー核酸断片の量を含む断片サイズパラメータの値を判定することを更に含む。ここで、対象配列におけるコピー数多型を特定することは、断片サイズパラメータの値だけでなく、(e)で計算されたカバレッジを使用することを含む。いくつかの実施態様では、システムは、上述の様々な方法及びプロセスを使用して、試験サンプル中のコピー数を評価するように構成される。
いくつかの実施形態では、命令は、母体試験サンプルを提供するヒト被験者の患者の医療記録における染色体の量及び胎児染色体の有無などの方法に関連する情報を自動的に記録することを更に含んでもよい。患者の医療記録は、例えば、実験室、医師のオフィス、病院、健康管理施設、保険会社、又は個人医療記録ウェブサイトによって管理され得る。更に、プロセッサが実行する分析の結果に基づいて、本方法は、母体試験サンプルが採取されたヒト被験者の治療を指示、開始、及び/又は変更することを更に含んでもよい。これは、対象から採取した追加のサンプルに対して、1つ以上の追加の試験又は分析を実行することを含んでもよい。
開示された方法はまた、任意のCNV、例えば、染色体又は部分的異数性を特定するための方法を実行するように適合又は構成されたコンピュータ処理システムを使用して実行することもできる。一実施形態は、本明細書に記載された方法を実行するように適合又は構成されたコンピュータ処理システムを提供する。一実施形態では、本装置は、本明細書の他の箇所に記載される配列情報の種類を取得するために、サンプル中の核酸分子の少なくとも一部をシーケンシングするように適合又は構成されたシーケンシング装置を含む。装置はまた、サンプルを処理するための構成要素を含んでもよい。このような構成要素は、本明細書のその他の箇所に記載されている。
配列又はその他のデータは、コンピュータに入力することができる、又は直接的若しくは間接的にのどちらかで、コンピュータ可読媒体上に記憶されてもよい。一実施形態では、コンピュータシステムは、サンプルから核酸配列を読み取る及び/又は分析するシーケンシングデバイスに直接連結される。このようなツールからの配列又はその他の情報は、コンピュータシステム内のインターフェースを介して提供される。あるいは、システムによって処理された配列は、データベース又はその他のリポジトリなどの配列記憶ソースから提供される。処理装置が利用可能になると、メモリデバイス又は大容量記憶デバイスは、核酸の配列を少なくとも一時的に緩衝又は保存する。加えて、メモリデバイスは、種々の染色体又はゲノムなどのタグ数を記憶してもよい。メモリはまた、配列又はマップされたデータの提示を分析するための種々のルーチン及び/又はプログラムを記憶してもよい。このようなプログラム/ルーチンは、統計分析を実行するためのプログラムなどを含んでもよい。
一実施例では、使用者は、シーケンシング装置にサンプルを提供する。データは、コンピュータに接続されたシーケンシング装置によって収集及び/又は分析される。コンピュータ上のソフトウエアは、データ収集及び/又は分析を可能にする。データは、記憶され、(モニタ又はその他の同様のデバイスを介して)表示され、及び/又は別の場所に送信され得る。コンピュータは、遠隔ユーザ(例えば、医師、科学者、又は分析医)によって利用されるハンドヘルドデバイスにデータを送信するために使用されるインターネットに接続されてもよい。データは、送信前に記憶及び/又は分析され得ることが理解される。いくつかの実施形態では、未加工データが収集され、データを分析及び/又は記憶する遠隔ユーザ又は装置に送信される。送信は、インターネットを介して行うことができるが、衛星又は他の接続を介しても行うことができる。あるいは、データは、コンピュータ可読媒体に記憶することができ、媒体は、エンドユーザに(例えば、メールを介して)配信することができる。遠隔ユーザは、建物、都市、州、国、又は大陸を含むがこれらに限定されない、同じ又は異なる地理的位置にあることができる。
いくつかの実施形態では、方法はまた、複数のポリヌクレオチド配列(例えば、リード、タグ、及び/又は参照染色体配列)に関するデータを収集することと、データをコンピュータ又はその他の計算システムに送信することと、を含む。例えば、コンピュータは、試験室機器、例えば、サンプル採取装置、ヌクレオチド増幅装置、ヌクレオチドシーケンシング装置、又はハイブリダイゼーション装置に接続することができる。次に、コンピュータは、試験室デバイスによって集められた適用可能なデータを収集することができる。データは、任意の工程で、例えば、実時間での収集中、送信前、送信中又は送信に関連して、又は送信後に、コンピュータ上に記憶され得る。データは、コンピュータから抽出することができるコンピュータ可読媒体上に記憶することができる。収集又は記憶されたデータは、コンピュータから遠隔位置に、例えば、ローカルネットワーク又はインターネットなどの広域ネットワークを介して送信することができる。遠隔位置では、以下に記載されるように、送信されたデータに対して種々の動作を実行することができる。
本明細書に開示されるシステム、装置、及び方法において記憶、送信、分析、及び/又は操作され得る電子的にフォーマットされたデータの種類の中でも、以下のものである。
・試験用サンプル中の核酸をシーケンシングすることによって得られたリード
・リードを、参照ゲノム又はその他の参照配列(単数又は複数)に位置合わせすることによって得られるタグ
・参照ゲノム又は配列
・配列タグ密度-参照ゲノム又は他の参照配列の2つ以上の領域(典型的には染色体又は染色体セグメント)のそれぞれについてのカウント又はタグ数
・特定の対象染色体又は染色体セグメントについての正規化染色体又は染色体セグメントの識別
・対象染色体又はセグメント及び対応する正規化染色体又はセグメントから得られた染色体又は染色体セグメント(又は他の領域)の量
・影響あり、影響なし、又はコールなしのいずれかとして染色体量をコールするための閾値
・染色体量の実際のコール
・診断(コールに関連する臨床的状態)
・コール及び/又は診断から誘導される更なる試験のための推奨
・コール及び/又は診断から誘導される治療及び/又は監視計画
これらの種々の種類のデータは、別個の装置を使用して、1つ以上の場所で取得、記憶、送信、分析、及び/又は操作されてもよい。処理オプションは、広域スペクトルに及ぶ。スペクトルの一方の端部において、この情報の全て又は多くは、試験用サンプルが処理される場所、例えば医師の診察室又はその他の臨床設定で保管及び使用される。その他の極端な場合、サンプルは1つの場所で取得され、異なる場所で処理され、所望によりシーケンシングされ、リードは位置合わせされ、1つ以上の異なる場所でコールが行われ、更に別の場所(サンプルが得られた場所であり得る)で診断、推奨、及び/又は計画が準備される。
様々な実施形態では、リードはシーケンシング装置で生成され、次いで、遠隔場所に送信されて、そこで処理されて異数性コールを生成する。この遠隔場所では、一例として、リードが、参照配列に位置合わせされてタグを生成し、このタグがカウントされ、対象染色体又はセグメントに割り当てられる。また、遠隔場所では、カウントは、関連する正規化染色体又はセグメントを使用して量に変換される。更に、遠隔場所では、この量を使用して、異数性コールを生成する。
個々の場所で採用され得る処理動作は、以下の通りである。
・サンプル採取
・シーケンシングの予備的サンプル処理
・シーケンシング
・配列データを分析し、異数性コールを導出する
・診断
・診断及び/又はコールを患者又は医療提供者へ報告する
・更なる処理、試験、及び/又は監視のための計画を策定する
・計画を実行する
・カウンセリング
これらの動作のうちの任意の1つ以上は、本明細書のその他の箇所に記載されるように自動化されてもよい。典型的には、配列データをシーケンシング及び分析し、異数性を導出することは、計算で実行される。その他の動作は、手動で又は自動的に実行されてもよい。
サンプル採取が実行され得る場所の例としては、健康施術者のオフィス、診療所、患者の家(サンプル採取ツール又はキットが提供される場合)、及び移動医療車両が挙げられる。シーケンシング前のサンプル処理が実行され得る場所の例としては、健康施術者のオフィス、診療所、患者の家(サンプル処理装置又はキットが提供される)、移動医療車両、及び異数性分析提供者の施設が挙げられる。シーケンシングが実行され得る場所の例としては、健康施術者のオフィス、診療所、医療専門家のオフィス、診療所、患者の家(サンプルシーケンシング装置及び/又はキットが提供される)、移動医療車両、及び異数性分析提供者の施設が挙げられる。シーケンシングが実行される場所には、電子フォーマットで配列データ(典型的には、リード)を送信するための専用ネットワーク接続が提供され得る。このような接続は有線又は無線であってもよく、処理部位への送信前にデータを処理及び/又は集約することができる部位にデータを送信するように構成されてもよい。データアグリゲータは、健康管理機関(HMO)などの健康機関によって管理され得る。
分析及び/又は導出操作は、前述の場所のうちのいずれかで、あるいは、核酸配列データを解析及び/又は分析するためのサービス専用の更なる遠隔サイトで実行されてもよい。このような場所としては、例えば、汎用サーバファームなどのクラスタ、異数性分析サービス事業の施設などが挙げられる。いくつかの実施形態では、分析を実行するために採用される計算装置は、リース又はレンタルされる。計算リソースは、通称クラウドとして知られる処理リソースなどの、インターネットアクセス可能なプロセッサの集合の一部であってもよい。場合によっては、計算は、互いに関連するか又は関連しないプロセッサの並列又は大並列群によって実行される。処理は、クラウドコンピューティング、グリッドコンピューティングなどの分散処理を使用して達成され得る。このような実施形態では、計算リソースのクラスタ又はグリッドは、本明細書に記載される分析及び/又は導出を実行するために一緒に動作する複数のプロセッサ又はコンピュータから構成される超仮想コンピュータを集合的に形成する。これらの技術並びにより伝統的なスーパーコンピュータを用いて、本明細書に記載されるような配列データを処理することができる。それぞれは、プロセッサ又はコンピュータ上に依存する並列計算の形態である。グリッドコンピューティングの場合、これらのプロセッサ(多くの場合、コンピュータ全体)は、イーサネット(登録商標)などの従来のネットワークプロトコルによって、ネットワーク(プライベート、パブリック、又はインターネット)を介して接続される。対照的に、スーパーコンピュータは、ローカル高速コンピュータバスによって接続された多くのプロセッサを有する。
特定の実施形態では、診断(例えば、胎児がダウン症候群を有するか、又は患者が特定の種類の癌を有する)は、分析動作と同じ場所で生成される。他の実施形態では、別々の場所で実行される。いくつかの例では、診断の報告は、サンプル採取場所で行われるが、そうである必要はない。診断の生成又は報告することができ、かつ/又は計画を開発する場所の例としては、医療施術者のオフィス、診療所、コンピュータによってアクセス可能なインターネットサイト、及びネットワークへの有線又は無線接続を有する携帯電話、タブレット、スマートフォンなどの携帯デバイスが挙げられる。カウンセリングが実行される場所の例としては、医療施術者のオフィス、診療所、コンピュータ、携帯デバイスによってアクセス可能なインターネットサイトが挙げられる。
いくつかの実施形態では、サンプル採取、サンプル処理、及びシーケンシング動作は、第1の場所で実行され、分析及び導出動作は、第2の場所で実行される。しかしながら、場合によっては、サンプル採取は1つの場所(例えば、医療施術者のオフィス又は診療所)で行われ、サンプル処理及びシーケンシングは、分析及び導出が行われる場所と任意選択的に同じ場所である異なる場所で実施される。
様々な実施形態では、上記の一連の動作は、サンプル採取、サンプル処理、及び/又はシーケンシングを開始するユーザ又はエンティティによって始動され得る。1つ以上のこれらの動作が実行を開始した後、自然に続いて他の動作が行われてもよい。例えば、シーケンシング動作により、リードを自動的に収集し、処理装置に送信することができ、その後、この処理装置は、多くの場合自動的に、おそらくは更なるユーザ介入なしに、配列分析及び異数性導出動作を実行する。いくつかの実施態様では、次いで、この処理動作の結果が、おそらく診断として再フォーマットされて、情報を処理し、医療専門家及び/又は患者に報告するシステム構成要素又はエンティティに自動的に送達される。上述するように、このような情報は、おそらくはカウンセリング情報と共に、治療、試験、及び/又はモニタリング計画を生成するように自動的に処理することもできる。したがって、早期に段階操作を開始することで、医療専門家、患者、又は他の関係者に対して、身体的状態に作用するのに有用な診断、計画、売り手、及び/又は他の情報を提供するエンドツーエンドシーケンスを開始することができる。これは、システム全体の一部が物理的に分離され、場合によっては、サンプル及び配列装置などの場所から遠隔に位置する場合であっても達成される。
一実施形態は、胎児及び母体の核酸を含む試験サンプル中の異数性の有無を判定する際に使用するためのシステムを提供し、このシステムは、核酸サンプルを受け取り、サンプルからの胎児及び母体の核酸配列情報を提供するシーケンサと、試験サンプルの胎児分画値を判定するように構成された1つ以上のプロセッサであって、(a)試験サンプル中の胎児由来セルフリー核酸断片の相対量を示す試験サンプルの胎児分画を判定し、(b)コンピュータシステムによって、試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取り、(c)コンピュータシステムによって、セルフリー核酸断片の配列リードを、対象配列を含む参照ゲノムに位置合わせすることによって配列タグを提供し、(d)コンピュータシステムによって、参照ゲノムの少なくとも一部に対する配列タグのカバレッジを判定し、(e)(d)で判定した配列タグ及び(a)で判定した胎児分画において判定した配列タグのカバレッジに基づいて、試験サンプルが除外領域内にあると判定し、除外領域が、少なくとも胎児分画検出限界(LOD)曲線によって画定され、胎児分画LOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要とされる最小胎児分画値を示す、ように構成された1つ以上のプロセッサと、を含む。
本明細書で提供されるシステムのいずれかの、いくつかの実施形態では、シーケンサは、次世代シーケンシング(NGS)を実行するように構成されている。いくつかの実施形態では、シーケンサは、可逆的染料ターミネータを伴う合成による配列を使用して、大規模な並列シーケンシングを実行するように構成されている。その他の実施形態では、シーケンサは、ライゲーションによるシーケンシングを実行するように構成されている。更にその他の実施形態では、シーケンサは、単一分子シーケンシングを実行するように構成されている。
本明細書で提供されるシステムのいずれかのいくつかの実施形態では、1つ以上のプロセッサが、上述の様々な方法を実行するようにプログラムされる。
本開示の別の態様は、プログラムコードを記憶する非一時的機械可読媒体を備えるコンピュータプログラム製品であって、コンピュータシステムの1つ以上のプロセッサによって実行されるとき、コンピュータシステムに、(a)試験サンプルの胎児分画値を判定させ、試験サンプルの胎児分画が、試験サンプル中の胎児由来セルフリー核酸断片の相対量を示し、(b)コンピュータシステムによって、試験サンプル中のセルフリー核酸断片をシーケンシングすることによって得られる配列リードを受け取り、(c)コンピュータシステムによって、セルフリー核酸断片の配列リードを、対象配列を含む参照ゲノムに位置合わせすることによって配列タグを提供し、(d)コンピュータシステムによって、参照ゲノムの少なくとも一部に対する配列タグのカバレッジを判定し、(e)(d)で判定した配列タグ及び(a)で判定した胎児分画において判定した配列タグのカバレッジに基づいて、試験サンプルが除外領域内にあると判定し、除外領域が、少なくとも胎児分画検出限界(LOD)曲線によって画定され、胎児分画LOD曲線が、カバレッジ値と共に変動し、様々なカバレッジを与えて検出基準を達成するために必要とされる最小胎児分画値を示すようにさせる、コンピュータプログラム製品に関する。
本明細書で提供されるシステムのいくつかの実施形態では、コンピュータプログラム製品は、上記の様々な方法を実行するために、1つ以上のプロセッサによって実行されるプログラムコードを記憶する非一時的機械可読媒体を含む。
コンピュータシステム
いくつかの実施形態では、システム及び方法は、特定の配列データ分析機能及び配列データストレージをクラウドコンピューティング環境又はクラウドベースのネットワークにシフト又は分配するためのアプローチを伴い得る。シーケンシングデータ、ゲノムデータ、又は他のタイプの生物学的データとのユーザ相互作用は、データとの様々な相互作用へのアクセスを記憶及び制御する中央ハブを介して媒介され得る。いくつかの実施形態では、クラウドコンピューティング環境はまた、プロトコル、分析方法、ライブラリ、配列データ、並びにシーケンシング、分析、及び報告のための分散処理の共有を提供し得る。いくつかの実施形態では、クラウドコンピューティング環境は、ユーザによる配列データの修正又は注釈を容易にする。いくつかの実施形態では、システム及び方法は、コンピュータブラウザ、オンデマンド、又はオンラインに実装され得る。
いくつかの実施形態では、本明細書に記載される方法を実行するように書かれたソフトウェアは、メモリ、CD-ROM、DVD-ROM、メモリスティック、フラッシュドライブ、ハードドライブ、SSDハードドライブ、サーバ、メインフレームストレージシステムなどのいくつかの形態のコンピュータ可読媒体に記憶される。
いくつかの実施形態では、方法は、様々な好適なプログラミング言語、例えば、C、C#、C、Fortran、及びJava(登録商標)などのコンパイルされた言語のいずれかで書かれ得る。他のプログラミング言語は、Perl、MatLab(登録商標)、SAS、SPSS、Python、Ruby、Pascal、Delphi、R、及びPHPなどのスクリプト言語であり得る。いくつかの実施形態では、方法は、C、C#、C++、Fortran、Java(登録商標)、Perl、R、Java(登録商標)、又はPythonで書かれている。いくつかの実施形態では、方法は、データ入力及びデータ表示モジュールを有する独立したアプリケーションであり得る。あるいは、方法は、コンピュータソフトウェア製品であり得、分散オブジェクトが、本明細書に記載の計算方法を含むアプリケーションを含むクラスを含み得る。更に、コンピュータソフトウェア製品は、コンポーネントソフトウェア製品の一部であってもよく、Illumina,Inc.(San Diego、Calif.)、Applied Biosystems and Ion Torrent(Life Technologies(Carlsbad、Calif.))、Roche 454 Life Sciences(Branford、Conn.)、Roche NimbleGen(Madison、Wis.)、Cracker Bio(Chulung、Hsinchu、Taiwan)、Complete Genomics(Mountain View、Calif.)、GE Global Research(Niskayuna、N.Y.)、Halcyon Molecular(Redwood City、Calif.)、Helicos Biosciences(Cambridge、Mass.)、Intelligent Bio-Systems(Waltham、Mass.)、NABsys(Providence、R.I.)、Oxford Nanopore(Oxford、UK)、Pacific Biosciences(Menlo Park、Calif.)によって提供されるシーケンシングシステムと関連するコンピュータ実施ソフトウェア製品、及び核酸サンプルから配列を決定するための他のシーケンシングソフトウェア関連製品が挙げられるが、これらに限定されない。
いくつかの実施形態では、方法は、シーケンシング機器に見られるような既存のデータ分析ソフトウェアに組み込まれ得る。そのようなソフトウェアの例は、CASAVAソフトウェアプログラム(Illumina,Inc.、プログラム容量の例として、その全体が本明細書に組み込まれる、CASAVA Software User Guideを参照されたい)である。本明細書に記載されるコンピュータ実施方法を含むソフトウェアは、コンピュータシステム上に直接導入されるか、又はコンピュータ可読媒体上に間接的に保持され、必要に応じてコンピュータシステム上にロードされる。更に、この方法は、サードパーティサービスプロバイダによって提供されるものなど、データが生成されている場所に対して別の場所に維持されているサーバなどで見出されるソフトウェアのような、データが生成されている場所に対してリモートであるコンピュータ上に配置され得る。
アッセイ器具、デスクトップコンピュータ、ノートPC、又はサーバは、システム及び方法の実装のための命令を含む、アクセス可能なメモリと動作上の通信を行うプロセッサを含み得る。いくつかの実施形態では、デスクトップコンピュータ又はノートPCは、1つ以上のコンピュータ可読記憶媒体又はデバイス及び/又は出力デバイスと動作上の通信を行う。アッセイ器具、デスクトップコンピュータ、及びノートPCは、Appleベースのコンピュータシステム又はPCベースのコンピュータシステムによって利用されるものなどの、多くの異なるコンピュータベースの動作言語の下で動作することができる。アッセイ器具、デスクトップ、及び/又はノートPC及び/又はサーバシステムは、実験的定義及び/若しくは条件を作成又は修正し、データ結果を閲覧し、実験進捗を監視するためのコンピュータインターフェースを更に提供することができる。いくつかの実施形態では、出力デバイスは、コンピュータモニタ又はコンピュータ画面、プリンタ、携帯情報端末(すなわち、PDA、Blackberry(登録商標)、iPhone(登録商標))などの携帯デバイス、タブレットコンピュータ(例えば、iPAD(登録商標))、ハードドライブ、サーバ、メモリスティック、フラッシュドライブなどのグラフィックユーザインターフェースであり得る。
コンピュータ可読記憶デバイス又は媒体は、サーバ、メインフレーム、スーパーコンピュータ、磁気テープシステムなどの任意のデバイスであり得る。いくつかの実施形態では、記憶デバイスは、アッセイ器具に近接する場所にオンサイトで、例えば、アッセイ器具に隣接するか、又は極めて近接して設置され得る。例えば、記憶デバイスは、アッセイ器具に関連して同じ部屋、同じ建物、隣接する建物内、建物内の同じフロア上、建物内の異なるフロア上などに、設置され得る。いくつかの実施形態では、記憶デバイスは、アッセイ器具に対してオフサイト又は遠位に設置され得る。例えば、記憶デバイスは、アッセイ器具と比較して、都市の異なる部分、異なる都市、異なる州、異なる国などに設置され得る。記憶デバイスがアッセイ器具の遠位に設置される実施形態では、アッセイ器具とデスクトップ、ノートPC、又はサーバのうちの1つ以上との間の通信は、典型的には、アクセスポイントを介した無線又はネットワークケーブルのいずれかによるインターネット接続を介している。いくつかの実施形態では、記憶デバイスは、アッセイ器具と直接関連付けられた個人又はエンティティによって維持及び管理され得るが、他の実施形態では、記憶デバイスは、典型的には、アッセイ器具と関連付けられた個人又はエンティティに対して遠位の場所で、第三者によって維持及び管理され得る。本明細書に記載の実施形態では、出力デバイスは、データを視覚化するための任意のデバイスであり得る。
アッセイ器具、デスクトップ、ノートPC、及び/又はサーバシステムは、本明細書に記載の計算方法を実行及び実装するためのコンピュータコードを組み込んだコンピュータ実装ソフトウェアプログラム、計算方法の実装で使用するためのデータなどを記憶しかつ/又は取り出すために使用され得る。アッセイ器具、デスクトップ、ノートPC、及び/又はサーバのうちの1つ以上は、本明細書に記載の計算方法を実行及び実装するためのコンピュータコードを組み込んだソフトウェアプログラム、計算方法の実装で使用するためのデータなどを記憶しかつ/又は取り出すための1つ以上のコンピュータ可読記憶媒体を含み得る。コンピュータ可読記憶媒体には、ハードドライブ、SSDハードドライブ、CD-ROMドライブ、DVD-ROMドライブ、フロッピー(登録商標)ディスク、テープ、フラッシュメモリスティック又はカードなどのうちの1つ以上が含まれ得るが、これらに限定されない。更に、インターネットを含むネットワークは、コンピュータ可読記憶媒体であり得る。いくつかの実施形態では、コンピュータ可読記憶媒体は、例えば、遠位の場所にあるローカルデスクトップ又はノートPCのコンピュータからアッセイ器具へというよりむしろ、インターネット又はサービスプロバイダによって提供される企業ネットワークを介したコンピュータネットワークによってアクセス可能な計算リソースストレージを指す。
いくつかの実施形態では、本明細書に記載されるような計算方法を実行及び実装するためのコンピュータコードを組み込んだコンピュータ実装ソフトウェアプログラム、計算方法の実装に使用するためのデータなどを記憶及び/又は取り出すためのコンピュータ可読記憶媒体は、インターネット接続又はネットワーク接続を介してアッセイ器具、デスクトップ、ノートPC、及び/又はサーバシステムと動作可能に通信するサービスプロバイダによって動作及び維持される。
いくつかの実施形態では、計算環境を提供するためのハードウェアプラットフォームは、プロセッサ時間及びランダムアクセスメモリ(すなわち、RAM)などのメモリレイアウトがシステムの考慮事項であるプロセッサ(すなわち、CPU)を含む。例えば、より小さいコンピュータシステムは、安価で、高速プロセッサ並びに大きなメモリ及び記憶機能を提供する。いくつかの実施形態では、グラフィックス処理ユニット(graphics processing units、GPU)を使用することができる。いくつかの実施形態では、本明細書に記載されるような計算方法を実行するためのハードウェアプラットフォームは、1つ以上のプロセッサを有する1つ以上のコンピュータシステムを含む。いくつかの実施形態では、より小さいコンピュータが一緒にクラスター化されて、スーパーコンピュータネットワークをもたらす。
いくつかの実施形態では、本明細書に記載されるような計算方法は、協調的に様々なオペレーティングシステムを実行することができる相互接続又は接続内コンピュータシステム(すなわち、グリッド技術)の集合体で実行される。例えば、United Devicesから入手可能なCONDORフレームワーク(University of Wisconsin-Madison)及びシステムは、多量のデータを扱う目的のための複数のスタンドアロンコンピュータシステムの協調の例示である。これらのシステムは、シリアル又は並列構成のクラスタ上で大きな配列分析ジョブをサブミット、監視、及び管理するためのPerlインターフェースを提供することができる。
シーケンシング法
いくつかの実施形態では、調製されたサンプル(例えば、シーケンシングライブラリ)は、標的変異を特定するための手順の一部としてシーケンシングされる。多数のシーケンシング技術のうちのいずれかを利用することができる。
後述するように、Affymetrix Inc.(Sunnyvale、CA)製のハイブリダイゼーションによるシーケンシングプラットフォーム、454Life Sciences(Bradford、CT)、Illumina/Solexa(Hayward、CA)、及びHelicos Biosciences(Cambridge、MA)製の合成によるシーケンシングプラットフォーム、並びにApplied Biosystems(Foster City、CA)製のライゲーションによるシーケンシングプラットフォームなどのいくつかのシーケンシング技術が市販されている。Helicos Biosciencesの合成によるシーケンシング(sequencing-by-synthesis)を使用して実行される単一分子シーケンシングに加えて、その他の単一分子シーケンシング技術としては、Pacific BiosciencesのSMRT(商標)技術、ION TORRENT(商標)技術、及び、例えば、Oxford Nanopore Technologiesにより開発されたナノ細孔シーケンシングが挙げられるが、これらに限定されない。
自動サンガー法は「第1世代」技術と見なされるが、自動サンガーシーケンシングを含むサンガーシーケンシングもまた、本明細書に記載された方法で採用することができる。更なる好適なシーケンシング法としては、核酸撮像技術、例えば、原子間力顕微鏡法(AFM)又は透過電子顕微鏡法(TEM)が挙げられるが、これらに限定されない。例示的なシーケンシング技術を、以下にて更に詳細に記載する。
1つの例示的であるが非限定的な実施形態では、本明細書に記載の方法は、Illuminaの合成によるシーケンシング及び可逆的ターミネータベースのシーケンシング化学作用(例えば、Bentley Et al.,Nature 6:53-59[2009]に記載)を用いて、試験サンプル中の核酸、例えば、母体サンプル中のcfDNA、癌に関してスクリーニングされる被験者中のcfDNA又は細胞DNAについての配列情報を取得することを含む。テンプレートDNAは、ゲノムDNA、例えば、細胞DNA又はcfDNAであり得る。いくつかの実施形態では、分離された細胞からのゲノムDNAをテンプレートとして使用し、数百個の塩基対の長さへと断片化する。その他の実施形態では、cfDNAはテンプレートとして使用されるが、断片化は、cfDNAが短い断片として存在するために必要ではない。例えば、胎児のcfDNAは、長さにして約170個の塩基対(bp)の断片として血流中で循環し(Fan et al.,Clin Chem 56:1279-1286[2010])、シーケンシング前にDNAの断片化を必要としない。Illuminaのシーケンシング技術は、断片化されたゲノムDNAの、オリゴヌクレオチドアンカーが結合される平面的な光学的に透明な表面への取り付けに依存する。テンプレートDNAを末端修復して、5’リン酸化されたブラント末端を生成し、クレノウ断片のポリメラーゼ活性を使用して、単一のA塩基を、ブラントリン酸化DNA断片の3’末端に加える。この添加は、ライゲーション効率を高めるために、それらの3’末端に単一のT塩基のオーバーハングを有するオリゴヌクレオチドアダプタにライゲーションするためのDNA断片を調整する。アダプタオリゴヌクレオチドは、フローセルのアンカーオリゴと相補的である(リピート伸長の分析においてアンカーリード/アンカー型リードと混同されない)。制限希釈条件下で、アダプタ修飾一単鎖テンプレートDNAがフローセルに添加されて、アンカーオリゴへのハイブリダイゼーションによって固定される。付着したDNA断片を伸長させ、ブリッジを増幅して、数億個のクラスタを有する超高密度シーケンシングフローセルを作製し、それぞれが同じテンプレートの約1,000個のコピーを含有する。一実施形態では、ランダムに断片化されたゲノムDNAは、クラスタ増幅を受ける前にPCRを使用して増幅される。あるいは、増幅フリー(例えば、PCRフリー)ゲノムライブラリ調製が使用され、ランダムに断片化されたゲノムDNAは、クラスタ増幅のみを用いて濃縮される(Kozarewa et al.,Nature Methods 6:291-295[2009])。テンプレートは、除去可能な蛍光色素を有する可逆的ターミネータを用いる、合成技術による強い4色のDNAシーケンシング技術(robust four-color DNA sequencing-by-synthesis technology)を使用して、シーケンシングする。高感度蛍光検出は、レーザ励起及び内部全反射光学素子を使用して達成される。約数十~数百個の塩基対の短い配列リードは、参照ゲノムに対して位置合わせされ、参照ゲノムに対する短い配列リードの固有のマッピングは、特別に開発されたデータ分析パイプラインソフトウエアを使用して特定される。第1のリードが完了した後、テンプレートをその場で再生して、断片の反対側末端から第2のリードを可能にすることができる。したがって、DNA断片のシングルエンドシーケンシング又はペアエンドシーケンシングのいずれかを使用することができる。
本開示の様々な実施形態はペアエンドシーケンシングを可能にする合成によるシーケンシングを使用してもよい。いくつかの実施形態では、Illuminaによる合成プラットフォームによるシーケンシングは、クラスタ化した断片を含む。クラスタ化は、各断片分子が等温増幅されるプロセスである。いくつかの実施形態では、本明細書に記載された例として、断片は、断片の2つの末端に取り付けられた2つの異なるアダプタを有し、アダプタは、断片がフローセルレーンの表面上の2つの異なるオリゴと混成することを可能にする。断片は、断片の2つの末端に2つのインデックス配列を更に含む、又はそれに接続されるが、このインデックス配列は、マルチプレックスシーケンシングにおいて異なるサンプルを特定するための標識を提供する。いくつかのシーケンシングプラットフォームでは、シーケンシングされる断片は、インサートとも呼ばれる。
いくつかの実施形態では、Illuminaのプラットフォーム内でクラスタ化するためのフローセルは、レーンを有するスライドガラスである。各レーンは、2種類のオリゴの菌叢でコーティングされたガラスチャネルである。ハイブリダイゼーションは、表面上の2種類のオリゴのうちの1つ目によって可能になる。このオリゴは、断片の一端にある第1のアダプタに対して相補的である。ポリメラーゼは、ハイブリダイズされた断片の相補鎖を形成する。二本鎖分子は変性し、元のテンプレート鎖を洗い流される。残りの鎖は、多くのその他の残りの鎖と並行して、ブリッジ適用によってクローン的に増幅される。
ブリッジ増幅では、鎖が上方に折り畳まれ、鎖の第2の端部上の第2のアダプタ領域は、フローセル表面上の第2の種類のオリゴとハイブリダイズする。ポリメラーゼは相補鎖を生成し、二本鎖架橋分子を形成する。この二本鎖分子は変性し、2つの異なるオリゴを介してフローセルにつながれた2つの一本鎖分子をもたらす。次に、本プロセスを、数百万個のクラスタにわたって繰り返し、それを同時に発生させ、全ての断片のクローン増幅をもたらす。ブリッジ増幅後、逆鎖が切断され、洗い流されて、前方鎖のみを残す。3’末端は、望ましくないプライミングを防止するためにブロックされる。
クラスタ化後、シーケンシングは、第1のシーケンシングプライマーを伸長して第1のリードを生成することによって開始する。各サイクルでは、蛍光標識されたヌクレオチドは、成長している鎖に添加するために競合する。テンプレートの配列に基づいて1つのみが組み込まれる。各ヌクレオチドの添加後、クラスタは光源によって励起され、特徴的な蛍光信号が放出される。サイクル数は、リードの長さを決定する。発光波長及び信号強度は、塩基コールを決定する。所与のクラスタについては、全ての同一の鎖が同時に読み取られる。数億個のクラスタを、大規模な並列様式で配列する。第1のリードの完了時に、読み取られた製品を洗い流す。
2つのインデックスプライマーを含むプロトコルの次の工程において、インデックス1プライマーを導入し、テンプレート上のインデックス1領域に混成する。インデックス領域は、マルチプレックスシーケンシングプロセスにおいて、サンプルを脱マルチプレックスするのに有用な断片の特定を提供する。インデックス1のリードは、第1のリードと同様に生成される。インデックス1のリードが完了した後、読み取られた製品を洗い流し、鎖の3’末端を脱保護する。次に、テンプレート鎖は、フローセル上の第2のオリゴの上に折り重なり、第2のオリゴに結合する。インデックス2の配列は、インデックス1と同じ方法で読み取られる。次に、工程の完了時にインデックス2のリード製品を洗い流す。
2つのインデックスを読み取ると、リード2はまず、ポリマーを使用して第2のフローセルオリゴを伸長させて、二本鎖ブリッジを形成する。この二本鎖DNAは変性し、3’末端が遮断される。元の順方向鎖を切断して洗い流し、逆鎖を残す。リード2は、リード2のシーケンシングプライマーの導入から始まる。リード1と同様に、所望の長さが達成されるまで、シーケンシング工程が繰り返される。リード2の製品を洗い流す。この全プロセスは、全ての断片を表す、数百万個のリードを生成する。プールサンプルライブラリからの配列は、サンプル調製中に導入された固有の指数に基づいて分離される。各サンプルについて、類似の伸長の塩基コールのリードが局所的にクラスタ化される。順方向及び逆方向のリードを対にして連続配列を作成する。これらの連続配列は、バリアント特定のために参照ゲノムに位置合わせされる。
上記の合成例によるシーケンシングは、開示された方法の多くの実施形態で使用される、ペアエンドリードを含む。対になった末端配列は、断片の2つの末端からの2つのリードを含む。一対のリードが参照配列にマッピングされると、2つのリード間の塩基対距離を判定することができ、次いで、その距離を使用して、リードを取得した断片の長を判定することができる。いくつかの例では、2つのビンをまたぐ断片では、ペアエンドリードの一方が1つのビンに位置合わせされ、他方が隣接するビンに位置合わせされる。ビンが長くなる、又はリードが短くなるほど、このことはより稀になる。様々な方法を使用して、これらの断片のビン-メンバシップを考慮することができる。例えば、それらは、ビンの断片サイズ頻度を判定する際に省略することができる、それらは、隣接するビンの両方についてカウントすることができる、それらは、2つのビンのうち、より多くの塩基対を包含するビンに割り当てることができる、又は、それらは、各ビン内の塩基対の部分に関連する重みを伴って両方のビンに割り当てることができる。
ペアエンドリードは、異なる長さのインサート(すなわち、シーケンシングされる異なる断片サイズ)を使用してもよい。本開示におけるデフォルトの意味として、ペアエンドリードは、種々のインサート長さから得られたリードを意味するために使用される。場合によっては、短インサートペアエンドリードと長インサートペアエンドリードからを区別するために、後者は嵌合ペアリードとも称される。メイトペアリードを含むいくつかの実施形態では、最初に2つのビオチン結合アダプタが、比較的長いインサート(例えば、いくつかのkb)の2つの末端に取り付けられる。次に、ビオチン結合アダプタは、インサートの2つの末端をリンクして循環分子を形成する。次に、ビオチン結合アダプタを包含する細断片は、循環分子を更に断片化することによって得ることができる。次に、反対の順序で元の断片の2つの末端を含む細断片を、上記の短いインサートのペアエンドシーケンシングと同じ手順によってシーケンシングすることができる。Illuminaのプラットフォームを用いたメイトペアシーケンシングの更なる詳細は、以下のURLでオンライン出版物に示されており、その全体が参照として本明細書に組み込まれる:https://www.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdfペアエンドシーケンシングに関する更なる情報は、ペアエンドシーケンシング方法及び装置上の材料について、米国特許第7601499号及び米国特許出願公開第2012/0,053,063号に見出すことができ、これらは参照により組み込まれる。
DNA断片のシーケンシング後、所定の長さ(例えば、100bp)の配列リードは、既知の参照ゲノムにマッピ又は配列される。位置づけられた又は位置合わせされたリード及び参照配列上のそれらの対応する位置は、タグとも呼ばれる。一実施形態では、参照ゲノム配列は、ワールドワイドウェブ上のgenome dot ucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105で利用可能なNCBI36/hg18配列である。あるいは、参照ゲノム配列は、ワールドワイドウェブ上のgenome dot ucsc dot edu/cgi-bin/hgGatewayで利用可能なGRCh37/hg19である。公開配列情報のその他の供給源としては、GenBank,dbEST,dbSTS,EMBL(the European Molecular Biology Laboratory)、及びDDBJ(日本のDNAデータベース)が挙げられる。配列を位置合わせするための多数のコンピュータアルゴリズムが利用可能であり、これには、BLAST(Altschul et al.,1990)、Blitz(MPsrch)(Sturrock & Collins,1993)、FASTA(Person & Lipman,1988)、BOWTIE(Langmead et al.,Genome Biology 10:R25.1~R25.10[2009])、又はELAND(Illumina,Inc.、an Diego,CA,USA)などを含むがこれらに限定されない。一実施形態では、血漿cfDNA分子のクローン拡張コピーの一端が、Efficient Large-Scale Alignment of Nucleotide Databases(ELAND)ソフトウェアを使用する、Illumina Genome Analyzer用のバイオインフォマティクスアライメント分析によって、シーケンシングされ処理される。
配列リードを取得するために、他のシーケンシング方法及びシステムを使用してもよい。
シーケンサ
いくつかの実施形態では、シーケンサは、Illumina(登録商標),Inc.(NovaSeq 6000、NextSeq 550、NextSeq 1000、NextSeq 2000、HiSeq 1000、HiSeq 2000、Genome Analyzers、MiSeq、HiScan、iScan、BeadExpress systems)、Applied Biosystems(商標)Life Technologies(ABI PRISM(登録商標)Sequence detection systems、SOLID(商標)System)、Roche 454 Life Sciences(FLX Genome Sequencer、GS Junior)、Applied Biosystems(商標)Life Technologies(ABI PRISM(登録商標)Sequence detection systems、SOLiD(商標)System)、又はIon Torrent(登録商標)Life Technologies(Personal Genome Machine sequencer)によって提供される。
シーケンサは、米国特許出願公開第2007/0166705号、同第2006/0188901号、同第2006/0240439号、同第2006/0281109号、同第2005/0100900号、米国特許第7,057,026号、国際公開第2005/065814号、同第2006/064199号、及び同第2007/010251号に記載されているsequencing-by-synthesis法を組み込んだものなどの任意のシーケンシング技術に従って実装され得、その開示は、その全体が参照により本明細書に組み込まれる。あるいは、ライゲーション技術によるシーケンシングは、米国特許第6,969,488号、同第6,172,218号、及び同第6,306,597号に記載されているようなシーケンサにおいて使用されてもよく、その開示は、その全体が参照により本明細書に組み込まれる。ライゲーション技術によるシーケンシングは、DNAリガーゼを使用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組み込みを識別する。いくつかの実施形態は、ナノ細孔シーケンシングを利用することができ、それによって、標的の核酸鎖又はヌクレオチドは、標的の核酸からエキソヌクレアーゼによって除去され、ナノ細孔を通過する。標的の核酸又はヌクレオチドがナノ細孔を通過するとき、それぞれの塩基種は、細孔の電気コンダクタンスの変動を測定することによって特定され得る(その開示全体が参照により本明細書に組み込まれる、米国特許第7,001,792号、Soni & Meller,Clin.Chem.53,1996-2001(2007)、Healy,Nanomed.2,459-481(2007)、及びCockroft et al.J.Am.Chem.Soc.130,818-820(2008)などに記載されている)。更なる他の実施形態は、伸長産物へのヌクレオチドの組み込み時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づくシーケンシングは、Ion Torrent(Guilford、Conn、Life Technologies子会社)から市販されている電気検出器及び関連技術、又は米国特許出願公開第2009/0026082(A1)号、同第2009/0127589(A1)号、同第2010/0137143(A1)号、又は同第2010/0282617(A1)号に記載のシーケンシング方法及びシステムを使用することができ、その各々は、その全体が参照により本明細書に組み込まれる。特定の実施形態は、DNAポリメラーゼ活性のリアルタイムモニタリングを含む方法を利用することができる。ヌクレオチドの取り込みは、フルオロフォア担持ポリメラーゼとγ-リン酸標識ヌクレオチドとの間の蛍光共鳴エネルギー移動(fluorescence resonance energy transfer、FRET)の相互作用を介して、又はこれらの開示全体が参照により本明細書に組み込まれる、例えば、Levene et al.Science 299,682-686(2003)、Lundquist et al.Opt.Lett.33,1026-1028(2008)、及びKorlach et al.Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)に記載されているようなゼロモード導波路を用いて検出することができる。他の好適な代替手法としては、例えば、蛍光インサイチューシーケンシング(fluorescent in situ sequencing、FISSEQ)、及び超並列シグネチャシーケンシング(Massively Parallel Signature Sequencing、MPSS)が挙げられる。特定の実施形態では、シーケンサのうちの1つは、Illumina(San Diego、Calif.)からのHiSeq、MiSeq、又はHiScanSQであり得る。
いくつかの実施形態では、生体サンプルは、サンプルスライドとしてシーケンサにロードされ得、撮像されて配列データを生成し得る。例えば、生体サンプルと相互作用する試薬は、撮像モジュールによって生成された励起ビームに応答して特定の波長で蛍光発光し(fluorescently)、それによって撮像のための放射線を戻す。例えば、蛍光成分は、成分の相補的分子にハイブリダイズするか、又はポリメラーゼを使用して生体サンプル中のオリゴヌクレオチドに組み込まれた蛍光タグ付きヌクレオチドにハイブリダイズする蛍光タグ付き核酸によって生成され得る。サンプルの染料が励起される波長、及びそれらが蛍光を発する波長は、特定の色素の吸収及び発光スペクトルに依存し得る。そのような戻された放射線は、撮像モジュールの指向光学系を通って伝播し得る。撮像モジュール検出光学系は、任意の好適な技術に基づいてもよく、例えば、デバイス内の場所に影響を与える光子に基づいて画素化画像データを生成する荷電結合デバイス(charged coupled device、CCD)センサであってもよい。あるいは、撮像モジュール検出光学系は、時間遅延積分(time delay integration、TDI)動作のために構成された検出器アレイ、相補金属酸化物半導体(complementary metal oxide semiconductor、CMOS)検出器、アバランシェフォトダイオード(avalanche photodiode、APD)検出器、Geiger-モード光子カウンタ、又は任意の他の適切な検出器に基づき得る。TDIモードの検出は、参照により本明細書に組み込まれる米国特許第7,329,860号に記載されているように、ライン走査と連動することができる。
生体サンプル
CNV、例えば、染色体異数体、部分的な異数体などのCNVを判定するために使用されるサンプルは、1つ以上の対象配列のコピー数多型が判定される任意の細胞、組織、又は器官から採取されたサンプルを含むことができる。望ましくは、サンプルは、「セルフリー」(例えば、cfDNA)である細胞及び/又は核酸中に存在する核酸を含有する。
いくつかの実施形態では、セルフリー核酸、例えば、セルフリーDNA(cfDNA)を得ることが有利である。セルフリーDNAを含むセルフリー核酸は、血漿、血清、及び尿を含むがそれらに限定されない生物学的サンプルから、技術分野において既知の様々な方法によって取得することができる(例えば、Fan et al.,Proc Natl Acad Sci 105:16266-16271[2008];Koide et al.,Prenatal Diagnosis 25:604-607[2005];Chen et al.,Nature Med.2:1033-1035[1996];Lo et al.,Lancet 350:485-487[1997];Botezatu et al.,Clin Chem.46:1078-1084、2000;及びSu et al.,J Mol.Diagn.6:101-107[2004]を参照されたい)。サンプル中の細胞からセルフリーDNAを分離するために、分画、遠心分離(例えば、密度勾配遠心分離)、DNA特異的沈殿、又はハイスループット細胞選別及び/又は他の分離方法を含むがこれらに限定されない様々な方法を使用することができる。cfDNAの手動分離及び自動分離のための市販のキットが入手可能である(Roche Diagnostics、Indianapolis,IN、Qiagen、Valencia,CA、Macherey-Nagel、Duren,DEl)。cfDNAを含む生物学的サンプルは、染色体異数体及び/又は様々な多型を検出することができるシーケンシングアッセイによって、トリソミー21などの染色体異常の有無を判定するためにアッセイにおいて使用されてきた。
様々な実施形態では、サンプル中に存在するcfDNAは、使用前に(例えば、シーケンシングライブラリの調製前に)特異的に又は非特異的に濃縮され得る。サンプルDNAの非特異的濃縮とは、cfDNAシーケンシングライブラリを調製する前にサンプルDNAのレベルを増加させるために使用することができる、サンプルのゲノムDNA断片のゲノム増幅全体を意味する。非特異的濃縮は、2つ以上のゲノムを含むサンプル中に存在する2つのゲノムのうちの1つの選択的濃縮であり得る。例えば、非特異的濃縮は、母体用サンプル中の胎児ゲノムを選択し、サンプル中の母体DNAに対する胎児の相対的割合を増加させる既知の方法によって得ることができる。あるいは、非特異的濃縮は、サンプル中に存在する両方のゲノムの非選択的増幅であり得る。例えば、非特異的増幅は、胎児及び母体ゲノム由来のDNAの混合物を含むサンプル中の胎児及び母体DNAの増幅であり得る。全ゲノム増幅法は、当該技術分野において既知である。変性オリゴヌクレオチドプライムPCR法(Degenerate oligonucleotide-primed PCR(DOP))、プライマー伸長PCR技術(primer extension PCR technique(PEP))、及び多置換増幅法(multiple displacement amplification(MDA))は、全ゲノム増幅法の例である。いくつかの実施形態では、様々なゲノムからのcfDNAの混合物を含むサンプルは、混合物中に存在するゲノムのcfDNAについて非濃縮である。他の実施形態では、様々なゲノムからのcfDNAの混合物を含むサンプルは、サンプル中に存在するゲノムのいずれか1つについて非特異的に濃縮される。
本明細書に記載される方法が適用される核酸(複数可)を含むサンプルは、例えば、上述のように、生物学的サンプル(「試験サンプル」)を含む。いくつかの実施形態では、1つ以上のCNVについてスクリーニングされる核酸が、数多くの周知の方法のいずれかによって精製又は単離される。
したがって、特定の実施形態では、サンプルは、精製又は単離されたポリヌクレオチドを含むか又はそれからなる、あるいは、サンプルは、組織サンプル、生物学的流体サンプル、細胞サンプルなどのサンプルを含むことができる。好適な生体液サンプルとしては、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、リンパ液、唾液、脳脊髄液、洗浄(lavage)、骨髄懸濁液、膣流、子宮頸部液、大腿骨頚部液、脳液、腹水、乳、気道、腸道及び泌尿生殖器道の分泌物、羊水、乳、及び白血球瀉血サンプルが挙げられるが、これらに限定されない。いくつかの実施形態では、サンプルは、例えば、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、唾液、又は糞便などの、非侵襲的処置によって容易に得ることができるサンプルである。特定の実施形態では、サンプルは、末梢血サンプル、又は末梢血サンプルの血漿及び/若しくは漿液分画である。その他の実施形態では、生体サンプルは、スワブ若しくはスミア、生検標本、又は細胞培養物である。別の実施形態では、サンプルは、2つ以上の生物学的サンプルの混合物であり、例えば、生物学的サンプルは、生体流体サンプル、組織サンプル、及び細胞培養サンプルのうちの2つ以上を含むことができる。本発明で使用する場合、用語「血液」、「血漿」、及び「血清」は、その分画又はその処理された部分を明示的に包含する。同様に、サンプルが生検、綿棒、スミアなどから採取される場合、「サンプル」は、生検、綿棒、スミアなどから得られる処理された分画又は部分を明示的に包含する。
特定の実施形態では、サンプルは、異なる個体からのサンプル、同じ個体又は異なる個体の異なる発育段階からのサンプル、異なる疾患のある個体からのサンプル(例えば、癌を有する個体又は遺伝障害を有する疑いがある個体)、正常な個体、個体において異なる疾患ステージで取得されたサンプル、疾患に対して異なる治療を受けた個体から取得されたサンプル、異なる環境因子に供された個体からのサンプル、病状に素因を有する個体からのサンプル、感染症剤(例えば、HIV)への曝露を有するサンプルなどを含むが、それらに限定されないソースから取得することができる。
1つの例示的であるが非限定的な実施形態では、サンプルは、妊娠した女性、例えば、妊婦から得られる、母体サンプルである。この場合、胎児における潜在的な染色体異常の早期診断を提供するために、本明細書に記載された方法を使用して、サンプルを分析することができる。母体サンプルは、組織サンプル、生体液サンプル、又は細胞サンプルであり得る。生体液としては、非限定的な例として、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、リンパ液、唾液、脳脊髄液、洗浄(lavage)、骨髄懸濁液、膣流、子宮頸部液、大腿骨頚部液、脳液、腹水、乳、気道、腸道及び泌尿生殖器道の分泌物、及び白血球瀉血サンプルが挙げられる。
別の例示的であるが非限定的な実施形態では、母体サンプルは、2つ以上の生物学的サンプルの混合物であり、例えば、生物学的サンプルは、生体流体サンプル、組織サンプル、及び細胞培養サンプルのうちの2つ以上を含むことができる。いくつかの実施形態では、サンプルは、非侵襲的処置によって容易に得ることができるサンプル、例えば、血液、血漿、血清、汗、涙、喀痰、尿、乳、痰、耳流、唾液、又は糞便などである。いくつかの実施形態では、生物学的サンプルは、末梢血サンプル、及び/又はその血漿及び血清分画である。他の実施形態では、生物学的サンプルは、スワブ又は塗抹標本、生検標本、又は細胞培養物のサンプルである。上述したように、用語「血液」、「血漿」、及び「血清」は、その分画又はその加工された部分を明示的に包含する。同様に、サンプルが生検、綿棒、スミアなどから採取される場合、「サンプル」は、生検、綿棒、スミアなどから得られる処理された分画又は部分を明示的に包含する。
特定の実施形態では、サンプルはまた、インビトロ培養された組織、細胞、又はその他のポリヌクレオチド含有供給源から得ることもできる。培養されたサンプルは、異なる培地及び条件(例えば、pH、圧力、又は温度)で維持した培養物(例えば、組織又は細胞)、異なる期間で維持した培養物(例えば、組織又は細胞)、異なる要素若しくは試薬(例えば、薬物候補、又は修飾物質)で処理した培養物(例えば、組織又は細胞)、又は異なる種類の組織及び/若しくは細胞の培養物を含むがこれらに限定されない供給源から、採取することができる。
シーケンシングのためのサンプル処理
生物学的供給源から核酸を分離する方法は、供給源の性質に応じて異なり得る。当業者であれば、本明細書に記載される方法に必要なソースから核酸を容易に単離することができる。場合によっては、核酸サンプル中の核酸分子を断片化することが有利であり得る。断片化はランダムであってもよい、又は、例えば、制限エンドヌクレアーゼ消化を使用して達成されるように、特異的であり得る。ランダムな断片化のための方法は、例えば、限定されたDNAse消化、アルカリ処理、及び物理的剪断が挙げられ得る。一実施形態では、サンプル核酸は、断片化されていないcfDNAから取得される。
一実施形態では、本明細書に記載された方法は、次世代シーケンシング技術(NGS)を利用することができ、それにより、複数のサンプルをゲノム分子として個々にシーケンシングすること(すなわち、シングルプレックスシーケンシング)、又は、単一のシーケンシングランでインデックス化されたゲノム分子を含むプールサンプルとして個々にシーケンシングすること(例えば、マルチプレックスシーケンシング)を可能にする。これらの方法は、最大で数百万個のDNA配列のリードを生成することができる。様々な
実施形態では、ゲノム核酸配列、及び/又はインデックス化されたゲノム核酸の配列は、例えば、本明細書に記載された次世代シーケンシング技術(NGS)を使用して決定することができる。様々な実施形態では、NGSを使用して取得された大量の配列データの分析は、本明細書に記載されるような1つ以上のプロセッサを使用して実行することができる。
様々な実施形態では、このようなシーケンシング技術の使用は、シーケンシングライブラリの調製を伴わない。
しかしながら、特定の実施形態では、本明細書で企図されるシーケンシング法は、シーケンシングライブラリの調製を含む。1つの例示的なアプローチでは、シーケンシングライブラリの調製は、シーケンシングされる準備が整ったアダプタ修飾DNA断片(例えば、ポリヌクレオチド)のランダムな集合の生成を含む。ポリヌクレオチドのシーケンシングライブラリは、例えば、逆転写酵素の作用によって、RNAテンプレートから生成された相補的DNA又はコピーDNAであるDNA又はcDNAなどの、DNA又はcDNAのいずれかの等価物、類似物を含む、DNA又はRNAから調製することができる。ポリヌクレオチドは、二本鎖形態(例えば、ゲノムDNA断片、cDNA、PCR増幅生成物などのdsDNAなど)において発生し得る、又は特定の実施形態では、ポリヌクレオチドは、一本鎖形態(例えば、ssDNA、RNAなど)で発生し得て、dsDNA形態に変換されている。例示として、特定の実施形態では、シーケンシングライブラリの調製に使用するのに好適な二本鎖cDNAに、一本鎖mRNA分子をコピーすることができる。一次ポリヌクレオチド分子の正確な配列は、一般に、ライブラリ調製の方法に対して重要ではなく、既知であっても未知であってもよい。一実施形態では、ポリヌクレオチド分子はDNA分子である。より具体的には、特定の実施形態では、ポリヌクレオチド分子は、生物の遺伝子相補体全体又は実質的に生物の遺伝子相補体全体を表し、ゲノムDNA分子である(例えば、細胞DNA、セルフリーDNA(cfDNA)など)が、典型的にはイントロン配列及びエクソン配列(コード配列)、並びにプロモータ及びエンハンサ配列などの非コード調節配列を含む。特定の実施形態では、一次ポリヌクレオチド分子は、ヒトゲノムDNA分子、例えば、妊娠被験者の末梢血中に存在するcfDNA分子を含む。
いくつかのNGSシーケンシングプラットフォームのシーケンシングライブラリの調製は、断片サイズの特定の範囲を含むポリヌクレオチドの使用によって促進される。このようなライブラリの調製は、典型的には、所望のサイズ範囲でポリヌクレオチドを得るための、大型のポリヌクレオチド(例えば、細胞ゲノムDNA)の断片化を伴う。
断片化は、当業者に既知の多数の方法のいずれかによって達成することができる。例えば、断片化は、噴霧化、超音波処理、及びハイドロシェアを含むがこれらに限定されない機械的手段によって、達成することができる。しかしながら、機械的断片化は、典型的には、C-O、P-O、及びC-C結合でDNA骨格を切断し、破壊されたC-O、P-O、及び/C-C結合を有するブラント末端並びに3’-及び5’-オーバーハング末端の不均一な混合物をもたらす(例えば、Alnemri and Liwack,J Biol.Chem 265:17323-17333[1990]、Richards and Boyer,J Mol Biol 11:327-240[1965]を参照)、以降の酵素反応、例えば、シーケンシングのためにDNAを調製するのに必要とされるシーケンシングアダプタのライゲーションに必須の5’リン酸塩を欠くため、修復する必要があり得る。
対照的に、cfDNAは、典型的には、約300個の塩基対未満の断片として存在し、その結果、断片化は、cfDNAサンプルを使用してシーケンシングライブラリを生成するために、典型的には必要ではない。
典型的には、ポリヌクレオチドが強制的に断片化される(例えば、インビトロで断片化される)か、又は自然に断片として存在するかどうかは、5’-リン酸及び3’-ヒドロキシルを有するブラント末端DNAに変換される。標準的なプロトコル、例えば、本明細書のその他の箇所に記載されているようなIlluminaプラットフォームを使用してシーケンシングするためのプロトコルは、末端修復されたサンプルDNAに対して、dA-テーリングの前に、末端修復された生成物を精製して、ライブラリ調製のアダプタ-ライゲーティング工程の前に、dA-テーリング生成物を精製するようにユーザに指示する。
本明細書に記載された配列ライブラリの調製方法の様々な実施形態は、NGSによりシーケンシングされ得る修飾DNA生成物を得るために、標準的なプロトコルによって典型的に命じられている工程のうちの1つ以上を実行する必要性を排除する。略される方法(ABB法)、1工程法、及び2工程法は、その全体が参照として本明細書に組み込まれる、特許出願第13/555,037号(2012年7月20日出願)に見出すことができるシーケンシングライブラリの調製方法の例である。
様々な実施形態では、サンプルの完全性の検証及びサンプル追跡は、サンプルゲノム核酸、例えば、cfDNAと、例えば処理前にサンプルに導入されている付随のマーカー核酸との混合物をシーケンシングすることによって達成することができる。
マーカー核酸は、試験サンプル(例えば、生物学的源サンプル)と組み合わされ、生物学的源サンプルを分画する工程、例えば、全血サンプルからほぼセルフリーの血漿分画を得る工程、分画された血漿など又は組織サンプルなどの未分画生物学的サンプルから核酸を生成する工程などのうちの1つ以上を含むプロセスに提供されてもよい。いくつかの実施形態では、シーケンシングは、シーケンシングライブラリを調製することを含む。ソースサンプルと組み合わされたマーカー分子の配列の配列又は配列の組み合わせは、ソースサンプルに固有であるように選択される。いくつかの実施形態では、サンプル中の固有のマーカー分子は全て同じ配列を有する。他の実施形態では、サンプル中の特異なマーカー分子は、複数の配列、例えば、2、3、4、5、6、7、8、9、10、15、20、又はそれ以上の異なる配列の組み合わせである。
一実施形態では、サンプルの完全性は、同一の配列を有する複数のマーカー核酸分子を使用して検証することができる。あるいは、サンプルの同一性は、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも50、又はそれ以上の異なる配列を有する複数のマーカー核酸分子を用いて検証することができる。複数の生物学的サンプル、すなわち、2つ以上の生物学的サンプルの完全性の検証は、2つ以上のサンプルのそれぞれを、マークされている複数の試験サンプルのそれぞれに固有の配列を有するマーカー核酸で標識する必要がある。例えば、第1のサンプルは、配列Aを有するマーカー核酸で標識することができ、第2のサンプルは、配列Bを有するマーカー核酸で標識することができる。あるいは、第1のサンプルは、全て配列Aを有するマーカー核酸分子で標識することができ、第2のサンプルは、配列B及びCの混合物で標識することができ、配列A、B、及びCは、異なる配列を有するマーカー分子である。
マーカー核酸(複数可)は、ライブラリ調製(ライブラリが調製される場合)及びシーケンシングの前の、サンプル調整の任意の段階で添加することができる。一実施形態では、マーカー分子は、未処理ソースサンプルと組み合わせることができる。例えば、マーカー核酸は、血液サンプルを採取するために使用される回収チューブ内に提供され得る。あるいは、マーカー核酸は、血液採取後に血液サンプルに添加され得る。一実施形態では、マーカー核酸は、生物学的流体サンプルを回収するために使用される容器に添加され、例えば、マーカー核酸は、血液サンプルを採取するために使用される血液採取チューブに添加される。別の実施形態では、マーカー核酸は、生物学的流体サンプルの分画に添加される。例えば、マーカー核酸は、血液サンプル、例えば、母体血漿サンプルの血漿及び/又は血清分画に添加される。更に別の実施形態では、マーカー分子は、精製サンプル、例えば、生物学的サンプルから精製された核酸のサンプルに添加される。例えば、マーカー核酸は、精製された母体及び胎児cfDNAのサンプルに添加される。同様に、マーカー核酸は、検体を処理する前に生検標本に添加することができる。いくつかの実施形態では、マーカー核酸は、マーカー分子を生物学的サンプルの細胞に送達するキャリアと組み合わせることができる。細胞送達キャリアとしては、pH感受性及びカチオン性リポソームが挙げられる。
様々な実施形態において、マーカー分子は、生物学的ソースサンプルのゲノムに存在しない配列である、抗ゲノム配列を有する。例示的な実施形態では、ヒト生物学的ソースサンプルの完全性を確認するために使用されるマーカー分子は、ヒトゲノムに存在しない配列を有する。別の実施形態では、マーカー分子は、ソースサンプル及び任意の1つ以上の他の既知のゲノムに存在しない配列を有する。例えば、ヒト生物学的源サンプルの完全性を確認するために使用されるマーカー分子は、ヒトゲノム及びマウスゲノムに存在しない配列を有する。この選択肢により、2つ以上のゲノムを含む試験サンプルの完全性を検証することができる。例えば、細菌などの病原体の影響を受けている被験者から得られたヒトセルフリーDNAサンプルの完全性は、ヒトゲノム及び影響を及ぼす細菌のゲノムの両方に存在しない配列を有するマーカー分子を使用して検証することができる。例えば、細菌、ウイルス、酵母、真菌、原生動物などの多数の病原体のゲノム配列は、ワールドワイドウェブ上のncbi.nlm.nih.gov/genomesで公的に入手可能である。別の実施形態では、マーカー分子は、任意の既知のゲノムに存在しない配列を有する核酸である。マーカー分子の配列は、アルゴリズムによりランダムに生成され得る。
様々な実施形態において、マーカー分子は、天然に生じるデオキシリボ核酸(DNA)、リボ核酸、又はペプチド核酸(PNA)、モルホリノ核酸、ロック核酸、グリコール核酸、及びトレオース核酸などの人工核酸類似体(核酸模倣体)であり得、人工核酸類似体は、ホスホジエステル骨格を有さない分子又はDNA模倣体の骨格への変化によって、天然に生じるDNA又はRNAとは区別される。デオキシリボ核酸は、天然に生じるゲノム由来であってもよく、又は酵素の使用によって、若しくは固相化学合成によって実験室で生成することができる。化学的方法を使用して、天然には見出されないDNA模倣体を生成することもできる。ホスホジエステル結合が置換されているが、デオキシリボースが保持されているDNAの誘導体は、チオホルムアセタール又はカルボキサミド結合により形成された骨格を有し、良好な構造DNA模倣体であることが立証されているDNA模倣体を含むが、これらに限定されない。他のDNA模倣体としては、モルホリノ誘導体及びペプチド核酸(PNA)が挙げられ、N-(2-アミノエチル)グリシン系疑似ペプチド骨格を含む(Ann Rev Biophys Biomol Struct 24:167-183[1995])。PNAは、DNA(又はリボ核酸[RNA])の非常に良好な構造模倣体であり、PNAオリゴマーは、ワトソンクリック相補的DNA及びRNA(又はPNA)オリゴマーを有する非常に安定的な二本鎖構造を形成することができ、また、ヘリックス侵入によって二本鎖DNA中の標的に結合することもできる(Mol Biotechnol 26:233-248[2004])。マーカー分子として使用することができるDNA類似体の別の良好な構造模倣体/類似体は、非架橋オキシゲンのうちの1つが硫黄で置換されるホスホロチオエートDNAである。この変更により、5’~3’及び3’~5’DNA POL 1エキソヌクレアーゼ、ヌクレアーゼS1及びP1、RNase、血清ヌクレアーゼ及びヘビ毒ホスホジエステラーゼなどのエンド及びエキソヌクレアーゼ2の作用が低減される。
マーカー分子の長は、同じ核酸の長と区別できても区別できなくてもよい、すなわち、マーカー分子の長は、サンプルゲノム分子の長と同様であってもよい、又はサンプルゲノム分子の長よりも大きくても小さくてもよい。マーカー分子の長は、マーカー分子を構成するヌクレオチド又はヌクレオチド類似体塩基の数によって測定される。サンプルゲノム分子の長とは異なる長を有するマーカー分子は、技術分野において既知の分離法を使用して、ソース核酸と区別することができる。例えば、マーカー及びサンプル核酸分子の長の差は、電気泳動分離、例えば、キャピラリー電気泳動によって判定することができる。サイズの区別は、マーカー及びサンプル核酸の質を定量化及び評価するのに有利であり得る。好ましくは、マーカー核酸は、ゲノム核酸よりも短く、サンプルのゲノムにマッピングされるのを除外するのに十分な長さである。例えば、ヒトゲノムに一意にマッピングするには、30塩基ヒト配列が必要とされる。したがって、特定の実施形態では、ヒトサンプルのシーケンシングに使用されるマーカー分子の長は、少なくとも30bpであるべきである。
マーカー分子の長の選択は、主に、ソースサンプルの完全性を検証するために使用されるシーケンシング技術によって判定される。シーケンシングされるサンプルゲノム核酸の長も考慮することができる。例えば、いくつかのシーケンシング技術は、ポリヌクレオチドのクローン増幅を用い、これは、クローン的に増幅されるゲノムポリヌクレオチドが最小の長さであることを必要とし得る。例えば、IlluminaのGAII配列分析器を使用するシーケンシング法は、最小長110bpを有するポリヌクレオチドの架橋PCR(クラスタ増幅としても知られる)によるインビトロでのクローン増幅を含み、これにアダプタが結合されて、少なくとも200bpの核酸及び600bp未満の核酸を提供することができる。いくつかの実施形態では、アダプタ結合マーカー分子の長は、約200bp~約600bp、約250bp~550bp、約300bp~500bp、又は約350~450である。他の実施形態では、アダプタ結合マーカー分子の長は、約200bpである。例えば、母体サンプル中に存在する胎児cfDNAをシーケンシングするとき、マーカー分子の長は、胎児cfDNA分子の長と同様に選択することができる。したがって、一実施形態では、母体サンプル中のcfDNAの超並列シーケンシングを含むアッセイにおいて使用されて、胎児染色体異数体の有無を判定するマーカー分子の長は、約150bp、約160bp、170bp、約180bp、約190bp、又は約200bpであり得る。好ましくは、マーカー分子は、約170ppである。例えば、SOLiDシーケンシング法、ポロニ-シーケンシング、及び454シーケンシングなどの他のシーケンシングアプローチは、エマルジョンPCRを使用してシーケンシングのためにDNA分子をクローナ増幅し、各技術は、増幅される分子の最小長及び最大長を指定する。クローン増幅核酸としてシーケンシングされるマーカー分子の長は、最大約600bpであり得る。いくつかの実施形態では、シーケンシングされるマーカー分子の長は、600bp超であり得る。
分子のクローン増幅を採用しない単一分子シーケンシング技術は、非常に広い範囲のテンプレート長にわたって核酸をシーケンシングすることが可能であり、ほとんどの状況では、シーケンシングされる分子が任意の特定の長であることを必要としない。しかしながら、単位質量当たりの配列の収率は、3’末端ヒドロキシル基の数に依存するため、シーケンシングのための比較的短いテンプレートを有することは、長いテンプレートを有するよりも効率的である。1000ntより長い核酸から出発する場合、核酸を100~200ntの平均長に剪断することで、より多くの配列情報を同じ質量の核酸から生成することができる。したがって、マーカー分子の長は、数十塩基~数千塩基の範囲であり得る。単一分子シーケンシングに使用されるマーカー分子の長は、最大約25bp、最大約50bp、最大約75bp、最大約100bp、最大約200bp、最大約300bp、最大約400bp、最大約500bp、最大約600bp、最大約700bp、最大約800bp、最大約900bp、最大約1000bp、又はそれ以上であり得る。
マーカー分子のために選択される長はまた、シーケンシングされるゲノム核酸の長によって判定される。例えば、cfDNAは、細胞ゲノムDNAのゲノム断片としてヒト血流中で循環する。妊婦の血漿中に見出される胎児cfDNA分子は、一般的に母体cfDNA分子よりも短い(Chan et al.,Clin Chem 50:8892[2004])。循環する胎児DNAのサイズ割合は、循環する胎児DNA断片の平均長が300bp未満であることが確認され、一方、母体DNAは、約0.5~1Kbであると推定された(Li et al.,Clin Chem,50:1002-1011[2004])。これらの所見は、NGSを使用して、胎児cfDNAが滅多に340bpを超えないと判定したFan et al.の所見と一致する(Fan et al.,Clin Chem 56:1279-1286[2010])。標準的なシリカベースの方法で尿から単離されたDNAは、剥がれた細胞に由来する高分子量DNAと、腎臓通過性DNA(Tr-DNA)の低分子量(150~250塩基対)との2分画からなる(Botezatu et al.,Clin Chem.46:1078-1084、2000;及びSu et al.,J Mol.Diagn.6:101-107、2004)。体液からセルフリー核酸と腎臓通過性核酸を単離するための新たに開発された技術の適用により、150塩基対よりもはるかに短いDNA及びRNA断片の尿中での存在が明らかになった(米国特許出願公開第20080139801号)。cfDNAがシーケンシングされるゲノム核酸である実施形態では、選択されるマーカー分子は、最大約cfDNAの長とすることができる。例えば、単一核酸分子又はクローン増幅核酸としてシーケンシングされる母体cfDNAサンプルで使用されるマーカー分子の長は、約100bp~600とすることができる。他の実施形態では、サンプルゲノム核酸は、より大きな分子の断片である。例えば、シーケンシングされるサンプルゲノム核酸は、断片化細胞DNAである。実施形態では、断片化細胞DNAがシーケンシングされると、マーカー分子の長は、最大でDNA断片の長とすることができる。いくつかの実施形態では、マーカー分子の長さは、少なくとも適切な参照ゲノムに一意的に読み取られる配列をマッピングするのに必要な最小の長さである。他の実施形態では、マーカー分子の長は、マーカー分子をサンプル参照ゲノムにマッピングすることを除外するのに必要な最小長である。
更に、マーカー分子を使用して、核酸シーケンシングによって分析されていないサンプルを検証することができ、シーケンシング以外のバイオ技術、例えばリアルタイムPCRにより検証することができる。
様々な実施形態では、例えば、上述したように、サンプルに導入されるマーカー配列は、シーケンシング及びその後の処理及び分析の精度及び有効性を検証するための陽性対照として機能することができる。
したがって、サンプル中のDNAをシーケンシングするためのプロセス内陽性対照(IPC)を提供するための組成物及び方法が提供される。特定の実施形態では、ゲノムの混合物を含むサンプル中のcfDNAをシーケンシングするための陽性対照が提供される。IPCは、異なるサンプルセット、例えば、異なるシーケンシングラン上の異なる時点でシーケンシングされるサンプルから得られた配列情報のベースラインシフトを関連付けるために使用することができる。したがって、例えば、IPCは、母体試験サンプルについて得られた配列情報を、異なる時点でシーケンシングされた適格サンプルのセットから得られた配列情報に関連付けることができる。
同様に、セグメント分析の場合、IPCは、特定のセグメント(複数可)についての被験者から得られた配列情報を、異なる時間にシーケンシングされた(類似配列の)適格サンプルのセットから得られた配列に関連付けることができる。特定の実施形態では、IPCは、特定の癌関連遺伝子座について被験者から得られた配列情報を、適格サンプルのセットから得られた配列情報(例えば、既知の増幅/欠失など)に関連付けることができる。
更に、IPCは、シーケンシングプロセスを通してサンプルを追跡するためのマーカーとして使用することができる。IPCはまた、適切な解釈を提供し、かつデータの信頼度及び正確性を確保するために、対象染色体の1つ以上の新しい染色体、例えば、トリソミー21、トリソミー13、トリソミー18の定量的陽性配列量値、例えばNCVを提供することができる。特定の実施形態では、IPCは、男性及び女性ゲノム由来の核酸を含むように作製されて、母体サンプル中のX及びY染色体の量を提供して、胎児が男性であるか否かを判定することができる。
プロセス内対照の種類及び数は、必要とされる試験の種類又は性質に依存する。例えば、ゲノムの混合物を含むサンプルからDNAをシーケンシングすることを必要とする試験については、染色体異数体が存在するか否かを判定するために、プロセス内対照は、試験されているのと同じ染色体異数性を含むことが分かっているサンプルから得られるDNAを含み得る。いくつかの実施形態では、IPCは、対象染色体の異数性を含むことが分かっているサンプルからのDNAを含む。例えば、母体用のサンプル中の胎児トリソミー、例えば、トリソミー21の有無を判定するための試験用IPCは、トリソミー21を有する個体から得られたDNAを含む。いくつかの実施形態では、IPCは、異なる異数性を有する2つ以上の個体から得られたDNAの混合物を含む。例えば、トリソミー13、トリソミー18、トリソミー21、及びモノソミーXの有無を判定する試験のために、IPCは、試験されるトリソミーのうちの1つを有する胎児を各々身ごもっている妊婦から得られたDNAサンプルの組み合わせを含む。完全染色体異数性に加えて、IPCは、部分的異数性の有無を判定する試験用の陽性対照を提供するように作成することができる。
単一の異数性を検出するための対照として機能するIPCは、1人が異数体ゲノムの提供者である2人の被験者から得られた細胞ゲノムDNAの混合物を使用して作成することができる。例えば、胎児トリソミー、例えば、トリソミー21を判定する試験用対照として作成されるIPCは、トリソーム染色体を有する男性又は女性被験者からのゲノムDNAと、トリソーム染色体を有していないことが分かっている女性被験者のゲノムDNAとを組み合わせることによって作成することができる。ゲノムDNAは、両方の被験者の細胞から抽出され、剪断されて、約100~400bp、約150~350bp、又は約200~300bpの断片を提供して、母体サンプル中の循環cfDNA断片をシミュレートすることができる。異数性、例えば、トリソミー21を有する被験者からの断片化DNAの割合を選択して、母体サンプルに見出される循環胎児cfDNAの割合をシミュレートし、異数性を有する被験者からのDNAを約5%、約10%、約15%、約20%、約25%、約30%を含む断片化DNAの混合物を含有するIPCを提供する。IPCは、それぞれが異なる異数性を有する様々な被験者からのDNAを含むことができる。例えば、IPCは、影響なし女性DNAを約80%含むことができ、残りの20%は、トリソミー染色体21、トリソミー染色体13、及びトリソミー染色体18をそれぞれ保有する3つの異なる被験者からのDNAとすることができる。断片化DNAの混合物を、シーケンシング用に調製する。断片化DNAの混合物の処理は、シーケンシングライブラリの調製を含むことができ、任意の超並列方法をシングルプレックス又はマルチプレックス式に用いてシーケンシングすることができる。ゲノムIPCのストック溶液は、複数の診断試験において保管及び使用することができる。
あるいは、IPCは、既知の染色体異数性を有する胎児を身ごもっていることが分かっている母親から得られたcfDNAを使用して作成することができる。例えば、cfDNAは、トリソミー21を有する胎児を身ごもっている妊婦から取得することができる。cfDNAが母体サンプルから抽出され、細菌ベクターにクローニングされ、細菌中で増殖されて、進行中のIPC源を提供する。DNAは、制限酵素を使用して細菌ベクターから抽出することができる。あるいは、クローン化cfDNAは、例えばPCRによって増幅され得る。IPCDNAは、染色体異数性の有無について分析される試験サンプルから、cfDNAと同じランでシーケンシングするために処理することができる。
IPCの作成は、トリソミンに関して上述されているが、IPCは、例えば、様々なセグメント増幅及び/又は欠失を含む他の部分的異数性を反映するように作成され得ることが理解されるであろう。したがって、例えば、様々な癌が特定の増幅に関連することが知られている場合(例えば、20Q13に関連する乳癌)、これらの既知の増幅を組み込むことができるIPCを作成することができる。
ゲスト核酸の存在量の決定
サンプル中の核酸の量(例えば、濃度、相対量、絶対量、コピー数など)を決定することができる。核酸中のゲスト核酸又は少数の核酸の存在量(例えば、濃度、相対量、絶対量、コピー数など)は、いくつかの実施形態において決定される。特定の実施形態では、サンプル中の少数の核酸種の量は、「少数種分画(minority species fraction)」と呼ばれる。いくつかの実施形態では、「少数種分画」は、妊娠中の女性又は他の対象から得られたサンプル(例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル)中の循環セルフリー核酸中の少数核酸種の分画を指す。
核酸中の癌細胞核酸の量(例えば、濃度、相対量、絶対量、コピー数など)は、いくつかの実施形態で決定される。特定の実施形態では、サンプル中の癌細胞核酸の量は、「癌細胞核酸の分画」と呼ばれる。いくつかの実施形態では、「癌細胞核酸の分画」は、対象から得られたサンプル(例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル)中の循環セルフリー核酸中の癌細胞核酸の分画を指す。胎児分画を決定するための本明細書に記載されるか、又は当該技術分野で既知の特定の方法は、癌細胞核酸の分画及び/又は少数種分画を決定するために使用され得る。
核酸中の胎児核酸の量(例えば、濃度、相対量、絶対量、コピー数など)は、いくつかの実施形態で決定される。特定の実施形態では、サンプル中の胎児核酸の量は、「胎児分画」と呼ばれる。いくつかの実施形態では、「胎児分画」は、妊娠中の女性から得られたサンプル(例えば、血液サンプル、血清サンプル、血漿サンプル、尿サンプル)中の循環セルフリー核酸中の胎児核酸の分画を指す。
特定の実施形態では、胎児核酸の量は、男児胎児に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS 19、DYS 385、DYS 392マーカー)、RhD陰性女性のRhDマーカー)、多型配列の対立遺伝子比に従って、又は胎児核酸に特異的かつ母体核酸に特異的でない1つ以上のマーカー(例えば、母親と胎児との間の差動エピジェネティックバイオマーカー(例えば、メチル化;以下で更に詳細に説明する)、若しくは母体血漿中の胎児RNAマーカー(例えば、Lo,2005,Journal of Histochemistry and Cytochemistry 53(3):293-296を参照))に従って決定される。
胎児核酸含有量(例えば、胎児分画)の定量は、時として、例えば、参照により本明細書に組み込まれる米国特許出願公開第2010/0105049号に記載されているように、胎児定量化アッセイ(fetal quantifier assay、FQA)を使用して行われる。このタイプのアッセイは、サンプル中の核酸のメチル化状態に基づいて、母体サンプル中の胎児核酸の検出及び定量化を可能にする。特定の実施形態では、母体サンプルからの胎児核酸の量は、存在する核酸の総量に対して決定され得、それによってサンプル中の胎児核酸の割合を提供する。特定の実施形態では、胎児核酸のコピー数は、母体サンプル中で決定され得る。特定の実施形態では、胎児核酸の量は、配列特異的(又は部分特異的(portion-specific))の様式で、時として、正確な染色体投与量分析を可能にするのに十分な感度で、決定され得る(例えば、胎児異数性、微小重複、又は微小欠失の有無を検出するため)。
胎児定量化アッセイ(FQA)は、本明細書に記載の方法のいずれかと併せて実行することができる。そのようなアッセイは、当該技術分野で既知の任意の方法によって、かつ/又は米国特許出願公開第2010/0105049号に記載されているように、例えば、異なるメチル化状態に基づいて母体DNAと胎児DNAとを区別することができる方法、及び胎児DNAの定量化(すなわち、量を決定する)などによって行うことができる。メチル化状態に基づいて核酸を区別するための方法としては、メチル化感受性キャプチャ、例えば、MBD2のメチル結合ドメインが抗体のFc断片に融合されるMBD2-Fc断片(MBD-FC)(Gebhard et al.(2006)Cancer Res.66(12):6118-28);メチル化特異的抗体;バイサルファイト変換法、例えば、MSP(methylation-sensitive PCR、メチル化感受性PCR)、COBRA、メチル化感受性単一ヌクレオチドプライマー伸長(methylation-sensitive single nucleotide primer extension、Ms-SNuPE)又はSequenom MassCLEAVE(商標)技術、及びメチル化感受性制限酵素の使用(例えば、1つ以上のメチル化感受性制限酵素を使用した母体サンプル中の母体DNAの消化、それによって胎児DNAを濃縮する)が挙げられるがこれらに限定されない。メチル感受性酵素(Methyl-sensitive enzymes)はまた、メチル化状態に基づいて核酸を区別するために使用され得、これは、例えば、後者が非メチル化である場合、それらのDNA認識配列で優先的又は実質的に切断又は消化することができる。したがって、メチル化DNAサンプルよりも非メチル化DNAサンプルはより小さな断片に切断され、過剰メチル化DNAサンプルは切断されない。明示的に述べられている場合を除いて、メチル化状態に基づいて核酸を区別するための任意の方法を、本明細書の技術の組成物及び方法と共に使用することができる。胎児DNAの量は、例えば、増幅反応中に既知の濃度で1つ以上の競合物を導入することによって決定することができる。胎児DNAの量を決定することはまた、例えば、RT-PCR、プライマー伸長、シーケンシング、及び/又はカウントすることによって行うことができる。特定の例では、核酸の量は、米国特許出願公開第2007/0065823号に記載されているように、BEAMing技術を使用して決定することができる。特定の実施形態では、限定効率を決定することができ、効率レートを使用して、胎児DNAの量を更に決定する。
特定の実施形態では、胎児定量化アッセイ(FQA)を使用して、母体サンプル中の胎児DNAの濃度を、例えば、以下の方法によって決定することができる:a)母体サンプル中に存在するDNAの総量を決定する;b)1つ以上のメチル化感受性制限酵素を使用して母体サンプル中の母体DNAを選択的に消化し、それによって胎児DNAを濃縮する;c)ステップb)からの胎児DNAの量を決定する;d)ステップc)からの胎児DNAの量をステップa)からのDNAの総量と比較し、それによって、母体サンプル中の胎児DNAの濃度を決定する。特定の実施形態では、母体サンプル中の胎児核酸の絶対コピー数は、例えば、質量分析及び/又は絶対コピー数測定のための競合PCRアプローチを使用するシステムを使用して決定され得る。例えば、その両方が参照により本明細書に組み込まれる、Ding and Cantor(2003)Proc.Natl.Acad.Sci.USA 100:3059-3064、及び米国特許出願公開第2004/0081993号を参照されたい。
特定の実施形態では、胎児分画は、多型配列(例えば、一塩基多型(SNP))の対立遺伝子比に基づいて、例えば、参照により本明細書に組み込まれる米国特許出願公開第2011/0224087号に記載されている方法などを使用して、決定することができる。そのような方法では、ヌクレオチド配列リードは、母体サンプルについて得られ、胎児分画は、参照ゲノム中の有益な多型部位(例えば、SNP)で第1の対立遺伝子にマッピングされるヌクレオチド配列リードの総数と、第2の対立遺伝子にマッピングされるヌクレオチド配列リードの総数とを比較することによって決定される。特定の実施形態では、胎児対立遺伝子は、例えば、サンプル中の胎児及び母体核酸の混合物に対する母体核酸による大きな寄与と比較した場合に、混合物に対する胎児対立遺伝子の相対的に小さな寄与によって特定される。したがって、母体サンプル中の胎児核酸の相対存在量は、多型部位の2つの対立遺伝子の各々について参照ゲノム上の標的核酸配列にマッピングされた固有の配列リードの総数のパラメータとして決定することができる。
胎児分画は、いくつかの実施形態では、例えば、国際公開第2014/055774号に記載されているような母体染色体異常に由来する情報を組み込む方法を使用して決定することができ、これは、参照により本明細書に組み込まれる。胎児分画は、いくつかの実施形態では、例えば、米国特許出願公開第2013-0288244号に記載されているような性染色体由来の情報を組み込む方法を使用して決定することができ、これは、参照により本明細書に組み込まれる。
胎児分画は、いくつかの実施形態において、フラグメント長情報(例えば、参照により本明細書に組み込まれる国際公開第2013/177086号に記載されているようなフラグメント長比(fragment length ratio、FLR)分析、胎児比統計量(fetal ratio statistic、FRS)分析)を組み込む方法を使用して決定することができる。セルフリー胎児核酸断片は、一般に、母細胞由来の核酸断片よりも短い(例えば、Chan et al.(2004)Clin.Chem.50:88-92;Lo et al.(2010)Sci.Transl.Med.2:61ra91を参照されたい)。したがって、いくつかの実施形態では、胎児分画は、特定の長さ閾値より下の断片をカウントし、そのカウントを、例えば、特定の長さ閾値を超える断片からのカウント、及び/又はサンプル中の総核酸量と比較することによって決定することができる。特定の長さの核酸断片をカウントするための方法は、国際公開第2013/177086号に更に詳細に記載されている。
胎児分画は、いくつかの実施形態では、(例えば、参照により本明細書に組み込まれる国際公開第2014/205401号に記載されているように)部分特異的胎児分画推定値に従って決定することができる。理論に制限されるものではないが、胎児CCF断片(例えば、特定の長さの断片、又は長さの範囲)からのリードの量は、多くの場合、(例えば、同じサンプル内、例えば、同じシーケンシングラン内の)部分に対して変動する度数でマッピングされる。また、理論に制限されるものではないが、特定の部分は、複数のサンプル間で比較される場合、胎児CCF断片(例えば、特定の長さの断片、又は長さの範囲)からのリードの同様の表現を有する傾向があり、表現は、部分特異的胎児分画(例えば、胎児に由来するCCF断片の相対量、百分率、又は比)と相関する。
いくつかの実施形態では、部分特異的胎児分画推定値は、部分特異的パラメータ及び胎児分画に対するそれらの関係式に部分的に基づいて決定される。部分特異的パラメータは、部分の特定のサイズ(例えば、サイズ範囲)のCCF断片長からのリードの量又は割合を反映する(例えば、相関する)任意の好適なパラメータであり得る。部分特異的パラメータは、複数のサンプルについて決定された部分特異的パラメータの平均(average)、平均値(mean)、又は中央値であり得る。任意の好適な部分特異的パラメータを使用することができる。部分特異的パラメータの非限定的な例としては、FLR(例えば、FRS)、選択された断片長未満の長さを有するリードの量、ゲノム被覆率(すなわち、被覆率)、マッピング性、カウント(例えば、部分にマッピングされた配列リードのカウント、例えば、正規化カウント、PERUN正規化カウント、ChAI正規化カウント)、DNaseI感受性、メチル化状態、アセチル化、ヒストン分布、グアニン-シトシン(GC)含有量、クロマチン構造など、又はそれらの組み合わせが挙げられる。部分特異的パラメータは、部分特異的な方法でFLR及び/又はFRSと相関する任意の好適なパラメータであり得る。いくつかの実施形態では、いくつか又は全ての部分特異的パラメータは、部分に関するFLRの直接的又は間接的な表現である。いくつかの実施形態では、部分特異的パラメータは、グアニン-シトシン(GC)含有量ではない。
いくつかの実施形態では、部分特異的パラメータは、部分にマッピングされたリードが選択された断片長未満の長さを有するCCF断片からのリードの量を表すか、そのリードの量に関連するか、又はそのリードの量に比例する任意の好適な値である。特定の実施形態では、部分特異的パラメータは、部分にマッピングする比較的短いCCF断片(例えば、約200塩基対以下)にから得られるリードの量の表現である。選択された断片長未満の長さを有するCCF断片は、多くの場合、比較的短いCCF断片であり、時として、選択された断片長は、約200塩基対以下(例えば、約190、180、170、160、150、140、130、120、110、100、90、80、70、60、又は50塩基長であるCCF断片)である。CCF断片又はCCF断片に由来するリードの長さは、任意の好適な方法(例えば、シーケンシング法、ハイブリダイゼーションアプローチ)によって決定され得る(例えば、推定又は推測され得る)。いくつかの実施形態では、CCF断片の長さは、ペアエンドシーケンシング法から得られたリードによって決定される(例えば、推定又は推測される)。特定の実施形態では、CCF断片テンプレートの長さは、CCF断片(例えば、シングルエンドリード)に由来するリードの長さから直接決定される。
部分特異的パラメータは、1つ以上の重み付け係数によって重み付け又は調整され得る。いくつかの実施形態では、重み付け又は調整された部分特異的パラメータは、サンプル(例えば、試験サンプル)についての部分特異的胎児分画推定値を提供することができる。いくつかの実施形態では、重み付け又は調整は一般に、部分のカウント(例えば、部分にマッピングされたリード)又は別の部分特異的パラメータを部分特異的胎児分画推定値に変換し、そのような変換は、時として、転換と見なされる。
いくつかの実施形態では、重み付け係数は、胎児分画(例えば、複数のサンプルから決定された胎児分画)と複数のサンプル(例えば、トレーニングセット)の部分特異的パラメータとの間の関係式を部分的に説明及び/又は定義する係数又は定数である。いくつかの実施形態では、重み付け係数は、複数の胎児分画の定量及び複数の部分特異的パラメータについての関係式に従って決定される。関係式は、1つ以上の重み付け係数によって定義され得、1つ以上の重み付け係数は、関係式から決定され得る。いくつかの実施形態では、重み付け係数(例えば、1つ以上の重み付け係数)は、(i)複数のサンプルの各々について決定された胎児核酸の分画、及び(ii)複数のサンプルの部分特異的パラメータに従って、部分に適合させた関係式から決定される。
重み付け係数は、好適な関係式(例えば、好適な数学関係式、代数関係式、適合させた関係式、回帰、回帰分析、回帰モデル)から導出される任意の好適な係数、推定係数又は定数であり得る。重み付け係数は、好適な関係式に従って決定することができるか、好適な関係式から導出することができるか、又は好適な関係式から推定することができる。いくつかの実施形態では、重み付け係数は、適合させた関係式から推定された係数である。複数のサンプルについて関係式を適合させることは、時として、モデルをトレーニングすると呼ばれる。関係を適合させる任意の好適なモデル及び/又は方法(例えば、トレーニングセットを目的としてモデルをトレーニングする)を使用することができる。使用することができる好適なモデルの非限定的な例としては、回帰モデル、線形回帰モデル、単純回帰モデル、通常の最小二乗回帰モデル、多重回帰モデル、一般の多重回帰モデル、多項式回帰モデル、一般的な線形モデル、一般化した線形モデル、不連続選択回帰モデル、ロジスティック回帰モデル、多項ロジットモデル、混合ロジットモデル、プロビットモデル、多項プロビットモデル、順序ロジットモデル、順序プロビットモデル、ポアソンモデル、多変量応答回帰モデル、多層モデル、固定効果モデル、変量効果モデル、混合モデル、非線形回帰モデル、ノンパラメトリックモデル、セミパラメトリックモデル、ロバストモデル、クォンタイルモデル、アイソトニックモデル、主成分モデル、最小角度モデル、局所モデル、セグメント化モデル、及び変数誤差モデルが挙げられる。いくつかの実施形態では、適合させた関係式は、回帰モデルではない。いくつかの実施形態では、適合させた関係式は、決定木モデル、サポートベクターマシンモデル、及びニューラルネットワークモデルから選択される。モデルのトレーニング結果(例えば、回帰モデル、関係式)は、多くの場合、数学的に説明され得る関係式であり、関係式は1つ以上の係数(例えば、重み付け係数)を含む。より複雑な多変量モデルは、1つ、2つ、3つ、又はそれ以上の重み付け係数を決定することができる。いくつかの実施形態では、モデルは、複数のサンプルから得られた胎児分画及び2つ以上の部分特異的パラメータ(例えば、係数)に従ってトレーニングされる(例えば、マトリックスによって、例えば、複数のサンプルに適合された適合させた関係)。
[0142]
重み付け係数は、好適な方法によって好適な関係式(例えば、好適な数学関係式、代数関係式、適合させた関係式、回帰、回帰分析、回帰モデル)から導出することができる。いくつかの実施形態では、適合させた関係式は推定によって適合され、この推定の非限定的な例としては、最小二乗、通常の最小二乗、線形、部分、トータル、一般化、加重、非線形、反復再加重、リッジ回帰、最小絶対偏差、ベイジアン、ベイジアン多変量、縮小ランク、LASSO、加重ランク選択基準(Weighted Rank Selection Criteria、WRSC)、ランク選択基準(Rank Selection Criteria、RSC)、エラスティックネット推定量(例えば、エラスティックネット回帰)及びこれらの組み合わせが挙げられる。
重み付け係数は、ゲノムの任意の好適な部分に対して決定され得るか、又は関連付けられ得る。重み付け係数は、任意の好適な染色体の任意の好適な部分に対して決定され得るか、又は関連付けられ得る。いくつかの実施形態では、重み付け係数は、ゲノム中のいくつか又は全ての部分に対して決定されるか、又は関連付けられる。いくつかの実施形態では、重み付け係数は、ゲノム中のいくつか又は全ての染色体の部分に対して決定されるか、又は関連付けられる。重み付け係数は、時として、選択された染色体の部分に対して決定されるか、又は関連付けられる。重み付け係数は、1つ以上の常染色体の部分に対して決定され得るか、又は関連付けられ得る。重み付け係数は、常染色体又はそのサブセット中の部分を含む複数の部分中の部分に対して決定され得るか、又は関連付けられ得る。いくつかの実施形態では、重み付け係数は、性染色体(例えば、ChrX及び/又はChrY)の部分に対して決定されるか、又は関連付けられる。重み付け係数は、1つ以上の常染色体及び1つ以上の性染色体の部分に対して決定され得るか、又は関連付けられ得る。特定の実施形態では、重み付け係数は、全ての常染色体並びに染色体X及びY中の複数の部分中の部分に対して決定されるか、又は関連付けられる。重み付け係数は、X及び/又はY染色体中の部分を含まない複数の部分中の部分に対して決定され得るか、又は関連付けられ得る。特定の実施形態では、重み付け係数は、染色体の部分に対して決定されるか、又は関連付けられ、その染色体は異数性(例えば、全染色体異数性)を含む。特定の実施形態では、重み付け係数は、染色体の部分に対して決定されるか、又はその部分に対してのみ関連付けられ、その染色体は異数性(例えば、正倍数体染色体)ではない。重み付け係数は、染色体13、18、及び/又は21中の部分を含まない複数の部分中の部分に対して決定され得るか、又は関連付けられ得る。
いくつかの実施形態では、重み付け係数は、1つ以上のサンプル(例えば、サンプルのトレーニングセット)に従って部分に対して決定される。重み付け係数は、多くの場合、部分に特異的である。いくつかの実施形態では、1つ以上の重み付け係数は、独立して部分に割り当てられる。いくつかの実施形態では、重み付け係数は、複数のサンプルについての胎児分画の定量(例えば、サンプル特異的胎児分画の定量)のための関係式及び複数のサンプルに従って決定された部分特異的パラメータに従って決定される。重み付け係数は、多くの場合、複数のサンプル、例えば、約20~約100,000以上、約100~約100,000以上、約500~約100,000以上、約1000~約100,000以上、又は約10,000~約100,000以上のサンプルから決定される。重み付け係数は、正倍数体(例えば、正倍数体胎児を含む対象からのサンプル、例えば、異数性染色体が存在しないサンプル)であるサンプルから決定することができる。いくつかの実施形態では、重み付け係数は、異数性染色体(例えば、正倍数体胎児を含む対象からのサンプル)を含むサンプルから得られる。いくつかの実施形態では、重み付け係数は、正倍数体胎児を有する対象から、及びトリソミー胎児を有する対象からの複数のサンプルから決定される。重み付け係数は、サンプルが男児胎児及び/又は女児胎児を有する対象に由来する複数のサンプルに由来し得る。
胎児分画は、多くの場合、重み付け係数が導出されるトレーニングセットの1つ以上のサンプルについて決定される。重み付け係数が決定される胎児分画は、時として、サンプル特異的胎児分画の定量である。重み付け係数が決定される胎児分画は、本明細書に記載の任意の好適な方法、又は当該技術分野で既知の任意の好適な方法によって決定することができる。いくつかの実施形態では、胎児核酸含有量(例えば、胎児分画)の決定は、本明細書に記載されるか、又は当該技術分野において既知の好適な胎児定量化アッセイ(FQA)を使用して実行され、その非限定的な例としては、胎児分画の、男児胎児に特異的なマーカーによる定量、多型配列の対立遺伝子比に基づく定量、胎児核酸に特異的かつ母体核酸に特異的でない1つ以上のマーカーに従う定量、メチル化ベースのDNA識別(例えば、A.Nygren,et al.,(2010)Clinical Chemistry 56(10):1627-1635)の使用による定量、質量分析方法及び/又は競合PCRアプローチを使用するシステムによる定量、参照により本明細書に組み込まれる米国特許出願公開第2010/0105049号に記載の方法による定量など、又はそれらの組み合わせが挙げられる。多くの場合、胎児分画は、Y染色体のレベル(例えば、1つ以上のゲノムセクションレベル、プロファイルのレベル)に従って決定される。いくつかの実施形態では、胎児分画は、Y染色体の好適なアッセイに従って(例えば、胎児特異的遺伝子座(例えば、男性の妊娠の染色体Y上のSRY遺伝子座など)の量を母親及び胎児の両方に共通する任意の常染色体上の遺伝子座の量と定量リアルタイムPCR(例えば、Lo Y M,et al.(1998)Am J Hum Genet 62:768-775)を使用して比較することによって)決定される。
(例えば、試験サンプルの)部分特異的パラメータは、1つ以上の重み付け係数(例えば、トレーニングセットから導出された重み付け係数)によって重み付け又は調整することができる。例えば、重み付け係数は、複数サンプルのトレーニングセットについての部分特異的パラメータと胎児分画の定量との関係式に従って、部分に対して導出することができる。次いで、試験サンプルの部分特異的パラメータを、トレーニングセットから導出された重み付け係数に従って調整及び/又は重み付けすることができる。いくつかの実施形態では、重み付け係数が導出される部分特異的パラメータは、調整又は重み付けされる(試験サンプルの)部分特異的パラメータと同じである(例えば、両方のパラメータがFLRである)。特定の実施形態では、重み付け係数が導出される部分特異的パラメータは、調整又は重み付けされる(例えば、試験サンプルの)部分特異的パラメータとは異なる。例えば、重み付け係数は、サンプルのトレーニングセットについてのカバレッジ(すなわち、部分特異的パラメータ)と胎児分画との関係式から決定され得、試験サンプルの一部分のFLR(すなわち、別の部分特異的パラメータ)は、カバレッジから導出された重み付け係数に従って調整され得る。理論によって限定されるものではないが、(例えば、試験サンプルについての)部分特異的パラメータは時として、各部分特異的パラメータと共通の部分特異的FLRとの間の関係及び/又は相関に起因して、(例えば、トレーニングセットの)異なる部分特異的パラメータから導出された重み付け係数によって、調整及び/又は重み付けされ得る。
部分特異的胎児分画推定値は、その部分について決定された重み付け係数によって部分特異的パラメータを重み付けすることによって、サンプル(例えば、試験サンプル)について決定することができる。重み付けは、任意の好適な数学的操作を適用することによって、重み付け係数に従って部分特異的パラメータを調整、変換、及び/又は転換することを含むことができ、その非限定的な例としては、乗算、除算、加算、減算、積分、記号計算、代数的計算、アルゴリズム、三角関数若しくは幾何学関数、転換(例えば、フーリエ変換)など、又はそれらの組み合わせが挙げられる。重み付けは、重み付け係数、好適な数学的モデルに従って部分特異的パラメータを調整、変換、及び/又は転換することを含むことができる。
いくつかの実施形態では、胎児分画は、1つ以上の部分特異的胎児分画推定値に従ってサンプルについて決定される。いくつかの実施形態では、胎児分画は、1つ以上の部分についての部分特異的パラメータを重み付け又は調整することによって、サンプル(例えば、試験サンプル)について決定される(例えば、推定される)。特定の実施形態では、試験サンプルの胎児核酸の分画は、調整されたカウント又はカウントの調整されたサブセットに基づいて推定される。特定の実施形態では、試験サンプルの胎児核酸の分画は、調整されたFLR、調整されたFRS、調整されたカバレッジ、及び/又は部分についての調整されたマッピング性に基づいて推定される。いくつかの実施形態では、約1~約500,000、約100~約300,000、約500~約200,000、約1000~約200,000、約1500~約200,000、又は約1500~約50,000の部分特異的パラメータが重み付け又は調整される。
(例えば、試験サンプルについての)胎児分画は、任意の好適な方法によって(例えば、同じ試験サンプルについて)複数の部分特異的胎児分画推定値に従って決定することができる。いくつかの実施形態では、妊娠中の女性からの試験サンプル中の胎児核酸の分画の推定の精度を向上させるための方法は、1つ以上の部分特異的胎児分画推定値を決定することを含み、サンプルの胎児分画の推定値は、その1つ以上の部分特異的胎児分画推定値に従って決定される。いくつかの実施形態では、サンプル(例えば、試験サンプル)の胎児核酸の分画を推定又は決定することは、1つ以上の部分特異的胎児分画推定値を合計することを含む。合計することは、複数の部分特異的胎児分画推定値に従って平均、平均値、中央値、AUC、又は積分値を決定することを含み得る。
いくつかの実施形態では、妊娠中の女性からの試験サンプル中の胎児核酸の分画の推定の精度を向上させるための方法は、参照ゲノムの部分にマッピングされた配列リードのカウントを取得することを含み、この配列リードは、妊娠中の女性からの試験サンプルからの循環セルフリー核酸のリードであり、得られたカウントの少なくとも1つのサブセットは、ゲノムのある領域から得られ、その領域は、その領域からの総カウントと比較した胎児核酸から得られたカウントが、ゲノムの別の領域の総カウントと比較した胎児核酸のカウントよりも大きいことに寄与する。いくつかの実施形態では、胎児核酸の分画の推定値は、部分のサブセットに従って決定され、部分のサブセットは、別の部分の胎児核酸のカウントよりも大きな数の胎児核酸から得られたカウントがマッピングされる部分に従って選択される。いくつかの実施形態では、部分のサブセットは、別の部分の、非胎児核酸と比較して、胎児核酸のカウントよりも、非胎児核酸と比較して、より大きな数の胎児核酸から得られたカウントがマッピングされる部分に従って選択される。部分の全て又はサブセットにマッピングされたカウントは、重み付けされ得、それによって重み付けされたカウントを提供する。重み付けされたカウントは、胎児核酸の分画を推定するために利用することができ、カウントは、別の部分の胎児核酸のカウントよりも大きな数の胎児核酸から得られたカウントがマッピングされる部分に従って重み付けすることができる。いくつかの実施形態では、カウントは、別の部分の、非胎児核酸と比較して、胎児核酸のカウントよりも、非胎児核酸と比較して、より大きな数の胎児核酸から得られたカウントがマッピングされる部分に従って重み付けされる。
胎児分画は、サンプル(例えば、試験サンプル)について、そのサンプルの複数の部分特異的胎児分画推定値に従って決定することができ、部分特異的推定値は、ゲノムの任意の好適な領域又はセグメントの部分から得られる。部分特異的胎児分画推定値は、好適な染色体(例えば、1つ以上の選択された染色体、1つ以上の常染色体、性別染色体(例えば、ChrX及び/又はChrY)、異数性染色体、正倍数体染色体など、又はそれらの組み合わせ)の1つ以上の部分について決定することができる。
いくつかの実施形態では、胎児分画を決定することは、(a)参照ゲノムの部分にマッピングされた配列リードのカウントを得ることであって、この配列リードは、妊娠中の女性からの試験サンプルからの循環セルフリー核酸のリードである、ことと、(b)マイクロプロセッサを使用して、(i)各部分にマッピングされた配列リードのカウント、又は(ii)各部分と独立して関連付けられた重み付け係数に従って、胎児核酸の部分特異的な分画に対する、他の部分特異的パラメータを重み付けし、それによって、重み付け係数に従って部分特異的胎児分画推定値を提供することであって、重み付け係数の各々が、(i)複数のサンプルの各々についての胎児核酸の分画と、(ii)複数のサンプルについての、各部分にマッピングされた配列リードのカウント又は他の部分特異的パラメータとの間の各部分について適合させた関係式から決定されている、ことと、(c)部分特異的胎児分画推定値に基づいて試験サンプルの胎児核酸の分画を推定することと、を含む。
細胞外核酸中の胎児核酸の量は、本明細書で提供される方法と併せて定量化及び使用され得る。したがって、特定の実施形態では、本明細書に記載の技術の方法は、胎児核酸の量を決定する追加のステップを含む。胎児核酸の量は、サンプル核酸を調製するための処理の前又は後に、対象からの核酸サンプル中で決定することができる。特定の実施形態では、胎児核酸の量は、サンプル核酸が処理され、調製された後にサンプル中で決定され、その量は更なる評価に利用される。いくつかの実施形態では、結果は、サンプル核酸中の胎児核酸の分画をファクタリングすることを含む(例えば、カウントを調整し、サンプルを除去し、コールを行う又はコールを行わない)。
決定ステップは、本明細書に記載の方法における任意のあるときより前、最中、そのときに、又は本明細書に記載の特定の(例えば、異数性検出、微小重複若しくは微小欠失検出、胎児性別判定)方法の後に実行することができる。例えば、所与の感度又は特異性で胎児の性別又は異数性、微小重複又は微小欠失判定方法を得るために、胎児核酸定量化法を、胎児の性別又は異数性、微小重複又は微小欠失判定の前、最中又は後に実施して、約2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%又はそれ以上の胎児核酸を有するサンプルを特定することができる。いくつかの実施形態では、特定の閾値量の胎児核酸(例えば、約15%以上の胎児核酸、約4%以上の胎児核酸)を有すると決定されたサンプルは、例えば、胎児の性別若しくは異数性、微小重複若しくは微小欠失判定、又は異数性若しくは遺伝的変異の有無について更に分析される。特定の実施形態では、例えば、胎児性別、又は異数性、微小重複若しくは微小欠失の有無の判定は、特定の閾値量の胎児核酸(例えば、約15%以上の胎児核酸、約4%以上の胎児核酸)を有するサンプルについてのみ選択される(例えば、選択され、患者に連絡される)。
いくつかの実施形態では、胎児分画の決定又は胎児核酸の量を決定することは、染色体の異数性、微小重複、又は微小欠失の有無を特定するために必要とされない又は必須ではない。いくつかの実施形態では、染色体異数性、微小重複、又は微小欠失の有無を特定することは、胎児対母体DNAの配列識別(sequence differentiation)を必要としない。特定の実施形態では、これは、特定の染色体における母体配列及び胎児配列の両方の合計寄与が、その染色体部分又はそのセグメントを分析するためである。いくつかの実施形態では、染色体異数性、微小重複、又は微小欠失の有無を特定することは、胎児DNAを母体DNAから区別する事前の配列情報に依存しない。
いくつかの実施形態では、癌細胞核酸の分画は、癌細胞及び/又は非癌細胞のコピー数多型(例えば、異数性、微小重複、微小欠失)を表すものとして分類されるレベルに従って決定される。例えば、癌細胞核酸の分画を決定することは、癌細胞核酸の分画の決定に利用される癌細胞及び/又は非癌細胞のコピー数多型の予想レベルを評価することを含み得る。いくつかの実施形態では、癌細胞核酸の分画は、同じタイプのコピー数多型について決定された予想レベル範囲に従って、コピー数多型を表すものとして分類されるレベル(例えば、第1のレベル)について決定される。多くの場合、癌細胞核酸の分画は、予想レベル範囲内にあり、それによって癌細胞及び/又は非癌細胞のコピー数多型として分類される観察されたレベルに従って決定される。いくつかの実施形態では、癌細胞核酸の分画は、癌細胞及び/又は非癌細胞のコピー数多型として分類される観察されたレベル(例えば、第1のレベル)が、同じ癌細胞及び/又は非癌細胞のコピー数多型について決定された予想レベルとは異なるときに決定される。レベルに従って胎児分画を決定するための以下に記載される方法を、癌細胞核酸の分画を決定するために使用することができる。
いくつかの実施形態では、胎児分画は、母体及び/又は胎児のコピー数多型(例えば、異数性、微小重複、微小欠失)を表すものとして分類されるレベルに従って決定される。例えば、胎児分画を決定することは、多くの場合、胎児分画の決定に利用される母体及び/又は胎児のコピー数多型の予想レベルを評価することを含む。いくつかの実施形態では、胎児分画は、同じタイプのコピー数多型について決定された予想レベル範囲に従って、コピー数多型を表すものとして分類されるレベル(例えば、第1のレベル)について決定される。多くの場合、胎児分画は、予想レベル範囲内にあり、それによって母体及び/又は胎児のコピー数多型として分類される観察されたレベルに従って決定される。いくつかの実施形態では、胎児分画は、母体及び/又は胎児のコピー数多型として分類される観察されたレベル(例えば、第1のレベル)が、同じ母体及び/又は胎児のコピー数多型について決定された予想レベルとは異なるときに決定される。
いくつかの実施形態では、レベル(例えば、第1のレベル、観察されたレベル)は、第2のレベルとは有意に異なり、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、胎児分画は、第1のレベルに従って決定される。いくつかの実施形態では、第1のレベルは、プロファイル内の第2のレベルと有意に異なる観察されたかつ/又は実験的に得られたレベルであり、胎児分画は、第1のレベルに従って決定される。いくつかの実施形態では、第1のレベルは平均、平均値、又は合計レベルであり、胎児分画は第1のレベルに従って決定される。特定の実施形態では、第1のレベル及び第2のレベルは、観察されたかつ/又は実験的に得られたレベルであり、胎児分画は、第1のレベルに従って決定される。場合によっては、第1のレベルは、部分の第1のセットについての正規化されたカウントを含み、第2のレベルは、部分の第2のセットについての正規化されたカウントを含み、胎児分画は、第1のレベルに従って決定される。いくつかの実施形態では、第1のレベルの部分の第1のセットは、コピー数多型を含み(例えば、第1のレベルは、コピー数多型を表す)、胎児分画は、第1のレベルに従って決定される。いくつかの実施形態では、第1のレベルの部分の第1のセットは、ホモ接合性又はヘテロ接合性の母体のコピー数多型を含み、胎児分画は、第1のレベルに従って決定される。いくつかの実施形態では、プロファイルは、部分の第1のセットについての第1のレベル及び部分の第2のセットについての第2のレベルを含み、部分の第2のセットは、実質的にコピー数多型(例えば、母体のコピー数多型、胎児のコピー数多型、又は母体のコピー数多型及び胎児のコピー数多型)を含まず、胎児分画は、第1のレベルに従って決定される。
いくつかの実施形態では、レベル(例えば、第1のレベル、観察されたレベル)は、第2のレベルとは有意に異なり、第1のレベルは、母体及び/又は胎児のコピー数多型について分類され、胎児分画は、第1のレベル及び/又はコピー数多型の予想レベルに従って決定される。いくつかの実施形態では、第1のレベルは、コピー数多型の予想レベルに従ってコピー数多型について分類され、胎児分画は、第1のレベルと予想レベルとの間の差に従って決定される。特定の実施形態では、レベル(例えば、第1のレベル、観察されたレベル)は、母体及び/又は胎児のコピー数多型として分類され、胎児分画は、コピー数多型の第1のレベルと予想レベルとの間の差の2倍として決定される。いくつかの実施形態では、レベル(例えば、第1のレベル、観察されたレベル)は、母体及び/又は胎児のコピー数多型として分類され、第1のレベルは、予想レベルから差し引かれ、それによって差を提供し、胎児分画は、差の2倍と決定される。いくつかの実施形態では、レベル(例えば、第1のレベル、観察されたレベル)は、母体及び/又は胎児のコピー数多型として分類され、予想レベルは、第1のレベルから差し引かれ、それによって差を提供し、胎児分画は、差の2倍と決定される。
多くの場合、胎児分画はパーセントとして提供される。例えば、胎児分画を100で割り、それによってパーセント値を提供することができる。例えば、母体ホモ接合重複を表し、かつ155のレベルを有する第1のレベル、及び150のレベルを有する母体ホモ接合重複の予想レベルの場合では、胎児分画を10%として決定することができる(例えば、(胎児分画=2×(155-150))。
いくつかの実施形態では、胎児分画は、コピー数多型として分類されるプロファイル内の2つ以上のレベルから決定される。例えば、時として、プロファイル内の2つ以上のレベル(例えば、2つ以上の第1のレベル)は、参照レベル(例えば、第2のレベル、実質的にコピー数多型を含まないレベル)と有意に異なるものとして識別され、2つ以上のレベルは、母体及び/又は胎児のコピー数多型を表すものとして分類され、胎児分画は、2つ以上のレベルの各々から決定される。いくつかの実施形態では、胎児分画は、プロファイル内の約3以上、約4以上、約5以上、約6以上、約7以上、約8以上、又は約9以上の胎児分画の定量から決定される。いくつかの実施形態では、胎児分画は、プロファイル内の約10以上、約20以上、約30以上、約40以上、約50以上、約60以上、約70以上、約80以上、又は約90以上の胎児分画の定量から決定される。いくつかの実施形態では、胎児分画は、プロファイル内の約100以上、約200以上、約300以上、約400以上、約500以上、約600以上、約700以上、約800以上、約900以上、又は約1000以上の胎児分画の定量から決定される。いくつかの実施形態では、胎児分画は、プロファイル内の約10~約1000、約20~約900、約30~約700、約40~約600、約50~約500、約50~約400、約50~約300、約50~約200、又は約50~約100の胎児分画の定量から決定される。
いくつかの実施形態では、胎児分画は、プロファイル内の複数の胎児分画の定量の平均又は平均値として決定される。特定の実施形態では、複数の胎児分画の定量から決定された胎児分画は、複数の胎児分画の定量の平均値(例えば、平均、平均値、標準平均、中央値など)である。多くの場合、複数の胎児分画の定量から決定された胎児分画は、当技術分野で既知の又は本明細書に記載される好適な方法によって決定される平均値である。いくつかの実施形態では、胎児分画の定量の平均値は、加重平均である。いくつかの実施形態では、胎児分画の定量の平均値は、重み付けされていない平均である。複数の胎児分画の定量から生成された平均値、中央値、又は平均の胎児分画の定量(すなわち、平均値、中央値、又は平均の胎児分画の定量値)は、時として、不確定値(例えば、分散、標準偏差、MADなど)に関連している。複数の決定から平均値、中央値、又は平均の胎児分画値を決定する前に、いくつかの実施形態では、1つ以上の偏差決定が除去される(本明細書でより詳細に説明される)。
プロファイル内のいくつかの胎児分画の定量は、時として胎児分画の全体的な定量(例えば、平均値又は平均の胎児分画の定量)に含まれない。いくつかの実施形態では、胎児分画の定量は、プロファイルにおいて第1のレベル(例えば、第2のレベルと有意に異なる第1のレベル)から得られ、第1のレベルは、遺伝的変異を示さない。例えば、プロファイル内のいくつかの第1のレベル(例えば、スパイク又はディップ)は、異常又は未知の原因から生成される。そのような値は、多くの場合、真のコピー数多型から得られた他の胎児分画の定量と有意に異なる胎児分画の定量を生成する。いくつかの実施形態では、プロファイルにおける他の胎児分画の定量と有意に異なる胎児分画の定量を特定し、胎児分画の定量から除去する。例えば、異常スパイク及びディップから得られたいくつかの胎児分画の定量は、それらをプロファイル内の他の胎児分画の定量と比較することによって特定され、胎児分画の全体的な定量から除外される。
いくつかの実施形態では、平均値、中央値、又は平均の胎児分画の定量と有意に異なる独立した胎児分画の定量は、特定され、認識され、及び/又は観察可能な差である。特定の実施形態では、「有意に異なる」という用語は、統計的に異なる、及び/又は統計的に有意な差を意味することができる。「独立した」胎児分画の定量は、コピー数多型として分類された特定のレベルから決定された胎児分画(例えば、いくつかの実施形態では、単一の定量)であり得る。任意の好適な閾値又は範囲を使用して、胎児分画の定量が平均値、中央値、又は平均の胎児分画の定量と有意に異なると判定することができる。特定の実施形態では、胎児分画の定量は、平均値、中央値、又は平均の胎児分画の定量と有意に異なり、その定量は、平均又は平均値からのパーセント偏差として表すことができる。特定の実施形態では、平均値、中央値、又は平均の胎児分画の定量と有意に異なる胎児分画の定量は、約10パーセント以上異なる。いくつかの実施形態では、平均値、中央値、又は平均の胎児分画の定量と有意に異なる胎児分画の定量は、約15パーセント以上異なる。いくつかの実施形態では、平均値、中央値、又は平均の胎児分画の定量と有意に異なる胎児分画の定量は、約15%~約100%以上異なる。
特定の実施形態では、胎児分画の定量は、平均値、中央値、又は平均の胎児分画の定量に関連する多様な不確定値に従う、平均値、中央値、又は平均の胎児分画の定量とは有意に異なる。多くの場合、不確定値及び定数n(例えば、信頼区間)は、範囲(例えば、不確定カットオフ)を定義する。例えば、時として、不確定値は、胎児分画の定量(例えば、+/-5)の標準偏差であり、定数n(例えば、信頼区間)で乗算され、それによって、範囲又は不確実性カットオフ(例えば、5n~-5n、時として5シグマと呼ばれる)を定義する。いくつかの実施形態では、独立した胎児分画の定量は、不確実性カットオフによって定義される範囲外にあり、平均値、中央値、又は平均の胎児分画の定量と有意に異なると考えられる。例えば、10の平均値及び3の不確実性カットオフについては、13を超えるか、又は7未満の独立した胎児分画は、有意に異なる。いくつかの実施形態では、平均値、中央値、又は平均の胎児分画の定量と有意に異なる胎児分画の定量は、不確定値(例えば、n×シグマ)のn倍より大きく異なり、nは、約1、2、3、4、5、6、7、8、9、又は10以上である。いくつかの実施形態では、平均値、中央値、又は平均の胎児分画の定量と有意に異なる胎児分画の定量は、不確定値(例えば、n×シグマ)n倍より大きく異なり、nは、約1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、又は4.0以上である。
いくつかの実施形態では、レベルは、胎児及び/又は母体の微小倍数性(microploidy)(例えば、微小欠失、微小重複)を表す。いくつかの実施形態では、レベル(例えば、第1のレベル、観察されたレベル)は、第2のレベルとは有意に異なり、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、第1のレベル及び/又は第2のレベルは、胎児微小倍数性及び/又は母体微小倍数性を表す。特定の実施形態では、第1のレベルは、胎児微小倍数性を表す。いくつかの実施形態では、第1のレベルは、母体微小倍数性を表す。多くの場合、第1のレベルは、胎児微小倍数性及び母体微小倍数性を表す。いくつかの実施形態では、レベル(例えば、第1のレベル、観察されたレベル)は、第2のレベルとは有意に異なり、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、第1のレベルは、胎児及び/又は母体の微小倍数性を表し、胎児分画は、胎児及び/又は母体の微小倍数性に従って決定される。場合によっては、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、第1のレベルは、胎児の微小倍数性を表し、胎児分画は、胎児の微小倍数性に従って決定される。いくつかの実施形態では、第1のレベルは、母体及び/又は胎児のコピー数多型として分類される。第1のレベルは、母体微小倍数性を表し、胎児分画は、母体微小倍数性に従って決定される。いくつかの実施形態では、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、第1のレベルは、母体及び胎児の微小倍数性を表し、胎児分画は、母体及び胎児の微小倍数性に従って決定される。
いくつかの実施形態では、胎児分画の定量は、胎児及び/又は母体の微小倍数性を決定することを含む。いくつかの実施形態では、レベル(例えば、第1のレベル、観察されたレベル)は、第2のレベルとは有意に異なり、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、胎児及び/又は母体の微小倍数性は、第1のレベル及び/又は第2のレベルに従って決定され、胎児分画が決定される。いくつかの実施形態では、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、胎児微小倍数性は、第1のレベル及び/又は第2のレベルに従って決定され、胎児分画は、胎児微小倍数性に従って決定される。特定の実施形態では、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、母体の微小倍数性は、第1のレベル及び/又は第2のレベルに従って決定され、胎児分画は、母体微小倍数性に従って決定される。いくつかの実施形態では、第1のレベルは、母体及び/又は胎児のコピー数多型として分類され、母体及び胎児の微小倍数性は、第1のレベル及び/又は第2のレベルに従って決定され、胎児分画は、母体及び胎児の微小倍数性に従って決定される。
胎児分画は、多くの場合、母親の微小倍数性が、所与のレベル又はコピー数多型として分類されるレベルに対する胎児の微小倍数性とは異なる(例えば、同じでない)場合に、決定される。いくつかの実施形態では、胎児分画は、母親が重複についてホモ接合性(例えば、2の微小倍数性)であり、胎児が同じ重複についてヘテロ接合性(例えば、1.5の微小倍数性)であるときに決定される。いくつかの実施形態では、胎児分画は、母親が重複についてヘテロ接合性(例えば、1.5の微小倍数性)であり、胎児が同じ重複についてホモ接合性(例えば、2の微小倍数性)であるか又はその重複が胎児に存在しない(例えば、1の微小倍数性)場合に決定される。いくつかの実施形態では、胎児分画は、母親が欠失についてホモ接合性(例えば、0の微小倍数性)であり、胎児が同じ欠失についてヘテロ接合性(例えば、0.5の微小倍数性)である場合に決定される。いくつかの実施形態では、胎児分画は、母親が欠失についてヘテロ接合性(例えば、0.5の微小倍数性)であり、胎児が同じ欠失についてホモ接合性(例えば、0の微小倍数性)であるか、その欠失が胎児に存在しない(例えば、1の微小倍数性)場合に決定される。
特定の実施形態では、胎児分画は、母親の微小倍数性が、コピー数多型として特定された所与のレベルについての胎児の微小倍体と同じである(例えば、同じであると特定される)場合に決定することができない。例えば、いくつかの実施形態では、母親及び胎児の両方がコピー数多型の同じ数のコピーを持つ所与のレベルでは、胎児分画は決定されない。例えば、胎児分画は、母親及び胎児の両方が同じ欠失についてホモ接合性であるか、又は同じ重複についてホモ接合性である場合、コピー数多型として分類されるレベルについて決定することができない。特定の実施形態では、胎児分画は、母親及び胎児の両方が同じ欠失についてヘテロ接合性であるか、又は同じ重複についてヘテロ接合性である場合、コピー数多型として分類されるレベルについて決定することができない。複数の胎児分画の定量がサンプルに対して行われる実施形態では、平均値、中央値、又は平均の値から大幅に逸脱する定量は、母体倍数性が胎児倍数性に等しいコピー数多型から生じる場合があり、そのような定量は考察から除去され得る。
いくつかの実施形態では、母体コピー数多型及び胎児のコピー数多型の微小倍数性は未知である。いくつかの実施形態では、コピー数多型について胎児及び/又は母体の微小倍数性の定量がない場合、胎児分画が生成され、平均値、中央値、又は平均の胎児分画の定量と比較される。平均値、中央値、又は平均の胎児分画の定量と有意に異なるコピー数多型についての胎児分画の定量は、時として、母親及び胎児の微小倍数性がコピー数多型について同じであるためである。平均値、中央値、又は平均の胎児分画の定量と有意に異なる胎児分画の定量は、その差異の供給源又は原因に関係なく、全体的な胎児分画の定量から多くの場合除外される。いくつかの実施形態では、母親及び/又は胎児の微小倍数性は、当該技術分野で既知の方法によって(例えば、標的シーケンシング法によって)決定及び/又は検証される。
定義
本明細書で使用するとき、数値に関して用語「約」は、±10%を指す。
用語「からなる」は、「包含し、限定される」ことを意味する。
用語「から本質的になる」は、組成物、方法、又は構造が、追加成分、工程、及び/又は部分が特許請求される組成物、方法、又は構造の基本的及び新規の特性を実質的に変更しない場合にのみ、追加成分、工程、及び/又は部分を含み得ることを意味する。
別途記載のない限り、本明細書に開示される方法及びシステムの実施は、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質及びDNAシーケンシング、及び組み換えDNA分野において使用される従来の技術及び装置を含み、これらは現状技術に属する。このような技術及び装置は当業者に既知であり、多数のテキスト及び参照研究(例えば、Sambrook et al.,「Molecular Cloning:A Laboratory Manual」Third Edition(Cold Spring Harbor),[2001]を参照されたい)、及びAusubelらの「Current Protocols in Molecular Biology」[1987])に記載されている。
数値範囲は、その範囲を定義する数字を含む。本明細書全体を通して与えられる全ての最大数値制限は、そのようなより低い数値制限が本明細書に明示的に記載されているかのように、より低いあらゆる数値限定を含むことが意図される。本明細書全体を通して与えられる全ての最小数値限定は、そのようなより高い数値制限が本明細書に明示的に記載されているかのように、より高いあらゆる数値限定を含む。本明細書全体を通して与えられるあらゆる数値範囲は、そのようなより狭い数値範囲が全て本明細書に明示的に記載されているかのように、そのようなより広い数値範囲内に入るより狭いあらゆる数値範囲を含む。
本明細書で特に定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、当業者によって理解されるものと同じ意味を有する。本明細書に含まれる用語を含む種々の科学的辞書は、当該技術分野において、利用可能である。本明細書に記載されるものと同様又は同等の任意の方法及び材料を、本明細書に開示された実施形態の実施又は試験に使用することができることが見出されているが、いくつかの方法及び材料が記載されている。
以下に定義される用語は、全体として明細書を参照することによってより完全に記載される。本開示は、当業者によって使用される文脈に応じて変更され得るので、記載される特定の方法論、プロトコル、及び試薬に限定されないことを理解されたい。本発明で使用する場合、単数形「a」、「an」、及び「the」は、文脈がそうでないことを明確に示さない限り、複数の参照を含む。
特に指示がない限り、核酸は、5’~3’の配向で左から右に書かれ、アミノ酸配列はそれぞれ、アミノからカルボキシへの配向で左から右に書かれる。
本明細書で使用される場合、「尤度比」は、診断試験の実行の値を評価するために使用される。尤度比は、試験結果が、ある状態(疾患状態など)が存在する確率を有効に変化させるかするかどうかを判定するために、試験の感度及び特異性を使用する。陽性尤度比は、Pr(T+|D+)/Pr(T+|D-)に相当するLR+=(感度)/(1-特異性)、又は疾患試験の陽性を有する人の確率を、疾患試験の陽性を有しない人の確率で割ったものとして計算される。ここで、T+又はT-は、それぞれ、試験の結果が陽性又は陰性であることを示す。同様に、D+又はD-は、それぞれ、疾患が存在するか、又は存在しないことを示す。したがって、「真陽性」は、試験陽性(T+)、かつ疾患を有する(D+)もの、「偽陽性」は、試験陽性(T+)、かつ疾患を有しない(D-)ものである。特定の試験に対するLR+の値が大きいほど、陽性の試験結果が真の陽性である可能性が高い。一方、LR+<1は、非罹患個体が、罹患個体よりも陽性の試験結果を受ける可能性が高いことを意味する。
検出限界(LOD)は、所定の信頼度で検出することができる最小レベルの信号(例えば、検体、胎児分画、状態を示すスコアなど)である。本出願では、LODは、所定の信頼度を有する、標的変異(例えば、CNV、微小欠失、微小重複、又はSNP)を検出するために必要とされる最小レベルの胎児分画又は腫瘍分画(又は他の検体)である。
用語「断片サイズパラメータ」は、断片又は核酸断片、例えば体液から得られるcfDNA断片の集合のサイズ又は長さに関連するパラメータを指す。本明細書で使用するとき、1)パラメータが、断片サイズ又はサイズ範囲に関して有利に重み付けされる、例えば、サイズ又はサイズ範囲の断片に関連付けられるときに他のサイズ又は範囲の場合よりも重く重み付けされるカウントであるとき、又は、2)パラメータが、例えば、断片サイズ又はサイズ範囲に関して有利に重み付けされる値から得られる、例えば、サイズ又はサイズ範囲の断片に関連付けられるときに他のサイズ又は範囲の場合よりも重く重み付けされるカウントから得られる比率であるとき、パラメータiは「断片サイズ又はサイズ範囲に向けてバイアスがかかっている」。断片サイズ又はサイズ範囲は、ゲノムが、別のゲノム又は同じゲノムの別の部分からの核酸断片に対して、濃縮された又はより高濃度のサイズ又はサイズ範囲を有する核酸断片を生成する場合、ゲノム又はその一部の特徴であり得る。
用語「重み付け」は、「重み」と見なされる1つ以上の値又は関数を使用してパラメータ又は変数などの量を修正することを指す。特定の実施形態では、パラメータ又は変数は、重みで乗算される。他の実施形態では、パラメータ又は変数は、指数関数的に変更される。いくつかの実施形態では、関数は、線形関数であってもよく、又は非線形関数であってもよい。適用可能な非線形関数の例としては、これらに限定されるものではないが、ヘビサイドステップ関数、ボックスカー関数、ステアケース関数、又はシグモイド関数が挙げられる。元のパラメータ又は変数を重み付けすることで、重み付き変数の値を体系的に増加又は減少させることができる。様々な実施形態では、重み付けは、正、負、又は負の値をもたらし得る。
「遺伝的変異」又は「遺伝子変異」は、特定の個体に存在する特定の遺伝子型を指し、多くの場合、遺伝的変異は、個体の統計的に有意なサブ集団に存在する。遺伝的分散(genetic variance)の有無は、本明細書に記載の方法又は装置を使用して判定することができる。特定の実施形態では、1つ以上の遺伝的変異の有無は、本明細書に記載の方法及び装置によって提供される結果に従って判定される。いくつかの実施形態では、遺伝的変異は、染色体異常(例えば、異数性)、部分的な染色体異常又はモザイク現象であり、それらの各々は、本明細書でより詳細に説明される。遺伝的変異の非限定的な例としては、1つ以上の欠失(例えば、微小欠失)、重複(例えば、微小重複)、挿入、変異、多型(例えば、一塩基多型)、融合、反復(例えば、短いタンデム反復)、異なるメチル化部位、異なるメチル化パターンなど、及びそれらの組み合わせが挙げられる。挿入、反復、欠失、重複、変異又は多型は、任意の長さのものであり得、いくつかの実施形態では、長さにおいて約1塩基又は塩基対(bp)~約250メガ塩基対(Mb)であり得る。いくつかの実施形態では、挿入、反復、欠失、重複、変異、又は多型は、長さにおいて約1塩基又は塩基対(bp)~約1,000キロベース(kb)(例えば、長さにおいて約10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb、又は1000kb)である。
遺伝的変異は、時として欠失である。特定の実施形態では、欠失は、染色体又はDNAの配列の一部が欠落している変異(例えば、遺伝的異常)である。欠失は、多くの場合、遺伝物質の喪失である。任意の数のヌクレオチドが欠失される場合がある。欠失は、1つ以上の染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、それらのセグメント、又はそれらの組み合わせの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。
遺伝的変異は、時として遺伝的重複である。特定の実施形態では、重複は、染色体又はDNAの配列の一部がコピーされ、ゲノムに挿入されて戻される変異(例えば、遺伝的異常)である。特定の実施形態では、遺伝的重複(すなわち、重複)は、DNAの領域の任意の重複である。いくつかの実施形態では、重複は、ゲノム又は染色体内で、多くの場合タンデムで、繰り返される核酸配列である。いくつかの実施形態では、重複は、1つ以上の染色体全体、染色体のセグメント、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、それらのセグメント、又はそれらの組み合わせのコピーを含み得る。重複は、微小重複を含み得る。重複は、時として、重複した核酸の1つ以上のコピーを含む。重複は、1回以上繰り返される(例えば、1、2、3、4、5、6、7、8、9、又は10回繰り返される)遺伝的領域として特徴付けられる。重複は、場合によっては、小さな領域(数千の塩基対)から染色体全体までの範囲であり得る。重複は、相同組換えにおけるエラーの結果として、又はレトロトランスポゾン事象のために頻繁に生じる。重複は、特定のタイプの増殖性疾患に関連している。重複は、ゲノムマイクロアレイ又は比較遺伝子ハイブリダイゼーション(comparative genetic hybridization、CGH)を使用して特徴付けることができる。
遺伝的変異は、時として挿入である。挿入は、時として、1つ以上のヌクレオチド塩基対の核酸配列への付加である。挿入は、時として、微小挿入である。特定の実施形態では、挿入は、染色体のセグメントのゲノム、染色体、又はそれらのセグメントへの付加を含む。特定の実施形態では、挿入は、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、それらのセグメント、又はそれらの組み合わせの、ゲノム又はそれらのセグメントへの付加を含む。特定の実施形態では、挿入は、未知の起源の核酸の、ゲノム、染色体、又はそれらのセグメントへの付加(すなわち、挿入)を含む。特定の実施形態では、挿入は、単一の塩基の付加(すなわち、挿入)を含む。
本明細書における用語「コピー数多型(CNV)」は、基準サンプル中に存在する核酸配列のコピー数と比較して、試験サンプル中に存在する核酸配列のコピー数が多様であることを指す。特定の実施形態では、核酸配列は、1kb以上である。場合によっては、核酸配列は、染色体全体又はその有意な部分である。「コピー数多型」は、試験サンプル中の対象核酸配列と対象核酸配列の予想レベルとを比較することにより、コピー数差が見出される核酸配列を指す。例えば、試験サンプル中の対象核酸配列のレベルが、適格サンプル中に存在するものと比較される。コピー数多型(variant)/多型(variation)は、微小欠失を含む欠失、微小挿入を含む挿入、複製、増殖、及び転位を含む。CNVは、染色体異数性及び部分的異数性を包含する。
本明細書における用語「異数性」は、染色体全体又は染色体の一部の喪失又は獲得によって引き起こされる遺伝物質の不均衡を指す。
本明細書における用語「染色体異数性」及び「完全染色体異数性」は、染色体全体の喪失又は獲得によって引き起こされる遺伝物質の不均衡を指し、生殖細胞異数性及びモザイク異数性を含む。
本明細書において、用語「部分異数性」及び「部分染色体異数性」は、染色体、例えば、部分モノソミー及び部分トリソミーの一部の喪失又は獲得によって引き起こされる遺伝物質の不均衡を指し、転位、欠失、及び挿入から生じる不均衡を包含する。
用語「複数」とは、2つ以上の要素を意味する。例えば、この用語は、本明細書に開示される方法を使用して、試験サンプル及び適格サンプルにおけるコピー数多型の有意な差異を特定するのに十分な多数の核酸分子又は配列タグを参照して使用される。いくつかの実施形態では、各試験サンプルについて、約20~40bpの少なくとも約3×106の配列タグが得られる。いくつかの実施形態では、各試験サンプルは、少なくとも約5×106、8×106、10×106、15×106、20×106、30×106、40×106、又は50×106の配列タグのデータを提供し、各配列タグは、約20~40bpを含む。
用語「ペアエンドリード」は、核酸断片の各末端から1つのリードを取得する、ペアエンドシーケンシングからのリードを指す。ペアエンドシーケンシングは、ポリヌクレオチドの鎖を、インサートと呼ばれる短い配列に断片化することを含んでもよい。断片化は、セルフリーDNA分子などの比較的短いポリヌクレオチドの場合は任意選択的又は不要である。
用語「ポリヌクレオチド」、「核酸」、及び「核酸分子」は同じ意味で用いられ、1つのヌクレオチドのペントースの3’位置が、ホスホジエステル基によって次のペントースの5’位置に結合されるヌクレオチドの共有結合様の配列(すなわち、RNAに関してはリボヌクレオチド、またDNAに関してはデオキシリボヌクレオチド)を意味する。ヌクレオチドは、cfDNA分子などのRNA及びDNA分子を含むがこれらに限定されない、任意の形態の核酸の配列を含む。用語「ポリヌクレオチド」は、一本鎖及び二本鎖ポリヌクレオチドを含むが、これらに限定されない。
本明細書における用語「試験サンプル」は、典型的には、コピー数多型に関してスクリーニングされる少なくとも1つの核酸配列を含有する生物液、細胞、組織、器官、又は生物に由来するサンプルを指す。特定の実施形態では、サンプルは少なくとも1つの核酸配列を含み、そのコピー数は、変化したものと疑われる。このようなサンプルとしては、痰/口腔流体、羊水、血液、血液分画、又は細針生検サンプル(例えば、外科生検、細針生検など)、尿、腹膜流体、胸膜流体などが挙げられるが、これらに限定されない。サンプルは、多くの場合、ヒト被験者(例えば、患者)から採取されるが、分析物は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない哺乳動物からのサンプル内のコピー数多型(CNV)に対して使用することができる。サンプルは、生物学的源から得られるように、又はサンプルの特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法は、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。このような前処理方法がサンプルに対して採用される場合、このような前処理方法は、典型的には、時々、未処理の試験用サンプル(例えば、すなわち任意のこのような前処理方法(複数可)に供されないサンプル)に比例する濃度で、対象とする核酸(複数可)が試験用サンプル中に残存するようなものである。このような「処理された(treated)」又は「処理された(processed)」サンプルは、本明細書に記載された方法に関して、依然として生物学的「試験用」サンプルであると考えられる。
本明細書における用語「トレーニングセット」は、影響ありサンプル及び/又は影響なしサンプルを含むことができ、試験サンプルを分析するためのモデルを開発するために使用されるトレーニングサンプルのセットを指す。いくつかの実施形態では、トレーニングセットは、影響なしサンプルを含む。これらの実施形態では、CNVを判定するための閾値は、対象コピー数多型について影響なしサンプルのトレーニングセットを使用して確定される。トレーニングセット内の影響なしサンプルは、適格サンプルとして使用されて、正規化染色体などの正規化配列を特定することができ、影響なしサンプルの染色体量を使用して、対象配列、例えば、染色体のそれぞれについて閾値を設定する。いくつかの実施形態では、トレーニングセットは、影響ありサンプルを含む。トレーニングセット内の影響ありサンプルを使用して、影響あり試験サンプルが影響なしサンプルと容易に区別できることを確認することができる。
トレーニングセットはまた、対象集団における統計サンプルであり、この統計サンプルは、生物学的サンプルと混同すべきではない。統計サンプルは多くの場合、複数の個体を含み、個体のデータは、母集団に一般化可能な1つ又はそれ以上の定量値を判定するために使用される。統計サンプルは、対象母集団における個体のサブセットである。個体は、人、動物、組織、細胞、他の生物学的サンプル(すなわち、統計サンプルは複数の生物学的サンプルを含んでもよい)、及び統計分析のためのデータ点を提供する他の個々のエンティティであってもよい。
通常、トレーニングセットは、検証セットと併せて使用される。用語「検証セット」は、統計サンプル中の個体のセットを指すために使用され、個体のデータは、トレーニングセットを使用して判定された対象の定量値を検証又は評価するために使用される。いくつかの実施形態では、例えば、トレーニングセットが、参照配列のマスクを計算するためのデータを提供する一方、検証セットは、マスクの妥当性又は有効性を評価するためのデータを提供する。
本明細書において、用語「対象配列」又は「対象核酸配列」は、健康な個体と疾病のある個体との間の配列表現の差に関連付けられる核酸配列を指す。対象配列は、疾患又は遺伝的状態において、誤って発現された、すなわち過剰又は過小に発現された染色体上の配列であり得る。対象配列は、染色体の一部、すなわち、染色体セグメントであってもよく、染色体全体であってもよい。例えば、対象配列は、異数性状態において過剰に発現された染色体、又は癌において過小に発現された腫瘍抑制因子をコードする遺伝子であってもよい。対象配列としては、集団全体又は被験者の細胞のサブ集団において過剰又は過小に発現された配列が挙げられる。「対象適格配列」は、適格サンプル中の対象配列である。「対象試験配列」は、試験サンプル中の対象配列である。
本明細書における用語「正規化配列」は、正規化配列に関連付けられた対象配列にマッピングされる配列タグの数を正規化するために使用される配列を指す。いくつかの実施形態では、正規化配列は、ロバストな染色体を含む。「ロバストな染色体」は、異数性である可能性が低いものである。ヒト染色体に関与する場合では、ロバストな染色体は、X染色体、Y染色体、13番染色体、18番染色体、及び21番染色体以外の任意の染色体である。いくつかの実施形態では、正規化配列は、それが正規化パラメータとして使用される対象配列の変動性に近似するサンプル及びシーケンシングランの中で、正規化配列にマッピングされる配列タグの数の変動性を示す。正規化配列は、影響ありサンプルと1つ又はそれ以上の影響なしサンプルとを区別することができる。いくつかの実施態様では、正規化配列は、他の染色体などの他の潜在的な正規化配列と比較されるとき、影響ありサンプルと1つ又はそれ以上の影響なしサンプルとを、最良又は効果的に区別する。いくつかの実施形態では、正規化配列の多様性は、サンプル及びシーケンシングラン全体にわたって対象配列に関する染色体量の多様性として計算される。いくつかの実施形態では、正規化配列は、影響なしサンプルのセットにおいて特定される。
「正規化染色体」、「正規化基準染色体」、又は「正規化染色体配列」は、「正規化配列」の例である。「正規化染色体配列」は、単一の染色体又は染色体群から構成され得る。いくつかの実施形態では、正規化配列は、2つ以上のロバストな染色体を含む。特定の実施形態では、ロバストな染色体は、X、Y、13番、18番、及び21番染色体以外の全ての常染色体である。「正規化セグメント」は、「正規化配列」の別の例である。「正規化セグメント配列」は、染色体の単一セグメントから構成されてもよく、又は同じ又は異なる染色体の2つ又はそれ以上のセグメントから構成されてもよい。特定の実施形態では、正規化配列は、プロセス関連、染色体間(ラン内)、及びシーケンシング間(ラン間)変動などの変動性について正規化することが意図される。
本明細書における用語「差異性」は、1つ又はそれ以上の影響なし、すなわち、正常サンプルと、1つ以上の影響ありサンプル、すなわち、異数性サンプルとの区別を可能にする正規化染色体の特徴を指す。最大の「差異性」を示す正規化染色体は、1セットの適格サンプル中の対象染色体に関する染色体量と、1つ又はそれ以上の影響ありサンプル中の対応する染色体における同じ対象染色体に関する染色体量との分布間の最大の統計的差異を提供する染色体又は染色体群である。
本明細書における用語「変動性」は、1つ又はそれ以上の影響なし、すなわち、正常サンプルと、1つ以上の影響ありサンプル、すなわち、異数性サンプルとの区別を可能にする正規化染色体の別の特徴を指す。正規化染色体の変動性は、適格サンプルのセット内で測定され、正規化パラメータとして機能する対象染色体にマッピングされる配列タグの数の変動に近似する配列タグの数の変動性を指す。
用語「カバレッジ」は、定義された配列にマッピングされた配列タグの存在度を指す。カバレッジは、配列タグ密度(又は配列タグのカウント)、配列タグ密度比、正規化カバレッジ量、調節されたカバレッジ値などによって定量的に示すことができる。
本明細書で使用される場合、用語「シーケンシング深度」は、一般に遺伝子座が、その遺伝子座に位置合わせされた配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチド程度に小さいか、又は染色体アーム程度に大きいか、又はゲノム全体程度に大きくてもよい。シーケンシング深度は、50x、100xなどとして表すことができ、「x」は、遺伝子座が配列リードでカバーされる回数を指す。シーケンシング深度はまた、複数の遺伝子座又は全ゲノムに適用することができ、この場合、xは、遺伝子座又はハプロイドゲノム、又は全ゲノムがそれぞれシーケンシングされる平均回数を指すことができる。平均深度が引用されるとき、データセットに含まれる異なる遺伝子座の実際の深さは、値の範囲にわたって広がる。ウルトラディープシーケンシングは、シーケンシング深度において少なくとも100xを指すことができる。
染色体の「有効リードカバレッジ」は、リードによってカバーされた塩基の実際の量として定義される。リードによるヌクレオチドの予想されるカバレッジを指すシーケンシング深度は、リードが染色体間で均一に合成されるという仮定に基づいて計算される。実際には、ゲノム全体のリードカバレッジは均一ではない。例えば、10xの被覆率は、ヌクレオチドが平均で10回カバーされているが、ゲノムの特定の部分において、ヌクレオチドははるかに多く又ははるかに少なくカバーされていることを意味する。カバレッジに影響を与える1つの要因は、リードアライナーがゲノムにリードを位置合わせする能力である。ゲノムの一部が複雑である場合、例えば、多くの繰り返しを有する場合、アライナーは、リードをその領域に位置合わせするのに困難を有し、結果としてカバレッジが低くなる可能性がある。
用語「カバレッジ量」は、生カバレッジの改変を指し、多くの場合、ビンなどのゲノムの領域内の配列タグの相対量(カウントと称されることもある)を表す場合が多い。カバレッジ量は、ゲノムの領域について生カバレッジ又はカウントを正規化、調整、及び/又は補正することによって得ることができる。例えば、ある領域の正規化カバレッジ量は、該領域にマッピングされた配列タグカウントを、ゲノム全体にマッピングされた総配列タグ数で除算することによって得ることができる。正規化カバレッジは、異なるシーケンシングの深度を有し得る様々なサンプルにわたるビンのカバレッジの比較を可能にする。正規化カバレッジは配列量と異なり、後者は典型的には、ゲノム全体のサブセットにマッピングされたタグカウントで除算することによって得られる。サブセットは、1つ以上の正規化セグメント又は染色体である。正規化されているか否かにかかわらず、カバレッジ量は、ゲノム上の領域間の全体的なプロファイル変動、G-C分画変動、ロバストな染色体における外れ値などについて補正されてもよい。
本明細書において、用語「次世代シーケンシング(Next Generation Sequencing、NGS)」とは、クローン的に増幅された分子及び単一核酸分子の大規模な並列シーケンシングを可能にするシーケンシング法を意味する。NGSの非限定的な例としては、リバーシブルダイターミネータシーケンシング(reversible dye terminators)を用いた合成によるシーケンシング(sequencing-by-synthesis)、及びライゲーションによるシーケンシング(sequencing-by-ligation)が挙げられる。
本明細書における用語「パラメータ」は、システムの特性を特徴付ける数値を指す。しばしば、パラメータは、定量データセット及び/又は定量データセット間の数値関係を数値的に特徴付ける。例えば、染色体に位置づけられる配列タグの数と、タグがマッピングされる染色体の長さとの比(又は比の関数)は、パラメータである。いくつかの場合において、本明細書で使用される用語「パラメータ」は、その値又は他の特性がコピー数多型などの関連条件に影響を及ぼす物理的特徴を表す。いくつかの場合において、パラメータという用語は、数学的関係又はモデルの出力に影響を及ぼす変数を参照して使用され、変数は、独立変数(すなわち、モデルへの入力)又は1つ以上の独立変数に基づく中間変数であってもよい。モデルの範囲に応じて、1つのモデルの出力は、別のモデルの入力になることによって他のモデルへのパラメータとなり得る。
用語「ビン」は、配列のセグメント又はゲノムのセグメントを指す。いくつかの実施形態では、ビンは、ゲノム又は染色体内で互いに隣接している。各ビンは、参照ゲノム中のヌクレオチド配列を定義することができる。ビンのサイズは、特定の用途及び配列タグ密度によって必要とされる分析に応じて、1kb、100kb、1Mbなどであってもよい。参照配列内の位置に加えて、ビンは、サンプルカバレッジ及びG-C分画などの配列構造特性などの他の特性を有してもよい。
本明細書における用語「正規化値」は、対象の配列(例えば、染色体又は染色体セグメント)について特定された配列タグの数を、正規化配列(例えば、正規化染色体又は正規化染色体セグメント)について特定された配列タグの数に関連付ける数値を指す。例えば、「正規化値」は、本明細書の他の箇所に記載されるような染色体量とする、又はNCVとする、又は本明細書の他の箇所に記載されるようにNSVとすることができる。
用語「リード」は、核酸サンプルの一部から得られる配列を指す。典型的には、必ずしもそうではないが、リードは、サンプルにおける連続的な塩基対の短い配列を表す。リードは、サンプル部分の塩基対配列(A、T、C、又はG)によって記号的に表されてもよい。リードが参照配列と整合する、又はその他の基準を満たすかを決定するために、メモリデバイスに記憶され、適切に処理されてもよい。リードは、シーケンシング装置から直接、又は試料に関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きな配列又は領域を識別するために使用することができる十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
用語「ゲノムリード」とは、個体のゲノム全体における任意のセグメントのリードに関して使用される。
本明細書で使用される場合、「配列リード」(又はシーケンシングリード)は、一般に、核酸分子の任意の部分又は全てからシーケンシングされたヌクレオチドのストリングを指す。例えば、配列リードは、核酸断片、核酸断片の一方又は両方の末端におけるヌクレオチドの短いストリング、又は生体サンプル中に存在する核酸断片全体のシーケンシングからシーケンシングされたヌクレオチドの短いストリング(例えば、20~150)であり得る。配列リードは、様々な方法で、例えば、シーケンシング技術を使用して、又はプローブを、例えばハイブリダイゼーションアレイ若しくは捕捉プローブにおいて使用して、又は増幅技術(単一のプライマー若しくは等温増幅を使用したポリメラーゼ連鎖反応(PCR)又は線形増幅など)を使用して得ることができる。
用語「部位」とは、参照ゲノム上の固有の位置(すなわち、染色体ID、染色体位置及び配向)を指す。いくつかの実施形態では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。
本明細書で使用するとき、用語「位置合わせされた」、「位置合わせ」、又は「位置合わせする」は、リード又はタグを参照配列と比較することによって、参照配列がリード配列を含むか否かを判定するプロセスを指す。参照配列がリードを含む場合、リードは参照配列に位置づけられてもよい、又は特定の別の実施形態では、参照配列内の特定の位置にマッピングされてもよい。いくつかの場合において、位置合わせは、リードが特定の参照配列のメンバーであるか否か(すなわち、リードが参照配列中に存在するか又は存在していないか)かを単に伝える。例えば、ヒト染色体13についての参照配列に対するリードの位置合わせは、染色体13の参照配列中にリードが存在するかどうかを伝える。本情報を提供するツールは、セットメンバーシップテスタ(set membership tester)と呼ばれる場合がある。いくつかの場合においては、位置合わせは、リード又はタグが参照シーケンス内にマッピングする場所を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、位置合わせは、染色体13上にリードが存在することを示してもよく、更に、リードが染色体13の特定の鎖及び/又は部位にあることを更に示してもよい。
位置合わせされたリード又はタグは、参照ゲノムから既知の配列までの核酸分子の順序に関して一致として特定される1つ以上の配列である。位置合わせは手動で行うことができるが、本明細書に開示された方法を実施するために合理的な時間周期でリードを位置合わせさせることが不可能であるため、典型的にはコンピュータアルゴリズムによって実施される。配列を位置合わせさせるアルゴリズムの一例は、Illumina Genomics Analysisパイプラインの一部として分散されたヌクレオチドデータ(ELAND)コンピュータプログラムの効率的な局所位置合わせである。あるいは、ブルームフィルタ(Bloom filter)又は同様のセットメンバーシップテスタを用いて、リードを参照ゲノムに位置合わせさせることができる。参照により本明細書に全文が組み込まれる、2011年10月27日に出願された米国特許出願第61/552,374号を参照されたい。位置合わせの際の配列リードのマッチングは、100%配列一致又は100%未満(非完璧一致)であり得る。
本明細書で使用される用語「マッピング」は、位置合わせによって、配列リードをより大きな配列、例えば、参照ゲノムに明確に)に割り当てることを指す。
本発明で使用する場合、用語「参照ゲノム」又は「参照配列」とは、対象からの特定された配列を参照するために使用され得る任意の生物又はウイルスの部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くのその他の生物が、National Center for Biotechnology Information(ncbi.nlm.nih.gov)で見出される。「ゲノム」とは、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を意味する。
各種実施形態では、参照配列は、それに位置合わせされたリードよりも著しく大きくてもよい。例えば、それは、少なくとも約100倍大きい、又は少なくとも約1000倍大きい、又は少なくとも約10,000倍大きい、又は少なくとも約105倍大きい、又は少なくとも約106倍大きい、又は少なくとも約107倍大きい場合がある。
一実施例では、参照配列は、完全長ヒトゲノムのものである。このような配列は、ゲノム参照配列と呼ばれることもある。別の例では、参照配列は、13番染色体などの特定のヒト染色体に限定される。いくつかの実施形態では、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。このような配列は、染色体参照配列と呼ばれることもある。参照配列の他の例としては、その他の種のゲノム、並びに任意の種の染色体、部分染色体領域(ストランドなど)などが挙げられる。
様々な実施形態では、参照配列は、複数の個体に由来する共通塩基配列又はその他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。
本明細書において、用語「臨床関連配列」とは、既知である、又は遺伝的若しくは病状に関連する又は暗示されることが疑われる核酸配列を意味する。臨床関連配列の不在又は存在を決定することは、診断を判定すること、又は医学的状態の診断を確認すること、又は疾患の発症の予後を提供するのに有用であり得る。
用語「誘導される」とは、核酸又は核酸の混合物の文脈で使用される場合に、本明細書では、核酸が生じる源から核酸(複数可)が得られる手段を意味する。例えば、一実施形態では、2つの異なるゲノムに由来する核酸の混合物は、核酸、例えば、cfDNAが、壊死又はアポトーシスなどの自然発生プロセスを通じて細胞によって自然に放出されたことを意味する。別の実施形態では、2つの異なるゲノムに由来する核酸の混合物は、核酸が被験体からの2つの異なる種類の細胞から抽出されたことを意味する。
用語「基づいて」とは、特定の定量的値を得るという文脈において使用される場合、特定の定量的値を出力として計算するための入力として別の量を使用することを意味する。
本明細書において用語「患者サンプル」とは、患者から得られた生体サンプル、すなわち、医療用注意、ケア、又は治療の受け手を意味する。患者サンプルは、本明細書に記載されたサンプルのうちのいずれかであり得る。特定の実施形態では、患者サンプルは、非侵襲的処置、例えば、末梢血サンプル又は糞便サンプルによって得られる。本明細書に記載された方法は、ヒトに限定される必要はない。したがって、患者サンプルが非ヒト哺乳動物(例えば、ネコ、ブタ、ウマ、ウシなど)からのサンプルであり得る種々の獣医学的用途が想到される。
本明細書における用語「混合サンプル」は、異なるゲノム由来の核酸の混合物を含有するサンプルを指す。
本明細書における用語「母体サンプル」は、妊婦被験者、例えば、女性から得られる生物学的サンプルを指す。
本明細書において、用語「生物学的流体」とは、生物学的供給源から採取される液体を意味し、例えば、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液などを含む。本発明で使用する場合、用語「血液」、「血漿」、及び「血清」は、その分画又はその処理された部分を明示的に包含する。同様に、サンプルが生検、綿棒、スミアなどから採取される場合、「サンプル」は、生検、綿棒、スミアなどから得られる処理された分画又は部分を明示的に包含する。
本明細書における用語「母体核酸」及び「胎児核酸」は、妊娠中の女性の被験者の核酸、及び妊娠中の女性が身ごもっている胎児の核酸を指す。本明細書における「腫瘍核酸」という用語は、患者の1つ以上の腫瘍に由来する核酸を指す。
本発明で使用する場合、用語「対応する」とは、時として、異なる対象のゲノム中に存在する核酸配列、例えば、遺伝子又は染色体を指し、必ずしも全てのゲノムに同一の配列を有さないが、対象とする配列(例えば、遺伝子又は染色体)の遺伝情報ではなく同一性を提供する役割を果たす。
本明細書で使用するとき、用語「胎児分画」は、胎児核酸及び母体核酸を含むサンプル中に存在する胎児核酸の分画を指す。胎児分画は、母親の血液中のcfDNAを特徴付けるために使用されることが多い。本明細書で使用するとき、用語「腫瘍分画」は、患者の腫瘍核酸及び正常な核酸の混合物を含むサンプル中に存在する腫瘍核酸の分画を指す。
本発明で使用する場合、用語「染色体」とは、DNA及びタンパク質成分(特にヒストン)を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを意味する。従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。
本明細書で使用するとき、用語「ポリヌクレオチド長」は、参照ゲノムの配列又は領域中のヌクレオチドの絶対数を指す。用語「染色体長」とは、例えば、ヒト染色体のNCBI36/hg18アセンブリに提供される塩基対にある染色体の既知の長さを指す。インターネット(ncbi.nlm.nih.gov/assembly/GCF_000001405.12/)を参照されたい。
本明細書における用語「被験者」は、ヒト被験者だけでなく、哺乳類、脊椎動物、脊椎動物、真菌、酵母、細菌、及びウイルスなどの非ヒト被験体を指す。本明細書の実施例はヒトに関し、言語は主にヒトに関するが、本明細書に開示された概念は、任意の植物又は動物からのゲノムに適用可能であり、獣医学、動物科学、研究所、及びこのような分野において有用である。
本明細書における用語「状態」は、全ての疾患及び障害を含む広範な用語として「医学的状態」を指すが、人の健康や医療補助からの恩恵に影響を及ぼし得る、又は医療処置に影響を及ぼし得る、傷害や妊娠などの正常な健康状況も含むことができる。
本明細書では、染色体異数性に関連して使用されるとき、用語「完全」は、染色体全体の獲得又は損失を指す。
本明細書では、染色体異数性に関連して使用されるとき、用語「部分」は、染色体の一部、すなわちセグメントの獲得又は損失を指す。
本明細書における用語「モザイク」は、単一の受精卵から成長した1つの個体における、異なる核型を有する2つの細胞集団の存在を示すことを指す。モザイク現象は、成人細胞のサブセットのみに伝播される成長中の突然変異から生じ得る。
本明細書における用語「非モザイク」は、1つの核型の細胞から構成される生物、例えば、ヒト胎児を指す。
本明細書で使用するとき、用語「感度」は、対象状態が存在するときに試験結果が陽性となる確率を指す。感度は、真陽性の数を真陽性と偽陰性との合計で除算することによって計算することができる。
本明細書で使用するとき、用語「特異性」は、対象状態が存在しない場合に試験結果が陰性である確率を指す。特異性は、真陰性の数を真陰性と偽陽性との合計で除算することによって計算することができる。
本明細書における用語「濃縮」は、母体サンプルの一部に含まれる多型標的核酸を増幅し、増幅された産物と、その部分が除去された母体サンプルの残部とを組み合わせるプロセスを指す。例えば、母体用サンプルの残部は元母体サンプルであり得る。
本明細書における用語「元母体サンプル」は、多型標的核酸を増幅するために一部が除去されるソースとして機能する、妊婦の被験者、例えば、女性から得られる非濃縮生物学的サンプルを指す。「元サンプル」は、妊娠した被験者から得られた任意のサンプル、及びその処理された分画、例えば、母体血漿サンプルから抽出された精製cfDNAサンプルであってもよい。
本発明で使用する場合、用語「プライマー」とは、伸長生成物の合成に誘導性の条件(例えば、条件は、ヌクレオチド、DNAポリメラーゼなどの誘導剤、及び好適な温度並びにpHを含む)下に置かれた場合に合成の開始点として作用することができる、単離されたオリゴヌクレオチドを意味する。プライマーは、好ましくは最大増幅効率のために一本鎖であるが、二本鎖であってもよい。二本鎖である場合、プライマーはまず、拡張産物を調製するために使用される前に、その鎖を分離するように処理される。好ましくは、プライマーは、オリゴデオキシリボヌクレオチドである。プライマーは、誘導剤の存在下で拡張産物の合成をプライミングするのに十分な長を有していなければならない。プライマーの正確な長さは、温度、プライマー源、方法の使用、及びプライマー設計に使用されるパラメータを含む多くの因子に依存する。
追記事項
以下により詳細に考察される、前述の概念及び更なる概念の全ての組み合わせが、(かかる概念が相互に矛盾しなければ)本明細書に開示される発明の主題の一部であると企図されることを理解されたい。具体的には、本開示の終わりに現れる特許請求される主題の全ての組み合わせは、本明細書に開示される発明の主題の一部であると企図される。本明細書で明示的に用いられ、また参照により組み込まれる任意の開示においても出現し得る用語は、本明細書で開示される特定の概念と最も一致する意味が与えられるべきであることも理解すべきである。
「一例」、「別の例」、「ある例」などへの本明細書全体を通じての言及は、例に関連して記載されている特定の要素(例えば、特徴、構造、及び/又は特性)が、本明細書に記載されている少なくとも1つの例に含まれており、他の例に存在していても、存在していなくともよいことを意味している。更に、文脈上明確に別段の指示がない限り、任意の例に関する記載の要素は、様々な例において任意の好適な様式で組み合わせ得ることを理解すべきである。
本明細書に提供される範囲は、そのような値又は部分範囲が明示的に列挙されているかのように、示される範囲及びその示される範囲内の任意の値又は部分範囲を含むことを理解されたい。例えば、約2nm~約20nmの範囲は、約2nm~約20nmの明示的に列挙された限度だけでなく、約3.5nm、約8nm、約18.2nmなどの個々の値、及び約5nm~約10nmなどの部分範囲も含むと解釈されるべきである。更に、値を説明するために「約」及び/又は「実質的に」が利用される場合、それらは、記載された値からのわずかなばらつき(最大±10%)を包含することを意味する。
いくつかの実施例を詳細に説明してきたが、開示された例は修正され得ることを理解すべきである。したがって、これまでの説明は非限定的なものであると考えるべきである。
特定の例が説明されてきたが、これらの実施例は、単なる例として提示されており、本開示の範囲を限定することを意図するものではない。実際、本明細書に記載の新規の方法及びシステムは、様々な他の形態で具体化され得る。更に、本明細書に記載のシステム及び方法の様々な省略、置換、及び変更は、本開示の趣旨から逸脱することなく行われ得る。添付の特許請求の範囲及びそれらの等価物は、本開示の範囲及び趣旨に含まれるように、そのような形態又は修正を網羅することが意図される。
本発明の記載された方法及び組成物の様々な修飾及び変形は、本発明の範囲から逸脱することなく、当業者には明らかであろう。本発明は、特定の好ましい実施形態に関連して説明されてきたが、特許請求される本発明は、そのような特定の実施形態に過度に限定されるべきではないことを理解されたい。実際、関連分野の当業者に明らかな本発明を実施するための記載されたモードの様々な修正は、以下の特許請求の範囲内にあることが意図される。
特定の態様、又は実施例と併せて記載された特徴、材料、特性、又は基は、このセクションに記載される任意の他の態様若しくは実施例(aspector example)、又はそれと矛盾しない限り、本明細書の他の場所に適用可能であると理解されるべきである。本明細書(任意の添付の特許請求の範囲、要約及び図面を含む)に開示された特徴の全て、及び/又はそのように開示された任意の方法若しくはプロセスのステップの全てが、そのような特徴及び/又はステップのうちの少なくともいくつかが相互に排他的である場合の組み合わせを除いて、任意の組み合わせで組み合わされ得る。保護は、任意の前述の例の詳細に限定されない。本明細書(任意の添付の特許請求の範囲、要約及び図面を含む)に開示された特徴のうちの、任意の新規のもの若しくは任意の新規の組み合わせに対して、又はそのように開示された任意の方法若しくはプロセスのステップのうちの、任意の新規のもの若しくは任意の新規の組み合わせに対して、保護が及ぶものとする。
更に、別個の実施態様の文脈において本開示に記載されている特定の特徴はまた、単一の実施態様において組み合わせて実施され得る。逆に、単一の実施態様の文脈で説明される様々な特徴はまた、複数の実施態様で別々に、又は任意の好適な部分的組み合わせで実施され得る。更に、特徴が特定の組み合わせで機能するものと上述される場合があるが、特許請求された組み合わせからの1つ以上の特徴は、場合によっては組み合わせから削除することができ、その組み合わせは、部分的組み合わせ、又は部分的組み合わせの変形として特許請求され得る。
更に、動作は、図面に示されるか、又は特定の順序で明細書に記載されている場合があるが、このような動作は、所望の結果を得るために、示される特定の順序で若しくは順次実行される、又は全ての動作が実行されることを必要としない。図示又は記載されていない他の操作を、例示的な方法及びプロセスに組み込むことができる。例えば、1つ以上の追加の動作は、記載された動作のうちのいずれかの前、後、同時に、又は間に実行することができる。更に、動作は、他の実施において、再配列又は再順序付けされ得る。当業者は、いくつかの実施例では、図示及び/又は開示されたプロセスで取られた実際のステップが、図に示されるものとは異なり得ることを理解するであろう。実施例に応じて、上記のステップのいくつかを除去することができるか、又は他のステップを追加することができる。更に、上記に開示された特定の実施例の特徴及び属性は、異なる方法で組み合わされて、追加の実施例を形成してもよく、その全ては、本開示の範囲内にある。また、上述の実施態様の種々のシステム構成要素の分離は、全ての実施態様でこのような分離を必要とするとして理解されてはならず、記載した構成要素及びシステムは通常、単一の製品に一緒に統合することができる、又は複数の製品内にパッケージ化することができることを理解すべきである。例えば、本明細書に記載のエネルギー貯蔵システムのための構成要素のいずれも、別々に提供されるか、又は一緒に一体化されて(例えば、一緒に包装されるか、又は一緒に取り付けられて)エネルギー貯蔵システムを形成することができる。
本開示の目的のために、特定の態様、利点、及び新規の特徴が本明細書に記載されている。そのような利点が全て、任意の特定の実施例に従って達成され得るとは限らない。したがって、例えば、当業者は、本開示が、本明細書で教示又は示唆され得る他の利点を必ずしも達成しなくとも、本明細書で教示する1つの利点又は一群の利点を達成するような様式で、具現化又は実行することができることを認識するであろう。
特に明記しない限り、又はその他の方法で使用される際に文脈内で理解される「can」、「could」、「might」、又は「may」などの条件付き言語は、一般に、特定の特徴、要素、及び/又はステップが、特定の例には含まれるが、その他の例には含まれないことを伝えることを意図している。したがって、そのような条件付き言語は、一般に、特徴、要素、及び/又はステップが、1つ以上の実施例に必要な任意の方法であること、又は1つ以上の実施例が、ユーザ入力若しくはプロンプティングの有無にかかわらず、これらの特徴、要素、及び/又はステップが含まれるか、又は任意の特定の実施例で実行されるべきかを決定するためのロジックを必然的に含むことを意味することを意図するものではなく。
特に明記しない限り、「X、Y、及びZのうちの少なくとも1つ」という語句などの結合言語は、項目、用語などが、X、Y、又はZのいずれかであり得ることを伝えるために、他の方法で一般に使用されているとおりの文脈で理解されている。したがって、そのような結合言語は、一般に、特定の例が、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、及びZのうちの少なくとも1つの存在を必要とすることを一般的に意味することを意図するものではない。
「約(approximately)」、「約(about)」、「一般に」、及び「実質的に」という用語などの本明細書で使用される程度の言語は、所望の機能を依然として実行するか、又は所望の結果を達成する、記載された値、量、又は特性に近い値、量、又は特性を表す。
本開示の範囲は、このセクション又は本明細書の他の場所における好ましい実施例の特定の開示によって限定されることを意図するものではなく、このセクション又は本明細書の他の場所に提示されるか、又は将来提示されるような特許請求の範囲によって定義され得る。特許請求の範囲の言語は、特許請求の範囲に用いられる言語に基づいて、かつ本明細書に記載されている実施例に限定されずに、広く解釈されるべきであり、又は本出願の手続き中に、その実施例は非排他的であると解釈されるべきである。

Claims (34)

  1. サンプル核酸を処理して標的変異を特定する方法であって、
    サンプル特異性を決定するために第1のシーケンシング反応を実行することと、
    前記サンプル特異性に基づいて、前記標的変異に関連する第1の統計的尺度を決定することと、
    前記第1の統計的尺度を参照することによって、前記第1のシーケンシング反応からの前記標的変異についての第1のリードカバレッジが閾値を超えるか、又は前記閾値未満であるかを判定することと、
    判定した前記第1のリードカバレッジが前記閾値を超えない場合、第2のシーケンシング反応を実行するのに十分な量のサンプル核酸が利用可能であるかどうかを判定して、前記閾値を超えて前記第1のリードカバレッジを増加させることと、
    十分な量のサンプル核酸が利用可能である場合、第2の有効リードカバレッジを得るために必要なサンプル量を計算し、前記サンプル核酸を再シーケンシングして、前記閾値を超える第2のリードカバレッジを得ることと、を含む、方法。
  2. 前記第1の統計的尺度が、前記サンプル核酸の胎児分画と前記第1のシーケンシング反応のシーケンシング深度との間の関係である、請求項1に記載の方法。
  3. 前記第1の統計的尺度が、前記サンプル核酸の腫瘍分画と前記第1のシーケンシング反応のシーケンシング深度との間の関係である、請求項1に記載の方法。
  4. 前記第1の統計的尺度が、指定された検出確率で対象状態に特異的である、請求項1に記載の方法。
  5. 十分な量のサンプル核酸が利用可能ではない場合、前記サンプル核酸を再シーケンシングすることが、前記標的変異に関して無益であることを報告することを更に含む、請求項1~4のいずれか一項に記載の方法。
  6. サンプル特異性を決定するために前記第1のシーケンシング反応を実行することが、
    前記第1のシーケンシング反応から配列リードを得ることと、
    前記配列リードを参照配列に位置合わせし、位置合わせ結果を得ることと、を含み、前記参照配列は、代表的なゲノム又はトランスクリプトームの一部を含む、請求項1~4のいずれか一項に記載の方法。
  7. 前記サンプル核酸を再シーケンシングすることが、
    前記第1のシーケンシング反応後に前記サンプル核酸の残余で前記第2のシーケンシング反応を実行することを含む、請求項1~4のいずれか一項に記載の方法。
  8. 前記第2のシーケンシング反応を実行するのに前記十分な量の前記サンプル核酸が利用可能であるかどうかを判定することが、
    前記第2のリードカバレッジRCを、RC/V=RC/Vによって推定することであって、式中、RCは、判定した前記第1のリードカバレッジであり、Vは、前記第1のシーケンシング反応で使用された前記サンプル核酸の体積であり、Vは、前記サンプル核酸の残余の体積である、ことと、
    推定した前記RCが前記閾値を超える場合、前記第2のシーケンシング反応を実行するのに前記十分な量の前記サンプル核酸が利用可能であると判定することと、を含む、請求項7に記載の方法。
  9. 前記第1のシーケンシング反応及び前記第2のシーケンシング反応が、次世代シーケンシングプロセスを利用する、請求項1~4のいずれか一項に記載の方法。
  10. 前記サンプル核酸が、ライブラリ調製プロセスによって未処理サンプルから生成され、前記ライブラリ調製プロセスが、次世代シーケンシングプロセスに対応している、請求項9に記載の方法。
  11. 前記未処理サンプルが血漿を含む、請求項10に記載の方法。
  12. 前記未処理サンプルが血清を含む、請求項10に記載の方法。
  13. 前記第1のシーケンシング反応からの前記標的変異についての前記第1のリードカバレッジが前記閾値を超えるか、又は前記閾値未満であるかを判定することが、
    前記第1のシーケンシング反応の結果に基づいて、前記第1の統計的尺度を決定することと、
    決定した前記第1の統計的尺度がカットオフを超えない場合、前記第1のシーケンシング反応の結果に基づいて前記第1のリードカバレッジを決定することと、
    決定した前記第1のリードカバレッジを前記閾値と比較することと、を含む、請求項1~4のいずれか一項に記載の方法。
  14. 決定した前記第1の統計的尺度が、前記カットオフよりも低い第2のカットオフを超えない場合、前記標的変異の陰性所見を報告することを更に含む、請求項13に記載の方法。
  15. 決定した前記第1の統計的尺度が前記カットオフを超えない場合、かつ決定した前記第1のリードカバレッジが前記閾値を超える場合、前記標的変異の陰性所見を報告することを更に含む、請求項13に記載の方法。
  16. 決定した前記第1の統計的尺度が、前記カットオフを超える場合、前記標的変異の陽性所見を報告することを更に含む、請求項14又は15のいずれか一項に記載の方法。
  17. 前記サンプル核酸を再シーケンシングした後に、
    更なる配列リードを得ることと、
    前記更なる配列リードを参照配列に位置合わせし、更なる位置合わせ結果を得ることであって、前記参照配列は、代表的なゲノム又はトランスクリプトームの一部を含む、ことと、
    前記更なる位置合わせ結果に基づいて、前記標的変異を有するように第2の統計的尺度を決定することと、
    決定した前記第2の統計的尺度が、前記カットオフを超えない場合、前記標的変異の陰性所見を報告することと、
    そうでなければ、前記標的変異の陽性所見を報告することと、を更に含む、請求項13に記載の方法。
  18. 前記第2の統計的尺度が、前記第1のシーケンシング反応及び前記第2のシーケンシング反応からの前記配列リードの組み合わせに基づいている、請求項17に記載の方法。
  19. 前記第2の統計的尺度が、前記第1の統計的尺度と前記第2のシーケンシング反応に基づく追加の統計的尺度との組み合わせである、請求項17に記載の方法。
  20. 前記第2の統計的尺度が、前記第1の統計的尺度と前記第2のシーケンシング反応に基づく追加の統計的尺度との組み合わせに基づくパラメータである、請求項17に記載の方法。
  21. 前記サンプル核酸が、
    宿主からの宿主核酸と、
    ゲストからのゲスト核酸と、を含み、
    前記ホスト及び前記ゲストが同じ種に由来する、請求項13に記載の方法。
  22. 前記第1の統計的尺度が、対数尤度比であり、前記対数尤度比を決定することが、
    前記第1のシーケンシング反応の結果に基づいて真陽性率を決定することであって、前記真陽性率が、前記ゲスト核酸中の前記標的変異を検出する頻度である、ことと、
    前記第1のシーケンシング反応の結果に基づいて偽陽性率を決定することであって、前記偽陽性率が、前記宿主核酸中の前記標的変異を検出する頻度である、ことと、
    前記真陽性率を前記偽陽性率で割って、前記尤度比を得ることと、
    前記対数尤度比を得るために前記尤度比を対数変換することと、を含む、請求項21に記載の方法。
  23. 前記真陽性率を決定すること、及び前記偽陽性率を決定することが、
    前記標的変異で検出された核酸が、前記宿主核酸であるか又は前記ゲスト核酸であるかを、前記核酸の長さを核酸長の統計モデルと比較することによって推定することを含み、前記統計モデルが、前記サンプル核酸が由来する方法と同様に導出された生体サンプルから経験的に決定される、請求項22に記載の方法。
  24. 前記宿主核酸及び前記ゲスト核酸が、前記宿主を循環するセルフリー核酸に由来する、請求項21~23のいずれかに記載の方法。
  25. 前記宿主が、母親であり、前記ゲストが、胎児であり、前記胎児の前記標的変異が、前記胎児の表現型又は胎児死亡の原因に対応する、請求項21~23のいずれか一項に記載の方法。
  26. 前記標的変異が、前記胎児の異数性症候群、微小欠失症候群、又は微小重複症候群に対応する、請求項25に記載の方法。
  27. 前記宿主が患者であり、前記ゲストが腫瘍であり、前記腫瘍の前記標的変異は、癌の種類、ステージ、又は治療に対する感受性に対応する、請求項21に記載の方法。
  28. 前記カットオフが、
    前記サンプル中の前記ゲスト核酸も前記宿主核酸も前記標的変異を含まないと仮定して、前記ゲスト核酸の存在量のレベルが異なる前記サンプルに対応する複数の配列表現を計算的に生成することと、
    シーケンシングが異なるリードカバレッジで実行されると仮定して、前記複数の配列表現から位置合わせ結果をシミュレートすることと、
    シミュレートした前記位置合わせ結果に基づいて、存在量の前記レベルの各々及び前記リードカバレッジの各々で前記標的変異を有するように前記ゲストの前記第1の統計的尺度を決定することと、
    かかる配列表現のプリセットされた割合以上は達成することができない前記第1の統計的尺度の値に、前記カットオフを設定することと、によって設定される、請求項21に記載の方法。
  29. 前記プリセットされた割合が、0.1%、0.5%、1%、5%、又は10%である、請求項28に記載の方法。
  30. 前記閾値が、前記サンプル核酸中の前記ゲスト核酸が前記標的変異を含有することが既知であるか、又は含有すると仮定されるとき、また、前記サンプル核酸中の前記宿主核酸が前記標的変異を含有しないことが既知であるか、又は含有しないと仮定されるとき、決定した前記第1の統計的尺度がカットオフを超えることを可能にする最小リードカバレッジとして設定される、請求項21に記載の方法。
  31. 前記閾値が、前記標的変異の複雑さ、及び前記サンプル核酸中の前記ゲスト核酸の存在量の関数である、請求項30に記載の方法。
  32. 前記サンプル核酸中の前記ゲスト核酸の前記存在量が、
    前記第1のシーケンシング反応の結果に基づいて、前記サンプル核酸中の前記核酸の長さ分布を得ることと、
    得た前記長さ分布を核酸長の統計モデルと比較することによって前記存在量を推測することと、によって推定され、前記統計モデルが、前記サンプル核酸が由来する方法と同様に導出された生体サンプルから経験的に決定される、請求項31に記載の方法。
  33. 前記関数が、
    前記サンプル中の前記ゲスト核酸が前記標的変異を含む一方で、前記サンプル中の前記宿主核酸が前記標的変異を含有しないという仮定で、前記ゲスト核酸の存在量のレベルが異なる前記サンプルに対応する複数の配列表現を計算的に生成することと、
    シーケンシングが異なるリードカバレッジで実行されると仮定して、前記複数の配列表現から位置合わせ結果をシミュレートすることと、
    シミュレートした前記位置合わせ結果に基づいて、前記存在量のレベルの各々及び前記リードカバレッジの各々で前記標的変異を有するように前記ゲストの前記第1の統計的尺度を決定することと、
    前記標的変異について、前記存在量のレベルの各々における前記閾値を、決定した前記第1の統計的尺度が前記カットオフを超えることを可能にする前記最小リードカバレッジに設定することと、によって得られる、請求項31に記載の方法。
  34. サンプル核酸を処理して標的変異を特定するシステムであって、
    前記サンプル核酸をシーケンシングするように構成されたシーケンサと、
    請求項1~33のいずれかに記載の方法を実行するように前記シーケンサを制御するように構成されたプロセッサと、
    前記プロセッサと動作可能に接続されたメモリと、を備える、システム。
JP2022574704A 2020-12-02 2021-11-30 遺伝子変異を検出するためのシステム及び方法 Pending JP2023552015A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063120636P 2020-12-02 2020-12-02
US63/120,636 2020-12-02
PCT/US2021/061139 WO2022119812A1 (en) 2020-12-02 2021-11-30 System and method for detection of genetic alterations

Publications (1)

Publication Number Publication Date
JP2023552015A true JP2023552015A (ja) 2023-12-14

Family

ID=79165076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022574704A Pending JP2023552015A (ja) 2020-12-02 2021-11-30 遺伝子変異を検出するためのシステム及び方法

Country Status (7)

Country Link
US (1) US20220170010A1 (ja)
EP (1) EP4256565A1 (ja)
JP (1) JP2023552015A (ja)
CN (1) CN116157869A (ja)
AU (1) AU2021391422A1 (ja)
CA (1) CA3179883A1 (ja)
WO (1) WO2022119812A1 (ja)

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
EP3034626A1 (en) 1997-04-01 2016-06-22 Illumina Cambridge Limited Method of nucleic acid sequencing
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP2607369B1 (en) 2002-08-23 2015-09-23 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
JP4683922B2 (ja) 2002-09-06 2011-05-18 トラスティーズ オブ ボストン ユニバーシティ 遺伝子発現の定量方法
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
WO2007145612A1 (en) 2005-06-06 2007-12-21 454 Life Sciences Corporation Paired end sequencing
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
WO2008045505A2 (en) 2006-10-10 2008-04-17 Xenomics, Inc. Compositions, methods and kits for isolating nucleic acids from body fluids using anion exchange media
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
GB2457851B (en) 2006-12-14 2011-01-05 Ion Torrent Systems Inc Methods and apparatus for measuring analytes using large scale fet arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US20110245085A1 (en) 2010-01-19 2011-10-06 Rava Richard P Methods for determining copy number variations
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK2852680T3 (da) 2012-05-21 2020-03-16 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv evaluering af genetiske variationer
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10643738B2 (en) 2013-01-10 2020-05-05 The Chinese University Of Hong Kong Noninvasive prenatal molecular karyotyping from maternal plasma
KR102385062B1 (ko) 2013-05-24 2022-04-12 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
DK3011051T3 (en) 2013-06-21 2019-04-23 Sequenom Inc Method for non-invasive evaluation of genetic variations
US20160034640A1 (en) 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10095831B2 (en) * 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
WO2020247411A1 (en) * 2019-06-03 2020-12-10 Illumina, Inc. Limit of detection based quality control metric

Also Published As

Publication number Publication date
AU2021391422A1 (en) 2022-11-03
WO2022119812A1 (en) 2022-06-09
CN116157869A (zh) 2023-05-23
CA3179883A1 (en) 2022-06-09
US20220170010A1 (en) 2022-06-02
EP4256565A1 (en) 2023-10-11

Similar Documents

Publication Publication Date Title
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
EP3598452B1 (en) Chromosome representation determinations
AU2018375008B2 (en) Methods and systems for determining somatic mutation clonality
US8688388B2 (en) Methods and processes for non-invasive assessment of genetic variations
EP3243908A1 (en) Methods and processes for non-invasive assessment of genetic variations
US20210130900A1 (en) Multiplexed parallel analysis of targeted genomic regions for non-invasive prenatal testing
AU2018289385B2 (en) Methods for accurate computational decomposition of DNA mixtures from contributors of unknown genotypes
CA3002449A1 (en) Methods and processes for non-invasive assessment of genetic variations
JP2020529648A (ja) 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
JP7506060B2 (ja) 検出限界ベースの品質管理メトリック
US20220170010A1 (en) System and method for detection of genetic alterations
NZ759784A (en) Liquid sample loading
NZ759784B2 (en) Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231218