JP2021536612A - マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出 - Google Patents

マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出 Download PDF

Info

Publication number
JP2021536612A
JP2021536612A JP2021510444A JP2021510444A JP2021536612A JP 2021536612 A JP2021536612 A JP 2021536612A JP 2021510444 A JP2021510444 A JP 2021510444A JP 2021510444 A JP2021510444 A JP 2021510444A JP 2021536612 A JP2021536612 A JP 2021536612A
Authority
JP
Japan
Prior art keywords
reads
nucleic acid
unmerged
read
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021510444A
Other languages
English (en)
Other versions
JP7535998B2 (ja
Inventor
ダーリヤ チュドヴァ,
モハンマド レザ モクタリ,
Original Assignee
ガーダント ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ガーダント ヘルス, インコーポレイテッド filed Critical ガーダント ヘルス, インコーポレイテッド
Publication of JP2021536612A publication Critical patent/JP2021536612A/ja
Application granted granted Critical
Publication of JP7535998B2 publication Critical patent/JP7535998B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

核酸シーケンサーからの配列リードの中の同一の分子バーコードおよび配列を有する遺伝子配列リードを同定し、遺伝子リードをファミリーに群分けし、分割リードを含むファミリーを処理して、ポリヌクレオチド分子の試料中の変異体を検出することにより、核酸変異体の同定を改善するための方法およびシステム。本開示は、試料からシーケンシングされたゲノム、染色体、または他の遺伝的部分由来のDNAまたはRNAなどの核酸の種々の状態の決定に基づいた高精度の診断を提供するコンピュータ技術に関する。

Description

相互参照
本出願は、その全体が参照により本明細書に組み込まれる2018年8月31日出願の米国仮出願第62/726,131号の利益を主張するものである。
挿入、欠失、置換、再編成およびコピー数変異体などの遺伝的変異体が疾患と相関する可能性がある。挿入および欠失などの遺伝的変異体は、ヒトゲノムにおける遺伝的変異体のクラスのうち一塩基多型の次に頻度の高いものである。挿入および/または欠失は、疾患の病理発生、遺伝子発現および機能性にも寄与する。次世代シーケンシング技術またはハイスループットシーケンシングを用いて、遺伝的変異体を検出することができる。疾患に関連する遺伝的変異体の同定における次世代シーケンシング技術の使用に関しては、遺伝的変異体を正確に同定することが極めて重要である。
本開示は、試料からシーケンシングされたゲノム、染色体、または他の遺伝的部分由来のDNAまたはRNAなどの核酸の種々の状態の決定に基づいた高精度の診断を提供するコンピュータ技術に関する。状態は、試料からシーケンシングされた核酸の野生型配列からの変異を含み得る。そのような変異は、限定することなく、挿入、欠失、再編成、コピー数変異体(野生型状態に対して一連の挿入もしくは欠失を含み得る)、および/または他の状態を含み得る。再編成は、配列(例えば、ゲノム配列など)の一部分であって、その一部分は、他に野生型または参照状態ではその一部分を含まないその配列の位置に移動またはコピーされる配列の一部分を含み得る。高精度の診断法は、試料から生成される配列リードの解析に基づき得る。実験により誘導される変異体の事例を低減させるために、高精度の診断法は、実験により誘導される変異体の発生を低減することができる実験室システム処理の改変にさらに基づき得る。
当該システムは、高精度の診断だけでなく、例えば治療目的での変異体の意図的な導入を確認することなど、遺伝子治療の高精度の検証にも使用することができる。一態様では、本開示は、対象の試料中の核酸変異体を検出するために改善された方法およびコンピュータシステムに関する。
例えば、一部の実施形態では、対象由来の核酸分子の試料中の核酸変異体を検出するための方法は、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップを含み得る。方法は、オーバーラップ基準に基づいて複数のペアエンドリードの中から複数のペアエンドリードの対を同定するステップと、オーバーラップしている複数のペアエンドリードの対に基づいて複数のマージされたリードを生成するステップとをさらに含み得る。マージされたリードは、オーバーラップしているペアエンドリードの対のそれぞれの配列に基づく配列を含み得る。方法は、複数のペアエンドリードの中から複数のマージされないリードを同定するステップを含み得る。所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードをメイト(または対応する)ペアエンドリードと共に含み得る。方法は、複数のマージされたリードおよび複数のマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップと、複数のアラインメントしたリードの中から複数の分割リードを同定するステップをさらに含み得る。所与の分割リードは、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含む。方法は、所与の分割リードについて、第1の核酸遺伝子座および第2の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定するステップと、複数の分割リードのそれぞれのブレークポイントに基づいて複数の分割リードをクラスター化して、複数の変異体クラスターを生成するステップと、所定の基準に合致する複数の変異体クラスターの任意の1つまたは複数を、検出された変異体を指し示すものとして同定するステップとをさらに含み得る。
一部の実施形態では、複数のマージされないリードの所与のマージされないリードは、対応するマージされないリードを有する。これらの実施形態では、方法は、所与のマージされないリードおよび対応するマージされないリードについて、人工ヌクレオチド配列を生成するステップをさらに含み得る。方法は、人工ヌクレオチド配列をマージされないリードの第1の配列および対応するマージされないリードの第2の配列および対応するマージされないリードの配列に鎖状連結するステップをさらに含み得る。
一部の実施形態では、人工ヌクレオチド配列は、第1の配列と第2の配列との間に位置する。一部の実施形態では、人工ヌクレオチド配列は、少なくとも1ヌクレオチド、少なくとも2ヌクレオチド、少なくとも5ヌクレオチド、少なくとも10ヌクレオチド、少なくとも15ヌクレオチド、少なくとも20ヌクレオチド、少なくとも30ヌクレオチド、少なくとも40ヌクレオチド、少なくとも50ヌクレオチド、または少なくとも100ヌクレオチドの長さである。一部の実施形態では、ブレークポイントの位置は、人工ヌクレオチド配列内に位置するように近づけられている。一部の実施形態では、群は、人工ヌクレオチド配列内にブレークポイントを有する分割リードおよび第1のまたは第2の部分配列部分内にブレークポイントを有する分割リードを含む。
これらの実施形態の一部では、ブレークポイントは、5ヌクレオチド以下、10ヌクレオチド以下または25ヌクレオチド以下離れている。
一部の実施形態では、所定の基準は、群の中に1つよりも多くの分割リードを有することを含む。一部の実施形態では、所定の基準は、第1のまたは第2の部分配列内にブレークポイントが1つ存在する群内の少なくとも1つの分割リードを有することを含み得る。
一部の実施形態では、試料は、血液、血漿、血清、尿、唾液、粘膜排泄物、痰、便、および涙からなる群より選択される体液試料である。一部の実施形態では、対象は疾患を有し、疾患は、がんを含み得る。
一部の実施形態では、核酸分子はDNAであり、DNAは無細胞DNAを含み得る。一部の実施形態では、方法は、シーケンシング前に無細胞DNA分子のコピーを生成するステップを含み得る。
一部の実施形態では、方法は、シーケンシング前に核酸分子にバーコードを含む1つまたは複数のアダプターを付着させるステップを含み得る。一部の実施形態では、アダプターを核酸分子の両末端にランダムに付着させる。
一部の実施形態では、核酸分子に一意的にバーコード付けする。
一部の実施形態では、核酸分子に非一意的にバーコード付けする。
一部の実施形態では、各バーコードは、選択された領域からシーケンシングされた分子の多様性との組合せで一意的な分子の同定を可能にする固定された、セミランダムな、ランダムなオリゴヌクレオチド配列を含む。
一部の実施形態では、方法は、シーケンシング前に複数の核酸遺伝子座について核酸分子を選択的に富化するステップを含み得る。
一部の実施形態では、方法は、対象の試料由来のポリヌクレオチドを増幅するステップを含み得る。
一部の実施形態では、方法は、検出された変異体が挿入、欠失、または核酸再編成を含むことを決定するステップを含み得る。
一部の実施形態では、方法は、検出された変異体に基づいて、予測される病態を決定するステップを含み得る。
一部の実施形態では、対象由来の核酸分子の試料中の核酸変異体を検出するための方法は、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップと、オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成するステップと、複数のペアエンドリードの中から複数のマージされないリードを同定するステップとを含み得る。所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードを対応するメイトペアエンドリードと共に含む。方法は、複数のマージされないリードに基づいて複数の鎖状連結したマージされないリードを生成するステップと、コンピュータシステムにより、複数のマージされたリードおよび複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップと、コンピュータシステムにより、複数のアラインメントしたリードの中から複数の分割リードを同定するステップとをさらに含み得る。複数の分割リードの中からの所与の分割リードは、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含み、第2の核酸遺伝子座が第1の核酸遺伝子座とは異なる。方法は、複数の分割リードに基づいて1つまたは複数の変異体を同定するステップをさらに含み得る。
一部の実施形態では、方法は、複数のマージされたリードを起源とする複数の分割リードの中から複数のマージされた分割リードを同定するステップと、複数のマージされた分割リードに基づいて複数の変異体クラスターを生成するステップと、複数の変異体クラスターのうちの所与の1つについてブレークポイントの対を同定するステップとをさらに含み得る。所与のブレークポイントの対は、対応する第1の核酸遺伝子座に対応する第1のブレークポイントおよび対応する第2の核酸遺伝子座に対応する第2のブレークポイントを含む。1つまたは複数の変異体は、同定されたブレークポイントの対のうちの対応するものに基づいて同定される。
一部の実施形態では、方法は、基準に合致する複数の変異体クラスターのうちの1つまたは複数を1つまたは複数の変異体として同定するステップをさらに含み得る。
一部の実施形態では、方法は、複数のマージされないリードを起源とする複数の分割リードの中から複数のマージされない分割リードを同定するステップと、マージされない分割リードが第1の核酸遺伝子座および第2の核酸遺伝子座にアラインメントすることを決定するステップとをさらに含み得る。マージされない分割リードの第1の核酸遺伝子座および第2の核酸遺伝子座へのアラインメントが基準として使用される。
一部の実施形態では、所定の基準は、群の中に1つよりも多くの分割リードを有することを含む。一部の実施形態では、所定の基準は、第1のまたは第2の部分配列内にブレークポイントが1つ存在する群内の少なくとも1つの分割リードを有することを含む。
一部の実施形態では、複数の変異体クラスターを生成するステップは、マージされたリードに隣接する複数の鎖状連結したマージされないリードの1つまたは複数にさらに基づく。
一部の実施形態では、方法は、複数のマージされないリードを起源とする複数の分割リードの中から複数のマージされない分割リードを同定するステップと、複数のマージされない分割リードに基づいて複数の変異体クラスターを生成するステップと、複数の変異体クラスターのうちの所与の1つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第1の核酸遺伝子座に対応する第1のブレークポイントおよび対応する第2の核酸遺伝子座に対応する第2のブレークポイントを含む、ステップとをさらに含み得る。1つまたは複数の変異体は、同定されたブレークポイントの対のうちの対応するものに基づいて同定される。
一部の実施形態では、方法は、複数の分割リードに基づいて複数の変異体クラスターを生成するステップと、複数の変異体クラスターのうちの所与の1つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第1の核酸遺伝子座に対応する第1のブレークポイントおよび対応する第2の核酸遺伝子座に対応する第2のブレークポイントを含む、ステップとをさらに含み得る。1つまたは複数の変異体は、同定されたブレークポイントの対のうちの対応するものに基づいて同定される。
一部の実施形態では、方法は、1つまたは複数の変異体が挿入、欠失、または核酸再編成を含むことを決定するステップをさらに含み得る。
一部の実施形態では、方法は、検出された1つまたは複数の変異体に基づいて、予測される病態を決定するステップをさらに含み得る。
一部の実施形態では、対象由来の核酸分子の試料中の核酸変異体を検出するためのシステムは、コンピュータシステムを含み得る。コンピュータシステムは、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスする、オーバーラップ基準に基づいて複数のペアエンドリードの中から複数のペアエンドリードの対を同定する、かつオーバーラップしている複数のペアエンドリードの対に基づいて複数のマージされたリードを生成するようにプログラミングされたプロセッサーを含み得る。マージされたリードは、オーバーラップしているペアエンドリードの対のそれぞれの配列に基づく配列を含み得る。プロセッサーは、複数のペアエンドリードの中から複数のマージされないリードを同定するようにさらにプログラミングされたものであり得る。所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含み得る。プロセッサーは、複数のマージされたリードおよび複数のマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成する、複数のアラインメントしたリードの中から複数の分割リードを同定し、ここで、所与の分割リードは、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含む、所与の分割リードについて、第1の核酸遺伝子座および第2の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定する、複数の分割リードのそれぞれのブレークポイントに基づいて複数の分割リードをクラスター化して、複数の変異体クラスターを生成する、かつ所定の基準に合致する複数の変異体クラスターの任意の1つまたは複数を、検出された変異体として同定するようにさらにプログラミングされたものであり得る。
一部の実施形態では、複数のマージされないリードの所与のマージされないリードは、対応するマージされないリードを有する。これらの実施形態では、プロセッサーは、所与のマージされないリードおよび対応するマージされないリードについて、人工ヌクレオチド配列を生成するようにさらにプログラミングされたものであり得る。
一部の実施形態では、プロセッサーは、人工ヌクレオチド配列をマージされないリードの第1の配列および対応するマージされないリードの第2の配列および対応するマージされないリードの配列に鎖状連結するようにさらにプログラミングされたものであり得る。
一部の実施形態では、ブレークポイントの位置は、人工ヌクレオチド配列内に位置するように近づけられている。
一部の実施形態では、群は、人工ヌクレオチド配列内にブレークポイントを有する分割リードおよび第1のまたは第2の部分配列部分内にブレークポイントを有する分割リードを含む。
一部の実施形態では、システムは、対象の試料由来のポリヌクレオチドを増幅するための実験室システムをさらに含み得る。
一部の実施形態では、プロセッサーは、検出された変異体が挿入、欠失、または核酸再編成を含むことを決定するようにさらにプログラミングされたものであり得る。
一部の実施形態では、プロセッサーは、検出された変異体に基づいて、予測される病態を決定するようにさらにプログラミングされたものであり得る。
一部の実施形態では、対象由来の核酸分子の試料中の核酸変異体を検出するためのシステムは、コンピュータシステムを含み得る。コンピュータシステムは、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスする、オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成する、および複数のペアエンドリードの中から複数のマージされないリードを同定するようにプログラミングされたプロセッサーを含み得る。所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードを対応するメイトペアエンドリードと共に含む。プロセッサーは、複数のマージされないリードに基づいて複数の鎖状連結したマージされないリードを生成する、複数のマージされたリードおよび複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成する、複数のアラインメントしたリードの中から複数の分割リードを同定し、ここで、複数の分割リードの中からの所与の分割リードは、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含む、かつ複数の分割リードに基づいて1つまたは複数の変異体を同定するようにさらにプログラミングされたものであり得る。
一部の実施形態では、システムは、対象の試料由来のポリヌクレオチドを増幅するための実験室システムをさらに含み得る。
一部の実施形態では、プロセッサーは、1つまたは複数の変異体が挿入、欠失、または核酸再編成を含むことを決定するようにさらにプログラミングされたものであり得る。
一部の実施形態では、プロセッサーは、1つまたは複数の変異体に基づいて、予測される病態を決定するようにさらにプログラミングされたものであり得る。
一部の実施形態では、本明細書に開示されるシステムおよび/または方法の結果を入力として使用して、報告書を作成する。報告書は紙であっても電子形式であってもよい。例えば、本明細書に開示される方法またはシステムによって決定される試料中の変異体の存在または非存在に関する情報、および/またはそれから導き出される情報をそのような報告書に表示することができる。本明細書に開示される方法またはシステムは、報告書を試料が由来する対象または健康管理実施者などの第三者に伝達するステップをさらに含み得る。
本明細書に開示される方法の種々のステップ、または本明細書に開示されるシステムによって行われるステップは、同時に行うこともでき、違う時間に行うこともでき、かつ/または、同じ地理的場所で行うこともでき、異なる地理的場所、例えば各国で行うこともできる。本明細書に開示される方法の種々のステップは、同じ人が実施してもよく、異なる人が実施してもよい。
図1は、本開示のある実施形態に従った、対象の試料中の核酸変異体を同定するためのシステムの例を説明する図である。
図2Aは、本開示のある実施形態に従った、オーバーラップ基準に基づいて、ペアエンドリード対からマージされたリードまたは鎖状連結したマージされないリードを生成する方法を説明する図である。
図2Bは、本開示のある実施形態に従った、核酸変異体を同定するために使用される配列リードの型を説明する図である。
図3Aは、本開示のある実施形態に従った、欠失変異体の例を説明する図である。
図3Bは、本開示のある実施形態に従った、挿入変異体の例を説明する図である。
図3Cは、本開示のある実施形態に従った、再編成変異体の例を説明する図である。
図4は、本開示のある実施形態に従った、代表的なリードを生成するための概略的なデータフローの例を説明する図である。
図5A〜5Bは、それぞれ、本開示のある実施形態に従った、マージされないリードに基づいて代表的な配列を生成するための概略図の例を説明する図である。
図6は、本開示のある実施形態に従った、変異体クラスターの決定の概略図を説明する図である。
図7A〜7Cは、それぞれ、本開示のある実施形態に従った、マージされないリードを使用して変異体を検出することの例を説明する図である。
図8は、開示のある実施形態に従った、マージされないリードを使用して、配列リードに対してクラスター化を実施することの例を説明する図である。
図9は、本開示のある実施形態に従った、試料中の変異体を検出する方法の例を説明する図である。
図10は、本開示のある実施形態に従った、試料中の変異体を検出する方法の例を説明する図である。
定義
本開示の理解をより容易にするために、最初にある特定の用語を以下に定義する。以下の用語および他の用語についての追加的な定義が本明細書を通じて記載されている場合がある。下記の用語の定義が、参照により組み込まれる出願または特許における定義と相反する場合には、本出願に記載の定義を使用して用語の意味を理解すべきである。
本明細書および添付の特許請求の範囲で使用される場合、単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、文脈によりそうでないことが明確に規定されない限り、複数の参照対象を含む。したがって、例えば、「1つの(a)方法」への言及は、本明細書に記載のおよび/または本開示を読めば当業者には明らかになる型の1つまたは複数の方法および/またはステップを含む、などである。
本明細書において使用される用語法は、特定の実施形態を説明するためだけのものであり、限定的なものを意図しないことも理解される。さらに、別段の定義のない限り、本明細書において使用される全ての科学技術用語は、本開示が関係する技術分野の当業者に一般に理解されるものと同じ意味を有する。方法、コンピュータ可読媒体、およびシステムの記載および特許請求の範囲では、以下の用語法、およびそれらの文法上の変形が下記の定義に従って使用される。
アダプター:本明細書で使用される場合、「アダプター」は、一般には、少なくとも部分的に二本鎖であり、所与の試料核酸分子のいずれかまたは両方の末端に連結するために使用される短い核酸(例えば、約500ヌクレオチド未満、約100ヌクレオチド未満、または約50ヌクレオチド未満の長さ)を指す。アダプターは、両末端にアダプターが隣接する核酸分子の増幅を可能にするための核酸プライマー結合性部位、および/または種々の次世代シーケンシング(NGS)適用などのシーケンシング適用のためのプライマー結合性部位を含めたシーケンシングプライマー結合性部位を含み得る。アダプターはまた、例えば、フローセル支持体に付着させたオリゴヌクレオチドなどの捕捉プローブのための結合性部位も含み得る。アダプターはまた、本明細書に記載の核酸タグも含み得る。核酸タグは、一般には、増幅プライマーおよびシーケンシングプライマー結合性部位に対して、核酸タグが所与の核酸分子のアンプリコンおよび配列リードに含まれるように配置される。同じまたは異なるアダプターを核酸分子のそれぞれの末端に連結することができる。一部の実施形態では、核酸タグが異なる以外は同じ配列のアダプターを核酸分子のそれぞれの末端に連結する。一部の実施形態では、アダプターは、一方の末端が、1つまたは複数の相補的なヌクレオチドで同じく平滑末端化または尾部付加されている核酸分子との接合のために本明細書に記載の通り平滑末端化または尾部付加されているY形アダプターである。なお他の実施形態例では、アダプターは、解析される核酸分子との接合のための平滑または尾部付加末端を含むベル形アダプターである。アダプターの他の例としては、T尾部付加アダプターおよびC尾部付加アダプターが挙げられる。
バーコード:本明細書で使用される場合、「バーコード」または「分子バーコード」は、核酸の文脈においては、分子識別子として機能する配列を含む核酸分子を指す。例えば、個々の「バーコード」配列は、一般には、次世代シーケンシング(NGS)ライブラリー調製の間に各DNA断片に付加され、したがって、最終的なデータ解析の前に各シーケンシングリードを同定し、選別することができる。
デオキシリボ核酸またはリボ核酸:本明細書で使用される場合、「デオキシリボ核酸」または「DNA」は、糖部分の2’位に水素基を有する天然のまたは修飾されたヌクレオチドを指す。DNAは、一般には、4つの型のヌクレオチド塩基;アデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)で構成されるヌクレオチドの鎖を含む。本明細書で使用される場合、「リボ核酸」または「RNA」は、糖部分の2’位にヒドロキシル基を有する天然のまたは修飾されたヌクレオチドを指す。RNAは、一般には、4つの型のヌクレオチド塩基、A、ウラシル(U)、G、およびCで構成されるヌクレオチドの鎖を含む。本明細書で使用される場合、「ヌクレオチド」という用語は、天然のヌクレオチドまたは修飾されたヌクレオチドを指す。ある特定のヌクレオチドの対は、互いに相補的に特異的に結合する(相補的塩基対合と称される)。DNAでは、アデニン(A)とチミン(T)が対合し、シトシン(C)とグアニン(G)が対合する。RNAでは、アデニン(A)とウラシル(U)が対合し、シトシン(C)とグアニン(G)が対合する。第1の核酸鎖が第1の鎖内のヌクレオチドと相補的なヌクレオチドで構成される第2の核酸鎖と結合する場合、この2つの鎖は結合して二本鎖を形成する。本明細書で使用される場合、「核酸シーケンシングデータ」、「核酸シーケンシング情報」、「配列情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」または「断片配列」、または「核酸シーケンシングリード」は、DNAまたはRNAなどの核酸の分子(例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片)内のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)の順序および正体を指し示すあらゆる情報またはデータを示す。本教示では、これだけに限定されないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的なヌクレオチド同定システム、パイロシーケンシング、イオン−またはpHに基づく検出システム、および電子シグネチャーに基づくシステムを含めた全ての利用可能な種々の技法、プラットフォームまたは技術を使用して得られる配列情報が意図されていることが理解されるべきである。
指定位置:参照配列内の「指定位置」という用語は、参照配列内のゲノム座標を指す。
リードのファミリー:「リードのファミリー」という句は、参照配列に対するアラインメント、分子バーコードの包含、および/または他の群分け基準に基づいて一緒に群分けされる対にならないリード、マージされたリード、マージされないリード、鎖状連結したマージされないリード、および/または他のリードの群分けを指す。
遺伝的変異体:遺伝的変異体は、対象の核酸試料またはゲノムにおける変更、変異体または多型を指す。そのような変更、変異体または多型は、種(例えば、ヒトについては、hG19またはhG38)、対象または他の個体の参照ゲノムであり得る参照ゲノムに対するものであり得る。変異は、1つまたは複数の一塩基変異(SNV)、挿入、欠失、リピート、小さな挿入、小さな欠失、小さなリピート、構造変異体接合部、種々の長さのタンデムリピート、および/または隣接配列を含み、コピー数変異体(CNV)、転換、遺伝子融合および他の再編成も遺伝的変異の形態である。変異は、一塩基変異(SNV)、挿入または欠失(インデル)、リピート、コピー数変異(CNV)、転換、またはそれらの組合せであり得る。
マージされたリード:「マージされたリード」は、それぞれの配列間のアラインメントがオーバーラップ基準を満たす場合に、メイト対のペアエンドリードのそれぞれの配列を一緒に接合することによって生成される配列を指す。
核酸タグ:本明細書で使用される場合、「核酸タグ」は、核酸を、異なる型の、または異なる処理を受ける、異なる試料と(例えば、試料インデックスを表す)、または同じ試料中の異なる核酸分子と(例えば、分子バーコードを表す)弁別するために使用される短い核酸(例えば、約500ヌクレオチド未満、約100ヌクレオチド、約50ヌクレオチド、または約10ヌクレオチドの長さ)を指す。核酸タグは、所定の、固定された、非ランダムな、ランダムなまたはセミランダムなオリゴヌクレオチド配列を含む。そのような核酸タグを使用して、異なる核酸分子または異なる核酸試料もしくは副次試料を標識することができる。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であり得る。核酸タグは、必要に応じて、同じ長さまたは様々な長さを有する。核酸タグは、1つもしくは複数の平滑末端を有する二本鎖分子も含み得る、5’もしくは3’一本鎖領域(例えば、突出)も含み得る、かつ/または、所与の分子内の他の位置に1つもしくは複数の他の一本鎖領域も含み得る。核酸タグは、他の核酸(例えば、増幅および/またはシーケンシングされる試料核酸)の一方の末端または両方の末端に付着させることができる。核酸タグを復号して、所与の核酸の起源試料、形態、またはプロセシングなどの情報を明らかにすることができる。例えば、核酸タグを使用して、異なる分子バーコードおよび/または試料インデックスを有する核酸を含む複数の試料のプールおよび/または並行処理を可能にすることもでき、その場合、その後、核酸タグを検出すること(例えば、読み取ること)によって核酸をデコンボリューションする。核酸タグは、識別子(例えば、分子識別子、試料識別子)と称することもできる。それに加えてまたはその代わりに、核酸タグを分子バーコードとして使用することができる(例えば、同じ試料または副次試料中の異なる分子または異なる親分子のアンプリコン間の弁別のために)。これは、例えば、所与の試料中の異なる核酸分子に一意的にタグ付けすること、またはそのような分子に非一意的にタグ付けすることを含む。非一意的なタグ付け適用の場合では、限られた数のタグ(すなわち、分子バーコード)を使用して核酸分子にタグ付けすることができ、したがって、異なる分子をそれらの内因性配列情報(例えば、それらが選択された参照ゲノムにマッピングされる開始および/もしくは終止位置、配列の一方の末端または両方の末端の部分配列、ならびに/または配列の長さ)と少なくとも1つの分子バーコードの組合せに基づいて弁別することができる。一般には、いずれか2つの分子が同じ内因性配列情報(例えば、開始および/もしくは終止位置、配列の一方の末端または両方の末端の部分配列、ならびに/または長さ)を有し、かつ同じ分子バーコードも有し得る確率が低くなるように(例えば、約10%未満、約5%未満、約1%未満、または約0.1%未満の可能性)、十分な数の異なる分子バーコードを使用する。
オーバーラップ基準:「オーバーラップ基準」は、同じ基礎をなす配列を表す2つのペアエンドリードのアラインメントした部分を決定するために十分なアラインメント品質を指し得る。オーバーラップ基準は、限定することなく、少なくとも約1塩基、少なくとも約2塩基、少なくとも約3塩基、少なくとも約4塩基、少なくとも約5塩基、少なくとも約10塩基、少なくとも約15塩基、少なくとも約20塩基、少なくとも約25塩基、少なくとも約30塩基、少なくとも約35塩基、少なくとも約40塩基、少なくとも約45塩基、少なくとも約50塩基、少なくとも約55塩基、少なくとも約60塩基、少なくとも約65塩基、少なくとも約70塩基、少なくとも約75塩基、少なくとも約80塩基、少なくとも約85塩基、少なくとも約90塩基、少なくとも約95塩基、または少なくとも約100塩基の最小のオーバーラップを含み得る。その代わりにまたはそれに加えて、オーバーラップ基準は、限定することなく、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約45%、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、またはそれよりも大きい最小のアラインメント同一性を含み得る。一部の場合では、基準は、鎖間のオーバーラップが少なくとも15塩基対であると共に同一性が少なくとも約90%であることを要求し得る。他の場合では、オーバーラップ基準は、鎖間のオーバーラップが少なくとも19塩基対であると共に同一性が少なくとも90%であることを要求し得る。オーバーラップする領域は、スライディングウインドウ解析を使用した場合に強力なピークによって表される。例えば、オーバーラップする領域をオーバーラップする領域の各末端上の塩基を含むようにスライドさせ、両方の鎖が互いに完全にオーバーラップするまで鎖間の同一性をコンピュータ計算する。鎖間の同一性は、同一性のパーセンテージとしてコンピュータ計算される。同一性のパーセンテージは、ピークの高さと正比例する。単一の強力なピークを有するマージされたリードまたはペアエンドリードをさらなる解析のために選択する。
ペアエンドリード:「ペアエンドリード」は、核酸アンプリコンまたは分子の両方の鎖またはセンスのシーケンシングを行ってペアエンドリードの対を生成するペアエンドシーケンシング戦略から生成された配列リードを指す。ペアエンドリードの対は、同じ核酸アンプリコンまたは分子のそれぞれの鎖またはセンスからシーケンシングされた2つのペアエンドリードを指す。ペアエンドリードの対はまた、本明細書では互換的に「メイト対」とも称される。
ポリヌクレオチド:「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間連結によって接合したヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、またはそれらの類似体を含む)の直鎖状ポリマーを指す。一般には、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。多くの場合、オリゴヌクレオチドのサイズは数個の単量体単位、例えば、3〜4から、数百個の単量体単位までにわたる。ポリヌクレオチドが「ATGCCTG」などの文字の配列によって表される時はいつでも、特に断りのない限り、ヌクレオチドが左から右に5’→3’の順序であること、および「A」がデオキシアデノシンを示し、「C」がデオキシシチジンを示し、「G」がデオキシグアノシンを示し、「T」がチミジンを示すことが理解されよう。当技術分野における標準の通り、文字A、C、G、およびTを使用して、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すことができる。核酸分子は、概念的に5’末端、内部部分および3’末端に分けることができる。末端は、末端からの所定の数のヌクレオチドに基づいて指定することができる。例えば、5’末端は、例えば、5’末端までの20個の末端ヌクレオチドによって表される。3’末端は、例えば、3’末端までの20個の末端ヌクレオチドによって表される。あるいは、核酸分子は、記載の通りの末端部分と残りとに分けることができる。
処理すること(processing):「処理すること(processing)」、「算出すること(calculating)」、および「比較すること(comparing)」という用語は互換的に使用することができる。この用語は、差異、例えば、数または配列の差異を決定することを指し得る。例えば、遺伝子発現、コピー数変異(CNV)、インデル、および/または一塩基変異体(SNV)値または配列を処理することができる。
参照配列:参照配列は、実験により決定された配列との比較目的で使用される既知配列である。例えば、既知配列は、ゲノム全体、染色体、またはそれらの任意のセグメントであり得る。参照は、一般には、少なくとも20、50、100、200、250、300、350、400、450、500、1,000、10,000、50,000、100,000、1,000,000、5,000,000またはそれよりも多くのヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続的な配列とアラインメントすることができる、またはゲノムもしくは染色体の異なる領域にアラインメントする連続していないセグメントを含み得る。参照ヒトゲノムとしては、例えば、hG19およびhG38が挙げられる。
代表的なリード:「代表的なリード」という用語は、一緒に群分けされるリードのファミリーを表す配列を指す。代表的なリードの配列は、ファミリー内のリードの代表的な単一のリードに基づいて、またはファミリー内の2つもしくはそれよりも多くのリードのコンセンサスによって決定することができる。
配列情報:本明細書で使用される場合、「配列情報」は、核酸ポリマーの文脈では、そのポリマー内の単量体単位(例えば、ヌクレオチドなど)の順序および正体を意味する。
シーケンシング:本明細書で使用される場合、「シーケンシング」という用語は、生体分子、例えば、DNAまたはRNAなどの核酸の配列を決定するために使用されるいくつかの技術のいずれかを指す。例示的なシーケンシング方法としては、これだけに限定されないが、標的化シーケンシング、単一分子リアルタイムシーケンシング、エクソンシーケンシング、電子顕微鏡に基づくシーケンシング、パネルシーケンシング、トランジスタ媒介性シーケンシング、直接シーケンシング、ランダムショットガンシーケンシング、サンガージデオキシ終結シーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、キャピラリー電気泳動、2重鎖シーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、大規模並列処理シグネチャーシーケンシング、エマルジョンPCR、低変性温度での共増幅−PCR(COLD−PCR)、多重PCR、可逆的ダイターミネーターによるシーケンシング、ペアエンドシーケンシング、短期シーケンシング(near-term sequencing)、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、単一分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、逆ターミネーターシーケンシング、ナノポアシーケンシング、454シーケンシング、Solexa Genome Analyzerシーケンシング、SOLiD(商標)シーケンシング、MS−PETシーケンシング、およびそれらの組合せが挙げられる。一部の実施形態では、シーケンシングを、例えば、IlluminaまたはApplied Biosystemsから市販されている遺伝子解析機器などの遺伝子解析機器によって実施することができる。「次世代シーケンシング」またはNGSという句は、従来のサンガーに基づく手法およびキャピラリー電気泳動に基づく手法と比較して増大したスループットを有する、例えば、何十万の比較的小さな配列リードを同時に生成することができるシーケンシング技術を指す。次世代シーケンシング技法のいくつかの例としては、これだけに限定されないが、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングが挙げられる。
シーケンシングラン:「シーケンシングラン」という句は、少なくとも1つの生体分子(例えば、DNAまたはRNAなどの核酸分子)に関するいくつかの情報を決定するために実施されるシーケンシング実験の任意のステップまたは部分を指す。
分割リード:「分割リード」は、配列リードの配列の異なる部分配列部分が、分割リードがアラインメントされる参照配列の異なる遺伝子座にアラインメントし、それにより、変異体が参照配列に対してシーケンシングされている可能性があることが示される、配列リードを指す。分割リードは、対にならないリード、マージされたリード、マージされないリード、鎖状連結したマージされないリード、および/または代表的なリードであり得る。
対象:本明細書で使用される場合、「対象」は、哺乳動物種(好ましくはヒト)もしくはトリ(例えば、鳥類)種などの動物、または他の生物体を指す。より詳細には、対象は、脊椎動物、例えば、マウス、霊長類、サルまたはヒトなどの哺乳動物であり得る。動物は、農場動物、競技動物、および愛玩動物を含む。対象は、健康な個体、症状もしくは徴候を有する、もしくは疾患(例えば、がん)を有する疑いがある、もしくは疾患の素因がある個体、または治療を必要とするまたは治療を必要とする疑いがある個体であり得る。
マージされないリード:マージされないリードは、対応するメイト対のペアエンドリード(それ自体がマージされないリードである)に対するアラインメントがオーバーラップ基準を満たさないメイト対のペアエンドリードを指す。鎖状連結したマージされないリードは、マージされないリードのメイト対のそれぞれの配列を鎖状連結することによって生成された、1つまたは複数のプレースホルダーで構成される人工配列によって一緒に接合した配列を指す。
詳細な説明
図1は、本開示のある実施形態に従った、対象111の試料中の核酸変異体を同定するためのシステム100の例を説明する。システム100は、対象111由来の1つまたは複数の試料101を処理して、変異体を検出するための配列リードを生成することができる。システム100は、実験室システム102、コンピュータシステム110、および/または他の構成要素を含み得る。実験室システム102とコンピュータシステム110は、互いと離れていて、コンピュータネットワークを通じて互いに接続するものであってよいことに留意するべきである(図示していない)。実験室システム102は、試料採取および調製パイプライン103、シーケンシングパイプライン105、配列リードデータストア109、および/または他の構成要素を含み得る。シーケンシングパイプライン105は、1つまたは複数のシーケンシングデバイス107(図1においてシーケンシングデバイス107a…nとして説明されている)を含み得る。
コンピュータシステム110は、配列解析パイプライン112、プロセッサー120、ストレージデバイス122、変異体検出パイプライン130、および/または他の構成要素を含み得る。
配列解析パイプライン112は、配列品質管理(QC)構成要素113、他の解析構成要素115、および解析QC構成要素116を含み得る。配列解析パイプライン112からの出力を解析データストア117に記憶させることができる。
概して、プロセッサー120は、マージされたリード生成器132、鎖状連結したマージされないリード生成器134、リードファミリー生成器136、変異体検出器138、および/または他の構成要素などの、変異体検出パイプライン130の種々の構成要素をインプリメントする(それによってプログラミングする)ことができる。あるいは、変異体検出パイプライン130のこれらの構成要素のそれぞれは、ハードウェアモジュールを含み得ることに留意するべきである。便宜上、別々に説明しているが、マージされたリード生成器132、鎖状連結したマージされないリード生成器134、リードファミリー生成器136、および/または変異体検出器138などの種々の構成要素または命令の1つまたは複数を互いに統合することができる。いずれにしても、変異体検出パイプライン130は、コンピュータシステム110に変異体、変異体からの疾患(高精度の診断法)、および/または処置レジメンの同定を行わせることができる。高精度の診断法および処置レジメンを臨床結果ストア160または診断結果ストア150などのリポジトリに記憶させることができる。
図2Aは、本開示のある実施形態に従った、オーバーラップ基準に基づいて、ペアエンドリード対からマージされたリードまたは鎖状連結したマージされないリードを生成する方法200を説明する。201において、方法200は、ペアエンドリード対を得ることを含み得る。例えば、方法200では、配列リードデータストア109または解析データストア117からのペアエンドリード対にアクセスすることができる。203において、方法200は、対のペアエンドリードのそれぞれの間のアラインメントがオーバーラップ基準を満たすかどうかを決定することを含み得る。基準を満たす場合には、205において、方法200は、マージされたリードを生成することを含み得る。基準を満たさない場合には、207において、方法200は、鎖状連結したマージされないリードを生成することを含み得る。
マージされたリードおよび鎖状連結したマージされないリードについて、本開示のある実施形態に従った、核酸変異体を同定するためにシステム100によって使用される配列リードの型を説明する図2Bを参照してさらに記載する。例えば、コンピュータシステム110は、対にならないリード210、マージされたリード220、マージされないリード、および鎖状連結したマージされないリード230を含む配列リードを使用し、かつ/または生成して、核酸変異体ならびに対応する高精度の診断および/または処置を同定することができる。
対にならないリード210は、対応するペアエンドリードが利用できない配列リードを含み得る。ペアエンドシーケンシングを使用しない一部の例では、対にならないリードは、ペアエンドリードの欠如に起因し得る。ペアエンドシーケンシングを使用する例では、対にならないリードは、対応するペアエンドリードが品質閾値を合格できなかったかまたは他の点で使用できないと決定されたことに起因し得る。
マージされたリード220は、配列リードとそのペアエンドリードとの組合せを含み得る。例えば、マージされたリードは、対内のペアエンドリードのそれぞれのオーバーラップする部分に基づいて一緒にマージされたペアエンドリードの対を含み得る。ペアエンドリードの対は、対内のペアエンドリードのそれぞれの配列を一緒に接合して、マージされた配列を生成することによってマージすることができる。マージされた配列は、ペアエンドリード1Aおよび1B(メイト1Aおよび1Bと説明されている)のそれぞれのオーバーラップしない部分およびオーバーラップする部分に基づく配列を含む連続した配列を含み得る。例えば、マージされたリード220は、ペアエンドリード1Aおよび1Bのオーバーラップする部分がオーバーラッピング基準を満たす場合に生成することができる。
鎖状連結したマージされないリード230も、配列リードとそのペアエンドリードとの組合せを含み得る。しかし、マージされたリードとは異なり、鎖状連結したマージされないリード230は、オーバーラッピング基準に合致していない場合に生成することができる。したがって、鎖状連結したマージされないリード230は、ペアエンドリード2Aおよび2B(メイト2Aおよび2Bと説明されている)の両方が利用可能であり、オーバーラッピング基準に基づいてオーバーラップしないと決定されるという決定に基づいて生成することができる。ペアエンドリード2Aおよび2Bの両方が、オーバーラッピング基準に基づいてオーバーラップしないと決定されるので、マージされない配列は、ペアエンドリードの一方の配列(例えば、2Bなど)を他方のペアエンドリード(例えば、2Aなど)に鎖状連結することによって生成することができる(両方の配列を同じ鎖/センスにするために一方の相補体を使用してまたは使用せずに)。したがって、マージされたリードとはさらに異なり、鎖状連結したマージされないリードの配列は、オーバーラップ基準に基づいてオーバーラップとみなされる部分を含まない。一部の例では、本明細書に記載される通り、マージされたリードと鎖状連結したマージされないリードとはシステムによって違うように解析され得るので、解析の間にそのように鎖状連結したマージされないリードとマージされたリードを弁別するために、鎖状連結したマージされないリード230をマージされない状態の指標と関連付けて記憶させることができる。一部の例では、ペアエンドリード2Aおよび2Bの鎖状連結した配列の間に人工配列を挿入することができる。人工配列は、1つまたは複数のヌクレオチドプレースホルダーなどの、予め定義された配列を含み得る。ヌクレオチドプレースホルダーは、プレースホルダーを示すために「N」または「n」を含み得るが、他の符号または文字(A、C、G、T、およびUなどの実際のヌクレオチド符号以外)を使用することができる。人工配列は、20ヌクレオチドの長さであり得るが、システムがそのような人工配列および/またはその長さを認識することができる限りは他の長さを使用することができる。鎖状連結したマージされないリード230の例は、それぞれ図5A〜Bにおいて説明されている。
図3A〜3Cは、それぞれ、変異体の例、および本開示のある実施形態に従った、変異体を検出するための配列リード302、304の参照配列との予測されるアラインメントを説明する。図3A〜3Cはそれぞれ配列リード302および配列リード304への参照を含む。他の数の配列リードも同様に使用することができることが理解されるべきである。さらに、配列リード302および304は、それぞれ、対にならないリード210(しかし、一部の実施形態では対にならないリード210を変異体検出から省略することができる)、マージされたリード220、マージされないリード、鎖状連結したマージされないリード230、および/またはそれらの代表的なリード(図4A〜Dを参照して説明される)を指す。
図3Aは、本開示のある実施形態に従った、欠失変異体の例を説明する。この例では、欠失核酸部分301が試料101中の核酸(例えば、染色体、遺伝子座など)から欠失している。したがって、変異体配列は欠失核酸部分301を欠く。欠失の結果として、第1の核酸遺伝子座L1と第2の核酸遺伝子座L2とが互いに近づき得る。コンピュータシステム101は、欠失核酸部分301に隣接する位置の配列リード302および304の参照配列に対するアラインメントに基づいて、欠失が生じたブレークポイント316および317を検出することができる。具体的には、本明細書では配列リード302および304を「分割リード」と称することができる。例えば、配列リード302は、参照配列上のブレークポイント316まで参照配列にマッピングされる部分配列部分302A(塩基の喪失が生じないと仮定する)および参照配列へのマッピングが参照配列上のブレークポイント317から開始される部分配列部分302Bを含み得る。ブレークポイントは、変異体に対する配列の位置および変異体の性質に応じて配列リードのマッチングが終止するまたはマッチングが開始される参照配列上の位置を指し得る。
図3Bは、本開示のある実施形態に従った、挿入変異体の例を説明する。この例では、挿入核酸部分303が試料101中の核酸に挿入されている。したがって、挿入の結果として第1の核酸遺伝子座L1と第2の核酸遺伝子座L2とがさらに離れて広がる。コンピュータシステム101は、挿入ポイントよりも前の位置における配列リード302および304の参照配列に対するアラインメントに基づいてブレークポイント316を検出することができる。第1の部分配列部分302Aを参照配列に対してブレークポイント316における挿入ポイントの直前にアラインメントすることができることに留意するべきである。第2の部分配列部分302Bは挿入核酸部分303にアラインメントすることができる。部分配列部分304Aおよび304Bは、参照配列および挿入核酸部分303に同様にアラインメントすることができる。挿入核酸部分303の供給源に応じて、第2の部分配列部分302Bおよび304Bは、第2の核酸遺伝子座L2の配列、治療目的もしくは他の目的で核酸に挿入された、意図的に挿入された核酸配列などの別の配列、またはその他で核酸のブレークポイント316に挿入された他の配列にアラインメントすることができる。
図3Cは、本開示のある実施形態に従った、再編成変異体の例を説明する。この例では、第1の核酸遺伝子座L1が第2の核酸遺伝子座L2と再編成される。ある例では、第1の核酸遺伝子座L1はゲノムの染色体などの第1の部分を起源とし得、第2の核酸遺伝子座L2はゲノムの別の染色体などの第2の部分を起源とし得る。この例では、再編成は、染色体間再編成を含み得る。染色体内再編成、逆位などを含めた他の型の再編成が起こり得、コンピュータシステム110により検出することができる。コンピュータシステム110は、第1の核酸遺伝子座L1および第2の核酸遺伝子座L2に対応する位置における配列リード302および304の参照配列に対するアラインメントに基づいてブレークポイント316および317を検出することができる。
図4は、本開示のある実施形態に従った、代表的なリードを生成するための概略的なデータフローの例を説明する。図4において説明されている例では、9つのメイト対のペアエンドリードが示されている。ペアエンドリードのそれぞれについて、両末端の分子バーコードによってタグ付けしたポリヌクレオチド分子(および/またはそのアンプリコン)からシーケンシングを行うことができる。そのような分子バーコードが概略的に黒色の四角、灰色の四角、および白色の四角で示されている。ポリヌクレオチド分子の一部または全部を増幅し、その上または代替的に、分子バーコードによるタグ付けを伴わずにシーケンシングを行うことができることに留意するべきである。
変異体検出パイプライン130は、変異体を検出するための代表的なリードを生成するために、ペアエンドリードを解析して、ペアエンドリードをマージし、鎖状連結し、群分けすることができる。例えば、402において、マージされたリード生成器132は、マージされたリードを生成することができ(線でつながった2つの四角として示されている)、鎖状連結したマージされないリード生成器134は、鎖状連結したマージされないリードを生成して(線でつながった2つの四角および「NNN」と記された四角として示されている)、ペアエンドリードを組み合わせることによってより長い配列のリードを有効に生成することができる。
ペアエンドリードからマージされたリードが生成されるかどうかを決定するために、マージされたリード生成器132は、メイト対の各ペアエンドリードを対応するメイト対のペアエンドリードに対してアラインメントさせて、いずれのアラインメントがオーバーラップ基準を合格するかを決定することができる。
オーバーラップ基準に合致する場合、マージされたリード生成器142は、ペアエンドリードをマージして、マージされたリードを形成することができる。例えば、ペアエンドリードの両方の鎖をトリミングして、3’末端のオーバーラップした領域内の配列の少なくとも一部分を取り除くことができる。例えば、3’末端のオーバーラップした領域内の配列の半分を取り除いて、配列品質が低い塩基、3’末端の分子バーコード、およびあらゆるミスマッチを除外することができる。これは、シーケンシングのエラーを低減させることに有用であり得る。マージされたリード生成器132は、ペアエンドリードのセンス鎖をその対応するペアエンドリードのアンチセンス鎖とマージすることができる。例えば、マージされたリード生成器142は、ペアエンドリードを逆平行になるように再配向させ、次いで、マージして、マージされたリードまたはペアエンドリードを形成することができる。ペアエンドリードまたはマージされたリードは、オーバーラップする領域を有するセンス鎖およびアンチセンス鎖を含む。そのように、マージされたリードは、シーケンシングされた対応するポリヌクレオチド分子の連続した配列を表し得る。複数のペアエンドリードのうちのあるペアエンドリードがオーバーラップ基準に合致しない場合、鎖状連結したマージされないリード生成器134は、マージされないリード(アラインメントがオーバーラップ基準を満たさなかったメイト対のペアエンドリード)を、マージされないリードのそれぞれの配列を人工配列を用いて接合することによって鎖状連結することができる。
例えば、鎖状連結したマージされないリード生成器134は、ペアエンドリードを接合して、鎖状連結したマージされないリードを生成することができる。鎖状連結したマージされないリード生成器134では、オーバーラップ領域におけるメイト対をマージする代わりに、メイト対を図2Aおよび2Bにおいて以前に記載されている一連のNまたは他の符号20個などの人工配列と接合することができる以外は、マージされたリード生成器132によるマージされたリードの生成と同様にマージされないリードを生成することができる。
リードのマージまたは鎖状連結を不必要または不可能にし得る他のシーケンシング技法も同様に使用することができることに留意するべきである。さらに、本明細書に開示される技法に基づいて所与の鋳型(例えば、アンプリコンなど)に対して配列の対を生成し、一緒にマージする、異なるシーケンシング技法を使用することができる。あるいは、一意的な配列(バーコードと内部の配列との組合せに基づく)をペアエンドリードのセットの中から決定する。次いで、マージされたリード生成器142は、ペアエンドリードをマージして、代表的なマージされた一意的な配列リードを生成することができる。
404において、リードファミリー生成器136は、マージされたリードおよび/または鎖状連結したマージされないリードを1つまたは複数のファミリーに群分けすることができる。例えば、リードファミリー生成器136は、マージされたリードおよび/または鎖状連結したマージされないリードを、互いに対するアラインメント(マッピング)に基づいて、参照配列に対するアラインメント(この場合、参照配列の同じ領域にアラインメントするマージされたリードおよび/または鎖状連結したマージされないリードを一緒に群分けすることができる)に基づいて、マージされたリードおよび鎖状連結したマージされないリード内に含有される一意的な分子バーコードに基づいて、ならびに/または他の群分け基準に基づいて、ファミリーに群分けすることができる。図4では、例示を明瞭にするために、それぞれがそれぞれの分子バーコードのセットに対応する3つのファミリー(A〜C)のみが示されている。他のファミリーの数および各ファミリー内のペアエンドリードの組成も同様に生成することができる。説明されている通り、ファミリーAはマージされたリードのみを含み、ファミリーBはマージされたリードと鎖状連結したマージされないリードの混合を含み、ファミリーCは鎖状連結したマージされないリードのみを含む。
406において、リードファミリー生成器136は、各ファミリーについて代表的なリードを選択することができる。例えば、ファミリー内の単一のマージされたリードまたは単一の鎖状連結したマージされないリードを、ファミリーを表すように選択することができる。そのような選択は、基礎をなす配列の品質(シーケンシングシステム102で決定される)、参照配列に対するアラインメントの品質、および/または他の基準に基づき得る。別の例では、リードファミリー生成器136は、ファミリー内の2つまたはそれよりも多くの基礎をなすリードのコンセンサスに基づいて代表的なリードを決定することができる。一部の実施形態では、変異体検出器138により、参照リード(および/または本明細書に記載の他のリード)を解析して、試料101中の変異体を検出することができる。
図5Aは、本開示のある実施形態に従った、マージされないリードに基づいて代表的な配列を生成するための概略図の例を説明する。説明されている通り、分子バーコード503でタグ付けされた、タグ付けされた分子502のシーケンシングを行って、ペアエンドリードの対を生成することができ(明確にするために、あらゆる中間アンプリコンを省略している)、そのそれぞれを、それぞれ鎖状連結して、鎖状連結したマージされないリード504を生成する。参照配列に対してアラインメントさせた場合、鎖状連結して鎖状連結したマージされないリード504を形成するペアエンドリードのいずれも参照配列上の領域501をカバーしない。参照配列の領域501の外側の部分は鎖状連結したマージされないリード504の1つまたは複数によってカバーされ得る。
リードファミリー生成器136は、鎖状連結したマージされないリード404について、これらの鎖状連結したマージされないリード504によって共有される分子バーコード503配列に基づいて、および/または参照配列に対するアラインメント位置に基づいて、群分けされたセットを生成することができる。リードファミリー生成器136は、群分けされたセットの中から代表的な配列506を生成することができる。図5Aにおいて説明されている例では、代表的な配列506は、領域501の代わりに挿入された人工配列を有するペアエンドリードのオーバーラップする領域の中でコンセンサス配列を含み得る。鎖状連結したマージされないリード生成器134では、セットについて領域501以外の領域内のコンセンサス配列を生成するために必要な最小のカバレッジを特定するカバレッジ基準を適用することができる。カバレッジ基準は、マージされたリード生成器132によって使用されるオーバーラップ基準のうちの1つまたは複数などの他のまたは追加的な要件も含み得る。図6〜8に記載される通り、代表的な配列506、鎖状連結したマージされないリード504、および/または基礎をなすペアエンドリードを、変異体を検出するために使用することができる。
ここで図5Bを参照して、一部の例では、1つまたは複数の鎖状連結したマージされないリード510は、場合によって1つまたは複数のマージされたリード511と一緒に、分子バーコード509でタグ付けされている、タグ付けされたポリヌクレオチド分子508の配列をカバーし得る。この例では、ペアエンドとマージされなかった配列リードをそれでもマージされたリードのセットと共に含めて、追加的な配列カバレッジをもたらすことができる(例えば、セットまたはファミリー内のコンセンサス呼び出しまたはヌクレオチド曖昧性除去などのために)。例えば、ペアエンドリードから生成された鎖状連結したマージされないリード510のセットは、他の鎖状連結したマージされないリードの配列によってカバーされるギャップを有し得、かつ/またはマージされたリード511の配列もタグ付けされたポリヌクレオチド分子509から生成される。したがって、鎖状連結したマージされないリードのセットの配列にわたってカバレッジ基準が満たされ得る。そのように、鎖状連結したマージされないリード生成器134は、人工配列を伴わない代表的な配列512を生成することができる。図6〜8に記載される通り、代表的な配列512および/または基礎をなすリードを、変異体を検出するために使用することができる。
変異体検出
概して、変異体検出器138は、配列リードを、配列解析パイプライン112から直接、マージされたリード生成器132によるマージを伴って、もしくは伴わずに、かつ/または、鎖状連結したマージされないリード生成器134による鎖状連結したマージされないリードの生成を伴って、もしくは伴わずに、解析することができる。言い換えれば、変異体検出器138は、個々のリード、マージされたリード、代表的なマージされたリード(マージされたリードのファミリーコンセンサス)、鎖状連結したマージされないリード、および/または代表的な鎖状連結したマージされないリード(鎖状連結したマージされないリードのファミリーコンセンサス)に対して動作し得る。変異体検出器138は、配列リードを参照配列に対してアラインメントさせることができる。例えば、変異体検出器138は、マッピングツールを使用してアラインメントを実施することができ、マッピングツールの非限定的な例としては、Burrow’s Wheeler Transform(BWA)、Novoalign、Bowtieを挙げることができる。マッピングツールは、使用されるアラインメントパラメーター、参照配列上の代表的なマージされた一意的なリードの位置(例えば、座標など)およびマッピングの品質スコアが記載されているアラインメントファイルを生成することができる。例えば、シーケンシングリードと参照配列との間で許容される差異の数、許容されるギャップおよびギャップ開始ペナルティの数、ギャップ伸長の数などのアラインメントパラメーターは、ユーザーが定義することができる。一例として、デフォルトアラインメントパラメーターを用いるBWAマッピングツールを使用して、配列リードを参照配列に対してアラインメントさせることができる。BWAツールにより、アラインメント統計値を含むBAMファイルである出力ファイルがもたらされる。アラインメント統計値は、配列リードがアラインメントする参照配列の座標を含み得る。アラインメント統計値から、参照配列にマッピングされた場合の配列リードの一意性を通知するためのMapQスコアももたらされる。次いで、分子バーコードおよび参照配列上の座標を使用して配列リードを選別することができる。
一部の例では、リードファミリー生成器136は、配列リードをファミリーに群分けすることができる。ファミリーは、同じ元のタグ付けされたポリヌクレオチド分子を起源とするリードを含む。配列リードは、参照配列上のマッピング座標も同じである。例えば、バーコード404〜406などの分子バーコードの対、および参照配列上の同じ座標(例えば、1番染色体の1300〜1500)にアラインメントする内因性配列を有する配列リードをファミリーに群分けすることができる。一部の実施形態では、各ファミリーを代表的なリードによって表すことができる。代表的なリードは、代表的なリードが生成されたファミリーのコンセンサス配列(「ファミリーコンセンサス配列」)に基づく配列を含み得る。配列リードが、ファミリー内のリードの残りと同じ分子バーコード、および同様の参照配列上の末端位置を少なくとも1つ有する場合、配列リードをファミリーに追加することができる。例えば、配列リードは、同じ分子バーコードおよび同じ開始位置を有し得るが、終止位置は所定のヌクレオチド範囲内にあり得る。配列リードが、圧縮時に同じ圧縮された終止配列を有する場合、配列リードを同じファミリーに群分けする。
同様に、配列リードは、同じ分子バーコードおよび同じ終止位置を有し得るが、開始位置は所定のヌクレオチド範囲内にあり得る。配列リードが、圧縮時に同じ圧縮された開始配列を有する場合、配列リードを同じファミリーに群分けする。ホモポリマー内の重複ヌクレオチドが除去されるように配列リードを圧縮することができる。ホモポリマー内の重複ヌクレオチドを、2ヌクレオチド未満、3ヌクレオチド未満、4ヌクレオチド未満、5ヌクレオチド未満、6ヌクレオチド未満、7ヌクレオチド未満、8ヌクレオチド未満、9ヌクレオチド未満、10ヌクレオチド未満、30ヌクレオチド未満、30ヌクレオチド未満、40ヌクレオチド未満、または50ヌクレオチド未満の所定の範囲内で除去することができる。一部の場合では、所定の範囲は、10ヌクレオチド未満であり得る。一部の場合では、所定の範囲は、7ヌクレオチド未満であり得る。一部の場合では、所定の範囲は、5ヌクレオチド未満であり得る。一部の場合では、所定の範囲は、3ヌクレオチド未満であり得る。一例として、所定の範囲は、4ヌクレオチドである。圧縮時に、末端配列内の少なくとも7ヌクレオチドが残りの代表的なマージされた一意的なリードと参照配列上の同じ位置にマッピングされる場合、圧縮されたリードを同じファミリーに群分けする。マージされたリードを圧縮することにより、例えば配列リードの末端におけるシーケンシングのエラーに起因して生じるファミリーの数が低減する。
ある特定の実施形態では、1つまたは複数のホモポリマーは、開始配列および/または終止配列に存在し得る。1つまたは複数のホモポリマーは、配列リード内のどこにでも存在し得る。一部の実施形態では、ホモポリマーは、ポリ(dA)またはポリ(dT)を含み得る。他の実施形態では、ホモポリマーは、ポリ(dG)またはポリ(dC)を含み得る。一例として、2つの配列リードについて、第1の配列リードの開始位置が第2の配列リードの開始位置から5ヌクレオチド未満などの所定の範囲内にあり、かつ、第1の配列リードの圧縮された配列の最初の7塩基が第2の配列リードの圧縮された配列の最初の7塩基と同一であり、かつ第1の配列リードおよび第2の配列リードの末端位置が同一である場合、これらのリードを同じファミリーに群分けすることができる。同様に、第1の配列リードの末端位置が第2の配列リードの末端位置から5ヌクレオチド未満などの所定の範囲内にあり、かつ、第1の配列リードの圧縮された配列の最後の7塩基が第2の配列リードの圧縮された配列の最後の7塩基と同一であり、かつ第1の配列リードおよび第2の配列リードの開始位置が同一である場合、これらのリードを同じファミリーに群分けすることができる。
図6は、本開示のある実施形態に従った、変異体クラスターの決定の概略図を説明する。図6に示されている通り、ファミリー内の分割リードを参照配列601にマッピングすることができる。第1のファミリー602は、分割リード603、604および605の第1のセットを含む。第2のファミリー606は、分割リード607および608の第2のセットを含む。第3のファミリー609は、分割リード610、611および612の第3のセットを含む。第4のファミリー613は、分割リード614および615の第4のセットを含む。分割リード603〜605、607、608、610〜612、614、および615はそれぞれは、個々の配列リード、対にならないリード、マージされたリード(またはそれらの代表的なもの)、または鎖状連結したマージされないリード(またはその代表的なもの)であり得る。
分割リードの第1のセットおよび分割リードの第2のセットは第1のブレークポイント対616および617に近接する核酸遺伝子座にマッピングされる。分割リードの第3のセットは第2のブレークポイント対616および618に近接する核酸遺伝子座にマッピングされる。分割リードの第4のセットはブレークポイント616、617または618に近接するいずれの核酸遺伝子座にもマッピングされない。
一部の実施形態では、ファミリー由来の分割リードコンセンサス配列は、ブレークポイント対の周囲にクラスター化され得、変異体クラスターを形成し得る。変異体クラスターは、参照配列に対して、ブレークポイントが、参照配列に対するアラインメントの最初に、参照配列に対するアラインメントの最後に、または参照配列に対するアラインメントの最初もしくは最後からある特定の距離に存在することを示唆する様式でアラインメントする配列のセットであり得る。例えば、第1のファミリー602は、第1の分割リードコンセンサス配列619によって表される。第2のファミリー606は、第2の分割リードコンセンサス配列620によって表される。第3のファミリー609は、第3の分割リードコンセンサス配列621によって表される。第4のファミリー513は、第4の分割リードコンセンサス配列622によって表される。第1のファミリー602、第2のファミリー606および第3のファミリー609はブレークポイント対の周囲にクラスター化される一方、第4のファミリー613はブレークポイント対の周囲にクラスター化されない。
一部の実施形態では、変異体クラスターを、ブレークポイント対に対するコンセンサス配列のマッピングに基づいて検出する。例えば、第1の分割リードコンセンサス配列619、第2の分割リードコンセンサス配列620および第3の分割リードコンセンサス配列621は変異体クラスター623を形成する。しかし、第4の分割リードコンセンサス配列622は、それぞれのブレークポイント間の距離が所定のブレークポイント距離よりも大きいので、変異体クラスター623に含まれない。この実施形態では、これらの分割リードコンセンサス配列は、それぞれのブレークポイント648間の距離が所定のブレークポイント距離未満、例えば、10ヌクレオチド未満であるので、変異体クラスターに含められる。コンセンサスブレークポイントを、例えば、変異体クラスター内の大多数のブレークポイント(ブレークポイント616および617)に基づいて呼び出すことができる。
他の実施形態では、同様のブレークポイント対を有する分割リードを含むファミリーを変異体クラスターに群分けすることができる。例えば、第1のファミリー602、第2のファミリー606および第3のファミリー609は、同様のブレークポイント対の周囲にクラスター化される。この実施形態では、これらのファミリーは、それぞれのブレークポイント648間の距離が所定のブレークポイント距離未満、例えば、10ヌクレオチド未満であるので、変異体クラスターに含められる。コンセンサスブレークポイントを、例えば、変異体クラスター内の大多数のブレークポイントに基づいて呼び出すことができる。
コンセンサスブレークポイント対が同定されたら、挿入、欠失または融合などの遺伝的変異体を検出することができる。
変異体検出器138は、挿入および欠失(インデル)と遺伝子融合などの再編成を弁別することができる。例えば、変異体検出器138では、これだけに限定されないが、(1)ブレークポイント対間の距離、(2)同じ染色体上のブレークポイントの位置、(3)同じ方向もしくは異なる方向の部分配列、および/または(4)ゲノムの順序が通常または逆の部分配列を含めた1つまたは複数の因子を考慮に入れることができる。ブレークポイントが異なる染色体上に存在する場合、変異体は常に融合とみなされる。ブレークポイントが同じ染色体上にあるが、部分配列が異なる(反対の)5’−3’配向である場合、変異体は同じく融合とみなされるか、または一部の場合では、逆位とみなされる。ブレークポイントが同じ染色体上にあり、部分配列が同じ5’−3’配向である場合、ブレークポイント対間の距離が所定の最大距離未満(例えば、遺伝子内で、5,000ヌクレオチド未満、4,000ヌクレオチド未満、3,000ヌクレオチド未満、2,000ヌクレオチド未満、または1,000ヌクレオチド未満)であれば変異体を挿入または欠失として呼び出すことができ、そうでなければ、変異体は融合、または再編成として呼び出される。上記の基準を使用して決定された挿入および欠失を、部分配列のゲノムの順序が通常であるか(すなわち、染色体における部分配列の通常の順序がA−Bである場合には、標的分子の順序もA−Bである−そのような場合では、欠失として呼び出される)、またはゲノムの順序が逆であるか(すなわち、染色体における部分配列の通常の順序がA−Bである場合には、標的分子の順序がB−Aである−そのような場合では、挿入として呼び出される)に基づいて、互いにさらに弁別することができる。上記の規則により欠失が確立された場合、実際の欠失配列は2つのブレークポイント間にある。上記の規則により挿入が確立された場合、2つのブレークポイント間の配列のコピーがブレークポイントのうちの1つの隣に挿入される(すなわち、2つのブレークポイント間の配列が重複する)。部分配列は、ファミリー内の分割リードの配列またはファミリーコンセンサス配列の配列を指し得る。
一部の実施形態では、ブレークポイント対間の所定の最大距離は、5,000ヌクレオチド未満、4,500ヌクレオチド未満、4,000ヌクレオチド未満、3,500ヌクレオチド未満、3,000ヌクレオチド未満、2,500ヌクレオチド未満、2,000ヌクレオチド未満、1,500ヌクレオチド未満、1,000ヌクレオチド未満、500ヌクレオチド未満、または250ヌクレオチド未満であり得る。一部の実施形態では、ブレークポイント対間の所定の最大距離は、目的の標的遺伝子内の領域のヌクレオチドの数未満(例えば、METにおけるエクソン14の長さ未満)である。
ある特定の実施形態では、本明細書に開示されるシステムおよび方法は、中サイズのインデル(例えば、21〜50の間のヌクレオチドのものなど)および/または長いインデル(例えば、50ヌクレオチドよりも大きい、100ヌクレオチドよりも大きい、500ヌクレオチドよりも大きい、1,000ヌクレオチドよりも大きい、2,000ヌクレオチドよりも大きい、3,000ヌクレオチドよりも大きい、4,000ヌクレオチドよりも大きい、5,000ヌクレオチドよりも大きい、10,000ヌクレオチドよりも大きいもの、エクソンおよび/もしくはイントロン全体、または遺伝子全体など)を検出するために特に有用である。
一部の実施形態では、挿入および/または欠失は、これだけに限定されないが、APC、ARID1A、ARID1B、ATM、BRCA1、BRCA2、CDH1、CDKN2A、EGFR、ERBB2、FMN2、GATA3、KIT、MET、MECP2、MLH1、MTOR、NF1、PDGFRA、PGAP3、PRODH、PTEN、RB1、SMAD4、SRD5A3、STK11、TP53、TSC1、VHL、およびUBE3Aからなる群を含む遺伝子内で生じ得る。一部の実施形態では、挿入および/または欠失は、これだけに限定されないが、EGFR(エクソン18〜21)、ERBB2(エクソン19および20)、ESR1(エクソン10)、MET(エクソン13〜14およびイントロン13〜14)、BRAF(エクソン15)、CTNNB1(エクソン3)、FGFR2(エクソン6)、GATA2(エクソン5〜6)、GNAS(エクソン8)、IDH1(エクソン4)、IDH2(エクソン4)、KIT(エクソン1〜21)、KRAS(エクソン2〜3)、NRAS(エクソン2〜3)、PIK3CA(エクソン10および21)、PTEN(エクソン5)、SMAD4(エクソン12)、TP53(エクソン4〜8および11)を含む遺伝子内で生じ得る。ある特定の実施形態では、挿入および/または欠失は、これだけに限定されないが、フレームシフト突然変異、非フレームシフト突然変異、逆位(染色体再編成)、エクソン全体の欠失、および/または縦列重複を含み得る。
一部の実施形態では、変異体クラスターに含まれるファミリーコンセンサス配列が、挿入および/または欠失の呼び出しの基準のいずれかまたは全てを満たせない場合、融合が呼び出され得る。
変異体検出器138は、配列リード(例えば、個々のリード、対にならないリード、マージされたリード(またはそれらの代表的な配列)、マージされないリード、および/または鎖状連結したマージされないリード(またはそれらの代表的な配列)など)を参照配列にマッピングし、一意的なリード識別子を配列リードに割り当てることによって挿入、欠失および/または融合を呼び出すことができる。配列リードのアラインメントに基づいて、参照配列上のブレークポイントおよびブレークポイント対を決定して、融合を有する配列リードを決定する。ブレークポイントおよびブレークポイント対を、ブレークポイントIDならびにブレークポイントおよびブレークポイント対にアラインメントした配列リードの数によって報告することができる。同様のブレークポイントを有する配列リードを共通のブレークポイント対に基づいてファミリーに群分けする。次いで、ファミリーのリード、またはファミリーのコンセンサス配列を、互いの所定のブレークポイント距離内のブレークポイントに基づいて変異体クラスターに群分けする。参照配列内のブレークポイント間の所定のブレークポイント距離は、25ヌクレオチド未満または10ヌクレオチド未満または5ヌクレオチド未満であり得る。
図7A〜7Cは、それぞれ、本開示のある実施形態に従った、鎖状連結したマージされないリードを使用して変異体を検出することの例を説明する。図7Aおよび7Bにおいて説明されている通り、ブレークポイント616および/または617(または他のブレークポイント)は、鎖状連結したマージされないリード701Aまたは701Bの実際の配列内(人工配列とは対照的に)に存在し得る。これらの例では、それぞれ図7Aおよび7Bに示されている鎖状連結したマージされないリード701Aおよび701Bを、図6において説明されている通り、リードをクラスター化し、ブレークポイントを発見するために使用することができる。
図7Cにおいて説明されている通り、ブレークポイント616および617は、鎖状連結したマージされないリードの人工配列内にあり得る。鎖状連結したマージされないリード701Cの参照配列に対するアラインメントに基づいて直接的なブレークポイントは観察されない可能性があるにもかかわらず、コンピュータシステム101では、鎖状連結したマージされないリード701Cを種々のやり方で使用することができる。一部の例では、鎖状連結したマージされないリード内のメイトの各々がそれぞれ核酸の核酸遺伝子座L1およびL2にアラインメントし、核酸遺伝子座L1およびL2が試料101中の異なる染色体または他の別個の核酸分子の一部である場合、再編成が生じたことが示唆される。核酸遺伝子座L1およびL2が試料中の同じ染色体または他の核酸分子上にあり、鎖状連結したマージされないリードのメイトが参照配列に所定のヌクレオチドの数よりも大きい(例えば、増幅し、シーケンシングを行った分子の予測サイズよりも大きい)距離でアラインメントする場合、コンピュータシステム101では、鎖状連結したマージされないリード701Cを、鎖状連結したマージされないリード701Cのペアエンドリード間に挿入が存在する証拠として使用することができる。例えば、コンピュータシステム101では、鎖状連結したマージされないリード701Cを挿入の呼び出しの基準として使用することができる(例えば、挿入が呼び出されるには、挿入の証拠をもたらす1つまたは複数の鎖状連結したマージされないリード701Cが存在するという基準など)。
核酸遺伝子座L1およびL2が試料中の同じ染色体または他の核酸分子上に存在し、鎖状連結したマージされないリードのメイトが参照配列に所定のヌクレオチドの数未満(例えば、増幅し、シーケンシングを行った分子の予測サイズ未満など)の距離でアラインメントする場合、コンピュータシステム101では、鎖状連結したマージされないリード701Cを、鎖状連結したマージされないリード701Cのペアエンドリード間に欠失が存在する証拠として使用することができる。例えば、コンピュータシステム101では、鎖状連結したマージされないリード701Cを欠失の呼び出しの基準として使用することができる(例えば、欠失が呼び出されるには、挿入の証拠をもたらす1つまたは複数の鎖状連結したマージされないリード701Cが存在するという基準など)。
図7Dにおいて説明されている通り、ブレークポイント616および617は、鎖状連結したマージされないリードの人工配列内にあり得る。鎖状連結したマージされないリード701Dでは、ペアエンドリード701D1の一部分または全てが核酸遺伝子座L1にアラインメントする可能性がある一方、他方のペアエンドリード701D2の別の部分または全ては、参照配列に全くアラインメントしない可能性がある。この例では、挿入配列703が核酸分子に挿入されており、他のペアエンドリードが挿入配列703にアラインメントし得る(既知または既知でない可能性がある)。挿入配列703は、他方のペアエンドリード701D2が核酸遺伝子座L2の一部または試料101中の核酸の他の部分にアラインメントし得るように十分に小さなものであり得ることが理解されるべきである。
その代わりにまたはそれに加えて、図8において説明されている通り、コンピュータシステム110では、鎖状連結したマージされないリードを使用して、変異体を検出するための配列リードをクラスター化することができる。図8は、本開示のある実施形態に従った、鎖状連結したマージされないリード801(代表的な鎖状連結したマージされないリードまたは個々の鎖状連結したマージされないリードであり得る)を使用して、配列リード1〜5に対してクラスター化を実施することの例を説明する。リード1〜5は、それぞれ、参照配列に対するアラインメントから決定される通り、そのヌクレオチド配列内にブレークポイント616、617、および/または他のブレークポイント618を含む配列リードであり得る。したがって、リード1〜5は、対にならないリード、マージされたリード、マージされないリードまたは別の鎖状連結したマージされないリード(または基礎をなすリードのコンセンサス配列)を含み得る。
所定のブレークポイント距離802を使用して配列リードをクラスター化することに加えてまたはその代わりに、コンピュータシステム110では、鎖状連結したマージされないリード801を使用することができる。例えば、配列リード1〜4を、それらの参照配列に対するアラインメントがペアエンドリード801Aと801Bとの間に入ることに基づいて一緒にクラスター化することができる。例えば、鎖状連結したマージされないリード801のペアエンドリード801Aが核酸遺伝子座L1にアラインメントし、鎖状連結したマージされないリード801のペアエンドリード801Bが核酸遺伝子座L2にアラインメントし、かつ核酸遺伝子座L1と核酸遺伝子座L2が異なる染色体上にあるか、またはそうでなければ、鎖状連結したマージされないリード801のペアエンドリード801Aおよび801Bの両方にアラインメントしないことが予測される場合(ペアエンドリード801Aおよび801Bがシーケンシングされた分子の予測サイズに基づき得る)、鎖状連結したマージされないリード801は、試料101において核酸の再編成が存在するという結論を裏付けることができる。この例では、リード1〜4は参照配列の核酸遺伝子座L1の、811A位を超える位置でアラインメントする部分配列を含むので、これらを一緒にクラスター化することができる。同様に、リード1〜4は参照配列の核酸遺伝子座L2に、811B位未満(または参照配列および部分配列のセンスに応じてそれを超える位置)にアラインメントする部分配列を含むので、これらを一緒にクラスター化することができる。他方では、リード5は811A位および811B位の外側にアラインメントするので、リード5をリード1〜4と共にクラスター化することはできない。
図9は、本開示のある実施形態に従った、試料中の変異体を検出する方法900の例を説明する。902において、方法900は、コンピュータシステムにより、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップを含み得る。
904において、方法900は、コンピュータシステムにより、オーバーラップ基準に基づいて複数のペアエンドリードの中から複数のペアエンドリードの対を同定するステップを含み得る。
906において、方法900は、コンピュータシステムにより、オーバーラップしている複数のペアエンドリードの対に基づいて複数のマージされたリードを生成するステップであって、マージされたリードが、オーバーラップしているペアエンドリードの対のそれぞれの配列に基づく配列を含む、ステップを含み得る。
908において、方法900は、コンピュータシステムにより、複数のペアエンドリードの中から複数の鎖状連結したマージされないリードを同定するステップであって、所与の鎖状連結したマージされないリードが、オーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含む、ステップを含み得る。
910において、方法900は、コンピュータシステムにより、複数のマージされたリードおよび複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップを含み得る。
912において、方法900は、コンピュータシステムにより、複数のアラインメントしたリードの中から複数の分割リードを同定するステップであって、所与の分割リードが、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含み、第2の核酸遺伝子座が第1の核酸遺伝子座とは異なる、ステップを含み得る。
914において、方法900は、コンピュータシステムにより、所与の分割リードについて、第1の核酸遺伝子座および第2の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定するステップを含み得る。
916において、方法900は、コンピュータシステムにより、複数の分割リードのそれぞれのブレークポイントに基づいて複数の分割リードをクラスター化して、複数の変異体クラスターを生成するステップを含み得る。
918において、方法900は、コンピュータシステムにより、所定の基準に合致する複数の変異体クラスターの任意の1つまたは複数を、検出された変異体を指し示すものとして同定するステップを含み得る。
図10は、本開示のある実施形態に従った、試料中の変異体を検出する方法1000の別の例を説明する。1002において、方法1000は、対象由来の核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップを含み得る。
1004において、方法1000は、オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成するステップを含み得る。
1006において、方法1000は、コンピュータシステムにより、複数のペアエンドリードの中から複数のマージされないリードを同定するステップであって、所与のマージされないリードが、オーバーラップ基準を満たさないペアエンドリードを対応するメイトペアエンドリードと共に含む、ステップを含み得る。
1008において、方法1000は、複数のマージされないリードに基づいて複数の鎖状連結したマージされないリードを生成するステップを含み得る。例えば、方法1000は、マージされないリードのメイト対の配列の間に人工配列を挿入することができる。
1010において、方法1000は、複数のマージされたリードおよび複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップを含み得る。
1012において、方法1000は、複数のアラインメントしたリードの中から複数の分割リードを同定するステップであって、複数の分割リードの中からの所与の分割リードが、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含み、第2の核酸遺伝子座が第1の核酸遺伝子座とは異なる、ステップとを含み得る。
1014において、方法1000は、複数の分割リードに基づいて1つまたは複数の変異体を同定するステップを含み得る。
それぞれ図2A、9および10に示されている種々の処理操作201〜207、902〜918および1002〜1014および/または方法200、900および1000を、上に詳細に記載されているシステム構成要素の一部または全部を使用して実現することができ、一部のインプリメンテーションでは、種々の操作を異なる順序で実施することができ、種々の操作を省くことができる。流れ図に示されている操作の一部または全部と一緒に追加的な操作を実施することができる。1つまたは複数の操作を同時に実施することができる。したがって、説明されている(および以下により詳細に記載されている)操作は例として提示されており、したがって、必ずしも限定するものとみなされるべきではない。
本明細書に記載の実施形態では一般にペアエンドシーケンシングの使用の例に言及しているが、他の実施形態は、個々の配列リード長を増強して、変異体検出のための配列カバレッジを増大させることができる、ペアエンド技法を使用しないシーケンシング技術を目的とし得る。例えば、シーケンシングリードが核酸配列を連続的にカバーしないシーケンシング戦略を、配列リードを鎖状連結することによるものなどの本明細書に記載の技法を使用して拡張することができる。そのような鎖状連結は、例えば、鎖状連結したマージされないリードに関して本明細書に記載の通り実施することができる。特定の非限定的な例では、目的の核酸配列を対象とするプライマーから生成された配列リード間にギャップが生じて、目的の核酸配列を「ウォーキングする」ことができる核酸配列ウォーキング技法を用いることができる。本明細書に記載の通り配列リードを鎖状連結し、目的の核酸配列の参照配列に対してアラインメントさせて、遺伝的変異体を検出することによって目的の核酸における遺伝的変異体を検出するために、本明細書に開示される種々の実施形態を使用することができる。他の例では、配列リードを、ペアエンド配列リードではないにもかかわらず一緒にマージすることができる。なぜなら、プライマーが近接配列を生成することが予測されるからである。
コンピュータインプリメンテーション
本方法をコンピュータによりインプリメントすることができ、したがって、本明細書または添付の特許請求の範囲に記載されているステップのウェットな化学ステップ以外のいずれかまたは全てを適切なプログラミングされたコンピュータで実施することができる。コンピュータは、メインフレーム、パーソナルコンピュータ、タブレット、スマートフォン、クラウド、オンラインデータストレージ、遠隔データストレージなどであってよい。コンピュータは、1つまたは複数の場所で動作させることができる。
本方法の種々の操作では、情報および/またはプログラムを利用し、結果を生成することができ、その結果は、コンピュータ可読媒体(例えば、ハードドライブ、補助メモリ、外部メモリ、サーバー;データベース、携帯型メモリデバイス(例えば、CD−R、DVD、ZIPディスク、フラッシュメモリカード)などに記憶される。
本開示は、実行されると本方法のステップをインプリメントする1つまたは複数のプログラムを含有する機械可読媒体を含む、核酸集団を解析するための製造品も含む。
本開示は、ハードウェアおよび/またはソフトウェアでインプリメントすることができる。例えば、本開示の異なる態様をクライアント側論理またはサーバー側論理のいずれかでインプリメントすることができる。本開示またはその構成要素は、適正に構成されたコンピューティングデバイスにローディングされるとそのデバイスを本開示に従って実行させる論理命令および/またはデータを含有する固定媒体プログラム構成要素に具体化することができる。論理命令を含有する固定媒体を、ビューアーのコンピュータに物理的にローディングするために固定媒体上のビューアーに送達することもでき、または論理命令を含有する固定媒体は、ビューアーが通信媒体を通じてアクセスして、プログラム構成要素をダウンロードする遠隔サーバー上に存在していてもよい。
本開示は、本開示の方法をインプリメントするようにプログラミングされたコンピュータ制御システムを提供する。プロセッサー120は、シングルコアプロセッサーもしくはマルチコアプロセッサー、または並行処理用の複数のプロセッサーを含み得る。ストレージデバイス122は、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ、ハードディスク、および/または他の型のストレージを含み得る。コンピュータシステム110は、1つまたは複数の他のシステムと通信するための通信インターフェース(例えば、ネットワークアダプター)、ならびにキャッシュ、他のメモリ、データストレージおよび/または電子ディスプレイアダプターなどの周辺機器を含み得る。コンピュータシステム110の構成要素は、マザーボードなどの内部通信バスを通じて互いに通信することができる。ストレージデバイス122は、データを記憶させるためのデータストレージユニット(またはデータリポジトリ)であってよい。コンピュータシステム110は、通信インターフェースを用いてコンピュータネットワーク(「ネットワーク」)に動作可能にカップリングすることができる。ネットワークは、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであってよい。一部の場合では、ネットワークは電気通信および/またはデータネットワークである。ネットワークは、ローカルエリアネットワークを含み得る。ネットワークは、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる、1つまたは複数のコンピュータサーバーを含み得る。一部の場合では、ネットワークは、コンピュータシステム110を用いて、コンピュータシステム120とカップリングしたデバイスがクライアントまたはサーバーとして挙動することを可能にし得る、ピアツーピアネットワークをインプリメントすることができる。
プロセッサー120は、プログラムまたはソフトウェアに具体化することができる機械可読命令のシーケンスを実行することができるものである。命令をストレージデバイス122などのメモリ位置に記憶させることができる。命令をプロセッサー120に指示することができ、その後、プロセッサー120を、本開示の方法をインプリメントするようにプログラムするまたは他の方法で構成することができる。プロセッサー120によって実施される操作の例としては、フェッチ、復号、実行、およびライトバックを挙げることができる。
プロセッサー120は、集積回路などの回路の一部であってよい。システム100の1つまたは複数の他の構成要素を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路(ASIC)を含み得る。
ストレージデバイス122は、ドライバー、ライブラリーおよびセーブされたプログラムなどのファイルを記憶してもよい。ストレージデバイス122は、ユーザーデータ、例えば、ユーザー選好およびユーザープログラムを記憶することができる。コンピュータシステム110は、一部の場合では、例えば、コンピュータシステム110とイントラネットまたはインターネットを通じて通信する遠隔サーバー上に位置するものなど、コンピュータシステム110に対して外付けの1つまたは複数の追加的なデータストレージユニットを含み得る。
コンピュータシステム110は、1つまたは複数の遠隔コンピュータシステムとネットワークを通じて通信し得る。例えば、コンピュータシステム110は、ユーザーの遠隔コンピュータシステムと通信し得る。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、携帯型PC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android対応デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザーは、コンピュータシステム110にネットワークを介してアクセスすることができる。
本明細書に記載の方法は、コンピュータシステム110の電子ストレージ位置、例えば、ストレージデバイス122などに記憶された、機械(例えば、コンピュータプロセッサー)により実行可能なコードを介してインプリメントすることができる。機械により実行可能なまたは機械可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサー905によって実行することができる。一部の場合では、コードをストレージユニット915から検索し、プロセッサー120がすぐにアクセスできるようにストレージデバイス122に記憶させることができる。
コードをプリコンパイルし、コードを実行するように適合させたプロセッサーを有する機械での使用のために構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードをプリコンパイルまたは都度コンパイル様式で実行することが可能になるように選択することができるプログラミング言語で供給することができる。
コンピュータシステム110などの本明細書に提示されるシステムおよび方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には、機械可読媒体の一種で実施または具体化される機械(またはプロセッサー)により実行可能なコードおよび/または関連するデータの形態の「製品」または「製造品」と考えることができる。機械により実行可能なコードは、メモリ(例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子ストレージユニットに記憶され得る。
「ストレージ」型媒体は、ソフトウェアプログラミングの任意の時点で非一時的ストレージをもたらすことができるコンピュータの有形メモリ、プロセッサーなど、または、種々の半導体メモリ、テープドライブ、ディスクドライブなどのそれらの関連モジュールのいずれかまたは全てを含み得る。ソフトウェアの全てまたは部分は、時々、インターネットまたは種々の他の電気通信ネットワークを通じて通信することができる。そのような通信は、例えば、ソフトウェアを1つのコンピュータまたはプロセッサーから別のものに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにローディングすることが可能になり得る。したがって、ソフトウェア要素を有する別の型の媒体として、有線および光陸上通信線ネットワークを通じて、および種々のエアリンクを伝わってローカルデバイス間の物理的なインターフェースを越えて使用されるものなどの光波、電波および電磁波が挙げられる。有線または無線リンク、光学リンクなどの、そのような波を伝える物理的要素も、ソフトウェアを担持する媒体とみなすことができる。本明細書で使用される場合、非一時的な有形記憶媒体に制限される場合を除き、「媒体」は、他の型の(無形)媒体を含み得る。
「記憶」媒体、コンピュータまたは機械「可読媒体」などの用語は、プロセッサーへの実行の命令の提供に関与する任意の有形(例えば、物理的)、非一時的媒体を指す。
したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的伝送媒体を含めた多くの形態を取り得る。非揮発性記憶媒体としては、例えば、任意のコンピュータ内のストレージデバイスのいずれかなどの光学ディスクまたは磁気ディスクなど、例えば、図に示されているデータベースなどをインプリメントするために使用することができるものなどが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル;コンピュータシステム内のバスを含む電線を含めた銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナルもしくは電磁気シグナル、または無線周波数(RF)および赤外(IR)データ通信の間に生成されるものなどの音波または光波の形態を取り得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD−ROM、DVDもしくはDVD−ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH(登録商標)−EPROM、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは命令、そのような搬送波を移送するケーブルもしくはリンク、またはコンピュータがそれからプログラミングコードおよび/またはデータを読み込むことができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、1つまたは複数の命令の1つまたは複数のシーケンスを実行のためにプロセッサーに運ぶことに関与し得る。
コンピュータシステム110は、例えば報告書を提供するためのユーザーインターフェース(UI)を含む電子ディスプレイ935を含み得るまたはそれと通信し得る。UIの例としては、限定することなく、グラフィカルユーザーインターフェース(GUI)およびウェブに基づくユーザーインターフェースが挙げられる。
本開示の方法およびシステムは、1つまたは複数のアルゴリズムによってインプリメントされ得る。アルゴリズムは、ソフトウェアにより、プロセッサー120によって実行されるとインプリメントされ得る。
試料
試料101は、対象から単離された任意の生体試料であってよい。試料は、体組織、例えば、既知のもしくは疑わしい固形腫瘍、全血、血小板、血清、血漿、便、赤血球、白血球(white blood cell)もしくは白血球(leucocyte)、内皮細胞、組織生検材料、脳脊髄液、滑液、リンパ液、腹水、間質もしくは細胞外液、歯肉滲出液を含めた細胞間空間滲出液、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿などを含み得る。試料は、好ましくは体液、特に、血液およびその画分、ならびに尿である。そのような試料は、腫瘍から排出された核酸を含む。核酸は、DNAおよびRNAを含み得、二本鎖形態および/または一本鎖形態であり得る。試料は、対象から元々単離された形態であってもよく、細胞などの構成成分を除去または付加するため、1つの構成成分を別の構成成分に対して富化するため、または1つの形態の核酸を別の形態の核酸に変換する、例えば、RNAをDNAに変換する、もしくは一本鎖核酸を二本鎖に変換するために、さらなる処理に供されたものであってもよい。したがって、例えば、分析用の体液は、無細胞核酸、例えば、無細胞DNA(cfDNA)を含有する血漿または血清である。
一部の実施形態では、対象から取得した体液の試料体積は、シーケンシングされる領域に対する所望のリードの深さに依存する。例示的な体積は、約0.4〜40ml、約5〜20ml、約10〜20mlである。例えば、体積は、約0.5ml、約1ml、約5ml、約10ml、約20ml、約30ml、約40ml、またはそれよりも大きなミリリットル数であり得る。試料採取された血漿の体積は、一般には、約5ml〜約20mlの間である。
試料は、種々の量の核酸を含み得る。一般には、所与の試料中の核酸の量は、複数のゲノム等価物と等しい。例えば、約30ngのDNAの試料は、約10,000(10)個の一倍体ヒトゲノム等価物、およびcfDNAの場合では、約2000億(2×1011)個の個々のポリヌクレオチド分子を含有し得る。同様に、約100ngのDNAの試料は、約30,000個の一倍体ヒトゲノム等価物、およびcfDNAの場合では、約6000億個の個々の分子を含有し得る。
一部の実施形態では、試料は、異なる供給源に由来する核酸、例えば、細胞由来の核酸および無細胞供給源(例えば、血液試料など)由来の核酸を含む。典型的には、試料は、突然変異を有する核酸を含む。例えば、試料は、必要に応じて、生殖細胞系列突然変異および/または体細胞突然変異を有するDNAを含む。典型的には、試料は、がん関連突然変異(例えば、がん関連体細胞突然変異)を有するDNAを含む。
増幅前の試料中の無細胞核酸の例示的な量は、典型的には、約1フェムトグラム(fg)〜約1マイクログラム(μg)、例えば、約1ピコグラム(pg)〜約200ナノグラム(ng)、約1ng〜約100ng、約10ng〜約1000ngにわたる。一部の実施形態では、試料は、最大約600ng、最大約500ng、最大約400ng、最大約300ng、最大約200ng、最大約100ng、最大約50ng、または最大約20ngの無細胞核酸分子を含む。必要に応じて、量は、少なくとも約1fg、少なくとも約10fg、少なくとも約100fg、少なくとも約1pg、少なくとも約10pg、少なくとも約100pg、少なくとも約1ng、少なくとも約10ng、少なくとも約100ng、少なくとも約150ng、または少なくとも約200ngの無細胞核酸分子である。ある特定の実施形態では、量は、最大約1fg、約10fg、約100fg、約1pg、約10pg、約100pg、約1ng、約10ng、約100ng、約150ng、または約200ngの無細胞核酸分子である。一部の実施形態では、方法は、試料から約1fg〜約200ngの無細胞核酸分子を得るステップを含む。
無細胞核酸は、典型的には、約100ヌクレオチドの長さから約500ヌクレオチドの長さの間のサイズ分布を有し、約110ヌクレオチドの長さ〜約230ヌクレオチドの長さの分子が試料中の分子の約90%に相当し、最頻値は約168ヌクレオチドの長さであり、第2の副次的なピークは約240〜約440ヌクレオチドの長さである。ある特定の実施形態では、無細胞核酸は、約160ヌクレオチドから約180ヌクレオチドまでの長さ、または約320ヌクレオチドから約360ヌクレオチドまでの長さ、または約440ヌクレオチドから約480ヌクレオチドまでの長さである。
一部の実施形態では、溶液中に見出される無細胞核酸をインタクトな細胞および体液の他の不溶性構成成分から分離する分割ステップを通じて、無細胞核酸を体液から単離する。これらの実施形態の一部では、分割は、遠心分離または濾過などの技法を含む。あるいは、体液中の細胞を溶解させ、無細胞核酸と細胞性核酸を一緒に処理する。一般に、緩衝液の添加および洗浄ステップ後、無細胞核酸を、例えばアルコールを用いて沈殿させる。ある特定の実施形態では、夾雑物または塩を除去するためにシリカに基づくカラムなどの追加的な清澄化ステップを使用する。収量などの、例示的な手順のある特定の側面を最適化するために、反応全体を通して、例えば非特異的バルクキャリア核酸を必要に応じて添加する。そのような処理後、試料は、典型的には、二本鎖DNA、一本鎖DNAおよび/または一本鎖RNAを含む様々な形態の核酸を含む。必要に応じて、一本鎖DNAおよび/または一本鎖RNAを二本鎖形態に変換し、したがって、その後の処理および解析ステップには二本鎖形態が含まれる。
核酸タグ
一部の実施形態では、核酸分子(ポリヌクレオチドの試料に由来する)に、試料インデックスおよび/または分子バーコード(一般に「タグ」と称される)をタグ付けすることができる。タグは、他の方法の中でも、化学合成、ライゲーション(例えば、平滑末端ライゲーションまたは粘着末端ライゲーション)、またはオーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によってアダプターに組み入れるまたは他のやり方で接合することができる。そのようなアダプターを最終的に標的核酸分子に接合することができる。他の実施形態では、従来の核酸増幅方法を使用して試料インデックスを核酸分子に導入するために、1つまたは複数のラウンドの増幅サイクル(例えば、PCR増幅)を一般に適用する。増幅は、1つまたは複数の反応混合物(例えば、アレイ内の複数のマイクロウェル)中で行うことができる。分子バーコードおよび/または試料インデックスは、同時に導入することもでき、任意の逐次的順序で導入することもできる。一部の実施形態では、分子バーコードおよび/または試料インデックスを、配列捕捉ステップを実施する前および/または実施した後に導入する。一部の実施形態では、分子バーコードのみをプローブ捕捉の前に導入し、試料インデックスを配列捕捉ステップの実施後に導入する。一部の実施形態では、分子バーコードおよび試料インデックスの両方をプローブに基づく捕捉ステップの実施前に導入する。一部の実施形態では、試料インデックスを配列捕捉ステップの実施後に導入する。一部の実施形態では、分子バーコードを試料中の核酸分子(例えば、cfDNA分子)にアダプターを通じて、ライゲーション(例えば、平滑末端ライゲーションまたは粘着末端ライゲーション)によって組み入れる。一部の実施形態では、試料インデックスを試料中の核酸分子(例えば、cfDNA分子)にオーバーラップ伸長ポリメラーゼ連鎖反応(PCR)を通じて組み入れる。一般には、配列捕捉プロトコールは、標的とされる核酸配列、例えば、ゲノム領域のコード配列と相補的な一本鎖核酸分子を導入することを伴い、そのような領域の突然変異はがんの型に関連付けられる。
一部の実施形態では、タグを試料核酸分子の一方の末端または両方の末端に位置付けることができる。一部の実施形態では、タグは、所定のまたはランダムなまたはセミランダムな配列のオリゴヌクレオチドである。一部の実施形態では、タグは、約500ヌクレオチド未満、約200ヌクレオチド未満、約100ヌクレオチド未満、約50ヌクレオチド未満、約20ヌクレオチド未満、約10ヌクレオチド未満、約9ヌクレオチド未満、約8ヌクレオチド未満、約7ヌクレオチド未満、約6ヌクレオチド未満、約5ヌクレオチド未満、約4ヌクレオチド未満、約3ヌクレオチド未満、約2ヌクレオチド未満、または約1ヌクレオチドの長さであり得る。タグは、試料核酸にランダムに連結することもでき、非ランダムに連結することもできる。
一部の実施形態では、各試料に、試料インデックスまたは試料インデックスの組合せを用いて一意的にタグ付けする。一部の実施形態では、試料または副次試料の各核酸分子に、分子バーコードまたは分子バーコードの組合せを用いて一意的にタグ付けする。他の実施形態では、複数の分子バーコードを、分子バーコードが必ずしも複数内で互いに一意的にならないように使用することができる(例えば、非一意的分子バーコード)。これらの実施形態では、一般に、分子バーコードを個々の分子に、分子バーコードとそれを付着させることができる配列の組合せにより、個別に追跡することができる一意的な配列が創出されるように付着させる(例えば、ライゲーションによって)。非一意的にタグ付けされた分子バーコードと内因性配列情報(例えば、試料中の元の核酸分子の配列に対応する最初の(開始)および/もしくは最後の(終止)部分、一方の末端もしくは両方の末端における配列リードの部分配列、配列リードの長さ、および/または試料中の元の核酸分子の長さ)の組合せの検出により、一般には、特定の分子に一意的な正体を割り当てることが可能になる。個々の配列リードの長さ、または塩基対の数も所与の分子に一意的な正体を割り当てるために必要に応じて使用することができる。本明細書に記載の通り、核酸の一本鎖由来の断片に一意的な正体が割り当てられていることにより、その後、親鎖、および/または相補鎖から断片を同定することが可能になり得る。
一部の実施形態では、分子バーコードを、分子バーコードのセット(例えば、一意的または非一意的分子バーコードの組合せ)の試料中の分子に対する予測比率で導入する。フォーマットの1つの例では、約2種から約1,000,000種までの異なる分子バーコード、または約5種から約150種までの異なる分子バーコード、または約20種から約50種までの異なる分子バーコードを標的分子の両末端にライゲーションして使用する。あるいは、約25種から約1,000,000種までの異なる分子バーコードを使用することができる。例えば、標的分子の各末端に20〜50種の分子バーコード。このような識別子の数は、一般には、同じ開始点および終止点を有する異なる分子が識別子の異なる組合せを得る確率を高くする(例えば、少なくとも94%、99.5%、99.99%、または99.999%)ために十分である。一部の実施形態では、分子の約80%、約90%、約95%、または約99%が分子バーコードの同じ組合せを有する。
一部の実施形態では、反応における一意的または非一意的分子バーコードの割り当てを、例えば、そのそれぞれの全体が参照により本明細書に組み込まれる米国特許出願第20010053519号、同第20030152490号、および同第20110160078号、および米国特許第6,582,908号、同第7,537,898号、同第9,598,731号、および同第9,902,992号に記載されている方法およびシステムを使用して実施する。あるいは、一部の実施形態では、内因性配列情報(例えば、開始および/または終止位置、配列の一方の末端または両方の末端の部分配列、および/または長さ)のみを使用して試料の異なる核酸分子を同定することができる。
核酸増幅
アダプターが隣接する試料核酸を、一般には、増幅されるDNA分子に隣接するアダプター内のプライマー結合性部位に結合する核酸プライマーを使用してPCRおよび他の増幅方法によって増幅する。一部の実施形態では、増幅方法は、伸長、変性およびアニーリングのサイクルを伴い、これは、サーモサイクリングによるもの、または、例えば転写媒介増幅におけるものと同様に等温性であり得る。必要に応じて利用することができる他の例示的な増幅方法としては、他の手法の中でも、リガーゼ連鎖反応、鎖置換増幅、核酸配列に基づく増幅、および自家持続配列ベース複製が挙げられる。
一般に、従来の核酸増幅方法を使用して試料インデックスを核酸分子に導入するために、1つまたは複数のラウンドの増幅サイクルが適用される。増幅は、一般には、1つまたは複数の反応混合物中で行われる。分子タグおよび試料インデックス/タグを必要に応じて同時にまたは任意の逐次的順序で導入する。一部の実施形態では、分子タグおよび試料インデックスを、核酸富化を実施する前におよび/または実施した後に導入する。一部の実施形態では、分子タグのみをプローブ捕捉の前に導入し、試料インデックスを核酸富化の実施後に導入する。ある特定の実施形態では、分子タグおよび試料インデックス/タグの両方をプローブに基づく捕捉ステップの実施前に導入する。一部の実施形態では、試料インデックス/タグを配列捕捉ステップの実施後に導入する。一般には、配列捕捉プロトコールは、標的とされる核酸配列、例えば、ゲノム領域のコード配列と相補的な一本鎖核酸分子を導入することを伴い、そのような領域の突然変異はがんの型に関連付けられる。一般には、増幅反応は、約200ヌクレオチド(nt)から約700ntまで、250ntから約350ntまで、または約320ntから約550ntまでにわたるサイズの、分子タグおよび試料インデックス/タグで非一意的にまたは一意的にタグ付けされた核酸アンプリコンを複数生成する。一部の実施形態では、アンプリコンのサイズは約300ntである。一部の実施形態では、アンプリコンのサイズは約500ntである。
核酸富化
一部の実施形態では、核酸のシーケンシングを行う前に、配列を富化する。富化は、特定の標的領域に対して必要に応じて実施する。一部の実施形態では、標的とされる目的の領域を、1つまたは複数のベイトセットパネルについて選択された核酸捕捉プローブ(「ベイト」)を用い、示差的タイリング(differential tiling)および捕捉スキームを使用して富化することができる。示差的タイリングおよび捕捉スキームでは、一般に、ベイトが結び付くゲノム領域にわたって示差的にタイリングするために(例えば、異なる「分解能」で)異なる相対的濃度のベイトセットを使用し、1組の制約(例えば、シーケンシング負荷などのシーケンサー制約、各ベイトの有用性など)に供し、標的とされる核酸を下流のシーケンシングのために所望のレベルで捕捉する。これらの目的の標的とされるゲノム領域は、必要に応じて核酸構築物の天然または合成ヌクレオチド配列を含む。一部の実施形態では、目的の1つまたは複数の領域に対するプローブを伴うビオチン標識ビーズを使用して、標的配列を捕捉することができ、必要に応じて、その後、これらの領域を増幅して、目的の領域を富化する。
配列捕捉は、一般には、標的核酸配列とハイブリダイズするオリゴヌクレオチドプローブの使用を伴う。ある特定の実施形態では、プローブセット戦略は、目的の領域にわたってプローブをタイリングすることを伴う。そのようなプローブは、例えば、約60ヌクレオチドから約120ヌクレオチドまでの長さであり得る。セットの深さは、約2×またはそれよりも深い、3×またはそれよりも深い、4×またはそれよりも深い、5×またはそれよりも深い、6×またはそれよりも深い、7×またはそれよりも深い、8×またはそれよりも深い、9×またはそれよりも深い、10×またはそれよりも深い、15×またはそれよりも深い、20×またはそれよりも深い、50×またはそれよりも深いものであり得る。配列捕捉の効果は、一般に、一部において、プローブの配列と相補的な(またはほぼ相補的な)標的分子の配列の長さに依存する。
核酸シーケンシング
先の増幅を伴うまたは伴わない、アダプターが隣接する試料核酸を1つまたは複数のシーケンシングデバイス107によるものなどのシーケンシングに供することができる。シーケンシング方法としては、例えば、サンガーシーケンシング、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子のシーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA−Seq(Illumina)、Digital Gene Expression(Helicos)、次世代シーケンシング、合成による単一分子シーケンシング(SMSS)(Helicos)、大規模並列シーケンシング、Clonal Single Molecule Array(Solexa)、ショットガンシーケンシング、Ion Torrent、Oxford Nanopore、Roche Genia、Maxim−Gilbertシーケンシング、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはNanoporeプラットフォームを使用したシーケンシングが挙げられる。シーケンシング反応は、複数の試料セットを実質的に同時に処理する複数のレーン、複数のチャネル、複数のウェル、または他の手段であり得る種々の試料処理装置で実施することができる。試料処理装置は、複数のランを同時に処理することを可能にするために複数の試料チャンバーも含み得る。
シーケンシング反応は、がんまたは他の疾患のマーカーを含有することが分かっている1つまたは複数の断片型に対して実施することができる。シーケンシング反応はまた、試料中に存在する任意の核酸断片に対して実施することができる。シーケンシング反応は、少なくとも5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%のゲノムの配列カバレッジをもたらし得る。他の場合では、ゲノムの配列カバレッジは、5%未満、10%未満、15%未満、20%未満、25%未満、30%未満、40%未満、50%未満、60%未満、70%未満、80%未満、90%未満、95%未満、99%未満、99.9%未満または100%未満であり得る。
同時シーケンシング反応を、マルチプレックスシーケンシングを使用して実施することができる。一部の場合では、無細胞ポリヌクレオチドのシーケンシングを、少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000シーケンシング反応で行うことができる。他の場合では、無細胞ポリヌクレオチドのシーケンシングを、1000未満、2000未満、3000未満、4000未満、5000未満、6000未満、7000未満、8000未満、9000未満、10000未満、50000未満、100,000未満のシーケンシング反応で行うことができる。シーケンシング反応は、逐次的に実施することもでき、同時に実施することもできる。その後のデータ解析をシーケンシング反応の全部または一部に対して実施することができる。一部の場合では、データ解析を少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000シーケンシング反応に対して実施することができる。他の場合では、データ解析を1000未満、2000未満、3000未満、4000未満、5000未満、6000未満、7000未満、8000未満、9000未満、10000未満、50000未満、100,000未満のシーケンシング反応に対して実施することができる。例示的なリードの深さは、遺伝子座(塩基)当たり1000リードから50000リードまでである。
配列解析パイプライン
本方法を対象における状態、特にがんの存在を診断するため、状態を特徴付けるため(例えば、がんのステージ分類を行うため、またはがんの不均一性を決定するため)、状態の処置への応答をモニタリングするため、状態が発生するリスクまたはその後の状態の経過の予後判定を行うために使用することができる。
種々のがんを、本方法を使用して検出することができる。がん細胞は、大多数の細胞と同様に、古い細胞が死滅し、新しい細胞で置き換えられるターンオーバーの速度によって特徴付けることができる。一般に、所与の対象の脈管構造と接触している死細胞は、DNAまたはDNAの断片を血流中に放出し得る。これは、疾患の種々のステージにあるがん細胞にも当てはまる。がん細胞はまた、疾患のステージに応じて、コピー数変異ならびに稀な突然変異などの種々の遺伝子異常によって、特徴付けることもできる。この現象を本明細書に記載の方法およびシステムを使用して個体におけるがんの存在または非存在を検出するために使用することができる。
検出することができるがんの型および数は、血液がん、脳がん、肺がん、皮膚がん、鼻のがん、咽頭がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎がん、口腔がん、胃がん、固体状態の腫瘍、不均一な腫瘍、均一な腫瘍などを含み得る。
がんは、突然変異、稀な突然変異、インデル、コピー数変異、転換、転座、逆位、欠失、異数性、部分的な異数性、倍数性、染色体不安定性、染色体構造変更、遺伝子融合、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、DNA病変、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化を含めた遺伝的変異から検出することができる。
がんの特定の形態を特徴付けるために遺伝的データを使用することもできる。がんは、多くの場合、組成およびステージ分類のどちらも不均一である。遺伝的プロファイルデータにより、がんの特定の亜型の診断または処置において重要であり得るその特定の亜型の特徴付けが可能になる。この情報はまた、対象または実施者に特定の型のがんの予後に関する手がかりをもたらし、かつ対象または実施者のいずれかが疾患の進行に従って処置選択肢を適合させることを可能にする。いくつかのがんは進行し、より侵攻性かつ遺伝的に不安定なものになる。他のがんは良性、非活動性または休止状態のままであり得る。本開示のシステムおよび方法は、疾患増悪の決定において有用であり得る。
本解析はまた、特定の処置選択肢の有効性の決定においても有用である。上首尾の処置選択肢では、処置が上首尾であれば、より多くのがんが死滅し、DNAが放出される可能性があるので、対象の血液中に検出されるコピー数変異または稀な突然変異の量が増加する。他の例では、これは起こらない可能性がある。別の例では、おそらく、ある特定の処置選択肢は、がんの遺伝的プロファイルと経時的に相関し得る。この相関は、治療の選択において有用であり得る。さらに、がんが処置後に寛解の状態にあることが認められた場合、本方法を使用して、残留する疾患または疾患の再発をモニタリングすることができる。
本方法を、がん以外の状態における遺伝的変異を検出するために使用することもできる。B細胞などの免疫細胞は、ある特定の疾患が存在すると、迅速なクローン性増大を起こし得る。クローン性増大はコピー数変異検出を使用してモニタリングすることができ、また、ある特定の免疫状態をモニタリングすることができる。この例では、コピー数変異解析を経時的に実施して、特定の疾患がどのように進行し得るかのプロファイルを作製することができる。コピー数変異またはさらには稀な突然変異の検出を使用して、病原体の集団が感染の過程中にどのように変化するかを決定することができる。これは、これによりウイルスが感染の過程中に生活環状態を変化させ得、かつ/またはより毒性の強い形態に突然変異し得るHIV/AIDまたは肝炎感染などの慢性感染の間に特に重要であり得る。免疫細胞が移植された組織を破壊しようとするので、移植された組織の状態をモニタリングするため、ならびに拒絶の処置または予防の過程を変化させるために本方法を使用して、宿主の体の拒絶活性を決定するまたはプロファイリングすることができる。
さらに、本開示の方法は、対象における異常な状態の不均一性を特徴付けるために使用することができ、対象における細胞外ポリヌクレオチドの遺伝的プロファイルを生成するステップを含み、遺伝的プロファイルが、コピー数変異および稀な突然変異の解析の結果得られた複数のデータを含む。一部の場合では、これだけに限定されないが、がんを含め、疾患は不均一であり得る。疾患細胞は同一でない可能性がある。がんの例では、一部の腫瘍は異なる型の腫瘍細胞を含み、一部の細胞はがんの異なるステージにあることが分かっている。他の例では、不均一性は、疾患の複数の病巣を構成し得る。再度、がんの例では、複数の腫瘍病巣が存在する可能性があり、おそらく、1つまたは複数の病巣は原発部位から広がった転移の結果である。
本方法を、不均一な疾患における異なる細胞に由来する遺伝情報の合計であるフィンガープリントまたはデータのセットを生成またはプロファイリングするために使用することができる。このデータのセットは、コピー数変異および稀な突然変異の解析を単独でまたは組み合わせて含み得る。
本方法を、胎児起源のがんまたは他の疾患を診断する、予後判定する、モニタリングするまたは観察するために使用することができる。すなわち、これらの方法体系を、DNAおよび他のポリヌクレオチドが母系分子と共循環し得る、まだ生まれていない対象におけるがんまたは他の疾患を診断する、予後判定する、モニタリングするまたは観察するために、妊娠中の対象に使用することができる。
高精度の処置例
改善されたコンピュータシステム110によって提供される高精度の診断法の結果、高精度の処置計画を得ることができ、これは、コンピュータシステム110により同定すること(および/または医療従事者がキュレートすること)ができる。
試料中の核酸変異体の数および型により、試料を提供した対象の、処置、すなわち治療介入の影響の受けやすさの指標をもたらすことができる。例えば、多数の核酸変異体が存在することは免疫療法に対する正の指標になる。なぜなら、そのような突然変異の存在が免疫療法の標的を形成するネオエピトープに関連付けられるからである。免疫療法は、他の処置の中でも、PD−1、PD−2、PD−L1、PD−L2、CTLA−40、OX40、B7.1、B7He、LAG3、CD137、KIR、CCR5、CD27、またはCD40のいずれかに対する抗体の使用を含み得る。免疫療法のための他の例示的な薬剤としては、IL−1β、IL−6、およびTNF−αなどの炎症促進サイトカインが挙げられる。他の例示的な薬剤は、例えば、T細胞から腫瘍抗原を標的とするキメラ抗原を発現することにより、腫瘍に対して活性化されるT細胞である。免疫療法では、免疫系を、突然変異の存在によって野生型対応物と弁別される腫瘍抗原を攻撃するように刺激する。
他の処置選択肢としては、特定の変異体に対する標的化治療の施行が挙げられる。例えば、核酸再編成(例えば、EGFRまたはALK融合)の標的化治療は、エルロチニブ、アファチニブ、アレクチニブ、ブリガチニブ、セリチニブ、セツキシマブ、クリゾチニブ、エンサルチニブ、ラロトレクチニブ(laroterctinib)、レンバチニブ、ロルラチニブ、オシメルチニブ、パゾパニブ、レゴラフェニブ、およびTPX−0005などのチロシンキナーゼ阻害剤を含み得る。
シーケンシングされた核酸の核酸変異体は、シーケンシングされた核酸を参照配列と比較することによって決定することができる。参照配列は、多くの場合、既知配列、例えば、対象物由来の既知の全ゲノム配列または部分的なゲノム配列、ヒト対象物の全ゲノム配列である。参照配列はhG19であり得る。シーケンシングされた核酸は、上記の通り、試料中の核酸について直接決定された配列、またはそのような核酸の増幅産物の配列のコンセンサスを表し得る。参照配列上の1つまたは複数の指定位置で比較を実施することができる。それぞれの配列を最大限にアラインメントさせた場合、参照配列の指定位置に対応する位置を含めた、シーケンシングされた核酸のサブセットを同定することができる。そのようなサブセット内で、もしあれば、どのシーケンシングされた核酸が指定位置にヌクレオチド変異を含むか、および、必要に応じて、もしあれば、どれが参照ヌクレオチド(すなわち、参照配列内と同じ)を含むかを決定することができる。ヌクレオチド変異体を含むサブセット内のシーケンシングされた核酸の数が閾値を超える場合には、変異体ヌクレオチドをその指定位置で呼び出す。閾値は、他の可能性の中でも、ヌクレオチド変異体を含むサブセット内のシーケンシングされた核酸が少なくとも1、2、3、4、5、6、7、8、9、もしくは10個などの単純な数であり得る、またはサブセット内のシーケンシングされた核酸の少なくとも0.5、1、2、3、4、5、10、15、または20個がヌクレオチド変異体を含むなどの比率であり得る。比較を参照配列内の任意の目的の指定位置で繰り返すことができる。時には、比較を参照配列上の少なくとも20、100、200、または300の連続的な位置、例えば、20〜500、または50〜300の連続的な位置を占有する指定位置について実施することができる。
上文または下で引用されている特許出願、ウェブサイト、他の刊行物、受託番号などは全て、各項目が、参照により組み込まれることが具体的にかつ個別に示されたものと同じく、あらゆる目的に関してその全体が参照により組み込まれる。異なるバージョンの配列が違う時間に受託番号に関連付けられている場合、本出願の有効な出願日に受託番号に関連付けられたバージョンが意図される。有効な出願日とは、実際の出願日よりも前または該当する場合には受託番号を参照する優先出願の出願日を意味する。同様に、異なるバージョンの刊行物、ウェブサイトなどが違う時間に公開されている場合、別段の指定のない限り、本出願の有効な出願日のごく最近に公開されたバージョンが意図される。特に他の指示がなければ、本開示の任意の特色、ステップ、要素、実施形態、または態様を任意の他の特色、ステップ、要素、実施形態、または態様と組み合わせて使用することができる。本開示は、明瞭さおよび理解のために実例および例としていくつかの詳細が記載されているが、ある特定の変化および改変を添付の特許請求の範囲の範囲内で行うことができることが明らかになろう。

Claims (50)

  1. 対象由来の核酸分子の試料中の核酸変異体を検出するための方法であって、
    コンピュータシステムにより、前記対象由来の前記核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップと、
    前記コンピュータシステムにより、オーバーラップ基準に基づいて前記複数のペアエンドリードの中から複数のペアエンドリードの対を同定するステップと、
    前記コンピュータシステムにより、オーバーラッピング基準を満たす前記複数のペアエンドリードの対に基づいて複数のマージされたリードを生成するステップであって、マージされたリードが、ペアエンドリードの対のそれぞれの配列に基づく配列を含む、ステップと、
    前記コンピュータシステムにより、前記オーバーラップ基準を満たさない前記複数のペアエンドリードの中から複数のマージされないリードを同定するステップであって、所与のマージされないリードが、前記オーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含む、ステップと、
    前記コンピュータシステムにより、前記複数のマージされたリードおよび前記複数のマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップと、
    前記コンピュータシステムにより、前記複数のアラインメントしたリードの中から複数の分割リードを同定するステップであって、所与の分割リードが、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含み、前記第2の核酸遺伝子座が、前記第1の核酸遺伝子座とは異なる、ステップと、
    前記コンピュータシステムにより、所与の分割リードについて、前記第1の核酸遺伝子座および前記第2の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定するステップと、
    前記コンピュータシステムにより、前記複数の分割リードのそれぞれのブレークポイントに基づいて前記複数の分割リードをクラスター化して、複数の変異体クラスターを生成するステップと、
    前記コンピュータシステムにより、所定の基準に合致する前記複数の変異体クラスターの任意の1つまたは複数を、検出された変異体を指し示すものとして同定するステップと
    を含む、方法。
  2. 前記複数のマージされないリードの所与のマージされないリードが、対応するマージされないリードを有し、前記方法が、
    所与のマージされないリードおよび対応するマージされないリードについて、人工ヌクレオチド配列を生成するステップをさらに含む、請求項1に記載の方法。
  3. 前記人工ヌクレオチド配列を前記マージされないリードの第1の配列および前記対応するマージされないリードの第2の配列および前記対応するマージされないリードの配列に鎖状連結するステップをさらに含む、請求項2に記載の方法。
  4. 前記人工ヌクレオチド配列が、前記第1の配列と前記第2の配列との間に位置する、請求項3に記載の方法。
  5. 前記人工ヌクレオチド配列が、少なくとも1ヌクレオチド、少なくとも2ヌクレオチド、少なくとも5ヌクレオチド、少なくとも10ヌクレオチド、少なくとも15ヌクレオチド、少なくとも20ヌクレオチド、少なくとも30ヌクレオチド、少なくとも40ヌクレオチド、少なくとも50ヌクレオチド、または少なくとも100ヌクレオチドの長さである、請求項2に記載の方法。
  6. ブレークポイントの位置が、前記人工ヌクレオチド配列内に位置するように近づけられている、請求項2に記載の方法。
  7. 群が、前記人工ヌクレオチド配列内にブレークポイントを有する分割リードおよび前記第1の部分配列部分または前記第2の部分配列部分内にブレークポイントを有する分割リードを含む、請求項6に記載の方法。
  8. 前記それぞれのブレークポイントが、5ヌクレオチド以下、10ヌクレオチド以下または25ヌクレオチド以下離れている、請求項1に記載の方法。
  9. 前記所定の基準が、前記複数の変異体クラスターの任意の1つまたは複数の中に1つよりも多くの分割リードを有することを含む、請求項1に記載の方法。
  10. 前記所定の基準が、前記第1の部分配列または前記第2の部分配列内にブレークポイントが1つ存在する前記複数の変異体クラスターの任意の1つまたは複数内に少なくとも1つの分割リードを有することを含む、請求項1または9に記載の方法。
  11. 前記試料が、血液、血漿、血清、尿、唾液、粘膜排泄物、痰、便、および涙からなる群より選択される体液試料である、請求項1に記載の方法。
  12. 前記対象が疾患を有する、請求項1に記載の方法。
  13. 前記疾患ががんである、請求項12に記載の方法。
  14. 前記核酸分子がDNAである、請求項1に記載の方法。
  15. 前記DNAが、無細胞DNAである、請求項14に記載の方法。
  16. シーケンシング前に前記無細胞DNA分子のコピーを生成するステップをさらに含む、請求項15に記載の方法。
  17. シーケンシング前に前記核酸分子にバーコードを含む1つまたは複数のアダプターを付着させるステップをさらに含む、請求項1に記載の方法。
  18. 前記アダプターを前記核酸分子の両末端にランダムに付着させる、請求項17に記載の方法。
  19. 前記核酸分子に一意的にバーコード付けする、請求項18に記載の方法。
  20. 前記核酸分子に非一意的にバーコード付けする、請求項18に記載の方法。
  21. 各バーコードが、選択された領域からシーケンシングされた分子の多様性との組合せで一意的な分子の同定を可能にする固定されたまたはセミランダムなオリゴヌクレオチド配列を含む、請求項18に記載の方法。
  22. シーケンシング前に複数の核酸遺伝子座について前記核酸分子を選択的に富化するステップをさらに含む、請求項1に記載の方法。
  23. 実験室システムにより、前記対象の前記試料由来のポリヌクレオチドを増幅するステップをさらに含む、請求項1に記載の方法。
  24. 前記検出された変異体が挿入、欠失、または核酸再編成を含むことを決定するステップ
    をさらに含む、請求項1に記載の方法。
  25. 前記検出された変異体に基づいて、予測される病態を決定するステップ
    をさらに含む、請求項24に記載の方法。
  26. 対象由来の核酸分子の試料中の核酸変異体を検出するための方法であって、
    コンピュータシステムにより、前記対象由来の前記核酸分子の試料から生成された複数のペアエンドリードにアクセスするステップと、
    前記コンピュータシステムにより、オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成するステップと、
    前記コンピュータシステムにより、前記複数のペアエンドリードの中から複数のマージされないリードを同定するステップであって、所与のマージされないリードが、オーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含む、ステップと、
    前記コンピュータシステムにより、前記複数のマージされないリードに基づいて、複数の鎖状連結したマージされないリードを生成するステップと、
    前記コンピュータシステムにより、前記複数のマージされたリードおよび前記複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成するステップと、
    前記コンピュータシステムにより、前記複数のアラインメントしたリードの中から複数の分割リードを同定するステップであって、前記複数の分割リードの中からの所与の分割リードが、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含み、前記第2の核酸遺伝子座が前記第1の核酸遺伝子座とは異なる、ステップと、
    前記コンピュータシステムにより、前記複数の分割リードに基づいて1つまたは複数の変異体を同定するステップと
    を含む、方法。
  27. 前記複数のマージされたリードを起源とする前記複数の分割リードの中から複数のマージされた分割リードを同定するステップと、
    前記複数のマージされた分割リードに基づいて複数の変異体クラスターを生成するステップと、
    前記複数の変異体クラスターのうちの所与の1つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第1の核酸遺伝子座に対応する第1のブレークポイントおよび対応する第2の核酸遺伝子座に対応する第2のブレークポイントを含む、ステップと
    をさらに含み、
    前記1つまたは複数の変異体が、同定された前記ブレークポイントの対のうちの対応するものに基づいて同定される、請求項26に記載の方法。
  28. 基準に合致する前記複数の変異体クラスターのうちの1つまたは複数を前記1つまたは複数の変異体として同定するステップ
    をさらに含む、請求項27に記載の方法。
  29. 前記複数のマージされないリードを起源とする前記複数の分割リードの中から複数のマージされない分割リードを同定するステップと、
    マージされない分割リードが前記第1の核酸遺伝子座および前記第2の核酸遺伝子座にアラインメントすることを決定するステップであって、前記マージされない分割リードの前記第1の核酸遺伝子座および前記第2の核酸遺伝子座に対する前記アラインメントが前記基準として使用される、ステップ
    をさらに含む、請求項28に記載の方法。
  30. 前記所定の基準が、前記複数の変異体クラスターのうちの1つまたは複数の中に1つよりも多くの分割リードを有することを含む、請求項28に記載の方法。
  31. 前記所定の基準が、前記第1の部分配列または前記第2の部分配列内にブレークポイントが1つ存在する前記複数の変異体クラスターのうちの1つまたは複数内に少なくとも1つの分割リードを有することを含む、請求項28に記載の方法。
  32. 前記複数の変異体クラスターを生成するステップが、マージされたリードに隣接する前記複数の鎖状連結したマージされないリードの1つまたは複数にさらに基づく、請求項27に記載の方法。
  33. 前記複数のマージされないリードを起源とする前記複数の分割リードの中から複数のマージされない分割リードを同定するステップと、
    前記複数のマージされない分割リードに基づいて複数の変異体クラスターを生成するステップと、
    前記複数の変異体クラスターのうちの所与の1つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第1の核酸遺伝子座に対応する第1のブレークポイントおよび対応する第2の核酸遺伝子座に対応する第2のブレークポイントを含む、ステップと
    をさらに含み、
    前記1つまたは複数の変異体が、同定された前記ブレークポイントの対のうちの対応するものに基づいて同定される、請求項26に記載の方法。
  34. 前記複数の分割リードに基づいて複数の変異体クラスターを生成するステップと、
    前記複数の変異体クラスターのうちの所与の1つについてブレークポイントの対を同定するステップであって、所与のブレークポイントの対が、対応する第1の核酸遺伝子座に対応する第1のブレークポイントおよび対応する第2の核酸遺伝子座に対応する第2のブレークポイントを含む、ステップと
    をさらに含み、
    前記1つまたは複数の変異体が、同定された前記ブレークポイントの対のうちの対応するものに基づいて同定される、請求項26に記載の方法。
  35. 前記1つまたは複数の変異体が挿入、欠失、または核酸再編成を含むことを決定するステップ
    をさらに含む、請求項26に記載の方法。
  36. 検出された前記1つまたは複数の変異体に基づいて、予測される病態を決定するステップ
    をさらに含む、請求項35に記載の方法。
  37. 対象由来の核酸分子の試料中の核酸変異体を検出するためのシステムであって、
    前記対象由来の前記核酸分子の試料から生成された複数のペアエンドリードにアクセスする;
    オーバーラップ基準に基づいて前記複数のペアエンドリードの中から複数のペアエンドリードの対を同定する;
    オーバーラップしている前記複数のペアエンドリードの対に基づいて複数のマージされたリードを生成し、ここで、マージされたリードは、オーバーラップしているペアエンドリードの対のそれぞれの配列に基づく配列を含む;
    前記複数のペアエンドリードの中から複数のマージされないリードを同定し、ここで、所与のマージされないリードはオーバーラップ基準を満たさないペアエンドリードをメイトペアエンドリードと共に含む;
    前記複数のマージされたリードおよび前記複数のマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成する;
    前記複数のアラインメントしたリードの中から複数の分割リードを同定し、ここで、所与の分割リードは、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含み、前記第2の核酸遺伝子座は、前記第1の核酸遺伝子座とは異なる;
    所与の分割リードについて、前記第1の核酸遺伝子座および前記第2の核酸遺伝子座に対応するゲノム位置の対を含むブレークポイントを決定する;
    前記複数の分割リードのそれぞれのブレークポイントに基づいて前記複数の分割リードをクラスター化して、複数の変異体クラスターを生成する;かつ
    所定の基準に合致する前記複数の変異体クラスターの任意の1つまたは複数を、検出された変異体として同定する
    ようにプログラミングされたプロセッサーを含むコンピュータシステム
    を含む、システム。
  38. 前記複数のマージされないリードの所与のマージされないリードが、対応するマージされないリードを有し、前記プロセッサーが、所与のマージされないリードおよび対応するマージされないリードについて、人工ヌクレオチド配列を生成するようにさらにプログラミングされている、請求項37に記載のシステム。
  39. 前記プロセッサーが、
    前記人工ヌクレオチド配列を前記マージされないリードの第1の配列および前記対応するマージされないリードの第2の配列および前記対応するマージされないリードの配列に鎖状連結する
    ようにさらにプログラミングされている、請求項38に記載のシステム。
  40. ブレークポイントの位置が、前記人工ヌクレオチド配列内に位置するように近づけられている、請求項38に記載のシステム。
  41. 群が、前記人工ヌクレオチド配列内にブレークポイントを有する分割リードおよび前記第1の部分配列部分または前記第2の部分配列部分内にブレークポイントを有する分割リードを含む、請求項40に記載のシステム。
  42. 前記対象の前記試料由来のポリヌクレオチドを増幅するための実験室システムをさらに含む、請求項37に記載のシステム。
  43. 前記プロセッサーが、
    前記検出された変異体が挿入、欠失、または核酸再編成を含むことを決定する
    ようにさらにプログラミングされている、請求項37に記載のシステム。
  44. 前記プロセッサーが、
    前記検出された変異体に基づいて、予測される病態を決定する
    ようにさらにプログラミングされている、請求項43に記載のシステム。
  45. 対象由来の核酸分子の試料中の核酸変異体を検出するためのシステムであって、
    前記対象由来の前記核酸分子の試料から生成された複数のペアエンドリードにアクセスする;
    オーバーラップ基準を満たすペアエンドリードのそれぞれのメイト対に基づいて、複数のマージされたリードを生成する;
    前記複数のペアエンドリードの中から複数のマージされないリードを同定し、ここで、所与のマージされないリードは、オーバーラップ基準を満たさないペアエンドリードを対応するメイトペアエンドリードと共に含む;
    前記複数のマージされないリードに基づいて複数の鎖状連結したマージされないリードを生成する;
    前記複数のマージされたリードおよび前記複数の鎖状連結したマージされないリードを参照ゲノムに対してアラインメントさせて、複数のアラインメントしたリードを生成する;
    前記複数のアラインメントしたリードの中から複数の分割リードを同定し、ここで、前記複数の分割リードの中からの所与の分割リードは、参照配列の第1の核酸遺伝子座にアラインメントする第1の部分配列部分および参照配列の第2の核酸遺伝子座にアラインメントする第2の部分配列部分を含み、前記第2の核酸遺伝子座が前記第1の核酸遺伝子座とは異なる;かつ
    前記複数の分割リードに基づいて1つまたは複数の変異体を同定する
    ようにプログラミングされたプロセッサーを含むコンピュータシステム
    を含む、システム。
  46. 前記対象の前記試料由来のポリヌクレオチドを増幅するための実験室システムをさらに含む、請求項45に記載のシステム。
  47. 前記プロセッサーが、
    前記1つまたは複数の変異体が挿入、欠失、または核酸再編成を含むことを決定する
    ようにさらにプログラミングされている、請求項45に記載のシステム。
  48. 前記プロセッサーが、
    前記1つまたは複数の変異体に基づいて、予測される病態を決定する
    ようにさらにプログラミングされている、請求項47に記載のシステム。
  49. 前記試料中の前記変異体の存在または非存在に関する情報、および/または前記試料中の前記変異体の存在または非存在から導き出された情報を必要に応じて含む報告書を作成することをさらに含む、先行する請求項のいずれか一項に記載の方法またはシステム。
  50. 前記報告書を前記試料が由来する前記対象または健康管理実施者などの第三者に伝達することをさらに含む、請求項49に記載の方法またはシステム。
JP2021510444A 2018-08-31 2019-09-03 マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出 Active JP7535998B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862726131P 2018-08-31 2018-08-31
US62/726,131 2018-08-31
PCT/US2019/049382 WO2020047553A1 (en) 2018-08-31 2019-09-03 Genetic variant detection based on merged and unmerged reads

Publications (2)

Publication Number Publication Date
JP2021536612A true JP2021536612A (ja) 2021-12-27
JP7535998B2 JP7535998B2 (ja) 2024-08-19

Family

ID=67957453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021510444A Active JP7535998B2 (ja) 2018-08-31 2019-09-03 マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出

Country Status (4)

Country Link
US (1) US20200075123A1 (ja)
EP (1) EP3844760A1 (ja)
JP (1) JP7535998B2 (ja)
WO (1) WO2020047553A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4081663A1 (en) * 2019-12-24 2022-11-02 Invivoscribe, Inc. A method of nucleic acid sequence analysis
WO2021202753A1 (en) * 2020-03-31 2021-10-07 TeselaGen Biotechnology Inc. Method, apparatus, and computer-readable medium for optimal pooling of nucleic acid samples for next generation sequencing
KR20230039218A (ko) * 2021-09-14 2023-03-21 (주)디엑솜 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법
WO2023250504A1 (en) * 2022-06-24 2023-12-28 Illumina Software, Inc. Improving split-read alignment by intelligently identifying and scoring candidate split groups

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014028771A1 (en) * 2012-08-15 2014-02-20 The Board Of Trustees Of The University Of Illinois Iterative genome assembler
US20160246922A1 (en) * 2015-02-17 2016-08-25 Dovetail Genomics Llc Nucleic acid sequence assembly
WO2017062970A1 (en) * 2015-10-10 2017-04-13 Guardant Health, Inc. Methods and applications of gene fusion detection in cell-free dna analysis

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
US7208271B2 (en) 2001-11-28 2007-04-24 Applera Corporation Compositions and methods of selective nucleic acid isolation
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
KR20220061271A (ko) 2012-09-04 2022-05-12 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP3851539A1 (en) * 2013-10-07 2021-07-21 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
WO2015175705A1 (en) * 2014-05-13 2015-11-19 Board Of Regents, The University Of Texas System Gene mutations and copy number alterations of egfr, kras and met
MX2017010142A (es) * 2015-02-09 2017-12-11 10X Genomics Inc Sistemas y metodos para determinar variacion estructural y ajuste de fases con datos de recuperacion de variantes.
GB2541904B (en) * 2015-09-02 2020-09-02 Oxford Nanopore Tech Ltd Method of identifying sequence variants using concatenation
US11929147B2 (en) * 2017-09-14 2024-03-12 Roche Sequencing Solutions, Inc. Direct variant phasing in long reads to detect quasispecies

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014028771A1 (en) * 2012-08-15 2014-02-20 The Board Of Trustees Of The University Of Illinois Iterative genome assembler
US20160246922A1 (en) * 2015-02-17 2016-08-25 Dovetail Genomics Llc Nucleic acid sequence assembly
WO2017062970A1 (en) * 2015-10-10 2017-04-13 Guardant Health, Inc. Methods and applications of gene fusion detection in cell-free dna analysis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CELINE VAN DE PAER ET AL.: "Mitogenomics of Hesperelaea, an extinct genus of Oleaceae", GENE [ONLINE], vol. 594, JPN6023043401, 4 September 2016 (2016-09-04), pages 197 - 202, XP029762094, ISSN: 0005178006, DOI: 10.1016/j.gene.2016.09.007 *
FREDERICO SCHMITT KREMER ET AL.: "Approaches for in silico finishing of microbial genome sequences", GENETICS AND MOLECULAR BIOLOGY [ONLINE], JPN6023043400, September 2017 (2017-09-01), pages 553 - 562, ISSN: 0005178007 *

Also Published As

Publication number Publication date
US20200075123A1 (en) 2020-03-05
EP3844760A1 (en) 2021-07-07
WO2020047553A1 (en) 2020-03-05
JP7535998B2 (ja) 2024-08-19

Similar Documents

Publication Publication Date Title
US11959139B2 (en) Methods and systems for detecting genetic variants
US11193175B2 (en) Normalizing tumor mutation burden
JP7535998B2 (ja) マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出
US20230335219A1 (en) Methods and systems for detecting insertions and deletions
US20230360727A1 (en) Computational modeling of loss of function based on allelic frequency
US20240141425A1 (en) Correcting for deamination-induced sequence errors
US20210398610A1 (en) Significance modeling of clonal-level absence of target variants
JP2022512848A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231020

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240119

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240806

R150 Certificate of patent or registration of utility model

Ref document number: 7535998

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150