JP2023139307A - 挿入および欠失を検出するための方法およびシステム - Google Patents

挿入および欠失を検出するための方法およびシステム Download PDF

Info

Publication number
JP2023139307A
JP2023139307A JP2023127052A JP2023127052A JP2023139307A JP 2023139307 A JP2023139307 A JP 2023139307A JP 2023127052 A JP2023127052 A JP 2023127052A JP 2023127052 A JP2023127052 A JP 2023127052A JP 2023139307 A JP2023139307 A JP 2023139307A
Authority
JP
Japan
Prior art keywords
reads
item
sequence
nucleotides
breakpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023127052A
Other languages
English (en)
Inventor
シコラ マーシン
Sikora Marcin
アール. モクタリ モハンマド
R Mokhtari Mohammad
チュドヴァ ダーリヤ
Chudova Darya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guardant Health Inc
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Publication of JP2023139307A publication Critical patent/JP2023139307A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

【課題】挿入および欠失を検出するための方法およびシステムの提供。【解決手段】核酸シーケンシング装置からのシーケンスリードの中から同じ分子バーコードおよびシーケンスを有する遺伝子シーケンスリードを識別し、遺伝子リードをファミリーにグルーピングし、分割リードを含むファミリーを処理し、ポリヌクレオチド分子のサンプル中の挿入および/または欠失を検出することによって、挿入および/または欠失のコールを改良するための方法およびシステム。本発明の方法およびシステムは、疾患と相関され得る挿入、欠失、置換、再編成、およびコピー数多型等の遺伝子バリアントを検出し得る。【選択図】なし

Description

相互参照
本出願は、2017年5月19日に出願された米国仮出願番号第62/509,003号;2017年5月22日に出願された同第62/509,699号;および2017年5月25日に出願された同第62/511,186号の利益を主張しており、これら仮出願の各々は、それらの全体が参考として本明細書中に援用される。
背景
挿入、欠失、置換、再編成、およびコピー数多型等の遺伝子バリアントは、疾患と相関され得る。次世代シーケンシング技術または高スループットシーケンシングが、遺伝子バリアントを検出するために採用されることができる。遺伝子バリアントを正確に識別することは、疾患と関連付けられた遺伝子バリアントを識別する際に次世代シーケンシング技術を使用するために重要である。
挿入および欠失等の遺伝子バリアントは、一塩基多型に続く、ヒトゲノムにおける遺伝子バリアントの2番目に最も頻繁に認められるクラスを代表する。挿入および/または欠失もまた、疾患の病因、遺伝子発現、および機能性に寄与する。
要旨
ある側面では、本開示は、システムであって、(a)通信ネットワークを経由して、核酸シーケンシング装置によって生成されたシーケンスリードを受信する、通信インターフェースと、(b)通信インターフェースと通信する、コンピュータであって、1つまたはそれを上回るコンピュータプロセッサと、1つまたはそれを上回るコンピュータプロセッサによる実行に応じて、i.通信ネットワークを経由して、核酸シーケンシング装置によって生成された遺伝子シーケンスリードを受信するステップと、ii.遺伝子シーケンスリードを処理し、処理されたシーケンスリードを生成するステップと、iii.遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、iv.処理されたシーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、v.ファミリーの少なくとも一部を融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとを含み、第1の切断点および第2の切断点は、切断点ペアを形成する、ステップと、vi.融合クラスタを挿入および/または欠失を含むとしてコールするステップであって、切断点ペアは、同一染色体にマッピングされ、切断点ペア内の第1の切断点と第2の切断点との間の距離は、参照シーケンス上の所定の最大距離未満であって、サブシーケンスは、同一5´-3´配向にある、ステップとを含む、方法を実装する、機械実行可能コードを含む、コンピュータ可読媒体とを含む、コンピュータとを含む、システムを提供する。いくつかの実施形態では、本システムはさらに、融合クラスタを、(vi)における前述の基準のうちの少なくとも1つが満たされない、融合を有するとしてコールするステップを含む。いくつかの実施形態では、本システムはさらに、挿入、欠失、および/または融合を含む、ポリヌクレオチド分子のインジケーションを提供する、電子報告を生成するステップを含む。
いくつかの実施形態では、参照シーケンス上に同一の開始-停止位置を伴う、処理されたシーケンスリードは、ファミリーにグルーピングされる。いくつかの実施形態では、遺伝子シーケンスリードは、対合端シーケンスリードを含む。いくつかの実施形態では、重複領域を伴う、対合端シーケンスは、マージされ、マージされたリードを含む、処理されたリードを生成する。いくつかの実施形態では、少なくとも70%の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも80%の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも90%の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも13個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも15個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも17個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも19個の塩基の重複を伴う、対合端リードは、マージされる。
いくつかの実施形態では、重複領域を伴う、対合端シーケンスは、マージされ、マージされたリードを形成し、マージされたシーケンスリードは、さらに処理され、代表のマージされた一意のリードを含む、処理されたリードを生成する。いくつかの実施形態では、ファミリーの少なくとも一部は、複数の分割リードを含む。いくつかの実施形態では、本システムはさらに、複数の分割リードを含むファミリー毎に、コンセンサスシーケンスを生成するステップを含む。いくつかの実施形態では、分割リードは、各ファミリーから生成されたコンセンサスシーケンスである。
いくつかの実施形態では、融合クラスタ内の分割リードの第1の切断点間の距離は、相互からヌクレオチド10個未満であって、融合クラスタ内の分割リードの第2の切断点間の距離は、相互からヌクレオチド10個未満である。いくつかの実施形態では、分割リードは、ファミリーのコンセンサスシーケンスである。
いくつかの実施形態では、所定の最大距離は、ヌクレオチド5,000個未満である。いくつかの実施形態では、所定の最大距離は、3,500個未満である。
いくつかの実施形態では、ファミリーはさらに、(a)同一の開始位置および同一短縮停止シーケンスを有するか、または(b)同一停止位置および同一短縮開始シーケンスを有する、処理されたリードを含む。
いくつかの実施形態では、短縮開始/停止シーケンスは、一意のシーケンスリードの全体を短縮し、ホモポリマー中の重複ヌクレオチドを除去することによって生成される。いくつかの実施形態では、ホモポリマーは、ポリ(dA)またはポリ(dT)を含む。いくつかの実施形態では、ホモポリマーは、ポリ(dG)またはポリ(dC)を含む。
いくつかの実施形態では、サンプルは、無細胞DNAを含む。いくつかの実施形態では、参照シーケンスは、ヒト参照シーケンスである。いくつかの実施形態では、核酸シーケンシング装置は、次世代シーケンシング装置である。いくつかの実施形態では、対合端シーケンスリードは、品質スコアを生成するために、品質に関して査定される。
いくつかの実施形態では、コンピュータ可読媒体は、メモリ、ハードドライブ、またはコンピュータサーバを含む。いくつかの実施形態では、通信ネットワークは、電気通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む。いくつかの実施形態では、通信ネットワークは、分散型コンピューティングに対応可能な1つまたはそれを上回るコンピュータサーバを含む。いくつかの実施形態では、分散型コンピューティングは、クラウドコンピューティングである。
いくつかの実施形態では、通信ネットワークは、遺伝子シーケンスリードを含む、記憶デバイスを含む。
いくつかの実施形態では、コンピュータは、核酸シーケンシング装置から遠隔に位置する、コンピュータサーバ上に位置する。
いくつかの実施形態では、本システムはさらに、ネットワークを経由してコンピュータと通信する電子ディスプレイを含み、電子ディスプレイは、(i)-(vi)を実装することに応じた結果を表示するためのユーザインターフェース(i)-(vi)を実装することに応じた結果を表示するためのユーザインターフェースを含む。いくつかの実施形態では、ユーザインターフェースは、グラフィカルユーザインターフェース(GUI)またはウェブベースのユーザインターフェースである。いくつかの実施形態では、電子ディスプレイは、パーソナルコンピュータ内にある。いくつかの実施形態では、電子ディスプレイは、インターネット対応コンピュータ内にある。いくつかの実施形態では、インターネット対応コンピュータは、コンピュータから遠隔場所に位置する。
別の側面では、本開示は、遺伝子シーケンスリード内の挿入および/または欠失を検出するためのコンピュータ実装方法であって、(a)コンピュータプロセッサを用いて、核酸シーケンシング装置から生成されたポリヌクレオチド分子の遺伝子シーケンスリードを受信するステップと、(b)コンピュータプロセッサを用いて、遺伝子シーケンスリードを処理するステップであって、処理されたシーケンスリードを生成するステップと、(c)コンピュータプロセッサを用いて、処理されたシーケンスリードを参照シーケンスにマッピングするステップと、(d)コンピュータプロセッサによって、処理されたシーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、(e)コンピュータプロセッサによって、ファミリーの少なくとも一部を融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとを含み、第1の切断点および第2の切断点は、切断点ペアを形成する、ステップと、(f)コンピュータプロセッサによって、融合クラスタを挿入および/または欠失を含むとしてコールするステップであって、i.切断点ペアは、参照シーケンスの同一染色体上に位置し、ii.切断点ペア内の第1の切断点と第2の切断点との間の距離は、参照シーケンス上の所定の最大距離未満であって、iii.サブシーケンスは、同一5´-3´配向にある、ステップとを含む、方法を提供する。いくつかの実施形態では、本方法はさらに、(g)コンピュータプロセッサによって、融合クラスタを、(f)内の基準のうちの少なくとも1つが満たされない、融合を含むとしてコールするステップを含む。
いくつかの実施形態では、本明細書に開示されるシステムおよび方法は、第1および第2のサブシーケンスが、参照シーケンスと比較して、正常ゲノム順序にある場合、融合クラスタを欠失としてコールするステップを含む。他の実施形態では、本明細書に開示されるシステムおよび方法は、第1および第2のサブシーケンスが、参照シーケンスと比較して、逆ゲノム順序にある場合、融合クラスタを挿入としてコールするステップを含む。
いくつかの実施形態では、遺伝子シーケンスリードは、対合端シーケンスリードのセットを含む。いくつかの実施形態では、処理するステップは、i.対合端シーケンスリードをマージし、マージされたリードを形成することを含む。いくつかの実施形態では、処理するステップはさらに、ii.同じバーコードおよび同一の内部シーケンスを有するマージされたリードの集合を一意のセットにグルーピングすることと、iii.一意のセット毎に、処理されたシーケンスリードを生成することとを含む。いくつかの実施形態では、重複領域を伴う、対合端シーケンスリードは、マージされ、マージされたシーケンスリードを形成する。いくつかの実施形態では、少なくとも60%の同一性を有する重複領域を伴う、対合端シーケンスリードは、マージされる。いくつかの実施形態では、少なくとも70%の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも80%の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも90%の同一性を有する重複領域を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも13個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも15個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも17個の塩基の重複を伴う、対合端リードは、マージされる。いくつかの実施形態では、少なくとも19個の塩基の重複を伴う、対合端リードは、マージされる。
いくつかの実施形態では、融合クラスタ内の分割リードの第1の切断点間の距離は、相互からヌクレオチド10個未満であって、融合クラスタ内の分割リードの第2の切断点間の距離は、相互からヌクレオチド10個未満である。いくつかの実施形態では、所定の最大距離は、ヌクレオチド5,000個未満である。いくつかの実施形態では、所定の最大距離は、ヌクレオチド3,000個未満である。
いくつかの実施形態では、処理されたシーケンスリードは、同一対の分子バーコードを有することに基づいて、ファミリーにグルーピングされる。いくつかの実施形態では、処理されたシーケンスリードは、参照シーケンス上の同一場所へのマッピングに基づいて、ファミリーにグルーピングされる。
いくつかの実施形態では、ファミリー内の処理されたシーケンスリードは、(a)同一の開始位置および同一短縮停止シーケンスを有するか、または(b)同一停止位置および同一短縮開始シーケンスを有する、シーケンスリードを含む。いくつかの実施形態では、短縮開始または停止シーケンスは、処理されたシーケンスリードの一部を短縮し、ホモポリマー中の重複ヌクレオチドを除去することによって生成される。いくつかの実施形態では、ホモポリマーは、ポリ(dA)またはポリ(dT)を含む。いくつかの実施形態では、ホモポリマーは、ポリ(dG)またはポリ(dC)を含む。
いくつかの実施形態では、ファミリーは、相互から所定の切断点距離内の切断点を有する、分割リードに基づいて、融合クラスタにグルーピングされる。いくつかの実施形態では、所定の切断点距離は、ヌクレオチド25個未満である。いくつかの実施形態では、所定の切断点距離は、ヌクレオチド10個未満である。
いくつかの実施形態では、分割リードは、分割リードを含むファミリー毎に生成されたコンセンサスシーケンスである。いくつかの実施形態では、コンセンサスシーケンスは、相互から所定の切断点距離内の切断点を有する、分割リードに基づいて、融合クラスタにグルーピングされる。いくつかの実施形態では、所定の切断点距離は、ヌクレオチド25個未満である。いくつかの実施形態では、所定の切断点距離は、ヌクレオチド10個未満である。
いくつかの実施形態では、参照シーケンスは、ヒト参照シーケンスである。いくつかの実施形態では、核酸シーケンシング装置は、次世代シーケンシング装置である。
いくつかの実施形態では、サンプルは、対象から取得された体液である。いくつかの実施形態では、体液は、血液、血漿、血清、尿、唾液、粘膜分泌液、喀痰、糞便、および涙液から成る群から選択される。いくつかの実施形態では、対象は、癌を有する。いくつかの実施形態では、サンプルは、無細胞DNA分子を含む。
いくつかの実施形態では、本方法はさらに、挿入および/または欠失ならびに/もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む。本方法はさらに、挿入および/または欠失ならびに/もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む。
別の側面では、本開示は、方法であって、(a)ポリヌクレオチド分子の遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、(b)分割リードを含む、遺伝子シーケンスリードを識別するステップであって、各分割リードは、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとを含み、第1の切断点および第2の切断点は、切断点ペアを形成する、ステップと、(b)分割リードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じるシーケンスリードを含む、ステップと、(d)ファミリー毎に、コンセンサス分割リードシーケンスを生成するステップと、(e)ファミリー毎のコンセンサス分割リードシーケンスを融合クラスタにグルーピングするステップであって、融合クラスタ内のコンセンサスシーケンスは、類似切断点ペアを有する、ステップと、(f)融合クラスタを挿入および/または欠失を含むとしてコールするステップであって、i.切断点ペアは、参照シーケンスの同一染色体上に位置し、ii.切断点ペア内の第1の切断点と第2の切断点との間の距離は、参照シーケンス上の所定の最大距離未満であって、iii.サブシーケンスは、同一5´-3´配向にある、ステップとを含む、方法を提供する。いくつかの実施形態では、本方法はさらに、(g)融合クラスタを、(f)内の基準のうちの少なくとも1つが満たされない、融合を含むとしてコールするステップを含む。
いくつかの実施形態では、各融合クラスタ内のコンセンサスシーケンスは、相互間の第1の所定の切断点距離内にある、第1の切断点と、相互間の第2の所定の切断点距離内にある、第2の切断点とを有する、分割リードを含む。いくつかの実施形態では、第1の所定の切断点距離は、ヌクレオチド25個未満である。いくつかの実施形態では、所定の距離は、ヌクレオチド10個未満である。いくつかの実施形態では、第2の所定の切断点距離は、ヌクレオチド25個未満である。いくつかの実施形態では、第2の所定の距離は、ヌクレオチド10個未満である。
別の側面では、本開示は、方法であって、(a)ポリヌクレオチド分子の遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、(b)遺伝子シーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、(c)ファミリーの一意のシーケンスリードを融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、サブシーケンス、すなわち、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとによって特徴付けられ、第1の切断点および第2の切断点は、切断点ペアを形成する、ステップと、(d)融合クラスタの一意のシーケンスリードを挿入および/または欠失を含むとしてコールするステップであって、i.切断点ペアは、同一染色体にマッピングされ、ii.切断点ペア内の第1の切断点と第2の切断点との間の距離は、参照シーケンス上の所定の最大距離未満であって、iii.サブシーケンスは、同一5´-3´配向にある、ステップとを含む、方法を提供する。いくつかの実施形態では、本方法はさらに、(e)融合クラスタの一意のシーケンスリードを、(d)内の基準のうちの少なくとも1つが満たされない、融合を含むとしてコールするステップを含む。いくつかの実施形態では、本方法はさらに、挿入および/または欠失ならびに/もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む。本方法はさらに、挿入および/または欠失ならびに/もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む。
別の側面では、本開示は、挿入および/または欠失ならびに/もしくは融合を検出するためのコンピュータ実装方法であって、(a)コンピュータプロセッサを用いて、核酸シーケンシング装置から収集される対合端シーケンスリードをアライメントおよびマージするステップであって、対合端シーケンスリードのセットから代表のマージされた一意のリードを生成するステップであって、各代表のマージされた一意のリードは、対合端シーケンスリードのマージ後、同一分子バーコードおよびシーケンスを有する、対合端シーケンスリードを代表する、ステップと、(b)プロセッサを用いて、代表のマージされた一意のリードを参照シーケンスにマッピングするステップと、(c)プロセッサを用いて、代表のマージされた一意のリードをファミリーにグルーピングするステップであって、各ファミリーは、同一のオリジナルのタグ付けされたポリヌクレオチド分子から生じる代表のマージされた一意のリードを含み、各ファミリーは、コンセンサスシーケンスによって代表される、ステップと、(d)プロセッサを用いて、ファミリーのコンセンサスシーケンスを融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードのファミリーからのコンセンサスシーケンスを含み、各分割リードは、サブシーケンス、すなわち、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとによって特徴付けられ、第1の切断点および第2の切断点は、切断点ペアを形成し、融合クラスタ内のコンセンサスシーケンスは、類似切断点ペアを含む、ステップと、(e)プロセッサを用いて、融合クラスタを挿入および/または欠失を有するとしてコールするステップであって、(i)切断点ペアは、同一染色体にマッピングされ、(ii)切断点ペア間の距離は、所定の最大距離未満であって、(iii)サブシーケンスは、同一5´-3´配向にある、ステップとを含む、方法を提供する。いくつかの実施形態では、本方法はさらに、プロセッサによって、以下の基準、すなわち、i.切断点ペアは、同一染色体にマッピングされ、ii.切断点ペア間の距離は、所定の最大距離未満であって、iii.サブシーケンスは、同一5´-3´配向にあることのうちの少なくとも1つが満たされない、融合を有する、融合クラスタをコールするステップを含む。
いくつかの実施形態では、コンピュータ実装方法はさらに、プロセッサを用いて、対合端シーケンスリードのシーケンシング品質を計算し、対合端シーケンスリードに関する品質スコアを提供するステップを含む。
別の側面では、本開示は、癌を患う患者を処置するための方法であって、(a)患者内の融合クラスタの存在または量に関するデータを受信するステップであって、データは、前述の方法のいずれかを使用して取得される、ステップと、(b)融合クラスタの存在または量に基づいて、患者に異なる処置計画を受けさせるステップとを含む、方法を提供する。
いくつかの実施形態では、融合クラスタまたはより大量の融合クラスタの存在を伴う患者は、融合クラスタを伴わないまたはより小量の融合クラスタを伴う患者より厳しい療法計画を受ける。いくつかの実施形態では、より厳しい計画は、あまり厳しくない計画における処置薬の用量より高い用量の処置薬によって特徴付けられる。
いくつかの実施形態では、融合クラスタは、METエクソン14スキッピング欠失としてコールされる。いくつかの実施形態では、処置薬は、MET阻害剤である。いくつかの実施形態では、MET阻害剤は、クリゾチニブ、カボザンチニブ、カプマチニブ、テポチニブ、およびグレサチニブから成る群から選択される。いくつかの実施形態では、処置計画は、化学、放射線、または免疫療法を含む。
いくつかの実施形態では、データは、癌のための処置を受ける患者における融合クラスタの存在を示し、処置は、そのような患者において継続される。
全ての本明細書に説明される方法は、コンピュータ実装方法であることができる。
全ての本明細書に説明される方法はさらに、挿入および/または欠失ならびに/もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、報告を電子フォーマットで生成するステップを含むことができる。
本開示の付加的側面および利点は、本開示の例証的実施形態のみが示され、説明される、以下の発明を実施するための形態から、当業者に容易に明白となるであろう。認識されるであろうように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、種々の明白な点で修正が可能である。故に、図面および説明は、制限的ではなくて本質的に例証的と見なされるものである。
本発明は、例えば、以下を提供する。
(項目1)
システムであって、
(a)通信ネットワークを経由して、核酸シーケンシング装置によって生成された遺伝子シーケンスリードを受信する、通信インターフェースと、
(b)前記通信インターフェースと通信する、コンピュータであって、1つまたはそれを上回るコンピュータプロセッサと、前記1つまたはそれを上回るコンピュータプロセッサによる実行に応じて、
i.前記通信ネットワークを経由して、前記核酸シーケンシング装置によって生成された前記遺伝子シーケンスリードを受信するステップと、
ii.前記遺伝子シーケンスリードを処理するステップであって、処理されたシーケンスリードを生成するステップと、
iii.前記処理されたシーケンスリードを参照シーケンスにマッピングするステップと、
iv.前記処理されたシーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、
v.前記ファミリーの少なくとも一部を融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとを含み、前記第1の切断点および前記第2の切断点は、切断点ペアを形成する、ステップと、
vi.融合クラスタを挿入および/または欠失を含むとしてコールするステップであって、切断点ペアは、同一染色体にマッピングされ、前記切断点ペア内の前記第1の切断点と前記第2の切断点との間の距離は、前記参照シーケンス上の所定の最大距離未満であって、サブシーケンスは、同一5´-3´配向にある、ステップと、
を含む、方法を実装する、機械実行可能コードを含む、コンピュータ可読媒体とを含む、コンピュータと、
を含む、システム。
(項目2)
融合クラスタを、(vi)における前述の基準のうちの少なくとも1つが満たされない、融合を有するとしてコールするステップをさらに含む、項目1に記載のシステム。
(項目3)
前記挿入、欠失、および/または融合を含む、前記ポリヌクレオチド分子のインジケーションを提供する、電子報告を生成するステップをさらに含む、項目1または2に記載のシステム。
(項目4)
前記参照シーケンス上に同一の開始-停止位置を有する前記処理されたシーケンスリードは、ファミリーにグルーピングされる、項目1に記載のシステム。
(項目5)
前記遺伝子シーケンスリードは、対合端シーケンスリードを含む、項目1に記載のシステム。
(項目6)
重複領域を伴う、前記対合端シーケンスリードは、マージされ、マージされたリードを含む、処理されたリードを生成する、項目5に記載のシステム。
(項目7)
少なくとも70%の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目6に記載のシステム。
(項目8)
少なくとも80%の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目6に記載のシステム。
(項目9)
少なくとも90%の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目6に記載のシステム。
(項目10)
少なくとも13個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目6に記載のシステム。
(項目11)
少なくとも15個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目6に記載のシステム。
(項目12)
少なくとも17個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目6に記載のシステム。
(項目13)
少なくとも19個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目6に記載のシステム。
(項目14)
重複領域を伴う、前記対合端シーケンスリードは、マージされ、マージされたリードを形成し、前記マージされたシーケンスリードは、さらに処理され、代表のマージされた一意のリードを含む、処理されたリードを生成する、項目5に記載のシステム。
(項目15)
前記ファミリーの少なくとも一部は、複数の分割リードを含む、項目1に記載のシステム。
(項目16)
前記複数の分割リードを含むファミリー毎に、コンセンサスシーケンスを生成するステップをさらに含む、項目15に記載のシステム。
(項目17)
前記分割リードは、各ファミリーから生成されたコンセンサスシーケンスである、項目1に記載のシステム。
(項目18)
前記融合クラスタ内の分割リードの第1の切断点間の距離は、相互からヌクレオチド10個を上回り、前記融合クラスタ内の分割リードの第2の切断点間の距離は、相互からヌクレオチド10個未満である、項目1に記載のシステム。
(項目19)
前記分割リードは、ファミリーのコンセンサスシーケンスである、項目1に記載のシステム。
(項目20)
前記所定の最大距離は、ヌクレオチド5,000個未満である、項目1に記載のシステム。
(項目21)
前記所定の最大距離は、3,500個未満である、項目1に記載のシステム。
(項目22)
前記ファミリーはさらに、
(a)同一の開始位置および同一短縮停止シーケンスを有するか、または
(b)同一停止位置および同一短縮開始シーケンスを有する、
処理されたリードを含む、項目1に記載のシステム。
(項目23)
前記短縮開始/停止シーケンスは、一意のシーケンスリードの全体を短縮し、ホモポリマー中の重複ヌクレオチドを除去することによって生成される、項目22に記載のシステム。
(項目24)
前記ホモポリマーは、ポリ(dA)またはポリ(dT)を含む、項目23に記載のシステム。
(項目25)
前記ホモポリマーは、ポリ(dG)またはポリ(dC)を含む、項目23に記載のシステム。
(項目26)
前記サンプルは、無細胞DNAを含む、項目1に記載のシステム。
(項目27)
前記参照シーケンスは、ヒト参照シーケンスである、項目1に記載のシステム。
(項目28)
前記核酸シーケンシング装置は、次世代シーケンシング装置である、項目1に記載のシステム。
(項目29)
前記対合端シーケンスリードは、品質スコアを生成するために、品質に関して査定される、項目5に記載のシステム。
(項目30)
前記コンピュータ可読媒体は、メモリ、ハードドライブ、またはコンピュータサーバを含む、項目1に記載のシステム。
(項目31)
前記通信ネットワークは、電気通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む、項目1に記載のシステム。
(項目32)
前記通信ネットワークは、分散型コンピューティングに対応可能な1つまたはそれを上回るコンピュータサーバを含む、項目1に記載のシステム。
(項目33)
分散型コンピューティングは、クラウドコンピューティングである、項目32に記載のシステム。
(項目34)
前記通信ネットワークは、前記遺伝子シーケンスリードを含む、記憶デバイスを含む、項目1に記載のシステム。
(項目35)
前記コンピュータは、前記核酸シーケンシング装置から遠隔にある、コンピュータサーバ上に位置する、項目1に記載のシステム。
(項目36)
ネットワークを経由して前記コンピュータと通信する電子ディスプレイをさらに含み、前記電子ディスプレイは、(i)-(vi)を実装することに応じた結果を表示するためのユーザインターフェースを含む、項目1に記載のシステム。
(項目37)
前記ユーザインターフェースは、グラフィカルユーザインターフェース(GUI)またはウェブベースのユーザインターフェースである、項目36に記載のシステム。
(項目38)
前記電子ディスプレイは、パーソナルコンピュータ内にある、項目36に記載のシステム。
(項目39)
前記電子ディスプレイは、インターネット対応コンピュータ内にある、項目36に記載のシステム。
(項目40)
前記インターネット対応コンピュータは、前記コンピュータから遠隔場所に位置する、項目39に記載のシステム。
(項目41)
前記融合クラスタは、前記第1および第2のサブシーケンスが、前記参照シーケンスと比較して、正常ゲノム順序にある場合、欠失とコールされる、項目1に記載のシステム。
(項目42)
前記融合クラスタは、前記第1および第2のサブシーケンスが、前記参照シーケンスと比較して、逆ゲノム順序にある場合、挿入とコールされる、項目1に記載のシステム。
(項目43)
遺伝子シーケンスリード内の挿入および/または欠失を検出するためのコンピュータ実装方法であって、
(a)コンピュータプロセッサを用いて、核酸シーケンシング装置から生成されたポリヌクレオチド分子の遺伝子シーケンスリードを受信するステップと、
(b)前記コンピュータプロセッサを用いて、前記遺伝子シーケンスリードを処理するステップであって、処理されたシーケンスリードを生成するステップと、
(c)前記コンピュータプロセッサを用いて、前記処理されたシーケンスリードを参照シーケンスにマッピングするステップと、
(d)前記コンピュータプロセッサによって、前記処理されたシーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、
(e)前記コンピュータプロセッサによって、前記ファミリーの少なくとも一部を融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとを含み、前記第1の切断点および前記第2の切断点は、切断点ペアを形成する、ステップと、
(f)前記コンピュータプロセッサによって、融合クラスタを挿入および/または欠失を含むとしてコールするステップであって、
i.切断点ペアは、前記参照シーケンスの同一染色体上に位置し、
ii.前記切断点ペア内の前記第1の切断点と前記第2の切断点との間の距離は、前記参照シーケンス上の所定の最大距離未満であって、
iii.サブシーケンスは、同一5´-3´配向にある、
ステップと、
を含む、方法。
(項目44)
(g)前記コンピュータプロセッサによって、融合クラスタを、(f)内の前記基準のうちの少なくとも1つが満たされない、融合を含むとしてコールするステップをさらに含む、項目43に記載の方法。
(項目45)
前記シーケンスリードは、対合端シーケンスリードのセットを含む、項目43に記載の方法。
(項目46)
i.前記処理するステップは、前記対合端シーケンスリードをマージすることであって、マージされたリードを形成することを含む、項目45に記載の方法。
(項目47)
前記処理するステップはさらに、
ii.同じバーコードおよび同一の内部シーケンスを有するマージされたリードの集合を一意のセットにグルーピングするステップと、
iii.一意のセット毎に、処理されたシーケンスリードを生成するステップと、
を含む、項目46に記載の方法。
(項目48)
重複領域を伴う、前記対合端シーケンスリードは、マージされ、マージされたシーケンスリードを形成する、項目45に記載の方法。
(項目49)
少なくとも60%の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目48に記載の方法。
(項目50)
少なくとも70%の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目48に記載の方法。
(項目51)
少なくとも80%の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目48に記載の方法。
(項目52)
少なくとも90%の同一性を有する重複領域を伴う、前記対合端シーケンスリードは、マージされる、項目48に記載の方法。
(項目53)
少なくとも13個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目48に記載の方法。
(項目54)
少なくとも15個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目48に記載の方法。
(項目55)
少なくとも17個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目48に記載の方法。
(項目56)
少なくとも19個の塩基の重複を伴う、前記対合端シーケンスリードは、マージされる、項目48に記載の方法。
(項目57)
前記融合クラスタ内の分割リードの第1の切断点間の距離は、相互からヌクレオチド10個未満であって、前記融合クラスタ内の分割リードの第2の切断点間の距離は、相互からヌクレオチド10個未満である、項目43に記載の方法。
(項目58)
前記所定の最大距離は、ヌクレオチド5,000個未満である、項目43に記載の方法。
(項目59)
前記所定の最大距離は、ヌクレオチド3,000個未満である、項目43に記載の方法。
(項目60)
前記処理されたシーケンスリードは、同一対の分子バーコードを有することに基づいて、ファミリーにグルーピングされる、項目43に記載の方法。
(項目61)
前記処理されたシーケンスリードは、前記参照シーケンス上の同一場所へのマッピングに基づいて、ファミリーにグルーピングされる、項目43または60に記載の方法。
(項目62)
前記ファミリー内の処理されたシーケンスリードは、
(a)同一の開始位置および同一短縮停止シーケンスを有するか、または
(b)同一停止位置および同一短縮開始シーケンスを有する、
シーケンスリードを含む、項目43または60に記載の方法。
(項目63)
前記短縮開始または停止シーケンスは、前記処理されたシーケンスリードの一部を短縮し、ホモポリマー中の重複ヌクレオチドを除去することによって生成される、項目62に記載の方法。
(項目64)
前記ホモポリマーは、ポリ(dA)またはポリ(dT)を含む、項目63に記載の方法。
(項目65)
前記ホモポリマーは、ポリ(dG)またはポリ(dC)を含む、項目63に記載の方法。
(項目66)
前記ファミリーは、相互から所定の切断点距離内の第1の切断点および相互から所定の切断点距離内の第2の切断点を有する、前記ファミリー内の分割リードに基づいて、融合クラスタにグルーピングされる、項目43に記載の方法。
(項目67)
前記第1および第2の所定の切断点距離は、ヌクレオチド25個未満である、項目66に記載の方法。
(項目68)
前記第1および第2の所定の切断点距離は、ヌクレオチド10個未満である、項目66に記載の方法。
(項目69)
前記分割リードは、前記分割リードを含むファミリー毎に生成されたコンセンサスシーケンスである、項目43に記載の方法。
(項目70)
前記コンセンサスシーケンスは、相互から所定の切断点距離内の切断点を有する、分割リードに基づいて、融合クラスタにグルーピングされる、項目69に記載の方法。
(項目71)
前記所定の切断点距離は、ヌクレオチド25個未満である、項目70に記載の方法。
(項目72)
前記所定の切断点距離は、ヌクレオチド10個未満である、項目70に記載の方法。
(項目73)
前記参照シーケンスは、ヒト参照シーケンスである、項目43に記載の方法。
(項目74)
前記核酸シーケンシング装置は、次世代シーケンシング装置である、項目43に記載の方法。
(項目75)
前記サンプルは、対象から取得された体液である、項目43に記載の方法。
(項目76)
前記体液は、血液、血漿、血清、尿、唾液、粘膜分泌液、喀痰、糞便、および涙液から成る群から選択される、項目75に記載の方法。
(項目77)
前記対象は、癌を有する、項目75または76に記載の方法。
(項目78)
前記融合クラスタは、前記第1および第2のサブシーケンスが、前記参照シーケンスと比較して、正常ゲノム順序にある場合、欠失としてコールされる、項目43に記載の方法。
(項目79)
前記融合クラスタは、前記第1および第2のサブシーケンスが、前記参照シーケンスと比較して、逆ゲノム順序にある場合、挿入としてコールされる、項目43に記載の方法。
(項目80)
前記サンプルは、無細胞DNA分子を含む、項目75~77に記載の方法。
(項目81)
方法であって、
(a)ポリヌクレオチド分子の遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、
(b)分割リードを含む、遺伝子シーケンスリードを識別するステップであって、各分割リードは、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとを含み、前記第1の切断点および前記第2の切断点は、切断点ペアを形成する、ステップと、
(b)前記分割リードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じるシーケンスリードを含む、ステップと、
(d)ファミリー毎に、コンセンサス分割リードシーケンスを生成するステップと、
(e)ファミリー毎のコンセンサス分割リードシーケンスを融合クラスタにグルーピングするステップであって、前記融合クラスタ内のコンセンサスシーケンスは、類似切断点ペアを有する、ステップと、
(f)融合クラスタを挿入および/または欠失を含むとしてコールするステップであって、
i.切断点ペアは、前記参照シーケンスの同一染色体上に位置し、
ii.前記切断点ペア内の前記第1の切断点と前記第2の切断点との間の距離は、前記参照シーケンス上の所定の最大距離未満であって、
iii.サブシーケンスは、同一5´-3´配向にある、
ステップと、
を含む、方法。
(項目82)
(g)融合クラスタを、(f)内の前記基準のうちの少なくとも1つが満たされない、融合を含むとしてコールするステップをさらに含む、項目81に記載の方法。
(項目83)
各融合クラスタ内のコンセンサスシーケンスは、相互間の第1の所定の切断点距離内にある、第1の切断点と、相互間の第2の所定の切断点距離内にある、第2の切断点とを有する、分割リードを含む、項目81に記載の方法。
(項目84)
前記第1および第2の所定の切断点距離は、ヌクレオチド25個未満である、項目83に記載の方法。
(項目85)
前記第1および第2の所定の切断点距離は、ヌクレオチド10個未満である、項目83に記載の方法。
(項目86)
方法であって、
(a)ポリヌクレオチド分子の遺伝子シーケンスリードを参照シーケンスにマッピングするステップと、
(b)前記遺伝子シーケンスリードをファミリーにグルーピングするステップであって、各ファミリーは、サンプル中の同一ポリヌクレオチド分子から生じる一意のシーケンスリードを含む、ステップと、
(c)ファミリーの一意のシーケンスリードを融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードを含み、各分割リードは、サブシーケンス:第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとによって特徴付けられ、前記第1の切断点および前記第2の切断点は、切断点ペアを形成する、ステップと、
(d)融合クラスタの一意のシーケンスリードを挿入および/または欠失を含むとしてコールするステップであって、
i.切断点ペアは、同一染色体にマッピングされ、
ii.前記切断点ペア内の前記第1の切断点と前記第2の切断点との間の距離は、前記参照シーケンス上の所定の最大距離未満であって、
iii.サブシーケンスは、同一5´-3´配向にある、
ステップと、
を含む、方法。
(項目87)
(e)融合クラスタの一意のシーケンスリードを、(d)内の前記基準のうちの少なくとも1つが満たされない、融合を含むとしてコールするステップをさらに含む、項目86に記載の方法。
(項目88)
前記遺伝子シーケンスリードは、核酸シーケンシング装置によって生成される、項目86に記載の方法。
(項目89)
挿入および/または欠失ならびに/もしくは融合を検出するためのコンピュータ実装方法であって、
(a)コンピュータプロセッサを用いて、核酸シーケンシング装置から収集される対合端シーケンスリードをアライメントおよびマージするステップであって、対合端シーケンスリードのセットから代表のマージされた一意のリードを生成するステップであって、各代表のマージされた一意のリードは、前記対合端シーケンスリードのマージ後、同一分子バーコードおよびシーケンスを有する、対合端シーケンスリードを代表する、ステップと、
(b)前記プロセッサを用いて、前記代表のマージされた一意のリードを参照シーケンスにマッピングするステップと、
(c)前記プロセッサを用いて、前記代表のマージされた一意のリードをファミリーにグルーピングするステップであって、各ファミリーは、同一のオリジナルのタグ付けされたポリヌクレオチド分子から生じる代表のマージされた一意のリードを含み、各ファミリーは、コンセンサスシーケンスによって代表される、ステップと、
(d)前記プロセッサを用いて、ファミリーのコンセンサスシーケンスを融合クラスタにグルーピングするステップであって、各融合クラスタは、分割リードのファミリーからのコンセンサスシーケンスを含む、ステップであって
各分割リードは、サブシーケンスであって、第1の遺伝子座にマッピングされる第1の切断点に隣接する第1のサブシーケンスと、第2の別個の遺伝子座にマッピングされる第2の切断点に隣接する第2のサブシーケンスとによって特徴付けられ、
前記第1の切断点および前記第2の切断点は、切断点ペアを形成し、
前記融合クラスタ内のコンセンサスシーケンスは、類似切断点ペアを含む、
ステップと、
(e)前記プロセッサを用いて、融合クラスタを挿入および/または欠失を有するとしてコールするステップであって、
i.切断点ペアは、同一染色体にマッピングされ、
ii.切断点ペア間の距離は、所定の最大距離未満であって、
iii.サブシーケンスは、同一5´-3´配向にある、
ステップと、
を含む、方法。
(項目90)
前記プロセッサによって、融合クラスタを、以下の基準:
i.切断点ペアは、同一染色体にマッピングされ、
ii.切断点ペア間の距離は、所定の最大距離未満であって、
iii.サブシーケンスは、同一5´-3´配向にある、
ことのうちの少なくとも1つが満たされない、融合を有するとしてコールするステップをさらに含む、項目89に記載の方法
(項目91)
前記挿入および/または欠失ならびに/もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、報告を電子フォーマットで生成するステップをさらに含む、項目89または90に記載の方法。
(項目92)
前記プロセッサを用いて、前記対合端シーケンスリードのシーケンシング品質を計算するステップであって、前記対合端シーケンスリードに関する品質スコアを提供するステップをさらに含む、項目89に記載の方法。
(項目93)
項目43~80のいずれか1項に記載の方法が実施される、挿入および/または欠失ならびに/もしくは融合を検出する方法。
(項目94)
前記方法は、コンピュータ実装方法である、項目81または項目86に記載の方法。
(項目95)
前記方法はさらに、前記挿入および/または欠失ならびに/もしくは融合を有する、ポリヌクレオチド分子のインジケーションを提供する、電子フォーマットを生成するステップを含む、項目43または項目81または項目86に記載の方法。
(項目96)
癌を患う患者を処置するための方法であって、
(a)前記患者内の融合クラスタの存在または量に関するデータを受信するステップであって、前記データは、項目43~80または項目81~85または項目86~88または項目89~92に記載の方法のいずれかを使用して取得される、ステップと、
(b)前記融合クラスタの存在または量に基づいて、前記患者に異なる処置計画を受けさせるステップと、
を含む、方法。
(項目97)
前記融合クラスタまたはより大量の前記融合クラスタの存在を伴う患者は、前記融合クラスタを伴わないまたはより小量の前記融合クラスタを伴う患者より厳しい療法計画を受ける、項目96に記載の方法。
(項目98)
前記より厳しい計画は、より厳しくない計画における処置薬の用量より高い用量の処置薬によって特徴付けられる、項目97に記載の方法。
(項目99)
前記融合クラスタは、METエクソン14スキッピング欠失としてコールされる、項目98に記載の方法。
(項目100)
前記処置薬は、MET阻害剤である、項目99に記載の方法。
(項目101)
前記MET阻害剤は、クリゾチニブ、カボザンチニブ、カプマチニブ、テポチニブ、およびグレサチニブから成る群から選択される、項目100に記載の方法。
(項目102)
前記処置計画は、化学療法、放射線療法、または免疫療法を含む、項目96~101に記載の方法。
(項目103)
前記データは、癌のための処置を受ける患者における前記融合クラスタの存在を示し、前記処置はそのような患者において継続される、項目96に記載の方法。
参照による引用
本明細書で記述される全ての出版物、特許、および特許出願は、各個々の出版物、特許、または特許出願が、参照することによって組み込まれるように具体的かつ個別に示された場合と同一の程度に、参照することによって本明細書に組み込まれる。参照することによって組み込まれる出版物および特許または特許出願が、本明細書に含有される本開示と矛盾する程度まで、本明細書は、いずれのそのような矛盾する資料にも取って代わる、および/または優先することを意図している。
図1は、遺伝子バリアントを検出するためのワークフローを示す、本開示の実施形態を図示する。
図2は、代表のマージされたリードを生成するための手技を示す、本開示の実施形態を図示する。
図3は、融合クラスタを判定するための手技を示す、本開示の実施形態を図示する。
図4は、本明細書に提供される方法を実装するようにプログラムまたは別様に構成される、例示的コンピュータ制御システムを示す。
詳細な説明
本開示は、無細胞DNAの混合サンプル等のポリヌクレオチド分子のサンプル中の挿入、欠失、および融合等の遺伝子バリアントを検出するための方法およびシステムを提供する。本明細書に説明される方法およびシステムは、改良された感度および特異性を伴って、異なる遺伝子バリアントを検出することができる。例えば、本明細書に説明される方法は、最大1,000個の塩基対等の大量の挿入および/または欠失ならびに/もしくは融合を検出することができる。
図1は、本開示の実施形態を図示する。101では、ポリヌクレオチド分子を含む、サンプルが、シーケンシングのために調製される。ポリヌクレオチド分子は、標識されたタグ付けされ、タグ付けされた分子を生成する。102では、タグ付けされた分子は、シーケンシングされ、遺伝子シーケンスリードを生成する。103では、遺伝子シーケンスリードは、処理され、処理されたリードを生成する。104では、処理されたリードは、参照シーケンスにマッピングされ、ファミリーにグルーピングされる。105では、ファミリーは、処理され、ポリヌクレオチド分子中の遺伝子バリアントを検出する。
101では、腫瘍由来および非腫瘍由来ポリヌクレオチド分子の混合サンプル等のポリヌクレオチド分子を含む、サンプルが、シーケンシングのために調製される。そのような調製は、使用される用途およびシーケンシングプラットフォーム、例えば、次世代シーケンシングプラットフォームに依存する。
サンプルは、対象から単離された任意の生物学的サンプルであることができる。サンプルは、既知または疑われる固形腫瘍、全血、血小板、血清、血漿、糞便、赤血球、白血球または白血球、内皮細胞、組織生検、脳脊髄液、滑液、リンパ液、腹水液、間質または細胞外流体、歯肉溝滲出液、骨髄、胸膜滲出液、脳脊髄液(CSF)、唾液、粘液、喀痰、精液、汗、尿を含む、細胞間の空間内の流体等の身体組織を含むことができる。サンプルは、好ましくは、体液、特に、血液およびその分画、および尿である。そのようなサンプルは、腫瘍から流出された核酸を含む。核酸は、DNAと、RNAとを含むことができ、二本鎖および/または一本鎖形態であることができる。サンプルは、元々は対象から単離された形態であることができるか、またはさらなる処理を受け、細胞等の成分を除去または追加する、一方の成分を別の成分に対して富化するか、またはRNAからDNAもしくは一本鎖核酸から二本鎖核酸等、1つの形態の核酸から別の形態の核酸に変換することができる。したがって、例えば、分析のための体液は、無細胞核酸、例えば、無細胞DNA(cfDNA)を含有する、血漿または血清である。
体液の体積は、シーケンシングされる領域のための所望のリード深度に依存し得る。例示的体積は、0.4~40ml、5~20ml、10~20mlである。例えば、体積は、0.5ml、1ml、5ml、10ml、20ml、30ml、または40mlであることができる。サンプリングされる血漿の体積は、5~20mlであってもよい。
サンプルは、ゲノム均等物を含有する、種々の量の核酸を含むことができる。例えば、約30ngのDNAのサンプルは、約10,000(10)個の半数体ヒトゲノム均等物、cfDNAの場合、約2千億(2×1011)個の個々のポリヌクレオチド分子を含有することができる。同様に、約100ngのDNAのサンプルは、約30,000個の半数体ヒトゲノム均等物、cfDNAの場合、約6千億個の個々の分子を含有することができる。
サンプルは、異なる源から、例えば、細胞および無細胞からの核酸を含むことができる。サンプルは、核酸保有突然変異体を含むことができる。例えば、サンプルは、DNA保有生殖細胞系統突然変異体および/または体細胞突然変異体を含むことができる。サンプルは、DNA保有癌関連突然変異体(例えば、癌関連体細胞突然変異体)を含むことができる。ある場合には、核酸は、エフェロソームまたはエキソソームに見出され得る。
無細胞核酸は、対象からの体液(例えば、血液、尿、CSF等)に由来するあらゆる非被包型核酸に対して参照され得る。無細胞核酸は、DNA(cfDNA)、RNA(cfRNA)、およびそのハイブリッドを含み、ゲノムDNA、ミトコンドリアDNA、循環DNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体RNA(snoRNA)、Piwi相互作用RNA(piRNA)、長鎖ノンコーディングRNA(長ncRNA)、またはこれらのいずれかの断片を含む。無細胞核酸は、二本鎖、一本鎖、またはそのハイブリッドであることができる。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死およびアポトーシスを通して、体液中に放出され得る。いくつかの無細胞核酸は、癌細胞、例えば、循環腫瘍DNA(ctDNA)から体液中に放出される。その他は、健康な細胞から放出される。ctDNAは、非被包型腫瘍由来断片化DNAであることができる。無細胞胎児DNA(cffDNA)は、母体血流中で自由に循環する胎児DNAである。
無細胞DNAは、通常、高度に断片化され、サイズ分布は、約100~300塩基対(bp)の長さの範囲内であって、したがって、その付加的断片化は、要求されない。例えば、胎児および母体無細胞DNAのサイズは、約162bpである一方、腫瘍由来の無細胞DNAのサイズは、約166bpであり得る。サンプルがDNAの長分子を有し得る事例では、断片化は、随意である。
無細胞核酸は、溶液中に見出されるような無細胞核酸が、無傷細胞および体液の他の非可溶性成分から分離される、パーティション化ステップを通して、体液から単離されることができる。パーティション化は、遠心分離または濾過等の技法を含んでもよい。代替として、体液中の細胞は、溶解され、無細胞および細胞核酸は、ともに処理されることができる。概して、緩衝液の添加および洗浄ステップ後、無細胞核酸は、アルコールで析出されることができる。汚染物質または塩類を除去するためのシリカベースのカラム等のさらなる清浄ステップが、使用されてもよい。非特異的バルク担体核酸が、例えば、反応全体を通して添加され、収率等の手技のある側面を最適化してもよい。
そのような処理後、サンプルは、二本鎖DNA、一本鎖DNA、および/または一本鎖RNAを含む、種々の形態の核酸を含むことができる。随意に、一本鎖DNAおよび/または一本鎖RNAは、それらが後続処理および分析内に含まれるように、二本鎖形態に変換されることができる。
増幅前のサンプル中の無細胞核酸の例示的量は、約1fg~約1ug、例えば、1pg~200ng、1ng~100ng、10ng~1000ngに及ぶ。例えば、量は、最大約600ng、最大約500ng、最大約400ng、最大約300ng、最大約200ng、最大約100ng、最大約50ng、または最大約20ngの無細胞核酸分子であることができる。量は、少なくとも1fg、少なくとも10fg、少なくとも100fg、少なくとも1pg、少なくとも10pg、少なくとも100pg、少なくとも1ng、少なくとも10ng、少なくとも100ng、少なくとも150ng、または少なくとも200ngの無細胞核酸分子であることができる。量は、最大1フェムトグラム(fg)、10fg、100fg、1ピコグラム(pg)、10pg、100pg、1ng、10ng、100ng、150ng、または200ngの無細胞核酸分子であることができる。方法は、1フェムトグラム(fg)~200ngを取得するステップを含むことができる。
分子バーコードおよびアダプタ等の付加的シーケンスが、ポリヌクレオチド分子の一端または両端に付加されてもよい。そのような付加的シーケンスは、プライマーハイブリダイゼーションまたはライゲーション反応を介して付加されることができる。プライマーハイブリダイゼーションは、ポリメラーゼ連鎖反応(PCR)等の増幅反応を通して、付加的シーケンスの付加を含むことができる。ライゲーション反応は、付加的シーケンスとポリヌクレオチド分子の断片との間の共有結合の形成を含むことができる。ライゲーションは、平滑末端ライゲーションまたは付着末端ライゲーションであることができる。いくつかの事例では、ポリヌクレオチド分子の断片は、オーバーハングヌクレオチドを導入するか、またはポリヌクレオチドシーケンスを増幅させる等のライゲーション反応に先立って、修飾されてもよい。
アダプタは、シーケンシングプライマーに相補的オリゴヌクレオチドシーケンスを含んでもよい。例えば、アダプタは、シーケンシングプライマー結合部位を含むことができ、ポリメラーゼ酵素は、ポリヌクレオチド分子をシーケンシングするために、結合し、重合を開始することができる。
アダプタは、アダプタが次世代シーケンシングプラットフォーム内のシーケンシングレーンに結合することを可能にするシーケンスを含んでもよい。例えば、アダプタは、Illuminaプラットフォーム内のシーケンシングレーンに付加されるための流動細胞付着部位を含むことができる。アダプタは、次世代シーケンシングプラットフォーム内のシーケンシングレーンに付加されるオリゴヌクレオチドに相補的シーケンスを含むことができる。例えば、アダプタは、Illuminaプラットフォーム内のシーケンシングレーンの流動細胞に付加されるオリゴヌクレオチドとハイブリダイズし得る、相補的シーケンスを含むことができる。
アダプタは、分子バーコードまたはインデックスまたは標識等の付加的シーケンスを含んでもよい。分子バーコードまたはインデックスまたは標識は、異なるサンプルに由来するシーケンスリード間で区別するために使用されることができる。分子バーコードは、1つを上回るサンプルとの多重化シーケンシング反応に有用であり得る。分子バーコードは、ポリヌクレオチド分子の一端または両端のいずれかに無作為または非無作為にタグ付けされてもよい。ポリヌクレオチド分子が、両端で標識される場合、バーコードの組み合わせは、総称的に、「識別子」と称され得る。分子バーコードは、アダプタとポリヌクレオチド分子との間に付加されてもよい。分子バーコードは、二本鎖または一本鎖であることができる。好ましくは、アダプタは、二本鎖分子バーコードをそのステムに、および/または一本鎖分子バーコードをYの非相補的末端に含む、Y形状のアダプタである。いくつかの実施形態では、サンプルは、サンプル中に存在するポリヌクレオチド分子より多くの別個の分子バーコードと接触される。他の事例では、小数の別個の分子バーコードが、ポリヌクレオチド分子のそれぞれを標識するために使用される(例えば、DNA分子の数未満)。
ある実施形態では、分子バーコードは、分子バーコードシーケンスがサンプル中の任意の他のポリヌクレオチド分子によって共有されないように、一意であってもよい。本状況では、ポリヌクレオチド分子は、「一意に標識される」。いくつかの実施形態では、分子バーコードは、分子バーコードシーケンスがサンプル中の少なくとも1つの他のポリヌクレオチド分子によって共有されるように、一意ではなくてもよい。本状況では、サンプル中のポリヌクレオチド分子は、「非一意に標識される」。非一意の標識のある実施形態では、異なるバーコードの数は、サンプル中のポリヌクレオチド分子の総数より少ない。
使用される分子バーコードの数は、約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10,000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000、または1,000,000,000個を上回ってもよい。いくつかの実施形態では、標識フォーマットは、随意に、アダプタの一部として、標的分子の両端にライゲーションされる、5~10,000、5~5,000、5~1,000、または100個の異なる分子バーコードを使用する。いくつかの実施形態では、標識フォーマットは、随意に、アダプタの一部として、標的分子の両端にライゲーションされる、20~50個の異なる分子バーコードを使用して、20~50×20~50個のバーコード、例えば、400~2500個のバーコードを作成する。
別の実施形態では、異なるバーコードの数またはバーコードの組み合わせは、少なくとも、ポリヌクレオチド分子から生成されたシーケンスリードが、基準ゲノム内の同一の開始/停止座標にマッピングされるか、またはそのシーケンス内のいくつかの点にマッピングされる(例えば、参照シーケンス内の塩基位置に重複する)シーケンスリードが、一意に標識される、99.99%の機会が存在するために十分であり得る。
例えば、図2に示されるように、ポリヌクレオチド分子201、202、および203は、それぞれ、204、205、および206分子バーコードによって、両端上で標識される。タグ付けされた分子は、次いで、増幅され、オリジナルポリヌクレオチド分子のコピーを生成する。例えば、タグ付けされた分子207、208、および209は、それぞれ、増幅され、210-215、216-221、および222-227アンプリコンを生成する。
ある実施形態では、ポリヌクレオチドは、シーケンシングに先立って、富化されることができる。富化は、特異的標的領域(「標的シーケンス」)のために、または非特異的に実施されることができる。いくつかの実施形態では、標的着目領域は、弁別タイリングおよび捕捉スキームを使用して、1つまたはそれを上回るベイトセットパネルに関して選択された捕捉プローブ(「ベイト」)で富化されてもよい。弁別タイリングおよび捕捉スキームは、異なる相対的濃度のベイトセットを使用して、制約のセット(例えば、シーケンシング負荷等のシーケンシング装置制約、各ベイトの有用性等)に従って、ベイトと関連付けられたゲノム領域を横断して弁別的にタイリングし(例えば、異なる「分解能」で)、下流シーケンシングのために、それらを所望のレベルで捕捉する。これらの標的ゲノム着目領域は、対象のゲノムまたはトランスクリプトームの領域を含んでもよい。いくつかの実施形態では、1つまたはそれを上回る着目領域へのプローブを伴う、ビオチン標識ビーズが、標的シーケンスを捕捉後、随意に、それらの領域の増幅が続き、着目領域を富化するために使用されることができる。
シーケンス捕捉は、典型的には、標的シーケンスにハイブリダイズする、オリゴヌクレオチドプローブの使用を伴う。プローブセット方略は、着目領域を横断してプローブをタイリングすることを伴うことができる。そのようなプローブは、例えば、約60~120塩基長であることができる。セットは、約2倍、3倍、4倍、5倍、6倍、8倍、9倍、l0倍、15倍、20倍、50倍、またはそれを上回る深度を有することができる。シーケンス捕捉の有効性は、部分的に、プローブのシーケンスに相補的(またはほぼ相補的)標的分子内のシーケンスの長さに依存する。
いくつかの実施形態では、本開示の方法は、シーケンシングに先立って、対象のゲノムまたはトランスクリプトームからの領域を選択的に富化するステップを含む。他の実施形態では、本開示の方法は、シーケンシングに先立って、対象のゲノムまたはトランスクリプトームからの領域を非選択的に富化するステップを含む。
ある実施形態では、サンプルインデックスシーケンスが、富化後、ポリヌクレオチドに導入される。サンプルインデックスシーケンスは、PCRを通して導入されるか、または、随意に、アダプタの一部として、ポリヌクレオチドにライゲーションされてもよい。
図1に戻って参照すると、102では、タグ付けされたポリヌクレオチド分子が、シーケンシングされる。シーケンシングは、好ましくは、IlluminaTM、Ion TorrentTM、Pacific Biosciencesシーケンシングシステム、またはOxford Nanoporeシーケンシング技術等の次世代シーケンシングプラットフォームを使用して実施される。シーケンシングは、長リードまたは短リードである、シーケンスリードを含む、未加工シーケンシングデータを生産する。長リードは、1キロベース(kb)を上回る長さであることができる一方、短リードは、1kb未満の長さであることができる。
あるシーケンシングシステムは、例えば、ポリヌクレオチド分子の増幅およびアンプリコンの後続シーケンシングによって、オリジナルポリヌクレオチド分子毎に、冗長リードを生産する。Illumina等のあるシーケンシングシステムは、対合端シーケンスリード、すなわち、対のリードが重複する場合とそうではない場合がある、分子の両端からのシーケンスリードを生産する。他のシーケンシングシステムは、ポリヌクレオチド分子全体の単一シーケンスリードシーケンスを生産することができる。対合端リードを生産しない、シーケンシングシステムでは、リードをマージするステップは、排除されることができ、代表されるリードは、全長リードから選択されることができる。
図1に示されるような方法は、コンピュータを使用して実装されることができる。例えば、コンピュータ実装方法が、挿入および/または欠失ならびに/もしくは融合を検出するために使用されることができる。本方法は、コンピュータプロセッサを用いてシーケンシング装置から収集される対合端シーケンスリードの品質を計算するためのアルゴリズムを含んでもよい。例えば、シーケンシングの品質に基づいて、対合端シーケンスリードに関する品質スコアが、提供されてもよい。対合端シーケンスリードはさらに、アライメントおよびマージされ、対合端シーケンスリードのセットから、代表的マージされ処理されたリードを生成してもよい。各代表的マージされ処理されたリードは、同一分子バーコードおよび内部シーケンスを有する、対合端シーケンスリードを代表する。
対合端シーケンスリードのセットを含む、未加工シーケンシングデータは、FASTQ、VCF、CRAM、またはBAM等の種々のファイルフォーマットで提供されることができる。未加工シーケンシングデータを伴うファイルは、対合端リード等の一方の鎖または両鎖に関するシーケンスデータを含み得る。一実施例では、未加工シーケンシングデータは、両鎖、すなわち、対合端シーケンシング手技から生成されたセンスおよびアンチセンス鎖に関するFASTQファイルで提供される。ファイルは、リードの品質についての情報を提供する、付加的記号を含んでもよく、また、品質スコアを提供してもよい。各ポリヌクレオチド分子の未加工シーケンシングデータは、ローカルドライブ上、クラウド、またはサーバ内に保存されてもよい。
シーケンスリード、例えば、対合端リードの収集では、同一シーケンスを有する複数のリードが存在するであろうことが予期される。これは、特に、オリジナルポリヌクレオチド分子が、増幅され、多くのコピーを生産し、アンプリコンが、シーケンシングされる場合に当てはまる。故に、シーケンスリードのセット内の任意の特定のシーケンスは、セット内に複数のコピーが存在し得る、「一意のシーケンス」であると見なされ得る。一意のシーケンスリードは、本明細書に開示されるマッピングするステップにおいて使用される全てのシーケンスのセットから選択されることができる。
103では、処理されたリードが、シーケンシング装置からの遺伝子シーケンスリードから生成される。処理は、遺伝子シーケンスリードの分析をより効率的にする、任意の方法を含んでもよい。例えば、ある場合には、処理は、対合端遺伝子シーケンスリードをマージし、マージされたリードを形成するステップを含んでもよい。ある場合には、処理は、同じバーコードおよび実質的に類似または同一の内部シーケンスを有するマージされたリードの集合を一意のセットにグルーピングし、代表のマージされたリードを生成するステップを含んでもよい。他の場合には、処理は、遺伝子シーケンスリードからの標識をトリミングするステップを含んでもよい。103は、重複シーケンスリードを除去し、実質的算出分析を排除する。
例えば、図2に示されるように、対合端リード228、229、および230のセットはそれぞれ、2つのメイトペアを含む。メイトペアは、マージされ、マージされたリードを形成する。同一バーコードおよび実質的に類似または同一の内部シーケンスを有する、マージされたリードの集合は、一意のセットにグルーピングされる。次いで、一意のセット毎の代表のマージされた一意のリードが、選択される。例えば、代表のマージされた一意のリード231、232、および233は、例えば、分子バーコードおよび内部シーケンスに基づいて、マージされたリードを一意のセットにグルーピング後、201に関する対合端シーケンスリードのために生成される。同様に、代表のマージされた一意のリード234および235は、202に関する対合端シーケンスリードのために生成される。代表のマージされた一意のリード236、237、および238は、203に関する対合端シーケンスリードのために生成される。
代替として、一意のシーケンス(バーコードおよび内部シーケンスの組み合わせに基づく)が、対合端リードのセットの中から判定される。次いで、対合端リードは、マージされ、代表のマージされた一意のシーケンスリードを生成する。
対合端シーケンスリードのセンス鎖は、対合端シーケンスリードのアンチセンス鎖とマージされる。例えば、対合端シーケンスリードは、アンチパラレルとなるように再配向され、次いで、マージされ、マージされたリードまたはメイトペアを形成する。メイトペアまたはマージされたリードは、重複領域を有する、センス鎖およびアンチセンス鎖を含む。重複領域は、少なくとも約1個の塩基、2個の塩基、3個の塩基、4個の塩基、5個の塩基、10個の塩基、15個の塩基、20個の塩基、25個の塩基、30個の塩基、35個の塩基、40個の塩基、45個の塩基、50個の塩基、55個の塩基、60個の塩基、65個の塩基、70個の塩基、75個の塩基、80個の塩基、85個の塩基、90個の塩基、95個の塩基、または100個の塩基を含んでもよい。重複領域内の鎖間の塩基の同一性は、少なくとも約5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、またはそれを上回ることができる。ある場合には、所与の重複領域は、少なくとも約90%の同一性を鎖間に伴う、少なくとも15個の塩基を含むことができる。他の場合には、重複は、少なくとも90%の同一性を鎖間に伴う、少なくとも19個の塩基を含むことができる。重複領域は、スライディングウィンドウ分析を使用するとき、強ピークによって代表される。例えば、重複領域は、重複領域の各末端上の塩基を含むようにスライディングされ、鎖間の同一性が、両鎖が相互に相互に完全に重複するまで算出される。鎖間の同一性は、同一性のパーセンテージとして算出される。同一性のパーセンテージは、ピークの高さに正比例する。単一強ピークを伴う、マージされたリードまたはメイトペアが、さらなる分析のために選択される。
図1に戻って参照すると、103では、マージされたリードの両鎖が、トリミングされ、重複領域内の3´末端におけるシーケンスの少なくとも一部を除去してもよい。例えば、3´末端における重複領域内のシーケンスの半分が、除去され、低シーケンス品質を伴う塩基、3´末端上の分子バーコード、および任意の誤アライメントを除外することができる。本ステップは、シーケンシング誤差を低減させる際に有用である。
104では、マージされたリードまたは代表のマージされたリード(処理ステップに応じて)を含む、処理されたリードが、マッピングツールを使用して、参照シーケンスにアライメントされ、その非限定的実施例は、Burow’s Wheeler Transform(BWA)、Novoalign、Bowtieを含み得る。マッピングツールは、使用されるアライメントパラメータ、参照シーケンス上の代表のマージされた一意のリードの位置(座標等)、およびマッピングの品質スコアを記述するアライメントファイルを生成する。シーケンシングリードと参照シーケンスとの間で許容される差異の数、許容されるギャップの数およびギャップオープニングペナルティ、ギャップ拡張の数、および同等物等のアライメントパラメータは、ユーザによって定義されてもよい。
1つの事例では、デフォルトアライメントパラメータを伴う、BWAマッピングツールは、処理されたリードをhg19等のヒト基準ゲノムにアライメントさせるために使用される。BWAツールは、アライメント統計を含む、BAMファイルである、出力ファイルを提供する。アライメント統計は、処理されたリードがアライメントされる、参照シーケンスの座標を含んでもよい。アライメント統計はまた、参照シーケンスにマッピングされるとき、MapQスコアを提供し、処理されたリードの一意性を知らせてもよい。処理されたリードは、次いで、分子バーコードおよび参照シーケンス上の座標を使用して、ソートされてもよい。
いくつかの実施形態では、核酸シーケンシング装置からの遺伝子シーケンスリードは、処理されず、参照シーケンスにアライメントまたはマッピングされてもよい。
処理されたリードは、ファミリーにグルーピングされてもよい。ファミリーは、同一のオリジナルのタグ付けされたポリヌクレオチド分子から生じるリードを含む。処理されたリードはまた、同一マッピング座標を参照シーケンス上に有する。例えば、一対の分子バーコード(例えば、標識1および標識2)と、参照シーケンス上の同一座標にアライメントされる、内因性シーケンス(例えば、染色体1上の1200~1500)とを有する、処理されたリードは、ファミリーにグルーピングされてもよい。いくつかの実施形態では、各ファミリーは、(「ファミリーコンセンサスシーケンス」)コンセンサスシーケンスによって表されてもよい。処理されたリードは、処理されたリードが、同一分子バーコードと、ファミリー内のリードの残りに類似する基準ゲノム上の少なくとも1つの末端位置とを有する場合、ファミリーに追加されてもよい。例えば、処理されたリードは、同一分子バーコードおよび同一の開始位置を有し得るが、停止位置が、所定のヌクレオチド範囲内にあり得る。処理されたリードが、短縮に応じて、同一短縮停止シーケンスを有する場合、処理されたリードは、同一ファミリーにグルーピングされる。
同様に、処理されたリードは、同一分子バーコードおよび同一停止位置を有し得るが、開始位置が、所定のヌクレオチド範囲内にあり得る。処理されたリードが、短縮に応じて、同一短縮開始シーケンスを有する場合、処理されたリードは、同一ファミリーにグルーピングされる。
処理されたリードは、短縮され、ホモポリマー中の重複ヌクレオチドを除去することができる。ホモポリマー中の重複ヌクレオチドは、2個のヌクレオチド、3個のヌクレオチド、4個のヌクレオチド、5個のヌクレオチド、6個のヌクレオチド、7個のヌクレオチド、8個のヌクレオチド、9個のヌクレオチド、10個のヌクレオチド、20個のヌクレオチド、30個のヌクレオチド、40個のヌクレオチド、または50個のヌクレオチド未満の所定の範囲内で除去されることができる。ある場合には、所定の範囲は、ヌクレオチド10個未満であることができる。ある場合には、所定の範囲は、ヌクレオチド7個未満であることができる。ある場合には、所定の範囲は、ヌクレオチド5個未満であることができる。ある場合には、所定の範囲は、ヌクレオチド3個未満であることができる。1つの事例では、所定の範囲は、4個のヌクレオチドである。短縮に応じて、末端シーケンス内の少なくとも7個のヌクレオチドが、代表のマージされた一意のリードの残りと参照シーケンス上の同一位置にマッピングされる場合、短縮リードは、同一ファミリーにグルーピングされる。マージされたリードの短縮は、例えば、シーケンスリードの末端におけるシーケンシング誤差に起因して生産されるファミリーの数を低減させる。
ある実施形態では、1つまたはそれを上回るホモポリマーが、開始シーケンスおよび/または停止シーケンスに存在し得る。1つまたはそれを上回るホモポリマーは、処理されたリード内の任意の場所に存在し得る。いくつかの実施形態では、ホモポリマーは、ポリ(dA)またはポリ(dT)を含み得る。他の実施形態では、ホモポリマーは、ポリ(dG)またはポリ(dC)を含み得る。
実施例として、2つの処理されたリードに関して、第1の処理されたリードの開始位置が、第2の処理されたリードの開始位置5個のヌクレオチド未満等の所定の範囲内にあって、第1の処理されたリードの短縮シーケンスの最初の7個の塩基が、第2の処理されたリードの短縮シーケンスの最初の7個の塩基と同じであって、第1の処理されたリードおよび第2の処理されたリードの末端位置が、同じである場合、これらのリードは、同一ファミリーにグルーピングされることができる。同様に、第1の処理されたリードの末端位置が、第2の処理されたリードの末端位置の5個のヌクレオチド未満等の所定の範囲内にあって、第1の処理されたリードの短縮シーケンスの最後の7個の塩基が、第2の処理されたリードの短縮シーケンスの最後の7個の塩基と同じであって、第1の処理されたリードおよび第2の処理されたリードの開始位置が、同じである場合、これらのリードは、同一ファミリーにグルーピングされることができる。
処理されたリードを伴うファミリーは、参照シーケンスにアライメントされ、参照シーケンスに連続的にアライメントされない、分割リードを識別することができる。例えば、各分割リードは、サブシーケンスによって特徴付けられることができる。第1のサブシーケンスは、第1の遺伝子座にマッピングされる一方、第2のサブシーケンスは、第2の遺伝子座にマッピングされる。第1の遺伝子座は、第2の遺伝子座とは別個の。第1のサブシーケンスは、第1の切断点に隣接する第1の遺伝子座にマッピングされ、第2のサブシーケンスマップは、第2の切断点に隣接する第2の遺伝子座にマッピングされる。第1の切断点および第2の切断点は、切断点ペアを形成することができる。
例えば、図3に示されるように、ファミリー内の分割リードは、参照シーケンス301にマッピングされる。第1のファミリー302は、第1のセットの分割リード303、304、および305を含む。第2のファミリー306は、第2のセットの分割リード307および308を含む。第3のファミリー309は、第3のセットの分割リード310、311、および312を含む。第4のファミリー313は、第4のセットの分割リード314および315を含む。
第1のセットの分割リードおよび第2のセットの分割リードは、第1の切断点ペア316および317に隣接する遺伝子座にマッピングされる。第3のセットの分割リードは、第2の切断点ペア316および318に隣接する遺伝子座にマッピングされる。第4のセットの分割リードは、切断点316、317または318に隣接する任意の遺伝子座にマッピングされない。
いくつかの実施形態では、ファミリーからの分割リードコンセンサスシーケンスは、切断点ペアの周囲にクラスタ化し、融合クラスタを形成し得る。例えば、第1のファミリー302は、第1の分割リードコンセンサスシーケンス319によって代表される。第2のファミリー306は、第2の分割リードコンセンサスシーケンス320によって代表される。第3のファミリー309は、第3の分割リードコンセンサスシーケンス321によって代表される。第4のファミリー313は、第4の分割リードコンセンサスシーケンス322によって代表される。第1のファミリー302、第2のファミリー306、および第3のファミリー309は、切断点ペアの周囲にクラスタ化する一方、第4のファミリー313は、クラスタ化しない。
いくつかの実施形態では、融合クラスタは、切断点ペア上のコンセンサスシーケンスのマッピングに基づいて検出される。例えば、図3におけるように、第1の分割リードコンセンサスシーケンス319、第2の分割リードコンセンサスシーケンス320、および第3の分割リードコンセンサスシーケンス321は、融合クラスタ323を形成する。しかしながら、第4の分割リードコンセンサスシーケンス322は、融合クラスタ323内に含まれない。これらの分割リードコンセンサスシーケンスは、個別の切断点148間の距離が、所定の切断点距離未満である、例えば、ヌクレオチド10個未満であるため、本実施形態では、融合クラスタ内に含まれる。コンセンサス切断点は、例えば、融合クラスタ内の主要切断点(図3における切断点316および317)に基づいてコールされることができる。
他の実施形態では、類似切断点ペアを有する、分割リードを含むファミリーは、融合クラスタにグルーピングされてもよい。例えば、図3におけるように、第1のファミリー302、第2のファミリー306、および第3のファミリー309は、類似切断点ペアの周囲にクラスタ化する。これらのファミリーは、個別の切断点148間の距離が、所定の切断点距離未満である、例えば、ヌクレオチド10個未満であるため、本実施形態では、融合クラスタ内に含まれる。コンセンサス切断点は、例えば、融合クラスタ内の主要切断点に基づいてコールされることができる。
いったんコンセンサス切断点ペアが、識別されると、挿入、欠失、または融合等の遺伝子バリアントが、検出されることができる。
遺伝子融合からの挿入および欠失(インデル)を区別するステップが、例えば、コンピュータによって実行されるアルゴリズムを使用して実施されることができる。アルゴリズムは、限定ではないが、(1)切断点ペア間の距離、(2)同一染色体上の切断点の場所、(3)同一または異なる配向内のサブシーケンス、および/または(4)正常または逆転ゲノム順序におけるサブシーケンスを含む、1つまたはそれを上回る要因を考慮することができる。切断点が、異なる染色体上で生じる場合、バリアントは、常時、融合と見なされるであろう。切断点が、同一染色体上にあるが、サブシーケンスが、異なる(対向)5´-3´配向にある場合、バリアントはまた、融合、またはある場合には、反転と見なされるであろう。切断点が、同一染色体上にあって、サブシーケンスが、同一5´-3´配向にある場合、バリアントは、切断点ペア間の距離が、所定の最大距離未満(例えば、遺伝子内において、ヌクレオチド5,000個未満、ヌクレオチド4,000個未満、ヌクレオチド3,000個未満、ヌクレオチド2,000個未満、またはヌクレオチド1,000個未満である)である場合、挿入または欠失としてコールされることができ、そうでなければ、融合としてコールされるであろう。上記の基準を使用して判定された挿入および欠失は、サブシーケンスが、正常ゲノム順序(すなわち、染色体上のサブシーケンスの正常順序が、A-Bである場合、標的分子内の順序もまた、A-Bであって、そのような場合、欠失としてコールされる)または逆転ゲノム順序(すなわち、染色体上のサブシーケンスの正常順序が、A-Bである場合、標的分子内の順序は、B-Aであって、そのような場合、挿入としてコールされる)にあるかどうかに基づいて、相互からさらに区別されることができる。上記のルールが、欠失を確立した場合、実際の欠失されたシーケンスが、2つの切断点間にある。上記のルールが、挿入を確立した場合、2つの切断点間のシーケンスのコピーが、切断点のうちの1つの隣に挿入される(すなわち、2つの切断点間のシーケンスは、重複される)。サブシーケンスは、ファミリー内の分割リードのシーケンスまたはファミリーコンセンサスシーケンスのシーケンスを指し得る。
いくつかの実施形態では、切断点ペア間の所定の最大距離は、ヌクレオチド5,000個未満、ヌクレオチド4,500個未満、ヌクレオチド4,000個未満、ヌクレオチド3,500個未満、ヌクレオチド3,000個未満、ヌクレオチド2,500個未満、ヌクレオチド2,000個未満、ヌクレオチド1,500個未満、ヌクレオチド1,000個未満、ヌクレオチド500個未満、またはヌクレオチド250個未満であってもよい。いくつかの実施形態では、切断点ペア間の所定の最大距離は、標的着目遺伝子内の領域のヌクレオチドの数未満(例えば、MET内のエクソン14の長さ未満)である。
ある実施形態では、本明細書に開示されるシステムおよび方法は、特に、中サイズのインデル(例えば、21~50個のヌクレオチドのもの等)および/または長インデル(例えば、50個を上回るヌクレオチド、100個を上回るヌクレオチド、500個を上回るヌクレオチド、1,000個を上回るヌクレオチド、2,000個を上回るヌクレオチド、3,000個を上回るヌクレオチド、4,000個を上回るヌクレオチド、5,000個を上回るヌクレオチド、10,000個を上回るヌクレオチドのもの、エクソンおよび/またはイントロン全体、もしくは遺伝子全体等)を検出するために有用である。
いくつかの実施形態では、挿入および/または欠失は、限定ではないが、APC、ARID1A、ARID1B、ATM、BRCA1、BRCA2、CDH1、CDKN2A、EGFR、ERBB2、FMN2、GATA3、KIT、MET、MECP2、MLH1、MTOR、NF1、PDGFRA、PGAP3、PRODH、PTEN、RB1、SMAD4、SRD5A3、STK11、TP53、TSC1、VHL、およびUBE3Aから成る群を含む、遺伝子内で生じ得る。いくつかの実施形態では、挿入および/または欠失は、限定ではないが、EGFR(エクソン18-21)、ERBB2(エクソン19および20)、ESR1(エクソン10)、MET(エクソン13-14およびイントロン13-14)、BRAF(エクソン15)、CTNNB1(エクソン3)、FGFR2(エクソン6)、GATA2(エクソン5-6)、GNAS(エクソン8)、IDH1(エクソン4)、IDH2(エクソン4)、KIT(エクソン1-21)、KRAS(エクソン2-3)、NRAS(エクソン2-3)、PIK3CA(エクソン10および21)、PTEN(エクソン5)、SMAD4(エクソン12)、TP53(エクソン4-8および11)を含む、遺伝子内で生じ得る。ある実施形態では、挿入および/または欠失は、限定ではないが、フレームシフト突然変異、非フレームシフト突然変異、反転(染色体再編成)、全体的エクソン欠失、および/または縦列重複を含んでもよい。
いくつかの実施形態では、融合は、融合クラスタ内に含まれるファミリーコンセンサスシーケンスが、挿入および/または欠失をコールするための基準のいずれかまたは全てを満たすことができないときにコールされることができる。
挿入および/または欠失ならびに/もしくは融合をコールするためのアルゴリズムは、処理されたリードを参照シーケンスにマッピングし、一意のリード識別子を処理されたリードに割り当てるステップを含んでもよい。処理されたリードのアライメントに基づいて、切断点および切断点ペアが、参照シーケンス上で判定され、融合を有する、処理されたリードを判定する。切断点および切断点ペアは、切断点IDと、切断点および切断点ペアにアライメントされる処理されたリードの数とによって報告されてもよい。類似切断点を有する、処理されたリードは、コンセンサス切断点ペアに基づいて、ファミリーにグルーピングされる。ファミリーのリードまたはファミリーのコンセンサスシーケンスが、次いで、相互から所定の切断点距離内の切断点に基づいて、融合クラスタにグルーピングされる。参照シーケンス内の切断点間の所定の切断点距離は、ヌクレオチド25個未満またはヌクレオチド10個またはヌクレオチド5個未満であってもよい。
融合を伴う処理されたリードは、参照シーケンスに連続的にマッピングされることができない。融合を伴う処理されたリード内の切断点は、マッピングされた部分と、参照シーケンスに連続的にマッピングされることができない、クリッピングされた部分とを含むことができる。融合は、処理されたリードが、少なくとも2つの切断点にマッピングされ、かつ同一鎖(例えば、5´鎖または3´鎖)にマッピングされるときにコールされる。処理されたリード内の融合は、全ての切断点のうち、最も多くのアライメントされ、処理されたリードを有する、切断点が、融合切断点としてコールされる、投票方法を使用して、判定されることができる。異なる処理されたリードの切断点は、品質アルゴリズムを使用して加重されてもよい。
いくつかの実施形態では、検出された融合は、限定ではないが、ALK、FGFR2、FGFR3、TRK1、RET、および/またはROS1から成る群を含む、遺伝子と関連付けられてもよい。
システムおよび方法は、特に、無細胞DNAの分析において有用であり得る。無細胞DNAは、癌を伴わない対象、癌のリスクがある対象、または癌を有することが既知の対象(例えば、他の手段を通して)等の任意の数の対象から抽出されてもよい。
いくつかの実施形態では、本開示の方法は、挿入および/または欠失ならびに/もしくは融合を有する、もしくは有していない、ポリヌクレオチド分子のインジケーションを提供する、報告を電子フォーマットで生成するステップを含んでもよい。
用語「ポリヌクレオチド」または「ポリヌクレオチドシーケンス」または「ポリヌクレオチド分子」は、本明細書で使用されるように、概して、1つまたはそれを上回る核酸サブユニットを含む、分子を指す。ポリヌクレオチドは、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)およびウラシル(U)、またはそのバリアントから選択された1つまたはそれを上回るサブユニットを含むことができる。ヌクレオチドは、A、C、G、T、またはU、もしくはそのバリアントを含むことができる。ヌクレオチドは、成長核酸鎖の中に組み込まれ得る、任意のサブユニットを含むことができる。そのようなサブユニットは、1つまたはそれを上回る相補的A、C、G、T、またはUに特有であるか、またはプリン(すなわち、AまたはG、もしくはそのバリアント)またはピリミジン(すなわち、C、TまたはU、もしくはそのバリアント)に相補的である、A、C、G、T、またはU、もしくは任意の他のサブユニットであることができる。サブユニットは、個々の核酸塩基または塩基群(例えば、AA、TA、AT、GC、CG、CT、TC、GT、TG、AC、CA、またはそのウラシル対応物)が分解されることを可能にすることができる。いくつかの実施例では、ポリヌクレオチドは、デオキシリボ核酸(DNA)またはリボ核酸(RNA)、もしくはその誘導体である。ポリヌクレオチドは、一本鎖または二本鎖であることができる。
ポリヌクレオチドは、癌と関連付けられたシーケンスを含むことができる。癌関連シーケンスは、一塩基多型(SNV)、コピー数多型(CNV)、挿入、欠失、および/または再編成を含むことができる。
用語「対象」は、本明細書で使用されるように、概して、哺乳類種(例えば、ヒト)または鳥類(例えば、トリ)種等の動物、もしくは植物等の他の生命体を指す。より具体的には、対象は、脊椎動物、哺乳類、マウス、霊長類、類人猿、またはヒトであることができる。動物として、限定ではないが、家畜動物、スポーツ動物、およびペットが挙げられる。対象は、健康な個人、疾患または疾患に対する素因を有する、もしくは有すると疑われる、個人、または療法の必要があるもしくは療法の必要があると疑われる、個人であることができる。対象は、患者であることができる。
シーケンシング方法は、限定ではないが、Sangerシーケンシング、高スループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単分子シーケンシング、ナノ細孔シーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、デジタル遺伝子発現(Helicos)、次世代シーケンシング、合成による単分子シーケンシング(SMSS)(Helicos)、超並列シーケンシング、クローン単分子アレイ(Solexa)、ショットガンシーケンシング、Maxim-Gilbertシーケンシング、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはナノ細孔プラットフォームを使用したシーケンシング、および当技術分野において公知の任意の他のシーケンシング方法を含んでもよい。
無細胞DNAシーケンスのシーケンシングデータが、シーケンシングリードとして収集された後、1つまたはそれを上回るバイオインフォマティクスプロセスが、シーケンシングリードに適用されてもよい。付加的バイオインフォマティクスプロセスは、同時に、または続いて、コピー数多型、稀な突然変異体(例えば、一塩基多型または多塩基多型)、または、限定ではないが、メチル化プロファイルを含む、エピジェネティクスマーカにおける変化等の遺伝子特徴または異常を検出するために適用されてもよい。
限定ではないが、核酸シーケンシング、核酸定量化、シーケンシング最適化、遺伝子発現の検出、遺伝子発現の定量化、ゲノムプロファイリング、癌プロファイリング、または代表されるマーカの分析を含む、種々の異なる反応および動作が、本明細書に開示されるシステムおよび方法内で生じ得る。さらに、本システムおよび方法は、多数の医療用途を有する。例えば、癌を含む、種々の遺伝子および非遺伝子疾患ならびに障害の識別、検出、診断、処置、病期分類、またはリスク予測のために使用されてもよい。遺伝子および非遺伝子疾患の異なる処置に対する対象応答を査定するか、または疾患進行度および予後に関する情報を提供するために使用されてもよい。
故に、全ての本開示の実施形態は、を挿入および/または欠失ならびに/もしくは融合を含む、遺伝子バリアントを判定するための方法として実装されることができる。いくつかの実施形態では、これらの遺伝子は、種々の遺伝子および非遺伝子疾患の識別、検出、診断、処置、病期分類、またはリスク予測のために使用されることができる。いくつかの実施形態では、疾患は、癌である。
(コンピュータシステム)
本開示の方法は、コンピュータシステムを使用して、またはその助けを借りて、実装されることができる。例えば、(i)対合端シーケンスリードの重複領域をマージし、一意のシーケンスを生成し、(ii)一意のシーケンスリードを参照シーケンスにマッピングし、(iii)一意のシーケンスリードをファミリーにグルーピングし、(iv)ファミリーの一意のシーケンスリードを融合クラスタにグルーピングし、および/または(v)融合クラスタを挿入および/または欠失ならびに/もしくは融合を含むとしてコールする、方法が、コンピュータプロセッサを用いて実施されることができる。図4は、本開示の方法を実装するようにプログラムまたは別様に構成される、コンピュータシステム401を示す。コンピュータシステム401は、サンプル調製、シーケンシング、および/または分析の種々の側面を調整することができる。いくつかの実施例では、コンピュータシステム401は、核酸シーケンシングを含む、サンプル調製およびサンプル分析を実施するように構成される。
コンピュータシステム401は、単一コアまたはマルチコアプロセッサ、もしくは並列処理用の複数のプロセッサであり得る、中央処理装置(CPU、本明細書ではまた、「プロセッサ」および「コンピュータプロセッサ」)405を含む。コンピュータシステム401はまた、メモリまたはメモリ場所410(例えば、無作為アクセスメモリ、読取専用メモリ、フラッシュメモリ)、電子記憶ユニット415(例えば、ハードディスク)、1つまたはそれを上回る他のシステムと通信するための通信インターフェース420(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶装置、および/または電子ディスプレイアダプタ等の周辺デバイス425も含む。メモリ410、記憶ユニット415、インターフェース420、および周辺デバイス425は、マザーボード等の通信ネットワークまたはバス(実線)を通してCPU405と通信する。記憶ユニット415は、データを記憶するためのデータ記憶ユニット(またはデータレポジトリ)であり得る。コンピュータシステム401は、通信インターフェース420の助けを借りて、コンピュータネットワーク430に動作可能に結合されることができる。コンピュータネットワーク430は、インターネット、インターネットおよび/またはエクストラネット、もしくはインターネットと通信しているイントラネットおよび/またはエクストラネットであり得る。コンピュータネットワーク430は、ある場合には、電気通信および/またはデータネットワークである。コンピュータネットワーク430は、クラウドコンピューティング等の分散コンピューティングを可能にし得る、1つまたはそれを上回るコンピュータサーバを含むことができる。ネットワーク430は、ある場合には、コンピュータシステム401の助けを借りて、コンピュータシステム401に結合されたデバイスがクライアントまたはサーバとして挙動することを可能にし得る、ピアツーピアネットワークを実装することができる。
CPU405は、プログラムまたはソフトウェアで具現化され得る、一連の機械可読命令を実行することができる。命令は、メモリ410等のメモリ場所に記憶されてもよい。CPU405によって行われる動作の実施例は、フェッチ、解読、実行、およびライトバックを含むことができる。
記憶ユニット415は、ドライバ、ライブラリ、および保存されたプログラム等のファイルを記憶することができる。記憶ユニット415は、ユーザによって生成されたプログラムおよび記録されたセッションならびにプログラムと関連づけられた出力を記憶することができる。記憶ユニット415は、ユーザデータ、例えば、ユーザ選好およびユーザプログラムを記憶することができる。コンピュータシステム401は、ある場合には、イントラネットまたはインターネットを通してコンピュータシステム401と通信している遠隔サーバ上に位置するもの等の、コンピュータシステム401の外部にある1つまたはそれを上回る付加的データ記憶ユニットを含むことができる。
コンピュータシステム401は、ネットワーク430を通して1つまたはそれを上回る遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム401は、ユーザの遠隔コンピュータシステム(例えば、オペレータ)と通信することができる。遠隔コンピュータシステムの実施例は、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android対応デバイス、Blackberry(登録商標))、または携帯情報端末を含む。ユーザは、ネットワーク430を介してコンピュータシステム401にアクセスすることができる。
本明細書に説明されるような方法は、例えば、メモリ410または電子記憶ユニット415上等のコンピュータシステム401の電子記憶場所上に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードを介して実装されることができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供されることができる。使用中に、コードは、プロセッサ405によって実行されることができる。ある場合には、コードは、記憶ユニット415から読み出され、プロセッサ405による容易なアクセスのためにメモリ410上に記憶されることができる。ある状況では、電子記憶ユニット415は、排除されることができ、機械実行可能命令が、メモリ410上に記憶される。
コードは、コードを実行するように適合されるプロセッサを有する機械と併用するために事前にコンパイルおよび構成されることができるか、または実行時間中にコンパイルされることができる。コードは、事前コンパイルされた、またはコンパイルされた時点の様式で、コードが実行されることを可能にするように選択され得る、プログラミング言語で供給されることができる。
コンピュータシステム401等の本明細書で提供されるシステムおよび方法の側面は、プログラミングで具現化されることができる。本技術の種々の側面は、典型的には、一種の機械可読媒体上で搬送されるか、またはその中で具現化される、機械(もしくはプロセッサ)実行可能コードおよび/または関連データの形態の「製品」もしくは「製造品」と考えられてもよい。機械実行可能コードは、メモリ(例えば、読取専用メモリ、無作為アクセスメモリ、フラッシュメモリ)またはハードディスク等の電子記憶ユニット上に記憶されることができる。「記憶」型媒体は、ソフトウェアプログラミングのためにいかなる時でも非一過性の記臆装置を提供し得る、コンピュータ、プロセッサ、もしくは同等物の有形メモリ、または種々の半導体メモリ、テープドライブ、ハードドライブ、および同等物等のそれらの関連モジュールのうちのいずれかもしくは全てを含むことができる。
ソフトウェアの全てまたは部分は、時として、インターネットまたは種々の他の電気通信ネットワークを通して通信されてもよい。そのような通信は、例えば、1つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへ、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を持ち得る別のタイプの媒体は、ローカルデバイス間の物理的インターフェースを横断し、有線および光学地上通信線ネットワークを通し、かつ種々のエアリンクを経由して使用されるような光波、電波、および電磁波を含む。有線もしくは無線リンク、光学リンク、または同等物等のそのような波動を搬送する物理的要素もまた、ソフトウェアを持つ媒体と見なされてもよい。本明細書で使用されるように、非一過性の有形「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」等の用語は、実行のために命令をプロセッサに提供することに参加する任意の媒体を指す。
したがって、コンピュータ実行可能コード等の機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むが、それらに限定されない、多くの形態を成してもよい。不揮発性記憶媒体は、例えば、図面に示されるデータベース等を実装するために使用されるような、任意のコンピュータまたは同等物の中の記憶デバイスのうちのいずれか等の光学または磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、同軸ケーブル、すなわち、コンピュータシステム内のバスを含むワイヤを含む、銅線および光ファイバを含む。搬送波伝送媒体は、電気もしくは電磁信号、または高周波(RF)および赤外線(IR)データ伝送中に生成されるもの等の音波もしくは光波の形態をとってもよい。コンピュータ可読媒体の一般的な形態は、したがって、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを伴う任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップまたはカートリッジ、データもしくは命令を輸送する搬送波、そのような搬送波を輸送するケーブルまたはリンク、もしくはコンピュータがプログラミングコードおよび/またはデータを読み取り得る任意の他の媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、実行するために1つまたはそれを上回る命令の1つまたはそれを上回るシーケンスをプロセッサに搬送することに関与し得る。
コンピュータシステム401は、例えば、サンプル分析の1つまたはそれを上回る結果を提供するためのユーザインターフェース(UI)を含む、電子ディスプレイを含む、またはそれと通信することができる。UIの実施例は、限定ではないが、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースを含む。
(用途)
A. 癌の早期検出
多数の癌が、本明細書に説明される方法およびシステムを使用して検出され得る。癌細胞は、大部分の細胞のように、古い細胞が死滅し、より新しい細胞によって置換される、代謝率によって特徴付けられることができる。概して、所与の対象内の血管系と接触する死滅細胞は、DNAまたはDNAの断片を血流中に放出し得る。これはまた、疾患の種々の段階の間の癌細胞にも当てはまる。癌細胞はまた、疾患の段階に応じて、コピー数多型ならびに稀な突然変異体等の種々の遺伝子異常によっても特徴付けられ得る。本現象は、本明細書に説明される方法およびシステムを使用して、個人の癌の存在または不在を検出するために使用され得る。
例えば、癌のリスクのある対象からの血液が、採取され、本明細書に説明されるように調製され、無細胞ポリヌクレオチドの集団を生成してもよい。一実施例では、これは、無細胞DNAであり得る。本開示のシステムおよび方法は、存在するある癌内に存在し得る、稀な突然変異体またはコピー数多型を検出するために採用されてもよい。本方法は、疾患の症状または他の顕著な特徴の不在にもかかわらず、身体内の癌性細胞の存在を検出することに役立ち得る。
検出され得る、癌のタイプおよび数は、限定ではないが、血液癌、脳癌、肺癌、皮膚癌、鼻癌、喉癌、肝臓癌、骨癌、リンパ腫、膵臓癌、皮膚癌、腸癌、直腸癌、甲状腺癌、膀胱癌、腎臓癌、口腔癌、胃癌、固形腫瘍、異種腫瘍、同種腫瘍、および同等物を含んでもよい。
癌の早期検出では、稀な突然変異体検出またはコピー数多型検出を含む、本明細書に説明されるシステムまたは方法のいずれかは、癌を検出するために利用されてもよい。これらのシステムおよび方法は、癌を引き起こす、またはそこから生じ得る、任意の数の遺伝子異常を検出するために使用されてもよい。これらは、限定ではないが、突然変異体、稀な突然変異体、インデル、コピー数多型、転換、転座、反転、欠失、染色体不安定性、染色体構造改変、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体病変、DNA病変、および癌を含んでもよい。
加えて、本明細書に説明されるシステムおよび方法はまた、ある癌を特性評価することに役立てるために使用されてもよい。本開示のシステムおよび方法から生産された遺伝子データは、施術者が、具体的形態の癌をより良好に特性評価することに役立つことを可能にし得る。多くの場合、癌は、組成および病期分類の両方において異種である。遺伝子プロファイルデータは、具体的サブタイプの診断または処置において重要であり得る、癌の具体的サブタイプの特性評価を可能にし得る。本情報はまた、対象または施術者に、癌の具体的タイプの予後に関する手掛かりを提供し得る。
B. 癌処置、監視、および予後
本明細書に提供されるシステムおよび方法は、特定の対象におけるすでに既知の癌または他の疾患を処置または監視するために使用されてもよい。これは、対象または施術者のいずれかが、疾患の進行度に従って、処置オプションを適合させることを可能にし得る。本実施例では、本明細書に説明されるシステムおよび方法は、疾患の過程にある特定の対象の遺伝子プロファイルを構築するために使用されてもよい。いくつかの事例では、癌は、進行し、より侵襲性かつ遺伝子的に不安定になり得る。他の実施例では、癌は、良性、不活性、休止状態、または寛解状態のままであり得る。本開示のシステムおよび方法は、疾患進行度、寛解、または再発を判定する際に有用であり得る。
さらに、本明細書に説明されるシステムおよび方法は、特定の処置オプションの有効性を判定する際に有用であり得る。一実施例では、成功処置オプションは、より多くの癌が、死滅し、DNAを流出し得るため、処置が成功する場合、実際には、対象の血液中で検出されたインデルの量を増加させ得る。他の実施例では、これは、生じない場合がある。別の実施例では、おそらく、ある処置オプションは、癌の遺伝子プロファイルと経時的に相関され得る。本相関は、療法を選択する際に有用であり得る。加えて、癌が、処置後、寛解したと観察される場合、本明細書に説明されるシステムおよび方法は、残存疾患または疾患の再発を監視する際に有用であり得る。
C. 他の疾患または疾患状態の早期検出および監視
本明細書に説明される方法およびシステムは、癌と関連付けられたインデルのみの検出に限定されなくてもよい。種々の他の疾患および感染症は、早期検出および監視に好適であり得る、他のタイプの状態をもたらし得る。例えば、ある場合には、遺伝子障害または感染性疾患は、ある遺伝子モザイク現象を対象内に引き起こし得る。本遺伝子モザイク現象は、観察され得る、コピー数多型および稀な突然変異体を引き起こし得る。
さらに、本開示のシステムおよび方法はまた、細菌またはウイルス等の病原によって生じ得るような全身性感染症自体を監視するめに使用されてもよい。インデル検出は、病原の集団が、感染症の過程の間、変化する状態を判定するために使用されてもよい。これは、特に、それによってウイルスが、感染症の過程の間、寿命サイクル状態を変化させ、および/またはより悪性形態に変異し得る、HIV/AIDSまたは肝炎感染症等の慢性感染症の間、重要であり得る。
さらに、本開示の方法は、対象内の異常状態の異質性を特性評価するために使用されてもよく、本方法は、対象内の細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップを含み、遺伝子プロファイルは、インデル分析から生じる複数のデータを含む。限定ではないが、癌を含む、ある場合には、疾患は、異種であり得る。疾患細胞は、同じではない場合がある。癌の実施例では、いくつかの腫瘍は、異なるタイプの腫瘍細胞を含み、いくつかの細胞が癌の異なる段階にあることが既知である。他の実施例では、異質性は、疾患の複数の病巣を含み得る。再び、癌の実施例では、複数の腫瘍病巣が存在し得、おそらく、1つまたはそれを上回る病巣は、一次部位から拡散した転移の結果である。
本開示の方法は、異種疾患における異なる細胞に由来する遺伝子情報の総和である、プロファイル、フィンガプリント、またはデータのセットを生成するために使用されてもよい。本データのセットは、単独で、または組み合わせて、コピー数多型および稀な突然変異体分析を含んでもよい。
D. 他の疾患または胎児起源の疾患状態の早期検出および監視
加えて、本開示のシステムおよび方法は、癌または胎児起源の他の疾患を診断する、予後の判断を行う、監視するか、または観察するために使用されてもよい。すなわち、これらの方法論は、妊娠対象において、そのDNAおよび他のポリヌクレオチドが母体分子と同時に循環し得る、未出生対象における癌または他の疾患を診断する、予後の判断を行う、監視するか、または観察するために採用されてもよい。
本発明の好ましい実施形態が、本明細書で示され、説明されているが、そのような実施形態は、一例のみとして提供されることが当業者に明白となるであろう。本発明が本明細書内で提供される具体的実施例によって限定されることは意図されない。本発明は、前述の明細書を参照して説明されているが、本明細書の実施形態の説明および例証は、限定的な意味で解釈されるように意図されていない。多数の変形例、変更、および代用が、ここで、本発明から逸脱することなく、当業者に想起されるであろう。さらに、本発明の全ての側面は、種々の条件および変数に依存する、本明細書に記載される具体的描写、構成、または相対的割合に限定されないことを理解されたい。本明細書に説明される本発明の実施形態の種々の代替物が、本発明を実践する際に採用され得ることを理解されたい。したがって、本発明はまた、任意のそのような代替物、修正、変形例、または均等物も網羅するものとすると考慮される。以下の請求項は、本発明の範囲を定義し、それにより、これらの請求項およびそれらの均等物の範囲内の方法および構造が対象となることが意図される。
(実施例1)
27個の異なるサンプル中のMETエクソン14スキッピング欠失の検出
患者サンプルのセットが、Guardant Health, Inc.(Redwood City, CA)によって開発された血液ベースのDNAアッセイを使用して処理および分析された。シーケンスリードが、遺伝子バリアントに関して分析された。下記の表1に示されるように、セットの中の27個の異なるサンプルが、融合クラスタを有すると検出された。
表1では、各行は、コンセンサス切断点ペアを伴う融合クラスタを代表する。融合クラスタは、(1)切断点ペアが、同一染色体、すなわち、染色体7番にマッピングされ、(2)サブシーケンスが同一5´-3´配向にあることが見出され、(3)、切断点位置1と2との間の距離が、所定の最大距離、この場合、3,222ヌクレオチド内にあって、加えて、(4)参照シーケンスと比較して、正常ゲノム順序にあることを含む、欠失をコールするための基準を満たす。シーケンスリードの基準アライメントは、検出された遺伝子バリアントがMETエクソン14スキッピング欠失であることを示した。

Claims (1)

  1. 明細書に記載の発明。
JP2023127052A 2017-05-19 2023-08-03 挿入および欠失を検出するための方法およびシステム Pending JP2023139307A (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201762509003P 2017-05-19 2017-05-19
US62/509,003 2017-05-19
US201762509699P 2017-05-22 2017-05-22
US62/509,699 2017-05-22
US201762511186P 2017-05-25 2017-05-25
US62/511,186 2017-05-25
JP2019563056A JP2020521216A (ja) 2017-05-19 2018-05-18 挿入および欠失を検出するための方法およびシステム
PCT/US2018/033553 WO2018213814A1 (en) 2017-05-19 2018-05-18 Methods and systems for detecting insertions and deletions

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019563056A Division JP2020521216A (ja) 2017-05-19 2018-05-18 挿入および欠失を検出するための方法およびシステム

Publications (1)

Publication Number Publication Date
JP2023139307A true JP2023139307A (ja) 2023-10-03

Family

ID=62528908

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019563056A Withdrawn JP2020521216A (ja) 2017-05-19 2018-05-18 挿入および欠失を検出するための方法およびシステム
JP2023127052A Pending JP2023139307A (ja) 2017-05-19 2023-08-03 挿入および欠失を検出するための方法およびシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019563056A Withdrawn JP2020521216A (ja) 2017-05-19 2018-05-18 挿入および欠失を検出するための方法およびシステム

Country Status (5)

Country Link
US (3) US20190371432A1 (ja)
EP (1) EP3625713A1 (ja)
JP (2) JP2020521216A (ja)
CN (1) CN110622250A (ja)
WO (1) WO2018213814A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2596233B (en) * 2018-12-20 2023-10-11 Veracyte Inc Methods and systems for detecting genetic fusions to identify a lung disorder
WO2020230091A1 (en) 2019-05-14 2020-11-19 Janssen Biotech, Inc. Combination therapies with bispecific anti-egfr/c-met antibodies and third generation egfr tyrosine kinase inhibitors
CN111292809B (zh) * 2020-01-20 2021-03-16 至本医疗科技(上海)有限公司 用于检测rna水平基因融合的方法、电子设备和计算机存储介质
JOP20220184A1 (ar) * 2020-02-12 2023-01-30 Janssen Biotech Inc علاج مصابي السرطان ممن لديهم طفرات تخطي c-Met إكسون14
JP7393439B2 (ja) * 2020-10-22 2023-12-06 ビージーアイ ジェノミクス カンパニー リミテッド 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015100427A1 (en) * 2013-12-28 2015-07-02 Guardant Health, Inc. Methods and systems for detecting genetic variants
CN117012283A (zh) * 2015-10-10 2023-11-07 夸登特健康公司 无细胞dna分析中基因融合检测的方法和应用

Also Published As

Publication number Publication date
WO2018213814A1 (en) 2018-11-22
US20190371432A1 (en) 2019-12-05
EP3625713A1 (en) 2020-03-25
US20240006022A1 (en) 2024-01-04
CN110622250A (zh) 2019-12-27
JP2020521216A (ja) 2020-07-16
US20230335219A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
US11959139B2 (en) Methods and systems for detecting genetic variants
US11193175B2 (en) Normalizing tumor mutation burden
US20240006022A1 (en) Methods and systems for detecting insertions and deletions
US20200075123A1 (en) Genetic variant detection based on merged and unmerged reads
US20230360727A1 (en) Computational modeling of loss of function based on allelic frequency
US20210398610A1 (en) Significance modeling of clonal-level absence of target variants
JP2022512848A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
JP2021502072A (ja) 脱アミノ化に誘導される配列エラーの補正

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230803