JP2022532403A - 残存疾患を検出するための方法およびシステム - Google Patents

残存疾患を検出するための方法およびシステム Download PDF

Info

Publication number
JP2022532403A
JP2022532403A JP2021568310A JP2021568310A JP2022532403A JP 2022532403 A JP2022532403 A JP 2022532403A JP 2021568310 A JP2021568310 A JP 2021568310A JP 2021568310 A JP2021568310 A JP 2021568310A JP 2022532403 A JP2022532403 A JP 2022532403A
Authority
JP
Japan
Prior art keywords
disease
sequencing
nucleic acid
sequencing data
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021568310A
Other languages
English (en)
Other versions
JPWO2020236630A5 (ja
Inventor
ギラッド アルモジー,
マーク プラット,
オマー バラド,
シムチョン フェイグラー,
フロリアン オーバーストラス,
Original Assignee
ウルティマ ジェノミクス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウルティマ ジェノミクス, インコーポレイテッド filed Critical ウルティマ ジェノミクス, インコーポレイテッド
Publication of JP2022532403A publication Critical patent/JP2022532403A/ja
Publication of JPWO2020236630A5 publication Critical patent/JPWO2020236630A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)

Abstract

疾患(例えば、がん)のレベル、例えば、罹患組織(例えば、がん組織)に関係する個体からの試料中の核酸分子(例えば、無細胞DNA)の割合を測定するための方法、デバイスおよびシステムが、本明細書に記載される。個体における疾患の存在、再発、進行または退縮を測定するための方法、デバイスおよびシステムも記載される。ある特定の方法は、個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が、罹患組織に由来する率を示すシグナルと、シークエンシング偽陽性エラー率を示すバックグラウンド指数、または選択された遺伝子座にわたってのサンプリング分散を示すノイズ指数とを、比較するステップを含む。

Description

関連出願への相互参照
本願は、2019年5月17日に出願した米国特許仮出願第62/849,414号および2020年2月7日に出願した米国特許仮出願第62/971,530号に基づく優先権の利益を主張しており、前記仮出願の各々の内容は、それら全体が参照により本明細書に援用される。
ASCIIテキストファイルでの配列表の提出
ASCIIテキストファイルでの以下の提出内容は、その全体が参照により本明細書に取り込まれる:コンピュータ可読形式(CRF)の配列表(ファイル名:165272000140SEQLIST.TXT、記録日:2020年5月14日、サイズ:1KB)。
発明の分野
核酸シークエンシングデータを使用して、がんなどの疾患に関連する試料中の核酸分子の割合を測定するための方法、システムおよびデバイスが、本明細書に記載される。がんなどの疾患の存在、再発、進行または退縮のレベルを測定するための方法、システムおよびデバイスも記載される。
背景
がん処置前、がん処置中およびがん処置後の残存疾患の検出および定量は、患者におけるがん処置またはがん寛解の有効性をモニターするために使用され得る。標的核酸シークエンシング法は、無病組織とがん性組織との相違(すなわちバリアント)を決定するためにこれまで使用されてきた。標的シークエンシング法は、多くの場合、がんゲノムもしくはエクソーム内の公知ドライバー遺伝子もしくは公知突然変異ホットスポットにおける突然変異を探すか、またはディープシークエンシング法を利用して特定の標的遺伝子座における正確なバリアントコールを確保する。
個体における腫瘍が起源である無細胞DNA(「cfDNA」)(「循環腫瘍DNA」または「ctDNA」とも呼ばれる)の量は、疾患の重症度と相関し得る。大部分の進行した疾患状態を除くと、罹患組織が起源であるDNAは、試料中のほんの一部に過ぎず、DNAの圧倒的多数は、個体における非罹患組織に由来する。このことが、罹患組織が起源であるcfDNAの量の正確な測定を特に困難にする。現行の手法は、比較的まれながん特異的バリアントを標的とする超高感度スキーム、例えば、カスタムqPCRまたはカスタム濃縮を必要とすることが多い。
発明の簡単な要旨
個体の疾患(例えば、がん)のレベルを測定するための方法、システムおよびデバイス、ならびに個体における疾患の存在、再発、進行または退縮を測定する方法が、本明細書に記載される。
一部の実施形態では、個体における疾患のレベルを測定する方法は、個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示すシグナルと、選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示すバックグラウンド指数とを、比較するステップ;およびシグナルとバックグラウンド指数の比較に基づいて個体における疾患のレベルを決定するステップを含む。
一部の実施形態では、個体における疾患の再発を測定する方法は、個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示すシグナルと、選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示すバックグラウンド指数とを、比較するステップ;およびシグナルとバックグラウンド指数の比較に基づいて個体における疾患のレベルを決定するステップを含む。
一部の実施形態では、個体における疾患の進行または退縮を測定する方法は、個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示すシグナルと、選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示すバックグラウンド指数とを、比較するステップ;およびシグナルとバックグラウンド指数の比較に基づいて個体における疾患のレベルを決定するステップ;および疾患の測定レベルを、個体におけるその疾患の以前に測定されたレベルと比較するステップを含む。一部の実施形態では、疾患の進行または退縮は、疾患の測定レベルの統計的に有意な変化に基づく。
上記方法のいずれかの一部の実施形態では、疾患のレベルは、個体からの試料中の疾患に関連する核酸分子の割合である。上記方法のいずれかの一部の実施形態では、比較するステップは、バックグラウンド指数をシグナルから減算することを含む。
上記方法のいずれかの一部の実施形態では、方法は、疾患のレベルの測定についての誤差を決定するステップをさらに含む。一部の実施形態では、誤差は、疾患のレベルについての信頼区間である。一部の実施形態では、誤差は、選択された遺伝子座で検出された個々の小ヌクレオチドバリアントリードの総数に比例する。一部の実施形態では、疾患のレベルは、個体からの試料中の疾患に関連する核酸分子の割合であり、割合および誤差は、
Figure 2022532403000001
(式中、Fは、割合であり、Ntotalは、選択された遺伝子座で検出された個々の小ヌクレオチドバリアントリードの総数であり、Nvarは、選択された遺伝子座の数であり、Dは、平均シークエンシング深度である)により定義される。
一部の実施形態では、個体における疾患を検出する方法は、個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示すシグナルと、選択された遺伝子座にわたってのサンプリング分散を示すノイズ指数とを、比較するステップ;およびシグナルとバックグラウンド指数の比較に基づいて個体が疾患を有するかどうかを決定するステップを含む。一部の実施形態では、シグナルは、所定の閾値を超えてノイズ指数を上回った場合、個体は、疾患の再発または疾患の残存レベルを有すると決定される。一部の実施形態では、シグナルは、k倍またはそれより大きくノイズ指数を上回った場合、個体は、疾患の再発または疾患の残存レベルを有すると決定され、kが約1.5である。一部の実施形態では、kが約3.0である。一部の実施形態では、kが約5.0である。一部の実施形態では、kが約10である。一部の実施形態では、方法は、疾患の再発を検出するステップを含む。
一部の実施形態では、個体における疾患の再発、進行または退縮を検出する方法は、(a)個体の罹患組織に起因する試料中の核酸分子の割合、F、を示す値がゼロより大きい可能性であって、ゼロより大きいFが個体の疾患の存在を示す、可能性、および(b)個体の罹患組織に起因する試料中の核酸分子の割合、F、を示す値の統計的に有意な変化の少なくとも一方を測定するステップを含み、統計的に有意な変化が、以前に測定された割合、Fprior、に対する変化であり、Fの統計的に有意な変化が、個体の疾患の進行または退縮を示し、割合Fが、無細胞核酸シークエンシングデータにおいて検出された一塩基バリアント(SNV)の総数、Ntotal、であって、SNVが個別化疾患関連SNV遺伝子座パネルから選択される、Ntotalと、SNVパネルから選択されたSNVの数、Nvar、であって、平均シークエンシング深度、D、により調整され、さらに、選択されたSNVにわたってシークエンシング偽陽性エラー率、E、により調整された、Nvarとを比較することにより決定される。
上記方法のいずれかの一部の実施形態では、方法は、個別化疾患関連SNV遺伝子座パネルを生成するステップをさらに含む。一部の実施形態では、個別化疾患関連SNV遺伝子座パネルを生成するステップは、罹患組織の試料に由来する核酸分子をシークエンシングして、疾患関連SNVのセットを決定すること、および疾患関連SNVのセットを、生殖細胞系列バリアントおよび非がん関連体細胞バリアントを除去するようにフィルター処理することを含む。一部の実施形態では、罹患組織の試料は、個体から得られた腫瘍生検試料である。一部の実施形態では、生殖細胞系列バリアントもしくは体細胞バリアント、または両方は、個体から得られた非罹患組織の試料に由来する核酸分子をシークエンシングすることにより決定される。一部の実施形態では、非罹患組織の試料は、白血球を含む。一部の実施形態では、非罹患組織の試料は、バフィーコートである。一部の実施形態では、方法は、罹患関連SNVのセットを、1つのシークエンシングリードによってしか支持されないSNVを除去するようにフィルター処理するステップをさらに含む。一部の実施形態では、方法は、罹患関連SNVのセットを、相補的シークエンシングリードにより支持されないSNVを除去するようにフィルター処理するステップをさらに含む。一部の実施形態では、方法は、罹患関連SNVのセットを、個体の一般集団に所定の閾値よりも高い対立遺伝子頻度で存在するSNVを除去するようにフィルター処理するステップをさらに含む。一部の実施形態では、所定の閾値は、約0.01である。一部の実施形態では、方法は、低複雑性ゲノム領域(すなわち、ホモポリマー領域、またはショートタンデムリピート(STR))内のSNVをフィルター処理するステップをさらに含む。一部の実施形態では、核酸シークエンシングデータは、個体から得られた流体試料からの核酸分子を、複数のフロー位置を含むフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングすることにより得られ、フロー位置は、ヌクレオチドフローに対応し;個別化疾患関連SNV遺伝子座パネルを生成するステップは、疾患関連SNVのセットを、核酸シークエンシングデータおよび参照シークエンシングデータは、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングされたときに、2カ所より多くのフロー位置において参照配列に関連する参照シークエンシングデータと異なる核酸シークエンシングデータを生じさせる結果となるSNVのみを含むように、フィルター処理することをさらに含む。
上記方法のいずれかの一部の実施形態では、核酸シークエンシングデータは、個体から得られた流体試料からの核酸分子を、複数のフロー位置を含むフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングすることにより得られ、フロー位置は、ヌクレオチドフローに対応し;方法は、罹患組織の試料に由来する核酸分子をシークエンシングして疾患関連SNVのセットを決定することを含む個別化疾患関連SNV遺伝子座パネルを生成するステップをさらに含み;個別化疾患関連SNV遺伝子座パネルを生成するステップは、疾患関連SNVのセットを、核酸シークエンシングデータおよび参照シークエンシングデータは、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングされたときに、2カ所より多くのフロー位置において参照配列に関連する参照シークエンシングデータと異なる核酸シークエンシングデータを生じさせる結果となるSNVのみを含むように、フィルター処理することをさらに含む。
上記方法のいずれかの一部の実施形態では、核酸分子は、無細胞核酸分子である。一部の実施形態では、核酸分子は、DNA分子である。一部の実施形態では、核酸分子は、RNA分子である。
上記方法のいずれかの一部の実施形態では、核酸シークエンシングデータは、個体から得られた流体試料中の核酸分子から導出される。一部の実施形態では、流体試料は、血液試料、血漿試料、唾液試料、尿試料、または糞便試料である。
上記方法のいずれかの一部の実施形態では、疾患はがんである。一部の実施形態では、がんは、転移性がんである。
上記方法のいずれかの一部の実施形態では、核酸分子をシークエンシングしてシークエンシングデータを得るステップをさらに含む。
上記方法のいずれかの一部の実施形態では、核酸シークエンシングデータは、所定のヌクレオチドシークエンシングサイクル順序に従って核酸分子をシークエンシングすることにより得られる。一部の実施形態では、核酸シークエンシングデータは、異なる所定のヌクレオチドシークエンシングサイクルに従って核酸分子を再シークエンシングすることによりさらに得られ、異なる所定のヌクレオチドシークエンシングサイクルは、シークエンシング遺伝子座のサブセットにおいて第1の所定のヌクレオチドシークエンシングサイクル順序と比較して異なる偽陽性バリアント率を生じさせる結果となる。
上記方法のいずれかの一部の実施形態では、シークエンシングデータは、非標的シークエンシングデータである。一部の実施形態では、シークエンシングデータは、非標的全ゲノムから得られる。
上記方法のいずれかの一部の実施形態では、シークエンシングデータの平均シークエンシング深度は、少なくとも0.01である。一部の実施形態では、シークエンシンデータの平均シークエンシング深度は、約100未満である。一部の実施形態では、シークエンシンデータの平均シークエンシング深度は、約10未満である。一部の実施形態では、シークエンシンデータの平均シークエンシング深度は、約1未満である。
上記方法のいずれかの一部の実施形態では、疾患関連SNV遺伝子座パネルは、パッセンジャー突然変異および/またはドライバー突然変異を含む。
上記方法のいずれかの一部の実施形態では、疾患関連SNV遺伝子座パネルは、一塩基多型(SNP)遺伝子座を含む。一部の実施形態では、疾患関連SNV遺伝子座パネルは、インデル遺伝子座を含む。
上記方法のいずれかの一部の実施形態では、疾患関連SNV遺伝子座パネルからの選択された遺伝子座は、約300またはそれより多くの遺伝子座を含む。
上記方法のいずれかの一部の実施形態では、疾患関連SNVパネルから選択される遺伝子座は、個々の遺伝子座の偽陽性率に基づいて選択される。
上記方法のいずれかの一部の実施形態では、疾患関連SNVパネルから選択される遺伝子座は、疾患の選択されたサブクローンに関連する固有のSNVに基づく。
上記方法のいずれかの一部の実施形態では、疾患関連SNVパネルは、罹患組織に関連するシークエンシングデータを非罹患組織に関連するシークエンシングデータと比較することにより決定される。一部の実施形態では、方法は、罹患組織に由来する核酸分子をシークエンシングして罹患組織に関連するシークエンシングデータを得るステップをさらに含む。一部の実施形態では、非罹患組織に由来する核酸分子をシークエンシングして非罹患組織に関連するシークエンシングデータを得るステップをさらに含む。
上記方法のいずれかの一部の実施形態では、核酸シークエンシングデータは、核酸分子の表面ベースのシークエンシングを使用して得られ、核酸分子は、表面への核酸分子の付着前に増幅されない。
上記方法のいずれかの一部の実施形態では、核酸シークエンシングデータは、固有分子識別子(UMI)を使用せずに得られる。
上記方法のいずれかの一部の実施形態では、核酸シークエンシングデータは、試料識別バーコードを使用せずに得られる。
上記方法のいずれかの一部の実施形態では、シークエンシング偽陽性エラー率は、対照遺伝子座のパネルを使用して測定される。
上記方法のいずれかの一部の実施形態では、シークエンシングデータは、プールされた試料中の複数の個体から得られた核酸分子をシークエンシングすることにより得られる。一部の実施形態では、選択された遺伝子座は、複数の個体のうち各個体に固有のものである。一部の実施形態では、選択された遺伝子座の中の少なくとも1つの遺伝子座は、複数の個体における少なくとも2名の個体間で共通している。一部の実施形態では、シークエンシング深度は、個体ごとに決定され、各個体についてのシグナルは、その個体に関連するシークエンシング深度に基づいて調整される。
図1は、個体からの試料中の疾患に関連する核酸分子の割合を測定する例示的方法を示す。
図2は、個体からの試料中の疾患に関連する核酸分子の割合を測定する別の例示的方法を示す。
図3は、個体における疾患のレベルを測定する例示的方法を示す。
図4は、個体における疾患のレベルを測定する例示的方法を示す。
図5は、個体における疾患の再発、進行または退縮をモニターする例示的方法を示す。
図6は、個体における疾患の再発、進行または退縮をモニターする別の例示的方法を示す。
図7は、本明細書に記載の方法を実行するために使用することができる、一実施形態によるコンピュータデバイスの例を示す。
図8Aは、T-A-C-Gの反復フローサイクル順序を使用してTATGGTCGTCGA(配列番号1)の配列でプライマーを伸長させることにより得られたシークエンシングデータを示す。このシークエンシングデータは、伸長されたプライマー鎖を代表しており、容易に決定され得る相補鋳型鎖のシークエンシング情報は、実効的に等価である。
図8Bは、各フロー位置における最高尤度に基づいて選択された、最も可能性が高い配列であって、シークエンシングデータが得られた配列(星印により示されている通り)を伴う、図8Aに示されているシークエンシングデータを示す。
図8Cは、2つの異なる候補配列:TATGGTCATCGA(配列番号2)(黒塗りの丸印)およびTATGGTCGTCGA(配列番号1)(白抜きの丸印)を表すトレースを伴う、図8Aに示されているシークエンシングデータを示す。シークエンシングデータが所与の配列にマッチする尤度は、各フロー位置が候補配列にマッチする尤度の積として決定することができる。一部の実施形態では、第1の候補配列(配列番号2)を例示的な参照配列の逆相保配列と考えることもでき、第2の候補配列(配列番号1)をSNV含有配列と考えることができる。
図8Dは、A-G-C-Tシークエンシングサイクルを使用して得られた、および参照配列(配列番号2)と比較された、SNVを含有する核酸分子(配列番号1)についてのシークエンシングデータを示す。
発明の詳細な説明
本明細書に記載される方法、デバイスおよびシステムは、個体における疾患のレベルの検出および/または測定に関係する。疾患のレベルを、罹患組織(例えば、がん組織)に起因する試料中の核酸分子(例えば、無細胞DNA)の割合と関連付けることができる。例えば、選択された遺伝子座での罹患組織に起因する核酸分子における小ヌクレオチドバリアント(SNV)リードの検出率を示すシグナルを測定すること、およびこのシグナルと、シークエンシング偽陽性エラー率を示すバックグラウンド指数、または遺伝子座にわたってのサンプリング分散を示すノイズ指数とを比較することにより、疾患を検出することができ、またはそのレベルを測定することができる。罹患組織に関連している試料中の核酸分子の検出された割合により、個体における疾患のレベルの情報が得られる。個体における疾患のレベルを検出することにより、すでに存在する疾患(または寛解期にあるとそれまで考えられていた疾患)の再発を決定することができ、病状の進行または退縮を決定することもできる。
ある特定の罹患組織、特にがんは、個体の正常な健常ゲノムと比較して、罹患ゲノム全体にわたって何千もの(または何万もの、何十万もの、またはそれを超える)突然変異を含み得る。これらの突然変異は、成長優位性(例えば、増殖もしくは生存)をがんにもたらす、ドライバー突然変異であることもあり、またはゲノムのコードもしくは非コード領域全体にわたって見出すことができるが、いずれの成長優位性ももたらすと考えられないパッセンジャー突然変異であることもある。一部のケースでは、パッセンジャー突然変異は、がん性になる前にがん性になる細胞内に蓄積し、健常組織でさえも、ある特定の突然変異率を有する。患者における任意の所与の疾患についての幅広い突然変異は、患者に、およびさらには特定の罹患組織クローンまたはサブクローンに固有のものであり、したがって、罹患組織に固有の遺伝子シグネチャーをもたらす。同じ患者の罹患組織のゲノム(またはその一部分)と非罹患組織のゲノム(または対応するゲノム)を比較することにより、罹患組織についての個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルを確立することができる。必要に応じて、そのパネルから遺伝子座のサブセットを解析のために選択することができ、この選択は、例えば、所与の遺伝子座における、例えば他の遺伝子座より低い偽陽性エラー率に基づき得る。SNVパネルは、パッセンジャー突然変異および/またはドライバー突然変異を含み得る。
核酸分子の罹患割合または患者における疾患のレベルを測定する際に偽陽性エラー率および/またはサンプリング分散を考慮することにより、全体的なシークエンシング深度を低減することができ、それによってかなりの時間およびコストが節約できる。偽陽性エラーは、化学的損傷、誤った塩基組込み、またはシークエンシング中の蛍光リードエラーに起因して生じることがあり、SNVが所与の遺伝子座に存在すると間違って示すことがある。サンプリング分散は、偽陽性エラーと真陽性コールの両方を含む、検出SNVリードの数に関連している。特定の遺伝子座における潜在的偽エラーを防ぐために、他の疾患検出方法は、所与の遺伝子座における複数の独立したSNVコールを必要することが多く、そのようなコールは、試料中の罹患核酸の割合に逆比例する深度でその遺伝子座をシークエンシングすることよってしか得ることができない。一部のケースでは、他の方法は、ある遺伝子座におけるコンセンサス配列を複数のシークエンシングリードから決定するステップを含む。他の方法により用いられるディープシークエンシングは、一般に、ゲノムの特定の遺伝子座または狭いサブセットを標的とする必要がある(例えば、突然変異ホットスポットまたは全エクソームシークエンシング)。加えて、他のシークエンシング法は、同じ核酸分子の複数のコピーを独立してシークエンシングするためにライブラリー調製中に核酸分子の増幅を必要とすることが多い。この増幅プロセスには、さらなる偽エラーを導入するリスクがある。
任意の特定の遺伝子座における偽陽性エラーを顧慮せずに、本明細書に記載の方法は、解析に選択される遺伝子座にわたっての偽陽性エラー率および/またはサンプリング分散を使用して、罹患核酸分子の割合または疾患のレベルを測定する。遺伝子座が選択されてしまえば、いずれの特定の遺伝子座における偽陽性も測定に有意な影響を与えない。したがって、解析に選択される遺伝子座を、特定の遺伝子座各々における偽陽性エラー率を使用して選択することができるが、所与の遺伝子座におけるシークエンシングから生じ得るいずれの特定のエラーの影響も考慮されない。
定義
本明細書で使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈による別段の明白な指示がない限り、複数形の言及対象を含む。
本明細書での「約」ある値またはパラメーターへの言及は、その値またはパラメーター自体に関する変動を含む(および記載する)。例えば、「約X」に言及する記載は、「X」の記載を含む。
用語「平均」は、本明細書で使用される場合、平均値もしくは中央値、または平均値もしくは中央値を概算するために使用される任意の値のいずれかを指す。
「変動」または「分散」は、本明細書で使用される場合、分布の幅を定義する任意の統計メトリックを指し、標準偏差、分散、または四分位範囲であり得るが、これらに限定されない。
用語「個体」、「患者」および「対象」は、同義語として使用され、ヒトを含む動物を指す。
本明細書で使用される場合、用語「組織」は、任意の細胞物質を指し、循環細胞または非循環細胞を含み得る。
本明細書に記載される本発明の態様および変形形態が、態様および変形形態「からなること」および/または「から本質的になること」を含むことは理解されよう。
値の範囲が提供される場合、その範囲の上限値と下限値の間に介在する各々の値、およびその述べられている範囲内の、任意の他の述べられているまたは介在する値が、本開示の範囲内に包含されることは、理解されるはずである。述べられている範囲が上限値または下限値を含む場合、これらの含まれる限界値のどちらかを含まない範囲もまた、本開示に含まれる。
本明細書で使用される節の見出しは、単に構成のためのものであり、記載される主題を限定するものと解釈すべきでない。この説明は、当業者による本発明の実施および使用を可能にするために提供され、特許出願およびその要件に関連して提供される。記載される実施形態の様々な修飾形態が当業者には容易に分かることになり、本明細書における一般原理を他の実施形態に応用することができる。したがって、本発明は、示される実施形態に限定されるように意図されたものではなく、本発明には、本明細書に記載される原理および特徴に対応する最も広い範囲が与えられる。
図1~8Dは、様々な例によるプロセスを示す。これらの例示的プロセスを、例えば、ソフトウェアプラットフォームを実装している1つまたは複数の電子デバイスを使用して遂行することができる。一部の例では、例示的プロセスの1つまたは複数は、クライアント-サーバーシステムを使用して遂行され、示されているプロセスのブロックは、サーバーデバイスとクライアントデバイスの間でいかようにも分割され得る。他の例では、例示的プロセスのブロックは、サーバーデバイスと複数のクライアントデバイスの間で分割される。したがって、例示的プロセスの部分は、クライアント-サーバーシステムの特定のデバイスにより遂行されるように本明細書に記載されているが、そのプロセスがそのように限定されないことは理解されるであろう。他の例では、例示的プロセスの1つまたは複数は、クライアントデバイス(例えば、ユーザーデバイス)をもっぱら使用して行なわれるか、または1つもしくは複数のクライアントデバイスをもっぱら使用して行なわれる。これらの例示的プロセスでは、一部のブロックは、必要に応じて組み合わせられ、一部のブロックの順序は、必要に応じて変更され、一部のブロックは、必要に応じて割愛される。一部の例では、追加のステップが例示的プロセスと組み合わせて遂行され得る。したがって、例証される(および下記でより詳細に説明される)ような操作は、本質的に例示的なものであり、したがって、限定と見なすべきではない。
本明細書で言及されるすべての公表文献、特許および特許出願の開示は、これにより各々その全体が参照により本明細書に取り込まれる。参照により取り込まれるいずれかの参考文献が本開示と矛盾する場合には、本開示が優先されるものとする。
個別化遺伝子座パネル
個体におけるある特定の疾患、例えばがんは、その疾患のシグネチャーを与える突然変異型核酸配列を生じさせることができる。罹患組織に関連する核酸分子の配列(すなわち、罹患ゲノム)を、同じ個体からの非罹患組織に関連する核酸分子の配列(すなわち、健常または非罹患ゲノム)と比較することができる。罹患ゲノム(またはその一部分)と非罹患ゲノム(またはその一部分)との差が罹患組織のバリアントを決定する。ゲノム(またはゲノムの部分)間の小ヌクレオチドバリアント(例えば、一塩基多型(SNP)または小さいインデル(一般に長さ1~5塩基))の一部またはすべてを使用して、その個体の疾患に固有の個別化疾患関連SNV遺伝子座パネルを確立することができる。SNV遺伝子座パネルは、in-silicoであり、例えば、オリゴヌクレオチドプライマーのセットでは具現化されない。したがって、個別化疾患関連SNV遺伝子座パネルは、罹患組織からの関連する核酸配列と健常(すなわち、非罹患)組織からの関連する核酸配列との差に基づいて構築される。一部の実施形態では、罹患組織および/または健常組織に関連するシークエンシングデータが標的シークエンシングデータである。一部の実施形態では、罹患組織および/または健常組織に関連するシークエンシングデータは、非標的(例えば、ゲノムワイドまたは全ゲノム)シークエンシングデータである。
一部の実施形態では、SNV遺伝子座パネルは、罹患(例えば、がん性)組織に関連するSNVからの生殖細胞系列バリアントおよび/または非疾患(例えば、非がん)関連体細胞バリアントのフィルター処理により生成される。例えば、罹患組織をシークエンシングして、疾患組織に関連する複数のバリアントを決定することができる。得られたシークエンシングリードを、例えば、参照ゲノムと比較することができ、シークエンシングリードと参照ゲノムとの差に基づいてバリアントを選択することができる。同定されたバリアントは、罹患組織に固有であるバリアントばかりでなく、健常組織に見られるバリアント(例えば、白血球または他の健常組織に見られるバリアント)も含み得る。例えば、白血球に見られるバリアントは、同じ対象からのマッチするバフィーコート試料をシークエンシングすることおよびシークエンシングデータを参照ゲノムと比較することにより得ることができる。これらのバリアントは、がん性バリアントを含むことがあるが、多数のバリアントは、加齢に伴うクローン性造血に起因し得る。一部の実施形態では、バフィーコート/白血球シークエンシングにより同定されたバリアントは、非がん関連体細胞バリアントの近似的代表集団として処理される。したがって、生殖細胞系列バリアントおよび/または非疾患関連体細胞バリアント(参照ゲノムに対して)を、健常組織をシークエンシングすることおよびシークエンシングリードを参照ゲノムと比較することにより決定することができる。次いで、疾患関連SNV遺伝子座パネルが生成されると、罹患組織に関連するSNVを、生殖細胞系列バリアントおよび/または体細胞バリアントを除去するようにフィルター処理することができる。
一部の実施形態では、罹患組織に関連する配列データおよび/または健常組織に関連する配列データは、事前に(つまり、流体試料中の核酸分子のシークエンシングおよび/または解析の前に)決定される。例えば、個体から得られた任意の健常組織を使用して、健常ゲノム(またはその一部分)の配列を決定することができる。健常組織は、例えば、流体試料から(例えば、流体試料中の無細胞核酸分子(例えば、cfDNA)もしくは健常血液細胞から)、口腔内スワブから、健常組織の生検から、または任意の他の好適な方法から得ることができる。一部の実施形態では、健常組織は、白血球、例えば、バフィーコートから得られた白血球を含む。一部の実施形態では、健常組織は、非罹患組織を含む。例えば、腫瘍生検試料(例えば、固形腫瘍生検試料、例えばn FFPE組織試料)は、健常(すなわち、非罹患)組織と罹患組織の両方を含み得る。一部の実施形態では、健常組織は、健常cfDNA試料を含み、例えば、個体は、血漿および/または白血球含有試料などの血液試料の全ゲノムシークエンシング(WGS)解析を含む通例の健康診断を受け得る。そのようなデータを個体の健康記録に保存することができる。個体が、その後、がんなどの病的状態を発症したとき、以前に得られたシークエンシングデータを使用してその個体についての健康のベースラインを確立することができる。逆に、処置(例えば、外科的処置)を受けた、病的状態(例えば、肝臓がんまたは乳がん)があることが分かっている個体について、健常組織は、病的状態をもはや検出することができない処置後に適切に採取された1つまたは複数の採取試料を含み得る。そのような健常組織は、疾患が個体において再燃したかどうかを評定するためにその後の試料が比較されるベースライン試料として、使用することができる。核酸シークエンシングライブラリーを健常組織から調製し、シークエンシングして健常組織のゲノム(またはその一部分)に起因するシークエンシングデータを得ることができる。少量の疾患組織が健常組織とともに抽出されることがあるが、罹患組織は、一般に、健常組織のシークエンシングデータを得るために無視され得る微量成分であろう。
罹患組織に関連する核酸分子(例えば、ゲノムまたはその一部分)の配列データは、罹患組織、例えば、切除、生検または別様に試料採取され得る原発性または続発性がん、の組織試料を得ること、および得られた組織中の核酸分子をシークエンシングすることにより、決定され得る。一部の実施形態では、複数の試料が罹患組織から得られ、これにより、罹患組織内のモザイク現象(例えば、罹患組織の異なるクローンまたはサブクローン)が捕捉され得る。一部の実施形態では、罹患組織に関連するシークエンシングデータは、流体試料から(例えば、流体試料中の無細胞核酸分子(例えばcfDNA)または健常血液細胞から)得られる核酸分子をシークエンシングすることにより得られる。流体試料も健常組織に関連する核酸分子を含み得るが、健常組織に関連するシークエンシングデータは、一般に、かなり高度な深度カウントを有することになり、罹患組織に関連するシークエンシングデータの決定上、無視され得る。罹患組織は、例えば、疾患の処置(例えば、がんの処置のための化学療法)の開始前に試料採取されることもあり、または疾患の処置の開始後に採取されることもある。
個別化疾患関連SNV遺伝子座パネルは、非罹患組織からの核酸分子と比較される罹患組織からの核酸分子のバリアント(バリアントおよび突然変異変化の遺伝子座を含む)を含む。ある特定のバリアントは、健常および/もしくは罹病組織のシークエンシングデータに対する制限のため検出されなかった可能性があり、またはシークエンシングすることが技術的に困難であるゲノムの領域、例えば、低複雑度領域もしくは縮重がマッピングされる領域、において生じる可能性があるので、パネルは、健常組織と罹患組織との核酸の相違のすべてを1つの相違も欠けることなく含むことはできない。一部の実施形態では、個別化パネルは、ドライバー突然変異、パッセンジャー突然変異、またはドライバー突然変異とパッセンジャー突然変異の両方を含む。一部の実施形態では、遺伝子座パネルは、ゲノムのコード領域、ゲノムの非コード領域、または両方における突然変異を含む。個別化パネルにおけるバリアントの数は、罹患組織のタイプ、または疾患の重症度を含む、罹患組織に依存する。一部の実施形態では、個別化パネルは、2つまたはそれより多くの、5つまたはそれより多くの、10またはそれより多くの、25またはそれより多くの、50またはそれより多くの、100またはそれより多くの、200またはそれより多くの、300またはそれより多くの、500またはそれより多くの、1000またはそれより多くの、2500またはそれより多くの、5000またはそれより多くの、10,000またはそれより多くの、25,000またはそれより多くの、50,000またはそれより多くの、100,000またはそれより多くの、250,000またはそれより多くの、500,000またはそれより多くの、1,000,000またはそれより多くの、5,000,000またはそれより多くの遺伝子座を含む。一部の実施形態では、バリアント遺伝子座は、2つまたはそれより多くの(例えば、3つもしくはそれより多くの、4つもしくはそれより多くの、または5つもしくはそれより多くの)冗長バリアントコールがいずれかの所与の遺伝子座で行なわれた場合にのみ、個別化遺伝子座パネルに含まれる。冗長バリアントコールの遺伝子座のスクリーニングは、パネルに導入される偽陽性バリアント遺伝子座の数を制限する。一部のケースでは、パネルは、高信頼度で決定されるコンセンサス核酸シークエンシングにより罹患組織と非罹患組織とで異なることが検証されたバリアントのみを含む。
本明細書に記載される方法のために個別化疾患関連SNV遺伝子座パネルのすべてを解析する必要があるとは限らない。一部の実施形態では、個別化疾患関連SNV遺伝子座パネル内の遺伝子座の一部分が解析に選択される。ある特定の遺伝子座またはバリアントは、他の遺伝子座またはバリアントよりも偽陽性エラーを起こしやすいことがある。加えて、ある特定のシークエンシング方法論は、他の方法論よりも偽陽性エラーを起こしやすいことがある。一部の実施形態では、遺伝子座は、その遺伝子座における偽陽性エラー率に基づいて個別化遺伝子座パネルから選択される。例えば、遺伝子座は、その遺伝子座における偽陽性エラー率が約1%もしくはそれ未満、約0.5%もしくはそれ未満、約0.25%もしくはそれ未満、約0.1%もしくはそれ未満、約0.05%もしくはそれ未満、約0.025%もしくはそれ未満、約0.01%もしくはそれ未満、約0.005%もしくはそれ未満、約0.0025%もしくはそれ未満、または約0.0001%もしくはそれ未満である場合、選択され得る。単に例として、特定のシークエンシング方法論は、特定の突然変異(例えば、G→A)突然変異の検出について他の突然変異タイプ(例えば、G→C)よりも低いシークエンシング偽陽性エラー率を有することができ、より低い偽陽性エラー率を有するバリアントを選択することができる。一部の実施形態では、選択される遺伝子は、2つもしくはそれより多くの、5つもしくはそれより多くの、10もしくはそれより多くの、25もしくはそれより多くの、50もしくはそれより多くの、100もしくはそれより多くの、200もしくはそれより多くの、300もしくはそれより多くの、500もしくはそれより多くの、1000もしくはそれより多くの、2500もしくはそれより多くの、5000もしくはそれより多くの、10,000もしくはそれより多くの、25,000もしくはそれより多くの、50,000もしくはそれより多くの、100,000もしくはそれより多くの、250,000もしくはそれより多くの、または500,000もしくはそれより多くの遺伝子座を含む。一部の実施形態では、個別化遺伝子座パネルにおけるすべての遺伝子座が選択される。
罹患組織に関連するSNVからの生殖細胞系列および非疾患関連体細胞バリアントのフィルター処理は、疾患関連SNV遺伝子座パネルから遺伝子座を選択するために(または疾患関連SNV遺伝子座パネルを生成するために)使用され得る1つの技法である。血液中に存在するcfDNAは、がん性および非がん性細胞を含む、いくつかの細胞源から生じ得る。造血幹細胞は、血液細胞のクローン集団の拡大をもたらすことができる、クローン性造血関連体細胞バリアントを含み得る。これらのクローン造血関連体細胞バリアントは、非悪性であることが多く、これらの体細胞バリアントにより駆動されるクローン拡大は、未確定の潜在能を持つクローン造血(CHIP)と呼ばれ得る。Steensma et al, Clonal hematopoiesis of indeterminate potential and its distinction from myelodysplastic syndromes, Blood, vol., 126, pp. 9-16 (2015)を参照されたい。いくつかの研究により、70歳より高齢の高齢者集団の少なくとも10%は、突然変異した造血幹細胞のオリゴクローナル拡大に起因してCHIPを保有することが示された。Jaiswal et al., Age-Related Clonal Hematopoiesis Associated with Adverse Outcomes, N. Engl. J. Med., vol. 371, no. 26, pp. 2488-2498 (2014)を参照されたい。したがって、これらの非疾患関連体細胞バリアントは、それらが疾患に関連していないとしても、cfDNAにおいて有意に表されることがある。米国特許出願公開第2019/0385700A1号、米国特許出願公開第2019/0355438A1号、米国特許出願公開第2020/0013484A1号を参照されたく、これらの参考特許文献の各々の内容は、あらゆる目的で参照により本明細書に組み込まれる。SNV遺伝子座パネルからのこれらの非疾患関連体細胞バリアントの除去は、バックグラウンドエラー率を有意に低減することができる。クローン造血関連体細胞バリアントなどの、非疾患関連体細胞バリアントを、例えば、白血球、例えばバフィーコート中の白血球、に由来する核酸分子をシークエンシングすることにより、同定することができる。
一部の実施形態では、SNV遺伝子座パネルは、生殖細胞系列および非疾患関連体細胞バリアント(すなわち、疾患と無関係の体細胞バリアント)を除去するようにフィルター処理された罹患組織に関連するSNVを含む。例えば、これらの非疾患関連体細胞バリアントを、健常組織(例えば、バフィーコートのような、白血球を含有する試料)に由来する核酸分子をシークエンシングすることにより決定することができる。白血球(例えば、バフィーコートからの)から得られる核酸分子をシークエンシングすることにより検出される生殖細胞系列および非疾患関連体細胞バリアントの除去は、疾患のレベルが、cfDNAをシークエンシングすることにより測定される場合、特に有用であり得る。cfDNAが解析のためにシークエンシングされると、腫瘍から生じる疾患関連バリアントと非疾患関連体細胞バリアントおよび生殖細胞系列バリアントの両方が検出される。解析からの生殖細胞系列および非疾患関連体細胞バリアントの除去は、ctDNAへの誤った帰属を低減することができる。したがって、非疾患関連体細胞バリアントを除去することにより、偽陽性エラー率(つまり、罹患組織に誤って起因すると考えられるSNV)を低減することができる。
他の技法を、加えてまたは代替的に、疾患関連SNVパネルから遺伝子座を選択するためにまたは疾患関連SNV遺伝子座パネルを生成するために、使用することができる。例えば、一部の実施形態では、疾患関連バリアントが、罹患組織に由来する核酸分子をシークエンシングしたときに得られた2つまたはそれより多くの(例えば、3つ、4つ、5つ、またはそれより多くの)シークエンシングリードにより支持された場合にのみ、遺伝子座を疾患関連SNV遺伝子座パネルから選択することができる(または疾患関連SNV遺伝子座パネルを、SNVを含むように生成することができる)。罹患組織に関連するバリアントを支持するために2つまたはそれより多くのシークエンシングリードを必要とすることにより、偽陽性の可能性を(例えば、罹患組織を解析する際のシークエンシングエラーまたは他のエラーによりコールされるバリアントの数を制限することにより)低下させることができる。したがって、罹患組織に由来する核酸分子をシークエンシングすることにより得られるシークエンシングデータにより確実に支持されないSNVを除去することにより、偽陽性エラー率(つまり、罹患組織に誤って起因すると考えられるSNV)を低減することができる。
一部の実施形態では、多く見られるバリアント対立遺伝子、例えば所定の頻度閾値より頻度が高いバリアントを一般集団から排除することにより、疾患関連SNV遺伝子座パネル内の遺伝子座を選択することができる(またはそのように排除することにより、疾患関連SNV遺伝子座パネルを生成することができる)。多く見られるバリアントは、生殖細胞系列突然変異であって罹患組織に固有のものでない可能性が高く、したがって、それらを排除してエラーを低減することができる。一部の実施形態では、所定の頻度閾値は、約0.005あり(もしくはそれより大きく)、約0.01であるかもしくはそれより大きく、約0.02であるかもしくはそれより大きく、または約0.05であるかもしくはそれより大きい。したがって、一般集団に多く見られる、それ故、生殖細胞系列の分散に起因する可能性が高いSNVを除去することにより、偽陽性エラー率(つまり、罹患組織に誤って起因すると考えられるSNV)を低減することができる。
一部の実施形態では、所定の閾値より高いまたは統計的閾値より高い対立遺伝子頻度を有する核酸シークエンシングデータにおいて検出されるバリアントを排除することにより、疾患関連SNV遺伝子座パネル内の遺伝子座を選択することができる(またはそのように排除することにより、疾患関連SNV遺伝子座パネルを生成することができる)。罹患組織に由来するcfDNAは、一般にcfDNAの微量画分であり、高い対立遺伝子頻度を有するバリアントは、疾患と無関係の生殖細胞系列および/または体細胞バリアント(例えば、非疾患関連体細胞バリアント、または異なる状態もしくは疾患に関係する体細胞バリアント)に起因する可能性が高く、疾患のレベルを測定するための解析から排除され得る。対立遺伝子頻度のヒストグラムをプロットすると、罹患組織またはシークエンシングノイズに一般に起因する、より低い対立遺伝子頻度クラスターと、生殖細胞系列および/または体細胞バリアントに一般に起因する、より高い対立遺伝子頻度クラスターとが、一般に得られることになる。一部の実施形態では、より低い対立遺伝子頻度クラスターとより高い対立遺伝子頻度クラスターを区別するために統計パラメーターが決定され、より高い対立遺伝子頻度クラスターに関連するバリアントが排除され得る。一部の実施形態では、より高い対立遺伝子頻度クラスターにおけるバリアントを排除するために所定の閾値が使用される。所定の閾値は、例えば、約0.2であるかもしくはそれより高い、約0.25であるかもしくはそれより高い、または約0.3であるかもしくはそれより高いことがある。
一部の実施形態では、ホモポリマー領域(同じ塩基タイプを有する、連続するヌクレオチドのストレッチ)内のバリアントを排除することにより疾患関連SNVパネル内の遺伝子座を選択することができる(そのようなバリアントを排除することにより疾患関連SNV遺伝子座パネルを生成することができる)。一部の実施形態では、ホモポリマー領域は、同じ塩基タイプを有する連続した3、4、5、6、7、8、9、10、またはそれより多くのヌクレオチドを含有する。ホモポリマー領域内のバリアントは、偽陽性バリアントであることが疑われ、罹患組織を正確に反映しないことがある。したがって、ホモポリマー領域に含まれるSNVを除去することにより、偽陽性エラー率(つまり、罹患組織に誤って起因すると考えられるSNV)を低減することができる。
一部の実施形態では、疾患組織に由来する核酸分子の中から相補鎖により支持されないバリアントを排除することにより疾患関連SNV遺伝子座パネル内の遺伝子座を選択することができる(そのようなバリアントを排除することにより疾患関連SNV遺伝子座パネルを生成することができる)。例えば、バリアントが、第1鎖に関連するシークエンシングリードでコールされるが、相補的バリアントが、第1鎖に相補的な第2鎖でコールされない場合には、シークエンシングエラーまたは他のアーチファクトを仮定することができ、バリアントをさらなる解析から排除することができる。したがって、罹患組織に由来する核酸分子をシークエンシングすることにより得られるシークエンシングデータにより確実に支持されないSNVを除去することにより、偽陽性エラー率(つまり、罹患組織に誤って起因すると考えられるSNV)を低減することができる。
一部の実施形態では、サイクルシフト(例えば、フローサイクル順序に基づいて参照と比較して1つもしくは複数のフローサイクルによるフローグラムシグナルシフト)を誘導するおよび/またはシークエンシングデータにおいて新しいゼロもしくは新しい非ゼロシグナルを生じさせるバリアントのみを含めることにより疾患関連SNV遺伝子座パネル内の遺伝子座を選択することができる(そのようなバリアントのみを含めることにより疾患関連SNV遺伝子座パネルを生成することができる)。例えば、米国特許出願第16/864,981号および国際特許出願番号PCT/US2020/031147を参照されたく、これらの参考特許文献の各々の内容は、それら全体があらゆる目的で参照により本明細書に組み込まれる。サイクルシフト事象は、真陽性事象(本明細書中でさらに説明されるような)の非存在下で存在する可能性が低いので、一部の実施形態では、疾患関連SNV遺伝子座パネルからの遺伝子座は、その遺伝子座におけるバリアントがサイクルシフト事象をもたらす場合に選択され得る。したがって、強いシグナルをもたらすSNVのみを含めることにより、偽陽性エラー率(つまり、罹患組織に誤って起因すると考えられるSNV)を低減することができる。
本明細書に記載される方法を使用して、同じ個体における罹患組織の異なるクローンまたは異なるサブクローンを同時に解析することができる。罹患組織の異なるクローン(例えば、独立したがんクローン)は、一般に、固有のまたはほぼ固有のバリアントシグネチャーを有する。罹患組織のサブクローンは、いくつかの重複するバリアントを有することがあるが、一般に、バリアントの固有のまたはほぼ固有のサブセットを選択するのに十分な数の固有のバリアントを有する。一部の実施形態では、シークエンシングされた遺伝子座は、いくつかの疾患サブクローンに関連するバリアント遺伝子座の論理和集合から選択され、解析により、すべての疾患サブクローンを含む試料の画分が検出され、各サブクローンからの疾患の画分も検出される。一部の実施形態では、所与のクローンまたはサブクローンについての解析に選択されるシークエンシングされた遺伝子座は、バリアントの重複を回避するように選択される(つまり、2つまたはそれより多くのクローンまたはサブクローンにより共有されるいずれのバリアントも選択されない)。したがって、別々のクローンもしくはサブクローンについての疾患のレベル、または別々のクローンもしくはサブクローンに関連する核酸分子の割合を、個体からの同じ試料を使用して決定することができる。一部の実施形態では、クローンまたはサブクローンの1つまたは複数には1つまたは複数のがん処置が無効であり、方法を使用して、リフラクタークローンまたはサブクローンの進行または退縮をモニターすることができる。
患者試料およびシークエンシング
流体試料は、個体から試料を得るための比較的非侵襲的の方法である。そのような流体試料は、例えば、血液、血漿、唾液、糞便または尿試料を含み得る。加えて、残存疾患、悪性疾患、または原発性もしくは固形罹患組織のない(または有意な原発性もしくは固形罹患組織のない)他の疾患について、流体試料により、罹患組織に関連する核酸分子を腫瘍生検なしに得ることが可能になる。したがって、方法は、罹患組織の位置が不明であるかまたは固形罹患組織が小さ過ぎて試料採取できない場合、特に有用であり得る。
がんなどの疾患を有する個体から採取される流体試料は、がん組織に由来する核酸分子および非罹患組織に由来する核酸分子を含む、無細胞DNA(または「cfDNA」)を一般に有する。シークエンシングデータが得られる核酸試料は、cfDNAであり得るが、cfDNAである必要はない。例えば、流体試料は、シークエンシングデータを得ることができる他の核酸を提供することができる。例えば、疾患が、血液疾患(例えば、血液がん)である場合、血液細胞を血液試料から得ることができ、血液細胞からの核酸分子をシークエンシングしてシークエンシングデータを得ることができる。一部の実施形態では、核酸分子は、流体試料から得られる無細胞RNA分子である。
任意の好適なシークエンシング法を使用して核酸分子をシークエンシングして、核酸分子からシークエンシングデータを得ることができる。例示的なシークエンシング法としては、ハイスループットシークエンシング、次世代シークエンシング、合成によるシークエンシング、フローシークエンシング、大規模並行シーケンシング、ショットガンシークエンシング、単一分子シークエンシング、ナノポアシークエンシング、パイロシークエンシング、半導体シークエンシング、ライゲーションによるシークエンシング(sequencing-by-ligation)、ハイブリダイゼーションによるシークエンシング、RNA-Seq、デジタル遺伝子発現、合成による単一分子シークエンシング(SMSS)、クローン単一分子アレイ、ライゲーションによるシークエンシング(sequencing by ligation)、およびマキシム・ギルバートシークエンシングを挙げることができるが、これらに限定されない。一部の実施形態では、ハイスループットシーケンサー、例えば、Illumina HiSeq2500、Illumina HiSeq3000、Illumina HiSeq4000、Illumina HiSeqX、Roche 454、Life Technologies Ion Proton、またはその全体が参照により本明細書に組み込まれる米国特許第10,267,790号に記載されているような公開シークエンシングプラットフォームを使用して、核酸分子をシークエンシングすることができる。他のシークエンシング法およびシークエンシングシステムも当技術分野において公知である。一部の実施形態では、核酸分子は、合成によるシークエンシング(SBS)方法を使用してシークエンシングされる。一部の実施形態では、核酸分子は、「自然な合成によるシークエンシング」または「非終結型の合成によるシークエンシング」方法(その全体が参照により本明細書に組み込まれる米国特許第8,772,473号を参照されたい)を使用してシークエンシングされる。
選択されたシークエンシング法は、均一に、あるいは特定のバリアントタイプに適用されるように、偽陽性エラー率に影響を及ぼすことができる。上記で論じられたように、一部の実施形態では、個別化遺伝子座パネルからの解析に選択される遺伝子座を、所与のバリアントについての偽陽性エラー率に基づいて選択することができる。一部の実施形態では、核酸分子は、2つまたはそれより多くの異なるシークエンシング法を使用してシークエンシングされる。異なるバリアントについての異なる偽陽性エラー率を有する2つまたはそれより多くの異なるシークエンシング法を使用することにより、偽陽性エラー率を異なるシークエンシング法に適用してより多数のバリアントを選択することができる。例えば、ある特定のシークエンシング法は、所定のヌクレオチドシークエンシングサイクル(例えば、CTAG、ATCG、TCAGなど)に頼り、バリアントタイプのシークエンシングエラー率は、サイクルの順序に依存し得る。したがって、一部の実施形態では、シークエンシングデータは、核酸分子を第1の所定のヌクレオチドシークエンシングサイクルに従ってシークエンシングすること、およびその核酸分子を異なる所定のヌクレオチドシークエンシングサイクル順序に従って再シークエンシングすることにより、得られる。一部の実施形態では、シークエンシングデータは、2つ、3つ、4つまたはそれより多くの異なるヌクレオチドシークエンシングサイクル順序を使用して得られる。
一部の実施形態では、シークエンシングデータは、非標的シークエンシングデータである。ある特定のシークエンシング方法論は、シークエンシングの幅を制限するために、および/または特定の領域を濃縮するために、ゲノムの特定の領域または遺伝子座の標的化に頼る。一般的な標的化方法としては、ハイブリダイゼーション標的化(例えば、標識またはビーズに結合された核酸プローブの使用が、標的シークエンシング用の試料中の核酸分子の領域を選択的に標的にするように使用される)、プライマーを利用した標的化(例えば、増幅(例えば、PCR)によって標的核酸領域を増幅するために核酸プライマーを使用する)、アレイを利用した捕捉、および溶液中捕捉法が、挙げられる。標的領域は、例えば、以前に同定されたバリアント、がん増殖の公知ドライバーであるゲノム内の遺伝子、またはゲノム内の突然変異ホットスポットであり得る。しかし、標的シークエンシングは、本明細書に記載される方法により使用され得る罹患組織ゲノム全体にわたる情報のかなりの部分を無視する。
方法は、必要に応じて、全ゲノムシークエンシング(WGS)によって得られたシークエンシングデータを使用して遂行される。全ゲノムシークエンシングを利用することによって、より多数のバリアント遺伝子座を検出して解析に使用することができる。検出されるシグナルは、解析される遺伝子座の数が増加するにつれてノイズよりも速い速度で増加し、全ゲノムを利用することによって、より大量のデータをより単純な調製で解析することができる。したがって、一部の実施形態では、ゲノムのいずれの領域も標的とされない。一部の実施形態では、シークエンシングデータは、非標的全ゲノムシークエンシングから得られる。
本明細書に記載される方法は、幅広いシークエンシングデータ(例えば、非標的または全ゲノムシークエンシングデータ)とともに使用することができるので、平均シークエンシング深度は、標的濃縮方法ほど高度である必要がない。例えば、一部の実施形態では、シークエンシングデータの平均シークエンシング深度は、約100もしくはそれ未満、約50もしくはそれ未満、約25もしくはそれ未満、約10もしくはそれ未満、約5もしくはそれ未満、約1もしくはそれ未満、約0.5もしくはそれ未満、約0.25もしくはそれ未満、約0.1もしくはそれ未満、約0.05もしくはそれ未満、約0.025もしくはそれ未満、または約0.01もしくはそれ未満である。一部の実施形態では、平均シークエンシング深度は、約0.01~約1000であるか、これらの間の任意の深度である。
一部の実施形態では、シークエンシングデータは、シークエンシングコロニー(シークエンシングクラスターとも呼ばれる)を確立する前に核酸分子を増幅することなく得られる。シークエンシングコロニーを生成するための方法としては、ブリッジ増幅またはエマルジョンPCRが挙げられる。ショットガンシークエンシング、およびコンセンサス配列のコーリングに頼る方法は、一般に、固有分子識別子(UMI)を使用して核酸分子を標識し、その核酸分子を増幅させて、独立してシークエンシングされる同じ核酸分子の非常に多数のコピーを生成する。次いで、増幅された核酸分子を表面に結合させ、ブリッジ増幅させて、独立してシークエンシングされるシークエンシングクラスターを生成し得る。次いで、UMIを使用して、独立してシークエンシングされた核酸分子を関連付けることができる。しかし、増幅プロセスは、例えばDNAポリメラーゼの限られた忠実度に起因して、核酸分子にエラーを導入し得る。上記で論じられたように、ここに提供される方法は、コンセンサス配列をコールせずに遂行することができ、したがって、この初期増幅プロセスは必要とされず、このプロセスを回避して偽陽性エラー率を低減することができる。一部の実施形態では、核酸分子は、シークエンシングデータを得るためのコロニーを生成するための増幅の前に増幅されない。一部の実施形態では、核酸シークエンシングデータは、固有分子識別子(UMI)を使用せずに得られる。
プールされたシークエンシングデータ、および個体に関連するシークエンシングデータを使用して、試料のプール内の個体試料の割合を決定することができる。個体のゲノムは、固有のバリアントシグネチャーを有し、このシグネチャーを使用して、その個体に起因する核酸分子の割合を決定することができる。したがって、複数の個体からの試料をプールすることができ、個体に関連するプールされた試料中の核酸分子の部分を、試料識別バーコードを使用せずに決定することができる。
一部の実施形態では、個体は、疾患を有するか、または以前に疾患を有した。一部の実施形態において、疾患はがんである。本明細書に記載される方法により包含される例示的ながんとしては、急性リンパ性白血病、急性骨髄白血病、腺癌(例えば、前立腺、小腸、子宮内膜、頸管、大腸、肺、膵臓、食道、直腸、子宮、胃、乳腺および卵巣)、B細胞リンパ腫、乳がん、癌腫、子宮頸がん、慢性骨髄性白血病、結腸がん、食道がん、神経膠芽腫、神経膠腫、血液がん、ホジキンリンパ腫、白血病、リンパ腫、肺がん(例えば、非小細胞肺がん)、肝臓がん、黒色腫(例えば、転移性悪性黒色腫)、多発性骨髄腫、新生物悪性病変、神経芽細胞腫、非ホジキンリンパ腫、卵巣がん、膵臓腺癌、前立腺がん(例えば、ホルモン抵抗性前立腺腺癌)、腎がん(例えば、明細胞癌)、扁平上皮癌(例えば、頸管、眼瞼、結膜、膣、肺、口腔、皮膚、膀胱、舌、喉頭、および食道)、頭頸部扁平上皮癌、T細胞リンパ腫、および甲状腺がんが挙げられるが、これらに限定されない。一部の実施形態では、がんには1つまたは複数の処置が無効である。一部の実施形態では、がんは、寛解期にあるか、または寛解期にあると思われている。
フローシークエンシング法およびサイクルシフト検出
核酸分子をシークエンシングする例示的方法は、フローシークエンシング法を使用して核酸分子をシークエンシングしてシークエンシングデータを生成するステップを含み得る。フローシークエンシング法は、例えばエラー率が低い遺伝子座またはバリアントの選択により、疾患関連SNVパネル内のバリアント遺伝子座の信頼度の高い選択を可能にし得る。例えば、一部の実施形態では、本明細書中でさらに説明されるように、サイクルシフト(すなわち、フローサイクル順序に基づいて参照と比較して1フルサイクル(例えば、4カ所のフロー位置)によるフローグラムシグナルシフト)を誘導するおよび/またはシークエンシングデータにおいて新しいゼロもしくは新しい非ゼロシグナルを生じさせるバリアントのみを含めることにより、疾患関連SNV遺伝子座パネル内の遺伝子座を選択することができる(そのようなバリアントのみを含めることにより疾患関連SNV遺伝子座パネルを生成することができる)。
フローシークエンシング法は、任意の所与のフロー位置において単一のタイプのヌクレオチドが伸長プライマーに到達できる所定のフローサイクルに従って鋳型ポリヌクレオチド分子に結合されたプライマーを伸長するステップを含むことができる。一部の実施形態では、特定のタイプのヌクレオチドの少なくとも一部は、標識を含み、標識されたヌクレオチドが伸長プライマーに取り込まれると、この標識が検出可能なシグナルをもたらす。そのようなヌクレオチドが伸長されたプライマーに取り込まれることにより得られる配列は、鋳型ポリヌクレオチド分子の配列の逆相補配列であるはずである。一部の実施形態では、例えば、シークエンシングデータは、標識されたヌクレオチドを使用してプライマーを伸長するステップ、および伸長プライマーに取り込まれた標識されたヌクレオチドの存在または非存在を検出するステップを含むフローシークエンシング法を使用して生成される。フローシークエンシング法は、「自然な合成によるシークエンシング」または「非終結型の合成によるシークエンシング」方法と呼ばれることもある。例示的な方法は、その全体が参照により本明細書に取り込まれる米国特許第8,772,473号に記載されている。以下の説明は、フローシークエンシング法に関して提供されるが、シークエンシングされる領域のすべてまたは一部分をシークエンシングするために他のシークエンシング法が使用され得ることは、理解されよう。例えば、本明細書で論じられるシークエンシングデータを、パイロシークエンシング法を使用して生成することができる。
フローシークエンシングは、ポリヌクレオチドとハイブリダイズされたプライマーを伸長するためのヌクレオチドの使用を含む。所与の塩基タイプのヌクレオチド(例えば、A、C、G、T、Uなど)をハイブリダイズされた鋳型と混合して、相補的塩基が鋳型鎖内に存在する場合には、プライマーを伸長することができる。ヌクレオチドは、例えば、非終結ヌクレオチドであり得る。ヌクレオチドが、非終結ヌクレオチドであるとき、1つより多くの連続する相補的塩基が鋳型鎖内に存在する場合には、1つより多くの連続する塩基を伸長プライマー鎖に取り込むことができる。非終結ヌクレオチドは、3’可逆的ターミネーターを有するヌクレオチドと対照をなし、一般に、連続ヌクレオチドが結合される前にブロッキング基は除去される。相補的塩基が鋳型鎖内に存在しない場合、鋳型鎖内の次の塩基と相補的であるヌクレオチドが導入されるまで、プライマー伸長は停止する。ヌクレオチドの少なくとも一部分に標識することができ、その結果、取り込みを検出することができる。最も一般的には、単一のヌクレオチドタイプのみが一度に導入される(すなわち、個々に付加される)が、ある特定の実施形態では、2つまたは3つの異なるタイプのヌクレオチドが同時に導入されることもある。この方法論は、あらゆる単一塩基の伸長後、ターミネーターが反転されて次に続く塩基の取り込みが可能になるまで、プライマー伸長が停止される、可逆的ターミネーターを使用するシークエンシング法と対比され得る。
プライマー伸長の過程でヌクレオチドをフロー順序で導入することができ、この過程をフローサイクルにさらに分けることができる。フローサイクルは、反復されるヌクレオチドフロー順序であり、任意の長さのものであり得る。ヌクレオチドが段階的に付加され、これにより、付加されたヌクレオチドを鋳型鎖内に存在する相補的塩基のシークエンシングプライマーの末端に取り込むことが可能になる。単に例として、フローサイクルのフロー順序は、A-T-G-Cであることもあり、またはフローサイクル順序は、A-T-C-Gであることもある。代替順序を当業者は容易に企図することができる。フローサイクル順序は、いずれの長さのものであってもよいが、4つの固有の塩基タイプ(任意の順序でA、T、CおよびG)を含有するフローサイクルが最も一般的である。一部の実施形態では、フローサイクルは、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20またはそれより多くの別々のヌクレオチドフローをフローサイクル順序で含む。単に例として、フローサイクル順序は、T-C-A-C-G-A-T-G-C-A-T-G-C-T-A-Gであり得、これら16の別々に提供されるヌクレオチドが数サイクルにわたってこのフローサイクル順序で提供される。異なるヌクレオチドの導入と導入の間に、例えば洗浄液でシークエンシングプラットフォームを洗浄することにより、取り込まれていないヌクレオチドを除去することができる。
ポリメラーゼを使用して、1つまたは複数のヌクレオチドをプライマーの末端に鋳型依存的に取り込むことによりシークエンシングプライマーを伸長させることができる。一部の実施形態では、ポリメラーゼは、DNAポリメラーゼである。ポリメラーゼは、天然に存在するポリメラーゼであることもあり、または合成(例えば、突然変異型)ポリメラーゼであることもある。ポリメラーゼをプライマー伸長の最初のステップで付加させることができるが、補足ポリメラーゼを、必要に応じて、シークエンシング中に、例えば、ヌクレオチドの段階的付加を用いて、またはいくつかのフローサイクル後に、付加させることができる。例示的なポリメラーゼとしては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Bst DNAポリメラーゼ、Bst 2.0 DNAポリメラーゼ、Bst 3.0 DNAポリメラーゼ、Bsu DNAポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼ Φ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、およびSeqAmp DNAポリメラーゼが、挙げられる。
導入されるヌクレオチドは、鋳型鎖の配列を決定する場合、標識ヌクレオチドを含むことができ、取り込まれた標識核酸の存在または非存在を検出して配列を決定することができる。標識は、例えば、光学活性標識(例えば、蛍光標識)または放射性標識であることがあり、標識により放出または変更されたシグナルを、検出器を使用して検出することができる。鋳型ポリヌクレオチドとハイブリダイズされたプライマーに取り込まれた標識ヌクレオチドの存在または非存在を検出することができ、このことによって配列の決定が(例えば、フローグラムを生成することにより)可能になる。一部の実施形態では、標識ヌクレオチドは、蛍光部分、発光部分、または他の光出射部分で標識される。一部の実施形態では、標識は、リンカーを介してヌクレオチドに結合される。一部の実施形態では、リンカーは、例えば、光化学的または化学的切断反応によって、切断可能である。例えば、標識を、検出後かつ連続ヌクレオチドの取り込み前に切断することができる。一部の実施形態では、標識(またはリンカー)は、ヌクレオチド塩基に結合されるか、または新生DNA鎖の延長に干渉しないヌクレオチド上の別の部位に結合される。一部の実施形態では、リンカーは、ジスルフィドまたはPEG含有部分を含む。
一部の実施形態では、導入されるヌクレオチドは、非標識ヌクレオチドのみを含み、一部の実施形態では、ヌクレオチドは、標識ヌクレオチドと非標識ヌクレオチドの混合物を含む。例えば、一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約90%もしくはそれ未満、約80%もしくはそれ未満、約70%もしくはそれ未満、約60%もしくはそれ未満、約50%もしくはそれ未満、約40%もしくはそれ未満、約30%もしくはそれ未満、約20%もしくはそれ未満、約10%もしくはそれ未満、約5%もしくはそれ未満、約4%もしくはそれ未満、約3%もしくはそれ未満、約2.5%もしくはそれ未満、約2%もしくはそれ未満、約1.5%もしくはそれ未満、約1%もしくはそれ未満、約0.5%もしくはそれ未満、約0.25%もしくはそれ未満、約0.1%もしくはそれ未満、約0.05%もしくはそれ未満、約0.025%もしくはそれ未満、または約0.01%もしくはそれ未満である。一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約100%であり、約95%であるかもしくはそれより多く、約90%であるかもしくはそれより多く、約80%であるかもしくはそれより多く、約70%であるかもしくはそれより多く、約60%であるかもしくはそれより多く、約50%であるかもしくはそれより多く、約40%であるかもしくはそれより多く、約30%であるかもしくはそれより多く、約20%であるかもしくはそれより多く、約10%であるかもしくはそれより多く、約5%であるかもしくはそれより多く、約4%であるかもしくはそれより多く、約3%であるかもしくはそれより多く、約2.5%であるかもしくはそれより多く、約2%であるかもしくはそれより多く、約1.5%であるかもしくはそれより多く、約1%であるかもしくはそれより多く、約0.5%であるかもしくはそれより多く、約0.25%であるかもしくはそれより多く、約0.1%であるかもしくはそれより多く、約0.05%であるかもしくはそれより多く、約0.025%であるかもしくはそれより多く、または約0.01%であるかまたはそれより多い。一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約0.01%~約100%、例えば、約0.01%~約0.025%、約0.025%~約0.05%、約0.05%~約0.1%、約0.1%~約0.25%、約0.25%~約0.5%、約0.5%~約1%、約1%~約1.5%、約1.5%~約2%、約2%~約2.5%、約2.5%~約3%、約3%~約4%、約4%~約5%、約5%~約10%、約10%~約20%、約20%~約30%、約30%~約40%、約40%~約50%、約50%~約60%、約60%~約70%、約70%~約80%、約80%~約90%、約90%~100%未満、または約90%~約100%である。
シークエンシングデータを生成する前に、ポリヌクレオチドは、ハイブリダイズされた鋳型を生成するためにシークエンシングプライマーとハイブリダイズされる。ポリヌクレオチドをシークエンシングライブラリー調製中にアダプターにライゲーションすることができる。アダプターは、シークエンシングプライマーとハイブリダイズするハイブリダイゼーション配列を含むことができる。例えば、アダプターのハイブリダイゼーション配列は、複数の異なるポリヌクレオチドにわたって一様な配列であることがあり、シークエンシングプライマーは、一様なシークエンシングプライマーであることがある。これは、シークエンシングライブラリー内の異なるポリヌクレオチドの多重シークエンシングを可能にする。
ポリヌクレオチドをシークエンシングのために表面(例えば、固体支持体)に結合させることができる。ポリヌクレオチドを(例えば、ブリッジ増幅または他の増幅技法により)増幅させて、ポリヌクレオチドシークエンシングコロニーを生成することができる。クラスター内の増幅されたポリヌクレオチドは、実質的に同一または相補的である(増幅プロセス中に多少のエラーが導入されることがあり、その結果、ポリヌクレオチドの一部分は、元のポリヌクレオチドと必ずしも同一でないことがある)。コロニー形成により、検出器が標識ヌクレオチド取り込みをコロニーごとに正確に検出することができるようなシグナル増幅が可能になる。一部のケースでは、コロニーは、エマルジョンPCRを使用してビーズ上に形成され、ビーズがシークエンシング面全体に分配される。シークエンシングのためのシステムおよび方法の例は、その全体が参照により本明細書に取り込まれる米国特許出願第10,344,328号において見つけることができる。
ポリヌクレオチドとハイブリダイズされたプライマーは、フロー順序に従って別々のヌクレオチドフロー(これらは、フローサイクル順序に従って周期的であり得る)を使用して核酸分子を通して伸長され、ヌクレオチドの取り込みを上記の通り検出することができ、それによって、核酸分子についてのシークエンシングデータセットを生成することができる。
フローシークエンシングを使用するプライマー伸長は、長さが数百またはさらには数千ほどもの塩基のロングレンジシークエンシングを可能にする。フローステップまたはサイクルの数を増加または減少させて、所望のシークエンシング長を得ることができる。プライマーの伸長は、1つまたは複数の異なる塩基タイプを有するヌクレオチドを使用するプライマーの段階的伸長のための1つまたは複数のフローステップを含むことができる。一部の実施形態では、プライマー伸長は、1~約1000ステップの間のフローステップ、例えば、1~約10ステップの間のフローステップ、約10~約20ステップの間のフローステップ、約20~約50ステップの間のフローステップ、約50~約100ステップの間のフローステップ、約100~約250ステップの間のフローステップ、約250~約500ステップの間のフローステップ、または約500~約1000ステップの間のフローステップを含む。フローステップを同一のまたは異なるフローサイクルに分割することができる。プライマーに取り込まれる塩基の数は、シークエンシングされる領域の配列、およびプライマーを伸長するために使用されるフロー順序に依存する。一部の実施形態では、シークエンシングされる領域は、長さ約1塩基~約4000塩基、例えば、長さ約1塩基~約10塩基、長さ約10塩基~約20塩基、長さ約20塩基~約50塩基、長さ約50塩基~約100塩基、長さ約100塩基~約250塩基、長さ約250塩基~約500塩基、長さ約500塩基~約1000塩基、長さ約1000塩基~約2000塩基、または長さ約2000塩基~約4000塩基である。
シークエンシングデータを、取り込まれたヌクレオチドの検出およびヌクレオチド導入の順序に基づいて生成することができる。以下の伸長される配列(すなわち、対応する鋳型配列の各逆相補配列):CTG、CAG、CCG、CGT、およびCAT(先行する配列も後続の配列もシークエンシング法に供されないと仮定して)、ならびにT-A-C-Gの反復フローサイクル(つまり、反復サイクル中のT、A、CおよびGヌクレオチドの逐次的付加)を例にとる。所与のフロー位置における特定のタイプのヌクレオチドは、相補的塩基が鋳型ポリヌクレオチド中に存在する場合にのみプライマーに取り込まれることになる。結果として生じる例示的なフローグラムが表1に示され、この表中の1は、導入されたヌクレオチドが取り込まれること示し、0は、導入されたヌクレオチドが取り込まれないことを示す。フローグラムを使用して、鋳型鎖の配列を導出することができる。例えば、本明細書で論じられるシークエンシングデータ(例えば、フローグラム)は、伸長されたプライマー鎖およびその逆相補鎖を表し、この逆相補鎖は、鋳型鎖の配列を表すために容易に決定され得る。表1中のアスタリスク(*)は、伸長されたシークエンシング鎖(例えば、より長い鋳型鎖)に追加のヌクレオチドが取り込まれた場合にシグナルがシークエンシングデータ中に存在し得ることを示す。
Figure 2022532403000002
フローグラムは、バイナリであることもあり、ノンバイナリであることもある。バイナリフローグラムは、取り込まれたヌクレオチドの存在(1)または非存在(0)を検出する。ノンバイナリフローグラムは、各々の段階的導入から取り込まれたヌクレオチドの数をより定量的に決定することができる。例えば、CCGの伸長された配列は、同じCフローの中の(例えば、フロー位置3における)伸長プライマー内への2つのC塩基の取り込みを含むことになり、標識された塩基により放出されるシグナルは、単一塩基取り込みに相当する強度レベルより高い強度を有することになる。このことが表1に示されている。ノンバイナリフローグラムはまた、塩基の存在または非存在を示し、所与のフロー位置における各伸長プライマーに取り込まれる可能性が高い塩基の数を含む追加情報を提供することができる。値が整数である必要はない。一部のケースでは、値は、所与のフロー位置に取り込まれる塩基の数の不確実性および/または確率を反映していることもある。
一部の実施形態では、シークエンシングデータセットは、各フロー位置に取り込まれているシークエンシングされた核酸分子中の塩基の数を示す塩基カウントを表すフローシグナルを含む。例えば、表1に示されているように、T-A-C-Gフローサイクル順序を使用してCTG配列で伸長されたプライマーは、位置3に1の値を有し、これは、その位置における1の塩基カウントを示す(この1塩基は、シークエンシングされた鋳型鎖内のGと相補的であるCである)。また表1において、T-A-C-Gフローサイクル順序を使用してCCG配列で伸長されたプライマーは、位置3に2の値を有し、これは、このフロー位置にある間の伸長プライマーのその位置における2の塩基カウントを示す。ここで、2塩基は、伸長プライマー配列内のCCG配列の最初のC-C配列を指し、この配列は、鋳型鎖内のG-G配列と相補的である。
シークエンシングデータセット内のフローシグナルは、各フロー位置における1または複数の塩基カウントについての尤度または信頼区間を示す1つまたは複数の統計パラメーターを含み得る。一部の実施形態では、フローシグナルは、シークエンシング中にシークエンシングプライマーに取り込まれる1つまたは複数の塩基の蛍光シグナルなどの、シークエンシングプロセス中に検出されるアナログシグナルから決定される。一部のケースでは、アナログシグナルを処理して統計パラメーターを生成することができる。例えば、その全体が参照により本明細書に取り込まれる公開国際特許出願WO2019084158A1に記載されているように、機械学習アルゴリズムを使用してアナログシークエンシングシグナルのコンテキスト効果について補正することができる。ゼロまたはそれを超える整数の塩基がいずれかの所与のフロー位置に取り込まれるが、所与のアナログシグナルは、そのアナログシグナルと完全にマッチしないことがある。したがって、検出されたシグナルを考えれば、フロー位置に取り込まれる塩基の数の尤度を示す統計パラメーターを決定することができる。単に例として、表1のCCG配列について、フローシグナルがフロー位置3に取り込まれた2塩基を示す尤度は、0.999であり得、フローシグナルがフロー位置3に取り込まれた1塩基を示す尤度は、0.001であり得る。フローシグナルが、各フロー位置における複数の塩基カウントについての尤度を示す統計パラメーターを含む場合、シークエンシングデータセットを疎行列としてフォーマットすることができる。単に例として、T-A-C-Gの反復フローサイクル順序を使用してTATGGTCGTCGA(配列番号1)(すなわち、シークエンシングは逆相補鎖を読み取る)の配列で伸長されたプライマーは、図8Aに示されているシークエンシングデータセットを生じさせる結果となり得る。統計パラメーターまたは尤度値は、例えば、シークエンシング中のアナログシグナルの検出中に存在するノイズまたは他のアーチファクトによって、異なり得る。一部の実施形態では、統計パラメーターまたは尤度が所定の閾値よりも下であった場合、実質的にゼロである所定の非ゼロ値(すなわち、何らかの非常に小さい値または無視できる値)にパラメーターを設定して、真のゼロ値を用いると計算誤差が生じるか、または可能性の低さのレベル同士、例えば、非常に可能性の低いレベル(0.0001)とあり得ないレベル(0)とが十分に区別されなくなる可能性がある、本明細書でさらに論じられる統計解析を補助することができる。
所与の配列についてのシークエンシングデータセットの尤度を示す値を、配列アラインメントなしにシークエンシングデータセットから決定することができる。例えば、データが得られる可能性の最も高い配列を、図8Bに(図8Aに示されているのと同じデータを使用して)星印により示されているように、各フロー位置において最高尤度を有する塩基カウントを選択することにより決定することができる。したがって、プライマー伸長の配列を、各フロー位置において可能性の最も高い塩基カウントに従って決定することができる:TATGGTCGTCGA(配列番号1)。このことから、逆相補配列(すなわち、鋳型鎖)を容易に決定することができる。さらに、TATGGTCGTCGA(配列番号1)配列(または逆相補配列)が得られる、このシークエンシングデータセットの尤度を、各フロー位置における選択尤度の積として決定することができる。
核酸分子に関連するシークエンシングデータセットを1つまたは複数の(例えば、2、3、4、5、6もしくはそれより多くの)可能性のある候補配列と比較する。シークエンシングデータセットと候補配列との(下記で論じられるような、マッチスコアに基づく)近似マッチは、そのシークエンシングデータセットが、近似マッチする候補配列と同じ配列を有する核酸分子から生じた可能性が高いことを示す。一部の実施形態では、シークエンシングされた核酸分子の配列を、参照配列に(例えば、バローズ・ホイーラーアラインメント(BWA)アルゴリズムまたは他の好適なアラインメントアルゴリズムを使用して)マッピングして、その配列についての遺伝子座(または1つもしくは複数の遺伝子座)を決定することができる。フロー空間におけるシークエンシングデータセットを塩基空間に(またはフロー順序が既知である場合には、その逆に)容易に変換することができ、マッピングをフロー空間または塩基空間において行なうことができる。マッピングされた配列に対応する遺伝子座(単数)[または遺伝子座(複数)]を、本明細書に記載される解析方法のための候補配列(またはハプロタイプ配列)として動作することができる1つまたは複数のバリアント配列と、関連付けることができる。本明細書に記載される方法の1つの利点は、一部のケースではアラインメントアルゴリズムを使用するシークエンシングされた核酸分子の配列と各候補配列との一般に計算コストの高いアラインメントを必要としない点である。その代わりに、フロー空間におけるシークエンシングデータを使用して候補配列の各々についてマッチスコアを決定することができ、この操作のほうが、計算効率が良い。
マッチスコアは、シークエンシングデータセットがいかに良く候補配列を支持するかを示す。例えば、シークエンシングデータセットが候補配列にマッチする尤度を示すマッチスコアは、各フロー位置における統計パラメーター(例えば、尤度)であって、候補配列についての予想シークエンシングデータが得られたそのフロー位置における塩基カウントに対応する統計パラメーターを選択することにより、決定することができる。選択された統計パラメーターの積によりマッチスコアを得ることができる。例えば、伸長されたプライマーについて図8Aに示されているシークエンシングデータセット、およびTATGGTCTCGA(配列番号2)の候補プライマー伸長配列を仮定する。図8C(図8Aにおける同じシークエンシングデータセットを示す)は、候補配列(塗りつぶした丸印)についてのトレースを示す。比較として、TATGGTCTCGA(配列番号1)配列のトレース(図8Bを参照されたい)が、図8Cに白抜きの丸印を使用して示されている。シークエンシングデータが第1の候補配列TATGGTCATCGA(配列番号2)に対応する尤度を示すマッチスコアと、シークエンシングデータが第2の候補配列TATGGTCGTCGA(配列番号1)にマッチする尤度を示すマッチスコアとには、たとえこれらの配列が単一塩基変動分しか変わらなかったとしても、大きな差がある。図8Cで見られるように、トレース間の差は、フロー位置12に見られ、少なくとも9フロー位置(およびシークエンシングデータがさらなるフロー位置にわたって伸長する場合にはより長い可能性がある)にわたって伝播する。1または複数のフローサイクルにわたって継続するこの伝播は、「サイクルシフト」と呼ばれることがあり、シークエンシングデータセットが候補配列にマッチする場合、一般に、非常に可能性の低い事象である。
SNVは、SNVを有する核酸分子に関連するシークエンシングデータが、参照配列(すなわち、SNVを有さないことを除いて、核酸分子と同じ配列を有する配列)に関連する参照配列シークエンシングデータと比較して、核酸シークエンシングデータおよび参照シークエンシングデータがフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングされたときに1または複数フローサイクルシフトした場合、サイクルシフトを誘導する。つまり、シークエンシングデータと参照シークエンシングデータは、1または複数のフローサイクルにわたって異なる。参照シークエンシングデータは、参照核酸分子をシークエンシングすることにより得られる必要はないが、参照配列に基づいてin silicoで生成され得る。
SNVを誘導する例示的サイクルシフトは、図8Cにより説明される。図8Cに示されている第2の候補配列が、SNV含有核酸分子に関連する(および図の上部のフローグラムに示されているシークエンシングデータに関連する)配列リード逆相補配列TATGGTCTCGA(配列番号1)であり、第1の候補配列が、参照配列のシークエンシングリード逆相補配列TATGGTCTCGA(配列番号2)であると、仮定する。A→G SNP(両方の配列の塩基位置8における)は、参照シークエンシングデータと比較してSNV含有核酸分子に関連するシークエンシングデータの1サイクル左方向シフトにより観察され得る、サイクルシフトを誘導する。例えば、塩基位置9におけるT塩基は、SNV含有核酸分子に関連するシークエンシングデータによるとフロー位置13に、および参照シークエンシングデータによると位置17にシークエンシングされる。同様に、塩基位置10および11におけるCG塩基は、SNV含有核酸分子に関連するシークエンシングデータによるとフロー位置15および16に、ならびに参照シークエンシングデータによると位置19および20にシークエンシングされる。
サイクルシフト事象は、真陽性事象の非存在下で存在する可能性が低いので、一部の実施形態では、疾患関連SNV遺伝子座パネルからの遺伝子座は、その遺伝子座におけるバリアントがサイクルシフト事象をもたらす場合にのみ選択され得る。
短い遺伝的バリアントがサイクルシフトを誘導する感度は、SNVを有する核酸分子をシークエンシングするために使用されるフローサイクル順序に依存し得る。図8Cで説明される例は、T-A-C-Gフローサイクル順序を含むが、他のフローサイクル順序を使用して他のバリアントにおいてサイクルシフトを誘導することができる。任意のフロー順序を使用して、シークエンシングデータにおける新しいゼロシグナルまたは新しい非ゼロシグナルの生成により、SNVがサイクルシフト事象を誘導する可能性を観察することができる。したがって、たとえ選択されたフロー順序がサイクルシフト事象を誘導しなかったとしても、異なるフローサイクル順序を使用してSNVがサイクルシフト事象を誘導することができる。一部の実施形態では、疾患関連SNV遺伝子座パネルからの遺伝子座は、核酸シークエンシングデータおよび参照シークエンシングデータが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングされたときに、その遺伝子座におけるバリアントが、新しいゼロシグナルまたは新しい非ゼロシグナルを有するシークエンシングデータの点で異なるシークエンシングデータおよび参照シークエンシングデータを生じさせる結果となった場合にのみ、選択される。シグナル変化は、一部の実施形態では、連続していることがある。一部の実施形態では、疾患関連SNV遺伝子座パネルからの遺伝子座は、核酸シークエンシングデータおよび参照シークエンシングデータが、フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングされたときに、その遺伝子座におけるバリアントが、2カ所またはそれより多くのフロー位置(これらは、連続していることがある)で異なるシークエンシングデータおよび参照シークエンシングデータを生じさせる結果となった場合にのみ、選択される。
核酸分子は、異なるフローサイクル順序を使用してシークエンシングされるため、シークエンシングデータセットは異なる。図8Dは、異なるフローサイクル順序(A-G-C-T)(T-A-C-Gフローサイクルを使用して得られた、図8Cと比較して)を使用して決定されたTATGGTCGTCGA(配列番号1)の逆相補配列を有するSNV含有核酸分子についての例示的シークエンシングデータセットを示す。参照シークエンシングデータがSNV含有核酸分子についてのシークエンシングデータ上にマッピングされている。SNVは、位置17において新しいゼロシグナル、および位置18において新しい非ゼロシグナルを生じさせる。したがって、たとえT-A-C-Gフローサイクルがサイクルシフトを誘導した(図8Cを参照されたい)としても、A-G-C-Tフローサイクルは、SNVが同じであるにもかかわらず、誘導しない。それでもやはり、新しいゼロおよび新しい非ゼロシグナルは、異なるサイクル順序を使用するとSNVがサイクルシフトを誘導する可能性があることを示す。
バリアントシグナル、偽陽性エラー、およびノイズ
個体から得られた流体試料中の核酸分子は、個体に関連するシークエンシングデータを得るためにシークエンシングされる。シークエンシングデータは、非罹患組織に関連するシークエンシングデータ、および罹患組織に関連するシークエンシングデータを含む。しかし、シークエンシング中に生じる偽陽性エラーの存在のため、非罹患組織に関連するシークエンシングデータと罹患組織に関連するシークエンシングデータのすべての差を罹患組織のゲノムの突然変異に起因すると考えることができるとは限らない。つまり、シークエンシングデータにおける個別化遺伝子座パネルから選択された遺伝子座において検出される個々の小ヌクレオチドバリアント(SNV)リードの総数、Ntotal、は、罹患組織に起因する個別化遺伝子座パネルからの選択位置での検出SNVリードの数、Ndet、と、偽陽性エラー(すなわち、バックグラウンド)に起因する個別化遺伝子座パネルから選択された位置の中からの検出SNVリードの数、Nbkg、の和である。つまり、
total=Ndet+Nbkg
罹患組織に起因する選択遺伝子座の中からの検出SNVリードの数、Ndet、は、個別化遺伝子座パネルから選択された遺伝子座の数、Nvar、平均シークエンシング深度、D、および罹患組織に由来する流体試料中の核酸分子の割合、F、に比例する。一部の実施形態では、Ndetは、割合、F、と一次の関係を有する。一部の実施形態では、
det=NvarDF。
同様に、偽陽性エラーに起因する選択遺伝子座の中からの検出SNVリードの数、Nbkg、は、個別化遺伝子座パネルから選択された遺伝子座の数、Nvar、平均シークエンシング深度、D、および選択遺伝子座にわたってのエラー率、E、に比例する。一部の実施形態では、Nbkgは、エラー率、E、と一次の関係を有する。つまり、一部の実施形態では、
bkg=NvarDE。
したがって、Ntotalを、一部の実施形態では、概略的に、次のように決定することができる:
total=NvarD(F+E)。
偽陽性エラーに起因する選択遺伝子座の中からの検出SNVリードの数、Nbkg、は、エラー率Eに比例するため、偽陽性エラーを生じさせる可能性がより高い遺伝子座を除外することによりエラー率Eを低減することができる。偽陽性エラーがより低い遺伝子座を選択するための例示的方法は、本明細書中でさらに説明される。
個体における疾患に関連する試料中の核酸分子の割合は、Ndetを使用して決定することができる。一部の実施形態では、
Figure 2022532403000003
detが、例えば偽陽性エラーの存在に起因して、直接測定されない場合、個体における疾患に関連する試料中の核酸分子の割合は、個別化遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率(例えば、
Figure 2022532403000004
)を示すシグナルと選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示すバックグラウンド指数とを比較することにより、決定することができる。一部の実施形態では、Fは、Ntotalとの一次の関係で、例えば、
Figure 2022532403000005
との一次の関係で、決定される。一部の実施形態では、割合は、次のように決定される:
Figure 2022532403000006
罹患組織に起因する個別化遺伝子座パネルから選択されたSNVの中からの選択SNVの数についてのシグナル対ノイズ比(SNR)は、偽陽性エラーの数についておよび真の検出についてポアソンサンプリングノイズを仮定することにより決定することができる。したがって、Ntotalのサンプリングノイズ(すなわち、
Figure 2022532403000007
)を、
Figure 2022532403000008
と仮定することができる。したがって、罹患組織に起因する選択遺伝子座の中からの検出SNVについてのシグナル対ノイズ非(SNR)は、一部の実施形態では、次のように決定することができる:
Figure 2022532403000009
一部の実施形態では、偽陽性エラー率、E、は、選択遺伝子座、例えば、個別化遺伝子座パネル以外のまたは個別化遺伝子座パネルから選択された遺伝子座以外のゲノムの残余、から独立して決定される。
決定された割合、F、に関する誤差も、サンプリングノイズに基づいて決定することができる。例えば、一部の実施形態では、Fに関する誤差は、
Figure 2022532403000010
である。または、一部の実施形態では、
Figure 2022532403000011
したがって、一部の実施形態では、割合は、誤差を伴う公称値と考えられ、この誤差を割合の信頼区画と定義することができる。
個体における疾患のレベルを罹患組織に由来する試料中の核酸分子の割合、F、と相関させることができる。したがって、疾患の存在またはレベルは、例えばこの割合を決定することにより、測定することができる。疾患再発、進行または退縮を、個体における疾患のレベルを複数の時点で測定することにより、決定することができる。一部の実施形態では、2つまたはそれより多くの測定割合の信頼区画が比較され、これを使用して、測定割合間の統計的有意差を決定する(例えば、疾患の進行または退縮を測定する)ことができる。
一部の実施形態では、疾患の存在または再発を検出するために、シグナル対ノイズ比が使用される。より高いSNRは、疾患が存在するまたは再発した可能性の増加を示す。
一部の実施形態では、被験個体に関連する核酸シークエンシングデータを含むプールされた核酸シークエンシングデータを得るために、異なる個体からの複数の試料が一緒にプールされる。所与の個体の罹患組織に関連する核酸分子は、固有のまたはほぼ固有のバリアントシグネチャーを有し、これにより、多くの検出バリアントリードを個体に割り当てることが可能になる。一部の実施形態では、解析に選択されるシークエンシングされた遺伝子座は、バリアントの重複を回避するように選択される(つまり、2名またはそれより多くの個体により共有されるいずれのバリアントも選択されない)。他の実施形態では、2名またはそれより多くの個体に共通するバリアントのバリアントリードは、例えば、バリアントを共有する個体についてのバリアントリードを計数することにより、あるいはバリアントを共有する個体にわたって(例えば、個体に由来する核酸分子の相対量に基づいて)または配列プール全体に対する試料もしくは疾患の割合の最尤解析によってバリアントリードカウントに重み付けすることにより、解析に含められる。個体のプール中の個体における疾患に関連する核酸分子の測定割合(すなわち、プールされた核酸シークエンシングデータを使用する)が試料のプール中の核酸分子の割合として最初に決定されることになり、プール中の試料の割合に基づいて調整され得る。単なる例として、試料のプール中の個体の罹患組織に由来する核酸分子の測定割合が0.5%であり、その個体からの試料がプール中の核酸分子の5%に相当する場合には、その個体からの試料中の罹患組織に由来する核酸分子の割合は10%である。
偽陽性エラー率、E、の正確な決定は、割合、F、およびシグナル対ノイズ比、SNR、のより正確な決定をもたらす。一部の実施形態では、偽陽性エラー率は、実験によって決定される。一部の実施形態では、偽陽性エラー率は、1名または複数の他の個体からのシークエンシングデータを使用して決定される。一部の実施形態では、偽陽性エラー率は、同じ個体からの、例えば個別化遺伝子座パネル外の領域における、シークエンシングデータを使用して決定される。一部の実施形態では、偽陽性エラー率は、割合、シグナル対ノイズ比または疾患レベルを決定するために使用された個体に関連するシークエンシングデータから本質的に決定される。例えば、一部の実施形態では、対照遺伝子座のセットが、偽陽性エラー率を決定するために選択され得る。対照遺伝子座には、バリアントが高度に存在する可能性が低い遺伝子座、例えば、ゲノムの高度に保存される領域内の遺伝子座が選択され得る。例えば、対照遺伝子座は、真のバリアントが細胞死を生じさせる結果となる、必須遺伝子のコード領域内にあることがある。したがって、対照遺伝子座における真のバリアントは、高度に存在することになる可能性が低いため、いずれの検出バリアントも偽陽性エラーに起因すると考えることができる。対照遺伝子座において検出されるSNV塩基リードの総数、Ntotal,con、対照遺伝子座の総数、Ncon、および平均シークエンシング深度、D、を使用して、偽陽性エラー率を決定することができる。つまり、一部の実施形態では、
Figure 2022532403000012
図1は、個体における疾患(例えば、がん)のレベル、例えば、個体からの試料中の疾患に関連する核酸分子(例えば、cfDNA分子)の割合を測定する、例示的な方法100を示す。試料は、流体試料、例えば、血液試料、血漿試料、唾液試料、尿試料または糞便試料であり得る。ステップ105で、個体に関連する核酸シークエンシングデータは、シグナルをバックグラウンド指数と比較するために使用される。必要に応じて、核酸シークエンシングデータは、非標的および/または非濃縮核酸シークエンシングデータ(例えば、全ゲノムシークエンシングデータ)である。一部の実施形態では、シークエンシングデータのシークエンシング深度は、約100未満、約10未満、または約1未満である。一部の実施形態では、シークエンシンデータのシークエンシング深度は、少なくとも0.01である。シグナルは、個別化疾患関連SNV遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示す。必要に応じて、疾患関連SNVパネルから選択された遺伝子座が、個々の遺伝子座の偽陽性率に基づいて選択される。一部の実施形態では、シグナルは、
Figure 2022532403000013
またはNdetである。一部の実施形態では、シグナルの大きさは、選択された遺伝子座の数、および核酸シークエンシングデータに関連する平均シークエンシング深度に、少なくとも依存する。バックグラウンド指数は、選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示す。ステップ110で、個体における疾患のレベル(例えば、疾患に関連する試料中の核酸分子の割合)が、シグナルとバックグラウンド指数の比較に基づいて決定される。例えば、割合を、次の式に基づいて決定することができる:
Figure 2022532403000014
図2は、個体における疾患(例えば、がん)のレベル、例えば、個体からの試料中の疾患に関連する核酸分子(例えば、cfDNA分子)の割合を測定する、別の例示的な方法200を示す。試料は、流体試料、例えば、血液試料、血漿試料、唾液試料、尿試料または糞便試料であり得る。ステップ205で、罹患組織に関連するシークエンシングデータ、および非罹患組織に関連するシークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルが構築される。個別化遺伝子座パネルは、罹患組織に関連するシークエンシングデータと非罹患組織に関連するシークエンシングデータとの差に基づく。ステップ210で、遺伝子座は、個別化遺伝子座パネルから選択される。一部の実施形態では、個別化遺伝子座パネル内のすべての遺伝子座が選択され、一部の実施形態では、個別化遺伝子座パネル内の遺伝子座のサブセットが選択される。遺伝子座は、個別化遺伝子座パネルから、例えば個々の遺伝子座の偽陽性率に基づいて、選択され得る。ステップ215で、個体からの試料に関連するシークエンシングデータが得られる。シークエンシングデータは、例えば、試料中の核酸分子をシークエンシングすることにより、または記録からのシークエンシングデータを受信することにより、得ることができる。必要に応じて、核酸シークエンシングデータは、非標的および/または非濃縮核酸シークエンシングデータ(例えば、全ゲノムシークエンシングデータ)である。一部の実施形態では、シークエンシングデータのシークエンシング深度は、約100未満、約10未満、または約1未満である。一部の実施形態では、シークエンシンデータのシークエンシング深度は、少なくとも0.01である。ステップ220で、個体に関連する核酸シークエンシングデータは、シグナルをバックグラウンド指数と比較するために使用される。シグナルは、個別化疾患関連SNV遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示す。一部の実施形態では、シグナルは、
Figure 2022532403000015
またはNdetである。一部の実施形態では、シグナルの大きさは、選択された遺伝子座の数、および核酸シークエンシングデータに関連する平均シークエンシング深度に、少なくとも依存する。バックグラウンド指数は、選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示す。ステップ225で、個体における疾患のレベル(例えば、個体からの試料中の疾患に関連する核酸分子の割合)が、シグナルとバックグラウンド指数の比較に基づいて決定される。例えば、割合を、次の式に基づいて決定することができる:
Figure 2022532403000016
疾患の存在、レベル、再発、進行または退縮を検出するための方法
本明細書に記載される方法は、疾患の存在(例えば、再発)の検出、疾患のレベルの測定、または疾患の進行もしくは退縮の測定もしくは検出に有用であり得る。本明細書に記載される方法の一部の実施形態では、個体は、以前に疾患の処置を受けたことがある。一部の実施形態では、疾患は、完全寛解または部分寛解などの、寛解期にあると思われている。疾患の、例えば化学療法またはがんの切除による、処置後、疾患は、例えば、すべての罹患組織の不完全な除去または死滅に起因して、再発することがある。がんは、例えば、個体体内の異なる位置で転移および移動することがあり、または小さ過ぎて公知のイメージング方法(例えば、MRI、PETスキャンなど)により検出できないこともある。疾患が再発または進行した場合に個体を再処置することができるように、疾患の再発、退縮または進行についての個体のモニタリングを定期的に行なうことができるだろう。
がんなどの疾患の存在または残存レベルは、例えば、個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示すシグナルと、選択された遺伝子座にわたってのサンプリング分散を示すノイズ指数とを、比較すること;およびシグナルとバックグラウンド指数の比較に基づいて個体が疾患を有するのかを決定することにより、検出することができる。一部の実施形態では、シグナル対ノイズ比は、例えば、本明細書中で説明されるように決定される。
検出シグナルの統計的有意性は、シグナルを統計ノイズ(例えば、真の検出の数および偽陽性エラーの数に少なくとも基づき得る、サンプリング分散)を比較することにより、決定され得る。シグナルが統計ノイズよりも大きい場合、例えば、約1.5より大きい、約2、約3、約5、約8、約10またはそれより大きいシグナル対ノイズ比(SNR)の場合、疾患を陽性検出することができる。逆に、一部の実施形態では、より低いSNR、例えば、約1.5未満、約1.4未満、約1.3未満、約1.2未満、または約1.1未満のSNRは、疾患の非検出を示す。
図3は、個体における疾患または疾患(例えば、がん)の再発を検出する例示的方法300を示す。ステップ305で、個体に関連する核酸シークエンシングデータは、シグナルをノイズ指数と比較するために使用される。核のシークエンシングデータは、個体から得られた流体試料中の核酸分子に由来し得る。例えば、一部の実施形態では、核酸シークエンシングデータは、個体からの流体試料(例えば、血液試料、血漿試料、唾液試料、尿試料、または糞便試料)中の無細胞DNAに由来する。必要に応じて、核酸シークエンシングデータは、非標的および/または非濃縮核酸シークエンシングデータ(例えば、全ゲノムシークエンシングデータ)である。一部の実施形態では、シークエンシングデータのシークエンシング深度は、約100未満、約10未満、または約1未満である。一部の実施形態では、シークエンシンデータのシークエンシング深度は、少なくとも0.01である。シグナルは、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示す。必要に応じて、疾患関連SNVパネルから選択される遺伝子座は、個々の遺伝子座の偽陽性率に基づいて選択される。ノイズ指数は、選択された遺伝子座にわたってのシークエンシングサンプリングノイズを示す。ステップ310で、疾患が個体に存在するかどうかに関する決定が、シグナルとノイズ指数の比較に基づいてなされる。例えば、一部の実施形態では、ノイズ指数より上の統計的に有意なシグナルは、個体が疾患を有することを示す。
図4は、個体における疾患(例えば、がん)の存在または再発についての例示的方法400を示す。ステップ405で、罹患組織に関連するシークエンシングデータ、および非罹患組織に関連するシークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルが構築される。個別化遺伝子座パネルは、罹患組織に関連するシークエンシングデータと非罹患組織に関連するシークエンシングデータとの差に基づく。ステップ410で、遺伝子座は、個別化遺伝子座パネルから選択される。一部の実施形態では、個別化遺伝子座パネル内のすべての遺伝子座が選択され、一部の実施形態では、個別化遺伝子座パネル内の遺伝子座のサブセットが選択される。遺伝子座は、個別化遺伝子座パネルから、例えば個々の遺伝子座の偽陽性率に基づいて、選択され得る。ステップ415で、個体からの試料に関連する核酸シークエンシングデータが得られる。シークエンシングデータは、例えば、試料中の核酸分子をシークエンシングすることにより、または記録からの試料についてのシークエンシングデータを受信することにより、得ることができる。試料は、個体から取得された流体試料であり得る。例えば、一部の実施形態では、核酸シークエンシングデータは、個体からの流体試料(例えば、血液試料、血漿試料、唾液試料、尿試料、または糞便試料)中の無細胞DNAに由来する。必要に応じて、核酸シークエンシングデータは、非標的および/または非濃縮核酸シークエンシングデータ(例えば、全ゲノムシークエンシングデータ)である。一部の実施形態では、シークエンシングデータのシークエンシング深度は、約100未満、約10未満、または約1未満である。一部の実施形態では、シークエンシンデータのシークエンシング深度は、少なくとも0.01である。ステップ420で、個体に関連する核酸シークエンシングデータは、シグナルをノイズ指数と比較するために使用される。シグナルは、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示す。ノイズ指数は、選択された遺伝子座にわたってのサンプリングノイズを示す。疾患が個体に存在するかどうかに関して決定するステップ425で、シグナルとノイズ指数の比較に基づいて決定される。例えば、一部の実施形態では、ノイズ指数より上の統計的に有意なシグナルは、個体が疾患を有することを示す。
がんなどの疾患の存在または残存を、例えば個体における疾患のレベルを測定することにより、検出することもできる。必要に応じて、疾患のレベルは、罹患組織に起因する個体からの試料中の核酸分子の割合により示される。罹患組織に起因する、個体から得られる流体試料中の核酸分子、例えばcfDNA、の割合は、その個体における疾患の重症度またはレベルと相関している。したがって、罹患組織に起因する核酸分子の割合を、疾患の残存レベルまたは再発のマーカーとして使用することができる。例えば、個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示すシグナルと、選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示すバックグラウンド指数とを、比較すること;およびシグナルとバックグラウンド指数の比較に基づいて個体における疾患のレベルを決定することにより、レベルを測定することができる。
レベルについての信頼区画などの、疾患の測定レベルについての誤差(例えば、測定割合についての誤差)が、必要に応じて決定される。一部の実施形態では、誤差は、選択された遺伝子座で検出された個々の小ヌクレオチドバリアントリードの総数に比例する。測定レベルについての誤差を使用して、例えば、測定レベルが統計的に有意であるかどうかを決定することができる。例えば、一部の実施形態では、割合についての信頼区画の下限がゼロより上である場合、測定レベルは、疾患の存在または再発を示す。この誤差を使用して、測定割合が所定の値より高い可能性を測定することもできる。一部の実施形態では、非罹患組織に起因する核酸分子と比較して罹患組織に起因する核酸分子の測定割合が、所定の閾値よりも高い(例えば、0であるかもしくはそれより高い、約0.1%であるかもしくはそれより高い、約0.2%であるかもしくはそれより高い、約0.5%であるかもしくはそれより高い、約1%であるかもしくはそれより高い、約1.5%であるかもしくはそれより高い、約2%であるかもしくはそれより高い、約2.5%であるかもしくはそれより高い、約3%であるかもしくはそれより高い、約4%であるかもしくはそれより高い、約5%であるかもしくはそれより高い、約6%であるかもしくはそれより高い、約7%であるかもしくはそれより高い、約8%であるかもしくはそれより高い、約9%であるかもしくはそれより高い、または約10%であるかもしくはそれより高い)可能性が測定され、所定の閾値よりも高い割合は、個体における疾患の存在または再発を示す。
疾患の進行または退縮は、2つまたはそれより多く時点で疾患のレベル(例えば、罹患組織に起因する個体の試料中の核酸分子の割合、または個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示すバックグラウンド指数と比較して疾患組織に由来する率を示すシグナル)を測定することにより、決定および/またはモニターすることができる。したがって、測定割合が過去の割合、Fprior、と比較され得る。これらの時点は、例えば、疾患の処置の開始する前の第1の時点、および疾患の処置を開始した後の第2の時点を含み得る。一部の実施形態では、割合またはシグナルの増加(バックグラウンド指数と比較して)は、疾患の進行を示し、割合の低下またはシグナルの減少(バックグラウンド指数と比較して)は、疾患の退縮を示す。一部の実施形態では、割合またはシグナルの統計的に有意な増加(バックグラウンド指数と比較して)は、疾患の進行を示し、割合の統計的に有意な低下またはシグナルの統計的に有意な減少(バックグラウンド指数と比較して)は、疾患の退縮を示す。2つまたはそれより多くの時点についてのレベルの決定誤差(例えば、信頼区画)を使用して、測定レベルの変化が統計的に有意であるかどうかを決定することができる。
図5は、個体における疾患(例えば、がん)の再発、進行または退縮をモニターする例示的方法500を示す。ステップ505で、個体に関連する核酸シークエンシングデータは、シグナルをバックグラウンド指数と比較するために使用される。核のシークエンシングデータは、個体から得られた流体試料中の核酸分子に由来し得る。例えば、一部の実施形態では、核酸シークエンシングデータは、個体からの流体試料(例えば、血液試料、血漿試料、唾液試料、尿試料、または糞便試料)中の無細胞DNAに由来する。必要に応じて、核酸シークエンシングデータは、非標的および/または非濃縮核酸シークエンシングデータ(例えば、全ゲノムシークエンシングデータ)である。一部の実施形態では、シークエンシングデータのシークエンシング深度は、約100未満、約10未満、または約1未満である。一部の実施形態では、シークエンシンデータのシークエンシング深度は、少なくとも0.01である。シグナルは、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示す。必要に応じて、疾患関連SNVパネルから選択される遺伝子座は、個々の遺伝子座の偽陽性率に基づいて選択される。バックグラウンド指数は、選択された遺伝子座にわたってのシークエンシング偽陽性エラー率分散を示す。ステップ510で、個体における疾患のレベルが、シグナルとバックグラウンド指数の比較に基づいて決定される。例えば、一部の実施形態では、バックグラウンド指数より上の統計的に有意なシグナルは、個体が疾患を有することを示す。ステップ515で、個体の疾患のレベルが、個体における疾患の以前のレベルと比較される。疾患の以前に測定されたレベルと比較して疾患の測定レベルの統計的に有意な変化は、疾患が再発、進行または退縮したことを示す。例えば、疾患の以前に測定されたレベルと比較して疾患の測定レベルの統計的に有意な増加は、疾患が進行したことを示す。疾患の以前に測定されたレベルと比較して疾患の測定レベルの統計的に有意な減少は、疾患が退縮したことを示す。
図6は、個体における疾患(例えば、がん)の再発、進行または退縮をモニターする別の例示的方法600を示す。ステップ605で、罹患組織に関連するシークエンシングデータ、および非罹患組織に関連するシークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルが構築される。個別化遺伝子座パネルは、罹患組織に関連するシークエンシングデータと非罹患組織に関連するシークエンシングデータとの差に基づく。ステップ610で、遺伝子座は、個別化遺伝子座パネルから選択される。一部の実施形態では、個別化遺伝子座パネル内のすべての遺伝子座が選択され、一部の実施形態では、個別化遺伝子座パネル内の遺伝子座のサブセットが選択される。遺伝子座は、個別化遺伝子座パネルから、例えば個々の遺伝子座の偽陽性率に基づいて、選択され得る。ステップ615で、個体からの試料に関連する核酸シークエンシングデータが得られる。シークエンシングデータは、例えば、試料中の核酸分子をシークエンシングすることにより、または記録からの試料についてのシークエンシングデータを受信することにより、得ることができる。試料は、個体から得られた流体試料であり得る。例えば、一部の実施形態では、核酸シークエンシングデータは、個体からの流体試料(例えば、血液試料、血漿試料、唾液試料、尿試料、または糞便試料)中の無細胞DNAに由来する。必要に応じて、核酸シークエンシングデータは、非標的および/または非濃縮核酸シークエンシングデータ(例えば、全ゲノムシークエンシングデータ)である。一部の実施形態では、シークエンシングデータのシークエンシング深度は、約100未満、約10未満、または約1未満である。一部の実施形態では、シークエンシンデータのシークエンシング深度は、少なくとも0.01である。ステップ620で、個体に関連する核酸シークエンシングデータは、シグナルをバックグラウンド指数と比較するために使用される。シグナルは、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示す。バックグラウンド指数は、選択された遺伝子座にわたってのシークエンシング偽陽性エラー率分散を示す。ステップ625で、個体における疾患のレベルが、シグナルとバックグラウンド指数の比較に基づいて決定される。例えば、一部の実施形態では、バックグラウンド指数より上の統計的に有意なシグナルは、個体が疾患を有することを示す。ステップ630で、個体の疾患のレベルが、個体における疾患の以前のレベルと比較される。疾患の以前に測定されたレベルと比較して疾患の測定レベルの統計的に有意な変化は、疾患が再発、進行または退縮したことを示す。例えば、疾患の以前に測定されたレベルと比較して疾患の測定レベルの統計的に有意な増加は、疾患が進行したことを示す。疾患の以前に測定されたレベルと比較して疾患の測定レベルの統計的に有意な減少は、疾患が退縮したことを示す。
必要に応じて、疾患の測定割合、測定レベル、進行、退縮および/または再発が、記録、例えば、電子診療記録(EMR)または患者ファイルに記録される。本明細書に記載される方法のいずれかについての一部の実施形態では、個体は、疾患の測定割合、測定レベル、進行、退縮および/または再発を知らされる。本明細書に記載される方法のいずれかについての一部の実施形態では、個体は、疾患、疾患の再発、または疾患の進行があると診断される。本明細書に記載される方法のいずれかについての一部の実施形態では、個体は、疾患について処置される。
システムおよびレポート
図1~6に関連して説明されたものを含む、上記で説明された操作は、図7に描かれている構成要素により、必要に応じて実行される。どのようにすれば他のプロセス、例えば、上記で説明された操作のすべてまたは一部の組合せまたは部分的組合せを図7に描かれている構成要素に基づいて実行することができるのかは、当業者には明らかであろう。どのようにすれば本明細書に記載される方法、技法、システムおよびデバイスを互いに、全体として、または部分的に組み合わせることができるのかもまた、それらの方法、技法、システムおよび/またはデバイスが、図7に描かれている構成要素により実行されるか否か、および/または提供されるか否かを問わず、当業者には明らかであろう。
図7は、一実施形態に従ってコンピュータデバイスの例を説明する。デバイス700は、ネットワークに接続されたホストコンピュータであることがある。デバイス400は、クライアントコンピュータまたはサーバーであることもある。図7に示されているように、デバイス700は、任意の好適なタイプのマイクロプロセッサーベースのデバイス、例えば、パーソナルコンピュータ、ワークステーション、サーバー、またはハンドヘルドコンピュータデバイス(携帯用電子デバイス)、例えば電話機もしくはタブレットであり得る。デバイスは、例えば、プロセッサー710、入力デバイス720、出力デバイス730、記憶装置740、および通信デバイス760のうちの1つまたは複数を含み得る。入力デバイス720および出力デバイス730は、一般に、上記のものに対応することができ、コンピュータと接続可能または一体型のどちらかであり得る。
入力デバイス720は、入力を行なう任意の好適なデバイス、例えば、タッチスクリーン、キーボードもしくはキーパッド、マウス、または音声認識デバイスであり得る。出力デバイス730は、出力を行なう任意の好適なデバイス、例えば、タッチパネル、触覚デバイス、またはスピーカーであり得る。
記憶装置740は、RAM、キャッシュメモリー、ハードドライブまたは脱着式保存ディスクを含む、電子、磁気または光メモリーなどの、記憶域を提供する任意の好適なデバイスであり得る。通信デバイス760は、ネットワークを用いてシグナルを送信および受信することができる任意の好適なデバイス、例えば、ネットワークインターフェースチップまたはデバイスを含み得る。コンピュータの構成要素を、任意の好適な方法で、例えば物理的バスを介してまたは無線で、接続することができる。
記憶装置740に記憶され、プロセッサー710により実行され得る、ソフトウェア750は、例えば、本開示の機能性を具現化する(例えば、上記のデバイスで具現化されるような)プログラミングを含むことができる。
上記のものなどの命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、任意の非一過性コンピュータ可読記憶媒体であって、ソフトウェアに関連する命令を命令実行システム、装置またはデバイスから取り出し、命令を実行することができる可読記憶媒体の中に、ソフトウェア750を記憶および/またはトランスポートすることもできる。本開示に関して、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、プログラミングを収容または記憶することができる任意の媒体、例えば、記憶装置740であり得る。
上記のものなどの命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、任意のトランスポート媒体であって、ソフトウェアに関連する命令を命令実行システム、装置またはデバイスから取り出し、命令を実行することができるトランスポート媒体の中に、ソフトウェア750を伝播することもできる。本開示に関して、トランスポート媒体は、命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、プログラミングを伝える、伝播するまたはトランスポートすることができる、任意の媒体であり得る。トランスポート可読媒体としては、電子、磁気、光、電磁または赤外有線もしくは無線伝播媒体を挙げることができるが、これらに限定されない。
デバイス700をネットワークに接続することができ、これは任意の好適なタイプの相互接続通信システムであり得る。ネットワークは、任意の好適な通信プロトコルを実行することができ、ネットワークを任意の好適なセキュリティープロトコルにより保護することができる。ネットワークは、ネットワークシグナルの通信および受信を実行することができる任意の好適な構成のネットワークリンク、例えば、無線ネットワーク接続、T1もしくはT3ライン、ケーブルネットワーク、DSL、または電話線を含むことができる。
デバイス700は、ネットワークでの操作に好適な任意の操作システムを実装することができる。ソフトウェア750を任意の好適なプログラミング言語、例えば、C、C++、Java(登録商標)またはPythonで書くことができる。様々な実施形態では、本開示の機能性を具現化するアプリケーションソフトウェアを、例えば、異なる配置で、例えばクライアント/サーバー構成で、またはウェブベースのアプリケーションもしくはウェブサービスのようなウェブブラウザによって、展開することができる。
本明細書に記載される方法は、解析方法を使用して決定された情報を報告するステップ、および/または解析方法を使用して決定された情報を含むレポートを生成するステップを、必要に応じてさらに含む。例えば、一部の実施形態では、方法は、個体における疾患のレベルに関する__を含有するレポートを報告または生成するステップをさらに含む。報告される情報またはレポートの中の情報は、例えば、疾患(例えば、がん)に起因する個体から得られた試料中のcfDNAの割合、または疾患(例えば、がん)の検出可能な量の存在もしくは非存在に関連し得る。受信者、例えば、臨床医、対象または研究者に、レポートを配布することができ、または情報を報告することができる。
本願の例示的実施形態として提供する以下の非限定的実施例を参照することにより、本願をよりよく理解することができる。以下の実施例を、実施形態をより十分に説明するために提示するが、いかなる点においても本願の広い範囲を限定するものと解釈すべきでない。本願のある特定の実施形態を本明細書で示し、説明したが、このような実施形態を単なる例として提供することは明らかであろう。本発明の趣旨および範囲から逸脱しない非常に多くの変形形態、変更形態および置換形態に当業者なら想到するであろう。本明細書に記載する実施形態の様々な代替形態を、本明細書に記載する方法を実施する際に利用することができることは、理解されるはずである。
(実施例1)
個体から採取したがん組織生検から採取したDNAを全ゲノムシークエンシングによりシークエンシングして、がん組織に関連するシークエンシングデータを得る。血液試料を個体から採取し、全血からのDNAをシークエンシングして、健常組織に関連するシークエンシングデータを得る。がん組織に関連するシークエンシングデータと健常組織に関連するシークエンシングデータを比較し、差を個別化疾患関連SNV遺伝子座パネルに収載する。個別化遺伝子座パネル内のバリアントをバリアントの偽陽性エラー率に基づいてフィルター処理し、偽陽性エラー率が最も低いバリアントを解析に選択する。Nvar遺伝子座の総数を選択する。
無細胞DNAを個体からの流体試料から採取し、非標的および非濃縮全ゲノムシークエンシングを使用してcfDNAをシークエンシングして、Dの平均シークエンシング深度でのシークエンシングデータを得る。このシークエンシング法は、Eのシークエンシング偽陽性エラー率をもたらす。個別化遺伝子座パネルからのバリアントコールを伴うシークエンシングリードの数、Ntotal、を測定し、疾患に関連する流体試料中の核酸分子の割合(Fprior)を、その割合の誤差とともに決定する。
個体は、がんの処置を受ける。処置後、個体からのその後の流体試料から無細胞DNAを採取し、非標的および非濃縮全ゲノムシークエンシングを使用してcfDNAをシークエンシングして、Dの平均シークエンシング深度(これは、以前の試料のものと同じまたは異なる深度である)でのシークエンシングデータを得る。このシークエンシング法は、Eのシークエンシング偽陽性エラー率(これは、以前の試料のものと同じまたは異なる)をもたらす。個別化遺伝子座パネルからのバリアントコールを伴うシークエンシングリードの数、Ntotal、を測定し、疾患に関連する流体試料中の核酸分子の割合(Fpresent)を、その割合の誤差とともに決定する。
より最近の試料に関連する割合(Fpresent)を過去の試料に関連する割合(Fprior)と比較して、がんの進行または退縮をモニターする。割合の統計的に有意な増加は、疾患が進行したことを示し、割合の統計的に有意な低下は、疾患が退縮したことを示す。
(実施例2)
個体から採取したがん組織生検から採取したDNAを全ゲノムシークエンシングによりシークエンシングして、がん組織に関連するシークエンシングデータを得る。血液試料を個体から採取し、全血からのDNAをシークエンシングして、健常組織に関連するシークエンシングデータを得る。がん組織に関連するシークエンシングデータと健常組織に関連するシークエンシングデータを比較し、差を個別化疾患関連SNV遺伝子座パネルに収載する。個別化遺伝子座パネル内のバリアントをバリアントの偽陽性エラー率に基づいてフィルター処理し、偽陽性エラー率が最も低いバリアントを解析に選択する。Nvar遺伝子座の総数を選択する。
個体は、がんの処置を受ける。処置後、個体からのその後の流体試料から無細胞DNAを採取し、非標的および非濃縮全ゲノムシークエンシングを使用してcfDNAをシークエンシングして、Dの平均シークエンシング深度(これは、以前の試料のものと同じまたは異なる深度である)でのシークエンシングデータを得る。このシークエンシング法は、Eのシークエンシング偽陽性エラー率(これは、以前の試料のものと同じまたは異なる)をもたらす。個別化遺伝子座パネルからのバリアントコールを伴うシークエンシングリードの数、Ntotal、を測定し、疾患に関連する流体試料中の核酸分子のシグナル対ノイズ比(SNR)を決定する。設定閾値(k)より上のSNR比は、個体が疾患の残存量を有することを示す。
(実施例3)
がん試料をAnalytical Biological Services(ABS)バイオバンクから購入した。このバイオバンクにおける正常および罹患ヒト組織の生物検体は、商用研究のために適切なインフォームドコンセントを得て厳格な法令順守要件のもとで収集された。生物検体は、がんのドナーからのバフィーコートおよび血漿(cfDNA)にマッチした腫瘍生検材料(アーカイブFFPE)を含む。この研究は、これらの試料の遺伝子シグネチャーを評価した。
試料。結腸がんの転移性腺癌を有する40歳女性である患者1についてのFFPE、バフィーコートおよび血漿試料を入手した。FFPE試料は、約80%のがん細胞と、約10~20%の線維芽細胞および浸潤単核細胞および壊死組織(死滅組織)とを含んでいた。
転移性黒色腫がんを有する69歳男性である患者2についての血漿試料を入手した。患者2からの血漿試料を対照として使用して、シークエンシングエラー率を決定した。血漿試料は、採血中の赤血球および白血球を示す、赤みを帯びた色であった。溶解した血液細胞に起因して、がんcfDNA(すなわち、ctDNA)に対してバックグラウンド非腫瘍cfDNAが予想よりも高度になることがある。
核酸抽出およびライブラリー調製。DNeasy Blood & Tissue KitまたはAllPrep(登録商標)DNA/RNA Kitを使用して、100μLのバフィーコート(患者1)から核酸分子を抽出した。両方のキットからの抽出gDNAを併せ、1000ngの抽出gDNAを、Roche KAPA HyperPrep Kitを使用するライブラリー構築に使用した。
DNeasy Blood & Tissue KitとキシレンまたはRecoverAll(商標)Total Nucleic Acid Isolation Kitを使用して、FFPE組織(患者1)の30μm薄片から核酸分子を抽出した。スライドに対してキシレンを用いてDNeasy Blood & Tissue Kitを使用してFFPE試料から抽出した173ngのgDNAを、第1のFFPEに基づくライブラリーのライブラリー構築に使用し、RecoverAll(商標)Total Nucleic Acid Isolation Kitを使用して(スライドに対してキシレンを用いずに)FFPE試料から抽出した446ngのgDNAを、第2のFFPEに基づくライブラリーのライブラリー構築に使用した。Roche KAPA HyperPrep Kitを使用してライブラリーを構築し、その後、KAPA HiFi HotStart ReadyMixキットによる7サイクルのPCRを行なった。
MagMAX(商標)Cell Free Total Nucleic Acid Isolation Kitを使用して4mLの血漿(患者1または患者2)から核酸分子を抽出した。患者1血漿試料からの100ngのcfDNAおよび患者2血漿試料からの25ngのcfDNAを、Roche KAPA HyperPrep Kitを使用するライブラリー構築に使用し、その後、KAPA HiFi HotStart ReadyMixキットによる7サイクルのPCRを行なった。
アダプターにライゲーションされたライブラリーの正確な定量を、KAPA Library Quantification Kitを使用して行なった。
全ゲノムシークエンシング。Ultima Genomicsの機器およびプロトコル(T-A-C-Gフローサイクル)を使用して30~150倍のカバレッジで試料ごとにエマルジョンPCRおよびシークエンシングを行なった。
バイオインフォマティクス解析。917,319,868生リード(ライブラリー1、カバレッジ中央値で平均長228塩基)を、バフィーコート(患者1)試料ライブラリーについて得た。2,136,822,000生リード(ライブラリー2、平均長183塩基)を、cfDNA(血漿、患者1)試料ライブラリーについて得た。553,298,760生リード(ライブラリー3)および1,768,786,851生リード(ライブラリー4)(186塩基の平均長)を、2つの異なるFFPEに基づくシークエンシングライブラリーについて得た。
211,8786,000生リード(平均長187塩基)を、cfDNA(血漿、患者2)試料ライブラリー(ライブラリー5)について得た。
BWA(バージョン0.7.15-r1140)を使用して生リードを参照ゲノム(hg38)とアラインメントし、バフィーコートおよびFFPEリードについてPicard Tool(バージョン2.15.0、Broad Institute)を使用して、またはcfDNAリードについてSAM Tools rmdupプログラムを使用して、デュプリケートにマークを付けた。アラインメントおよびデュプリケートの除去後、ゲノムのカバレッジ中央値は、ライブラリー1~5について、それぞれ、45倍、84倍、8倍、18倍および56倍であった。
GATK4パッケージからのHaplotypeCallerプログラム(Ultima Genomicsの機器およびプロトコルにより生成されたシークエンシングデータを処理するために改良されたもの)を使用して、FFPEリード中のhg38参照ゲノムに関するバリアントを別々にコールした。4,694,198バリアントが、第1のFFPEに基づくライブラリー(ライブラリー3)からコールされ、6,702,421バリアントが、第2のFFPEに基づくライブラリー(ライブラリー4)からコールされた。試料処理の分散を説明するための7,682,808の固有のバリアント(すなわち、「ベースラインバリアント」)のリストのために2つのFFPE試料からのベースラインバリアントを併せ、各ベースラインバリアントについて、試料の各々におけるベースラインバリアントを支持するリードの数を表にした。次いで、ベースラインバリアントを、生殖細胞系列バリアント、試料調製に起因するDNA損傷から生じるバリアント、およびシークエンシングエラーから生じるバリアントを除去するようにフィルター処理した。先ず、ベースラインバリアントを、2つまたはそれより多くのシークエンシングリードにより支持されるSNPバリアントのみを含むようにフィルター処理し、その結果、4,179,203の固有のバリアントを得た。次いで、これらのバリアントを、人口データベース(gnomAD v3、Broad Instituteから入手可能)から対立遺伝子頻度が0.01より大きいバリアント(生殖細胞系列突然変異である可能性が高いと考えられる)を除去するようにフィルター処理し、その結果、1,292,135の固有のバリアントを得た。次いで、これらのバリアントを、ホモポリマー領域内の8塩基のまたはそれより長いバリアントを除去するようにフィルター処理し、その結果、1,176,179の固有のバリアントを得た。次いで、これらのバリアントを、相補鎖内の支持されないバリアント(シークエンシングエラーである疑いがある)を除去するようにフィルター処理し、その結果、505,500の固有のバリアントを得た。次いで、これらのバリアントを、バフィーコート試料からのリードにより検出されたバリアント(生殖細胞系列および/または非がん性体細胞突然変異と推測された)を除去するようにフィルター処理し、その結果、67,660の固有のバリアントを得た。67,660の固有のバリアントのパネルから、両方のFFPE試料ライブラリーに存在するバリアントであって、サイクルシフト(すなわち、フローサイクル順序に基づいて参照と比較して1フルサイクル(例えば、4つのフロー位置)またはそれを超えるフローグラムシグナルシフト)を誘導すると予想される17,073のバリアントを、さらなる解析に選択した。比較として、両方のFFPE試料ライブラリーに存在するバリアントであって、異なるフロー順序の場合にサイクルシフトを誘導すると予想される(すなわち、新しいゼロまたは新しい非ゼロフローグラムシグナルを含有する)17,509のバリアントを解析し、サイクルシフトを含むことができない(すなわち、新しいゼロフローグラムシグナルも新しい非ゼロフローグラムシグナルも含有しない)5,748のバリアントも解析した。
患者1データを使用してバイオインフォマティクス解析を行ない、患者2からのcfDNAを使用して、選択されたバリアントの同じセットに対するシークエンシングエラー率を推定した。その結果、患者1におけるがんに関連するcfDNAの推定割合、
Figure 2022532403000017
を4.65%であると決定し、バックグラウンドレベルを、サイクルシフト誘導バリアントを解析して約0.35%であると決定した。表2を参照されたい。誤差補正割合、F’=F-Eは、したがって、約4.3%である。
Figure 2022532403000018
可能性のあるサイクルシフトバリアントを解析して、患者1におけるがんに関連するcfDNAの推定割合を4.34%であると決定し、バックグラウンドレベルを約0.44%と決定し、かくて3.9%の誤差補正割合を得た。表3を参照されたい。
Figure 2022532403000019
サイクルシフトも可能性のあるサイクルシフトも誘導しなかったバリアントを解析して、患者1におけるがんに関連するcfDNAの推定割合を3.92%であると決定し、バックグラウンドレベルを約0.55%と決定し、かくて3.37%の誤差補正割合を得た。表4を参照されたい。
Figure 2022532403000020
(実施例4)
DNA試料NA12878(コリエル医学研究所(Coriell Institute for Medical Research)から入手可能な試料)のゲノムを、4フローサイクル(T-A-C-G)に従って非終結蛍光標識ヌクレオチドを使用してシークエンシングした。シークエンシング実行により、平均長が176塩基である415,900,002のリードが生成された。399,804,925リードをhg38参照ゲノムと(BWA、バージョン0.7.17-r1188で)アラインメントした。
アラインメント後、参照ゲノムと完全にアラインしたリード(178,634,625リード)、または参照ゲノムとの単一ミスマッチを有し、20のもしくはそれを超えるマッピング品質スコアでアラインしたリード(27,265,661リード)を選択した。つまり、193,904,639は、例えば、インデル、複数のミスマッチ、または参照ゲノムとの誤っている(アーチファクトの)可能性のあるアラインメントを有するため、さらなる解析に含めなかった。したがって、27,265,661リードは、真の陽性NA12878 SNPはもちろん、シークエンシングエラーから生じるあらゆる偽陽性SNPも含むと推定した。27,265,661リードのこのプールから、真の陽性NA12878 SNPバリアントの効果を低下させる1回より多くミスマッチ遺伝子座に及んだシークエンシングリードを除去し、その結果、深度1のミスマッチを有する合計3,413,700リードを得た。
残りの3,413,700リード各々は、(1)フローグラムフローシグナルがフローサイクル順序に基づいて参照に対して1フルサイクル(例えば、4フロー位置)シフトした場合、サイクルシフトを誘導すると予想されるミスマッチ、(2)異なるフローサイクルを使用した場合、サイクルシフトを誘導し得る(例えば、それが、フローグラムで新しいゼロもしくは新しい非ゼロシグナルを生成する)可能性のあるミスマッチ、または(3)フローサイクル順序に関係なくサイクルシフトを誘導することができないであろうミスマッチを含んだ。3,413,700ミスマッチのうち、1,184,954(34%)は、サイクルシフトを誘導したが、1,546,588(43%)は、異なるフロー順序でサイクルシフト(すなわち、「可能性のあるサイクルシフト」)を誘導することがあった。比較して、ランダムミスマッチの理論的予想は、名目上、サイクルシフト42%および可能性のあるサイクルシフトミスマッチ46%を示唆した。全体的に見て、サイクルシフトを誘導するミスマッチ率は、3.7×10-5事象/塩基であり、可能性のあるサイクルシフトを誘導するミスマッチ率は、4.8×10-5事象/塩基であった。表5は、サイクルシフトを誘導する10の最高頻度単一ミスマッチ、および発生率の相対パーセンテージを示す。
Figure 2022532403000021
次いで、3つの異なるクラス(すなわち、サイクルシフトを誘導する、サイクルシフトを誘導する可能性がある、またはサイクルシフトを誘導しないおよび誘導することができない)の各々におけるミスマッチに基づくバリアントコーリングの性能を評価した。BWAを用いてリードを参照ゲノムとアラインメントし、GATK(バージョン4)のHaplotypeCallerツールを使用してバリアントコーリングを遂行した。得られたミスマッチコールを、10塩基より長いホモポリマー内のバリアントコール、または10塩基もしくはそれを超える長さを有するホモポリマーに隣接する10塩基以内のバリアントコールを捨てることにより、フィルター処理した。
ミスマッチコールを、genome-in-the bottle(GIAB)プロジェクトによって同じNA12878について生成されたコールと比較して、ミスマッチのクラスごとに精度#TP/(#FP+#FN+#TP)を決定した。シークエンシングデータを、示した平均ゲノム深度にランダムにダウンサンプリングした。サイクルシフトを誘導するミスマッチ、およびサイクルシフトを誘導する可能性のあるミスマッチは、表6で実証されるように、サイクルシフトを誘導しないミスマッチよりも高い精度を有した。
Figure 2022532403000022

Claims (70)

  1. 個体における疾患のレベルを測定する方法であって、
    前記個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示すシグナルと、前記選択された遺伝子座にわたってのシークエンシング偽陽性エラー率を示すバックグラウンド指数とを、比較するステップ;および
    前記シグナルと前記バックグラウンド指数の前記比較に基づいて前記個体における疾患の前記レベルを決定するステップ
    を含む方法。
  2. 前記疾患の前記レベルが、前記個体からの試料中の前記疾患に関連する核酸分子の割合である、請求項1に記載の方法。
  3. 比較するステップが、前記バックグラウンド指数を前記シグナルから減算することを含む、請求項1または2に記載の方法。
  4. 前記疾患の前記レベルの測定についての誤差を決定するステップをさらに含む、請求項1から3のいずれか一項に記載の方法。
  5. 前記誤差が、前記疾患の前記レベルについての信頼区間である、請求項4に記載の方法。
  6. 前記誤差が、前記選択された遺伝子座で検出された個々の小ヌクレオチドバリアントリードの総数に比例する、請求項4または5に記載の方法。
  7. 前記疾患の前記レベルが、前記個体からの試料中の前記疾患に関連する核酸分子の割合であり、前記割合および誤差が、
    Figure 2022532403000023
    (式中、
    Fは、割合であり、
    totalは、前記選択された遺伝子座で検出された個々の小ヌクレオチドバリアントリードの総数であり、
    varは、選択された遺伝子座の数であり、
    Dは、平均シークエンシング深度であり、
    Eは、前記選択された遺伝子座にわたっての偽陽性エラー率である)
    により定義される、請求項6に記載の方法。
  8. 前記疾患の再発を測定するステップを含む、請求項1から7のいずれか一項に記載の方法。
  9. 前記疾患の測定レベルを前記疾患の以前に測定されたレベルと比較することにより、前記疾患の進行または退縮を測定するステップを含む、請求項1から7のいずれか一項に記載の方法。
  10. 前記疾患の進行または退縮が、前記疾患の前記測定レベルの統計的に有意な変化に基づく、請求項9に記載の方法。
  11. 個体における疾患を検出する方法であって、
    前記個体に関連する核酸シークエンシングデータを使用して、個別化疾患関連小ヌクレオチドバリアント(SNV)遺伝子座パネルから選択されたシークエンシングされた遺伝子座が罹患組織に由来する率を示すシグナルと、選択された遺伝子座にわたってのサンプリング分散を示すノイズ指数とを、比較するステップ;および
    前記シグナルと前記ノイズ指数の前記比較に基づいて前記個体が前記疾患を有するかどうかを決定するステップ
    を含む方法。
  12. 前記シグナルが、所定の閾値を超えて前記ノイズ指数を上回った場合、前記個体が、疾患の再発または前記疾患の残存レベルを有すると決定される、請求項11に記載の方法。
  13. 前記シグナルが、k倍またはそれより大きく前記ノイズ指数を上回った場合、前記個体が、疾患の再発または前記疾患の残存レベルを有すると決定され、kが約1.5である、請求項11に記載の方法。
  14. 前記シグナルが、k倍またはそれより大きく前記ノイズ指数を上回った場合、前記個体が、疾患の再発または前記疾患の残存レベルを有すると決定され、kが約3.0である、請求項11に記載の方法。
  15. 前記シグナルが、k倍またはそれより大きく前記ノイズ指数を上回った場合、前記個体が、疾患の再発または前記疾患の残存レベルを有すると決定され、kが約5.0である、請求項11に記載の方法。
  16. 前記シグナルが、k倍またはそれより大きく前記ノイズ指数を上回った場合、前記個体が、疾患の再発または前記疾患の残存レベルを有すると決定され、kが約10である、請求項11に記載の方法。
  17. 前記疾患の再発を検出するステップを含む、請求項11から16のいずれか一項に記載の方法。
  18. 前記シグナルの大きさが、選択された遺伝子座の数、および前記核酸シークエンシングデータに関連する平均シークエンシング深度に、少なくとも依存する、請求項1から17のいずれか一項に記載の方法。
  19. 個体における疾患の存在、進行または退縮を検出する方法であって、
    (a)前記個体の罹患組織に起因する試料中の核酸分子の割合、F、を示す値がゼロより大きい可能性であって、ゼロより大きいFが前記個体の前記疾患の存在を示す、可能性、および
    (b)前記個体の罹患組織に起因する試料中の核酸分子の割合、F、を示す値の統計的に有意な変化
    の少なくとも一方を測定するステップを含み、
    前記統計的に有意な変化が、以前に測定された割合、Fprior、に対する変化であり、Fの統計的に有意な変化が、前記個体の前記疾患の進行または退縮を示し、
    前記割合Fが、無細胞核酸シークエンシングデータにおいて検出された一塩基バリアント(SNV)の総数、Ntotal、であって、前記SNVが個別化疾患関連SNV遺伝子座パネルから選択される、Ntotalと、前記SNVパネルから選択されたSNVの数、Nvar、であって、平均シークエンシング深度、D、により調整され、さらに、前記選択されたSNVにわたってシークエンシング偽陽性エラー率、E、により調整された、Nvarとを比較することにより決定される、方法。
  20. 前記個別化疾患関連SNV遺伝子座パネルを生成するステップをさらに含む、請求項1から19のいずれか一項に記載の方法。
  21. 前記個別化疾患関連SNV遺伝子座パネルを生成するステップが、
    前記罹患組織の試料に由来する核酸分子をシークエンシングして、疾患関連SNVのセットを決定すること、および
    疾患関連SNVの前記セットを、生殖細胞系列バリアントおよび非疾患関連体細胞バリアントを除去するようにフィルター処理すること
    を含む、請求項20に記載の方法。
  22. 前記罹患組織の前記試料が、前記個体から得られた腫瘍生検試料である、請求項21に記載の方法。
  23. 前記生殖細胞系列バリアントもしくは前記非疾患関連体細胞バリアント、または両方が、前記個体から得られた非罹患組織の試料に由来する核酸分子をシークエンシングすることにより決定される、請求項21または22に記載の方法。
  24. 非罹患組織の前記試料が、白血球を含む、請求項23に記載の方法。
  25. 非罹患組織の前記試料が、バフィーコートである、請求項24に記載の方法。
  26. 罹患関連SNVのセットを、1つのシークエンシングリードによってしか支持されないSNVを除去するようにフィルター処理するステップをさらに含む、請求項21から25のいずれか一項に記載の方法。
  27. 罹患関連SNVの前記セットを、相補的シークエンシングリードにより支持されないSNVを除去するようにフィルター処理するステップをさらに含む、請求項21から26のいずれか一項に記載の方法。
  28. 罹患関連SNVの前記セットを、個体の一般集団に所定の閾値よりも高い対立遺伝子頻度で存在するSNVを除去するようにフィルター処理するステップをさらに含む、請求項21から27のいずれか一項に記載の方法。
  29. 前記所定の閾値が、約0.01である、請求項28に記載の方法。
  30. ホモポリマー領域内のSNVをフィルター処理するステップ、またはショートタンデムリピート内のSNVをフィルター処理するステップをさらに含む、請求項21から29のいずれか一項に記載の方法。
  31. 前記核酸シークエンシングデータが、前記個体から得られた流体試料からの核酸分子を、複数のフロー位置を含むフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングすることにより得られ、前記フロー位置が、前記ヌクレオチドフローに対応し;
    前記個別化疾患関連SNV遺伝子座パネルを生成するステップが、疾患関連SNVの前記セットを、前記核酸シークエンシングデータおよび前記参照シークエンシングデータが、前記フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングされたときに、2カ所またはそれより多くのフロー位置において参照配列に関連する参照シークエンシングデータと異なる核酸シークエンシングデータを生じさせる結果となるSNVのみを含むように、フィルター処理することをさらに含む、
    請求項21から30のいずれか一項に記載の方法。
  32. 前記核酸シークエンシングデータが、前記個体から得られた流体試料からの核酸分子を、複数のフロー位置を含むフローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングすることにより得られ、前記フロー位置が、前記ヌクレオチドフローに対応し;
    前記方法が、
    前記罹患組織の試料に由来する核酸分子をシークエンシングして、疾患関連SNVのセットを決定すること
    を含む、前記個別化疾患関連SNV遺伝子座パネルを生成するステップをさらに含み、
    前記個別化疾患関連SNV遺伝子座パネルを生成するステップが、疾患関連SNVの前記セットを、前記核酸シークエンシングデータおよび前記参照シークエンシングデータが、前記フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングされたときに、2カ所またはそれより多くのフロー位置において参照配列に関連する参照シークエンシングデータと異なる核酸シークエンシングデータを生じさせる結果となるSNVのみを含むように、フィルター処理することをさらに含む、
    請求項1から20のいずれか一項に記載の方法。
  33. 前記個別化疾患関連SNV遺伝子座パネルを生成するステップが、疾患関連SNVの前記セットを、前記核酸シークエンシングデータおよび前記参照シークエンシングデータが、前記フローサイクル順序に従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用してシークエンシングされたときに、1または複数のフローサイクルにわたって参照配列に関連する参照シークエンシングデータと異なる核酸シークエンシングデータを生じさせる結果となるSNVのみを含むように、フィルター処理することを含む、請求項31または32に記載の方法。
  34. 前記核酸分子が、無細胞核酸分子である、請求項1から33のいずれか一項に記載の方法。
  35. 前記核酸分子が、DNA分子である、請求項1から34のいずれか一項に記載の方法。
  36. 前記核酸分子が、RNA分子である、請求項1から34のいずれか一項に記載の方法。
  37. 前記核酸シークエンシングデータが、前記個体から得られた流体試料中の核酸分子から導出される、請求項1から36のいずれか一項に記載の方法。
  38. 前記流体試料が、血液試料、血漿試料、唾液試料、尿試料、または糞便試料である、請求項37に記載の方法。
  39. 前記疾患ががんである、請求項1から38のいずれか一項に記載の方法。
  40. 前記がんが、転移性がんである、請求項39に記載の方法。
  41. 核酸分子をシークエンシングして前記シークエンシングデータを得るステップをさらに含む、請求項1から40のいずれか一項に記載の方法。
  42. 前記核酸シークエンシングデータが、所定のヌクレオチドシークエンシングサイクル順序に従って核酸分子をシークエンシングすることにより得られる、請求項1から41のいずれか一項に記載の方法。
  43. 前記核酸シークエンシングデータが、異なる所定のヌクレオチドシークエンシングサイクルに従って前記核酸分子を再シークエンシングすることによりさらに得られ、前記異なる所定のヌクレオチドシークエンシングサイクルが、シークエンシング遺伝子座のサブセットにおいて第1の所定のヌクレオチドシークエンシングサイクル順序と比較して異なる偽陽性バリアント率を生じさせる結果となる、請求項42に記載の方法。
  44. 前記シークエンシングデータが、非標的シークエンシングデータである、請求項1から43のいずれか一項に記載の方法。
  45. 前記シークエンシングデータが、非標的全ゲノムから得られる、請求項44に記載の方法。
  46. 前記シークエンシングデータの平均シークエンシング深度が、少なくとも0.01である、請求項1から45のいずれか一項に記載の方法。
  47. 前記シークエンシンデータの前記平均シークエンシング深度が、約100未満である、請求項1から46のいずれか一項に記載の方法。
  48. 前記シークエンシンデータの前記平均シークエンシング深度が、約10未満である、請求項1から47のいずれか一項に記載の方法。
  49. 前記シークエンシンデータの前記平均シークエンシング深度が、約1未満である、請求項1から48のいずれか一項に記載の方法。
  50. 前記疾患関連SNV遺伝子座パネルが、パッセンジャー突然変異を含む、請求項1から49のいずれか一項に記載の方法。
  51. 前記疾患関連SNV遺伝子座パネルが、ドライバー突然変異を含む、請求項1から50のいずれか一項に記載の方法。
  52. 前記疾患関連SNV遺伝子座パネルが、一塩基多型(SNP)遺伝子座を含む、請求項1から51のいずれか一項に記載の方法。
  53. 前記疾患関連SNV遺伝子座パネルが、インデル遺伝子座を含む、請求項1から52のいずれか一項に記載の方法。
  54. 前記疾患関連SNV遺伝子座パネルからの前記選択された遺伝子座が、約300またはそれより多くの遺伝子座を含む、請求項1から53のいずれか一項に記載の方法。
  55. 前記疾患関連SNVパネルから選択される前記遺伝子座が、前記個々の遺伝子座の偽陽性率に基づいて選択される、請求項1から54のいずれか一項に記載の方法。
  56. 前記疾患関連SNVパネルから選択される前記遺伝子座が、前記疾患の選択されたサブクローンに関連する固有のSNVに基づく、請求項1から55のいずれか一項に記載の方法。
  57. 前記疾患関連SNVパネルが、前記罹患組織に関連するシークエンシングデータを非罹患組織に関連するシークエンシングデータと比較することにより決定される、請求項1から56のいずれか一項に記載の方法。
  58. 前記罹患組織に由来する核酸分子をシークエンシングして前記罹患組織に関連するシークエンシングデータを得るステップを含む、請求項57に記載の方法。
  59. 前記非罹患組織に由来する核酸分子をシークエンシングして前記非罹患組織に関連するシークエンシングデータを得るステップを含む、請求項57または58に記載の方法。
  60. 前記核酸シークエンシングデータが、前記核酸分子の表面ベースのシークエンシングを使用して得られ、前記核酸分子が、表面への前記核酸分子の付着前に増幅されない、請求項1から59のいずれか一項に記載の方法。
  61. 前記核酸シークエンシングデータが、固有分子識別子(UMI)を使用せずに得られる、請求項1から60のいずれか一項に記載の方法。
  62. 前記核酸シークエンシングデータが、試料識別バーコードを使用せずに得られる、請求項1から61のいずれか一項に記載の方法。
  63. 前記シークエンシング偽陽性エラー率が、対照遺伝子座のパネルを使用して測定される、請求項1から62のいずれか一項に記載の方法。
  64. 前記シークエンシングデータが、プールされた試料中の複数の個体から得られた核酸分子をシークエンシングすることにより得られる、請求項1から63のいずれか一項に記載の方法。
  65. 前記選択された遺伝子座が、前記複数の個体のうち各個体に固有のものである、請求項64に記載の方法。
  66. 前記選択された遺伝子座の中の少なくとも1つの遺伝子座が、前記複数の個体における少なくとも2名の個体間で共通している、請求項65に記載の方法。
  67. シークエンシング深度が、個体ごとに決定され、各個体についてのシグナルが、その個体に関連するシークエンシング深度に基づいて調整される、請求項64から66のいずれか一項に記載の方法。
  68. 前記個体における疾患の存在、非存在またはレベルを示すレポートを生成するステップを含む、請求項1から67のいずれか一項に記載の方法。
  69. 前記レポートを患者にまたは前記患者の医療担当者に提供するステップを含む、請求項68に記載の方法またはシステム。
  70. 1または複数台のプロセッサーと、
    請求項1から69のいずれか一項に記載の方法を実行するための命令を含む1つまたは複数のプログラムを記憶する非一過性コンピュータ可読媒体と
    を含むシステム。

JP2021568310A 2019-05-17 2020-05-15 残存疾患を検出するための方法およびシステム Pending JP2022532403A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962849414P 2019-05-17 2019-05-17
US62/849,414 2019-05-17
US202062971530P 2020-02-07 2020-02-07
US62/971,530 2020-02-07
PCT/US2020/033217 WO2020236630A1 (en) 2019-05-17 2020-05-15 Methods and systems for detecting residual disease

Publications (2)

Publication Number Publication Date
JP2022532403A true JP2022532403A (ja) 2022-07-14
JPWO2020236630A5 JPWO2020236630A5 (ja) 2023-05-18

Family

ID=73458794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021568310A Pending JP2022532403A (ja) 2019-05-17 2020-05-15 残存疾患を検出するための方法およびシステム

Country Status (9)

Country Link
US (1) US20200392584A1 (ja)
EP (1) EP3969617A4 (ja)
JP (1) JP2022532403A (ja)
KR (1) KR20220032525A (ja)
CN (1) CN114127308A (ja)
AU (1) AU2020279107A1 (ja)
CA (1) CA3139535A1 (ja)
IL (1) IL288098A (ja)
WO (1) WO2020236630A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114096682A (zh) 2019-05-03 2022-02-25 阿尔缇玛基因组学公司 通过合成方法的快进测序
US11763915B2 (en) 2019-05-03 2023-09-19 Ultima Genomics, Inc. Methods for detecting nucleic acid variants
AU2020309582B2 (en) 2019-07-10 2022-02-24 Ultima Genomics, Inc. RNA sequencing methods
WO2024091545A1 (en) * 2022-10-25 2024-05-02 Cornell University Nucleic acid error suppression
CN116356001B (zh) * 2023-02-07 2023-12-15 江苏先声医学诊断有限公司 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050019787A1 (en) * 2003-04-03 2005-01-27 Perlegen Sciences, Inc., A Delaware Corporation Apparatus and methods for analyzing and characterizing nucleic acid sequences
US8772473B2 (en) * 2009-03-30 2014-07-08 The Regents Of The University Of California Mostly natural DNA sequencing by synthesis
EP2861767A4 (en) * 2012-06-15 2016-07-27 Nuclea Biotechnologies Inc PREDICTIVE MARKERS FOR CANCER AND METAL CHANGE SYNDROME
US11261494B2 (en) * 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
EP3795696B1 (en) * 2013-03-15 2023-04-26 The Board of Trustees of the Leland Stanford Junior University Identification and use of circulating nucleic acid tumor markers
KR102358206B1 (ko) * 2016-02-29 2022-02-04 파운데이션 메디신 인코포레이티드 종양 돌연변이 부담을 평가하기 위한 방법 및 시스템
EP3443066A4 (en) * 2016-04-14 2019-12-11 Guardant Health, Inc. EARLY DETECTION METHODS FOR CANCER
CN111164701A (zh) * 2017-10-06 2020-05-15 格瑞尔公司 针对靶标定序的定点噪声模型
US20190316209A1 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-Assay Prediction Model for Cancer Detection

Also Published As

Publication number Publication date
EP3969617A4 (en) 2023-08-16
EP3969617A1 (en) 2022-03-23
WO2020236630A1 (en) 2020-11-26
AU2020279107A1 (en) 2021-11-25
KR20220032525A (ko) 2022-03-15
IL288098A (en) 2022-01-01
US20200392584A1 (en) 2020-12-17
CN114127308A (zh) 2022-03-01
CA3139535A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
JP6664025B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
JP7458360B2 (ja) 疾患細胞不均一性を示す疾患の検出および処置、ならびに通信試験結果のためのシステムおよび方法
US20220195530A1 (en) Identification and use of circulating nucleic acid tumor markers
Gao et al. Single-cell sequencing deciphers a convergent evolution of copy number alterations from primary to circulating tumor cells
JP6829211B2 (ja) 癌スクリーニング及び胎児分析のための変異検出
CA2980078C (en) Systems and methods for analyzing nucleic acid
JP2022532403A (ja) 残存疾患を検出するための方法およびシステム
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
Ledgerwood et al. The degree of intratumor mutational heterogeneity varies by primary tumor sub-site
US20240018599A1 (en) Methods and systems for detecting residual disease
JP2023526252A (ja) 相同組換え修復欠損の検出
US20220025466A1 (en) Differential methylation
CN115428087A (zh) 克隆水平缺乏靶变体的显著性建模
Nordentoft et al. Whole genome mutational analysis for tumor-informed ctDNA based MRD surveillance, treatment monitoring and biological characterization of urothelial carcinoma
US20220017967A1 (en) Molecular signature
EP4100953A1 (en) Methods for detecting and characterizing microsatellite instability with high throughput sequencing
CN118103916A (zh) 用于检测和去除针对拷贝数改变调用的污染的方法和系统
Cradic Next Generation Sequencing: Applications for the Clinic
O’Sullivan Computational approaches to identify and explain sources of error in cancer somatic mutation data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230510

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240501