JP2022511208A - 体細胞バリアント検出のための方法および組成物 - Google Patents

体細胞バリアント検出のための方法および組成物 Download PDF

Info

Publication number
JP2022511208A
JP2022511208A JP2020572675A JP2020572675A JP2022511208A JP 2022511208 A JP2022511208 A JP 2022511208A JP 2020572675 A JP2020572675 A JP 2020572675A JP 2020572675 A JP2020572675 A JP 2020572675A JP 2022511208 A JP2022511208 A JP 2022511208A
Authority
JP
Japan
Prior art keywords
variants
variant
germline
database
tumor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020572675A
Other languages
English (en)
Inventor
ジン ヒュン ジュ,
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2022511208A publication Critical patent/JP2022511208A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本明細書で提供される方法およびシステムの一部の実施形態は、単一の試料から得られた配列データからのバリアント呼び出しに関する。一部の実施形態では、体細胞バリアントは、試料中のバリアント対立遺伝子頻度およびゲノム中の位置に基づいて、生殖系列バリアントから区別され得る。上記方法は、複数のバリアントにデータベースフィルターを適用するステップ、および前記複数のバリアントに近接フィルターを適用するステップを含み得る。

Description

発明の分野
本明細書で提供される方法およびシステムの一部の実施形態は、単一の試料から得られた配列データからのバリアント呼び出しに関する。一部の実施形態では、体細胞バリアントは、試料中のバリアントのバリアント対立遺伝子頻度およびゲノム中のその位置に基づいて、生殖系列バリアントから識別され得る。
発明の背景
DNA突然変異は、がんの原因であり、がんの研究および処置の焦点である。次世代シーケンシング(NGS)は、現代のシーケンサーが生成できる膨大な数の読み取りに起因して、de novo突然変異検出のための有望なテクノロジーである。理論的には、ゲノム試料中の全ての突然変異またはバリアントを、バリアント対立遺伝子頻度(VAF)またはゲノム領域とは関係なく、十分な読み取り深度を前提として観察することができる。しかし、自信を持ってバリアントを呼び出すことは、読み取りにおけるノイズに起因して、些末なことではない。いくつかのバイオインフォマティクスツールが、シーケンシング読み取りからバリアントを見出すために開発されており、かかる手順は、典型的には、以下の3つの構成要素からなる:読み取り処理、マッピングおよびアラインメント、ならびにバリアント呼び出し。
読み取り処理のために、通常は読み取りの3’末端近傍の低品質の塩基、およびシーケンシングアダプタなどの外因性配列は、DNA試料読み取り処理ツールからトリミングされる。第2に、クリーンにされた読み取りは、バリアントが参照ゲノムに由来し得る場所を決定するために、マッピングおよびアラインメントツールを使用してマッピングされ、次いで、塩基ごとにアラインされる。第3のステップである、バリアント呼び出しのプロセスは、ライブラリー調製、試料富化、シーケンシングおよびマッピング/アラインメントから生じるアーチファクトから、実際のバリアントを分離するために使用される。配列データからのバリアント呼び出しの改善された方法が、引き続き必要とされている。
発明の要旨
一部の実施形態は、複数のバリアントにおける体細胞バリアントを識別するための方法であって、(a)体細胞バリアントおよび生殖系列バリアントを含む複数のバリアントを得るステップ;(b)複数のバリアントにデータベースフィルターを適用するステップであって、複数のバリアントにおける第1の生殖系列バリアントを決定する工程を含み、第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、ステップ;(c)複数のバリアントに近接フィルターを適用するステップであって、(i)複数のバリアントのバリアントを複数のビン中にビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、(ii)複数のバリアントにおけるデータベースバリアントを決定する工程であって、データベースバリアントが、バリアントの第2の参照セット中に存在する、工程、および(iii)複数のバリアントにおける第2の生殖系列バリアントを決定する工程であって、第2の生殖系列バリアントが各々、第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、工程を含む、ステップ;ならびに(d)複数のバリアントから識別された第1および第2の生殖系列バリアントを除去することによって、複数のバリアントにおける体細胞バリアントを決定するステップを含む、方法を含む。
一部の実施形態では、(b)および(c)は、連続的に実施される。
一部の実施形態では、(c)は、(b)の前に実施される。
一部の実施形態では、閾値対立遺伝子カウントは、5である。一部の実施形態では、閾値対立遺伝子カウントは、10である。
一部の実施形態では、バリアントの第1および第2の参照セットは、同じ参照セットである。
一部の実施形態では、バリアントの第1または第2の参照セットは、複数の個体についてのバリアントのデータベースを含む。一部の実施形態では、バリアントの第1または第2の参照セットは、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む。
一部の実施形態では、ゲノムの同じ領域は、同じ染色体内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体腕内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体サイトバンド(cytoband)内にある。一部の実施形態では、ゲノムの同じ領域は、10Mbの領域内にある。
一部の実施形態では、近接フィルターを適用するステップは、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別する工程をさらに含む。
一部の実施形態では、近接フィルターを適用するステップは、複数のバリアントにおける第2の生殖系列バリアントを識別する工程をさらに含み、第2の生殖系列バリアントは、バリアントの第2の参照セット中に存在するデータベースバリアントである。
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲である。
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。
一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。
一部の実施形態では、(a)は、腫瘍細胞を含む生体試料から配列データを得る工程を含む。一部の実施形態は、配列データを参照配列とアラインさせる工程、および配列データ中のバリアントを識別する工程もまた含む。
一部の実施形態では、腫瘍細胞を含む生体試料は、血清試料、大便試料、血液試料、腫瘍試料から選択される。一部の実施形態では、腫瘍試料は、固定される。
一部の実施形態は、腫瘍の腫瘍突然変異量を決定する方法であって、腫瘍細胞を含む生体試料から配列データを得るステップ;配列データから複数のバリアントを決定するステップ;および上述の実施形態のいずれか1つの方法に従って、複数のバリアントにおける体細胞バリアントの数を決定するステップであって、体細胞バリアントの数が、腫瘍の腫瘍突然変異量である、ステップを含む、方法を含む。
一部の実施形態は、腫瘍を処置する方法であって、腫瘍の腫瘍突然変異量を決定する方法に従って、10体細胞バリアントよりも大きいまたはそれと等しい腫瘍突然変異量を有する腫瘍を決定するステップ;および有効量のチェックポイント阻害剤を投与することによって、腫瘍を処置するステップを含む、方法を含む。
一部の実施形態では、腫瘍は、結腸直腸腫瘍、肺腫瘍、子宮内膜腫瘍、子宮腫瘍、胃腫瘍、黒色腫、乳房腫瘍、膵腫瘍、腎臓腫瘍、膀胱腫瘍および脳腫瘍からなる群から選択される。
一部の実施形態では、チェックポイント阻害剤は、CTLA-4阻害剤、PD-1阻害剤およびPD-L1阻害剤からなる群から選択される。一部の実施形態では、チェックポイント阻害剤は、イピリムマブ、ニボルマブ、ペムブロリズマブ、スパルタリズマブ、アテゾリズマブ、アベルマブおよびデュルバルマブからなる群から選択される。
一部の実施形態は、遺伝的変異データを分析するための電子システムであって、プロセッサー上で実行され、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを識別するように適合されたインフォマティクスモジュールであって、複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、インフォマティクスモジュール;複数のバリアントから第1の生殖系列バリアントを除去するように適合されたデータベースフィルターモジュールであって、第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、データベースフィルターモジュール;複数のバリアントから第2の生殖系列バリアントを除去するように適合された近接フィルターモジュールであって、近接フィルターモジュールが、複数のビンを返すように適合されたビニングサブモジュールであって、各ビンが、ゲノムの同じ領域中に位置する複数のバリアントのバリアントを含む、ビニングサブモジュール、複数のバリアントにおけるデータベースバリアントを返すように適合された識別サブモジュールであって、データベースバリアントが、バリアントの第2の参照セット中に存在する、識別サブモジュール、および複数のバリアントから第2の生殖系列バリアントを除去するように適合された除去サブモジュールであって、第2の生殖系列バリアントが各々、第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、除去サブモジュールを含む、近接フィルターモジュール;ならびに複数のバリアントから除去されなかったバリアントを返すように適合されたディスプレイモジュールを含む、電子システムを含む。
一部の実施形態では、インフォマティクスモジュールは、バリアントアノテーションツールを含む。
一部の実施形態では、閾値対立遺伝子カウントは、5である。一部の実施形態では、閾値対立遺伝子カウントは、10である。
一部の実施形態では、バリアントの第1および第2の参照セットは、同じ参照セットである。
一部の実施形態では、バリアントの第1または第2の参照セットは、複数の個体についてのバリアントのデータベースを含む。一部の実施形態では、バリアントの第1または第2の参照セットは、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む。
一部の実施形態では、ゲノムの同じ領域は、同じ染色体内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体腕内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体サイトバンド内にある。一部の実施形態では、ゲノムの同じ領域は、10Mbの領域内にある。
一部の実施形態では、除去サブモジュールは、複数のバリアントから、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントを除去するように適合される。
一部の実施形態では、除去サブモジュールは、複数のバリアントから、バリアントの第2の参照セット中に存在するデータベースバリアントを除去するように適合される。
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲である。
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。
一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。
一部の実施形態では、腫瘍細胞を含む生体試料は、血清試料、大便試料、血液試料、腫瘍試料から選択される。一部の実施形態では、腫瘍試料は、固定される。
一部の実施形態は、複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、上述の方法のいずれか1つの方法を実施するステップを含む、方法を含む。
一部の実施形態は、複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、(a)腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを受け取るステップであって、複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、ステップ;(b)複数のバリアントにデータベースフィルターを適用するステップであって、複数のバリアントについてドキュメントのインデックスを作成する工程、インデックスを用いてバリアントの第1の参照セットを検索して、インデックスにおける第1の生殖系列バリアントを識別する工程であって、第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、工程、およびインデックスから識別された第1の生殖系列バリアントを除去して、第1のフィルタリングされたバリアントのインデックスを作成する工程を含む、ステップ;(c)第1のフィルタリングされたバリアントのインデックスに近接フィルターを適用するステップであって、(i)ゲノムの異なる領域について複数のビンを作成する工程、(ii)第1のフィルタリングされたバリアントのインデックスのバリアントをビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、(iii)第1のフィルタリングされたバリアントのインデックスを用いてバリアントの第2の参照セットを検索して、第1のフィルタリングされたバリアントのインデックスにおけるデータベースバリアントを識別する工程、(iv)第2の生殖系列バリアントを識別することによって、第1のフィルタリングされたバリアントのインデックスから第2の生殖系列バリアントのインデックスを生成する工程であって、第2の生殖系列バリアントが各々、第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、工程、および(v)第1のフィルタリングされたバリアントのインデックスから識別された第2の生殖系列バリアントを除去して、体細胞バリアントのインデックスを作成し、それによって、複数のバリアントにおける体細胞バリアントを識別する工程を含む、ステップを含む、方法を含む。
一部の実施形態では、閾値対立遺伝子カウントは、5である。一部の実施形態では、閾値対立遺伝子カウントは、10である。
一部の実施形態では、バリアントの第1および第2の参照セットは、同じ参照セットである。
一部の実施形態では、バリアントの第1または第2の参照セットは、複数の個体についてのバリアントのデータベースを含む。一部の実施形態では、バリアントの第1または第2の参照セットは、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む。
一部の実施形態では、ゲノムの同じ領域は、同じ染色体内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体腕内にある。一部の実施形態では、ゲノムの同じ領域は、同じ染色体サイトバンド内にある。一部の実施形態では、ゲノムの同じ領域は、10Mbの領域内にある。
一部の実施形態では、第2のフィルタリングされたバリアントのインデックスを生成する工程は、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別することをさらに含む。
一部の実施形態では、第2のフィルタリングされたバリアントのインデックスを生成する工程は、複数のバリアントにおける第2の生殖系列バリアントを識別することをさらに含み、第2の生殖系列バリアントは、バリアントの第2の参照セット中に存在するデータベースバリアントである。
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度から0.05の最大値および最小値を有する範囲である。
一部の実施形態では、近似範囲は、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。
一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。一部の実施形態では、第2の生殖系列バリアントは、第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する。
一部の実施形態では、腫瘍細胞を含む生体試料は、血清試料、大便試料、血液試料、腫瘍試料から選択される。一部の実施形態では、腫瘍試料は、固定される。
図1は、VCFファイルなどの配列データを得るステップ、データ中のバリアントを識別およびアノテーションするステップ、生殖系列バリアントを識別およびフィルタリングするステップ、ならびにバリアントの状態を示すバリアント表を返すステップを含むワークフローの、例となる実施形態を示す。
図2Aは、体細胞バリアント(黒色で塗りつぶされた丸)および生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。
図2Bは、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのVAFを示すグラフである。
図3は、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントについて第1~7染色体についての染色体位置に従う種々のバリアントについてのVAFを示すグラフ、ならびに特定のフィルター決定された体細胞バリアントが選択された第7染色体上に位置するバリアントについての拡大図、ならびに選択されたバリアントから引き出された範囲である。
図4Aは、データベースフィルターのみでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのVAFを示すグラフである。
図4Bは、データベースフィルターのみおよび近接フィルターでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのVAFを示すグラフである。
図5は、ホルマリン固定パラフィン包埋(FFPE)試料を得るステップ、配列データを得るステップ、および配列データを分析するステップを含むワークフローの、例となる実施形態の概略を示す。
図6は、データベースフィルターおよび近接フィルターを使用して、識別されたバリアントから生殖系列バリアントをフィルタリングするステップ、ならびに腫瘍突然変異量を計算するステップを含むワークフローの、例となる実施形態を示す。
図7は、データベースのみ(約3生殖系列残留/Mbにグラフのピーク)およびハイブリッド戦略(約0生殖系列残留/Mbにグラフのピーク)によるフィルタリング後の残存する生殖系列バリアントカウントの分布を示す線グラフである。
図8Aは、腫瘍のみアッセイと腫瘍/正常アッセイとの間の腫瘍突然変異量(TMB)の比較を示すグラフである。
図8Bは、腫瘍のみアッセイとWES腫瘍-正常アッセイとの間の腫瘍突然変異量(TMB)の比較を示すグラフである。
詳細な説明
本明細書で提供される方法およびシステムの一部の実施形態は、単一の試料から得られた配列データからのバリアント呼び出しに関する。一部の実施形態では、体細胞バリアントは、試料中のバリアントの対立遺伝子頻度およびゲノム中のバリアントの位置に基づいて、生殖系列バリアントから識別され得る。本明細書で使用される場合、「バリアント」には、核酸分子内の多型が含まれ得る。多型には、挿入、欠失、可変長タンデムリピート、単一ヌクレオチド突然変異、および構造的バリアント、例えば、転座、コピー数変異、またはそれらの組合せが含まれ得る。本明細書で使用される場合、「生殖系列バリアント」には、個体の胚細胞および全ての細胞中に存在するバリアントが含まれ得る。本明細書で使用される場合、「体細胞バリアント」には、個体の腫瘍細胞中に存在するが、他の細胞中には存在しないバリアントが含まれ得る。
伝統的に、体細胞バリアントと生殖系列バリアントとの間のバリアント呼び出しは、腫瘍試料から得られたデータと、対応する正常試料から得られたデータとの間の比較に依存してきた。しかし、伝統的なバリアント呼び出しは、それに見合った試料が入手可能であることおよび2セットのデータが得られることを要求する。本明細書で提供される実施形態は、個体由来の単一の試料から取得した配列データからのバリアント呼び出しに関する。単一の試料を使用することは、それに見合った試料の必要性を低減させ得、腫瘍試料およびそれに見合った正常試料の両方について配列データを得るために必要なコストを低減させ得る。
一部の実施形態は、試料、例えば、腫瘍細胞を含む個体由来の試料から配列データを得ること、配列データを参照と比較して、配列データにおける複数のバリアントを識別すること、ならびに1つまたは複数のフィルターをバリアントに適用して、生殖系列バリアントおよび体細胞バリアントを識別することに関する。一部の実施形態では、フィルターには、近接フィルターが含まれ得る。一部の実施形態では、近接フィルターは、ゲノム中のバリアントの位置に従って、複数のバリアントを複数のビン中にビニングすることを含む。ビニングされたバリアントの一部は、バリアントの1つまたは複数の参照セットにおける対応するバリアントの存在によって、生殖系列バリアントとして識別され得る。特徴付けられていないビニングされたバリアントが、特徴付けられていないバリアントと同じビン中の1つまたは複数の識別された生殖系列バリアントの対立遺伝子頻度と類似の対立遺伝子頻度を有する場合、特徴付けられていないビニングされたバリアントは、生殖系列バリアントであると決定され得る。一部の実施形態は、データベースフィルターを適用して、生殖系列バリアントを識別することも含む。データベースフィルターは、バリアントの1つまたは複数の参照セット中の対応するバリアントの対立遺伝子カウントに従って、生殖系列バリアントを識別し得る。一部の実施形態では、データベースフィルターおよび近接フィルターは、生殖系列バリアントを識別するために、複数のバリアントに適用され得る。一部の実施形態では、体細胞バリアントは、生殖系列バリアントとして識別されるバリアントである。体細胞バリアントの数は、腫瘍の腫瘍突然変異量を示し得る。
腫瘍突然変異量は、最近の研究が腫瘍突然変異量とチェックポイント阻害剤免疫療法の有効性との間の相関を示した後で、がん治療選択のための重要なバイオマーカーとして出現してきた。腫瘍突然変異量を計算する際には、生殖系列バリアントを識別し、それをフィルタリングして除くことが有用である。生殖系列バリアントには、個体がそれを持って生まれた(または腫瘍と正常細胞との間で共有される)が、参照ゲノムと比較してバリアントとして検出されるバリアントが含まれ得る。これらのバリアントは、腫瘍細胞を正常細胞から識別することに寄与せず、したがって、正確にフィルタリングされて除かれない場合、腫瘍突然変異量の過大評価をもたらし得る。実施形態は、腫瘍について腫瘍突然変異量を決定するステップ、腫瘍突然変異量に従って腫瘍のための処置を選択するステップ、およびそれを必要とする対象に処置を投与するステップを含む。
ある特定の方法
本明細書で提供される方法およびシステムの一部の実施形態は、体細胞バリアントおよび生殖系列バリアントを含む複数のバリアントにおける体細胞バリアントを識別するための方法に関する。一部の実施形態では、1つまたは複数のフィルターを使用して、複数のバリアントから生殖系列バリアントをフィルタリングすることができる。かかるフィルターの例には、データベースフィルターおよび近接フィルターが含まれる。
一部の実施形態では、複数のバリアントにデータベースフィルターを適用することができる。データベースフィルターを使用して、バリアントを生殖系列バリアントとして識別し、複数のバリアントからバリアントを除去することができる。データベースフィルターは、複数のバリアントの特定のバリアントについての、データベースにおける対応するバリアントの対立遺伝子カウントに関連し得る。
複数の各バリアントについて、参照データベースは、データベースにおける対応するバリアントについて検索され得る。参照データベースは、複数の個体についてのバリアントのデータベースを含み得る。本明細書で提供される実施形態で有用なデータベースの例には、gnomADエクソームおよびgnomADゲノムデータベースを含むゲノム集約データベース(gnomAD)、ならびに1000ゲノムデータベース(International Genome Sample Resource)が含まれる。例えば、その全体が参照によって組み込まれるLek, M., et al., (2016) Nature 536:285-292を参照のこと。総対立遺伝子カウントは、1つまたは複数の参照データベースにおける対応するバリアントについて決定され得る。対立遺伝子カウントは、バリアントが観察されるデータベース内の観察の総数を示し得る。例えば、対応するバリアントについてのデータベースにおける10の対立遺伝子カウントは、ホモ接合性バリアントについて少なくとも5つの試料、またはヘテロ接合性バリアントについて最大10個の試料において、対応するバリアントが観察されたことを示している。一部の実施形態では、対立遺伝子カウントは、1つよりも多いデータベースにおいて観察された最も高い対立遺伝子カウントであり得る。ある特定の閾値対立遺伝子カウントよりも大きいまたはそれと等しい対立遺伝子カウントを有する対応するバリアントを有するバリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、閾値対立遺伝子カウントは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19および20よりも大きいまたはそれと等しい場合がある。
一部の実施形態では、複数のバリアントに近接フィルターを適用することができる。データベースフィルターを使用して、バリアントを生殖系列バリアントとして識別し、複数のバリアントからバリアントを除去することができる。近接フィルターは、複数のバリアントのある特定のバリアントの対立遺伝子頻度、ゲノムの領域中のバリアントの位置、およびバリアントの対立遺伝子頻度の、ゲノムの同じ領域における識別された生殖系列バリアントの対立遺伝子頻度との近接に関連し得る。一部の実施形態では、複数のバリアントのバリアントは、ゲノムの同じ領域中に位置するバリアントが、同じビン中に選別またはビニングされるように、複数のビン中に選別またはビニングされ得る。一部の実施形態では、ゲノムの同じ領域は、同じ染色体内、染色体の同じ腕内、同じ染色体サイトバンド内にあり得る。一部の実施形態では、ゲノムの同じ領域は、同じ連続する100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内、または上述の数のうち任意の2つの間の任意の範囲内であり得る。
一部の実施形態では、近接フィルターは、どのビニングされたバリアントが生殖系列バリアントとして容易に識別可能かを決定することも含む。例えば、ビニングされたバリアントは、1つまたは複数の参照データベース中に存在する対応するバリアントを有し得、生殖系列バリアントとして識別され得る。
一部の実施形態では、近接フィルターは、試料中の閾値頻度よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントが生殖系列バリアントであることを決定することを含む。一部のかかる実施形態では、0.7、0.8、0.9または1.0よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントは、生殖系列バリアントとして識別され得る。
一部の実施形態では、近接フィルターは、生殖系列バリアントとして識別されていないバリアントについての対立遺伝子頻度の近似範囲を決定することを含む。バリアントについての対立遺伝子頻度の近似範囲は、バリアントの対立遺伝子頻度の上および下の対立遺伝子頻度の範囲を含み得る。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度から0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、または上述の数のうち任意の2つの間の範囲内の任意の数の最大値および最小値を有する範囲である。例えば、0.2の対立遺伝子頻度および0.05の近似範囲を有するバリアントについて、近似範囲の最小値および最大値は、それぞれ、0.15および0.25の対立遺伝子頻度である。
一部の実施形態では、近似範囲は、所与のバリアントについての支持的証拠が二項プロセスによって生成されると仮定して、二項分布の2(n)標準偏差の値によって決定される。例えば、対立遺伝子頻度(x)、カバレッジ(y)を有するバリアントについて、近似範囲(z)は、
z=nsqrt(y(1-x))/y
であり得る。
例えば、0.2の対立遺伝子頻度、100のシーケンシングのカバレッジ/深度を有するバリアントについて、近似範囲は0.08であり、近似範囲の最小値および最大値は、それぞれ、0.12および0.28の対立遺伝子頻度である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の上および下、0.05、またはバリアントの対立遺伝子頻度の二項分布から2(n)標準偏差のいずれか高い方である。
一部の実施形態では、バリアントが、バリアントと同じビン中の1つまたは複数の識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、バリアントが、バリアントと同じビン中の1、2、3、4、5、6、7、8、9または10個よりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、バリアントが、バリアントと同じビン中の5つよりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。例えば、バリアントが、バリアントと同じビン中の5つよりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合に、バリアントが生殖系列バリアントとして識別される実施形態では、0.2の対立遺伝子頻度、0.05の近似範囲を有し、したがって、0.15の範囲最小値および0.25の範囲最大値を有し、第7染色体を示すビン中にビニングされたバリアントは、5つよりも多い識別された生殖系列バリアントがバリアントの近似範囲中の対立遺伝子頻度を有し、第7染色体を示すビン中にビニングされた場合、生殖系列バリアントとして識別される。
一部の実施形態では、近接フィルターは、生殖系列バリアントとして識別されていないバリアントである体細胞バリアントを識別する。一部の実施形態では、腫瘍由来のシーケンシングデータから得られた体細胞バリアントの数は、腫瘍の腫瘍突然変異量である。
一部の実施形態では、複数のバリアントにデータベースフィルターまたは近接フィルターを適用して、生殖系列バリアントを識別し、複数のバリアントからそれを除去することができる。一部の実施形態では、データベースフィルターおよび近接フィルターは、連続的に適用され得る。例えば、かかるデータベースフィルターの出力物は、近接フィルターの入力物として使用され得る。逆に、近接フィルターの出力物は、データベースフィルターの入力物として使用され得る。
ある特定の電子システムおよびコンピューター実装方法
本明細書で提供される方法およびシステムの一部の実施形態は、遺伝的変異データを分析するための電子システムを含む。一部のかかる実施形態では、本明細書に記載されるデータベースフィルターおよび/または本明細書に記載される近接フィルターは、生殖系列バリアントを識別するために、遺伝的変異データに適用され得る。
一部の実施形態は、プロセッサー上で実行される、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを識別するように適合されたインフォマティクスモジュールであって、複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、インフォマティクスモジュールを含み得る。
一部の実施形態は、複数のバリアントから生殖系列バリアントを除去するように適合されたデータベースフィルターモジュールであって、生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの参照セットにおける対立遺伝子カウントを有する、データベースフィルターモジュールを含む。一部の実施形態では、閾値対立遺伝子カウントは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19および20よりも大きいまたはそれと等しい場合がある。
一部の実施形態は、複数のバリアントから生殖系列バリアントを除去するように適合された近接フィルターモジュールを含む。一部の実施形態では、近接フィルターモジュールは、複数のビンを返すように適合されたビニングサブモジュールであって、各ビンが、ゲノムの同じ領域中に位置する複数のバリアントのバリアントを含む、ビニングサブモジュールを含み得る。一部の実施形態では、複数のバリアントのバリアントは、ゲノムの同じ領域中に位置するバリアントが、同じビン中に選別またはビニングされるように、複数のビン中に選別またはビニングされ得る。一部の実施形態では、ゲノムの同じ領域は、同じ染色体内、染色体の同じ腕内、同じ染色体サイトバンド内にあり得る。一部の実施形態では、ゲノムの同じ領域は、同じ連続する100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内、または上述の数のうち任意の2つの間の任意の範囲内であり得る。
一部の実施形態では、近接フィルターモジュールは、複数のバリアントにおけるデータベースバリアントを返すように適合された識別サブモジュールであって、データベースバリアントが、バリアントの参照セット中に存在する、識別サブモジュールを含み得る。
一部の実施形態では、近接フィルターモジュールは、複数のバリアントから生殖系列バリアントを除去するように適合された除去サブモジュールであって、生殖系列バリアントが各々、生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、除去サブモジュールを含み得る。一部の実施形態では、近接フィルターは、生殖系列バリアントとして識別されていないバリアントについての対立遺伝子頻度の近似範囲を決定することを含む。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度から0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、または上述の数のうち任意の2つの間の範囲内の任意の数の最大値および最小値を有する範囲である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の上および下、0.05、またはバリアントの対立遺伝子頻度の二項分布から2(n)標準偏差、のうち高い方である。
一部の実施形態では、バリアントが、バリアントと同じビン中の1つまたは複数の識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、バリアントが、バリアントと同じビン中の1、2、3、4、5、6、7、8、9または10個よりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、除去サブモジュールは、閾値頻度よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントを除去するように適合される。一部のかかる実施形態では、0.7、0.8、0.9または1.0よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、除去サブモジュールは、複数のバリアントから、バリアントの参照セット中に存在するデータベースバリアントを除去するように適合される。
本明細書で提供される一部の実施形態は、複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法を含む。一部のかかる実施形態は、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを受け取るステップであって、複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含み得る、ステップを含み得る。
一部の実施形態は、複数のバリアントにデータベースフィルターを適用するステップを含む。一部のかかる実施形態は、複数のバリアントについてドキュメントのインデックスを作成する工程、インデックスを用いてバリアントの参照セットを検索して、インデックスにおける生殖系列バリアントを識別する工程を含む。一部の実施形態では、生殖系列バリアントは各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの参照セットにおける対立遺伝子カウントを有する。一部の実施形態では、閾値対立遺伝子カウントは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19および20よりも大きいまたはそれと等しい場合がある。一部の実施形態は、インデックスから識別された生殖系列バリアントを除去して、第1のフィルタリングされたバリアントのインデックスを作成する工程も含む。
一部の実施形態は、第1のフィルタリングされたバリアントのインデックスに近接フィルターを適用するステップを含む。一部のかかる実施形態は、ゲノムの異なる領域について複数のビンを作成する工程を含む。一部の実施形態は、第1のフィルタリングされたバリアントのインデックスのバリアントをビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程を含む。一部の実施形態では、ゲノムの同じ領域は、同じ染色体内、染色体の同じ腕内、同じ染色体サイトバンド内にあり得る。一部の実施形態では、ゲノムの同じ領域は、同じ連続する100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内、または上述の数のうち任意の2つの間の任意の範囲内であり得る。
一部の実施形態は、第1のフィルタリングされたバリアントのインデックスを用いてバリアントの参照セットを検索して、第1のフィルタリングされたバリアントのインデックスにおけるデータベースバリアントを識別する工程を含む。
一部の実施形態は、生殖系列バリアントを識別することによって、第1のフィルタリングされたバリアントのインデックスから生殖系列バリアントのインデックスを生成する工程を含む。一部の実施形態では、生殖系列バリアントは各々、第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度から0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、または上述の数のうち任意の2つの間の範囲内の任意の数の最大値および最小値を有する範囲である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である。一部の実施形態では、近似範囲は、バリアントの対立遺伝子頻度の上および下、0.05、またはバリアントの対立遺伝子頻度の二項分布から2(n)標準偏差のうち高い方である。
一部の実施形態では、バリアントが、バリアントと同じビン中の1つまたは複数の識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、バリアントが、バリアントと同じビン中の1、2、3、4、5、6、7、8、9または10個よりも多い識別された生殖系列バリアントの近似範囲内の対立遺伝子頻度を有する場合、バリアントは、生殖系列バリアントとして識別され得る。一部の実施形態では、生殖系列バリアントは、閾値頻度よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントとして識別され得る。一部のかかる実施形態では、0.7、0.8、0.9または1.0よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントは、生殖系列バリアントとして識別され得る。
一部の実施形態は、第1のフィルタリングされたバリアントのインデックスから識別された生殖系列バリアントを除去して、体細胞バリアントのインデックスを作成し、それによって、複数のバリアントにおける体細胞バリアントを識別する工程を含む。一部の実施形態では、腫瘍由来のシーケンシングデータから得られた体細胞バリアントの数は、腫瘍の腫瘍突然変異量である。
処置の方法
方法およびシステムの一部の実施形態は、腫瘍を処置する方法を含む。一部のかかる実施形態では、腫瘍中に存在する体細胞バリアントの数は、本明細書で提供される方法およびシステムによって決定され得る。例えば、配列データが腫瘍から得られ得、複数のバリアントが配列データから識別され得、生殖系列バリアントが識別され得、複数のバリアントから除去され得、それによって、複数のバリアントにおける体細胞バリアントを識別し得る。一部の実施形態では、生殖系列バリアントは、データベースフィルターおよび/または近接フィルターのうち1つまたは複数を適用することによって、識別され得、複数のバリアントから除去され得、それによって、フィルターのうち1つまたは複数を適用することによって除去されなかった体細胞バリアントを識別し得る。一部の実施形態では、腫瘍由来のシーケンシングデータから得られた体細胞バリアントの数は、腫瘍の腫瘍突然変異量である。一部の実施形態では、腫瘍突然変異量は、ゲノム領域当たりの体細胞バリアントの平均数、例えば、50kb、100kb、1Mb、10Mb、100Mbなど当たりの突然変異として計算される。腫瘍突然変異量は、ゲノム全体またはその一部分をシーケンシングすることによって、サンプリングされ得る。例えば、ゲノムの一部分は、1つまたは複数の目的のゲノム領域、例えば、腫瘍遺伝子パネル、完全エクソーム、部分エクソームなどについて富化することによって、シーケンシングされ得る。
腫瘍を処置する一部の実施形態は、腫瘍突然変異量閾値よりも大きいまたはそれと等しい腫瘍突然変異量を有する腫瘍を決定するステップ、および腫瘍を有効量の治療剤と接触させるステップを含み得る。一部の実施形態は、腫瘍を有する対象を処置するステップを含み、TMB閾値よりも大きいまたはそれと等しい腫瘍突然変異量を有する腫瘍を決定するステップ、および対象に有効量の治療剤を投与するステップを含み得る。一部の実施形態では、腫瘍突然変異量閾値は、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000または上述の数のうち任意の2つの間の範囲中の任意の数であり得る。治療剤の例には、化学療法剤が含まれる。一部の実施形態では、治療剤には、チェックポイント阻害剤が含まれ得る。チェックポイント阻害剤の例には、CTLA-4阻害剤、PD-1阻害剤およびPD-L1阻害剤が含まれる。一部の実施形態では、チェックポイント阻害剤には、イピリムマブ、ニボルマブ、ペムブロリズマブ、スパルタリズマブ、アテゾリズマブ、アベルマブおよびデュルバルマブが含まれ得る。腫瘍の例には、結腸直腸腫瘍、肺腫瘍、子宮内膜腫瘍、子宮腫瘍、胃腫瘍、黒色腫、乳房腫瘍、膵腫瘍、腎臓腫瘍、膀胱腫瘍および脳腫瘍が含まれる。本明細書に含まれる方法およびシステムで処置され得るがんの追加の例は、その全体が本明細書に参照によって明示的に組み込まれる、米国特許出願公開第20180218789号に列挙されている。
試料
一部の実施形態は、生体試料から配列データを得るステップを含む。一部の実施形態では、生体試料は、腫瘍細胞を含み得る。一部の実施形態では、生体試料には、血清試料、大便試料、血液試料および腫瘍試料が含まれ得る。一部の実施形態では、生体試料は、固定される。
一部の実施形態では、対象は、生体試料を提供し得る。生体試料は、対象によって産生される任意の物質であり得る。一般に、生体試料は、対象から採取される任意の組織または対象によって産生される任意の物質である。生体試料の例には、血液、血漿、唾液、脳脊髄液(CSF)、頬組織、尿、糞便、皮膚、毛髪、臓器組織が含まれ得る。一部の実施形態では、生体試料は、固形腫瘍または固形腫瘍の生検である。一部の実施形態では、生体試料は、ホルマリン固定パラフィン包埋(FFPE)組織試料である。生体試料は、核酸を含む任意の生体試料であり得る。生体試料は、対象に由来し得る。対象は、哺乳動物、爬虫類、両生類、鳥類または魚類であり得る。哺乳動物の例には、ヒト、類人猿、オランウータン、サル、チンパンジー、ウシ、ブタ、ウマ、げっ歯類、トリ、爬虫類、イヌ、ネコ、イルカまたは他の動物が含まれる。爬虫類の例には、トカゲ、ヘビ、アリゲーター、カメ(turtle)、クロコダイル、イグアナおよびカメ(tortoise)が含まれる。両生類の例には、ヒキガエル、カエル、イモリおよびサンショウウオが含まれる。鳥類の例には、ニワトリ、カモ、ガチョウ、ペンギン、ダチョウ、ツノメドリおよびフクロウが含まれる。魚類の例には、ナマズ、ウナギ、サメ、金魚およびメカジキが含まれる。一部の実施形態では、対象はヒトである。
ある特定のシステムおよび方法
一部の実施形態は、本明細書に記載される方法を実施するための、コンピューターベースのシステムおよびコンピューター実装方法を含む。一部の実施形態では、システムは、試料中のバリアント、例えば、生殖系列バリアントおよび/または体細胞バリアントの存在または非存在を決定し報告するために利用され得る。システムは、1つまたは複数のクライアントコンポーネントを含み得る。1つまたは複数のクライアントコンポーネントは、ユーザーインターフェースを含み得る。システムは、1つまたは複数のサーバーコンポーネントを含み得る。サーバーコンポーネントは、1つまたは複数のメモリロケーションを含み得る。1つまたは複数のメモリロケーションは、データ入力物を受け取るように構成され得る。データ入力物は、シーケンシングデータを含み得る。シーケンシングデータは、対象由来の核酸試料から生成され得る。システムは、1つまたは複数のコンピュータープロセッサーをさらに含み得る。1つまたは複数のコンピュータープロセッサーは、1つまたは複数のメモリロケーションに操作可能に連結され得る。1つまたは複数のコンピュータープロセッサーは、シーケンシングデータを参照配列にマッピングするようにプログラミングされ得る。1つまたは複数のコンピュータープロセッサーは、シーケンシングデータから複数のバリアントの存在または非存在を決定するようにさらにプログラミングされ得る。1つまたは複数のコンピュータープロセッサーは、少なくとも1つのフィルターを遺伝的変異体に適用して、生殖系列バリアントを識別するように、さらにプログラミングされ得る。フィルターの例には、データベースフィルターおよび近接フィルターが含まれる。1つまたは複数のコンピュータープロセッサーは、識別されたバリアントのインデックスから識別された生殖系列バリアントを除去するようにさらにプログラミングされ得る。1つまたは複数のコンピュータープロセッサーは、スクリーン上でのディスプレイのための出力物を生成するようにさらにプログラミングされ得る。出力物は、複数のバリアントにおける生殖系列バリアントおよび/または体細胞バリアントを識別する1つまたは複数の報告を含み得る。
方法およびシステムの一部の実施形態は、1つまたは複数のクライアントコンポーネントを含み得る。1つまたは複数のクライアントコンポーネントは、1つもしくは複数のソフトウェアコンポーネント、1つもしくは複数のハードウェアコンポーネント、またはそれらの組合せを含み得る。1つまたは複数のクライアントコンポーネントは、1つまたは複数のサーバーコンポーネントを介して1つまたは複数のサービスにアクセスできる。1つまたは複数のサービスは、ネットワークを介して、1つまたは複数のクライアントコンポーネントによってアクセスされ得る。「サービス」は、任意の製品、方法、機能、またはシステムの使用を指すために、本明細書で使用される。例えば、ユーザーは、遺伝子検査を注文することができる。注文は、システムの1つまたは複数のクライアントコンポーネントを介して行われ得、要求は、ネットワークを介して、システムの1つまたは複数のサーバーコンポーネントに送信され得る。ネットワークは、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであり得る。ネットワークは、一部の例では、電気通信および/またはデータネットワークである。ネットワークは、分散型コンピューティング、例えば、クラウドコンピューティングを可能にできる、1つまたは複数のコンピューターサーバーを含み得る。一部の例では、コンピューターシステムの助けを借りたネットワークは、コンピューターシステムに連結されたデバイスがクライアントまたはサーバーとして挙動することを可能にし得るピアツーピアネットワークを実装し得る。
システムの一部の実施形態は、1つまたは複数のメモリロケーション、例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ;電子記憶ユニット、例えば、ハードディスク;通信インターフェース、例えば、1つまたは複数の他のシステムとの通信のためのネットワークアダプタ、ならびに周辺デバイス、例えば、キャッシュ、他のメモリ、データ記憶および/または電子ディスプレイアダプタを含み得る。メモリ、記憶ユニット、インターフェースおよび周辺デバイスは、通信バスを介して、マザーボードなどのCPUと通信する。記憶ユニットは、データを記憶するためのデータ記憶ユニットまたはデータリポジトリであり得る。一例では、1つまたは複数のメモリロケーションは、受け取ったシーケンシングデータを記憶できる。
方法およびシステムの一部の実施形態は、1つまたは複数のコンピュータープロセッサーを含み得る。1つまたは複数のコンピュータープロセッサーは、例えば、記憶されたシーケンシングデータにアクセスするために、1つまたは複数のメモリロケーションに操作可能に連結され得る。1つまたは複数のコンピュータープロセッサーは、本明細書に記載される方法を実施するために、機械実行可能コードを実装できる。例えば、1つまたは複数のコンピュータープロセッサーは、シーケンシングデータ入力物を参照配列にマッピングするためならびに/または生殖系列バリアントおよび/もしくは体細胞バリアントを識別するために、機械可読コードを実行できる。
本明細書で提供される方法およびシステムの一部の実施形態は、機械実行可能コードまたは機械可読コードを含み得る。一部のかかる実施形態では、機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供され得る。使用の間に、コードは、プロセッサーによって実行され得る。一部の場合には、コードは、記憶ユニットから検索され得、プロセッサーによる即座のアクセスのために、メモリ上に記憶され得る。一部の実施形態では、電子記憶ユニットは、除外され得、機械実行可能命令は、メモリ上に記憶される。コードは、コードを実行するように適合されたプロセッサーを有する機械との使用のためにプリコンパイルおよび構成され得、ランタイムの間にコンパイルされ得、またはランタイムの間に解読され得る。コードは、プリコンパイルされた、アズコンパイルされた(as-compiled)または解読された様式でコードが実行されるのを可能にするように選択され得るプログラミング言語で提供され得る。
本明細書で提供されるシステムおよび方法の一部の実施形態、例えば、コンピューターシステムは、プログラミングで具体化され得る。テクノロジーの種々の態様は、典型的には、ある型の機械可読媒体上に保持されるまたはある型の機械可読媒体で具体化される機械(またはプロセッサー)実行可能コードおよび/または関連データの形態での、「製品」または「製造品」であると考えられ得る。機械実行可能コードは、電子記憶ユニット、例えば、メモリまたはハードディスク上に記憶され得る。「記憶」型媒体は、ソフトウェアプログラミングのためにいつでも一時的でない(non-transitory)記憶を提供し得る、コンピューターの有形メモリ、プロセッサーなどのうちいずれかもしくは全て、またはその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどを含み得る。ソフトウェアの全てまたは部分は、時折、インターネットまたは種々の他の電気通信ネットワークを介して通信され得る。例えば、かかる通信は、1つのコンピューターまたはプロセッサーから別のコンピューターまたはプロセッサーへの、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへの、ソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を有し得る別の型の媒体には、例えば、ローカルデバイス間の物理インターフェースを横断して、有線および光学地上通信線ネットワークを介して、ならびに種々のエアリンク(air-link)を通じて使用される、光波、電波および電磁波が含まれる。かかる波を伝える物理要素、例えば、有線または無線リンク、光リンクなどもまた、ソフトウェアを有する媒体とみなされ得る。本明細書で使用される場合、一時的でない有形「記憶」媒体に限定されない限り、コンピューターまたは機械「可読媒体」などの用語は、実行のために命令をプロセッサーに提供することに関与する任意の媒体を指す。
本明細書に開示される方法およびシステムの一部の実施形態は、1つもしくは複数の電子ディスプレイを含み得る、またはそれと通信し得る。電子ディスプレイは、コンピューターシステムの一部であり得る、または直接、もしくはネットワークを介して、コンピューターシステムに連結され得る。コンピューターシステムは、本明細書に開示される種々の特性および機能を提供するためのユーザーインターフェース(UI)を含み得る。UIの例には、限定なしに、グラフィカルユーザーインターフェース(GUI)およびウェブベースのユーザーインターフェースが含まれる。UIは、ユーザーが本明細書に記載される方法およびシステムを利用できるインタラクティブツールを提供できる。例として、本明細書で想定されるUIは、医療関係者が遺伝子検査を注文でき、検査すべき遺伝的変異体のリストをカスタマイズでき、生物医学的報告を受け取りそれを見ることができる、ウェブベースのツールであり得る。
本明細書に開示される方法およびシステムの一部の実施形態は、1つもしくは複数のデータベース、1つもしくは複数のアッセイ、1つもしくは複数のデータもしくは結果、1つもしくは複数のアッセイに基づくまたはそれに由来する1つもしくは複数の出力物、1つもしくは複数のデータもしくは結果に基づくまたはそれに由来する1つもしくは複数の出力物、あるいはそれらの組合せからのデータおよび/または情報に基づく、生物医学的データベース、ゲノムデータベース、生物医学的報告、疾患報告、症例対照分析およびレアバリアント発見分析を含み得る。
(実施例1)
試料比較によって体細胞バリアントを識別する
配列データを、個体由来の腫瘍試料および正常試料について得た。バリアントを、配列データにおいて識別した。腫瘍試料中の生殖系列バリアントを、腫瘍試料中に存在するバリアントおよび正常試料中に存在しないバリアントを比較することによって識別した。図2Aは、体細胞バリアント(黒色で塗りつぶされた丸)および生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う異なるバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。この方法は、個体由来の2つの試料を必要とした。
(実施例2)
バリアントのデータベースフィルタリング
配列データを、実施例1の腫瘍試料のみについて得た。バリアントを、配列データにおいて識別した。簡潔に述べると、バリアント呼び出しパイプラインから呼び出されたバリアントを、アノテーションツールNirvana(Illumina、San Diego)を使用してアノテーションした。Nirvanaは、ゲノムバリアント、例えば、単一ヌクレオチドバリアント、マルチヌクレオチドバリアント、挿入、欠失、コピー数バリアントの臨床グレードのアノテーションを提供した。Nirvanaへの入力物は、バリアントコールフォーマット(VCF)であり、出力物は、全てのアノテーションおよび試料情報の構造化JSON提示であった。
識別されたバリアントについて、総対立遺伝子カウントを、バリアント対立遺伝子頻度およびカバレッジと共に、ゲノム集約データベース(gnomAD)エクソーム、gnomADゲノムおよび1000ゲノムデータベース中の所与のバリアントについて解析した。これらの総対立遺伝子カウントは、異なる下位集団を横断するデータベース内の観察の総数を示した。各バリアントについて、3つ全てのデータベースにおいて観察された最大対立遺伝子カウントを、ゲノムデータベースと比較したそのより大きい試料サイズを利用しながら、エクソームデータベース中のカバーされなかった領域を考慮に入れるために、取り込んだ。フィルタリング戦略は、潜在的な生殖系列バリアントとして、10よりも大きいまたはそれと等しい最大対立遺伝子カウントを有するバリアントにマークした。所与のバリアントについて、データベースにおける10の対立遺伝子カウントは、それらが全てホモ接合性であった場合には少なくとも5つの試料において、またはそれらが全てヘテロ接合性であった場合には最大10個の試料において、それが観察されたことを意味している。図2Bは、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。これは、データベースフィルタリングのみが、バリアントを誤って呼び出したことを実証した。
(実施例3)
バリアントの近接フィルタリング
配列データを、個体由来の腫瘍試料のみについて得た。バリアントを、配列データにおいて識別した。バリアントに実施例2のデータベースフィルターを適用した。近接フィルターを使用して、データベース中に見出されなかったバリアントをさらにフィルタリングして除いた。
近接フィルターは、位置的に密に近接したデータベースフィルタリングされたバリアントの情報を使用した。データベース中に見出されず、0.9よりも低い対立遺伝子頻度を有した所与のバリアントについて、同じ染色体上のバリアントを、フィルタリングされていないバリアントのバリアント対立遺伝子頻度の所与の範囲内で検索した。90%よりも大きい対立遺伝子頻度を有するバリアントは、いずれのさらなる処理もなしに、生殖系列としてマークした。範囲を、所与のバリアントについての支持的証拠が二項プロセスによって生成されると仮定して、0.05および二項分布の2標準偏差の最大値として決定した。例えば、フィルタリングされていないバリアントが、100のカバレッジと共に0.2の対立遺伝子頻度を有した場合、範囲は、0.05と2sqrt(1000.2(1-0.2))/100=0.08との間の最大値であり、それは、0.08であった。これは、両方の方向での0.08の範囲へと変換でき、0.12と0.28との間の対立遺伝子頻度を有する全てのバリアントを、同じ染色体から検索した。引き続いて、固定された閾値を上回る検索されたバリアントの数をチェックし、これを5に設定した。必要とされるバリアントの数に達した時点で、本発明者らは、バリアントの0.95に設定したかなりの割合がデータベースフィルターによってフィルタリングされたかどうかをチェックした。両方の条件を満たした場合に、バリアントを近接フィルターによってマークした。言い換えれば、バリアントが、データベース中に見出された、対立遺伝子頻度空間中の十分な数のバリアントによって取り囲まれた場合、これも生殖系列バリアントとみなした。このフィルターは、およそ50%または100%の期待されたバリアント対立遺伝子頻度を有する正常領域中の、および対立遺伝子頻度分布がシフトし得るコピー数バリアント領域中の、生殖系列バリアントを除去した。
図3(左パネル)は、データベースフィルターのみでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントについて第1~7染色体についての染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。図3(右パネル)は、特定のフィルター決定された体細胞バリアント(黒色の丸)が選択され、いくつかのフィルター決定された生殖系列バリアント(灰色の丸)を包含するバリアントから範囲が引き出された、第7染色体上に位置するバリアントについての拡大図である。選択されたフィルター決定された体細胞バリアント(黒色の丸)が生殖系列バリアントとして呼び出されるべきであるという決定は、選択されたバリアントの対立遺伝子頻度の、ある特定の数のすでに識別された生殖系列バリアントの対立遺伝子頻度への近接に基づいてなされ得る。
図4Aは、データベースフィルターのみでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。図4Bは、データベースフィルターのみおよび近接フィルターでフィルタリングした、フィルター決定された体細胞バリアント(黒色で塗りつぶされた丸)およびフィルター決定された生殖系列バリアント(灰色で塗りつぶされた丸)による、各バリアントの染色体位置に従う種々のバリアントについてのバリアント対立遺伝子頻度(VAF)を示すグラフである。図4Bは、図4Aにおいて体細胞バリアントとして示されたある特定の推定偽陽性が、図4Bにおいて生殖系列バリアントとして識別されたことを示している。例えば、約0.4および0.3の対立遺伝子頻度を有する、第7染色体上に位置する識別された体細胞バリアント(図4A)は、近接フィルターを適用した場合、生殖系列バリアントとして識別された(図4B)。
(実施例4)
標的化シーケンシングを用いて腫瘍突然変異量を測定する
この実施例は、ホルマリン固定パラフィン包埋(FFPE)腫瘍試料中の腫瘍突然変異量(TMB)を測定するための標的化次世代シーケンシングアッセイに関する。図5は、アッセイのための、例となるワークフローを示す。配列データを、1.33Mbのエクソンサイズを有する1.94Mbのパネルサイズ中の523個の遺伝子について、腫瘍試料から得た。シーケンシングを、固有分子識別子(unique molecular identifier)(UMI)を用い、Illumina NextSeq(商標)500/550プラットフォームを使用して実施した。データ分析を、5%のバリアント対立遺伝子頻度(VAF)においてバリアントを検出するためのパイプラインを使用して実施した。技術的ノイズ除去のために、UMIからの情報、および試料特異的エラープロファイルを利用するバリアント呼び出しアルゴリズムを使用して、異なるFFPE品質の試料にわたる均一なバリアント呼び出しパフォーマンスを確実にした。TMB計算から生殖系列バリアントを正確に除去するために、大規模な公開データベースからの情報を、各バリアントの測定されたカバレッジおよびバリアント対立遺伝子頻度と統合する、上述の実施例のデータベースフィルターおよび近接フィルターと実質的に類似したハイブリッド戦略を使用した。
簡潔に述べると、配列データを得、参照とアラインさせ、バリアントを識別した。データベースフィルターおよび近接フィルターを使用して、識別されたバリアントから生殖系列バリアントをフィルタリングし、TMBを、図6に示されるパイプラインと実質的に類似したワークフローで計算した。合計170対の腫瘍-正常試料を分析して、生殖系列フィルタリングおよびTMBパフォーマンスを評価した(表1)。108試料対のサブセットは、全エクソームシーケンシング(WES)でも分析した。
表1
Figure 2022511208000001
技術的ノイズ除去のために、正常FFPE試料のコレクション(N=176)中の偽陽性バリアントの数を評価した。試料品質とは無関係に、試料1つ当たり平均0.63の偽陽性が観察され(R=0.001)、92.6%の試料が、2以下の偽陽性バリアント(VAF<20%)を含んだ。さらに、5%に近いバリアントを有し、98.7%の感度を達成した、FFPEおよび細胞系混合試料のセットを検査した。
生殖系列フィルタリングパフォーマンスを、表1に記載される170の腫瘍/正常試料対を使用して評価した。小さいバリアント(SNV、挿入/欠失)生殖系列バリアントフィルタリングにおいて、試料1つ当たり平均して1.3よりも少ない生殖系列バリアントを残す、99.7%を上回る全体的フィルタリング率に達した。近接フィルタリングの追加は、体細胞突然変異に対する最小限の影響を有する一方で、偽陽性の数を顕著に低減させた。図7は、データベースのみ(約3生殖系列残留/Mbにグラフのピーク)およびハイブリッド戦略(約0生殖系列残留/Mbにグラフのピーク)によるフィルタリング後の残存する生殖系列バリアントカウントの分布を示す。
TMB再現性を、3つの演算子を横断して、4つの細胞系および4つのFFPE試料を含む8つの異なる試料において評価した。各試料の平均および標準偏差(SD)を計算した。表2は、各々12の複製にわたる、4つの細胞系および4つのFFPE試料において評価したTMB再現性を列挙する。
表2
Figure 2022511208000002
合わせると、腫瘍のみアッセイによって生成されたTMB測定値は、腫瘍/正常アッセイ対試料から生成された推定値と高度に相関した(R=0.993、N=169、TMB<200の試料のみ)。腫瘍のみアッセイのTMB推定値は、全エクソームシーケンシングを通じて得られたTMB値とも、高い相関を示した(R=0.931、N=105、WES TMB<100の試料のみ)。図8Aは、腫瘍のみアッセイと腫瘍/正常アッセイとの間のTMB比較を示す。図8Bは、腫瘍のみアッセイとWES腫瘍-正常アッセイとの間のTMB比較を示す。
最後に、10のTMB閾値を用いて、94.74%の陽性一致率(PPA)および96.08%の陰性一致率(NPA)が実証された。全体的分類一致は、TMB高試料およびTMB低試料の識別において、95.37%であった。表3は、TMB分類パフォーマンスを列挙する。
表3
Figure 2022511208000003
上述の結果は、データベースフィルターおよび近接フィルターを用いた腫瘍のみについてのアッセイが、FFPE試料中のTMBをロバストに測定する能力を実証した。さらに、TMB推定値は、高い分類一致で、WESベースの測定値との高レベルの相関を示した。
用語「含む(comprising)」は、本明細書で使用される場合、「含む(including)」、「含む(containing)」または「~によって特徴付けられる」と同義であり、包含的またはオープンエンドであり、さらなる未列挙の要素または方法ステップを排除しない。
上記記載は、本発明のいくつかの方法および材料を開示している。本発明は、方法および材料における改変、ならびに製造方法および装置における変更を受けることができる。かかる改変は、本開示の検討および本明細書に開示される発明の実施から、当業者に明らかとなる。結果として、本発明が本明細書に開示される特定の実施形態に限定されることは意図しないが、それが本発明の真の範囲および精神内に入る全ての改変および変更をカバーすることを意図する。
公開および未公開の出願、特許ならびに文献参照が含まれるがこれらに限定されない、本明細書で引用される全ての参考文献は、それらの全体が参照によって本明細書に組み込まれ、これにより、本明細書の一部を構成する。参照によって組み込まれる刊行物および特許または特許出願が、本明細書中に含まれる開示と矛盾する限り、本明細書が、任意のかかる矛盾する資料に優先され、かつ/またはそれよりも優位であるものとする。

Claims (65)

  1. 複数のバリアントにおける体細胞バリアントを識別するための方法であって、
    (a)体細胞バリアントおよび生殖系列バリアントを含む複数のバリアントを得るステップ;
    (b)前記複数のバリアントにデータベースフィルターを適用するステップであって、
    前記複数のバリアントにおける第1の生殖系列バリアントを決定する工程を含み、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、ステップ;
    (c)前記複数のバリアントに近接フィルターを適用するステップであって、
    (i)前記複数のバリアントのバリアントを複数のビン中にビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、
    (ii)前記複数のバリアントにおけるデータベースバリアントを決定する工程であって、データベースバリアントが、バリアントの第2の参照セット中に存在する、工程、および
    (iii)前記複数のバリアントにおける第2の生殖系列バリアントを決定する工程であって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、工程
    を含む、ステップ;ならびに
    (d)前記複数のバリアントから識別された第1および第2の生殖系列バリアントを除去することによって、前記複数のバリアントにおける体細胞バリアントを決定するステップ
    を含む、方法。
  2. (b)および(c)が連続的に実施される、請求項1に記載の方法。
  3. (c)が(b)の前に実施される、請求項1に記載の方法。
  4. 前記閾値対立遺伝子カウントが5である、請求項1から3のいずれか一項に記載の方法。
  5. 前記閾値対立遺伝子カウントが10である、請求項4に記載の方法。
  6. バリアントの前記第1および第2の参照セットが、同じ参照セットである、請求項1から5のいずれか一項に記載の方法。
  7. バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、請求項1から6のいずれか一項に記載の方法。
  8. バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、請求項1から7のいずれか一項に記載の方法。
  9. ゲノムの前記同じ領域が、同じ染色体内にある、請求項1から8のいずれか一項に記載の方法。
  10. ゲノムの前記同じ領域が、同じ染色体腕内にある、請求項1から9のいずれか一項に記載の方法。
  11. ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、請求項1から10のいずれか一項に記載の方法。
  12. ゲノムの前記同じ領域が、10Mbの領域内にある、請求項1から11のいずれか一項に記載の方法。
  13. 近接フィルターを適用する前記ステップが、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別する工程をさらに含む、請求項1から12のいずれか一項に記載の方法。
  14. 近接フィルターを適用する前記ステップが、前記複数のバリアントにおける第2の生殖系列バリアントを識別する工程をさらに含み、前記第2の生殖系列バリアントが、バリアントの前記第2の参照セット中に存在するデータベースバリアントである、請求項1から13のいずれか一項に記載の方法。
  15. 前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、請求項1から14のいずれか一項に記載の方法。
  16. 前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、請求項1から15のいずれか一項に記載の方法。
  17. 前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項1から16のいずれか一項に記載の方法。
  18. 前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項1から17のいずれか一項に記載の方法。
  19. (a)が、腫瘍細胞を含む生体試料から配列データを得る工程を含む、請求項1から18のいずれか一項に記載の方法。
  20. 前記配列データを参照配列とアラインさせる工程、および前記配列データ中のバリアントを識別する工程をさらに含む、請求項19に記載の方法。
  21. 腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、請求項19または20に記載の方法。
  22. 前記腫瘍試料が固定される、請求項21に記載の方法。
  23. 腫瘍の腫瘍突然変異量を決定する方法であって、
    腫瘍細胞を含む生体試料から配列データを得るステップ;
    前記配列データから複数のバリアントを決定するステップ;および
    請求項1から22のいずれか一項に記載の方法に従って、複数のバリアントにおける体細胞バリアントの数を決定するステップであって、体細胞バリアントの前記数が、前記腫瘍の前記腫瘍突然変異量である、ステップ
    を含む、方法。
  24. 腫瘍を処置する方法であって、
    請求項23に記載の方法に従って、10体細胞バリアントよりも大きいまたはそれと等しい腫瘍突然変異量を有する腫瘍を決定するステップ、
    有効量のチェックポイント阻害剤を投与することによって、前記腫瘍を処置するステップ
    を含む、方法。
  25. 前記腫瘍が、結腸直腸腫瘍、肺腫瘍、子宮内膜腫瘍、子宮腫瘍、胃腫瘍、黒色腫、乳房腫瘍、膵腫瘍、腎臓腫瘍、膀胱腫瘍および脳腫瘍からなる群から選択される、請求項24に記載の方法。
  26. 前記チェックポイント阻害剤が、CTLA-4阻害剤、PD-1阻害剤およびPD-L1阻害剤からなる群から選択される、請求項24または25に記載の方法。
  27. 前記チェックポイント阻害剤が、イピリムマブ、ニボルマブ、ペムブロリズマブ、スパルタリズマブ、アテゾリズマブ、アベルマブおよびデュルバルマブからなる群から選択される、請求項24から26のいずれか一項に記載の方法。
  28. 遺伝的変異データを分析するための電子システムであって、
    プロセッサー上で実行される、腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを識別するように適合されたインフォマティクスモジュールであって、前記複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、インフォマティクスモジュール;
    前記複数のバリアントから第1の生殖系列バリアントを除去するように適合されたデータベースフィルターモジュールであって、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの第1の参照セットにおける対立遺伝子カウントを有する、データベースフィルターモジュール;
    前記複数のバリアントから第2の生殖系列バリアントを除去するように適合された近接フィルターモジュールであって、前記近接フィルターモジュールが、
    複数のビンを返すように適合されたビニングサブモジュールであって、各ビンが、ゲノムの同じ領域中に位置する前記複数のバリアントのバリアントを含む、ビニングサブモジュール、
    前記複数のバリアントにおけるデータベースバリアントを返すように適合された識別サブモジュールであって、データベースバリアントが、バリアントの第2の参照セット中に存在する、識別サブモジュール、および
    前記複数のバリアントから第2の生殖系列バリアントを除去するように適合された除去サブモジュールであって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、除去サブモジュール
    を含む、近接フィルターモジュール;ならびに
    前記複数のバリアントから除去されなかったバリアントを返すように適合されたディスプレイモジュール
    を含む、電子システム。
  29. インフォマティクスモジュールが、バリアントアノテーションツールを含む、請求項28に記載のシステム。
  30. 前記閾値対立遺伝子カウントが5である、請求項28または29に記載のシステム。
  31. 前記閾値対立遺伝子カウントが10である、請求項30に記載のシステム。
  32. バリアントの前記第1および第2の参照セットが、同じ参照セットである、請求項28から31のいずれか一項に記載のシステム。
  33. バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、請求項28から32のいずれか一項に記載のシステム。
  34. バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、請求項28から33のいずれか一項に記載のシステム。
  35. ゲノムの前記同じ領域が、同じ染色体内にある、請求項28から34のいずれか一項に記載のシステム。
  36. ゲノムの前記同じ領域が、同じ染色体腕内にある、請求項28から35のいずれか一項に記載のシステム。
  37. ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、請求項28から36のいずれか一項に記載のシステム。
  38. ゲノムの前記同じ領域が、10Mbの領域内にある、請求項28から37のいずれか一項に記載のシステム。
  39. 前記除去サブモジュールが、前記複数のバリアントから、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有するバリアントを除去するように適合される、請求項28から38のいずれか一項に記載のシステム。
  40. 前記除去サブモジュールが、前記複数のバリアントから、バリアントの前記第2の参照セット中に存在するデータベースバリアントを除去するように適合される、請求項28から39のいずれか一項に記載のシステム。
  41. 前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、請求項28から40のいずれか一項に記載のシステム。
  42. 前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、請求項28から41のいずれか一項に記載のシステム。
  43. 前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項28から42のいずれか一項に記載のシステム。
  44. 前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項28から43のいずれか一項に記載のシステム。
  45. 腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、請求項28から44のいずれか一項に記載のシステム。
  46. 前記腫瘍試料が固定される、請求項45に記載のシステム。
  47. 複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、請求項1から22のいずれか一項に記載の方法を実施するステップを含む、方法。
  48. 複数のバリアントにおける体細胞バリアントを識別するためのコンピューター実装方法であって、
    (a)腫瘍細胞を含む生体試料由来の配列データから複数のバリアントを受け取るステップであって、前記複数のバリアントが、体細胞バリアントおよび生殖系列バリアントを含む、ステップ;
    (b)前記複数のバリアントにデータベースフィルターを適用するステップであって、
    前記複数のバリアントについてドキュメントのインデックスを作成する工程、
    前記インデックスを用いてバリアントの第1の参照セットを検索して、前記インデックスにおける第1の生殖系列バリアントを識別する工程であって、前記第1の生殖系列バリアントが各々、閾値対立遺伝子カウントよりも大きいまたはそれと等しい、バリアントの前記第1の参照セットにおける対立遺伝子カウントを有する、工程、および
    前記インデックスから識別された第1の生殖系列バリアントを除去して、第1のフィルタリングされたバリアントのインデックスを作成する工程
    を含む、ステップ;
    (c)第1のフィルタリングされたバリアントの前記インデックスに近接フィルターを適用するステップであって、
    (i)ゲノムの異なる領域について複数のビンを作成する工程、
    (ii)第1のフィルタリングされたバリアントの前記インデックスのバリアントをビニングする工程であって、ゲノムの同じ領域中に位置するバリアントが、同じビン中にビニングされる、工程、
    (iii)第1のフィルタリングされたバリアントの前記インデックスを用いてバリアントの第2の参照セットを検索して、第1のフィルタリングされたバリアントの前記インデックスにおけるデータベースバリアントを識別する工程、
    (iv)第2の生殖系列バリアントを識別することによって、第1のフィルタリングされたバリアントの前記インデックスから第2の生殖系列バリアントのインデックスを生成する工程であって、前記第2の生殖系列バリアントが各々、前記第2の生殖系列バリアントと同じビン中の少なくとも1つのデータベースバリアントの対立遺伝子頻度の近似範囲内の対立遺伝子頻度を有する、工程、および
    (v)第1のフィルタリングされたバリアントの前記インデックスから識別された第2の生殖系列バリアントを除去して、体細胞バリアントのインデックスを作成し、それによって、前記複数のバリアントにおける体細胞バリアントを識別する工程
    を含む、ステップ
    を含む、方法。
  49. 前記閾値対立遺伝子カウントが5である、請求項48に記載の方法。
  50. 前記閾値対立遺伝子カウントが10である、請求項49に記載の方法。
  51. バリアントの前記第1および第2の参照セットが、同じ参照セットである、請求項48から50のいずれか一項に記載の方法。
  52. バリアントの前記第1または第2の参照セットが、複数の個体についてのバリアントのデータベースを含む、請求項48から51のいずれか一項に記載の方法。
  53. バリアントの前記第1または第2の参照セットが、ゲノム集約データベース(gnomAD)および1000ゲノムデータベースから選択される少なくとも1つのデータベースを含む、請求項48から52のいずれか一項に記載の方法。
  54. ゲノムの前記同じ領域が、同じ染色体内にある、請求項48から53のいずれか一項に記載の方法。
  55. ゲノムの前記同じ領域が、同じ染色体腕内にある、請求項48から54のいずれか一項に記載の方法。
  56. ゲノムの前記同じ領域が、同じ染色体サイトバンド内にある、請求項48から55のいずれか一項に記載の方法。
  57. ゲノムの前記同じ領域が、10Mbの領域内にある、請求項48から56のいずれか一項に記載の方法。
  58. 第2のフィルタリングされたバリアントのインデックスを生成する前記工程が、0.9よりも大きいまたはそれと等しい対立遺伝子頻度を有する第2の生殖系列バリアントを識別することをさらに含む、請求項48から57のいずれか一項に記載の方法。
  59. 第2のフィルタリングされたバリアントのインデックスを生成する前記工程が、前記複数のバリアントにおける第2の生殖系列バリアントを識別することをさらに含み、前記第2の生殖系列バリアントが、バリアントの前記第2の参照セット中に存在するデータベースバリアントである、請求項48から58のいずれか一項に記載の方法。
  60. 前記近似範囲が、第2の生殖系列バリアントの前記対立遺伝子頻度から0.05の最大値および最小値を有する範囲である、請求項48から59のいずれか一項に記載の方法。
  61. 前記近似範囲が、第2の生殖系列バリアントの対立遺伝子頻度を中心として、第2の生殖系列バリアントの前記対立遺伝子頻度の二項分布から2標準偏差の最大値および最小値を有する範囲である、請求項48から60のいずれか一項に記載の方法。
  62. 前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも5つのデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項48から61のいずれか一項に記載の方法。
  63. 前記第2の生殖系列バリアントが、前記第2の生殖系列バリアントと同じビン中の少なくとも10個のデータベースバリアントの対立遺伝子頻度に近接した閾値内の対立遺伝子頻度を有する、請求項48から62のいずれか一項に記載の方法。
  64. 腫瘍細胞を含む前記生体試料が、血清試料、大便試料、血液試料、腫瘍試料から選択される、請求項48から62のいずれか一項に記載の方法。
  65. 前記腫瘍試料が固定される、請求項64に記載の方法。
JP2020572675A 2018-11-01 2019-10-30 体細胞バリアント検出のための方法および組成物 Pending JP2022511208A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862754094P 2018-11-01 2018-11-01
US62/754,094 2018-11-01
PCT/US2019/058895 WO2020092591A1 (en) 2018-11-01 2019-10-30 Methods and compositions for somatic variant detection

Publications (1)

Publication Number Publication Date
JP2022511208A true JP2022511208A (ja) 2022-01-31

Family

ID=68610356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020572675A Pending JP2022511208A (ja) 2018-11-01 2019-10-30 体細胞バリアント検出のための方法および組成物

Country Status (12)

Country Link
US (1) US20200143905A1 (ja)
EP (1) EP3874066A1 (ja)
JP (1) JP2022511208A (ja)
KR (1) KR20210083208A (ja)
CN (1) CN112424380A (ja)
AU (1) AU2019369517A1 (ja)
BR (1) BR112020026259A2 (ja)
CA (1) CA3104004A1 (ja)
IL (1) IL279435A (ja)
MX (1) MX2020014090A (ja)
SG (1) SG11202012487WA (ja)
WO (1) WO2020092591A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102427600B1 (ko) * 2021-12-14 2022-08-01 주식회사 테라젠바이오 줄기세포의 배양적응성을 판단하기 위한 체세포 변이를 선별하는 방법
US20230215513A1 (en) 2021-12-31 2023-07-06 Sophia Genetics S.A. Methods and systems for detecting tumor mutational burden

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11261494B2 (en) * 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US20170044525A1 (en) * 2014-04-29 2017-02-16 Illumina, Inc. Multiplexed single cell gene expression analysis using template switch and tagmentation
CN107922973B (zh) 2015-07-07 2019-06-14 远见基因组系统公司 用于基于测序的变型检测的方法和系统
CA2997035A1 (en) * 2015-08-28 2017-03-09 Illumina, Inc. Nucleic acid sequence analysis from single cells
CN107491666B (zh) * 2017-09-01 2020-11-10 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质

Also Published As

Publication number Publication date
BR112020026259A2 (pt) 2021-07-27
SG11202012487WA (en) 2021-01-28
WO2020092591A1 (en) 2020-05-07
AU2019369517A1 (en) 2021-01-21
MX2020014090A (es) 2021-03-09
CA3104004A1 (en) 2020-05-07
CN112424380A (zh) 2021-02-26
KR20210083208A (ko) 2021-07-06
US20200143905A1 (en) 2020-05-07
EP3874066A1 (en) 2021-09-08
IL279435A (en) 2021-01-31

Similar Documents

Publication Publication Date Title
CN109689891B (zh) 用于无细胞核酸的片段组谱分析的方法
Han et al. Advanced applications of RNA sequencing and challenges
CN107849612B (zh) 比对和变体测序分析管线
Melchardt et al. Clonal evolution in relapsed and refractory diffuse large B-cell lymphoma is characterized by high dynamics of subclones
CN110168648A (zh) 序列变异识别的验证方法和系统
Lee et al. Deciphering the genetic blueprint behind Holstein milk proteins and production
WO2021183917A9 (en) Systems and methods for deconvolution of expression data
AU2020364225B2 (en) Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis
JP2022511208A (ja) 体細胞バリアント検出のための方法および組成物
Gu et al. Inheritance patterns of the transcriptome in hybrid chickens and their parents revealed by expression analysis
Mooney et al. The impact of identity by descent on fitness and disease in dogs
Bae et al. Integrative modeling of tumor genomes and epigenomes for enhanced cancer diagnosis by cell-free DNA
L'Imperio et al. Spatial transcriptome of a germinal center plasmablastic burst hints at MYD88/CD79B mutants‐enriched diffuse large B‐cell lymphomas
Kleftogiannis et al. Detection of genomic alterations in breast cancer with circulating tumour DNA sequencing
RU2813655C2 (ru) Способы и композиции для обнаружения соматического варианта
Magnusson et al. Loqusdb: added value of an observations database of local genomic variation
WO2021041968A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
André et al. The importance of dogs for comparative pathology and genetics: Examples of shared resources and programmes
US20220223227A1 (en) Machine learning techniques for identifying malignant b- and t-cell populations
Bhattacharyya Analyzing deviation pattern in strongly-correlated genes through core cluster mining
Harmanci et al. XCVATR: detection and characterization of variant impact on the Embeddings of single-cell and bulk RNA-sequencing samples
Persson Comparing Two Algorithms for the Detection of Cross-Contamination in Simulated Tumor Next-Generation Sequencing Data
Lorente-Arencibia et al. Evaluating the genetic diagnostic power of exome sequencing: Identifying missing data
Wagner Computational methods for identification of disease-associated variations in exome sequencing
Friedenberg Understanding the Genetic Basis of Addison's Disease in Standard Poodle Dogs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240521