JP6618929B2 - ウルトラディープシークエンシングにおける希少バリアントコール - Google Patents

ウルトラディープシークエンシングにおける希少バリアントコール Download PDF

Info

Publication number
JP6618929B2
JP6618929B2 JP2016565058A JP2016565058A JP6618929B2 JP 6618929 B2 JP6618929 B2 JP 6618929B2 JP 2016565058 A JP2016565058 A JP 2016565058A JP 2016565058 A JP2016565058 A JP 2016565058A JP 6618929 B2 JP6618929 B2 JP 6618929B2
Authority
JP
Japan
Prior art keywords
variant
sample
allele
sequence
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016565058A
Other languages
English (en)
Other versions
JP2017520821A (ja
JP2017520821A5 (ja
Inventor
リウ ウエイ−ミン
リウ ウエイ−ミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of JP2017520821A publication Critical patent/JP2017520821A/ja
Publication of JP2017520821A5 publication Critical patent/JP2017520821A5/ja
Application granted granted Critical
Publication of JP6618929B2 publication Critical patent/JP6618929B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance

Description

核酸シークエンシングは、あるDNA分子又はRNA分子中に存在するヌクレオチドの順序を決定する。より安価で迅速なシークエンシング法に対する要求が、次世代シークエンシング(NGS)法の開発を推進してきた。NGSプラットフォームは、大規模な平行シークエンシングを行い、この間に、複数の試料からの数百万のDNA断片をまとめてシークエンシングすることができ、こうして伝統的なサンガー(Sanger)シークエンシングに対してはるかに安価で高スループットな代替法を提供する。NGSは全ゲノムシークエンシング又は標的化シークエンシングで使用することができる。標的化シークエンシングでは、ゲノム中の遺伝子又は規定された領域のサブセットがシークエンシングされるか、又は、例えば主に標的領域を増幅することによりシークエンシングされる。
ウルトラディープシークエンシング(ultra-deep sequencing)は、一般的な及び希少な配列の変化を同定することを目的とする、広範囲のアンプリコンのシークエンシングである。充分なカバー率を有するため、ウルトラディープシークエンシングは、希少配列バリアントを1%未満まで完全に特性評価する能力を有する。ウルトラディープシークエンシングは、低頻度 (low-frequency)HIV薬耐性変異を検出するために、又は複雑な癌試料中の希少体細胞変異を同定するために使用されている。非侵襲性血液検査などの試験に関して、バイオマーカー変異の頻度は1%未満になることがある。しかしNGSはエラーが発生しやすいプロセスであり、シークエンシング深度 (sequencing depth)、試料のタイプ、及びシークエンシングプロトコールによっては、ほぼ1%以上のエラー率になることがある。従って、1%未満の頻度を有するバリアントに関しては偽陽性 (false positives)が現れる可能性があるため、現在の多くのNGSソフトウェアパッケージは、1%以上の頻度を有するバリアントのみを報告している。それでも、例えば1%未満の低頻度を有するバリアントに関してさえ、真陽性 (true positives)が存在し得る。従って、例えば約0.0025%〜約1%という低い頻度を有するバリアントに関して、真陽性を検出する方法とシステムが必要とされる。
実施態様は、例えば標的化シークエンシングから得られた試料のシークエンシングリード (sequencing reads)に基づいてより多くの正確なバリアントコール (variant calls)を行うための方法、システム、及び装置を提供することができる。例えば、いったん配列リード(sequence reads)が受け取られ (received)、参照配列(reference sequence)にアラインメントされる(aligned)と、ある位置にバリアントを有するシークエンシングリードがカウントされる。試料の1つの位置で測定される特定のバリアントの第一のバリアント頻度を、他の位置で測定される及び/又は他の試料からの特定のバリアントの1又は2以上の第二のバリアント頻度と比較することができる。第二のバリアント頻度は、シークエンシングランに関するシークエンシングエラーの予測値に対応することができる。
いくつかの実施態様において、バリアントがある位置で真陽性である信頼水準を示す確率値 (probability)は、1又は2以上の試料の標的領域中の複数の位置におけるバリアント数及び総リード数に基づいて計算することができる。確率値は次に閾値レベルと比較されて、検出されたバリアントが真陽性であるか否かを決定することができる。他の実施態様において、試験試料と参照試料(例えば、その位置においてシークエンシングエラーのみを有すると推定される)中の同一の位置におけるバリアント数と総リード数の差を用いて、試験試料中のバリアントが真陽性であるかどうかを決定することができる。
ある実施態様において、ある方法は、試験試料の標的領域における希少バリアントについて真陽性を検出することができる。各試料について、参照配列上で参照アレル (reference allele)が存在する位置における同じバリアントクラスのバリアントに関するバリアント頻度は、バリアント数と総リード数を用いて計算することができる。同一のクラスのバリアントに関するバリアント頻度の分布を使用して、決定されたバリアント頻度を有する試験試料中のある位置におけるバリアントの確率値を決定することができる。この確率値に基づいて、試験試料中の位置におけるバリアントは、真陽性(変異(mutation))又は偽陽性として分類される。
他の実施態様において、ある方法は、1又は2以上の参照試料との比較を用いて、試験試料の標的領域における希少バリアントに関する真陽性を検出することができる。試験試料中の特定の位置における特定のバリアントに関するバリアント数と野生型数は、アラインメントされた配列リードから決定することができ、1又は2以上の参照試料中の特定の位置における特定のバリアントに関するバリアント数と野生型数と比較して、確率値を決定することができる。この確率値に基づいて、試験試料中の特定の位置における特定のバリアントは、真陽性又は偽陽性として分類される。
ある実施態様において、第一の試料の標的領域における低頻度バリアントを検出するためのコンピュータで実行される方法が提供される。ここで、この方法は(コンピュータシステムにおいて)、
1又は2以上の試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記1又は2以上の試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
前記複数の配列リードを、参照配列の標的領域にアラインメントし;
第一の試料の配列リードに基づいて、標的領域の第一の位置において第一のアレルを有する第一の候補バリアントを同定し、ここで前記第一のアレルは、前記参照配列の第一の位置の参照アレルとは異なり;
前記参照配列の第一の位置にアラインメントする第一の試料の配列リードに基づいて、第一の位置における第一のアレルに関する第一のバリアント頻度を決定し、
複数のバリアントクラスから選択される第一のバリアントクラスに対応する第一の候補バリアントを同定し、ここで前記複数のバリアントクラスの各バリアントクラスは、異なるタイプのバリアントに対応し;
前記参照アレルを有する前記参照配列の標的領域における1セットの第二の位置を同定し、ここで前記1又は2以上の試料中の少なくとも50%の他の位置は、第一のアレルに関して偽陽性を示し、そして前記1セットの第二の位置は前記第一の位置を含み;
前記1セットの第二の位置の各々において、かつ前記1又は2以上の試料の各々に関して:
前記参照配列の第二の位置にアラインメントする試料の配列リードに基づいて、第一のアレルの第二のバリアント頻度を決定し、ここで前記第二のバリアント頻度は統計分布を形成し;
前記第一のバリアント頻度を前記統計分布の統計値と比較して、前記統計分布の統計値に対する第一のバリアント頻度の確率値を決定し;そして
前記第一のアレルに関して、第一の試料において第一の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は前記第一のアレルに関して偽陽性と真陽性とを区別する、を含む。
ある実施態様において、前記参照配列は、正常細胞から決定されるとおりのコンセンサス配列に対応する。いくつかの実施態様において、前記1又は2以上の試料は無細胞DNA断片由来である。いくつかの実施態様において、前記1又は2以上の試料は生物試料のRNA由来である。いくつかの実施態様において、複数の試料は、単一のシークエンシングランにおいてシークエンシングされる。他の実施態様において、前記統計分布の統計値は平均値を含む。他の実施態様において、前記確率値は、zスコア、修正された(modified)zスコア、累積確率、フレッド(Phred)クオリティスコア又は修正された(modified)フレッドクオリティスコアである。他の実施態様において、前記統計分布は、前記第二のバリアント頻度の対数変換の統計分布である。他の実施態様において、前記閾値は、1又は2以上のシークエンシングランから得られるトレーニングデータに基づくサポートベクターマシン分類器(support vector machines classifier)を用いて決定される。他の実施態様において、前記閾値はバリアント頻度の関数である。
別の実施態様において、第一の試料中の標的領域における第一の位置に第一のアレルを有するバリアントを検出するための、コンピュータで実行される方法が提供される。ここでこの方法は(コンピュータシステムにおいて)、
少なくとも2つの試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記少なくとも2つの試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
前記複数の配列リードを、参照配列の標的領域にアラインメントし;
第一の位置において各試料のアラインメントされた配列リードに基づいて、前記第一のアレルが、前記少なくとも2つの試料の各々の試料中の第一の位置に存在するか否かを同定し、ここで前記第一のアレルは、前記参照配列の第一の位置における参照アレルとは異なり;
前記少なくとも2つの試料の各試料に関する、第一の位置における第一のアレルのバリアント数及び第一の位置の参照アレルの野生型数を決定し;
前記少なくとも2つの試料から、少なくとも1つの試料を参照試料として選択し;
第一の試料に関する第一の位置における第一のアレルの第一のバリアント数及び第一の位置における参照アレルの第一の野生型数と、前記参照試料に関する第一の位置における第一のアレルの第二のバリアント数及び第一の位置における参照アレルの第二の野生型数とを比較して、第一の試料に関する第一の位置に第一のアレルを有するバリアントの確率値を決定し;そして
第一のアレルに関して第一の試料中の第一の位置における第一のアレルが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は第一の位置の第一のアレルに関して偽陽性と真陽性とを区別する、を含む。
ある実施態様において、前記参照試料は、第一の試料以外の前記少なくとも2つの試料のうち、第一の位置における第一のアレルに関して最も低いバリアント頻度を有する2つの試料を含む。いくつかの実施態様において、前記確率値は、カイ二乗累積分布関数(chi-squared cumulative distribution function)を用いて決定される。いくつかの実施態様において、前記確率値は、ピアソン比率検定(Pearson proportion test)を用いて決定される。いくつかの実施態様において、前記確率値は、zスコア、修正された (modified)zスコア、p値、カイ二乗値、累積確率値及びクオリティスコアの1つ又は2つ以上である。いくつかの実施態様において、前記クオリティスコアはルックアップテーブル(look-up table)を用いて決定される。いくつかの実施態様において、前記閾値は、1又は2以上のシークエンシングランから得られるトレーニングデータに基づくサポートベクターマシン分類器を用いて決定される。いくつかの実施態様において、前記閾値はバリアント頻度の関数である。
別の実施態様において、実施されるときにコンピュータシステムを制御して第一の試料の標的領域における真のバリアントを検出する複数の指示を記憶する、非一過性の(non-transitory)コンピュータ可読媒体を含むコンピュータ製品が提供される。ここで前記指示は、
1又は2以上の試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記1又は2以上の試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
前記複数の配列リードを、参照配列の標的領域にアラインメントし;
バリアントクラス中のバリアントの参照アレルを有する参照配列の標的領域における1セットの配列位置を同定し、ここで、前記1又は2以上の試料中の少なくとも50%の配列位置は、前記配列リード中のバリアントクラス中のバリアントに関して偽陽性を示し、そして前記1セットの配列位置は第一の位置を含み、
前記1セットの配列位置の各々の位置において、かつ前記1又は2以上の試料の各々の試料に関して:
各試料に関する各位置におけるリード数を決定し;
各試料の配列リードに基づいて、前記バリアントクラス中のバリアントに関するバリアントアレルを有する候補バリアントを同定し、ここで前記バリアントアレルは、参照配列の同一の位置における参照アレルとは異なり、そして各試料中の各位置における候補バリアントの総数は、各試料に関する各位置中のバリアント数であり;
前記リード数及びバリアント数に基づいてバリアントクラス中のバリアントのバリアント頻度を決定し、ここで各試料中の各位置に関するバリアント頻度は、統計分布を形成し、第一の試料に関する前記1セットの配列位置中の第一の位置におけるバリアント頻度は、第一のバリアント頻度であり;
前記第一のバリアント頻度を統計分布の値と比較して、前記統計分布の値に対する前記第一のバリアント頻度の確率値を決定し;そして
第一の試料中の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は、前記バリアントクラス中のバリアントに関して偽陽性と真陽性とを区別する、を含む。ある実施態様において、前記統計分布は、各試料に関する各位置におけるバリアント頻度の対数変換の統計分布である。
他の実施態様は、本明細書に記載の方法に関連するシステム、装置、及びコンピュータ可読媒体に関する。
以下の定義、詳細な説明、及び添付図面を参照することにより、本発明の本質と利点のより良い理解が得られるであろう。
定義
本明細書において用語「試料 (sample)」又は「生物試料 (biological sample)」は、核酸を含むか又は含むと推定される任意の組成物を指す。核酸は、動物(例えば哺乳動物、ヒト)、植物、微生物などに由来してもよい。試料という用語は、細胞、組織、又は血液の、精製されたか又は分離された成分、例えばDNA、RNA、タンパク質、無細胞部分、又は溶解物を含む。試料はまた、他のタイプの生物試料、例えば皮膚、血漿、血清、全血、及び血液成分(バフィーコート)、唾液、尿、涙、精液、膣液、吸引物若しくは洗浄液、組織生検、及び他の体液や組織(パラフィン包埋組織を含む)を指すこともできる。試料はまた、細胞株を含む個体から得られた細胞のインビトロ培養物の成分及び構成要素を含むことができる。「試験試料 (test sample)」は、試料中のバリアントを検出するための試験中の試料を指す。
「ゲノムセグメント(genomic segment)」(「ゲノム断片 (genomic fragment)」とも呼ばれる)は、生物のゲノム由来である完全に又は部分的にシークエンシングされた核酸分子である。これは、DNAセグメント(「DNA断片」とも呼ばれる)又はRNAセグメント(「RNA断片」とも呼ばれる)でもよい。セグメントは、ゲノムの大きな部分を断片化することによって、例えば細胞を音波に供することによって作成することができる。ゲノムセグメントはシークエンシングして、「シークエンシングリード (sequencing read)」(「配列リード(sequence read)」又は単に「リード (read)」とも呼ばれる)を提供することができる。シークエンシングリードは、全ゲノムセグメント又はセグメントの一部であってもよい。
「参照試料 (reference sample)」(「対照試料 (control sample)」とも呼ばれる)は、試験試料と比較するため、基準、通常既知の基準となる試料を指す。例えば試験試料は、癌又は癌関連変異を有することが疑われる個体から採取することができ、癌のない個体又は癌関連変異のない個体からの参照試料(陰性対照)、又は癌又は癌関連変異を有することがわかっている個体からの参照試料(陽性対照)と比較することができる。対照はまた、多くの試験若しくは結果から集められた平均値又は範囲を表すことができる。
「標的領域 (target region)」とは、分析される配列中の領域であって、診断的関連性を有し得る領域のことである。一例として、標的領域を含む断片は、プライマー及び増幅プロセスを用いて増幅するか、又はプローブを用いて濃縮することができる。 「参照配列 (reference sequence」(単に「参照 (reference)」とも呼ばれる)は、配列リードがアラインメントされる任意の既知の配列である。種々の実施態様において、参照配列は、生物のゲノム又はトランスクリプトームのすべて又は一部のみに対応することができる。参照配列はまた、2種以上の生物のゲノムを含むことができる。例えば配列リードはまた、試料中に存在し得るウイルスのデータベースと比較することができる。
バリアント (variant)(変化 (variation)又は変異(mutation)とも呼ばれる)は、2つの配列間の差を指す。バリアントは、例えば1つの塩基の1又は2以上の他の塩基への変化、1又は2以上の塩基の挿入、又は1又は2以上の塩基の欠失でもよい。参照配列中の位置の塩基は参照アレルと呼ばれることがあり、一方、試験試料上の同一の位置の異なる塩基(又は挿入もしくは欠失)はバリアントアレルと呼ぶことができる。例えばA>Cの単一塩基置換に関して、Aは参照アレルであり、そしてCはバリアントアレルである。参照アレルは、天然に存在する生物のための最も一般的な遺伝子型を示す野生型アレルであってもよい。配列リードと参照配列の標的領域との差はカウントすることができ、真の変異が同定される可能性がある(例えば、十分な配列リードが変異を示す場合)。
試料の異なる配列リード上の特定の位置における同一のバリアントアレルの総数(例えばA>CバリアントについてのCの数)は、バリアント数 (variant count)と呼ばれる。ある試料の特定の位置のリードの総数は、リード数 (read count)と呼ばれる。試料の特定の位置におけるバリアントタイプ又はクラス (例えばA>C)のバリアント頻度は、試料の特定の位置におけるリード数に対する特定の位置におけるバリアントに関するバリアント数の比率として定義される。
本明細書において用語「位置 (location)」は、配列中の(例えばゲノムの標的領域中の)1又は2以上の位置に対応する。例えば多塩基挿入が存在する場合、任意の長さのヌクレオチド(又は塩基対)が位置中に存在してもよい。
特に別の指定がなければ、本明細書で使用される技術用語及び科学用語は、一般に、当業者によって理解されるものと同じ意味を有する。例えば、Pfaffl, Methods: The ongoing evolution of qPCR, vol. 50 (2010); van Pelt-Verkuil et al. Principles and Technical Aspects of PCR Amplification, Springer (2010); Lackie, DICTIONARY OF CELL AND MOLECULAR BIOLOGY, Elsevier (4th ed. 2007); Sambrook et al., MOLECULAR CLONING, A LABORATORY MANUAL, Cold Springs Harbor Press (1989) を参照されたい。
図1は、本発明の実施態様に従う標的化されたウルトラディープシークエンシングのための次世代シークエンシング(NGS)を用いた、ゲノムシークエンシング及びバリアントコーリングを示すフローチャートである。 参照配列と比較された標的領域の配列リードを示し、ここで、異なる配列位置における同一のクラス及び異なるクラスのバリアントは、本発明の実施態様に従って示される。 本発明の実施態様に従う1又は2以上の試料中の標的領域内の複数の位置のそれぞれの位置における、バリアントクラスのバリアントに関するバリアントの頻度分布の理想的な統計モデルを示す。 特定の試料上の特定の位置におけるバリアントのバリアント頻度が、本発明の実施態様に従う特定のZ値を有するであろう確率を示す。 Z値が、本発明の実施態様に従うz未満の又はzに等しい値をとる確率の累積分布関数を示す。 バリアント頻度値又はZ値を有するバリアントが偽陽性であり、本発明の実施態様に従うバリアントコールを作成するための関連するクオリティスコアである確率を示す。 本発明の実施態様に従う統計モデルを用いるバリアントコーリングの方法を示すフローチャートである。 本発明の実施態様に従うサポートベクターマシン(SVM)により決定したセパレーターラインを有するエキソン20のEGFR T790Mのトレーニングデータと試験データに関する統計モデルを用いて決定されたバリアントクオリティスコアQAMPを示す。 本発明の実施態様に従うSVMにより決定したセパレーターラインを有するエキソン21のEGFR L858Rのトレーニングデータと試験データに関する統計モデルを用いて決定したバリアントクオリティスコアQAMPを示す。 本発明の実施態様に従う参照試料と試験試料の配列リード上の特定のゲノム位置における特定のバリアントを示す。 本発明の実施態様に従う試験試料と参照試料の配列リードデータを比較することにより、特定の配列位置における特定のバリアントに関するバリアントコーリングを示すフローチャートである。 本発明の実施態様に従うSVMにより決定したセパレーターラインを有するエキソン20のEGFR T790Mのトレーニングデータと試験データに関する2つの試料を比較することにより決定した局所化されたバリアントクオリティスコアQLOCを示す。 本発明の実施態様に従うSVMにより決定したセパレーターラインを有するエキソン21のEGFR L858Rのトレーニングデータと試験データに関する2つの試料を比較することにより決定した局所化されたバリアントクオリティスコアQLOCを示す。 本発明の実施態様に従うSVMにより決定したセパレーターラインを有するエキソン19のEGFR 15塩基欠失2235_2249del15のトレーニングデータと試験データに関する2つの試料を比較することにより決定した局所化されたバリアントクオリティスコアQLOCを示す。 本発明の実施態様に従う効率的なクオリティスコア推定に関するルックアップテーブルを示す。 本発明の実施態様に従う低頻度バリアントコーリングに関する例示的コンピュータシステム例のブロック図を示す。 シークエンシング装置とコンピュータシステムとの関係を示す一般的なブロック図の例である。 本発明の方法及びシステムを実施するために使用できるソフトウェアとハードウェア資源との関係を示す一般的なブロック図の例である。 本発明の方法及びシステムを実施するために使用できるソフトウェアとハードウェア資源との関係を示す一般的なブロック図の例である。
シークエンシングは、癌又は他の疾患の突然変異を検出するために使用することができ、またインビトロ診断(IVD)検査としても開発することができる。非侵襲的血液検査として、これらの検査を開発することが望ましい。しかし血液試料中のバイオマーカーの変異の頻度は低い。例えば、Kidess and Jeffrey, Circulating tumor cells versus tumor-derived cellfree DNA: rivals or partners in cancer care in the era of single-cell analysis? Genome. Med., 5:70 (2013), Diaz and Bardelli, Liquid biopsies: genotyping circulating tumor DNA, J. Clin. Oncol., 32:579-586 (2014); and Diehl et al., Nat Med., 14:985?990 (2008)を参照されたい。シークエンシングプロセスに関連するエラーが原因で、閾値が1%以下に設定される時、多くのNGSソフトウェアパッケージは、1%以上の頻度を有するバリアントのみを報告する。
本発明の実施態様は、1%未満のバリアント頻度を有する低頻度バリアントに関する真陽性を検出するための解決策を提供する。正確なバリアントコールは、例えば標的化シークエンシングから得られる試料のシークエンシングリードに基づくことができる。例えば、いったん配列リードが受け取られ、参照配列にアラインメントされると、ある位置でバリアントを有する配列リードはカウントされる。試料の1つの位置で測定された特定のバリアントの第一のバリアント頻度は、他の位置で測定された及び/又は他の試料からの特定のバリアントの1又は2以上の第2のバリアント頻度と比較することができる。第2のバリアント頻度は、シークエンシングランのシークエンシングエラーに関する予測値に対応することができる。
いくつかの実施態様において、ある位置でバリアントが真陽性である信頼水準を示す確率値は、1又は2以上の試料中の標的領域内の複数の位置におけるバリアント数及び総リード数に基づいて計算することができる。その後、確率値は閾値と比較され、検出されたバリアントが真陽性であるか否かを決定することができる。他の実施態様において、試験試料と参照試料(例えば、その位置でシークエンシングエラーのみを有すると推定される)中の同一の位置におけるバリアント数と総リード数との差を用いて、試験試料中のバリアントが真陽性であるか否かを決定することができる。
I.標的化シークエンシングを用いるウルトラディープシークエンシング
ゲノムの特定の領域は、標的化シークエンシングを用いて効率的に分析することができる。例えば生物試料のゲノムセグメントは、標的領域に対応するセグメントをクローニングすることにより(例えば、ポリメラーゼ連鎖反応(PCR)などの増幅プロセスにおいてプライマーを用いて)、及び/又は標的領域に対応するセグメントを優先的に捕捉するプローブを用いることにより、増加又は増幅させることができる。標的増加試料中のゲノムセグメントは、大規模の平行した次世代シークエンシング(NGS)を用いてシークエンシングし、標的領域内の可能な変異を調査するために分析することができる。
しかし、このようなプロセスはエラーを発生させることがある。例えば、増幅又は濃縮の前段階を有する高スループットの次世代シークエンシングを用いるバリアント検出では、アンプリコン/濃縮ライブラリ(標的増加試料)は偽陽性リードを含む可能性がある。PCRは点突然変異及びインデル(indel)を導入することができ、これはまた、組換え配列又はキメラを生成することができる。更に遺伝的バリアントの相対頻度は、PCR中の選択的増幅の偏りにより攪乱されることがある。PCR中に、追加の単一塩基エラーが起きることがある。シークエンシング自体は、塩基置換エラー及びインデルを導入し得る。これらのエラーは間違った変異報告につながることがあり、疾患の診断のために誤解を招く情報を提供することがある。偽陽性は種々の方法、例えばプライマーの正しい設計及び高忠実度酵素の開発、によって減少させることができる。しかし、それでも偽陽性が残って、多くの場合エラー率が約1%以上に大きくなる可能性がある。
各個別のヌクレオチドについてのシークエンシングの精度は比較的高くなる可能性があるが、ゲノム中の大多数のヌクレオチドは、個々のゲノムが一度だけシークエンシングされた場合、かなりの数のシークエンシングエラーが存在することを意味する。例えば、1塩基対当たり0.2%のエラー率と400塩基対のリード長さの場合、少なくとも1つのエラーを有するリードの割合は、1−(1−0.002)400=0.551であり、これは55%を超える配列リードが少なくとも1つのエラーを有する可能性を意味する。したがって、シークエンシングエラーと希少な真の変異を区別するためには、個々のゲノムに多数回シークエンシングすることによりシークエンシング精度を高めることが望ましい。例えば、たとえ各配列リードが1%のエラー率を含んでいても、バリアントの位置をカバーする8つの同一のリードの組合せは、エラー率が(10-28すなわち10-16の強く支持されるバリアント検出を生成するであろう。
DNAシークエンシングの深度 (depth)は、シークエンシングプロセス中にヌクレオチドが読み取られる回数を意味する。ディープシークエンシングは、リードの総数が調査中の配列の長さよりも何倍も大きいことを示している。カバー率は、再構築された配列内のあるヌクレオチドを表すリードの平均数である。「ディープ(deep)」という用語は、7倍超などの広範囲の深度について使用されており、用語「ウルトラディープ(ultra-deep)」は、一般に100倍超などのより高いカバー率を意味する。シークエンシング深度の要件は、バリアントのタイプ、疾患モデル、及び関心領域の大きさに依存し得る。すなわち、1%以下のバリアント頻度を有する希少バリアントについては、より高いカバー率が所望される。大規模な平行NGSは、真のバリアント検出のためのそのようなウルトラディープシークエンシングを可能にする。それにもかかわらず、より短いリードの大きい深度を生成することは、必ずしも希少バリアント検出に関する全ての課題を解決しない。
II.ウルトラディープシークエンシングにおけるバリアントコール
バリアントコーリングは、試験試料と参照配列の配列リード間の真の差を識別するプロセスである。バリアントコーリングは、試料の特性評価及び疾患の診断において重要である。しかし、非常に低い頻度でしばしば体細胞バリアントが発生するため、バリアントコーリングは本質的に難しい。バリアントコーリングの1つの目標は、謝った偽陽性を最小にするために高い信頼度で体細胞バリアントを同定することである。
図1は、標的化ウルトラディープシークエンシングのための次世代シークエンシング(NGS)を用いる、ゲノムシークエンシング及びバリアントコーリングの方法100を示す。他の方法と同様に、実施態様は、記載された工程のすべて又は一部を含むことができ、いくつかの工程はコンピュータシステムを用いて行うことができる。方法100の結果は、生物の診断を決定する際に医師によって使用することができる。
ブロック110において、シークエンシングされ、かつ診断されるポリヌクレオチドを含む試料は受け取られ、ここで、前記ポリヌクレオチドは、シークエンシングされるべき標的領域を潜在的に含む。上記で定義したように、用語「試料」は核酸を含むか又は含むと推測される任意の組成物を指す。試料は、そこから試料が得られる生物のゲノムに由来する核酸分子を含む。例えば試料は、染色体中にコードされたゲノムを含有する細胞を含むことができる。試料は、1又は2以上の試験試料を含むことができる。試料はまた、1又は2以上の参照試料又は対照試料を含むことができる。いくつかの試料は、ゲノムの特定の領域における変異について試験されている患者から得ることができる。試料は、癌について試験されている腫瘍の生検から得ることができる。試料は、いくつかの正常細胞、癌進行の初期段階のいくつかの細胞、及び癌の進行の後期ステージのいくつかの細胞を含むことができる。試料は、異なる人や同じ人物(例えば、異なる生検)由来でもよく、異なる実験条件を用いてもよい。
場合により、ブロック120においてRNA又はDNAは、シークエンシング前に試料から分離される。生物試料から核酸を単離するための方法は、例えばSambrookに記載されるように公知であり、いくつかのキットは市販されており、例えば、DNA Isolation Kit for Cells and Tissues, DNA Isolation Kit for Mammalian Blood, High Pure FFPET DNA Isolation Kit, High Pure RNA Isolation Kit, High Pure Viral Nucleic Acid Kit, and MagNA Pure LC Total Nucleic Acid Isolation Kitがあり、全てがRocheから入手可能である。いくつかの実施態様において、単離された核酸はゲノムDNAを含む。いくつかの実施態様において、単離された核酸は、循環遊離DNA断片(circulating free DNA fragments)(cfDNA)を含む。いくつかの実施態様において、単離された核酸は、細胞性mRNA又はcfRNAなどのRNAを含む。
RNAの場合、ブロック130において、逆転写反応が行われる。例えばRNAは、逆転写酵素を用いて相補的DNA(cDNA)に変換することができる。
場合により、ブロック140において、シークエンシングのためにDNAセグメントを調製することができる。これはDNAを、標的領域を含むより小さなDNAセグメントに断片化し、DNAセグメントの末端にアダプター配列を連結し、そしてDNA断片が由来する試料を同定する固有のバーコード配列を固定することを含むことができる。標的領域は、例えば任意の癌関連変異があるかどうかを調べるための、診断関連性を有する可能性のあるDNA中のセグメントである。例として標的領域は、ほぼ数百塩基、例えば150〜250塩基、150〜400塩基、又は200〜600塩基であることができる。別の実施態様において、標的領域に対応するゲノムセグメントを捕捉するためにプローブを使用することができる。例えば、標的領域にハイブリダイズするように設計されたプローブを、表面上に配置することができる。次にゲノムセグメントをその表面の上に配置することができ、標的領域のセグメントが優先的にハイブリダイズされ得る。試料のDNAは、例えば超音波処理又は他の適切な方法によって断片化して、より小さなゲノムセグメントを得ることができる。例えば、200〜500塩基長さのゲノムセグメントを得ることができる。特定のシークエンシング操作について、ほぼこの長さのゲノムセグメントが好ましい。しかし実施態様は、任意の長さのゲノムセグメントを使用することができる。
ゲノムセグメントは、バーコードやマルチプレックス識別子(MID)配列でマークすることができる。例えば10塩基の配列を、ゲノムセグメントの末端を(例えば、リガーゼを用いて)加えることができる。このように、種々の試料からのセグメントは、単一のシークエンシングラン中に並行してシークエンシングすることができる。MIDは配列リードの一部として読み取ることができ、同じMIDを有する配列リードは同じ試料に起因し、一緒に分析することが可能である。MIDは、異なる試料から配列リードを脱多重化又は区別するために使用することができる。
ブロック150においてDNAセグメントは、PCR、SDA、及びこれらの派生方法などの増幅法により場合により増幅又は増加させて、DNAセグメントすなわちシークエンシングのための増幅産物を生成することができる。Taqポリメラーゼ又は他の耐熱性ポリメラーゼなどのDNAポリメラーゼを、PCRによる増幅のために使用することができる。例えば、増幅法の総説については、Fakruddin et al., J Pharm Bioallied Sci. 5:245 (2013)を参照されたい。これらの増幅産物は、増幅に使用されるプライマーに基づいて規定される。プライマーは、核酸上の標的領域に特異的である。シークエンシングプライマーが増幅産物内の配列に特異的に特異的である(特異的にハイブリダイズする)ように、シークエンシングプライマーは典型的には、増幅プライマーの選択に基づいて設計される。いくつかの実施態様において標的領域は、標的濃縮工程によって濃縮することができる。増幅及び濃縮プロセスの両方を実行することができる。フォワードプライマー及びリバースプライマーは、標的領域を増幅するために使用することができる。これらのフォワードプライマー及びリバースプライマーは種々の長さ、例えば約15〜30塩基長のものでもよい。
いくつかの実施態様において、試料特異的MIDの添加は、異なる時点で発生し得る。例えばMIDは、増幅/濃縮後に添加することができ、次に試料は一緒に混合される。こうして、異なる試料は、異なる標的領域について増幅又は濃縮することができるであろう。
ブロック160において、1又は2以上の試料からのDNAセグメントは、単一のシークエンシングランで大規模に並列様式でシークエンシングされる。シークエンシングプロセスにおいて、増幅過程で作成された同じセグメントのクローンは、別々に決定された配列を有することができる(及び後にカウントされる)。いくつかの実施態様において単一のシークエンシングランは、1テラ塩基 (terabase)を超えるデータを生成することができる。いくつかの実施態様において、1試料当たり約3,000リード超を得ることができる。リードの数は、試料のサイズ、標的増加の一部としてどの程度の増幅が行われるか、及びシークエンシングプロセスのバンド幅(すなわち、どの程度のシークエンシングに対して装置が設定されるか、例えばいくつのビーズが使用されるか)に依存してもよい。ある実施態様において、リードは約150〜250塩基長である。
シークエンシングプロセスは、Roche 454, Illumina GA, 及び ABI SOLiDなどの種々のNGSプラットフォーム上の種々の技術によって行うことができる。ある実施態様においてDNAセグメントは、シークエンシングの一部として増幅を受けることができる。増幅プロセスが標的増加試料を作成するために使用される実施態様において、この増幅は第二の増幅工程であろう。第二の増幅は、第二の増幅が行われなかった場合よりも、強いシグナル(例えば、特定の塩基:A、C、G、又はTに対応する蛍光シグナル)を提供することができる。
シークエンシング処理の一例において、ブロック150からの増幅されたセグメント(例えば、増幅が溶液中で発生した場合)は、それぞれビーズに付着させることができる。付着したセグメントは、次にビーズ上で増幅することができ、各ビーズから1つの配列リードを得ることができる。表面を使用する実施態様において、セグメントを表面に付着させ、次に表面上で単一のクラスタを作成することができる。各クラスタについて単一の配列リードを得ることができる。配列リードは、ゲノムセグメントの全長又はセグメントの一部についてのものであることができる。
ブロック170において、場合により配列リードは濾過されて、低クオリティリードと短いリードが除去され、残りの配列リードは参照配列の標的領域にアラインメントされる。いくつかの実施態様において、同一の塩基を有するリードは、単一の配列リードと見なされるように組み合わされる。したがって、唯一のユニークリード (unique read)に関するリード数を記録することができる。平均塩基スコアは、全てのユニークリードに関する全ての塩基位置において計算され得る。塩基スコアは、塩基コールが配列リード上で如何に正確であるかを測定することができる。塩基スコアを使用して、低クオリティリードを除去することができる。いくつかの実施態様において、最小値よりも短いリードも同様に除去される。
アラインメントすることにより、本方法は配列リードを参照配列の標的領域と比較して、配列リードと参照配列との間の変化の数を決定することができる。アラインメントは1又は2以上の標的領域にのみ特異的であることができ、ゲノム全体を検索する必要はないため、アラインメントは高速であることができる。また標的領域に対応するセグメントの割合が増加するにつれて、かなりの数のリードが標的領域に良好に一致するであろう(例えば、比較的少数の変化)。
ある実施態様において、複数の標的領域が使用される場合、配列リードは複数の標的領域のすべてと比較することができ、最良のアラインメントを提供する標的領域を同定することができる。異なる標的領域は、異なる遺伝子又は遺伝子を有する異なるエクソンを有することができる。したがって、最良のアラインメントを有するエクソンが同定され得る。
バーコード又はMIDが使用される場合、それはアラインメント前に除去され得る。特定の試料に関する全てのリードを1つのグループに構成するために、MIDを使用することができる。このようにして、他の試料からの変異は、特定の試料の分析には影響しないであろう。このグループ化は、脱多重化 (de-multiplexing)と呼ばれる。異なる試料は異なる標的領域を有することができるため、アラインメントについて参照配列のどの標的領域を比較すべきかを決定するためにMIDは使用され得る。
ブロック180において、標的領域からのアラインメントされた配列リードは、標的領域における変異を同定するために使用される。この工程の一部として、バリアントアレルの数(又はバリアント数)、参照アレルの数(又は野生型数)、従って各試料に関する配列位置における各バリアントの頻度を決定することができる。例えば、標的領域内の特定の位置について、通常のAの代わりにG変異が現れる回数をカウントすることができる。G変異が見られる回数の割合は、その位置にアラインメントされる全リードから決定することができる。いくつかの実施態様において、一緒に発生する変化を識別することができ、同じ変異の一部として分類することができる。各試料について、標的領域のシークエンシング深度は、その試料について任意のフィルターを通過するリードの数から決定することができる。
ブロック190において、バリアント数、野生型数、及び/又はバリアント頻度に基づいてバリアントコーリングが行われる。ある実施態様において、特定のバリアントのバリアント頻度は、実際の変異と見なすためには、閾値(存在フィルタ (abundance filter))よりも大きいことが必要とされ得る。表1は、Illumina MSR体細胞変異コーラー(caller)がデフォルト設定で報告するポアソン(Poisson)モデルに基づいて計算される最少バリアント数とバリアント頻度を示す。
いくつかの実施態様において、バリアントが実際に試料中に存在する信頼水準を示すクオリティスコアが提供され、バリアントコールを行うために使用される。いくつかの実施態様において、クオリティスコアは、バリアント数、野生型数、及び/又はバリアント頻度の1又は2以上と組み合わせて使用して、バリアントコールを行うことができる。医師は同定された変異を使用して、癌の素因を診断するか又は癌を有するとして腫瘍を同定することができる。
図2は、参照配列210と比較した試験試料中の標的領域215の配列リードの例を示し、ここで、種々の配列位置における同一のクラスと異なるクラスのバリアントが示される。図2は、参照配列が塩基Aの参照アレルを有する標的領域内の4つの位置の例を示す。例示を容易にするために5つの配列リードが明示的に示されるが、実際にはより多くのリードが使用される。参照配列210は、位置205、231、255、及び281においてAを有することが示される。
位置205について、いくつかの配列リードにおいてAが検出されるが、いくつかの配列リードではCが検出される。Cの検出は、潜在的なA>Cバリアントを示す。バリアントA>Cは、特定のバリアントクラスのものである。他の塩基は、示されていない配列リード中で検出され得る。他のアレルの存在は、他のバリアントクラスの他のタイプのバリアントを示す可能性がある。
位置231について、いくつかの配列リードにおいてAが検出される;いくつかの配列リードではCが検出される;更にいくつかの他のリードにおいて、位置231において何も検出されない(「0」)。Cの検出は、単一塩基置換A>Cの潜在的なバリアントを示す。「0」の検出は潜在的な欠失のバリアントを示す。
位置255における塩基Aについて、いくつかの配列リードにおいてAが検出される。いくつかの配列リードではCが検出される;しかし、いくつかの他のリードではTが検出される。Cの検出は、単一塩基置換A>Cの潜在的なバリアントを示す。Tの検出は、異なる単一塩基置換A>Tの潜在的なバリアントを示す。
位置281における塩基Aについて、いくつかの配列リードにおいて、Aが検出される;いくつかの配列リードにおいて、Cが異なる頻度で検出される。異なる頻度でのCの検出は、異なるバリアント頻度を有する単一塩基置換A>Cの潜在的なバリアントを示す。
試験試料についての配列リードに基づいて、それぞれの位置について、野生型塩基Aの数、単一塩基置換A>Cの数、単一塩基置換A>Tの数、及びAの欠失の数をカウントすることができる。図2に示されるバリアントのタイプは、例示のみが目的である。本開示において後述されるように、種々のタイプのバリアント又は変異が存在し得る。
III.統計分布モデルに基づくバリアントコーリング
本開示のいくつかの実施態様において、NGS実験で観察されるすべてのバリアントを報告することができる。低頻度の真陽性を偽陽性から区別するために、ほとんどの観測される低頻度バリアントは偽陽性であってもよいため、偽陽性バリアントの分布を用いて、バリアントコーリングクオリティスコアを確立して、バリアントが真陽性である可能性を決定することができる。
A.統計モデルに基づくバリアントコーリングの数学的理論
図3A〜3Dは、本発明のいくつかの実施態様に従う統計モデルに基づくバリアントコーリングの基礎となる数学的理論を提供する。バリアントコーリングの偽陽性率は配列状況や位置に依存しているため、全ての試料中の種々の位置におけるA>Cなどの同一のクラス又はタイプのバリアントは一緒に比較して、統計分布に基づくバリアントコールを行うことができる。
いくつかの実施態様において、異なる配列位置でのシークエンシングランにおける単純なバリアントは、20のクラスに分けることができる。すべてのクラスにおいて、バリアントの大部分は偽陽性である。すべてのバリアントクラスの統計分布のパラメータを計算することができる。バリアントクラスは以下のように定義することができる:
(1)A>C、A>G、A>T、C>A、C>G、C>T、G>A、G>C、G>T、T>A、T>C、及びT>Gを含む12の単一塩基置換;
(2)AC>GAなどの多塩基置換;
(3)AGT>AT又はGCAT>GTなどの1〜2塩基の欠失;
(4)ATCGA>AAなどの3塩基の欠失;
(5)GACCTA>GA又はTGCGCGA>TAなどの4〜5塩基の欠失;
(6)ATCCTCAG>AGなどの6塩基以上の欠失;
(7)AT>AAT又はGC>GTACなどの1〜2塩基の挿入;
(8)GC>GTAAC又はAC>AGATGCなどの3塩基以上の挿入;そして
(9)単一塩基置換A>Cなどの他の単純な変異に、すぐ続く1塩基の欠失、例えば、元々の参照塩基がATであり、変異塩基がCである、すなわちAT>C。そのような変異AT>Cはまた、Aの欠失に単一塩基置換T>Cが続くと解釈することができる。
本明細書において単純な突然変異は、その中に一致する塩基対無しで、2つの一致する塩基対によって結合された変異である。例えばaATgやaCgにおいて、単純な変異AT>Cは、一致する対a−aと一致する対g−gにより結合され、ここで、小文字は一致する対について使用される。しかしaAcGgとaCcTgにおいて、AcG>CcTは、この中に一致する対c−cが存在するため単純な変異ではない。このように、AcG>CcTは、2つの単純な変異A>CとG>Tからなる複合変異である。
いくつかの実施態様において、1又は2以上の試料について参照配列中に参照アレル(例えば、バリアントタイプA>Cについての塩基A)が存在する標的領域中の種々の位置における、同一のクラスのバリアント、例えばA>Cのバリアント頻度を用いて、バリアントクラスについて統計分布を作成することができる。例えば図2に示すように、位置205、位置231、位置255、位置281のそれぞれ、及び試料の参照配列内にAが存在する標的領域内の他の位置における単一塩基置換A>Cのバリアント頻度は、バリアントクラスA>Cに関する統計分布のためのデータ点であってもよい。位置205、位置231、位置255、位置281のそれぞれ、及び試験試料と同一のシークエンシングランでシークエンシングされる他の試料のそれぞれの参照配列内にAが存在する標的領域内の他の位置における単一塩基置換A>Cのバリアント頻度は、バリアントクラスA>Cに関する統計分布のためのデータ点であってもよい。一方、位置205、位置231、位置255、位置281のそれぞれ、及び試験試料と同一のシークエンシングランでシークエンシングされる各試料の参照配列内にAが存在する標的領域内の他の位置における単一塩基置換A>T又は単一塩基欠失A>0などの異なるバリアントクラスのバリアント頻度は、バリアントクラスA>Cについて統計分布のために使用されない。
いくつかの実施態様において、少なくとも30のデータ点が統計分布に含まれる。少なくとも30のデータ点は、単一のシークエンシングラン中に2以上の試料からのものであってもよい。30未満のデータ点の場合は、真の分布はデータ点によって表されない場合がある。
図3Aは、同一のクラスのバリアントについてのバリアント頻度の理想的な統計分布(正規分布)を示す。図3Aは例示のみが目的である。バリアントクラスのバリアント頻度の実際の統計分布は試料に依存することがあり、二峰性分布のような他の分布形態であってもよい。いくつかの実施態様において、バリアント頻度の二乗、平方根又は対数のような変換のいくつかの形態は、正規分布に近い分布を形成することができる。
図3Aにおいて、x軸はバリアントクラスのバリアント頻度値を示し、y軸は特定のバリアント頻度値fを有するデータ点の数を示す。図3A中の理想的な正規分布に示されるように、平均値mと標準偏差sは分布に基づいて決定することができる。
図3Bは、特定の試料上の特定の位置におけるバリアントのバリアント頻度が所定のZ値を有する確率を示し、ここで、この確率とZ値は、図3Aに示された統計分布に由来することができる。いくつかの実施態様において図3Bは、平均と標準偏差とに基づく図3Aの正規化された分布であってもよい。いくつかの実施態様において、より複雑な変換又は転換、例えば対数変換を使用することができる。図3A中の斜線部は、zに等しいか又はzより大きい全てのZ値の累積確率を示す。
図3Cは、Z値がz未満又はこれに等しい値を取る確率の累積分布関数Fを示す。
図3Dは、特定のバリアント頻度値又はZ値を有するバリアントが、左の主軸上で偽陽性である塩基コーリング誤り確率(p値)と、右の2次軸上でバリアントコールを行うための関連するクオリティスコアQを示す。いくつかの実施態様においてp値は、1−Fによって計算することができる。いくつかの実施態様においてクオリティスコアQは、Q=−10log10pによって与えられるフレッド(Phred)クオリティスコア、又はフレッドクオリティスコアの任意の変形であってもよい。
B.統計モデルに基づくバリアントコーリングの方法
図4は、統計モデルを用いるバリアントコーリングの方法400を示す。他の方法と同様に実施態様は、記載された操作の全て又は一部を含むことができ、いくつかの操作は追加の操作又はサブ操作を含むことができる。
ブロック410において、単一のシークエンシングランで1又は2以上の試料中の標的領域を標的化する配列リードが受け取られる。配列リードデータは受け取られ、読み取り可能なフォーマットで保存され、コンピュータで解析することができる。いくつかの実施態様において、低クオリティリード又はアダプター配列を除去するために、配列リードデータの予備処理を実行することができる。いくつかの実施態様において、バーコード又はMIDを除去することができ、同じ試料からの配列リードは、標識又はグループ化されてもよい。
例えば方法100のブロック170に記載されるように、ブロック420において配列リードは参照配列の標的領域にアラインメントされる。
ブロック430において、試験試料のアラインメントされた配列リード上の特定の配列位置における同じバリアントクラスのバリアントアレルは、同定され、カウントされて、バリアント数を決定することができる。試験試料のアラインメントされた配列リード上の特定の配列位置についてのリード数も、同様に決定することができる。例えば図2に示すように、試験試料の配列リード中の位置205におけるCの総数は、位置205におけるバリアントクラスA>Cについてのバリアント数であり、試験試料の配列リード中の位置205におけるリードの総数は、位置205におけるバリアントクラスA>Cについてのリード数である。いくつかの実施態様において、試験試料についての特定の位置のリード数は、別の操作で決定することができる。
ブロック440において、特定の位置における同一のクラスのバリアントのバリアント頻度が決定される。ある実施態様においてバリアント頻度は、試験試料中の特定の位置におけるバリアント数をリード数で割ることにより決定することができる。別の実施態様においてバリアント頻度は、試験試料中の特定の位置においてバリアント数を非バリアント数(例えば、リード数−バリアント数)で割ることによって決定することができる。当業者であれば、使用することができるバリアント頻度の種々のタイプの形態を理解し得る。
ブロック450において、試験試料として同一のシークエンシングランでシークエンシングされた各試料について、同一のクラスのバリアント、例えばA>Cは、バリアントクラスの参照アレル、例えばAが、標的領域における参照配列上に存在する複数の位置のそれぞれの位置で、同定されカウントされる。同様に、同一のシークエンシングランにおける各試料について、参照配列上でバリアントクラスの参照アレルが見つかる複数の位置のそれぞれに関するリード数を決定することができる。
ブロック460において、試験試料として同一のシークエンシングランでシークエンシングされた各試料について、複数の位置のそれぞれの位置における、同一のバリアントクラス、例えばA>Cのバリアント頻度は、各位置についてのバリアント数をその位置のリード数により割ることによって決定することができる。すなわち、もし、例えば3つの試料がシークエンシングランで一緒にシークエンシングされ、標的領域内の参照配列上の30の位置が、バリアントクラスについての参照アレルを有する場合、各試料上の各位置について1つで最大90のバリアント頻度を計算することができる。これらのバリアント頻度を用いて、同一のシークエンシングランで同一のクラスのバリアントについてバリアント頻度の統計分布を決定することができる。他のバリアントクラスのバリアント頻度は、統計分布を決定するために含まれていないことに注目されたい。更に、分布モデルの正確性に影響を与える可能性のあるシークエンシングラン間の変動の影響を低減するために、他のシークエンシングランから得られたデータ点は、統計分布を決定するために含まれない。
ブロック470において、試験試料中の特定の位置における同一のクラスのバリアントに関するバリアント頻度に対応する確率値は、バリアント頻度をブロック460において形成された統計分布のパラメータと比較することにより決定される。いくつかの実施態様において、確率値は実際の確率、累積分布、又はクオリティスコアでもよい。いくつかの実施態様において、統計分布のパラメータは、平均値と標準偏差の1又は2以上でもよい。
ブロック480において、試験試料上の特定の位置におけるバリアントクラスのバリアントが真陽性か否かを決定するために、確率値と閾値に基づいてバリアントコールが行われる。いくつかの実施態様において、閾値は単一の値でもよい。いくつかの実施態様において閾値は、例えばバリアント頻度の関数でもよい。いくつかの実施態様において閾値は、サポートベクターマシン(SVM)などのマシン学習アルゴリズムを用いて、トレーニングデータセットに基づいて決定することができる。いくつかの実施態様において、閾値は、異なるシークエンシングランから得られるトレーニングデータに基づいて決定することができる。
上記した方法は、以下の例に照らしてより良く理解することができる。
C.例
以下の例は、このセクションで上記した方法を示す。以下の例において、バリアント頻度が正規分布ではなく、一方で対数バリアント頻度の分布が後述されるように正規分布に近いため、バリアントクラスに関する対数バリアント頻度の統計分布に基づくモデルが使用される。
表2は、エクソン20の置換T790M(2369でC>T)とエクソン21の置換L858R(2573でT>G)の偽陽性を有する野生型データに関する元々のバリアント頻度fとその対数変換xに適用される、Lilliefors検定及びShapiro-Wilk検定などの正規性検定の結果を示す。この結果は、正規分布の仮定が使用される時、xが観察された試料の結果を得るためのより大きな確率(P値)(>0.08)を有することを示し、これは、実際の分布と正規分布との間のより小さな相違を示し、fがより小さいP値(<0.016)を有することを示す。従って、xはfよりも正規分布に近い。
変換されたバリアント頻度は、ほとんどノイズについて元のバリアント頻度よりも正規分布に近いため、統計分析を行うのに通常の近似を使用するために、最初にバリアント頻度の対数変換が行われる。いくつかの実施態様において、f=0のときの負の無限大値を避けるために、以下の対数変換が使用される。
ここで、eは負の無限大値を回避するための調整定数である。調整定数eは、任意の適切な値に設定することができる。例えば、いくつかの実施態様において、eは10-6に設定することができ、従って最小のx値は−6である。
対数変換した後、正規分布近似の平均値mと標準偏差sを計算することができる。次に正規分布の近似を用いて、配列の位置で検出されるバリアントの確率値を計算することができる。例えば、バリアント頻度f1、対数バリアント頻度x1=Log10(f1+e)、十分な深度(総リード数)を有する、ある位置におけるバリアントクラス中の観察されたバリアントに関して、統計的確率値zスコアは、以下によって計算することができる:
ここで、nは、sとmの推定に用いられる参照データ点の数である。計算結果は、zスコアが大きいnに対して大きいことを示し、これは非常に小さい塩基コーリングエラー確率(p値)を生成し、したがって非常に大きなクオリティスコアを生成することができることを示す。したがっていくつかの実施態様において、zスコアはz様スコアで置換することができ、これは、上記式中のnをmin(n,N)で置換することにより計算される。Nは、任意の適切な値に設定することができる。いくつかの実施態様において、Nは36に設定される。いくつかの実施態様において、下限s2はまた、sが小さすぎる状況では、s/sqrt(min(n,N))に設定することができる。s2は、例えばデフォルト値0.01のような任意の適切な値に設定することができる。したがって、いくつかの実施態様において、z様スコアは以下により表すことができる。
zスコア又はz様スコアz’を用いて、塩基コーリングエラー確率p値は、p=1−F(z)又はp=1−F(z’)により決定することができ、ここでFは標準正規分布の累積分布関数である。次にバリアントコーリングクオリティスコアQAMPは、フレッドスコアを用いて決定することができる。いくつかの実施態様において、QAMPはフレッド様スコア:
として定義することができる。ここで、minPは10-maxQ/10である。maxQは任意の適切な値に設定することができる。例えばいくつかの実施態様において、maxQは、80又は130に設定してもよい。
いくつかの実施態様において、クオリティスコアを計算するために、試料平均と試料標準偏差の代わりに、データの中心位置と変動のロバスト推定 (robust estimations)を使用することができる。
いくつかの実施態様において、線形カーネル(linear kernel)を有するサポートベクターマシン(SVM)などの分類法は、既知の真陽性と偽陽性とを有するトレーニングデータセットを用いて、偽陽性から真陽性を分離するために使用することができる。いくつかの実施態様において、閾値はデータを視覚化することによって設定することができる。
図5及び図6は、実際の試料から配列リードデータに適用された上記方法の結果の例を示す。図5は、SVMによって決定されるセパレーターラインを有するエクソン20のEGFR T790M(2369でC>T)の異なるトレーニングデータと試験データに関する、最大対N=4を有するバリアントコーリングクオリティスコアQAMPを示す。図5は、バリアントと野生型データが十分に分離されていないことを示し、従って、0.1%以下のバリアント頻度で真の変異と偽陽性を区別することは困難であるかも知れない。しかし、0.5%以上のバリアント頻度を有するすべての試験データと少なくとも0.2%のバリアント頻度を有するほとんどの試験データに関しては、真の陽性と偽陽性は正確に区別することができる。
図6は、バリアントは、SVMによって決定されるセパレーターラインを有するエクソン21のEGFR L858R(2573でT>G)のトレーニングデータに関するmaxN=4を有するバリアントコーリングクオリティスコアQAMPを示す。図6は、0.1%のバリアント頻度を有するものを含むすべての試験データが、正しく分類することができることを示す。
IV.1又は2以上の参照試料との比較を用いる、特定の位置における特定のバリアントに関するバリアントコーリング
本発明のいくつかの実施態様において、異なる試料中の同一の位置におけるバリアント及びバリアントの野生型数を比較して、バリアントコールを行うことができる。この方法は、シークエンシングランにおいて陰性対照として野生型(通常は正常)試料が利用可能である場合に特に有用である。
A.特定の位置における特定のバリアントを検出するために試験試料と参照試料とを比較する方法
この方法は、異なる試料について特定の位置における特定のバリアントを比較するために使用することができ、2つという少ないデータ点に適用することができる。
図7は、参照試料と試験試料の配列リード上の特定の位置112における特定のバリアントC>Tを示す。図7に示されるように、参照配列の位置112における参照アレルはCであり、そして参照試料の位置112における配列リードはほとんどCであるが、シークエンシングエラーに起因するバリアントC>Tを有することがある。試験試料について、位置112における配列リードは、低いバリアント頻度に起因してCであり、真の変異に起因していくつかのTであり、及びシークエンシングエラーに起因していくつかのTでもよい。
参照試料は、理論的には真の変異は無いが、図7に示すようにシークエンシングエラーが小さいバリアント数を引き起こす可能性がある。特定の位置における特定のバリアントに関する参照試料と試験試料のバリアント数及び参照試料と試験試料の野生型数は、配列リードに基づいて決定することができ、以下の表3に示される表に入れられる。試験試料及び参照試料のカウントデータは、試験試料のバリアント頻度が、同一の位置における参照試料のバリアント頻度よりも有意に大きいかどうかを決定するために使用することができる。
表3において、a1は参照試料中の特定の位置における特定のバリアントの数であり、n1は参照試料の配列リードの深度であり、w1=n1−a1は参照試料中の特定の位置における野生型数を示す。a2、n2、及びw2は、試験試料に関する対応するバリアント数、深度、及び野生型数である。表3はまた、行の合計a=a1+a2、w=w1+w2、及び総数n=n1+n2を列記する。
(a1,w1)と(a2,w2)の比に有意差があるかどうかを試験するために、いくつかの方法がある。いくつかの実施態様において、n1及びn2はウルトラディープシークエンシングにおいて非常に大きくなる可能性があるため、片側カイ二乗検定を用いることが好ましい。片側カイ二乗検定では、比率f1=a1/n1とf2=a2/n2が最初に計算される。もしf2≦f1の場合、すなわち、試験試料の割合が参照試料の割合より大きくない場合(偽陽性であることが知られている)、エラー率p=0.63に対応する2などの非常に小さいクオリティスコアを設定することができ、更なる分析を必要としない。しかし、f2>f1の場合は、カイ二乗統計値 (chi-squared statistic)は次のように計算することができる:
片側バリアントコーリングエラー確率p値は、p=0.5×(1−pchisq(χ2,d))として計算することができ、ここでpchisqは、自由度dを有するカイ二乗累積分布関数である。いくつかの実施態様において、自由度dは1である。
(a1,w1)及び(a2,w2)の比率が有意に異なるかどうかを試験するための別の方法は、大規模な試料のためのピアソン比率検定(Pearson proportion test)である。ピアソン比率検定において、2つの比率、p1_hat=a1/n1とp2_hat=a2/n2が最初に計算される。Zスコアは、
により計算することができ、ここで、Vは次の2つの式のうちの少なくとも一つを用いて計算することができる。
ここで、p_hat=(a1+a2)/(n1+n2)である。次に片側p値は、p=1−pnorm(Z)として計算することができ、ここでpnormは累積確率分布関数である。
いくつかの実施態様において、フィッシャーの正確確率検定(Fisher's exact test)を用いて、(a1,w1)及び(a2,w2)の比率が有意に異なるかどうかを決定することができる。フィッシャーの正確確率検定は、低幾何学的(hypogeometric)分布を用いる。フィッシャーの正確確率検定のための計算はより複雑になることがあり、大規模な試料についてオーバーフローを引き起こす可能性がある。
p値が計算された後、対応するクオリティスコアはQLOC=−10×Log10(p)として定義することができる。片側カイ二乗検定において、pは(0,0.5)の範囲内であることに留意されたい。いくつかの実施態様において、pが0に近い場合に、数値計算の困難さを回避するために、QLOC=−10×Log10(max(p,minP))が使用され、ここでminPは任意の適切な値、例えば10-13に設定することができ、これは最大クオリティスコアを130に設定することと同等である。
B.特定の位置における特定のバリアントを検出するための参照試料を選択する方法
複数の試料のシークエンシングラン中の特定の位置における特定のバリアントに関する参照カウントを設定するために、様々な方法を使用することができる。一つの方法は、特定の位置における特定のバリアントの最も低いバリアント頻度と、最小値minD以上の深度を有する、同一のシークエンシングランにおいて、2つの試料のバリアント数の合計と深度の合計を使用する。いくつかの実施態様において、minDは3000に設定することができる。いくつかの実施態様において、参照割合がf0(これは、例えば0.01又は1%に設定してもよい)より大きい時、全ての試料が特定の位置における特定のバリアントに関して高バリアント頻度を有するまれな可能性を回避するために、a1はf0×n1に設定される。すなわち、使用されるa1値は、実際のa1値か又はf0×n1のいずれか小さい方である。この方法では、野生型試料にバリアントが混入している場合、バリアント混入 (variant contamination)を有する野生型試料は高バリアント頻度を示し、したがって特定のバリアントのための参照試料として選択されることはないであろう;従って、他の試料のクオリティスコアQLOCは通常は影響を受けない。いくつかの複雑な変異は、複数の単純な変異で構成されている。このような状況では、QLOCは、複雑な変異のすべての単純な変異成分のクオリティスコアQLOCの中央値として定義することができる。
既知の野生型試料はまた、参照試料として使用することもできる。しかし野生型試料にバリアントが混入している場合は、他の試料のクオリティスコアQLOCは小さくてもよい。
C.特定の位置における特定のバリアントを検出するために試験試料を参照試料と比較することによるデータ解析
図8は、特定の位置における特定のバリアントを分類するために試験試料を1又は2以上の参照試料と比較することによる、バリアントコーリングの方法800を示す。他の方法と同様に、実施態様は、記載された操作の全て又は一部を含むことができ、いくつかの操作は追加の操作又はサブ操作を含むことができる。
ブロック810において、単一のシークエンシングラン中の1又は2以上の試料からのDNAセグメント中の標的領域を標的化する配列リードが受け取られる。配列リードデータは受け取られ、読み取り可能な任意のフォーマットで記憶され、コンピュータにより解析することができる。いくつかの実施態様において、低クオリティリード又はアダプター配列を除去するために、配列リードデータの前処理が行うことができる。いくつかの実施態様において、バーコード又はMIDは除去してもよく、同一の試料からの配列リードは標識又はグループ化することができる。
ブロック820において、配列リードは、方法100のブロック170に記載されたように、参照配列の標的領域にアラインメントされる。
ブロック830において、アラインメントされた配列リード上の特定の配列位置における特定のバリアントのバリアントアレルは、アラインメントされた配列リードを参照配列と比較することにより、すべての試料について同定することができる。当業者に知られているように、任意の適切なアラインメント技術を使用することができる。
ブロック840において、全ての試料について特定の配列位置における特定のバリアントに関するバリアント数とリード数を決定することができる。バリアント数は、試料の異なる配列リード上の特定の位置における同じバリアントアレルの、例えばA>CバリアントのCの、合計数である。リード数は、試料の特定の位置のリードの総数である。
ブロック850において、少なくとも1つの試料が参照試料として選択される。上記したように、いくつかの実施態様において、既知の野生型試料を参照試料として使用することができる。いくつかの実施態様において、シークエンシングラン中で最小バリアント頻度を有する2つの試料を参照試料として使用することができる。このような実施態様において、最小バリアント頻度を有する2つの試料のバリアント数の合計とリード数の合計は、計算において参照試料のバリアント数a1及びリード数n1として使用することができる。
ブロック860において、セクションIV(A)で上記した方法を用いて、試験試料と参照試料のための特定の配列位置における特定のバリアントのバリアント数とリード数を比較して、確率値を決定される。確率値は、カイ二乗値、累積確率分布値、p値、Z値、及びクオリティスコアの1又は2以上であってもよい。
ブロック870において、試験試料上の特定の位置における特定のバリアントが真の陽性であるかどうかを決定するために、確率値と閾値とに基づいてバリアントコールが行われる。いくつかの実施態様において、閾値は単一の値であってもよい。いくつかの実施態様において、閾値は例えばバリアント頻度の関数であってもよい。いくつかの実施態様において、閾値はトレーニングデータセットに基づいて、例えばサポートベクターマシン(SVM)などのマシン学習アルゴリズムを用いて決定することができる。いくつかの実施態様において、閾値は、異なるシークエンシングランから得られたトレーニングデータに基づいて決定することができる。
D.例
以下の例は、特定の位置における特定のバリアントを検出するための、試験試料を参照試料と比較することによるバリアントコーリングの結果を示す。
図9は、SVMによって決定されるセパレーターラインを有するエクソン20のEGFR T790Mのトレーニングデータと試験データに関する局所化されたバリアントコーリングクオリティスコアQLOCを示す。図9から、SVMにより決定されるセパレータが、真陽性としてT790Mのコーリング0.1%に低下されても、野生型の試験データの誤分類が存在しないことがわかる。更に、例えばf≧0.1%又はQLOC≧18の単一の閾値は、T790Mバリアントの良好な判断ポイントとすることができる。
図10は、SVMによって決定されるセパレーターラインを有するエクソン21のEGFR L858Rのトレーニングデータと試験データに関する局所化されたバリアントコーリングクオリティスコアQLOCを示す。0.1%のバリアント頻度を有するものを含むすべての試験データが、正しく分類されていることがわかる。更に例えばQLOC≧18の単一の閾値は、L858Rバリアントの良好な判断ポイントとすることができる。
図11は、SVMによって決定されるセパレーターラインを有するエクソン19のEGFR 15塩基欠失2235_2249del15のトレーニングデータと試験データに関するバリアントコーリングクオリティスコアQLOCを示す。0.1%のバリアント頻度を有するものを含むすべての試験データが、正しく分類されていることがわかる。例えばQLOC≧18又は20の単一の閾値は、SVMを使用することなく、真の陽性と偽陽性を分離するように設定することができる。
図9〜11はまた、局所化されたバリアントコーリングスコアQLOCが、モデルに基づくバリアントコーリングスコアQAMPより、真陽性と偽陽性の間により広いマージンを有することを示す。
V.単純化されたクオリティスコアの推定
いくつかの適用において、すべてのバリアントについてp値とクオリティスコアを直接計算することは、時間がかかる。いくつかの実施態様において、クオリティスコアのみを整数として報告する必要があるため、QLOCとQAMPの値を離散化することができる。例えばf2≦f1である場合、クオリティスコアは2に設定することができる;f2>f1である場合、クオリティスコアは3、4、・・・、又はmaxQに設定することができ、これは、例えばいくつかの実施態様において130に設定することができる。
いくつかの実施態様において、クオリティスコアは、例えばχ2値qchisq又は正規クオンタイル値 (normal quantile value)qnorm、及び図12に示されるルックアップテーブルを用いて決定することができる。図12において.Q=3.5、4.5、...、129.5についてχ2値とqnorm値が計算され、ルックアップテーブルに示される。すなわち、二分探索アルゴリズムなどの探索アルゴリズムは、χ2値又はqnorm値に基づいて、3、4、...、130の最良近似整数値を決定するために使用することができる。
VI.ゼロイベントを回避するために必要な試料量
血液検査の一つの実用的な問題は、低頻度変異を検出することができるように、バリアントを検出するために十分なgDNAの量を決定することである。本発明のいくつかの実施態様において、ゼロイベント検出の確率を用いて、必要な試料の量を推定することができる。
6.022×1023/モルのアボガドロ定数、塩基対当たり650ダルトン(g/mol)の重量平均分子量、及びヒトゲノムあたり3.096×109塩基対に基づいて、1ナノグラム(ng)のヒトgDNAは、6.022×1023/(650×3.096×109×109)=300分子を含有すると計算される。
変異を検出するために必要とされるgDNAの量は、変異頻度に依存し、ゼロイベントを回避する統計的問題を解決することによって決定することができる。例えば、Lachin, Biostatistical Methods: The Assessment of Relative Risks, p.19, Wiley (2000)を参照されたい。血液試料中の変異体コピー数がBであり、DNAコピーの総数がNであり、変異確率がp=B/Nであると仮定する。二項分布に従うと、ランダム試験において変異体コピーが得られない確率は(1−p)であり、N回のランダム試験において変異体コピーが得られない確率は(1−p)Nである。従って以下の不等式を設定することができる。
ここで、αは、変異が検出されない最大許容確率(最大許容失敗率)であり、1−αは、上側信頼限界である。したがって、試料サイズNは、以下の不等式を解くことによって推定することができる。
p<<1である稀な変異の場合、推定はテイラー展開
を用いて単純化することができ、そして試料サイズの推定値は以下の通りとなる。
−ln(0.05)=2.9957、そして−ln(0.005)=5.2983であるため、3/p又は5.3/pは、それぞれ0.95と0.995の上側信頼限界を持つ稀な変異の試料サイズNを推定するために使用することができる。
表4は、最大許容失敗率αが0.05と0.005を有する少なくとも一つの変異体コピーを含むのに必要なgDNA分子の推定数を示す。例えば、試料中で少なくとも一つの変異体コピーを得るための95%の上側信頼水準(α=0.05)を有する0.1%(p=0.001)の変異を検出するためには、2995のgDNAコピーが必要であり、これは約10ngのgDNA分子と同等である。
VII.適用と検証
セクションIII及びIVにおいて上記した方法は、判定基準として使用されるバリアント頻度の閾値を決定する補助となり得る。この方法は、十分な入力(input)DNA量で0.1〜0.3%の頻度で、置換をうまく検出することができる。偽陽性率は変異の状態と位置に依存するため、特定の位置における特定の置換について、0.03%という低いバリアント頻度を有するバリアントを正しく検出することができる。
適度なサイズの挿入、欠失、及び15塩基の欠失などの複雑な変異について、シークエンシングにおいてこれらのタイプの変異をランダムに発生させることは困難であり、誤差の主原因は他の試料からのキャリーオーバー混入 (carry-over contamination)である。すなわち、ラン間で充分に確立された洗浄プロトコルを用いることにより、0.0025%と低いバリアント頻度を有するこれらのタイプのバリアントを正確に検出することができる。
Illumina MiSeq Reporter(MSR)は、本開示に記載された方法により検出される低頻度バリアントを確認するための非標準的な方法で使用することができる。MSRは、組み込みポアソン(Poisson)モデルを用いる体細胞バリアントコーラーを使用して、低頻度バリアントを報告する。MSRが報告する最低頻度は、深度に依存する。ポアソンモデルに基づくと、MSR体細胞バリアントコーラーが報告する最低のバリアント数と頻度を計算することができ、表1に示されるようにデフォルト設定される。例えば深度が100である場合、最低の報告される頻度は5%である;深度が500である場合、最低の報告される頻度は1.36%である;深度が更に大きい場合、最低の報告される頻度は上記の1%に近くなる。
いくつかの実施態様において、既知のバリアントを含む試料を参照試料として用いるMSRは、MSRが、野生型アレルを参照試料の「バリアントアレル」として報告し、実際のバリアントアレルを「野生型アレル」として報告するように実行することができる。こうして、本開示に記載された方法を用いるバリアントコーリングを検証することができる。MSRのこの非標準的な使用は、いくつかの欠点を有する。第一に、これは既知のバリアントを確認するためにのみ使用することができる。第二に、MSRが報告するバリアントコーリングクオリティスコアは、実際のバリアントのためというより野生型のものである。第三に、複数の重複する既知のバリアントが存在する場合、この方法を使用することが面倒又は困難になる。しかし、上記の欠点を考慮した後、MSRは、既知のバリアントのための検証ツールとして使用することができる。これは、ゲノム全体が参照配列として使用される場合、MSRマッピング/アラインメントソフトウェアが、マッピングされていないリードとして報告する適度なサイズのインデルのために特に有用である。
VIII.コンピュータシステムとシークエンシングシステム
本明細書に記載の任意のコンピュータシステムは、任意の適切な数のサブシステムを利用することができる。そのようなサブシステムの例は、図13でコンピュータ装置1300内に示されている。いくつかの実施態様において、コンピュータシステムは単一のコンピュータ装置を含み、ここでサブシステムはコンピュータ装置の構成要素とすることができる。他の実施態様においてコンピュータシステムは、内部構成要素を含む、それぞれがサブシステムである複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、及び他のモバイルデバイスを含むことができる。
図13に示されるサブシステムは、システムバス1305を介して相互接続される。プリンタ1340、キーボード1370、記憶装置1380、モニタ1352(これはディスプレイアダプタ1350に接続されている)などの追加のサブシステムが示されている。周辺機器及び入力/出力(I/O)装置(これらは、I/Oコントローラ1310に接続されている)は、当技術分野で任意の数の公知の手段、例えば、シリアルポート1360などによりコンピュータシステムに接続することができる。例えばシリアルポート1360又は外部インタフェース1390(例えば、イーサネット(登録商標)、Wi−Fiなど)は、コンピュータシステム1300をインターネットなどの広域ネットワーク、マウス入力装置、又はスキャナに接続するために使用することができる。システムバス1305を介する相互接続は、中央プロセッサ1330が各サブシステムと通信し、システムメモリ1320又は記憶装置1380(例えば、固定ディスク)からの命令の実行、ならびにサブシステム間の情報の交換を制御することを可能にする。システムメモリ1320及び/又は記憶装置1380は、コンピュータ読み取り可能媒体を具体化することができる。本明細書に記載の任意の値は、一つの構成要素から別の構成要素に出力することができ、ユーザに出力することができる。
コンピュータシステムは、例えば、外部インタフェース1390又は内部インタフェースによって接続される、複数の同一の構成要素又はサブシステムを含むことができる。いくつかの実施態様において、コンピュータシステム、サブシステム、又は装置は、ネットワーク上で通信することができる。このような例では一つのコンピュータはクライアントとして、別のコンピュータはサーバと見なすことができ、それぞれは、同じコンピュータシステムの一部であることができる。クライアントとサーバは、それぞれ複数のシステム、サブシステム、又は構成要素を含むことができる。
なお、本発明の任意の実施態様は、ハードウェア(例えば、特定用途向け集積回路又はフィールドプログラマブルゲートアレイ)を使用するか、及び/又はコンピュータソフトウェアを使用して、一般にプログラム可能なプロセッサを用いてモジュラー又は統合的方法で、制御ロジックの形態で実施することができることを理解すべきである。本明細書において、プロセッサは、同一の集積チップ上でシングルコアプロセッサ、マルチコアプロセッサ、又は単一の回路基板上の又はネットワーク化された複数の処理ユニットを含む。本明細書で提供される開示及び教示に基づき、ハードウェア及びハードウェアとソフトウェアの組み合わせを用いて、本発明の実施態様を実施する他の手法及び/又は方法を、当業者は周知しており理解しているであろう。
本出願に記載されている任意のソフトウェア構成要素又は機能は、例えばJava(登録商標)、C、C++、C#、Objective−C、Swiftなどのコンピュータ言語、又はPerlやPythonなどのスクリプト言語などの任意の適切なコンピュータ言語を用いて、例えば、従来型又はオブジェクト指向技術を用いて、プロセッサによって実行されるソフトウェアコードとして実行することができる。ソフトウェアコードは、記憶及び/又は送信のためのコンピュータ読み取り可能な媒体上の、一連の支持又は命令として記憶することができる。適切な非一時的コンピュータ可読媒体としては、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、磁気媒体、例えばハードドライブ又はフロッピー(登録商標)ディスク、又は光学媒体、例えばコンパクトディスク(CD)若しくはDVD(デジタル多用途ディスク)、フラッシュメモリなどが挙げることができる。コンピュータ可読媒体は、このような記憶又は送信装置の任意の組み合わせであってもよい。
このようなプログラムは、コード化され、インターネットを含む種々のプロトコルに適合する有線、光、及び/又は無線ネットワークを介して送信するために適合されたキャリア信号を用いて送信することができる。このように、本発明の実施態様に係るコンピュータ可読媒体は、そのようなプログラムでエンコードされたデータ信号を用いて作成することができる。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のある装置と共にパッケージされるか、又は他の装置とは別に(例えば、インターネットダウンロードを介して)提供されてもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えばハードドライブ、CD、又はコンピュータシステム全体)上に又はその中に常駐することができ、システム又はネットワーク内の異なるコンピュータ製品上又はその中に存在してもよい。コンピュータシステムは、ユーザに本明細書に記載の結果のいずれかを提供するための、モニタ、プリンタ、又は他の適切なディスプレイを含むことができる。
本明細書に記載される任意の方法は、全体的に又は部分的に、工程を実行するように構成することができる1又は2以上のプロセッサを含むコンピュータシステムを用いて行うことができる。すなわち実施態様は、潜在的に各工程又は工程のそれぞれの群を実行する異なる構成要素を用いて、本明細書に記載された任意の方法の工程を実行するように構成されたコンピュータシステムに関する。番号付きの工程として提示されているが、本明細書の方法の工程は、同時に又は異なる順序で行うことができる。さらに、これらの工程の一部は、他の方法の他の工程の一部とともに使用することができる。また、工程の全て又は一部が任意であってよい。また、任意の方法の任意の工程は、これらの工程を実行するためのモジュール、回路、又は他の手段を用いて行うことができる。
ある態様において本発明はまた、シークエンシングシステムも提供する。典型的なシークエンシングシステムは図14に表示される。図14に示されるシステムは、シークエンシング装置内に位置することができるシークエンシング分析モジュールと、コンピュータシステムの一部であるインテリジェンスモジュールとを含む。データセット(シークエンシングデータセット)は、ネットワーク接続又は直接接続を介して、分析モジュールからインテリジェンスモジュールに、又はその逆に、転送される。データセットは、例えば図4又は8に示すようにフローチャートに従って処理することができる。フローチャートに提供された工程は、コンピュータシステムのハードウェアに格納されたソフトウェアによって、例えば図15A及び15Bに記載されたフローチャートに従って便利に実行することができる。図15Aを参照して、コンピュータシステム(1100)は、例えば複数の配列リードから得られるデータを受け取るための受け取り手段(1110)、前記複数の配列リードを参照配列の標的領域にアラインメントするためのアラインメント手段(1120)、第一の試料の配列リードに基づいて、標的領域の第一の位置において、前記参照配列の第一の位置の参照アレルとは異なる第一のアレルを有する第一の候補バリアントを同定するための同定手段(1130)、前記参照配列の第一の位置にアラインメントする第一の試料の配列リードに基づいて、第一の位置における第一のアレルに関して第一のバリアント頻度を決定するための決定手段(1140)、複数のバリアントクラスから選択される第一のバリアントクラスに対応する第一の候補バリアントを同定するための同定手段(1150)であって、ここで前記複数のバリアントクラスの各バリアントクラスは、異なるタイプのバリアントに対応する上記手段、前記参照アレルを有する前記参照配列の標的領域中の1セットの第二の位置を同定するための同定手段(1160)であって、前記1又は2以上の試料中の少なくとも50%の他の位置は、第一のアレルに関して偽陽性を示し、そして前記1セットの第二の位置は前記第一の位置を含む上記手段を含み、前記1セットの第二の位置の各々において、かつ前記1又は2以上の試料の各々に関して、前記参照配列の第二の位置にアラインメントする試料の配列リードに基づいて、第一のアレルの第二のバリアント頻度を決定するための決定手段(1170)であって、ここで前記第二のバリアント頻度は統計分布を形成する上記手段、前記第一のバリアント頻度を前記統計分布の統計値と比較して、前記統計分布の統計値に対する第一のバリアント頻度の確率値を決定するための比較手段(1180)、そして、前記第一のアレルに関して、第一の試料において第一の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較するための比較手段(1190)であって、ここで前記閾値は前記第一のアレルに関して偽陽性と真陽性とを区別する上記手段、を含むことができる。図15Bを参照して、コンピュータシステム(2100)は、例えば複数の配列リードから得られるデータを受け取るための受け取り手段(2110)、前記複数の配列リードを参照配列の標的領域にアラインメントするためのアラインメント手段(2120)、第一の位置における各試料のアラインメントされた配列リードに基づいて、少なくとも2つの試料の各試料中の第一の位置に、前記参照配列の第一の位置における参照アレルとは異なる第一の位置における第一のアレルが存在するか否かと同定するための同定手段(2130)、前記少なくとも2つの試料の各試料の、第一の位置における第一のアレルのバリアント数と、第一の位置における参照アレルの野生型数を決定するための決定手段(2140)、前記少なくとも2つの試料から少なくとも1つの試料を参照試料として選択するための選択手段(2150)、前記第一の試料に関する第一の位置における第一のアレルの第一のバリアント数と第一の位置における参照アレルの第一の野生型数とを、前記参照試料に関する第一の位置における第一のアレルの第二のバリアント数と第一の位置における参照アレルの第二の野生型数とを比較して、第一の試料に関する第一の位置において第一のアレルを有するバリアントの確率値を決定するための比較手段(2160)、そして前記第一の試料中の第一の位置における第一のアレルが、第一のアレルについて真陽性であるかどうかを決定する一部として、確率値を閾値と比較するための比較手段(2170)であって、ここで前記閾値は、前記第一の位置における第一のアレルに関して偽陽性と真陽性とを区別する上記手段、をさらに備えることができる。
ある実施態様において、システムはまた、結果をコンピュータスクリーン上に表示するための表示手段を含むこともできる。図14は、シークエンシング装置とコンピュータシステムとの間の相互作用を示す。システムは、シークエンシング装置内に位置することができる配列分析モジュールと、コンピュータシステムの一部であるインテリジェンスモジュールとを含む。データセット(シークエンシングデータセット)は、ネットワーク接続又は直接接続を介して、分析モジュールからインテリジェンスモジュールに又はその逆に、転送される。データセットは、プロセッサ上で作動しインテリジェンスモジュールの記憶装置に記憶されるコンピュータコードにより、図15A又は15Bに従って処理することができ、処理後、分析モジュールの記憶装置に転送されて戻され、ここで修正されたデータは表示装置上に表示することができる。いくつかの実施態様において、インテリジェンスモジュールはまたシークエンシング装置で実行することができる。
特定の実施態様の具体的な詳細は、本発明の実施態様の精神及び範囲から逸脱することなく、任意の適切な方法で組み合わせることができる。しかし、本発明の他の実施態様は、個々の態様、又はこれらの個々の態様の特定の組み合わせに関連する特定の実施態様に関してもよい。
本発明の例示的な実施態様の上記記載は、例示と説明のために提示されている。これは網羅的であること又は記載した正確な形態に本発明を限定することを意図するものでもなく、多くの修正及び変更が上記の教示に照らして可能である。
「a」、「an」又は「the」の列挙は、特に別の指定がなければ、「1又は2以上」を意味することが意図される。特に別の指定がなければ、「又は」の使用は「含んで又は」を意味し、「含まなくて又は」ではないことを意味する。

Claims (15)

  1. 第一の試料中の標的領域における低頻度バリアントを検出するための、コンピュータで実行される方法であって、コンピュータシステムにおいて、
    − 1又は2以上の試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記1又は2以上の試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
    − 前記複数の配列リードを、参照配列の標的領域にアラインメントし;
    − 第一の試料の配列リードに基づいて、標的領域の第一の位置において第一のバリアントアレルを有する第一の候補バリアントを同定し、ここで前記第一のバリアントアレルは、前記参照配列の第一の位置の参照アレルとは異なり;
    − 前記参照配列の第一の位置にアラインメントする第一の試料の配列リードに基づいて、第一の位置における第一のバリアントアレルに関する第一のバリアント頻度を決定し、
    − 前記参照アレルを有する前記参照配列の標的領域中の1セットの第二の位置を同定し、ここで前記1セットの第二の位置は前記第一の位置を含み;
    前記1セットの第二の位置の各々の位置において、かつ前記1又は2以上の試料の各々に関して:
    − 前記参照配列の1セットの第二の位置の各々の位置にアラインメントする試料の配列リードに基づいて、第一のバリアントアレルの第二のバリアント頻度を決定し、ここで前記第二のバリアント頻度は統計分布を形成し;
    − 前記第一のバリアント頻度を前記統計分布の統計値と比較して、前記統計分布の統計値に対する第一のバリアント頻度の確率値を決定し;そして
    − 前記第一の位置における第一のバリアントアレルに関して、第一の試料において第一の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は前記第一のバリアントアレルに関して偽陽性と真陽性とを区別する、
    含む、方法。
  2. 前記参照配列は、正常細胞から決定されるとおりのコンセンサス配列に対応する、請求項1に記載の方法。
  3. 前記1又は2以上の試料は無細胞DNA断片由来である、請求項1又は2に記載の方法。
  4. 前記1又は2以上の試料は生物試料のRNA由来である、請求項1又は2に記載の方法。
  5. 複数の試料は、単一のシークエンシングランにおいてシークエンシングされる、請求項1〜4のいずれか1項に記載の方法。
  6. 前記確率値は、zスコア、修正されたzスコア、累積確率、フレッド(Phred)クオリティスコア又は修正されたフレッドクオリティスコアである、請求項1〜5のいずれか1項に記載の方法。
  7. 前記統計分布は、前記第二のバリアント頻度の対数変換の統計分布である、請求項1〜6のいずれか1項に記載の方法。
  8. 前記閾値は、既知の真陽性と偽陽性とを有するトレーニングデータに基づいて、サポートベクターマシン分類器を用いて決定される、請求項1〜7のいずれか1項に記載の方法。
  9. 第一の試料中の標的領域における第一の位置に第一のバリアントアレルを有するバリアントを検出するための、コンピュータで実行される方法であって、コンピュータシステムにおいて、
    − 少なくとも2つの試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記少なくとも2つの試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
    − 前記複数の配列リードを、参照配列の標的領域にアラインメントし;
    − 第一の位置において各試料のアラインメントされた配列リードに基づいて、前記第一のバリアントアレルが、前記少なくとも2つの試料の各々の試料中の第一の位置に存在するか否かを同定し、ここで前記第一のバリアントアレルは、前記参照配列の第一の位置における参照アレルとは異なり;
    − 前記少なくとも2つの試料の各試料に関する第一の位置にアラインメントされた配列リードを用いて、前記第一の位置における第一のバリアントアレルのバリアント数及び前記第一の位置における参照アレルの野生型数を決定し;
    − 前記少なくとも2つの試料から、1つ又は2つ以上の試料を1つ又は2つ以上の参照試料として選択し;
    − 第一の試料に関する第一の位置における第一のバリアントアレルの第一のバリアント数及び第一の位置における参照アレルの第一の野生型数と、前記1つ又は2つ以上の参照試料に関する第一の位置における第一のバリアントアレルの第二のバリアント数及び第一の位置における参照アレルの第二の野生型数とを比較して、第一の試料に関する第一の位置に第一のバリアントアレルを有するバリアントが発生する確率値を決定し;そして
    − 第一のバリアントアレルに関して第一の試料中の第一の位置における第一のバリアントアレルが真陽性を含むか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は第一の位置の第一のバリアントアレルに関して偽陽性と真陽性とを区別する、
    含む、方法。
  10. 前記確率値は、以下の式:
    [式中、
    a2は第一のバリアント数であり、w2は第一の野生型数であり、a1は第二のバリアント数であり、w1は第二の野生型数であり、aはa1及びa2の合計であり、wはw1及びw2の合計であり、n1はa1及びw1の合計であり、n2はa2及びw2の合計であり、nはn1及びn2の合計である]
    によって定義されるカイ二乗統計値に基づくカイ二乗累積分布関数を用いて決定される、請求項9に記載の方法。
  11. 前記確率値は、2つの比率であるp1及びp2に基づいて決定され、ここでp1=a1/n1であり、p2=a2/n2であり、a2は第一のバリアント数であり、a1は第二のバリアント数であり、n2は第一のバリアント数及び第一の野生型数の合計であり、そしてn1は第二のバリアント数及び第二の野生型数の合計である、請求項9に記載の方法。
  12. 前記確率値は、zスコア、修正されたzスコア、p値、カイ二乗値、累積確率値及び信頼水準を示すクオリティスコアの1つ又は2つ以上である、請求項9に記載の方法。
  13. 前記クオリティスコアはルックアップテーブルを用いて決定され、ここで前記ルックアップテーブルの入力は、カイ二乗値又は正規クオンタイル値の少なくとも1つである、請求項12に記載の方法。
  14. 前記閾値は、既知の真陽性と偽陽性とを有するトレーニングデータに基づいて、サポートベクターマシン分類器を用いて決定される、請求項9〜13のいずれか1項に記載の方法。
  15. 一の試料の標的領域における真のバリアントを検出するようにコンピュータシステムを制御するためのコンピュータプログラムであって、以下の指示:
    − 1又は2以上の試料からのDNA断片のシークエンシングから得られる複数の配列リードを受容させ、ここで前記1又は2以上の試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
    − 前記複数の配列リードを、参照配列の標的領域にアラインメントさせ
    − 複数のバリアントクラス中の1つのバリアントクラス中のバリアントの参照アレルを各々が有する参照配列の標的領域における1セットの配列位置を同定させ、ここで、前記複数のバリアントクラスの各々は、1又は2以上のバリアントを含むように定義され、各々のバリアントは対応する参照アレルとは異なるバリアントアレルを有し、そして前記1セットの配列位置は第一の位置を含み、
    前記1セットの配列位置の各々の位置において、かつ前記1又は2以上の試料の各々の試料に関して:
    − 各試料に関する各位置におけるリード数を決定させ
    − 各試料の配列リードに基づいて、前記バリアントクラス中のバリアントに関するバリアントアレルを有する候補バリアントを同定させ、ここで前記バリアントアレルは、前記参照配列の同一の位置における参照アレルとは異なり、そして各試料中の各位置における候補バリアントの総数は、各試料に関する各位置中のバリアント数であり;
    − 前記リード数及びバリアント数に基づいてバリアントクラス中のバリアントのバリアント頻度を決定させ、ここで各試料中の各位置に関するバリアント頻度は、統計分布を形成し、第一の試料に関する前記1セットの配列位置中の第一の位置におけるバリアント頻度は、第一のバリアント頻度であり;
    − 前記第一のバリアント頻度を統計分布の値と比較して、前記統計分布の値に対する前記第一のバリアント頻度の確率値を決定させ;そして
    − 第一の試料中の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較させること、ここで前記閾値は、前記バリアントクラス中のバリアントに関して偽陽性と真陽性とを区別する、
    を含む、前記コンピュータプログラム。
JP2016565058A 2014-05-12 2015-05-12 ウルトラディープシークエンシングにおける希少バリアントコール Active JP6618929B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461991820P 2014-05-12 2014-05-12
US61/991,820 2014-05-12
PCT/EP2015/060442 WO2015173222A1 (en) 2014-05-12 2015-05-12 Rare variant calls in ultra-deep sequencing

Publications (3)

Publication Number Publication Date
JP2017520821A JP2017520821A (ja) 2017-07-27
JP2017520821A5 JP2017520821A5 (ja) 2018-06-21
JP6618929B2 true JP6618929B2 (ja) 2019-12-11

Family

ID=53264628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016565058A Active JP6618929B2 (ja) 2014-05-12 2015-05-12 ウルトラディープシークエンシングにおける希少バリアントコール

Country Status (5)

Country Link
US (1) US10216895B2 (ja)
EP (1) EP3143537B1 (ja)
JP (1) JP6618929B2 (ja)
CN (1) CN106462670B (ja)
WO (1) WO2015173222A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2697397B1 (en) 2011-04-15 2017-04-05 The Johns Hopkins University Safe sequencing system
AU2013338393B2 (en) 2012-10-29 2017-05-11 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
WO2017127741A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Methods and systems for high fidelity sequencing
JP6931665B2 (ja) 2016-06-01 2021-09-08 クアンタム−エスアイ インコーポレイテッドQuantum−Si Incorporated パルス決定器及び塩基決定器
US10600499B2 (en) 2016-07-13 2020-03-24 Seven Bridges Genomics Inc. Systems and methods for reconciling variants in sequence data relative to reference sequence data
CN117457074A (zh) * 2016-11-16 2024-01-26 宜曼达股份有限公司 测序数据读段重新比对的方法
CN110168648A (zh) * 2016-11-16 2019-08-23 伊路米纳有限公司 序列变异识别的验证方法和系统
WO2018152267A1 (en) * 2017-02-14 2018-08-23 Bahram Ghaffarzadeh Kermani Reliable and secure detection techniques for processing genome data in next generation sequencing (ngs)
CN108660252B (zh) * 2017-04-01 2021-11-26 北京博尔晟科技发展有限公司 一种基于焦磷酸测序的人类免疫缺陷病毒耐药性分析方法
KR102035615B1 (ko) * 2017-08-07 2019-10-23 연세대학교 산학협력단 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
JP7232476B2 (ja) 2017-08-07 2023-03-08 ザ ジョンズ ホプキンス ユニバーシティ がんを評価及び治療するための方法及び物質
EP3676846A1 (en) * 2017-10-06 2020-07-08 Grail, Inc. Site-specific noise model for targeted sequencing
NZ759818A (en) 2017-10-16 2022-04-29 Illumina Inc Semi-supervised learning for training an ensemble of deep convolutional neural networks
US11861491B2 (en) 2017-10-16 2024-01-02 Illumina, Inc. Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)
JP7067896B2 (ja) * 2017-10-27 2022-05-16 シスメックス株式会社 品質評価方法、品質評価装置、プログラム、および記録媒体
CA3080170A1 (en) * 2017-11-28 2019-06-06 Grail, Inc. Models for targeted sequencing
JP7013490B2 (ja) * 2017-11-30 2022-02-15 イルミナ インコーポレイテッド 配列バリアントコールのためのバリデーションの方法及びシステム
WO2019136388A1 (en) 2018-01-08 2019-07-11 Illumina, Inc. Systems and devices for high-throughput sequencing with semiconductor-based detection
KR102239487B1 (ko) 2018-01-08 2021-04-14 일루미나, 인코포레이티드 반도체-기반 검출을 사용한 고-처리율 서열분석
US11538556B2 (en) 2018-01-26 2022-12-27 Quantum-Si Incorporated Machine learning enabled pulse and base calling for sequencing devices
SE541799C2 (en) * 2018-04-11 2019-12-17 David Yudovich Determination of frequency distribution of nucleotide sequence variants
JP2019191952A (ja) * 2018-04-25 2019-10-31 特定非営利活動法人North East Japan Study Group プログラム、情報処理方法および情報処理装置
WO2020035446A1 (en) * 2018-08-13 2020-02-20 F. Hoffmann-La Roche Ag Systems and methods for using neural networks for germline and somatic variant calling
CA3116710A1 (en) * 2018-10-17 2020-04-23 Quest Diagnostics Investments Llc Genomic sequencing selection system
US20210381997A1 (en) * 2018-10-19 2021-12-09 Roche Sequencing Solutions, Inc. Electric field-assisted junctions for sequencing
CN111073961A (zh) * 2019-12-20 2020-04-28 苏州赛美科基因科技有限公司 一种基因稀有突变的高通量检测方法
US11361194B2 (en) 2020-10-27 2022-06-14 Illumina, Inc. Systems and methods for per-cluster intensity correction and base calling
US11538555B1 (en) 2021-10-06 2022-12-27 Illumina, Inc. Protein structure-based protein language models

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2875149B1 (en) * 2012-07-20 2019-12-04 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
US20140066317A1 (en) * 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20140143188A1 (en) * 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
US9218450B2 (en) * 2012-11-29 2015-12-22 Roche Molecular Systems, Inc. Accurate and fast mapping of reads to genome

Also Published As

Publication number Publication date
US10216895B2 (en) 2019-02-26
CN106462670B (zh) 2020-04-10
US20150324519A1 (en) 2015-11-12
JP2017520821A (ja) 2017-07-27
EP3143537A1 (en) 2017-03-22
CN106462670A (zh) 2017-02-22
EP3143537B1 (en) 2023-03-01
WO2015173222A1 (en) 2015-11-19

Similar Documents

Publication Publication Date Title
JP6618929B2 (ja) ウルトラディープシークエンシングにおける希少バリアントコール
JP7081829B2 (ja) 無細胞試料中の腫瘍dnaの解析
JP6275145B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
US20190066842A1 (en) A novel algorithm for smn1 and smn2 copy number analysis using coverage depth data from next generation sequencing
WO2017127741A1 (en) Methods and systems for high fidelity sequencing
WO2019025004A1 (en) METHOD FOR NON-INVASIVE PRENATAL DETECTION OF FETUS SEX CHROMOSOMAL ABNORMALITY AND FETUS SEX DETERMINATION FOR SINGLE PREGNANCY AND GEEMELLAR PREGNANCY
JP2023516633A (ja) メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法
EP4314398A1 (en) Systems and methods for multi-analyte detection of cancer
Fedick et al. Next Generation of Carrier Screening
AU2019283981A1 (en) Analyzing tumor dna in a cellfree sample

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20161027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180511

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191113

R150 Certificate of patent or registration of utility model

Ref document number: 6618929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250