JP6618929B2 - ウルトラディープシークエンシングにおける希少バリアントコール - Google Patents
ウルトラディープシークエンシングにおける希少バリアントコール Download PDFInfo
- Publication number
- JP6618929B2 JP6618929B2 JP2016565058A JP2016565058A JP6618929B2 JP 6618929 B2 JP6618929 B2 JP 6618929B2 JP 2016565058 A JP2016565058 A JP 2016565058A JP 2016565058 A JP2016565058 A JP 2016565058A JP 6618929 B2 JP6618929 B2 JP 6618929B2
- Authority
- JP
- Japan
- Prior art keywords
- variant
- sample
- allele
- sequence
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012350 deep sequencing Methods 0.000 title description 11
- 239000000523 sample Substances 0.000 claims description 184
- 108700028369 Alleles Proteins 0.000 claims description 100
- 238000012163 sequencing technique Methods 0.000 claims description 99
- 238000000034 method Methods 0.000 claims description 86
- 238000009826 distribution Methods 0.000 claims description 65
- 108020004414 DNA Proteins 0.000 claims description 38
- 238000012706 support-vector machine Methods 0.000 claims description 23
- 239000012634 fragment Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 19
- 230000001186 cumulative effect Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 11
- 238000005315 distribution function Methods 0.000 claims description 7
- 239000012472 biological sample Substances 0.000 claims description 6
- 230000008685 targeting Effects 0.000 claims description 6
- 108091035707 Consensus sequence Proteins 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 238000012360 testing method Methods 0.000 description 73
- 230000035772 mutation Effects 0.000 description 50
- 239000013074 reference sample Substances 0.000 description 31
- 230000003321 amplification Effects 0.000 description 23
- 238000003199 nucleic acid amplification method Methods 0.000 description 23
- 206010028980 Neoplasm Diseases 0.000 description 19
- 201000011510 cancer Diseases 0.000 description 15
- 238000012217 deletion Methods 0.000 description 15
- 230000037430 deletion Effects 0.000 description 15
- 238000007481 next generation sequencing Methods 0.000 description 15
- 230000037429 base substitution Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 108020004707 nucleic acids Proteins 0.000 description 13
- 102000039446 nucleic acids Human genes 0.000 description 13
- 150000007523 nucleic acids Chemical class 0.000 description 13
- 210000004027 cell Anatomy 0.000 description 11
- 238000001514 detection method Methods 0.000 description 11
- 239000000306 component Substances 0.000 description 10
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 9
- 238000013179 statistical model Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000003752 polymerase chain reaction Methods 0.000 description 7
- 102200048955 rs121434569 Human genes 0.000 description 7
- 108091092584 GDNA Proteins 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 6
- 239000008280 blood Substances 0.000 description 6
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 239000002773 nucleotide Substances 0.000 description 6
- 125000003729 nucleotide group Chemical group 0.000 description 6
- 102200048928 rs121434568 Human genes 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 5
- 210000001519 tissue Anatomy 0.000 description 5
- 239000011324 bead Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 230000000392 somatic effect Effects 0.000 description 4
- 238000007399 DNA isolation Methods 0.000 description 3
- 238000000729 Fisher's exact test Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000000546 chi-square test Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 206010069754 Acquired gene mutation Diseases 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 2
- 108020004635 Complementary DNA Proteins 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 238000009534 blood test Methods 0.000 description 2
- 238000010804 cDNA synthesis Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- -1 cell-free portions Substances 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 2
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000037439 somatic mutation Effects 0.000 description 2
- 238000000527 sonication Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- FARHYDJOXLCMRP-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-1-[2-oxo-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethyl]pyrazol-3-yl]oxyacetic acid Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(N1CC2=C(CC1)NN=N2)=O)OCC(=O)O FARHYDJOXLCMRP-UHFFFAOYSA-N 0.000 description 1
- 102100025230 2-amino-3-ketobutyrate coenzyme A ligase, mitochondrial Human genes 0.000 description 1
- 108010087522 Aeromonas hydrophilia lipase-acyltransferase Proteins 0.000 description 1
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 102100034343 Integrase Human genes 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 238000010802 RNA extraction kit Methods 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000011869 Shapiro-Wilk test Methods 0.000 description 1
- 108010006785 Taq Polymerase Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 239000012503 blood component Substances 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 108091092259 cell-free RNA Proteins 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 230000003100 immobilizing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 239000006166 lysate Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 238000001422 normality test Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000013641 positive control Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000001138 tear Anatomy 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
Description
1又は2以上の試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記1又は2以上の試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
前記複数の配列リードを、参照配列の標的領域にアラインメントし;
第一の試料の配列リードに基づいて、標的領域の第一の位置において第一のアレルを有する第一の候補バリアントを同定し、ここで前記第一のアレルは、前記参照配列の第一の位置の参照アレルとは異なり;
前記参照配列の第一の位置にアラインメントする第一の試料の配列リードに基づいて、第一の位置における第一のアレルに関する第一のバリアント頻度を決定し、
複数のバリアントクラスから選択される第一のバリアントクラスに対応する第一の候補バリアントを同定し、ここで前記複数のバリアントクラスの各バリアントクラスは、異なるタイプのバリアントに対応し;
前記参照アレルを有する前記参照配列の標的領域における1セットの第二の位置を同定し、ここで前記1又は2以上の試料中の少なくとも50%の他の位置は、第一のアレルに関して偽陽性を示し、そして前記1セットの第二の位置は前記第一の位置を含み;
前記1セットの第二の位置の各々において、かつ前記1又は2以上の試料の各々に関して:
前記参照配列の第二の位置にアラインメントする試料の配列リードに基づいて、第一のアレルの第二のバリアント頻度を決定し、ここで前記第二のバリアント頻度は統計分布を形成し;
前記第一のバリアント頻度を前記統計分布の統計値と比較して、前記統計分布の統計値に対する第一のバリアント頻度の確率値を決定し;そして
前記第一のアレルに関して、第一の試料において第一の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は前記第一のアレルに関して偽陽性と真陽性とを区別する、を含む。
少なくとも2つの試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記少なくとも2つの試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
前記複数の配列リードを、参照配列の標的領域にアラインメントし;
第一の位置において各試料のアラインメントされた配列リードに基づいて、前記第一のアレルが、前記少なくとも2つの試料の各々の試料中の第一の位置に存在するか否かを同定し、ここで前記第一のアレルは、前記参照配列の第一の位置における参照アレルとは異なり;
前記少なくとも2つの試料の各試料に関する、第一の位置における第一のアレルのバリアント数及び第一の位置の参照アレルの野生型数を決定し;
前記少なくとも2つの試料から、少なくとも1つの試料を参照試料として選択し;
第一の試料に関する第一の位置における第一のアレルの第一のバリアント数及び第一の位置における参照アレルの第一の野生型数と、前記参照試料に関する第一の位置における第一のアレルの第二のバリアント数及び第一の位置における参照アレルの第二の野生型数とを比較して、第一の試料に関する第一の位置に第一のアレルを有するバリアントの確率値を決定し;そして
第一のアレルに関して第一の試料中の第一の位置における第一のアレルが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は第一の位置の第一のアレルに関して偽陽性と真陽性とを区別する、を含む。
1又は2以上の試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記1又は2以上の試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
前記複数の配列リードを、参照配列の標的領域にアラインメントし;
バリアントクラス中のバリアントの参照アレルを有する参照配列の標的領域における1セットの配列位置を同定し、ここで、前記1又は2以上の試料中の少なくとも50%の配列位置は、前記配列リード中のバリアントクラス中のバリアントに関して偽陽性を示し、そして前記1セットの配列位置は第一の位置を含み、
前記1セットの配列位置の各々の位置において、かつ前記1又は2以上の試料の各々の試料に関して:
各試料に関する各位置におけるリード数を決定し;
各試料の配列リードに基づいて、前記バリアントクラス中のバリアントに関するバリアントアレルを有する候補バリアントを同定し、ここで前記バリアントアレルは、参照配列の同一の位置における参照アレルとは異なり、そして各試料中の各位置における候補バリアントの総数は、各試料に関する各位置中のバリアント数であり;
前記リード数及びバリアント数に基づいてバリアントクラス中のバリアントのバリアント頻度を決定し、ここで各試料中の各位置に関するバリアント頻度は、統計分布を形成し、第一の試料に関する前記1セットの配列位置中の第一の位置におけるバリアント頻度は、第一のバリアント頻度であり;
前記第一のバリアント頻度を統計分布の値と比較して、前記統計分布の値に対する前記第一のバリアント頻度の確率値を決定し;そして
第一の試料中の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は、前記バリアントクラス中のバリアントに関して偽陽性と真陽性とを区別する、を含む。ある実施態様において、前記統計分布は、各試料に関する各位置におけるバリアント頻度の対数変換の統計分布である。
本明細書において用語「試料 (sample)」又は「生物試料 (biological sample)」は、核酸を含むか又は含むと推定される任意の組成物を指す。核酸は、動物(例えば哺乳動物、ヒト)、植物、微生物などに由来してもよい。試料という用語は、細胞、組織、又は血液の、精製されたか又は分離された成分、例えばDNA、RNA、タンパク質、無細胞部分、又は溶解物を含む。試料はまた、他のタイプの生物試料、例えば皮膚、血漿、血清、全血、及び血液成分(バフィーコート)、唾液、尿、涙、精液、膣液、吸引物若しくは洗浄液、組織生検、及び他の体液や組織(パラフィン包埋組織を含む)を指すこともできる。試料はまた、細胞株を含む個体から得られた細胞のインビトロ培養物の成分及び構成要素を含むことができる。「試験試料 (test sample)」は、試料中のバリアントを検出するための試験中の試料を指す。
ゲノムの特定の領域は、標的化シークエンシングを用いて効率的に分析することができる。例えば生物試料のゲノムセグメントは、標的領域に対応するセグメントをクローニングすることにより(例えば、ポリメラーゼ連鎖反応(PCR)などの増幅プロセスにおいてプライマーを用いて)、及び/又は標的領域に対応するセグメントを優先的に捕捉するプローブを用いることにより、増加又は増幅させることができる。標的増加試料中のゲノムセグメントは、大規模の平行した次世代シークエンシング(NGS)を用いてシークエンシングし、標的領域内の可能な変異を調査するために分析することができる。
バリアントコーリングは、試験試料と参照配列の配列リード間の真の差を識別するプロセスである。バリアントコーリングは、試料の特性評価及び疾患の診断において重要である。しかし、非常に低い頻度でしばしば体細胞バリアントが発生するため、バリアントコーリングは本質的に難しい。バリアントコーリングの1つの目標は、謝った偽陽性を最小にするために高い信頼度で体細胞バリアントを同定することである。
本開示のいくつかの実施態様において、NGS実験で観察されるすべてのバリアントを報告することができる。低頻度の真陽性を偽陽性から区別するために、ほとんどの観測される低頻度バリアントは偽陽性であってもよいため、偽陽性バリアントの分布を用いて、バリアントコーリングクオリティスコアを確立して、バリアントが真陽性である可能性を決定することができる。
図3A〜3Dは、本発明のいくつかの実施態様に従う統計モデルに基づくバリアントコーリングの基礎となる数学的理論を提供する。バリアントコーリングの偽陽性率は配列状況や位置に依存しているため、全ての試料中の種々の位置におけるA>Cなどの同一のクラス又はタイプのバリアントは一緒に比較して、統計分布に基づくバリアントコールを行うことができる。
(1)A>C、A>G、A>T、C>A、C>G、C>T、G>A、G>C、G>T、T>A、T>C、及びT>Gを含む12の単一塩基置換;
(2)AC>GAなどの多塩基置換;
(3)AGT>AT又はGCAT>GTなどの1〜2塩基の欠失;
(4)ATCGA>AAなどの3塩基の欠失;
(5)GACCTA>GA又はTGCGCGA>TAなどの4〜5塩基の欠失;
(6)ATCCTCAG>AGなどの6塩基以上の欠失;
(7)AT>AAT又はGC>GTACなどの1〜2塩基の挿入;
(8)GC>GTAAC又はAC>AGATGCなどの3塩基以上の挿入;そして
(9)単一塩基置換A>Cなどの他の単純な変異に、すぐ続く1塩基の欠失、例えば、元々の参照塩基がATであり、変異塩基がCである、すなわちAT>C。そのような変異AT>Cはまた、Aの欠失に単一塩基置換T>Cが続くと解釈することができる。
図4は、統計モデルを用いるバリアントコーリングの方法400を示す。他の方法と同様に実施態様は、記載された操作の全て又は一部を含むことができ、いくつかの操作は追加の操作又はサブ操作を含むことができる。
以下の例は、このセクションで上記した方法を示す。以下の例において、バリアント頻度が正規分布ではなく、一方で対数バリアント頻度の分布が後述されるように正規分布に近いため、バリアントクラスに関する対数バリアント頻度の統計分布に基づくモデルが使用される。
本発明のいくつかの実施態様において、異なる試料中の同一の位置におけるバリアント及びバリアントの野生型数を比較して、バリアントコールを行うことができる。この方法は、シークエンシングランにおいて陰性対照として野生型(通常は正常)試料が利用可能である場合に特に有用である。
この方法は、異なる試料について特定の位置における特定のバリアントを比較するために使用することができ、2つという少ないデータ点に適用することができる。
複数の試料のシークエンシングラン中の特定の位置における特定のバリアントに関する参照カウントを設定するために、様々な方法を使用することができる。一つの方法は、特定の位置における特定のバリアントの最も低いバリアント頻度と、最小値minD以上の深度を有する、同一のシークエンシングランにおいて、2つの試料のバリアント数の合計と深度の合計を使用する。いくつかの実施態様において、minDは3000に設定することができる。いくつかの実施態様において、参照割合がf0(これは、例えば0.01又は1%に設定してもよい)より大きい時、全ての試料が特定の位置における特定のバリアントに関して高バリアント頻度を有するまれな可能性を回避するために、a1はf0×n1に設定される。すなわち、使用されるa1値は、実際のa1値か又はf0×n1のいずれか小さい方である。この方法では、野生型試料にバリアントが混入している場合、バリアント混入 (variant contamination)を有する野生型試料は高バリアント頻度を示し、したがって特定のバリアントのための参照試料として選択されることはないであろう;従って、他の試料のクオリティスコアQLOCは通常は影響を受けない。いくつかの複雑な変異は、複数の単純な変異で構成されている。このような状況では、QLOCは、複雑な変異のすべての単純な変異成分のクオリティスコアQLOCの中央値として定義することができる。
図8は、特定の位置における特定のバリアントを分類するために試験試料を1又は2以上の参照試料と比較することによる、バリアントコーリングの方法800を示す。他の方法と同様に、実施態様は、記載された操作の全て又は一部を含むことができ、いくつかの操作は追加の操作又はサブ操作を含むことができる。
以下の例は、特定の位置における特定のバリアントを検出するための、試験試料を参照試料と比較することによるバリアントコーリングの結果を示す。
いくつかの適用において、すべてのバリアントについてp値とクオリティスコアを直接計算することは、時間がかかる。いくつかの実施態様において、クオリティスコアのみを整数として報告する必要があるため、QLOCとQAMPの値を離散化することができる。例えばf2≦f1である場合、クオリティスコアは2に設定することができる;f2>f1である場合、クオリティスコアは3、4、・・・、又はmaxQに設定することができ、これは、例えばいくつかの実施態様において130に設定することができる。
血液検査の一つの実用的な問題は、低頻度変異を検出することができるように、バリアントを検出するために十分なgDNAの量を決定することである。本発明のいくつかの実施態様において、ゼロイベント検出の確率を用いて、必要な試料の量を推定することができる。
セクションIII及びIVにおいて上記した方法は、判定基準として使用されるバリアント頻度の閾値を決定する補助となり得る。この方法は、十分な入力(input)DNA量で0.1〜0.3%の頻度で、置換をうまく検出することができる。偽陽性率は変異の状態と位置に依存するため、特定の位置における特定の置換について、0.03%という低いバリアント頻度を有するバリアントを正しく検出することができる。
本明細書に記載の任意のコンピュータシステムは、任意の適切な数のサブシステムを利用することができる。そのようなサブシステムの例は、図13でコンピュータ装置1300内に示されている。いくつかの実施態様において、コンピュータシステムは単一のコンピュータ装置を含み、ここでサブシステムはコンピュータ装置の構成要素とすることができる。他の実施態様においてコンピュータシステムは、内部構成要素を含む、それぞれがサブシステムである複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、及び他のモバイルデバイスを含むことができる。
Claims (15)
- 第一の試料中の標的領域における低頻度バリアントを検出するための、コンピュータで実行される方法であって、コンピュータシステムにおいて、
− 1又は2以上の試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記1又は2以上の試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
− 前記複数の配列リードを、参照配列の標的領域にアラインメントし;
− 第一の試料の配列リードに基づいて、標的領域の第一の位置において第一のバリアントアレルを有する第一の候補バリアントを同定し、ここで前記第一のバリアントアレルは、前記参照配列の第一の位置の参照アレルとは異なり;
− 前記参照配列の第一の位置にアラインメントする第一の試料の配列リードに基づいて、第一の位置における第一のバリアントアレルに関する第一のバリアント頻度を決定し、
− 前記参照アレルを有する前記参照配列の標的領域中の1セットの第二の位置を同定し、ここで前記1セットの第二の位置は前記第一の位置を含み;
前記1セットの第二の位置の各々の位置において、かつ前記1又は2以上の試料の各々に関して:
− 前記参照配列の1セットの第二の位置の各々の位置にアラインメントする試料の配列リードに基づいて、第一のバリアントアレルの第二のバリアント頻度を決定し、ここで前記第二のバリアント頻度は統計分布を形成し;
− 前記第一のバリアント頻度を前記統計分布の統計値と比較して、前記統計分布の統計値に対する第一のバリアント頻度の確率値を決定し;そして
− 前記第一の位置における第一のバリアントアレルに関して、第一の試料において第一の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は前記第一のバリアントアレルに関して偽陽性と真陽性とを区別する、
含む、方法。 - 前記参照配列は、正常細胞から決定されるとおりのコンセンサス配列に対応する、請求項1に記載の方法。
- 前記1又は2以上の試料は無細胞DNA断片由来である、請求項1又は2に記載の方法。
- 前記1又は2以上の試料は生物試料のRNA由来である、請求項1又は2に記載の方法。
- 複数の試料は、単一のシークエンシングランにおいてシークエンシングされる、請求項1〜4のいずれか1項に記載の方法。
- 前記確率値は、zスコア、修正されたzスコア、累積確率、フレッド(Phred)クオリティスコア又は修正されたフレッドクオリティスコアである、請求項1〜5のいずれか1項に記載の方法。
- 前記統計分布は、前記第二のバリアント頻度の対数変換の統計分布である、請求項1〜6のいずれか1項に記載の方法。
- 前記閾値は、既知の真陽性と偽陽性とを有するトレーニングデータに基づいて、サポートベクターマシン分類器を用いて決定される、請求項1〜7のいずれか1項に記載の方法。
- 第一の試料中の標的領域における第一の位置に第一のバリアントアレルを有するバリアントを検出するための、コンピュータで実行される方法であって、コンピュータシステムにおいて、
− 少なくとも2つの試料からのDNA断片のシークエンシングから得られる複数の配列リードを受け取り、ここで前記少なくとも2つの試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
− 前記複数の配列リードを、参照配列の標的領域にアラインメントし;
− 第一の位置において各試料のアラインメントされた配列リードに基づいて、前記第一のバリアントアレルが、前記少なくとも2つの試料の各々の試料中の第一の位置に存在するか否かを同定し、ここで前記第一のバリアントアレルは、前記参照配列の第一の位置における参照アレルとは異なり;
− 前記少なくとも2つの試料の各試料に関する第一の位置にアラインメントされた配列リードを用いて、前記第一の位置における第一のバリアントアレルのバリアント数及び前記第一の位置における参照アレルの野生型数を決定し;
− 前記少なくとも2つの試料から、1つ又は2つ以上の試料を1つ又は2つ以上の参照試料として選択し;
− 第一の試料に関する第一の位置における第一のバリアントアレルの第一のバリアント数及び第一の位置における参照アレルの第一の野生型数と、前記1つ又は2つ以上の参照試料に関する第一の位置における第一のバリアントアレルの第二のバリアント数及び第一の位置における参照アレルの第二の野生型数とを比較して、第一の試料に関する第一の位置に第一のバリアントアレルを有するバリアントが発生する確率値を決定し;そして
− 第一のバリアントアレルに関して第一の試料中の第一の位置における第一のバリアントアレルが真陽性を含むか否かを決定する一部として、前記確率値を閾値と比較すること、ここで前記閾値は第一の位置の第一のバリアントアレルに関して偽陽性と真陽性とを区別する、
含む、方法。 - 前記確率値は、以下の式:
a2は第一のバリアント数であり、w2は第一の野生型数であり、a1は第二のバリアント数であり、w1は第二の野生型数であり、aはa1及びa2の合計であり、wはw1及びw2の合計であり、n1はa1及びw1の合計であり、n2はa2及びw2の合計であり、nはn1及びn2の合計である]
によって定義されるカイ二乗統計値に基づくカイ二乗累積分布関数を用いて決定される、請求項9に記載の方法。 - 前記確率値は、2つの比率であるp1及びp2に基づいて決定され、ここでp1=a1/n1であり、p2=a2/n2であり、a2は第一のバリアント数であり、a1は第二のバリアント数であり、n2は第一のバリアント数及び第一の野生型数の合計であり、そしてn1は第二のバリアント数及び第二の野生型数の合計である、請求項9に記載の方法。
- 前記確率値は、zスコア、修正されたzスコア、p値、カイ二乗値、累積確率値及び信頼水準を示すクオリティスコアの1つ又は2つ以上である、請求項9に記載の方法。
- 前記クオリティスコアはルックアップテーブルを用いて決定され、ここで前記ルックアップテーブルの入力は、カイ二乗値又は正規クオンタイル値の少なくとも1つである、請求項12に記載の方法。
- 前記閾値は、既知の真陽性と偽陽性とを有するトレーニングデータに基づいて、サポートベクターマシン分類器を用いて決定される、請求項9〜13のいずれか1項に記載の方法。
- 第一の試料の標的領域における真のバリアントを検出するようにコンピュータシステムを制御するためのコンピュータプログラムであって、以下の指示:
− 1又は2以上の試料からのDNA断片のシークエンシングから得られる複数の配列リードを受容させ、ここで前記1又は2以上の試料は第一の試料を含み、前記シークエンシングは前記DNA断片中の標的領域を標的化することを含み;
− 前記複数の配列リードを、参照配列の標的領域にアラインメントさせ;
− 複数のバリアントクラス中の1つのバリアントクラス中のバリアントの参照アレルを各々が有する参照配列の標的領域における1セットの配列位置を同定させ、ここで、前記複数のバリアントクラスの各々は、1又は2以上のバリアントを含むように定義され、各々のバリアントは対応する参照アレルとは異なるバリアントアレルを有し、そして前記1セットの配列位置は第一の位置を含み、
前記1セットの配列位置の各々の位置において、かつ前記1又は2以上の試料の各々の試料に関して:
− 各試料に関する各位置におけるリード数を決定させ;
− 各試料の配列リードに基づいて、前記バリアントクラス中のバリアントに関するバリアントアレルを有する候補バリアントを同定させ、ここで前記バリアントアレルは、前記参照配列の同一の位置における参照アレルとは異なり、そして各試料中の各位置における候補バリアントの総数は、各試料に関する各位置中のバリアント数であり;
− 前記リード数及びバリアント数に基づいてバリアントクラス中のバリアントのバリアント頻度を決定させ、ここで各試料中の各位置に関するバリアント頻度は、統計分布を形成し、第一の試料に関する前記1セットの配列位置中の第一の位置におけるバリアント頻度は、第一のバリアント頻度であり;
− 前記第一のバリアント頻度を統計分布の値と比較して、前記統計分布の値に対する前記第一のバリアント頻度の確率値を決定させ;そして
− 第一の試料中の候補バリアントが真陽性であるか否かを決定する一部として、前記確率値を閾値と比較させること、ここで前記閾値は、前記バリアントクラス中のバリアントに関して偽陽性と真陽性とを区別する、
を含む、前記コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461991820P | 2014-05-12 | 2014-05-12 | |
US61/991,820 | 2014-05-12 | ||
PCT/EP2015/060442 WO2015173222A1 (en) | 2014-05-12 | 2015-05-12 | Rare variant calls in ultra-deep sequencing |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017520821A JP2017520821A (ja) | 2017-07-27 |
JP2017520821A5 JP2017520821A5 (ja) | 2018-06-21 |
JP6618929B2 true JP6618929B2 (ja) | 2019-12-11 |
Family
ID=53264628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016565058A Active JP6618929B2 (ja) | 2014-05-12 | 2015-05-12 | ウルトラディープシークエンシングにおける希少バリアントコール |
Country Status (5)
Country | Link |
---|---|
US (1) | US10216895B2 (ja) |
EP (1) | EP3143537B1 (ja) |
JP (1) | JP6618929B2 (ja) |
CN (1) | CN106462670B (ja) |
WO (1) | WO2015173222A1 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2697397B1 (en) | 2011-04-15 | 2017-04-05 | The Johns Hopkins University | Safe sequencing system |
AU2013338393B2 (en) | 2012-10-29 | 2017-05-11 | The Johns Hopkins University | Papanicolaou test for ovarian and endometrial cancers |
US10395759B2 (en) | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
US11286531B2 (en) | 2015-08-11 | 2022-03-29 | The Johns Hopkins University | Assaying ovarian cyst fluid |
WO2017127741A1 (en) * | 2016-01-22 | 2017-07-27 | Grail, Inc. | Methods and systems for high fidelity sequencing |
JP6931665B2 (ja) | 2016-06-01 | 2021-09-08 | クアンタム−エスアイ インコーポレイテッドQuantum−Si Incorporated | パルス決定器及び塩基決定器 |
US10600499B2 (en) | 2016-07-13 | 2020-03-24 | Seven Bridges Genomics Inc. | Systems and methods for reconciling variants in sequence data relative to reference sequence data |
CN117457074A (zh) * | 2016-11-16 | 2024-01-26 | 宜曼达股份有限公司 | 测序数据读段重新比对的方法 |
CN110168648A (zh) * | 2016-11-16 | 2019-08-23 | 伊路米纳有限公司 | 序列变异识别的验证方法和系统 |
WO2018152267A1 (en) * | 2017-02-14 | 2018-08-23 | Bahram Ghaffarzadeh Kermani | Reliable and secure detection techniques for processing genome data in next generation sequencing (ngs) |
CN108660252B (zh) * | 2017-04-01 | 2021-11-26 | 北京博尔晟科技发展有限公司 | 一种基于焦磷酸测序的人类免疫缺陷病毒耐药性分析方法 |
KR102035615B1 (ko) * | 2017-08-07 | 2019-10-23 | 연세대학교 산학협력단 | 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 |
JP7232476B2 (ja) | 2017-08-07 | 2023-03-08 | ザ ジョンズ ホプキンス ユニバーシティ | がんを評価及び治療するための方法及び物質 |
EP3676846A1 (en) * | 2017-10-06 | 2020-07-08 | Grail, Inc. | Site-specific noise model for targeted sequencing |
NZ759818A (en) | 2017-10-16 | 2022-04-29 | Illumina Inc | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
US11861491B2 (en) | 2017-10-16 | 2024-01-02 | Illumina, Inc. | Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs) |
JP7067896B2 (ja) * | 2017-10-27 | 2022-05-16 | シスメックス株式会社 | 品質評価方法、品質評価装置、プログラム、および記録媒体 |
CA3080170A1 (en) * | 2017-11-28 | 2019-06-06 | Grail, Inc. | Models for targeted sequencing |
JP7013490B2 (ja) * | 2017-11-30 | 2022-02-15 | イルミナ インコーポレイテッド | 配列バリアントコールのためのバリデーションの方法及びシステム |
WO2019136388A1 (en) | 2018-01-08 | 2019-07-11 | Illumina, Inc. | Systems and devices for high-throughput sequencing with semiconductor-based detection |
KR102239487B1 (ko) | 2018-01-08 | 2021-04-14 | 일루미나, 인코포레이티드 | 반도체-기반 검출을 사용한 고-처리율 서열분석 |
US11538556B2 (en) | 2018-01-26 | 2022-12-27 | Quantum-Si Incorporated | Machine learning enabled pulse and base calling for sequencing devices |
SE541799C2 (en) * | 2018-04-11 | 2019-12-17 | David Yudovich | Determination of frequency distribution of nucleotide sequence variants |
JP2019191952A (ja) * | 2018-04-25 | 2019-10-31 | 特定非営利活動法人North East Japan Study Group | プログラム、情報処理方法および情報処理装置 |
WO2020035446A1 (en) * | 2018-08-13 | 2020-02-20 | F. Hoffmann-La Roche Ag | Systems and methods for using neural networks for germline and somatic variant calling |
CA3116710A1 (en) * | 2018-10-17 | 2020-04-23 | Quest Diagnostics Investments Llc | Genomic sequencing selection system |
US20210381997A1 (en) * | 2018-10-19 | 2021-12-09 | Roche Sequencing Solutions, Inc. | Electric field-assisted junctions for sequencing |
CN111073961A (zh) * | 2019-12-20 | 2020-04-28 | 苏州赛美科基因科技有限公司 | 一种基因稀有突变的高通量检测方法 |
US11361194B2 (en) | 2020-10-27 | 2022-06-14 | Illumina, Inc. | Systems and methods for per-cluster intensity correction and base calling |
US11538555B1 (en) | 2021-10-06 | 2022-12-27 | Illumina, Inc. | Protein structure-based protein language models |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2875149B1 (en) * | 2012-07-20 | 2019-12-04 | Verinata Health, Inc. | Detecting and classifying copy number variation in a cancer genome |
US20140066317A1 (en) * | 2012-09-04 | 2014-03-06 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
US20140143188A1 (en) * | 2012-11-16 | 2014-05-22 | Genformatic, Llc | Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy |
US9218450B2 (en) * | 2012-11-29 | 2015-12-22 | Roche Molecular Systems, Inc. | Accurate and fast mapping of reads to genome |
-
2015
- 2015-05-12 CN CN201580024749.2A patent/CN106462670B/zh active Active
- 2015-05-12 JP JP2016565058A patent/JP6618929B2/ja active Active
- 2015-05-12 US US14/709,958 patent/US10216895B2/en active Active
- 2015-05-12 EP EP15724196.9A patent/EP3143537B1/en active Active
- 2015-05-12 WO PCT/EP2015/060442 patent/WO2015173222A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US10216895B2 (en) | 2019-02-26 |
CN106462670B (zh) | 2020-04-10 |
US20150324519A1 (en) | 2015-11-12 |
JP2017520821A (ja) | 2017-07-27 |
EP3143537A1 (en) | 2017-03-22 |
CN106462670A (zh) | 2017-02-22 |
EP3143537B1 (en) | 2023-03-01 |
WO2015173222A1 (en) | 2015-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6618929B2 (ja) | ウルトラディープシークエンシングにおける希少バリアントコール | |
JP7081829B2 (ja) | 無細胞試料中の腫瘍dnaの解析 | |
JP6275145B2 (ja) | まれな変異およびコピー数多型を検出するためのシステムおよび方法 | |
US20190066842A1 (en) | A novel algorithm for smn1 and smn2 copy number analysis using coverage depth data from next generation sequencing | |
WO2017127741A1 (en) | Methods and systems for high fidelity sequencing | |
WO2019025004A1 (en) | METHOD FOR NON-INVASIVE PRENATAL DETECTION OF FETUS SEX CHROMOSOMAL ABNORMALITY AND FETUS SEX DETERMINATION FOR SINGLE PREGNANCY AND GEEMELLAR PREGNANCY | |
JP2023516633A (ja) | メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法 | |
EP4314398A1 (en) | Systems and methods for multi-analyte detection of cancer | |
Fedick et al. | Next Generation of Carrier Screening | |
AU2019283981A1 (en) | Analyzing tumor dna in a cellfree sample |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20161027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180511 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190716 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6618929 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |