JP7366129B2 - ゲノムデータを次世代シーケンシングする際のバリアント検出方法 - Google Patents
ゲノムデータを次世代シーケンシングする際のバリアント検出方法 Download PDFInfo
- Publication number
- JP7366129B2 JP7366129B2 JP2021518999A JP2021518999A JP7366129B2 JP 7366129 B2 JP7366129 B2 JP 7366129B2 JP 2021518999 A JP2021518999 A JP 2021518999A JP 2021518999 A JP2021518999 A JP 2021518999A JP 7366129 B2 JP7366129 B2 JP 7366129B2
- Authority
- JP
- Japan
- Prior art keywords
- sample
- optimal
- variant
- model
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007481 next generation sequencing Methods 0.000 title claims description 91
- 238000001514 detection method Methods 0.000 title description 13
- 239000000523 sample Substances 0.000 claims description 160
- 238000000034 method Methods 0.000 claims description 99
- 238000009826 distribution Methods 0.000 claims description 93
- 238000012217 deletion Methods 0.000 claims description 61
- 230000037430 deletion Effects 0.000 claims description 61
- 229920001519 homopolymer Polymers 0.000 claims description 58
- 239000002773 nucleotide Substances 0.000 claims description 51
- 125000003729 nucleotide group Chemical group 0.000 claims description 51
- 239000013610 patient sample Substances 0.000 claims description 51
- 230000035772 mutation Effects 0.000 claims description 47
- 108700028369 Alleles Proteins 0.000 claims description 39
- 238000003780 insertion Methods 0.000 claims description 31
- 230000037431 insertion Effects 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 28
- 230000003252 repetitive effect Effects 0.000 claims description 21
- 230000002902 bimodal effect Effects 0.000 claims description 10
- 239000013074 reference sample Substances 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 description 35
- 238000005259 measurement Methods 0.000 description 30
- 108020004414 DNA Proteins 0.000 description 23
- 238000011331 genomic analysis Methods 0.000 description 20
- 229920000140 heteropolymer Polymers 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 19
- 108091093088 Amplicon Proteins 0.000 description 14
- 108090000623 proteins and genes Proteins 0.000 description 14
- 230000035945 sensitivity Effects 0.000 description 13
- 102000000872 ATM Human genes 0.000 description 11
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 11
- 108010079245 Cystic Fibrosis Transmembrane Conductance Regulator Proteins 0.000 description 11
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 11
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 11
- 101150029409 CFTR gene Proteins 0.000 description 10
- 102000008371 intracellularly ATP-gated chloride channel activity proteins Human genes 0.000 description 10
- 101000712511 Homo sapiens DNA repair and recombination protein RAD54-like Proteins 0.000 description 9
- 102100023931 Transcriptional regulator ATRX Human genes 0.000 description 9
- 238000003556 assay Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 8
- 238000002864 sequence alignment Methods 0.000 description 8
- 101150065175 Atm gene Proteins 0.000 description 7
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 101150064168 CHEK2 gene Proteins 0.000 description 5
- 101100220617 Homo sapiens CHEK2 gene Proteins 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 210000000349 chromosome Anatomy 0.000 description 5
- 239000013615 primer Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 101150092145 RAD54L gene Proteins 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007480 sanger sequencing Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 108700020462 BRCA2 Proteins 0.000 description 3
- 102000052609 BRCA2 Human genes 0.000 description 3
- 101150008921 Brca2 gene Proteins 0.000 description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 3
- 201000003883 Cystic fibrosis Diseases 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000003766 bioinformatics method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000869 mutational effect Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 239000002987 primer (paints) Substances 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 241000347889 Debia Species 0.000 description 2
- 101000616456 Homo sapiens MEF2-activating motif and SAP domain-containing transcriptional regulator Proteins 0.000 description 2
- 102100021795 MEF2-activating motif and SAP domain-containing transcriptional regulator Human genes 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000012864 cross contamination Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 102000054767 gene variant Human genes 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 108010040003 polyglutamine Proteins 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 238000013442 quality metrics Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000392 somatic effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 101150029062 15 gene Proteins 0.000 description 1
- KJLPSBMDOIVXSN-UHFFFAOYSA-N 4-[4-[2-[4-(3,4-dicarboxyphenoxy)phenyl]propan-2-yl]phenoxy]phthalic acid Chemical compound C=1C=C(OC=2C=C(C(C(O)=O)=CC=2)C(O)=O)C=CC=1C(C)(C)C(C=C1)=CC=C1OC1=CC=C(C(O)=O)C(C(O)=O)=C1 KJLPSBMDOIVXSN-UHFFFAOYSA-N 0.000 description 1
- 206010003591 Ataxia Diseases 0.000 description 1
- -1 BRCA Proteins 0.000 description 1
- 102000036365 BRCA1 Human genes 0.000 description 1
- 108700040618 BRCA1 Genes Proteins 0.000 description 1
- 108700010154 BRCA2 Genes Proteins 0.000 description 1
- 235000014653 Carica parviflora Nutrition 0.000 description 1
- 241000243321 Cnidaria Species 0.000 description 1
- 108020001019 DNA Primers Proteins 0.000 description 1
- 239000003155 DNA primer Substances 0.000 description 1
- 102100037373 DNA-(apurinic or apyrimidinic site) endonuclease Human genes 0.000 description 1
- 101710109420 DNA-(apurinic or apyrimidinic site) endonuclease Proteins 0.000 description 1
- 206010017993 Gastrointestinal neoplasms Diseases 0.000 description 1
- 208000033640 Hereditary breast cancer Diseases 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- BKAYIFDRRZZKNF-VIFPVBQESA-N N-acetylcarnosine Chemical compound CC(=O)NCCC(=O)N[C@H](C(O)=O)CC1=CN=CN1 BKAYIFDRRZZKNF-VIFPVBQESA-N 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000025966 Neurological disease Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 208000015695 Primary lymphedema Diseases 0.000 description 1
- 108091008109 Pseudogenes Proteins 0.000 description 1
- 102000057361 Pseudogenes Human genes 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000003149 assay kit Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 235000019506 cigar Nutrition 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 208000025581 hereditary breast carcinoma Diseases 0.000 description 1
- 201000011045 hereditary breast ovarian cancer syndrome Diseases 0.000 description 1
- 210000003917 human chromosome Anatomy 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 230000009871 nonspecific binding Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002974 pharmacogenomic effect Effects 0.000 description 1
- 229920000155 polyglutamine Polymers 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Physiology (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Description
ハイスループット次世代シーケンシング(NGS)技術または超並列シーケンシング(MPS)技術により、過去10年間でDNAシーケンシングのコストが大幅に削減された。NGSは生物学に幅広く応用されており、研究の方法や診断方法論を劇的に変えた。例えば、RNA発現プロファイリングまたはDNAシーケンシングは、定量PCRやサンガーシーケンシングなどの従来の方法では少数の遺伝子でしか実行することができない。マイクロアレイを使用しても、遺伝子発現のプロファイリングまたは全ゲノムレベルでの変異の特定は、ゲノムサイズが比較的小さい生物種に対してしか実施することはできない。NGS技術により、RNAプロファイリングまたは全ゲノムシーケンシングは、生物学研究において日常的な慣行となっている。一方、NGSのスループットが高いため、より多くの領域をシーケンシングするだけでなく、より多くのサンプルをシーケンシングするための多重化された方法が開発されている。従来のサンガーシーケンシング技術と比較して、NGSは、異なる遺伝子のはるかに多くのサンプルの変異を並行して検出することを可能にする。従来のシーケンシング方法よりも優れているため、NGSシーケンサは現在、日常的な診断においてサンガーに取って代わりつつある。特に、個体(生殖細胞系列)または癌性組織(体細胞)のゲノム変異を、遺伝子疾患の診断から精密医療の実践における薬物の薬理ゲノミクスの微調整に至るまで、多くの医療用途で日常的に分析することができる。NGSは、複数のフラグメント化されたDNA配列リード、通常は短いリード(300ヌクレオチド塩基ペア未満)の処理で構成されている。結果として得られたリードを次に、いくつかのバイオインフォマティクス法を使用して、参照ゲノムと比較し、単一ヌクレオチド置換に対応する一塩基多型(SNP)や、その参照と比較したDNA配列のヌクレオチドにおける短い挿入および欠失(INDEL)などの小さなバリアントを識別できる。
一部の病理では、特定の形態の遺伝性乳がんおよび卵巣がんのBRCA1およびBRCA2遺伝子、または嚢胞性線維症のCFTR遺伝子など、特定の遺伝子バリアントが病気に関連している。ゲノム解析では、個々のサンプルから全ゲノム(WGS)をシーケンシングするのではなく、領域固有のDNAプライマーまたはプローブのセットをターゲットにして、例えばPCR(ポリメラーゼ連鎖反応)を使用して、DNA鎖に沿った遺伝子に対応するサブ領域に特化した生物学的DNAサンプルを濃縮または増幅することにより、病気に関連するゲノム領域に焦点を当てることができる。現在、例えばMultiplicom MASTR(商標)やIlluminaTruSeq(登録商標)Ampliconアッセイキットなど、すぐに使用できる生物学的キットとして、これらの原則に沿って多くの次世代シーケンシングアッセイが開発されており、医学研究や臨床診療における、例えば、Illumina MiSeq(登録商標)シーケンサなど、次世代シーケンサによるDNAベースの診断が容易になっている。
次世代シーケンシング(NGS)は、特に、シーケンシングリードアラインメント、バリアント呼び出し、およびバリアント注釈などのバイオインフォマティクス法を通じて、参照ゲノムと比較して、一塩基多型(SNP)、挿入または欠失(INDEL)などのDNA配列の小さな変化を検出し報告することを可能にする。NGSワークフローとは、エンドツーエンドのゲノム解析アプリケーションへのそのような方法の構成および組み合わせを指す。ゲノム研究の実践では、NGSワークフローは、例えば、UNIXオペレーティングシステム上の専用スクリプト、Galaxyプロジェクトなどのグラフィカルパイプライン表現を含む専用プラットフォーム、および/またはそれらの組み合わせを使用して、手動で設定され、最適化される場合が多い。臨床診療が発展するにつれて、NGSワークフローはもはやケースバイケースで実験的に設定されるのではなく、サードパーティプロバイダによるSaaS(サービスとしてのソフトウェア)、PaaS(サービスとしてのプラットフォーム)、またはIaaS(サービスとしてのインフラストラクチャ)提供品に統合される。その状況では、NGSワークフローのさらなる自動化は、これらのサービスの臨床診療への日常的な統合を促進するための鍵である。
次世代シーケンシング法は、SNPおよびINDELの検出において、従来のサンガーシーケンシングよりも効率的であることが示されているが、それらの特異性(所与のゲノムバリアントの真陽性の検出率)および感度(所与のゲノムバリアントの真陰性の排除率)は、臨床診療ではなお一層改善される可能性がある。NGSゲノム解析の特異性と感度は、以下のいくつかの要因の影響を受ける可能性がある:
シーケンシング技術によって導入されたバイアス、
例えば、次に理由による、
フラグメントの長さに対するリードの長さ、
リードの数が少なすぎる(リード深度)、
シーケンシング中に導入されたエラーまたは低品質の塩基、
特にパイロシーケンシング(Roche 454プラットフォームのように)または半導体シーケンシング(Ion Torrentプラットフォームのように、例えば米国特許出願2009/0026082号のRothbergによって説明されているような)では、ホモポリマーストレッチをカウントする際の固有の問題であり、これにより生じる挿入および欠失エラー、
DNA濃縮技術によって導入されたバイアス、例えば
プライマーまたはプローブの非特異的結合、例えば、アッセイを低温で長時間保存しすぎたり、サンプル中のDNAの量が少なすぎたりするために起こるもの、
不完全なPCR増幅およびサイクリングによって引き起こされる配列エラーの取り込み、例えば、温度変化が原因であるもの、
プローブまたはプライマーの次善の設計によるものである。例えば、変異はプローブまたはプライマーの領域内にある場合がある。
データセットの相互汚染、
バーコード、アダプタ、および様々な事前定義されたシーケンスタグによるフラグメントのタグ付けによる、データセットの相互汚染、リード損失、およびリード品質の低下、
長い挿入ペアエンド読み取り値におけるキメラリード、
サンプル自体によって導入されたバイアス、例えば、次の理由によるもの、
特に腫瘍サンプルシーケンシングに基づく癌診断における身体的特徴、
生物学的サンプルのタイプ、例えば血液、尿、唾液、および関連するサンプル準備の問題、例えば、DNAの分解、外来DNAの汚染、または少なすぎるDNA入力を生じさせる問題、
特定の領域のゲノムデータ構造によって固有に導入されたバイアス、例えば、次の理由によるもの、
対象領域でのGC含量の高い比率、
ホモポリマーおよび/またはヘテロポリマーの存在、つまり特定の領域での1つ以上のヌクレオチドの部分的なゲノムシーケンスの反復であり、初期アラインメントに曖昧さが生じ、特にRoche 454およびIon Torrentシーケンサテクノロジーに固有のシーケンスエラーを発生させるもの、
相同領域と低複雑度領域の存在、
DNAフラグメントがリード長と比較して十分に長くない場合、特にヒトゲノムの高反復ゲノム領域において、機能的遺伝子と混同される可能性のある非機能的偽遺伝子の存在。
SFFファイルを解析し、対象のサンプルの各リードのフローグラム値を収集し、そしてエンドユーザがさらに検査することができるヒストグラム画像を導き出すことに基づいた改善方法(著者がAGSAソフトウェアとして実装)を提案している。ヘテロ接合挿入または欠失の場合、リード値の分布は2つの母集団に分割され、一部のリード(1つの対立遺伝子から)はn個の同一の塩基を有し、他のリード(他の対立遺伝子から)はn+1(挿入)またはn-1(欠失)の同一の塩基を有することを示している。逆に、バイアスアーティファクトの配列決定の場合、ヒストグラムのnとn+1(またはn-1)のピークの間に単一の母集団が観察される。ホモ接合性変異の場合、単一の母集団はn+1(またはn-1)を中心とし、すべてのリードがホモポリマー内の同じ数の塩基を有し、この数が野生型とは異なることを示している。
(a)参照反復パターンPref=N*lを、ヒトゲノム参照シーケンスのゲノム領域におけるl(l>=2)ゲノムパターンNの反復として識別することと、
(b)次世代シーケンサを使用して、n個の濃縮されたゲノム患者サンプルのプールから参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのn個の患者セットS={S1、S2、...、Si、…、Sn}を取得することであって、各セットSiは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数nは少なくとも4であることと、
(c)患者サンプルのセットS内の各患者サンプルiについて、次世代シーケンシングリードのセットSi内の反復パターンの長さの分布Piを測定することと、
(d)患者サンプルiとjの可能なペアについて、j>iであり、信頼水準Lijで、サンプルjに対するサンプルiの2つの対立遺伝子バリアントの最適モデル
(e)患者サンプルi、j>i、k>jの可能なトリプレットごとに、そのそれぞれの最適モデル
(f)野生型バリアントを保有する可能性が最も高いグループを識別することと、
(g)野生型バリアントを保有するグループ内の各サンプルについて、サンプルバリアントを野生型参照反復パターンPref=N*lとして報告することと、
(h)野生型バリアントを保有するグループからの各サンプルについて、識別された野生型グループの最適バリアントモデルの関数として、このサンプルを含むグループの最適バリアントモデルのバイアスを解除し、バイアスのないバリアントとしてサンプルバリアントを報告することとを含む。
図1は、DNA濃縮アッセイ100、次世代シーケンサ110、およびゲノムデータアナライザ120を含む例示的なゲノム解析システムを示す。
-次世代シーケンシング分析要求を受信すること200と、
-次世代シーケンシング分析要求に関連付けられた特性の第1のセットを識別し211、特性の第1セットは少なくとも、ターゲット濃縮技術識別子、シーケンシング技術識別子、およびゲノムコンテキスト識別子を含むことと、
-特性の第1のセットの少なくとも1つの特性に従って入力シーケンシングデータを整列させるようにデータアライメントモジュール121を構成すること231と、
-構成されたデータアラインメントモジュール121を用いて、入力シーケンシングデータをゲノムシーケンスに整列させ232、アラインメントデータを生のアラインメントデータファイルに報告することと、
-生のアラインメントデータファイルからアラインメントデータに関連付けられた特性の第2のセットを識別し212、特性の第2のセットは、少なくともデータアラインメントパターン識別子を含むことと、
-特性の第1のセットの少なくとも1つの特性および特性の第2のセットの少なくとも1つの特性に従って、入力シーケンシングデータの少なくとも1つのサブセットを洗練するようにデータアラインメントモジュール121を構成すること233と、
-構成されたデータアラインメントモジュール121を用いて、入力シーケンシングデータのサブセットを洗練して234、洗練されたアラインメントデータファイルを生成することと、
-洗練されたアラインメントデータファイルからのリアラインメントデータに関連付けられた特性の第3のセットを識別し213、特性の第3のセットは、少なくともゲノムコンテキスト識別子を含むことと、
-特性の第1のセットの少なくとも1つの特性、特性の第2のセットの少なくとも1つの特性、および特性の第3のセットの少なくとも1つの特性に従って、洗練されたアラインメントデータに関連付けられたバリアントを検出するようにバリアント呼び出しモジュール122を構成すること241と、
-洗練されたアラインメントデータにおいて、構成されたバリアント呼び出しモジュール122を用いて、ゲノムバリアントの第1のセットを検出すること242と、
-検出されたゲノムバリアントに関連付けられた特性の第4のセットを識別し214、特性の第4のセットは、少なくともバリアント呼び出し洗練識別子を含むことと、
-特性の第1のセットの少なくとも1つの特性、特性の第2のセットの少なくとも1つの特性、特性の第3のセットの少なくとも1つの特性、および特性の第4のセットの少なくとも1つの特性に従って、洗練されたアラインメントデータに関連付けられたバリアントを検出するようにバリアント呼び出しモジュール122を構成すること243と、
-洗練されたアラインメントデータおよび検出されたゲノムバリアントにおいて、構成されたバリアント呼び出しモジュール122を用いて、洗練されたゲノムバリアントを検出して244、ゲノムバリアントの洗練されたセットを生成することと、
-洗練されたゲノムバリアントのセットを報告すること250と
を含む。
各臨床分析の生物学的設定と診断状況の各組み合わせに適合するために、専用の手動の構成または包括的なメタデータ文書化を必要とせずに、複数の調達研究所によって運営される多様な臨床設定から受け取った生の次世代シーケンシングデータからの複数の異なるゲノムバリアントの分析および報告を容易にする。
より正確な反復パターン(ホモポリマーおよび/またはヘテロポリマー)バリアント識別のための提案された洗練されたバリアント呼び出し方法244の例示的な実施形態を、ここでより詳細に説明する。図2の完全に自動化されたゲノムデータ分析ワークフローは、少なくとも1つの次世代シーケンシング実験室から供給されたゲノムデータで作用する。
偽陽性、参照ゲノムにミスアライメントされるのに十分なリードにミスプライミングアーティファクトが存在し、これにより、DNAサンプルのSNPとして誤ったバリアント呼び出し242解釈が発生する場合、
偽陰性、アラインメントモジュール121が特定のリードでのミスプライミングアーティファクトと、他のリードでの正しいアンプリコンデータを区別できず、対応する領域がデータアラインメントモジュール121によってソフトクリップされ、これにより、バリアント呼び出し242が正しいアンプリコンデータで病理学的関連性の可能性のある変異を見逃すことになる場合である。
ヒトゲノム参照の反復パターントラクトに対する患者サンプルの反復パターントラクトの長さの理論的分布は、変異および実験エラーバイアスのない対照データサンプルについて、および単一の塩基性モチーフ欠失変異のシナリオ、例えば、ホモポリマーゲノム領域CHEK2(参照ホモポリマーパターン長REF=13)またはATM(参照ホモポリマーパターン長REF=19)における単一対立遺伝子の1つのヌクレオチドの欠失、あるいはヘテロポリマーゲノム領域CFTR(参照ヘテロポリマーパターン長REF=11)における単一の対立遺伝子の1つのジヌクレオチド(2つのヌクレオチド)の欠失などのシナリオについて、それぞれ図3に示されている。このヘテロ接合欠失は、参照に対する一方の対立遺伝子での-1反復パターン長の差、およびもう一方の対立遺伝子での0反復パターン長の差として表される。これは、各対立遺伝子が分布長測定の50%に寄与する理想的な理論的ケースに対応しており、したがって、それぞれ(REF-1)反復パターンの長さとREF反復の長さがリアライメントデータから測定されると予想され、反復パターントラクトの長さの正規化された離散確率分布でそれぞれ0.5の等しい確率を有する。
それぞれの確率分布を表すベクトル間のユークリッド距離として計算されてもよい。
図9のワークフローによって示されるように、本明細書で提案される一般的なアプローチは、サンプルのプール内の各サンプルを、作業仮説として可能性のある野生型(WT)参照サンプルとして連続して考察することで成り立っている。この方法は、前のセクションで説明したように、サンプルの各ペアの信頼水準を使用して最適モデルを計算することから始めることができる。図6、図7および図8の例によって以前に示されたように、サンプルの各ペアの分析は、特定のレベルの信頼性を備えた最適モデルを提供し得る。サンプル間の最適モデルが最初に特定されると、さらなるサンプルのクロス分析が可能な各トリプレットで進行して、それらに最適に一致する最適モデルならびに対応する信頼水準を特定してよい。各作業仮説の全体的な信頼水準は、反復パターンの長さの測定された分布と、それらが各クロス分析の反復において洗練されたときに一致する最適なバリアントモデルとの間の距離の関数として繰り返し計算されてよい。上記の仮定の下で複数のサンプルをクロス分析するように様々なアルゴリズムを設計することで、それらは限られた回数繰り返した後に収束するようになる。次に、野生型に対応するサンプルを識別する(洗練されたバリアント呼び出し方法244によって、変異なしのホモ接合性として識別される必要がある)ことで、プール測定での実験的バイアスの可能性(これにより、反復パターンゲノム領域の測定データに非洗練バリアント呼び出しを適用する場合の変異の誤った検出が生じることになり得る)を考慮に入れることが可能になる。
ほとんどの実験的バイアスは両方の対立遺伝子に無差別に適用されるため、ホモ接合型バリアントを含むサンプルは、ヘテロ接合型バリアントを含むサンプルよりも野生型サンプルである可能性が高くなる。
(a)参照反復パターンPref=N*lを、ヒトゲノム参照シーケンスのゲノム領域におけるl(l>=2)ゲノムパターンNの反復として識別することと、
(b)次世代シーケンサを使用して、n個の濃縮されたゲノム患者サンプルのプールから、参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのn個の患者セットS={S1、S2、...、Si、…、Sn}を取得し、各セットSiは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数nは少なくとも4であることと、
(c)患者サンプルのセットS内の各患者サンプルiについて、次世代シーケンシングリードのセットSi内の反復パターンの長さの分布Piを測定することと、
(d)患者サンプルiとjの可能なペアについて、j>iであり、
(d1)サンプルjについて、サンプルiが、各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有するという仮定の下で、信頼水準Lj|iでのサンプルjの2つの対立遺伝子バリアントの最適モデル
(d2)サンプルiについて、サンプルjが各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有するという仮定の下で、信頼水準Lj|iでのサンプルiの2つの対立遺伝子バリアントの最適モデル
(d3)Di|j≧Dj|iの場合、サンプルのペア(i、j)について、2つの対立遺伝子バリアントの最適なバリアントモデルとして最適モデル
(d4)それ以外のDi|j<Dj|iである場合、サンプルのペア(i、j)について、2つの対立遺伝子バリアントの最適バリアントモデルとしてモデル
(e)患者サンプルi、j>i、k>jの可能なトリプレットごとに、それぞれの最適モデル
(e1)患者サンプルのトリプレットの3つの最適モデルがすべて互いに一致する場合、信頼水準Lij、Ljk、Likを増加させ、
(e2)それ以外の場合、3つの最適モデルが互いに一致せず、サブセットの中で最も信頼水準が低い最適モデルを、サブセットの他の2つのサンプルから計算された最適モデルに置き換え、患者サンプルのトリプレットのすべての最適モデルの信頼水準Lij、Ljk、Likを低下させることと、
(f)結果が変化しなくなるまでステップ(e)を繰り返すことと、
(g)同一の最適なバリアントモデルのグループを一致させ、野生型バリアントを保有する可能性が最も高いグループを識別することと、
(h)野生型バリアントを保有するグループからの各サンプルについて、識別された野生型グループの最適なバリアントモデルの関数として、このサンプルを含むグループの最適なバリアントモデルのバイアスを解除し、サンプルについてバイアスのないバリアントを報告することとを含む。
ここで、Dj|iは最小距離であり、Dj|iはステップd1)で計算された2番目に小さい距離であり、Di|jは最小距離であり、Di|j’はステップd2)で計算された2番目に小さい距離である。Lij信頼水準値はこれにより、[0,1]の範囲の浮動値であり、値1はiまたはjのいずれかの最大信頼水準を参照として定量化しており、値0は、例えば参照としてiとjを区別することが不可能な場合の最小信頼水準を定量化している。
Ljk’=1-(1-Ljk)(1-Lij*Lik)
Lik’=1-(1-Lik)(1-Lij*Ljk)
可能な実施形態では、最小の初期信頼水準がLikである一致しない最適モデルのトリプレットサブセットi、j、kの各ペアの信頼水準は、ステップe2)でそれぞれ以下のように低下されてよく、
Lij’=Lij-(1-Ljk)*Lik
Ljk’=Ljk-(1-Lij)*Lik
Lik’=max(0、Lij*Ljk-Lik)
また、サブセットの中で信頼水準が最も低いペアj、kの最適モデルは、
1.
2.
iとjのペアごとに、
例えば、グループ1にクロス分析の信頼水準がそれぞれ0.5、0.4、0.3の3つのサンプルが含まれている場合、このときLij.G1=1-(1-0.5)(1-0.4)(1-0.3)=0.79である。
例えば、信頼水準0.9、0.8、0.7に対応して3つのグループG1、G2、G3がある場合、グループG1の信頼水準は0.9が最も高いため、
Lij.p=max(0,1-(1-0.9)(1-0.8)-1(1-0.7)-1)=max(0、-0.67)=0。
すべてのサンプルのデータのバイアスを解除するには、識別された最適なバリアントモデルのグループのどのサブセットが野生型参照に対応するかを特定する必要があり、これらのサブセットには変異はないが、次世代シーケンシングワークフロープロセスによって単独でバイアスされている可能性がある。図13の例では、すべての収束モデルが[0|0]として互いに一致している、つまり、相互に変異がないため、すべてのサンプルが同じ野生型参照であることを容易に導き出すことができる(報告するバリアント変異は識別されてい)。ただし、図14の例では、クロス分析を繰り返した後の最適なバリアントモデルは、サンプルの2つのグループ、つまりグループ1={S1、S3、S4、S5、S6、S7、S8}と、グループ3={S2}において一致させることができる。後者の場合、どのグループが野生型を持っている可能性が最も高いかを特定する必要がある。
(g1)1つまたは複数のサンプルペアのグループGについて識別された可能な各最適なバリアントモデル
(g2)ホモ接合性の最適なバリアントモデル
ホモ接合性の最適なバリアントモデル
例えば、
(g3)ホモ接合性の最適なバリアントモデル
提案されたゲノムデータアナライザ120は、ソフィア・ジェネティクスデータ駆動型医療(DDM)ゲノム解析ソフトウェアプラットフォームに適合されて、従来のNGSワークフローに対して、ヒト遺伝子中のホモポリマーバリアントの改善された検出244および報告250ための補足的方法として提案された方法を実施する。
様々な実施形態が上で説明されてきたが、それらは例示として提示されたものであり、限定ではないことを理解されたい。関連技術の当業者には、精神および範囲から逸脱することなく、形態および詳細の様々な変更を行うことができることが明らかであろう。実際、上記の説明を読んだ後、関連技術の当業者には、代替の実施形態をどのように実施するかが明らかになるであろう。
Claims (17)
- プロセッサを用いて、患者サンプルのゲノムシーケンスにおける少なくとも2つのヌクレオチドパターンの反復としてのバリアントを検出および報告するための方法であって、
(a)参照反復パターンPref=N*lを、ヒトゲノム参照シーケンスのゲノム領域におけるl(l>=2)ゲノムパターンNの前記反復として識別することと、
(b)次世代シーケンサを使用して、n個の濃縮されたゲノム患者サンプルのプールから参照反復パターンゲノム領域をカバーする次世代シーケンシングデータリードのn個の患者セットS={S1、S2、...、Si、...、Sn}を取得することであって、各セットSiは患者サンプルに関連付けられており、濃縮されたゲノム患者サンプルの数nは少なくとも4であることと、
(c)患者サンプルの前記セットS内の各患者サンプルiについて、次世代シーケンシングリードのセットSi内の反復パターンの長さの分布Piを測定することと、
(d)患者サンプルiとjの可能なペアについて、j>iであり、信頼水準Lijで、サンプルjに対するサンプルiの2つの対立遺伝子バリアントの最適モデル
(e)患者サンプルi、j>i、k>jの可能なトリプレットごとに、そのそれぞれの最適モデル
(f)野生型バリアントを保有する可能性が最も高いグループを識別することと、
(g)前記野生型バリアントを保有する前記グループ内の各サンプルについて、サンプルバリアントを野生型参照反復パターンPref=N*lとして報告することと、
(h)前記野生型バリアントを保有する前記グループからの各サンプルについて、前記識別された野生型グループの前記最適バリアントモデルの関数として、このサンプルを含む前記グループの前記最適バリアントモデルのバイアスを解除し、バイアスのない最適モデルバリアントとして前記サンプルバリアントを報告することと、
を含む方法。 - サンプルjに対するサンプルiの前記2つの対立遺伝子バリアントの最適モデル
(d1)サンプルjについて、サンプルiが、各対立遺伝子について野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有するという仮定の下で、信頼水準Lj|iでのサンプルjの前記2つの対立遺伝子バリアントの最適モデル
(d2)サンプルiについて、サンプルjが各対立遺伝子について前記野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有するという仮定の下で、信頼水準Lj|iでのサンプルiの前記2つの対立遺伝子バリアントの最適モデル
(d3)Di|j≧Dj|iの場合、サンプルの前記ペア(i、j)について、前記2つの対立遺伝子バリアントの前記最適バリアントモデルとして最適モデル
(d4)それ以外のDi|j<Dj|iである場合、サンプルの前記ペア(i、j)について、前記2つの対立遺伝子バリアントの前記最適バリアントモデルとしてモデル
を含む請求項1に記載の方法。 - 前記サンプルiが、各対立遺伝子の前記野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有しているという仮定の下の、サンプルjの前記2つの対立遺伝子バリアントの二次最適バリアントモデル
サンプルjが、各対立遺伝子の前記野生型ヒトゲノム参照ホモポリマーパターンPref=N*lを保有しているという仮定の下の、サンプルiの前記2つの対立遺伝子バリアントの二次最適バリアントモデル
推定
をさらに含む請求項2に記載の方法。 - サンプルの各グループGr(1≦r≦q)内ですべての最適モデルが互いに一致するように、
q個の異なるサンプルのグループ(1≦q≦n-1)に一緒にグループ化することと、
このグループの全体の信頼水準をLij.Gr=1-ΠkεGr(1-Lij.k)として計算することと、
をさらに含む請求項1、2、または3の方法。 - 異なるタイプのヘテロ接合性変異に対応する前記最適モデル
- 信頼水準Lij.Ghが最も高いグループG h を選択することと、
このグループにおけるすべてのサンプルの最適モデル
ペアi、jの新たな信頼水準をLij.new=max(0、1-(1-Lij.Gh)*Π1≦r≦q、r≠h(1-Lij.Gr)-1として計算することと、
を含む請求項4または5に記載の方法。 - 前記最適モデルが安定するまでサンプルのグループを一緒にグループ化することをさらに含む、請求項4から6のいずれかに記載の方法。
- 患者サンプルi、j>i、k>jの可能な各トリプレットごとに、それぞれの最適モデル
- 一致する最適モデルのトリプレットサブセットi、j、kの各ペアの前記信頼水準が、Lij’=1-(1-Lij)(1-Ljk*Lik)、Ljk’=1-(1-Ljk)(1-Lij*Lik)およびLik’=1-(1-Lik)(1-Lij*Ljk)として増加される、請求項8に記載の方法。
- 最も低い初期信頼水準Likが、前記トリプレット内のペアj、kについてLikであり、一致しない最適モデルのトリプレットサブセットi、j、kの各ペアの前記信頼水準は、Lij’=Lij-(1-Ljk)*Lik、Ljk’=Ljk-(1-Lij)*LikおよびLik’=max(0、Lij*Ljk-Lik)のように低下され、そして、前記サブセットからの最も低い信頼水準でのペアj、kの前記最適モデルは、
- 患者サンプルの前記プール内の野生型参照に対応する1つまたは複数のサンプルの前記サブセットを識別することは、サンプルの前記プールのクロス分析から、最大数のサンプルi、j、…が関連付けられているホモ接合性の最適バリアントモデルグループ[VG|VG]を野生型として選択することで構成される、請求項10に記載の方法。
- 患者サンプルの前記プール内の野生型参照に対応する1つまたは複数のサンプルの前記サブセットを識別することは、ホモ接合性の最適バリアントモデル
-
-
- ホモ接合性の最適バリアントモデル
- しきい値_hは、0から0.1の範囲で選択される、請求項15に記載の方法。
- しきい値_sdは、0から0.1の範囲で選択される、請求項15または16に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18177876 | 2018-06-14 | ||
EP18177876.2 | 2018-06-14 | ||
PCT/EP2019/065777 WO2019238963A1 (en) | 2018-06-14 | 2019-06-14 | Methods for detecting variants in next-generation sequencing genomic data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021528099A JP2021528099A (ja) | 2021-10-21 |
JP7366129B2 true JP7366129B2 (ja) | 2023-10-20 |
Family
ID=62684640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021518999A Active JP7366129B2 (ja) | 2018-06-14 | 2019-06-14 | ゲノムデータを次世代シーケンシングする際のバリアント検出方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20210125689A1 (ja) |
EP (1) | EP3807885B1 (ja) |
JP (1) | JP7366129B2 (ja) |
KR (1) | KR20210021354A (ja) |
AU (1) | AU2019287364B2 (ja) |
BR (1) | BR112020025478B1 (ja) |
CA (1) | CA3103176A1 (ja) |
ES (1) | ES2923142T3 (ja) |
WO (1) | WO2019238963A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118038979B (zh) * | 2024-01-23 | 2024-10-15 | 上海唯可生物科技有限公司 | 转座子插入人基因组突变模式和转座印迹的检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010517539A (ja) | 2007-02-05 | 2010-05-27 | アプライド バイオシステムズ, エルエルシー | ショートリード配列決定を用いたインデル識別のためのシステムおよび方法 |
JP2012032975A (ja) | 2010-07-30 | 2012-02-16 | Hitachi Ltd | 最適アラインメント計算装置及びプログラム |
US20140052381A1 (en) | 2012-08-14 | 2014-02-20 | Life Technologies Corporation | Systems and Methods for Detecting Homopolymer Insertions/Deletions |
JP2017521078A (ja) | 2014-07-18 | 2017-08-03 | キャンサー・リサーチ・テクノロジー・リミテッドCancer Research Technology Limited | 遺伝的多様体を検出する方法 |
WO2018104466A1 (en) | 2016-12-07 | 2018-06-14 | Sophia Genetics S.A. | Methods for detecting variants in next-generation sequencing genomic data |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
-
2019
- 2019-06-14 JP JP2021518999A patent/JP7366129B2/ja active Active
- 2019-06-14 EP EP19730781.2A patent/EP3807885B1/en active Active
- 2019-06-14 KR KR1020217000760A patent/KR20210021354A/ko unknown
- 2019-06-14 ES ES19730781T patent/ES2923142T3/es active Active
- 2019-06-14 CA CA3103176A patent/CA3103176A1/en active Pending
- 2019-06-14 WO PCT/EP2019/065777 patent/WO2019238963A1/en active Application Filing
- 2019-06-14 AU AU2019287364A patent/AU2019287364B2/en active Active
- 2019-06-14 BR BR112020025478-9A patent/BR112020025478B1/pt active IP Right Grant
- 2019-06-14 US US17/251,293 patent/US20210125689A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010517539A (ja) | 2007-02-05 | 2010-05-27 | アプライド バイオシステムズ, エルエルシー | ショートリード配列決定を用いたインデル識別のためのシステムおよび方法 |
JP2012032975A (ja) | 2010-07-30 | 2012-02-16 | Hitachi Ltd | 最適アラインメント計算装置及びプログラム |
US20140052381A1 (en) | 2012-08-14 | 2014-02-20 | Life Technologies Corporation | Systems and Methods for Detecting Homopolymer Insertions/Deletions |
JP2017521078A (ja) | 2014-07-18 | 2017-08-03 | キャンサー・リサーチ・テクノロジー・リミテッドCancer Research Technology Limited | 遺伝的多様体を検出する方法 |
WO2018104466A1 (en) | 2016-12-07 | 2018-06-14 | Sophia Genetics S.A. | Methods for detecting variants in next-generation sequencing genomic data |
Non-Patent Citations (1)
Title |
---|
BioMed Research International,2016年,Volume 2016, Article ID 5623089, p.1-11 |
Also Published As
Publication number | Publication date |
---|---|
BR112020025478B1 (pt) | 2023-01-10 |
AU2019287364B2 (en) | 2024-05-02 |
ES2923142T3 (es) | 2022-09-23 |
JP2021528099A (ja) | 2021-10-21 |
AU2019287364A1 (en) | 2021-01-28 |
BR112020025478A2 (pt) | 2021-03-16 |
US20210125689A1 (en) | 2021-04-29 |
WO2019238963A1 (en) | 2019-12-19 |
KR20210021354A (ko) | 2021-02-25 |
CA3103176A1 (en) | 2019-12-19 |
EP3807885B1 (en) | 2022-06-08 |
EP3807885A1 (en) | 2021-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240296912A1 (en) | Methods for processing next-generation sequencing genomic data | |
US20240105282A1 (en) | Methods for detecting bialllic loss of function in next-generation sequencing genomic data | |
AU2018375008B2 (en) | Methods and systems for determining somatic mutation clonality | |
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
JP2023156402A (ja) | ターゲットシーケンシングのためのモデル | |
SoRelle et al. | Assembling and validating bioinformatic pipelines for next-generation sequencing clinical assays | |
EP3724882B1 (en) | Methods for detecting variants in next-generation sequencing genomic data | |
JP7366129B2 (ja) | ゲノムデータを次世代シーケンシングする際のバリアント検出方法 | |
US11990206B2 (en) | Methods for detecting variants in next-generation sequencing genomic data | |
US20220223226A1 (en) | Methods for detecting and characterizing microsatellite instability with high throughput sequencing | |
US20240312561A1 (en) | Optimization of sequencing panel assignments | |
Maruzani et al. | Benchmarking UMI-aware and standard variant callers on synthetic and real ctDNA datasets | |
Corbett | Assessment of Alignment Algorithms, Variant Discovery and Genotype Calling Strategies in Exome Sequencing Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7366129 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S631 | Written request for registration of reclamation of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313631 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D03 |