JP2021120869A - 経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ - Google Patents
経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ Download PDFInfo
- Publication number
- JP2021120869A JP2021120869A JP2021060636A JP2021060636A JP2021120869A JP 2021120869 A JP2021120869 A JP 2021120869A JP 2021060636 A JP2021060636 A JP 2021060636A JP 2021060636 A JP2021060636 A JP 2021060636A JP 2021120869 A JP2021120869 A JP 2021120869A
- Authority
- JP
- Japan
- Prior art keywords
- variant
- neural network
- evs
- reads
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title description 12
- 238000000034 method Methods 0.000 claims abstract description 102
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 117
- 125000003729 nucleotide group Chemical group 0.000 claims description 78
- 239000002773 nucleotide Substances 0.000 claims description 74
- 239000012634 fragment Substances 0.000 claims description 68
- 238000013528 artificial neural network Methods 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 25
- 238000012217 deletion Methods 0.000 claims description 24
- 230000037430 deletion Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 22
- 238000003780 insertion Methods 0.000 claims description 20
- 230000037431 insertion Effects 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 18
- 230000000392 somatic effect Effects 0.000 claims description 18
- 210000004602 germ cell Anatomy 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 abstract description 64
- 238000012549 training Methods 0.000 abstract description 58
- 238000004458 analytical method Methods 0.000 abstract description 26
- 230000002068 genetic effect Effects 0.000 abstract description 5
- 239000002585 base Substances 0.000 description 168
- 239000000523 sample Substances 0.000 description 124
- 150000007523 nucleic acids Chemical group 0.000 description 33
- 108020004414 DNA Proteins 0.000 description 30
- 102000053602 DNA Human genes 0.000 description 30
- 230000000875 corresponding effect Effects 0.000 description 30
- 238000010606 normalization Methods 0.000 description 28
- 102000039446 nucleic acids Human genes 0.000 description 25
- 108020004707 nucleic acids Proteins 0.000 description 25
- 108700028369 Alleles Proteins 0.000 description 22
- 210000004027 cell Anatomy 0.000 description 19
- 210000000349 chromosome Anatomy 0.000 description 19
- 238000011176 pooling Methods 0.000 description 18
- 239000003153 chemical reaction reagent Substances 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000010200 validation analysis Methods 0.000 description 14
- 108090000623 proteins and genes Proteins 0.000 description 12
- 235000016795 Cola Nutrition 0.000 description 11
- 241001634499 Cola Species 0.000 description 11
- 235000011824 Cola pachycarpa Nutrition 0.000 description 11
- 206010028980 Neoplasm Diseases 0.000 description 11
- 241000995070 Nirvana Species 0.000 description 11
- 230000000153 supplemental effect Effects 0.000 description 10
- 230000003321 amplification Effects 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 108091028043 Nucleic acid sequence Proteins 0.000 description 8
- 230000004913 activation Effects 0.000 description 8
- 238000001994 activation Methods 0.000 description 8
- 238000003776 cleavage reaction Methods 0.000 description 8
- 230000035772 mutation Effects 0.000 description 8
- 230000007017 scission Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 7
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 6
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 239000007850 fluorescent dye Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 102000054765 polymorphisms of proteins Human genes 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 229920002477 rna polymer Polymers 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 229930024421 Adenine Natural products 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 3
- 108091093088 Amplicon Proteins 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 229960000643 adenine Drugs 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 229940104302 cytosine Drugs 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000012530 fluid Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 229940113082 thymine Drugs 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- PHIYHIOQVWTXII-UHFFFAOYSA-N 3-amino-1-phenylpropan-1-ol Chemical compound NCCC(O)C1=CC=CC=C1 PHIYHIOQVWTXII-UHFFFAOYSA-N 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 2
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 2
- 102000004533 Endonucleases Human genes 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000011010 flushing procedure Methods 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- 210000003917 human chromosome Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013188 needle biopsy Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 210000001082 somatic cell Anatomy 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 208000002330 Congenital Heart Defects Diseases 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 241000254158 Lampyridae Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 241000238102 Scylla Species 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 101150071882 US17 gene Proteins 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 208000028831 congenital heart disease Diseases 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000009615 deamination Effects 0.000 description 1
- 238000006481 deamination reaction Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- RDYMFSUJUZBWLH-UHFFFAOYSA-N endosulfan Chemical compound C12COS(=O)OCC2C2(Cl)C(Cl)=C(Cl)C1(Cl)C2(Cl)Cl RDYMFSUJUZBWLH-UHFFFAOYSA-N 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 102000054767 gene variant Human genes 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007479 molecular analysis Methods 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- KHIWWQKSHDUIBK-UHFFFAOYSA-N periodic acid Chemical compound OI(=O)(=O)=O KHIWWQKSHDUIBK-UHFFFAOYSA-N 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011012 sanitization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline, look ahead
- G06F9/3877—Concurrent instruction execution, e.g. pipeline, look ahead using a slave processor, e.g. coprocessor
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
Description
本出願は、2018年1月15日に出願された「DEEP LEARNING-BASED VARIANT CLASSIFIER」という表題の米国仮特許出願第62/617,552号(代理人整理番号第ILLM 1005-1/IP-1663-PRV)の優先権または利益を主張する。優先出願はすべての目的のために参照により本明細書において引用される。
以下は、本明細書に完全に記載されるかのようにすべての目的のために参照により引用される。
開示される技術は、人工知能タイプコンピュータならびにデジタルデータ処理システムならびに知性のエミュレーションのための対応するデータ処理方法および製品(すなわち、知識ベースシステム、推論システム、知識取得システム)に関し、不確実性を伴う推論のためのシステム(たとえば、ファジー論理システム)、適応システム、機械学習システム、および人工ニューラルネットワークを含む。具体的には、開示される技術は、順序付けられたデータを分析するために深層学習および畳み込みニューラルネットワーク(CNN)を使用することに関する。
開示される技術は、DNAシーケンシングデータに対して直接動作し、その固有の特徴量フィルタを導く。開示される技術は、標的塩基場所にまたがる複数のアラインメントされたリード(たとえば、10から500にわたるリード深さ)を処理する。開示される技術は、軽量なハードウェアを使用して良好な再現率および適合率を生み出すために、リードのエレガント符号化を軽量な分析と組み合わせる。たとえば、各々50個から100個のリードを伴う標的塩基バリアントサイトの100万個の訓練例を、良好な再現率および適合率で、10時間未満で単一のGPUカード上で訓練することができる。単一のGPUカードが望ましく、それは、GPUが単一であるコンピュータは安価であり、遺伝子データを求めているユーザのほとんどすべてにとって手が届くからである。そのようなコンピュータはクラウドベースのプラットフォーム上で容易に利用可能である。
用語
限定はされないが、特許、特許出願、論説、書籍、論文、およびウェブページを含む、本出願において引用されるすべての文献および同様の資料は、そのような文献および同様の資料のフォーマットとは無関係に、全体が参照によって明確に引用される。限定はされないが、定義される用語、用語の使用法、説明される技法などを含めて、引用される文献および同様の資料のうちの1つまたは複数が、本出願とは異なる場合、または本出願と矛盾する場合、本出願が優先する。
本明細書に記載される実装形態は、配列の変異を特定するために核酸配列を分析することに適用可能であり得る。実装形態は、遺伝子の場所/座の潜在的なバリアント/アレルを分析し、遺伝子座の遺伝子型を決定するために、言い換えると、座に対する遺伝子型コールを提供するために使用され得る。例として、核酸配列は、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号において説明される方法およびシステムに従って分析されることがあり、これらの出願公開の完全な主題の全体が、本明細書において参照によって明確に引用される。
本明細書で開示される実装形態は、潜在的なバリアントコールを特定するためにシーケンシングデータを分析することを含む。バリアントコールは、以前に実行されたシーケンシング操作について記憶されたデータに対して実行され得る。加えて、または代わりに、バリアントコーリングは、シーケンシング操作が実行されている間にリアルタイムで実行され得る。サンプルリードの各々が、対応する遺伝子座を割り当てられる。サンプルリードは、サンプルリードのヌクレオチドの配列、または言い換えると、サンプルリード内のヌクレオチドの順序(たとえば、A、C、G、T)に基づいて、対応する遺伝子座に割り当てられ得る。この分析に基づいて、サンプルリードは、特定の遺伝子座の潜在的なバリアント/アレルを含むものとして指定され得る。サンプルリードは、遺伝子座の潜在的なバリアント/アレルを含むものとして指定された他のサンプルリードとともに収集(または集約または貯蔵)され得る。割当て操作はコーリング操作とも呼ばれることがあり、コーリング操作において、サンプルリードは特定の遺伝子場所/座と関連付けられる可能性があるものとして特定される。サンプルリードは、サンプルリードを他のサンプルリードから区別するヌクレオチドの1つまたは複数の識別配列(たとえば、プライマー配列)を位置特定するために分析され得る。より具体的には、識別配列は、特定の遺伝子座と関連付けられるものとしてサンプルリードを他のサンプルリードから特定し得る。
図1Aは、本明細書で開示される訓練されたバリアント分類器による、バリアントコーリングの一実装形態を示す。訓練されたバリアント分類器は畳み込みニューラルネットワーク(CNN)を含む。バリアント分類器への入力は、入力特徴量のアレイ(図2を参照して説明される)である。アレイはリード(または配列リード)から符号化される。リードの中の塩基(またはヌクレオチド)が、sequencing-by-synthesis (SBS)のようなシーケンシングプロトコルを使用してゲノム分析器によって作り出されるシーケンシングデータの初期分析を通じて、特定または塩基コーリングされる。リードにまたがるバリアント候補サイトにおけるバリアント候補はアラインメントプロセスによって特定され、その一実装形態が以下で論じられる。
図2は、図1Aのバリアント分類器の畳み込みニューラルネットワークに供給される入力特徴量のアレイの一実装形態である。アレイは、基準リードにアラインメントされるリードのグループを符号化する。グループの中の各リードは標的塩基場所(灰色で強調される)を含む。標的塩基場所は、バリアント候補サイト(たとえば、SNP、インデル)におけるバリアント候補に対応する。標的塩基場所は、各側に塩基(たとえば、左側のフランキング塩基および右側のフランキング塩基)があり、またはそれらの塩基にパディングされる。いくつかの実装形態では、左側のフランキング塩基の数は右側のフランキング塩基の数と同じである。他の実装形態では、左側のフランキング塩基の数は右側のフランキング塩基の数と異なる。各側のフランキング塩基の数は、30、70、90、110などであり得る。
上で論じられたように、入力特徴量のアレイは、図1Aのバリアント分類器の畳み込みニューラルネットワークに供給される。図3Aは、図1Aのバリアント分類器の畳み込みニューラルネットワークのアーキテクチャ300Aの一実装形態を示す。具体的には、図3Aに示される畳み込みニューラルネットワークアーキテクチャは、8つの畳み込み層を有する。バリアント分類器畳み込みニューラルネットワークは、複数の畳み込み層が後に続く入力層を含み得る。畳み込み層のいくつかの後には最大プーリング(またはサンプリング)層があってもよく、中間バッチ正規化層が畳み込み層と最大プーリング層の間にある。示される実装形態では、畳み込みニューラルネットワークは、8つの畳み込み層、3つの最大プーリング層、および8つのバッチ正規化層を有する。
図4Aは、計算ユニットが前の層のすべての計算ユニットへの全結合を有する、全結合(FC)ネットワーク400Aを示す。層はm個の計算ユニットを有し、前の層はn個の出力を与え、そして合計でm*n個の重みを得ると仮定する。
以下は、次の4つのカテゴリのもとにあるEVS特徴量の例を列挙する。
体細胞性特徴量に対しては、「すべてのサンプル」とは腫瘍および照合された正常サンプルを一緒に指すことに留意されたい。
図5は、バリアント分類器の畳み込みニューラルネットワークによる一塩基多型(SNP)分類性能と、経験的バリアントスコア(EVS)モデルと呼ばれる基準のStrelka(商標)モデルによるSNP分類性能を比較する、適合率-再現率曲線の一例を示す。図5に示されるように、バリアント分類器の畳み込みニューラルネットワークは、EVSモデルより良いSNPに対する適合率-再現率を有する。
図12は、バリアント分類器を実装するために使用され得るコンピュータシステムの簡略化されたブロック図である。コンピュータシステム1200は、バスサブシステム1255を介していくつかの周辺デバイスと通信する、少なくとも1つの中央処理装置(CPU)1272を含む。これらの周辺デバイスは、たとえば、メモリデバイスおよびファイルストレージサブシステム1236、ユーザインターフェース入力デバイス1238、ユーザインターフェース出力デバイス1276、ならびにネットワークインターフェースサブシステム1274を含む、ストレージサブシステム1210を含み得る。入力デバイスおよび出力デバイスはコンピュータシステム1200とのユーザの対話を可能にする。ネットワークインターフェースサブシステム1274は、他のコンピュータシステムにおける対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
畳み込みニューラルネットワーク(CNN)の実装形態
開示される技術は、訓練されたバリアント分類器を備えるシステムに関する。バリアント分類器は、並列に動作しメモリに結合される多数のプロセッサを含む。バリアント分類器はまた、多数のプロセッサ上で実行される畳み込みニューラルネットワークを含む。
さらに別の実装形態では、開示される技術は、訓練されたバリアント分類器を備えるシステムに関する。バリアント分類器は、並列に動作しメモリに結合される多数のプロセッサを含む。バリアント分類器はまた、多数のプロセッサ上で実行される全結合ニューラルネットワークを含む。
300B バリアント分類器CNNアーキテクチャ
300C バリアント分類器CNNアーキテクチャ
400A 全結合層
400B バリアント分類器FCNアーキテクチャ
1200 コンピュータシステム
1210 ストレージサブシステム
1222 メモリサブシステム
1232 メインランダムアクセスメモリ(RAM)
1234 読取り専用メモリ(ROM)
1236 ファイルストレージサブシステム
1238 ユーザインターフェース入力デバイス
1255 バスサブシステム
1272 中央処理装置(CPU)
1274 ネットワークインターフェースサブシステム
1276 ユーザインターフェース出力デバイス
1278 深層学習プロセッサ
Claims (15)
- バリアントコーリングのコンピュータ実装方法であって、
ニューラルネットワークを介して、
(i)標的塩基場所におけるバリアント候補の評価のためのゲノムサンプルからリードのグループのためのデータと
(ii)前記バリアント候補の少なくとも1つの経験的バリアントスコア(EVS)特徴量と
を処理するステップと、
前記処理に基づいて、前記ニューラルネットワークが、前記バリアント候補が真のバリアントまたは偽のバリアントである確率に対する分類スコアを生成するステップと
を含むコンピュータ実装方法。 - リードの前記グループのための前記データは、基準配列にアラインメントされる生リードフラグメントを含み、前記生リードフラグメントの各々が、各側に1つまたは複数の塩基に隣接される標的塩基場所を含む、請求項1に記載のコンピュータ実装方法。
- 前記生リードフラグメントの中の前記塩基の各々に、前記データは、前記基準配列の中に対応する基準塩基を含む、請求項2に記載のコンピュータ実装方法。
- 前記生リードフラグメントの中の前記塩基の各々に、前記データは、塩基コール正確度スコアを含む、請求項2に記載のコンピュータ実装方法。
- 前記生リードフラグメントの中の前記塩基の各々に、前記データは、鎖状態を含む、請求項2に記載のコンピュータ実装方法。
- 前記生リードフラグメントの中の前記塩基の各々に、前記データは、前記塩基の場所に隣接する挿入変化の挿入カウントを含む、請求項2に記載のコンピュータ実装方法。
- 前記生リードフラグメントの中の前記塩基の各々に、前記データは、前記塩基の場所における前記基準配列からの欠失を示す欠失フラグを含む、請求項2に記載のコンピュータ実装方法。
- 前記生リードフラグメントの中の前記塩基の各々に、前記データは、前記塩基を含む対応するリードを前記基準配列にアラインメントすることのマッピング品質スコアを含む、請求項2に記載のコンピュータ実装方法。
- 前記EVS特徴量は、生殖細胞系列一塩基変異(SNV)特徴量である、請求項1に記載のコンピュータ実装方法。
- 前記EVS特徴量は、生殖細胞系列インデル特徴量である、請求項1に記載のコンピュータ実装方法。
- 前記EVS特徴量は、体細胞性SNV特徴量である、請求項1に記載のコンピュータ実装方法。
- 前記EVS特徴量は、体細胞性インデル特徴量である、請求項1に記載のコンピュータ実装方法。
- 前記ニューラルネットワークは、畳み込みニューラルネットワークである、請求項1に記載のコンピュータ実装方法。
- バリアントをコールするためのコンピュータプログラム命令を記憶している非一時的なコンピュータ可読記憶媒体であって、前記命令は、プロセッサ上で実行されたときに、
ニューラルネットワークを介して、
(i)標的塩基場所におけるバリアント候補の評価のためのゲノムサンプルからリードのグループのためのデータと
(ii)前記バリアント候補の少なくとも1つの経験的バリアントスコア(EVS)特徴量と
を処理するステップと、
前記処理に基づいて、前記ニューラルネットワークが、前記バリアント候補が真のバリアントまたは偽のバリアントである確率に対する分類スコアを生成するステップと
を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体。 - メモリに結合された1つまたは複数のプロセッサを含むシステムであって、前記メモリはバリアントをコールするためのコンピュータ命令がロードされ、前記命令は、前記プロセッサ上で実行されたときに、
ニューラルネットワークを介して、
(i)標的塩基場所におけるバリアント候補の評価のためのゲノムサンプルからリードのグループのためのデータと
(ii)前記バリアント候補の少なくとも1つの経験的バリアントスコア(EVS)特徴量と
を処理するステップと、
前記処理に基づいて、前記ニューラルネットワークが、前記バリアント候補が真のバリアントまたは偽のバリアントである確率に対する分類スコアを生成するステップと
を含む、動作を実行させる、システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023041181A JP2023080096A (ja) | 2018-01-15 | 2023-03-15 | 経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862617552P | 2018-01-15 | 2018-01-15 | |
US62/617,552 | 2018-01-15 | ||
JP2019568344A JP6862581B2 (ja) | 2018-01-15 | 2019-01-14 | 深層学習ベースのバリアント分類器 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019568344A Division JP6862581B2 (ja) | 2018-01-15 | 2019-01-14 | 深層学習ベースのバリアント分類器 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023041181A Division JP2023080096A (ja) | 2018-01-15 | 2023-03-15 | 経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021120869A true JP2021120869A (ja) | 2021-08-19 |
JP7247253B2 JP7247253B2 (ja) | 2023-03-28 |
Family
ID=65279694
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019568344A Active JP6862581B2 (ja) | 2018-01-15 | 2019-01-14 | 深層学習ベースのバリアント分類器 |
JP2021060636A Active JP7247253B2 (ja) | 2018-01-15 | 2021-03-31 | 経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ |
JP2023041181A Pending JP2023080096A (ja) | 2018-01-15 | 2023-03-15 | 経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019568344A Active JP6862581B2 (ja) | 2018-01-15 | 2019-01-14 | 深層学習ベースのバリアント分類器 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023041181A Pending JP2023080096A (ja) | 2018-01-15 | 2023-03-15 | 経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ |
Country Status (11)
Country | Link |
---|---|
US (2) | US11705219B2 (ja) |
EP (2) | EP3901833A1 (ja) |
JP (3) | JP6862581B2 (ja) |
KR (2) | KR20210084686A (ja) |
CN (1) | CN110832510A (ja) |
AU (3) | AU2019206709B2 (ja) |
CA (1) | CA3065939A1 (ja) |
IL (2) | IL283427B2 (ja) |
NZ (1) | NZ759659A (ja) |
SG (1) | SG11201911805VA (ja) |
WO (1) | WO2019140402A1 (ja) |
Families Citing this family (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CA3044254A1 (en) * | 2016-11-18 | 2018-05-24 | Nantomics, Llc | Methods and systems for predicting dna accessibility in the pan-cancer genome |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
NZ759818A (en) | 2017-10-16 | 2022-04-29 | Illumina Inc | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
US11861491B2 (en) | 2017-10-16 | 2024-01-02 | Illumina, Inc. | Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs) |
JP6862581B2 (ja) * | 2018-01-15 | 2021-04-21 | イルミナ インコーポレイテッド | 深層学習ベースのバリアント分類器 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
WO2020051776A1 (en) * | 2018-09-11 | 2020-03-19 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11531861B2 (en) * | 2018-11-06 | 2022-12-20 | Google Llc | Neural architecture search with factorized hierarchical search space |
US11693378B2 (en) * | 2019-03-01 | 2023-07-04 | Alliance For Sustainable Energy, Llc | Image-based solar estimates |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
NL2023316B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based sequencing |
NL2023312B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based base calling |
WO2020191387A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Artificial intelligence-based base calling |
NL2023314B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based quality scoring |
US11347965B2 (en) | 2019-03-21 | 2022-05-31 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
NL2023311B9 (en) * | 2019-03-21 | 2021-03-12 | Illumina Inc | Artificial intelligence-based generation of sequencing metadata |
US11704573B2 (en) * | 2019-03-25 | 2023-07-18 | Here Global B.V. | Method, apparatus, and computer program product for identifying and compensating content contributors |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US10504005B1 (en) * | 2019-05-10 | 2019-12-10 | Capital One Services, Llc | Techniques to embed a data object into a multidimensional frame |
US20200365234A1 (en) * | 2019-05-13 | 2020-11-19 | Nvidia Corporation | Sequence variation detection using deep learning |
US11593649B2 (en) * | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
US11289073B2 (en) * | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11151412B2 (en) * | 2019-07-01 | 2021-10-19 | Everseen Limited | Systems and methods for determining actions performed by objects within images |
US11704231B2 (en) * | 2019-07-26 | 2023-07-18 | Microsoft Technology Licensing, Llc | Techniques for conformance testing computational operations |
US20220254015A1 (en) * | 2019-07-31 | 2022-08-11 | Montefiore Medical Center | Identifying neutrophil extracellular traps in peripheral blood smears |
US20210065847A1 (en) * | 2019-08-30 | 2021-03-04 | Grail, Inc. | Systems and methods for determining consensus base calls in nucleic acid sequencing |
CN110674604B (zh) * | 2019-09-20 | 2022-07-08 | 武汉大学 | 基于多维时序帧卷积lstm的变压器dga数据预测方法 |
CN111104961A (zh) * | 2019-10-31 | 2020-05-05 | 太原理工大学 | 基于改进的MobileNet网络对乳腺癌进行分类的方法 |
CN110929780B (zh) * | 2019-11-19 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 视频分类模型构建、视频分类的方法、装置、设备及介质 |
CN111130697B (zh) * | 2019-12-24 | 2022-04-19 | 重庆邮电大学 | 一种降低基于自动编码器的通信物理层传输系统复杂度的方法 |
IL295560A (en) | 2020-02-20 | 2022-10-01 | Illumina Inc | An artificial intelligence-based many-to-many base reader |
CN111402951B (zh) * | 2020-03-17 | 2022-07-12 | 至本医疗科技(上海)有限公司 | 拷贝数变异预测方法、装置、计算机设备和存储介质 |
US20220121909A1 (en) * | 2020-03-24 | 2022-04-21 | Lg Electronics Inc. | Training a neural network using stochastic whitening batch normalization |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US20220101943A1 (en) * | 2020-09-30 | 2022-03-31 | Myriad Women's Health, Inc. | Deep learning based variant calling using machine learning |
CN112183486B (zh) * | 2020-11-02 | 2023-08-01 | 中山大学 | 基于深度网络快速识别单分子纳米孔测序碱基方法 |
CN112541576B (zh) * | 2020-12-14 | 2024-02-20 | 四川翼飞视科技有限公司 | Rgb单目图像的生物活体识别神经网络构建方法 |
CN112735519B (zh) * | 2021-01-11 | 2022-08-30 | 华中农业大学 | 一种定位偏分离性状的方法、装置及存储介质 |
US20220336054A1 (en) | 2021-04-15 | 2022-10-20 | Illumina, Inc. | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures |
CN113128685B (zh) * | 2021-04-25 | 2023-04-07 | 湖南大学 | 基于神经网络的自然选择分类和群体规模变化分析系统 |
CN113358993B (zh) * | 2021-05-13 | 2022-10-04 | 武汉大学 | 一种多电平变换器igbt的在线故障诊断方法及系统 |
CN113344562B (zh) * | 2021-08-09 | 2021-11-02 | 四川大学 | 基于深度神经网络的以太坊钓鱼诈骗账户检测方法与装置 |
CN113836846B (zh) * | 2021-09-13 | 2023-10-17 | 北京大学 | 一种gpu加速计算的集成电路无悲观路径分析方法 |
CN113963746B (zh) * | 2021-09-29 | 2023-09-19 | 西安交通大学 | 一种基于深度学习的基因组结构变异检测系统及方法 |
WO2023153770A1 (ko) * | 2022-02-08 | 2023-08-17 | 주식회사 씨젠 | 생명체의 변이 타입을 분석하기 위한 방법 및 장치 |
CN115662520B (zh) * | 2022-10-27 | 2023-04-14 | 黑龙江金域医学检验实验室有限公司 | Bcr/abl1融合基因的检测方法及相关设备 |
CN117409298B (zh) * | 2023-12-15 | 2024-04-02 | 西安航空学院 | 针对路面车辆识别的多尺寸目标精确识别方法及设备 |
CN117637020B (zh) * | 2024-01-25 | 2024-04-30 | 鲁东大学 | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140143188A1 (en) * | 2012-11-16 | 2014-05-22 | Genformatic, Llc | Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy |
CA2894317A1 (en) * | 2015-06-15 | 2016-12-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
WO2017153556A1 (en) * | 2016-03-10 | 2017-09-14 | Koninklijke Philips N.V. | Antibiotic resistance identification |
WO2017214320A1 (en) * | 2016-06-07 | 2017-12-14 | Edico Genome, Corp. | Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0450060A1 (en) | 1989-10-26 | 1991-10-09 | Sri International | Dna sequencing |
US5641658A (en) | 1994-08-03 | 1997-06-24 | Mosaic Technologies, Inc. | Method for performing amplification of nucleic acid with two primers bound to a single solid support |
ATE269908T1 (de) | 1997-04-01 | 2004-07-15 | Manteia S A | Methode zur sequenzierung von nukleinsäuren |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
WO2002004680A2 (en) | 2000-07-07 | 2002-01-17 | Visigen Biotechnologies, Inc. | Real-time sequence determination |
US7211414B2 (en) | 2000-12-01 | 2007-05-01 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
AR031640A1 (es) | 2000-12-08 | 2003-09-24 | Applied Research Systems | Amplificacion isotermica de acidos nucleicos en un soporte solido |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
US20040002090A1 (en) | 2002-03-05 | 2004-01-01 | Pascal Mayer | Methods for detecting genome-wide sequence variations associated with a phenotype |
EP3795577A1 (en) | 2002-08-23 | 2021-03-24 | Illumina Cambridge Limited | Modified nucleotides |
GB0400974D0 (en) | 2004-01-16 | 2004-02-18 | Solexa Ltd | Multiple inexact matching |
JP2008513782A (ja) | 2004-09-17 | 2008-05-01 | パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド | 分子解析のための装置及び方法 |
GB0427236D0 (en) | 2004-12-13 | 2005-01-12 | Solexa Ltd | Improved method of nucleotide detection |
DK1907571T3 (en) | 2005-06-15 | 2017-08-21 | Complete Genomics Inc | NUCLEIC ACID ANALYSIS USING INCIDENTAL MIXTURES OF NON-OVERLAPPING FRAGMENTS |
GB0514910D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Method for sequencing a polynucleotide template |
US7405281B2 (en) | 2005-09-29 | 2008-07-29 | Pacific Biosciences Of California, Inc. | Fluorescent nucleotide analogs and uses therefor |
GB0522310D0 (en) | 2005-11-01 | 2005-12-07 | Solexa Ltd | Methods of preparing libraries of template polynucleotides |
EP2021503A1 (en) | 2006-03-17 | 2009-02-11 | Solexa Ltd. | Isothermal methods for creating clonal single molecule arrays |
EP3373174A1 (en) | 2006-03-31 | 2018-09-12 | Illumina, Inc. | Systems and devices for sequence by synthesis analysis |
US7754429B2 (en) | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
AU2007309504B2 (en) | 2006-10-23 | 2012-09-13 | Pacific Biosciences Of California, Inc. | Polymerase enzymes and reagents for enhanced nucleic acid sequencing |
WO2011050341A1 (en) * | 2009-10-22 | 2011-04-28 | National Center For Genome Resources | Methods and systems for medical sequencing analysis |
US10233228B2 (en) * | 2010-04-09 | 2019-03-19 | Albumedix Ltd | Albumin derivatives and variants |
EP2663656B1 (en) | 2011-01-13 | 2016-08-24 | Decode Genetics EHF | Genetic variants as markers for use in urinary bladder cancer risk assessment |
US9115353B2 (en) | 2011-01-31 | 2015-08-25 | Illumina, Inc. | Method for nucleotide detection |
US9773091B2 (en) | 2011-10-31 | 2017-09-26 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
IL269097B2 (en) * | 2012-09-04 | 2024-01-01 | Guardant Health Inc | Systems and methods for detecting rare mutations and changes in number of copies |
ES2704255T3 (es) | 2013-03-13 | 2019-03-15 | Illumina Inc | Métodos y sistemas para alinear elementos de ADN repetitivos |
US9418203B2 (en) | 2013-03-15 | 2016-08-16 | Cypher Genomics, Inc. | Systems and methods for genomic variant annotation |
EP3053073B1 (en) * | 2013-09-30 | 2019-07-03 | Seven Bridges Genomics Inc. | Methods and system for detecting sequence variants |
US20200194099A1 (en) * | 2013-11-01 | 2020-06-18 | Accurascience Llc | Machine learning-based variant calling using sequencing data collected from different subjects |
KR102268532B1 (ko) * | 2013-12-11 | 2021-06-24 | 노보자임스 에이/에스 | 큐티나아제 변이체 및 이를 암호화하는 폴리뉴클레오티드 |
WO2015181119A2 (en) * | 2014-05-27 | 2015-12-03 | Novozymes A/S | Lipase variants and polynucleotides encoding same |
US20160085910A1 (en) | 2014-09-18 | 2016-03-24 | Illumina, Inc. | Methods and systems for analyzing nucleic acid sequencing data |
EP3262197A4 (en) * | 2015-02-26 | 2018-08-15 | Asuragen, Inc. | Methods and apparatuses for improving mutation assessment accuracy |
EP3311299A4 (en) * | 2015-06-22 | 2019-02-20 | Myriad Women's Health, Inc. | METHODS OF PREDICTING PATHOGENICITY OF GENETIC SEQUENCE VARIANTS |
CA3018186C (en) * | 2016-03-29 | 2023-06-13 | Regeneron Pharmaceuticals, Inc. | Genetic variant-phenotype analysis system and methods of use |
US10831444B2 (en) * | 2016-04-04 | 2020-11-10 | Technion Research & Development Foundation Limited | Quantized neural network training and inference |
US11157814B2 (en) * | 2016-11-15 | 2021-10-26 | Google Llc | Efficient convolutional neural networks and techniques to reduce associated computational costs |
US20190348149A1 (en) | 2016-11-16 | 2019-11-14 | Illumina, Inc. | Validation methods and systems for sequence variant calls |
EP3728642A4 (en) * | 2017-12-18 | 2021-09-15 | Personal Genome Diagnostics Inc. | AUTOMATIC LEARNING SYSTEM AND SOMATIC MUTATION DISCOVERY PROCESS |
JP6862581B2 (ja) * | 2018-01-15 | 2021-04-21 | イルミナ インコーポレイテッド | 深層学習ベースのバリアント分類器 |
US20190318806A1 (en) * | 2018-04-12 | 2019-10-17 | Illumina, Inc. | Variant Classifier Based on Deep Neural Networks |
US20200251183A1 (en) * | 2018-07-11 | 2020-08-06 | Illumina, Inc. | Deep Learning-Based Framework for Identifying Sequence Patterns that Cause Sequence-Specific Errors (SSEs) |
WO2020077232A1 (en) * | 2018-10-12 | 2020-04-16 | Cambridge Cancer Genomics Limited | Methods and systems for nucleic acid variant detection and analysis |
US11347965B2 (en) * | 2019-03-21 | 2022-05-31 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
WO2022155147A1 (en) * | 2021-01-12 | 2022-07-21 | Agex Therapeutics, Inc. | Methods for the ex vivo induction of tissue regeneration in microbiopsies |
-
2019
- 2019-01-14 JP JP2019568344A patent/JP6862581B2/ja active Active
- 2019-01-14 CN CN201980003259.2A patent/CN110832510A/zh active Pending
- 2019-01-14 AU AU2019206709A patent/AU2019206709B2/en active Active
- 2019-01-14 NZ NZ759659A patent/NZ759659A/en unknown
- 2019-01-14 EP EP21174526.0A patent/EP3901833A1/en active Pending
- 2019-01-14 WO PCT/US2019/013534 patent/WO2019140402A1/en active Search and Examination
- 2019-01-14 US US16/247,487 patent/US11705219B2/en active Active
- 2019-01-14 CA CA3065939A patent/CA3065939A1/en active Pending
- 2019-01-14 SG SG11201911805VA patent/SG11201911805VA/en unknown
- 2019-01-14 EP EP19703482.0A patent/EP3619653B1/en active Active
- 2019-01-14 KR KR1020217020482A patent/KR20210084686A/ko active IP Right Grant
- 2019-01-14 KR KR1020197038077A patent/KR102273717B1/ko active IP Right Grant
- 2019-01-14 IL IL283427A patent/IL283427B2/en unknown
- 2019-12-02 IL IL271093A patent/IL271093B/en unknown
-
2021
- 2021-03-31 JP JP2021060636A patent/JP7247253B2/ja active Active
- 2021-12-08 AU AU2021282469A patent/AU2021282469B2/en active Active
-
2023
- 2023-03-15 JP JP2023041181A patent/JP2023080096A/ja active Pending
- 2023-05-09 US US18/314,638 patent/US20230386611A1/en active Pending
- 2023-10-20 AU AU2023251541A patent/AU2023251541A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140143188A1 (en) * | 2012-11-16 | 2014-05-22 | Genformatic, Llc | Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy |
CA2894317A1 (en) * | 2015-06-15 | 2016-12-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
WO2017153556A1 (en) * | 2016-03-10 | 2017-09-14 | Koninklijke Philips N.V. | Antibiotic resistance identification |
WO2017214320A1 (en) * | 2016-06-07 | 2017-12-14 | Edico Genome, Corp. | Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing |
Non-Patent Citations (4)
Title |
---|
BRENDAN D. O'FALLONほか: ""A support vector machine for identification of single-nuleotide polymorphisms from next-generation", BIOINFORMATICS, vol. 29, no. 11, JPN7021000593, 24 April 2013 (2013-04-24), pages 1361 - 1366, ISSN: 0004828098 * |
HUI Y. XIONGほか: ""The human splicing code reveals new insights into the genetic determinants of disease"", SCIENCE, vol. 347, no. 6218, JPN7020002523, 9 January 2015 (2015-01-09), pages 1254806, XP055551007, ISSN: 0004828097 * |
SANGTAE KIMほか: ""Strelka2: Fast and accurate variant calliing for clinical sequencing applications"", [ONLINE], vol. [令和3年2月15日検索], JPN7021000594, 25 September 2017 (2017-09-25), ISSN: 0004828095 * |
YI ZHANGほか: ""DeepSplice: Depp Classification on Novel Splice Junctions Revealed by RNA-seq"", 2016 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM), JPN6020031243, 1 December 2016 (2016-12-01), pages 330 - 333, ISSN: 0004828096 * |
Also Published As
Publication number | Publication date |
---|---|
US20190220704A1 (en) | 2019-07-18 |
IL283427B1 (en) | 2023-06-01 |
IL283427B2 (en) | 2023-10-01 |
KR20200010488A (ko) | 2020-01-30 |
JP2020525893A (ja) | 2020-08-27 |
CA3065939A1 (en) | 2019-07-18 |
AU2021282469A1 (en) | 2022-01-06 |
IL283427A (en) | 2021-06-30 |
KR20210084686A (ko) | 2021-07-07 |
WO2019140402A1 (en) | 2019-07-18 |
AU2021282469B2 (en) | 2023-07-20 |
AU2019206709B2 (en) | 2021-09-09 |
US20230386611A1 (en) | 2023-11-30 |
IL271093A (en) | 2020-01-30 |
AU2023251541A1 (en) | 2023-11-16 |
EP3901833A1 (en) | 2021-10-27 |
EP3619653A1 (en) | 2020-03-11 |
JP6862581B2 (ja) | 2021-04-21 |
IL271093B (en) | 2021-09-30 |
EP3619653B1 (en) | 2021-05-19 |
CN110832510A (zh) | 2020-02-21 |
US11705219B2 (en) | 2023-07-18 |
JP2023080096A (ja) | 2023-06-08 |
KR102273717B1 (ko) | 2021-07-06 |
JP7247253B2 (ja) | 2023-03-28 |
NZ759659A (en) | 2022-07-01 |
AU2019206709A1 (en) | 2019-12-19 |
SG11201911805VA (en) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6862581B2 (ja) | 深層学習ベースのバリアント分類器 | |
JP7143486B2 (ja) | 深層ニューラルネットワークに基づくバリアント分類器 | |
KR102539188B1 (ko) | 심층 컨볼루션 신경망을 트레이닝하기 위한 심층 학습-기반 기술 | |
WO2020014280A1 (en) | DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs) | |
KR20200044731A (ko) | 심층 컨볼루션 신경망을 사전 훈련시키기 위한 심층 학습 기반 기술 | |
KR102371706B1 (ko) | 서열-특정 오류(sse)를 유발시키는 서열 패턴을 식별하기 위한 심층 학습-기반 프레임워크 | |
NZ789499A (en) | Deep learning-based variant classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7247253 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |