JP7515559B2 - 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 - Google Patents
深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 Download PDFInfo
- Publication number
- JP7515559B2 JP7515559B2 JP2022204685A JP2022204685A JP7515559B2 JP 7515559 B2 JP7515559 B2 JP 7515559B2 JP 2022204685 A JP2022204685 A JP 2022204685A JP 2022204685 A JP2022204685 A JP 2022204685A JP 7515559 B2 JP7515559 B2 JP 7515559B2
- Authority
- JP
- Japan
- Prior art keywords
- variant
- amino acid
- training
- pathogenicity
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 251
- 238000000034 method Methods 0.000 title claims description 68
- 238000013527 convolutional neural network Methods 0.000 title description 69
- 150000001413 amino acids Chemical class 0.000 claims description 143
- 230000000153 supplemental effect Effects 0.000 claims description 90
- 230000007918 pathogenicity Effects 0.000 claims description 79
- 230000001717 pathogenic effect Effects 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000003860 storage Methods 0.000 claims description 17
- 125000003275 alpha amino acid group Chemical group 0.000 claims 10
- 239000000523 sample Substances 0.000 description 70
- 125000003729 nucleotide group Chemical group 0.000 description 57
- 238000012163 sequencing technique Methods 0.000 description 55
- 239000002773 nucleotide Substances 0.000 description 53
- 238000005516 engineering process Methods 0.000 description 45
- 241000288906 Primates Species 0.000 description 43
- 230000035772 mutation Effects 0.000 description 43
- 108700028369 Alleles Proteins 0.000 description 36
- 238000013528 artificial neural network Methods 0.000 description 34
- 150000007523 nucleic acids Chemical group 0.000 description 33
- 238000013135 deep learning Methods 0.000 description 29
- 210000004027 cell Anatomy 0.000 description 28
- 241000894007 species Species 0.000 description 28
- 108020004705 Codon Proteins 0.000 description 27
- 108090000623 proteins and genes Proteins 0.000 description 27
- 230000006870 function Effects 0.000 description 26
- 108020004707 nucleic acids Proteins 0.000 description 25
- 102000039446 nucleic acids Human genes 0.000 description 25
- 210000000349 chromosome Anatomy 0.000 description 21
- 239000012634 fragment Substances 0.000 description 21
- 230000008569 process Effects 0.000 description 18
- 102000004169 proteins and genes Human genes 0.000 description 17
- 241000282412 Homo Species 0.000 description 16
- 108020004414 DNA Proteins 0.000 description 15
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 15
- 239000003153 chemical reaction reagent Substances 0.000 description 14
- 235000018102 proteins Nutrition 0.000 description 14
- 241000282577 Pan troglodytes Species 0.000 description 13
- 210000002569 neuron Anatomy 0.000 description 13
- 238000012360 testing method Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 11
- 230000002068 genetic effect Effects 0.000 description 10
- 239000002904 solvent Substances 0.000 description 10
- 238000006467 substitution reaction Methods 0.000 description 10
- 241000124008 Mammalia Species 0.000 description 9
- 108091028043 Nucleic acid sequence Proteins 0.000 description 9
- 230000003321 amplification Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 102000054765 polymorphisms of proteins Human genes 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 238000001994 activation Methods 0.000 description 8
- 238000003776 cleavage reaction Methods 0.000 description 8
- 230000007017 scission Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 241000282579 Pan Species 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 230000000392 somatic effect Effects 0.000 description 6
- PHIYHIOQVWTXII-UHFFFAOYSA-N 3-amino-1-phenylpropan-1-ol Chemical compound NCCC(O)C1=CC=CC=C1 PHIYHIOQVWTXII-UHFFFAOYSA-N 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 5
- 230000002939 deleterious effect Effects 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 108700024394 Exon Proteins 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000007850 fluorescent dye Substances 0.000 description 4
- 102000054766 genetic haplotypes Human genes 0.000 description 4
- 210000004602 germ cell Anatomy 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 108091093088 Amplicon Proteins 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 3
- 238000000585 Mann–Whitney U test Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000013078 crystal Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000283707 Capra Species 0.000 description 2
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 108700026244 Open Reading Frames Proteins 0.000 description 2
- 241000282887 Suidae Species 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 210000003917 human chromosome Anatomy 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002887 multiple sequence alignment Methods 0.000 description 2
- 238000013188 needle biopsy Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004853 protein function Effects 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000007841 sequencing by ligation Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 208000035657 Abasia Diseases 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 101000741396 Chlamydia muridarum (strain MoPn / Nigg) Probable oxidoreductase TC_0900 Proteins 0.000 description 1
- 101000741399 Chlamydia pneumoniae Probable oxidoreductase CPn_0761/CP_1111/CPj0761/CpB0789 Proteins 0.000 description 1
- 101000741400 Chlamydia trachomatis (strain D/UW-3/Cx) Probable oxidoreductase CT_610 Proteins 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 208000002330 Congenital Heart Defects Diseases 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 241000252212 Danio rerio Species 0.000 description 1
- 208000012239 Developmental disease Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 102000004533 Endonucleases Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000282575 Gorilla Species 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 102000003839 Human Proteins Human genes 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 201000006347 Intellectual Disability Diseases 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 241000282560 Macaca mulatta Species 0.000 description 1
- 241000535824 Mastacembelocleidus bam Species 0.000 description 1
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 208000029726 Neurodevelopmental disease Diseases 0.000 description 1
- 241000995070 Nirvana Species 0.000 description 1
- 241000282576 Pan paniscus Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241000288935 Platyrrhini Species 0.000 description 1
- 241000282405 Pongo abelii Species 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- 101150044878 US18 gene Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 208000028831 congenital heart disease Diseases 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003485 founder effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 102000054767 gene variant Human genes 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000008821 health effect Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 241001515942 marmosets Species 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- KHIWWQKSHDUIBK-UHFFFAOYSA-N periodic acid Chemical compound OI(=O)(=O)=O KHIWWQKSHDUIBK-UHFFFAOYSA-N 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000013520 translational research Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 230000001018 virulence Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Multimedia (AREA)
- Biodiversity & Conservation Biology (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Image Analysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Machine Translation (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Description
本出願は、2019年5月8日に出願した米国一部継続特許出願第16/407,149号、名称「DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1010-1/IP-1734-US)への優先権を主張し、これはすべて2018年10月15日に出願した次の3つのPCT出願および3つの米国非仮出願、すなわち、(1)2018年10月15日に出願したPCT特許出願第PCT/US2018/055840号、名称「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-8/IP-1611-PCT)、(2)2018年10月15日に出願したPCT特許出願第PCT/US2018/055878号、名称「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」(代理人整理番号第ILLM 1000-9/IP-1612-PCT)、(3)2018年10月15日に出願したPCT特許出願第PCT/US2018/055881号、名称「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-10/IP-1613-PCT)、(4)2018年10月15日に出願した米国非仮特許出願第16/160,903号、名称「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-5/IP-1611-US)、(5)2018年10月15日に出願した米国非仮特許出願第16/160,986号、名称「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」(代理人整理番号第ILLM 1000-6/IP-1612-US)、および(6)2018年10月15日に出願した米国非仮特許出願第16/160,968号、名称「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」(代理人整理番号第ILLM 1000-7/IP-1613-US)の一部継続であり、その優先権を主張する。3つのPCT出願および3つの米国非仮出願はすべて、以下に列挙する次の4つの米国仮出願への優先権および/または利益を主張する。
以下の文献は、あたかも全体が本明細書に記載されているかのように、すべての目的に関して参照により引用される。
開示される技術は、人工知能タイプコンピュータならびにデジタルデータ処理システムならびに知性のエミュレーションのための対応するデータ処理方法および製品(すなわち、知識ベースシステム、推論システム、知識取得システム)に関し、不確実性を伴う推論のためのシステム(たとえば、ファジー論理システム)、適応システム、機械学習システム、および人工ニューラルネットワークを含む。具体的には、開示される技術は、深層畳み込みニューラルネットワークを訓練するために深層学習ベースの技法を使用することに関する。特に、開示されている技術は、過剰適合を回避するために深層畳み込みニューラルネットワークを事前訓練することに関する。
機械学習では、出力変数を予測するために入力変数が使用される。入力変数はしばしば特徴量と呼ばれ、X=(X1,X2,...,Xk)と表記され、i∈1,...,kである各Xiが特徴量である。出力変数はしばしば応答または依存変数と呼ばれ、変数Yiにより表記される。Yと対応するXとの関係は、次の一般的な形式で書くことができる。
Y=f(x)+∈
ニューラルネットワークは、互いとの間でメッセージを交換する相互接続された人工ニューロン(たとえば、a1、a2、a3)のシステムである。示されるニューラルネットワークは3つの入力を有し、2つのニューロンが隠れ層にあり、2つのニューロンが出力層にある。隠れ層は活性化関数f(・)を有し、出力層は活性化関数g(・)を有する。これらの接続は、適切に訓練されたネットワークが認識すべき画像を与えられると正しく応答するように、訓練プロセスの間に調整された数値的な重み(たとえば、w11、w21、w12、w31、w22、w32、v11、v22)を有する。入力層は生の入力を処理し、隠れ層は入力層と隠れ層との間の接続の重みに基づいて入力層から出力を処理する。出力層は、隠れ層から出力を取り込み、隠れ層と出力層との間の接続の重みに基づいてそれを処理する。ネットワークは、特徴検出ニューロンの複数の層を含む。各層は、前の層からの入力の異なる組合せに対応する多数のニューロンを有する。これらの層は、第1の層が入力画像データにおける基本的なパターンのセットを検出し、第2の層がパターンのパターンを検出し、第3の層がそれらのパターンのパターンを検出するように、構築される。
・ T.Ching他、Opportunities And Obstacles For Deep Learning In Biology And Medicine、www.biorxiv.org:142760、2017
・ Angermueller C、Parnamaa T、Parts L、Stegle O、Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878
・ Park Y、Kellis M、2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33、825-826、(doi:10.1038/nbt.3313)
・ Min S、Lee B、およびYoon S、Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016)
・ Leung MK、Delong A、Alipanahi B他、Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets、2016
・ Libbrecht MW、Noble WS、Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32
本出願のセクションは、開示されている改善の背景を提供するために参照により引用された出願から抜粋した繰り返しである。従来の出願では、以下で説明されているように、ヒト以外の霊長類のミスセンスバリアントデータを使用して訓練される深層学習システムを開示した。背景を提供する前に、我々は、開示されている改善を紹介する。
畳み込みニューラルネットワークは特別なタイプのニューラルネットワークである。密結合層と畳み込み層との間の基本的な違いは、密層が入力特徴空間におけるグローバルパターンを学習するのに対して、畳み込み層がローカルパターンを学習するということである。画像の場合、入力の小さい2Dウィンドウにおいてパターンが見出される。この重要な特徴は、(1)畳み込みニューラルネットワークの学習するパターンが移動不変である、および(2)畳み込みニューラルネットワークがパターンの空間的階層を学習できるという、2つの興味深い特性を畳み込みニューラルネットワークに与える。
さらなる背景として、図5は、開示される技術の一実装形態による畳み込みニューラルネットワークを訓練することのブロック図500を示す。畳み込みニューラルネットワークは、入力データが特定の出力推定につながるように、調整または訓練される。畳み込みニューラルネットワークは、出力推定とグラウンドトゥルースの比較に基づいて、出力推定がグラウンドトゥルースに漸近的に一致または接近するまで、逆伝播を使用して調整される。
wnm←wnm+α(tm-φm)αn
δok=(tk-φk)φk(1-φk)
vmk←vmk+αδokφm
vnm←wnm+αδhman
vt+1=μv-α∇wQ(zt,wt)
wt+1=wt+vt+1
遺伝的変異は、多くの疾患の説明を助け得る。ヒトはそれぞれが固有の遺伝コードを持ち、個人のグループ内には多くの遺伝的バリアントがある。有害な遺伝的バリアントの大半は、自然選択によってゲノムから枯渇している。どの遺伝的変異が病原性または有害である可能性が高いかを特定することが重要である。このことは、研究者が、病原性である可能性が高い遺伝的バリアントに注目し、多くの疾患の診断および治療を加速させることを助けるであろう。
限定はされないが、特許、特許出願、論説、書籍、論文、およびウェブページを含む、本出願において引用されるすべての文献および同様の資料は、そのような文献および同様の資料のフォーマットとは無関係に、全体が参照によって明確に引用される。限定はされないが、定義される用語、用語の使用法、説明される技法などを含めて、引用される文献および同様の資料のうちの1つまたは複数が、本出願とは異なる場合、または本出願と矛盾する場合、本出願が優先する。
本明細書に記載される実装形態は、配列の変異を特定するために核酸配列を分析することに適用可能であり得る。実装形態は、遺伝子の場所/座の潜在的なバリアント/アレルを分析し、遺伝子座の遺伝子型を決定するために、言い換えると、座に対する遺伝子型コールを提供するために使用され得る。例として、核酸配列は、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号において説明される方法およびシステムに従って分析されることがあり、これらの出願公開の完全な主題の全体が、本明細書において参照によって明確に引用される。
数百万個のヒトゲノムおよびエクソンがシーケンシングされているが、それらの臨床上の応用は、疾患を引き起こす変異を良性の遺伝的変異から区別することの難しさにより限られたままである。ここで我々は、他の霊長類の種における一般的なミスセンスバリアントが、ヒトにおいて大部分が臨床的に良性であることを実証し、病原性の変異が除去のプロセスによって系統的に特定されることを可能にする。6種のヒト以外の霊長類の種の集団シーケンシングからの数十万個の一般的なバリアントを使用して、88%の正確さで稀な疾患の患者における病原性の変異を特定し、ゲノムワイド有意性(genome-wide significance)で知的障害における14個の新たな遺伝子候補の発見を可能にする、深層ニューラルネットワークを訓練した。追加の霊長類の種からの一般的な変異の目録を作ることで、数百万個の有意性が不確かなバリアントに対する解釈が改善し、ヒトゲノムシーケンシングの臨床上の利用がさらに進む。
参照により引用された出願により開示される一実装形態において、病原性予測ネットワークは、対象のバリアントを中心とする長さ51のアミノ酸配列と、二次構造および溶媒接触性ネットワーク(図2および図3)の出力とを、中心の場所において置換されるミスセンスバリアントとともに入力として取り込む。11種の霊長類のための1つの場所頻度行列と、霊長類を除く50種の哺乳類のための1つの場所頻度行列と、霊長類と哺乳類を除く38種の脊椎動物のための1つの場所頻度行列とを含む、3つの長さ51の場所頻度行列が、99種の脊椎動物の複数の配列アラインメントから生成される。
本開示では、過剰適合を低減するか、または弱め、訓練結果を改善するために病原性予測モデルを事前訓練することを紹介する。システムは、一実装形態によるシステムのアーキテクチャレベルの概略図100を示す図1を参照しつつ説明される。図1は、アーキテクチャ図であるので、説明のわかりやすさを高めるために詳細の一部は意図的に省かれている。図1の説明は、次のように編成されている。最初に、図の要素が説明され、続いてその相互接続が説明される。次いで、システム内の要素の使用についてより詳しく説明されている。
ニューラルネットワークベースのモデル(たとえば、上に提示されているPrimateAI)の性能は、上に提示されている事前訓練エポックを使用することによって改善される。次の表には、例示的なテスト結果が提示されている。表の中の結果は、6つの見出しを付けてまとめられている。我々は、結果を提示する前に見出しについて簡単に説明する。「複製」列は、20回の複製試行に対する結果を提示している。各試行は、異なる乱数シードを使用する8個のモデルのアンサンブルであってよい。「精度」は、良性と分類されている10,000個の保留された霊長類良性バリアントの割合である。「Pvalue_DDD」は、影響を受けていない兄弟姉妹から発達障害を患っている影響を受けている子供のde novo変異がどれだけうまく分離されるかを評価するためのウィルコクソン順位検定の結果を提示している。「pvalue_605genes」は、この場合に我々が605個の疾病関係遺伝子内のde novo変異を使用したことを除くpvalue_DDDと類似の検定の結果を提示している。「Corr_RK_RW」は、RからKへのアミノ酸の変化とRからWへのアミノ酸の変化との間のprimateAIスコアの相関を提示している。Corr_RK_RWの小さい方の値は、よりよい性能を示す。「Pvalue_Corr」は、前の列内の相関のp値、すなわち、Corr_RK_RWを提示している。
我々は、アミノ酸の配列および随伴する位置特定的頻度行列(PFM)を処理するニューラルネットワーク実装モデルを事前訓練するためのシステム、方法、および製造物品を説明する。実装形態の1つまたは複数の特徴は基本の実装形態と合成され得る。相互に排他的ではない実装形態は、合成可能であると教示される。実装形態の1つまたは複数の特徴は他の実装形態と合成され得る。本開示は定期的にこれらの選択肢をユーザに思い起こさせる。これらの選択肢を繰り返し述べる記載がいくつかの実装形態において省略されていることは、先行するセクションにおいて教示された合成を限定するものと解釈されるべきではなく、これらの記載は以後の実装形態の各々へと前方に参照によって組み込まれる。
図15は、開示される技術を実装するために使用され得るコンピュータシステムの簡略化されたブロック図1500である。コンピュータシステムは通常、バスサブシステムを介していくつかの周辺デバイスと通信する少なくとも1つのプロセッサを含む。これらの周辺デバイスは、たとえば、メモリデバイスおよびファイルストレージサブシステム、ユーザインターフェース入力デバイス、ユーザインターフェース出力デバイス、ならびにネットワークインターフェースサブシステムを含む、ストレージサブシステムを含み得る。入力デバイスおよび出力デバイスはコンピュータシステムとのユーザの対話を可能にする。ネットワークインターフェースサブシステムは、他のコンピュータシステムにおける対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
116 テスター
121 病原性ミスセンス訓練例
131 補足良性訓練例
155 ネットワーク
157 バリアント病原性予測モデル
161 良性ミスセンス訓練例
181 補足良性訓練例
184 位置特定的頻度行列(PFM)計算器
186 入力エンコーダ
600 例
700 説明図
800 例
1002 病原性ミスセンスバリアント訓練例
1002A 代替配列
1002R 基準配列
1012 補足良性訓練例
1012A 代替配列
10012R 基準配列
1022 PFM
1100 例
1102 良性ミスセンスバリアント
1102Rおよび1112R 基準配列
1112 補足良性訓練例
1102Aおよび1112A 代替配列
1122 対応する補足良性訓練例
1218、1228、および1238 PFM
1300 例
1400 説明図
Claims (15)
- システムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサで実行されると、前記システムに、
複数の補足訓練例配列ペアに基づいて調整された複数のパラメータを具備する訓練されたバリアント病原性予測モデルに、バリアントアミノ酸と、符号化された基準アミノ酸と、少なくとも位置特定的頻度行列とを具備する符号化された代替アミノ酸配列を入力として提供し、前記複数の補足訓練例配列ペアの補足訓練例配列ペアは、開始位置および終了位置において、ミスセンス訓練例配列ペアの位置特定的頻度行列と同一である1つの補足訓練位置特定的頻度行列を含み、
前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルを利用して前記バリアントアミノ酸の複数の病原性予測を決定し、
前記バリアントアミノ酸の前記複数の病原性予測に基づいて、前記バリアントアミノ酸が良性または病原性であることの尤度を示す病原性予測を生成する
ことを行わせるコンピュータ命令を具備する非一時的記憶媒体と、
を具備するシステム。 - システムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサで実行されると、前記システムに、
複数の補足訓練例配列ペアに基づいて調整された複数のパラメータを具備する訓練されたバリアント病原性予測モデルに、バリアントアミノ酸と、符号化された基準アミノ酸と、少なくとも位置特定的頻度行列とを具備する符号化された代替アミノ酸配列を入力として提供し、
前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルを利用して前記バリアントアミノ酸の複数の病原性予測を決定し、前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルは、複数の補足良性訓練例配列ペアに基づくアンサンブル訓練の一部として一緒に調整されており、
前記バリアントアミノ酸の前記複数の病原性予測に基づいて、前記バリアントアミノ酸が良性または病原性であることの尤度を示す病原性予測を生成する
ことを行わせるコンピュータ命令を具備する非一時的記憶媒体と、
を具備するシステム。 - 前記訓練されたバリアント病原性予測モデルの前記複数のパラメータは、複数のミスセンス訓練例配列ペアおよび複数の補足訓練位置特定的頻度行列に基づいてさらに調整され、
前記複数の補足訓練位置特定的頻度行列の1つの補足訓練位置特定的頻度行列は、開始位置および終了位置において、ミスセンス訓練例配列ペアの位置特定的頻度行列と同一であることを特徴とする請求項2に記載のシステム。 - 前記訓練されたバリアント病原性予測モデルの前記複数のパラメータは、複数の補足訓練位置特定的頻度行列の訓練の影響を減衰させるようにさらに調整されることを特徴とする請求項2に記載のシステム。
- 各補足訓練例配列ペアは、基準アミノ酸配列および代替アミノ酸配列を具備することを特徴とする請求項1または2に記載のシステム。
- 前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルは、複数の補足良性訓練例配列ペアに基づくアンサンブル訓練の一部として一緒に調整されることを特徴とする請求項1に記載のシステム。
- 前記1つまたは複数のプロセッサにより実行されると、前記システムに
生物の目からの複数のアミノ酸に基づく第1の位置特定的頻度行列、
生物の網からの複数のアミノ酸に基づく第2の位置特定的頻度行列、または
生物の亜門からの複数のアミノ酸に基づく第3の位置特定的頻度行列、
の1つまたは複数を提供することによって、少なくとも前記位置特定的頻度行列を前記訓練されたバリアント病原性予測モデルに提供する
ことを行わせるコンピュータ命令をさらに具備することを特徴とする請求項1または2に記載のシステム。 - 前記1つまたは複数のプロセッサにより実行されると、前記システムに、
前記サブネットワークのアンサンブルにより決定される前記複数の病原性予測の平均を決定することによって、前記バリアントアミノ酸の前記病原性予測を生成する
ことを行わせるコンピュータ命令をさらに具備することを特徴とする請求項1または2に記載のシステム。 - 複数の補足訓練例配列ペアに基づいて調整された複数のパラメータを具備する訓練されたバリアント病原性予測モデルに、バリアントアミノ酸と、符号化された基準アミノ酸と、少なくとも位置特定的頻度行列とを具備する符号化された代替アミノ酸配列を入力として提供するステップであって、前記複数の補足訓練例配列ペアの補足訓練例配列ペアは、開始位置および終了位置において、ミスセンス訓練例配列ペアの位置特定的頻度行列と同一である1つの補足訓練位置特定的頻度行列を含む、ステップと、
前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルを利用して前記バリアントアミノ酸の複数の病原性予測を決定するステップと、
前記バリアントアミノ酸の前記複数の病原性予測に基づいて、前記バリアントアミノ酸が良性または病原性であることの尤度を示す病原性予測を生成するステップと、
を具備する方法。 - 複数の補足訓練例配列ペアに基づいて調整された複数のパラメータを具備する訓練されたバリアント病原性予測モデルに、バリアントアミノ酸と、符号化された基準アミノ酸と、少なくとも位置特定的頻度行列とを具備する符号化された代替アミノ酸配列を入力として提供するステップと、
前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルを利用して前記バリアントアミノ酸の複数の病原性予測を決定するステップであって、前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルは、複数の補足良性訓練例配列ペアに基づくアンサンブル訓練の一部として一緒に調整される、ステップと、
前記バリアントアミノ酸の前記複数の病原性予測に基づいて、前記バリアントアミノ酸が良性または病原性であることの尤度を示す病原性予測を生成するステップと、
を具備する方法。 - 前記訓練されたバリアント病原性予測モデルの前記複数のパラメータは、複数のミスセンス訓練例配列ペアおよび複数の補足訓練位置特定的頻度行列に基づいてさらに調整され、
前記複数の補足訓練位置特定的頻度行列の1つの補足訓練位置特定的頻度行列は、開始位置および終了位置において、ミスセンス訓練例配列ペアの位置特定的頻度行列と同一であることを特徴とする請求項10に記載の方法。 - 前記訓練されたバリアント病原性予測モデルの前記複数のパラメータは、複数の補足訓練位置特定的頻度行列の訓練の影響を減衰させるようにさらに調整されることを特徴とする請求項10に記載の方法。
- 各補足訓練例配列ペアは、基準アミノ酸配列および代替アミノ酸配列を具備することを特徴とする請求項9または10に記載の方法。
- コンピュータ命令を具備した非一時的コンピュータ可読記憶媒体であって、
1つまたは複数のプロセッサで実行されると、システムに、
複数の補足訓練例配列ペアに基づいて調整された複数のパラメータを具備する訓練されたバリアント病原性予測モデルに、バリアントアミノ酸と、符号化された基準アミノ酸と、少なくとも位置特定的頻度行列とを具備する符号化された代替アミノ酸配列を入力として提供し、前記複数の補足訓練例配列ペアの補足訓練例配列ペアは、開始位置および終了位置において、ミスセンス訓練例配列ペアの位置特定的頻度行列と同一である1つの補足訓練位置特定的頻度行列を含み、
前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルを利用して前記バリアントアミノ酸の複数の病原性予測を決定し、
前記バリアントアミノ酸の前記複数の病原性予測に基づいて、前記バリアントアミノ酸が良性または病原性であることの尤度を示す病原性予測を生成する
ことを行わせるコンピュータ命令を具備する非一時的コンピュータ可読記憶媒体。 - コンピュータ命令を具備した非一時的コンピュータ可読記憶媒体であって、
1つまたは複数のプロセッサで実行されると、システムに、
複数の補足訓練例配列ペアに基づいて調整された複数のパラメータを具備する訓練されたバリアント病原性予測モデルに、バリアントアミノ酸と、符号化された基準アミノ酸と、少なくとも位置特定的頻度行列とを具備する符号化された代替アミノ酸配列を入力として提供し、
前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルを利用して前記バリアントアミノ酸の複数の病原性予測を決定し、前記訓練されたバリアント病原性予測モデルのサブネットワークのアンサンブルは、複数の補足良性訓練例配列ペアに基づくアンサンブル訓練の一部として一緒に調整されており、
前記バリアントアミノ酸の前記複数の病原性予測に基づいて、前記バリアントアミノ酸が良性または病原性であることの尤度を示す病原性予測を生成する
ことを行わせるコンピュータ命令を具備する非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (16)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/160,968 | 2018-10-15 | ||
US16/160,986 | 2018-10-15 | ||
PCT/US2018/055878 WO2019079180A1 (en) | 2017-10-16 | 2018-10-15 | NEURONAL NETWORKS WITH DEEP CONVOLUTION OF VARIANT CLASSIFICATION |
PCT/US2018/055881 WO2019079182A1 (en) | 2017-10-16 | 2018-10-15 | SEMI-SUPERVISED APPRENTICESHIP FOR THE LEARNING OF A SET OF NEURONAL NETWORKS WITH DEEP CONVOLUTION |
US16/160,903 | 2018-10-15 | ||
US16/160,903 US10423861B2 (en) | 2017-10-16 | 2018-10-15 | Deep learning-based techniques for training deep convolutional neural networks |
US16/160,968 US11798650B2 (en) | 2017-10-16 | 2018-10-15 | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
USPCT/US2018/055840 | 2018-10-15 | ||
PCT/US2018/055840 WO2019079166A1 (en) | 2017-10-16 | 2018-10-15 | TECHNIQUES BASED ON DEEP LEARNING LEARNING OF NEURONAL NETWORKS WITH DEEP CONVOLUTION |
USPCT/US2018/055878 | 2018-10-15 | ||
USPCT/US2018/055881 | 2018-10-15 | ||
US16/160,986 US11315016B2 (en) | 2017-10-16 | 2018-10-15 | Deep convolutional neural networks for variant classification |
US16/407,149 | 2019-05-08 | ||
US16/407,149 US10540591B2 (en) | 2017-10-16 | 2019-05-08 | Deep learning-based techniques for pre-training deep convolutional neural networks |
JP2019567603A JP6888123B2 (ja) | 2018-10-15 | 2019-05-09 | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 |
JP2021084634A JP7200294B2 (ja) | 2018-10-15 | 2021-05-19 | 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021084634A Division JP7200294B2 (ja) | 2018-10-15 | 2021-05-19 | 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023052011A JP2023052011A (ja) | 2023-04-11 |
JP7515559B2 true JP7515559B2 (ja) | 2024-07-12 |
Family
ID=70283180
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567603A Active JP6888123B2 (ja) | 2018-10-15 | 2019-05-09 | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 |
JP2021084634A Active JP7200294B2 (ja) | 2018-10-15 | 2021-05-19 | 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法 |
JP2022204685A Active JP7515559B2 (ja) | 2018-10-15 | 2022-12-21 | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567603A Active JP6888123B2 (ja) | 2018-10-15 | 2019-05-09 | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 |
JP2021084634A Active JP7200294B2 (ja) | 2018-10-15 | 2021-05-19 | 位置頻度行列のオーバーフィッティングを避けるように訓練したバリアント病原性分類法 |
Country Status (8)
Country | Link |
---|---|
JP (3) | JP6888123B2 (ja) |
KR (1) | KR102165734B1 (ja) |
CN (2) | CN113705585A (ja) |
AU (2) | AU2019272062B2 (ja) |
IL (2) | IL271091B (ja) |
NZ (1) | NZ759665A (ja) |
SG (2) | SG11201911777QA (ja) |
WO (1) | WO2020081122A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543761B (zh) * | 2018-11-27 | 2020-07-07 | 成都工业学院 | 植物适生地的分类方法及装置 |
US11443832B2 (en) * | 2019-03-07 | 2022-09-13 | Nvidia Corporation | Genetic mutation detection using deep learning |
KR102418073B1 (ko) * | 2020-06-08 | 2022-07-06 | 고려대학교 산학협력단 | 인공지능 기반 비디오 투시 연하검사 자동화 분석 장치 및 방법 |
CN111830408B (zh) * | 2020-06-23 | 2023-04-18 | 朗斯顿科技(北京)有限公司 | 一种基于边缘计算和深度学习的电机故障诊断系统及方法 |
CN112003735B (zh) * | 2020-07-28 | 2021-11-09 | 四川大学 | 一种感知风险的深度学习驱动的极限传输容量调整方法 |
CN112183088B (zh) * | 2020-09-28 | 2023-11-21 | 云知声智能科技股份有限公司 | 词语层级确定的方法、模型构建方法、装置及设备 |
KR102279056B1 (ko) * | 2021-01-19 | 2021-07-19 | 주식회사 쓰리빌리언 | 지식전이를 이용한 유전자변이의 병원성 예측 시스템 |
CN113299345B (zh) * | 2021-06-30 | 2024-05-07 | 中国人民解放军军事科学院军事医学研究院 | 病毒基因分类的方法、装置及电子设备 |
CN113539354B (zh) * | 2021-07-19 | 2023-10-27 | 浙江理工大学 | 一种高效预测革兰氏阴性菌ⅲ型和ⅳ型效应蛋白的方法 |
CN113822342B (zh) * | 2021-09-02 | 2023-05-30 | 湖北工业大学 | 一种安全图卷积网络的文献分类方法及系统 |
CN113836892B (zh) * | 2021-09-08 | 2023-08-08 | 灵犀量子(北京)医疗科技有限公司 | 样本量数据提取方法、装置、电子设备及存储介质 |
CN113963746B (zh) * | 2021-09-29 | 2023-09-19 | 西安交通大学 | 一种基于深度学习的基因组结构变异检测系统及方法 |
US20240087683A1 (en) * | 2022-09-14 | 2024-03-14 | Microsoft Technology Licensing, Llc | Classification using a machine learning model trained with triplet loss |
CN115662520B (zh) * | 2022-10-27 | 2023-04-14 | 黑龙江金域医学检验实验室有限公司 | Bcr/abl1融合基因的检测方法及相关设备 |
CN116153396A (zh) * | 2023-04-21 | 2023-05-23 | 鲁东大学 | 一种基于迁移学习的非编码变异预测方法 |
CN117688785B (zh) * | 2024-02-02 | 2024-04-16 | 东北大学 | 一种基于种植思想的全张量重力梯度数据反演方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160371431A1 (en) | 2015-06-22 | 2016-12-22 | Counsyl, Inc. | Methods of predicting pathogenicity of genetic sequence variants |
JP2017151679A (ja) | 2016-02-24 | 2017-08-31 | コニカミノルタ株式会社 | 識別装置及び識別プログラム |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0450060A1 (en) | 1989-10-26 | 1991-10-09 | Sri International | Dna sequencing |
US5641658A (en) | 1994-08-03 | 1997-06-24 | Mosaic Technologies, Inc. | Method for performing amplification of nucleic acid with two primers bound to a single solid support |
WO1998044152A1 (en) | 1997-04-01 | 1998-10-08 | Glaxo Group Limited | Method of nucleic acid sequencing |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
GB0006153D0 (en) * | 2000-03-14 | 2000-05-03 | Inpharmatica Ltd | Database |
US20030064366A1 (en) | 2000-07-07 | 2003-04-03 | Susan Hardin | Real-time sequence determination |
US7211414B2 (en) | 2000-12-01 | 2007-05-01 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
AR031640A1 (es) | 2000-12-08 | 2003-09-24 | Applied Research Systems | Amplificacion isotermica de acidos nucleicos en un soporte solido |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
US20040002090A1 (en) | 2002-03-05 | 2004-01-01 | Pascal Mayer | Methods for detecting genome-wide sequence variations associated with a phenotype |
EP3363809B1 (en) | 2002-08-23 | 2020-04-08 | Illumina Cambridge Limited | Modified nucleotides for polynucleotide sequencing |
WO2006044078A2 (en) | 2004-09-17 | 2006-04-27 | Pacific Biosciences Of California, Inc. | Apparatus and method for analysis of molecules |
GB0427236D0 (en) | 2004-12-13 | 2005-01-12 | Solexa Ltd | Improved method of nucleotide detection |
SG162795A1 (en) | 2005-06-15 | 2010-07-29 | Callida Genomics Inc | Single molecule arrays for genetic and chemical analysis |
GB0514910D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Method for sequencing a polynucleotide template |
US7405281B2 (en) | 2005-09-29 | 2008-07-29 | Pacific Biosciences Of California, Inc. | Fluorescent nucleotide analogs and uses therefor |
GB0522310D0 (en) | 2005-11-01 | 2005-12-07 | Solexa Ltd | Methods of preparing libraries of template polynucleotides |
US20080009420A1 (en) | 2006-03-17 | 2008-01-10 | Schroth Gary P | Isothermal methods for creating clonal single molecule arrays |
EP4105644A3 (en) | 2006-03-31 | 2022-12-28 | Illumina, Inc. | Systems and devices for sequence by synthesis analysis |
US7754429B2 (en) | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
AU2007309504B2 (en) | 2006-10-23 | 2012-09-13 | Pacific Biosciences Of California, Inc. | Polymerase enzymes and reagents for enhanced nucleic acid sequencing |
RU2011105627A (ru) * | 2008-07-16 | 2012-08-27 | Дана-Фарбер Кэнсер Инститьют, Инк. (Us) | Отличительные признаки (рс)-детерминанты, связанные с раком предстательной железы, и способы их применения |
EP2335175B1 (en) * | 2008-10-02 | 2018-01-10 | Koninklijke Philips N.V. | Method of determining a reliability indicator for signatures obtained from clinical data and use of the reliability indicator for favoring one signature over the other |
JP5773406B2 (ja) | 2010-07-28 | 2015-09-02 | 学校法人明治大学 | Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム |
EP2663656B1 (en) | 2011-01-13 | 2016-08-24 | Decode Genetics EHF | Genetic variants as markers for use in urinary bladder cancer risk assessment |
ES2875892T3 (es) * | 2013-09-20 | 2021-11-11 | Spraying Systems Co | Boquilla de pulverización para craqueo catalítico fluidizado |
AU2015318017B2 (en) | 2014-09-18 | 2022-02-03 | Illumina, Inc. | Methods and systems for analyzing nucleic acid sequencing data |
CN107709562A (zh) * | 2015-05-15 | 2018-02-16 | 先锋国际良种公司 | 指导rna/cas内切核酸酶系统 |
CN107622182B (zh) * | 2017-08-04 | 2020-10-09 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN108197427B (zh) * | 2018-01-02 | 2020-09-04 | 山东师范大学 | 基于深度卷积神经网络的蛋白质亚细胞定位方法和装置 |
CN108595909A (zh) * | 2018-03-29 | 2018-09-28 | 山东师范大学 | 基于集成分类器的ta蛋白靶向预测方法 |
-
2019
- 2019-05-09 CN CN202111113164.1A patent/CN113705585A/zh active Pending
- 2019-05-09 JP JP2019567603A patent/JP6888123B2/ja active Active
- 2019-05-09 CN CN201980003263.9A patent/CN111328419B/zh active Active
- 2019-05-09 NZ NZ759665A patent/NZ759665A/en unknown
- 2019-05-09 SG SG11201911777QA patent/SG11201911777QA/en unknown
- 2019-05-09 WO PCT/US2019/031621 patent/WO2020081122A1/en active Search and Examination
- 2019-05-09 KR KR1020197038080A patent/KR102165734B1/ko active IP Right Grant
- 2019-05-09 AU AU2019272062A patent/AU2019272062B2/en active Active
- 2019-05-09 SG SG10202108013QA patent/SG10202108013QA/en unknown
- 2019-12-02 IL IL271091A patent/IL271091B/en active IP Right Grant
-
2021
- 2021-04-27 IL IL282689A patent/IL282689A/en unknown
- 2021-05-19 JP JP2021084634A patent/JP7200294B2/ja active Active
- 2021-11-17 AU AU2021269351A patent/AU2021269351B2/en active Active
-
2022
- 2022-12-21 JP JP2022204685A patent/JP7515559B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160371431A1 (en) | 2015-06-22 | 2016-12-22 | Counsyl, Inc. | Methods of predicting pathogenicity of genetic sequence variants |
JP2018527647A (ja) | 2015-06-22 | 2018-09-20 | カウンシル, インコーポレイテッド | 遺伝子配列バリアントの病原性を予測する方法 |
JP2017151679A (ja) | 2016-02-24 | 2017-08-31 | コニカミノルタ株式会社 | 識別装置及び識別プログラム |
Non-Patent Citations (1)
Title |
---|
Sundaram, L., Gao, H., Padigepati, S.R. et al.,Predicting the clinical impact of human mutation with deep neural networks,Nat Genet,Vol.50,米国,2018年07月23日,p.1161-1170,[検索日 2022.5.26], インターネット<URL https://www.nature.com/articles/s41588-018-0167-z.pdf> |
Also Published As
Publication number | Publication date |
---|---|
CN111328419A (zh) | 2020-06-23 |
JP2021501923A (ja) | 2021-01-21 |
SG10202108013QA (en) | 2021-09-29 |
IL271091B (en) | 2021-05-31 |
KR20200044731A (ko) | 2020-04-29 |
IL282689A (en) | 2021-06-30 |
CN111328419B (zh) | 2021-10-19 |
JP2023052011A (ja) | 2023-04-11 |
AU2019272062A1 (en) | 2020-04-30 |
AU2021269351A1 (en) | 2021-12-09 |
SG11201911777QA (en) | 2020-05-28 |
CN113705585A (zh) | 2021-11-26 |
WO2020081122A1 (en) | 2020-04-23 |
AU2019272062B2 (en) | 2021-08-19 |
KR102165734B1 (ko) | 2020-10-14 |
JP2021152907A (ja) | 2021-09-30 |
IL271091A (en) | 2020-04-30 |
JP6888123B2 (ja) | 2021-06-16 |
NZ759665A (en) | 2022-07-01 |
JP7200294B2 (ja) | 2023-01-06 |
AU2021269351B2 (en) | 2023-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7515559B2 (ja) | 深層畳み込みニューラルネットワークを事前訓練するための深層学習ベースの技術 | |
EP3659143B1 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
US10540591B2 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
JP7247253B2 (ja) | 経験的バリアントスコア(evs)ベースの深層学習バリアントコーラ | |
CA3064223A1 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
NZ788839A (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
NZ788045A (en) | Deep convolutional neural networks for variant classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230120 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240603 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240702 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7515559 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |