JP7350818B2 - 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 - Google Patents
深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 Download PDFInfo
- Publication number
- JP7350818B2 JP7350818B2 JP2021167361A JP2021167361A JP7350818B2 JP 7350818 B2 JP7350818 B2 JP 7350818B2 JP 2021167361 A JP2021167361 A JP 2021167361A JP 2021167361 A JP2021167361 A JP 2021167361A JP 7350818 B2 JP7350818 B2 JP 7350818B2
- Authority
- JP
- Japan
- Prior art keywords
- variants
- training
- neural network
- convolutional neural
- benign
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 247
- 238000013527 convolutional neural network Methods 0.000 title claims description 146
- 238000000034 method Methods 0.000 claims description 191
- 230000001717 pathogenic effect Effects 0.000 claims description 171
- 238000013528 artificial neural network Methods 0.000 claims description 62
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 42
- 238000010606 normalization Methods 0.000 claims description 41
- 238000009826 distribution Methods 0.000 claims description 37
- 238000010200 validation analysis Methods 0.000 claims description 33
- 238000005070 sampling Methods 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 22
- 230000007423 decrease Effects 0.000 claims description 9
- 230000036961 partial effect Effects 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 3
- 239000010410 layer Substances 0.000 description 327
- 108090000623 proteins and genes Proteins 0.000 description 231
- 241000288906 Primates Species 0.000 description 221
- 230000035772 mutation Effects 0.000 description 205
- 108700028369 Alleles Proteins 0.000 description 180
- 241000894007 species Species 0.000 description 152
- 125000003729 nucleotide group Chemical group 0.000 description 134
- 239000000523 sample Substances 0.000 description 132
- 235000001014 amino acid Nutrition 0.000 description 130
- 239000002773 nucleotide Substances 0.000 description 130
- 230000007918 pathogenicity Effects 0.000 description 127
- 150000001413 amino acids Chemical class 0.000 description 119
- 229940024606 amino acid Drugs 0.000 description 115
- 102000004169 proteins and genes Human genes 0.000 description 110
- 238000013135 deep learning Methods 0.000 description 108
- 235000018102 proteins Nutrition 0.000 description 101
- 239000002904 solvent Substances 0.000 description 99
- 125000003275 alpha amino acid group Chemical group 0.000 description 98
- 208000012239 Developmental disease Diseases 0.000 description 96
- 238000012163 sequencing technique Methods 0.000 description 92
- 238000012360 testing method Methods 0.000 description 82
- 241000282412 Homo Species 0.000 description 79
- 230000004913 activation Effects 0.000 description 67
- 238000001994 activation Methods 0.000 description 67
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 61
- 239000012634 fragment Substances 0.000 description 61
- 230000006870 function Effects 0.000 description 53
- 230000000694 effects Effects 0.000 description 51
- 238000004458 analytical method Methods 0.000 description 50
- 239000011159 matrix material Substances 0.000 description 44
- 238000011176 pooling Methods 0.000 description 43
- 241000282577 Pan troglodytes Species 0.000 description 42
- 230000002068 genetic effect Effects 0.000 description 41
- 241000124008 Mammalia Species 0.000 description 38
- 238000013136 deep learning model Methods 0.000 description 38
- 238000005516 engineering process Methods 0.000 description 38
- 238000006467 substitution reaction Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 35
- 210000002569 neuron Anatomy 0.000 description 33
- 150000007523 nucleic acids Chemical group 0.000 description 33
- 238000002887 multiple sequence alignment Methods 0.000 description 31
- 238000001228 spectrum Methods 0.000 description 30
- 241000282579 Pan Species 0.000 description 29
- 230000000875 corresponding effect Effects 0.000 description 29
- 230000000717 retained effect Effects 0.000 description 29
- 102000054765 polymorphisms of proteins Human genes 0.000 description 28
- 230000008569 process Effects 0.000 description 28
- 238000004422 calculation algorithm Methods 0.000 description 25
- 108020004707 nucleic acids Proteins 0.000 description 25
- 102000039446 nucleic acids Human genes 0.000 description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 23
- 108020004705 Codon Proteins 0.000 description 22
- 241000282576 Pan paniscus Species 0.000 description 20
- 210000004027 cell Anatomy 0.000 description 20
- 201000010099 disease Diseases 0.000 description 20
- 238000011156 evaluation Methods 0.000 description 20
- 210000000349 chromosome Anatomy 0.000 description 19
- 230000002939 deleterious effect Effects 0.000 description 19
- 241000282405 Pongo abelii Species 0.000 description 18
- 230000010339 dilation Effects 0.000 description 18
- 238000010201 enrichment analysis Methods 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 18
- 108091006146 Channels Proteins 0.000 description 17
- 108091026890 Coding region Proteins 0.000 description 17
- 108700024394 Exon Proteins 0.000 description 17
- 241000282560 Macaca mulatta Species 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 17
- 241001515942 marmosets Species 0.000 description 17
- 108020004414 DNA Proteins 0.000 description 16
- 101000779608 Homo sapiens Homeobox protein aristaless-like 4 Proteins 0.000 description 16
- 239000003153 chemical reaction reagent Substances 0.000 description 16
- 238000000470 piezoresponse force microscopy Methods 0.000 description 16
- 230000009466 transformation Effects 0.000 description 16
- 241000283690 Bos taurus Species 0.000 description 15
- 241000282575 Gorilla Species 0.000 description 15
- 239000013598 vector Substances 0.000 description 15
- 208000026350 Inborn Genetic disease Diseases 0.000 description 14
- 108091028043 Nucleic acid sequence Proteins 0.000 description 14
- 208000016361 genetic disease Diseases 0.000 description 14
- 238000013507 mapping Methods 0.000 description 14
- 238000000585 Mann–Whitney U test Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000011144 upstream manufacturing Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 12
- 108090000144 Human Proteins Proteins 0.000 description 11
- 102000003839 Human Proteins Human genes 0.000 description 11
- 239000013078 crystal Substances 0.000 description 11
- 230000036541 health Effects 0.000 description 11
- 241000283707 Capra Species 0.000 description 10
- 101000741396 Chlamydia muridarum (strain MoPn / Nigg) Probable oxidoreductase TC_0900 Proteins 0.000 description 10
- 101000741399 Chlamydia pneumoniae Probable oxidoreductase CPn_0761/CP_1111/CPj0761/CpB0789 Proteins 0.000 description 10
- 101000741400 Chlamydia trachomatis (strain D/UW-3/Cx) Probable oxidoreductase CT_610 Proteins 0.000 description 10
- 241000995070 Nirvana Species 0.000 description 10
- 230000008901 benefit Effects 0.000 description 10
- 230000002776 aggregation Effects 0.000 description 9
- 238000004220 aggregation Methods 0.000 description 9
- 239000000243 solution Substances 0.000 description 9
- 230000000153 supplemental effect Effects 0.000 description 9
- 206010028980 Neoplasm Diseases 0.000 description 8
- 230000003321 amplification Effects 0.000 description 8
- 238000003776 cleavage reaction Methods 0.000 description 8
- 238000012268 genome sequencing Methods 0.000 description 8
- 230000007935 neutral effect Effects 0.000 description 8
- 238000003199 nucleic acid amplification method Methods 0.000 description 8
- 230000007017 scission Effects 0.000 description 8
- 230000000392 somatic effect Effects 0.000 description 8
- 241000287828 Gallus gallus Species 0.000 description 7
- 208000029726 Neurodevelopmental disease Diseases 0.000 description 7
- 241000700159 Rattus Species 0.000 description 7
- 238000013459 approach Methods 0.000 description 7
- 235000013330 chicken meat Nutrition 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 206010003805 Autism Diseases 0.000 description 6
- 208000020706 Autistic disease Diseases 0.000 description 6
- 241000282418 Hominidae Species 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000008094 contradictory effect Effects 0.000 description 6
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 230000001018 virulence Effects 0.000 description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 5
- 101000684826 Homo sapiens Sodium channel protein type 2 subunit alpha Proteins 0.000 description 5
- 201000006347 Intellectual Disability Diseases 0.000 description 5
- 241000699670 Mus sp. Species 0.000 description 5
- 241000282887 Suidae Species 0.000 description 5
- 241000282898 Sus scrofa Species 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 210000004602 germ cell Anatomy 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 238000012070 whole genome sequencing analysis Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 4
- 241000252212 Danio rerio Species 0.000 description 4
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 4
- 101150044878 US18 gene Proteins 0.000 description 4
- 125000000539 amino acid group Chemical group 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000007850 fluorescent dye Substances 0.000 description 4
- 102000054766 genetic haplotypes Human genes 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 229920006395 saturated elastomer Polymers 0.000 description 4
- 238000009738 saturating Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009897 systematic effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- PHIYHIOQVWTXII-UHFFFAOYSA-N 3-amino-1-phenylpropan-1-ol Chemical compound NCCC(O)C1=CC=CC=C1 PHIYHIOQVWTXII-UHFFFAOYSA-N 0.000 description 3
- 108091093088 Amplicon Proteins 0.000 description 3
- 108010035532 Collagen Proteins 0.000 description 3
- 208000035976 Developmental Disabilities Diseases 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 3
- 241001494479 Pecora Species 0.000 description 3
- 241000282410 Pongo pygmaeus Species 0.000 description 3
- 108091008109 Pseudogenes Proteins 0.000 description 3
- 102000057361 Pseudogenes Human genes 0.000 description 3
- 230000008033 biological extinction Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003485 founder effect Effects 0.000 description 3
- 238000010197 meta-analysis Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008450 motivation Effects 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 230000007026 protein scission Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 210000000857 visual cortex Anatomy 0.000 description 3
- 239000004475 Arginine Substances 0.000 description 2
- 102000008186 Collagen Human genes 0.000 description 2
- 208000002330 Congenital Heart Defects Diseases 0.000 description 2
- 108091029430 CpG site Proteins 0.000 description 2
- 102100029671 E3 ubiquitin-protein ligase TRIM8 Human genes 0.000 description 2
- 238000001159 Fisher's combined probability test Methods 0.000 description 2
- 239000004471 Glycine Substances 0.000 description 2
- 241001272567 Hominoidea Species 0.000 description 2
- 101000795300 Homo sapiens E3 ubiquitin-protein ligase TRIM8 Proteins 0.000 description 2
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 2
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 2
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 2
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 2
- 208000024556 Mendelian disease Diseases 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 108700026244 Open Reading Frames Proteins 0.000 description 2
- 241000288935 Platyrrhini Species 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 2
- 238000010171 animal model Methods 0.000 description 2
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 2
- 235000009697 arginine Nutrition 0.000 description 2
- 208000029560 autism spectrum disease Diseases 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 229920001436 collagen Polymers 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 208000028831 congenital heart disease Diseases 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 239000005547 deoxyribonucleotide Substances 0.000 description 2
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 230000002526 effect on cardiovascular system Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 210000003917 human chromosome Anatomy 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 238000013188 needle biopsy Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000001123 neurodevelopmental effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000035515 penetration Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003094 perturbing effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 108020001580 protein domains Proteins 0.000 description 2
- 230000004853 protein function Effects 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 208000035657 Abasia Diseases 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 208000014644 Brain disease Diseases 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 102100036213 Collagen alpha-2(I) chain Human genes 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 108091029523 CpG island Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 108700003861 Dominant Genes Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 208000032274 Encephalopathy Diseases 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 102000004533 Endonucleases Human genes 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 101000875067 Homo sapiens Collagen alpha-2(I) chain Proteins 0.000 description 1
- 101001072499 Homo sapiens Golgi-associated PDZ and coiled-coil motif-containing protein Proteins 0.000 description 1
- 101000962461 Homo sapiens Transcription factor Maf Proteins 0.000 description 1
- 241000282596 Hylobatidae Species 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 1
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241001529936 Murinae Species 0.000 description 1
- UGJBHEZMOKVTIM-UHFFFAOYSA-N N-formylglycine Chemical compound OC(=O)CNC=O UGJBHEZMOKVTIM-UHFFFAOYSA-N 0.000 description 1
- 108700005081 Overlapping Genes Proteins 0.000 description 1
- 206010035148 Plague Diseases 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 208000037340 Rare genetic disease Diseases 0.000 description 1
- 101000613608 Rattus norvegicus Monocyte to macrophage differentiation factor Proteins 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 241000238102 Scylla Species 0.000 description 1
- 102100023150 Sodium channel protein type 2 subunit alpha Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012152 algorithmic method Methods 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000009615 deamination Effects 0.000 description 1
- 238000006481 deamination reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000006471 dimerization reaction Methods 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000000432 effect on mutation Effects 0.000 description 1
- RDYMFSUJUZBWLH-UHFFFAOYSA-N endosulfan Chemical compound C12COS(=O)OCC2C2(Cl)C(Cl)=C(Cl)C1(Cl)C2(Cl)Cl RDYMFSUJUZBWLH-UHFFFAOYSA-N 0.000 description 1
- 206010015037 epilepsy Diseases 0.000 description 1
- 230000001037 epileptic effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- 235000004554 glutamine Nutrition 0.000 description 1
- 102000054387 human GOPC Human genes 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- QWXYZCJEXYQNEI-OSZHWHEXSA-N intermediate I Chemical compound COC(=O)[C@@]1(C=O)[C@H]2CC=[N+](C\C2=C\C)CCc2c1[nH]c1ccccc21 QWXYZCJEXYQNEI-OSZHWHEXSA-N 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 125000001909 leucine group Chemical group [H]N(*)C(C(*)=O)C([H])([H])C(C([H])([H])[H])C([H])([H])[H] 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004777 loss-of-function mutation Effects 0.000 description 1
- 235000018977 lysine Nutrition 0.000 description 1
- 125000003588 lysine group Chemical group [H]N([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])(N([H])[H])C(*)=O 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000028161 membrane depolarization Effects 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000007479 molecular analysis Methods 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011275 oncology therapy Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- KHIWWQKSHDUIBK-UHFFFAOYSA-N periodic acid Chemical compound OI(=O)(=O)=O KHIWWQKSHDUIBK-UHFFFAOYSA-N 0.000 description 1
- 238000001558 permutation test Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 235000013594 poultry meat Nutrition 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000011012 sanitization Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000003685 thermal hair damage Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/002—Biomolecular computers, i.e. using biomolecules, proteins, cells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/123—DNA computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Description
付録には、発明者らが著述した論文に列挙される潜在的な関連する参考文献の目録が含まれる。その論文の主題は、本出願がその優先権を主張する/その利益を主張する米国仮出願において扱われる。これらの参考文献は、要求に応じて訴訟代理人に対して利用可能にされることが可能であり、またはGlobal Dossierを介して入手可能であることがある。その論文は最初の列挙される参考文献である。
本出願は、2017年10月16日に出願された、Hong Gao、Kai-How Farh、Laksshman Sundaram、およびJeremy Francis McRaeによる「Training a Deep Pathogenicity Classifier Using Large-Scale Benign Training Data」という表題の米国仮特許出願第62/573,144号(代理人整理番号第ILLM 1000-1/IP-1611-PRV)、2017年10月16日に出願された、Kai-How Farh、Laksshman Sundaram、Samskruthi Reddy Padigepati、およびJeremy Francis McRaeによる「Pathogenicity Classifier Based On Deep Convolutional Neural Networks (CNNS)」という表題の米国仮特許出願第62/573,149号(代理人整理番号第ILLM 1000-2/IP-1612-PRV)、2017年10月16日に出願された、Hong Gao、Kai-How Farh、Laksshman Sundaram、およびJeremy Francis McRaeによる「Deep Semi-Supervised Learning that Generates Large-Scale Pathogenic Training Data」という表題の米国仮特許出願第62/573,153号(代理人整理番号第ILLM 1000-3 /IP-1613-PRV)、および、2017年11月7日に出願された、Hong Gao、Kai-How Farh、およびLaksshman Sundaramによる「Pathogenicity Classification of Genomic Data Using Deep Convolutional Neural Networks (CNNs)」という表題の米国仮特許出願第62/582,898号(代理人整理番号第ILLM 1000-4/IP-1618-PRV)の優先権または利益を主張する。これらの仮出願は、すべての目的のために本明細書において参照により引用される。
以下は、本明細書に完全に記載されるかのようにすべての目的のために参照により引用される。
ASCIIテキストフォーマットの以下のテーブルファイルが、本明細書とともに提出され、参照によって引用される。ファイルの名称、作成日、およびサイズは次の通りである。
開示される技術は、人工知能タイプコンピュータならびにデジタルデータ処理システムならびに知性のエミュレーションのための対応するデータ処理方法および製品(すなわち、知識ベースシステム、推論システム、知識取得システム)に関し、不確実性を伴う推論のためのシステム(たとえば、ファジー論理システム)、適応システム、機械学習システム、および人工ニューラルネットワークを含む。具体的には、開示される技術は、深層畳み込みニューラルネットワークを訓練するために深層学習ベースの技法を使用することに関する。
機械学習では、出力変数を予測するために入力変数が使用される。入力変数はしばしば特徴量と呼ばれ、X=(X1,X2,...,Xk)と表記され、i∈1,...,kである各Xiが特徴量である。出力変数はしばしば応答または依存変数と呼ばれ、変数Yiにより表記される。Yと対応するXとの関係は、次の一般的な形式で書くことができる。
Y=f(x)+∈
図1Aは、複数の層を伴う全結合ニューラルネットワークの一実装形態を示す。ニューラルネットワークは、互いとの間でメッセージを交換する相互接続された人工ニューロン(たとえば、a1、a2、a3)のシステムである。示されるニューラルネットワークは3つの入力を有し、2つのニューロンが隠れ層にあり、2つのニューロンが出力層にある。隠れ層は活性化関数f(・)を有し、出力層は活性化関数g(・)を有する。これらの接続は、適切に訓練されたネットワークが認識すべき画像を与えられると正しく応答するように、訓練プロセスの間に調整された数値的な重み(たとえば、w11、w21、w12、w31、w22、w32、v11、v22)を有する。入力層は生の入力を処理し、隠れ層は入力層と隠れ層との間の接続の重みに基づいて入力層から出力を処理する。出力層は、隠れ層から出力を取り込み、隠れ層と出力層との間の接続の重みに基づいてそれを処理する。ネットワークは、特徴検出ニューロンの複数の層を含む。各層は、前の層からの入力の異なる組合せに対応する多数のニューロンを有する。これらの層は、第1の層が入力画像データにおける基本的なパターンのセットを検出し、第2の層がパターンのパターンを検出し、第3の層がそれらのパターンのパターンを検出するように、構築される。
・ T.Ching他、Opportunities And Obstacles For Deep Learning In Biology And Medicine、www.biorxiv.org:142760、2017
・ Angermueller C、Parnamaa T、Parts L、Stegle O、Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878
・ Park Y、Kellis M、2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33、825-826、(doi:10.1038/nbt.3313)
・ Min S、Lee B、およびYoon S、Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016)
・ Leung MK、Delong A、Alipanahi B他、Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets、2016
・ Libbrecht MW、Noble WS、Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32
[畳み込みニューラルネットワーク]
畳み込みニューラルネットワークは特別なタイプのニューラルネットワークである。密結合層と畳み込み層との間の基本的な違いは、密層が入力特徴空間におけるグローバルパターンを学習するのに対して、畳み込み層がローカルパターンを学習するということである。画像の場合、入力の小さい2Dウィンドウにおいてパターンが見出される。この重要な特徴は、(1)畳み込みニューラルネットワークの学習するパターンが移動不変である、および(2)畳み込みニューラルネットワークがパターンの空間的階層を学習できるという、2つの興味深い特性を畳み込みニューラルネットワークに与える。
図1Cは、開示される技術の一実装形態による畳み込みニューラルネットワークを訓練することのブロック図を示す。畳み込みニューラルネットワークは、入力データが特定の出力推定につながるように、調整または訓練される。畳み込みニューラルネットワークは、出力推定とグラウンドトゥルースの比較に基づいて、出力推定がグラウンドトゥルースに漸近的に一致または接近するまで、逆伝播を使用して調整される。
wnm←wnm+α(tm-φm)αn
δok=(tk-φk)φk(1-φk)
vmk←vmk+αδokφm
vnm←wnm+αδhman
vt+1=μv-α∇wQ(zt,wt)
wt+1=wt+vt+1
畳み込みニューラルネットワークの畳み込み層は、特徴抽出器として機能する。畳み込み層は、入力データを学習して階層的特徴へと分解することが可能な、適応特徴抽出器として活動する。一実装形態では、畳み込み層は、入力として2つの画像を取り込み、出力として第3の画像を生成する。そのような実装形態では、畳み込みは2次元(2D)において2つの画像に対して動作し、一方の画像が入力画像であり、「カーネル」と呼ばれる他方の画像が入力画像に対してフィルタとして適用され、出力画像を生成する。したがって、長さnの入力ベクトルfおよび長さmのカーネルgに対して、fとgの畳み込みf*gは次のように定義される。
図1Dは、開示される技術の一実装形態によるサブサンプリング層の一実装形態である。サブサンプリング層は、抽出された特徴または特徴マップをノイズおよび歪みに対してロバストにするために、畳み込み層によって抽出される特徴の分解能を下げる。一実装形態では、サブサンプリング層は、2つのタイプのプーリング動作、すなわち平均プーリングおよび最大プーリングを利用する。プーリング動作は、入力を重複しない2次元空間へと分割する。平均プーリングでは、領域の中の4つの値の平均が計算される。最大プーリングでは、4つの値の最大値が選択される。
φ0=max(φ1,φ2,...,φN)
により記述されるような、入力の中に存在する最大値である。
図1Eは、開示される技術の一実装形態による、非線形層の一実装形態を示す。非線形層は、各隠れ層上の可能性の高い特徴の明確な識別情報をシグナリングするために、異なる非線形トリガ関数を使用する。非線形層は、正規化線形ユニット(ReLU)、双曲線正接、双曲線正接の絶対値、シグモイドおよび連続トリガ(非線形)関数を含む、非線形トリガリングを実施するために様々な固有の関数を使用する。一実装形態では、ReLU活性化は、関数y=max(x,0)を実装し、層の入力サイズおよび出力サイズを同じに保つ。ReLUを使用することの利点は、畳み込みニューラルネットワークがより高速に多くの回数訓練されることである。ReLUは、入力が0以上の場合には、入力に関して線形であり、それ以外の場合には0である、非連続で非飽和の活性化関数である。数学的には、ReLU活性化関数は次のように記述される。
φ(h)=max(h,0)
φ(h)=(a+bh)c
によって記述される連続的な非飽和の関数である、冪ユニット活性化関数を使用する。
図1Fは、畳み込み層の2層の畳み込みの一実装形態を示す。図1Fにおいて、2048次元のサイズの入力が畳み込まれる。畳み込み1において、入力はサイズ3×3の16個のカーネルの2つのチャネルからなる畳み込み層によって畳み込まれる。得られる16個の特徴マップが次いで、ReLU1におけるReLU活性化関数によって正規化され、次いでサイズ3×3のカーネルを伴う16個のチャネルプーリング層を使用して平均プーリングによってプール1においてプールされる。畳み込み2において、プール1の出力が次いで、3×3のサイズを伴う30個のカーネルの16個のチャネルからなる別の畳み込み層によって畳み込まれる。さらに別のReLU2および2×2のカーネルサイズを伴うプール2における平均プーリングが、それに続く。畳み込み層は、可変の数、たとえば0個、1個、2個、および3個の、ストライドおよびパディングを使用する。得られる特徴ベクトルは、一実装形態によれば、512次元である。
特徴マップの中のf個の畳み込みコアに対するl番目の畳み込み層およびk番目の特徴マップにおける行x、列yのニューロンの出力は、次の式によって決定される。
出力層の中のk番目のニューロンの出力偏差は、次の式によって決定される。
図1Gは、特徴マップ追加を介して以前の情報ダウンストリームを再注入する残差接続を図示する。残差接続は、過去の出力テンソルをより後の出力テンソルに追加することによって、以前の表現をデータのダウンストリームフローへと再注入することを備え、このことは、データ処理フローに沿った情報の喪失を防ぐのを助ける。残差接続は、あらゆる大規模な深層学習モデルを悩ませる2つの一般的な問題、すなわち、勾配消失および表現上のボトルネック(representational bottleneck)に対処する。一般に、10層を超える層を有するあらゆるモデルに残差接続を追加することが有益である可能性が高い。上で論じられたように、残差接続は、より前の層の出力をより後の層への入力として利用可能にして、逐次ネットワークにおけるショートカットを実質的に作成することを備える。より前の出力は、より後の活性化に連結されるのではなく、より後の活性化と加算され、このことは両方の活性化が同じサイズであると想定している。それらが異なるサイズである場合、より前の活性化を目標の形状へと再成形するための線形変換が使用され得る。残差接続についての追加の情報は、本明細書に完全に記載されるかのようにすべての目的で参照によって本明細書において引用される、K.He、X.Zhang、S.Ren、およびJ.Sun、「DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION」、arXiv:1512.03385、2015において見出され得る。
図1Hは、残差ブロックおよびスキップ接続の一実装形態を示す。残差学習の主な考え方は、残差マッピングが元のマッピングよりはるかに簡単に学習されるということである。残差ネットワークは、訓練の正確さの劣化を軽減するために、いくつかの残差ユニットを積層する。残差ブロックは、深層ニューラルネットワークにおける勾配消失をなくすために、特別な追加のスキップ接続を利用する。残差ブロックの初めにおいて、データフローは2つのストリームへと分離され、第1のストリームがブロックの変更されない入力を搬送し、一方で第2のストリームが重みおよび非線形性を適用する。ブロックの終わりにおいて、2つのストリームは要素ごとの和を使用して統合される。そのような構築の主な利点は、勾配がより簡単にネットワークを通って流れることが可能になることである。残差ブロックおよびスキップ接続についての追加の情報は、A.V.D.Oord、S.Dieleman、H.Zen、K.Simonyan、O.Vinyals、A.Graves、N.Kalchbrenner、A.Senior、およびK.Kavukcuoglu、「WAVENET: A GENERATIVE MODEL FOR RAW AUDIO」、arXiv:1609.03499、2016において見出され得る。
図1Oは拡張畳み込みを示す。膨張畳み込みとも呼ばれることのある拡張畳み込みは、字面上は「穴を伴う」を意味する。フランス語のalgorithme a trousが名称の由来であり、これは高速二項ウェーブレット変換を計算する。これらのタイプの畳み込み層では、フィルタの受容野に対応する入力は隣り合う点ではない。これが図1Oに示されている。入力間の距離は拡張係数に依存する。
WaveNetは、生のオーディオ波形を生成するための深層ニューラルネットワークである。WaveNetは他の畳み込みネットワークから区別され、それは、WaveNetは低コストで比較的大きい「視覚野」を取り込むことが可能であるからである。その上、信号の条件をローカルおよびグローバルに追加することが可能であり、これにより、WaveNetが複数の声を伴うテキストツースピーチ(TTS)エンジンとして使用されることが可能になり、TTSはローカル条件および特定の声およびグローバル条件を与える。
バッチ正規化は、データ標準化をネットワークアーキテクチャの必須の部分にすることによって、深層ネットワーク訓練を加速するための方法である。バッチ正規化は、訓練の間に時間とともに平均および分散が変化しても、データを適応的に正規化することができる。バッチ正規化は、訓練の間に見られるデータのバッチごとの平均と分散の指数移動平均を内部的に維持することによって機能する。バッチ正規化の主な影響は、残差接続とよく似て、勾配伝播を助けるので、深層ネットワークを可能にするということである。一部の超深層ネットワークは、複数のバッチ正規化層を含む場合にのみ訓練することができる。バッチ正規化についての追加の情報は、本明細書に完全に記載されるかのようにすべての目的で参照によって本明細書において引用される、S.IoffeおよびC.Szegedy、「BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT」、arXiv:1502.03167、2015において見出され得る。
フォワードパスの間、ミニバッチの平均および分散が計算される。これらのミニバッチの統計により、データは、平均を差し引き、標準偏差で除算することによって正規化される。最後に、データは、学習されたスケールおよびシフトパラメータを用いて、スケーリングおよびシフトされる。バッチ正規化フォワードパスfBNが図1Iに図示されている。
正規化は微分可能な演算であるので、バックワードパスは図1Kに図示されるように計算され得る。
1D畳み込みは、図1Mに示されるように、ローカルの1Dパッチまたはサブ配列を配列から抽出する。1D畳み込みは、入力配列の中の時間的パッチから各出力タイムステップを取得する。1D畳み込み層は、配列の中のローカルパターンを認識する。同じ入力変換がパッチごとに実行されるので、入力配列の中のある場所において学習されるパターンは、異なる場所においてより後に認識されることが可能であり、このことは、1D畳み込み層変換を時間的変換に対して不変にする。たとえば、サイズ5の畳み込みウィンドウを使用して塩基の配列を処理する1D畳み込み層は、長さ5以下の塩基配列を学習することが可能であるべきであり、入力配列の中の任意の文脈において塩基のモチーフを認識することが可能であるべきである。したがって、塩基レベルの1D畳み込みは、塩基の形態について学習することが可能である。
図1Nは、グローバル平均プーリング(GAP)がどのように機能するかを示す。グローバル平均プーリングは、スコアリングのために最後の層の中の特徴量の空間的な平均をとることによって、分類のための全結合(FC)層を置換するために使用され得る。これは、訓練負荷を低減し、過剰適合の問題をバイパスする。グローバル平均プーリングは、モデルの前に構造的を適用し、これはあらかじめ定められた重みを伴う線形変換と等価である。グローバル平均プーリングは、パラメータの数を減らし、全結合層をなくす。全結合層は通常、最もパラメータと接続の多い層であり、グローバル平均プーリングは、同様の結果を達成するのにはるかに低コストの手法を提供する。グローバル平均プーリングの主な考え方は、スコアリングのために各々の最後の層の特徴マップからの平均値を信頼性係数として生成し、直接ソフトマックス層に供給することである。
遺伝的変異は、多くの疾患の説明を助け得る。ヒトはそれぞれが固有の遺伝コードを持ち、個人のグループ内には多くの遺伝的バリアントがある。有害な遺伝的バリアントの大半は、自然選択によってゲノムから枯渇している。どの遺伝的変異が病原性または有害である可能性が高いかを特定することが重要である。このことは、研究者が、病原性である可能性が高い遺伝的バリアントに注目し、多くの疾患の診断および治療を加速させることを助けるであろう。
限定はされないが、特許、特許出願、論説、書籍、論文、およびウェブページを含む、本出願において引用されるすべての文献および同様の資料は、そのような文献および同様の資料のフォーマットとは無関係に、全体が参照によって明確に引用される。限定はされないが、定義される用語、用語の使用法、説明される技法などを含めて、引用される文献および同様の資料のうちの1つまたは複数が、本出願とは異なる場合、または本出願と矛盾する場合、本出願が優先する。
本明細書に記載される実装形態は、配列の変異を特定するために核酸配列を分析することに適用可能であり得る。実装形態は、遺伝子の場所/座の潜在的なバリアント/アレルを分析し、遺伝子座の遺伝子型を決定するために、言い換えると、座に対する遺伝子型コールを提供するために使用され得る。例として、核酸配列は、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号において説明される方法およびシステムに従って分析されることがあり、これらの出願公開の完全な主題の全体が、本明細書において参照によって明確に引用される。
個の操作とを含むことがあり、この場合、ヌクレオチドのうちの2つ以上が同じラベルを有することが可能であり、それらを導入の既知の順序に基づいて区別することができる。
本明細書で開示される実装形態は、潜在的なバリアントコールを特定するためにシーケンシングデータを分析することを含む。バリアントコールは、以前に実行されたシーケンシング操作について記憶されたデータに対して実行され得る。加えて、または代わりに、バリアントコーリングは、シーケンシング操作が実行されている間にリアルタイムで実行され得る。サンプルリードの各々が、対応する遺伝子座を割り当てられる。サンプルリードは、サンプルリードのヌクレオチドの配列、または言い換えると、サンプルリード内のヌクレオチドの順序(たとえば、A、C、G、T)に基づいて、対応する遺伝子座に割り当てられ得る。この分析に基づいて、サンプルリードは、特定の遺伝子座の潜在的なバリアント/アレルを含むものとして指定され得る。サンプルリードは、遺伝子座の潜在的なバリアント/アレルを含むものとして指定された他のサンプルリードとともに収集(または集約または貯蔵)され得る。割当て操作はコーリング操作とも呼ばれることがあり、コーリング操作において、サンプルリードは特定の遺伝子場所/座と関連付けられる可能性があるものとして特定される。サンプルリードは、サンプルリードを他のサンプルリードから区別するヌクレオチドの1つまたは複数の識別配列(たとえば、プライマー配列)を位置特定するために分析され得る。より具体的には、識別配列は、特定の遺伝子座と関連付けられるものとしてサンプルリードを他のサンプルリードから特定し得る。
数百万個のヒトゲノムおよびエクソンがシーケンシングされているが、それらの臨床上の応用は、疾患を引き起こす変異を良性の遺伝的変異から区別することの難しさにより限られたままである。ここで我々は、他の霊長類の種における一般的なミスセンスバリアントが、ヒトにおいて大部分が臨床的に良性であることを実証し、病原性の変異が除去のプロセスによって系統的に特定されることを可能にする。6種のヒト以外の霊長類の種の集団シーケンシングからの数十万個の一般的なバリアントを使用して、88%の正確さで稀な疾患の患者における病原性の変異を特定し、ゲノムワイド有意性(genome-wide significance)で知的障害における14個の新たな遺伝子候補の発見を可能にする、深層ニューラルネットワークを訓練した。追加の霊長類の種からの一般的な変異の目録を作ることで、数百万個の有意性が不確かなバリアントに対する解釈が改善し、ヒトゲノムシーケンシングの臨床上の利用がさらに進む。
Exome Aggregation Consortium(ExAC)およびGenome Aggregation Database(gnomAD)において収集された123136人のヒトを含む、集約されたエクソンデータが最近利用可能になったことで、アレル頻度スペクトラムにわたるミスセンス変異と同義変異に対する自然選択の影響を測ることが可能になった。コホートにおいて1回しか観察されない稀なシングルトンバリアントは、変異率に対するトリヌクレオチドコンテクストの影響を調整した後の、de novo変異によって予測される、予想される2.2/1のミスセンス/同義比とよく一致する(図49A、図51、ならびに図52A、図52B、図52C、および図52D)が、より高いアレル頻度では、観察されるミスセンスバリアントの数は、自然選択による有害な変異の一掃により減少する。アレル頻度の増大に伴うミスセンス/同義比の段階的な低下は、集団頻度が<0.1%であるミスセンスバリアントのかなりの部分が、健康な個人において観察されるにもかかわらず軽度に有害な結果を有することと一致する。これらの発見は、0.1%~約1%より高いアレル頻度を伴うバリアントを、平衡選択および創始者効果により引き起こされるよく記録されている少数の例外を除いて、浸透性の遺伝性疾患に対しては良性である可能性が高いものとして除去するという、診療室において広く行われている経験的な実践を支持するものである。
開示される技術は、バリアントの病原性分類のための深層学習ネットワークを提供する。臨床上の応用に対するバリアント分類の重要性は、教師あり機械学習を問題の対処のために使用する多くの試みを引き起こしてきたが、これらの努力は、訓練のために確信をもってラベリングされた良性のバリアントおよび病原性のバリアントを含む適切なサイズの真実データセット(truth dataset)がないことにより、妨げられている。
我々は、所与の変異が集団において一般的なバリアントとして観察される可能性が高いかどうかということとして、予測問題を形作った。いくつかの要因が高いアレル頻度でのバリアントの観察の確率に影響し、我々はそれらのバリアントの有害性だけに関心がある。他の要因には、変異率、シーケンシングカバレッジなどの技術的なアーティファクト、および遺伝子変換などの中立的な遺伝的浮動に影響する要因がある。
病原性ミスセンス変異を階層化するために0.803以上の閾値を適用することは、DDD患者におけるde novoミスセンス変異のエンリッチメントを、1.5-foldからタンパク質切断変異(2.5-fold)に近い2.2-foldへと増大させ、一方で、予想を超えてエンリッチされるバリアントの総数の3分の1未満を捨てる。このことは、統計能力をかなり高め、元のDDD研究ではゲノムワイド有意性閾値にこれまで達していなかった知的障害における14個の追加の遺伝子候補の発見を可能にしている(テーブル1)。
ClinVarデータベースからの最近の専門家により精選されたバリアントに対する様々な分類器の性能を調査したが、ClinVarデータセットに対する分類器の性能は、保留された霊長類バリアントデータセットとも、DDD症例群vs対照群データセットとも強く相関していなかったことを発見した(それぞれP=0.12およびP=0.34)(図31Aおよび図31B)。我々は、既存の分類器には専門家の精選によるバイアスがあるという仮説を立てており、人の経験則は正しい方向にある傾向にあるものの最適ではないことがある。1つの例は、ClinVarにおける病原性バリアントと良性バリアントとの間のGranthamスコアの平均の差であり、これは、605個の疾患関連遺伝子内での、DDD症例群vs対照群におけるde novoバリアントの差の2倍である(テーブル2)。それと比べて、専門家による精選は、タンパク質構造を、特に、他の分子と相互作用することが可能になり得る表面に曝露されている残基の重要性を、十分に活用していないように見える。我々は、ClinVar病原性変異とDDD de novo変異の両方が、予測される溶媒に曝露される残基と関連付けられるが、良性のClinVarバリアントと病原性のClinVarバリアントとの間の溶媒接触性の差はDDD症例群vs対照群について見られる差の半分にすぎないことを観察した。これらの発見は、Granthamスコアおよび保存率などの、専門家にとって解釈がより簡単な要因を優先する確認バイアスを示唆するものである。人により精選されたデータベース上で訓練された機械学習分類器は、これらの傾向を強化することが予想される。
アプリケーションの中の座標は、複数の配列アラインメントを使用してhg19にマッピングされる他の種におけるバリアントに対する座標を含む、ヒトゲノムbuild UCSC hg19/GRCh37を参照する。タンパク質コーディングDNA配列に対する正規の転写産物および99種の脊椎動物ゲノムの複数の配列アラインメントおよび枝長が、UCSCゲノムブラウザからダウンロードされた。
他の種に存在するバリアントがヒトにおいて一般的なアレル頻度(>0.1%)で耐えられるかどうかを評価するために、他の種における変異と同一状態であったヒトバリアントを特定した。バリアントの各々に対して、それらをヒト集団におけるそれらのアレル頻度に基づいて、4つのカテゴリ(シングルトン、シングルトンより多い~0.01%、0.01%~0.1%、>0.1%)のうちの1つに割り当て、稀(<0.1%)なバリアントと一般的(>0.1%)なバリアントとの間でのミスセンス/同義比(MSR)の低下を推定した。一般的なヒトアレル頻度(>0.1%)での同一状態のミスセンスバリアントの枯渇率は、ヒトにおける一般的なアレル頻度で自然選択により除去されるのに十分に有害な他の種からのバリアントの割合を示す。
他の種と同一状態であるバリアントの臨床上の影響を調査するために、矛盾する病原性のアノテーションを持っていたバリアントまたは有意性が不確かなバリアントとしてのみラベリングされたバリアントを除いて、ClinVarデータベースをダウンロードした。補足テーブル9に示されるフィルタリングステップの後で、合計で、病原性カテゴリの中の24853個のミスセンスバリアントおよび良性カテゴリの中の17775個のミスセンスバリアントがある。
機械学習のために、ヒトおよびヒト以外の霊長類からの大部分が一般的である良性ミスセンスバリアントの良性訓練データセットを構築した。このデータセットは、一般的なヒトバリアント(>0.1%のアレル頻度、83546個のバリアント)、ならびにチンパンジー、ボノボ、ゴリラ、およびオランウータン、アカゲザル、およびマーモセットからのバリアント(301690個の固有の霊長類バリアント)を備える。各源が寄与する良性訓練バリアントの数が補足テーブル5に示されている。
各バリアントに対して、病原性予測ネットワークは、対象のバリアントを中心とする長さ51のアミノ酸配列と、二次構造および溶媒接触性ネットワーク(図2および図3)の出力とを、中心の場所において置換されるミスセンスバリアントとともに入力として取り込む。11種の霊長類のための1つの場所頻度行列と、霊長類を除く50種の哺乳類のための1つの場所頻度行列と、霊長類と哺乳類を除く38種の脊椎動物のための1つの場所頻度行列とを含む、3つの長さ51の場所頻度行列が、99種の脊椎動物の複数の配列アラインメントから生成される。
深層学習ネットワーク、ならびに、データベースdbNSFPから予測スコアを取得した他の20個のこれまでに公開されている分類器のベンチマークをとるために、検定データセットにおいて10000個の保留された霊長類バリアントを使用した。10000個の保留された霊長類バリアント検定セットに対する分類器の各々の性能も図28Aにおいて与えられる。異なる分類器は大きく変動するスコア分布を有していたので、各分類器に対する50パーセンタイル閾値を特定するために、トリヌクレオチドコンテクストによって検定セットと照合された10000個のランダムに選択されたラベリングされていないバリアントを使用した。方法間での公平な比較を確実にするために、その分類器に対して50パーセンタイルの閾値で良性であるものとして分類された、10000個の保留された霊長類バリアント検定セットの中のバリアントの割合について、各分類器のベンチマークをとった。
DDD研究からの公開されているde novoバリアントと、SSC自閉症研究における健康な兄弟の対照群からのde novoバリアントとを取得した。DDD研究はde novoバリアントの信頼性レベルを提供しており、我々は、バリアントコーリングエラーによる潜在的な偽陽性として、閾値が0.1未満であるバリアントをDDDデータセットから除外した。一実装形態では、全体で、DDDの影響を受けている個人から3512個のミスセンスde novoバリアントと、健康な対照群からの1208個のミスセンスde novoバリアントがあった。99種の脊椎動物の複数配列アラインメントのためにUCSCによって使用された正規の転写産物アノテーションは、DDDにより使用される転写産物アノテーションとわずかに異なり、ミスセンスバリアントの総数の小さな違いをもたらしている。DDDの影響を受けている個人におけるde novoミスセンスバリアントと、自閉症研究からの影響を受けていない兄弟の対照群におけるde novoミスセンスバリアントとを、この分類方法が区別する能力について評価した。各分類器に対して、2つの分布に対する予測スコア間の差のウィルコクソンの順位和検定からのP値を報告した(補足テーブル17(図34))。
観察されるde novo変異の数をヌル変異モデルのもとで予想される数と比較することによって、遺伝子におけるde novo変異のエンリッチメントを検定した。DDD研究において実行されるエンリッチメント分析を繰り返し、PrimateAIスコアが0.803を超えるde novoミスセンス変異のみをカウントするときに新たにゲノムワイド有意である遺伝子を報告した。0.803を超えるPrimateAI閾値を満たすミスセンスバリアントの割合(ゲノム全体で概ねすべての潜在的なミスセンス変異の5分の1)によって、de novoの損害を与えるミスセンス変異に対するゲノムワイド期待値を調整した。DDD研究ごとに、各遺伝子は4つの検定を必要とし、1つはタンパク質切断エンリッチメントを検定し、1つはタンパク質を変化させるde novo変異のエンリッチメントを検定し、両方が、DDDコホートだけのために、および神経発達トリオシーケンシングコホートのより大きなメタ分析のために検定される。タンパク質を変化させるdee novo変異のエンリッチメントは、コーディング配列内のミスセンスde novo変異のクラスタリングの検定と、Fisherの方法によって組み合わされた(補足テーブル20、21)。各遺伝子に対するP値が4つの検定の最小値から取られ、ゲノムワイド有意性がP<6.757×10-7として決定された(α=0.05、4つの検定を用いた18500個の遺伝子)。
既存の分類器の大半は、ClinVar上で訓練される分類器からの予測スコアを使用するなどして、ClinVarコンテンツ上で直接または間接的にのいずれかで訓練されるので、2017年以降に追加されたClinVarバリアントのみを使用するように、ClinVarデータセットの分析を限定した。最近のClinVarバリアントと他のデータベースとの間にはかなりの重複があったので、ExACにおいて一般的なアレル頻度(>0.1%)で見つかるバリアント、または、HGMD(Human Gene Mutation Database)、LOVD(Leiden Open Variation Database)、またはUniprot(Universal Protein Resource)に存在するバリアントを除去するために、さらにフィルタリングを行った。有意性が不確かであるものとしてだけアノテートされたバリアントおよび矛盾するアノテーションを伴うバリアントを取り除いた後で、良性のアノテーションを伴う177個のミスセンスバリアントおよび病原性のアノテーションを伴う969個のミスセンスバリアントが残った。これらのClinVarバリアントを、深層学習ネットワークと他の分類方法の両方を使用してスコアリングした。各分類器に対して、同じ数の良性予測と病原性予測を生み出した閾値を、これらのデータベースにおいて観察される経験的な割合として特定し、この閾値を、各分類器の正確さを推定するためのバイナリカットオフとして使用した(図31Aおよび図31B)。
深層学習ネットワークの性能に対する訓練データサイズの影響を評価するために、385236個の霊長類および一般的なヒトのバリアントの良性とラベリングされた訓練セットから、バリアントのサブセットをランダムにサンプリングし、背後の深層学習ネットワークアーキテクチャを同一に保った。各々の個別の霊長類の種からのバリアントが分類の正確さに寄与する一方で、各々の個別の哺乳類の種からのバリアントはより低い分類の正確さに寄与することを示すために、一実装形態に従って、83546個のヒトバリアントと、各種に対するランダムに選択された一定の数のバリアントとを備える訓練データセットを使用して、深層学習ネットワークを訓練し、背後のネットワークアーキテクチャを再び同じに保った。訓練セットに追加したバリアントの一定の数(23380)は、ミスセンスバリアントの数が最小である種、すなわちボノボにおいて利用可能なバリアントの総数であった。各分類器に対する性能の中央値を得るために、訓練手順を5回繰り返した。
ExACにおいて観察される一般的なヒトミスセンスバリアント(>0.1%のアレル頻度)のトリヌクレオチドコンテクストに基づいてバリアントをシミュレートすることによって、504種の現存する霊長類の種において存在する一般的なバリアントによる、すべての約7000万個の潜在的なヒトミスセンス変異の予想される飽和を調査した。各霊長類の種に対して、ヒトにおいて観察される一般的なミスセンスバリアントの数(アレル頻度が0.1%を超える約83500個のミスセンスバリアント)の4倍をシミュレートした。それは、ヒトが、他の霊長類の種と比べて個体あたりのバリアントの数が概ね半分であり、0.1%を超えるアレル頻度では、純化選択によって約50%のヒトミスセンスバリアントが取り除かれているからである(図49A)。
本明細書において使用されるすべての座標は、このセクションで説明される手順を使用して複数配列アラインメントを使用してhg19にマッピングされた他の種におけるバリアントに対する座標を含めて、ヒトゲノムbuild UCSC hg19/GRCh37を参照する。ヒトとの99種の脊椎動物ゲノムのタンパク質コーディングDNA配列および複数配列アラインメントが、hg19 buildのためのUCSCゲノムブラウザからダウンロードされた(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/alignments/knownCanonical.exonNuc.fa.gz)。複数の正規の遺伝子アノテーションを伴う遺伝子については、最長のコーディング転写産物が選択された。
純化選択の活動に加えて、高いアレル頻度でのヒトミスセンスバリアントの観察される枯渇率は、自然選択に関連しない要因によっても影響を受け得る。集団において特定のアレル頻度で現れる自然変異の確率は、変異率、遺伝子変換、および遺伝的浮動の関数であり、これらの要因は、選択圧がなくてもアレル頻度スペクトラムにわたってミスセンス:同義比にバイアスをもたらす可能性がある。
他の種からのバリアントがヒトにおいて一般的なアレル頻度(>0.1%)で耐えられるかどうかを評価するために、他の種における変異と同一状態であったヒトバリアントを特定した。バリアントの各々に対して、ヒト集団におけるアレル頻度(シングルトン、シングルトンより多い~0.01%、0.01%~0.1%、>0.1%)に基づいて、それらを4つのカテゴリのうちの1つに割り当て、稀なバリアント(<0.1%)と一般的なバリアント(>0.1%)との間でのミスセンス:同義比(MSR)の低下を推定した。一般的なヒトアレル頻度(>0.1%)における同一状態のミスセンスバリアントの枯渇率は、ヒトにおいて一般的なアレル頻度では自然選択により除去されるのに十分有害な、他の種からのバリアントの割合を示す。
バリアントデータについての問題、または家畜化によるアーティファクト(dbSNPから選択された種の大半は家畜化されているので)により、dbSNP変異を使用した我々の結果が影響を受けなかったことを確実にするために、種内多型の代わりに近縁の種のペアからの固定された置換を使用した分析も繰り返した。枝長で測定される進化系統距離(場所当たりのヌクレオチド置換の平均の数)とともに、UCSCゲノムブラウザから100種の脊椎動物の種の進化系統樹をダウンロードした(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/hg19.100way.commonNames.nh)。さらなる分析のために、近縁の種のペア(枝長<0.25)を選択した。近縁の種のペア間の固定された置換を特定するために、ヒトとの99種の脊椎動物ゲノムの複数配列アラインメントのための、ならびにヒトとの19種の哺乳類(16種の霊長類)ゲノムのアラインメントのための、コーディング領域をUCSCゲノムブラウザからダウンロードした。追加の19種の哺乳類の複数種アライメントは、ボノボなどの霊長類の種の一部が99種の脊椎動物アラインメントにおいて存在しなかったので必要であった(http://hgdownload.soe.ucsc.edu/goldenPath/hg38/multiz20way/alignments/knownCanonical.exo nNuc.fa.gz)。全体で、図50Dおよび補足テーブル4に列挙されるように、5つの霊長類ペアを含む、近縁の種の15個のペアを得た。
他の種と同一状態であるバリアントの臨床上の影響を調査するために、ClinVarデータベース(2017年11月2日に発表されたftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/clinvar_20171029.vcf.gz)12のリリースバリアントサマリ(release variant summary)をダウンロードした。このデータベースは、hg19ゲノムビルド上の324698個のバリアントを含み、そのうち122884個がタンパク質コーディング遺伝子の我々のリストにマッピングするミスセンス一塩基バリアントであった(補足テーブル9)。ClinVarデータベースの中のバリアントの大半はミスセンスの結果をもたらさず、除外された。次に、矛盾する病原性の解釈を持つバリアントをフィルタリングし、良性、良性である可能性が高い、病原性、および病原性である可能性が高いアノテーションを伴うバリアントのみを残した。良性のアノテーションおよび良性である可能性が高いというアノテーションを持つバリアントを単一のカテゴリへと統合し、病原性のアノテーションまたは病原性である可能性が高いというアノテーションを持つバリアントも統合した。補足テーブル9に示されるフィルタリングステップの後で、全体で病原性カテゴリの中の24853個のバリアントおよび良性カテゴリの中の17775個のバリアントがあり、残りは有意性が知られていないまたは矛盾するアノテーションを伴うバリアントであるので、除外された。
ヒト集団において一般的なバリアントは、創始者効果または平衡選択の稀な事例を除いて大部分が中立的であり、これにより、それらのバリアントは、人の解釈によるバイアスの影響を受けていない機械学習のための良性訓練データセットとして適切なものになる。フィルタを通過しなかったバリアントを除いて、ExAC/gnomADデータベース(リリースv2.0)からの123136個のエクソンからアレル頻度データを使用し、正規のタンパク質コーディング転写産物内で全体の集団アレル頻度が0.1%以上である83546個のミスセンスバリアントが残った。
すべての潜在的なミスセンスバリアントが、正規のコーディング領域の各塩基場所から、その場所におけるヌクレオチドを他の3つのヌクレオチドで置換することによって生成された。ExAC/gnomADからの123136個のエクソンにおいて観察されたバリアントと、開始コドンまたは終止コドンにおけるバリアントを除外した。全体で、68,258,623個のラベリングされていないバリアントが生成された。ラベリングされていないバリアントの各々を、96個の異なるトリヌクレオチドコンテクストカテゴリのうちの1つに割り当てた。トリヌクレオチドコンテクストによって良性データセットの中のバリアントと一致する、このラベリングされていないデータセットからバリアントをサンプリングし、良性の訓練例とラベリングされていない訓練例を区別するように分類器を訓練することによって、半教師ありの手法を使用して深層学習ネットワークを訓練した。
良性バリアントおよびラベリングされていないバリアントの例をフランキングアミノ酸配列とともに提示することによって、深層学習ネットワークは、変異に対して高度に耐性のないタンパク質の領域を学習する。しかしながら、タンパク質配列の領域に一般的なバリアントがないことは、強い純化選択によるものであることがあり、または、バリアントが領域においてコールされるのを妨げる技術的なアーティファクトによるものであることがある。後者を訂正するために、ExAC/gnomADデータセットが1より小さい平均カバレッジを有していた領域から、良性データセットとラベリングされていないデータセットの両方からのバリアントを除去した。同様に、ラベリングされていないバリアントを訓練の間に良性データセットの中の霊長類バリアントと照合するとき、霊長類が複数配列アラインメントにおいてヒトとのオーソロガスなアラインメント可能な配列を有しなかった領域から、ラベリングされていないバリアントを除外した。
深層学習ネットワークの妥当性確認および検定のために、妥当性確認および検定のために10000個の霊長類バリアントの2つのセットをランダムにサンプリングし、これらについては訓練を保留した。霊長類バリアントの残りは、一般的なヒトバリアント(>0.1%のアレル頻度)とともに、深層学習ネットワークを訓練するための良性データセットとして使用された。加えて、妥当性確認セットおよび検定セットのために、保留された霊長類バリアントと照合された10000個のラベリングされていないバリアントの2つのセットもサンプリングした。
504種の現存する霊長類の種において存在する一般的なバリアントによる、すべての7000万個の潜在的なヒトミスセンス変異の予想される飽和を調査した。各霊長類の種に対して、ヒトにおいて観察される一般的なミスセンスバリアントの数(アレル頻度が0.1%より高い約83500個のミスセンスバリアント)を4回シミュレートした。それは、他の霊長類の種と比べてヒトの個体当たりのバリアントの数が概ね半分であるように見え、ヒトミスセンスバリアントの約50%が0.1%を超えるアレル頻度において純化選択により除去されているからである(図49A)。96個のトリヌクレオチドコンテクストにおける一般的なヒトミスセンスバリアントの観察される分布に基づいて、シミュレートされたバリアントを割り当てた。たとえば、一般的なヒトミスセンスバリアントの2%が、CCC>CTGのトリヌクレオチドコンテクストからのものであった場合、シミュレートされるバリアントの2%がランダムにサンプリングされたCCG>CTG変異であったことを要求した。これは、トリヌクレオチドコンテクストを使用して、変異率、遺伝的浮動、および遺伝子変換バイアスの影響を考慮する効果を有する。
病原性予測のための深層学習ネットワークは、二次構造および溶媒接触性予測ネットワークのための19個の畳み込み層と、二次構造および溶媒接触性ネットワークの結果を入力として取り込む主病原性予測ネットワークのための17個の畳み込み層とを含む、全体で36個の畳み込み層を含む。大半のヒトタンパク質の結晶構造は知られていないので、ネットワークが一次配列からタンパク質構造を学習することを可能にするために2つのモデルを訓練した。両方のモデルが、図6に示される同じネットワークアーキテクチャおよび入力を使用した。二次構造および溶媒接触性ネットワークへの入力は、99種の他の脊椎動物とのヒトの複数配列アラインメントからの保存情報を符号化する、長さ51×20個のアミノ酸の位置特定的頻度行列である。
モデルを訓練するために、Protein Databankからの関連しない結晶構造を使用した。25%を超える配列相動性を持つアミノ酸配列が除去された。全体で、6367個のタンパク質配列が訓練のために使用され、400個が妥当性確認のために使用され、500個が検定のために使用された(補足テーブル13)。アミノ酸配列および二次構造と溶媒接触性ラベルを含む、訓練のために使用されたデータは、RaptorXウェブサイト:http://raptorx.uchicago.edu/download/から入手可能である。
% ./buildFeature-i 1u71A.fasta-c 10-o ./TGT/1u71A.tgt
% ./CNFsearch-a 30-q 1u71A
タンパク質の二次構造および相対的な溶媒接触性を予測するように、2つの別々の深層畳み込みニューラルネットワークモデルを訓練した。2つのモデルは、同一のアーキテクチャおよび入力データを有するが、予測状態については異なる。最高の性能に向けてモデルを最適化するために、詳細なハイパーパラメータ探索を行った。病原性予測のための我々の深層学習ネットワークと、二次構造および溶媒接触性を予測するための深層学習ネットワークの両方が、画像分類における成功により広く採用されている残差ブロックのアーキテクチャを採用した。残差ブロックは、より前の層からの情報が残差ブロックをスキップすることを可能にするスキップ接続が散在する、反復する畳み込みのユニットを備える。各残差ブロックにおいて、入力層がまずバッチ正規化され、正規化線形ユニット(ReLU)を使用する活性化層がそれに続く。活性化は次いで1D畳み込み層を通される。1D畳み込み層からのこの中間の出力は、再びバッチ正規化およびReLU活性化され、別の1D畳み込み層がそれに続く。第2の1D畳み込みの終わりに、その出力を元の入力と合計して残差ブロックにし、このことが、元の入力情報が残差ブロックをバイパスすることを可能にすることによってスキップ接続として活動する。著者により深層残差学習ネットワークと名付けられるそのようなアーキテクチャでは、入力は元の状態で保存され、残差接続にはモデルからの非線形の活性化がない状態に保たれ、より深いネットワークの効果的な訓練が可能になる。詳細なアーキテクチャは、図6および補足テーブル11(図7Aおよび図7B)および図12(図8Aおよび図8B)において提供される。
病原性予測ネットワークのための訓練データセットは、フィルタリングの後で、385236個の良性とラベリングされたバリアントと、68258623個のラベリングされていないバリアントとを含む。各バリアントに対して、以下の入力特徴量を生成した。各バリアントの第1の入力特徴量は、バリアントの配列コンテクストを深層学習モデルに提供するための、長さ51のフランキングアミノ酸配列、すなわち、hg19の基準配列から得られたバリアントの各側への25個のアミノ酸である。全体で、このフランキング基準配列は長さが51個のアミノ酸である。経験的な観察結果を通じて、タンパク質配列のアミノ酸表現が、ヌクレオチドを使用してタンパク質コーディング配列を表現することより効果的であったことを発見した。
半教師あり学習アルゴリズムは、訓練プロセスにおいてラベリングされたインスタンスとラベリングされていないインスタンスの両方を使用するので、訓練に利用可能な少量のラベリングされたデータしかない完全教師あり(completely supervised)学習アルゴリズムよりも高い性能を達成する分類器を生み出すことができる。半教師あり学習の背後にある原理は、ラベリングされたインスタンスだけを使用する教師ありモデルの予測能力を強化するために、ラベリングされていないデータ内の固有の知識を活用できるということであり、それにより半教師あり学習の潜在的な利益がもたらされる。少量のラベリングされたデータから教師あり分類器により学習されるモデルパラメータは、ラベリングされていないデータによって、より現実的な分布(これは検定データの分布によく似ている)に向かって導かれ得る。
良性バリアントと一致している未知のバリアントのサンプリング方式は、我々のモデル訓練のバイアスを低減するのに有用である。未知のバリアントがランダムにサンプリングされるとき、深層学習モデルはしばしば、偏った情報を抽出して自明解を提示する。たとえば、アミノ酸置換K→Mが良性バリアントより未知のバリアントにおいて頻繁に発生する場合、深層学習モデルはK→Mの置換を常に病原性として分類する傾向がある。したがって、2つの訓練セットの間でアミノ酸配列の分布のバランスをとることが重要である。
サイクル1
各トリヌクレオチドコンテクストに対する良性バリアントの厳密な数と一致するように未知のバリアントをサンプリングした。言い換えると、最初のサイクルにおいて、バリアントのトリヌクレオチドコンテクストに関して良性訓練セットおよび病原性訓練セットを鏡写しにした。そのようなサンプリング方法の背後にある直観は、良性セットと未知のセットの間で変異率が同一であるバリアントの等しい表現があるということである。このことは、モデルが変異率に基づいて自明解に収束するのを防ぐ。
サイクル2に対して、サイクル1からの訓練されたモデルを適用してサイクル1に関与していない未知のバリアントのセットをスコアリングし、上位の予測される病原性バリアントで未知のバリアントの5%を置き換えた。このセットは純粋にモデルによって生成され、このセットの中のトリヌクレオチドコンテクストに対するバランシングは適用しなかった。訓練に必要な未知のバリアントの残りの95%は、良性バリアントの中の各ヌクレオチドコンテクストのカウントの95%となるようにサンプリングされる。
最後のサイクルであるサイクル21では、病原性訓練セット全体が、純粋に深層学習モデルから予測される上位の病原性バリアントからなる。各サイクルにおいて変異率のバイアスを明確に考慮してきたので、病原性バリアントは、訓練データとして使用するのに信頼性が高く、変異率のバイアスの影響を受けていない。したがって、訓練の最後のサイクルは、病原性予測のための最後の深層学習モデルを生み出す。
ラベリングされていないバリアントのバランスサンプリングが、バリアントの有害性に関連しないバイアスを除去するのに決定的に重要である。混乱をもたらす影響の適切な制御がないと、深層学習は容易に、不注意にもたらされたバイアスを選択してクラスを区別することがある。一般的なヒトバリアントは、CpGアイランド上のバリアントなどの、変異可能性の高いクラスからのバリアントについてエンリッチされる傾向がある。同様に、霊長類多型はヒトの変異率にも従い、良性訓練セット全体における変異可能性の高いバリアントのエンリッチメントを示唆する。ラベリングされていないバリアントのサンプリング手順がよく制御されておらずバランスがとれていない場合、深層学習ネットワークは、バリアントを分類するために変異率のバイアスに頼る傾向があるので、トランスバージョンまたは非CpGトランジションなどのより出現しないクラスと比較して、CpGトランジションを良性として分類する可能性がより高い。我々は、96個のトリヌクレオチドコンテクスト(上で論じられた)の各々において、ラベリングされた良性バリアントと厳密に同じ数のラベリングされていないバリアントをサンプリングした。
ヒト集団における一般的なバリアント
最近の研究は、ヒト集団における一般的なバリアントが全般に良性であることを実証している。一実装形態によれば、gnomADは、正規のコーディング領域内でマイナーアレル頻度(MAF)が0.1%以上である90958個の非同義SNPを提供する。フィルタを通過したバリアントが保持される。インデルが除外される。開始コドンまたは終止コドンにおいて発生するバリアント、ならびにタンパク質切断バリアントが除去される。亜集団を精査すると、各亜集団内のMAFが0.1%以上であるミスセンスバリアントの総数は、一実装形態によれば245360個まで増える。これらのバリアントは、良性バリアントの訓練セットの一部を形成する。
コーディング領域は高度に保存的であることが知られているので、多型が大型類人猿の集団において高い頻度で分離しているかどうかを仮定するのは簡単であり、多型は健康に対する軽度の影響も有し得る。大型類人猿ゲノムプロジェクトおよび他の研究からの、ボノボ、チンパンジー、ゴリラ、およびオランウータンの多型データは、dbSNPからのアカゲザルおよびマーモセットのSNPと統合された。
すべての潜在的なバリアントが、正規のコーディング領域の各塩基場所から、その場所におけるヌクレオチドを他の3つのヌクレオチドに置換することによって生成される。新しいコドンが形成され、その場所におけるアミノ酸の潜在的な変更につながる。同義変化はフィルタリングされる。
ヒトゲノムの一部の領域では、リードをアラインメントするのが難しいことが知られている。それらの領域を含めると、訓練データセットおよび検定データセットに混乱をもたらす影響を引き起こす。たとえば、高い選択圧を受ける領域は、多型の数が限られる傾向がある。一方、シーケンシングが難しい領域もより少数の多型を有する。我々のモデルへのそのような混乱をもたらす入力を避けるために、gnomADによってシーケンシングされなかった遺伝子からのバリアントを除去した。
病原性モデルの妥当性確認および検定のために、一実装形態によれば、妥当性確認および検定のために、それぞれ10000個の良性バリアントの2つのセットを、良性バリアントの大きいプールからランダムにサンプリングした。良性バリアントの残りは、深層学習モデルを訓練するために使用される。これらのバリアントは特に、方法間の公平な比較を確実にするためにオーソロガスな霊長類バリアントからサンプリングされ、それは、一部の方法が一般的なヒトバリアントについて訓練されるからである。一実装形態によれば、妥当性確認および検定のために別々に、10000個の未知のバリアントの2つのセットをランダムにサンプリングした。192個のトリヌクレオチドコンテクストの各々の中の未知のバリアントの数が、妥当性確認セットおよび検定セットに対するそれぞれの良性バリアントの数と一致することを確実にする。
病原性予測ネットワークは、二次構造および溶媒接触性ネットワークを介して、5つの直接入力および2つの間接入力を受け取る。5つの直接入力は、長さ51個のアミノ酸配列×深さ20(20個の異なるアミノ酸を符号化する)であり、バリアントを伴わない基準ヒトアミノ酸配列(1a)と、バリアントで置換された代替ヒトアミノ酸配列(1b)と、霊長類の種の複数配列アラインメントからのPFM(1c)と、哺乳類の種の複数配列アラインメントからのPFM(1d)と、より遠縁の脊椎動物の種の複数配列アラインメントからのPFM(1e)とを備える。二次構造および溶媒接触性ネットワークは各々、複数配列アラインメント(1f)および(1g)からのPFMを入力として受け取り、主な病原性予測ネットワークへの入力として出力を提供する。二次構造および溶媒接触性ネットワークは、Protein DataBankのための既知のタンパク質結晶構造について事前訓練され、病原性モデル訓練の間の逆伝播を可能にする。
バリアントの病原性を予測するために、半教師あり深層畳み込みニューラルネットワーク(CNN)モデルを開発した。モデルへの入力特徴量は、フランキングバリアントのタンパク質配列および保存プロファイルと、特定の遺伝子領域におけるミスセンスバリアントの枯渇率とを含む。深層学習モデルによって二次構造および溶媒接触性へバリアントによって引き起こされる変化を予測し、それを我々の病原性予測モデルへと統合した。モデルを訓練するために、ヒト亜集団の一般的なバリアントからの良性バリアントと、霊長類からのオーソロガスバリアントとを生成した。しかしながら、病原性バリアントに対する信頼性のある源が依然として欠けている。最初に、良性バリアントおよび未知のバリアントを用いてモデルを訓練し、次いで、半教師あり反復的バランスサンプリング(IBS)アルゴリズムを使用して、高い信頼性で予測される病原性バリアントのセットで未知のバリアントを徐々に置き換えた。最終的に、ヒトにおいて発育不全障害を引き起こすde novoバリアントを良性のバリアントから区別する際に、我々のモデルが既存の方法を上回ることを実証した。
図17は残差ブロックを示す。病原性予測の我々の深層学習モデルと、二次構造および溶媒接触性を予測するための深層学習モデルの両方が、において最初に示された残差ブロックの定義を採用する。残差ブロックの構造は以下の図において示される。入力層は、まずバッチ正規化され、非線形活性化「ReLU」がそれに続く。活性化は次いで1D畳み込み層に通される。1D畳み込み層からのこの中間出力は、再びバッチ正規化およびReLU活性化され、別の1D畳み込み層が後に続く。第2の1D畳み込みの終わりにおいて、その出力を元の出力と統合する。そのようなアーキテクチャでは、入力は元の状態に保たれ、残差接続はモデルの非線形活性化がない状態に保たれる。
我々の方法は、3つの点でバリアントの病原性を予測するための既存の方法と異なる。第1に、我々の方法は、半教師あり深層畳み込みニューラルネットワークの新規のアーキテクチャを採用する。第2に、信頼性のある良性バリアントがgnomADからの一般的なヒトバリアントおよび霊長類バリアントから取得され、一方で、確実性の高い病原性訓練セットは、人により精選された同一のバリアントデータベースを使用したモデルの循環的な訓練および検定を避けるために、反復的バランスサンプリングおよび訓練を通じて生成される。第3に、二次構造および溶媒接触性のための深層学習モデルは、我々の病原性モデルのアーキテクチャへと統合される。構造および溶媒モデルから得られる情報は、特定のアミノ酸残基に対するラベル予測に限定されない。むしろ、リードアウト層が構造および溶媒モデルから除去され、事前訓練されたモデルが病原性モデルと統合される。病原性モデルを訓練する間、事前訓練された構造および溶媒層はまた、誤差を最小限にするために逆伝播する。これは、事前訓練された構造および溶媒モデルが、病原性予測問題に集中することを助ける。
データ準備
タンパク質の3状態の二次構造および3状態の溶媒接触性を予測するために、深層畳み込みニューラルネットワークを訓練した。PDBからのタンパク質アノテーションが、モデルを訓練するために使用される。一実装形態によれば、配列プロファイルと25%を超える相同性を有する配列が除去される。一実装形態によれば、全体で、6293個のタンパク質配列が訓練のために使用され、392個が妥当性確認のために使用され、499個が検定のために使用される。
タンパク質の3状態の二次構造および3状態の溶媒接触性をそれぞれ予測するために、2つのエンドツーエンドの深層畳み込みニューラルネットワークモデルを訓練した。2つのモデルは同様の構成を有し、一方はタンパク質配列に対する、他方はタンパク質保存プロファイルに対する、2つの入力チャネルを含む。各入力チャネルは次元L×20を有し、Lはタンパク質の長さを示す。
病原性予測モデルの入力特徴量
上で論じられたように、病原性予測問題に対して、病原性モデルを訓練するための良性バリアント訓練セットおよび未知のバリアント訓練セットがある。各バリアントに対して、我々のモデルに供給するために以下の入力特徴量を準備した。
図19は、深層学習モデルワークフローの概要を提供するブロック図である。病原性訓練モデルは、5つの直接入力および4つの間接入力を備える。5つの直接入力特徴量は、基準配列(1a)、代替配列(1b)、霊長類保存率(1c)、哺乳類保存率(1d)、および脊椎動物保存率(1e)を含む。間接入力は、基準配列ベース二次構造(1f)、代替配列ベース二次構造(1g)、基準配列ベース溶媒接触性(1h)、および代替配列ベース溶媒接触性(1i)を含む。
一実装形態では、我々の方法の各サイクルに対して、同じ良性データセットおよび8つの異なる未知のデータセットで訓練する8つの異なるモデルを実行し、8つのモデルにわたって評価データセットの予測を平均した。未知のバリアントの複数のランダムにサンプリングされたセットがモデルに提示されると、サンプリングバイアスを減らしてよく制御することができる。
信頼性のあるアノテートされた病原性バリアントサンプルが欠けているので、モデル訓練のための打ち切り基準を定義するのは困難である。モデル評価における病原性バリアントの使用を避けるために、一実装形態では、オーソロガスな霊長類からの10000個の良性妥当性確認バリアントと、10000個のトリヌクレオチドコンテクストが照合された未知のバリアントとを使用した。モデルの各エポックを訓練した後、良性妥当性確認バリアントおよび未知の妥当性確認バリアントを評価した。妥当性確認バリアントセットの両方の確率分布の差を評価するために、ウィルコクソン順位和検定を使用した。
1つは一般的なヒトバリアントのみを用いて訓練され、1つは一般的なヒトバリアントと霊長類バリアントの両方を含む良性とラベリングされた完全なデータセットを用いて訓練された、2つのバージョンの深層学習ネットワークの分類の正確さを、以下の分類器、すなわちSIFT、PolyPhen-2、CADD、REVEL、M-CAP、LRT、MutationTaster、MutationAssessor、FATHMM、PROVEAN、VEST3、MetaSVM、MetaLR、MutPred、DANN、FATHMM-MKL_coding、Eigen、GenoCanyon、およびGERP++13,32-48に加えて評価した。他の分類器の各々のスコアを得るために、dbNSFP 49(https://sites.google.com/site/jpopgen/dbNSFP)からすべてのミスセンスバリアントに対するスコアをダウンロードし、10000個の保留された霊長類バリアント検定セット、およびDDD症例群vs対照群におけるde novoバリアントについて方法のベンチマークをとった。本明細書に含めるものには、SIFT、PolyPhen-2、およびCADD、ならびにREVELを選択した。それは、SIFT、PolyPhen-2、およびCADDについては、それらが最も広く使用されている方法であるからであり、REVELについては、様々な評価モードにわたって、評価した20個の既存の分類器の中で最良のものの1つとして傑出していたからである。評価したすべての分類器の性能が図28Aにおいて提供される。
一実装形態では、反復的バランスサンプリング手順に続いて、深層学習モデルを21回のサイクルにわたり訓練した。我々の分類器の性能を評価するために、2つのタイプの評価を実行した。2つの尺度で我々のモデルとPolyphen2、SIFT、およびCADDの比較も行い、臨床的なアノテーションに対する我々のモデルの適用の可能性を評価した。
一実装形態では、10000個の良性バリアントおよび未知のバリアントを、8つの異なる訓練されたモデルのアンサンブルを使用してそれらの予測される確率を計算することによって、評価した。上で言及された他の既存の方法によってスコアリングされる、それらの予測される確率も取得した。
良性の正確さ=中央値を上回る(下回る*)良性バリアントの総数÷良性バリアントの総数
一実装形態では、発育不全障害(DDD)症例群-対照群データセットを含む、臨床的なデータセットに対してこれらの病原性予測方法を評価した。DDDデータセットは、影響を受けている子供からの3821個のde novoミスセンスバリアントおよび影響を受けていない兄弟からの1231個のde novoミスセンスバリアントを備える。我々の仮説は、影響を受けている子供からのde novoバリアントが影響を受けていない兄弟からのde novoバリアントより有害である傾向があるというものである。
深層学習ネットワークならびに他の20個の分類器のベンチマークをとるために、検定データセットの中の10000個の保留された霊長類バリアントを使用した。異なる分類器は大きく変動するスコア分布を有していたので、各分類器に対する50パーセンタイル閾値を特定するために、トリヌクレオチドコンテクストにより検定セットと照合された、10000個のランダムに選択されたラベリングされていないバリアントを使用した。方法間の公平な比較を確実にするために、その分類器に対して50パーセンタイルの閾値で良性であると分類された、10000個の保留された霊長類バリアント検定セットの中のバリアントの割合について、各分類器のベンチマークをとった。
DDDの影響を受けている個人におけるde novoミスセンスバリアントと、影響を受けていない兄弟の対照群におけるde novoミスセンスバリアントとを区別する能力について、分類方法のベンチマークをとった。各分類器に対して、2つの分布に対する予測スコア間の差のウィルコクソン順位和検定からのp値を報告した(図28Bおよび図28Cおよび補足テーブル17(図34))。
深層学習ネットワークが本当に同じ遺伝子内の病原性バリアントと良性バリアントとを区別していたかどうかを検定するために、de novo優性遺伝モードを伴う遺伝子における病原性を優先するのではなく、DDDコホートにおいてp値が0.05未満である(de novoタンパク質切断変異のみを使用して計算される)神経発達疾患と関連付けられた605の遺伝子のセットを特定した(補足テーブル18)。DDDデータセットおよび対照群データセットにおいて605個の遺伝子の中のバリアントの確率分布を分類器が分離する能力について、すべての分類器に対するウィルコクソン順位和のp値を報告する(図28Cおよび補足テーブル19(図35))。
既存の分類器の大半はClinVar上で訓練される。ClinVar上で直接訓練しない分類器も、ClinVar上で訓練される分類器からの予測スコアを使用することによって影響を受けることがある。加えて、一般的なヒトバリアントは良性のClinVarの結果に対して高度にエンリッチされ、それは、アレル頻度が、良性の結果をバリアントに割り当てるための基準の一部であるからである。
機械学習アルゴリズムが問題を解く手段を理解するのは難しいことが多い。バリアントの病原性を予測するために深層学習ネットワークが学習して抽出した特徴量を理解するために、深層学習ネットワークの初期層を視覚化した。事前訓練された3状態二次構造予測モデルの最初の3つの層(2つのアップサンプリング層とそれに続く第1の畳み込み層)内での異なるアミノ酸に対する相関係数を計算し、BLOSUM62行列またはGrantham距離と非常に似た特徴量を畳み込み層の重みが学習することを示した。
正規のコーディング領域を定義するために、コーディングDNA配列(CDS)領域(knownCanonical.exonNuc.fa.gz)に対するヒトとの99種の脊椎動物ゲノムの複数アラインメントがUCSCゲノムブラウザからダウンロードされた。ヒトについては、エクソンの座標はBuild hg19のもとにある。エクソンは統合されて遺伝子を形成する。常染色体上の遺伝子およびchrXが保持される。相同ではない遺伝子は除去され、相同な遺伝子のリストはNCBI ftp://ftp.ncbi.nih.gov/pub/HomoloGene/current/homologene.dataからダウンロードされた。複数の遺伝子アノテーションを伴うSNPに対しては、SNPのアノテーションを表すために最長の転写産物が選択される。
世界中の8つの亜集団からの123136人の個人の全エクソンシーケンシングデータを収集した、最近の大規模な研究であるgenome Aggregation Database(gnomAD)から、ヒトエクソン多型データをダウンロードした。そして、フィルタを通過し正規のコーディング領域に該当するバリアントを抽出した。
大型類人猿SNPの有用性を実証するために、シングルトンSNPと一般的なSNP(アレル頻度(AF)>0.1%)の数の比を測定するエンリッチメントスコアを考案した。同義バリアントは、良性でありどのような選択圧力も受けずに一般に中立的に進化することが知られている。有害なミスセンスバリアントは、自然選択によって徐々に排除されるので、そのアレル頻度分布は同義バリアントと比較して稀なバリアントが多い傾向がある。
固定された置換のエンリッチメント分析
種間の置換の稀なバリアントエンリッチメント分析も研究した。UCSCゲノムブラウザ(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/hg19.100way.commonNames.nh)から100種の脊椎動物の種の進化系統樹をダウンロードした。次いで、計算されたペア毎の進化系統的距離を計算し、近縁の種のペア(距離<0.3)を選択した。霊長類の種のペアを得るために、UCSCゲノムブラウザからCDS領域に対するヒトとの19種の哺乳類(16種の霊長類)ゲノムのアラインメント(hg38)をダウンロードした。4つの霊長類のペアが13個の脊椎動物のペアに追加された。以下の表は、一実装形態による、近縁の種の複数のペアの遺伝的距離を示す。
チンパンジー、アカゲザル、マーモセット、ヤギ、ネズミ、およびニワトリを含む6つの種が、種内多型および種間多型の比較を実行するために選択され、それは、これらの種については種内バリアントと種間バリアントの両方が利用可能であったからである。種内バリアントおよび種間バリアントのエンリッチメントスコアの比較は、2つの2×2の分割表のオッズ比の比較に類似している。通常は、分割表間のオッズ比の相同性を評価するために、Woolf検定が適用される。したがって、Woolf検定を利用して、種内多型と種間多型との間のエンリッチメントスコアの差を評価した。
図64は、遺伝子毎のエンリッチメント分析の一実装形態を示す。一実装形態では、深層畳み込みニューラルネットワークベースのバリアント病原性分類器はさらに、病原性であると決定されたバリアントの病原性を確認する遺伝子毎のエンリッチメント分析を実施するように構成される。遺伝的疾患を持つ個人のコホートからサンプリングされた特定の遺伝子に対して、遺伝子毎のエンリッチメント分析は、病原性である特定の遺伝子におけるバリアント候補を特定するために深層畳み込みニューラルネットワークベースのバリアント病原性分類器を適用することと、バリアント候補の観察されるトリヌクレオチド変異率を合計してその合計を送信カウントおよびコホートのサイズと乗じることに基づいて特定の遺伝子に対する変異の基準数を決定することと、病原性である特定の遺伝子の中のde novoミスセンスバリアントを特定するために深層畳み込みニューラルネットワークベースのバリアント病原性分類器を適用することと、変異の基準数をde novoミスセンスバリアントのカウントと比較することとを含む。比較の出力に基づいて、遺伝子毎のエンリッチメント分析は、特定の遺伝子が遺伝子障害と関連付けられることと、de novoミスセンスバリアントが病原性であることとを確認する。いくつかの実装形態では、遺伝子障害は自閉スペクトラム障害(ASDと省略される)である。他の実装形態では、遺伝的障害は発達遅延障害(DDDと省略される)である。
図65は、ゲノムワイドエンリッチメント分析の一実装形態を示す。別の実装形態では、深層畳み込みニューラルネットワークベースのバリアント病原性分類器はさらに、病原性と決定されたバリアントの病原性を確認するゲノムワイドエンリッチメント分析を実施するように構成される。ゲノムワイドエンリッチメント分析は、健康な個人のコホートからサンプリングされた複数の遺伝子において病原性であるde novoミスセンスバリアントの第1のセットを特定するために深層畳み込みニューラルネットワークベースのバリアント病原性分類器を適用することと、遺伝子障害を持つ個人のコホートからサンプリングされる複数の遺伝子において病原性であるde novoミスセンスバリアントの第2のセットを特定するために深層畳み込みニューラルネットワークベースのバリアント病原性分類器を適用することと、第1のセットおよび第2のセットのそれぞれのカウントを比較することと、比較の出力に基づいて、de novoミスセンスバリアントの第2のセットが遺伝的障害を持つ個人のコホートにおいてエンリッチされ、したがって病原性であることを確認することとを含む。いくつかの実装形態では、遺伝的疾患は自閉スペクトラム障害(ASDと省略される)である。他の実装形態では、遺伝的障害は発達遅延障害(DDDと省略される)である。
バリアント病原性分類器を構築するためのシステム、方法、および製造物品を説明する。実装形態の1つまたは複数の特徴は基本の実装形態と組み合わされ得る。相互に排他的ではない実装形態は合成可能であると教示される。実装形態の1つまたは複数の特徴は他の実装形態と合成され得る。本開示は定期的にこれらの選択肢をユーザに思い起こさせる。これらの選択肢を繰り返し述べる記載がいくつかの実装形態において省略されていることは、先行するセクションにおいて教示された合成を限定するものと解釈されるべきではなく、これらの記載は以後の実装形態の各々へと前方に参照によって組み込まれる。
図66は、開示される技術を実装するために使用され得るコンピュータシステムの簡略化されたブロック図である。コンピュータシステムは通常、バスサブシステムを介していくつかの周辺デバイスと通信する少なくとも1つのプロセッサを含む。これらの周辺デバイスは、たとえば、メモリデバイスおよびファイルストレージサブシステム、ユーザインターフェース入力デバイス、ユーザインターフェース出力デバイス、ならびにネットワークインターフェースサブシステムを含む、ストレージサブシステムを含み得る。入力デバイスおよび出力デバイスはコンピュータシステムとのユーザの対話を可能にする。ネットワークインターフェースサブシステムは、他のコンピュータシステムにおける対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
Claims (20)
- 深層畳み込みニューラルネットワークベース分類器を訓練するための大規模な訓練データを生成するニューラルネットワーク実装方法であって、
良性バリアントの訓練セットと予測されるエリート病原性バリアントの訓練セットとを使用して、メモリに結合された多数のプロセッサ上で実行される前記深層畳み込みニューラルネットワークベース分類器を訓練するステップであって、前記予測されるエリート病原性バリアントの訓練セットは、組合せで生成されたバリアントの合成セットからカリングされ、前記深層畳み込みニューラルネットワークベース分類器は、前記深層畳み込みニューラルネットワークベース分類器の出力を対応するグラウンドトゥルースラベルと漸進的に照合する逆伝播ベースの勾配更新技法を使用して訓練される、ステップと、
サイクルの中で反復的に前記エリートセットを構築するステップであって、予測されるバリアントがない状態から始めて、前記合成セットから異常値バリアントをカリングすることによって予測されるバリアントの完全なセットを累積し、前記合成セットは、前記良性セットに存在しない、組合せで生成されるバリアントである疑似病原性バリアントを備え、前記異常値バリアントが前記エリートセットへの包含のために前記合成セットから反復的にカリングされるにつれて、セットのメンバー数が減少する、ステップと、
サイクルにおいて反復的に、前記合成セットから前記異常値バリアントをカリングするために、深層畳み込みニューラルネットワークベース分類器のアンサンブルを訓練するとともに適用するステップであって、
良性バリアントの一般訓練セット、予測されるエリート病原性バリアントの一般訓練セット、および前記合成セットから非復元抽出された疑似病原性バリアントの別個の訓練セットを使用して、アンサンブルを訓練することと、
現在のサイクルにおいて前記アンサンブルを訓練するために使用されなかった前記合成セットからの少なくともいくつかのバリアントをスコアリングするために、前記訓練されたアンサンブルを適用し、
前記スコアリングされたバリアントから、前記一般エリートセットにおいて累積すべき現在のサイクルの異常値バリアントを選択するために前記スコアを使用する
ことによって、前記合成セットから前記異常値バリアントをカリングして、カリングされた異常値バリアントを前記一般エリートセットにおいて累積するように、前記訓練されたアンサンブルを適用することと、
を含むステップと、
前記訓練によって導かれた分類器パラメータ、複数の前記サイクルにわたって完成されるとともに前記一般良性セットの所定の範囲内にある一般エリートセットと、前記深層畳み込みニューラルネットワークベース分類器を訓練するための前記一般良性セットとを、メモリに記憶するステップと、
を具備することを特徴とするニューラルネットワーク実装方法。 - 前記アンサンブルは4から16個の深層畳み込みニューラルネットワークベースの分類器を含むことを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- 前記アンサンブルは8個の深層畳み込みニューラルネットワークベースの分類器を含むことを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- 前記サイクルの間のエポックにおいて深層畳み込みニューラルネットワークベースの分類器の前記アンサンブルを訓練するステップであって、検証サンプルに対する予測が良性予測と病原性予測の別々の確率分布クラスタを形成するとき、特定のサイクルに対する前記訓練を終了する、ステップをさらに含むことを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- スコアを使用して、深層畳み込みニューラルネットワークベースの分類器の前記アンサンブルからのスコアを合計することによって、前記現在のサイクルの異常値バリアントを選択するステップをさらに含むことを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- スコアを使用して、深層畳み込みニューラルネットワークベースの分類器の前記アンサンブルによってスコアリングされる各バリアントの最大平均値をとることによって、前記現在のサイクルの異常値バリアントを選択するステップをさらに含むことを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- 現在のサイクル中に前記合成セットから非復元抽出することは、前記現在のサイクル中に疑似病原性バリアントの互いに素の別々の訓練セットをもたらすことを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- 終了条件に達するまで前記サイクルを続けるステップをさらに含むことを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- 前記終了条件は、サイクルの所定の数であることを特徴とする請求項8に記載のニューラルネットワーク実装方法。
- 前記サイクルの所定の数は、21であることを特徴とする請求項8に記載のニューラルネットワーク実装方法。
- 前記分類器パラメータは、少なくとも畳み込みフィルタ重みおよび学習率であることを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- 前記深層畳み込みニューラルネットワークベース分類器は、残差ブロックの数、スキップ接続の数、および残差接続の数によってパラメータ化されることを特徴とする請求項1に記載のニューラルネットワーク実装方法。
- 各残差ブロックは、少なくとも1つのバッチ正規化層、少なくとも1つの正規化線形ユニット(ReLUと省略される)層、少なくとも1つの膨張畳み込み層、および少なくとも1つの残差接続を備えることを特徴とする請求項12に記載のニューラルネットワーク実装方法。
- 前記深層畳み込みニューラルネットワークベース分類器は、先行する入力の空間次元および特徴量次元を形状変更する次元変更層を備えることを特徴とする請求項13に記載のニューラルネットワーク実装方法。
- 残差ブロックの各グループは、前記残差ブロックの中の畳み込みフィルタの数、前記残差ブロックの畳み込みウィンドウサイズ、および前記残差ブロックの膨張畳み込み率によってパラメータ化されことを特徴とする請求項12に記載のニューラルネットワーク実装方法。
- 畳み込みウィンドウの前記サイズは残差ブロックのグループ間で変動し、
前記膨張畳み込み率は残差ブロックのグループ間で変動する
ことを特徴とする請求項15に記載のニューラルネットワーク実装方法。 - 膨張畳み込みは、隣接するベースが処理される際に再利用するために、部分的な畳み込み計算結果を保存することを特徴とする請求項16に記載のニューラルネットワーク実装方法。
- 前記膨張畳み込み率は、より低い残差ブロックグループからより高い残差ブロックグループへと非指数関数的に進行することを特徴とする請求項17に記載のニューラルネットワーク実装方法。
- 深層畳み込みニューラルネットワークベース分類器を訓練するための大規模な訓練データを生成するためのコンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令は、プロセッサで実行されたときに、
良性バリアントの訓練セットと予測されるエリート病原性バリアントの訓練セットとを使用して、メモリに結合された多数のプロセッサ上で実行される前記深層畳み込みニューラルネットワークベース分類器を訓練するステップであって、前記予測されるエリート病原性バリアントの訓練セットは、組合せで生成されたバリアントの合成セットからカリングされ、前記深層畳み込みニューラルネットワークベース分類器は、前記深層畳み込みニューラルネットワークベース分類器の出力を対応するグラウンドトゥルースラベルと漸進的に照合する逆伝播ベースの勾配更新技法を使用して訓練される、ステップと、
サイクルの中で反復的に前記エリートセットを構築するステップであって、予測されるバリアントがない状態から始めて、前記合成セットから異常値バリアントをカリングすることによって予測されるバリアントの完全なセットを累積し、前記合成セットは、前記良性セットに存在しない、組合せで生成されるバリアントである疑似病原性バリアントを備え、前記異常値バリアントが前記エリートセットへの包含のために前記合成セットから反復的にカリングされるにつれて、セットのメンバー数が減少する、ステップと、
サイクルにおいて反復的に、前記合成セットから前記異常値バリアントをカリングするために、深層畳み込みニューラルネットワークベース分類器のアンサンブルを訓練するとともに適用するステップであって、
良性バリアントの一般訓練セット、予測されるエリート病原性バリアントの一般訓練セット、および前記合成セットから非復元抽出された疑似病原性バリアントの別個の訓練セットを使用して、アンサンブルを訓練することと、
現在のサイクルにおいて前記アンサンブルを訓練するために使用されなかった前記合成セットからの少なくともいくつかのバリアントをスコアリングするために、前記訓練されたアンサンブルを適用し、
前記スコアリングされたバリアントから、前記一般エリートセットにおいて累積すべき現在のサイクルの異常値バリアントを選択するために前記スコアを使用する
ことによって、前記合成セットから前記異常値バリアントをカリングして、カリングされた異常値バリアントを前記一般エリートセットにおいて累積するように、前記訓練されたアンサンブルを適用することと、
を含むステップと、
前記訓練によって導かれた分類器パラメータ、複数の前記サイクルにわたって完成されるとともに前記一般良性セットの所定の範囲内にある一般エリートセットと、前記深層畳み込みニューラルネットワークベース分類器を訓練するための前記一般良性セットとを、メモリに記憶するステップと、
を含む方法を実施する、非一時的コンピュータ可読記憶媒体。 - 深層畳み込みニューラルネットワークベース分類器を訓練するための大規模な訓練データを生成するためのコンピュータ命令がロードされたメモリに結合された1つまたは複数のプロセッサを含むシステムであって、前記コンピュータプログラム命令は、前記プロセッサで実行されたときに、
良性バリアントの訓練セットと予測されるエリート病原性バリアントの訓練セットとを使用して、メモリに結合された多数のプロセッサ上で実行される前記深層畳み込みニューラルネットワークベース分類器を訓練するステップであって、前記予測されるエリート病原性バリアントの訓練セットは、組合せで生成されたバリアントの合成セットからカリングされ、前記深層畳み込みニューラルネットワークベース分類器は、前記深層畳み込みニューラルネットワークベース分類器の出力を対応するグラウンドトゥルースラベルと漸進的に照合する逆伝播ベースの勾配更新技法を使用して訓練される、ステップと、
サイクルの中で反復的に前記エリートセットを構築するステップであって、予測されるバリアントがない状態から始めて、前記合成セットから異常値バリアントをカリングすることによって予測されるバリアントの完全なセットを累積し、前記合成セットは、前記良性セットに存在しない、組合せで生成されるバリアントである疑似病原性バリアントを備え、前記異常値バリアントが前記エリートセットへの包含のために前記合成セットから反復的にカリングされるにつれて、セットのメンバー数が減少する、ステップと、
サイクルにおいて反復的に、前記合成セットから前記異常値バリアントをカリングするために、深層畳み込みニューラルネットワークベース分類器のアンサンブルを訓練するとともに適用するステップであって、
良性バリアントの一般訓練セット、予測されるエリート病原性バリアントの一般訓練セット、および前記合成セットから非復元抽出された疑似病原性バリアントの別個の訓練セットを使用して、アンサンブルを訓練することと、
現在のサイクルにおいて前記アンサンブルを訓練するために使用されなかった前記合成セットからの少なくともいくつかのバリアントをスコアリングするために、前記訓練されたアンサンブルを適用し、
前記スコアリングされたバリアントから、前記一般エリートセットにおいて累積すべき現在のサイクルの異常値バリアントを選択するために前記スコアを使用する
ことによって、前記合成セットから前記異常値バリアントをカリングして、カリングされた異常値バリアントを前記一般エリートセットにおいて累積するように、前記訓練されたアンサンブルを適用することと、
を含むステップと、
前記訓練によって導かれた分類器パラメータ、複数の前記サイクルにわたって完成されるとともに前記一般良性セットの所定の範囲内にある一般エリートセットと、前記深層畳み込みニューラルネットワークベース分類器を訓練するための前記一般良性セットとを、メモリに記憶するステップと、
を具備する動作を実施するシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023148337A JP2023175792A (ja) | 2017-10-16 | 2023-09-13 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
Applications Claiming Priority (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762573144P | 2017-10-16 | 2017-10-16 | |
US201762573153P | 2017-10-16 | 2017-10-16 | |
US201762573149P | 2017-10-16 | 2017-10-16 | |
US62/573,153 | 2017-10-16 | ||
US62/573,144 | 2017-10-16 | ||
US62/573,149 | 2017-10-16 | ||
US201762582898P | 2017-11-07 | 2017-11-07 | |
US62/582,898 | 2017-11-07 | ||
PCT/US2018/055881 WO2019079182A1 (en) | 2017-10-16 | 2018-10-15 | SEMI-SUPERVISED APPRENTICESHIP FOR THE LEARNING OF A SET OF NEURONAL NETWORKS WITH DEEP CONVOLUTION |
JP2019567720A JP6961725B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567720A Division JP6961725B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023148337A Division JP2023175792A (ja) | 2017-10-16 | 2023-09-13 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022020657A JP2022020657A (ja) | 2022-02-01 |
JP7350818B2 true JP7350818B2 (ja) | 2023-09-26 |
Family
ID=64051830
Family Applications (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567719A Active JP6834029B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 |
JP2019567720A Active JP6961725B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
JP2019567721A Active JP6961726B2 (ja) | 2017-10-16 | 2018-10-15 | バリアントの分類のための深層畳み込みニューラルネットワーク |
JP2021015693A Active JP7089078B2 (ja) | 2017-10-16 | 2021-02-03 | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 |
JP2021167361A Active JP7350818B2 (ja) | 2017-10-16 | 2021-10-12 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
JP2021168034A Active JP7275228B2 (ja) | 2017-10-16 | 2021-10-13 | バリアントの分類のための深層畳み込みニューラルネットワーク |
JP2023148337A Pending JP2023175792A (ja) | 2017-10-16 | 2023-09-13 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
Family Applications Before (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567719A Active JP6834029B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 |
JP2019567720A Active JP6961725B2 (ja) | 2017-10-16 | 2018-10-15 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
JP2019567721A Active JP6961726B2 (ja) | 2017-10-16 | 2018-10-15 | バリアントの分類のための深層畳み込みニューラルネットワーク |
JP2021015693A Active JP7089078B2 (ja) | 2017-10-16 | 2021-02-03 | 深層畳み込みニューラルネットワークを訓練するための深層学習ベースの技法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021168034A Active JP7275228B2 (ja) | 2017-10-16 | 2021-10-13 | バリアントの分類のための深層畳み込みニューラルネットワーク |
JP2023148337A Pending JP2023175792A (ja) | 2017-10-16 | 2023-09-13 | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 |
Country Status (14)
Country | Link |
---|---|
US (6) | US10423861B2 (ja) |
EP (5) | EP3622520A1 (ja) |
JP (7) | JP6834029B2 (ja) |
KR (7) | KR102362711B1 (ja) |
CN (4) | CN110870019A (ja) |
AU (6) | AU2018352203B2 (ja) |
BR (1) | BR112019027480B1 (ja) |
CA (1) | CA3066775A1 (ja) |
IL (4) | IL299565B1 (ja) |
MX (1) | MX2019014690A (ja) |
MY (1) | MY182749A (ja) |
NZ (3) | NZ759804A (ja) |
SG (3) | SG10202108020VA (ja) |
WO (3) | WO2019079166A1 (ja) |
Families Citing this family (257)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10521902B2 (en) * | 2015-10-14 | 2019-12-31 | The Regents Of The University Of California | Automated segmentation of organ chambers using deep learning methods from medical imaging |
US10547971B2 (en) * | 2015-11-04 | 2020-01-28 | xAd, Inc. | Systems and methods for creating and using geo-blocks for location-based information service |
US10455363B2 (en) * | 2015-11-04 | 2019-10-22 | xAd, Inc. | Systems and methods for using geo-blocks and geo-fences to discover lookalike mobile devices |
US10970819B2 (en) * | 2017-05-26 | 2021-04-06 | Rakuten, Inc. | Image processing device, image processing method, and image processing program |
US10699453B2 (en) | 2017-08-17 | 2020-06-30 | Adobe Inc. | Digital media environment for style-aware patching in a digital image |
AU2018352203B2 (en) | 2017-10-16 | 2021-09-30 | Illumina, Inc. | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
WO2019079202A1 (en) | 2017-10-16 | 2019-04-25 | Illumina, Inc. | ABERRANT CONNECTION DETECTION USING CONVOLUTION NEURAL NETWORKS (CNN) |
US10672164B2 (en) | 2017-10-16 | 2020-06-02 | Adobe Inc. | Predicting patch displacement maps using a neural network |
US10614557B2 (en) | 2017-10-16 | 2020-04-07 | Adobe Inc. | Digital image completion using deep learning |
US11861491B2 (en) | 2017-10-16 | 2024-01-02 | Illumina, Inc. | Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs) |
US10824907B2 (en) | 2017-12-07 | 2020-11-03 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for image processing |
US11475305B2 (en) * | 2017-12-08 | 2022-10-18 | Advanced Micro Devices, Inc. | Activation function functional block for electronic devices |
JP6854248B2 (ja) * | 2018-01-18 | 2021-04-07 | 株式会社日立製作所 | 境界探索テスト支援装置および境界探索テスト支援方法 |
US10755391B2 (en) | 2018-05-15 | 2020-08-25 | Adobe Inc. | Digital image completion by learning generation and patch matching jointly |
US20190392287A1 (en) | 2018-06-22 | 2019-12-26 | Samsung Electronics Co., Ltd. | Neural processor |
WO2020003345A1 (ja) * | 2018-06-25 | 2020-01-02 | オリンパス株式会社 | 演算処理装置 |
WO2020009912A1 (en) * | 2018-07-05 | 2020-01-09 | D5Ai Llc | Forward propagation of secondary objective for deep learning |
US10349208B1 (en) | 2018-08-17 | 2019-07-09 | xAd, Inc. | Systems and methods for real-time prediction of mobile device locations |
US11172324B2 (en) | 2018-08-17 | 2021-11-09 | xAd, Inc. | Systems and methods for predicting targeted location events |
US11134359B2 (en) | 2018-08-17 | 2021-09-28 | xAd, Inc. | Systems and methods for calibrated location prediction |
US11146911B2 (en) | 2018-08-17 | 2021-10-12 | xAd, Inc. | Systems and methods for pacing information campaigns based on predicted and observed location events |
US11025907B2 (en) * | 2019-02-28 | 2021-06-01 | Google Llc | Receptive-field-conforming convolution models for video coding |
WO2020086176A1 (en) * | 2018-10-23 | 2020-04-30 | Hrl Laboratories, Llc | Artificial neural network and method of training an artificial neural network with epigenetic neurogenesis |
US11531902B2 (en) | 2018-11-13 | 2022-12-20 | International Business Machines Corporation | Generating and managing deep tensor neural networks |
US11341369B2 (en) * | 2018-11-15 | 2022-05-24 | Nvidia Corporation | Distributed batch normalization using partial populations |
US10657447B1 (en) * | 2018-11-29 | 2020-05-19 | SparkCognition, Inc. | Automated model building search space reduction |
US11515995B2 (en) * | 2018-12-13 | 2022-11-29 | Cryptography Research, Inc. | Efficient computation of univariate statistical moments for side channel vulnerability evaluation |
US11005995B2 (en) * | 2018-12-13 | 2021-05-11 | Nice Ltd. | System and method for performing agent behavioral analytics |
US11461653B2 (en) | 2019-01-23 | 2022-10-04 | StradVision, Inc. | Learning method and learning device for CNN using 1xK or Kx1 convolution to be used for hardware optimization, and testing method and testing device using the same |
US10402695B1 (en) * | 2019-01-23 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same |
US10387754B1 (en) * | 2019-01-23 | 2019-08-20 | StradVision, Inc. | Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same |
US20200242736A1 (en) * | 2019-01-29 | 2020-07-30 | Nvidia Corporation | Method for few-shot unsupervised image-to-image translation |
US11651192B2 (en) * | 2019-02-12 | 2023-05-16 | Apple Inc. | Compressed convolutional neural network models |
US20200265270A1 (en) * | 2019-02-20 | 2020-08-20 | Caseware International Inc. | Mutual neighbors |
US11354719B2 (en) | 2019-02-27 | 2022-06-07 | Walmart Apollo, Llc | Systems and methods for determining substitutions |
US11443832B2 (en) * | 2019-03-07 | 2022-09-13 | Nvidia Corporation | Genetic mutation detection using deep learning |
WO2020205296A1 (en) * | 2019-03-21 | 2020-10-08 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US11676685B2 (en) | 2019-03-21 | 2023-06-13 | Illumina, Inc. | Artificial intelligence-based quality scoring |
NL2023310B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Training data generation for artificial intelligence-based sequencing |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
NL2023312B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based base calling |
NL2023311B9 (en) * | 2019-03-21 | 2021-03-12 | Illumina Inc | Artificial intelligence-based generation of sequencing metadata |
WO2020210544A1 (en) * | 2019-04-09 | 2020-10-15 | University Of Washington | Systems and methods for providing similarity based retrieval of information stored in dna |
US11671111B2 (en) | 2019-04-17 | 2023-06-06 | Samsung Electronics Co., Ltd. | Hardware channel-parallel data compression/decompression |
US11211944B2 (en) | 2019-04-17 | 2021-12-28 | Samsung Electronics Co., Ltd. | Mixed-precision compression with random access |
AU2020260998A1 (en) * | 2019-04-22 | 2021-11-25 | Orbit Genomics, Inc. | Methods and systems for microsatellite analysis |
US20200342958A1 (en) * | 2019-04-23 | 2020-10-29 | Cedars-Sinai Medical Center | Methods and systems for assessing inflammatory disease with deep learning |
US11531879B1 (en) | 2019-04-25 | 2022-12-20 | Perceive Corporation | Iterative transfer of machine-trained network inputs from validation set to training set |
US11900238B1 (en) * | 2019-04-25 | 2024-02-13 | Perceive Corporation | Removing nodes from machine-trained network based on introduction of probabilistic noise during training |
US11610154B1 (en) | 2019-04-25 | 2023-03-21 | Perceive Corporation | Preventing overfitting of hyperparameters during training of network |
CN110134567B (zh) * | 2019-04-30 | 2023-03-14 | 西北工业大学 | 基于卷积神经网络的微处理器非均匀采样热分布重构方法 |
US11880760B2 (en) | 2019-05-01 | 2024-01-23 | Samsung Electronics Co., Ltd. | Mixed-precision NPU tile with depth-wise convolution |
US11604993B1 (en) * | 2019-05-03 | 2023-03-14 | Zoox, Inc. | Machine-learning model structural pruning |
US11003955B1 (en) * | 2019-05-03 | 2021-05-11 | Zoox, Inc. | Machine-learning model structural merging |
US20200365234A1 (en) * | 2019-05-13 | 2020-11-19 | Nvidia Corporation | Sequence variation detection using deep learning |
US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
CN110119815B (zh) * | 2019-05-21 | 2021-08-13 | 深圳市腾讯网域计算机网络有限公司 | 模型训练方法、装置、存储介质及设备 |
US11869661B2 (en) | 2019-05-22 | 2024-01-09 | Grail, Llc | Systems and methods for determining whether a subject has a cancer condition using transfer learning |
US11922294B2 (en) * | 2019-05-22 | 2024-03-05 | Servicenow Canada Inc. | Neural network execution block using fully connected layers |
CN110263294B (zh) * | 2019-05-23 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 损失函数取值的确定方法、装置和电子设备 |
US10956597B2 (en) | 2019-05-23 | 2021-03-23 | Advanced New Technologies Co., Ltd. | Loss function value determination method and device and electronic equipment |
US11521074B2 (en) * | 2019-05-31 | 2022-12-06 | Carnegie Mellon University | Flexible, lightweight quantized deep neural networks |
CN110288081A (zh) * | 2019-06-03 | 2019-09-27 | 北京信息科技大学 | 一种基于fw机制及lstm的递归网络模型及学习方法 |
EP3748550A1 (en) * | 2019-06-07 | 2020-12-09 | Siemens Healthcare GmbH | Method for learning from data with label noise |
CN110148150B (zh) * | 2019-06-20 | 2021-07-02 | 深圳大学 | 稠密连接非对称层次网络训练方法及心脏运动场估计方法 |
CN110288033B (zh) * | 2019-06-28 | 2023-04-07 | 广西民族大学 | 一种基于卷积神经网络的甘蔗蔗节特征识别与定位方法 |
EP3757895A1 (en) * | 2019-06-28 | 2020-12-30 | Robert Bosch GmbH | Method for estimating a global uncertainty of a neural network |
US11151412B2 (en) * | 2019-07-01 | 2021-10-19 | Everseen Limited | Systems and methods for determining actions performed by objects within images |
CN110414670B (zh) * | 2019-07-03 | 2021-09-28 | 南京信息工程大学 | 一种基于全卷积神经网络的图像拼接篡改定位方法 |
US11862146B2 (en) * | 2019-07-05 | 2024-01-02 | Asapp, Inc. | Multistream acoustic models with dilations |
CN110516703A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 基于人工智能的车辆识别方法、装置及存储介质 |
CN110322009B (zh) * | 2019-07-19 | 2023-04-07 | 南京梅花软件系统股份有限公司 | 基于多层卷积长短时记忆神经网络的图像预测方法 |
US20220254015A1 (en) * | 2019-07-31 | 2022-08-11 | Montefiore Medical Center | Identifying neutrophil extracellular traps in peripheral blood smears |
CN110472542A (zh) * | 2019-08-05 | 2019-11-19 | 深圳北斗通信科技有限公司 | 一种基于深度学习的红外图像行人检测方法及检测系统 |
US11410000B2 (en) * | 2019-08-08 | 2022-08-09 | Beijing Boe Health Technology Co., Ltd. | Computer-implemented method, computer-implemented diagnosis method, apparatus for classifying image, and computer-program product |
US11151695B1 (en) | 2019-08-16 | 2021-10-19 | Perceive Corporation | Video denoising using neural networks with spatial and temporal features |
CN110543849B (zh) * | 2019-08-30 | 2022-10-04 | 北京市商汤科技开发有限公司 | 检测器的配置方法及装置、电子设备和存储介质 |
CN110534160B (zh) * | 2019-09-02 | 2022-09-30 | 河南师范大学 | 一种卷积神经网络预测蛋白质溶解性的方法 |
US20220344060A1 (en) * | 2019-09-04 | 2022-10-27 | The Brigham And Women's Hospital, Inc. | Systems and methods for assessing outcomes of the combination of predictive or descriptive data models |
US20210070334A1 (en) * | 2019-09-05 | 2021-03-11 | Progress Rail Services Corporation | Machine learning based train control |
CN110674926A (zh) * | 2019-09-06 | 2020-01-10 | 华南理工大学 | 一种用于目标重建的嵌套结构的渐进式稠密网络 |
CN110766192B (zh) * | 2019-09-10 | 2022-09-09 | 中国石油大学(北京) | 基于深度学习的钻井井漏预测系统及方法 |
CN111626267B (zh) * | 2019-09-17 | 2022-02-15 | 山东科技大学 | 一种利用空洞卷积的高光谱遥感图像分类方法 |
CN112614483A (zh) * | 2019-09-18 | 2021-04-06 | 珠海格力电器股份有限公司 | 基于残差卷积网络的建模方法、语音识别方法及电子设备 |
CN110717023B (zh) * | 2019-09-18 | 2023-11-07 | 平安科技(深圳)有限公司 | 面试回答文本的分类方法及装置、电子设备、存储介质 |
CN110659725B (zh) * | 2019-09-20 | 2023-03-31 | 字节跳动有限公司 | 神经网络模型的压缩与加速方法、数据处理方法及装置 |
US11640552B2 (en) * | 2019-10-01 | 2023-05-02 | International Business Machines Corporation | Two stage training to obtain a best deep learning model with efficient use of computing resources |
WO2021070739A1 (ja) * | 2019-10-08 | 2021-04-15 | 国立大学法人 東京大学 | 分析装置、分析方法及びプログラム |
US11144790B2 (en) * | 2019-10-11 | 2021-10-12 | Baidu Usa Llc | Deep learning model embodiments and training embodiments for faster training |
US20210109894A1 (en) * | 2019-10-11 | 2021-04-15 | Ikigai Labs Inc. | Automated customized modeling of datasets with intuitive user interfaces |
US11769180B2 (en) * | 2019-10-15 | 2023-09-26 | Orchard Technologies, Inc. | Machine learning systems and methods for determining home value |
US11176320B2 (en) | 2019-10-22 | 2021-11-16 | International Business Machines Corporation | Ascribing ground truth performance to annotation blocks |
US11941511B1 (en) | 2019-11-11 | 2024-03-26 | Perceive Corporation | Storing of intermediate computed values for subsequent use in a machine trained network |
CN110929780B (zh) * | 2019-11-19 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 视频分类模型构建、视频分类的方法、装置、设备及介质 |
CN110928848A (zh) * | 2019-11-21 | 2020-03-27 | 中国科学院深圳先进技术研究院 | 一种文件碎片分类方法及系统 |
US11431688B2 (en) | 2019-12-13 | 2022-08-30 | TripleBlind, Inc. | Systems and methods for providing a modified loss function in federated-split learning |
US11599671B1 (en) | 2019-12-13 | 2023-03-07 | TripleBlind, Inc. | Systems and methods for finding a value in a combined list of private values |
CN110929697B (zh) * | 2019-12-17 | 2021-04-13 | 中国人民解放军海军航空大学 | 一种基于残差结构的神经网络目标识别方法及系统 |
CN111144269B (zh) * | 2019-12-23 | 2023-11-24 | 威海北洋电气集团股份有限公司 | 一种基于深度学习的信号相关行为识别方法及系统 |
CN111130698B (zh) * | 2019-12-26 | 2022-05-31 | 南京中感微电子有限公司 | 无线通信接收窗口预测方法、装置及无线通信设备 |
US10699715B1 (en) * | 2019-12-27 | 2020-06-30 | Alphonso Inc. | Text independent speaker-verification on a media operating system using deep learning on raw waveforms |
KR102113546B1 (ko) * | 2019-12-30 | 2020-06-02 | 한국과학기술정보연구원 | 분석알고리즘개발장치 및 그 동작 방법 |
TWI702536B (zh) | 2019-12-31 | 2020-08-21 | 財團法人工業技術研究院 | 基於適應標註的物件偵測模型的訓練方法及系統 |
CN111209962B (zh) * | 2020-01-06 | 2023-02-03 | 电子科技大学 | 一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法 |
US11887698B2 (en) * | 2020-01-08 | 2024-01-30 | Samsung Electronics Co., Ltd. | Method and electronic device for building comprehensive genome scale metabolic model |
CN111275571B (zh) * | 2020-01-14 | 2020-12-11 | 河海大学 | 考虑微气象与用户模式的居民负荷概率预测深度学习方法 |
CN111274901B (zh) * | 2020-01-15 | 2023-09-01 | 浙江大学 | 一种基于深度门控递归单元的手势深度图像连续检测方法 |
CN111274815B (zh) * | 2020-01-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
US11550911B2 (en) | 2020-01-31 | 2023-01-10 | Palo Alto Networks, Inc. | Multi-representational learning models for static analysis of source code |
US11615184B2 (en) | 2020-01-31 | 2023-03-28 | Palo Alto Networks, Inc. | Building multi-representational learning models for static analysis of source code |
US20210248462A1 (en) * | 2020-02-07 | 2021-08-12 | Nec Laboratories America, Inc. | Interpreting convolutional sequence model by learning local and resolution-controllable prototypes |
CN115968496A (zh) * | 2020-02-13 | 2023-04-14 | 奎斯特诊断投资有限责任公司 | 稀疏数据集中相关信号的提取 |
GB2592076B (en) * | 2020-02-17 | 2022-09-07 | Huawei Tech Co Ltd | Method of training an image classification model |
CN115136244A (zh) | 2020-02-20 | 2022-09-30 | 因美纳有限公司 | 基于人工智能的多对多碱基判读 |
CN111276183B (zh) * | 2020-02-25 | 2023-03-21 | 云南大学 | 一种基于参数估计的张量分解处理海量基因序列的方法 |
US11803779B2 (en) | 2020-02-25 | 2023-10-31 | International Business Machines Corporation | Constructing an ensemble model from randomly selected base learners |
CN111339923A (zh) * | 2020-02-25 | 2020-06-26 | 盛视科技股份有限公司 | 一种车底检查方法和系统 |
CN111312329B (zh) * | 2020-02-25 | 2023-03-24 | 成都信息工程大学 | 基于深度卷积自动编码器的转录因子结合位点预测的方法 |
CN111814983B (zh) * | 2020-03-04 | 2023-05-30 | 中昊芯英(杭州)科技有限公司 | 数据处理方法、装置、芯片以及计算机可读存储介质 |
CN111368923B (zh) * | 2020-03-05 | 2023-12-19 | 上海商汤智能科技有限公司 | 神经网络训练方法及装置、电子设备和存储介质 |
CN111415333B (zh) * | 2020-03-05 | 2023-12-01 | 北京深睿博联科技有限责任公司 | 乳腺x射线影像反对称生成分析模型训练方法和装置 |
CN111370055B (zh) * | 2020-03-05 | 2023-05-23 | 中南大学 | 内含子保留预测模型建立方法及其预测方法 |
US11443168B2 (en) | 2020-03-13 | 2022-09-13 | EMC IP Holding Company LLC | Log analysis system employing long short-term memory recurrent neural net works |
CN111443165B (zh) * | 2020-03-27 | 2021-06-11 | 华中科技大学 | 一种基于气体传感器与深度学习的气味识别方法 |
TWI723823B (zh) * | 2020-03-30 | 2021-04-01 | 聚晶半導體股份有限公司 | 基於神經網路的物件偵測裝置和物件偵測方法 |
CN111613287B (zh) * | 2020-03-31 | 2023-08-04 | 武汉金域医学检验所有限公司 | 基于Glow网络的报告单编码模型生成方法、系统和设备 |
TWI750622B (zh) * | 2020-03-31 | 2021-12-21 | 群光電子股份有限公司 | 深度學習模型訓練系統、深度學習模型訓練方法及非暫態電腦可讀取儲存媒體 |
CN111368941B (zh) * | 2020-04-10 | 2023-09-01 | 浙江大华技术股份有限公司 | 一种图像处理方法、装置以及计算机存储介质 |
KR102472397B1 (ko) * | 2020-04-17 | 2022-11-29 | 인천대학교 산학협력단 | 합성곱 신경망 모델에 포함된 합성곱 필터의 개수 조정을 통해 합성곱 연산의 효율을 향상시키기 위한 컴퓨팅 장치 및 그 동작 방법 |
CN111507990B (zh) * | 2020-04-20 | 2022-02-11 | 南京航空航天大学 | 一种基于深度学习的隧道表面缺陷分割方法 |
CN111541570B (zh) * | 2020-04-22 | 2021-05-07 | 北京交通大学 | 基于多源特征学习的云服务QoS预测方法 |
CN111613204B (zh) * | 2020-04-29 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种快速响应的神经语音合成系统及其方法 |
CN113590275A (zh) * | 2020-04-30 | 2021-11-02 | 伊姆西Ip控股有限责任公司 | 用于处理数据的方法、电子设备和计算机程序产品 |
CN111260040B (zh) * | 2020-05-06 | 2020-11-06 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
CN111755080B (zh) * | 2020-05-06 | 2023-07-28 | 北京化工大学 | 一种基于深度卷积神经网络预测mof对甲烷气体吸附性能的方法 |
US11475304B2 (en) | 2020-05-12 | 2022-10-18 | International Business Machines Corporation | Variational gradient flow |
US11842256B2 (en) | 2020-05-15 | 2023-12-12 | International Business Machines Corporation Armonk | Ensemble training in a distributed marketplace |
CN111612242A (zh) * | 2020-05-15 | 2020-09-01 | 北京天工智造科技有限公司 | 一种基于lstm深度学习模型的电机状态参数预测方法 |
CN111640468B (zh) * | 2020-05-18 | 2021-08-24 | 天士力国际基因网络药物创新中心有限公司 | 一种基于复杂网络筛选疾病相关蛋白的方法 |
CN111578970B (zh) * | 2020-05-21 | 2022-05-03 | 哈尔滨理工大学 | 基于核酸序列比对思想的多对极磁电编码器角度精分方法及装置 |
CN111640425B (zh) * | 2020-05-22 | 2023-08-15 | 北京百度网讯科技有限公司 | 一种模型训练和意图识别方法、装置、设备及存储介质 |
CN111667880A (zh) * | 2020-05-27 | 2020-09-15 | 浙江工业大学 | 一种基于深度残差神经网络的蛋白质残基接触图预测方法 |
GB202008030D0 (en) * | 2020-05-28 | 2020-07-15 | Samsung Electronics Co Ltd | Learning the prediction distribution for semi-supervised learning with normalising flows |
CN111583655B (zh) * | 2020-05-29 | 2021-12-24 | 苏州大学 | 一种车流量检测方法、装置、设备及介质 |
CN113762461A (zh) * | 2020-06-05 | 2021-12-07 | 辉达公司 | 使用可逆增强算子采用有限数据训练神经网络 |
CN111683145B (zh) * | 2020-06-08 | 2023-04-28 | 中国工商银行股份有限公司 | 客户端设备的配置方法、客户端设备、电子设备和介质 |
CN111814309B (zh) * | 2020-06-09 | 2022-09-13 | 重庆大学 | 一种非饱和土边坡稳定鲁棒性可靠度分析方法 |
KR20210156554A (ko) * | 2020-06-18 | 2021-12-27 | 삼성전자주식회사 | 텐서 처리 방법, 가속기 및 이를 포함한 전자 장치 |
CN111723997A (zh) * | 2020-06-23 | 2020-09-29 | 上海电科智能系统股份有限公司 | 一种基于gan的城市重大交通事故数据样本自动生成方法 |
CN111914997B (zh) * | 2020-06-30 | 2024-04-02 | 华为技术有限公司 | 训练神经网络的方法、图像处理方法及装置 |
CN113762301A (zh) * | 2020-07-01 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 信息匹配模型的训练、信息匹配方法和装置 |
KR102460257B1 (ko) * | 2020-07-03 | 2022-10-28 | 주식회사 뷰노 | 진단 결과를 제공하기 위한 방법 및 장치 |
CN113971422A (zh) * | 2020-07-06 | 2022-01-25 | 华为技术有限公司 | 样本数据标注系统、方法以及相关设备 |
CN111967930A (zh) * | 2020-07-10 | 2020-11-20 | 西安工程大学 | 一种基于多网络融合的服装风格识别推荐方法 |
CN112085247A (zh) * | 2020-07-22 | 2020-12-15 | 浙江工业大学 | 一种基于深度学习的蛋白质残基接触预测方法 |
WO2022020487A1 (en) * | 2020-07-23 | 2022-01-27 | Illumina, Inc. | Variant pathogenicity scoring and classification and uses thereof |
US20220028485A1 (en) * | 2020-07-23 | 2022-01-27 | Illumina, Inc. | Variant pathogenicity scoring and classification and uses thereof |
CN111785329B (zh) * | 2020-07-24 | 2024-05-03 | 中国人民解放军国防科技大学 | 基于对抗自动编码器的单细胞rna测序聚类方法 |
US11074412B1 (en) * | 2020-07-25 | 2021-07-27 | Sas Institute Inc. | Machine learning classification system |
US11076824B1 (en) * | 2020-08-07 | 2021-08-03 | Shenzhen Keya Medical Technology Corporation | Method and system for diagnosis of COVID-19 using artificial intelligence |
CN112001482A (zh) * | 2020-08-14 | 2020-11-27 | 佳都新太科技股份有限公司 | 振动预测及模型训练方法、装置、计算机设备和存储介质 |
CN111931058B (zh) * | 2020-08-19 | 2024-01-05 | 中国科学院深圳先进技术研究院 | 一种基于自适应网络深度的序列推荐方法和系统 |
CN111985567B (zh) * | 2020-08-21 | 2022-11-22 | 河北先河环保科技股份有限公司 | 一种基于机器学习的污染源类型自动识别方法 |
CN112163450A (zh) * | 2020-08-24 | 2021-01-01 | 中国海洋大学 | 基于s3d学习算法的高频地波雷达船只目标检测方法 |
CN112069399B (zh) * | 2020-08-25 | 2023-06-02 | 中国人民大学 | 一种基于交互匹配的个性化搜索系统 |
WO2022046041A1 (en) * | 2020-08-26 | 2022-03-03 | Aetherai Ip Holding Llc | Method, system and storage media for training a graphics processing neural network with a patch-based approach |
KR102462403B1 (ko) * | 2020-09-04 | 2022-11-02 | 인하대학교 산학협력단 | 차량 내 can-bus 센서에 대한 희소 학습 기능을 갖춘 경량 운전자 행동 식별 모델 |
CN112164420B (zh) * | 2020-09-07 | 2021-07-20 | 厦门艾德生物医药科技股份有限公司 | 一种基因组瘢痕模型的建立方法 |
TWI828942B (zh) | 2020-09-23 | 2024-01-11 | 中強光電股份有限公司 | 訓練或應用神經網路模型的電子裝置和方法 |
CN112115267B (zh) * | 2020-09-28 | 2023-07-07 | 平安科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
CN112199888B (zh) * | 2020-09-30 | 2021-08-27 | 太原理工大学 | 一种基于深度残差网络的旋转设备故障诊断方法、系统及可读存储介质 |
US20230359861A1 (en) * | 2020-10-02 | 2023-11-09 | Applied Brain Research Inc. | Methods and systems for parallelizing computations in recurrently connected artificial neural networks |
US20220114415A1 (en) * | 2020-10-04 | 2022-04-14 | Aizip, Inc. | Artificial neural network architectures for resource-constrained applications |
US20220115871A1 (en) * | 2020-10-08 | 2022-04-14 | Zhe Yu | Power System Low-Frequency Oscillation Mechanism Identification with CNN and Transfer Learning |
CN114422380B (zh) * | 2020-10-09 | 2023-06-09 | 维沃移动通信有限公司 | 神经网络信息传输方法、装置、通信设备和存储介质 |
CN112215487B (zh) * | 2020-10-10 | 2023-05-23 | 吉林大学 | 一种基于神经网络模型的车辆行驶风险预测方法 |
CN111931123B (zh) * | 2020-10-14 | 2020-12-25 | 南京风兴科技有限公司 | 边界卷积计算方法、装置、硬件加速器及计算机设备 |
WO2022087746A1 (en) * | 2020-10-30 | 2022-05-05 | Element Ai Inc. | Adapting ai models from one domain to another |
WO2022109330A1 (en) * | 2020-11-19 | 2022-05-27 | Mission Bio, Inc. | Cellular clustering analysis in sequencing datasets |
US11809454B2 (en) * | 2020-11-21 | 2023-11-07 | International Business Machines Corporation | Label-based document classification using artificial intelligence |
CN112800756B (zh) * | 2020-11-25 | 2022-05-10 | 重庆邮电大学 | 一种基于prado的实体识别方法 |
CN112529054B (zh) * | 2020-11-27 | 2023-04-07 | 华中师范大学 | 一种多源异构数据的多维度卷积神经网络学习者建模方法 |
CN112364831B (zh) * | 2020-11-30 | 2022-02-25 | 北京智慧荣升科技有限公司 | 人脸识别方法及在线教育系统 |
CN112735473B (zh) * | 2020-11-30 | 2022-07-05 | 长春理工大学 | 基于声音识别无人机的方法及系统 |
CN112562784B (zh) * | 2020-12-14 | 2023-08-15 | 中山大学 | 一种结合多任务学习和自注意力机制的蛋白质功能预测方法 |
CN112541469B (zh) * | 2020-12-22 | 2023-09-08 | 山东师范大学 | 基于自适应分类的人群计数方法及系统 |
CN112597996B (zh) * | 2020-12-28 | 2024-03-29 | 山西云时代研发创新中心有限公司 | 基于任务驱动的自然场景中交通标志显著性检测方法 |
KR102464508B1 (ko) * | 2020-12-31 | 2022-11-09 | 주식회사 메이아이 | 인공 신경망 모델을 경량화하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
CN112329929B (zh) * | 2021-01-04 | 2021-04-13 | 北京智源人工智能研究院 | 基于代理模型的对抗样本生成方法和装置 |
CN112767997B (zh) * | 2021-02-04 | 2023-04-25 | 齐鲁工业大学 | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 |
US11132598B1 (en) | 2021-02-23 | 2021-09-28 | Neuraville, Llc | System and method for humanoid robot control and cognitive self-improvement without programming |
CN112784173B (zh) * | 2021-02-26 | 2022-06-10 | 电子科技大学 | 一种基于自注意力对抗神经网络的推荐系统评分预测方法 |
CN112907095A (zh) * | 2021-03-05 | 2021-06-04 | 国家能源集团谏壁发电厂 | 基于改进bp神经网络的火电机组智能泄漏监测方法 |
CN113159122B (zh) * | 2021-03-16 | 2022-03-15 | 重庆市地理信息和遥感应用中心 | 基于社交媒体图像数据的城市风貌分析方法 |
CN113052239B (zh) * | 2021-03-25 | 2022-08-02 | 山东大学 | 基于梯度方向参数优化的神经网络的图像分类方法及系统 |
CN113160050B (zh) * | 2021-03-25 | 2023-08-25 | 哈尔滨工业大学 | 基于时空神经网络的小目标识别方法及系统 |
US11227207B1 (en) * | 2021-03-29 | 2022-01-18 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—section boundaries |
US11263170B1 (en) | 2021-03-29 | 2022-03-01 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—padding before tiling, location-based tiling, and zeroing-out |
US11250061B1 (en) | 2021-03-29 | 2022-02-15 | SambaNova Systems, Inc. | Lossless tiling in convolution networks—read-modify-write in backward pass |
AU2022259667A1 (en) * | 2021-04-15 | 2023-10-26 | Illumina Cambridge Limited | Efficient voxelization for deep learning |
WO2022221701A1 (en) * | 2021-04-15 | 2022-10-20 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Convolutional neural networks for pavement roughness assessment using calibration-free vehicle dynamics |
US20220336054A1 (en) | 2021-04-15 | 2022-10-20 | Illumina, Inc. | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures |
CA3215462A1 (en) * | 2021-04-15 | 2022-10-20 | Tobias HAMP | Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3d) protein structures |
US20220345717A1 (en) * | 2021-04-16 | 2022-10-27 | Tencent America LLC | Method and apparatus for dynamic learning rates of substitution in neural image compression |
KR102320431B1 (ko) * | 2021-04-16 | 2021-11-08 | 주식회사 휴런 | 의료 영상 기반 종양 검출 및 진단 장치 |
CN117043868A (zh) * | 2021-04-20 | 2023-11-10 | 富士通株式会社 | 信息处理程序、信息处理方法以及信息处理装置 |
CN113128685B (zh) * | 2021-04-25 | 2023-04-07 | 湖南大学 | 基于神经网络的自然选择分类和群体规模变化分析系统 |
CN113194430B (zh) * | 2021-04-28 | 2022-11-01 | 杭州电力设备制造有限公司 | 基于周期传输模型的开关柜传感器网络数据压缩方法 |
EP4334850A1 (en) | 2021-05-07 | 2024-03-13 | HRL Laboratories, LLC | Neuromorphic memory circuit and method of neurogenesis for an artificial neural network |
CN113269675B (zh) * | 2021-05-18 | 2022-05-13 | 东北师范大学 | 基于深度学习模型的时变体数据时间超分辨率可视化方法 |
CN113936739A (zh) * | 2021-05-28 | 2022-01-14 | 四川大学 | 新型冠状病毒样本碱基突变自动评估方法 |
CN113282753A (zh) * | 2021-06-09 | 2021-08-20 | 中国银行股份有限公司 | 标题文本数据分类方法及装置 |
CN113420811B (zh) * | 2021-06-23 | 2023-04-07 | 中国矿业大学(北京) | 一种使用深度学习的煤岩识别方法 |
US11475211B1 (en) | 2021-07-12 | 2022-10-18 | International Business Machines Corporation | Elucidated natural language artifact recombination with contextual awareness |
CN114330468A (zh) * | 2021-07-14 | 2022-04-12 | 广东工业大学 | 一种基于动态规划的分类器筛选方法、系统及计算机设备 |
CN113269210B (zh) * | 2021-07-16 | 2021-09-17 | 四川泓宝润业工程技术有限公司 | 基于图像处理对液位表指针浮动频率进行检测的方法 |
CN113420720B (zh) * | 2021-07-21 | 2024-01-09 | 中通服咨询设计研究院有限公司 | 一种高精度低延时大型室内场馆人群分布计算方法 |
CN113642779A (zh) * | 2021-07-22 | 2021-11-12 | 西安理工大学 | 基于特征融合的ResNet50网络关键设备剩余寿命预测方法 |
CN113554668B (zh) * | 2021-07-27 | 2022-02-22 | 深圳大学 | 一种皮肤镜图像黑色素瘤分割方法、装置及相关组件 |
US11792646B2 (en) | 2021-07-27 | 2023-10-17 | TripleBlind, Inc. | Systems and methods for providing a multi-party computation system for neural networks |
CN113517020A (zh) * | 2021-08-04 | 2021-10-19 | 华中农业大学 | 一种快速准确的动物基因组选配分析方法 |
WO2023014913A1 (en) * | 2021-08-05 | 2023-02-09 | Illumina, Inc. | Deep learning-based use of protein contact maps for variant pathogenicity prediction |
WO2023028135A1 (en) * | 2021-08-24 | 2023-03-02 | Arizona Board Of Regents On Behalf Of Arizona State University | Image recognition utilizing deep learning non-transparent black box models |
CN113611410B (zh) * | 2021-09-08 | 2023-03-24 | 温州医科大学附属第一医院 | 一种脂肪性肝炎风险诊断设备、系统及其残差网络的训练方法 |
CN113764043B (zh) * | 2021-09-10 | 2022-05-20 | 东北林业大学 | 基于位置特异性得分矩阵的囊泡转运蛋白识别方法及识别设备 |
CN113762479A (zh) * | 2021-09-10 | 2021-12-07 | 深圳朴生智能科技有限公司 | 一种神经网络优化方法和装置 |
CN113780450B (zh) * | 2021-09-16 | 2023-07-28 | 郑州云智信安安全技术有限公司 | 基于自编码神经网络的分布式存储方法及系统 |
CN113837260A (zh) * | 2021-09-17 | 2021-12-24 | 北京百度网讯科技有限公司 | 模型训练方法、对象匹配方法、装置及电子设备 |
CN113807517B (zh) * | 2021-09-18 | 2024-02-02 | 成都数联云算科技有限公司 | 剪枝参数搜索方法及剪枝方法、装置、设备、介质 |
CN113806543B (zh) * | 2021-09-22 | 2023-05-30 | 三峡大学 | 一种基于残差跳跃连接的门控循环单元的文本分类方法 |
US20230103750A1 (en) * | 2021-10-06 | 2023-04-06 | Mediatek Inc. | Balancing workload for zero skipping on deep learning accelerator |
WO2023063950A1 (en) * | 2021-10-14 | 2023-04-20 | Hewlett-Packard Development Company, L.P. | Training models for object detection |
WO2023091494A1 (en) * | 2021-11-18 | 2023-05-25 | Innovaccer Inc. | Method and system for refining column mappings using byte level attention based neural model |
EP4202866A1 (en) * | 2021-12-27 | 2023-06-28 | Trifo, Inc. | Autonomous robot with deep learning environment recognition and sensor calibration |
EP4207125A1 (en) | 2021-12-29 | 2023-07-05 | Verisure Sàrl | Remotely monitored premises security monitoring systems |
WO2023129953A2 (en) * | 2021-12-29 | 2023-07-06 | Illumina, Inc. | Variant calling without a target reference genome |
CN114613426B (zh) * | 2022-01-26 | 2023-10-31 | 西北大学 | 一种基于动态多目标优化的系统发育树构建方法 |
WO2023147493A1 (en) * | 2022-01-28 | 2023-08-03 | Illumina, Inc. | Indel pathogenicity determination |
US20230244914A1 (en) * | 2022-02-01 | 2023-08-03 | TripleBlind, Inc. | Systems and methods for training predictive models on sequential data using 1-dimensional convolutional layers in a blind learning approach |
US20230296516A1 (en) | 2022-02-17 | 2023-09-21 | Illumina, Inc. | Ai-driven signal enhancement of sequencing images |
WO2023158809A1 (en) | 2022-02-17 | 2023-08-24 | Illumina, Inc. | Ai-driven enhancement of motion blurred sequencing images |
US11734574B1 (en) * | 2022-03-08 | 2023-08-22 | Booz Allen Hamilton Inc. | Neural Bregman divergences for distance learning |
CN114795114B (zh) * | 2022-03-29 | 2023-05-02 | 电子科技大学 | 一种基于多模态学习的一氧化碳中毒迟发性脑病预测方法 |
CN114998639B (zh) * | 2022-04-19 | 2024-04-26 | 安徽农业大学 | 一种基于深度学习的中药材品类识别方法 |
CN114841280B (zh) * | 2022-05-20 | 2023-02-14 | 北京安智因生物技术有限公司 | 一种复杂疾病的预测分类方法、系统、介质、设备及终端 |
WO2023240183A1 (en) * | 2022-06-08 | 2023-12-14 | Biomed Protection Tx, Llc. | Method and system for assessing an impact of genetic changes on biological properties |
TWI812291B (zh) * | 2022-06-17 | 2023-08-11 | 緯創資通股份有限公司 | 連續學習的機器學習方法及電子裝置 |
WO2024035761A1 (en) * | 2022-08-09 | 2024-02-15 | Board Of Trustees Of Michigan State University | Predicting function from sequence using information decomposition |
CN115032508B (zh) * | 2022-08-12 | 2022-11-01 | 国网山东省电力公司电力科学研究院 | 一种基于目标识别的分布式输电线路故障诊断方法及系统 |
CN115131632B (zh) * | 2022-08-29 | 2022-11-04 | 北京师范大学 | 一种训练样本深度优化的低耗图像检索方法及系统 |
CN115186769B (zh) * | 2022-09-07 | 2022-11-25 | 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) | 一种基于nlp的突变基因分类方法 |
WO2024064675A1 (en) * | 2022-09-20 | 2024-03-28 | Foundation Medicine, Inc. | Methods and systems for determining variant properties using machine learning |
CN115271272B (zh) * | 2022-09-29 | 2022-12-27 | 华东交通大学 | 多阶特征优化与混合型知识蒸馏的点击率预测方法与系统 |
WO2024079204A1 (en) * | 2022-10-11 | 2024-04-18 | Deepmind Technologies Limited | Pathogenicity prediction for protein mutations using amino acid score distributions |
KR102567539B1 (ko) * | 2023-02-09 | 2023-08-16 | 국방과학연구소 | 클러스터링에 기초하여, 신경망 필터를 프루닝하는 방법 및 장치 |
CN116258356B (zh) * | 2023-05-16 | 2023-08-25 | 深圳市万物云科技有限公司 | 基于WaveNet的工单派发方法、装置及相关介质 |
CN116630697B (zh) * | 2023-05-17 | 2024-04-05 | 安徽大学 | 一种基于有偏选择池化的图像分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016209999A1 (en) | 2015-06-22 | 2016-12-29 | Counsyl, Inc. | Methods of predicting pathogenicity of genetic sequence variants |
Family Cites Families (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0450060A1 (en) | 1989-10-26 | 1991-10-09 | Sri International | Dna sequencing |
US5641658A (en) | 1994-08-03 | 1997-06-24 | Mosaic Technologies, Inc. | Method for performing amplification of nucleic acid with two primers bound to a single solid support |
CA2227543C (en) | 1995-07-25 | 2010-10-05 | Horus Therapeutics, Inc. | Computer assisted methods for diagnosing diseases |
DE19528437A1 (de) | 1995-08-02 | 1997-02-06 | Siemens Ag | Verfahren zum Betreiben eines Datenübertragungssystems |
WO1998032680A1 (en) | 1997-01-23 | 1998-07-30 | Baker James D | Load-carrying connecting bar assembly for a conveyor |
JP2001517948A (ja) | 1997-04-01 | 2001-10-09 | グラクソ、グループ、リミテッド | 核酸配列決定法 |
SE9702008D0 (sv) * | 1997-05-28 | 1997-05-28 | Pharmacia Biotech Ab | A method and a system for nucleic acid seouence analysis |
US6060033A (en) | 1998-04-22 | 2000-05-09 | Uop Llc | Process for removing HCl from hydrocarbon streams |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
GB0006153D0 (en) | 2000-03-14 | 2000-05-03 | Inpharmatica Ltd | Database |
US8388530B2 (en) | 2000-05-30 | 2013-03-05 | Vladimir Shusterman | Personalized monitoring and healthcare information management using physiological basis functions |
CN101525660A (zh) | 2000-07-07 | 2009-09-09 | 维西根生物技术公司 | 实时序列测定 |
US7198895B2 (en) | 2000-11-14 | 2007-04-03 | Mohanlal Ramon W | In vitro cell-based methods for biological validation and pharmacological screening of chemical entities and biologicals |
EP1354064A2 (en) | 2000-12-01 | 2003-10-22 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
AR031640A1 (es) | 2000-12-08 | 2003-09-24 | Applied Research Systems | Amplificacion isotermica de acidos nucleicos en un soporte solido |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
US20040002090A1 (en) | 2002-03-05 | 2004-01-01 | Pascal Mayer | Methods for detecting genome-wide sequence variations associated with a phenotype |
EP3363809B1 (en) | 2002-08-23 | 2020-04-08 | Illumina Cambridge Limited | Modified nucleotides for polynucleotide sequencing |
AU2005296200B2 (en) | 2004-09-17 | 2011-07-14 | Pacific Biosciences Of California, Inc. | Apparatus and method for analysis of molecules |
GB0427236D0 (en) | 2004-12-13 | 2005-01-12 | Solexa Ltd | Improved method of nucleotide detection |
CA2596523A1 (en) | 2005-01-31 | 2006-08-10 | Perlegen Sciences, Inc. | Genetic basis of alzheimer's disease and diagnosis and treatment thereof |
WO2006138257A2 (en) | 2005-06-15 | 2006-12-28 | Callida Genomics, Inc. | Single molecule arrays for genetic and chemical analysis |
GB0514910D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Method for sequencing a polynucleotide template |
US7405281B2 (en) | 2005-09-29 | 2008-07-29 | Pacific Biosciences Of California, Inc. | Fluorescent nucleotide analogs and uses therefor |
GB0522310D0 (en) | 2005-11-01 | 2005-12-07 | Solexa Ltd | Methods of preparing libraries of template polynucleotides |
US20080009420A1 (en) | 2006-03-17 | 2008-01-10 | Schroth Gary P | Isothermal methods for creating clonal single molecule arrays |
SG170802A1 (en) | 2006-03-31 | 2011-05-30 | Solexa Inc | Systems and devices for sequence by synthesis analysis |
WO2007148997A1 (en) | 2006-06-22 | 2007-12-27 | Pomorska Akademia Medyczna | Determining a predisposition to cancer by identification of genotype combinations of specific variants of the genes cyp1b1, brca2 and chek2 |
US7754429B2 (en) | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
US8343746B2 (en) | 2006-10-23 | 2013-01-01 | Pacific Biosciences Of California, Inc. | Polymerase enzymes and reagents for enhanced nucleic acid sequencing |
JP4932539B2 (ja) | 2007-03-02 | 2012-05-16 | 日本電信電話株式会社 | 光干渉計の制御回路 |
WO2010019919A1 (en) | 2008-08-14 | 2010-02-18 | University Of Toledo | Multifunctional neural network system and uses thereof for glycemic forecasting |
JP5658671B2 (ja) | 2008-10-02 | 2015-01-28 | コーニンクレッカ フィリップス エヌ ヴェ | 臨床データから得られるシグネチャに対する信頼度を決める方法、及びあるシグネチャを他のシグネチャより優遇するための信頼度の使用 |
CA2763500C (en) | 2009-06-01 | 2019-09-03 | Genetic Technologies Limited | Methods for breast cancer risk assessment |
CA3007805C (en) * | 2010-04-29 | 2019-11-26 | The Regents Of The University Of California | Pathway recognition algorithm using data integration on genomic models (paradigm) |
EP2576838A4 (en) * | 2010-06-04 | 2019-05-15 | Nestec S.A. | METHOD FOR IMPROVING DIAGNOSIS OF INFLAMMATORY ENDURANCE |
JP5773406B2 (ja) | 2010-07-28 | 2015-09-02 | 学校法人明治大学 | Gpiアンカー型タンパク質の判定装置、判定方法及び判定プログラム |
EP2614161B1 (en) | 2010-09-09 | 2020-11-04 | Fabric Genomics, Inc. | Variant annotation, analysis and selection tool |
EP2663656B1 (en) | 2011-01-13 | 2016-08-24 | Decode Genetics EHF | Genetic variants as markers for use in urinary bladder cancer risk assessment |
CN104160391A (zh) | 2011-09-16 | 2014-11-19 | 考利达基因组股份有限公司 | 确定异质样本的基因组中的变异 |
WO2013070634A1 (en) | 2011-11-07 | 2013-05-16 | Ingenuity Systems, Inc. | Methods and systems for identification of causal genomic variants |
KR101888000B1 (ko) | 2012-07-04 | 2018-08-13 | 도쿄엘렉트론가부시키가이샤 | 기판 처리 장치 |
US20140129152A1 (en) | 2012-08-29 | 2014-05-08 | Michael Beer | Methods, Systems and Devices Comprising Support Vector Machine for Regulatory Sequence Features |
CN103679185B (zh) | 2012-08-31 | 2017-06-16 | 富士通株式会社 | 卷积神经网络分类器系统、其训练方法、分类方法和用途 |
US20160004814A1 (en) | 2012-09-05 | 2016-01-07 | University Of Washington Through Its Center For Commercialization | Methods and compositions related to regulation of nucleic acids |
WO2014099979A2 (en) | 2012-12-17 | 2014-06-26 | Virginia Tech Intellectual Properties, Inc. | Methods and compositions for identifying global microsatellite instability and for characterizing informative microsatellite loci |
US20160110498A1 (en) | 2013-03-13 | 2016-04-21 | Illumina, Inc. | Methods and systems for aligning repetitive dna elements |
CN105378104A (zh) * | 2013-03-15 | 2016-03-02 | 威拉赛特公司 | 用于样品分类的方法和组合物 |
ES2791780T3 (es) | 2013-06-19 | 2020-11-05 | Argent Energy Uk Ltd | Proceso y aparato para purificar una mezcla de residuos grasos y productos relacionados incluyendo combustibles |
US20190219599A1 (en) | 2013-07-11 | 2019-07-18 | University Of North Texas Health Science Center At Fort Worth | Blood-based screen for detecting neurological diseases in primary care settings |
ES2875892T3 (es) | 2013-09-20 | 2021-11-11 | Spraying Systems Co | Boquilla de pulverización para craqueo catalítico fluidizado |
GB201319779D0 (en) | 2013-11-08 | 2013-12-25 | Cartagenia N V | Genetic analysis method |
US10424404B2 (en) | 2013-11-13 | 2019-09-24 | Dacadoo Ag | Automated health data acquisition, processing and communication system and method |
AU2015206538A1 (en) * | 2014-01-14 | 2016-07-14 | Fabric Genomics, Inc. | Methods and systems for genome analysis |
JP6618929B2 (ja) | 2014-05-12 | 2019-12-11 | エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft | ウルトラディープシークエンシングにおける希少バリアントコール |
CA2960840A1 (en) | 2014-09-18 | 2016-03-24 | Illumina, Inc. | Methods and systems for analyzing nucleic acid sequencing data |
EP3207369A4 (en) | 2014-10-16 | 2018-06-13 | Counsyl, Inc. | Variant caller |
US20160132637A1 (en) | 2014-11-12 | 2016-05-12 | Case Western Reserve University | Noise model to detect copy number alterations |
US9896970B2 (en) | 2014-11-14 | 2018-02-20 | General Electric Company | Method and system for sealing an annulus |
IL236598A0 (en) | 2015-01-05 | 2015-05-31 | Superfish Ltd | Image similarity as a function of image weighted image descriptors generated from neural networks |
TWI676227B (zh) | 2015-01-23 | 2019-11-01 | 美商應用材料股份有限公司 | 半導體工藝設備 |
US10410118B2 (en) | 2015-03-13 | 2019-09-10 | Deep Genomics Incorporated | System and method for training neural networks |
WO2016172464A1 (en) * | 2015-04-22 | 2016-10-27 | Genepeeks, Inc. | Device, system and method for assessing risk of variant-specific gene dysfunction |
TW202241500A (zh) | 2015-06-09 | 2022-11-01 | 美商博德研究所有限公司 | 用於贅瘤疫苗之調配物及其製備方法 |
US20160364545A1 (en) | 2015-06-15 | 2016-12-15 | Dascena | Expansion And Contraction Around Physiological Time-Series Trajectory For Current And Future Patient Condition Determination |
US10185803B2 (en) | 2015-06-15 | 2019-01-22 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
CA2894317C (en) * | 2015-06-15 | 2023-08-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
US11908588B2 (en) | 2015-08-25 | 2024-02-20 | Nantomics Llc | Systems and methods for genetic analysis of metastases |
KR102592076B1 (ko) | 2015-12-14 | 2023-10-19 | 삼성전자주식회사 | 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치 |
EP4299136A3 (en) * | 2015-12-16 | 2024-02-14 | Gritstone bio, Inc. | Neoantigen identification, manufacture, and use |
WO2017172958A1 (en) * | 2016-03-29 | 2017-10-05 | Regeneron Pharmaceuticals, Inc. | Genetic variant-phenotype analysis system and methods of use |
US10293565B1 (en) | 2016-04-12 | 2019-05-21 | Bao Tran | Systems and methods for mass customization |
US20180107927A1 (en) | 2016-06-15 | 2018-04-19 | Deep Genomics Incorporated | Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes |
JP2019537130A (ja) | 2016-10-19 | 2019-12-19 | ピーチ インテリヘルス プライベート リミティド | 人工知能及び機械学習を使用して連続臓器不全評価(sofa)スコアを予測するシステム及び方法 |
US10824934B2 (en) * | 2017-01-12 | 2020-11-03 | Texas Instruments Incorporated | Methods and apparatus for matrix processing in a convolutional neural network |
CN106951730A (zh) * | 2017-03-21 | 2017-07-14 | 为朔医学数据科技(北京)有限公司 | 一种基因变异致病等级确定方法及装置 |
US10552663B2 (en) | 2017-05-02 | 2020-02-04 | Techcyte, Inc. | Machine learning classification and training for digital microscopy cytology images |
CN111742370A (zh) | 2017-05-12 | 2020-10-02 | 密歇根大学董事会 | 个体和队列药理学表型预测平台 |
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
US10540591B2 (en) | 2017-10-16 | 2020-01-21 | Illumina, Inc. | Deep learning-based techniques for pre-training deep convolutional neural networks |
AU2018352203B2 (en) | 2017-10-16 | 2021-09-30 | Illumina, Inc. | Semi-supervised learning for training an ensemble of deep convolutional neural networks |
JP7245255B2 (ja) | 2017-11-17 | 2023-03-23 | ジーエムディーエックス カンパニー プロプライエタリー リミテッド | がん治療の有効性を予測するためのシステムおよび方法 |
US11328795B2 (en) | 2018-01-04 | 2022-05-10 | TRIALS.AI, Inc. | Intelligent planning, execution, and reporting of clinical trials |
US11288576B2 (en) | 2018-01-05 | 2022-03-29 | Illumina, Inc. | Predicting quality of sequencing results using deep neural networks |
NZ759659A (en) | 2018-01-15 | 2022-07-01 | Illumina Inc | Deep learning-based variant classifier |
WO2019144116A1 (en) | 2018-01-22 | 2019-07-25 | Cancer Commons | Platforms for conducting virtual trials |
US11200489B2 (en) | 2018-01-30 | 2021-12-14 | Imubit Israel Ltd. | Controller training based on historical data |
US20200098465A1 (en) | 2018-09-20 | 2020-03-26 | Medtronic Minimed, Inc. | Bolus recommendation systems and methods using a cost function |
US11302424B2 (en) | 2019-01-24 | 2022-04-12 | International Business Machines Corporation | Predicting clinical trial eligibility based on cohort trends |
US11488702B2 (en) | 2019-07-18 | 2022-11-01 | Physiq, Inc. | System and method for improving cardiovascular health of humans |
-
2018
- 2018-10-15 AU AU2018352203A patent/AU2018352203B2/en active Active
- 2018-10-15 WO PCT/US2018/055840 patent/WO2019079166A1/en unknown
- 2018-10-15 WO PCT/US2018/055881 patent/WO2019079182A1/en active Search and Examination
- 2018-10-15 SG SG10202108020VA patent/SG10202108020VA/en unknown
- 2018-10-15 CN CN201880043830.9A patent/CN110870019A/zh active Pending
- 2018-10-15 IL IL299565A patent/IL299565B1/en unknown
- 2018-10-15 EP EP18796330.1A patent/EP3622520A1/en active Pending
- 2018-10-15 US US16/160,903 patent/US10423861B2/en active Active
- 2018-10-15 JP JP2019567719A patent/JP6834029B2/ja active Active
- 2018-10-15 CN CN201880043817.3A patent/CN110832596B/zh active Active
- 2018-10-15 JP JP2019567720A patent/JP6961725B2/ja active Active
- 2018-10-15 KR KR1020197036422A patent/KR102362711B1/ko active IP Right Grant
- 2018-10-15 BR BR112019027480-4A patent/BR112019027480B1/pt active IP Right Grant
- 2018-10-15 JP JP2019567721A patent/JP6961726B2/ja active Active
- 2018-10-15 SG SG11201912966UA patent/SG11201912966UA/en unknown
- 2018-10-15 US US16/160,968 patent/US11798650B2/en active Active
- 2018-10-15 MY MYPI2019007296A patent/MY182749A/en unknown
- 2018-10-15 KR KR1020237018088A patent/KR20230084319A/ko not_active Application Discontinuation
- 2018-10-15 NZ NZ759804A patent/NZ759804A/en unknown
- 2018-10-15 NZ NZ759813A patent/NZ759813A/en unknown
- 2018-10-15 KR KR1020207037022A patent/KR102539188B1/ko not_active Application Discontinuation
- 2018-10-15 AU AU2018352201A patent/AU2018352201B2/en active Active
- 2018-10-15 NZ NZ759818A patent/NZ759818A/en unknown
- 2018-10-15 CN CN201880043819.2A patent/CN110800062A/zh active Pending
- 2018-10-15 CA CA3066775A patent/CA3066775A1/en active Pending
- 2018-10-15 SG SG11201912740TA patent/SG11201912740TA/en unknown
- 2018-10-15 KR KR1020227004380A patent/KR102416048B1/ko active IP Right Grant
- 2018-10-15 KR KR1020197036423A patent/KR102314219B1/ko active IP Right Grant
- 2018-10-15 WO PCT/US2018/055878 patent/WO2019079180A1/en unknown
- 2018-10-15 EP EP18796339.2A patent/EP3622523B1/en active Active
- 2018-10-15 KR KR1020217032755A patent/KR102433458B1/ko active IP Right Grant
- 2018-10-15 MX MX2019014690A patent/MX2019014690A/es unknown
- 2018-10-15 AU AU2018350891A patent/AU2018350891B9/en active Active
- 2018-10-15 US US16/160,986 patent/US11315016B2/en active Active
- 2018-10-15 KR KR1020197036421A patent/KR102196522B1/ko active IP Right Grant
- 2018-10-15 CN CN202110252738.7A patent/CN113627458A/zh active Pending
- 2018-10-15 EP EP18799923.0A patent/EP3622521A1/en active Pending
-
2019
- 2019-05-09 EP EP23209885.5A patent/EP4296899A3/en active Pending
- 2019-05-09 EP EP19729404.4A patent/EP3659143B1/en active Active
- 2019-05-15 US US16/413,476 patent/US10558915B2/en active Active
- 2019-12-02 IL IL271119A patent/IL271119A/en unknown
- 2019-12-02 IL IL271121A patent/IL271121B/en active IP Right Grant
-
2020
- 2020-01-27 US US16/773,678 patent/US11386324B2/en active Active
-
2021
- 2021-02-03 JP JP2021015693A patent/JP7089078B2/ja active Active
- 2021-05-11 IL IL283107A patent/IL283107B2/en unknown
- 2021-10-12 JP JP2021167361A patent/JP7350818B2/ja active Active
- 2021-10-13 JP JP2021168034A patent/JP7275228B2/ja active Active
- 2021-12-22 AU AU2021290303A patent/AU2021290303B2/en active Active
-
2022
- 2022-03-04 AU AU2022201545A patent/AU2022201545A1/en not_active Withdrawn
- 2022-04-06 US US17/715,001 patent/US20220237457A1/en active Pending
-
2023
- 2023-09-13 JP JP2023148337A patent/JP2023175792A/ja active Pending
- 2023-11-24 AU AU2023270327A patent/AU2023270327A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016209999A1 (en) | 2015-06-22 | 2016-12-29 | Counsyl, Inc. | Methods of predicting pathogenicity of genetic sequence variants |
Non-Patent Citations (1)
Title |
---|
Ana Stanescu et al.,"An empirical study of ensemble-based semi-supervised learning approaches for imbalanced splice site datasets",BMC Systems Biology [online],2015年09月01日,Volume 9, Article number:S1,pp.1-12,[令和3年2月3日検索], インターネット:<URL:https://bmcsystbiol.biomedcentral.com/articles/10.1186/1752-0509-9-S5-S1> |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7350818B2 (ja) | 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習 | |
AU2019272062A1 (en) | Deep learning-based techniques for pre-training deep convolutional neural networks | |
RU2767337C9 (ru) | Способы обучения глубоких сверточных нейронных сетей на основе глубокого обучения | |
NZ788045A (en) | Deep convolutional neural networks for variant classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7350818 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |