JP6980882B2 - ディープラーニングベースのスプライス部位分類 - Google Patents
ディープラーニングベースのスプライス部位分類 Download PDFInfo
- Publication number
- JP6980882B2 JP6980882B2 JP2020163488A JP2020163488A JP6980882B2 JP 6980882 B2 JP6980882 B2 JP 6980882B2 JP 2020163488 A JP2020163488 A JP 2020163488A JP 2020163488 A JP2020163488 A JP 2020163488A JP 6980882 B2 JP6980882 B2 JP 6980882B2
- Authority
- JP
- Japan
- Prior art keywords
- splicing
- nucleotides
- sequence
- convolution
- variant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title description 46
- 125000003729 nucleotide group Chemical group 0.000 claims description 336
- 239000002773 nucleotide Substances 0.000 claims description 332
- 238000000034 method Methods 0.000 claims description 169
- 238000012549 training Methods 0.000 claims description 166
- 238000013527 convolutional neural network Methods 0.000 claims description 125
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 101
- 108020004999 messenger RNA Proteins 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 30
- 239000000470 constituent Substances 0.000 claims description 22
- 238000011144 upstream manufacturing Methods 0.000 claims description 21
- 239000000203 mixture Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims 2
- 239000010410 layer Substances 0.000 description 233
- 230000035772 mutation Effects 0.000 description 186
- 108090000623 proteins and genes Proteins 0.000 description 164
- 239000000523 sample Substances 0.000 description 152
- 239000000370 acceptor Substances 0.000 description 141
- 230000000694 effects Effects 0.000 description 123
- 238000010200 validation analysis Methods 0.000 description 110
- 238000012360 testing method Methods 0.000 description 98
- 238000012163 sequencing technique Methods 0.000 description 85
- 238000003559 RNA-seq method Methods 0.000 description 76
- 108700024394 Exon Proteins 0.000 description 69
- 230000006870 function Effects 0.000 description 65
- 239000012634 fragment Substances 0.000 description 62
- 210000001519 tissue Anatomy 0.000 description 61
- 108700028369 Alleles Proteins 0.000 description 55
- 208000029560 autism spectrum disease Diseases 0.000 description 53
- 210000000349 chromosome Anatomy 0.000 description 47
- 238000011176 pooling Methods 0.000 description 44
- 238000004458 analytical method Methods 0.000 description 43
- 108010047956 Nucleosomes Proteins 0.000 description 41
- 238000013528 artificial neural network Methods 0.000 description 41
- 210000001623 nucleosome Anatomy 0.000 description 41
- 210000004027 cell Anatomy 0.000 description 40
- 238000010606 normalization Methods 0.000 description 39
- 235000018102 proteins Nutrition 0.000 description 39
- 102000004169 proteins and genes Human genes 0.000 description 39
- 230000036961 partial effect Effects 0.000 description 38
- 230000004913 activation Effects 0.000 description 37
- 238000001994 activation Methods 0.000 description 37
- 108091028043 Nucleic acid sequence Proteins 0.000 description 35
- 230000000875 corresponding effect Effects 0.000 description 35
- 238000005516 engineering process Methods 0.000 description 34
- 150000007523 nucleic acids Chemical group 0.000 description 33
- 239000002585 base Substances 0.000 description 31
- 238000004422 calculation algorithm Methods 0.000 description 30
- 210000002569 neuron Anatomy 0.000 description 30
- 230000002411 adverse Effects 0.000 description 28
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 28
- 230000035945 sensitivity Effects 0.000 description 28
- 230000001594 aberrant effect Effects 0.000 description 27
- 238000011156 evaluation Methods 0.000 description 27
- 230000001717 pathogenic effect Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 26
- 108020004707 nucleic acids Proteins 0.000 description 25
- 102000039446 nucleic acids Human genes 0.000 description 25
- 208000026350 Inborn Genetic disease Diseases 0.000 description 24
- 238000001514 detection method Methods 0.000 description 24
- 238000009826 distribution Methods 0.000 description 24
- 238000004519 manufacturing process Methods 0.000 description 24
- 108091092195 Intron Proteins 0.000 description 23
- 230000002547 anomalous effect Effects 0.000 description 23
- 238000003776 cleavage reaction Methods 0.000 description 22
- 230000007017 scission Effects 0.000 description 22
- 208000024556 Mendelian disease Diseases 0.000 description 21
- 239000003795 chemical substances by application Substances 0.000 description 21
- 201000010099 disease Diseases 0.000 description 20
- 239000011159 matrix material Substances 0.000 description 19
- 230000004048 modification Effects 0.000 description 19
- 238000012986 modification Methods 0.000 description 19
- 238000003860 storage Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 230000009466 transformation Effects 0.000 description 18
- 108091007460 Long intergenic noncoding RNA Proteins 0.000 description 17
- 208000037340 Rare genetic disease Diseases 0.000 description 17
- 230000002159 abnormal effect Effects 0.000 description 16
- 239000003153 chemical reaction reagent Substances 0.000 description 16
- 230000008859 change Effects 0.000 description 15
- 230000002068 genetic effect Effects 0.000 description 15
- 239000013598 vector Substances 0.000 description 15
- 108020004414 DNA Proteins 0.000 description 14
- 238000000729 Fisher's exact test Methods 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000012937 correction Methods 0.000 description 14
- 230000037433 frameshift Effects 0.000 description 14
- 230000001419 dependent effect Effects 0.000 description 13
- 238000010201 enrichment analysis Methods 0.000 description 13
- 239000000047 product Substances 0.000 description 13
- 238000006467 substitution reaction Methods 0.000 description 13
- 230000008093 supporting effect Effects 0.000 description 13
- 208000028782 Hereditary disease Diseases 0.000 description 12
- 206010028980 Neoplasm Diseases 0.000 description 11
- 241000995070 Nirvana Species 0.000 description 11
- 230000008901 benefit Effects 0.000 description 11
- 238000013136 deep learning model Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 11
- 230000002759 chromosomal effect Effects 0.000 description 10
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 10
- 230000001965 increasing effect Effects 0.000 description 10
- 230000014759 maintenance of location Effects 0.000 description 10
- 210000001324 spliceosome Anatomy 0.000 description 10
- 230000003321 amplification Effects 0.000 description 9
- 230000001364 causal effect Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 229940024606 amino acid Drugs 0.000 description 8
- 150000001413 amino acids Chemical class 0.000 description 8
- 230000007423 decrease Effects 0.000 description 8
- 208000035475 disorder Diseases 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 230000000670 limiting effect Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 230000000392 somatic effect Effects 0.000 description 8
- 206010003805 Autism Diseases 0.000 description 7
- 208000020706 Autistic disease Diseases 0.000 description 7
- 108091006146 Channels Proteins 0.000 description 7
- 201000006347 Intellectual Disability Diseases 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 7
- 102000054766 genetic haplotypes Human genes 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 7
- 238000013518 transcription Methods 0.000 description 7
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 6
- 241000196324 Embryophyta Species 0.000 description 6
- 208000035977 Rare disease Diseases 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 238000003556 assay Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 6
- 230000000153 supplemental effect Effects 0.000 description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 5
- 108020004485 Nonsense Codon Proteins 0.000 description 5
- 108020005067 RNA Splice Sites Proteins 0.000 description 5
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 description 5
- 210000004369 blood Anatomy 0.000 description 5
- 239000008280 blood Substances 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 5
- 238000006731 degradation reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000003623 enhancer Substances 0.000 description 5
- 210000004602 germ cell Anatomy 0.000 description 5
- 230000037434 nonsense mutation Effects 0.000 description 5
- 230000007918 pathogenicity Effects 0.000 description 5
- 230000000149 penetrating effect Effects 0.000 description 5
- 101150085922 per gene Proteins 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 108010077544 Chromatin Proteins 0.000 description 4
- 208000012239 Developmental disease Diseases 0.000 description 4
- 241000282412 Homo Species 0.000 description 4
- 238000000585 Mann–Whitney U test Methods 0.000 description 4
- 108091023045 Untranslated Region Proteins 0.000 description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- 238000001574 biopsy Methods 0.000 description 4
- 210000003483 chromatin Anatomy 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 230000003631 expected effect Effects 0.000 description 4
- 239000012530 fluid Substances 0.000 description 4
- 208000016361 genetic disease Diseases 0.000 description 4
- 230000007614 genetic variation Effects 0.000 description 4
- 208000037824 growth disorder Diseases 0.000 description 4
- 230000001976 improved effect Effects 0.000 description 4
- 230000001404 mediated effect Effects 0.000 description 4
- 230000035699 permeability Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000010206 sensitivity analysis Methods 0.000 description 4
- 230000036435 stunted growth Effects 0.000 description 4
- 238000007482 whole exome sequencing Methods 0.000 description 4
- 238000012070 whole genome sequencing analysis Methods 0.000 description 4
- PHIYHIOQVWTXII-UHFFFAOYSA-N 3-amino-1-phenylpropan-1-ol Chemical compound NCCC(O)C1=CC=CC=C1 PHIYHIOQVWTXII-UHFFFAOYSA-N 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 3
- 108091093088 Amplicon Proteins 0.000 description 3
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 229960000643 adenine Drugs 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000005094 computer simulation Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000001627 detrimental effect Effects 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 210000003917 human chromosome Anatomy 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000004766 neurogenesis Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 206010069754 Acquired gene mutation Diseases 0.000 description 2
- 101150029409 CFTR gene Proteins 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 2
- 108010079245 Cystic Fibrosis Transmembrane Conductance Regulator Proteins 0.000 description 2
- 102100031780 Endonuclease Human genes 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 108700005081 Overlapping Genes Proteins 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 101150045081 U2surp gene Proteins 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000027455 binding Effects 0.000 description 2
- 238000000876 binomial test Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000002950 fibroblast Anatomy 0.000 description 2
- 230000004034 genetic regulation Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 102000008371 intracellularly ATP-gated chloride channel activity proteins Human genes 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 239000002609 medium Substances 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 210000001082 somatic cell Anatomy 0.000 description 2
- 230000037439 somatic mutation Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 230000026676 system process Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 230000005030 transcription termination Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 102100025339 ATP-dependent DNA helicase DDX11 Human genes 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 206010003445 Ascites Diseases 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 208000031229 Cardiomyopathies Diseases 0.000 description 1
- 238000001353 Chip-sequencing Methods 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 201000006328 Fanconi syndrome Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 102100030771 Ferrochelatase, mitochondrial Human genes 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 102100040094 Glycogen phosphorylase, brain form Human genes 0.000 description 1
- 206010053185 Glycogen storage disease type II Diseases 0.000 description 1
- 101150053603 HMGCR gene Proteins 0.000 description 1
- 101150089429 HMGR gene Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 101000722210 Homo sapiens ATP-dependent DNA helicase DDX11 Proteins 0.000 description 1
- 101000843611 Homo sapiens Ferrochelatase, mitochondrial Proteins 0.000 description 1
- 101000748183 Homo sapiens Glycogen phosphorylase, brain form Proteins 0.000 description 1
- 101000624631 Homo sapiens M-phase inducer phosphatase 2 Proteins 0.000 description 1
- 101000982032 Homo sapiens Myosin-binding protein C, cardiac-type Proteins 0.000 description 1
- 101001062779 Homo sapiens Protein FAM229B Proteins 0.000 description 1
- 101000814246 Homo sapiens tRNA (guanine-N(7)-)-methyltransferase non-catalytic subunit WDR4 Proteins 0.000 description 1
- 108091029795 Intergenic region Proteins 0.000 description 1
- 102100023325 M-phase inducer phosphatase 2 Human genes 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108091092878 Microsatellite Proteins 0.000 description 1
- 235000015429 Mirabilis expansa Nutrition 0.000 description 1
- 244000294411 Mirabilis expansa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 208000021908 Myocardial disease Diseases 0.000 description 1
- 102100026771 Myosin-binding protein C, cardiac-type Human genes 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 208000002151 Pleural effusion Diseases 0.000 description 1
- 238000007251 Prelog reaction Methods 0.000 description 1
- 102100030531 Protein FAM229B Human genes 0.000 description 1
- 102000009572 RNA Polymerase II Human genes 0.000 description 1
- 108010009460 RNA Polymerase II Proteins 0.000 description 1
- 102000044126 RNA-Binding Proteins Human genes 0.000 description 1
- 108700020471 RNA-Binding Proteins Proteins 0.000 description 1
- 230000004570 RNA-binding Effects 0.000 description 1
- 239000012980 RPMI-1640 medium Substances 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 241000238102 Scylla Species 0.000 description 1
- 108091081021 Sense strand Proteins 0.000 description 1
- 101150040974 Set gene Proteins 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 1
- 108700009124 Transcription Initiation Site Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- VJBCNMFKFZIXHC-UHFFFAOYSA-N azanium;2-(4-methyl-5-oxo-4-propan-2-yl-1h-imidazol-2-yl)quinoline-3-carboxylate Chemical compound N.N1C(=O)C(C(C)C)(C)N=C1C1=NC2=CC=CC=C2C=C1C(O)=O VJBCNMFKFZIXHC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 230000007248 cellular mechanism Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000002144 chemical decomposition reaction Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 230000009850 completed effect Effects 0.000 description 1
- 230000002508 compound effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000009615 deamination Effects 0.000 description 1
- 238000006481 deamination reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 150000002009 diols Chemical group 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008482 dysregulation Effects 0.000 description 1
- RDYMFSUJUZBWLH-UHFFFAOYSA-N endosulfan Chemical compound C12COS(=O)OCC2C2(Cl)C(Cl)=C(Cl)C1(Cl)C2(Cl)Cl RDYMFSUJUZBWLH-UHFFFAOYSA-N 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 201000008220 erythropoietic protoporphyria Diseases 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 210000001808 exosome Anatomy 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012091 fetal bovine serum Substances 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 102000054767 gene variant Human genes 0.000 description 1
- 229960002989 glutamic acid Drugs 0.000 description 1
- 201000004502 glycogen storage disease II Diseases 0.000 description 1
- 239000001963 growth medium Substances 0.000 description 1
- 238000012188 high-throughput screening assay Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 235000013536 miso Nutrition 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001123 neurodevelopmental effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- KHIWWQKSHDUIBK-UHFFFAOYSA-N periodic acid Chemical compound OI(=O)(=O)=O KHIWWQKSHDUIBK-UHFFFAOYSA-N 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- RGCLLPNLLBQHPF-HJWRWDBZSA-N phosphamidon Chemical compound CCN(CC)C(=O)C(\Cl)=C(/C)OP(=O)(OC)OC RGCLLPNLLBQHPF-HJWRWDBZSA-N 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 208000037920 primary disease Diseases 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003584 silencer Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008080 stochastic effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000005469 synchrotron radiation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 102100039415 tRNA (guanine-N(7)-)-methyltransferase non-catalytic subunit WDR4 Human genes 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013520 translational research Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Probability & Statistics with Applications (AREA)
- Crystallography & Structural Chemistry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Error Detection And Correction (AREA)
Description
この付記は、本発明者らによる論文に列挙された場合によっては関連のある参考文献の書誌を含む。この論文の主題は、本出願が優先権/利益を主張する米国仮出願に記載されている。これらの参考文献は、要求に応じて代理人によって参照することができ、またはグローバルドシエを介して参照されてもよい。
本出願は、2017年10月16日に出願された、Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou、およびJeremy Francis McRaeによる「Deep Learning-Based Splice Site Classification」という名称の米国仮特許出願第62/573,125号(整理番号ILLM 1001-1/IP-1610-PRV)、2017年10月16日に出願された、Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou、およびJeremy Francis McRaeによる「Deep Learning-Based Aberrant Splicing Detection」という名称の米国仮特許出願第62/573,131号(整理番号ILLM 1001-2/IP-1614-PRV)、2017年10月16日に出願された、Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou、およびJeremy Francis McRaeによる「Aberrant Splicing Detection Using Convolutional Neural Networks (CNNs)」という名称の米国仮特許出願第62/573,135号(整理番号ILLM 1001-3/IP-1615-PRV)、ならびに2018年8月31日に出願された、Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou、およびJeremy Francis McRaeによる「Predicting Splicing from Primary Sequence with Deep Learning」という名称の米国仮特許出願第62/726,158号(整理番号ILLM 1001-10/IP-1749-PRV)の優先権または利益を主張する。仮出願は、すべての目的に関して参照により本明細書に組み込まれる。
以下の文献は、あたかも全体が本明細書に記載されているかのように、すべての目的に関して参照により組み込まれている。
ASCIIテキストフォーマットの3つのテーブルファイルが本出願とともに提出されており、参照によって組み込まれている。ファイルの名称、作成日、およびサイズは以下の通りである。
機械学習では、入力変数が出力変数を予測するために使用される。入力変数は、特徴と呼ばれることが多く、X=(X1, X2, ..., Xk)によって示され、この場合、各Xi、i∈1、…、kが特徴である。出力変数は、応答変数または従属変数と呼ばれることが多く、変数Yiによって示される。Yと対応するXとの関係は次の一般式で表すことができる。
Y=f(X)+∈
単層パーセプトロン(SLP)は、ニューラルネットワークの最も単純なモデルである。単層パーセプトロンは、図1に示されているように1つの入力層と1つの活性化関数とを備える。入力は、重み付きグラフに通される。関数fは、入力の和を引数として使用し、これを閾値θと比較する。
T. Chingら, Opportunities And Obstacles For Deep Learning In Biology And Medicine, www.biorxiv.org:142760, 2017、
Angermueller C、Parnamaa T、Parts L、Stegle O. Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878、
Park Y、Kellis M. 2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33, 825-826頁. (doi:10.1038/nbt.3313)、
Min, S.、Lee, B.およびYoon, S. Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016)、
Leung MK、Delong A、Alipanahi Bら Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets 2016、ならびに
Libbrecht MW、Noble WS. Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32。
畳み込みニューラルネットワーク
畳み込みニューラルネットワークは、特殊の種類のニューラルネットワークである。密結合層と畳み込み層との間の基本的な違いは以下の通りである。密層はその入力特徴空間においてグローバルパターンを学習するが、畳み込み層は、ローカルパターン、すなわち、画像の場合は、入力の小さい2Dウィンドウに見られるパターンを学習する。この主要特性は、畳み込みニューラルネットワークに2つの興味深い特性、すなわち、(1)畳み込みニューラルネットワークが学習するパターンは翻訳不変であり、(2)畳み込みニューラルネットワークはパターンの空間階層を学習することができる、という特性をもたらす。
図4は、開示された技術の一実装形態による畳み込みニューラルネットワークの訓練のブロック図を示す。畳み込みニューラルネットワークは、入力データが特定の出力推定値になるように調整または訓練される。畳み込みニューラルネットワークは、出力推定値がグラウンドトゥルースに徐々に一致するかまたは近づくまで、出力推定値とグラウンドトゥルースとの比較に基づく逆伝搬法を使用して調整される。
Wnm←Wnm+α(tm-φm)an
と定義される。
δok=(tk-φk)φk(1-φk)
のように計算される。
vmk←vmk+αδokφm
のように更新される。
vnm←wnm+αδhman
のように更新される。
vt+1=μv-α▽wq(zt, wt)
wt+1=wt+vt+1
畳み込みニューラルネットワークの畳み込み層は、特徴抽出器として働く。畳み込み層は、入力データを学習して階層的特徴に分解することのできる適応特徴抽出器として働く。一実装形態では、畳み込み層は、2つの画像を入力としてとり、第3の画像を出力として生成する。そのような実装形態において、畳み込みは、2次元(2D)における2つの画像に作用し、一方の画像は入力画像であり、他方の画像は「カーネル」と呼ばれ、入力画像上のフィルタとして適用され、出力画像を生成する。したがって、長さnの入力ベクトルfおよび長さmのカーネルgの場合、fおよびgの畳み込みf*gは、以下のように定義される。
図5は、開示された技術の一実装形態による非線形層の一実装形態を示す。非線形層は、異なる非線形トリガ関数を使用して各隠れ層上における可能性の高い特徴の明確な識別を示す。非線形層は、様々な特定の関数を使用して、正規化線形ユニット(ReLU)、双曲線正接、双曲線正接の絶対値、シグモイドおよび連続トリガ(非線形)関数を含む、非線形トリガリングを実装する。一実装形態では、ReLU活性化は、関数y=max(x, 0)を実装し、層の入力サイズと出力サイズを同じに維持する。ReLUを使用する利点は、畳み込みニューラルネットワークが何倍も速く訓練されることである。ReLUは、入力値がゼロよりも大きい場合は入力に対して線形であり、それ以外の場合はゼロである非連続非飽和活性化関数である。数学的には、ReLU活性化関数は、以下のように記述される。
φ(h)=(a+bh)c
によって記述される連続非飽和関数である。
図6は、Dilated畳み込みを示す。Dilated畳み込みは、Atrous畳み込みと呼ばれることもあり、文字通り穴を有することを意味する。このフランス語名は、高速2項ウェーブレット変換を計算するalgorithme a trousに由来する。これらの種類の畳み込み層では、フィルタのそれぞれのフィールドに対応する入力は近傍の点ではない。これは、図6に例示されている。入力間の距離は、拡張係数に依存する。
図7は、開示された技術の一実装形態によるサブサンプリング層の一実装形態である。サブサンプリング層は、畳み込み層によって抽出された特徴の解像度を下げ、抽出された特徴または特徴マップをノイズおよび歪みに対してロバストにする。一実装形態では、サブサンプリング層は2種類のプーリング演算、平均プーリングおよび最大プーリングを使用する。プーリング演算は、入力を重なり合わない2次元空間に分割する。平均プーリングの場合、領域における4つの値の平均が計算される。最大プーリングの場合、4つの値の最大値が選択される。
φ0=max(φ1, φ2, …, φN)
によって記述されるような入力内に存在する最大値である。
図8は、畳み込み層の2層畳み込みの一実装形態を示す。図8において、サイズが2048次元の入力が畳み込まれる。畳み込み1において、入力は、サイズ3×3の16個のカーネルの2つのチャネルを備える畳み込み層によって畳み込まれる。次いで、その結果得られた16個の特徴マップは、ReLU1においてReLU活性化関数によって正規化され、次にサイズが3×3のカーネルを伴う16チャネルプーリング層を使用する平均プーリングによってプール1においてプーリングされる。次いで、畳み込み2において、プール1の出力は、サイズが3×3の30個のカーネルの16個のチャネルからなる別の畳み込み層によって畳み込まれる。この後に、さらに別のReLU2およびカーネルサイズが2×2のプール2における平均プーリングが続く。畳み込み層は、様々な個数の、たとえば、ゼロ個、1個、2個、および3個のストライドおよびパディングを使用する。その結果得られる特徴ベクトルは、一実装形態によれば512個の次元を有する。
特徴マップにおけるf個の畳み込みコアについての第lの畳み込み層および第kの特徴マップにおける行x、列yのニューロンの出力は、以下の式によって決定される。
出力層における第kのニューロンの出力偏差は、以下の式によって決定される。
図9は、特徴マップ追加を介して事前情報を下流側に再注入する残差コネクションを示す。残差コネクションは、過去の出力テンソルを後の出力テンソルに付加することによって前の表現をデータの下流に再注入することを含み、このことは、データ処理フローに沿った情報損失を防止する助けになる。残差コネクションは、あらゆる大規模ディープラーニングモデルに生じる2つの一般的な問題、すなわち、勾配消失および表現ボトルネックに対処する。概して、10個よりも多くの層を有する任意のモデルに残差コネクションを付加することは有益である可能性が高い。上述のように、残差コネクションは、前の層の出力を後の層の入力として利用可能にすることを含み、事実上シーケンシャルネットワークにおけるショートカットを形成する。後で活性化するために連結されるのではなく、前の出力が後の活性化に加算されるが、これはどちらの活性化も同じサイズであると仮定する。活性化が異なるサイズを有する場合、前の活性化を目標形状に再整形するための線形変換を使用することができる。
図10は、残差ブロックおよびスキップコネクションの一実装形態を示す。残差学習の主要な考えは、残差マッピングが元のマッピングよりも学習するのがずっと容易であることである。残差ネットワークは、多数の残差ユニットを積み重ねて訓練精度の劣化を軽減する。残差ブロックは、特別な加法スキップコネクションを利用して深層ニューラルネットワークにおける勾配消失に対処する。残差ブロックの開始位置において、データフローは2つの流れに分離され、第1の流れがブロックの未変更入力を保持し、一方、第2の流れは重みおよび非線形性を適用する。ブロックの終了位置において、2つのストリームは要素ごとの和を使用してマージされる。そのような構成の主要な利点は、勾配がネットワーク内を容易に流れるようになることである。
WaveNetは、生オーディオ波形を生成するための深層ニューラルネットワークである。WaveNetは、比較的大きい「視野」を低コストで得ることができるので他の畳み込みニューラルネットワークから区別される。さらに、信号の調節をローカルおよびグローバルに追加することができ、それによってWaveNetを複数の音声を有する音声合成(TTS)エンジンへのテキストとして使用することが可能になり、すなわち、TTSがローカル調節を行い、特定の音声がグローバル調節を行う。
バッチ正規化は、データ標準化をネットワークアーキテクチャの必須部分とすることによって深層ネットワーク訓練を加速するための方法である。バッチ正規化は、訓練中、時間の経過とともに平均および分散が変化するときでもデータを適応的に正規化することができる。バッチ正規化は、訓練中に見られるデータのバッチ式平均および分散の指数移動平均を内部に維持することによって作用する。バッチ正規化の主要な効果は、勾配伝搬を--残差コネクションと同様に--助け、したがって、深層ネットワークを可能にすることである。いくつかの非常に深いネットワークは、複数のバッチ正規化層を含む場合にのみ訓練することができる。
フォワードパスの間、ミニバッチ平均および分散が計算される。これらのミニバッチ統計では、データは、平均を減算し、標準偏差で除算することによって正規化される。最後に、データは、学習されたスケールパラメータおよびシフトパラメータによってスケーリングされシフトされる。バッチ正規化フォワードパスfBNは、図12に示されている。
正規化は、微分可能演算であるので、図14に示すようにバックワードパスが計算できる。
1D畳み込みは、図16に示されているように、配列からローカル1Dパッチまたはサブ配列を抽出する。1D畳み込みは、入力配列内の時間的パッチから各出力時間ステップを取得する。1D畳み込み層は、配列内のローカルパターンを認識する。すべてのパッチに対して同じ入力変換が実行されるので、入力配列内のある位置において学習されたパターンを後で異なる位置において認識することができ、1D畳み込み層翻訳が時間的翻訳に対して不変になる。たとえば、サイズ5の畳み込みウィンドウを使用する塩基の1D畳み込み層処理配列は、長さ5以下の塩基または塩基配列を学習することができるべきであり、入力配列における任意の構成における塩基モチーフを認識することができるべきである。塩基レベル1D畳み込みは、塩基形態に関して学習できる。
図17は、グローバルアベレージプーリング(GAP)がどのように作用するかを示す。直前の層における特徴の空間的平均をとり記録することによって、グローバル平均プーリングを使用して分類のために全結合(FC)層を置き換えることができる。これは訓練負荷を低減し、過剰適合問題をバイパスする。グローバル平均プーリングは、モデルよりも前に構造を適用し、事前に定義された重みによる線形変換と同等である。グローバルアベレージプーリングは、パラメータの数を減らし、全結合層をなくす。全結合層は、典型的には、パラメータおよび結合に最も大きく依存する層であり、グローバルアベレージプーリングは、同様の結果を実現するうえでずっとコストが低い手法を構成する。グローバルアベレージプーリングの主要な考えは、直前の各層の特徴マップから平均値を記録される信頼係数として生成し、直接ソフトマックス層に送り込むことである。
本出願で引用されるすべての文献および同様の題材は、限定はしないが、そのような文献および同様の題材のフォーマットとは無関係に、特許、特許出願、論文、書籍、専門書、およびウェブページを含み、全体が参照により明示的に組み込まれる。組み込まれる文献および同様の題材のうちの1つまたは複数が、限定はしないが定義された用語、用語の使用法、説明された技法などを含む本出願と異なるかまたは本出願と矛盾する場合、本出願が優先される。
本明細書において述べられている実装形態は、配列バリエーションを識別するために核酸配列を解析することに適用可能であるものとしてよい。遺伝子位置/軌跡の潜在的バリアント/対立遺伝子を解析し、遺伝子軌跡の遺伝子型を決定するか、または言い換えると、その軌跡に対する遺伝子型コールを提供するために実装形態が使用され得る。たとえば、核酸配列は、完全な主題が全体として本明細書に参照により明確に組み込まれている、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号において説明されている方法およびシステムに従って解析され得る。
本明細書において開示されている実装形態は、潜在的バリアントコールを識別するためにシーケンシングデータを解析することを含む。バリアントコーリングは、すでに実行されたシーケンシング操作に対する記憶されているデータに基づき実行されてよい。これは、それに加えて、または代替的に、シーケンシング操作が実行されている間にリアルタイムで実行されてよい。サンプルリードの各々は、対応する遺伝子軌跡に割り当てられる。サンプルリードは、サンプルリードのヌクレオチドの配列、または、言い換えると、サンプルリード内のヌクレオチドの順序(たとえば、A、C、G、T)に基づき対応する遺伝子軌跡に割り当てられ得る。この解析結果に基づき、サンプルリードは、特定の遺伝子軌跡の可能なバリアント/対立遺伝子を含むものとして指定され得る。サンプルリードは、遺伝子軌跡の可能なバリアント/対立遺伝子を含むものとして指定されている他のサンプルリードとともに収集され(または集められ、またはビンに入れられ)得る。この割り当て操作は、サンプルリードが特定の遺伝子位置/軌跡に場合によっては関連付けられているものとして識別されているコーリング操作とも呼ばれ得る。サンプルリードは、そのサンプルリードを他のサンプルリードから区別するヌクレオチドの1つまたは複数の識別配列(たとえば、プライマー配列)を特定するために解析され得る。より具体的には、識別配列は、他のサンプルリードからのサンプルリードを特定の遺伝子軌跡に関連付けられているものとして識別し得る。
遺伝的バリエーションは、多くの疾病の説明の助けとなり得る。すべての人間は固有の遺伝子コードを有し、個体のグループ内に多くの遺伝的バリアントがある。悪影響のある遺伝的バリアントのほとんどは、自然選択によってゲノムから枯渇している。どの遺伝的バリエーションが病原性を有するか、または悪影響をもたらす可能性が高いかを識別することは重要である。これは、研究者が病原性を持つ可能性の高い遺伝的バリアントに集中し、多くの疾病の診断および治療のペースを加速するのに役立つ。
ディープラーニングを使用する一次配列からのスプライシングの正確な予測
われわれは、pre-mRNA転写産物のゲノム配列のみを入力として使用して、pre-mRNA転写産物中の各位置がスプライスドナー、スプライスアクセプター、またはそのいずれでもないか(図37A、図21、図22、図23、および図24)を予測するディープレシデュアルニューラルネットワーク(Heら、2016a)を構築した。スプライスドナーおよびスプライスアクセプターは数万個のヌクレオチドによって分離され得るので、われわれは、非常に大きなゲノム距離に及ぶ配列決定因子を認識することができる32個のDilated畳み込み層(YuおよびKoltun、2016年)からなる新規のネットワークアーキテクチャを採用した。エクソン-イントロン境界に隣接する短いヌクレオチドウィンドウのみを考慮するか(YeoおよびBurge、2004年)、または人間工学により設計された特徴(Xingら、2015年)、または表現もしくはスプライス因子結合(Jhaら、2017年)などの実験データに頼っている以前の方法とは対照的に、われわれのニューラルネットワークは、隣接構成配列の10,000個のヌクレオチドを評価してpre-mRNA転写産物中の各位置のスプライス機能を予測することによって一次配列から直接的にスプライシング決定因子を学習する。
われわれは、参照pre-mRNA転写産物配列およびバリアントを含む代替転写産物配列の両方でエクソン-イントロン境界を予測し、スコア間の差(Δスコア)を取ることによって、ディープラーニングネットワークをスプライス変更機能に対する遺伝的バリアントの評価に拡張した。重要なことは、ネットワークが参照転写産物配列およびスプライス接合アノテーション上で訓練されただけであり、訓練中にバリアントデータを決して見ることなく、バリアントの効果の予測をスプライシングの配列決定因子を正確にモデル化するネットワークの能力に関する困難なテストにしたことである。
代替スプライシングは、異なる組織における転写産物の多様性および発生段階を増やすのに使われる遺伝子調節の主要様式であり、その調節不全は、疾病過程に関連付けられる(Blencoweら、2006年、Irimiaら、2014年、Kerenら、2010年、LicatalosiおよびDarnell、2006年、Wangら、2008年)。予想外に、われわれは、潜在的スプライス突然変異によって形成される新規のスプライス接合の相対的使用度は、組織間で実質的に異なり得ることを見いだしている(図39A)。さらに、スプライシングにおける組織特有の相違を引き起こすバリアントは複数の個体において再現性を有し(図39B)、確率論的効果ではなく組織特有の生物学がこれらの相違の基礎にあることを示している。われわれは、弱いおよび中間の予測されたスコア(Δスコア0.35〜0.8)を有する潜在的スプライスバリアントの35%が組織間で生成される正常および異常の転写産物の割合の著しい差を示すことを見いだしている(χ2検定に対してボンフェローニ相関P<0.01、図39C)。これは、高い予測スコア(Δスコア>0.8)を有するバリアントと対照的であり、これは組織特有の効果を生成する可能性は著しく低かった(P=0.015)。われわれの発見は、代替的にスプライスされたエクソンが、それぞれ1または0に近いスコアを有する、構造的にスプライスインまたはスプライスアウトされているエクソンと比較して、中間の予想スコア(図37C)を有する傾向があるという以前の観察結果と整合している。
予測された潜在的スプライスバリアントはRNA-seqにおいて高率でバリデーションを行うけれども、多くの場合において、それらの効果は完全な浸透性を有さず、正常および異常のスプライスイソ型の両方の混合が生成され、これらの潜在的スプライス変更バリアントの割合が機能的に有意であり得ない確率を高める。予測された潜在的スプライスバリアント上の自然選択のシグネチャを調べるために、われわれは、Exome Aggregation Consortium (ExAC)データベース(Lekら、2016年)からの60,706個のヒトエクソーム中に存在している各バリアントにスコアを付け、エクソン-イントロン境界を変更すると予測されたバリアントを識別した。
自閉症スペクトラム障害および重大な知的障害を患っている患者の大規模シーケンシング研究では、神経発達経路内の遺伝子を切断するデノボタンパク質コード突然変異(ミスセンス、ナンセンス、フレームシフト、および本質的スプライスジヌクレオチド)の中心的役割を実証した(Fitzgeraldら、2015年、Iossifovら、2014年、McRaeら、2017年、Nealeら、2012年、De Rubeisら、2014年、Sandersら、2012年)。変更されたスプライシングを通じて作用する非コード突然変異の臨床的影響を評価するために、われわれは、ニューラルネットワークを適用してDeciphering Developmental Disordersコホート(DDD)(McRaeら、2017年)からの知的障害を患っている4,293人の個体、Simons Simplex Collection(De Rubeisら、2014年、Sandersら、2012年、Turnerら、2016年)およびAutism Sequencing Consortiumからの自閉症スペクトラム障害(ASD)を患っている3,953人の個体、ならびにSimons Simplex Collectionからの2,073人の影響を受けていない兄弟姉妹の対照におけるデノボ突然変異の効果を予測した。研究におけるデノボバリアント確認の差を制御するために、われわれは、個体毎の同義突然変異の数がコホート全体にわたって同じになるようにデノボバリアントの予想される数を正規化した。
われわれは、LCL表現の少なくとも最小レベルを有する遺伝子における予測されたデノボ潜在的スプライス突然変異を持っている、Simons Simplex Collectionからの36人の個体から末梢血液由来リンパ芽球様細胞株(LCL)を取得し(De Rubeisら、2014年、Sandersら、2012年)、各個体はその近親内の自閉症の患者のみを代表していた。ほとんどの稀少遺伝病の場合と同様に、関連する組織および細胞型(たぶん発生中の脳)はアクセス可能でなかった。したがって、われわれは、LCLにおけるこれらの転写産物の多くの弱い表現を補償するために高深度mRNAシーケンシング(サンプル毎に〜3億5000万×150bpの単一リード、GTExのカバレッジのおおよそ10倍)を実行した。われわれが、単純に最上位予測ではなく、予測された潜在的スプライスバリアントの代表的セットのバリデーションを行っていることを確実にするために、われわれは、比較的許容性のある閾値(スプライス損失バリアントに対してΔスコア>0.1およびスプライス利得バリアントに対してΔスコア>0.5、STAR法)を適用し、これらの基準を満たすすべてのデノボバリアント上で実験的バリデーションを実行した。
われわれは、ゲノム配列(たとえば、ヌクレオチド配列またはアミノ酸配列)内のスプライス部位を検出するために訓練されたAtrous畳み込みニューラルネットワークを使用することについて製造システム、製造方法、および製造品を説明する。一実装形態の1つまたは複数の特徴がベースの実装形態と組み合わされ得る。相互排他的でない実装形態は、組合せ可能であると教示される。一実装形態の1つまたは複数の特徴が他の実装形態と組み合わされ得る。本開示は、定期的に、これらのオプションについてユーザに通知する。これらのオプションを繰り返す言及のいくつかの実装形態からの省略は、先行する節において教示されている組合せを制限するものとしてみなすべきでなく、これらの言及は、次の実装形態の各々に参照により順に組み込まれる。
図57は、遺伝子当たりエンリッチメント解析の一実装形態を示している。一実装形態において、異常スプライシング検出器は、異常スプライシングを引き起こすと決定されているバリアントの病原性を決定する遺伝子当たりエンリッチメント解析を実装するようにさらに構成される。遺伝性疾患を患っている個体のコホートからサンプリングされた特定の遺伝子について、遺伝子当たりエンリッチメント解析は、訓練済みACNNを適用して異常スプライシングを引き起こす特定の遺伝子における候補バリアントを識別することと、特定の遺伝子に対する突然変異の、ベースラインとなる数を、候補バリアントの観察されたトリヌクレオチド突然変異率を総和し、その和に伝達カウントおよびコホートのサイズを乗算することに基づき決定することと、訓練済みACNNを適用して異常スプライシングを引き起こす特定の遺伝子におけるデノボバリアントを識別することと、突然変異のベースライン数をデノボバリアントのカウントと比較することとを含む。比較の出力に基づき、遺伝子当たりエンリッチメント解析は、特定の遺伝子が遺伝性疾患に関連付けられていること、およびデノボバリアントが病原性を有することを決定する。いくつかの実装形態において、遺伝性疾患は、自閉症スペクトラム障害(略語ASD)である。他の実装形態において、遺伝性疾患は、発育遅滞障害(略語DDD)である。
図58は、ゲノムワイドエンリッチメント解析の一実装形態を示す。別の実装形態において、異常スプライシング検出器は、異常スプライシングを引き起こすと決定されているバリアントの病原性を決定するゲノムワイドエンリッチメント解析を実装するようにさらに構成される。ゲノムワイドエンリッチメント解析は、訓練済みACNNを適用して健康な個体のコホートからサンプリングされた複数の遺伝子内の異常スプライシングを引き起こすデノボバリアントの第1のセットを識別することと、訓練済みACNNを適用して遺伝性疾患を患っている個体のコホートからサンプリングされた複数の遺伝子内の異常スプライシングを引き起こすデノボバリアントの第2のセットを識別することと、第1および第2のセットのそれぞれのカウントを比較し、比較の出力に基づき、デノボバリアントの第2のセットが遺伝性疾患を患っている個体のコホート内でエンリッチされ、したがって病原性を有すると決定することとを含む。いくつかの実装形態において、遺伝性疾患は、自閉症スペクトラム障害(略語ASD)である。他の実装形態において、遺伝性疾患は、発育遅滞障害(略語DDD)である。
重い遺伝性疾患を患っている患者におけるエクソンシーケンシングの診断率が限られているにもかかわらず、臨床的シーケンシングでは稀少コード突然変異に集中しており、解釈の難しさから非コードゲノムにおけるバリエーションを大部分無視している。ここで、われわれは、一次ヌクレオチド配列からスプライシングを正確に予測するディープラーニングネットワークを導入し、それによって、結果として得られるタンパク質上で重大な結果を有するエクソンおよびイントロンの正常なパターン形成を崩壊させる非コード突然変異を識別する。われわれは、予測された潜在的スプライス突然変異がRNA-seqによって高率でバリデーションし、ヒト母集団において強い悪影響を有し、稀少遺伝病の主要原因であることを示している。
36人の自閉症患者に対する被検体詳細が、Iossifovら、Nature 2014年(Table S1)によってすでに公表されており、われわれの論文のTable S4の第1欄の匿名識別子を使用して相互参照できる。
I. スプライス予測のためのディープラーニング
SpliceNetのアーキテクチャ
われわれは、pre-mRNAヌクレオチド配列からスプライシングを計算により予測するためにいくつかの超深層畳み込みニューラルネットワークベースのモデルを訓練した。われわれは、40、200、1,000、5,000個のヌクレオチドを注目する位置の各側でそれぞれ入力として使用し、位置がスプライスアクセプターおよびドナーである確率を出力する4つのアーキテクチャ、すなわち、SpliceNet-80nt、SpliceNet-400nt、SpliceNet-2k、およびSpliceNet-10kを設計した。より正確には、モデルへ入力は、ワンホットエンコードされたヌクレオチドの配列であり、A、C、G、およびT(または同等のU)は、それぞれ、[1, 0, 0, 0]、[0, 1, 0, 0]、[0, 0, 1, 0]、および[0, 0, 0, 1]としてエンコードされ、モデルの出力は、注目する位置がスプライスアクセプターである、スプライスドナーである、およびいずれでもない確率に対応する、足して1になる3つのスコアからなる。
われわれは、UCSCテーブルブラウザからGENCODE(Harrowら、2012年)V24lift37遺伝子アノテーションテーブルをダウンロードし、20,287個のタンパク質コード遺伝子アノテーションを抽出し、複数のイソ型が利用可能なときに主転写産物を選択した。われわれは、スプライス接合を有していなかった遺伝子を取り除き、次のようにして残りを訓練およびテストセット遺伝子に分割した。染色体2、4、6、8、10〜22、XおよびYに属している遺伝子は、モデルを訓練するために使用された(13,384個の遺伝子、130,796個のドナー-アクセプター対)。われわれは、訓練遺伝子の10%をランダムに選択し、それらを訓練中に早期中止のポイントを決定するために使用し、残りはモデルを訓練するために使用された。モデルをテストするために、われわれは、パラログ(1,652個の遺伝子、14,289個のドナー-アクセプター対)を有していなかった染色体1、3、5、7、および9からの遺伝子を使用した。この目的のために、われわれは、http://grch37.ensembl.org/biomart/martviewからのヒト遺伝子パラログリストを参照した。
正しく分類された位置のパーセンテージのような精度測定基準は、位置の大半がスプライス部位でないという事実により大部分効果がない。われわれは、その代わりに、そのような設定において有効である2つの測定基準、すなわち、top-k精度および精度-再現率曲線の下の面積を使用してモデルを評価した。特定のクラスに対するTop-k精度は次のように定義される。テストセットがクラスに属するk個の位置を有すると仮定する。われわれは、ちょうどk個のテストセット位置がそのクラスに属すものとして予測されるように閾値を選択する。真にこのクラスに属すこれらのk個の予測された位置の割合はTop-k精度として報告される。実際、これは、精度および再現率が同じ値を有するように閾値が選択されたときの精度に等しい。
われわれは、GENCODE V24lift37アノテーションに基づくすべてのlincRNA転写産物のリストを取得した。タンパク質コード遺伝子と異なり、lincRNAは、GENCODEアノテーション内の主転写産物を割り当てられない。バリデーションセット内の冗長性を最小にするために、われわれは、lincRNA遺伝子毎に最長の総エクソン配列で転写産物を識別し、これを遺伝子に対するカノニカル転写産物と呼んだ。lincRNAアノテーションは、タンパク質コード遺伝子に対するアノテーションに比べて信頼性が低いと予想されるので、またそのようミスアノテーションはTop-k精度のわれわれの推定に影響を及ぼすので、われわれは、GTExデータを使用して潜在的アノテーション問題のあるlincRNAを排除した(これらのデータの詳細については以下の「GTExデータセット上の解析」の節を参照)。各lincRNAについて、われわれは、すべてのGTExサンプルにわたるlincRNAの長さにわたってマッピングされたすべての分割リードをカウントした(詳細について以下の「スプライス接合の検出」を参照)。これは、アノテーションされるか、または新規の接合のいずれかを使用するlincRNAの全接合スパニングリードの推定であった。われわれは、また、カノニカル転写産物の接合に及ぶリードの数をカウントした。われわれは、すべてのGTExサンプルにわたる接合スパニングリードの少なくとも95%がカノニカル転写産物に対応しているlincRNAのみを考察した。われわれは、また、カノニカル転写産物のすべての接合がGTExコホート内で少なくとも一回観察されることも要求した(長さ<10ntのイントロンに及ぶ接合を除く)。Top-k精度を計算するために、われわれは、上記のフィルタを通ったlincRNAのカノニカル転写産物の接合のみを考慮した(781個の転写産物、1047個の接合)。
図37Bにおいて、MaxEntScanおよびSpliceNet-10kの性能を配列からの遺伝子のカノニカルエクソン境界を識別することに関して比較している。われわれは、われわれのテストセット内にあり、26個のカノニカルスプライスアクセプターおよびドナーを有する、CFTR遺伝子を、ケーススタディとして使用し、MaxEntScanおよびSpliceNet-10kを使用してカノニカル転写開始部位(chr7:117,120,017)からカノニカル転写終了部位(chr7:117,308,719)までの188,703個の位置の各々についてアクセプターおよびドナーのスコアを取得した。位置は、対応するスコアがTop-k精度を評価しながら選択された閾値より大きい場合にスプライスアクセプターまたはドナーとして分類された。MaxEntScanは、49個のスプライスアクセプターおよび22個のスプライスドナーを予測し、そのうち9および5個はそれぞれ真のスプライスアクセプターおよびドナーである。視覚化がより適切になされるように、われわれは、MaxEntScanのログ前スコアを示している(最大2,500にクリップされている)。SpliceNet-10kは、26個のスプライスアクセプターおよび26個のスプライスドナー部位を予測したが、これらはすべて正しい。図42Bでは、われわれは、LINC00467遺伝子を使用して解析を繰り返した。
われわれは、GTEx RNA-seqデータからすべてのGENCODEアノテーションされたエクソンの包含率を計算した(図37C)。各エクソンについて、各遺伝子の最初と最後のエクソンを除外して、われわれは包含率を以下のように計算した。
図37Dにおいて、われわれは、位置をスプライスアクセプターとして分類することに向けてSpliceNet-10kによって重要とみなされるヌクレオチドを識別している。このために、われわれは、われわれのテストセットの中にある、U2SURP遺伝子中のchr3:142,740,192のスプライスアクセプターを考察した。スプライスアクセプターに関するヌクレオチドの「重要度スコア」は次のように定義される。srefは考察対象のスプライスアクセプターのアクセプタースコアを表すものとする。アクセプタースコアは、考察対象のヌクレオチドをA、C、G、およびTで置き換えることによって再計算される。これらのスコアをそれぞれsA、sC、sG、およびsTで表すものとする。ヌクレオチドの重要度スコアは以下と推定される。
アクセプター強度に対する分岐点配列の位置の影響を研究するために、われわれは、最初に、SpliceNet-10kを使用して14,289個のテストセットスプライスアクセプターのアクセプタースコアを取得した。yrefはこれらのスコアを含むベクトルを表すものとする。0から100までの範囲内のiの各値について、われわれは次のことを行った。各テストセットスプライスアクセプターについて、われわれは、スプライスアクセプターの前のiからi-6までの位置のヌクレオチドをTACTAACで置き換え、SpliceNet-10kを使用してアクセプタースコアを再計算した。これらのスコアを含むベクトルは、yalt,iで表される。われわれは、図43Aにおいて次の数量をiの関数としてプロットしている。
mean(yalt,i-yref)
スプライシングに対するエクソン長の効果を調べるために、われわれは、最初または最後のいずれかのエクソンであったテストセットエクソンをフィルタで除去した。このフィルタ処理ステップで、14,289個のエクソンから1,652個を取り除いた。われわれは、長さが大きくなる順に残りの12,637個のエクソンをソートした。それらの各々について、われわれは、SpliceNet-80ntを使用してスプライスアクセプター部位においてアクセプタースコアおよびスプライスドナー部位におけるドナースコアを平均することによってスプライシングスコアを計算した。われわれは、図37Fにおいてスプライシングスコアをエクソン長の関数としてプロットしている。プロットする前に、われわれは次の平滑化手順を適用した。xはエクソンの長さを含むベクトルを表し、yはその対応するスプライシングスコアを含むベクトルを表すものとする。われわれは、サイズ2,500の平均化ウィンドウを使用してxおよびyの両方を平滑化した。
われわれは、UCSCゲノムブラウザからK562細胞株に対するヌクレオソームデータをダウンロードした。われわれは、われわれのテストセットの中にある、HMGR遺伝子を事例として使用し、SpliceNet-10kスコアに対するヌクレオソーム位置決めの影響を実証した。遺伝子内の各位置pについて、われわれは、次のようにして「プラントスプライシングスコア」を計算した。
・ 位置p+74からp+81の8個のヌクレオチドは、ドナーモチーフAGGTAAGGによって置き換えられた。
・ 位置p-78からp-75の4個のヌクレオチドは、アクセプターモチーフTAGGによって置き換えられた。
・ 位置p-98からp-79の20個のヌクレオチドは、ポリピリミジントラククトCCTCCTTTTTCCTCGCCCTCによって置き換えられた。
・ 位置p-105からp-99の7個のヌクレオチドは、分岐点配列CACTAACによって置き換えられた。
・ SpliceNet-10kによって予測されたp-75におけるアクセプタースコアとp+75におけるドナースコアとの平均はプラントスプライシングスコアとして使用されている。
図37Hでは、われわれは、予測された新規エクソンの周りのヌクレオソーム信号を見たかった。われわれが信頼性の高い新規エクソンを見ていたと確認するために、われわれは、予測された利得接合がバリアントを有する個体に対して完全にプライベートであったシングルトンバリアント(単一のGTEx個体に存在するバリアント)のみを選択した。それに加えて、付近のエクソンから交絡効果を取り除くために、われわれは、アノテーションされたエクソンから少なくとも750nt離れているイントロンバリアントのみを見た。われわれは、UCSCブラウザからGM12878およびK562細胞株に対するヌクレオソーム信号をダウンロードし、予測された新規アクセプターまたはドナー部位の各々から750ntの範囲内のヌクレオソーム信号を抽出した。われわれは、2つの細胞株の間のヌクレオソーム信号を平均化し、マイナス鎖上の遺伝子と重なり合うバリアントに対する信号ベクトルをフリップさせた。われわれは、アクセプター部位からの信号を右に70ntだけシフトし、ドナー部位からの信号を左に70ntだけシフトした。シフトした後、アクセプター部位およびドナー部位の両方に対するヌクレオソーム信号は長さ140ntの理想化されたエクソンの真ん中にセンタリングされたが、これはGENCODE v19アノテーション内のエクソンの長さ中央値である。われわれは、最後に、すべてのシフトされた信号を平均化し、各位置を中心とする11ntのウィンドウ内で平均を計算することによって結果として得られる信号を平滑化した。
ネットワークの予測の一般化可能性を調べるために、われわれは、エクソン密度が変化する領域においてSpliceNet-10kを評価した。われわれは、最初に、10,000ヌクレオチドウィンドウ(各側に5,000個のヌクレオチド)内に存在しているカノニカルエクソンの数に応じてテストセット位置を5つのカテゴリに分けた(図54)。エクソンカウントが各位置に対して整数値となるように、われわれは、ウィンドウ内に存在するエクソン開始の数を代理として使用した。各カテゴリについて、われわれは、Top-k精度および精度-再現率曲線の下の面積を計算した。位置の数およびkの値は、異なるカテゴリでは異なっている(以下の表に詳述)。
複数のモデルを訓練し、その予測値の平均を出力として使用することは、よりよい予測性能を得るための機械学習における一般的な戦略であり、アンサンブル学習と称される。図53Aにおいて、われわれは、アンサンブルの構築するためにわれわれが訓練した5つのSpliceNet-10kモデルのTop-k精度および精度-再現率曲線の下の面積を示している。結果は、明らかに、訓練プロセスの安定性を示している。
単一ヌクレオチドバリアントのΔスコア
われわれは、次のようにして単一ヌクレオチドバリアントによるスプライシング変化を定量化した。われわれは、最初に参照ヌクレオチドを使用し、バリアントの周りの101個の位置に対するアクセプターおよびドナースコアを計算した(各側に50個の位置)。これらのスコアは、それぞれ、ベクトルarefおよびdrefによって表される。われわれは、次いで、代替ヌクレオチドを使用し、アクセプターおよびドナースコアを再計算した。これらのスコアはそれぞれベクトルaaltおよびdaltによって表されるものとする。
われわれは、次の4つの量を評価した。
Δスコア(アクセプター利得)=max(aalt-aref)
Δスコア(アクセプター損失)=max(aref-aalt)
Δスコア(ドナー利得)=max(dalt-dref)
Δスコア(ドナー損失)=max(dref-dalt)
われわれは、GTEx VCFおよびRNA-seqデータをdbGaPからダウンロードした(研究アクセッションphs000424.v6.p1; https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs000424.v6.p1)。
1. バリアントはフィルタ処理されなかった(VCFのFILTERフィールドはPASSであった)。
2. バリアントは個体AのVCFのINFOフィールド内でMULTI_ALLELICとマークされず、VCFはALTフィールド内で単一の対立遺伝子を含んでいた。
3. 個体Aはバリアントに対してヘテロ接合体であった。
4. 比alt_depth / (alt_depth + ref_depth)は、0.25から0.75の間であり、alt_depthおよびref_depthはそれぞれ個体Aにおける代替および参照対立遺伝子を支持するリードの数である。
5. 全深さ、alt_depth + ref_depthは、個体AのVCFにおいて20から300の間であった。
6. バリアントは遺伝子本体領域と重なっていた。遺伝子本体は、GENCODE(V24lift37)からのカノニカル転写産物の転写の開始と終了との間の領域として定義された。
われわれは、OLego(Wuら、2013年)を使用して、hg19参照に対してGTExサンプルのリードをマッピングし、クエリリードと参照との間のせいぜい4の編集距離(パラメータ -M 4)を可能にした。OLegoは完全にデノボで動作することができ、遺伝子アノテーションを必要としないことに留意されたい。Olegoは、分割されたリードの末端のところにスプライシングモチーフが存在するかどうかを調べるので、そのアライメントは、それぞれスプライス部位を切断または作成するSNVの周りで参照の方へ、または参照に対抗してバイアスされ得る。そのようなバイアスを排除するために、われわれは、PASSフィルタによりhg19参照内に個体のすべてのSNVを挿入することによって、各GTEx個体に対する代替参照配列をさらに作成した。われわれは、OLegoを同じパラメータで使用し、各個体からのすべてのサンプルをその個体の代替参照配列に対してマッピングした。各サンプルについて、次いで、われわれは、各リード対に対する最良のアライメントをピックすることによって、アライメントの2つのセットを組み合わせた(hg19参照に対して、および個体の代替参照に対して)。リード対Pに対する最良のアライメントを選択するために、われわれは、次の手順を使用した。
1. Pの両方のリードがアライメントの両方のセット内でアンマッピングされた場合、われわれは、hg19またはPの代替アライメントをランダムに選択する。
2. Pがアライメントの一方のセットにおけるアンマッピングされた末端を他に比べて多く有していた(たとえば、Pの両端は代替参照に対してマッピングされたが、hg19に対してはただ1つの末端がマッピングされた)場合、われわれは、Pの両端がマッピングされたアライメントを選択する。
3. Pの両端がアライメントの両方のセット内でマッピングされた場合、われわれは、最小の総ミスマッチとのアライメント、またはミスマッチの数が同じであった場合にランダム1を選択する。
われわれは、leafcutterパッケージのユーティリティであるleafcutter_cluster(Liら、2018年)を使用して各サンプル中のスプライス接合を検出し、カウントした。われわれは、単一の分割されたリードが接合を支持することを要求し、500Kbの最大イントロン長を仮定した(パラメータ -m 1 -l 500000)。ディープラーニングモデルを訓練するための接合の高信頼度セットを得るために、われわれは、すべてのサンプル上ですべてのleafcutter接合の合併をコンパイルし、次の基準のうちのどれかを満たす接合を考察対象から外した。
1. 接合のいずれかの末端がENCODEブラックリスト領域(UCSCゲノムブラウザからのhg19内のテーブルwgEncodeDacMapabilityConsensusExcludable)または単純な反復(UCSCゲノムブラウザからのhg19におけるSimple Repeatsトラック)と重なった。
2. 接合の両端が、非カノニカルエクソン上にあった(GENCODE version V24lift37からのカノニカル転写産物に基づく)。
3. 接合の2つの末端が異なる遺伝子上にあった、またはいずれかの末端が非遺伝的領域内にあった。
4. いずれかの末端が本質的なGT/AGジヌクレオチドを欠いた。
接合は、次の基準のうちの少なくとも1つを満たした場合に個体Aにおいてプライベートと考えられた。
1. 接合はAからの少なくとも1つのサンプルにおいて少なくとも3つのリードを有しており、他の任意の個体では決して観察されなかった。
2. 次の2つの基準のうちの両方を満たした少なくとも2つの組織があった。
a. 組織内の個体Aからのサンプル内の接合の平均リードカウントは少なくとも10であった。
b. 個体Aはその組織内の他の任意の個体に比べて平均して少なくとも2倍多い正規化されたリードを有していた。ここで、サンプル内の接合の正規化されたリードカウントは、対応する遺伝子に対するすべての接合にわたってリードの総数によって正規化された接合のリードの数として定義された。
プライベート接合がアノテーションされたちょうど1つの末端を有していた場合、GENCODEアノテーションに基づき、われわれは、それをアクセプターまたはドナー利得に対する候補としてみなし、アノテーションされていない末端から150nt以内の同じ個体においてプライベートであったシングルトンSNV(単一のGTEx個体に出現するSNV)を探索した。プライベート接合がアノテーションされた両方の末端を有していた場合、われわれは、それを、GENCODEアノテーションに基づき同じ遺伝子の少なくとも1つただし3個以下のエクソンをスキップした場合にプライベートエクソンスキッピング事象に対する候補とみなした。次いで、われわれは、スキップされたエクソンの各々の末端から150nt以内でシングルトンSNVを探索した。GENCODEエクソンアノテーションに両方の末端がないプライベート接合は、これらのうちの実質的割合がアライメント誤差であるので、無視された。
プライベートバリアント(GTExコホート内の1人の個体に出現する)または共通バリアント(GTExコホート内の2人から4人の個体に出現する)のいずれかについて、われわれは、参照および代替対立遺伝子に対するディープラーニングモデルの予測を取得し、Δスコアを計算した。われわれは、モデルがそうであるべき異常(新規または切断)接合を予測した配置も取得した。次いで、われわれは、予測された配置においてバリアントを有する個体におけるスプライシング異常を支持するRNA-seqデータ内に証拠があるかどうかを決定することに努めた。多くの場合において、モデルは、同じバリアントに対する複数の効果を予測することができ、たとえば、アノテーションされたスプライスドナーを切断するバリアントは、また、図45のような次善のドナーの使用度を高めることが可能であり、その場合、モデルはアノテーションされたスプライス部位でのドナー損失および次善の部位でのドナー利得の両方を予測することもあるであろう。しかしながら、バリデーションの目的では、われわれは、各バリアントに対して最高の予測されたΔスコアを持つ効果のみを考察した。したがって、各バリアントについて、われわれは、予測されたスプライス部位形成およびスプライス部位切断効果を別々に考察した。5人より少ない個体に出現する接合は、モデルが訓練された新規接合上でそのモデルを評価することを回避するために、モデル訓練時に除外された。
新規接合形成を引き起こすと予測された各プライベートバリアントについて、われわれは、ネットワークを使用して新しく作成された異常スプライス接合の位置を予測し、そのような新規接合がSNVを持つ個体のみに出現し、他のどのGTEx個体にも出現しなかった場合バリデーションするRNA-seqデータを見た。同様に、エクソンXのスプライス部位に影響を及ぼすスプライス部位損失を引き起こすと予測されたバリアントについて、われわれは、前のカノニカルエクソン(GENCODEアノテーションに基づくXの上流にあるもの)から、バリアントを有する個体のみに出現し、GTExにおける他のどの個体にも出現しなかった次のカノニカルエクソン(Xの下流にあるもの)へ、新規エクソンスキッピング事象を探した。われわれは、モデルによって失われると予測されたスプライス部位がGENCODEにおいてアノテーションされないか、またはバリアントを有しないGTEx個体において決して観察されなかった場合に予測された損失を除外した。われわれは、また、利得を得ると予測されたスプライス部位がGENCODEにおいてすでにアノテーションされていた場合に予測された利得を除外した。この解析を共通バリアント(2人から4人の個体に存在している)に拡大適用するために、われわれは、また、バリアントを有する個体の少なくとも半分に存在し、バリアントを有しないすべての個体には存在していない新規接合をバリデーションした。
サンプルsからの接合jについて、われわれは正規化された接合カウントcjsを取得した。
1. 接合の相対的損失を定量化する、式(2)からのzスコアの中央値は置換データにおける対応する値の第5百分位(-1.46)未満であり、スキッピングにおける相対的変化を定量化する、式(3)からのzスコアの中央値は非正(ゼロ、負、または欠損であり、これはスキッピング接合が任意の個体において観察されなかった場合である)であった。言い換えると、影響を受ける接合の使用度の低減に対する強い証拠があり、影響を受ける個体におけるスキッピングの減少を示唆する証拠はなかった。
2. 式(3)からのzスコアの中央値は置換データ内の対応する値の第5百分位(-0.74)未満であり、式(3)からのzスコアの中央値は非正であった。
3. 式(2)からのzスコアの中央値は置換データ内の対応する値の第1百分位(-2.54)未満であった。
4. 式(3)からのzスコアの中央値は置換データ内の対応する値の第1百分位(-4.08)未満であった。
5. 影響を受けるエクソンをスキップする接合はバリアントを有する個体の少なくとも半分で観察され、他の個体では観察されなかった(上記の「プライベートスプライス接合に基づく予測された潜在的スプライス突然変異のバリデーション」において説明されているように)。
カウントが低いか、またはカバレッジが劣っている場合のzスコアの計算を回避するために、われわれは、バリデーション解析にバリアントをフィルタ処理するために次の基準を使用した。
1. サンプルは遺伝子を表現した場合のみ上記のzスコアの計算について考慮された(式(1)においてΣgrgs>200)。
2. 組織は、バリアントのない個体におけるそれぞれ損失または「参照」接合の平均カウントが10未満であった場合に損失または利得zスコアの計算について考慮されなかった。「参照」接合は、GENCODEアノテーションに基づき、新規接合の利得の前に使用されるカノニカル接合である(詳細についてはエフェクトサイズ計算の節を参照)。直感は、対照個体において表現されない接合に影響を及ぼすスプライス損失バリアントをバリデーションすることを試みるべきでないということである。同様に、われわれは、対照個体が影響を受ける部位に及ぶ転写産物を十分に表現しなかった場合にスプライス利得バリアントをバリデーションすることを試みるべきでない。
3. 予測されたスプライス部位損失の場合に、バリアントを有しない個体からのサンプルは、損失接合の少なくとも10カウントを有していた場合にのみ考慮された。予測されたアクセプターまたはドナー位得の場合に、対照個体からのサンプルは、「参照」接合の少なくとも10カウントを有していた場合にのみ考慮された。直感は、影響を受ける接合の大きな平均表現を有する組織(すなわち、基準2を満たす)であっても、異なるサンプルは、大きく異なるシーケンシング深度を有することが可能であり、したがって十分な表現を有する対照サンプルのみが含まれるべきである。
4. 組織は、バリアントを有する個体からの上記の基準を満たす少なくとも1つのサンプル、さらには少なくとも2つの明確に異なる対照個体からの上記の基準を満たす少なくとも5つのサンプルがあった場合のみ考慮された。
上記の手順が妥当な真のバリデーション率を有していることを確認するために、われわれは、最初に、1〜4GTEx個体に出現するSNVを見て、本質的なGT/AGジヌクレオチドを切断した。われわれは、バリデーション率が100%に近くなるようにそのような突然変異がほとんど確実にスプライシングに影響を及ぼすと論じた。そのような切断のうち、39%は上で説明されている基準に基づき確認可能であり、確認可能なもののうちで、バリデーション率は81%であった。誤バリデーション率を推定するために、われわれは、SNVデータの個体の標識を置換した。k人のGTEx個体に出現した各SNVについて、われわれは、k人のGTEx個体のランダムサブセットを選び、SNVをそれらに割り当てた。われわれは、10個のそのようなランダム化されたデータセットを作成し、それらの上でバリデーションプロセスを繰り返した。置換データセットにおけるバリデーション率は、利得については1.7〜2.1%であり、損失については4.3〜6.9%であり、中央値はそれぞれ1.8%および5.7%であった。損失に対する誤バリデーション率が高いこと、また本質的な切断のバリデーション率が比較的低いことは、「プライベートスプライス接合に基づく予測された潜在的スプライス突然変異のバリデーション」の節で強調されているようにスプライス部位損失をバリデーションすることが困難であることによる。
われわれは、バリアントの「エフェクトサイズ」をバリアントによりスプライシングパターンを変化させた影響を受ける遺伝子の転写産物の割合として定義した(たとえば、新規アクセプターまたはドナーに切り替えた割合)。予測されたスプライス利得バリアントに対する参照例として、図38Cのバリアントを考察する。予測された利得ドナーAについて、われわれは、最初に、最も近いアノテーションされたアクセプターCへの接合(AC)を識別した。われわれは、次いで、「参照」接合(BC)を識別し、B≠AはAに最も近いアノテーションされたドナーある。次いで、各サンプルsにおいて、われわれは、参照接合(BC)と比較して新規接合(AC)の相対的使用度を以下のように計算した。
バリアントは、前の節で説明されている基準に基づきバリデーションされたとみなされた場合のみエフェクトサイズ計算について考察された。非常に小さな数での異常転写産物の割合を計算することを回避するために、われわれは、異常および参照接合のカウントが両方とも少なくとも10であるサンプルのみを考察した。大半の潜在的スプライスバリアントはイントロン内にあるので、エフェクトサイズは、バリアントと重なり合う参照および代替リードの数をカウントすることでは直接計算することはできない。したがって、損失のエフェクトサイズは、正常なスプライス接合の相対的使用度の減少から間接的に計算される。新規接合利得のエフェクトサイズについては、異常転写産物はナンセンス変異依存分解の影響を受け、観察されたエフェクトサイズを減少させ得る。これらの測定の制限があるにもかかわらず、われわれは、両方の利得および損失事象にわたって低いスコアリングの潜在的スプライスバリアントに対してより小さいエフェクトサイズに向かう一貫した傾向を観察している。
バリアントを有する個体のバリアントハプロタイプからのすべての転写産物が新規接合に切り替わることを引き起こす完全浸透性を有するスプライス部位形成バリアントについて、新規接合が対照個体に出現しないと仮定すると、予想されるエフェクトサイズは式(5)により0.5となる。
図38Cについて、バリアントはエクソンなので、われわれは、バリアントに及ぶリードの数をカウントすることができ、参照または代替対立遺伝子を有していた(それぞれ「Ref(スプライシングなし)」および「Alt(スプライシングなし)」)。われわれは、また、新規スプライス部位のところでスプライスし、代替対立遺伝子(「Alt(新規接合)」)を持っていると推測された、リードの数をカウントした。図38Cの例では、またわれわれが見ていた他のケースの多くにおいて、われわれは、代替対立遺伝子(「Alt(スプライシングなし)」および「Alt(新規接合)」の和)を有するハプロタイプに由来するリードの総数が参照対立遺伝子(「Ref(スプライシングなし)」)を有するリードの数より少ないことを観察した。われわれは、参照および代替ハプロタイプの両方にマッピングし、リードの数が各対立遺伝子を有する転写産物の数に比例することを仮定することによって、われわれがリードマッピング中に参照バイアスを排除したと確信しているので、われわれは、参照対立遺伝子がバリアント軌跡におけるリードの半分を占めることを予想していた。われわれは、「欠損」代替対立遺伝子リードが新規接合のところでスプライスし、ナンセンス変異依存分解(NMD)を通じて分解した代替対立遺伝子ハプロタイプからの転写産物に対応すると仮定している。われわれは、このグループを「Alt(NMD)」と呼んだ。
SpliceNetモデル(図38F)の感度を評価するために、われわれは、影響を受けるスプライス部位(すなわち、新規または切断アクセプターもしくはドナー)から20nt以内にあるがアノテーションされたエクソンの本質的なGT/AGジヌクレオチドと重なり合わず、少なくとも0.3の推定されたエフェクトサイズ(「エフェクトサイズの計算」の節を参照)を有しているSNVを使用した。すべての感度プロットにおいて、SNVは、アノテーションされたエクソンと重なり合うか、またはアノテーションされたエクソンの境界から50nt以内にある場合に「近エクソン」であると定義された。他のすべてのSNVは、「深イントロン」と考えられた。強く支持されている潜在的スプライス部位のこの真のデータセットを使用することで、われわれは、変化するΔスコア閾値でわれわれのモデルを評価し、そのカットオフにおいてモデルによって予測される真のデータセット内の潜在的スプライス部位の割合を報告した。
われわれは、様々な測定基準に関してSpliceNet-10k、MaxEntScan(YeoおよびBurge、2004年)、GeneSplicer(Perteaら、2001年)、およびNNSplice(Reeseら、1997年)の一対一の比較を実行した。われわれは、MaxEntScanおよびGeneSplicerソフトウェアをhttp://genes.mit.edu/burgelab/maxent/download/およびhttp://www.cs.jhu.edu/~genomics/GeneSplicer/からそれぞれダウンロードした。NNSpliceは、ダウンロード可能ソフトウェアとして利用可能でなく、したがって、われわれは、http://www.fruitfly.org/data/seq_tools/datasets/Human/GENIE_96/splicesets/から訓練およびテストセットをダウンロードし、(Reeseら、1997年)で述べられている最良の実行アーキテクチャでモデルを訓練した。サニティチェックとして、われわれは、(Reeseら、1997年)で報告されているテストセット測定基準を再現した。
われわれは、シングルトンSNVおよび2〜4人のGTEx個体に出現するSNVについて別々にバリデーションおよび感度解析(「感度解析」および「モデル予測のバリデーション」の説に説明したように)を実行した(図46A、図46B、および図46C)。バリデーション率がシングルトンと共通バリアントとの間で著しく異なっているかどうかをテストするために、われわれは、各Δスコアグループ(0.2〜0.35, 0.35〜0.5, 0.5〜0.8, 0.8〜1)内のバリデーション率を比較する、また各予測された効果(アクセプターまたはドナー利得または損失)について、フィッシャーの正確確率検定を実行した。ボンフェローニ補正を行って16回の検定を検討した後、すべてのP値は0.05より大きかった。われわれは、同様に、シングルトンまたは共通バリアントを検出するための感度を比較した。われわれは、フィッシャーの正確確率検定を使用して、バリデーション率がバリアントの2つのグループの間で著しく異なっているかどうかを検定した。われわれは、深イントロンバリアントおよびエクソンに近いバリアントを別々に考察し、ボンフェローニ補正を2つの検定に対して実行した。0.05カットオフを使用したときにP値のどれも有意でなかった。したがって、われわれは、シングルトンおよび共通GTExバリアントを組み合わせて、図48A、図48B、図48C、図48D、図48E、図48F、および図48Gならびに図39A、図39B、および図39Cに提示されている解析に関して一緒に考察した。
われわれは、訓練時に使用される染色体上のバリアントおよび染色体の残りの上のバリアントの間でSpliceNet-10kのRNA-seqおよび感度についてバリデーション率を比較した(図48Aおよび図48B)。すべてのP値は、ボンフェローニ補正の後に0.05より大きかった。われわれは、また、以下の「悪影響を有するバリアントの割合」で説明されているように、訓練およびテスト染色体上でバリアントに対して別々に悪影響もあるバリアントの割合を計算した(図48C)。各Δスコアグループおよびバリアントの各種類について、われわれは、フィッシャーの正確確率検定を使用して、訓練染色体とテスト染色体との間で共通バリアントと稀少バリアントの数を比較した。12回の検定についてボンフェローニ補正を行った後、すべてのP値は0.05より大きかった。最後に、われわれは、「コホート毎のデノボ突然変異のエンリッチメント」の節で説明されているような訓練およびテスト染色体(図48D)上で潜在的スプライスデノボバリアントの数を計算した。
われわれは、予測されたスプライス部位形成バリアントを3つのグループ、すなわち、新規GTまたはAGスプライスジヌクレオチドを形成するバリアント、スプライシングモチーフの残りと重なり合うバリアント(エクソン内への最大3ntおよびイントロン内への8ntのエクソン-イントロン境界の周りの位置)、およびスプライスモチーフの外側のバリアントに分割した(図47Aおよび図47B)。各Δスコアグループ(0.2〜0.35, 0.35〜0.5, 0.5〜0.8, 0.8〜1)について、われわれは、χ2検定を実行して、バリデーション率が3種類のスプライス部位形成バリアントにわたって均一であるという仮説を検定した。すべての検定は、複数の仮説補正の前であってもP値>0.3が得られた。3種類のバリアントの間のエフェクトサイズ分布を比較するために、われわれは、マン・ホイットニーのU検定を使用し、各Δスコアグループについてバリアントタイプの3つの対すべて(合計4×3=12回の検定)を比較した。12回の検定についてボンフェローニ補正を行った後、すべてのP値は>0.3であった。
図39Cについて、われわれは、新規接合の使用率が影響を受ける遺伝子を表現する組織にわたって均一であるかどうかを検定することを望んでいた。われわれは、新規プライベートスプライス部位を形成したSNV、すなわち、バリアントを有する個体の少なくとも半分にのみ出現し、他の個体には出現しない利得スプライス接合を結果としてもたらすSNVに集中した。各そのような新規接合jについて、われわれは、各組織tにおいて、組織内にバリアントを有する個体からのすべてのサンプルにわたって接合の総カウント
バリアントフィルタ処理
われわれは、Sites VCF release 0.3ファイル(60,706個のエクソーム)をExACブラウザ(Lekら、2016年)から、Sites VCF release 2.0.1ファイル(15,496個の全ゲノム)をgnomADブラウザからダウンロードした。われわれは、SpliceNet-10kを評価するためにそれらからバリアントのフィルタ処理済みリストを作成した。特に、次の基準を満たしたバリアントが考察された。
・ FILTERフィールドはPASSであった。
・ バリアントは単一ヌクレオチドバリアントであり、ただ1つの代替ヌクレオチドがあった。
・ ANフィールド(コールされた遺伝子型における対立遺伝子の総数)は少なくとも10,000の値を有していた。
・ バリアントは、カノニカルGENCODE転写産物の転写開始部位と終了部位との間にあった。
この解析について、われわれは、コホートにおいてシングルトンまたは共通であったExACおよびgnomADフィルタ処理済みリスト内のバリアントのみを考察した(対立遺伝子頻度(AF)≧0.1%)。われわれは、GENCODEカノニカルアノテーションに従ってそのゲノム位置に基づきこれらのバリアントを下位のクラスに分類した。
・ エクソン:このグループは、同義ExACバリアント(676,594個のシングルトンおよび66,524個の共通)からなる。ミスセンスバリアントは、このグループ内のバリアントの悪影響の大部分はスプライシング変化によるものであったことを確認するためにここでは考察されていない。
・ 近イントロン:このグループは、カノニカルエクソン境界から3〜50ntの範囲内にあるイントロンExACバリアントからなる。より正確には、アクセプター利得/損失およびドナー利得/損失バリアントの解析のために、スプライスアクセプターおよびドナーからそれぞれ3〜50ntのところにあるバリアントのみが考察された(アクセプター利得/損失に対しては575,636個のシングルトンおよび48,362個の共通、ドナー利得/損失に対しては567,774個のシングルトンおよび50,614個の共通)。
・ 深イントロン:このグループは、カノニカルエクソン境界から50ntを超えて離れているイントロンgnomADバリアントからなる(34,150,431個のシングルトンおよび8,215,361個の共通)。
・ ナンセンス:VEP(McLarenら、2016年)の結果は「stop_gained」(ExACにおいて44,046個のシングルトンおよび722個の共通、gnomADにおいて20,660個のシングルトンおよび970個の共通)であった。
・ フレームシフト:VEPの結果は「frameshift_variant」であった。バリアントフィルタ処理時の単一ヌクレオチドバリアント基準は、このグループを形成するために緩和された(ExACにおいて48,265個のシングルトンおよび896個の共通、gnomADにおいて30,342個のシングルトンおよび1,472個の共通)。
・ 本質的なアクセプター/ドナー損失:バリアントは、カノニカルイントロンの最初または最後の2つの位置にあった(ExACにおいて29,240個のシングルトンおよび481個の共通、gnomADにおいて12,387個のシングルトンおよび746個の共通)。
この解析について、われわれは、エクソン(同義のみ)または近イントロンであった、またコホートにおいてシングルトンまたは共通(AF≧0.1%)であったExACバリアントに特に注目した。アクセプター利得バリアントをインフレームまたはフレームシフトとして分類するために、われわれは、カノニカルスプライスアクセプターと新しく作成されたスプライスアクセプターとの間の距離を測定し、それが3の倍数かどうかをチェックした。われわれは、カノニカルスプライスドナーと新しく作成されたスプライスドナーとの間の距離を測定することによって同様にドナー利得バリアントを分類した。
個体毎の稀少機能的潜在的スプライスバリアントの数を推定するために(図40E)、われわれは、最初に、対立遺伝子頻度に等しい確率で各対立遺伝子内に各gnomADバリアントを含めることによって100人のgnomAD個体をシミュレートした。言い換えると、各バリアントは、2倍性を模倣するために各個体に対して独立して2回サンプリングされた。われわれは、Δスコアがそれぞれ0.2、0.2、および0.5以上であった1人当たり稀少(AF<0.1%)エクソン(同義のみ)、近イントロン、および深イントロンバリアントをカウントした。これらは、予測されたバリアントの少なくとも40%が悪影響を有することを確認しながら感度を最適化する比較的許容性の高いΔスコア閾値である。これらのカットオフにおいて、われわれは、1人当たり7.92の同義/近イントロンおよび3.03の深イントロン稀少潜在的スプライスバリアントの平均を取得した。これらのバリアントはすべてが機能的であるわけではないので、われわれは、これらのカウントにこれらのカットオフにおいて悪影響のあるバリアントの割合を乗算した。
潜在的スプライシングデノボ突然変異
われわれは、公開されているデノボ突然変異(DNM)を取得した。これらは、自閉症スペクトラム障害を患っている3953人の遺伝発端者(Dongら、2014年、Iossifovら、2014年、De Rubeisら、2014年)、Deciphering Developmental Disordersコホートからの4293人の遺伝発端者(McRaeら、2017年)、および2073人の健康な対照(Iossifovら、2014年)を含んでいた。低品質DNMは、解析から除外された(ASDおよび健康な対照:信頼度==lowConf、DDD:PP(DNM)<0.00781、(McRaeら、2017年))。DNMはネットワークにより評価され、われわれはΔスコア(上記の方法を参照)を使用して構成に応じて潜在的スプライス突然変異を分類した。われわれは、synonymous_variant、splice_region_variant、intron_variant、5_prime_UTR_variant、3_prime_UTR_variant、またはmissense_variantのVEP結果によりアノテーションされた突然変異のみを考察した。われわれは、図41A、図41B、図41C、図41D、図41E、および図41Fならびに図50Aおよび図50Bに対するΔスコア>0.1を有する部位と、図49A、図49B、および図49Cに対するΔスコア>0.2を有する部位とを使用した。
候補潜在的スプライスDNMは3つのコホートの各々でカウントされた。DDDコホートはエクソンから8nt>離れているイントロンDNMを報告せず、したがって、エクソンから>8ntの領域は、エンリッチメント解析がDDDコホートとASDコホートとの間の同等の比較を可能にするためにすべてのコホートから除外された(図41A)。われわれは、また、二重潜在的スプライシングおよびタンパク質コード機能結果を含む突然変異を除外する別々の解析を実行して、エンリッチメントが影響を受けるコホート内のタンパク質コード効果を有する突然変異のエンリッチメントによるものであることを実証した(図49A、図49B、および図49C)。健康な対照のコホートをベースラインとして使用して、コホート間の個体毎の同義DNMの率を正規化することによってコホート間のDNMの異なる確認のためカウントがスケーリングされた。われわれは、E検定を使用してポアソン率を比較してコホート毎の潜在的スプライスDNMの率を比較した(KrishnamoorthyおよびThomson、2004年)。
ベースライン突然変異率と比較したDNMの過剰は、コホート内の発病率と考えてよい。われわれは、健康な対照のコホートの背景に対して、ASDおよびDDDコホート内の機能型によるDNMの過剰を推定した(図41B)。DNMカウントは、上で説明されているように個体毎に同義DNMの率に正規化された。DDD潜在的スプライスカウントは、上で説明されているようにイントロンから9〜50nt離れているDNMの欠如について調整された。ASDおよびDDDの両方のコホートについて、われわれは、また、陰性選択解析から近イントロン(<50n)潜在的スプライスバリアント対深イントロン(>50nt)潜在的スプライスバリアントの比を使用して、エクソンから>50nt離れている深イントロンバリアントの欠損確認について調整した(図38G)。
われわれは、トリヌクレオチド配列構成モデル(Samochaら、2014年)を使用してゲノム内のすべてのバリアントに対するヌル突然変異率を決定した。われわれはネットワークを使用してエクソン内の、およびイントロン内最大8ntの可能なすべての単一ヌクレオチド置換に対するΔスコアを予測した。ヌル突然変異率モデルに基づき、われわれは、遺伝子毎のデノボ潜在的スプライス突然変異の予想された数を取得した(Δスコア>0.2をカットオフとして使用して)。
われわれは、リンパ芽球様細胞株内に少なくともRPKM>1 RNA-seq表現を有する、Simons Simplex Collection内の影響を受ける遺伝発端者から高信頼度デノボを選択した。われわれは、スプライス損失バリアントに対するΔスコア閾値>0.1およびスプライス利得バリアントに対するΔスコア閾値>0.5に基づきバリデーションに対してデノボ潜在的スプライスバリアントを選択した。細胞株は前々から調達されている必要があるので、これらの閾値は、われわれが論文の別のところで採用した閾値と比較して、われわれの方法の以前の反復を反映しており(図38Gならびに図41A、図41B、図41C、および図41D)、ネットワークはモデル訓練に対するGTEx新規スプライス接合を含まなかった。
訓練およびテストデータ、参照ゲノム内のすべての単一ヌクレオチド置換に対する予測スコア、RNA-seqバリデーション結果、RNA-seq接合、およびソースコードは以下のところで公開されてホストされている。
https://basespace.illumina.com/s/5u6ThOblecrh
Table S1は、エフェクトサイズ計算および組織特有のスプライシング効果を実証するために使用されるGTExサンプルを示している。図38A、図38B、図38C、図38D、図38E、図38F、および図38G、図39A、図39B、および図45に関係している。
図59は、開示された技術を実施するために使用することができるコンピュータシステムの簡略ブロック図である。コンピュータシステムは、典型的には、バスサブシステムを介して多数の周辺デバイスと通信する少なくとも1つのプロセッサを備える。これらの周辺デバイスは、たとえば、メモリデバイスおよびファイル記憶装置サブシステム、ユーザインターフェース入力デバイス、ユーザインターフェース出力デバイス、およびネットワークインターフェースサブシステムを含む、記憶装置サブシステムを含むことができる。入力および出力デバイスは、ユーザがコンピュータシステムをインタラクティブに操作することを可能にする。ネットワークインターフェースサブシステムは、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
Claims (17)
- pre-mRNAゲノム配列内のスプライス部位の可能性を予測するためのコンピュータ実施方法であって、
pre-mRNAヌクレオチド配列の訓練例でAtrous畳み込みニューラルネットワーク(ACNN)を訓練するステップであって、前記訓練例がドナースプライス部位の少なくとも50,000個の訓練例、アクセプタースプライス部位の少なくとも50,000個の訓練例、および非スプライシング部位の少なくとも100,000個の訓練例を含む、ステップを含み、
前記訓練するステップは、
前記ヌクレオチド配列のワンホットエンコードされた訓練例を入力するステップであって、各ヌクレオチド配列が少なくとも401個のヌクレオチドを含み、前記少なくとも401個のヌクレオチドが、少なくとも1つの標的ヌクレオチドと、前記標的ヌクレオチドの上流および下流の各側の少なくとも200個の隣接ヌクレオチドの構成とを含む、ステップと、
逆伝搬によって、前記ACNNのフィルタのパラメータを調整して、前記ヌクレオチド配列内の各標的ヌクレオチドがドナースプライス部位、アクセプタースプライス部位、または非スプライシング部位である可能性に対するスコアを予測するステップと
を含み、
それにより、訓練されたACNNは、ワンホットエンコードされた、少なくとも1つの標的ヌクレオチドおよび各側の少なくとも200個の隣接ヌクレオチドの構成を含む少なくとも401個のヌクレオチドからなるpre-mRNAヌクレオチド配列を入力として受け入れるとともに、前記標的ヌクレオチドがドナースプライス部位、アクセプタースプライス部位、または非スプライシング部位である可能性のスコアを決定するように構成される、コンピュータ実施方法。 - pre-mRNAヌクレオチド配列の前記訓練例および入力されるpre-mRNAヌクレオチド配列は、各々、前記標的ヌクレオチドの各側の2,500個の隣接ヌクレオチドを含み、それにより、前記訓練されたACNNは、少なくとも5,001個のヌクレオチドからなるpre-mRNAヌクレオチド配列を入力として受け入れるように構成される、請求項1に記載のコンピュータ実施方法。
- pre-mRNAヌクレオチド配列の前記訓練例および入力されるpre-mRNAヌクレオチド配列には、各々、前記標的ヌクレオチドの5,000個の上流構成ヌクレオチドおよび5,000個の下流構成ヌクレオチドが隣接し、それにより、前記訓練されたACNNは、少なくとも10,001個のヌクレオチドからなるpre-mRNAヌクレオチド配列を入力として受け入れるように構成される、請求項1に記載のコンピュータ実施方法。
- pre-mRNAヌクレオチド配列の前記訓練例および入力されるpre-mRNAヌクレオチド配列は、各々、各側に500個のヌクレオチドが隣接する前記標的ヌクレオチドを含む、請求項1に記載のコンピュータ実施方法。
- pre-mRNAヌクレオチド配列の前記訓練例および入力されるpre-mRNAヌクレオチド配列は、各々、1,000個の上流構成ヌクレオチドおよび1,000個の下流構成ヌクレオチドが隣接する前記標的ヌクレオチドを含む、請求項1に記載のコンピュータ実施方法。
- ドナースプライス部位の少なくとも150,000個の訓練例、アクセプタースプライス部位の少なくとも150,000個の訓練例、および非スプライシング部位の少なくとも800,000,000個の訓練例で前記ACNNを訓練するステップをさらに含む、請求項1から5のいずれか一項に記載のコンピュータ実施方法。
- 前記ACNNは、残差ブロックのグループを含む、請求項1から6のいずれか一項に記載のコンピュータ実施方法。
- 残差ブロックの各グループは、残差ブロック内の畳み込みフィルタの数、残差ブロックの畳み込みウィンドウのサイズ、および残差ブロックの拡張係数によってパラメータ化される、請求項7に記載のコンピュータ実施方法。
- 前記拡張係数は、前記残差ブロックのグループ間で非指数関数的に変化する、請求項8に記載のコンピュータ実施方法。
- 畳み込みウィンドウの前記サイズは、残差ブロックのグループ間で異なる、請求項8または9に記載のコンピュータ実施方法。
- 前記ACNNは、4つの残差ブロックおよび少なくとも1つのスキップコネクションからなる少なくとも1つのグループを含み、各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ11、および拡張係数1を有する、請求項1から9のいずれか一項に記載のコンピュータ実施方法。
- 前記ACNNは、500個の上流構成ヌクレオチドおよび500個の下流構成ヌクレオチドが隣接する前記標的ヌクレオチドを含む入力で訓練され、当該入力を評価するように構成され、4つの残差ブロックおよび少なくとも2つのスキップコネクションからなる少なくとも2つのグループをさらに含み、
前記2つのグループのうち、第1のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ11、および拡張係数1を有し、第2のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ11、および拡張係数4を有する、請求項1に記載のコンピュータ実施方法。 - 前記ACNNは、1,000個の上流構成ヌクレオチドおよび1,000個の下流構成ヌクレオチドが隣接する前記標的ヌクレオチドを含む入力で訓練され、当該入力を評価するように構成され、4つの残差ブロックおよび少なくとも3つのスキップコネクションからなる少なくとも3つのグループをさらに含み、
前記3つのグループのうち、第1のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ11、および拡張係数1を有し、第2のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ11、および拡張係数4を有し、第3のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ21、および拡張係数19を有する、請求項1に記載のコンピュータ実施方法。 - 前記ACNNは、5,000個の上流構成ヌクレオチドおよび5,000個の下流構成ヌクレオチドが隣接する前記標的ヌクレオチドを含む入力で訓練され、当該入力を評価するように構成され、4つの残差ブロックおよび少なくとも4つのスキップコネクションからなる少なくとも4つのグループをさらに含み、
前記4つのグループのうち、第1のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ11、および拡張係数1を有し、第2のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ11、および拡張係数4を有し、第3のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ21、および拡張係数19を有し、第4のグループ内の各残差ブロックは、32個の畳み込みフィルタ、畳み込みウィンドウサイズ41、および拡張係数25を有する、請求項1に記載のコンピュータ実施方法。 - pre-mRNAゲノム配列内のスプライス部位の可能性を予測するための装置であって、
コンピュータ命令を格納したメモリと、
前記メモリに接続されたプロセッサと
を備え、
前記コンピュータ命令は、前記プロセッサによって実行されると、前記プロセッサに請求項1から14のいずれか一項に記載の方法の各ステップを実行させる、装置。 - コンピュータに請求項1から14のいずれか一項に記載の方法の各ステップを実行させるためのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。
- コンピュータに請求項1から14のいずれか一項に記載の方法の各ステップを実行させるためのコンピュータプログラム。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762573125P | 2017-10-16 | 2017-10-16 | |
US201762573135P | 2017-10-16 | 2017-10-16 | |
US201762573131P | 2017-10-16 | 2017-10-16 | |
US62/573,135 | 2017-10-16 | ||
US62/573,131 | 2017-10-16 | ||
US62/573,125 | 2017-10-16 | ||
US201862726158P | 2018-08-31 | 2018-08-31 | |
US62/726,158 | 2018-08-31 | ||
JP2019567663A JP2020525887A (ja) | 2017-10-16 | 2018-10-15 | ディープラーニングベースのスプライス部位分類 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567663A Division JP2020525887A (ja) | 2017-10-16 | 2018-10-15 | ディープラーニングベースのスプライス部位分類 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021007035A JP2021007035A (ja) | 2021-01-21 |
JP6980882B2 true JP6980882B2 (ja) | 2021-12-15 |
Family
ID=64051844
Family Applications (8)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567663A Ceased JP2020525887A (ja) | 2017-10-16 | 2018-10-15 | ディープラーニングベースのスプライス部位分類 |
JP2019567669A Active JP6896111B2 (ja) | 2017-10-16 | 2018-10-15 | ディープラーニングベースの異常スプライシング検出 |
JP2019567670A Active JP6840871B2 (ja) | 2017-10-16 | 2018-10-15 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
JP2020163488A Active JP6980882B2 (ja) | 2017-10-16 | 2020-09-29 | ディープラーニングベースのスプライス部位分類 |
JP2021023537A Active JP7297000B2 (ja) | 2017-10-16 | 2021-02-17 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
JP2022134301A Active JP7335406B2 (ja) | 2017-10-16 | 2022-08-25 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
JP2023133078A Ceased JP2023164433A (ja) | 2017-10-16 | 2023-08-17 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
JP2024114018A Pending JP2024161370A (ja) | 2017-10-16 | 2024-07-17 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567663A Ceased JP2020525887A (ja) | 2017-10-16 | 2018-10-15 | ディープラーニングベースのスプライス部位分類 |
JP2019567669A Active JP6896111B2 (ja) | 2017-10-16 | 2018-10-15 | ディープラーニングベースの異常スプライシング検出 |
JP2019567670A Active JP6840871B2 (ja) | 2017-10-16 | 2018-10-15 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
Family Applications After (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021023537A Active JP7297000B2 (ja) | 2017-10-16 | 2021-02-17 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
JP2022134301A Active JP7335406B2 (ja) | 2017-10-16 | 2022-08-25 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
JP2023133078A Ceased JP2023164433A (ja) | 2017-10-16 | 2023-08-17 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
JP2024114018A Pending JP2024161370A (ja) | 2017-10-16 | 2024-07-17 | 畳み込みニューラルネットワーク(cnns)を使用した異常スプライシング検出 |
Country Status (13)
Country | Link |
---|---|
US (6) | US11837324B2 (ja) |
EP (4) | EP4447053A3 (ja) |
JP (8) | JP2020525887A (ja) |
KR (6) | KR20220031940A (ja) |
CN (3) | CN110870020B (ja) |
AU (5) | AU2018350905B2 (ja) |
CA (1) | CA3066534A1 (ja) |
IL (5) | IL284711B2 (ja) |
MX (2) | MX2019014689A (ja) |
MY (1) | MY195477A (ja) |
NZ (3) | NZ759846A (ja) |
SG (3) | SG11201912781TA (ja) |
WO (3) | WO2019079200A1 (ja) |
Families Citing this family (129)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018165762A1 (en) * | 2017-03-17 | 2018-09-20 | Deep Genomics Incorporated | Systems and methods for determining effects of genetic variation on splice site selection |
WO2019079200A1 (en) * | 2017-10-16 | 2019-04-25 | Illumina, Inc. | ABERRANT SPLICE DETECTION BASED ON DEEP LEARNING |
US10609119B2 (en) * | 2017-11-03 | 2020-03-31 | Salesforce.Com, Inc. | Simultaneous optimization of multiple TCP parameters to improve download outcomes for network-based mobile applications |
US11461628B2 (en) * | 2017-11-03 | 2022-10-04 | Samsung Electronics Co., Ltd. | Method for optimizing neural networks |
CN107798382B (zh) * | 2017-11-21 | 2020-09-01 | 南京地平线机器人技术有限公司 | 用于适配卷积神经网络中的特征数据的方法和装置 |
CN107909148B (zh) | 2017-12-12 | 2020-10-20 | 南京地平线机器人技术有限公司 | 用于执行卷积神经网络中的卷积运算的装置 |
US10628920B2 (en) * | 2018-03-12 | 2020-04-21 | Ford Global Technologies, Llc | Generating a super-resolution depth-map |
US11604943B2 (en) * | 2018-05-16 | 2023-03-14 | Nec Corporation | Domain adaptation for structured output via disentangled representations |
CN110533158B (zh) * | 2018-05-25 | 2023-10-13 | 宏达国际电子股份有限公司 | 模型建构方法、系统及非易失性电脑可读取记录介质 |
US11482305B2 (en) | 2018-08-18 | 2022-10-25 | Synkrino Biotherapeutics, Inc. | Artificial intelligence analysis of RNA transcriptome for drug discovery |
US11429824B2 (en) * | 2018-09-11 | 2022-08-30 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
US12039450B2 (en) * | 2018-11-12 | 2024-07-16 | Advanced Micro Devices, Inc. | Adaptive batch reuse on deep memories |
WO2020097660A1 (en) * | 2018-11-15 | 2020-05-22 | The University Of Sydney | Methods of identifying genetic variants |
US11562046B2 (en) * | 2018-11-26 | 2023-01-24 | Samsung Electronics Co., Ltd. | Neural network processor using dyadic weight matrix and operation method thereof |
US11847567B1 (en) | 2018-12-05 | 2023-12-19 | Perceive Corporation | Loss-aware replication of neural network layers |
US12136039B1 (en) | 2018-12-05 | 2024-11-05 | Perceive Corporation | Optimizing global sparsity for neural network |
US12045725B1 (en) * | 2018-12-05 | 2024-07-23 | Perceive Corporation | Batch normalization for replicated layers of neural network |
US11605455B2 (en) * | 2018-12-22 | 2023-03-14 | GE Precision Healthcare LLC | Systems and methods for predicting outcomes using raw data |
KR20200089588A (ko) | 2019-01-17 | 2020-07-27 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11461653B2 (en) | 2019-01-23 | 2022-10-04 | StradVision, Inc. | Learning method and learning device for CNN using 1xK or Kx1 convolution to be used for hardware optimization, and testing method and testing device using the same |
US20200242736A1 (en) * | 2019-01-29 | 2020-07-30 | Nvidia Corporation | Method for few-shot unsupervised image-to-image translation |
US20200265270A1 (en) * | 2019-02-20 | 2020-08-20 | Caseware International Inc. | Mutual neighbors |
NL2023316B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based sequencing |
WO2020191389A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
NL2023314B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based quality scoring |
US11676685B2 (en) | 2019-03-21 | 2023-06-13 | Illumina, Inc. | Artificial intelligence-based quality scoring |
NL2023311B9 (en) * | 2019-03-21 | 2021-03-12 | Illumina Inc | Artificial intelligence-based generation of sequencing metadata |
NL2023312B1 (en) * | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based base calling |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
KR20200125212A (ko) * | 2019-04-26 | 2020-11-04 | 에스케이하이닉스 주식회사 | 신경망 가속 장치 및 그것의 동작 방법 |
WO2020223434A1 (en) * | 2019-04-30 | 2020-11-05 | The Trustees Of Columbia University In The City Of New York | Classifying neurological disease status using deep learning |
US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
US11423306B2 (en) | 2019-05-16 | 2022-08-23 | Illumina, Inc. | Systems and devices for characterization and performance analysis of pixel-based sequencing |
JP7326867B2 (ja) | 2019-05-21 | 2023-08-16 | 富士通株式会社 | 情報処理装置、情報処理プログラム及び情報処理方法 |
US11151412B2 (en) * | 2019-07-01 | 2021-10-19 | Everseen Limited | Systems and methods for determining actions performed by objects within images |
US11862146B2 (en) * | 2019-07-05 | 2024-01-02 | Asapp, Inc. | Multistream acoustic models with dilations |
US11537816B2 (en) * | 2019-07-16 | 2022-12-27 | Ancestry.Com Operations Inc. | Extraction of genealogy data from obituaries |
CN110243828B (zh) * | 2019-07-18 | 2021-07-30 | 华中科技大学 | 基于卷积神经网络的生物组织三维成像方法 |
CN110473520A (zh) * | 2019-07-19 | 2019-11-19 | 上海麦图信息科技有限公司 | 一种基于深度学习的空中管制中英文语音判别方法 |
CN110647990A (zh) * | 2019-09-18 | 2020-01-03 | 无锡信捷电气股份有限公司 | 基于灰色关联分析的深度卷积神经网络模型的裁剪方法 |
CN110751944B (zh) * | 2019-09-19 | 2024-09-24 | 平安科技(深圳)有限公司 | 构建语音识别模型的方法、装置、设备和存储介质 |
CN114402393A (zh) | 2019-09-20 | 2022-04-26 | 因美纳有限公司 | 基于人工智能的表观遗传 |
CN110675391B (zh) * | 2019-09-27 | 2022-11-18 | 联想(北京)有限公司 | 图像处理方法、装置、计算设备以及介质 |
US12120384B2 (en) * | 2019-09-27 | 2024-10-15 | Mcafee, Llc | Methods and apparatus to improve deepfake detection with explainability |
US12088473B2 (en) | 2019-10-23 | 2024-09-10 | Aryaka Networks, Inc. | Method, device and system for enhancing predictive classification of anomalous events in a cloud-based application acceleration as a service environment |
US11481604B2 (en) * | 2019-10-24 | 2022-10-25 | Alibaba Group Holding Limited | Apparatus and method for neural network processing |
CN110852117B (zh) * | 2019-11-08 | 2023-02-24 | 沈阳雅译网络技术有限公司 | 一种提升神经机器翻译效果的有效数据增强方法 |
US11948067B1 (en) | 2019-11-11 | 2024-04-02 | Perceive Corporation | Storing of intermediate computed values for subsequent use in a machine trained network |
CN110909865B (zh) * | 2019-11-18 | 2022-08-30 | 福州大学 | 边缘计算中基于分层张量分解的联邦学习方法 |
CN111093123B (zh) * | 2019-12-09 | 2020-12-18 | 华中科技大学 | 一种基于复合神经网络的灵活光网络时域均衡方法及系统 |
US11714831B2 (en) * | 2019-12-16 | 2023-08-01 | Nb Ventures, Inc. | Data processing and classification |
CN111026087B (zh) * | 2019-12-20 | 2021-02-09 | 中国船舶重工集团公司第七一九研究所 | 基于数据的含权重非线性工业系统故障检测方法及装置 |
US11394980B2 (en) * | 2020-01-05 | 2022-07-19 | Isize Limited | Preprocessing image data |
US20210232857A1 (en) * | 2020-01-28 | 2021-07-29 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
KR102426605B1 (ko) | 2020-02-18 | 2022-07-27 | 성재모 | 인공신경망 모델을 이용한 데이터 분석 방법 및 장치 |
KR20220143854A (ko) | 2020-02-20 | 2022-10-25 | 일루미나, 인코포레이티드 | 인공 지능 기반 다-대-다 염기 호출 |
KR102428033B1 (ko) * | 2020-02-28 | 2022-08-02 | 오픈엣지테크놀로지 주식회사 | 트랜스포즈드 콘볼루션 하드웨어 가속장치 |
CN111368834B (zh) * | 2020-03-13 | 2023-06-16 | 五邑大学 | 食品包装生产日期识别方法、装置及存储介质 |
CN111402951B (zh) * | 2020-03-17 | 2022-07-12 | 至本医疗科技(上海)有限公司 | 拷贝数变异预测方法、装置、计算机设备和存储介质 |
CN111401292B (zh) * | 2020-03-25 | 2023-05-26 | 成都东方天呈智能科技有限公司 | 一种融合红外图像训练的人脸识别网络构建方法 |
KR20210121657A (ko) * | 2020-03-31 | 2021-10-08 | 현대자동차주식회사 | 차량용 노면입력 하중 측정 시스템 및 방법 |
US12217156B2 (en) * | 2020-04-01 | 2025-02-04 | Sony Group Corporation | Computing temporal convolution networks in real time |
JP7622351B2 (ja) | 2020-04-17 | 2025-01-28 | 株式会社ニコン | 演算装置、演算方法、およびコンピュータプログラム |
CN111627145B (zh) * | 2020-05-19 | 2022-06-21 | 武汉卓目科技有限公司 | 一种图像精细镂空图文的识别方法及装置 |
US11645733B2 (en) | 2020-06-16 | 2023-05-09 | Bank Of America Corporation | System and method for providing artificial intelligence architectures to people with disabilities |
CN111798921B (zh) * | 2020-06-22 | 2022-08-05 | 武汉大学 | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 |
WO2022004815A1 (ja) | 2020-06-30 | 2022-01-06 | LeapMind株式会社 | ニューラルネットワーク生成装置、ニューラルネットワーク生成方法およびニューラルネットワーク生成プログラム |
US11074412B1 (en) * | 2020-07-25 | 2021-07-27 | Sas Institute Inc. | Machine learning classification system |
CN111931058B (zh) * | 2020-08-19 | 2024-01-05 | 中国科学院深圳先进技术研究院 | 一种基于自适应网络深度的序列推荐方法和系统 |
CN112183718B (zh) * | 2020-08-31 | 2023-10-10 | 华为技术有限公司 | 一种用于计算设备的深度学习训练方法和装置 |
US12205013B1 (en) | 2020-09-01 | 2025-01-21 | Amazon Technologies, Inc. | Accelerated convolution of neural networks |
US12008469B1 (en) * | 2020-09-01 | 2024-06-11 | Amazon Technologies, Inc. | Acceleration of neural networks with stacks of convolutional layers |
CN112052813B (zh) * | 2020-09-15 | 2023-12-19 | 中国人民解放军军事科学院军事医学研究院 | 染色体间易位识别方法、装置、电子设备及可读存储介质 |
US20220084499A1 (en) * | 2020-09-15 | 2022-03-17 | Yandex Europe Ag | Method and server for a text-to-speech processing |
US20220101112A1 (en) * | 2020-09-25 | 2022-03-31 | Nvidia Corporation | Neural network training using robust temporal ensembling |
CN112183494A (zh) * | 2020-11-05 | 2021-01-05 | 新华三大数据技术有限公司 | 基于神经网络的文字识别方法、装置及存储介质 |
US12014281B2 (en) | 2020-11-19 | 2024-06-18 | Merative Us L.P. | Automatic processing of electronic files to identify genetic variants |
US20220180219A1 (en) * | 2020-12-04 | 2022-06-09 | Biosense Webster (Israel) Ltd. | Automatic acquisition of electrophysical data points using automated setting of signal rejection criteria based on big data analysis |
CN112735524A (zh) * | 2020-12-28 | 2021-04-30 | 天津大学合肥创新发展研究院 | 一种基于神经网络的真实纳米孔测序信号滤波方法及装置 |
CN112699662B (zh) * | 2020-12-31 | 2022-08-16 | 太原理工大学 | 一种基于文本结构算法的虚假信息早期检测方法 |
WO2022159635A1 (en) * | 2021-01-20 | 2022-07-28 | The Texas A&M University System | Systems and methods for evaluation of structure and property of polynucleotides |
CN114492758A (zh) * | 2021-02-05 | 2022-05-13 | 谷歌有限责任公司 | 使用逐层损失来训练神经网络 |
US11132598B1 (en) * | 2021-02-23 | 2021-09-28 | Neuraville, Llc | System and method for humanoid robot control and cognitive self-improvement without programming |
CN113035280B (zh) * | 2021-03-02 | 2022-03-11 | 四川大学 | 一种基于深度学习的rbp结合位点预测算法 |
EP4302477A4 (en) * | 2021-03-05 | 2025-01-22 | Aeyedx Inc | SYSTEM AND METHOD FOR OBTAINING MEASUREMENTS OF INTRAOCULAR PRESSURE AND OTHER OCULAR PARAMETERS |
CN112863598A (zh) * | 2021-03-11 | 2021-05-28 | 同济大学 | 一种基于深度学习的dna序列基元挖掘方法和系统 |
WO2022203704A1 (en) * | 2021-03-26 | 2022-09-29 | Genome International Corporation | A unified portal for regulatory and splicing elements for genome analysis |
WO2022218509A1 (en) | 2021-04-13 | 2022-10-20 | NEC Laboratories Europe GmbH | A method for predicting an effect of a gene variant on an organism by means of a data processing system and a corresponding data processing system |
US12217829B2 (en) | 2021-04-15 | 2025-02-04 | Illumina, Inc. | Artificial intelligence-based analysis of protein three-dimensional (3D) structures |
US11514927B2 (en) * | 2021-04-16 | 2022-11-29 | Ubtech North America Research And Development Center Corp | System and method for multichannel speech detection |
US20220339781A1 (en) * | 2021-04-26 | 2022-10-27 | Genisama Llc | Annotation-Free Conscious Learning Robots Using Sensorimotor Training and Autonomous Imitation |
KR102525187B1 (ko) | 2021-05-12 | 2023-04-24 | 네이버클라우드 주식회사 | 시계열 기반 이상 탐지 방법 및 시스템 |
CN113239808B (zh) * | 2021-05-14 | 2024-11-19 | 广州广电运通金融电子股份有限公司 | 一种基于深度学习的指纹纹理提取方法、系统、装置及存储介质 |
CN113537279B (zh) * | 2021-05-18 | 2024-07-02 | 齐鲁工业大学 | 基于类残差卷积和lstm的covid-19识别系统 |
CN113192633B (zh) * | 2021-05-24 | 2022-05-31 | 山西大学 | 基于注意力机制的胃癌细粒度分类方法 |
CN113724783B (zh) * | 2021-06-16 | 2022-04-12 | 北京阅微基因技术股份有限公司 | 一种短串联重复序列重复数的检测和分型方法 |
WO2022272251A2 (en) * | 2021-06-21 | 2022-12-29 | The Trustees Of Princeton University | Systems and methods for analyzing genetic data for assessment of gene regulatory activity |
CN113469365B (zh) * | 2021-06-30 | 2024-03-19 | 上海寒武纪信息科技有限公司 | 基于神经网络模型的推理和编译方法及其相关产品 |
CN113807164A (zh) * | 2021-07-29 | 2021-12-17 | 四川天翼网络服务有限公司 | 一种基于余弦损失函数的人脸识别方法 |
CN113539362B (zh) * | 2021-08-11 | 2022-10-21 | 哈尔滨因极科技有限公司 | 一种突变候选基因的筛选方法 |
CN113611410B (zh) * | 2021-09-08 | 2023-03-24 | 温州医科大学附属第一医院 | 一种脂肪性肝炎风险诊断设备、系统及其残差网络的训练方法 |
CN113838524B (zh) * | 2021-09-27 | 2024-04-26 | 电子科技大学长三角研究院(衢州) | S-亚硝基化位点预测方法、模型训练方法及存储介质 |
CN114155910B (zh) * | 2021-11-12 | 2022-07-29 | 哈尔滨工业大学 | 一种癌症体细胞突变功能影响预测方法 |
TWI814216B (zh) * | 2022-01-19 | 2023-09-01 | 中國信託商業銀行股份有限公司 | 基於三重自學習的翻譯模型建立方法及裝置 |
US11513927B1 (en) * | 2022-01-25 | 2022-11-29 | Dell Products L.P. | Method and system for performing testing operations for information handling systems |
CN114566215B (zh) * | 2022-02-25 | 2024-03-22 | 桂林电子科技大学 | 一种双端成对的剪接位点预测方法 |
US20230410941A1 (en) * | 2022-03-24 | 2023-12-21 | Genome International Corporation | Identifying genome features in health and disease |
CN115530808A (zh) * | 2022-03-30 | 2022-12-30 | 山东衡昊信息技术有限公司 | 一种人体防摔的超前预警方法 |
CN114861776B (zh) * | 2022-04-21 | 2024-04-09 | 武汉大学 | 一种基于人工免疫技术的动态自适应网络异常检测方法 |
CN114882953B (zh) * | 2022-05-24 | 2024-12-13 | 南京邮电大学 | 一种基于序列特征的植物长链非编码rna预测方法 |
WO2024006702A1 (en) * | 2022-06-27 | 2024-01-04 | Foundation Medicine, Inc. | Methods and systems for predicting genotypic calls from whole-slide images |
CN115100183B (zh) * | 2022-07-11 | 2024-11-19 | 中南大学 | 基于深度可分离卷积模型的结石识别定位方法及相关设备 |
CN115273978B (zh) * | 2022-08-29 | 2023-04-07 | 西安交通大学 | 适用于多层谱系树的剪接表观遗传密码的获得方法 |
CN115685747B (zh) * | 2022-09-30 | 2024-11-22 | 西南交通大学 | 一种基于残差神经网络优化的模型预测控制方法 |
CN115406815B (zh) * | 2022-11-02 | 2023-02-03 | 杭州华得森生物技术有限公司 | 基于多源数据融合的肿瘤细胞检测设备及其方法 |
CN115438805B (zh) * | 2022-11-08 | 2023-01-24 | 江苏智云天工科技有限公司 | 基于工业质检领域机器学习模型的产品缺陷检测方法 |
CN115579060B (zh) * | 2022-12-08 | 2023-04-04 | 国家超级计算天津中心 | 基因位点检测方法、装置、设备及介质 |
CN116052769B (zh) * | 2023-02-15 | 2024-06-25 | 哈尔滨工业大学 | 一种基于稀疏编码的细胞基因表达量复现方法及系统 |
WO2024186682A1 (en) * | 2023-03-03 | 2024-09-12 | Superfluid Dx, Inc. | Systems and methods of detecting splice junctions in extracellular cell-free messenger rna |
GB2628173A (en) * | 2023-03-17 | 2024-09-18 | Thermo Fisher Scient Geneart Gmbh | Methods of producing modified nucleic acid sequences for eliminating adverse splicing events |
CN116701128A (zh) * | 2023-05-31 | 2023-09-05 | 上海创芯致锐互联网络有限公司 | 一种基于多端感应融合的led芯片烧录反馈监控系统 |
CN116976857B (zh) * | 2023-08-08 | 2024-03-12 | 中国铁建电气化局集团北方工程有限公司 | 一种基于深度学习的铁路电力设备预测性维护方法及系统 |
WO2025072380A1 (en) * | 2023-09-26 | 2025-04-03 | Illumina, Inc. | Determining splice sites in nucleotide sequences using conditional probabilities generated via a neural network |
CN117095743B (zh) * | 2023-10-17 | 2024-01-05 | 山东鲁润阿胶药业有限公司 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
CN117270455B (zh) * | 2023-11-20 | 2024-03-15 | 成都飞机工业(集团)有限责任公司 | 一种基于数字滤波的槽腔铣削刀轨优化方法 |
KR20250082802A (ko) * | 2023-11-30 | 2025-06-09 | 성균관대학교산학협력단 | 커널 형상 제어를 이용한 컨볼루션 연산 방법 및 장치 |
CN118626857A (zh) * | 2024-06-20 | 2024-09-10 | 航科广软(广州)数字科技有限公司 | 水中污染物极值预测方法和装置、电子设备及存储介质 |
CN118551402A (zh) * | 2024-07-29 | 2024-08-27 | 湖南德尔斐网络科技有限公司 | 云档案信息管理方法、装置、设备及存储介质 |
CN119400239A (zh) * | 2024-12-31 | 2025-02-07 | 苏州大学 | 基于对比学习的剪接变异体致病性预测方法及系统 |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2044616A1 (en) | 1989-10-26 | 1991-04-27 | Roger Y. Tsien | Dna sequencing |
US5641658A (en) | 1994-08-03 | 1997-06-24 | Mosaic Technologies, Inc. | Method for performing amplification of nucleic acid with two primers bound to a single solid support |
EP0701252A1 (en) | 1994-08-22 | 1996-03-13 | Canon Kabushiki Kaisha | Information recording/reproducing apparatus |
US20020055100A1 (en) | 1997-04-01 | 2002-05-09 | Kawashima Eric H. | Method of nucleic acid sequencing |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
WO2001047954A2 (en) * | 1999-12-23 | 2001-07-05 | Vlaams Interuniversitair Instituut Voor Biotechnologie Vzw | NOVEL cDNAs ENCODING CATENIN-BINDING PROTEINS WITH FUNCTION IN SIGNALLING AND/OR GENE REGULATION |
AU2001282881B2 (en) | 2000-07-07 | 2007-06-14 | Visigen Biotechnologies, Inc. | Real-time sequence determination |
EP1354064A2 (en) | 2000-12-01 | 2003-10-22 | Visigen Biotechnologies, Inc. | Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity |
AR031640A1 (es) | 2000-12-08 | 2003-09-24 | Applied Research Systems | Amplificacion isotermica de acidos nucleicos en un soporte solido |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
US20040002090A1 (en) | 2002-03-05 | 2004-01-01 | Pascal Mayer | Methods for detecting genome-wide sequence variations associated with a phenotype |
US20040067514A1 (en) * | 2002-07-17 | 2004-04-08 | Tabaska Jack E. | Methods for detecting translation initiation codons in nucleic acid sequences |
AU2003259350A1 (en) | 2002-08-23 | 2004-03-11 | Solexa Limited | Modified nucleotides for polynucleotide sequencing |
MXPA06004803A (es) | 2003-10-30 | 2006-07-03 | Battelle Memorial Institute | Deteccion de un objeto oculto. |
WO2006044078A2 (en) | 2004-09-17 | 2006-04-27 | Pacific Biosciences Of California, Inc. | Apparatus and method for analysis of molecules |
GB0427236D0 (en) | 2004-12-13 | 2005-01-12 | Solexa Ltd | Improved method of nucleotide detection |
CA2611671C (en) | 2005-06-15 | 2013-10-08 | Callida Genomics, Inc. | Single molecule arrays for genetic and chemical analysis |
GB0514910D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Method for sequencing a polynucleotide template |
US7405281B2 (en) | 2005-09-29 | 2008-07-29 | Pacific Biosciences Of California, Inc. | Fluorescent nucleotide analogs and uses therefor |
GB0522310D0 (en) | 2005-11-01 | 2005-12-07 | Solexa Ltd | Methods of preparing libraries of template polynucleotides |
WO2007107710A1 (en) | 2006-03-17 | 2007-09-27 | Solexa Limited | Isothermal methods for creating clonal single molecule arrays |
CN101460953B (zh) | 2006-03-31 | 2012-05-30 | 索雷克萨公司 | 用于合成分析的序列的系统和装置 |
JP2008027244A (ja) * | 2006-07-21 | 2008-02-07 | Univ Of Tokyo | エクソンアレイ発現プロファイルに基づく疾患特異的選択的スプライシング同定法 |
US7761538B2 (en) | 2006-08-30 | 2010-07-20 | Microsoft Corporation | Dynamically configuring, allocating and deploying computing systems |
US7754429B2 (en) | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
EP2089517A4 (en) | 2006-10-23 | 2010-10-20 | Pacific Biosciences California | POLYMERASEENZYME AND REAGENTS FOR ADVANCED NUCKIC ACID SEQUENCING |
US20100263066A1 (en) * | 2007-04-30 | 2010-10-14 | Medtronic, Inc | Inert dna sequences for efficient viral packaging and methods of use |
JP2009184245A (ja) | 2008-02-07 | 2009-08-20 | Sii Printek Inc | ヘッドチップユニット、インクジェットヘッド及びインクジェットプリンタ |
WO2012095872A1 (en) | 2011-01-13 | 2012-07-19 | Decode Genetics Ehf | Genetic variants as markers for use in urinary bladder cancer risk assessment, diagnosis, prognosis and treatment |
US20140199698A1 (en) * | 2013-01-14 | 2014-07-17 | Peter Keith Rogan | METHODS OF PREDICTING AND DETERMINING MUTATED mRNA SPLICE ISOFORMS |
US20160110498A1 (en) | 2013-03-13 | 2016-04-21 | Illumina, Inc. | Methods and systems for aligning repetitive dna elements |
ES2875892T3 (es) * | 2013-09-20 | 2021-11-11 | Spraying Systems Co | Boquilla de pulverización para craqueo catalítico fluidizado |
WO2016044233A1 (en) | 2014-09-18 | 2016-03-24 | Illumina, Inc. | Methods and systems for analyzing nucleic acid sequencing data |
WO2016145516A1 (en) | 2015-03-13 | 2016-09-22 | Deep Genomics Incorporated | System and method for training neural networks |
CA2894317C (en) | 2015-06-15 | 2023-08-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
US10185803B2 (en) | 2015-06-15 | 2019-01-22 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
HK1250819A1 (zh) * | 2015-06-22 | 2019-01-11 | 康希尔公司 | 預測基因序列變異的致病性的方法 |
US10002313B2 (en) * | 2015-12-15 | 2018-06-19 | Sighthound, Inc. | Deeply learned convolutional neural networks (CNNS) for object localization and classification |
BR112018012374A2 (pt) * | 2015-12-16 | 2018-12-04 | Gritstone Oncology, Inc. | identificação, fabricação e uso de neoantígeno |
WO2017184590A1 (en) * | 2016-04-18 | 2017-10-26 | The Broad Institute Inc. | Improved hla epitope prediction |
US11137462B2 (en) | 2016-06-10 | 2021-10-05 | Board Of Trustees Of Michigan State University | System and method for quantifying cell numbers in magnetic resonance imaging (MRI) |
US20180107927A1 (en) | 2016-06-15 | 2018-04-19 | Deep Genomics Incorporated | Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes |
US10572996B2 (en) * | 2016-06-28 | 2020-02-25 | Contextvision Ab | Method and system for detecting pathological anomalies in a digital pathology image and method for annotating a tissue slide |
CN106156538A (zh) * | 2016-06-29 | 2016-11-23 | 天津诺禾医学检验所有限公司 | 一种全基因组变异数据的注释方法和注释系统 |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
WO2019028725A1 (en) | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
WO2019079166A1 (en) | 2017-10-16 | 2019-04-25 | Illumina, Inc. | TECHNIQUES BASED ON DEEP LEARNING LEARNING OF NEURONAL NETWORKS WITH DEEP CONVOLUTION |
WO2019079200A1 (en) * | 2017-10-16 | 2019-04-25 | Illumina, Inc. | ABERRANT SPLICE DETECTION BASED ON DEEP LEARNING |
US10944767B2 (en) * | 2018-02-01 | 2021-03-09 | International Business Machines Corporation | Identifying artificial artifacts in input data to detect adversarial attacks |
-
2018
- 2018-10-15 WO PCT/US2018/055919 patent/WO2019079200A1/en not_active Application Discontinuation
- 2018-10-15 EP EP24175762.4A patent/EP4447053A3/en active Pending
- 2018-10-15 US US16/160,980 patent/US11837324B2/en active Active
- 2018-10-15 EP EP18796345.9A patent/EP3628099B1/en active Active
- 2018-10-15 EP EP18796347.5A patent/EP3622525B1/en active Active
- 2018-10-15 SG SG11201912781TA patent/SG11201912781TA/en unknown
- 2018-10-15 CN CN201880043867.1A patent/CN110870020B/zh active Active
- 2018-10-15 IL IL284711A patent/IL284711B2/en unknown
- 2018-10-15 MY MYPI2019007228A patent/MY195477A/en unknown
- 2018-10-15 KR KR1020227006590A patent/KR20220031940A/ko not_active Withdrawn
- 2018-10-15 EP EP18796346.7A patent/EP3622519B1/en active Active
- 2018-10-15 KR KR1020217005909A patent/KR102662206B1/ko active Active
- 2018-10-15 CN CN201880043829.6A patent/CN110914910B/zh active Active
- 2018-10-15 JP JP2019567663A patent/JP2020525887A/ja not_active Ceased
- 2018-10-15 SG SG11201912746QA patent/SG11201912746QA/en unknown
- 2018-10-15 CA CA3066534A patent/CA3066534A1/en active Pending
- 2018-10-15 AU AU2018350905A patent/AU2018350905B2/en not_active Ceased
- 2018-10-15 IL IL283203A patent/IL283203B2/en unknown
- 2018-10-15 US US16/160,984 patent/US11397889B2/en active Active
- 2018-10-15 WO PCT/US2018/055915 patent/WO2019079198A1/en not_active Application Discontinuation
- 2018-10-15 AU AU2018350909A patent/AU2018350909B2/en not_active Ceased
- 2018-10-15 NZ NZ759846A patent/NZ759846A/en not_active IP Right Cessation
- 2018-10-15 KR KR1020217034034A patent/KR102526103B1/ko active Active
- 2018-10-15 NZ NZ759880A patent/NZ759880A/en not_active IP Right Cessation
- 2018-10-15 CN CN201880043048.7A patent/CN110945594A/zh active Pending
- 2018-10-15 SG SG11201912745WA patent/SG11201912745WA/en unknown
- 2018-10-15 MX MX2019014689A patent/MX2019014689A/es unknown
- 2018-10-15 KR KR1020197038079A patent/KR102369894B1/ko active Active
- 2018-10-15 KR KR1020197036420A patent/KR102317911B1/ko active Active
- 2018-10-15 NZ NZ759879A patent/NZ759879A/en not_active IP Right Cessation
- 2018-10-15 AU AU2018350907A patent/AU2018350907B9/en not_active Ceased
- 2018-10-15 WO PCT/US2018/055923 patent/WO2019079202A1/en not_active Application Discontinuation
- 2018-10-15 KR KR1020197038078A patent/KR102223129B1/ko active Active
- 2018-10-15 US US16/160,978 patent/US11488009B2/en active Active
- 2018-10-15 JP JP2019567669A patent/JP6896111B2/ja active Active
- 2018-10-15 JP JP2019567670A patent/JP6840871B2/ja active Active
-
2019
- 2019-12-02 IL IL271115A patent/IL271115B/en active IP Right Grant
- 2019-12-02 IL IL271118A patent/IL271118B/en active IP Right Grant
- 2019-12-03 IL IL271150A patent/IL271150B/en unknown
- 2019-12-05 MX MX2022014869A patent/MX2022014869A/es unknown
-
2020
- 2020-09-29 JP JP2020163488A patent/JP6980882B2/ja active Active
-
2021
- 2021-02-17 JP JP2021023537A patent/JP7297000B2/ja active Active
- 2021-12-09 AU AU2021282482A patent/AU2021282482B2/en not_active Ceased
- 2021-12-21 AU AU2021290229A patent/AU2021290229A1/en not_active Withdrawn
-
2022
- 2022-07-26 US US17/874,158 patent/US20240013856A1/en active Pending
- 2022-08-25 JP JP2022134301A patent/JP7335406B2/ja active Active
- 2022-10-20 US US17/970,509 patent/US20230059877A1/en active Pending
-
2023
- 2023-08-17 JP JP2023133078A patent/JP2023164433A/ja not_active Ceased
- 2023-09-29 US US18/478,763 patent/US12165742B2/en active Active
-
2024
- 2024-07-17 JP JP2024114018A patent/JP2024161370A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6980882B2 (ja) | ディープラーニングベースのスプライス部位分類 | |
RU2780442C2 (ru) | Классификация сайтов сплайсинга на основе глубокого обучения | |
BR122024019035A2 (pt) | Sistema para predição da probabilidade de sítios de splice | |
BR112019027609B1 (pt) | Método implementado em computador para predizer a probabilidade de sítios de splice em sequências genômicas pré-mrna, e sistema para predição da probabilidade de sítios de splice em sequências genômicas pré-mrna |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6980882 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |