JP6907344B2 - 深層ニューラルネットワークに基づくバリアント分類器 - Google Patents
深層ニューラルネットワークに基づくバリアント分類器 Download PDFInfo
- Publication number
- JP6907344B2 JP6907344B2 JP2019567521A JP2019567521A JP6907344B2 JP 6907344 B2 JP6907344 B2 JP 6907344B2 JP 2019567521 A JP2019567521 A JP 2019567521A JP 2019567521 A JP2019567521 A JP 2019567521A JP 6907344 B2 JP6907344 B2 JP 6907344B2
- Authority
- JP
- Japan
- Prior art keywords
- variant
- neural network
- features
- metadata
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 137
- 238000000034 method Methods 0.000 claims description 85
- 125000003729 nucleotide group Chemical group 0.000 claims description 76
- 239000002773 nucleotide Substances 0.000 claims description 72
- 238000013527 convolutional neural network Methods 0.000 claims description 66
- 206010028980 Neoplasm Diseases 0.000 claims description 42
- 108700028369 Alleles Proteins 0.000 claims description 35
- 230000000392 somatic effect Effects 0.000 claims description 34
- 210000004602 germ cell Anatomy 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 30
- 230000035772 mutation Effects 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 23
- 201000011510 cancer Diseases 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 18
- 108090000623 proteins and genes Proteins 0.000 claims description 14
- 238000010200 validation analysis Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 150000001413 amino acids Chemical class 0.000 claims description 7
- 238000003780 insertion Methods 0.000 claims description 7
- 230000037431 insertion Effects 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 7
- 238000006467 substitution reaction Methods 0.000 claims description 7
- 102000004169 proteins and genes Human genes 0.000 claims description 5
- 239000003814 drug Substances 0.000 claims description 4
- 229940079593 drug Drugs 0.000 claims description 4
- 108020004705 Codon Proteins 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 129
- 238000012163 sequencing technique Methods 0.000 description 63
- 239000012634 fragment Substances 0.000 description 61
- 239000002585 base Substances 0.000 description 49
- 150000007523 nucleic acids Chemical group 0.000 description 33
- 108020004707 nucleic acids Proteins 0.000 description 25
- 102000039446 nucleic acids Human genes 0.000 description 25
- 210000004027 cell Anatomy 0.000 description 21
- 108020004414 DNA Proteins 0.000 description 17
- 108091028043 Nucleic acid sequence Proteins 0.000 description 17
- 239000003153 chemical reaction reagent Substances 0.000 description 17
- 210000000349 chromosome Anatomy 0.000 description 17
- 238000010606 normalization Methods 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 15
- 210000002569 neuron Anatomy 0.000 description 14
- 235000016795 Cola Nutrition 0.000 description 13
- 241001634499 Cola Species 0.000 description 13
- 235000011824 Cola pachycarpa Nutrition 0.000 description 13
- 230000008901 benefit Effects 0.000 description 13
- 241000995070 Nirvana Species 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 12
- 108700024394 Exon Proteins 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000003321 amplification Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 238000003776 cleavage reaction Methods 0.000 description 8
- 230000007017 scission Effects 0.000 description 8
- 230000000153 supplemental effect Effects 0.000 description 7
- 108091026890 Coding region Proteins 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 206010069754 Acquired gene mutation Diseases 0.000 description 5
- 230000002759 chromosomal effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 230000037439 somatic mutation Effects 0.000 description 5
- 241000894007 species Species 0.000 description 5
- 238000013526 transfer learning Methods 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000007850 fluorescent dye Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000000869 mutational effect Effects 0.000 description 4
- 102000054765 polymorphisms of proteins Human genes 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 235000018102 proteins Nutrition 0.000 description 4
- 108091093088 Amplicon Proteins 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000012530 fluid Substances 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- PHIYHIOQVWTXII-UHFFFAOYSA-N 3-amino-1-phenylpropan-1-ol Chemical compound NCCC(O)C1=CC=CC=C1 PHIYHIOQVWTXII-UHFFFAOYSA-N 0.000 description 2
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 2
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 2
- 102000004533 Endonucleases Human genes 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 108091092195 Intron Proteins 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000011010 flushing procedure Methods 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 210000003917 human chromosome Anatomy 0.000 description 2
- 201000005249 lung adenocarcinoma Diseases 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013188 needle biopsy Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 210000001082 somatic cell Anatomy 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 244000273256 Phragmites communis Species 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 241000238102 Scylla Species 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 230000007012 clinical effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000009615 deamination Effects 0.000 description 1
- 238000006481 deamination reaction Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- RDYMFSUJUZBWLH-UHFFFAOYSA-N endosulfan Chemical compound C12COS(=O)OCC2C2(Cl)C(Cl)=C(Cl)C1(Cl)C2(Cl)Cl RDYMFSUJUZBWLH-UHFFFAOYSA-N 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 102000054767 gene variant Human genes 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000007479 molecular analysis Methods 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- KHIWWQKSHDUIBK-UHFFFAOYSA-N periodic acid Chemical compound OI(=O)(=O)=O KHIWWQKSHDUIBK-UHFFFAOYSA-N 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000011012 sanitization Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Image Analysis (AREA)
Description
本出願は以下の出願の優先権または利益を主張する。
開示される技術は、人工知能タイプコンピュータならびにデジタルデータ処理システムならびに知性のエミュレーションのための対応するデータ処理方法および製品(すなわち、知識ベースシステム、推論システム、知識取得システム)に関し、不確実性を伴う推論のためのシステム(たとえば、ファジー論理システム)、適応システム、機械学習システム、および人工ニューラルネットワークを含む。具体的には、開示される技術は、データを分析するために畳み込みニューラルネットワーク(CNN)および全結合ニューラルネットワーク(FCNN)などの深層ニューラルネットワークを使用することに関する。
正常細胞から癌細胞への転換は、体細胞突然変異と呼ばれる個別の遺伝的な事象の連続により発生する。腫瘍変異負荷(TMB)は、シーケンシングされたDNAの100万塩基対当たりの体細胞突然変異の数の尺度であり、癌の免疫療法への応答を予測するための定量的な指標として使用される。生殖細胞系列バリアントのフィルタリングは、正確なTMB評価を得るための重要な前処理ステップであり、それは、体細胞バリアントのみがTMBを計算するために使用され、生殖細胞系列バリアントは体細胞バリアントよりはるかに一般的(100〜1000倍)であるからである。
限定はされないが、特許、特許出願、論説、書籍、論文、およびウェブページを含む、本出願において引用されるすべての文献および同様の資料は、そのような文献および同様の資料のフォーマットとは無関係に、全体が参照によって明確に引用される。限定はされないが、定義される用語、用語の使用法、説明される技法などを含めて、引用される文献および同様の資料のうちの1つまたは複数が、本出願とは異なる場合、または本出願と矛盾する場合、本出願が優先する。
いわゆるSojournerバリアント分類器を使用したバリアント分類のための、システムおよび様々な実装形態を説明する。システムおよびプロセスが図1を参照して説明される。図1はアーキテクチャの図であるので、説明を分かりやすくするためにいくつかの詳細が意図的に省略されている。図1の議論は次のように整理される。まず、図のモジュールが紹介され、それらの相互接続がそれに続く。次いで、モジュールの使用法がより詳細に説明される。
本明細書に記載される実装形態は、配列の変異を特定するために核酸配列を分析することに適用可能であり得る。実装形態は、遺伝子の場所/座の潜在的なバリアント/アレルを分析し、遺伝子座の遺伝子型を決定するために、言い換えると、座に対する遺伝子型コールを提供するために使用され得る。例として、核酸配列は、米国特許出願公開第2016/0085910号および米国特許出願公開第2013/0296175号において説明される方法およびシステムに従って分析されることがあり、これらの出願公開の完全な主題の全体が、本明細書において参照によって明確に引用される。
個の操作とを含むことがあり、この場合、ヌクレオチドのうちの2つ以上が同じラベルを有することが可能であり、それらを導入の既知の順序に基づいて区別することができる。
本明細書で開示される実装形態は、潜在的なバリアントコールを特定するためにシーケンシングデータを分析することを含む。バリアントコールは、以前に実行されたシーケンシング操作について記憶されたデータに対して実行され得る。加えて、または代わりに、バリアントコーリングは、シーケンシング操作が実行されている間にリアルタイムで実行され得る。サンプルリードの各々が、対応する遺伝子座を割り当てられる。サンプルリードは、サンプルリードのヌクレオチドの配列、または言い換えると、サンプルリード内のヌクレオチドの順序(たとえば、A、C、G、T)に基づいて、対応する遺伝子座に割り当てられ得る。この分析に基づいて、サンプルリードは、特定の遺伝子座の潜在的なバリアント/アレルを含むものとして指定され得る。サンプルリードは、遺伝子座の潜在的なバリアント/アレルを含むものとして指定された他のサンプルリードとともに収集(または集約または貯蔵)され得る。割当て操作はコーリング操作とも呼ばれることがあり、コーリング操作において、サンプルリードは特定の遺伝子場所/座と関連付けられる可能性があるものとして特定される。サンプルリードは、サンプルリードを他のサンプルリードから区別するヌクレオチドの1つまたは複数の識別配列(たとえば、プライマー配列)を位置特定するために分析され得る。より具体的には、識別配列は、特定の遺伝子座と関連付けられるものとしてサンプルリードを他のサンプルリードから特定し得る。
データベース124は、体細胞性または生殖細胞系列としてまだ分類されていないバリアントを含む。これらのバリアントは、上で説明されたシーケンシングプロセスおよびバリアントアノテーション/コールアプリケーションによって検出される。バリアントにまたがるDNAセグメントは、腫瘍サンプルまたは腫瘍-正常ペアのサンプルに由来することができる。バリアントは、一塩基多型(SNP)、挿入、または欠失であり得る。バリアントはまた、The Cancer Genome Atlas(TCGA)、International Cancer Genome Consortium(ICGC)、database of short genetic variants(dbSNP)、Catalog of Somatic Mutations in Cancer(COSMIC)、1000 Genomes Project(1000Genomes)、Exome Aggregation Consortium(ExAC)、およびExome Variant Server(EVS)などの、公に利用可能なデータベースからクローリングされてもよい。データベース124に追加される前に、バリアントは、癌との関連、癌のタイプ(たとえば、肺腺癌(LUAD))、バリアントアレル頻度(VAF)、およびコード領域(エクソン/イントロン)などの基準に基づいてフィルタリングされ得る。
図4は、データベース124の中の各々の分類されていないバリアントを、変異特性、リードマッピング統計、および発生頻度のそれぞれの値と相関付ける、メタデータ相関器116の一実装形態を示す。実装形態において、メタデータ相関器116は、1つまたは複数の民族性検出アプリケーションとともに、上で論じられたNirvana(商標)クリニカルグレードバリアントアノテーションアプリケーションを含む。メタデータ相関器116は、データベース126に記憶されているいわゆるメタデータ特徴量における相関を符号化する。相関付け400は、バリアントごとに実行され、データベース402、412、および422の中の特定のバリアントの属性を特定することと、発見された属性をバリアントと関連付けること/結びつけること/バリアントに付加することを含む。
以下は、メタデータ相関器116によって作り出されるメタデータ特徴量AからQの2つのサンプルである。上で論じられたように、メタデータ特徴量の一部は、ワンホット値またはブール値などのカテゴリカルデータを使用して符号化されるが、他は百分率または確率値などの連続的なデータを使用して符号化される。実装形態では、メタデータ特徴量のサブセットのみが、バリアントコーラへの入力として提供される。たとえば、いくつかの実装形態では、染色体特徴量、基準配列特徴量、および座標場所特徴量が、入力として提供されるメタデータ特徴量に含まれない。
バリアント分類器104のタスクは、データベース124の中の各バリアントを体細胞性または生殖細胞系列として分類することである。図6は、バリアント分類器104によって実行されるバリアント分類のアーキテクチャの例600を示す。標的場所におけるバリアントの各側に少なくとも10個の塩基がある、入力配列602が、畳み込みニューラルネットワーク(CNN)612への入力として供給される。畳み込みニューラルネットワーク612は、入力値間で畳み込み演算を実行する畳み込み層と、訓練の間の多数の勾配更新の繰り返しにわたって学習される畳み込みフィルタ(重みの行列)とを備える。
図8は、転移学習戦略800に従ったバリアント分類器104を訓練することの一実装形態と、それに続く、訓練されたバリアント分類器104の評価および検定とを示す。転移学習戦略800は、塩基データセット812(たとえば、TCGA)およびタスク(バリアント分類)についてバリアント分類器104を事前訓練すること(802)と、次いで、標的データベース832(たとえば、TST)およびタスク(バリアント分類)について訓練する(822)ために、畳み込みニューラルネットワーク(CNN)612および全結合ニューラルネットワーク674の学習された重み(フィルタ、ニューロン)を別の目的で使用し、または転移することとを伴う。このプロセスは、TCGAデータセット812およびTSTデータセット832が共通の特徴量を共有するので、良好に機能する。
図9は、エクソンデータに対するバリアントコーラ(Sojournerとも本明細書では呼ばれる)の性能結果900を示す。感度および特異度によって定量化されるこれらの結果は、非深層ニューラルネットワーク分類器を上回るSojournerの利点および優位性を立証する。
図17は、バリアント分類器104を実装するために使用され得るコンピュータシステム1700を示す。コンピュータシステム1700は、バスサブシステム1755を介していくつかの周辺デバイスと通信する、少なくとも1つの中央処理装置(CPU)1772を含む。これらの周辺デバイスは、たとえば、メモリデバイスおよびファイルストレージサブシステム1736、ユーザインターフェース入力デバイス1738、ユーザインターフェース出力デバイス1776、ならびにネットワークインターフェースサブシステム1774を含む、ストレージサブシステム1710を含み得る。入力デバイスおよび出力デバイスはコンピュータシステム1700とのユーザの対話を可能にする。ネットワークインターフェースサブシステム1774は、他のコンピュータシステムにおける対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
所与のバリアントが体細胞性であるか生殖細胞系列であるかを予測するために訓練された深層ニューラルネットワークを使用する、バリアント分類器のシステムおよび様々な実装形態を説明する。実装形態の1つまたは複数の特徴は基本の実装形態と組み合わされ得る。相互に排他的ではない実装形態は合成可能であると教示される。実装形態の1つまたは複数の特徴は他の実装形態と合成され得る。本開示は定期的にこれらの選択肢をユーザに思い起こさせる。これらの選択肢を繰り返し述べる記載がいくつかの実装形態において省略されていることは、先行するセクションにおいて教示された合成を限定するものと解釈されるべきではなく、これらの記載は以後の実装形態の各々へと前方に参照によって組み込まれる。
1. ニューラルネットワークで実装されるシステムであって、
並列に動作しメモリに結合される1つまたは複数のプロセッサ上で実行されるバリアント分類器であって、
少なくとも2つの畳み込み層を有する畳み込みニューラルネットワークを有し、畳み込み層の各々が、
標的場所におけるバリアントの各側に少なくとも10個の塩基がある入力配列を処理し、
中間の畳み込まれた特徴量を作り出す
ために1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有する、
バリアント分類器と、
バリアントの変異特性、
バリアントのリードマッピング統計、および
バリアントの発生頻度
を表すメタデータ特徴量のセットとバリアントを相関付けるメタデータ相関器と、
中間の畳み込まれた特徴量とメタデータ特徴量の組合せから導かれる特徴量配列を処理し、
バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力する
ために1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有する、全結合ニューラルネットワークとを備える、システム。
2. メタデータ相関器がさらに、バリアントが、異なるアミノ酸をコードする新しいコドンを作り出すようなコドンを変化させる非同義バリアントであるかどうかを指定する、アミノ酸影響特徴量とバリアントを相関付けるように構成される、条項1のニューラルネットワークで実装されるシステム。
3. メタデータ相関器がさらに、バリアントが一塩基多型であるか、挿入であるか、または欠失であるかのタイプを指定する、バリアントタイプ特徴量とバリアントを相関付けるように構成される、条項1または2のニューラルネットワークで実装されるシステム。
4. メタデータ相関器がさらに、バリアントを特定したリードマッピングの品質パラメータを指定するリードマッピング統計特徴量とバリアントを相関付けるように構成される、条項1から3のいずれかのニューラルネットワークで実装されるシステム。
5. メタデータ相関器がさらに、シーケンシングされた集団におけるバリアントのアレル頻度を指定する集団頻度特徴量とバリアントを相関付けるように構成される、条項1から4のいずれかのニューラルネットワークで実装されるシステム。
6. メタデータ相関器がさらに、シーケンシングされた集団から階層化された民族的亜集団におけるバリアントのアレル頻度を指定する亜集団頻度特徴量とバリアントを相関付けるように構成される、条項1から5のいずれかのニューラルネットワークで実装されるシステム。
7. メタデータ相関器がさらに、複数の種にわたる標的場所の保存率を指定する進化的保存特徴量とバリアントを相関付けるように構成される、条項1から6のいずれかのニューラルネットワークで実装されるシステム。
8. メタデータ相関器がさらに、臨床試験から決定されるようなバリアントの臨床的影響、薬物感受性、および組織適合性を指定する、臨床的有意性特徴量とバリアントを相関付けるように構成される、条項1から7のいずれかのニューラルネットワークで実装されるシステム。
9. メタデータ相関器がさらに、バリアントによって引き起こされるアミノ酸置換から生じるタンパク質の機能に対するバリアントの影響を指定する、機能的影響特徴量とバリアントを相関付けるように構成される、条項1から8のいずれかのニューラルネットワークで実装されるシステム。
10. メタデータ相関器がさらに、バリアントと関連付けられる腫瘍サンプルを提供した個人の民族的な構成を特定する確率を指定する、民族性予測特徴量とバリアントを相関付けるように構成される、条項1から9のいずれかのニューラルネットワークで実装されるシステム。
11. メタデータ相関器がさらに、シーケンシングされた癌性腫瘍におけるバリアントの頻度を指定する腫瘍頻度特徴量とバリアントを相関付けるように構成される、条項1から10のいずれかのニューラルネットワークで実装されるシステム。
12. メタデータ相関器がさらに、基準配列の中の標的場所におけるバリアントによって変異する少なくとも1つの塩基を指定する代替アレル特徴量とバリアントを相関付けるように構成される、条項1から11のいずれかのニューラルネットワークで実装されるシステム。
13. バリアント分類器の畳み込みニューラルネットワークおよび全結合ニューラルネットワークが、癌を引き起こす変異の第1のデータセットからの50万個の訓練例についてエンドツーエンドで一緒に訓練され、続いて癌を引き起こす変異の第2のデータセットからの5万個の訓練例について訓練される、条項1から12のいずれかのニューラルネットワークで実装されるシステム。
14. バリアント分類器の畳み込みニューラルネットワークおよび全結合ニューラルネットワークが、第2のデータセットだけから提供される妥当性確認データについてエンドツーエンドで一緒に検定される、条項1から13のいずれかのニューラルネットワークで実装されるシステム。
15. 畳み込み層および全結合層の各々の後に、少なくとも1つの正規化線形ユニット層が続く、条項1から14のいずれかのニューラルネットワークで実装されるシステム。
16. 畳み込み層および全結合層の各々の後に、少なくとも1つのバッチ正規化層が続く、条項1から15のいずれかのニューラルネットワークで実装されるシステム。
17. バリアントの各側に少なくとも19個の塩基がある、条項1から16のいずれかのニューラルネットワークで実装されるシステム。
18. 中間の特徴量をメタデータ特徴量と連結することによって特徴量配列を導く連結器を備えるようにさらに構成される、条項1から17のいずれかのニューラルネットワークで実装されるシステム。
19. メタデータ特徴量が1次元アレイにおいて符号化される、条項1〜18のいずれかのニューラルネットワークで実装されるシステム。
20. 入力配列がn次元アレイにおいて符号化され、n≧2である、条項1から19のいずれかのニューラルネットワークで実装されるシステム。
21. 畳み込み層の各々が少なくとも6つの畳み込みフィルタを有する、条項1から20のいずれかのニューラルネットワークで実装されるシステム。
22. バリアント分類のニューラルネットワークで実施される方法であって、
中間の畳み込まれた特徴量を作り出すために畳み込みニューラルネットワークを通じて入力配列を処理するステップであって、
畳み込みニューラルネットワークが少なくとも2つの畳み込み層を有し、畳み込み層の各々が1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有し、
入力配列が、各側に少なくとも10個の塩基がある標的場所におけるバリアントを有する、
ステップと、
バリアントの変異特性、
バリアントのリードマッピング統計、および
バリアントの発生頻度
を表すメタデータ特徴量のセットとバリアントを相関付けるステップと、
バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力するために、全結合ニューラルネットワークを通じて特徴量配列を処理するステップであって、
全結合ニューラルネットワークが、1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有し、
特徴量配列が、中間の畳み込まれた特徴量とメタデータ特徴量の組合せから導かれる、
ステップとを含む、方法。
23. 条項1に最終的に従属する条項の各々を実施する、条項22のニューラルネットワークで実装される方法。
24. バリアントを分類するためのコンピュータプログラム命令が焼かれた非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサで実行されると、
中間の畳み込まれた特徴量を作り出すために畳み込みニューラルネットワークを通じて入力配列を処理するステップであって、
畳み込みニューラルネットワークが少なくとも2つの畳み込み層を有し、畳み込み層の各々が1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有し、
入力配列が、各側に少なくとも10個の塩基がある標的場所におけるバリアントを有する、
ステップと、
バリアントの変異特性、
バリアントのリードマッピング統計、および
バリアントの発生頻度
を表すメタデータ特徴量のセットとバリアントを相関付けるステップと、
バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力するために、全結合ニューラルネットワークを通じて特徴量配列を処理するステップであって、
全結合ニューラルネットワークが、1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有し、
特徴量配列が、中間の畳み込まれた特徴量とメタデータ特徴量の組合せから導かれる、
ステップとを含む方法を実施する、非一時的コンピュータ可読記憶媒体。
25. 条項1に最終的に従属する条項の各々を実施する、条項24の非一時的コンピュータ可読記憶媒体。
26. ニューラルネットワークで実装されるシステムであって、
並列に動作しメモリに結合される1つまたは複数のプロセッサ上で実行されるバリアント分類器であって、
入力配列を処理して中間の畳み込まれた特徴量を作り出すように訓練される畳み込みニューラルネットワークを有し、
畳み込みニューラルネットワークが少なくとも2つの畳み込み層を有し、畳み込み層の各々が1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有し、
入力配列が、各側に少なくとも10個の塩基がある標的場所におけるバリアントを有し、バリアントと相関するメタデータ特徴量のセットを有し、
メタデータ特徴量が、バリアントの変異特性、バリアントのリードマッピング統計、およびバリアントの発生頻度を表す、
バリアント分類器と、
中間の畳み込まれた特徴量を処理し、バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力するように訓練される、全結合ニューラルネットワークであって、
1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有する、
全結合ニューラルネットワークとを備える、システム。
27. バリアントをメタデータ特徴量と相関付けるメタデータ相関器を備えるようにさらに構成される、条項26のニューラルネットワークで実装されるシステム。
28. 条項1〜17の各々を実施する、条項26または27のニューラルネットワークで実装されるシステム。
29. バリアント分類のニューラルネットワークで実施される方法であって、
中間の畳み込まれた特徴量を作り出すために畳み込みニューラルネットワークを通じて入力配列を処理するステップであって、
畳み込みニューラルネットワークが少なくとも2つの畳み込み層を有し、畳み込み層の各々が1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有し、
入力配列が、各側に少なくとも10個の塩基がある標的場所におけるバリアントを有し、バリアントと相関するメタデータ特徴量のセットを有し、
メタデータ特徴量が、バリアントの変異特性、バリアントのリードマッピング統計、およびバリアントの発生頻度を表す、
ステップと、
バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力するために、全結合ニューラルネットワークを通じて中間の畳み込まれた特徴量を処理するステップであって、
全結合ニューラルネットワークが、1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有する、
ステップとを含む、方法。
30. 条項22から23の各々を実施する、条項29のニューラルネットワークで実施される方法。
31. バリアントを分類するためのコンピュータプログラム命令が焼かれた非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサで実行されると、
中間の畳み込まれた特徴量を作り出すために畳み込みニューラルネットワークを通じて入力配列を処理するステップであって、
畳み込みニューラルネットワークが少なくとも2つの畳み込み層を有し、畳み込み層の各々が1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有し、
入力配列が、各側に少なくとも10個の塩基がある標的場所におけるバリアントを有し、バリアントと相関するメタデータ特徴量のセットを有し、
メタデータ特徴量が、バリアントの変異特性、バリアントのリードマッピング統計、およびバリアントの発生頻度を表す、
ステップと、
バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力するために、全結合ニューラルネットワークを通じて中間の畳み込まれた特徴量を処理するステップであって、
全結合ニューラルネットワークが、1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有する、
ステップとを含む方法を実施する、非一時的コンピュータ可読記憶媒体。
32. 条項22、23、29から30の1つまたは複数による方法を実施する、条項31の非一時的コンピュータ可読記憶媒体。
104 バリアント分類器
106 分類されたバリアント
112 連結器
114 ネットワーク
116 メタデータ相関器
122 特徴量配列
124 分類されていないバリアント
126 メタデータ特徴量
402 変異特性
412 リードマッピング統計
422 発生頻度
602 入力配列
612 畳み込みニューラルネットワーク
622 中間の畳み込まれた特徴量
626 メタデータ特徴量
634 特徴量配列
674 全結合ニューラルネットワーク
684 分類層
694 分類スコア
702 入力配列
704 畳み込み層
712 バッチ正規化&ReLU
714 出力
722 畳み込み層
724 バッチ正規化&ReLU
732 出力
734 平坦化層
742 メタデータ特徴量
744 連結層
752 出力
754 全結合層
762 バッチ正規化&ReLU
764 全結合層
772 バッチ正規化&ReLU
774 全結合層
782 バッチ正規化&ReLU
784 分類層
792 分類スコア
802 事前訓練
812 TCGAデータセット
822 訓練
832 TSTデータセット
842 評価
852 妥当性確認データ
862 推論
872 推論データ
1700 コンピュータシステム
1710 ストレージサブシステム
1722 メモリサブシステム
1732 メインランダムアクセスメモリ(RAM)
1734 読取り専用メモリ(ROM)
1736 ファイルストレージサブシステム
1738 ユーザインターフェース入力デバイス
1755 バスサブシステム
1772 中央処理装置(CPU)
1774 ネットワークインターフェースサブシステム
1776 ユーザインターフェース出力デバイス
1778 深層学習プロセッサ
Claims (17)
- ニューラルネットワークで実装されるシステムであって、
並列に動作しメモリに結合される1つまたは複数のプロセッサ上で実行されるバリアント分類器であって、
少なくとも2つの畳み込み層を有する畳み込みニューラルネットワークを有し、前記畳み込み層の各々が、
標的場所におけるバリアントの各側に少なくとも10個の塩基がある入力配列を処理し、
中間の畳み込まれた特徴量を作り出す
ために1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有する、
バリアント分類器と、
前記バリアントの変異特性、
前記バリアントのリードマッピング統計、および
前記バリアントの発生頻度
を表すメタデータ特徴量のセットと前記バリアントを相関付けるメタデータ相関器と、
前記中間の畳み込まれた特徴量と前記メタデータ特徴量の組合せから導かれる特徴量配列を処理し、
前記バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力する
ために前記1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有する、全結合ニューラルネットワークと
を備える、ニューラルネットワークで実装されるシステム。 - 前記メタデータ相関器がさらに、前記バリアントが、異なるアミノ酸をコードする新しいコドンを作り出すようなコドンを変化させる非同義バリアントであるかどうかを指定する、アミノ酸影響特徴量と前記バリアントを相関付けるように構成される、請求項1に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、前記バリアントが一塩基多型であるか、挿入であるか、または欠失であるかのタイプを指定する、バリアントタイプ特徴量と前記バリアントを相関付けるように構成される、請求項1または2に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、前記バリアントを特定したリードマッピングの品質パラメータを指定するリードマッピング統計特徴量と前記バリアントを相関付けるように構成される、請求項1から3のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、シーケンシングされた集団における前記バリアントのアレル頻度を指定する集団頻度特徴量と前記バリアントを相関付けるように構成される、請求項1から4のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、シーケンシングされた集団から階層化された民族的亜集団における前記バリアントのアレル頻度を指定する亜集団頻度特徴量と前記バリアントを相関付けるように構成される、請求項1から5のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、複数の種にわたる前記標的場所の保存率を指定する進化的保存特徴量と前記バリアントを相関付けるように構成される、請求項1から6のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、臨床試験から決定されるような前記バリアントの臨床的影響、薬物感受性、および組織適合性を指定する、臨床的有意性特徴量と前記バリアントを相関付けるように構成される、請求項1から7のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、前記バリアントによって引き起こされるアミノ酸置換から生じるタンパク質の機能に対する前記バリアントの影響を指定する、機能的影響特徴量と前記バリアントを相関付けるように構成される、請求項1から8のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、前記バリアントと関連付けられる腫瘍サンプルを提供した個人の民族的な構成を特定する確率を指定する、民族性予測特徴量と前記バリアントを相関付けるように構成される、請求項1から9のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、シーケンシングされた癌性腫瘍における前記バリアントの頻度を指定する腫瘍頻度特徴量と前記バリアントを相関付けるように構成される、請求項1から10のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記メタデータ相関器がさらに、基準配列の中の前記標的場所における前記バリアントによって変異する少なくとも1つの塩基を指定する代替アレル特徴量と前記バリアントを相関付けるように構成される、請求項1から11のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記バリアント分類器の前記畳み込みニューラルネットワークおよび前記全結合ニューラルネットワークが、癌を引き起こす変異の第1のデータセットからの50万個の訓練例についてエンドツーエンドで一緒に訓練され、続いて癌を引き起こす変異の第2のデータセットからの5万個の訓練例について訓練される、請求項1から12のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- 前記バリアント分類器の前記畳み込みニューラルネットワークおよび前記全結合ニューラルネットワークが、前記第2のデータセットだけから提供される妥当性確認データについてエンドツーエンドで一緒に検定される、請求項13に記載のニューラルネットワークで実装されるシステム。
- 前記畳み込み層および前記全結合層の各々の後に、少なくとも1つの正規化線形ユニット層が続く、請求項1から14のいずれか一項に記載のニューラルネットワークで実装されるシステム。
- バリアント分類のニューラルネットワークで実施される方法であって、
中間の畳み込まれた特徴量を作り出すために畳み込みニューラルネットワークを通じて入力配列を処理するステップであって、
前記畳み込みニューラルネットワークが少なくとも2つの畳み込み層を有し、前記畳み込み層の各々が1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有し、
前記入力配列が、各側に少なくとも10個の塩基がある標的場所におけるバリアントを有する、
ステップと、
前記バリアントの変異特性、
前記バリアントのリードマッピング統計、および
前記バリアントの発生頻度
を表すメタデータ特徴量のセットと前記バリアントを相関付けるステップと、
前記バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力するために、全結合ニューラルネットワークを通じて特徴量配列を処理するステップであって、
前記全結合ニューラルネットワークが、前記1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有し、
前記特徴量配列が、前記中間の畳み込まれた特徴量と前記メタデータ特徴量の組合せから導かれる、
ステップと
を含む、方法。 - バリアントを分類するためのコンピュータプログラム命令が焼かれた非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサで実行されると、
中間の畳み込まれた特徴量を作り出すために畳み込みニューラルネットワークを通じて入力配列を処理するステップであって、
前記畳み込みニューラルネットワークが少なくとも2つの畳み込み層を有し、前記畳み込み層の各々が1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも5つの畳み込みフィルタを有し、
前記入力配列が、各側に少なくとも10個の塩基がある標的場所におけるバリアントを有する、
ステップと、
前記バリアントの変異特性、
前記バリアントのリードマッピング統計、および
前記バリアントの発生頻度
を表すメタデータ特徴量のセットと前記バリアントを相関付けるステップと、
前記バリアントが体細胞バリアントである確率、生殖細胞系列バリアントである確率、またはノイズである確率に対する分類スコアを出力するために、全結合ニューラルネットワークを通じて特徴量配列を処理するステップであって、
前記全結合ニューラルネットワークが、前記1000回から数百万回の勾配更新の繰り返しにわたって訓練される少なくとも2つの全結合層を有し、
前記特徴量配列が、前記中間の畳み込まれた特徴量と前記メタデータ特徴量の組合せから導かれる、
ステップと
を含む方法を実施する、非一時的コンピュータ可読記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021108694A JP7143486B2 (ja) | 2018-04-12 | 2021-06-30 | 深層ニューラルネットワークに基づくバリアント分類器 |
JP2022146121A JP7302081B2 (ja) | 2018-04-12 | 2022-09-14 | 深層ニューラルネットワークに基づくバリアント分類器 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862656741P | 2018-04-12 | 2018-04-12 | |
US62/656,741 | 2018-04-12 | ||
NL2020861 | 2018-05-02 | ||
NL2020861A NL2020861B1 (en) | 2018-04-12 | 2018-05-02 | Variant classifier based on deep neural networks |
PCT/US2019/027362 WO2019200338A1 (en) | 2018-04-12 | 2019-04-12 | Variant classifier based on deep neural networks |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021108694A Division JP7143486B2 (ja) | 2018-04-12 | 2021-06-30 | 深層ニューラルネットワークに基づくバリアント分類器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020525886A JP2020525886A (ja) | 2020-08-27 |
JP6907344B2 true JP6907344B2 (ja) | 2021-07-21 |
Family
ID=62218283
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019567521A Active JP6907344B2 (ja) | 2018-04-12 | 2019-04-12 | 深層ニューラルネットワークに基づくバリアント分類器 |
JP2021108694A Active JP7143486B2 (ja) | 2018-04-12 | 2021-06-30 | 深層ニューラルネットワークに基づくバリアント分類器 |
JP2022146121A Active JP7302081B2 (ja) | 2018-04-12 | 2022-09-14 | 深層ニューラルネットワークに基づくバリアント分類器 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021108694A Active JP7143486B2 (ja) | 2018-04-12 | 2021-06-30 | 深層ニューラルネットワークに基づくバリアント分類器 |
JP2022146121A Active JP7302081B2 (ja) | 2018-04-12 | 2022-09-14 | 深層ニューラルネットワークに基づくバリアント分類器 |
Country Status (10)
Country | Link |
---|---|
EP (1) | EP3622524A1 (ja) |
JP (3) | JP6907344B2 (ja) |
KR (3) | KR102562419B1 (ja) |
CN (1) | CN110832597A (ja) |
AU (3) | AU2019253021A1 (ja) |
CA (1) | CA3065784A1 (ja) |
IL (1) | IL271092A (ja) |
NL (1) | NL2020861B1 (ja) |
NZ (1) | NZ759881A (ja) |
SG (1) | SG11201913009RA (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402951B (zh) * | 2020-03-17 | 2022-07-12 | 至本医疗科技(上海)有限公司 | 拷贝数变异预测方法、装置、计算机设备和存储介质 |
CN111584002B (zh) * | 2020-05-22 | 2022-04-29 | 至本医疗科技(上海)有限公司 | 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质 |
CN111755065B (zh) * | 2020-06-15 | 2024-05-17 | 重庆邮电大学 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
CN111933217B (zh) * | 2020-06-17 | 2024-04-05 | 西安电子科技大学 | 一种基于深度学习的dna模体长度预测方法及预测系统 |
CN112580288B (zh) * | 2020-12-03 | 2022-04-12 | 复旦大学 | 基于多梯度神经网络的半导体器件特性建模方法和系统 |
CN112528650B (zh) * | 2020-12-18 | 2024-04-02 | 恩亿科(北京)数据科技有限公司 | 一种Bert模型预训练方法、系统及计算机设备 |
CN113055393B (zh) * | 2021-03-26 | 2022-08-26 | 支付宝(杭州)信息技术有限公司 | 一种安全服务化方法、装置以及设备 |
CN113517021B (zh) * | 2021-06-09 | 2022-09-06 | 海南精准医疗科技有限公司 | 一种癌症驱动基因预测方法 |
CN113658641B (zh) * | 2021-07-20 | 2024-07-26 | 北京大学 | 一种噬菌体分类方法、装置、设备及存储介质 |
CN113781551B (zh) * | 2021-09-06 | 2023-10-31 | 中南民族大学 | 基于视觉感知的茶园植物状态监测管理系统及其方法 |
CN113876437B (zh) * | 2021-09-13 | 2024-02-23 | 上海微创医疗机器人(集团)股份有限公司 | 存储介质、机器人系统以及计算机设备 |
EP4435791A1 (en) * | 2021-11-19 | 2024-09-25 | BGI Genomics Co., Limited | Sequence variation analysis method and system, and storage medium |
KR102544002B1 (ko) * | 2022-03-10 | 2023-06-16 | 주식회사 아이엠비디엑스 | 체세포 변이 및 생식세포 변이를 구별하는 방법 |
WO2023215847A1 (en) * | 2022-05-05 | 2023-11-09 | Life Technologies Corporation | Methods for deep artificial neural networks for signal error correction |
CN115221871B (zh) * | 2022-06-24 | 2024-02-20 | 毕开龙 | 多特征融合的英文科技文献关键词提取方法 |
CN115019305B (zh) * | 2022-08-08 | 2022-11-11 | 成都西交智汇大数据科技有限公司 | 一种根尖细胞的识别方法、装置、设备及可读存储介质 |
WO2024072164A1 (en) * | 2022-09-30 | 2024-04-04 | Seegene, Inc. | Methods and devices for predicting dimerization in nucleic acid amplification reaction |
WO2024086143A1 (en) * | 2022-10-17 | 2024-04-25 | Proteinea Inc. | Native expansion of a sparse training dataset into a dense training dataset for supervised training of a synonymous variant sequence generator |
CN115662520B (zh) * | 2022-10-27 | 2023-04-14 | 黑龙江金域医学检验实验室有限公司 | Bcr/abl1融合基因的检测方法及相关设备 |
CN116720123B (zh) * | 2023-08-10 | 2023-11-28 | 中南大学 | 一种账户识别方法、装置、终端设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE9702008D0 (sv) * | 1997-05-28 | 1997-05-28 | Pharmacia Biotech Ab | A method and a system for nucleic acid seouence analysis |
EP3084002A4 (en) * | 2013-12-16 | 2017-08-23 | Complete Genomics, Inc. | Basecaller for dna sequencing using machine learning |
EP3286677A4 (en) * | 2015-04-22 | 2019-07-24 | Genepeeks, Inc. | DEVICE, SYSTEM AND METHOD FOR ASSESSING THE RISK OF VARIATION SPECIFIC GENDYS FUNCTION |
US10185803B2 (en) * | 2015-06-15 | 2019-01-22 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
CA2894317C (en) * | 2015-06-15 | 2023-08-15 | Deep Genomics Incorporated | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network |
WO2017114810A1 (en) * | 2015-12-31 | 2017-07-06 | Vito Nv | Methods, controllers and systems for the control of distribution systems using a neural network arhcitecture |
US20170286594A1 (en) * | 2016-03-29 | 2017-10-05 | Regeneron Pharmaceuticals, Inc. | Genetic Variant-Phenotype Analysis System And Methods Of Use |
WO2018006152A1 (en) * | 2016-07-04 | 2018-01-11 | Deep Genomics Incorporated | Systems and methods for generating and training convolutional neural networks using biological sequences and relevance scores derived from structural, biochemical, population and evolutionary data |
WO2018045228A2 (en) * | 2016-08-31 | 2018-03-08 | Intermountain Invention Management, Llc | Interpreting genomic results and providing targeted treatment options in cancer patients |
-
2018
- 2018-05-02 NL NL2020861A patent/NL2020861B1/en active
-
2019
- 2019-04-12 CN CN201980003278.5A patent/CN110832597A/zh active Pending
- 2019-04-12 AU AU2019253021A patent/AU2019253021A1/en not_active Abandoned
- 2019-04-12 EP EP19721182.4A patent/EP3622524A1/en active Pending
- 2019-04-12 SG SG11201913009RA patent/SG11201913009RA/en unknown
- 2019-04-12 NZ NZ759881A patent/NZ759881A/en unknown
- 2019-04-12 CA CA3065784A patent/CA3065784A1/en active Pending
- 2019-04-12 JP JP2019567521A patent/JP6907344B2/ja active Active
- 2019-04-12 KR KR1020227033229A patent/KR102562419B1/ko active IP Right Grant
- 2019-04-12 KR KR1020227010332A patent/KR102448484B1/ko active IP Right Grant
- 2019-04-12 KR KR1020197038076A patent/KR102381477B1/ko active IP Right Grant
- 2019-12-02 IL IL271092A patent/IL271092A/en unknown
-
2021
- 2021-06-30 JP JP2021108694A patent/JP7143486B2/ja active Active
- 2021-10-26 AU AU2021257920A patent/AU2021257920A1/en not_active Abandoned
-
2022
- 2022-09-14 JP JP2022146121A patent/JP7302081B2/ja active Active
-
2023
- 2023-12-14 AU AU2023282274A patent/AU2023282274A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2021170350A (ja) | 2021-10-28 |
JP7143486B2 (ja) | 2022-09-28 |
JP2022184947A (ja) | 2022-12-13 |
JP2020525886A (ja) | 2020-08-27 |
KR20220137142A (ko) | 2022-10-11 |
JP7302081B2 (ja) | 2023-07-03 |
EP3622524A1 (en) | 2020-03-18 |
CA3065784A1 (en) | 2019-10-17 |
AU2023282274A1 (en) | 2024-01-18 |
AU2021257920A1 (en) | 2021-11-18 |
KR102381477B1 (ko) | 2022-03-31 |
KR102562419B1 (ko) | 2023-08-01 |
CN110832597A (zh) | 2020-02-21 |
AU2019253021A1 (en) | 2019-12-19 |
KR20220043252A (ko) | 2022-04-05 |
KR20200011471A (ko) | 2020-02-03 |
SG11201913009RA (en) | 2020-01-30 |
NL2020861B1 (en) | 2019-10-22 |
NZ759881A (en) | 2022-09-30 |
KR102448484B1 (ko) | 2022-09-28 |
IL271092A (en) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6907344B2 (ja) | 深層ニューラルネットワークに基づくバリアント分類器 | |
US12073922B2 (en) | Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs) | |
JP6862581B2 (ja) | 深層学習ベースのバリアント分類器 | |
KR102314219B1 (ko) | 심층 컨볼루션 신경망의 앙상블을 트레이닝하기 위한 반감독 학습 | |
US20190318806A1 (en) | Variant Classifier Based on Deep Neural Networks | |
JP6785995B2 (ja) | 配列特定的エラー(sse)を引き起こす配列パターンを特定するための深層学習ベースのフレームワーク | |
NL2021473B1 (en) | DEEP LEARNING-BASED FRAMEWORK FOR IDENTIFYING SEQUENCE PATTERNS THAT CAUSE SEQUENCE-SPECIFIC ERRORS (SSEs) | |
NZ791625A (en) | Variant classifier based on deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6907344 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |