CN117581302A - 使用有缺口和非缺口的蛋白质样品的变体致病性预测器的组合学习和迁移学习 - Google Patents
使用有缺口和非缺口的蛋白质样品的变体致病性预测器的组合学习和迁移学习 Download PDFInfo
- Publication number
- CN117581302A CN117581302A CN202280046352.3A CN202280046352A CN117581302A CN 117581302 A CN117581302 A CN 117581302A CN 202280046352 A CN202280046352 A CN 202280046352A CN 117581302 A CN117581302 A CN 117581302A
- Authority
- CN
- China
- Prior art keywords
- amino acid
- pathogenicity
- gapped
- protein
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 619
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 605
- 230000007918 pathogenicity Effects 0.000 title claims abstract description 517
- 238000013526 transfer learning Methods 0.000 title description 14
- 238000012549 training Methods 0.000 claims abstract description 231
- 230000001717 pathogenic effect Effects 0.000 claims abstract description 135
- 108010026552 Proteome Proteins 0.000 claims abstract description 66
- 150000001413 amino acids Chemical class 0.000 claims description 1390
- 238000000034 method Methods 0.000 claims description 480
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 226
- 238000006467 substitution reaction Methods 0.000 claims description 109
- 239000002773 nucleotide Substances 0.000 claims description 101
- 125000003729 nucleotide group Chemical group 0.000 claims description 101
- 238000012545 processing Methods 0.000 claims description 67
- 238000010200 validation analysis Methods 0.000 claims description 36
- 230000000717 retained effect Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 15
- 230000000873 masking effect Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 53
- 235000001014 amino acid Nutrition 0.000 description 1506
- 235000018102 proteins Nutrition 0.000 description 524
- 230000000875 corresponding effect Effects 0.000 description 292
- 125000004429 atom Chemical group 0.000 description 234
- 102000005650 Notch Receptors Human genes 0.000 description 213
- 108010070047 Notch Receptors Proteins 0.000 description 213
- 108700028369 Alleles Proteins 0.000 description 47
- 230000008569 process Effects 0.000 description 44
- 230000006870 function Effects 0.000 description 40
- 229910052799 carbon Inorganic materials 0.000 description 39
- 238000001228 spectrum Methods 0.000 description 39
- 235000004279 alanine Nutrition 0.000 description 37
- 239000003550 marker Substances 0.000 description 36
- 238000013528 artificial neural network Methods 0.000 description 34
- 230000035772 mutation Effects 0.000 description 34
- 238000003780 insertion Methods 0.000 description 28
- 238000013527 convolutional neural network Methods 0.000 description 27
- 230000037431 insertion Effects 0.000 description 25
- 239000011159 matrix material Substances 0.000 description 23
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 22
- 108020004705 Codon Proteins 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 17
- 230000015654 memory Effects 0.000 description 16
- 241000288906 Primates Species 0.000 description 15
- 210000004027 cell Anatomy 0.000 description 15
- 241000894007 species Species 0.000 description 15
- -1 alanine amino acid Chemical class 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 14
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 13
- 238000011049 filling Methods 0.000 description 13
- 230000002068 genetic effect Effects 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000013507 mapping Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000002887 multiple sequence alignment Methods 0.000 description 10
- 230000000306 recurrent effect Effects 0.000 description 10
- 102100036789 Protein TBATA Human genes 0.000 description 9
- 101710118245 Protein TBATA Proteins 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 9
- 239000004475 Arginine Substances 0.000 description 8
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 8
- 101150072950 BRCA1 gene Proteins 0.000 description 8
- 102000053602 DNA Human genes 0.000 description 8
- 108020004414 DNA Proteins 0.000 description 8
- 108091028043 Nucleic acid sequence Proteins 0.000 description 8
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 8
- 239000013256 coordination polymer Substances 0.000 description 8
- 125000004435 hydrogen atom Chemical class [H]* 0.000 description 8
- 239000004471 Glycine Substances 0.000 description 7
- 230000004913 activation Effects 0.000 description 7
- 238000001994 activation Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 238000003556 assay Methods 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 102000040945 Transcription factor Human genes 0.000 description 6
- 108091023040 Transcription factor Proteins 0.000 description 6
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 238000005304 joining Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 108010077544 Chromatin Proteins 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 125000004432 carbon atom Chemical group C* 0.000 description 5
- 210000003483 chromatin Anatomy 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 229910052757 nitrogen Inorganic materials 0.000 description 5
- 125000004433 nitrogen atom Chemical group N* 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 125000004430 oxygen atom Chemical group O* 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 102000036365 BRCA1 Human genes 0.000 description 4
- 108700020463 BRCA1 Proteins 0.000 description 4
- 108700040618 BRCA1 Genes Proteins 0.000 description 4
- 125000000539 amino acid group Chemical group 0.000 description 4
- 235000003704 aspartic acid Nutrition 0.000 description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 4
- 208000029560 autism spectrum disease Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 229910052739 hydrogen Inorganic materials 0.000 description 4
- 239000001257 hydrogen Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 229910052760 oxygen Inorganic materials 0.000 description 4
- 239000001301 oxygen Substances 0.000 description 4
- 102000054765 polymorphisms of proteins Human genes 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 3
- 108090000144 Human Proteins Proteins 0.000 description 3
- 102000003839 Human Proteins Human genes 0.000 description 3
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000001627 detrimental effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 230000004853 protein function Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 2
- 206010058314 Dysplasia Diseases 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 101001066268 Homo sapiens Erythroid transcription factor Proteins 0.000 description 2
- 101000891113 Homo sapiens T-cell acute lymphocytic leukemia protein 1 Proteins 0.000 description 2
- 108091092195 Intron Proteins 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 102100024544 SURP and G-patch domain-containing protein 1 Human genes 0.000 description 2
- 101000702553 Schistosoma mansoni Antigen Sm21.7 Proteins 0.000 description 2
- 101000714192 Schistosoma mansoni Tegument antigen Proteins 0.000 description 2
- 108091081024 Start codon Proteins 0.000 description 2
- 102100040365 T-cell acute lymphocytic leukemia protein 1 Human genes 0.000 description 2
- 101150080074 TP53 gene Proteins 0.000 description 2
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 108091070501 miRNA Proteins 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 108700025694 p53 Genes Proteins 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000002741 site-directed mutagenesis Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 239000004474 valine Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 240000001436 Antirrhinum majus Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 102000003712 Complement factor B Human genes 0.000 description 1
- 108090000056 Complement factor B Proteins 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 208000012239 Developmental disease Diseases 0.000 description 1
- 102100031690 Erythroid transcription factor Human genes 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 108020005004 Guide RNA Proteins 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 108010021466 Mutant Proteins Proteins 0.000 description 1
- 102000008300 Mutant Proteins Human genes 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 241000995070 Nirvana Species 0.000 description 1
- BDUHCSBCVGXTJM-IZLXSDGUSA-N Nutlin-3 Chemical compound CC(C)OC1=CC(OC)=CC=C1C1=N[C@H](C=2C=CC(Cl)=CC=2)[C@H](C=2C=CC(Cl)=CC=2)N1C(=O)N1CC(=O)NCC1 BDUHCSBCVGXTJM-IZLXSDGUSA-N 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 102000015097 RNA Splicing Factors Human genes 0.000 description 1
- 108010039259 RNA Splicing Factors Proteins 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 150000001721 carbon Chemical group 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000002487 chromatin immunoprecipitation Methods 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001493 electron microscopy Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000002073 fluorescence micrograph Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- PNDPGZBMCMUPRI-UHFFFAOYSA-N iodine Chemical compound II PNDPGZBMCMUPRI-UHFFFAOYSA-N 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 108020001580 protein domains Proteins 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开的技术涉及训练致病性预测器。具体地,本发明公开的技术涉及存取包括针对蛋白质组中的相应位置的相应有缺口蛋白质样品的有缺口训练集,存取包括非缺口良性蛋白质样品和非缺口致病性蛋白质样品的非缺口训练集,生成这些有缺口蛋白质样品的相应有缺口空间表示,以及生成这些非缺口良性蛋白质样品和这些非缺口致病性蛋白质样品的相应非缺口空间表示,在一个或多个训练循环中训练致病性预测器并生成经训练的致病性预测器,其中这些训练循环中的每个训练循环使用来自这些相应有缺口空间表示的有缺口空间表示和来自这些相应非缺口空间表示的非缺口空间表示作为训练示例,以及使用这些经训练的致病性分类器来确定变体的致病性。
Description
优先权申请
本专利申请要求以下美国申请的优先权和权益。据此优先权申请以引用方式并入以用于所有目的。
2021年11月22日提交的名称为“Protein Structure-Based Protein LanguageModels”的美国非临时专利申请号17/533,091(代理人案卷号ILLM 1050-2/IP-2164-US),其要求2021年10月6日提交的美国临时专利申请号63/253,122(代理人案卷号ILLM 1050-1/IP-2164-PRV)、2021年11月19日提交的美国临时专利申请号63/281,579(代理人案卷号ILLM 1060-1/IP-2270-PRV)和2021年11月19日提交的美国临时专利申请号63/281,592(代理人案卷号ILLM 1061-1/IP-2271-PRV)的优先权;以及
2022年9月26日提交的名称为“Predicting Variant Pathogenicity FromEvolutionary Conservation Using Three-Dimensional(3D)Protein StructureVoxels”的美国非临时专利申请号17/953,286(代理人案卷号ILLM 1060-2/IP-2270-US),其要求2021年10月6日提交的美国临时专利申请号63/253,122(代理人案卷号ILLM 1050-1/IP-2164-PRV)、2021年11月19日提交的美国临时专利申请号63/281,579(代理人案卷号ILLM 1060-1/IP-2270-PRV)和2021年11月19日提交的美国临时专利申请号63/281,592(代理人案卷号ILLM 1061-1/IP-2271-PRV)的优先权;以及
2022年9月26日提交的名称为“Combined And Transfer Learning of a VariantPathogenicity Predictor Using Gapped and Non-Gapped Protein Samples”的美国非临时专利申请号17/953,293(代理人案卷号ILLM 1061-2/IP-2271-US),其要求2021年10月6日提交的美国临时专利申请号63/253,122(代理人案卷号ILLM 1050-1/IP-2164-PRV)、2021年11月19日提交的美国临时专利申请号63/281,579(代理人案卷号ILLM 1060-1/IP-2270-PRV)和2021年11月19日提交的美国临时专利申请号63/281,592(代理人案卷号ILLM1061-1/IP-2271-PRV)的优先权。
技术领域
本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,本发明所公开的技术涉及使用深度卷积神经网络来分析多通道体素化数据。
文献并入
以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:
Sundaram,L.等人,Predicting the clinical impact of human mutationwithdeep neural networks.Nat.Genet.50,1161-1170(2018);
Jaganathan,K.等人,Predicting splicing from primary sequence withdeeplearning.Cell 176,535-548(2019);
2017年10月16日提交的名称为“Training a Deep PathogenicityClassifierUsing Large-Scale Benign Training Data”的美国专利申请号62/573,144(代理人案卷号ILLM 1000-1/IP-1611-PRV);
2017年10月16日提交的名称为“Pathogenicity Classifier Based onDeepConvolutional Neural Networks(CNNs)”的美国专利申请号62/573,149(代理人案卷号ILLM 1000-2/IP-1612-PRV);
2017年10月16日提交的名称为“Deep Semi-Supervised LearningThatGenerates Large-Scale Pathogenic Training Data”的美国专利申请号62/573,153(代理人案卷号ILLM 1000-3/IP-1613-PRV);
2017年11月7日提交的名称为“Pathogenicity Classification ofGenomic DataUsing Deep Convolutional Neural Networks(CNNs)”的美国专利申请号62/582,898(代理人案卷号ILLM 1000-4/IP-1618-
PRV);
2018年10月15日提交的名称为“Deep Learning-Based Techniques forTraining Deep Convolutional Neural Networks”的美国专利申请号16/160,903(代理人案卷号ILLM 1000-5/IP-1611-US);
2018年10月15日提交的名称为“Deep Convolutional Neural Networks forVariant Classification”的美国专利申请号16/160,986(代理人案卷号ILLM 1000-6/IP-1612-US);
2018年10月15日提交的名称为“Semi-Supervised Learning for Training anEnsemble of Deep Convolutional Neural Networks”的美国专利申请号16/160,968(代理人案卷号ILLM 1000-7/IP-1613-US);
2019年5月8日提交的名称为“Deep Learning-Based Techniques forPreTraining Deep Convolutional Neural Networks”的美国专利申请号16/407,149(代理人案卷号ILLM 1010-1/IP-1734-US);
2021年4月15日提交的名称为“Deep Convolutional Neural Networks toPredict Variant Pathogenicity Using Three-Dimensional(3d)Protein Structures”的美国专利申请号17/232,056(代理人案卷号ILLM 1037-2/IP-2051-US);
2021年4月15日提交的名称为“Multi-Channel Protein Voxelization toPredict Variant Pathogenicity Using Deep Convolutional Neural Networks”的美国专利申请号63/175,495(代理人案卷号ILLM 1047-1/IP-2142-PRV);
2021年4月16日提交的名称为“Efficient Voxelization for Deep Learning”的美国专利申请号63/175,767(代理人案卷号ILLM 1048-1/IP-2143-PRV);以及
2021年9月7日提交的名称为“Artificial Intelligence-Based Analysis ofProtein Three-Dimensional(3d)Structures”的美国专利申请号17/468,411(代理人案卷号ILLM 1037-3/IP-2051A-US)的优先权。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
基因组学在广义上也称为功能基因组学,其目的是通过使用基因组规模的测定(诸如基因组测序、转录组谱分析和蛋白质组学)来表征生物体的每种基因组元件的功能。基因组学作为数据驱动的科学出现—其通过从基因组规模数据的探索中发现新特性而不是通过测试预先设想的模型和假设来运作。基因组学的应用包括发现基因型与表型之间的关联、发现用于患者分层的生物标志物、预测基因功能,以及绘制有生化活性的基因组区域(诸如转录增强子)的图表。
基因组学数据太大太复杂,以至于不能仅通过可视化研究成对相关来挖掘。相反,需要分析工具来支持发现未预料到的关系,以导出新的假设和模型,并进行预测。机器学习算法与假设和领域专业知识被硬编码的一些算法不同,被设计成自动检测数据中的模式。因此,机器学习算法适合于数据驱动的科学,尤其适合于基因组学。然而,机器学习算法的性能可能强烈依赖于如何表示数据,也就是说,如何计算每个变量(也称为特征)。例如,为了从荧光显微镜图像中将肿瘤分类为恶性或良性,预处理算法可以检测细胞、识别细胞类型,以及生成针对每种细胞类型的细胞计数列表。
机器学习模型可以将估计的细胞计数(是手工特征的实例)作为输入特征来对肿瘤进行分类。核心问题是分类性能严重依赖于这些特征的质量和相关性。例如,相关视觉特征(诸如细胞形态、细胞间的距离或器官内的定位)在细胞计数中没有被捕捉到,对数据的这种不完整表示可能降低分类准确度。
深度学习(机器学习的分支学科)通过将特征的计算嵌入到机器学习模型本身中以产生端对端模型来解决这个问题。该成果已经通过开发深度神经网络来实现,这些深度神经网络是包括连续基本运算的机器学习模型,其中连续基本运算通过取在先运算的结果作为输入来计算越来越复杂的特征。深度神经网络能够通过发现高复杂度的相关特征(诸如上述实例中的细胞形态和细胞的空间组织)来提高预测准确性。通过数据爆炸、算法的进步以及计算能力的显著增加,特别是通过使用图形处理单元(GPU),已经能够实现深度神经网络的构建和训练。
监督学习的目标是获得将特征取作输入并返回对所谓目标变量的预测的模型。监督学习问题的一个示例是预测内含子是否被剪接掉RNA上的(目标)给定特征,诸如典型剪接位点序列是否存在、剪接分支点的位置或内含子长度。训练机器学习模型是指学习其参数,这通常涉及使关于训练数据的损失函数最小化,目的是对不可见数据进行准确预测。
对于计算生物学中的许多监督学习问题,输入数据可以表示为具有多个列或特征的表格,每个列或特征包含潜在可用于做出预测的数值数据或分类数据。一些输入数据自然地表示为表格中的特征(诸如温度或时间),而其他输入数据需要首先使用被称为特征提取的过程来变换(诸如将脱氧核糖核酸(DNA)序列变换为k-mer计数),以符合表格表示。对于内含子剪接预测问题,典型剪接位点序列是否存在、剪接分支点的位置和内含子长度可以是以表格格式收集的预处理特征。表格数据是多种多样监督机器学习模型的标准,范围从简单的线性模型(诸如逻辑回归)到更灵活的非线性模型(诸如神经网络),以及许多其他模型。
逻辑回归是二元分类器,即,预测二元目标变量的监督学习模型。具体地,逻辑回归通过使用S型函数(一类激活函数)计算映射到[0,1]区间的输入特征的加权和,来预测正类的概率。逻辑回归或使用不同激活函数的其他线性分类器的参数是加权和中的权重。当用输入特征的加权和不能很好地区分类别(例如,被剪接掉或未被剪接掉的内含子的类别)时,线性分类器失效。为了提高预测性能,可以通过以新的方式(例如,通过取幂或成对乘积)变换或组合现有特征来手动添加新的输入特征。
神经网络使用隐藏层来自动学习这些非线性特征变换。每个隐藏层可以被认为是多个线性模型,其输出由非线性激活函数变换,该非线性激活函数诸如S型函数或更流行的整流线性单位函数(ReLU)。这些层一起将输入特征组成相关的复模式,这有助于区分两个类的任务。
深度神经网络使用许多隐藏层,其中一层在每个神经元接收到来自前一层的所有神经元的输入时,被称为是全连接层。神经网络通常使用随机梯度下降来训练,其中随机梯度下降是适合于在非常大的数据集上训练模型的一种算法。使用现代深度学习框架实现神经网络使得能够使用不同的架构和数据集进行快速原型设计。全连接神经网络可用于许多基因组学应用,包括从序列特征(诸如存在剪接因子的结合基序或序列保守性)预测针对给定序列剪接的外显子的百分比;将潜在致病遗传变体按重要性排序;以及使用诸如染色质标记、基因表达和进化保守性的特征预测给定基因组区域中的顺式调控元件。
为了进行有效的预测,必须考虑空间数据和纵向数据的局部依赖性。例如,打乱DNA序列或图像的像素会严重破坏信息模式。这些局部依赖性设置除表格数据之外的空间或纵向数据,对于表格数据,特征的排序是任意的。考虑将基因组区域分类为由特定转录因子结合或不由特定转录因子结合的问题,其中结合区域被定义为染色质免疫沉淀、随后是测序(ChIP-seq)数据中的高置信度结合事件。转录因子通过识别序列基序与DNA结合。基于序列导出特征的全连接层,诸如序列中的k-mer实例的数量或位置权重矩阵(PWM)匹配,可以用于该任务。由于k-mer或PWM实例频率对于在序列内将基序移位具有稳健性,所以此类模型可以很好地推广到具有位于不同位置的相同基序的序列。然而,它们却不能识别转录因子结合依赖于具有明确定义间隔的多个基序的组合的模式。此外,可能的k-mer数量随着k-mer长度呈指数增加,这对存储和过拟合两方面提出了挑战。
卷积层是全连接层的一种特殊形式,其中相同的全连接层被局部地(例如在6bp窗口中)应用于所有序列位置。该方法也可以被视为使用多个PWM来扫描序列,例如,针对转录因子GATA1和TAL1。通过在不同位置使用相同的模型参数,参数总数急剧减少,并且网络能够检测在训练期间未看到的位置处的基序。每个卷积层通过在每个位置处产生标量值来用几个滤波器对序列进行扫描,该标量值量化滤波器与序列之间的匹配度。如在全连接神经网络中那样,在每一层处应用非线性激活函数(通常为ReLU)。接下来,应用池化操作,其将激活聚集在整个位置轴上的连续仓中,通常取每个通道的最大激活或平均激活。池化减小了有效序列长度,并使信号变得粗糙。随后的卷积层组成前一层的输出,并且能够检测GATA1基序和TAL1基序是否存在于某个距离范围内。最后,这些卷积层的输出可以用作全连接神经网络的输入,以执行最终的预测任务。因此,不同类型的神经网络层(例如,全连接层和卷积层)可以在单个神经网络内组合。
卷积神经网络(CNN)仅在DNA序列基础上就能够预测各种分子表型。应用包括对转录因子结合位点进行分类,以及预测分子表型,诸如染色质特征、DNA接触图、DNA甲基化、基因表达、翻译效率、RBP结合与微小RNA(miRNA)目标。卷积神经网络除了从序列预测分子表型之外,还可以应用于传统上由手工生物信息学流水线解决的更多技术任务。例如,卷积神经网络可以预测向导RNA的特异性、对ChIP-seq进行去噪、提高Hi-C数据分辨率、从DNA序列预测来源实验室,以及检出遗传变体。卷积神经网络也已经用于对基因组中的长程依赖性进行建模。尽管相互作用的调控元件在未折叠的线性DNA序列上可能远离彼此定位,但这些元件在实际的3D染色质构象中通常彼此邻近。因此,虽然由线性DNA序列对分子表型建模是对染色质的粗略近似,但却可以通过允许长范围依赖性和允许模型隐含地学习3D组织的各方面(诸如启动子-增强子成环)来改进。这通过使用扩张的卷积来实现,其具有高达32kb的感受野。扩张的卷积还允许使用10kb的感受野从序列预测剪接位点,从而使得能够跨越与典型的人内含子一样长的距离来整合遗传序列(参见Jaganathan,K.等人,Predictingsplicing from primary sequence with deep learning.Cell 176,535-548(2019))。
不同类型的神经网络可以由它们的参数共享方案来表征。例如,全连接层不具有参数共享,而卷积层通过在其输入的每个位置处应用相同的滤波器来施加平移不变性。递归神经网络(RNN)是用于处理实现不同参数共享方案的顺序数据(诸如DNA序列或时间序列)的对卷积神经网络的替代方案。递归神经网络对每个序列元素应用相同的操作。该操作将前一个序列元素和新输入作为存储器的输入。该操作将存储器更新并任选地发出输出,该输出被传递到后续层或被直接用作模型预测结果。由于在每个序列元素处应用相同的模型,递归神经网络对于所处理的序列中的位置索引保持不变。例如,递归神经网络可以检测DNA序列中的开放阅读框,而不管在序列中的位置是怎样的。该任务需要识别特定系列的输入,诸如起始密码子之后是框内终止密码子。
递归神经网络优于卷积神经网络的主要优势在于,在理论上,它们能够经由存储器通过无限长的序列来携带信息。此外,递归神经网络可以自然地处理长度变化很大的序列,诸如mRNA序列。然而,在序列建模任务(例如音频合成和机器翻译)方面,与各种技巧(诸如扩张的卷积)组合的卷积神经网络可以达到与递归神经网络相当、甚至更好的性能。递归神经网络可以聚集卷积神经网络的输出,用于预测单细胞DNA甲基化状态、RBP结合、转录因子结合和DNA可及性。此外,由于递归神经网络应用顺序操作,所以不能轻易并行化,因此计算速度比卷积神经网络慢得多。
虽然每个人都有独特的遗传密码,但是人类遗传密码的大部分是所有人共有的。在一些情况下,人类遗传密码可以包括异常值,称为遗传变体,其在相对小群的人群的个体之中可能是共有的。例如,特定的人蛋白质可以包含特定的氨基酸序列,而该蛋白质的变体可以在其他方面相同的特定序列中有一个氨基酸不同。
遗传变体可以具有致病性,从而导致疾病。尽管大多数这样的遗传变体已经通过自然选择从基因组中耗尽,但是识别哪些遗传变体可能具有致病性的能力可以帮助研究人员集中于这些遗传变体以获得对相应疾病及其诊断、治疗或治愈的理解。对数百万个人类遗传变体的临床解释仍不清楚。一些最常见的致病性变体是改变蛋白质氨基酸的单核苷酸错义突变。然而,并非所有的错义突变都具有致病性。
可以直接从生物序列预测分子表型的模型可以用作计算机扰动工具来探测遗传变异与表型变异之间的关联,并且已经成为用于数量性状基因座识别和变体优先排序的新方法。这些方法非常重要,因为通过复杂表型的全基因组关联分析识别的大多数变体是非编码的,这使得估计它们对表型的作用和贡献具有挑战性。此外,连锁不平衡导致变体的块被共遗传,这在查明单个因果变体方面产生了困难。因此,可以用作评估此类变体的影响的探询工具的基于序列的深度学习模型提供了一种有前途的方法来发现复杂表型的潜在驱动因素。一个示例包括从两种变体在转录因子结合、染色质可及性或基因表达预测方面之间的差异间接预测非编码单核苷酸变体和短插入或缺失(indel)的影响。另一个示例包括根据序列或根据遗传变体对剪接的定量影响,来预测新剪接位点的产生。
应用用于预测变体效应的端对端深度学习方法,从蛋白质序列和序列保守性数据预测错义变体的致病性(参见Sundaram,L.等人,Predicting the clinical impact ofhuman mutation with deep neural networks.Nat.Genet.50,1161-1170(2018),本文中称为“PrimateAI”)。PrimateAI使用在已知具有致病性的变体上训练的深度神经网络,其中使用跨物种信息进行数据增强。特别地,PrimateAI使用野生型蛋白质和突变型蛋白质的序列来比较差异,并且使用受过训练的深度神经网络来决定突变的致病性。这种利用蛋白质序列进行致病性预测的方法是有前途的,因为其可以避免圆度问题和对先前知识的过度拟合。然而,与有效训练深度神经网络的数据数量充分相比,ClinVar中可用的临床数据数量相对较少。为了克服这种数据匮乏,PrimateAI使用常见的人类变体和灵长类动物变体作为良性数据,而将基于三核苷酸背景的模拟变体用作未标记数据。
当直接根据序列比对进行训练时,PrimateAI的性能优于现有方法。PrimateAI直接从由约120,000个人类样品组成的训练数据中学习重要的蛋白质结构域、保守氨基酸位置和序列依赖性。PrimateAI在区分候选发育障碍基因中的良性和致病性从头突变方面,以及在复制ClinVar中的先验知识方面,明显胜过其他变体致病性预测工具的性能。这些结果表明PrimateAI是变体分类工具的重要进步,可以减少临床报告对先验知识的依赖。
蛋白质生物学的核心是理解结构元件如何产生观察到的功能。蛋白质结构数据过剩使得能够开发计算方法来系统地导出支配结构-功能关系的规则。然而,这些方法的性能在很大程度上取决于对蛋白质结构表示的选择。
蛋白质位点是蛋白质结构内的微环境,通过其结构或功能作用来区分。位点可以由三维(3D)位置和该位置周围的其中存在结构或功能的局部邻域来定义。合理蛋白质工程的核心是理解氨基酸的结构排列如何在蛋白质位点内产生功能特征。确定蛋白质内各个氨基酸的结构和功能作用提供了有助于工程化和改变蛋白质功能的信息。识别功能或结构上重要的氨基酸允许集中的工程努力,诸如用于改变靶蛋白功能特性的定点诱变。替代性地,这种知识可以有助于避免会破坏期望功能的工程设计。
由于已经确定结构比序列保守得多,所以蛋白质结构数据增加提供了使用数据驱动的方法系统地研究支配结构-功能关系的潜在模式的机会。任何蛋白质计算分析的基本方面都是如何表示蛋白质结构信息。机器学习方法的性能通常更多地取决于对数据表示的选择,而不是所采用的机器学习算法。良好的表示高效地捕获最关键的信息,而差的表示产生没有底层图案的噪声分布。
蛋白质结构过剩和最近深度学习算法的成功提供了开发用于自动提取蛋白质结构的任务特异性表示的工具的机会。因此,有机会使用3D蛋白质结构的多通道体素化表示作为深度神经网络的输入来预测变体的致病性。
附图说明
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了本发明所公开的技术的各种实施方式,其中:
图1是展示根据本发明所公开技术的各种具体实施的用于确定变体致病性的系统的过程的流程图。
图2示意性地展示了根据本发明所公开技术的一个具体实施,蛋白质的示例参考氨基酸序列和该蛋白质的替代性氨基酸序列。
图3展示了根据本发明所公开技术的一个具体实施,图2的参考氨基酸序列中氨基酸原子的氨基酸式分类。
图4展示了根据本发明所公开技术的一个具体实施,图3中在氨基酸基础上分类的α-碳原子的3D原子坐标的氨基酸式归属。
图5示意性地展示了根据本发明所公开技术的一个具体实施的确定体素式距离值的过程。
图6示出了根据本发明所公开技术的一个具体实施的21个氨基酸式距离通道的实例。
图7是根据本发明所公开技术的一个具体实施的距离通道张量的示意图。
图8示出了根据本发明所公开技术的一个具体实施,来自图2的参考氨基酸和替代性氨基酸的独热编码。
图9是根据本发明所公开技术的一个具体实施,体素化独热编码的参考氨基酸和体素化独热编码的变体/替代性氨基酸的示意图。
图10示意性地展示了根据本发明所公开技术的一个具体实施的连结过程,该连结过程按体素方式将图7的距离通道张量与参考等位基因张量连结。
图11示意性地展示了根据本发明所公开技术的一个具体实施的连结过程,该连结过程按体素方式将图7的距离通道张量、图10的参考等位基因张量和替代性等位基因张量连结。
图12是展示根据本发明所公开技术的一个具体实施,用于确定和分配相对于体素最接近的原子的泛氨基酸保守频率(体素化)的系统的过程的流程图。
图13展示了根据本发明所公开技术的一个具体实施的体素到最接近氨基酸的映射。
图14示出了根据本发明所公开技术的一个具体实施的跨99个物种的参考氨基酸序列的示例多序列比对。
图15示出了根据本发明所公开技术的一个具体实施的确定特定体素的泛氨基酸保守频率序列的实例。
图16示出了根据本发明所公开技术的一个具体实施,使用图15中描述的位置频率逻辑针对相应体素确定的相应泛氨基酸保守频率。
图17展示了根据本发明所公开技术的一个具体实施的体素化每体素进化谱。
图18描绘了根据本发明所公开技术的一个具体实施的进化谱张量的实例。
图19是展示根据本发明所公开技术的一个具体实施,用于确定和分配相对于体素最接近的原子的每氨基酸保守频率(体素化)的系统的过程的流程图。
图20示出了根据本发明所公开技术的一个具体实施,与距离通道张量连结的体素化注释通道的各种实例。
图21展示了根据本发明所公开技术的一个具体实施的输入通道的不同组合与排列,其可以作为用于确定目标变体的致病性的致病性分类器的输入提供。
图22示出了根据本发明所公开技术的各种具体实施的计算本发明所公开的距离通道的不同方法。
图23示出了根据本发明所公开技术的各种具体实施的进化通道的不同实例。
图24示出了根据本发明所公开技术的各种具体实施的注释通道的不同实例。
图25示出了根据本发明所公开技术的各种具体实施的结构置信度通道的不同实例。
图26示出了根据本发明所公开技术的一个具体实施的致病性分类器的示例处理架构。
图27示出了根据本发明所公开技术的一个具体实施的致病性分类器的示例处理架构。
图28、图29、图30、图31A和图31B使用PrimateAI作为基准模型来证明本发明所公开的PrimateAI 3D相对于PrimateAI的分类优势。
图32A和图32B示出了根据本发明所公开技术的各种具体实施的本发明所公开的高效体素化过程。
图33描绘了根据本发明所公开技术的一个具体实施,原子如何与包含原子的体素相关联。
图34示出了根据本发明所公开技术的一个具体实施,从原子到体素映射生成体素到原子映射以在逐个体素的基础上识别最接近原子。
图35A和图35B展示了本发明所公开的高效体素化如何具有为O(#原子)的运行时间复杂度,对比在不使用本发明所公开的高效体素化的情况下为O(#原子*#体素)的运行时复杂度。
图36是可以用于实现本发明所公开技术的示例计算机系统。
图37展示了基于处理有缺口蛋白质空间表示来确定目标替代性氨基酸的变体致病性的一个具体实施。
图38示出了蛋白质的空间表示的实例。
图39示出了图38所示蛋白质的有缺口空间表示的实例。
图40示出了图38所示蛋白质的原子空间表示的实例。
图41示出了图38所示蛋白质的有缺口原子空间表示的实例。
图42展示了致病性分类器的一个具体实施,该致病性分类器基于处理目标替代性氨基酸的有缺口蛋白质空间表示和替代性氨基酸表示来确定目标替代性氨基酸的变体致病性。
图43描绘了用于训练致病性分类器的训练数据的一个具体实施。
图44展示了通过使用参考氨基酸作为缺口氨基酸来生成参考蛋白质样品的有缺口空间表示的一个具体实施。
图45示出了在良性蛋白质样品上训练致病性分类器的一个具体实施。
图46示出了在致病性蛋白质样品上训练致病性分类器的一个具体实施。
图47示出了在训练期间如何掩蔽某些不可达氨基酸类。
图48展示了确定最终致病性分数的一个具体实施。
图49A示出了对填充由蛋白质中给定位置处的参考缺口氨基酸产生的空位的目标替代性氨基酸进行变体致病性确定。
图49B示出了对填充由蛋白质中给定位置处的参考缺口氨基酸产生的空位的相应氨基酸类的氨基酸进行相应变体致病性确定。
图50展示了基于处理有缺口蛋白质空间表示来确定多个替代性氨基酸的变体致病性的一个具体实施。
图51展示了致病性分类器的一个具体实施,该致病性分类器基于处理有缺口蛋白质空间表示来确定多个替代性氨基酸的变体致病性。
图52展示了在良性和致病性蛋白质样品上同时训练致病性分类器的一个具体实施。
图53展示了基于处理有缺口蛋白质空间表示和作为响应生成多个替代性氨基酸的进化保守性分数来确定多个替代性氨基酸的变体致病性的一个具体实施。
图54示出了根据一个具体实施的操作中的进化保守性确定器。
图55展示了基于预测的进化分数确定致病性的一个具体实施。
图56展示了用于训练进化保守性确定器的训练数据的一个具体实施。
图57展示了在良性和致病性蛋白质样品上同时训练进化保守性确定器的一个具体实施。
图58描绘了用于训练进化保守性确定器的基准真值标记编码的不同具体实施。
图59展示了示例位置特异性频率矩阵(PSFM)。
图60描绘了示例位置特异性评分矩阵(PSSM)。
图61示出了生成PSFM和PSSM的一个具体实施。
图62展示了示例PSFM编码。
图63描绘了示例PSSM编码。
图64展示了可在其上训练本文所公开的模型的两个数据集。
图65A至图65B展示了本文所公开的模型的组合学习的一个具体实施。
图66A至图66B展示了使用迁移学习并使用图64所示的两个数据集来训练本文所公开的模型的一个具体实施。
图67示出了生成训练数据和标记以训练本文所公开的模型的一个具体实施。
图68展示了确定核苷酸变体的致病性的方法的一个具体实施。
图69展示了预测氨基酸取代物的结构耐受性的系统的一个具体实施。
图70A、图70B和图70C描绘了展示非显而易见性和创造性的客观指标的性能结果。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
当结合附图阅读时,将更好地理解各种具体实施的详细描述。就附图例示各种具体实施的功能块的图而言,功能块不一定指示硬件电路之间的划分。因此,例如,功能块(例如,模块、处理器或存储器)中的一个或多个功能块可在单件硬件(例如,通用信号处理器或随机存取存储器块、硬盘等)或多件硬件中实现。类似地,程序可以是独立程序,可作为子例程并入操作系统中,可以是已安装软件包中的功能等。应当理解,各种具体实施不限于附图中所示的布置和工具。
附图中被指定为模块的处理引擎和数据库可在硬件或软件中实现,并且不需要按如附图所示那样精确地划分成相同的块。这些模块中的一些模块还可在不同的处理器、计算机或服务器上实现,或者分布在多个不同的处理器、计算机或服务器之间。此外,应当理解,在不影响所实现的功能的情况下,可组合、同步操作或以与图中所示不同的序列操作模块中的一些。附图中的模块也可被认为是方法中的流程图步骤。模块也不一定需要将其所有代码连续地放置在存储器中;代码的一些部分可与代码的其他部分分离,来自其他模块或其他功能的代码设置在两者之间。
基于蛋白质结构的致病性测定
图1是展示用于确定变体致病性的系统的过程100的流程图。在步骤102处,系统的序列存取器104存取参考氨基酸序列和替代氨基酸序列。在步骤112处,系统的3D结构生成器114生成参考氨基酸序列的3D蛋白质结构。在一些具体实施中,3D蛋白质结构是人蛋白质的同源模型。在一个具体实施中,所谓的SwissModel同源性建模流水线提供了预测的人蛋白质结构的公共知识库。在另一个具体实施中,所谓的HHpred同源性建模使用称为Modeller的工具从模板结构预测目标蛋白质的结构。
蛋白质由原子集合及其在3D空间中的坐标表示。氨基酸可以具有多种原子,诸如碳原子、氧(O)原子、氮(N)原子和氢(H)原子。这些原子可以进一步分类为侧链原子和主链原子。主链碳原子可包括α-碳(Cα)原子和β-碳(Cβ)原子。
在步骤122处,系统的坐标分类器124基于氨基酸对3D蛋白质结构的3D原子坐标进行分类。在一个具体实施中,氨基酸式分类涉及将3D原子坐标归属于21个氨基酸类别(包括终止氨基酸类别或缺口氨基酸类别)。在一个示例中,α-碳原子的氨基酸式分类可以分别列出在21个氨基酸类别中的每个类别下的α-碳原子。在另一个示例中,β-碳原子的氨基酸式分类可以分别列出在21个氨基酸类别中的每个类别下的β-碳原子。
在又一个示例中,氧原子的氨基酸式分类可以分别列出在21个氨基酸类别中的每个类别下的氧原子。在又一个示例中,氮原子的氨基酸式分类可以分别列出在21个氨基酸类别中的每个类别下的氮原子。在又一个示例中,氢原子的氨基酸式分类可以分别列出在21个氨基酸类别中的每个类别下的氢原子。
本领域的技术人员将会知道,在各种具体实施中,氨基酸式分类可以包括21个氨基酸类别的子集和不同原子元素的子集。
在步骤132处,系统的体素网格生成器134将体素网格实例化。体素网格可以具有任何分辨率,例如3×3×3、5×5×5、7×7×7等。体素网格中的体素可以具有任何尺寸,例如,每侧1埃每侧/>每侧/>依此类推。本领域的技术人员将会知道,这些示例维度是指立方维度,因为体素是立方体。另外,本领域的技术人员将会知道,这些示例维度是非限制性的,而且体素可以具有任何立方维度。
在步骤142处,系统的体素网格中心定位器144将体素网格中心定位在经历氨基酸水平上的目标变体的参考氨基酸处。在一个具体实施中,体素网格中心定位在经历目标变体的参考氨基酸的特定原子的原子坐标处,例如,经历目标变体的参考氨基酸的α-碳原子的3D原子坐标处。
距离通道
体素网格中的体素可以具有多个通道(或特征)。在一个具体实施中,体素网格中的体素具有多个距离通道(例如,分别针对21个氨基酸类别(包括终止或缺口氨基酸类别)的21个距离通道)。在步骤152处,系统的距离通道生成器154为体素网格中的体素生成氨基酸式距离通道。对于这21个氨基酸类别中的每个类别独立地生成距离通道。
例如,考虑丙氨酸(A)氨基酸类别,进一步考虑,例如,体素网格的尺寸为3×3×3,具有27个体素。然后,在一个具体实施中,丙氨酸距离通道分别包括体素网格中的27个体素的27个距离值。丙氨酸距离通道中的27个距离值是从体素网格中的27个体素的相应中心到丙氨酸氨基酸类别中的相应最接近原子测量的。
在一个示例中,丙氨酸氨基酸类别仅包括α-碳原子,因此最接近原子是分别最靠近体素网格中的27个体素的那些丙氨酸α-碳原子。在另一个示例中,丙氨酸氨基酸类别仅包括β-碳原子,因此最接近原子是分别最靠近体素网格中的27个体素的那些丙氨酸β-碳原子。
在又一个示例中,丙氨酸氨基酸类别仅包括氧原子,因此最接近原子是分别最靠近体素网格中的27个体素的那些丙氨酸氧原子。在又一个示例中,丙氨酸氨基酸类别仅包括氮原子,因此最接近原子是分别最靠近体素网格中的27个体素的那些丙氨酸氮原子。在又一个示例中,丙氨酸氨基酸类别仅包括氢原子,因此最接近原子是分别最靠近体素网格中的27个体素的那些丙氨酸氢原子。
类似于丙氨酸距离通道,距离通道生成器154针对剩余氨基酸类别中的每一者生成距离通道(即,体素式距离值的集合)。在其他具体实施中,距离通道生成器154仅针对21个氨基酸类别的子集生成距离通道。
在其他具体实施中,对最接近原子的选择不限于特定原子类型。即,在主题氨基酸类别内,选择与特定体素最接近的原子,而不考虑最接近原子的原子元素,并且计算特定体素的距离值以便包括在主题氨基酸类别的距离通道中。
在还有其他的具体实施中,在原子元素基础上生成距离通道。作为用于氨基酸类别的距离通道的替代或补充,可以为原子元素类别生成距离值,而不考虑原子所属的氨基酸。
例如,考虑参考氨基酸序列中的氨基酸的原子跨越七个原子元素:碳、氧、氮、氢、钙、碘和硫。然后,体素网格中的体素被配置为具有七个距离通道,使得这七个距离通道中的每一个都具有二十七个体素式距离值,这些距离值指定了仅在对应的原子元素类别内到最接近原子的距离。在其他具体实施中,可以生成仅用于七个原子元素的子集的距离通道。在还有其他的具体实施中,可以将原子元素类别和距离通道生成进一步分层为相同原子元素的变型,例如,α-碳(Cα)原子和β-碳(Cβ)原子。
在还有其他的具体实施中,可以在原子类型基础上生成距离通道,例如,仅用于侧链原子的距离通道和仅用于主链原子的距离通道。
可以在距体素中心的预定义最大扫描半径(例如,六埃)内搜索最接近原子。而且,多个原子可以最接近体素网格中的相同体素。
计算体素中心的3D坐标与原子的3D原子坐标之间的距离。另外,利用中心定位在相同位置处(例如,中心定位在经历目标变体的参考氨基酸的α-碳原子的3D原子坐标处)的体素网格生成距离通道。
这些距离可以是欧几里得距离。另外,这些距离可以由原子尺寸(或原子影响)来参数化(例如,通过使用所考虑原子的伦纳德-琼斯势和/或范德瓦尔斯原子半径)。另外,这些距离值可以通过最大扫描半径来归一化,或者通过主题氨基酸类别或主题原子元素类别或主题原子类型类别内的最接近原子的最大观察距离值来归一化。在一些具体实施中,基于体素和原子的极坐标来计算体素与原子之间的距离。极坐标由体素与原子之间的角度来参数化。在一个具体实施中,该角度信息用于生成体素的角度通道(即,独立于距离通道)。在一些具体实施中,最接近原子与邻近原子(例如,主链原子)之间的角度可以用作利用体素编码的特征。
参考等位基因通道和替代等位基因通道
体素网格中的体素还可以具有参考等位基因通道和替代性等位基因通道。在步骤162处,系统的独热编码器164生成参考氨基酸序列中的参考氨基酸的参考独热编码和替代性氨基酸序列中的替代性氨基酸的替代性独热编码。参考氨基酸经历了目标变体。替代性氨基酸是目标变体。参考氨基酸和替代性氨基酸分别位于参考氨基酸序列和替代性氨基酸序列中的相同位置处。参考氨基酸序列和替代性氨基酸序列具有相同的位置式氨基酸组成,但有一个例外。该例外是在参考氨基酸序列中具有参考氨基酸且在替代性氨基酸序列中具有替代性氨基酸的位置。
在步骤172处,系统的连结器174将氨基酸式距离通道与参考独热编码和替代性独热编码连结。在另一个具体实施中,连结器174将原子元素式距离通道与参考独热编码和替代性独热编码连结。在又一个具体实施中,连结器174将原子类型式距离通道与参考独热编码和替代性独热编码连结。
在步骤182处,系统的运行时逻辑184通过致病性分类器(致病性确定引擎)处理连结的氨基酸式距离通道/原子元素式距离通道/原子类型式距离通道与参考独热编码和替代性独热编码,以确定目标变体的致病性,该致病性进而被推断为在氨基酸水平上产生目标变体的基础核苷酸变体的致病性确定结果。使用良性和致病性变体的标记数据集(例如,使用反向传播算法)来训练致病性分类器。关于良性变体和致病性变体的标记数据集以及致病性分类器的示例架构和训练的附加细节可以在共同拥有的美国专利申请号16/160,903、16/160,986、16/160,968和16/407,149中找到。
图2示意性地展示了蛋白质200的参考氨基酸序列202和蛋白质200的替代性氨基酸序列212。蛋白质200包含N个氨基酸。蛋白质200中氨基酸的位置标记为1、2、3……N。在所展示的该实例中,位置16是经历由基础核苷酸变体引起的氨基酸变体214(突变)的位置。例如,对于参考氨基酸序列202,位置1具有参考氨基酸苯丙氨酸(F),位置16具有参考氨基酸甘氨酸(G)204,而位置N(例如,序列202的最后一个氨基酸)具有参考氨基酸亮氨酸(L)。尽管为了清楚起见并未示出,但是参考氨基酸序列202中的剩余位置以对于蛋白质200具有特异性的顺序包含各种氨基酸。替代性氨基酸序列212与参考氨基酸序列202相同,位置16处的变体214除外,其含有替代性氨基酸丙氨酸(A)214,而不是参考氨基酸甘氨酸(G)204。
图3展示了参考氨基酸序列202中的氨基酸原子的氨基酸式分类,在本文中也称为“原子分类300”。在列302中列出的20种天然氨基酸中,特定类型的氨基酸可以在蛋白质中重复出现。即,特定类型的氨基酸可以在蛋白质中出现不止一次。蛋白质还可以具有一些未确定的氨基酸,这些氨基酸按21个终止或缺口氨基酸类别分类。图3中的右侧列含有来自不同氨基酸的α-碳(Cα)原子的计数。
具体地,图3示出了参考氨基酸序列202中氨基酸的α-碳(Cα)原子的氨基酸式分类。图3的列308列出了在21个氨基酸类别中的每个类别下针对参考氨基酸序列202观察到的α-碳原子的总数。例如,列308列出了针对丙氨酸(A)氨基酸类别观察到的11个α-碳原子。由于每个氨基酸只具有一个α-碳原子,这意味着丙氨酸在参考氨基酸序列202中出现了11次。在另一个示例中,精氨酸(R)在参考氨基酸序列202中出现了35次。跨21种氨基酸类别的α-碳原子的总数是828。
图4展示了基于图3中的原子分类300,参考氨基酸序列202的α-碳原子的3D原子坐标的氨基酸式归属。这在本文中称为“原子坐标分组聚合400”。在图4中,列表404至440以表格形式列出了被分组聚合到21个氨基酸类别中的每个类别下的α-碳原子的3D原子坐标。
在所展示的该具体实施中,图4中的分组聚合400遵循图3的分类300。例如,在图3中,丙氨酸氨基酸类别具有11个α-碳原子,因此,在图4中,丙氨酸氨基酸类别具有来自图3的对应11个α-碳原子的11个3D原子坐标。对于其他氨基酸类别,该分类至分组聚合逻辑也从图3流向图4。然而,该分类至分组聚合逻辑仅用于代表性目的,在其他具体实施中,本发明所公开的技术不需要执行分类300和分组聚合400来定位体素式最接近原子,而且可以执行较少的、额外的或不同的步骤。例如,在一些具体实施中,本发明所公开的技术可以通过使用排序和搜索算法来定位体素式最接近原子,该排序和搜索算法响应于被配置为接受查询参数的搜索查询而从一个或多个数据库返回体素式最接近原子,这些查询参数如排序准则(例如,氨基酸式、原子元素式、原子类型式)、预定义最大扫描半径,以及距离类型(例如,欧几里得、马氏、归一化、非归一化)。在本发明所公开技术的各种具体实施中,本领域的技术人员可以类似地使用来自当前或未来技术领域的多种排序和搜索算法来定位体素式最接近原子。
在图4中,3D原子坐标由笛卡尔坐标x、y、z表示,但是可以使用任何类型的坐标系,诸如球面或柱面坐标,并且要求保护的主题在此方面不受限制。在一些具体实施中,一个或多个数据库可以包括关于蛋白质中α-碳原子和其他氨基酸原子的3D原子坐标的信息。此类数据库可以通过特定的蛋白质进行搜索。
如上文所论述的,体素和体素网格是3D实体。然而,为清楚起见,附图描绘了并且说明书论述了二维(2D)格式的体素和体素网格。例如,27个体素的3×3×3体素网格在本文中被描绘和描述为具有9个2D像素的3×3 2D像素网格。本领域的技术人员将会知道,2D格式仅用于代表性目的,并且旨在覆盖3D对应物(即,2D像素表示3D体素,而2D像素网格表示3D体素网格)。另外,附图也不是按比例绘制的。例如,使用单个像素来描绘尺寸为2埃的体素。
体素式距离计算
图5示意性地展示了确定体素式距离值的过程,该过程在本文中也称为“体素式距离计算500”。在所展示的该实例中,仅针对丙氨酸(A)距离通道计算体素式距离值。然而,针对21个氨基酸类别中的每个类别执行相同的距离计算逻辑,以生成21个氨基酸式距离通道,并且可以进一步扩展到其他原子类型,如β-碳原子和其他原子元素,如氧、氮和氢,如上文关于图1所论述的。在一些具体实施中,在距离计算之前随机旋转原子,以使得对致病性分类器的训练在原子取向上保持不变。
在图5中,体素网格522具有用索引(1,1)、(1,2)、(1,3)、(2,1)、(2,2)、(2,3)、(3,1)、(3,2)和(3,3)标识的9个体素514。体素网格522的中心定位在例如参考氨基酸序列202中位置16处的甘氨酸(G)氨基酸的α-碳原子的3D原子坐标532处,因为在替代性氨基酸序列212中,位置16经历将甘氨酸(G)氨基酸突变为丙氨酸(A)氨基酸的变体,如上文关于图2所论述的。另外,体素网格522的中心与体素(2,2)的中心重合。
居中体素网格522用于21个氨基酸式距离通道中每一者的体素式距离计算。例如,从丙氨酸(A)距离通道开始,测量9个体素14的相应中心的3D坐标与11个丙氨酸α-碳原子的3D原子坐标402之间的距离,以定位9个体素514中每一者的最接近的丙氨酸α-碳原子。然后,使用9个体素514和各自最接近的丙氨酸α-碳原子之间的9个距离的9个距离值来构建丙氨酸距离通道。得到的丙氨酸距离通道以与体素网格522中的9个体素514相同的顺序排列9个丙氨酸距离值。
对于这21个氨基酸类别中的每个类别执行上述过程。例如,居中体素网格522类似地用于计算精氨酸(R)距离通道,使得测量9个体素514的相应中心的3D坐标与35个精氨酸α-碳原子的3D原子坐标404之间的距离,以定位9个体素514中每一者的最接近的精氨酸α-碳原子。然后,使用9个体素514和各自最接近的精氨酸α-碳原子之间的9个距离的9个距离值来构建精氨酸距离通道。得到的精氨酸距离通道以与体素网格522中的9个体素514相同的顺序排列9个精氨酸距离值。对21个氨基酸式距离通道按体素方式编码,以形成距离通道张量。
具体地,在所展示的该实例中,距离512在体素网格522的体素(1,1)中心与最接近的α-碳(Cα)原子之间,该α-碳原子是列表402中的Cα A5原子。因此,分配给体素(1,1)的值是距离512。在另一个示例中,Cα A4原子是最接近体素(1,2)中心的Cα原子。因此,分配给体素(1,2)的值是体素(1,2)中心与Cα A4原子之间的距离。在又一个示例中,Cα A6原子是最接近体素(2,1)中心的Cα原子。因此,分配给体素(2,1)的值是体素(2,1)中心与Cα A6原子之间的距离。在又一个示例中,Cα A6原子也是最接近体素(3,2)和(3,3)的中心的Cα原子。因此,分配给体素(3,2)的值是体素(3,2)中心与Cα A6原子之间的距离,而分配给体素(3,3)的值是体素(3,3)中心与Cα A6原子之间的距离。在一些具体实施中,分配给体素514的距离值可以是归一化距离。例如,分配给体素(1,1)的距离值可以是距离512除以最大距离502(预定义的最大扫描半径)。在一些具体实施中,最接近原子距离可以是欧几里得距离,并且最接近原子距离可以通过将欧几里得距离除以最大最接近原子距离(例如,诸如最大距离502)来归一化。
如上所述,对于具有α-碳原子的氨基酸,所述距离可以是从对应体素中心到对应氨基酸的最接近α-碳原子的最接近α-碳原子距离。此外,对于具有β-碳原子的氨基酸,所述距离可以是从对应体素中心到对应氨基酸的最接近β-碳原子的最接近β-碳原子距离。类似地,对于具有主链原子的氨基酸,所述距离可以是从对应体素中心到对应氨基酸的最接近主链原子的最接近主链原子距离。类似地,对于具有侧链原子的氨基酸,所述距离可以是从对应体素中心到对应氨基酸的最接近侧链原子的最接近侧链原子距离。在一些具体实施中,所述距离除此之外/替代性地可以包括到第二接近原子、第三接近原子、第四接近原子等的距离。
氨基酸式距离通道
图6示出了21个氨基酸式距离通道600的实例。图6中的每一列对应于21个氨基酸式距离通道602至642中相应的一个距离通道。每个氨基酸式距离通道均包括体素网格522的体素514中的每个体素的距离值。例如,丙氨酸(A)的氨基酸式距离通道602包括体素网格522的体素514中的相应体素的距离值。如上文所提及的,体素网格522是体积为3×3×3的3D网格,包括27个体素。类似地,尽管图6以二维方式展示了体素514(例如,3×3网格的9个体素),但是每个氨基酸式距离通道均可以包括3×3×3体素网格的27个体素式距离值。
方向性编码
在一些具体实施中,本发明所公开的技术使用方向性参数来指定参考氨基酸序列202中的参考氨基酸的方向性。在一些具体实施中,本发明所公开的技术使用方向性参数来指定替代性氨基酸序列212中的替代性氨基酸的方向性。在一些具体实施中,本发明所公开的技术使用方向性参数来指定蛋白质200中在氨基酸水平上经历目标变体的位置。
如上所述,在21个氨基酸式距离通道602至642中的所有距离值是从体素网格522中的相应最接近原子到体素514测量的。这些最接近原子来源于参考氨基酸序列202中的一个参考氨基酸。这些含有最接近原子的起源参考氨基酸可以分为两类:(1)在参考氨基酸序列202中经历变体的参考氨基酸204之前的那些起源参考氨基酸,以及(2)在参考氨基酸序列202中经历变体的参考氨基酸204之后的那些起源参考氨基酸。第一类中的起源参考氨基酸可以称为在先参考氨基酸。第二类中的起源参考氨基酸可以称为后续参考氨基酸。
方向性参数被应用于21个氨基酸式距离通道602至642中的那些距离值,那些距离值是从起源于在先参考氨基酸的那些最接近原子测量的。在一个具体实施中,将方向性参数与此类距离值相乘。方向性参数可以是任何数字,诸如-1。
作为应用方向性参数的结果,这21个氨基酸式距离通道600包括一些距离值,这些距离值向致病性分类器指示蛋白质200的哪一端是起始端,哪一端是终止端。这也允许致病性分类器从由距离通道以及参考通道和等位基因通道提供的3D蛋白质结构信息重建蛋白质序列。
距离通道张量
图7是距离通道张量700的示意图。距离通道张量700是来自图6的氨基酸式距离通道600的体素化表示。在距离通道张量700中,像彩色图像的RGB通道一样,21个氨基酸式距离通道602至642按体素方式连结。距离通道张量700的体素化维度是21×3×3×3(其中21表示21个氨基酸类别,3×3×3表示具有27个体素的3D体素网格);但图7是维度21×3×3的2D描绘。
独热编码
图8示出了参考氨基酸204和替代性氨基酸214的独热编码800。在图8中,左侧列是参考氨基酸甘氨酸(G)204的独热编码802,其中1指示甘氨酸氨基酸类别,0指示所有其他的氨基酸类别。在图8中,右侧列是变体/替代性氨基酸丙氨酸(A)214的独热编码804,其中1指示丙氨酸氨基酸类别,0指示所有其他的氨基酸类别。
图9是体素化独热编码的参考氨基酸902和体素化独热编码的变体/替代性氨基酸912的示意图。体素化独热编码的参考氨基酸902是来自图8的参考氨基酸甘氨酸(G)204的独热编码802的体素化表示。体素化独热编码的替代性氨基酸912是来自图8的变体/替代性氨基酸丙氨酸(A)214的独热编码804的体素化表示。体素化独热编码的参考氨基酸902的体素化维度是21×1×1×1(其中21表示21个氨基酸类别);但图9是维度21×1×1的2D描绘。类似地,体素化独热编码的替代性氨基酸912的体素化维度是21×1×1×1(其中21表示21个氨基酸类别);但图9是维度21×1×1的2D描绘。
参考等位基因张量
图10示意性地展示了按体素方式将图7的距离通道张量700与参考等位基因张量1004连结的连结过程1000。参考等位基因张量1004是来自图9的体素化独热编码的参考氨基酸902的体素式聚集(重复/克隆/复制)。即,体素化独热编码的参考氨基酸902的多个拷贝根据体素网格522中的体素514的空间布置按体素方式彼此连结,使得参考等位基因张量1004具有针对体素网格522中的体素514中的每个体素的体素化独热编码的参考氨基酸910的对应拷贝。
连结过程1000产生连结张量1010。参考等位基因张量1004的体素化维度是21×3×3×3(其中21表示21个氨基酸类别,3×3×3表示具有27个体素的3D体素网格);但图10是具有维度21×3×3的参考等位基因张量1004的2D描绘。连结张量1010的体素化维度是42×3×3×3;但图10是具有维度42×3×3的连结张量1010的2D描绘。
替代性等位基因张量
图11示意性地展示了按体素方式将图7的距离通道张量700、图10的参考等位基因张量1004与替代性等位基因张量1104连结的连结过程1100。替代性等位基因张量1104是来自图9的体素化独热编码的替代性氨基酸912的体素式聚集(重复/克隆/复制)。即,体素化独热编码的替代性氨基酸12的多个拷贝根据体素网格522中的体素514的空间布置按体素方式彼此连结,使得替代性等位基因张量1104具有针对体素网格522中的体素514中的每个体素的体素化独热编码的替代性氨基酸910的对应拷贝。
连结过程1100产生连结张量1110。替代性等位基因张量1104的体素化维度是21×3×3×3(其中21表示21个氨基酸类别,3×3×3表示具有27个体素的3D体素网格);但图11是具有维度21×3×3的替代性等位基因张量1104的2D描绘。连结张量1110的体素化维度是63×3×3×3;但图11是具有维度63×3×3的连结张量1110的2D描绘。
在一些具体实施中,运行时逻辑184通过致病性分类器处理连结张量1110,以确定变体/替代性氨基酸丙氨酸(A)214的致病性,该致病性进而被推断为产生变体/替代性氨基酸丙氨酸(A)214的基础核苷酸变体的致病性测定结果。
进化保守通道
预测变体的功能后果至少部分地依赖于以下假设:由于负选择,蛋白质家族的关键氨基酸在进化过程中是保守的(即,在这些位点处的氨基酸变化在过去是有害的),并且在这些位点处的突变增加了在人类中致病(引起疾病)的可能性。一般来讲,收集目标蛋白质的同源序列并比对,并且基于在比对中的目标位置观察到的不同氨基酸的加权频率来计算保守性度量。
因此,本发明所公开的技术将距离通道张量700、参考等位基因张量1004和替代性等位基因张量1004与进化通道连结。进化通道的一个示例是泛氨基酸保守频率。进化通道的另一个示例是每氨基酸保守频率。
在一些具体实施中,使用位置权重矩阵(PWM)来构建进化通道。在其他具体实施中,使用位置特异性频率矩阵(PSFM)来构建进化通道。在还有其他的具体实施中,使用像SIFT、PolyPhen和PANTHER-PSEC这样的计算工具来构建进化通道。在还有其他的具体实施中,这些进化通道是基于进化保存的保存通道。保存与保守性相关,因为它也反映了负选择的作用,其中负选择已经用于防止蛋白质中给定位点处的进化变化。
泛氨基酸进化谱
图12是展示根据本发明所公开技术的一个具体实施,用于确定和分配相对于体素最接近的原子的泛氨基酸保守频率(体素化)的系统的过程1200的流程图。依次讨论图12、图13、图14、图15、图16、图17和图18。
在步骤1202处,系统的相似序列查找器1204检索与参考氨基酸序列202相似(同源)的氨基酸序列。相似的氨基酸序列可以选自多个物种,如灵长类动物、哺乳动物和脊椎动物。
在步骤1212处,系统的比对器1214按位置方式将参考氨基酸序列202与相似的氨基酸序列比对,即,比对器1214进行多序列比对。图14示出了跨99个物种的参考氨基酸序列202的示例多序列比对1400。在一些具体实施中,多序列比对1400可以被划分,例如,以生成用于灵长类动物的第一位置频率矩阵1402、用于哺乳动物的第二位置频率矩阵1412和用于灵长类动物的第三位置频率矩阵1422。在其他具体实施中,跨99个物种生成单位置频率矩阵。
在步骤1222处,系统的泛氨基酸保守频率计算器1224使用多序列比对来确定参考氨基酸序列202中的参考氨基酸的泛氨基酸保守频率。
在步骤1232处,系统的最接近原子查找器1234在体素网格522中查找与体素514最接近的原子。在一些具体实施中,对体素式最接近原子的搜索可以不限于任何特定的氨基酸类别或原子类型。即,可以跨氨基酸类别和氨基酸类型选择体素式最接近原子,只要它们是与相应体素中心最接近的原子。在其他具体实施中,对体素式最接近原子的搜索可以仅限于特定的原子类别,诸如仅限于特定的原子元素(如氧、氮和氢),或者仅限于α-碳原子,或者仅限于β-碳原子,或者仅限于侧链原子,或者仅限于主链原子。
在步骤1242处,系统的氨基酸选择器1244选择参考氨基酸序列202中含有在步骤1232处识别的最接近原子的那些参考氨基酸。这种参考氨基酸可以称为最接近的参考氨基酸。图13示出了将最接近原子1302定位到体素网格522中的体素514并分别将包含最接近原子1302的最接近参考氨基酸1312映射到体素网格522中的体素514的实例。这在图13中标识为“体素到最接近氨基酸的映射1300”。
在步骤1252处,系统的体素化器1254将最接近参考氨基酸的泛氨基酸保守频率体素化。图15示出了确定体素网格522中的第一体素(1,1)的泛氨基酸保守频率序列的实例,在本文中也称为“每体素进化谱确定1500”。
转到图13,映射到第一体素(1,1)的最接近参考氨基酸是参考氨基酸序列202中位置15处的天冬氨酸(D)氨基酸。然后,在位置15处分析参考氨基酸序列202与例如99个物种的99种同源氨基酸序列的多序列比对。这种位置特异性分析和跨物种分析揭示了在跨100个比对的氨基酸序列(即,参考氨基酸序列202加上99个同源氨基酸序列)的位置15处发现了来自21个氨基酸类别中的每个类别的氨基酸实例有多少。
在图15所展示的该实例中,天冬氨酸(D)氨基酸在100个比对的氨基酸序列中的96个序列中的位置15处发现。因此,天冬氨酸氨基酸类别1504被分配了泛氨基酸保守频率0.96。类似地,在所展示的该实例中,缬氨酸(V)氨基酸在100个比对的氨基酸序列中的4个序列中的位置15处发现。因此,缬氨酸氨基酸类别1514被分配了泛氨基酸保守频率0.04。由于在位置15处没有检测到来自其他氨基酸类别的氨基酸实例,因此对剩余氨基酸类别分配为0的泛氨基酸保守频率。这样,对21个氨基酸类别中的每个类别分配相应的泛氨基酸保守频率,该泛氨基酸保守频率可以在第一体素(1,1)的泛氨基酸保守频率序列1502中编码。
图16示出了使用图15中描述的位置频率逻辑(在本文中也称为“体素到进化谱映射1600”)针对体素网格522中的体素514中的相应体素确定的相应泛氨基酸保守频率1612至1692。
然后,体素化器1254使用每体素进化谱1602来生成体素化的每体素进化谱1700,如图17所展示。通常,体素网格522中的体素514中的每个体素具有不同的泛氨基酸保守频率序列,因此具有不同的体素化每体素进化谱,这是因为体素被规则地映射到不同的最接近原子,因而被映射到不同的最接近参考氨基酸。当然,当两个或更多个体素具有相同的最接近原子并因此具有相同的最接近参考氨基酸时,相同的泛氨基酸保守频率序列和相同的体素化每体素进化谱被分配给两个或更多个体素中的每个体素。
图18描绘了进化谱张量1800的实例,其中体素化每体素进化谱1700根据体素网格522中的体素514的空间布置按体素方式彼此连结。进化谱张量1800的体素化维度是21×3×3×3(其中21表示21个氨基酸类别,3×3×3表示具有27个体素的3D体素网格);但图18是具有维度21×3×3的进化谱张量1800的2D描绘。
在步骤1262处,连结器174按体素方式将进化谱张量1800与距离通道张量700连结。在一些具体实施中,进化谱张量1800按体素方式与连结器张量1110连结,以生成维度84×3×3×3的另一个连结张量(未示出)。
在步骤1272处,运行时逻辑184通过致病性分类器处理维度84×3×3×3的进一步连结张量,以测定目标变体的致病性,该致病性进而被推断为在氨基酸水平上产生目标变体的基础核苷酸变体的致病性测定结果。
每氨基酸进化谱
图19是展示用于确定和分配相对于体素最接近的原子的每氨基酸保守频率(体素化)的系统的过程1900的流程图。在图19中,步骤1202和1212与图12中的相同。
在步骤1922处,系统的每氨基酸保守频率计算器1924使用多序列比对来确定参考氨基酸序列202中的参考氨基酸的每氨基酸保守频率。
在步骤1932处,系统的最接近原子查找器1934针对体素网格522中的体素514中的每个体素查找跨21个氨基酸类别中的每个类别的21个最接近原子。21个最接近原子中的每一者彼此不同,因为它们选自不同的氨基酸类别。这使得针对特定体素选择21个独特的最接近参考氨基酸,这进而使得针对特定体素生成21个独特的位置频率矩阵,这进而又使得针对特定体素确定21个独特的每氨基酸保守频率。
在步骤1942处,系统的氨基酸选择器1944为体素网格522中的体素514中的每个体素选择参考氨基酸序列202中的21个参考氨基酸,其包含在步骤1932中识别的21个最接近原子。这种参考氨基酸可以称为最接近的参考氨基酸。
在步骤1952处,系统的体素化器1954将在步骤1942处针对特定体素识别的21个最接近参考氨基酸的每氨基酸保守频率体素化。这21个最接近参考氨基酸必然位于参考氨基酸序列202中的21个不同位置处,因为它们对应于不同的基础最接近原子。因此,对于特定体素,可以为这21个最接近参考氨基酸生成21个位置频率矩阵。如上文关于图12至图15所论述的,这21个位置频率矩阵可以跨其同源氨基酸序列与参考氨基酸序列202按位置方式比对的多个物种生成。
然后,使用这21个位置频率矩阵,可以针对对于特定体素识别的21个最接近参考氨基酸计算21个位置特异性保守分数。这21个位置特异性保守分数形成特定体素的每氨基酸保守频率,类似于图12中的泛氨基酸保守频率序列1502;不同的是序列1502具有许多0条目,而每氨基酸保守频率序列中的每个元素(特征)具有某个值(例如,浮点数),因为跨21个氨基酸类别的21个最接近参考氨基酸必然具有产生不同位置频率矩阵的不同位置,并由此产生不同的每氨基酸保守频率。
对体素网格522中的体素514中的每个体素执行上述处理,对得到的体素式每氨基酸保守频率进行体素化、张量化、连结和处理,以便与关于图12至图18所讨论的泛氨基酸保守频率类似地进行致病性测定。
注释通道
图20示出了与距离通道张量700连结的体素化注释通道2000的各种实例。在一些具体实施中,体素化注释通道是不同蛋白质注释的独热指示符,例如,氨基酸(残基)是否为跨膜区、信号肽、活性位点或任何其他结合位点的一部分,或者残基是否经历翻译后修饰、PathRatio(参见Pei P、Zhang A:A Topological Measurement for Weighted ProteinInteraction Network.CSB 2005,268-278)等等。注释通道的附加示例可以在下文的特定具体实施部分和权利要求书中找到。
这些体素化注释通道按体素方式布置,使得体素可以具有相同的注释序列,如体素化参考等位基因序列和替代性等位基因序列(例如,注释通道2002、2004、2006),或者体素可以具有各自的注释序列,如体素化每体素进化谱1700(例如,注释通道2012、2014、2016(如由不同的颜色所指示))。
对这些注释通道进行体素化、张量化、连结和处理,以便与关于图12至图18所讨论的泛氨基酸保守频率类似地进行致病性测定。
结构置信度通道
本发明所公开的技术还可以将各种体素化的结构置信度通道与距离通道张量700连结。结构置信度通道的一些实例包括GMQE分数(由SwissModel提供);B-因子;同源模型的温度因素栏(表明残基满足蛋白质结构中的(物理)约束的程度);对于最接近体素中心的残基,比对模板蛋白质的归一化数目(由HHpred提供的比对,例如,体素最接近6个模板结构中的3个模板结构比对的残基,这表示该特征的值为3/6=0.5;最小、最大和平均TM分数;以及与最接近体素的残基比对的模板蛋白质结构的预测TM分数(继续以上实例,假设这3个模板结构的TM分数为0.5、0.5和1.5,则最小值为0.5,平均值为2/3,最大值为1.5)。可以由HHpred提供每个蛋白质模板的TM分数。结构置信度通道的附加实例可以在下文的“特定具体实施”部分和权利要求书中找到。
这些体素化结构置信度通道按体素方式布置,使得体素可以具有相同的结构置信度序列,如体素化参考等位基因序列和替代性等位基因序列,或者体素可以具有各自的结构置信度序列,如体素化每体素进化谱1700。
对这些结构置信度通道进行体素化、张量化、连结和处理,以便与关于图12至图18所讨论的泛氨基酸保守频率类似地进行致病性测定。
致病性分类器
图21展示了输入通道的不同组合与排列,其可以作为输入2102提供给致病性分类器2108,以便对目标变体进行致病性测定2106。输入2102中的一者可以是由距离通道生成器2272生成的距离通道2104。图22示出了计算距离通道2104的不同方法。在一个具体实施中,距离通道2104是基于体素中心与跨多个原子元素的原子之间的距离2202生成的,而与氨基酸无关。在一些具体实施中,距离2202通过最大扫描半径归一化,以生成归一化距离2202a。在另一个具体实施中,距离通道2104是基于体素中心与α-碳原子之间的距离2212在氨基酸基础上生成的。在一些具体实施中,距离2212通过最大扫描半径归一化,以生成归一化距离2212a。在又一个具体实施中,距离通道2104是基于体素中心与β-碳原子之间的距离2222在氨基酸基础上生成的。在一些具体实施中,距离2222通过最大扫描半径归一化,以生成归一化距离2222a。在又一个具体实施中,距离通道2104是基于体素中心与侧链原子之间的距离2232在氨基酸基础上生成的。在一些具体实施中,距离2232通过最大扫描半径归一化,以生成归一化距离2232a。在又一个具体实施中,距离通道2104是基于体素中心与主链原子之间的距离2242在氨基酸基础上生成的。在一些具体实施中,距离2242通过最大扫描半径归一化,以生成归一化距离2242a。在又一个具体实施中,距离通道2104是基于体素中心与相应最接近原子之间的距离2252(一个特征)而生成的,而与原子类型和氨基酸类型无关。在又一个具体实施中,距离通道2104是基于体素中心与来自非标准氨基酸的原子之间的距离2262(一个特征)而生成的。在一些具体实施中,基于体素和原子的极坐标来计算体素与原子之间的距离。极坐标由体素与原子之间的角度来参数化。在一个具体实施中,该角度信息用于生成体素的角度通道(即,独立于距离通道)。在一些具体实施中,最接近原子与邻近原子(例如,主链原子)之间的角度可以用作利用体素编码的特征。
输入2102中的另一者可以是指示在指定半径内缺失原子的特征2114。
输入2102中的另一者可以是参考氨基酸的独热编码2124。输入2102中的另一者可以是变体/替代性氨基酸的独热编码2134。
输入2102中的另一者可以是由图23所示的进化谱生成器2372生成的进化通道2144。在一个具体实施中,可以基于泛氨基酸保守频率2302生成进化通道2144。在另一个具体实施中,进化通道2144可以基于泛氨基酸保守频率2312生成。
输入2102中的另一者可以是指示缺失残基或缺失进化谱的特征2154。
输入2102中的另一者可以是由注释生成器2472生成的注释通道2164,如图24所示。在一个具体实施中,注释通道2154可以基于分子处理注释2402生成。在另一个具体实施中,注释通道2154可以基于区域注释2412生成。在又一个具体实施中,注释通道2154可以基于位点注释2422生成。在又一个具体实施中,注释通道2154可以基于氨基酸修饰注释2432生成。在又一个具体实施中,注释通道2154可以基于二级结构注释2442生成。在又一个具体实施中,注释通道2154可以基于实验信息注释2452生成。
另一个输入2102可以是由结构置信度生成器2572生成的结构置信度通道2174,如图25所示。在一个具体实施中,结构置信度2174可以基于全局模型质量估计(GMQE)2502生成。在另一个具体实施中,结构置信度2174可以基于定性模型能量分析(QMEAN)分数2512生成。在又一个具体实施中,结构置信度2174可以基于温度因素2522生成。在又一个具体实施中,结构置信度2174可以基于模板建模分数2542生成。模板建模分数2542的实例包括最小模板建模分数2542a、平均模板建模分数2542b和最大模板建模分数2542c。
本领域的技术人员将会知道,可以将输入通道的任何排列与组合连结为输入,以便通过致病性分类器2108进行处理,从而对目标变体进行致病性测定2106。在一些具体实施中,可以只连结输入通道的子集。这些输入通道能够以任何顺序连结。在一个具体实施中,这些输入通道可以由张量生成器(输入编码器)2110连结成单个张量。然后可以将这单个张量作为输入提供给致病性分类器2108,以便对目标变体进行致病性测定2106。
在一个具体实施中,致病性分类器2108使用具有多个卷积层的卷积神经网络(CNN)。在另一个具体实施中,致病性分类器2108使用递归神经网络(RNN),诸如长短期记忆网络(LSTM)、双向LSTM(Bi-LSTM)和门控递归单元(GRU)。在又一个具体实施中,致病性分类器2108使用CNN和RNN两者。在又一个具体实施中,致病性分类器2108使用对图形结构化数据中的依赖性建模的图形卷积神经网络。在又一个具体实施中,致病性分类器2108使用变分自编码器(VAE)。在又一个具体实施中,致病性分类器2108使用生成对抗网络(GAN)。在又一个具体实施中,致病性分类器2108还可以是基于例如自注意力的语言模型,诸如由变换器和BERT实现的语言模型。
在还有其他的具体实施中,致病性分类器2108可以使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。该致病性分类器可以使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。该致病性分类器可以使用任何并行性、效率性和压缩方案,诸如TFRecord、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性,以及同步/异步随机梯度下降(SGD)。该致病性分类器可以包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数线性单元(ELU)、S型双曲正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层、注意力机制,以及高斯误差线性单元。
致病性分类器2108使用基于反向传播的梯度更新技术来训练。可以用于训练致病性分类器2108的示例梯度下降技术包括随机梯度下降、批量梯度下降和微型批量梯度下降。可以用于训练致病性分类器2108的梯度下降优化算法的一些实例是Momentum、Nesterov加速梯度、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam和AMSGrad。在其他具体实施中,致病性分类器2108可以通过无监督学习、半监督学习、自学习、强化学习、多任务学习、多模态学习、迁移学习、知识蒸馏等来训练。
图26示出了根据本发明所公开技术的一个具体实施的致病性分类器2108的示例处理架构2600。处理架构2600包括处理模块2606、2610、2614、2618、2622、2626、2630、2634、2638和2642的级联,其中每个处理模块可以包括1D卷积(1×1×1CONV)、3D卷积(3×3×3CONV)、ReLU非线性和批量归一化(BN)。处理模块的其他实例包括全连接(FC)层、丢弃层、压平层和最终的Softmax层,该最终的Softmax层为属于良性类别和致病性类别的目标变体产生指数归一化分数。在图26中,“64”表示由特定处理模块应用的卷积滤波器的数量。在图26中,输入体素2602的尺寸是15×15×15×8。图26还示出了由处理架构2600生成的中间输入2604、2608、2612、2616、2620、2624、2628、2632、2636和2640的相应体积维度。
图27示出了根据本发明所公开技术的一个具体实施的致病性分类器2108的示例处理架构2700。处理架构2700包括处理模块2708、2714、2720、2726、2732、2738、2744、2750、2756、2762、2768、2774和2780的级联,诸如1D卷积(CONV 1D)、3D卷积(CONV 3D)、ReLU非线性和批量归一化(BN)。处理模块的其他实例包括全连接(密集)层、丢弃层、压平层和最终的Softmax层,该最终的Softmax层为属于良性类别和致病性类别的目标变体产生指数归一化分数。在图27中,“64”和“32”表示由特定处理模块应用的卷积滤波器的数量。在图27中,由输入层2702提供的输入体素2704的尺寸是7×7×7×108。图27还示出了由处理架构2700生成的中间输入2710、2716、2722、2728、2734、2740、2746、2752、2758、2764、2770、2776和2782以及得到的中间输出2706、2712、2718、2724、2730、2736、2742、2748、2754、2760、2766、2772、2778和2784的相应体积维度。
本领域的技术人员将会知道,其他当前和未来的人工智能、机器学习和深度学习模型、数据集和训练技术可以结合到本发明所公开的变体致病性分类器中,而不偏离本发明所公开技术的实质。
性能结果作为创造性和非显而易见性的客观指标
本文所公开的变体致病性分类器基于3D蛋白质结构进行致病性预测,称之为“PrimateAI 3D”。“Primate AI”是共同拥有且先前公开的变体致病性分类器,其基于蛋白质序列进行致病性预测。关于PrimateAI的附加细节可以在共同拥有的美国专利申请号16/160,903、16/160,986、16/160,968和16/407,149,以及Sundaram,L.等人,Predicting theclinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)中找到。
图28、图29、图30和图31A使用PrimateAI作为基准模型来证明PrimateAI 3D相对于PrimateAI的分类优势。图28、图29、图30、图31A和图31B中的性能结果是在跨多个验证集准确地区分良性变体与致病性变体的分类任务上生成的。在与多个验证集不同的训练集上训练PrimateAI 3D。在用作良性数据集的常见的人类变体和灵长类动物变体上训练PrimateAI 3D,而将基于三核苷酸背景的模拟变体用作未标记或假致病性数据集。
新型发育迟缓障碍(新型DDD)是用于比较Primate AI 3D与Primate AI的分类准确性的验证集的一个示例。新型DDD验证集将来自DDD个体的变体标记为致病性,而将来自DDD个体的健康亲属的相同变体标记为良性。类似的标记方案用于图31A和图31B中所示的孤独症谱系障碍(ASD)验证集。
BRCA1是用于比较Primate AI 3D与Primate AI的分类准确性的验证集的另一个示例。BRCA1验证集将合成生成的模拟BRCA1基因的蛋白质的参考氨基酸序列标记为良性变体,并将合成改变的模拟BRCA1基因的蛋白质的等位基因氨基酸序列标记为致病性变体。类似的标记方案用于TP53基因、TP53S3基因及其变体以及图31A和图31B中所示的其他基因及其变体的不同验证集。
图28用蓝色水平条标识基准PrimateAI模型的表现,并且用橙色水平条标识本发明所公开的PrimateAI 3D模型的表现。绿色水平条描绘通过组合本发明所公开的PrimateAI 3D模型和基准PrimateAI模型的相应致病性预测而导出的致病性预测。在图例中,“ens10”表示10个PrimateAI 3D模型的系综,其中每个模型用不同的种子训练数据集训练并且用不同的权重和偏差来随机初始化。另外,“7×7×7×2”描绘了在训练10个PrimateAI 3D模型的系综期间用于编码输入通道的体素网格的大小。对于给定的变体,10个PrimateAI 3D模型的系综分别生成10个致病性预测,这些致病性预测随后组合(例如,通过平均)生成对于给定变体的最终致病性预测。这种逻辑类似地适用于具有不同组大小的系综。
另外,在图28中,y轴具有不同的验证集,x轴具有p值。p值越大,即水平条越长,表示区分良性变体与致病性变体的准确性越高。如图28中的p值所证实,PrimateAI 3D在大多数验证集上优于PrimateAI(仅tp53s3_A549验证集除外)。即,PrimateAI 3D的橙色水平条总是比PrimateAI的蓝色水平条长。
另外,在图28中,沿y轴的“平均值”类别计算为验证集中的每个验证集确定的p值的平均值。同样在该平均值类别中,PrimateAI 3D优于PrimateAI。
在图29中,PrimateAI由蓝色水平条表示,用大小为3×3×3的体素网格训练的20个PrimateAI 3D模型的系综由红色水平条表示,用大小为7×7×7×2的体素网格训练的10个PrimateAI 3D模型的系综由紫色水平条表示,用大小为7×7×7×2的体素网格训练的20个PrimateAI 3D模型的系综由棕色水平条表示,用大小为17×17×17×2的体素网格训练的20个PrimateAI 3D模型的系综由紫色水平条表示。
另外,在图29中,y轴具有不同的验证集,x轴具有p值。和之前一样,p值越大,即水平条越长,表示区分良性变体与致病性变体的准确性越高。如图20中的p值所证实,PrimateAI 3D的不同配置在大多数验证集上优于PrimateAI。即,PrimateAI 3D的红色、紫色、棕色和粉色水平条大多比PrimateAI的蓝色水平条长。
另外,在图29中,沿y轴的“平均值”类别计算为验证集中的每个验证集确定的p值的平均值。同样在该平均值类别中,PrimateAI 3D的不同配置优于PrimateAI。
在图30中,红色竖条表示PrimateAI,青色竖条表示PrimateAI 3D。在图30中,y轴具有p值,x轴具有不同的验证集。在图30中,毫无例外,在所有验证集上PrimateAI 3D始终优于PrimateAI。即,PrimateAI 3D的青色竖条总是比PrimateAI的红色竖条长。
图31A和图31B用蓝色竖条标识基准PrimateAI模型的表现,并且用橙色竖条标识本发明所公开的PrimateAI 3D模型的表现。绿色竖条描绘通过组合本发明所公开的PrimateAI 3D模型和基准PrimateAI模型的相应致病性预测而导出的致病性预测。在图31A和图31B中,y轴具有p值,x轴具有不同的验证集。
如图31A和图31B中的p值所证实,PrimateAI 3D在大多数验证集上优于PrimateAI(仅tp53s3_A549_p53NULL_Nutlin-3验证集除外)。即,PrimateAI 3D的橙色竖条总是比PrimateAI的蓝色竖条长。
另外,在图31A和图31B中,单独的“平均值”图表计算为验证集中的每个验证集确定的p值的平均值。同样在该平均值图表中,PrimateAI 3D优于PrimateAI。
平均值统计值可能由于离群值而偏移。为了解决这个问题,图31A和图31B中还描绘了单独的“方法等级”图表。等级越高,表示分类准确性越差。同样在该方法等级图表中,PrimateAI 3D优于PrimateAI,因为PrimateAI 3D具有计数更多的较低等级1和2,与之对比,Primate AI的等级全都是3。
在图28、图29、图30、图31A和图31B中,同样明显的是,将PrimateAI 3D与PrimateAI结合产生了优异的分类准确性。即,可以将蛋白质作为氨基酸序列供给PrimateAI以生成第一输出,可以将相同的蛋白质作为3D体素化蛋白质结构供给PrimateAI3D以生成第二输出,然后可以将第一输出和第二输出组合或汇总分析,以产生蛋白质所经历变体的最终致病性预测。
高效体素化
图32是展示在逐个体素的基础上高效识别最接近原子的高效体素化过程3200的流程图。
现在重新讨论距离通道。如上文所论述的,参考氨基酸序列202可以含有不同类型的原子,诸如α-碳原子、β-碳原子、氧原子、氮原子、氢原子等。因此,如上文所论述的,距离通道可以由最接近的α-碳原子、最接近的β-碳原子、最接近的氧原子、最接近的氮原子、最接近的氢原子等布置。例如,在图6中,九个体素514中的每个体素具有用于最接近的α-碳原子的21个氨基酸式距离通道。图6可以进一步扩展为对于9个体素514中的每个体素还具有用于最接近的β-碳原子的21个氨基酸式距离通道,并且对于9个体素514中的每个体素还具有用于最接近原子的最接近的通用原子距离通道,而不考虑原子的类型和氨基酸的类型。这样,9个体素514中的每个体素可以具有43个距离通道。
讨论现在转向在逐个体素的基础上识别最接近原子以包含在距离通道中所需要的距离计算的数目。考虑图3中的实例,其描绘了分布在全部21个氨基酸类别中的总共828个α-碳原子。为了计算图6中的氨基酸式距离通道602至642,即,为了确定189个距离值,测量从9个体素514中的每个体素到828个α-碳原子中的每个α-碳原子的距离,得到9*828=7,452个距离计算值。在27个体素为3D体素的情况下,这得到828*27=22,356个距离计算值。在还包括828个β-碳原子的情况下,该数目增加至27*1656=44,712个距离计算值。
如图35A所示,这意味着对于单个蛋白质体素化在逐个体素的基础上识别最接近原子的运行时复杂度为O(#原子*#体素)。此外,当跨多种属性计算距离通道时(例如,每个体素的不同特征或通道,如注释通道和结构置信度通道),单个蛋白质体素化的运行时复杂度增加到O(#原子*#体素*#属性)。
因此,距离计算可能成为体素化过程中最消耗计算资源的部分,从而将有价值的计算资源从诸如模型训练和模型推断的关键运行时任务中抽离。例如,考虑用7,000个蛋白质的训练数据集进行模型训练的情况。为跨多个氨基酸、原子和属性的多个体素生成距离通道可以涉及每个蛋白质超过100次体素化,从而在单次训练迭代(历元)中产生约800,000次体素化。20至40次历元的训练运行(在每次历元中原子坐标的旋转)可以产生多达3200万次体素化。
3200万次体素化除计算成本高之外,数据量也太大,以至于无法容纳在主存储器中(例如,对于15×15×15的体素网格,数据量超过20TB)。考虑到用于参数优化和系综学习的重复训练运行,该体素化过程的存储器占用变得太大,以至于不能存储在盘上,使得该体素化过程成为模型训练的一部分而不是预计算步骤。
本发明所公开的技术提供了一种高效体素化过程,其在运行时复杂度为O(#原子*#体素)的情况下实现高达约100倍的加速。本发明所公开的高效体素化过程将单次蛋白质体素化的运行时复杂度降至O(#原子)。在每体素具有不同的特征或通道的情况下,本发明所公开的高效体素化过程将单次蛋白质体素化的运行时复杂度降至O(#原子*#属性)。因此,该体素化过程变得与模型训练一样快,从而将计算瓶颈从体素化转移回到在诸如GPU、ASIC、TPU、FPGA、CGRA等处理器上计算神经网络权重。
在本发明所公开的涉及大体素网格的高效体素化过程的一些具体实施中,对于每体素具有不同的特征或通道的情况,单次蛋白质体素化的运行时复杂度为O(#原子+体素)和O(#原子*#属性+体素)。当原子数量与体素数量相比微不足道时,例如,当在100×100×100体素网格中只有一个原子(即,每个原子100万个体素)时,观察到“+体素”复杂度。在这种情况下,运行时由巨量体素的开销所支配,例如,为了将存储器分配给100万个体素,将100万个体素初始化为0,等等。
讨论内容现在转向本发明所公开的高效体素化过程的细节。依次讨论图32A、图32B、图33、图34和图35B。
从图32A开始,在步骤3202处,将每个原子(例如,828个α-碳原子中的每个α-碳原子和828个β-碳原子中的每个β-碳原子)与包含该原子的体素(例如,9个体素514中的一个体素)相关联。术语“包含”是指原子的3D原子坐标位于体素中。包含原子的体素在本文中也称为“含原子体素”。
图32B和图33描述了如何选择包含特定原子的体素。图33使用2D原子坐标作为3D原子坐标的代表。需注意,体素网格522被规则地间隔开,其中体素514中的每个体素具有相同的步长大小(例如,1埃或/>)。
另外,在图33中,体素网格522沿第一维度(例如,x轴)具有品红色索引[0,1,2],并且沿第二维度(例如,y轴)具有青色索引[0,1,2]。另外,在图33中,体素512中的相应体素514由绿色体素索引[体素0,体素1,…,体素8]和黑色体素中心索引[(1,1),(1,2),…,(3,3)]来标识。
另外,在图33中,沿第一维度的体素中心的中心坐标(即,第一维度体素坐标)以橙色标识。另外,在图33中,沿第二维度的体素中心的中心坐标(即,第二维度体素坐标)以红色标识。
首先,在步骤3202a(图33中的步骤1)处,将特定原子的3D原子坐标(1.7456,2.14323)量化,以生成量化的3D原子坐标(1.7,2.1)。该量化可以通过对比特进行舍入或截断来实现。
然后,在步骤3202b(图33中的步骤2)处,以维度为基础将体素514的体素坐标(或者体素中心或体素中心坐标)分配给量化的3D原子坐标。对于第一维度,将量化的原子坐标1.7分配给体素1,因为该原子坐标覆盖从1至2范围内的第一维度体素坐标,并且在第一维度中以1.5为中心。需注意,与沿第二维度具有索引0相比,体素1沿第一维度具有索引1。
对于第二维度,从体素1开始,沿第二维度遍历体素网格522。这使得量化的原子坐标2.5被分配给体素7,因为该原子坐标覆盖从2至3范围内的第二维度体素坐标,并且在第二维度中以2.5为中心。需注意,与沿第一维度具有索引1相比,体素7沿第二维度具有索引2。
然后,在步骤3202c(图33中的步骤3)处,选择对应于所分配的体素坐标的维度索引。即,对于体素1,沿第一维度选择索引1,对于体素7,沿第二维度选择索引2。本领域的技术人员将会知道,可以针对第三维度类似地执行上述步骤,以选择沿第三维度的维度索引。
然后,在步骤3202d(图33中的步骤4)处,基于用底数幂对所选择的维度索引进行位置式加权,来生成累加和。位置编号系统背后的一般思想是通过递增底数(或基数)的幂来表示数值,例如,二进制为基数2,三进制为基数3,八进制为基数8,十六进制为基数16。这通常被称为加权编号系统,因为每个位置都用底数的幂来加权。位置编号系统的有效数值集合的大小等于该系统的底数。例如,十进制系统中有10位数字,0至9,三进制系统中有3位数字,0、1、2。底数系统中的最大有效数字比底数小1(因此,在小于9的任何底数系统中,8都不是有效数字)。任何十进制整数都可以用任何其他整数基数系统来精确表示,反之亦然。
返回到图33中的实例,将所选择的维度索引1和2转换为单个整数,方法是按位置方式将这些维度索引分别乘以其各自的基数幂,然后将这些按位置方式相乘的结果相加。这里选择基数3是因为3D原子坐标有三个维度(但是为简单起见,图33仅示出了沿两个维度的2D原子坐标)。
由于索引2位于最右位(即,最低有效位),因此将其乘以3的0次幂得到2。由于索引1位于第二最右位(即,第二最低有效位),因此将其乘以3的1次幂得到3。这使得累加和为5。
然后,在步骤3202e(图33中的步骤5)处,基于累加和,选择包含特定原子的体素的体素索引。即,累加和被解释为包含特定原子的体素的体素索引。
在步骤3212处,在每个原子与含原子体素相关联之后,进一步将每个原子与在含原子体素的邻域中的一个或多个体素(在本文中也称为“邻域体素”)相关联。邻域体素可以基于在含原子体素的预定义半径(例如,5埃)内来选择。在其他具体实施中,邻域体素可以基于与含原子体素连续相邻(例如,顶部相邻体素、底部相邻体素、右侧相邻体素、左侧相邻体素)来选择。将每个原子与含原子体素和邻域体素相关联的所得关联被编码在原子到体素映射3402中,本文中也称之为元素到单元格的映射。在一个示例中,第一α-碳原子与体素的第一子集3404相关联,该第一子集包括第一α-碳原子的含原子体素和邻域体素。在另一个示例中,第二α-碳原子与体素的第二子集3406相关联,该第二子集包括第二α-碳原子的含原子体素和邻域体素。
需注意,不进行距离计算来确定含原子体素和邻域体素。借助体素的空间布置来选择含原子体素,这允许将量化的3D原子坐标分配给体素网格中对应的规则间隔的体素中心(不使用任何距离计算)。另外,借助与体素网格中的含原子体素在空间上邻接来选择邻域体素(同样不使用任何距离计算)。
在步骤3222处,将每个体素映射到在步骤3202和步骤3212处与之相关联的原子。在一个具体实施中,该映射被编码在基于原子到体素映射3402生成的体素到原子映射3412中(例如,通过将基于体素的排序关键字应用于原子到体素映射3402)。体素到原子的映射3412在本文中也称为“单元格到元素的映射”。在一个示例中,将第一体素映射到α-碳原子的第一子集3414,该第一子集包括在步骤3202和步骤3212处与第一体素相关联的α-碳原子。在另一个示例中,将第二体素映射到α-碳原子的第二子集3416,该第二子集包括在步骤3202和步骤3212处与第二体素相关联的α-碳原子。
在步骤3232处,对于每个体素,计算该体素与在步骤3222处映射到该体素的原子之间的距离。步骤3232的运行时复杂度为O(#原子),因为到特定原子的距离在体素到原子的映射3412中从该特定原子唯一映射到的相应体素仅测量一次。这在不考虑相邻体素时是真实的。在没有相邻体素的情况下,大O符号中所隐含的常数因子是1。在有相邻体素的情况下,大O符号等于相邻体素数目+1,因为相邻体素的数目对于每个体素是恒定的,因此运行时复杂度O(#原子)保持为真。相比之下,在图35A中,到特定原子的距离被冗余地测量与体素数目一样多的次数(例如,由于体素有27个,所以针对特定原子测量27次距离)。
在图35B中,基于体素到原子的映射3412,将每个体素映射到828个原子的相应子集(不包括计算到邻域体素的距离),如相应体素的相应椭圆所展示。相应子集基本上不重叠,但有一些例外。当多个原子被映射到同一体素时,由于一些情况而存在不明显的重叠,如图35B中由撇号“'”和椭圆之间的黄色重叠所指示。这种最小重叠对为O(#原子)的运行时复杂度具有加性影响,而不是乘性影响。这种重叠是在确定包含原子的体素之后考虑相邻体素的结果。在没有相邻体素的情况下,可能没有重叠,因为一个原子仅与一个体素相关联。然而,在考虑相邻体素的情况下,每个相邻体素可以潜在地与同一原子相关联(只要同一氨基酸没有其他原子更接近相邻体素)。
在步骤3242处,对于每个体素,基于在步骤3232处计算的距离,识别对于该体素最接近的原子。在一个具体实施中,这种识别被编码在体素到最接近原子的映射3422中,本文中也称之为“单元格到最接近元素的映射”。在一个示例中,第一体素被映射到作为其最接近的α-碳原子的第2个α-碳原子3424。在另一个示例中,第二体素被映射到作为其最接近的α-碳原子的第31个α-碳原子3426。
此外,当使用上文论述的技术来计算体素式距离时,存储原子的原子类型和氨基酸类型分类以及对应的距离值,以生成分类的距离通道。
一旦使用上文论述的技术识别了到最接近原子的距离,就可以在距离通道中对这些距离进行编码,以便进行体素化并随后由致病性分类器2108进行处理。
计算机系统
图36示出了可以用于实现本发明所公开的技术的示例计算机系统3600。计算机系统3600包括经由总线子系统3655与多个外围设备通信的至少一个中央处理单元(CPU)3672。这些外围设备可以包括存储子系统3610(包括例如存储器设备和文件存储子系统3636)、用户接口输入设备3638、用户接口输出设备3676和网络接口子系统3674。输入设备和输出设备允许用户与计算机系统3600进行交互。网络接口子系统3674提供通向外部网络的接口,该接口包括通向其他计算机系统中的对应接口设备的接口。
在一个具体实施中,致病性分类器2108以能够通信的方式链接到存储子系统3610和用户接口输入设备3638。
用户接口输入设备3638可以包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统3600中的所有可能类型的设备和方式。
用户接口输出设备3676可以包括显示子系统、打印机、传真机或非视觉显示器(诸如音频输出设备)。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统3600输出到用户或者输出到另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统3610存储提供本文描述的一些或全部模块和方法的功能的编程结构和数据结构。这些软件模块通常由处理器3678来执行。
处理器3678可以是图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)。处理器3678可以由深度学习云平台(诸如GoogleCloud PlatformTM、XilinxTM和CirrascaleTM)托管。处理器3678的示例包括Google的张量处理单元(TPU)TM、Rackmount解决方案(如GX4 Rackmount SeriesTM、GX36RackmountSeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的智能处理器单元(IPU)TM、Qualcomm的具有Snapdragon processorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2 MODULETM,Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM,ARM的DynamicIQTM、IBM TrueNorthTM、具有Testa VI 00sTM的Lambda GPU服务器,等等。
在存储子系统3610中使用的存储器子系统3622可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)3632和其中存储固定指令的只读存储器(ROM)3634。文件存储子系统3636可以为程序文件和数据文件提供持久性存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁盘盒。实现某些具体实施的功能的模块可以由文件存储子系统3636存储在存储子系统3610中,或者存储在处理器可存取的其他机器中。
总线子系统3655提供用于使计算机系统3600的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统3655被示意性地示出为单条总线,但是该总线子系统的替代性具体实施可以使用多条总线。
计算机系统3600本身可以具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机,或者任何其他数据处理系统或用户设备。由于计算机和网络的性质不断变化,对图36中描绘的计算机系统3600的描述仅旨在作为用于展示本发明的优选具体实施的具体实例。计算机系统3600也可能具有许多其他配置,其中的部件相比图36中所描绘的计算机系统更多或更少。
氨基酸预测
监督用掩蔽语言建模目标训练的蛋白质语言模型,以输出氨基酸在给定周围背景的蛋白质中的位置处出现的概率。蛋白质是线性聚合物,折叠成各种特定构象以发挥功能。由其中20个氨基酸穿过蛋白质聚合物链(蛋白质的序列)的组合和顺序确定的令人难以置信的多种三维(3D)结构,这使得负责大多数生物活性的蛋白质具有复杂的功能。因此,获得蛋白质的结构对于理解健康和疾病的基础生物学以及开发治疗分子都是至关重要的。虽然蛋白质结构主要是通过复杂的实验技术确定的,诸如X-射线晶体学、NMR光谱以及越来越多的冷冻电子显微镜,但是当实验方法有限时,从蛋白质的遗传编码的氨基酸序列进行的计算结构预测已被用作替代方法。
已使用计算方法来预测蛋白质的结构,以阐明生物过程的机制并确定蛋白质的性质。此外,所有天然存在的蛋白质都是在各种选择压力下产生的随机变体的进化过程的结果。通过该过程,自然界仅探索了理论上可能的蛋白质序列空间的小子集。机器学习、特别是深度学习的进展正在催化科学研究范式的革命。一些基于深度学习的方法,特别是在结构预测方面,现在通常与更高分辨率的物理建模相结合,优于传统方法。在实验验证、基准标记、利用已知的物理和解释模型以及扩展到其他生物分子和背景中仍然存在挑战。
蛋白质位点是蛋白质结构内的微环境,通过其结构或功能作用来区分。位点可以由三维位置和该位置周围的其中存在结构或功能的局部邻域来定义。合理蛋白质工程的核心是理解氨基酸的结构排列如何在蛋白质位点内产生功能特征。确定蛋白质内各个氨基酸的结构和功能作用提供了有助于工程化和改变蛋白质功能的信息。识别功能或结构上重要的氨基酸允许集中的工程努力,诸如用于改变靶蛋白功能特性的定点诱变。在一个具体实施中,所公开的技术涉及预测氨基酸取代物的空间耐受性。在此类具体实施中,所公开的技术包括缺口(gapping)逻辑和取代逻辑。缺口逻辑被配置为从蛋白质中去除特定位置处的特定氨基酸,并且在蛋白质中的特定位置处产生氨基酸空位。取代逻辑被配置为处理具有氨基酸空位的蛋白质,并且对作为填充/适合氨基酸空位的候选物的取代氨基酸的耐受性进行评分。取代逻辑被进一步配置为至少部分地基于取代氨基酸与氨基酸空位附近的相邻氨基酸(例如,右侧和左侧氨基酸)之间的结构(或空间)相容性来对取代氨基酸的耐受性进行评分。取代逻辑评估氨基酸“适合”其周围蛋白质环境的程度,并表明破坏强氨基酸偏好的突变更可能是有害的。当取代逻辑是卷积神经网络时,在训练过程期间,优化卷积滤波器的权重以检测最能捕获局部生化特征的局部空间模式,从而分离20种氨基酸的微环境。在训练过程期间,当所需特征出现在输入中的某个空间位置处时,激活卷积神经网络的卷积层中的滤波器。结构(或空间)相容性可通过改变或影响蛋白质功能来定义。当取代氨基酸在蛋白质结构内的特定位置处取代后引起蛋白质功能的变化时,则认为该取代氨基酸在结构上(或空间上)不相容。当取代氨基酸在蛋白质结构内的特定位置处取代后不引起蛋白质功能的变化时,则认为该取代氨基酸在结构上(或空间上)相容。结构(或空间)相容性可通过由距离度量测量的空间偏差来定义。首先,可例如通过在特定位置处的氨基酸取代之前测量蛋白质结构中氨基酸之间的距离来确定蛋白质结构的插入前空间测量值。该距离可以是基于氨基酸原子的原子坐标的原子距离。可测量氨基酸对之间的距离。然后,可例如通过在特定位置处的氨基酸取代之后重新测量蛋白质结构中氨基酸之间的距离来确定蛋白质结构的插入后空间测量值。当插入前空间测量值和插入后空间测量值之间的空间偏差超过阈值时,则认为取代氨基酸在结构上(或空间上)不相容。当插入前空间测量值和插入后空间测量值之间的空间偏差不超过阈值时,则认为取代氨基酸在结构上(或空间上)相容。
在另一个具体实施中,所公开的技术涉及预测氨基酸取代物的进化保守性。在此类具体实施中,所公开的技术包括缺口逻辑和取代逻辑。缺口逻辑被配置为从蛋白质中去除特定位置处的特定氨基酸,并且在蛋白质中的特定位置处产生氨基酸空位。取代逻辑被配置为处理具有氨基酸空位的蛋白质,并且对作为填充氨基酸空位的候选物的取代氨基酸的进化保守性进行评分。取代逻辑被进一步配置为至少部分地基于取代氨基酸与氨基酸空位附近的相邻氨基酸(例如,右侧和左侧氨基酸)之间的结构(或空间)相容性来对取代氨基酸的进化保守性进行评分。在一些具体实施中,使用进化保守性频率对进化保守性进行评分。在一个具体实施中,进化保守性频率基于位置特异性频率矩阵(PSFM)。在另一个具体实施中,进化保守性频率基于位置特异性评分矩阵(PSSM)。在一个具体实施中,取代氨基酸的进化保守性分数按大小排序。
在又一个具体实施中,所公开的技术涉及预测氨基酸取代物的进化保守性。在此类具体实施中,所公开的技术包括缺口逻辑和进化保守性预测逻辑。缺口逻辑被配置为从蛋白质中去除特定位置处的特定氨基酸,并且在蛋白质中的特定位置处产生氨基酸空位。进化保守性预测逻辑被配置为处理具有氨基酸空位的蛋白质,并且对作为填充氨基酸空位的候选物的取代氨基酸的进化保守性进行排序。
目标替代性氨基酸的基于有缺口蛋白质空间表示的致病性确定
图37展示了基于处理有缺口蛋白质空间表示来确定3700目标替代性氨基酸的变体致病性的一个具体实施。蛋白质是氨基酸序列。蛋白质中从蛋白质除去或掩蔽的特定氨基酸称为“有缺口的氨基酸”。所得的缺少缺口氨基酸的蛋白质称为“有缺口的蛋白质”或“含空位的蛋白质”。
蛋白质的“空间表示”表征了关于蛋白质中氨基酸的结构信息。蛋白质的空间表示可基于蛋白质中氨基酸的形状、定位、位置、模式和/或排列。蛋白质的空间表示可以是一维(1D)、二维(2D)、三维(3D)或n维(nD)信息。
在一个具体实施中,蛋白质的空间表示包括以上讨论的氨基酸式距离通道,例如,以上关于图6描述的氨基酸式距离通道600。在另一个具体实施中,蛋白质的空间表示包括以上讨论的距离通道张量,例如,以上关于图7描述的距离通道张量700。在又一个具体实施中,蛋白质的空间表示包括以上讨论的进化谱张量,例如,以上关于图18描述的进化谱张量1800。在又一个具体实施中,蛋白质的空间表示包括以上讨论的体素化注释通道,例如,以上关于图20描述的体素化注释通道2000。在又一个具体实施中,蛋白质的空间表示包括以上讨论的结构置信度通道。在其他具体实施中,空间表示也可包括其他通道。
蛋白质的“有缺口空间表示”是在蛋白质中排除至少一个缺口氨基酸的蛋白质的空间表示。在一个具体实施中,当生成有缺口空间表示时,通过排除(或不考虑或忽略)缺口氨基酸的一个或多个原子或原子类型来排除缺口氨基酸。例如,可从产生距离通道、进化谱、注释通道和/或结构置信度通道的计算(或选择或计算)中排除缺口氨基酸的原子。在其他具体实施中,也可通过从其他特征通道中排除缺口氨基酸来生成有缺口空间表示。
考虑通过从氨基酸式距离通道的计算中排除缺口氨基酸的原子来生成蛋白质的有缺口空间表示的以下示例。在图5中,Cα A5原子属于蛋白质中第五位的丙氨酸氨基酸。现在假设选择第5位的该丙氨酸氨基酸作为缺口氨基酸。然后,通过不考虑体素网格522的体素(1,1)的中心与最接近的α-碳(Cα)原子之间的距离512而计算距离通道来生成有缺口空间表示,该α-碳原子是缺口氨基酸(即,第五位处的丙氨酸氨基酸)的Cα A5原子。
还要注意,本申请可互换地使用“蛋白质的空间表示”和“蛋白质结构”。还要注意,本申请可互换地使用“蛋白质的有缺口空间表示”和“有缺口的蛋白质结构”。
转到图37,在动作3702,蛋白质序列存取器3704存取在相应位置处具有相应氨基酸的蛋白质。
在动作3712,缺口氨基酸指定器3714将蛋白质中特定位置处的特定氨基酸指定为缺口氨基酸,并将蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸。在一个具体实施中,特定氨基酸是作为蛋白质的主要等位基因的参考氨基酸。
在动作3722,有缺口空间表示生成器3724生成蛋白质的有缺口空间表示,该有缺口空间表示包括非缺口氨基酸的空间构型以及排除缺口氨基酸的空间构型。非缺口氨基酸的空间构型被编码为氨基酸类式距离通道。氨基酸类式距离通道中的每个氨基酸类式距离通道具有多个体素中的体素的体素式距离值。体素式距离值指定从多个体素中的对应体素到非缺口氨基酸的原子的距离。基于对应体素和非缺口氨基酸的原子之间的空间接近度来确定非缺口氨基酸的空间构型。当确定体素式距离值时,通过忽略从对应体素到缺口氨基酸原子的距离,将缺口氨基酸的空间构型从有缺口空间表示中排除。通过忽略对应体素和缺口氨基酸的原子之间的空间接近度,从有缺口空间表示中排除缺口氨基酸的空间构型。
基于具有最接近体素的原子的氨基酸的泛氨基酸保守频率,将非缺口氨基酸的空间构型编码为进化谱通道。在一个具体实施中,当确定泛氨基酸保守频率时,通过忽略缺口氨基酸的最接近原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。基于具有最接近体素的相应原子的相应氨基酸的每氨基酸保守频率,将非缺口氨基酸的空间构型编码为进化谱通道。在一个具体实施中,当确定每氨基酸保守频率时,通过忽略缺口氨基酸的最接近相应原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为注释通道。在一个具体实施中,通过在确定注释通道时忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为结构置信度通道。在一个具体实施中,当确定结构置信度通道时,通过忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为额外的输入通道。在一个具体实施中,当确定额外的输入通道时,通过忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。
在动作3732,致病性确定器3734至少部分地基于有缺口空间表示和由核苷酸变体在特定位置处产生的替代性氨基酸的表示来确定核苷酸变体的致病性。替代性氨基酸的表示可以是替代性氨基酸的独热编码(例如,参见图8)。在一些具体实施中,替代性氨基酸是与参考氨基酸相同的氨基酸。在其他具体实施中,替代性氨基酸是与参考氨基酸不同的氨基酸。
图38示出了蛋白质的空间表示3800的实例。该蛋白质含有氨基酸序列3804。选择氨基酸序列3804中第22位处的天冬氨酸(D)氨基酸作为缺口氨基酸3802。图39示出了图38所示蛋白质的有缺口空间表示3900的实例。在图39中,从有缺口空间表示3900中去除缺口氨基酸3802。同样在图39中,缺口氨基酸3802的缺失示为缺失的缺口氨基酸3902。
图40示出了图38所示蛋白质的原子空间表示4000的实例。图40还描绘了缺口氨基酸3802的原子4002。图41示出了图38所示蛋白质的有缺口原子空间表示4100的实例。在图41中,从有缺口原子空间表示4100中去除缺口氨基酸3802的原子4002。同样在图41中,缺口氨基酸3802的原子4002的缺失示为缺口氨基酸3802的缺失原子4102。
还要注意,本申请可互换地使用“致病性确定器”、“致病性预测器”、“致病性分类器”、“变体致病性分类器”、“进化保守性预测器”和“进化保守性确定器”。
图42展示了致病性分类器2108/2600/2700的一个具体实施,该致病性分类器基于处理目标替代性氨基酸的有缺口蛋白质空间表示4202和替代性氨基酸表示4212来确定4200目标替代性氨基酸的变体致病性。
致病性分类器2108/2600/2700通过处理作为输入的有缺口空间表示4202和替代性氨基酸的表示3212,以及生成作为输出的替代性氨基酸的致病性分数4208,来确定核苷酸变体的致病性。
图43描绘了用于训练致病性分类器2108/2600/2700的训练数据4300的一个具体实施。致病性分类器2108/2600/2700在良性训练集4302上训练。良性训练集4302具有针对蛋白质组中相应位置4312、4332和4352处的相应参考氨基酸的相应良性蛋白质样品4322、4342和4362。参考氨基酸是蛋白质组的主要等位基因氨基酸。在一个具体实施中,蛋白质组具有一千万个位置,因此良性训练集4302具有一千万个良性蛋白质样品。相应良性蛋白质样品具有通过使用相应参考氨基酸作为相应缺口氨基酸生成的相应有缺口空间表示。相应良性蛋白质样品具有相应参考氨基酸作为相应替代性氨基酸的相应表示。在各种具体实施中,蛋白质组包括人蛋白质组和非人蛋白质组,包括非人灵长类动物蛋白质组。
图44展示了通过分别使用参考氨基酸4402、4412和4422作为缺口氨基酸来生成4400参考蛋白质样品4322、4342和4362的有缺口空间表示4322G、4342G和4362G的一个具体实施。图45示出了在良性蛋白质样品4500上训练致病性分类器2108/2600/2700的一个具体实施。
致病性分类器2108/2600/2700在特定良性蛋白质样品上训练,并且通过以下方式估计特定良性蛋白质样品中的特定位置处的特定参考氨基酸的致病性:处理作为输入的(i)特定良性蛋白质样品的特定的有缺口空间表示4322G和(ii)作为特定的替代性氨基酸的特定参考氨基酸的表示4402(例如,独热编码)以及生成作为输出的特定参考氨基酸的致病性分数。通过使用特定参考氨基酸作为缺口氨基酸,并且通过使用特定良性蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸,生成特定的有缺口空间表示。
这些良性蛋白质样品中的每个良性蛋白质样品具有基准真值良性标记4506,该标记指示良性蛋白质样品的绝对良性。在一个具体实施中,基准真值良性标记是0、1或-1。将特定参考氨基酸的致病性分数4502与基准真值良性标记进行比较以确定误差4504,并使用训练技术(例如,反向传播4512)基于该误差改进致病性分类器2108/2600/2700的系数。
致病性分类器2108/2600/2700在致病性训练集4308上训练。致病性训练集4308具有相应致病性蛋白质样品4322A-N、4342A-N和4362A-N,用于在蛋白质组中相应位置4318、4338和4358中的每个相应位置处的参考氨基酸4312、4332和4352中的每个参考氨基酸的相应组合生成的氨基酸取代。在一个具体实施中,通过单核苷酸多态性(SNP)的可达性来限制相应组合生成的氨基酸取代,以将参考氨基酸的参考密码子转化为不可达替代性氨基酸类的替代性氨基酸。在蛋白质组中特定位置处的特定氨基酸类的特定参考氨基酸的组合生成的氨基酸取代包括与特定氨基酸类不同的相应氨基酸类的相应替代性氨基酸。
在一个具体实施中,蛋白质组具有一千万个位置,其中对于一千万个位置中的每个位置存在十九个组合生成的氨基酸取代,因此致病性训练集4308具有一亿九千万个致病性蛋白质样品。
相应致病性蛋白质样品具有通过使用相应参考氨基酸作为相应缺口氨基酸生成的相应有缺口空间表示。相应致病性蛋白质样品具有相应组合生成的氨基酸取代的相应表示,作为由相应组合生成的核苷酸变体在蛋白质组中的相应位置处产生的相应替代性氨基酸。
图46示出了在致病性蛋白质样品4600上训练致病性分类器2108/2600/2700的一个具体实施。致病性分类器2108/2600/2700在特定致病性蛋白质样品上训练,并且通过以下方式估计特定致病性蛋白质样品中的特定位置处的特定参考氨基酸的特定组合生成的氨基酸取代的致病性:处理作为输入的(i)特定致病性蛋白质样品的特定的有缺口空间表示4322G和(ii)作为特定的替代性氨基酸的特定组合生成的氨基酸取代的表示4622(例如,独热编码)以及生成作为输出的特定组合生成的氨基酸取代的致病性分数。通过使用特定参考氨基酸作为缺口氨基酸,并且通过使用特定致病性蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸,生成特定的有缺口空间表示。
这些致病性蛋白质样品中的每个致病性蛋白质样品具有基准真值致病性标记,该标记指示致病性蛋白质样品的绝对致病性。在一个具体实施中,基准真值致病性标记是1、0或-1,只要它与基准真值良性标记不同(例如,相反)即可。将特定组合生成的氨基酸取代的致病性分数4602与基准真值致病性标记4606进行比较以确定误差4604,并使用训练技术(例如,反向传播4612)基于该误差改进致病性分类器2108/2600/2700的系数。
在一个具体实施中,致病性分类器2108/2600/2700在两亿次训练迭代中训练。在此类具体实施中,两亿次训练迭代包括用一千万个良性蛋白质样品进行的一千万次训练迭代,以及用一亿九千万个致病性蛋白质样品进行的一亿九千万次迭代。在一个具体实施中,蛋白质组具有一百万至一千万个位置,因此良性训练集具有一百万至一千万个良性蛋白质样品。在此类具体实施中,对于一百万至一千万个位置中的每个位置存在十九个组合生成的氨基酸取代,因此致病性训练集具有一千九百万至一亿九千万个致病性蛋白质样品。
在一个具体实施中,致病性分类器2108/2600/2700在两千万至两亿次训练迭代中训练。在此类具体实施中,两千万至两亿次训练迭代包括用一百万至一千万个良性蛋白质样品进行的一百万至一千万次训练迭代,以及用一千九百万至一亿九千万个致病性蛋白质样品进行的一千九百万至一亿九千万次迭代。
图47示出了在训练期间如何掩蔽4700某些不可达氨基酸类。在动作4702,在基准真值标记中掩蔽受单核苷酸多态性(SNP)的可达性限制以将参考氨基酸的参考密码子转化为不可达替代性氨基酸类的替代性氨基酸的那些不可达替代性氨基酸类。在动作4712,掩蔽的氨基酸类导致0损失并且对梯度更新没有贡献。在动作4722,在查找表中识别掩蔽的氨基酸类。在动作4732,查找表针对每个参考氨基酸位置识别一组掩蔽的氨基酸类。
图48展示了确定最终致病性分数的一个具体实施。在动作4802,在一个具体实施中,致病性分类器2108/2600/2700生成与第一参考氨基酸相同的第一替代性氨基酸的第一致病性分数。在动作4812,在一个具体实施中,致病性分类器2108/2600/2700生成与第一参考氨基酸不同的第二替代性氨基酸的第二致病性分数。在动作4822,在一个具体实施中,第二替代性氨基酸的最终致病性分数是第二替代性氨基酸的第二致病性分数。
在其他替代方案中,第二替代性氨基酸的最终致病性分数基于第一致病性分数和第二致病性分数的组合。在4822a处的第一替代方案中,在一个具体实施中,第二替代性氨基酸的最终致病性分数是第二致病性分数与第一致病性分数和第二致病性分数之和的比率。在4822b处的第二替代方案中,在一个具体实施中,通过从第二致病性分数减去第一致病性分数来确定第二替代性氨基酸的最终致病性分数。
到目前为止的讨论覆盖了图49A所描绘的内容。图49A示出了对填充由蛋白质4912中给定位置处的参考缺口氨基酸4902产生的空位的目标替代性氨基酸4922进行变体致病性确定。具体地,通过以3D格式在空间上表示蛋白质4912和空位,例如通过使用排除参考缺口氨基酸4902(或其原子)的体素化氨基酸类别式距离计算来进行该分析。
讨论现在转向图49B。图49B示出了对填充由蛋白质4912中给定位置处的参考缺口氨基酸4902产生的空位的相应氨基酸类4916的氨基酸进行相应变体致病性确定。图49A和图49B中的输入是相同的;只有输出是不同的,3D格式的蛋白质4912和空位的空间表示也是不同的。在图49A中,仅生成一个致病性分数;而在图49B中,对20个氨基酸类/类别中的每一个类/类别生成致病性分数(例如,通过使用20向softmax分类)。
多种替代性氨基酸的基于有缺口蛋白质空间表示的致病性确定
图50展示了基于处理有缺口蛋白质空间表示来确定5000多个替代性氨基酸的变体致病性的一个具体实施。在动作5002,蛋白质序列存取器3704存取在相应位置处具有相应氨基酸的蛋白质。
在动作5012,缺口氨基酸指定器3714将蛋白质中特定位置处的特定氨基酸指定为缺口氨基酸,并将蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸。在一个具体实施中,特定氨基酸是作为蛋白质的主要等位基因的参考氨基酸。
在动作5022,有缺口空间表示生成器3724生成蛋白质的有缺口空间表示,该有缺口空间表示包括非缺口氨基酸的空间构型以及排除缺口氨基酸的空间构型。非缺口氨基酸的空间构型被编码为氨基酸类式距离通道。氨基酸类式距离通道中的每个氨基酸类式距离通道具有多个体素中的体素的体素式距离值。体素式距离值指定从多个体素中的对应体素到非缺口氨基酸的原子的距离。基于对应体素和非缺口氨基酸的原子之间的空间接近度来确定非缺口氨基酸的空间构型。当确定体素式距离值时,通过忽略从对应体素到缺口氨基酸原子的距离,将缺口氨基酸的空间构型从有缺口空间表示中排除。通过忽略对应体素和缺口氨基酸的原子之间的空间接近度,从有缺口空间表示中排除缺口氨基酸的空间构型。
基于具有最接近体素的原子的氨基酸的泛氨基酸保守频率,将非缺口氨基酸的空间构型编码为进化谱通道。在一个具体实施中,当确定泛氨基酸保守频率时,通过忽略缺口氨基酸的最接近原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。基于具有最接近体素的相应原子的相应氨基酸的每氨基酸保守频率,将非缺口氨基酸的空间构型编码为进化谱通道。在一个具体实施中,当确定每氨基酸保守频率时,通过忽略缺口氨基酸的最接近相应原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为注释通道。在一个具体实施中,当确定注释通道时,通过忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为结构置信度通道。在一个具体实施中,当确定结构置信度通道时,通过忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为额外的输入通道。在一个具体实施中,当确定额外的输入通道时,通过忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。
在动作5032,致病性确定器3734至少部分地基于有缺口空间表示来确定特定位置处的相应替代性氨基酸的致病性。相应替代性氨基酸是由相应组合生成的核苷酸变体在特定位置处产生的相应组合生成的替代性氨基酸。
图51展示了致病性分类器2108/2600/2700的一个具体实施,该致病性分类器基于处理有缺口蛋白质空间表示5102来确定5100多个替代性氨基酸的变体致病性。致病性分类器2108/2600/2700通过处理作为输入的有缺口空间表示5102以及生成作为输出的相应氨基酸类的相应致病性分数1-20来确定相应替代性氨基酸的致病性。在一些具体实施中,相应氨基酸类对应于相应的二十种天然存在的氨基酸。在其他具体实施中,相应氨基酸类对应于来自二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。在一个具体实施中,该输出与相应氨基酸类的相应致病性分数1-20的相应排序一起显示。
图52展示了在良性和致病性蛋白质样品上同时训练5200致病性分类器2108/2600/2700的一个具体实施。致病性分类器2108/2600/2700在训练集上训练。训练集具有针对蛋白质组中的相应位置的相应蛋白质样品。蛋白质组具有一千万个位置,因此训练集具有一千万个蛋白质样品。相应蛋白质样品具有通过使用蛋白质组中的相应位置处的相应参考氨基酸作为相应缺口氨基酸而生成的相应有缺口空间表示。参考氨基酸是蛋白质组的主要等位基因氨基酸。
致病性分类器2108/2600/2700在特定蛋白质样品上训练,并且通过以下方式估计特定蛋白质样品中特定位置处的特定参考氨基酸的相应替代性氨基酸的致病性:处理作为输入的特定的有缺口空间表示5202以及生成作为输出的相应氨基酸类的相应致病性分数1-20。通过使用特定参考氨基酸作为缺口氨基酸,并且通过使用特定蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸,生成特定的有缺口空间表示。
这些蛋白质样品中的每个蛋白质样品具有相应氨基酸类的相应基准真值标记。相应基准真值标记包括相应氨基酸类中的参考氨基酸类的绝对良性标记,并且包括相应氨基酸类中的相应替代性氨基酸类的相应绝对致病性标记。在一个具体实施中,绝对良性标记是0。绝对致病性标记在相应替代性氨基酸类中是相同的。在一个具体实施中,绝对致病性标记是1。
在一个具体实施中,基于参考氨基酸类的致病性分数与绝对良性标记的比较(例如,图52中参考缺口氨基酸5212的致病性分数8)以及相应替代性氨基酸类的相应致病性分数与相应绝对致病性标记的相应比较(例如,图52中的致病性分数1-7和9-20)来确定误差5204。在一个具体实施中,使用训练技术(例如,反向传播5224)基于误差来改进致病性分类器2108/2600/2700的系数。
在一个具体实施中,致病性分类器2108/2600/2700用一千万个蛋白质样品在一千万次训练迭代中训练。在一些具体实施中,蛋白质组具有一百万至一千万个位置,因此训练集具有一百万至一千万个蛋白质样品。在一个具体实施中,致病性分类器2108/2600/2700用一百万至一千万个蛋白质样品在一百万至一千万次训练迭代中训练。
在一个具体实施中,致病性分类器2108/2600/2700生成参考氨基酸类的第一替代性氨基酸的参考致病性分数。在一个具体实施中,致病性分类器2108/2600/2700生成相应替代性氨基酸类的相应替代性氨基酸的相应替代致病性分数。
在一个具体实施中,相应替代性氨基酸的相应最终替代致病性分数是相应替代致病性分数。在一个具体实施中,相应替代性氨基酸的相应最终替代致病性分数基于参考致病性分数和相应替代致病性分数的相应组合。在一个具体实施中,相应替代性氨基酸的相应最终替代致病性分数是相应替代致病性分数与参考致病性分数和相应替代致病性分数之和的相应比率。在一个具体实施中,通过分别从相应替代致病性分数中减去参考致病性分数来确定相应替代性氨基酸的相应最终替代致病性分数。
在一个具体实施中,致病性分类器2108/2600/2700具有生成相应致病性分数的输出层。在一些具体实施中,输出层是归一化层。在此类具体实施中,相应致病性分数是归一化的。在一个具体实施中,输出层是softmax层。在此类具体实施中,相应致病性分数是指数归一化的。在另一个具体实施中,输出层具有分别生成相应致病性分数的相应S型单元。在又一个具体实施中,相应致病性分数是非归一化的。
多种替代性氨基酸的基于有缺口蛋白质空间表示和基于进化保守性的致病性确
定
进化保守性是指在不同物种中存在相似的基因、基因的部分或染色体片段,既反映了物种的共同起源,又反映了保守元件的重要功能特性。突变在每一代都会自发发生,随机改变蛋白质中各处的氨基酸。具有损害蛋白质关键功能的突变的个体可能会产生使其繁殖能力下降的问题。有害突变会从基因库中丢失,因为携带这些突变的个体繁殖效率较低。由于有害突变丢失,对蛋白质功能至关重要的氨基酸在基因库中得以保留。相比之下,无害(或非常罕见的有益)突变保留在基因库中,产生非关键氨基酸的可变性。通过比对来自不同分类群(直系同源物)的具有相同功能的蛋白质的氨基酸序列来识别蛋白质中的进化保守性。预测变体的功能后果至少部分地依赖于以下假设:由于负选择,蛋白质家族的关键氨基酸在进化过程中是保守的(即,在这些位点处的氨基酸变化在过去是有害的),并且在这些位点处的突变增加了在人类中致病(引起疾病)的可能性。一般来讲,收集目标蛋白质的同源序列并比对,并且基于在比对中的目标位置观察到的不同氨基酸的加权频率来计算保守性度量。图53展示了基于处理有缺口蛋白质空间表示并且作为响应生成多个替代性氨基酸的进化保守性分数来确定5300多个替代性氨基酸的变体致病性的一个具体实施。在动作5302,缺口氨基酸指定器3714将蛋白质中特定位置处的特定氨基酸指定为缺口氨基酸,并将蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸。在一个具体实施中,特定氨基酸是作为蛋白质的主要等位基因的参考氨基酸。
在动作5312,有缺口空间表示生成器3724生成蛋白质的有缺口空间表示,该有缺口空间表示包括非缺口氨基酸的空间构型以及排除缺口氨基酸的空间构型。非缺口氨基酸的空间构型被编码为氨基酸类式距离通道。氨基酸类别式距离通道中的每个氨基酸类别式距离通道具有多个体素中的体素的体素式距离值。体素式距离值指定从多个体素中的对应体素到非缺口氨基酸的原子的距离。基于对应体素和非缺口氨基酸的原子之间的空间接近度来确定非缺口氨基酸的空间构型。当确定体素式距离值时,通过忽略从对应体素到缺口氨基酸原子的距离,将缺口氨基酸的空间构型从有缺口空间表示中排除。通过忽略对应体素和缺口氨基酸的原子之间的空间接近度,从有缺口空间表示中排除缺口氨基酸的空间构型。
基于具有最接近体素的原子的氨基酸的泛氨基酸保守频率,将非缺口氨基酸的空间构型编码为进化谱通道。在一个具体实施中,当确定泛氨基酸保守频率时,通过忽略缺口氨基酸的最接近原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。基于具有最接近体素的相应原子的相应氨基酸的每氨基酸保守频率,将非缺口氨基酸的空间构型编码为进化谱通道。在一个具体实施中,当确定每氨基酸保守频率时,通过忽略缺口氨基酸的最接近相应原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为注释通道。在一个具体实施中,当确定注释通道时,通过忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为结构置信度通道。在一个具体实施中,当确定结构置信度通道时,通过忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。非缺口氨基酸的空间构型被编码为额外的输入通道。在一个具体实施中,当确定额外的输入通道时,通过忽略缺口氨基酸的原子,将缺口氨基酸的空间构型从有缺口空间表示中排除。
在动作5322,进化保守性确定器5324至少部分地基于有缺口空间表示来确定相应氨基酸类别的相应氨基酸的特定位置处的进化保守性。
图54示出了根据一个具体实施的操作5400中的进化保守性确定器5324。在一些具体实施中,进化保守性确定器5324具有与致病性分类器2108/2600/2700相同的架构。进化保守性确定器5324通过处理作为输入的有缺口空间表示5402以及生成作为输出的相应氨基酸5408的相应进化保守性分数5406来确定进化保守性。相应的进化保守性分数能够按大小排序。出于本公开的目的,“分类器”、“确定器”、“在此插入术语”可包括一个或多个软件模块、一个或多个硬件模块或它们的任何组合。
在动作5332,致病性确定器3734至少部分地基于相应氨基酸5408的进化保守性来确定相应核苷酸变体的致病性,这些相应核苷酸变体在蛋白质的替代表示中用相应氨基酸5408分别取代特定氨基酸。
图55展示了基于预测的进化分数确定致病性的一个具体实施。当由进化保守性确定器5324针对对应氨基酸取代生成的进化保守性分数低于阈值时,分类器5516将核苷酸变体分类为致病性5508。在一个具体实施中,当由进化保守性确定器5324针对对应氨基酸取代生成的进化保守性分数为0(即,非保守性的指示)时,分类器5516将核苷酸变体分类为致病性5508。
当由进化保守性确定器5324针对对应氨基酸取代生成的进化保守性分数高于阈值时,分类器5516将核苷酸变体分类为良性5528。在一个具体实施中,当由进化保守性确定器5324针对对应氨基酸取代生成的进化保守性分数是非0(即,保守性的指示)时,分类器5516将核苷酸变体分类为良性5528。
图56展示了用于训练进化保守性确定器5324的训练数据5600的一个具体实施。进化保守性确定器5324在保守训练集和非保守训练集上训练。保守训练集具有针对蛋白质组中相应位置处的相应保守氨基酸的相应保守蛋白质样品5602。非保守训练集具有在相应位置处的相应非保守氨基酸的相应非保守(或未保守)蛋白质样品5608。在各种具体实施中,蛋白质组包括人蛋白质组和非人蛋白质组,包括非人灵长类动物蛋白质组。
这些相应位置中的每个相应位置具有一组保守氨基酸和一组非保守氨基酸。蛋白质组中特定蛋白质的特定位置的特定保守氨基酸组包括在多个物种中的特定位置处观察到的至少一个主要等位基因氨基酸。在一个具体实施中,主要等位基因氨基酸是参考氨基酸(例如,REF等位基因5612跨越良性蛋白质样品5622,并且REF等位基因5662跨越良性蛋白质样品5682)。特定保守氨基酸组包括在多个物种中的特定位置处观察到的一个或多个次要等位基因氨基酸(例如,观察到的跨越良性蛋白质样品5642、5652、5662的ALT等位基因5632和观察到的跨越良性蛋白质样品5695、5696的ALT等位基因5692)。
特定位置的特定非保守氨基酸组包括不在特定保守氨基酸组中的氨基酸(例如,跨越致病性蛋白质样品5622A-N的未观察到的ALT等位基因5618和跨越致病性蛋白质样品5682A-N的未观察到的ALT等位基因5668)。
在一个具体实施中,这些相应位置中的每个相应位置具有保守氨基酸组中的C个保守氨基酸。在此类具体实施中,这些相应位置中的每个相应位置具有非保守氨基酸组中的NC个非保守氨基酸,其中NC=20-C。保守训练集具有CP个保守蛋白质样品,其中CP=相应位置的数目*C。非保守训练集具有NCP个非保守蛋白质样品,其中NCP=相应位置的数目*(20-C)。在一个具体实施中,C的范围为1至10。在另一个具体实施中,C在相应位置之间变化。在又一个具体实施中,C对于相应位置中的一些位置是相同的。
在一个具体实施中,蛋白质组具有一至一千万个位置。在此类具体实施中,一至一千万个位置中的每个位置都具有保守氨基酸组中的C个保守氨基酸。一至一千万个位置中的每个位置都具有非保守氨基酸组中的NC个非保守氨基酸,其中NC=20-C。保守训练集具有CP个保守蛋白质样品,其中CP=一至一千万*C。非保守训练集具有NCP个非保守蛋白质样品,其中NCP=一至一千万*(20-C)。
在一个具体实施中,进化保守性确定器5324在两千万至两亿次训练迭代中训练。在此类具体实施中,两千万至两亿次训练迭代包括用一百万至一千万个保守蛋白质样品进行的一百万至一千万次训练迭代,以及用一千九百万至一亿九千万个非保守蛋白质样品进行的一千九百万至一亿九千万次迭代。
在另一个具体实施中,蛋白质组具有一百万至一千万个位置,因此训练集具有一百万至一千万个蛋白质样品。在此类具体实施中,进化保守性确定器5324用一百万至一千万个蛋白质样品在一百万至一千万次训练迭代中训练。
相应的保守和非保守蛋白质样品具有通过使用相应位置处的相应参考氨基酸作为相应缺口氨基酸而生成的相应有缺口空间表示。进化保守性确定器5324在特定保守蛋白质样品上训练,并且通过以下方式估计特定保守蛋白质样品中特定位置处的特定保守氨基酸的进化保守性:处理作为输入的特定保守蛋白质样品的特定的有缺口空间表示以及生成作为输出的特定保守氨基酸的进化保守性分数。通过使用特定位置处的特定参考氨基酸作为缺口氨基酸,并且通过使用特定保守蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸,生成特定的有缺口空间表示。
这些保守蛋白质样品中的每个保守蛋白质样品具有基准真值保守标记。基准真值保守标记是进化保守性频率。在一个具体实施中,基准真值保守标记是1。将特定保守氨基酸的进化保守性与基准真值保守标记进行比较以确定误差,并使用训练技术基于该误差改进进化保守性确定器5324的系数。在一个具体实施中,训练技术是基于损失函数的梯度更新技术(例如,反向传播)。
在一些具体实施中,当特定保守氨基酸是特定参考氨基酸时,基准真值保守标记被掩蔽并且不用于确定误差。在此类具体实施中,掩蔽使得进化保守性确定器5324不过度拟合特定参考氨基酸。
进化保守性确定器5324在特定非保守蛋白质样品上训练,并且通过以下方式估计特定非保守蛋白质样品中特定位置处的特定非保守氨基酸的进化保守性:处理作为输入的特定非保守蛋白质样品的特定的有缺口空间表示以及生成作为输出的特定非保守氨基酸的进化保守性分数。通过使用特定位置处的特定参考氨基酸作为缺口氨基酸,并且通过使用特定非保守蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸,生成特定的有缺口空间表示。
这些非保守蛋白质样品中的每个非保守蛋白质样品具有基准真值非保守标记。基准真值非保守标记是进化保守性频率。在一个具体实施中,基准真值非保守标记是0。将特定非保守氨基酸的进化保守性分数与基准真值非保守标记进行比较以确定误差,并使用训练技术(例如,反向传播)基于该误差改进进化保守性确定器5324的系数。
进化保守性确定器5324在训练集上训练。训练集具有针对蛋白质组中的相应位置的相应蛋白质样品。相应蛋白质样品具有通过使用相应位置处的相应参考氨基酸作为相应缺口氨基酸而生成的相应有缺口空间表示。
图57展示了在良性和致病性蛋白质样品上同时训练5700进化保守性确定器的一个具体实施。进化保守性确定器5324在特定蛋白质样品上训练,并且通过以下方式估计特定蛋白质样品中特定位置处的相应氨基酸类的相应氨基酸的进化保守性:处理作为输入的特定蛋白质样品的特定的有缺口空间表示5722以及生成作为输出的相应氨基酸的相应进化保守性分数1-20。通过使用特定位置处的特定参考氨基酸作为缺口氨基酸,并且通过使用特定蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸,生成特定的有缺口空间表示5722。
这些蛋白质样品中的每个蛋白质样品具有相应氨基酸的相应基准真值标记。相应的基准真值标记包括相应氨基酸中一个或多个保守氨基酸5732、5702、5712的一个或多个保守(良性)标记,并且包括相应氨基酸中一个或多个非保守氨基酸的一个或多个非保守(致病性)标记。保守标记和非保守标记具有相应的进化保守性频率。相应的进化保守性频率能够根据大小进行排序。在一个具体实施中,保守标记是1,并且非保守标记是0。
在一个具体实施中,基于相应保守氨基酸的相应进化保守性分数与相应保守氨基酸的相应比较和相应非保守氨基酸的相应进化保守性分数与相应非保守氨基酸的相应比较来确定误差5704。使用训练技术(例如,反向传播5744)基于该误差来改进进化保守性确定器5324的系数。
在一个具体实施中,保守氨基酸包括特定参考氨基酸,并且特定参考氨基酸的保守标记被掩蔽并且不用于确定误差。该掩蔽使得进化保守性确定器5324不过度拟合特定参考氨基酸。
同义突变是点突变,意味着它们仅仅是仅改变DNA的RNA拷贝中的一个碱基对的错误拷贝的DNA核苷酸。RNA中的密码子是编码特定氨基酸的一组三个核苷酸。大多数氨基酸具有几个翻译成该特定氨基酸的RNA密码子。大多数时候,如果第三核苷酸发生突变,则将导致编码相同的氨基酸。这被称为同义突变,因为与语法上的同义词一样,突变的密码子具有与原始密码子相同的含义,因此不改变氨基酸。如果氨基酸不改变,则蛋白质也不受影响。同义突变不改变任何东西,因此也不发生改变。这意味着它们在物种进化中没有真正的作用,因为基因或蛋白质没有以任何方式改变。同义突变实际上相当常见,但由于它们没有影响,因此不会被注意到。
非同义突变对个体的影响比同义突变大得多。在非同义突变中,当信使RNA复制DNA时,在转录期间通常存在序列中单个核苷酸的插入或缺失。这种单个缺失或添加的核苷酸会导致移码突变,从而丢失氨基酸序列的整个阅读框并混淆密码子。这通常会影响所编码的氨基酸并改变表达的所得蛋白质。这种突变的严重性取决于它发生在氨基酸序列中的早期程度。如果它发生在开始附近,整个蛋白质被改变,这可能变成致命突变。非同义突变发生的另一种方式是点突变将单个核苷酸改变为不翻译成相同氨基酸的密码子。很多时候,单个氨基酸的改变不会对蛋白质产生太大影响,并且仍然是可行的。如果它发生在序列的早期,并且密码子被改变以翻译成终止信号,那么蛋白质将不会被制造,并且可能导致严重的后果。有时非同义突变实际上是积极的变化。自然选择可有利于该基因的这种新表达,并且个体可能已经从突变中发展出有利的适应。如果这种突变发生在配子中,这种适应就会遗传给下一代后代。非同义突变增加了基因库的多样性,便于自然选择在微观进化水平上发挥作用并推动进化。
编码氨基酸的核苷酸三联体称为密码子。每组三个核苷酸编码一个氨基酸。由于存在4个核苷酸的64种组合,一次取3个并且只有20个氨基酸,所以密码是简并的(在大多数情况下,每个氨基酸不止一个密码子)。不可达替代性氨基酸类的一个示例是不被同义SNP编码的那些替代性氨基酸类。不可达替代性氨基酸类的另一个示例是受三联体核苷酸突变体组合的数量限制的那些替代性氨基酸类,这些三联体核苷酸突变体组合在三联体核苷酸位置处与起始密码子偏离单核苷酸多态性(SNP)。
在一个具体实施中,在基准真值标记中掩蔽受SNP的可达性限制以将参考氨基酸的参考密码子转化为不可达替代性氨基酸类的替代性氨基酸的那些不可达替代性氨基酸类。在此类具体实施中,掩蔽的氨基酸类导致0损失并且对梯度更新没有贡献。在一个具体实施中,在查找表中识别掩蔽的氨基酸类。在一个具体实施中,查找表针对每个参考氨基酸位置识别一组掩蔽的氨基酸类。
特定保守氨基酸组和特定非保守氨基酸组基于多个物种的同源蛋白质的进化保守性谱来识别。在一个具体实施中,使用位置特异性频率矩阵(PSFM)确定同源蛋白质的进化保守性谱。在另一个具体实施中,使用位置特异性评分矩阵(PSSM)确定同源蛋白质的进化保守性谱。
图58描绘了用于训练进化保守性确定器5324的基准真值标记编码的不同具体实施。基准真值标记编码5802使用进化保守性频率(例如,PSFM或PSSM)来标记保守氨基酸类A、C、F,并且使用“0值”来标记剩余的非保守氨基酸类。基准真值标记编码5812与基准真值标记编码5802相同,不同的是基准真值标记编码5812“屏蔽”REF主要等位基因/最保守氨基酸类F,使得REF主要等位基因/最保守氨基酸类F对进化保守性确定器5324的训练没有贡献(例如,通过将由REF主要等位基因/最保守氨基酸类F的损失函数计算的损失归零)。
基准真值标记编码5822使用“一个值”来标记保守氨基酸类A、C、F,并且使用“0值”来标记剩余的非保守氨基酸类。基准真值标记编码5832与基准真值标记编码5822相同,不同的是基准真值标记编码5832“屏蔽”REF主要等位基因/最保守氨基酸类F,使得REF主要等位基因/最保守氨基酸类F对进化保守性确定器5324的训练没有贡献(例如,通过将由REF主要等位基因/最保守氨基酸类F的损失函数计算的损失归零)。
图59展示了示例PSFM 5900。图60描绘了示例PSSM 6000。图61示出了生成PSFM和PSSM的一个具体实施。图62展示了示例PSFM 6200编码。图63描绘了示例PSSM 6300编码。
多序列比对(MSA)是多个同源蛋白质序列与目标蛋白质的序列比对。MSA是生物序列的比较分析和性质预测中的重要步骤,因为许多信息(例如,进化簇和共进化簇)从MSA产生,并且可映射到所选的靶序列或蛋白质结构上。
长度为L的蛋白质序列X的序列谱是PSSM或PSFM形式的L×20矩阵。PSSM和PSFM的列按氨基酸字母表索引,每行对应于蛋白质序列中的位置。PSSM和PSFM分别含有蛋白质序列中不同位置处的氨基酸的取代分数和频率。PSFM的每一行都归一化为总计1。蛋白质序列X的序列谱通过将X与蛋白质数据库中与X具有统计学上显著的序列相似性的多个序列进行比对来计算。因此,序列谱包含蛋白质序列X所属的蛋白质家族的更一般的进化和结构信息,因此为远程同源性检测和折叠识别提供了有价值的信息。
蛋白质序列(称为查询序列,例如,蛋白质的参考氨基酸序列)可用作种子以使用例如PSI-BLAST程序从蛋白质数据库(例如,SWISSPROT)中搜索和比对同源序列。比对的序列共享一些同源片段,并且属于同一蛋白质家族。比对的序列进一步转化成两个谱以表达它们的同源信息:PSSM和PSFM。PSSM和PSFM都是具有20行和L列的矩阵,其中L是查询序列中氨基酸的总数。PSSM的每列代表查询序列中对应位置处残基取代的对数似然性。PSSM矩阵的第(i,j)项表示查询序列第j个位置中的氨基酸在进化过程中突变为氨基酸类型i的机会。PSFM包含比对序列的每个位置的加权观察频率。具体地,PSFM矩阵的第(i,j)项表示在查询序列的位置j具有氨基酸类型i的可能性。
给定查询序列,我们首先通过将其呈现给PSI-BLAST以从蛋白质数据库(例如,Swiss-Prot数据库)中搜索和比对同源蛋白质序列来获得其序列谱。图61示出了通过使用PSI-BLAST程序获得序列谱的程序。PSI-BLAST的参数h和j通常分别设定为0.001和3。蛋白质的序列谱包封了与查询蛋白质序列有关的同源物信息。在PSI-BLAST中,同源物信息由两个矩阵表示:PSFM和PSSM。PSFM和PSSM的示例分别如图62和图63所示。
在图62中,第(1,u)个元素(I∈{1,2,…,Li},u∈{1,2,…,20})表示在查询蛋白的第1个位置中具有第u个氨基酸的机会。例如,在查询蛋白的第1个位置中具有氨基酸M的机会是0.36。
在图63中,第(1,u)个元素(I∈{1,2,…,Li},u∈{1,2,…,20})表示在进化过程中,查询蛋白的第1个位置中的氨基酸突变为第u个氨基酸的可能分数。例如,在进化过程中被突变为H的查询蛋白的第1个位置中的氨基酸V的分数为-3,而第8个位置中的分数为-4。
组合学习和迁移学习
图64示出了两个数据集,本文公开的模型可例如通过组合学习的方式(图65A至图65B)或通过迁移学习的方式(图66A至图66B)在这两个数据集上训练。第一训练数据集称为Jigsaw AI数据集6406。第二训练数据集称为PrimateAI数据集6408。如上所述,JigsawAI数据集6406的特征在于体素输入6412具有被识别为缺口氨基酸的缺失的中心残基。PrimateAI数据集6408的特征在于体素输入6412没有缺失的残基和完全的输入。
对于JigsawAI数据集6406,基准真值标记6422具有缺口氨基酸(例如,REF氨基酸)的缺失或掩蔽标记6426。对于PrimateAI数据集6408,基准真值标记6422具有十九个缺失或掩蔽的标记6436,用于那些与待分析的替代性氨基酸(良性或致病性)不同的剩余氨基酸。在一个具体实施中,样品6432在JigsawAI数据集6406中的数量为一千万6436,并且PrimateAI数据集6408中的数量为一百万6438。
图65A至图65B展示了本文所公开的模型的组合学习6500的一个具体实施。在动作6502,存取有缺口训练集。该有缺口训练集在本文中也称为Jigsaw AI数据集6406。有缺口训练集包括针对蛋白质组中的相应位置的相应有缺口蛋白质样品。相应有缺口蛋白质样品用相应有缺口基准真值序列标记。特定有缺口蛋白质样品的特定有缺口基准真值序列具有与特定有缺口蛋白质中特定位置处的参考氨基酸对应的特定氨基酸类的良性标记,并且具有与特定位置处的替代性氨基酸对应的相应剩余氨基酸类的相应致病性标记。
在动作6512,存取非缺口训练集。非缺口训练集在本文中也称为PrimateAI数据集6408。非缺口训练集包括非缺口良性蛋白质样品和非缺口致病性蛋白质样品。特定非缺口良性蛋白质样品包括在特定位置处被良性核苷酸变体取代的良性替代性氨基酸。特定非缺口致病性蛋白质样品包括在特定位置处被致病性核苷酸变体取代的致病性替代性氨基酸。特定非缺口良性蛋白质样品用良性基准真值序列标记,该良性基准真值序列具有与良性替代性氨基酸对应的特定氨基酸类的良性标记和与不同于良性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记。特定非缺口致病性蛋白质样品用致病性基准真值序列标记,该致病性基准真值序列具有与致病性替代性氨基酸对应的特定氨基酸类的致病性标记和与不同于致病性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记。
在一个具体实施中,与特定有缺口蛋白质中特定位置处的参考氨基酸对应的特定氨基酸类的良性标记被掩蔽。在一个具体实施中,非缺口良性蛋白质样品来源于常见的人和非人灵长类动物核苷酸变体。在一个具体实施中,非缺口致病性蛋白质样品来源于组合模拟的核苷酸变体。
在动作6522,生成有缺口蛋白质样品的相应有缺口空间表示,以及生成非缺口良性蛋白质样品和非缺口致病性蛋白质样品的相应非缺口空间表示。
在动作6532,在一个或多个训练循环中训练致病性分类器2108/2600/2700,并且由于经训练的致病性分类器2108/2600/2700的参数/系数/权重被优化而生成经训练的致病性分类器2108/2600/2700。这些训练循环中的每个训练循环使用来自相应有缺口空间表示的有缺口空间表示和来自相应非缺口空间表示的非缺口空间表示作为训练示例。
在动作6542,经训练的致病性分类器2108/2600/2700用于确定变体的致病性。
在一个具体实施中,样品指示器用于向致病性分类器2108/2600/2700指示当前训练示例是有缺口蛋白质样品的有缺口空间表示还是非缺口蛋白质样品的非缺口空间表示。
在一个具体实施中,致病性分类器2108/2600/2700响应于处理训练示例而生成氨基酸类式输出序列。氨基酸类式输出序列具有氨基酸类式致病性分数。
在一个具体实施中,在验证集上的训练循环之间测量经训练的致病性分类器2108/2600/2700的性能。在一些具体实施中,验证集包括针对每个保留的蛋白质样品的一对有缺口和非缺口的空间表示。
在一个具体实施中,经训练的致病性分类器2108/2600/2700生成针对该对中的有缺口空间表示的第一氨基酸类式输出序列,和针对该对中的非缺口空间表示的第二氨基酸类式输出序列。在一些具体实施中,基于第一和第二氨基酸类式输出序列中的氨基酸取代的第一和第二致病性分数的组合,确定引起保留的蛋白质样品中的氨基酸取代的核苷酸变体的最终致病性分数。在其他具体实施中,最终致病性分数基于第一和第二致病性分数的平均值。
在一些具体实施中,这些训练循环中的至少一些训练循环使用相同数量的有缺口空间表示和非缺口空间表示。在其他具体实施中,这些训练循环中的至少一些训练循环使用具有相同数量的有缺口空间表示和非缺口空间表示的训练示例批次。
在一个具体实施中,掩蔽的标记对误差确定没有贡献,因此对致病性分类器2108/2600/2700的训练没有贡献。在一些具体实施中,掩蔽的标记被清零。
在一些具体实施中,有缺口空间表示与非缺口空间表示被不同地加权,使得有缺口空间表示对响应于致病性分类器2108/2600/2700处理非缺口空间表示而应用于致病性分类器2108/2600/2700的参数的梯度更新的贡献不同于非缺口空间表示对响应于致病性分类器2108/2600/2700处理非缺口空间表示而应用于致病性分类器2108/2600/2700的参数的梯度更新的贡献。在一个具体实施中,变化由预定义的权重确定。
图66A至图66B展示了使用迁移学习6600并使用图64所示的两个数据集来训练本文所公开的模型的一个具体实施。在动作6602,致病性分类器2108/2600/2700首先在有缺口训练集(即,Jigsaw AI数据集6406)上进行训练以生成经训练的致病性分类器2108/2600/2700。
在动作6612,经训练的致病性分类器2108/2600/2700进一步在非缺口训练集(即,PrimateAI数据集6408)上进行训练以生成重新训练的致病性分类器2108/2600/2700。
在动作6622,经重新训练的致病性分类器2108/2600/2700用于确定变体的致病性。
在动作6632,在第一验证集上的训练循环之间测量经训练的致病性分类器2108/2600/2700的性能,第一验证集仅包括保留的蛋白质样品的非缺口空间表示。在另一个具体实施中,在第二验证集上的训练循环之间测量经重新训练的致病性分类器2108/2600/2700的性能,第二验证集包括保留的蛋白质样品的有缺口空间表示和非缺口空间表示。
在动作6642,经重新训练的致病性分类器2108/2600/2700响应于处理该对而生成该对的第一氨基酸类式输出序列。在一个具体实施中,基于第一氨基酸类式输出序列,确定引起对应的保留蛋白质样品中的氨基酸取代的核苷酸变体的最终致病性分数。
生成训练数据和训练标记
图67示出了生成6700训练数据和标记以生成本文所公开的模型的一个具体实施。
蛋白质组存取器6704存取具有多个蛋白质的蛋白质组中的多个氨基酸位置。
参考指定器6714指定多个氨基酸位置处的主要等位基因氨基酸作为多个蛋白质的参考氨基酸。
对于多个氨基酸位置中的每个氨基酸位置,良性标记器6724将那些核苷酸取代分类为良性变体,这些良性变体用特定蛋白质的特定替代表示中的特定氨基酸位置处的特定参考氨基酸取代特定参考氨基酸。
对于多个氨基酸位置中的每个氨基酸位置,致病性标记器6734将那些核苷酸取代分类为致病性变体,这些致病性变体用特定氨基酸位置处的替代性氨基酸取代特定参考氨基酸。替代性氨基酸不同于特定参考氨基酸。
训练器6744在包括蛋白质样品的空间表示的训练数据上训练变体致病性分类器2108/2600/2700,使得空间表示被分配与良性变体对应的基准真值良性标记,以及与致病性变体对应的基准真值致病性标记。
在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是致病性的还是良性的。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成取代的致病性分数。在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是致病性的还是良性的。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成相应取代的相应致病性分数。在一些具体实施中,相应氨基酸对应于相应的二十种天然存在的氨基酸。在其他具体实施中,相应氨基酸对应于来自二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是致病性的还是良性的。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成插入的致病性分数。在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是致病性的还是良性的。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成相应插入的相应致病性分数。在一些具体实施中,相应氨基酸对应于相应的二十种天然存在的氨基酸。在其他具体实施中,相应氨基酸对应于来自二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是否被该蛋白质的其他氨基酸在空间上耐受。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成取代的空间耐受分数。在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是否被该蛋白质的其他氨基酸在空间上耐受。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成相应取代的相应空间耐受分数。在一些具体实施中,相应氨基酸对应于相应的二十种天然存在的氨基酸。在其他具体实施中,相应氨基酸对应于来自二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是否被该蛋白质的其他氨基酸在空间上耐受。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成插入的空间耐受分数。在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是否被该蛋白质的其他氨基酸在空间上耐受。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成相应插入的相应空间耐受分数。在一些具体实施中,相应氨基酸对应于相应的二十种天然存在的氨基酸。在其他具体实施中,相应氨基酸对应于来自二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是进化保守性的还是非保守的。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成取代的进化保守性分数。在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是进化保守性的还是非保守的。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成相应取代的相应进化保守性分数。在一些具体实施中,相应氨基酸对应于相应的二十种天然存在的氨基酸。在其他具体实施中,相应氨基酸对应于来自二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是进化保守性的还是非保守的。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成插入的进化保守性分数。
在一个具体实施中,变体致病性分类器2108/2600/2700被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是进化保守性的还是非保守的。在此类具体实施中,变体致病性分类器2108/2600/2700被训练以生成相应插入的相应进化保守性分数。在一些具体实施中,相应氨基酸对应于相应的二十种天然存在的氨基酸。在其他具体实施中,相应氨基酸对应于来自二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
在不同的具体实施中,空间耐受对应于结构耐受,并且空间不耐受对应于结构不耐受。在不同的具体实施中,多个氨基酸位置的范围为一百万至一千万个氨基酸位置。在不同的具体实施中,多个氨基酸位置的范围为一千万至一亿个氨基酸位置。在不同的具体实施中,多个氨基酸位置的范围为一亿至十亿个氨基酸位置。在不同的具体实施中,多个氨基酸位置的范围为一至一百万个氨基酸位置。
在一个具体实施中,在基准真值标记中掩蔽受单核苷酸多态性(SNP)的可达性限制以将参考氨基酸的参考密码子转化为不可达替代性氨基酸类的替代性氨基酸的那些不可达替代性氨基酸类。在此类具体实施中,掩蔽的氨基酸类导致0损失并且对梯度更新没有贡献。在此类具体实施中,在查找表中识别掩蔽的氨基酸类。在此类具体实施中,查找表针对每个参考氨基酸位置识别一组掩蔽的氨基酸类。
在不同的具体实施中,空间表示是蛋白质样品的蛋白质结构的结构表示。在不同的具体实施中,使用体素化来编码空间表示。
致病性确定
图68展示了确定核苷酸变体的致病性的方法6800的一个具体实施。该方法包括,在动作6802,存取蛋白质的空间表示。蛋白质的空间表示指定蛋白质中的相应位置处的相应氨基酸的相应空间构型。
该方法包括,在动作6812,从蛋白质的空间表示中去除特定位置处的特定氨基酸的特定空间构型,从而生成蛋白质的有缺口空间表示。在一个具体实施中,特定空间构型的去除由脚本实现(或自动化)。
该方法包括,在动作6822,至少部分地基于有缺口空间表示和由核苷酸变体在特定位置处产生的替代性氨基酸的表示来确定核苷酸变体的致病性。
结构耐受性预测
图69展示了预测氨基酸取代物的结构耐受性的系统6900的一个具体实施。在动作6902,缺口逻辑被配置为从蛋白质的空间表示中去除特定位置处的特定氨基酸,并且在蛋白质的空间表示中的特定位置处产生氨基酸空位。
在动作6912,结构耐受性预测逻辑被配置为处理具有氨基酸空位的蛋白质的空间表示,并且基于氨基酸空位附近的氨基酸共现模式对作为用于填充氨基酸空位的候选物的替代性氨基酸的结构耐受性进行排序。
性能结果作为创造性和非显而易见性的客观指标
本文所公开的变体致病性分类器基于3D蛋白质结构进行致病性预测,称之为“PrimateAI 3D”。“Primate AI”是共同拥有且先前公开的变体致病性分类器,其基于蛋白质序列进行致病性预测。关于PrimateAI的附加细节可以在共同拥有的美国专利申请号16/160,903、16/160,986、16/160,968和16/407,149,以及Sundaram,L.等人,Predicting theclinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)中找到。
使用本文公开的迁移学习技术训练的变体致病性分类器(图66A至图66B)称为“迁移学习”。使用本文公开的组合学习技术训练的变体致病性分类器(图65A至图65B)称为“组合学习”。
图70A、图70B和图70C中的性能结果是在跨多个验证集准确地区分良性变体与致病性变体的分类任务上生成的。新型发育迟缓障碍(新型DDD)是用于比较迁移学习与组合学习与Primate AI 3D与Primate AI的分类准确性的验证集的一个示例。新DDD验证集将来自具有DDD的个体的变体标记为致病性,并且将来自具有DDD的个体的健康亲属的相同变体标记为良性。类似的标记方案用于孤独症谱系障碍(ASD)验证集。
BRCA1是用于比较迁移学习与组合学习与Primate AI 3D与Primate AI的分类准确性的验证集的另一个示例。BRCA1验证集将模拟BRCA1基因的蛋白质的合成生成的参考氨基酸序列标记为良性变体,并且将模拟BRCA1基因的蛋白质的合成改变的等位基因氨基酸序列标记为致病性变体。类似的标记方案用于TP53基因、TP53S3基因及其变体以及图70A、图70B和图70C中所示的其他基因及其变体的不同验证集。
在图70A、图70B和图70C中,y轴具有p值,x轴具有不同的验证集。如图70A、图70B和图70C中的p值所示,组合学习通常优于其他方法,之后是迁移学习,迁移学习之后又是PrimateAI 3D。p值越大,即竖条越长,表示区分良性变体与致病性变体的准确性越高。在图70A、图70B和图70C中,组合学习的竖条始终比其他方法的竖条长。
另外,在图70A、图70B和图70C中,单独的“平均值”图表计算为这些验证集中的每个验证集确定的p值的平均值。同样在平均值图表中,组合学习通常优于其他方法,接着是迁移学习,迁移学习之后又是PrimateAI 3D,如由组合学习的水平条始终比其他方法的水平条长所指示的。
平均值统计值可能由于离群值而偏移。为了解决这个问题,图70A、图70B和图70C中还描绘了单独的“方法等级”图表。等级越高,表示分类准确性越差。同样在方法等级图表中,组合学习通常优于其他方法,接着是迁移学习,迁移学习之后又是PrimateAI 3D。在方法等级图表中,具有更多较低等级1和2的计数优于具有较高等级3的计数。
条款
本发明所公开的技术可以作为系统、方法或制品来实践。具体实施的一个或多个特征可与基本具体实施组合。不互相排斥的具体实施被教导为可组合的。具体实施的一个或多个特征可与其他具体实施组合。本公开周期性地提醒用户这些选项。从一些具体实施中省略重复这些选项的表述不应被视为限制前述部分中教导的组合,这些表述将据此以引用方式并入以下具体实施中的每个具体实施中。
可以以计算机产品的形式实现所公开的技术的一个或多个具体实施和条款或其元素,该计算机产品包括具有用于执行所指示的方法步骤的计算机可用程序代码的非暂态计算机可读存储介质。此外,所公开的技术的一个或多个具体实施和条款或其元素可以以包括存储器的装置和耦合到存储器的至少一个处理器的形式来实现,并且操作以执行示例性方法步骤。进一步地,在另一方面,可以以用于执行本文描述的方法步骤中的一个或多个方法步骤的装置的形式来实现所公开的技术的一个或多个具体实施和条款或其元素;该装置可包括(i)硬件模块,(ii)在一个或多个硬件处理器上执行的软件模块,或(iii)硬件和软件模块的组合;(i)至(iii)中的任何一个实施本文所阐述的特定技术,并且软件模块被存储在计算机可读存储介质(或多个此类介质)中。
本部分中描述的条款可组合为特征。为了简洁起见,特征的组合不是单独列举的,并且不与每个基本特征组一起重复。读者将理解在该部分所述的条款中标识的特征可如何容易地与在本申请的其他部分中被标识为具体实施的基本特征集合组合。这些条款并不意味着相互排斥、穷尽或限制;并且所公开的技术不限于这些条款,而是包括在所要求保护的技术及其等同物的范围内的所有可能的组合、修改和变化。
在本部分中描述的条款的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行本部分中描述的任一条款。在本部分中描述的条款的又一具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,从而执行本部分中描述的任一条款。
本发明公开了以下条款:
条款集1(ILLM 1050-2)
1.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:存取在相应位置处具有相应氨基酸的蛋白质;
将所述蛋白质中特定位置处的特定氨基酸指定为缺口氨基酸,并将所述蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸;
生成所述蛋白质的有缺口空间表示,所述有缺口空间表示
包括所述非缺口氨基酸的空间构型,以及
排除所述缺口氨基酸的空间构型;以及
至少部分地基于
所述有缺口空间表示和
由所述核苷酸变体在所述特定位置处产生的替代性氨基酸的表示来确定核苷酸变体的致病性。
2.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为氨基酸类式距离通道,
其中所述氨基酸类式距离通道中的每个氨基酸类式距离通道具有多个体素中的体素的体素式距离值,并且
其中所述体素式距离值指定从所述多个体素中的对应体素到所述非缺口氨基酸的原子的距离。
3.根据条款2所述的计算机实现的方法,其中基于所述对应体素和所述非缺口氨基酸的所述原子之间的空间接近度来确定所述非缺口氨基酸的所述空间构型。
4.根据条款2所述的计算机实现的方法,其中当确定所述体素式距离值时,通过忽略从所述对应体素到所述缺口氨基酸原子的距离,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
5.根据条款4所述的计算机实现的方法,其中通过忽略所述对应体素和所述缺口氨基酸的所述原子之间的空间接近度,从所述有缺口空间表示中排除所述缺口氨基酸的所述空间构型。
6.根据条款1所述的计算机实现的方法,其中所述特定氨基酸是作为所述蛋白质的主要等位基因的参考氨基酸。
7.根据条款1所述的计算机实现的方法,其中致病性预测器通过以下方式确定所述核苷酸变体的所述致病性:
处理作为输入的所述有缺口空间表示和
所述替代性氨基酸的所述表示;以及
生成作为输出的所述替代性氨基酸的致病性分数。
8.根据条款7所述的计算机实现的方法,其中所述致病性预测器在良性训练集上训练。
9.根据条款8所述的计算机实现的方法,其中所述良性训练集具有针对蛋白质组中的相应位置处的相应参考氨基酸的相应良性蛋白质样品。
10.根据条款9所述的计算机实现的方法,其中所述参考氨基酸是所述蛋白质组的主要等位基因氨基酸。
11.根据条款10所述的计算机实现的方法,其中所述蛋白质组具有一千万个位置,因此所述良性训练集具有一千万个良性蛋白质样品。
12.根据条款11所述的计算机实现的方法,其中所述相应良性蛋白质样品具有通过使用所述相应参考氨基酸作为相应缺口氨基酸生成的相应有缺口空间表示。
13.根据条款12所述的计算机实现的方法,其中所述相应良性蛋白质样品具有作为相应替代性氨基酸的所述相应参考氨基酸的相应表示。
14.根据条款13所述的计算机实现的方法,其中所述致病性预测器在特定良性蛋白质样品上训练,并且通过以下方式估计所述特定良性蛋白质样品中的特定位置处的特定参考氨基酸的致病性:
处理作为输入的
(i)所述特定良性蛋白质样品的特定的有缺口空间表示,
其中通过以下方式生成所述特定的有缺口空间表示,
使用所述特定参考氨基酸作为缺口氨基酸,以及
使用所述特定良性蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸,以及
(ii)作为特定替代性氨基酸的所述特定参考氨基酸的表示;以及生成作为输出的所述特定参考氨基酸的致病性分数。
15.根据条款14所述的计算机实现的方法,其中所述良性蛋白质样品中的每个良性蛋白质样品具有基准真值良性标记,所述基准真值良性标记指示所述良性蛋白质样品的绝对良性。
16.根据条款15所述的计算机实现的方法,其中所述基准真值良性标记是0。
17.根据条款16所述的计算机实现的方法,其中将所述特定参考氨基酸的所述致病性分数与所述基准真值良性标记进行比较以确定误差,并使用训练技术基于所述误差改进所述致病性预测器的系数。
18.根据条款1所述的计算机实现的方法,其中所述致病性预测器在致病性训练集上训练。
19.根据条款18所述的计算机实现的方法,其中所述致病性训练集具有针对在所述蛋白质组中的所述相应位置中的每个相应位置处的所述参考氨基酸中的每个参考氨基酸的相应组合生成的氨基酸取代。
20.根据条款19所述的计算机实现的方法,其中在所述蛋白质组中特定位置处的特定氨基酸类的特定参考氨基酸的所述组合生成的氨基酸取代包括与所述特定氨基酸类不同的相应氨基酸类的相应替代性氨基酸。
21.根据条款20所述的计算机实现的方法,其中所述蛋白质组具有一千万个位置,其中对于所述一千万个位置中的每个位置存在十九个组合生成的氨基酸取代,因此所述致病性训练集具有一亿九千万个致病性蛋白质样品。
22.根据条款21所述的计算机实现的方法,其中所述相应致病性蛋白质样品具有通过使用所述相应参考氨基酸作为相应缺口氨基酸生成的相应有缺口空间表示。
23.根据条款22所述的计算机实现的方法,其中所述相应致病性蛋白质样品具有所述相应组合生成的氨基酸取代的相应表示,作为由相应组合生成的核苷酸变体在所述蛋白质组中的所述相应位置处产生的相应替代性氨基酸。
24.根据条款23所述的计算机实现的方法,其中所述致病性预测器在特定致病性蛋白质样品上训练,并且通过以下方式估计所述特定致病性蛋白质样品中的特定位置处的特定参考氨基酸的特定组合生成的氨基酸取代的致病性:
处理作为输入的
(i)所述特定致病性蛋白质样品的特定的有缺口空间表示,
其中通过以下方式生成所述特定的有缺口空间表示,
使用所述特定参考氨基酸作为缺口氨基酸,以及
使用所述特定致病性蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸,以及
(ii)作为特定替代性氨基酸的所述特定组合生成的氨基酸取代的表示;以及
生成作为输出的所述特定组合生成的氨基酸取代的致病性分数。
25.根据条款24所述的计算机实现的方法,其中所述致病性蛋白质样品中的每个致病性蛋白质样品具有基准真值致病性标记,所述基准真值致病性标记指示所述致病性蛋白质样品的绝对致病性。
26.根据条款25所述的计算机实现的方法,其中所述基准真值致病性标记是1。
27.根据条款26所述的计算机实现的方法,其中将所述特定组合生成的氨基酸取代的所述致病性分数与所述基准真值致病性标记进行比较以确定误差,并使用所述训练技术基于所述误差改进所述致病性预测器的所述系数。
28.根据条款27所述的计算机实现的方法,其中所述致病性预测器在两亿次训练迭代中训练,
其中所述两亿次训练迭代包括
用所述一千万个良性蛋白质样品进行的一千万次训练迭代,以及
用所述一亿九千万个致病性蛋白质样品进行的一亿九千万次迭代。
29.根据条款10所述的计算机实现的方法,其中所述蛋白质组具有一百万至一千万个位置,因此所述良性训练集具有一百万至一千万个良性蛋白质样品,
其中对于所述一百万至一千万个位置中的每个位置存在十九个组合生成的氨基酸取代,因此所述致病性训练集具有一千九百万至一亿九千万个致病性蛋白质样品。
30.根据条款29所述的计算机实现的方法,其中所述致病性预测器在两千万至两亿次训练迭代中训练,
其中所述两千万至两亿次训练迭代包括
用所述一百万至一千万个良性蛋白质样品进行的一百万至一千万次训练迭代,以及
用所述一千九百万至一亿九千万个致病性蛋白质样品进行的一千九百万至一亿九千万次迭代。
31.根据条款6所述的计算机实现的方法,其中所述替代性氨基酸是与所述参考氨基酸相同的氨基酸。
32.根据条款31所述的计算机实现的方法,其中所述替代性氨基酸是与所述参考氨基酸不同的氨基酸。
33.根据条款32所述的计算机实现的方法,其中所述致病性预测器生成与第一参考氨基酸相同的第一替代性氨基酸的第一致病性分数,
其中所述致病性预测器生成与所述第一参考氨基酸不同的第二替代性氨基酸的第二致病性分数。
34.根据条款33所述的计算机实现的方法,其中所述第二替代性氨基酸的最终致病性分数是所述第二致病性分数。
35.根据条款34所述的计算机实现的方法,其中所述第二替代性氨基酸的所述最终致病性分数基于所述第一致病性分数和所述第二致病性分数的组合。
36.根据条款35所述的计算机实现的方法,其中所述第二替代性氨基酸的所述最终致病性分数是所述第二致病性分数与所述第一致病性分数和所述第二致病性分数之和的比率。
37.根据条款36所述的计算机实现的方法,其中所述第二替代性氨基酸的所述最终致病性分数通过从所述第二致病性分数减去所述第一致病性分数来确定。
38.根据条款1所述的计算机实现的方法,其中基于具有最接近所述体素的原子的氨基酸的泛氨基酸保守频率,将所述非缺口氨基酸的所述空间构型编码为进化谱通道。
39.根据条款38所述的计算机实现的方法,其中当确定所述泛氨基酸保守频率时,通过忽略所述缺口氨基酸的最接近原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
40.根据条款1所述的计算机实现的方法,其中基于具有最接近所述体素的相应原子的相应氨基酸的每氨基酸保守频率,将所述非缺口氨基酸的所述空间构型编码为进化谱通道。
41.根据条款40所述的计算机实现的方法,其中当确定所述每氨基酸保守频率时,通过忽略所述缺口氨基酸的相应最接近原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
42.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为注释通道。
43.根据条款42所述的计算机实现的方法,其中当确定所述注释通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
44.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为结构置信度通道。
45.根据条款44所述的计算机实现的方法,其中当确定所述结构置信度通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
46.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为额外的输入通道。
47.根据条款46所述的计算机实现的方法,其中当确定所述额外的输入通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
48.根据条款9所述的计算机实现的方法,其中所述蛋白质组包括人蛋白质组和非人蛋白质组,包括非人灵长类动物蛋白质组。
49.根据条款7所述的计算机实现的方法,其中在基准真值标记中掩蔽受单核苷酸多态性(SNP)的可达性限制以将参考氨基酸的参考密码子转化为所述不可达替代性氨基酸类的替代性氨基酸的那些不可达替代性氨基酸类。
50.根据条款1所述的计算机实现的方法,其中掩蔽的氨基酸类导致0损失并且对梯度更新没有贡献。
51.根据条款50所述的计算机实现的方法,其中在查找表中识别所述掩蔽的氨基酸类。
52.根据条款51所述的计算机实现的方法,其中所述查找表针对每个参考氨基酸位置识别一组掩蔽的氨基酸类。
条款组2
1.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
存取在相应位置处具有相应氨基酸的蛋白质;
将所述蛋白质中特定位置处的特定氨基酸类的特定氨基酸指定为缺口氨基酸,并将所述蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸;
生成所述蛋白质的有缺口空间表示,所述有缺口空间表示
包括所述非缺口氨基酸的空间构型,以及
排除所述缺口氨基酸的空间构型;以及
至少部分地基于所述有缺口空间表示来确定所述特定位置处的相应替代性氨基酸的致病性。
2.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为氨基酸类式距离通道,
其中所述氨基酸类式距离通道中的每个氨基酸类式距离通道具有多个体素中的体素的体素式距离值,并且
其中所述体素式距离值指定从所述多个体素中的对应体素到所述非缺口氨基酸的原子的距离。
3.根据条款2所述的计算机实现的方法,其中基于所述对应体素和所述非缺口氨基酸的所述原子之间的空间接近度来确定所述非缺口氨基酸的所述空间构型。
4.根据条款2所述的计算机实现的方法,其中当确定所述体素式距离值时,通过忽略从所述对应体素到所述缺口氨基酸原子的距离,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
5.根据条款4所述的计算机实现的方法,其中通过忽略所述对应体素和所述缺口氨基酸的所述原子之间的空间接近度,从所述有缺口空间表示中排除所述缺口氨基酸的所述空间构型。
6.根据条款1所述的计算机实现的方法,其中所述特定氨基酸是作为所述蛋白质的主要等位基因的参考氨基酸。
7.根据条款1所述的计算机实现的方法,其中所述相应替代性氨基酸是由相应组合生成的核苷酸变体在所述特定位置处产生的相应组合生成的替代性氨基酸。
8.根据条款1所述的计算机实现的方法,其中致病性预测器通过以下方式确定所述相应替代性氨基酸的所述致病性:
处理作为输入的所述有缺口空间表示;以及
生成作为输出的相应氨基酸类的相应致病性分数。
9.根据条款8所述的计算机实现的方法,其中所述致病性预测器在训练集上训练。
10.根据条款9所述的计算机实现的方法,其中所述训练集具有针对蛋白质组中的相应位置的相应蛋白质样品。
11.根据条款10所述的计算机实现的方法,其中所述蛋白质组具有一千万个位置,因此所述训练集具有一千万个蛋白质样品。
12.根据条款11所述的计算机实现的方法,其中所述相应蛋白质样品具有通过使用蛋白质组中的所述相应位置处的相应参考氨基酸作为相应缺口氨基酸而生成的相应有缺口空间表示。
13.根据条款12所述的计算机实现的方法,其中所述参考氨基酸是所述蛋白质组的主要等位基因氨基酸。
14.根据条款13所述的计算机实现的方法,其中所述致病性预测器在特定蛋白质样品上训练,并且通过以下方式估计所述特定蛋白质样品中的特定位置处的特定参考氨基酸的相应替代性氨基酸的致病性:
处理作为输入的所述特定蛋白质样品的特定的有缺口空间表示,
其中通过以下方式生成所述特定的有缺口空间表示,
使用所述特定参考氨基酸作为缺口氨基酸,以及
使用所述特定蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸;以及
生成作为输出的所述相应氨基酸类的相应致病性分数。
15.根据条款14所述的计算机实现的方法,其中所述蛋白质样品中的每个蛋白质样品具有所述相应氨基酸类的相应基准真值标记。
16.根据条款15所述的计算机实现的方法,其中所述相应基准真值标记包括所述相应氨基酸类中的参考氨基酸类的绝对良性标记,并且包括所述相应氨基酸类中的相应替代性氨基酸类的相应绝对致病性标记。
17.根据条款16所述的计算机实现的方法,其中所述绝对良性标记是0。
18.根据条款17所述的计算机实现的方法,其中所述绝对致病性标记在所述相应替代性氨基酸类中是相同的。
19.根据条款18所述的计算机实现的方法,其中所述绝对致病性标记是1。
20.根据条款1所述的计算机实现的方法,其中基于以下项来确定误差:
所述参考氨基酸类的致病性分数与所述绝对良性标记的比较,和
所述相应替代性氨基酸类的相应致病性分数与所述相应绝对致病性标记的相应比较。
21.根据条款20所述的计算机实现的方法,其中使用训练技术基于所述误差改进所述致病性预测器的系数。
22.根据条款21所述的计算机实现的方法,其中所述致病性预测器用所述一千万个蛋白质样品在一千万次训练迭代中训练。
23.根据条款8所述的计算机实现的方法,其中所述相应氨基酸类对应于相应的二十种天然存在的氨基酸。
24.根据条款23所述的计算机实现的方法,其中所述相应氨基酸类对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
25.根据条款11所述的计算机实现的方法,其中所述蛋白质组具有一百万至一千万个位置,因此所述训练集具有一百万至一千万个蛋白质样品,
其中所述致病性预测器用所述一百万至一千万个蛋白质样品在一百万至一千万次训练迭代中训练。
26.根据条款8所述的计算机实现的方法,其中所述致病性预测器生成针对所述参考氨基酸类的第一替代性氨基酸的参考致病性分数,
其中所述致病性预测器生成所述相应替代性氨基酸类的相应替代性氨基酸的相应替代致病性分数。
27.根据条款26所述的计算机实现的方法,其中所述相应替代性氨基酸的相应最终替代致病性分数是所述相应替代致病性分数。
28.根据条款27所述的计算机实现的方法,其中所述相应替代性氨基酸的所述相应最终替代致病性分数基于所述参考致病性分数和所述相应替代致病性分数的相应组合。
29.根据条款28所述的计算机实现的方法,其中所述相应替代性氨基酸的所述相应最终替代致病性分数是所述相应替代致病性分数与所述参考致病性分数和所述相应替代致病性分数之和的相应比率。
30.根据条款29所述的计算机实现的方法,其中通过分别从所述相应替代致病性分数中减去所述参考致病性分数来确定所述相应替代性氨基酸的所述相应最终替代致病性分数。
31.根据条款8所述的计算机实现的方法,其中所述致病性预测器具有生成所述相应致病性分数的输出层。
32.根据条款31所述的计算机实现的方法,其中所述输出层是归一化层。
33.根据条款32所述的计算机实现的方法,其中所述相应致病性分数是归一化的。
34.根据条款31所述的计算机实现的方法,其中所述输出层是softmax层。
35.根据条款34所述的计算机实现的方法,其中所述相应致病性分数是指数归一化的。
36.根据条款31所述的计算机实现的方法,其中所述输出层具有分别生成所述相应致病性分数的相应S型单元。
37.根据条款31所述的计算机实现的方法,其中所述相应致病性分数是非归一化的。
38.根据条款1所述的计算机实现的方法,其中基于具有最接近所述体素的原子的氨基酸的泛氨基酸保守频率,将所述非缺口氨基酸的所述空间构型编码为进化谱通道。
39.根据条款38所述的计算机实现的方法,其中当确定所述泛氨基酸保守频率时,通过忽略所述缺口氨基酸的最接近原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
40.根据条款1所述的计算机实现的方法,其中基于具有最接近所述体素的相应原子的相应氨基酸的每氨基酸保守频率,将所述非缺口氨基酸的所述空间构型编码为进化谱通道。
41.根据条款40所述的计算机实现的方法,其中当确定所述每氨基酸保守频率时,通过忽略所述缺口氨基酸的相应最接近原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
42.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为注释通道。
43.根据条款42所述的计算机实现的方法,其中当确定所述注释通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
44.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为结构置信度通道。
45.根据条款44所述的计算机实现的方法,其中当确定所述结构置信度通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
46.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为额外的输入通道。
47.根据条款46所述的计算机实现的方法,其中当确定所述额外的输入通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
48.根据条款10所述的计算机实现的方法,其中所述蛋白质组包括人蛋白质组和非人蛋白质组,包括非人灵长类动物蛋白质组。
49.根据条款8所述的计算机实现的方法,其中在基准真值标记中掩蔽受单核苷酸多态性(SNP)的可达性限制以将参考氨基酸的参考密码子转化为所述不可达替代性氨基酸类的替代性氨基酸的那些不可达替代性氨基酸类。
50.根据条款1所述的计算机实现的方法,其中掩蔽的氨基酸类导致0损失并且对梯度更新没有贡献。
51.根据条款50所述的计算机实现的方法,其中在查找表中识别所述掩蔽的氨基酸类。
52.根据条款51所述的计算机实现的方法,其中所述查找表针对每个参考氨基酸位置识别一组掩蔽的氨基酸类。
条款组3
1.一种生成用于训练变体致病性分类器的训练数据的计算机实现的方法,所述计算机实现的方法包括:
存取具有多个蛋白质的蛋白质组中的多个氨基酸位置;
指定所述多个氨基酸位置处的主要等位基因氨基酸作为所述多个蛋白质的参考氨基酸;
对于所述多个氨基酸位置中的每个氨基酸位置,
将那些核苷酸取代分类为良性变体,所述良性变体用特定蛋白质的特定替代表示中的特定氨基酸位置处的所述特定参考氨基酸取代特定参考氨基酸,以及
将那些核苷酸取代分类为致病性变体,所述致病性变体用所述特定氨基酸位置处的替代性氨基酸取代所述特定参考氨基酸,其中所述替代性氨基酸不同于所述特定参考氨基酸;以及
使用所述良性变体和所述致病性变体作为训练数据来训练变体致病性分类器。
2.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是致病性的还是良性的。
3.根据条款2所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述取代的致病性分数。
4.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是致病性的还是良性的。
5.根据条款4所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应取代的相应致病性分数。
6.根据条款5所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
7.根据条款6所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
8.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是致病性的还是良性的。
9.根据条款8所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述插入的致病性分数。
10.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是致病性的还是良性的。
11.根据条款10所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应插入的相应致病性分数。
12.根据条款11所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
13.根据条款12所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
14.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是否被所述蛋白质的其他氨基酸在空间上耐受。
15.根据条款14所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述取代的空间耐受分数。
16.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是否被所述蛋白质的其他氨基酸在空间上耐受。
17.根据条款16所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应取代的相应空间耐受分数。
18.根据条款17所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
19.根据条款18所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
20.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是否被所述蛋白质的其他氨基酸在空间上耐受。
21.根据条款20所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述插入的空间耐受分数。
22.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是否被所述蛋白质的其他氨基酸在空间上耐受。
23.根据条款22所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应插入的相应空间耐受分数。
24.根据条款23所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
25.根据条款24所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
26.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是进化保守性的还是非保守的。
27.根据条款26所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述取代的进化保守性分数。
28.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是进化保守性的还是非保守的。
29.根据条款28所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应取代的相应进化保守性分数。
30.根据条款29所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
31.根据条款30所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
32.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是进化保守性的还是非保守的。
33.根据条款32所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述插入的进化保守性分数。
34.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是进化保守性的还是非保守的。
35.根据条款34所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应插入的相应进化保守性分数。
36.根据条款35所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
37.根据条款36所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
38.根据条款14所述的计算机实现的方法,其中空间耐受对应于结构耐受,并且空间不耐受对应于结构不耐受。
39.根据条款1所述的计算机实现的方法,其中所述多个氨基酸位置的范围为一百万至一千万个氨基酸位置。
40.根据条款1所述的计算机实现的方法,其中所述多个氨基酸位置的范围为一千万至一亿个氨基酸位置。
41.根据条款1所述的计算机实现的方法,其中所述多个氨基酸位置的范围为一亿至十亿个氨基酸位置。
42.根据条款1所述的计算机实现的方法,其中所述多个氨基酸位置的范围为一至百万个氨基酸位置。
43.根据条款1所述的计算机实现的方法,其中在基准真值标记中掩蔽受单核苷酸多态性(SNP)的可达性限制以将参考氨基酸的参考密码子转化为所述不可达替代性氨基酸类的替代性氨基酸的那些不可达替代性氨基酸类。
44.根据条款1所述的计算机实现的方法,其中掩蔽的氨基酸类导致0损失并且对梯度更新没有贡献。
45.根据条款44所述的计算机实现的方法,其中在查找表中识别所述掩蔽的氨基酸类。
46.根据条款45所述的计算机实现的方法,其中所述查找表针对每个参考氨基酸位置识别一组掩蔽的氨基酸类。
条款集4(ILLM 1060-1)
1.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
将蛋白质中特定位置处的特定氨基酸指定为缺口氨基酸,并将所述蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸;
生成所述蛋白质的有缺口空间表示,所述有缺口空间表示
包括所述非缺口氨基酸的空间构型,以及
排除所述缺口氨基酸的空间构型;
至少部分地基于所述有缺口空间表示来确定相应氨基酸类的相应氨基酸的所述特定位置处的进化保守性;以及
至少部分地基于所述相应氨基酸的所述进化保守性来确定相应核苷酸变体的致病性,所述相应核苷酸变体在所述蛋白质的替代表示中用所述相应氨基酸分别取代所述特定氨基酸。
2.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为氨基酸类式距离通道,
其中所述氨基酸类式距离通道中的每个氨基酸类式距离通道具有多个体素中的体素的体素式距离值,并且
其中所述体素式距离值指定从所述多个体素中的对应体素到所述非缺口氨基酸的原子的距离。
3.根据条款2所述的计算机实现的方法,其中基于所述对应体素和所述非缺口氨基酸的所述原子之间的空间接近度来确定所述非缺口氨基酸的所述空间构型。
4.根据条款2所述的计算机实现的方法,其中当确定所述体素式距离值时,通过忽略从所述对应体素到所述缺口氨基酸原子的距离,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
5.根据条款4所述的计算机实现的方法,其中通过忽略所述对应体素和所述缺口氨基酸的所述原子之间的空间接近度,从所述有缺口空间表示中排除所述缺口氨基酸的所述空间构型。
6.根据条款1所述的计算机实现的方法,其中所述特定氨基酸是作为所述蛋白质的主要等位基因的参考氨基酸。
7.根据条款1所述的计算机实现的方法,其中进化保守性预测器通过以下方式来确定所述进化保守性:
处理作为输入的所述有缺口空间表示;以及
生成作为输出的所述相应氨基酸的相应进化保守性分数。
8.根据条款7所述的计算机实现的方法,其中所述相应的进化保守性分数能够按大小排序。
9.根据条款7所述的计算机实现的方法,还包括由所述进化保守性预测器针对对应氨基酸取代生成的进化保守性分数低于阈值时,将核苷酸变体分类为致病性。
10.根据条款7所述的计算机实现的方法,还包括由所述进化保守性预测器针对对应氨基酸取代生成的进化保守性分数是0时,将核苷酸变体分类为致病性。
11.根据条款7所述的计算机实现的方法,还包括由所述进化保守性预测器针对对应氨基酸取代生成的进化保守性分数高于阈值时,将核苷酸变体分类为良性。
12.根据条款7所述的计算机实现的方法,还包括由所述进化保守性预测器针对对应氨基酸取代生成的进化保守性分数是非0时,将核苷酸变体分类为良性。
13.根据条款7所述的计算机实现的方法,其中所述进化保守性预测器在保守训练集和非保守训练集上训练。
14.根据条款13所述的计算机实现的方法,其中所述保守训练集具有针对蛋白质组中的相应位置处的相应保守氨基酸的相应保守蛋白质样品,
其中所述非保守训练集在所述相应位置处具有相应非保守氨基酸的相应非保守蛋白质样品。
15.根据条款14所述的计算机实现的方法,其中所述相应位置中的每个相应位置具有一组保守氨基酸和一组非保守氨基酸。
16.根据条款15所述的计算机实现的方法,其中所述蛋白质组中特定蛋白质的特定位置的特定保守氨基酸组包括在多个物种中的所述特定位置处观察到的至少一个主要等位基因氨基酸。
17.根据条款16所述的计算机实现的方法,其中所述特定保守氨基酸组包括在所述多个物种中的所述特定位置处观察到的一个或多个次要等位基因氨基酸。
18.根据条款17所述的计算机实现的方法,其中所述特定位置的特定非保守氨基酸组包括不在所述特定保守氨基酸组中的氨基酸。
19.根据条款18所述的计算机实现的方法,其中所述特定保守氨基酸组和所述特定非保守氨基酸组基于所述多个物种的同源蛋白质的进化保守性谱来识别。
20.根据条款18所述的计算机实现的方法,其中使用位置特异性频率矩阵(PSFM)确定所述同源蛋白质的所述进化保守性谱。
21.根据条款18所述的计算机实现的方法,其中使用位置特异性评分矩阵(PSSM)确定所述同源蛋白质的所述进化保守性谱。
22.根据条款16所述的计算机实现的方法,其中所述主要等位基因氨基酸是参考氨基酸。
23.根据条款14所述的计算机实现的方法,其中所述相应位置中的每个相应位置具有所述保守氨基酸组中的C个保守氨基酸,
其中所述相应位置中的每个相应位置具有所述非保守氨基酸组中的NC个非保守氨基酸,其中NC=20-C,
其中所述保守训练集具有CP个保守蛋白质样品,其中CP=所述相应位置的数目*C,
其中所述非保守训练集具有NCP个非保守蛋白质样品,其中NCP=所述相应位置的数目*(20-C)。
24.根据条款23所述的计算机实现的方法,其中所述C的范围为1至10。
25.根据条款24所述的计算机实现的方法,其中所述C在所述相应位置之间变化。
26.根据条款25所述的计算机实现的方法,其中所述C对于所述相应位置中的一些位置是相同的。
27.根据条款14所述的计算机实现的方法,其中所述相应的保守和非保守蛋白质样品具有通过使用所述相应位置处的相应参考氨基酸作为相应缺口氨基酸而生成的相应有缺口空间表示。
28.根据条款27所述的计算机实现的方法,其中所述进化保守性预测器在特定保守蛋白质样品上训练,并且通过以下方式估计所述特定保守蛋白质样品中的特定位置处的特定保守氨基酸的进化保守性:
处理作为输入的所述特定保守蛋白质样品的特定的有缺口空间表示,
其中通过以下方式生成所述特定的有缺口空间表示,
使用所述特定位置处的所述特定参考氨基酸作为缺口氨基酸,以及
使用所述特定保守蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸;以及
生成作为输出的所述特定保守氨基酸的进化保守性分数。
29.根据条款28所述的计算机实现的方法,其中所述保守蛋白质样品中的每个保守蛋白质样品具有基准真值保守标记。
30.根据条款29所述的计算机实现的方法,其中所述基准真值保守标记是进化保守性频率。
31.根据条款29所述的计算机实现的方法,其中所述基准真值保守标记是1。
32.根据条款29所述的计算机实现的方法,其中将所述特定保守氨基酸的所述进化保守性与所述基准真值保守标记进行比较以确定误差,并使用训练技术基于所述误差改进所述进化保守性预测器的系数。
33.根据条款32所述的计算机实现的方法,其中当所述特定保守氨基酸是所述特定参考氨基酸时,所述基准真值保守标记被掩蔽并且不用于确定所述误差,
其中所述掩蔽使得所述进化保守性预测器不过度拟合所述特定参考氨基酸。
34.根据条款32所述的计算机实现的方法,其中所述训练技术是基于损失函数的梯度更新技术。
35.根据条款27所述的计算机实现的方法,其中所述进化保守性预测器在特定非保守蛋白质样品上训练,并且通过以下方式估计所述特定非保守蛋白质样品中的特定位置处的特定非保守氨基酸的进化保守性:
处理作为输入的所述特定非保守蛋白质样品的特定的有缺口空间表示,
其中通过以下方式生成所述特定的有缺口空间表示,
使用所述特定位置处的特定参考氨基酸作为缺口氨基酸,以及
使用所述特定非保守蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸;以及
生成作为输出的所述特定非保守氨基酸的进化保守性分数。
36.根据条款35所述的计算机实现的方法,其中所述非保守蛋白质样品中的每个非保守蛋白质样品具有基准真值非保守标记。
37.根据条款35所述的计算机实现的方法,其中所述基准真值非保守标记是进化保守性频率。
38.根据条款35所述的计算机实现的方法,其中所述基准真值非保守标记是0。
39.根据条款35所述的计算机实现的方法,其中将所述特定非保守氨基酸的所述进化保守性分数与所述基准真值非保守标记进行比较以确定误差,并使用所述训练技术基于所述误差改进所述进化保守性预测器的所述系数。
40.根据条款7所述的计算机实现的方法,其中所述进化保守性预测器在训练集上训练。
41.根据条款40所述的计算机实现的方法,其中所述训练集具有针对所述蛋白质组中的所述相应位置的相应蛋白质样品。
42.根据条款41所述的计算机实现的方法,其中所述相应蛋白质样品具有通过使用所述相应位置处的所述相应参考氨基酸作为所述相应缺口氨基酸而生成的相应有缺口空间表示。
43.根据条款42所述的计算机实现的方法,其中所述进化保守性预测器在特定蛋白质样品上训练,并且通过以下方式估计所述特定蛋白质样品中的特定位置处的相应氨基酸类的相应氨基酸的进化保守性:
处理作为输入的所述特定蛋白质样品的特定的有缺口空间表示,
其中通过以下方式生成所述特定的有缺口空间表示,
使用所述特定位置处的所述特定参考氨基酸作为缺口氨基酸,以及
使用所述特定蛋白质样品中剩余位置处的剩余氨基酸作为非缺口氨基酸;以及
生成作为输出的所述相应氨基酸的相应进化保守性分数。
44.根据条款43所述的计算机实现的方法,其中所述蛋白质样品中的每个蛋白质样品具有所述相应氨基酸的相应基准真值标记。
45.根据条款44所述的计算机实现的方法,其中所述相应基准真值标记包括所述相应氨基酸中的一个或多个保守氨基酸的一个或多个保守标记,并且包括所述相应氨基酸中的一个或多个非保守氨基酸的一个或多个非保守标记。
46.根据条款45所述的计算机实现的方法,其中所述保守标记和所述非保守标记具有相应的进化保守性频率。
47.根据条款46所述的计算机实现的方法,其中所述相应的进化保守性频能够根据大小进行排序。
48.根据条款46所述的计算机实现的方法,其中所述保守标记是1,并且所述非保守标记是0。
49.根据条款46所述的计算机实现的方法,其中基于以下项来确定误差:
所述相应保守氨基酸的相应进化保守性分数与所述相应保守氨基酸的相应比较和
所述相应非保守氨基酸的相应进化保守性分数与所述相应非保守氨基酸的相应比较。
50.根据条款49所述的计算机实现的方法,其中使用所述训练技术基于所述误差改进所述进化保守性预测器的系数。
51.根据条款50所述的计算机实现的方法,其中所述保守氨基酸包括所述特定参考氨基酸,并且所述特定参考氨基酸的保守标记被掩蔽并且不用于确定所述误差,
其中所述掩蔽使得所述进化保守性预测器不过度拟合所述特定参考氨基酸。
52.根据条款14所述的计算机实现的方法,其中所述蛋白质组具有一至一千万个位置,
其中所述一至一千万个位置中的每个位置都具有所述保守氨基酸组中的所述C个保守氨基酸,
其中所述一至一千万个位置中的每个位置都具有所述非保守氨基酸组中的所述NC个非保守氨基酸,其中NC=20-C,
其中所述保守训练集具有所述CP个保守蛋白质样品,其中CP=一至一千万*C,并且
其中所述非保守训练集具有所述NCP个非保守蛋白质样品,其中NCP=一至一千万*(20-C)。
53.根据条款14所述的计算机实现的方法,其中所述进化保守性预测器在两千万至两亿次训练迭代中训练,
其中所述两千万至两亿次训练迭代包括
用所述一百万至一千万个保守蛋白质样品进行的一百万至一千万次训练迭代,以及
用所述一千九百万至一亿九千万个非保守蛋白质样品进行的一千九百万至一亿九千万次迭代。
54.根据条款14所述的计算机实现的方法,其中所述蛋白质组具有一百万至一千万个位置,因此所述训练集具有一百万至一千万个蛋白质样品,
其中所述进化保守性预测器用所述一百万至一千万个蛋白质样品在一百万至一千万次训练迭代中训练。
55.根据条款1所述的计算机实现的方法,其中基于具有最接近所述体素的原子的氨基酸的泛氨基酸保守频率,将所述非缺口氨基酸的所述空间构型编码为进化谱通道。
56.根据条款55所述的计算机实现的方法,其中当确定所述泛氨基酸保守频率时,通过忽略所述缺口氨基酸的最接近原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
57.根据条款1所述的计算机实现的方法,其中基于具有最接近所述体素的相应原子的相应氨基酸的每氨基酸保守频率,将所述非缺口氨基酸的所述空间构型编码为进化谱通道。
58.根据条款57所述的计算机实现的方法,其中当确定所述每氨基酸保守频率时,通过忽略所述缺口氨基酸的相应最接近原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
59.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为注释通道。
60.根据条款59所述的计算机实现的方法,其中当确定所述注释通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
61.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为结构置信度通道。
62.根据条款61所述的计算机实现的方法,其中当确定所述结构置信度通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
63.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为结构置信度通道。
64.根据条款63所述的计算机实现的方法,其中当确定所述结构置信度通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
65.根据条款1所述的计算机实现的方法,其中所述非缺口氨基酸的所述空间构型被编码为额外的输入通道。
66.根据条款65所述的计算机实现的方法,其中当确定所述额外的输入通道时,通过忽略所述缺口氨基酸的原子,将所述缺口氨基酸的所述空间构型从所述有缺口空间表示中排除。
67.根据条款14所述的计算机实现的方法,其中所述蛋白质组包括人蛋白质组和非人蛋白质组,包括非人灵长类动物蛋白质组。
68.根据条款1所述的计算机实现的方法,其中在基准真值标记中掩蔽受单核苷酸多态性(SNP)的可达性限制以将参考氨基酸的参考密码子转化为所述不可达替代性氨基酸类的替代性氨基酸的那些不可达替代性氨基酸类。
69.根据条款1所述的计算机实现的方法,其中掩蔽的氨基酸类导致0损失并且对梯度更新没有贡献。
70.根据条款69所述的计算机实现的方法,其中在查找表中识别所述掩蔽的氨基酸类。
71.根据条款70所述的计算机实现的方法,其中所述查找表针对每个参考氨基酸位置识别一组掩蔽的氨基酸类。
条款集5(ILLM 1061-1)
1.一种训练致病性预测器的计算机实现的方法,所述计算机实现的方法包括:
存取有缺口训练集,所述有缺口训练集包括针对蛋白质组中的相应位置的相应有缺口蛋白质样品;
存取非缺口训练集,所述非缺口训练集包括非缺口良性蛋白质样品和非缺口致病性蛋白质样品;
生成所述有缺口蛋白质样品的相应有缺口空间表示,并且生成所述非缺口良性蛋白质样品和所述非缺口致病性蛋白质样品的相应非缺口空间表示;
在一个或多个训练循环中训练致病性预测器并生成经训练的致病性预测器,其中所述训练循环中的每个训练循环使用来自所述相应有缺口空间表示的有缺口空间表示和来自所述相应非缺口空间表示的非缺口空间表示作为训练示例;以及
使用所述经训练的致病性分类器来确定变体的致病性。
2.根据条款1所述的计算机实现的方法,其中所述相应有缺口蛋白质样品用相应有缺口基准真值序列标记。
3.根据条款2所述的计算机实现的方法,其中特定有缺口蛋白质样品的特定有缺口基准真值序列具有与所述特定有缺口蛋白质中特定位置处的参考氨基酸对应的特定氨基酸类的良性标记。
4.根据条款3所述的计算机实现的方法,其中所述特定有缺口蛋白质样品具有与所述特定位置处的替代性氨基酸对应的相应剩余氨基酸类的相应致病性标记。
5.根据条款1所述的计算机实现的方法,其中特定非缺口良性蛋白质样品包括在特定位置处被良性核苷酸变体取代的良性替代性氨基酸。
6.根据条款5所述的计算机实现的方法,其中特定非缺口致病性蛋白质样品包括在特定位置处被致病性核苷酸变体取代的致病性替代性氨基酸。
7.根据条款6所述的计算机实现的方法,其中所述特定非缺口良性蛋白质样品用良性基准真值序列标记,所述良性基准真值序列具有与所述良性替代性氨基酸对应的特定氨基酸类的良性标记。
8.根据条款7所述的计算机实现的方法,其中所述良性基准真值序列具有与不同于所述良性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记。
9.根据条款8所述的计算机实现的方法,其中所述特定非缺口致病性蛋白质样品用致病性基准真值序列标记,所述致病性基准真值序列具有与所述致病性替代性氨基酸对应的特定氨基酸类的致病性标记。
10.根据条款9所述的计算机实现的方法,其中所述致病性基准真值序列具有与不同于所述致病性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记。
11.根据条款1所述的计算机实现的方法,还包括使用样品指示器向所述致病性预测器指示当前训练示例是有缺口蛋白质样品的有缺口空间表示还是非缺口蛋白质样品的非缺口空间表示。
12.根据条款1所述的计算机实现的方法,还包括掩蔽与所述特定有缺口蛋白质中所述特定位置处的所述参考氨基酸对应的所述特定氨基酸类的所述良性标记。
13.根据条款1所述的计算机实现的方法,其中所述非缺口良性蛋白质样品来源于常见的人和非人灵长类动物核苷酸变体。
14.根据条款1所述的计算机实现的方法,其中所述非缺口致病性蛋白质样品来源于组合模拟的核苷酸变体。
15.根据条款1所述的计算机实现的方法,其中所述致病性预测器响应于处理训练示例而生成氨基酸类式输出序列,
其中所述氨基酸类式输出序列具有氨基酸类式致病性分数。
16.根据条款1所述的计算机实现的方法,还包括在验证集上的训练循环之间测量所述经训练的致病性预测器的性能。
17.根据条款16所述的计算机实现的方法,其中所述验证集包括针对每个保留的蛋白质样品的一对有缺口和非缺口的空间表示。
18.根据条款1所述的计算机实现的方法,其中所述经训练的致病性预测器生成针对所述对中的所述有缺口空间表示的第一氨基酸类式输出序列,和针对所述对中的所述非缺口空间表示的第二氨基酸类式输出序列,
其中基于所述第一和第二氨基酸类式输出序列中的所述氨基酸取代的第一和第二致病性分数的组合,确定引起保留的蛋白质样品中的氨基酸取代的核苷酸变体的最终致病性分数。
19.根据条款18所述的计算机实现的方法,其中所述最终致病性分数基于所述第一和第二致病性分数的平均值。
20.根据条款1所述的计算机实现的方法,其中所述训练循环中的至少一些训练循环使用相同数量的有缺口空间表示和非缺口空间表示。
21.根据条款1所述的计算机实现的方法,其中所述训练循环中的至少一些训练循环使用具有相同数量的有缺口空间表示和非缺口空间表示的训练示例批次。
22.根据条款1所述的计算机实现的方法,其中掩蔽的标记对误差确定没有贡献,因此对所述致病性预测器的训练没有贡献。
23.根据条款22所述的计算机实现的方法,其中所述掩蔽的标记被清零。
24.根据条款1所述的计算机实现的方法,其中所述有缺口空间表示与所述非缺口空间表示被不同地加权,使得所述有缺口空间表示对响应于所述致病性预测器处理所述非缺口空间表示而应用于所述致病性预测器的参数的梯度更新的贡献不同于所述非缺口空间表示对响应于所述致病性预测器处理所述非缺口空间表示而应用于所述致病性预测器的所述参数的梯度更新的贡献。
25.根据条款24所述的计算机实现的方法,其中所述变化由预定义的权重确定。
26.一种训练致病性预测器的计算机实现的方法,所述计算机实现的方法包括:
从在有缺口训练集上训练致病性分类器开始,以及生成经训练的致病性分类器;
在非缺口训练集上进一步训练所述经训练的致病性分类器,以及生成经重新训练的致病性分类器;以及
使用所述经重新训练的致病性分类器来确定变体的致病性。
27.根据条款26所述的计算机实现的方法,还包括在第一验证集上的训练循环之间测量所述经训练的致病性预测器的性能,所述第一验证集仅包括保留的蛋白质样品的非缺口空间表示。
28.根据条款27所述的计算机实现的方法,还包括在第二验证集上的训练循环之间测量所述经重新训练的致病性预测器的性能,所述第二验证集包括保留的蛋白质样品的有缺口空间表示和非缺口空间表示。
29.根据条款28所述的计算机实现的方法,其中所述经重新训练的致病性预测器响应于处理所述对而生成所述对的第一氨基酸类式输出序列,
其中基于所述第一氨基酸类式输出序列,确定引起对应的保留蛋白质样品中的氨基酸取代的核苷酸变体的最终致病性分数。
30.一种训练致病性预测器的计算机实现的方法,所述计算机实现的方法包括:
存取包括针对蛋白质组中的相应位置的相应有缺口蛋白质样品的有缺口训练集,其中所述相应有缺口蛋白质样品用相应有缺口基准真值序列标记,其中特定有缺口蛋白质样品的特定有缺口基准真值序列具有与所述特定有缺口蛋白质中特定位置处的参考氨基酸对应的特定氨基酸类的良性标记,并且具有与所述特定位置处的替代性氨基酸对应的相应剩余氨基酸类的相应致病性标记;
存取包括非缺口良性蛋白质样品和非缺口致病性蛋白质样品的非缺口训练集,其中特定非缺口良性蛋白质样品包括在特定位置处被良性核苷酸变体取代的良性替代性氨基酸,其中特定非缺口致病性蛋白质样品包括在特定位置处被致病性核苷酸变体取代的致病性替代性氨基酸,其中所述特定非缺口良性蛋白质样品用良性基准真值序列标记,所述良性基准真值序列具有与所述良性替代性氨基酸对应的特定氨基酸类的良性标记和与不同于所述良性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记,并且其中所述特定非缺口致病性蛋白质样品用致病性基准真值序列标记,所述致病性基准真值序列具有与所述致病性替代性氨基酸对应的特定氨基酸类的致病性标记和与不同于所述致病性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记;
生成所述有缺口蛋白质样品的相应有缺口空间表示,并且生成所述非缺口良性蛋白质样品和所述非缺口致病性蛋白质样品的相应非缺口空间表示;
在一个或多个训练循环中训练致病性预测器并生成经训练的致病性预测器,其中所述训练循环中的每个训练循环使用来自所述相应有缺口空间表示的有缺口空间表示和来自所述相应非缺口空间表示的非缺口空间表示作为训练示例;以及
使用所述经训练的致病性分类器来确定变体的致病性。
条款组6
1.一种生成用于训练变体致病性分类器的训练数据的计算机实现的方法,所述计算机实现的方法包括:
存取具有多个蛋白质的蛋白质组中的多个氨基酸位置;
指定所述多个氨基酸位置处的主要等位基因氨基酸作为所述多个蛋白质的参考氨基酸;
对于所述多个氨基酸位置中的每个氨基酸位置,
将那些核苷酸取代分类为良性变体,所述良性变体用特定蛋白质的特定替代表示中的特定氨基酸位置处的所述特定参考氨基酸取代特定参考氨基酸,以及
将那些核苷酸取代分类为致病性变体,所述致病性变体用所述特定氨基酸位置处的替代性氨基酸取代所述特定参考氨基酸,其中所述替代性氨基酸不同于所述特定参考氨基酸;以及
在包括蛋白质样品的空间表示的训练数据上训练变体致病性分类器,使得所述空间表示被分配与所述良性变体对应的基准真值良性标记,以及与所述致病性变体对应的基准真值致病性标记。
2.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是致病性的还是良性的。
3.根据条款2所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述取代的致病性分数。
4.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是致病性的还是良性的。
5.根据条款4所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应取代的相应致病性分数。
6.根据条款5所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
7.根据条款6所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
8.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是致病性的还是良性的。
9.根据条款8所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述插入的致病性分数。
10.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是致病性的还是良性的。
11.根据条款10所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应插入的相应致病性分数。
12.根据条款11所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
13.根据条款12所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
14.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是否被所述蛋白质的其他氨基酸在空间上耐受。
15.根据条款14所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述取代的空间耐受分数。
16.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是否被所述蛋白质的其他氨基酸在空间上耐受。
17.根据条款16所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应取代的相应空间耐受分数。
18.根据条款17所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
19.根据条款18所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
20.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是否被所述蛋白质的其他氨基酸在空间上耐受。
21.根据条款20所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述插入的空间耐受分数。
22.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是否被所述蛋白质的其他氨基酸在空间上耐受。
23.根据条款22所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应插入的相应空间耐受分数。
24.根据条款23所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
25.根据条款24所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
26.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处第二氨基酸对第一氨基酸的取代是进化保守性的还是非保守的。
27.根据条款26所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述取代的进化保守性分数。
28.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定氨基酸位置处相应氨基酸对第一氨基酸的相应取代是进化保守性的还是非保守的。
29.根据条款28所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应取代的相应进化保守性分数。
30.根据条款29所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
31.根据条款30所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
32.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的氨基酸的插入是进化保守性的还是非保守的。
33.根据条款32所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述插入的进化保守性分数。
34.根据条款1所述的计算机实现的方法,其中所述变体致病性分类器被训练以确定在蛋白质中的给定空氨基酸位置处的相应氨基酸的相应插入是进化保守性的还是非保守的。
35.根据条款34所述的计算机实现的方法,其中所述变体致病性分类器被训练以生成所述相应插入的相应进化保守性分数。
36.根据条款35所述的计算机实现的方法,其中所述相应氨基酸对应于相应的二十种天然存在的氨基酸。
37.根据条款36所述的计算机实现的方法,其中所述相应氨基酸对应于来自所述二十种天然存在的氨基酸的子集的相应的天然存在的氨基酸。
38.根据条款14所述的计算机实现的方法,其中空间耐受对应于结构耐受,并且空间不耐受对应于结构不耐受。
39.根据条款1所述的计算机实现的方法,其中所述多个氨基酸位置的范围为一百万至一千万个氨基酸位置。
40.根据条款1所述的计算机实现的方法,其中所述多个氨基酸位置的范围为一千万至一亿个氨基酸位置。
41.根据条款1所述的计算机实现的方法,其中所述多个氨基酸位置的范围为一亿至十亿个氨基酸位置。
42.根据条款1所述的计算机实现的方法,其中所述多个氨基酸位置的范围为一至百万个氨基酸位置。
43.根据条款1所述的计算机实现的方法,其中在基准真值标记中掩蔽受单核苷酸多态性(SNP)的可达性限制以将参考氨基酸的参考密码子转化为所述不可达替代性氨基酸类的替代性氨基酸的那些不可达替代性氨基酸类。
44.根据条款1所述的计算机实现的方法,其中掩蔽的氨基酸类导致0损失并且对梯度更新没有贡献。
45.根据条款44所述的计算机实现的方法,其中在查找表中识别所述掩蔽的氨基酸类。
46.根据条款45所述的计算机实现的方法,其中所述查找表针对每个参考氨基酸位置识别一组掩蔽的氨基酸类。
47.根据条款1所述的计算机实现的方法,其中所述空间表示是所述蛋白质样品的蛋白质结构的结构表示。
48.根据条款1所述的计算机实现的方法,其中使用体素化来编码所述空间表示。
条款组7
1.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
存取蛋白质的空间表示,其中所述蛋白质的所述空间表示指定所述蛋白质中的相应位置处的相应氨基酸的相应空间构型;
从所述蛋白质的所述空间表示中去除特定位置处的特定氨基酸的特定空间构型,从而生成所述蛋白质的有缺口空间表示;以及
至少部分地基于
所述有缺口空间表示和
由所述核苷酸变体在所述特定位置处产生的替代性氨基酸的表示来确定核苷酸变体的致病性。
2.根据条款1所述的计算机实现的方法,其中所述特定空间构型的所述去除由脚本实现。
3.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
从蛋白质中去除特定位置处的特定氨基酸,从而生成有缺口蛋白质;以及
至少部分地基于所述有缺口蛋白质和由所述核苷酸变体在所述特定位置处产生的替代性氨基酸来确定核苷酸变体的致病性。
4.根据条款3所述的计算机实现的方法,其中所述特定氨基酸的所述去除由脚本实现。
5.一种预测氨基酸取代物的空间耐受性的系统,所述系统包括:
缺口逻辑,所述缺口逻辑被配置为从蛋白质中去除特定位置处的特定氨基酸,并且在所述蛋白质中的所述特定位置处产生氨基酸空位;和
取代逻辑,所述取代逻辑被配置为处理具有所述氨基酸空位的所述蛋白质,并且对作为填充所述氨基酸空位的候选物的取代氨基酸的耐受性进行评分。
6.根据条款5所述的系统,其中所述取代逻辑被进一步配置为至少部分地基于所述取代氨基酸与所述氨基酸空位附近的相邻氨基酸之间的结构相容性来对所述取代氨基酸的所述耐受性进行评分。
7.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
存取在相应位置处具有相应氨基酸的蛋白质;
将所述蛋白质中特定位置处的特定氨基酸类的特定氨基酸指定为缺口氨基酸,并将所述蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸;
生成所述蛋白质的有缺口空间表示,所述有缺口空间表示
包括所述非缺口氨基酸的空间构型,以及
排除所述缺口氨基酸的空间构型;以及
至少部分地基于所述有缺口空间表示来确定所述特定位置处的相应替代性氨基酸的致病性,
其中所述相应替代性氨基酸具有与所述特定氨基酸类不同的相应氨基酸类。
8.一种预测氨基酸取代物的进化保守性的系统,所述系统包括:
缺口逻辑,所述缺口逻辑被配置为从蛋白质中去除特定位置处的特定氨基酸,并且在所述蛋白质中的所述特定位置处产生氨基酸空位;和
取代逻辑,所述取代逻辑被配置为处理具有所述氨基酸空位的所述蛋白质,并且对作为填充所述氨基酸空位的候选物的取代氨基酸的进化保守性进行评分。
9.根据条款8所述的系统,其中所述取代逻辑被进一步配置为至少部分地基于所述取代氨基酸与所述氨基酸空位附近的相邻氨基酸之间的结构相容性来对所述取代氨基酸的所述进化保守性进行评分。
10.根据条款8所述的系统,其中使用进化保守性频率对所述进化保守性进行评分。
11.根据条款10所述的系统,其中所述进化保守性频率基于位置特异性频率矩阵(PSFM)。
12.根据条款10所述的系统,其中所述进化保守性频率基于位置特异性评分矩阵(PSSM)。
13.根据条款8所述的系统,其中所述取代氨基酸的进化保守性分数按大小排序。
14.一种预测氨基酸取代物的进化保守性的系统,所述系统包括:
缺口逻辑,所述缺口逻辑被配置为从蛋白质中去除特定位置处的特定氨基酸,并且在所述蛋白质中的所述特定位置处产生氨基酸空位;和
进化保守性预测逻辑,所述进化保守性预测逻辑被配置为处理具有所述氨基酸空位的所述蛋白质,并且对作为填充所述氨基酸空位的候选物的取代氨基酸的进化保守性进行排序。
15.一种预测氨基酸取代物的结构耐受性的系统,所述系统包括:
缺口逻辑,所述缺口逻辑被配置为从蛋白质中去除特定位置处的特定氨基酸,并且在所述蛋白质中的所述特定位置处产生氨基酸空位;以及
结构耐受性预测逻辑,所述结构耐受性预测逻辑被配置为处理具有所述氨基酸空位的所述蛋白质,并且基于所述氨基酸空位附近的氨基酸共现模式对作为用于填充所述氨基酸空位的候选物的替代性氨基酸的结构耐受性进行排序。
16.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
存取在相应位置处具有相应氨基酸的蛋白质;
将所述蛋白质中特定位置处的特定氨基酸指定为缺口氨基酸,并将所述蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸;
生成所述蛋白质的有缺口空间表示,所述有缺口空间表示
包括所述非缺口氨基酸的空间构型,以及
排除所述缺口氨基酸的空间构型;
至少部分地基于
所述有缺口空间表示和
所述替代性氨基酸的表示来确定在所述特定位置处的替代性氨基酸的进化保守性;以及
至少部分地基于所述进化保守性来确定产生所述替代性氨基酸的核苷酸变体的致病性。
条款组8
1.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
存取蛋白质的空间表示,其中所述蛋白质的所述空间表示指定所述蛋白质中的相应位置处的相应氨基酸的相应空间构型;
从所述蛋白质的所述空间表示中去除特定位置处的特定氨基酸的特定空间构型,从而生成所述蛋白质的有缺口空间表示;以及
至少部分地基于
所述有缺口空间表示和
由所述核苷酸变体在所述特定位置处产生的替代性氨基酸的表示来确定核苷酸变体的致病性。
2.根据条款1所述的计算机实现的方法,其中所述特定空间构型的所述去除由脚本实现。
3.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
从蛋白质的空间表示中去除特定位置处的特定氨基酸,从而生成所述蛋白质的有缺口空间表示;以及
至少部分地基于所述蛋白质的所述有缺口空间表示和由所述核苷酸变体在所述特定位置处产生的替代性氨基酸来确定核苷酸变体的致病性。
4.根据条款3所述的计算机实现的方法,其中所述特定氨基酸的所述去除由脚本实现。
5.一种预测氨基酸取代物的空间耐受性的系统,所述系统包括:
缺口逻辑,所述缺口逻辑被配置为从蛋白质的空间表示中去除特定位置处的特定氨基酸,并且在所述蛋白质的所述空间表示中的所述特定位置处产生氨基酸空位;以及
取代逻辑,所述取代逻辑被配置为处理具有所述氨基酸空位的所述蛋白质的所述空间表示,并且对作为填充所述氨基酸空位的候选物的取代氨基酸的耐受性进行评分。
6.根据条款5所述的系统,其中所述取代逻辑被进一步配置为至少部分地基于所述取代氨基酸与所述氨基酸空位附近的相邻氨基酸之间的结构相容性来对所述取代氨基酸的所述耐受性进行评分。
7.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
存取在相应位置处具有相应氨基酸的蛋白质;
将所述蛋白质中特定位置处的特定氨基酸类的特定氨基酸指定为缺口氨基酸,并将所述蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸;
生成所述蛋白质的有缺口空间表示,所述有缺口空间表示
包括所述非缺口氨基酸的空间构型,以及
排除所述缺口氨基酸的空间构型;以及
至少部分地基于所述有缺口空间表示来确定所述特定位置处的相应替代性氨基酸的致病性,
其中所述相应替代性氨基酸具有与所述特定氨基酸类不同的相应氨基酸类。
8.一种预测氨基酸取代物的进化保守性的系统,所述系统包括:
缺口逻辑,所述缺口逻辑被配置为从蛋白质的空间表示中去除特定位置处的特定氨基酸,并且在所述蛋白质的所述空间表示中的所述特定位置处产生氨基酸空位;以及
取代逻辑,所述取代逻辑被配置为处理具有所述氨基酸空位的所述蛋白质的所述空间表示,并且对作为填充所述氨基酸空位的候选物的取代氨基酸的进化保守性进行评分。
9.根据条款8所述的系统,其中所述取代逻辑被进一步配置为至少部分地基于所述取代氨基酸与所述氨基酸空位附近的相邻氨基酸之间的结构相容性来对所述取代氨基酸的所述进化保守性进行评分。
10.根据条款8所述的系统,其中使用进化保守性频率对所述进化保守性进行评分。
11.根据条款10所述的系统,其中所述进化保守性频率基于位置特异性频率矩阵(PSFM)。
12.根据条款10所述的系统,其中所述进化保守性频率基于位置特异性评分矩阵(PSSM)。
13.根据条款8所述的系统,其中所述取代氨基酸的进化保守性分数按大小排序。
14.一种预测氨基酸取代物的进化保守性的系统,所述系统包括:
缺口逻辑,所述缺口逻辑被配置为从蛋白质的空间表示中去除特定位置处的特定氨基酸,并且在所述蛋白质的所述空间表示中的所述特定位置处产生氨基酸空位;以及
进化保守性预测逻辑,所述进化保守性预测逻辑被配置为处理具有所述氨基酸空位的所述蛋白质的所述空间表示,并且对作为填充所述氨基酸空位的候选物的取代氨基酸的进化保守性进行排序。
15.一种预测氨基酸取代物的结构耐受性的系统,所述系统包括:
缺口逻辑,所述缺口逻辑被配置为从蛋白质的空间表示中去除特定位置处的特定氨基酸,并且在所述蛋白质的所述空间表示中的所述特定位置处产生氨基酸空位;以及
结构耐受性预测逻辑,所述结构耐受性预测逻辑被配置为处理具有所述氨基酸空位的所述蛋白质的所述空间表示,并且基于所述氨基酸空位附近的氨基酸共现模式对作为用于填充所述氨基酸空位的候选物的替代性氨基酸的结构耐受性进行排序。
16.一种确定核苷酸变体的致病性的计算机实现的方法,所述计算机实现的方法包括:
存取在相应位置处具有相应氨基酸的蛋白质;
将所述蛋白质中特定位置处的特定氨基酸指定为缺口氨基酸,并将所述蛋白质中剩余位置处的剩余氨基酸指定为非缺口氨基酸;生成
所述蛋白质的有缺口空间表示,所述有缺口空间表示包括所述非缺口氨基酸的空间构型,以及排除所述缺口氨基酸的空间构型;
至少部分地基于
所述有缺口空间表示和
所述替代性氨基酸的表示来确定在所述特定位置处的替代性氨基酸的进化保守性;以及
至少部分地基于所述进化保守性来确定产生所述替代性氨基酸的核苷酸变体的致病性。
虽然通过参考上文详细描述的优选实施方式和示例公开了本发明,但是应当理解,这些示例旨在进行说明而非进行限制。可以预期,本领域的技术人员将容易想到修改和组合,这些修改和组合将在本发明的实质和以下权利要求书的范围之内。
Claims (30)
1.一种训练致病性预测器的计算机实现的方法,所述计算机实现的方法包括:
存取有缺口训练集,所述有缺口训练集包括针对蛋白质组中的相应位置的相应有缺口蛋白质样品;
存取非缺口训练集,所述非缺口训练集包括非缺口良性蛋白质样品和非缺口致病性蛋白质样品;
生成所述有缺口蛋白质样品的相应有缺口空间表示,并且生成所述非缺口良性蛋白质样品和所述非缺口致病性蛋白质样品的相应非缺口空间表示;
在一个或多个训练循环中训练致病性预测器并生成经训练的致病性预测器,其中所述训练循环中的每个训练循环使用来自所述相应有缺口空间表示的有缺口空间表示和来自所述相应非缺口空间表示的非缺口空间表示作为训练示例;以及
使用所述经训练的致病性分类器来确定变体的致病性。
2.根据权利要求1所述的计算机实现的方法,其中所述相应有缺口蛋白质样品用相应有缺口基准真值序列标记。
3.根据权利要求1或2所述的计算机实现的方法,其中特定有缺口蛋白质样品的特定有缺口基准真值序列具有与所述特定有缺口蛋白质中特定位置处的参考氨基酸对应的特定氨基酸类的良性标记。
4.根据权利要求3所述的计算机实现的方法,其中所述特定有缺口蛋白质样品具有与所述特定位置处的替代性氨基酸对应的相应剩余氨基酸类的相应致病性标记。
5.根据权利要求1至4中任一项所述的计算机实现的方法,其中特定非缺口良性蛋白质样品包括在特定位置处被良性核苷酸变体取代的良性替代性氨基酸。
6.根据权利要求1至5中任一项所述的计算机实现的方法,其中特定非缺口致病性蛋白质样品包括在特定位置处被致病性核苷酸变体取代的致病性替代性氨基酸。
7.根据权利要求5或6所述的计算机实现的方法,其中所述特定非缺口良性蛋白质样品用良性基准真值序列标记,所述良性基准真值序列具有与所述良性替代性氨基酸对应的特定氨基酸类的良性标记。
8.根据权利要求7所述的计算机实现的方法,其中所述良性基准真值序列与不同于所述良性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记。
9.根据权利要求6至8中任一项所述的计算机实现的方法,其中所述特定非缺口致病性蛋白质样品用致病性基准真值序列标记,所述致病性基准真值序列具有与所述致病性替代性氨基酸对应的特定氨基酸类的致病性标记。
10.根据权利要求9所述的计算机实现的方法,其中所述致病性基准真值序列具有与不同于所述致病性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记。
11.根据权利要求1至10中任一项所述的计算机实现的方法,所述计算机实现的方法还包括使用样品指示器向所述致病性预测器指示当前训练示例是有缺口蛋白质样品的有缺口空间表示还是非缺口蛋白质样品的非缺口空间表示。
12.根据权利要求3至11中任一项所述的计算机实现的方法,所述计算机实现的方法还包括掩蔽与所述特定有缺口蛋白质中所述特定位置处的所述参考氨基酸对应的所述特定氨基酸类的所述良性标记。
13.根据权利要求1至12中任一项所述的计算机实现的方法,其中所述非缺口良性蛋白质样品来源于常见的人和非人灵长类动物核苷酸变体。
14.根据权利要求1至13中任一项所述的计算机实现的方法,其中所述非缺口致病性蛋白质样品来源于组合模拟的核苷酸变体。
15.根据权利要求1至14中任一项所述的计算机实现的方法,其中所述致病性预测器响应于处理训练示例而生成氨基酸类式输出序列,其中所述氨基酸类式输出序列具有氨基酸类式致病性分数。
16.根据权利要求1至15中任一项所述的计算机实现的方法,所述计算机实现的方法还包括在验证集上的训练循环之间测量所述经训练的致病性预测器的性能。
17.根据权利要求16所述的计算机实现的方法,其中所述验证集包括针对每个保留的蛋白质样品的一对有缺口和非缺口的空间表示。
18.根据权利要求1至17中任一项所述的计算机实现的方法,其中所述经训练的致病性预测器生成针对所述对中的所述有缺口空间表示的第一氨基酸类式输出序列,和针对所述对中的所述非缺口空间表示的第二氨基酸类式输出序列,
其中基于所述第一和第二氨基酸类式输出序列中的所述氨基酸取代的第一和第二致病性分数的组合,确定引起保留的蛋白质样品中的氨基酸取代的核苷酸变体的最终致病性分数。
19.根据权利要求18所述的计算机实现的方法,其中所述最终致病性分数基于所述第一和第二致病性分数的平均值。
20.根据权利要求1至19中任一项所述的计算机实现的方法,其中所述训练循环中的至少一些训练循环使用相同数量的有缺口空间表示和非缺口空间表示。
21.根据权利要求1至20中任一项所述的计算机实现的方法,其中所述训练循环中的至少一些训练循环使用具有相同数量的有缺口空间表示和非缺口空间表示的训练示例批次。
22.根据权利要求1至21中任一项所述的计算机实现的方法,其中掩蔽的标记对误差确定没有贡献,因此对所述致病性预测器的训练没有贡献。
23.根据权利要求22所述的计算机实现的方法,其中所述掩蔽的标记被清零。
24.根据权利要求1至23中任一项所述的计算机实现的方法,其中所述有缺口空间表示与所述非缺口空间表示被不同地加权,使得所述有缺口空间表示对响应于所述致病性预测器处理所述非缺口空间表示而应用于所述致病性预测器的参数的梯度更新的贡献不同于所述非缺口空间表示对响应于所述致病性预测器处理所述非缺口空间表示而应用于所述致病性预测器的所述参数的梯度更新的贡献。
25.根据权利要求24所述的计算机实现的方法,其中所述变化由预定义的权重确定。
26.一种训练致病性预测器的计算机实现的方法,所述计算机实现的方法包括:
从在有缺口训练集上训练致病性分类器开始,以及生成经训练的致病性分类器;
在非缺口训练集上进一步训练所述经训练的致病性分类器,以及生成经重新训练的致病性分类器;以及
使用所述经重新训练的致病性分类器来确定变体的致病性。
27.根据权利要求26所述的计算机实现的方法,所述计算机实现的方法还包括在第一验证集上的训练循环之间测量所述经训练的致病性预测器的性能,所述第一验证集仅包括保留的蛋白质样品的非缺口空间表示。
28.根据权利要求26或27所述的计算机实现的方法,所述计算机实现的方法还包括在第二验证集上的训练循环之间测量所述经重新训练的致病性预测器的性能,所述第二验证集包括保留的蛋白质样品的有缺口空间表示和非缺口空间表示的对。
29.根据权利要求28所述的计算机实现的方法,其中所述经重新训练的致病性预测器响应于处理所述对而生成所述对的第一氨基酸类式输出序列,
其中基于所述第一氨基酸类式输出序列,确定引起对应的保留蛋白质样品中的氨基酸取代的核苷酸变体的最终致病性分数。
30.一种训练致病性预测器的计算机实现的方法,所述计算机实现的方法包括:
存取包括针对蛋白质组中的相应位置的相应有缺口蛋白质样品的有缺口训练集,其中所述相应有缺口蛋白质样品用相应有缺口基准真值序列标记,其中特定有缺口蛋白质样品的特定有缺口基准真值序列具有与所述特定有缺口蛋白质中特定位置处的参考氨基酸对应的特定氨基酸类的良性标记,并且具有与所述特定位置处的替代性氨基酸对应的相应剩余氨基酸类的相应致病性标记;
存取包括非缺口良性蛋白质样品和非缺口致病性蛋白质样品的非缺口训练集,其中特定非缺口良性蛋白质样品包括在特定位置处被良性核苷酸变体取代的良性替代性氨基酸,其中特定非缺口致病性蛋白质样品包括在特定位置处被致病性核苷酸变体取代的致病性替代性氨基酸,其中所述特定非缺口良性蛋白质样品用良性基准真值序列标记,所述良性基准真值序列具有与所述良性替代性氨基酸对应的特定氨基酸类的良性标记和与不同于所述良性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记,并且其中所述特定非缺口致病性蛋白质样品用致病性基准真值序列标记,所述致病性基准真值序列具有与所述致病性替代性氨基酸对应的特定氨基酸类的致病性标记和与不同于所述致病性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记;
生成所述有缺口蛋白质样品的相应有缺口空间表示,并且生成所述非缺口良性蛋白质样品和所述非缺口致病性蛋白质样品的相应非缺口空间表示;
在一个或多个训练循环中训练致病性预测器并生成经训练的致病性预测器,其中所述训练循环中的每个训练循环使用来自所述相应有缺口空间表示的有缺口空间表示和来自所述相应非缺口空间表示的非缺口空间表示作为训练示例;以及
使用所述经训练的致病性分类器来确定变体的致病性。
Applications Claiming Priority (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163253122P | 2021-10-06 | 2021-10-06 | |
US63/253122 | 2021-10-06 | ||
US202163281592P | 2021-11-19 | 2021-11-19 | |
US202163281579P | 2021-11-19 | 2021-11-19 | |
US63/281592 | 2021-11-19 | ||
US63/281579 | 2021-11-19 | ||
US17/533091 | 2021-11-22 | ||
US17/953,286 US20230108241A1 (en) | 2021-10-06 | 2022-09-26 | Predicting variant pathogenicity from evolutionary conservation using three-dimensional (3d) protein structure voxels |
US17/953293 | 2022-09-26 | ||
US17/953,293 US20230108368A1 (en) | 2021-10-06 | 2022-09-26 | Combined and transfer learning of a variant pathogenicity predictor using gapped and non-gapped protein samples |
US17/953286 | 2022-09-26 | ||
PCT/US2022/045823 WO2023059750A1 (en) | 2021-10-06 | 2022-10-05 | Combined and transfer learning of a variant pathogenicity predictor using gapped and non-gapped protein samples |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117581302A true CN117581302A (zh) | 2024-02-20 |
Family
ID=89897095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280046352.3A Pending CN117581302A (zh) | 2021-10-06 | 2022-10-05 | 使用有缺口和非缺口的蛋白质样品的变体致病性预测器的组合学习和迁移学习 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117581302A (zh) |
-
2022
- 2022-10-05 CN CN202280046352.3A patent/CN117581302A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230207064A1 (en) | Inter-model prediction score recalibration during training | |
Boninsegna et al. | Integrative genome modeling platform reveals essentiality of rare contact events in 3D genome organizations | |
WO2023014912A1 (en) | Transfer learning-based use of protein contact maps for variant pathogenicity prediction | |
US20220336057A1 (en) | Efficient voxelization for deep learning | |
US11515010B2 (en) | Deep convolutional neural networks to predict variant pathogenicity using three-dimensional (3D) protein structures | |
US20230044917A1 (en) | Transfer learning-based use of protein contact maps for variant pathogenicity prediction | |
AU2022259667A1 (en) | Efficient voxelization for deep learning | |
KR20230171930A (ko) | 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들 | |
CN117581302A (zh) | 使用有缺口和非缺口的蛋白质样品的变体致病性预测器的组合学习和迁移学习 | |
CN117642824A (zh) | 使用三维(3d)蛋白质结构体素根据进化保守性预测变体致病性 | |
US11538555B1 (en) | Protein structure-based protein language models | |
US20230343413A1 (en) | Protein structure-based protein language models | |
US20230047347A1 (en) | Deep neural network-based variant pathogenicity prediction | |
CN117178326A (zh) | 使用三维(3d)蛋白质结构来预测变体致病性的深度卷积神经网络 | |
WO2023059750A1 (en) | Combined and transfer learning of a variant pathogenicity predictor using gapped and non-gapped protein samples | |
US20240112751A1 (en) | Copy number variation (cnv) breakpoint detection | |
KR20240041877A (ko) | 변이 병원성 예측을 위한 단백질 접촉 맵의 전이학습 기반 이용 | |
WO2024030606A1 (en) | Artificial intelligence-based detection of gene conservation and expression preservation at base resolution | |
Huttenhower | Analysis of large genomic data collections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |