CN112119464A - 用于mhc肽结合预测的gan-cnn - Google Patents
用于mhc肽结合预测的gan-cnn Download PDFInfo
- Publication number
- CN112119464A CN112119464A CN201980025487.XA CN201980025487A CN112119464A CN 112119464 A CN112119464 A CN 112119464A CN 201980025487 A CN201980025487 A CN 201980025487A CN 112119464 A CN112119464 A CN 112119464A
- Authority
- CN
- China
- Prior art keywords
- mhc
- positive
- polypeptide
- gan
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 146
- 238000009739 binding Methods 0.000 title description 93
- 230000027455 binding Effects 0.000 title description 92
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 407
- 238000000034 method Methods 0.000 claims abstract description 305
- 238000012549 training Methods 0.000 claims abstract description 218
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 100
- 229920001184 polypeptide Polymers 0.000 claims abstract description 68
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 16
- 230000003993 interaction Effects 0.000 claims description 594
- 108700028369 Alleles Proteins 0.000 claims description 278
- 108700018351 Major Histocompatibility Complex Proteins 0.000 claims description 158
- 230000006870 function Effects 0.000 claims description 75
- 150000001413 amino acids Chemical class 0.000 claims description 47
- 108090000623 proteins and genes Proteins 0.000 claims description 38
- 102000004169 proteins and genes Human genes 0.000 claims description 35
- 238000011156 evaluation Methods 0.000 claims description 26
- 239000000427 antigen Substances 0.000 claims description 25
- 108091007433 antigens Proteins 0.000 claims description 25
- 102000036639 antigens Human genes 0.000 claims description 25
- 206010028980 Neoplasm Diseases 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 238000004088 simulation Methods 0.000 claims description 21
- 102100028972 HLA class I histocompatibility antigen, A alpha chain Human genes 0.000 claims description 15
- 102100028976 HLA class I histocompatibility antigen, B alpha chain Human genes 0.000 claims description 15
- 102100028971 HLA class I histocompatibility antigen, C alpha chain Human genes 0.000 claims description 15
- 108010075704 HLA-A Antigens Proteins 0.000 claims description 15
- 108010058607 HLA-B Antigens Proteins 0.000 claims description 15
- 108010052199 HLA-C Antigens Proteins 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 11
- 230000003278 mimic effect Effects 0.000 claims description 2
- 125000003275 alpha amino acid group Chemical group 0.000 claims 1
- 230000006916 protein interaction Effects 0.000 abstract description 13
- 230000003042 antagnostic effect Effects 0.000 abstract description 2
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 143
- 230000008569 process Effects 0.000 description 88
- 238000012545 processing Methods 0.000 description 46
- 238000013528 artificial neural network Methods 0.000 description 32
- 238000012360 testing method Methods 0.000 description 28
- 238000001994 activation Methods 0.000 description 25
- 238000003860 storage Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 238000010606 normalization Methods 0.000 description 18
- 230000004913 activation Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 12
- 238000005259 measurement Methods 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 10
- 230000001960 triggered effect Effects 0.000 description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 9
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 8
- 239000003814 drug Substances 0.000 description 8
- 238000012804 iterative process Methods 0.000 description 8
- 230000004850 protein–protein interaction Effects 0.000 description 7
- 210000004027 cell Anatomy 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 210000000265 leukocyte Anatomy 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 108010085220 Multiprotein Complexes Proteins 0.000 description 5
- 102000007474 Multiprotein Complexes Human genes 0.000 description 5
- 210000001744 T-lymphocyte Anatomy 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000012854 evaluation process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- KDYFGRWQOYBRFD-UHFFFAOYSA-L succinate(2-) Chemical compound [O-]C(=O)CCC([O-])=O KDYFGRWQOYBRFD-UHFFFAOYSA-L 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 210000000987 immune system Anatomy 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 210000001266 CD8-positive T-lymphocyte Anatomy 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 102000008949 Histocompatibility Antigens Class I Human genes 0.000 description 2
- 108010088652 Histocompatibility Antigens Class I Proteins 0.000 description 2
- 230000030741 antigen processing and presentation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004001 molecular interaction Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 108020004732 unclassified proteins Proteins 0.000 description 2
- 102000006670 unclassified proteins Human genes 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 108010078791 Carrier Proteins Proteins 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- VZCYOOQTPOCHFL-OWOJBTEDSA-N Fumaric acid Chemical compound OC(=O)\C=C\C(O)=O VZCYOOQTPOCHFL-OWOJBTEDSA-N 0.000 description 1
- 102100028970 HLA class I histocompatibility antigen, alpha chain E Human genes 0.000 description 1
- 102100028966 HLA class I histocompatibility antigen, alpha chain F Human genes 0.000 description 1
- 102100028967 HLA class I histocompatibility antigen, alpha chain G Human genes 0.000 description 1
- 108010024164 HLA-G Antigens Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000986085 Homo sapiens HLA class I histocompatibility antigen, alpha chain E Proteins 0.000 description 1
- 101000986080 Homo sapiens HLA class I histocompatibility antigen, alpha chain F Proteins 0.000 description 1
- 101001095231 Homo sapiens Peptidyl-prolyl cis-trans isomerase D Proteins 0.000 description 1
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 1
- 108700005089 MHC Class I Genes Proteins 0.000 description 1
- 102000018697 Membrane Proteins Human genes 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 235000006679 Mentha X verticillata Nutrition 0.000 description 1
- 235000002899 Mentha suaveolens Nutrition 0.000 description 1
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 101150076359 Mhc gene Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 102100037827 Peptidyl-prolyl cis-trans isomerase D Human genes 0.000 description 1
- 102000004245 Proteasome Endopeptidase Complex Human genes 0.000 description 1
- 108090000708 Proteasome Endopeptidase Complex Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 108091008874 T cell receptors Proteins 0.000 description 1
- 230000005867 T cell response Effects 0.000 description 1
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000000612 antigen-presenting cell Anatomy 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000006472 autoimmune response Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000011230 binding agent Substances 0.000 description 1
- 230000008275 binding mechanism Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229940022399 cancer vaccine Drugs 0.000 description 1
- 238000009566 cancer vaccine Methods 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 208000030499 combat disease Diseases 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 210000001151 cytotoxic T lymphocyte Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000002472 endoplasmic reticulum Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003054 hormonal effect Effects 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011173 large scale experimental method Methods 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001722 neurochemical effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000000159 protein binding assay Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 210000001541 thymus gland Anatomy 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- VZCYOOQTPOCHFL-UHFFFAOYSA-N trans-butenedioic acid Natural products OC(=O)C=CC(O)=O VZCYOOQTPOCHFL-UHFFFAOYSA-N 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了用于结合卷积神经网络(CNN)来训练生成对抗网络(GAN)的方法。所述GAN和所述CNN可以使用诸如蛋白质相互作用数据的生物学数据来训练。所述CNN可以用于将新数据鉴定为正的或负的。本发明公开了用于合成与被鉴定为正的新蛋白质相互作用数据相关联的多肽的方法。
Description
相关联申请的交叉引用
本申请要求2018年2月17日提交的美国临时申请号62/631,710的权益,该临时申请据此以引用的方式整体并入本文。
背景技术
机器学习的使用面临的最大问题之一是缺乏大型注释数据集。数据的注释不仅昂贵和耗时,而且还高度依赖于专家观察员的可用性。有限数量的训练数据可以抑制监督机器学习算法的性能,所述算法通常需要非常大量的数据进行训练以避免过拟合。迄今,已经开展了很多工作来从可用的数据中提取尽可能多的信息。一个领域(尤其是因缺乏大型注释数据集而受到影响的领域)是生物学数据(诸如蛋白质相互作用数据)的分析。预测蛋白质可以如何相互作用的能力对于新疗法的鉴定是非常宝贵的。
免疫疗法的进展正在迅速发展,并且正在提供调节患者的免疫系统的新药,以帮助抗击疾病(包括癌症、自身免疫性疾病和感染)。例如,已经鉴定出检查点抑制剂分子(诸如PD-1和PD-1的配体),这些检查点抑制剂分子被用于开发抑制或刺激通过PD-1进行的信号转导从而调节患者的免疫系统的药物。这些新药在一些情况下非常有效,但是并非在所有情况下都。在大约80%的癌症患者中,一个原因是他们的肿瘤没有足够的癌症抗原来吸引T细胞。
靶向个体的肿瘤特异性突变是具有吸引力的,因为这些特异性突变产生肿瘤特异性肽(称为新抗原),这些肿瘤特异性肽对于免疫系统而言是新的,并且不存在于正常组织中。与肿瘤相关联自身抗原相比,新抗原在胸腺中引发不受宿主中枢耐受性影响的T细胞反应,并且还产生来自针对非恶性细胞的自身免疫反应的较小的毒性(NatureBiotechnology 35,97(2017))。
新表位发现的关键问题是突变的蛋白质被蛋白酶体加工成8至11个残基的肽,通过抗原加工相关联的转运蛋白(TAP)穿梭到内质网中,并且加载到新合成的I类主要组织相容性复合物(MHC-I)上,以便被CD8+T细胞识别(Nature Biotechnology 35,97(2017))。
用于预测肽与MHC-I的相互作用的计算方法是本领域已知的。虽然一些计算方法集中于预测抗原加工(例如,NetChop)和肽运输(例如,NetCTL)期间发生的事件,但是大多数工作都集中于对肽结合至MHC-I分子进行建模。基于神经网络的方法(诸如NetMHC)被用于预测抗原序列,所述抗原序列产生配合患者的MHC-I分子的凹槽的表位。可以应用其他筛选器来对假设的蛋白质进行去优先级化,并且测量突变的氨基酸是否可能朝向MHC的外部(朝向T细胞受体)或降低表位对MHC-I分子本身的亲和力(Nature Biotechnology 35,97(2017))。
有很多原因导致这些预测可能不正确。测序已经在用作肽的起始物料的读段中引入了扩增偏差和技术误差。对表位加工和呈递进行建模还必须考虑以下事实:人类具有约5,000个编码MHC-I分子的等位基因,单名患者表达多达它们中的六个,均具有不同的表位亲和力。方法(诸如NetMHC)通常需要对特定等位基因进行50-100次通过实验确定的肽结合测定,以建立具有足够准确性的模型。但是,由于很多MHC等位基因缺乏此类数据,“泛特异性”方法(能够基于具有相似的接触环境的MHC等位基因是否具有相似的结合特异性来预测结合物)日益受到关注。
因此,需要用于生成用于机器学习应用的数据集(尤其是生物学数据集)的改进的系统和方法。肽结合预测技术可以受益于此类改进的系统和方法。因此,本发明的一个目的是提供具有改进的能力的计算机实施的系统和方法,所述系统和方法生成用于训练机器学习应用的数据集,以进行预测(包括预测肽与MHC-I的结合)。
发明内容
应当理解,下文的一般性描述和下文的详细描述都仅为示例性和说明性而非限制性的。
公开了用于训练生成对抗网络(GAN)的方法和系统,所述方法和系统包括:由GAN生成器生成越来越准确的正模拟数据,直到GAN判别器将正模拟数据分类为正的,将正模拟数据、正真实数据和负真实数据呈现给卷积神经网络(CNN),直到CNN将每种类型的数据分类为正的或负的,将正真实数据和负真实数据呈现给CNN以生成预测得分,根据预测得分进行测定(无论GAN是否经过训练),以及输出GAN和CNN。可以重复所述方法,直到GAN受到满意的训练。正模拟数据、正真实数据和负真实数据包括生物学数据。生物学数据可以包括蛋白质-蛋白质相互作用数据。生物学数据可以包括多肽-MHC-I相互作用数据。正模拟数据可以包括正模拟多肽-MHC-I相互作用数据,正真实数据包括正真实多肽-MHC-I相互作用数据,并且负真实数据包括负真实多肽-MHC-I相互作用数据。
其他优点将在下面的描述中进行部分阐述或者可以通过实践来了解。所述优点将借助于所附权利要求中特别指出的要素和组合来实现和获得。
附图说明
并入本说明书中并构成其一部分的附图说明了实施方案,并与说明书一起用于解释所述方法和系统的原理:
图1是实例方法的流程图。
图2是示出预测肽结合的进程(包括生成和训练GAN模型)的一部分的示例性流程图。
图3是示出预测肽结合的进程(包括使用经训练的GAN模型来生成数据和训练CNN模型)的一部分的示例性流程图。
图4是示出预测肽结合的进程(包括完成训练CNN模型以及使用经训练的CNN模型来生成肽结合的预测值)的一部分的示例性流程图。
图5A是典型GAN的示例性数据流程图。
图5B是GAN生成器的示例性数据流程图。
图6是包括在GAN中所用的生成器中的处理阶段的一部分的示例性方框图。
图7是包括在GAN中所用的生成器中的处理阶段的一部分的示例性方框图。
图8是包括在GAN中所用的判别器中的处理阶段的一部分的示例性方框图。
图9是包括在GAN中所用的判别器中的处理阶段的一部分的示例性方框图。
图10是实例方法的流程图。
图11是计算机系统的示例性方框图,其中可以实施涉及预测肽结合的进程和结构。
图12是示出指定预测模型的结果的表格,所述预测模型用于预测针对指定的HLA等位基因的与MHC-I蛋白复合物结合的蛋白质。
图13A是示出用于比较预测模型的数据的表格。
图13B是将我们对相同的CNN架构的实施方式的AUC与Vang的论文进行比较的柱状图。
图13C是将所描述的实施方式与现有系统进行比较的柱状图。
图14是示出通过选择偏差测试集而获得的偏差的表格。
图15是SRCC与测试大小的线图,它显示测试大小越小,SRRC越好。
图16A是示出用于比较Adam和RMSprop神经网络的数据的表格。
图16B是比较由Adam和RMSprop优化器训练的神经网络之间的AUC的柱状图。
图16C是比较由Adam和RMSprop优化器训练的神经网络之间的SRCC的柱状图。
图17是示出假数据和真实数据的混合获得的预测比单独的假数据更好的表格。
具体实施方式
在公开和描述本发明的方法和系统之前,应当理解,所述方法和系统不限于特定方法、特定部件或特定具体实施方式。还应当理解,本文所用的术语仅仅是为了描述特定实施方案的目的,而非旨在进行限制。
如说明书以及所附权利要求书中所使用,除非上下文另外清楚地规定,否则单数形式的词语“一个”、“一种”和“该”均包括多个指代物。在本文中,范围可以表述为从“约”一个特定值和/或至“约”另一个特定值。在表述此类范围时,另一个实施方案包括从所述一个特定值和/或至另一个特定值。类似地,通过使用先行词“约”将数值表述为近似值时,应当理解,该特定值构成了另一个实施方案。应当进一步理解的是,每个范围的端点对于另一个端点很重要并且独立于另一个端点。
“任选的”或“任选地”意指随后描述的事件或情形可能发生或可能不发生,并且该描述包括所述事件或情形发生的情况和不发生的情况。
在本说明书的描述和权利要求书全篇中,词语“包含”和该词的变型如“含有”意指“包括但不限于”,并非旨在排除例如其他部件、整数或步骤。“示例性”意指“一个实例”,并非旨在表达优选或理想实施方案。“例如”不是在限制性意义上使用,而是用于解释目的。
应当理解,所述方法和系统不限于所描述的特定方法、方案和试剂,因为它们可以变化。还应理解,本文所用的术语仅仅是为了描述特定实施方案的目的,而非旨在限制本方法和系统的范围,本方法和系统的范围将仅受所附权利要求限定。
除非另有定义,否则本文使用的所有技术和科学术语具有与所述方法和系统所属领域的技术人员通常所理解的相同含义。尽管与本文描述的那些方法和材料类似或等同的任何方法和材料可用于本发明的实践或试验,但特别有用的方法、设备和材料如文所述。本文引用的出版物及其引用的材料特此通过引用明确并入。本文的任何内容均不应解释为承认本方法和系统无权凭借在先发明而先于此类公开。不承认任何参考文献构成现有技术。对参考文献的讨论陈述了作者所声明的内容,并且申请人保留质疑所引用文件的准确性和切合性的权利。将清楚地理解,尽管本文提及了许多出版物,但这样提及并不构成承认任何这些文献形成本领域公知常识的一部分。
公开了可用于执行方法和系统的部件。本文公开了这些和其他部件,并且应当理解,当公开这些部件的组合、子集、交互作用、分组等时,虽然可能未明确公开对这些中每种不同的单个和集体组合排列的特定提及,但对于所有方法和系统,每一种在本文中都有特别考虑和描述。这适用于本申请的所有实施方案,包括但不限于方法中的步骤。因此,如果存在可以执行的多个附加步骤,则应当理解,这些附加步骤中的每一个都可以利用方法的任何特定实施方案或实施方案的组合来执行。
通过参考以下对优选实施方案和其中包括的实例的详细描述以及附图及其之前和之后的描述,可以更容易地理解本方法和系统。
所述方法和系统可以采用全硬件实施方案、全软件实施方案或结合软件和硬件实施方案的实施方案的形式。此外,所述方法和系统可以采用计算机可读存储介质上的计算机程序产品的形式,其具有包含在存储介质中的计算机可读程序指令(例如,计算机软件)。更具体地,本方法和系统可以采用web实现的计算机软件的形式。可以利用任何合适的计算机可读存储介质,包括硬盘、CD-ROM、光存储设备或磁存储设备。
下面参考方法、系统、装置和计算机程序产品的方框图和流程图图解来描述所述方法和系统的实施方案。应当理解,方框图和流程图图解的每个方框以及方框图和流程图图解中方框的组合分别可以通过计算机程序指令实现。这些计算机程序指令可以加载到通用计算机、专用计算机或其他可编程数据处理装置上以产生机器,使得在计算机或其他可编程数据处理装置上执行的指令产生用于实现流程图一个或多个方框中指定的功能的方式。
这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理装置以特定方式起作用,使得存储在计算机可读存储器中的指令产生包括用于实现流程图一个或多个方框中指定的功能的计算机可读指令的制品。计算机程序指令也可以加载到计算机或其他可编程数据处理装置上,使一系列操作步骤在计算机或其他可编程装置上执行,以产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令提供用于实现流程图一个或多个方框中指定的功能的步骤。
因此,方框图和流程图图解的方框支持用于执行指定功能的方式组合、用于执行指定功能的步骤组合和用于执行指定功能的程序指令装置。还应理解,方框图和流程图图解的每个方框以及方框图和流程图图解中方框的组合可以由执行指定功能或步骤的基于专用硬件的计算机系统、或专用硬件和计算机指令的组合来实现。
I.定义
缩写“SRCC”是指斯皮尔曼等级相关系数(SRCC)计算。
术语“ROC曲线”是指接收器工作特性曲线。
缩写“CNN”是指卷积神经网络。
缩写“GAN”是指生成对抗网络。
术语“HLA”是指人白细胞抗原。HLA系统或复合物是编码人类主要组织相容性复合物(MHC)蛋白的基因复合物。主要HLA I类基因是HLA-A、HLA-B和HLA-C,而HLA-E、HLA-F和HLA-G是次要基因。
术语“MHC I”或“主要组织相容性复合物I”是指由具有三个结构域–α1、α2和α3的α链组成的一组细胞表面蛋白。α3结构域是跨膜结构域,而α1和α2结构域负责形成肽结合槽。
“多肽-MHC I相互作用”是指多肽在MHC I的肽结合槽中的结合。
如本文所用,“生物学数据”是指来源于测量人、动物或其他生物体(包括微生物、病毒、植物和其他活生物体)的生物学状况的任何数据。可以通过医生、科学家、诊断医生等等已知的任何测试、测定法或观察来进行测量。生物学数据可以包括但不限于DNA序列、RNA序列、蛋白质序列、蛋白质相互作用、临床测试和观测结果、物理和化学测量结果、基因组测定结果、蛋白质组测定结果、药物水平、激素和免疫学测试结果、神经化学或神经物理测量结果、矿物质和维生素水平测定结果、遗传史和家族史以及可以深入了解正在接受检查的一个或多个个体的状态的其他测定结果。在本文中,术语“数据”的使用与“生物学数据”可互换使用。
II.用于预测肽结合的系统
本发明的一个实施方案提供了一种用于预测肽与MHC-I的结合的系统,所述系统具有生成对抗网络(GAN)-卷积神经网络(CNN)框架,也称为深度卷积生成对抗网络。GAN含有CNN判别器和CNN生成器,并且可以对现有的肽-MHC-I结合数据进行训练。所公开的GAN-CNN系统相对于用于预测肽-MHC-I结合的现有系统具有若干优点,包括但不限于针对无限等位基因进行训练的能力和更好的预测性能。虽然本文针对预测肽与MHC-I的结合进行了描述,但是本发明的方法和系统并不局限于此。肽与MHC-I的结合的预测作为本文所述的改进的GAN-CNN系统的实例应用提供。改进的GAN-CNN系统适用于生成各种预测结果的多种生物学数据。
A.示例性神经网络系统和方法
图1是实例方法的流程图100。从步骤110开始,可以由GAN的生成器(参见图5A的504)生成越来越准确的正模拟数据。正模拟数据可以包括生物学数据,诸如蛋白质相互作用数据(例如,结合亲和力)。结合亲和力是生物分子(例如,蛋白质、DNA、药物等)与生物分子(例如,蛋白质、DNA、药物等)之间的结合相互作用强度的度量的一个实例。结合亲和力可以用数字表示为最大抑制浓度值的一半(IC50)。数字越小表示亲和力越高。IC50值<50nM的肽被认为是高亲和力的,<500nM是中等亲和力的,<5000nM是低亲和力的。IC50可以转换为结合类别,如结合(1)或不结合(-1)。
正模拟数据可以包括正模拟多肽-MHC-I相互作用数据。生成正模拟多肽-MHC-I相互作用数据可以至少部分基于真实多肽-MHC-I相互作用数据。蛋白质相互作用数据可以包括表示两种蛋白质结合的可能性的结合亲和力得分(例如,IC50,结合类别)。蛋白质相互作用数据(诸如多肽-MHC-I相互作用数据)可以从例如多个数据库接收:所述数据库诸如PepBDB、PepBind、蛋白质数据库、生物分子相互作用网络数据库(BIND)、Cellzome(Heidelberg,Germany)、相互作用蛋白质数据库(DIP)、达娜·法伯癌症研究所(DanaFarber Cancer Institute)(Boston,MA,USA)、人类蛋白质参考数据库(HPRD)、Hybrigenics(Paris,France)、欧洲生物信息学研究所(EMBL-EBI,Hinxton,UK)的IntAct、分子相互作用(MINT,Rome,Italy)数据库、蛋白质-蛋白质相互作用数据库(PPID,Edinburgh,UK)和用于检索相互作用基因/蛋白质的搜索工具(STRING,EMBL,Heidelberg,Germany),等等。蛋白质相互作用数据可以存储在数据结构中,所述数据结构包括特定的多肽序列以及关于多肽的相互作用(例如,多肽序列和MHC-I之间的相互作用)的指示中的一者或多者。在一个实施方案中,数据结构可以符合HUPO PSI分子相互作用(PSI MI)格式,所述格式可以包括一个或多个条目,其中条目描述了一种或多种蛋白质相互作用。数据结构可以指示条目的来源,例如,数据提供者。可以指示由数据提供者分配的发布编号和发布日期。可用性列表可以提供关于数据可用性的声明。实验列表可以指示包括至少一组实验参数(通常与单个出版物相关联)的实验描述。在大规模实验中,通常只有一个参数(通常是诱饵(所关注的蛋白质))在一系列实验中发生变化。PSI MI格式可以指示恒定参数(例如,实验技术)和可变参数(例如,诱饵)二者。相互作用物列表可以指示参与相互作用的一组相互作用物(例如,蛋白质、小分子等)。蛋白质相互作用物要素可以指示通常存在于数据库(如Swiss-Prot和TrEMBL)中的蛋白质的“正常”形式,所述数据库可以包括数据,诸如名称、交叉引用、生物体和氨基酸序列。相互作用列表可以指示一个或多个相互作用要素。每种相互作用可以指示可用性描述(数据可用性的描述)以及已确定可用性的实验条件的描述。相互作用还可以指示置信度属性。已经开发出相互作用的置信度的不同度量,例如,平行同源验证方法和蛋白质相互作用图(PIM)生物学得分。每种相互作用可以指示含有两个或更多个蛋白质参与者要素(即,参与相互作用的蛋白质)的参与者列表。每个蛋白质参与者要素可以包括天然形式分子的描述和/或参与相互作用的分子的特定形式。特征列表可以指示蛋白质的序列特征,例如,与相互作用相关的结合结构域或翻译后修饰。可以指示某种角色,所述角色描述蛋白质在实验中的特定角色—例如,蛋白质是诱饵还是猎物。一些或全部前述要素可以存储在数据结构中。实例数据结构可以是XML文件,例如:
<entry>
<interactorList>
<Interactor id="Succinate>
<names>
<shortLabel>Succinate</shortLabel>
<fullName>Succinate</fullName>
</names>
</Interactor>
</interactorList>
<interactionList>
<interaction>
<names>
<shortLabel>Succinate dehydrogenas catalysis</shortLabel>
<fullName>Interaction between</fullName>
</names>
<participantList>
<Participant>
<proteinInteractorRef ref="Succinate"/>
<biologicalrole>neutral</role></proteinParticipant>
<proteinParticipant><proteinInteractorRef ref="Fumarate"/>
<role>neutral</role></proteinParticipant><proteinParticipant>
<proteinInteractorRef ref="Succdeh"/><role>neutral</role>
</proteinParticipant></participantList></interaction>
</interactionList>
GAN可以包括例如深度卷积GAN(DCGAN)。参见图5A,示出了GAN的基本结构的实例。GAN实质上是一种训练神经网络的方法。GAN通常含有独立工作并且可以作为对手的两个独立的神经网络,即判别器502和生成器504。判别器502可以是将使用由生成器504生成的训练数据来训练的神经网络。判别器502可以包括分类器506,所述分类器可以被训练为执行在数据样品之间执行辨别的任务。生成器504可以生成类似于真实样品的随机数据样品,但是所述随机数据样品可以生成包括,或者可以被修改为包括呈现为伪样品或人造样品的特征。包括判别器502和生成器504的神经网络通常可以由多层网络来实现,所述多层网络由多个处理层组成,所述处理层诸如密集处理、分批归一化处理、活化处理、输入重构处理、高斯滤除处理、高斯噪声处理、二维卷积和二维上采样。这在下图6–图9中更详细地显示。
例如,分类器506可以被设计为鉴定指示各种特征的数据样品。生成器504可以包括对手功能508,所述对手功能可以使用几乎但不完全正确的数据样品来生成旨在欺骗判别器502的数据。例如,这可以通过以下方式来完成:从训练集510(潜在空间)中随机挑选合法样品,并且通过随机改变特征(诸如通过添加随机噪声512来随机改变特征)来合成数据样品(数据空间)。生成器网络G可以被认为是从某个潜在空间到数据空间的映射。这可以正式表达为G:G(z)R|x|,其中z R|x|是来自潜在空间的样品,x R|x|是来自数据空间的样品,并且|·|表示维数。
判别器网络D可以被认为是从数据空间到数据(例如,肽)来自真实数据集而不是生成的(伪或人造)数据集的概率的映射。这可以正式表达为:D:D(x)(0;1)。在训练期间,判别器502可以由随机化器514呈现,所述随机化器具有来自真实训练数据的合法数据样品516,以及由生成器504生成的伪或人造(例如,模拟)数据样品的随机混合。对于每个数据样品,判别器502可以尝试鉴定合法和伪或人造输入,得到结果518。例如,对于固定生成器G,判别器D可以被训练为将数据(例如,肽)分类为来自训练数据(真实,接近1)或来自固定生成器(模拟,接近0)。对于每个数据样品,判别器502可以进一步尝试鉴定正输入或负输入(无论输入是模拟的还是真实的),得到结果518。
根据一系列结果518,判别器502和生成器504二者可以尝试微调它们的参数以改进它们的操作。例如,如果判别器502做出正确的预测,则生成器504可以更新它的参数,以生成更好的模拟样品来欺骗判别器502。如果判别器502做出不正确的预测,则判别器502可以从它的错误中学习以避免类似的错误。因此,判别器502和生成器504的更新可以涉及反馈进程。该反馈进程可以是连续的或增量的。生成器504和判别器502可以被迭代地执行,以优化数据生成和数据分类。在增量反馈进程中,生成器504的状态为冻结,并且判别器502被训练直到平衡得以建立和判别器502的训练得以优化。例如,对于给定的生成器504的冻结状态,可以训练判别器502,使得其相对于生成器504的状态而被优化。然后,判别器502的这种优化状态可以被冻结,并且可以训练生成器504,以将判别器的准确性降低到某个预定阈值。然后,可以冻结生成器504的状态,并且可以训练判别器502,等等。
在连续反馈进程中,可以不训练判别器,直到它的状态为优化,相反可以仅训练判别器一次或少量的迭代,并且生成器可以与判别器同时更新。
如果生成的模拟数据集分布能够完全匹配真实数据集分布,则判别器将被最大程度地混淆,并且无法区分真实样品和伪样品(对于所有输入,预测为0.5)。
返回图1的110,可以执行(例如,通过生成器504)生成越来越准确的正模拟多肽-MHC-I相互作用数据,直到GAN的判别器502将正模拟多肽-MHC-I相互作用数据分类为正的。在另一个方面,可以执行(例如,通过生成器504)生成越来越准确的正模拟多肽-MHC-I相互作用数据,直到GAN的判别器502将正模拟多肽-MHC-I相互作用数据分类为正的。例如,生成器504可以通过生成包括针对MHC等位基因的正模拟多肽-MHC-I相互作用的第一模拟数据集来生成越来越准确的正模拟多肽-MHC-I相互作用数据。可以根据一个或多个GAN参数来生成第一模拟数据集。GAN参数可以包括例如等位基因类型(例如,HLA-A、HLA-B、HLA-C或它们的亚型)、等位基因长度(例如,约8至12个氨基酸、约9至11个氨基酸)、生成类别、模型复杂性、学习率、批大小或另一个参数中的一者或多者。
图5B是GAN生成器的示例性数据流程图,所述GAN生成器被配置用于生成针对MHC等位基因的正模拟多肽-MHC-I相互作用数据。如图5B所示,可以将高斯噪声矢量输入到输出分布矩阵的生成器中。从高斯采样的输入噪声提供了模仿不同结合模式的可变性。输出分布矩阵表示针对肽序列中的每个位置选择每个氨基酸的概率分布。可以使分布矩阵归一化,以消除不太可能提供结合信号的选择,并且特定的肽序列可以从归一化的分布矩阵采样。
然后,可以将第一模拟数据集与针对MHC等位基因的正真实多肽相互作用数据和/或负真实多肽相互作用数据(或它们的组合)组合以生成GAN训练集。然后判别器502可以确定(例如,根据判定边界)GAN训练数据集中的针对MHC等位基因的多肽-MHC-I相互作用是正的还是负的和/或是模拟的还是真实的。根据判别器502执行的确定的准确性(例如,判别器502是否正确地将多肽-MHC-I相互作用鉴定为正的或负的和/或模拟的或真实的),可以调整一个或多个GAN参数或判定边界。例如,可以调整判定边界的一个或多个GAN参数以优化判别器502,从而增加给予正真实多肽-MHC-I相互作用数据以高概率,给予正模拟多肽-MHC-I相互作用数据以低概率,和/或给予负真实多肽-MHC-I相互作用数据以低概率的可能性。可以调整判定边界的一个或多个GAN参数以优化生成器504,从而增加正模拟多肽-MHC-I相互作用数据被评高分的概率。
可以重复生成第一模拟数据集,将第一数据集与正真实多肽相互作用数据和/或负真实多肽相互作用数据组合以生成GAN训练数据集,由判别器确定,以及调整GAN参数和/或判定边界的进程,直到满足第一停止标准。例如,可以通过评估针对生成器504的梯度下降表达来确定是否满足第一停止标准。又如,可以通过评估均方误差(MSE)函数来确定是否满足第一停止标准:
又如,可以通过评估梯度是否足够大以继续有意义的训练来确定是否满足第一停止标准。因为生成器504通过反向传播算法来更新,所以生成器的每个层将具有一个或多个梯度,例如,若一个图具有2层,每个层具有3个节点,则图1的输出是1维的(标量),数据是2维的。在该图中,第1层具有2*3=6条边(w111、w112、w121、w122、w131、w132),它们连接至数据,且w111*data1+w112*data2=net11,并且S形活化函数可以用于获得输出o11=S形(net11),类似地可以获得o12、o13,它们形成第1层的输出;第2层具有3*3=9条边(w211、w212、w213、w221、w222、w223、w231、w232、w233),它们连接至第1层输出,并且第2层输出为o21、o22、o23,它连接至具有3条边的最终输出,即w311、w312、w313。
该图中的每个w都具有一个梯度(如何更新w的指令,实质上是一个要增加的数字),该数字可以通过称为反向传播的算法来计算,该算法遵循以下想法:将参数更改为损失(MSE)减少的方向,即:
其中E是MSE误差,wij是第j层的第i个参数。Oj是第j层的输出,netj是活化前,乘积结果在第j层上。并且,如果对于wij,值de/dwij(梯度)不够大,则结果是训练没有带来生成器504的wij的变化,并且训练应停止。
然后,在GAN判别器502将正模拟数据(例如,正模拟多肽-MHC-I相互作用数据)分类为正的和/或真实之后,在步骤120,正模拟数据、正真实数据和/或负真实数据(或它们的组合)可以呈现给CNN,直到CNN将每种类型的数据分类为正的或负的。正模拟数据、正真实数据和/或负真实数据可以包括生物学数据。正模拟数据可以包括正模拟多肽-MHC-I相互作用数据。正真实数据可以包括正真实多肽-MHC-I相互作用数据。负真实数据可以包括负真实多肽-MHC-I相互作用数据。被分类的数据可以包括多肽-MHC-I相互作用数据。正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和负真实多肽-MHC-I相互作用数据中的每个都可以与所选的等位基因相关联。例如,所选的等位基因可以选自A0201、A202、A203、B2703、B2705以及它们的组合。
将正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和负真实多肽-MHC-I相互作用数据呈现给CNN可以包括例如由生成器504根据GAN参数集产生第二模拟数据集,所述第二模拟数据集包括针对MHC等位基因的正模拟多肽-MHC-I相互作用。可以将第二模拟数据集与针对MHC等位基因的正真实多肽相互作用数据和/或负真实多肽相互作用数据(或它们的组合)组合以生成CNN训练数据集。
然后可以将CNN训练数据集呈现给CNN以训练CNN。然后,CNN可以根据一个或多个CNN参数将多肽-MHC-I相互作用分类为正的或负的。这可以包括由CNN执行卷积程序、执行非线性(例如ReLu)程序、执行池化或子采样程序和/或执行分类(例如,全连接层)程序。
基于由CNN进行的分类的准确性,可以调整一个或多个CNN参数。可以重复生成第二模拟数据集、生成CNN训练数据集、对多肽-MHC-I相互作用进行分类以及调整一个或多个CNN参数的进程,直到满足第二停止标准。例如,可以通过评估均方误差(MSE)函数来确定是否满足第二停止标准。
然后,在步骤130,可以将正真实数据和/或负真实数据呈现给CNN以生成预测得分。正真实数据和/或负真实数据可以包括生物学数据,此类蛋白质相互作用数据包括例如结合亲和力数据。正真实数据可以包括正真实多肽-MHC-I相互作用数据。负真实数据可以包括负真实多肽-MHC-I相互作用数据。预测得分可以是结合亲和力得分。预测得分可以包括正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。这可以包括将真实数据集呈现给CNN,以及由CNN根据CNN参数将针对MHC等位基因的多肽-MHC-I相互作用分类为正的或负的。
在步骤140,可以根据预测得分来确定GAN是否为经训练的。这可以包括通过根据预测得分确定CNN的准确性来确定GAN是否为经训练的。例如,如果满足第三停止标准,则可以将GAN确定为经训练的。确定是否满足第三停止标准可以包括确定是否满足曲线下面积(AUC)函数。确定GAN是否为经训练的可以包括将一个或多个预测得分与阈值进行比较。如果在步骤140中GAN被确定为经训练的,则GAN可以任选地在步骤150中输出。如果GAN未被确定为经训练的,则GAN可以返回步骤110。
在训练CNN和GAN之后,可以将数据集(例如,未分类的数据集)呈现给CNN。数据集可以包括未分类的生物学数据,诸如未分类的蛋白质相互作用数据。生物学数据可以包括多个候选多肽-MHC-I相互作用。CNN可以生成预测结合亲和力和/或将每个候选多肽-MHC-I相互作用分类为正的或负的。然后可以使用被分类为正的候选多肽-MHC-I相互作用的那些相互作用来合成多肽。例如,多肽可以包含肿瘤特异性抗原。又如,多肽可以包含特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。
使用生成对抗网络(GAN)的预测进程200的更详细的示例性流程图如图2–图4所示。202-214通常对应于图1所示的110。进程200可以从202开始,其中GAN训练例如通过设定多个参数204-214来设置,以控制GAN训练216。可以设定的参数的实例可以包括等位基因类型204、等位基因长度206、生成类别208、模型复杂性210、学习率212和批大小214。等位基因类型参数204可以提供将一种或多种等位基因类型指定为包括在GAN处理中的能力。这些等位基因类型的实例如图12所示。例如,指定的等位基因可以包括图12所示的A0201、A0202、A0203、B2703、B2705等。等位基因长度参数206可以提供指定可以结合至每个指定的等位基因类型204的肽的长度的能力。这些长度的实例如图13所示。例如,对于A0201,指定长度显示为9或10,对于A0202,指定长度显示为9,对于A0203,指定长度显示为9或10,对于B2705,指定长度显示为9,等等。生成类别参数208可以提供在GAN训练216期间指定要生成的数据的类别的能力。例如,可以指定结合/非结合类别。对应于模型复杂性210的参数的集合可以提供在GAN训练216期间指定要使用的模型的复杂性的方面的能力。这些方面的实例可以包括层数、每层节点数、每个卷积层的窗口大小等。学习率参数212可以提供指定一个或多个比率的能力,在所述比率下在GAN训练216中执行的学习处理是收敛。这些学习率参数的实例可以包括0.0015、0.015、0.01,它们是指定相对学习率的无单位值。批大小参数214可以提供在GAN训练216期间指定要处理的训练数据218的批大小的能力。这些批大小的实例可以包括具有64或128个数据样品的批次。GAN训练设置处理202可以收集训练参数204-214,将它们处理为与GAN训练216兼容,以及将处理的参数输入GAN训练216或者将处理的参数存储在适当的文件或位置以供GAN训练216使用。
在216,可以开始GAN训练。216-228通常还对应于图1中所示的110。GAN训练216可以例如以批大小参数214指定的批次摄取训练数据218。训练数据218可以包括代表针对由不同等位基因类型(诸如HLA等位基因类型等)编码的MHC-I蛋白复合物具有不同结合亲和力名称(结合或不结合)的肽的数据。例如,这些训练数据可以包括涉及正/负MHC-肽相互作用框并和选择的信息。训练数据可以包括正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和/或负真实多肽-MHC-I相互作用数据中的一者或多者。
在220,可以将梯度下降进程应用于摄取的训练数据218。梯度下降是执行机器学习(诸如查找函数的最小值或局部最小值)的迭代进程。例如,为了使用梯度下降查找函数的最小值或局部最小值,以与在当前点的函数梯度(或近似梯度)的负值成比例的步长更新变量值。对于机器学习,可以使用梯度下降来搜索参数空间。不同的梯度下降策略可以在参数空间中找到不同的“目标”,从而将预测误差限制在可接受的程度内。在多个实施方案中,梯度下降进程可以使学习率适应输入参数,例如,对不频繁的参数执行较大的更新,和对频繁的参数执行较小的更新。这些实施方案可以适合于处理稀疏数据。例如,称为RMSprop的梯度下降策略可以为肽结合数据集提供改善的性能。
在221,可以将损失度量应用于测量处理的损失或“成本”。这些损失量度的实例可以包括均方误差或交叉熵。
在222,可以确定是否已经触发针对梯度下降的退出标准。由于梯度下降是一个迭代进程,因此可以指定标准以确定迭代进程应何时停止,以指示生成器228能够生成由判别器226分类为正的和/或真实的正模拟多肽-MHC-I相互作用数据。在222,如果确定未触发针对梯度下降的退出标准,则进程可以返回220,并且梯度下降进程继续进行。在222,如果确定已经触发针对梯度下降的退出标准,则所述进程可以继续进行到224,其中可以训练判别器226和生成器228,例如如参考图5A所描述。在224,可以存储用于判别器226和生成器228的经训练的模型。这些存储的模型可以包括定义构成判别器226和生成器228的模型的结构和系数的数据。所存储的模型提供使用生成器228来生成人造数据以及使用判别器226来鉴定数据的能力,并且在经过适当的训练后,提供来自判别器226和生成器228的准确和有用的结果。
然后,所述进程可以继续进行到230-238,它通常对应于图1中所示的120。在230-238,所生成的数据样品(例如,正模拟多肽-MHC-I相互作用数据)可以使用经训练的生成器228来生成。例如,在230,GAN生成进程可以例如通过设定多个参数232、234以控制GAN生成236来设置。可以设定的参数的实例可以包括生成大小232和采样大小234。生成大小参数232可以提供指定要生成的数据集的大小的能力。例如,可以将所生成的(正模拟多肽-MHC-I相互作用数据)数据集大小设定为真实数据(正真实多肽-MHC-I相互作用数据和/或负真实多肽-MHC-I相互作用数据)大小的2.5倍。在该实例中,如果批次中的原始真实数据为64,则批次中相应的生成的模拟数据为160。采样大小参数234可以提供指定要用于生成数据集的采样大小的能力。例如,该参数可以指定为生成器的最后一层中的20个氨基酸选择的截断百分比。作为一个实例,第90个百分位数的规范意指所有小于第90个百分位数的点都将被设定为0,其余的点可以使用归一化函数(诸如归一化指数(softmax)函数)进行归一化。在236,经训练的生成器228可以用于生成可用于训练CNN模型的数据集236。
在240,可以混合由经训练的生成器228生成的模拟数据样品238和来自原始数据集的真实数据样品,以形成新的训练数据集240,如通常对应于图1中所示的120。训练数据240可以包括正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和/或负真实多肽-MHC-I相互作用数据中的一者或多者。在242-262,卷积神经网络(CNN)分类器模型262可以使用混合训练数据240来训练。在242,CNN训练可以例如通过设定多个参数244-252,以控制CNN训练254来设置。可以设定的参数的实例可以包括等位基因类型244、等位基因长度246、模型复杂性248、学习率250和批大小252。等位基因类型参数244可以提供将一种或多种等位基因类型指定为包括在CNN处理中的能力。这些等位基因类型的实例如图12所示。例如,指定的等位基因可以包括图12所示的A0201、A0202、B2703、B2705等。等位基因长度参数246可以提供指定可以结合至每个指定的等位基因类型244的肽的长度的能力。这些长度的实例如图13A所示。例如,对于A0201,指定长度显示为9或10,对于A0202,指定长度显示为9,对于B2705,指定长度显示为9,等等。对应于模型复杂性248的参数的集合可以提供在CNN训练254期间指定要使用的模型的复杂性的方面的能力。这些方面的实例可以包括层数、每层节点数、每个卷积层的窗口大小等。学习率参数250可以提供指定一个或多个比率的能力,在所述比率下在CNN训练254中执行的学习处理是收敛。这些学习率参数的实例可以包括0.001,它是指定相对学习率的无单位参数。批大小参数252可以提供在CNN训练254期间指定要处理的训练数据240的批大小的能力。例如,如果将训练数据集分为100等份,则批大小可以是训练数据大小(train_data_size)/100的整数形式。CNN训练设置处理242可以收集训练参数244-252,将它们处理为与CNN训练254兼容,以及将处理的参数输入CNN训练254或者将处理的参数存储在适当的文件或位置以供CNN训练254使用。
在254,可以开始CNN训练。CNN训练254可以例如以批大小参数252指定的批次摄取训练数据240。在256,可以将梯度下降进程应用于摄取的训练数据240。如上文所述,梯度下降是执行机器学习(诸如查找函数的最小值或局部最小值)的迭代进程。例如,称为RMSprop的梯度下降策略可以为肽结合数据集提供改善的性能。
在257,可以将损失度量应用于测量处理的损失或“成本”。这些损失量度的实例可以包括均方误差或交叉熵。
在258,可以确定是否已经触发针对梯度下降的退出标准。由于梯度下降是一个迭代进程,因此可以指定标准以确定迭代进程应何时停止。在258,如果确定未触发针对梯度下降的退出标准,则进程可以返回256,并且梯度下降进程继续进行。在258,如果确定已经触发针对梯度下降的退出标准(这表明gCNN能够将阳性(真实或模拟)多肽-MHC-I相互作用数据分类为正的和/或将负真实多肽-MHC-如果相互作用数据分类为负的),则所述进程可以继续进行到260,其中可以将CNN分类器模型262存储为CNN分类器模型262。这些存储的模型可以包括定义构成CNN分类器模型262的结构和系数的数据。所存储的模型提供使用CNN分类器模型262来对输入数据样品的肽结合进行分类的能力,并且在经过适当的训练后,提供来自CNN分类器模型262的准确和有用的结果。在264,CNN训练结束。
在266-280,经训练的卷积神经网络(CNN)分类器模型262可以被用于根据测试数据来提供和评估预测(测试数据可以包括正真实多肽-MHC-I相互作用数据和/或负真实多肽-MHC-I相互作用数据中的一者或多者),以测量总体GAN模型的性能,如通常对应于图1中所示的130。在270,GAN退出标准可以例如通过设定多个参数272-276,以控制评估进程266来设置。可以设定的参数的实例可以包括预测参数272、预测置信度参数274和损失参数276的准确性。预测参数272的准确性可以提供指定将由评估266提供的预测的准确性的能力。例如,用于预测真实正类别的准确度阈值可以大于或等于0.9。预测置信度参数274可以提供指定将由评估266提供的预测的置信度水平(例如,softmax归一化)的能力。例如,可以将预测伪或人造类别的置信度阈值设置为诸如大于或等于0.4的值,以及对于真实负类别,大于或等于0.6的值。GAN退出标准设置处理270可以收集训练参数272-276,将它们处理为与GAN预测评估266兼容,以及将处理的参数输入GAN预测评估266或者将处理的参数存储在适当的文件或位置以供GAN预测评估266使用。在266,可以开始GAN预测评估。GAN预测评估266可以摄取测试数据268。
在267,可以执行接收器工作特性(ROC)曲线下面积(AUC)的测量。AUC是分类性能的归一化度量。AUC测量给定的两个随机点的可能性(一个来自正种类,一个来自负种类),分类器将来自正种类的点的排列在来自负种类的点之前。实际上,它测量排序的性能。AUC认为,全部混合在一起的预测种类越多(在分类器输出空间中),分类器越差。ROC使用移动边界来扫描分类器输出空间。在扫描的每个点都会记录假阳性率(FPR)和真阳性率(TPR)(作为归一化度量)。两个值之间的差值越大,混合的点越少,值的分类越好。在获取所有FPR和TPR对后,可以对它们进行分选并且可以绘制ROC曲线。AUC是曲线下面积。
在278,可以确定是否已经触发针对梯度下降的退出标准,通常对应于图1中的140。由于梯度下降是一个迭代进程,因此可以指定标准以确定迭代进程应何时停止。在278,如果确定未触发针对评估进程266的退出标准,则所述进程可以返回220,并且GAN的训练进程220-264和评估进程266继续进行。因此,当不触发退出标准时,所述进程将返回GAN训练(通常对应于返回图1的110)以尝试生成更好的生成器。在278,如果确定已经触发针对评估进程266的退出标准(这表明CNN将正真实多肽-MHC-I相互作用数据分类为正的和/或将负真实多肽-MHC-I相互作用数据分类为负的),则所述进程可以继续进行到280,其中预测评估处理和进程200结束,通常对应于图1的150。
生成器228的内部处理结构的实施方案的实例如图6–图7所示。在该实例中,每个处理块可以执行所指示的处理类型,并且可以以所示顺序执行。注意这仅仅是实例。在多个实施方案中,可以对执行的处理类型以及执行处理的顺序进行修改。
转到图6至图7,它们描述了针对生成器228的实例处理流程。处理流程仅仅是实例,并且不意味着限制。生成器228中包括的处理可以以密集处理602方式开始,其中输入数据输入到前馈神经层中,以估算输入数据的密度的空间变化。在604,可以执行分批归一化处理。例如,归一化处理可以包括将不同尺度的测量值调整为通用尺度,将数据值的整个概率分布调整为对齐。这种归一化可以提供收敛速度的改善,因为原始(深层)神经网络在开始时对各层的变化是灵敏的,并且方向参数优化为可以因尝试在开始时降低异常值的误差而转移。分批归一化使这些转移规则化,因此速度更快。在606,可以执行活化处理。例如,活化处理可以包括tanh、S形函数、ReLU(整流线性单位)或阶跃函数等。例如,如果输入小于0,则ReLU的输出为0,否则为原始输入。与其他活化函数相比,它更简单(计算强度更小),因此可以提供加速训练。在608,可以执行输入重构处理。例如,这种处理可以帮助将输入的形状(尺寸)转换为可以在下一步中被接受为合法输入的目标形状。在610,可以执行高斯滤除处理。滤除是一种正则化技术,用于根据特定训练数据来减少神经网络的过拟合。滤除可以通过删除可以导致或恶化过拟合的神经网络节点来执行。高斯滤除处理可以使用高斯分布来确定要删除的节点。这种处理可以以滤除的形式提供噪声,但是可以根据高斯分布将输入的平均值和方差保持为它们的原始值,以便即使在滤除后也能确保自归一化性质。
在612,可以执行高斯噪声处理。高斯噪声是统计学噪声,它的概率密度函数(PDF)等于正态分布或高斯分布的概率密度函数。高斯噪声处理可以包括将噪声添加至数据,以防止模型学习数据中的小(通常是微小的)变化,从而提高了对模型过拟合的稳健性。该进程可以改善预测准确性。在614,可以执行二维(2D)卷积处理。2D卷积是1D卷积的扩展,通过在二维空间域中同时对水平和垂直方向进行卷积而完成,并且可以提供数据的平滑处理。这种处理可以使用多个移动过滤器来扫描所有部分输入。每个过滤器可以看作是参数共有神经层,它对特征图上的所有位置的某个特征(匹配过滤器参数值)的出现进行计数。在616,可以执行第二分批归一化处理。在618,可以执行第二活化处理,在620,可以执行第二高斯滤除处理,并且在622,可以执行2D上采样处理。上采样处理可以将输入从原始形状转换为所期望的(大多数是较大的)形状。例如,可以使用重采样或内插来进行。例如,可以将输入重新缩放到所期望的大小,并且可以使用内插(诸如双线性内插)来计算每个点的值。在624,可以执行第二高斯噪声处理,并且在626,可以执行二维(2D)卷积处理。
继续图7,在628,可以执行第三分批归一化处理,在630,可以执行第三活化处理,在632,可以执行第三高斯滤除处理,并且在634,可以执行第三高斯噪声处理。在636,可以执行第二二维(2D)卷积处理,在638,可以执行第四分批归一化处理。可以在638后和在640前执行活化处理。在640,可以执行第四高斯滤除处理。
在642,可以执行第四高斯噪声处理,在644,可以执行第三二维(2D)卷积处理,并且在646,可以执行第五分批归一化处理。在648,可以执行第五高斯滤除处理,在650,可以执行第五高斯噪声处理,并且在652,可以执行第四活化处理。该活化处理可以使用S形活化函数,所述S形活化函数将输入从[-无穷,无穷]映射到[0,1]的输出。典型的数据识别系统可以在最后一层使用活化功能。然而,因为本技术的分类性质,所以S形函数可以提供改善的MHC结合预测。S形函数比ReLU更强大,并且可以提供合适的概率输出。例如,在本分类问题中,输出作为概率可以是所期望的。然而,由于S形函数可以比ReLU或tanh慢得多,因此出于性能原因,将S形函数用于此前的活化层可以是不期望的。然而,因为最后一个密集层与最终输出更直接相关,所以与ReLU相比,在该活化层使用S形函数可以显著改善收敛性。
在654,可以执行第二输入重构处理以将输出成型为数据维度(稍后应能够被馈送到判别器)。
判别器226的处理流程的实施方案的实例如图8–图9所示。处理流程仅仅是实例,并且不意味着限制。在该实例中,每个处理块可以执行所指示的处理类型,并且可以以所示顺序执行。注意这仅仅是实例。在多个实施方案中,可以对执行的处理类型以及执行处理的顺序进行修改。
转到图8,包括在判别器226中的处理可以以一维(1D)卷积处理802开始,所述一维卷积处理可获取输入信号,在输入上施加1D卷积过滤器,并且生成输出。在804,可以执行分批归一化处理,并且在806,可以执行活化处理。例如,泄漏整流线性单位(RELU)处理可以用于执行活化处理。RELU是针对神经网络中的节点或神经元的一种活化函数类型。当节点不活动(输入小于0)时,泄漏RELU可以允许较小的非零梯度。ReLU具有一个称为“死亡”的问题,其中当活化函数的输入具有较大的负偏差时,它会一直输出0。当这种情况发生时,模型停止学习。泄漏ReLU通过在不活动时提供均匀非零梯度来解决此问题。例如,对于x<0,f(x)=α*x,对于x>=0,f(x)=x。在808,可以执行输入重构处理,并且在810,可以执行2D上采样处理。
任选地,在812,可以执行高斯噪声处理,在814,可以执行二维(2D)卷积处理,在816,可以执行第二分批归一化处理,在818,可以执行第二活化处理,在820,可以执行第二2D上采样处理,在822,可以执行第二2D卷积处理,在824,可以执行第三分批归一化处理,并且在826,可以执行第三活化处理。
继续图9,在828,可以执行第三2D卷积处理,在830,可以执行第四分批归一化处理,在832,可以执行第四活化处理,在834,可以执行第四2D卷积处理,在836,可以执行第五分批归一化处理,在838,可以执行第五活化处理,并且在840,可以执行数据扁平化处理。例如,数据扁平化处理可以包括组合来自不同表格或数据集的数据以形成单个或数量减少的表格或数据集。在842,可以执行密集处理。在844,可以执行第六活化处理,在846,可以执行第二密集处理,在848,可以执行第六分批归一化处理,并且在850,可以执行第七活化处理。
可以使用S型函数来代替泄漏ReLU作为针对最后2个密集层的活化函数。S形比泄漏ReLU更强大,并且可以提供合理的概率输出(例如,在分类问题中,输出作为概率是所期望的)。然而,S形函数比漏泄ReLU更慢,并非所有层都需要使用S形。然而,因为最后两个密集层与最终输出更直接相关,所以与泄漏ReLU相比,S形显著改善了收敛性。在多个实施方案中,两个密集层(或完全连接的神经网络层)842和846可以用于获得足够的复杂性以变换它们的输入。具体而言,一个致密层的复杂性可能不足以将卷积结果转换为判别器输出空间,虽然它可能足以在生成器228中使用。
在一个实施方案中,公开了用于使用神经网络(例如,CNN)以便根据此前的训练进程对输入进行分类的方法。神经网络可以生成预测得分,并且因此可以根据此前针对包括预测得分的一组成功和不成功的生物学数据训练的神经网络,将输入生物学数据分类为成功或不成功。预测得分可以是结合亲和力得分。神经网络可以用于生成预测结合亲和力得分。结合亲和力得分可以用数值表示单个生物分子(例如,蛋白质、DNA、药物等)结合至另一个生物分子(例如,蛋白质、DNA、药物等)的可能性。预测结合亲和力得分可以用数值表示一种肽(例如,MHC)结合至另一种肽的可能性。然而,迄今,由于至少在针对少量数据训练神经网络时,不能稳健地进行预测,因此不能施加机器学习技术。
所描述的方法和系统通过使用特征组合来更稳健地进行预测来解决此问题。第一特征是使用生物学数据的扩展训练集来训练神经网络。通过训练GAN来生成模拟生物学数据,从而开发该扩展训练集。然后使用该扩展训练集来训练神经网络(例如,使用具有反向传播的随机学习,所述随机学习是一种机器学习算法类型,使用数学损失函数的梯度来调整网络的权重)。不幸的是,在对生物学数据进行分类时,扩展训练集的引入可以增加假阳性。因此,所描述的方法和系统的第二特征是通过根据需要执行迭代训练算法来使这些假阳性最小化,其中GAN进一步参与生成含有更高质量的模拟数据的更新的模拟训练集,并且使用更新的训练集来重新训练神经网络。该特征组合提供了稳健预测模型,所述预测模型可以预测某些生物学数据的成功(例如,结合亲和力得分),同时限制假阳性的数量。
数据集可以包括未分类的生物学数据,诸如未分类的蛋白质相互作用数据。未分类的生物学数据可以包括关于蛋白质的数据,所述蛋白质与另一种蛋白质相关联的结合亲和力得分不可获取。生物学数据可以包括多个候选蛋白质-蛋白质相互作用,例如候选蛋白质-MHC-I相互作用数据。CNN可以生成表示结合亲和力的预测得分和/或将每个候选多肽-MHC-I相互作用分类为正的或负的。
在一个实施方案中,如图10所示,训练神经网络用于结合亲和力预测的计算机实施的方法1000可以包括在1010从数据库收集一组正生物学数据和负生物学数据。生物学数据可以包括蛋白质-蛋白质相互作用数据。蛋白质-蛋白质相互作用数据可以包括第一蛋白质的序列、第二蛋白质的序列、第一蛋白质的标识符、第二蛋白质的标识符和/或结合亲和力得分等等中的一者或多者。在一个实施方案中,结合亲和力得分可以为1,它表示结合成功(例如,正生物学数据),或为-1,它表示结合不成功(例如,负生物学数据)。
计算机实施的方法1000可以包括在1020将生成对抗网络(GAN)应用于正生物学数据集,以生成模拟正生物学数据集。将GAN应用于正生物学数据集以生成模拟正生物学数据集可以包括:由GAN生成器生成越来越准确的正模拟生物学数据,直到GAN判别器将正模拟生物学数据分类为正的。
计算机实施的方法1000可以包括在1030生成第一训练集,所述第一训练集包括所收集的正生物学数据集、模拟正生物学数据集和负生物学数据集。
计算机实施的方法1000可以包括在1040使用第一训练集在第一阶段训练神经网络。使用第一训练集在第一阶段训练神经网络可以包括将正模拟生物学数据、正生物学数据和负生物学数据呈现给卷积神经网络(CNN),直到CNN被配置为将生物学数据分类为正的或负的。
计算机实施的方法1000可以包括在1050通过重新应用GAN以生成另外的模拟正生物学数据来生成针对第二训练阶段的第二训练集。可以根据将正生物学数据和负生物学数据呈现给CNN来生成第二训练集,从而生成预测得分以及确定预测得分是不准确的。预测得分可以是结合亲和力得分。不准确的预测得分表示CNN未经完全训练,这可以追溯到GAN未经完全训练。因此,可以执行GAN生成器的一次或多次迭代,以生成越来越准确的正模拟生物学数据,直到GAN判别器将正模拟生物学数据分类为正的,以生成另外的模拟正生物学数据。第二训练集可以包括正生物学数据、模拟正生物学数据和负生物学数据。
计算机实施的方法1000可以包括在1060使用第二训练集在第二阶段训练神经网络。使用第二训练集在第二阶段训练神经网络可以包括将正生物学数据、模拟正生物学数据和负生物学数据呈现给CNN,直到CNN被配置为将生物学数据分类为正的或负的。
一旦CNN经过完全训练,即可将新的生物学数据呈现给CNN。新的生物学数据可以包括蛋白质-蛋白质相互作用数据。蛋白质-蛋白质相互作用数据可以包括第一蛋白质的序列、第二蛋白质的序列、第一蛋白质的标识符和/或第二蛋白质的标识符等等中的一者或多者。CNN可以分析新的生物学数据,并且生成表示预测成功或不成功结合的预测得分(例如,预测结合亲和力)。
在一个示例性方面,所述方法和系统可以在如图11所示和下面所述的计算机1101上实施。类似地,所公开的方法和系统可以利用一个或多个计算机在一个或多个位置执行一种或多种功能。图11是示出用于执行所公开的方法的示例性操作环境的方框图。该示例性操作环境仅为操作环境的实例,并非旨在对操作环境结构的使用范围或功能提出任何限制。也不应将操作环境解释为对示例性操作环境中示出的任一部件或其组合有任何依赖性或要求。
本方法和系统可以用许多其他通用或专用计算系统环境或配置操作。可适于与所述系统和方法一起使用的众所周知的计算系统、环境和/或配置的实例包括但不限于个人计算机、服务器计算机、膝上型计算机设备和多处理器系统。另外的实例包括机顶盒、可编程消费性电子产品、网络PC、小型计算机、大型计算机、包括上述任何系统或设备的分布式计算环境等。
所公开的方法和系统的处理可以由软件部件执行。所公开的系统和方法可以在由一个或多个计算机或其他设备执行的计算机可执行指令(例如程序模块)的一般背景下进行描述。通常,程序模块包括执行特定任务或实现特定抽象数据类型的计算机代码、例程、程序、对象、部件、数据结构等。还可以在基于网格的分布式计算环境中实践所公开的方法,其中任务由通过通信网络连接的远程处理设备执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机存储介质中。
此外,本领域技术人员将理解,本文公开的系统和方法可以通过呈计算机1101形式的通用计算设备来实现。计算机1101的部件可以包括但不限于一个或多个处理器1103、系统存储器1112以及将包括所述一个或多个处理器1103的各个系统部件耦合到系统存储器1112的系统总线1113。该系统可以利用并行计算。
系统总线1113代表几种可能类型的总线结构中的一种或多种,包括使用各种总线结构中的任一种的存储器总线或存储器控制器、外围总线、加速图形端口或本地总线。举例来说,这种架构可以包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、加速图形端口(AGP)总线以及外围组件互连(PCI)、PCI-Express总线、个人计算机存储卡行业协会(PCMCIA)、通用串行总线(USB)等等。总线1113和本说明书中指定的所有总线也可以通过有线或无线网络连接来实施,并且每个子系统,包括一个或多个处理器1103、大容量存储设备1104、操作系统1105、分类软件1106(例如,GAN、CNN)、分类数据1107(例如,“真实”或“模拟”数据,包括正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和/或负真实多肽-MHC-I相互作用数据)、网络适配器1108、系统存储器1112、输入/输出接口1110、显示适配器1109、显示设备1111和人机接口1102,可以包含在物理上分开的位置处的一个或多个远程计算设备1114a、b、c内,所述远程计算设备通过这种形式的总线连接,实际上实现了完全分布式系统。
计算机1101通常包括各种计算机可读介质。示例性可读介质可以是计算机1101可存取的任何可用介质,并且包括,例如并且不意味着限制,易失性和非易失性介质、可移动和不可移动介质。系统存储器1112包括易失性存储器形式的计算机可读介质,例如随机存取存储器(RAM),和/或非易失性存储器形式的计算机可读介质,例如只读存储器(ROM)。系统存储器1112通常包含数据诸如分类数据1107和/或程序模块诸如操作系统1105和分类软件1106,其可由一个或多个处理器1103立即存取和/或当前由其操作。
在另一个方面,计算机1101还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。举例而言,图11示出了大容量存储设备1104,其可以为计算机1101提供计算机代码、计算机可读指令、数据结构、程序模块和其他数据的非易失性存储。例如并且不意味着限制,大容量存储设备1104可以是硬盘、可移动磁盘、可移动光盘、磁带盒或其他磁存储设备、闪存卡、CD-ROM、数字通用盘(DVD)或其他光存储器、随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)等等。
任选地,任何数量的程序模块均可存储在大容量存储设备1104上,包括例如操作系统1105和分类软件1106。操作系统1105和分类软件1106中的每一个(或其某种组合)均可包括编程元件和分类软件1106。分类数据1107也可以存储在大容量存储设备1104上。分类数据1107可以存储在本领域已知的任何一个或多个数据库中。此类数据库的实例包括 Access、SQL服务器、mySQL、PostgreSQL等。数据库可以集中或分布在多个系统中。
在另一个方面,用户可以经由输入设备(未示出)将命令和信息输入到计算机1101中。这种输入设备的实例包括但不限于键盘、指示设备(例如,“鼠标”)、麦克风、操纵杆、扫描仪、触觉输入设备诸如手套以及其他身体覆盖物等等。这些和其他输入设备可经由耦合到系统总线1113的人机接口1102连接到一个或多个处理器1103,但是可通过其他接口和总线结构连接,例如并行端口、游戏端口、IEEE 1394端口(也称为火线端口)、串行端口或通用串行总线(USB)。
在又一个方面,显示设备1111也可以经由接口诸如显示适配器1109连接到系统总线1113。可以设想,计算机1101可具有多于一个显示适配器1109,并且计算机1101可具有多于一个显示设备1111。例如,显示设备1111可以是监视器、LCD(液晶显示器)或投影仪。除显示设备1111之外,其他输出外围设备可包括诸如扬声器(未示出)和打印机(未示出)的部件,这些部件可经由输入/输出接口1110连接到计算机1101。所述方法的任何步骤和/或结果可以任何形式输出到输出设备。此类输出可以是任何形式的视觉再现,包括但不限于文本、图形、动画、音频、触觉等。显示器1111和计算机1101可以是一个设备的一部分或者是独立设备。
计算机1101可以使用与一个或多个远程计算设备1114a、b、c的逻辑连接在联网环境中操作。举例而言,远程计算设备可以是个人计算机、便携式计算机、智能电话、服务器、路由器、网络计算机、对等设备或其他公用网络节点等。计算机1101与远程计算设备1114a、b、c之间的逻辑连接可以经由网络1115进行,例如局域网(LAN)和/或通用广域网(WAN)。此类网络连接可以通过网络适配器1108进行。网络适配器1108可以在有线和无线环境中实施。此类联网环境在住宅、办公室、企业范围的计算机网络、内联网和互联网中是常规并且常见的。
出于说明的目的,本文以离散方框形式说明了应用程序和其他可执行程序组件例如操作系统1105,但是应认识到,此类程序和组件在不同时间驻留在计算设备1101的不同存储部件中,并且由计算机的一个或多个处理器1103执行。分类软件1106的实现可以存储在某种形式的计算机可读介质上或通过某种形式的计算机可读介质传输。所公开的任何方法均可由计算机可读介质上包含的计算机可读指令来执行。计算机可读介质可以是可由计算机存取的任何可用介质。举例而言并且不意味着限制,计算机可读介质可包括“计算机存储介质”和“通信介质”。“计算机存储介质”包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。示例性计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备,或可用于存储所需信息并且可由计算机存取的任何其他介质。
所述方法和系统可以采用人工智能技术,例如机器学习和迭代学习。此类技术的实例包括但不限于专家系统、案例推理、贝叶斯网络(Bayesian networks)、基于行为的人工智能、神经网络、模糊系统、进化计算(例如遗传算法)、群体智能(例如蚂蚁算法)和混合智能系统(例如通过神经网络生成的专家推理规则或来自统计学习的产生式规则)。
提出以下实例以向本领域普通技术人员提供对于如何制备和评价本文要求保护的化合物、组合物、制品、设备和/或方法的完整公开和描述,并且旨在纯粹为示例性的而非旨在限制所述方法和系统的范围。已尽力确保数值(例如量、温度等)的准确性,但对一些误差和偏差应予以说明。除非另外指明,否则份数为重量份,温度以℃表示或处于环境温度下,并且压力等于或接近大气压。
B.HLA等位基因
可以针对无限数量的HLA等位基因训练所公开的系统。肽与由HLA等位基因编码的MHC-I蛋白复合物结合的数据是本领域已知的,并且可从数据库获得,所述数据库包括但不限于IEDB、AntiJen、MHCBN、SYFPEITHI等等。
在一个实施方案中,所公开的系统和方法改善了肽与由HLA等位基因编码的MHC-I蛋白复合物结合的可预测性:A0201、A0202、B0702、B2703、B2705、B5701、A0203、A0206、A6802以及它们的组合。举例来说,1028790是A0201、A0202、A0203、A0206、A6802的测试集。
可以相对于现有神经系统而改善可预测性,所述神经系统包括但不限于NetMHCpan、MHCflurry、sNeubula和PSSM。
III.治疗剂
所公开的系统和方法可用于鉴定结合至T细胞和靶细胞的MHC-I的肽。在一个实施方案中,所述肽是肿瘤特异性肽、病毒肽或在靶细胞的MHC-I上展示的肽。靶细胞可以是肿瘤细胞、癌细胞或病毒感染的细胞。肽通常展示在抗原呈递细胞上,然后抗原呈递细胞将肽抗原呈递给CD8+细胞,例如细胞毒性T细胞。肽抗原与T细胞的结合活化或刺激T细胞。因此,一个实施方案提供了一种疫苗,例如含有一种或多种用本公开的系统和方法鉴定的肽的癌症疫苗。
另一个实施方案提供了结合至肽、肽抗原-MHC-I复合物或它们二者的抗体或它们的抗原结合片段。
虽然已经描述了本发明的特定实施方案,但是本领域的技术人员将理解,存在等同于所描述的实施方案的其他实施方案。因此,应当理解,本发明不限于所展示的具体实施方案,而是仅限于所附权利要求的范围。
实施例
实施例1:现有预测模型的评估
评估了预测模型NetMHCpan、sNebula、MHCflurry、CNN、PSSM。ROC曲线下面积被用于性能测量。值为1表示性能良好,值为0表示性能较差,而值为0.5相当于随机推测。表1示出了模型和所用的数据。
表1:用于预测肽与指定等位基因编码的MHC-I蛋白复合物结合的各种模型
NetMHCpan | 配对学习神经网络 |
sNebula | 配对相似性核心SVM |
MHCflurry | 神经网络的整体 |
CNN | 卷积神经网络 |
PSSM | 位置权重矩阵 |
图12示出了评估数据,所述评估数据表明如本文所述训练的CNN在大多数测试情况下性能优于其他模型,包括目前技术水平NetMHCpan。图12示出了AUC热图,所述AUC热图指示了将最新技术模型和目前描述的方法(“CNN_ours”)应用于相同的15个测试数据集的结果。在图12中,从左下角到右上角的对角线通常表示较高的值,线越细,值越高,线越粗,值越低。从右下角到左上角的对角线通常表示较低的值,线越细,值越低,线越粗,值越高。
实施例2:CNN模型的问题
CNN训练含有很多随机进程(例如,小型分批数据提供,滤除、噪声等产生的梯度所涉及的随机进程),所以训练进程的再现性可能会出现问题。例如,图12显示,当针对完全相同的数据实施完全相同的算法时,Vang(“基林”)AUC不能得到完美再现。Vang等人,HLAclass I binding prediction via convolutional neural networks,Bioinformatics,9月1日;33(17):2658-2665(2017)。
一般而言,CNN由于其参数共有性质不像其他深度学习框架(如深度神经网络)那样复杂,然而,它仍然是一个复杂的算法。
标准CNN通过固定大小的窗口从数据中提取特征,但是肽上的结合信息可能无法以相等的长度进行编码。在本公开中,如生物学研究所指出,一种类型的结合机制在肽链上的7个氨基酸的尺度上发生,可以使用的窗口大小为7,并且虽然窗口大小表现良好,但是可能不足以解释所有HLA结合问题中的其他类型结合因子。
图13A-图13C示出了各种模型之间的差异。图13A示出了来自IEDB每周发布的HLA结合数据的15个测试数据集。我们将test_id标记为全部15个测试数据集的唯一ID。IEDB是IEDB数据发布ID,在一个IEDB发布中可以具有多个涉及不同的HLA类别的不同的子数据集。HLA是结合至肽的HLA的类型。长度是结合至HLA的肽的长度。测试大小是我们在该测试集中具有的记录数。训练大小是我们在该训练集中具有的记录数。Bind_prop是训练数据集中的结合与结合和非结合之和的比例,我们将它列于此处以测量训练数据的偏度。Bind_size是训练数据集中的结合数,我们用它来计算bind_prop。
图13B-图13C示出了再现CNN实施的困难。就模型之间的差异而言,图13B-图13C的模型差异为0。图13B-图13C显示,Adam的实施与发布的结果不匹配。
实施例3:数据集的偏差
执行训练/测试集的划分。训练/测试集的划分是被设计为避免过拟合的测量,然而,所述测量是否有效可以取决于所选的数据。无论如何针对相同的MHC基因等位基因(A*02:01)进行测试,模型之间的性能差异都很显著。这显示了通过选择偏差测试集获得的AUC偏差,图14。列“CNN*1”中显示了使用所描述的方法针对偏差训练/测试集而获得的结果,该列显示的性能比图12所示的更差。在图14中,从左下角到右上角的对角线通常表示较高的值,线越细,值越高,线越粗,值越低。从右下角到左上角的对角线通常表示较低的值,线越细,值越低,线越粗,值越高。
实施例4:SRCC偏差
在所测试的5个模型中选择最佳的斯皮尔曼等级相关系数(SRCC),并且将它与归一化的数据大小进行比较。图15显示,测试大小越小,SRRC越好。SRCC测量预测等级和标签等级之间的无序性。测试大小越大,破坏等级顺序的概率越大。
实施例5:梯度下降比较
对Adam和RMSprop进行了比较。Adam是一种基于一阶梯度的随机目标函数优化的算法,它基于低阶矩的适应估算。RMSprop(针对均方根传播)也是一种使学习率针对每个参数进行适应的方法。
图16A–图16C显示,与Adam相比,RMSprop在大多数数据集上都获得了改进。Adam是基于动量的优化器,与RMSprop相比,它在一开始就积极改变参数。改进可以涉及:1)由于判别器引导了整个GAN训练进程,如果它跟随动量并且积极更新其参数,则生成器将以次优状态结束;2)肽数据与图像不同,可耐受的生成的错误更少。9~30个位置上的细微差异可以显著改变结合结果,而图片的整个像素可以改变,但是将保留在相同类别的图片中。Adam倾向于在参数区中进一步研究,但是这意味着该区中的每个位置都较轻;而RMSprop在每个点停留的时间更长,并且可以发现参数的细微变化,所述细微变化指向判别器的最终输出的显著改进,并且将该知识转移至生成器以生成更好的模拟肽。
实施例5:肽训练的格式
表2显示了实例MHC-I相互作用数据。显示了针对所示的HLA等位基因的具有不同结合亲和力的肽。肽被表示为结合(1)或不结合(-1)。结合类别从最大抑制浓度的一半(IC50)进行转换。预测的输出以IC50的单位nM给出。数字越小表示亲和力越高。IC50值<50nM的肽被认为是高亲和力的,<500nM是中等亲和力的,<5000nM是低亲和力的。大多数已知的表位具有高或中等亲和力。一些表位具有低亲和力。已知的T细胞表位具有的IC50值都不大于5000nM。
表2:针对所鉴定的HLA等位基因的肽显示出肽与由HLA等位基因编码的MHC-I蛋白复合物结合或不结合。
肽 | HLA | 结合类别 |
AAAAAAAALY(SEQ ID NO:1) | A829:02 | 1 |
AAAAALQAK(SEQ ID NO:2) | A*03:01 | 1 |
AAAAALWL(SEQ ID NO:3) | C*16:01 | 1 |
AAAAARAAL(SEQ ID NO:4) | B*14:02 | -1 |
AAAAEEEEE(SEQ ID NO:5) | A*02:01 | -1 |
AAAAFEAAL(SEQ ID NO:6) | B*48:01 | 1 |
AAAAPYAGW(SEQ ID NO:7) | B*58:01 | 1 |
AAAARAAAL(SEQ ID NO:8) | B*14:02 | 1 |
AAAATCALV(SEQ ID NO:9) | A*02:01 | 1 |
AAAATCALV(SEQ ID NO:9) | A*02:02 | 1 |
AAAATCALV(SEQ ID NO:9) | A*02:03 | 1 |
AAAATCALV(SEQ ID NO:9) | A*02:06 | 1 |
AAAATCALV(SEQ ID NO:9) | A*68:02 | 1 |
AAADAAAAL(SEQ ID NO:10) | C*03:04 | 1 |
AAADFAHAE(SEQ ID NO:11) | B*44:03 | -1 |
AAADPKVAF(SEQ ID NO:12) | C*16:01 | 1 |
实施例6:GAN比较
图17显示,模拟(例如,人造、伪)正数据、真实正数据和真实负数据的混合,与单独的正阳性和真实负数据或者模拟正数据和真实负数据相比,产生更好的预测。所描述方法的结果显示在列“CNN”和两个列“GAN-CNN”中。在图17中,从左下角到右上角的对角线通常表示较高的值,线越细,值越高,线越粗,值越低。从右下角到左上角的对角线通常表示较低的值,线越细,值越低,线越粗,值越高。GAN改善了针对所有测试集的A0201的性能。由于结合信息是在空间上编码的,因此信息提取器(例如,CNN+跳跃语法(skip-gram)嵌入)的使用非常适合肽数据。从公开的GAN生成的数据可以看作是“插补”的方式,它有助于使数据分布更平滑,使模型更容易学习。此外,GAN的损失函数使GAN可以生成明亮的样品,而不是蓝色普通样品,这与经典的方法(诸如变分自动编码器)不同。由于潜在的化学结合模式很多,平均到中点的不同模式将是次优的,因此,即使GAN可以过拟合并且面临模式崩溃问题,它也会更好地模拟模式。
所公开的方法部分由于不同的训练数据的使用,因此性能优于现有技术的系统。所公开的方法性能优于仅仅真实正和真实负数据的使用,因为生成器可以提高一些弱结合信号的频率,这会增大一些结合模式的频率,并且平衡训练数据集中不同结合模式的权重,使模型更容易学习。
所公开的方法性能优于仅仅伪正和真实负数据的使用,因为伪正类别具有模式崩溃问题,这意味着它不能代表整个群体的结合模式;类似于将真实正和真实负数据作为训练数据输入到模型中,但是它减少了训练样品的数量,导致模型具有的可用于学习的数据较少。
在图17中,使用以下列:test_id:一个测试集的唯一ID,用于区分测试集;IEDB:IEDB数据库上的数据集的ID;HLA:结合至肽的复合物的等位基因类型;长度:肽的氨基酸数量;Test_size:该测试数据集中存在多少个观测值;Train_size:该训练数据集中存在多少个观测值;Bind_prop:训练数据集中的结合的比例;Bind_size:训练数据集中的结合的数量。
除非另外明确说明,否则决不旨在将本文阐述的任何方法解释为需要以特定顺序执行其步骤。因此,在方法权利要求实际上没有列举其步骤所遵循的顺序,或者在权利要求或说明书中没有另外特别说明将步骤限于特定顺序的情况下,其决非旨在在任何方面都可以推断出顺序。这适用于任何可能的非明确的解释基础,包括:关于步骤安排或操作流程的逻辑问题;从语法组成或标点符号中得出的简单含义;说明书中描述的实施方案的数量或类型。
虽然在前述说明书中已经相对于本发明的某些实施方案描述了本发明,并且出于说明的目的已经提出了很多细节,但是对于本领域的技术人员显而易见的是,本发明容易受另外的实施方案的影响,并且在不脱离本发明的基本原理的情况下,本文所述的某些细节可以进行相当大的改变。
本文引用的所有参考文献以引用的方式整体并入。在不脱离本发明的精神或实质属性的情况下,本发明可以以其他特定形式来体现,因此,应当参考所附权利要求,而不是前述说明书,以指示本发明的范围。
示例性实施方案
实施方案1.一种用于训练生成对抗网络(GAN)的方法,所述方法包括:由GAN生成器生成越来越准确的正模拟多肽-MHC-I相互作用数据,直到GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的;将所述正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的;将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN以生成预测得分;根据所述预测得分确定所述GAN是经过训练的;以及输出所述GAN和所述CNN。
实施方案2.如实施方案1所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为真实包括:由所述GAN生成器根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;由判别器根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用是模拟正的、真实正的还是真实负的;由所述判别器根据所述确定的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及重复a-d,直到满足第一停止标准。
实施方案3.如实施方案2所述的方法,其中将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的包括:由所述GAN生成器根据所述一组GAN参数集生成第二模拟数据集,所述第二模拟数据集包括针对所述HLA等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集、针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给所述卷积神经网络(CNN);由所述CNN根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;由所述CNN根据所述分类的准确性调整所述一组CNN参数中的一者或多者;以及重复h-j直到满足第二停止标准。
实施方案4.如实施方案3所述的方法,其中将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN以生成预测得分包括:由所述CNN根据所述一组CNN参数集将针对所述MHC等位基因的多肽-MHC-I相互作用分类为阳性或负的。
实施方案5.如实施方案4所述的方法,其中根据所述预测得分确定所述GAN是经训练的包括:由所述CNN确定所述分类的准确性,其中当(如果)所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN。
实施方案6.如实施方案4所述的方法,其中根据所述预测得分确定所述GAN是经训练的包括:由所述CNN确定所述分类的准确性,其中当(如果)所述分类的所述准确性不满足第三停止标准时,返回步骤a。
实施方案7.如实施方案2所述的方法,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案8.如实施方案2所述的方法,其中所述MHC等位基因是HLA等位基因。
实施方案9.如实施方案8所述的方法,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案10.如实施方案8所述的方法,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案11.如实施方案8所述的方法,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案12.如实施方案1所述的方法,还包括:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用;由所述CNN将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案13.通过如实施方案12所述的方法产生的多肽。
实施方案14.如实施方案12所述的方法,其中所述多肽是肿瘤特异性抗原。
实施方案15.如实施方案12所述的方法,其中所述多肽包括特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案16.如实施方案1所述的方法,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案17.如实施方案16所述的方法,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案18.如实施方案1所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括评估针对所述GAN生成器的梯度下降表达。
实施方案19.如实施方案1所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括:迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负真实多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案20.如实施方案1所述的方法,其中将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将所述多肽-MHC-I相互作用数据分类为正的或负的包括:执行卷积程序;执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案21.如实施方案1所述的方法,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案22.如实施方案2所述的方法,其中所述第一停止标准包括评估均方误差(MSE)函数。
实施方案23.如实施方案3所述的方法,其中所述第二停止标准包括评估均方误差(MSE)函数。
实施方案24.如实施方案5或6所述的方法,其中所述第三停止标准包括评估曲线下的面积(AUC)函数。
实施方案25.如实施方案1所述的方法,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
实施方案26.如实施方案1所述的方法,其中根据所述预测得分确定所述GAN是经训练的包括将所述预测得分中的一者或多者与阈值进行比较。
实施方案27.一种用于训练生成对抗网络(GAN)的方法,所述方法包括:由GAN生成器生成越来越准确的正模拟多肽-MHC-I相互作用数据,直到GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,将所述正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的,将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN以生成预测得分,根据所述预测得分确定所述GAN是未经训练的;重复a-c直到根据所述预测得分确定所述GAN是经训练的;以及输出所述GAN和所述CNN。
实施方案28.如实施方案27所述的方法,其中由所述GAN生成器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括:由所述GAN生成器根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;由判别器根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的正多肽-MHC-I相互作用是模拟正的、真实正的还是真实负的;由所述判别器根据所述确定的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及重复g-j,直到满足第一停止标准。
实施方案29.如实施方案28所述的方法,其中将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的包括:由所述GAN生成器根据所述一组GAN参数集生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集、针对所述MHC等位基因的所述已知的正多肽-MHC-I相互作用和针对所述MHC等位基因的所述已知的负多肽-MHC-I相互作用组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给所述卷积神经网络(CNN);由所述CNN根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;由所述CNN根据所述分类的准确性调整所述一组CNN参数中的一者或多者;以及重复n-p直到满足第二停止标准。
实施方案30.如实施方案29所述的方法,其中将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成所述预测得分包括:由所述CNN根据所述一组CNN参数集将针对所述MHC等位基因的多肽-MHC-I相互作用分类为阳性或负的。
实施方案31.如实施方案30所述的方法,其中根据所述预测得分确定所述GAN是经训练的包括:由所述CNN确定所述分类的准确性,其中当(如果)所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN。
实施方案32.如实施方案31所述的方法,其中根据所述预测得分确定所述GAN是经训练的包括:由所述CNN确定所述分类的准确性,其中当(如果)所述分类的所述准确性不满足第三停止标准时,返回步骤a。
实施方案33.如实施方案28所述的方法,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案34.如实施方案33所述的方法,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案35.如实施方案33所述的方法,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案36.如实施方案35所述的方法,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案37.如实施方案27所述的方法,还包括:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用;由所述CNN将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案38.通过如实施方案37所述的方法产生的多肽。
实施方案39.如实施方案37所述的方法,其中所述多肽是肿瘤特异性抗原。
实施方案40.如实施方案37所述的方法,其中所述多肽包括特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案41.如实施方案27所述的方法,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案42.如实施方案41所述的方法,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案43.如实施方案27所述的方法,其中由所述GAN生成器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括评估针对所述GAN生成器的梯度下降表达。
实施方案44.如实施方案27所述的方法,其中由所述GAN生成器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括:迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用以低概率,以及给予所述负真实多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案45.如实施方案27所述的方法,其中将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的包括:执行卷积程序;执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案46.如实施方案27所述的方法,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案47.如实施方案28所述的方法,其中所述第一停止标准包括评估均方误差(MSE)函数。
实施方案48.如实施方案27所述的方法,其中所述第二停止标准包括评估均方误差(MSE)函数。
实施方案49.如实施方案31或32所述的方法,其中所述第三停止标准包括评估曲线下的面积(AUC)函数。
实施方案50.如实施方案27所述的方法,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
实施方案51.如实施方案27所述的方法,其中根据所述预测得分确定所述GAN是经训练的包括将所述预测得分中的一者或多者与阈值进行比较。
实施方案52.一种用于训练生成对抗网络(GAN)的方法,所述方法包括:由GAN生成器根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的正真实多肽-MHC-I相互作用和负真实多肽-MHC-I相互作用组合;由判别器根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的正多肽-MHC-I相互作用是正的还是负的;由所述判别器根据所述确定的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;重复a-d直到满足第一停止标准;由所述GAN生成器根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集与所述正真实多肽-MHC-I相互作用和所述负真实多肽-MHC-I相互作用组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给卷积神经网络(CNN);由所述CNN根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;根据由所述CNN对所述CNN训练数据集中的针对所述MHC等位基因的所述多肽-MHC-I相互作用进行的所述分类的准确性,调整所述一组CNN参数中的一者或多者;重复h-j直到满足第二停止标准;将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN;由所述CNN根据所述一组CNN参数将针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;以及确定由所述CNN进行的针对所述MHC等位基因的所述多肽-MHC-I相互作用的所述分类的准确性,其中当(如果)所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN,其中当(如果)所述分类的所述准确性不满足所述第三停止标准时,返回步骤a。
实施方案53.如实施方案52所述的方法,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案54.如实施方案52所述的方法,其中所述MHC等位基因是HLA等位基因。
实施方案55.如实施方案54所述的方法,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案56.如实施方案54所述的方法,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案57.如实施方案54所述的方法,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案58.如实施方案52所述的方法,还包括:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用;由所述CNN将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案59.通过如实施方案58所述的方法产生的多肽。
实施方案60.如实施方案58所述的方法,其中所述多肽是肿瘤特异性抗原。
实施方案61.如实施方案58所述的方法,其中所述多肽包括特异性结合至所选的人白细胞抗原(HLA)等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案62.如实施方案52所述的方法,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案63.如实施方案62所述的方法,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案64.如实施方案52所述的方法,其中重复a-d直到满足所述第一停止标准包括评估针对所述GAN生成器的梯度下降表达。
实施方案65.如实施方案52所述的方法,其中重复a-d直到满足所述第一停止标准包括:迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负真实多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案66.如实施方案52所述的方法,其中将所述CNN训练数据集呈现给所述CNN包括:执行卷积程序;执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案67.如实施方案52所述的方法,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案68.如实施方案52所述的方法,其中所述第一停止标准包括评估均方误差(MSE)函数。
实施方案69.如实施方案52所述的方法,其中所述第二停止标准包括评估均方误差(MSE)函数。
实施方案70.如实施方案52所述的方法,其中所述第三停止标准包括评估曲线下的面积(AUC)函数。
实施方案71.一种方法,所述方法包括:根据如实施方案1所述的方法训练卷积神经网络(CNN);将数据集呈现给所述,其中所述数据集包括多个候选多肽-MHC-I相互作用;由所述CNN将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及合成被分类为正多肽-MHC-I相互作用的候选多肽-MHC-I相互作用相关联的多肽。
实施方案72.如实施方案71所述的方法,其中所述CNN根据一个或多个GAN参数来训练,所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案73.如实施方案72所述的方法,其中所述等位基因类型是HLA等位基因类型。
实施方案74.如实施方案73所述的方法,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案75.如实施方案73所述的方法,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案76.如实施方案73所述的方法,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案77.通过如实施方案71所述的方法产生的多肽。
实施方案78.如实施方案71所述的方法,其中所述多肽是肿瘤特异性抗原。
实施方案79.如实施方案71所述的方法,其中所述多肽包括特异性结合至所选的人白细胞抗原(HLA)等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案80.如实施方案71所述的方法,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案81.如实施方案80所述的方法,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案82.如实施方案71所述的方法,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案83.一种用于训练生成对抗网络(GAN)的装置,所述装置包括:一个或多个处理器;和存储处理器可执行指令的存储器,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:生成越来越准确的正模拟多肽-MHC-I相互作用数据直到GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的;将所述正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的;将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成预测得分;根据所述预测得分确定所述GAN是经训练的;以及输出所述GAN和所述CNN。
实施方案84.如实施方案83所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;接收来自判别器的信息,其中所述判别器被配置为根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的正多肽-MHC-I相互作用是正的还是负的;根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及重复a-d直到满足第一停止标准。
实施方案85.如实施方案84所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用数据和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给卷积神经网络(CNN);接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;根据训练信息的准确性调整所述一组GAN参数中的一者或多者;以及重复h-j直到满足第二停止标准。
实施方案86.如实施方案85所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成预测得分,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:根据所述一组CNN参数将针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的。
实施方案87.如实施方案86所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置确定针对所述MHC等位基因的所述多肽-MHC-I相互作用为正的或负的所述分类的准确性,以及当(如果)所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN。
实施方案88.如实施方案86所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置确定针对所述MHC等位基因的所述多肽-MHC-I相互作用为正的或负的所述分类的准确性,以及当(如果)所述分类的所述准确性不满足第三停止标准时,返回步骤a。
实施方案89.如实施方案84所述的装置,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案90.如实施方案89所述的装置,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案91.如实施方案89所述的装置,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案92.如实施方案89所述的装置,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案93.如实施方案83所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时还使得所述装置:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN还被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被所述CNN分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案94.通过如实施方案93所述的装置产生的多肽。
实施方案95.如实施方案93所述的装置,其中所述多肽是肿瘤特异性抗原。
实施方案96.如实施方案93所述的装置,其中所述多肽包括特异性结合至所选的人白细胞抗原(HLA)等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案97.如实施方案83所述的装置,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案98.如实施方案97所述的装置,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案99.如实施方案83所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置评估针对所述GAN生成器的梯度下降表达。
实施方案100.如实施方案83所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负模拟多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案101.如实施方案83所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将所述多肽-MHC-I相互作用数据分类为正或负真实的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:执行卷积程序;
执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案102.如实施方案83所述的装置,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案103.如实施方案84所述的装置,其中所述第一停止标准包括均方误差(MSE)函数的评估。
实施方案104.如实施方案85所述的装置,其中所述第二停止标准包括均方误差(MSE)函数的评估。
实施方案105.如实施方案87或88所述的装置,其中所述第三停止标准包括曲线下的面积(AUC)函数的评估。
实施方案106.如实施方案83所述的装置,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
实施方案107.如实施方案83所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述预测得分中的一者或多者与阈值进行比较。
实施方案108.一种用于训练生成对抗网络(GAN)的装置,所述装置包括:
一个或多个处理器;以及
存储处理器可执行指令的存储器,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:生成越来越准确的正模拟多肽-MHC-I相互作用数据,直到GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的;将所述正模拟多肽-MHC-I相互作用数据、正真实多肽-MHC-I相互作用数据和负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的;将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN以生成预测得分;根据所述预测得分确定所述GAN是未经训练的;重复a-c直到根据所述预测得分确定所述GAN是经训练的;以及输出所述GAN和所述CNN。
实施方案109.如实施方案108所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;接收来自判别器的信息,其中所述判别器被配置为确定所述GAN训练数据集中的针对所述MHC等位基因的正多肽-MHC-I相互作用是正的还是负的;根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及重复i-j直到满足第一停止标准。
实施方案110.如实施方案109所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集与所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给所述卷积神经网络(CNN);接收来自所述CNN的信息,其中所述CNN被配置为通过以下方式确定所述信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;根据来自所述CNN的所述信息的准确性调整所述一组CNN参数中的一者或多者;以及重复n-p直到满足第二停止标准。
实施方案111.如实施方案110所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成所述预测得分,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,其中所述CNN还被配置为根据所述一组CNN参数将针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的。
实施方案112.如实施方案111所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:由所述CNN确定所述分类的准确性;确定所述分类的所述准确性满足第三停止标准;以及响应于确定所述分类的所述准确性满足所述第三停止标准,输出所述GAN和所述CNN。
实施方案113.如实施方案112所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:由所述CNN确定所述分类的准确性;确定所述分类的所述准确性不满足第三停止标准;以及响应于确定所述分类的所述准确性不满足所述第三停止标准,返回步骤a。
实施方案114.如实施方案109所述的装置,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案115.如实施方案109所述的装置,其中所述MHC等位基因是HLA等位基因。
实施方案116.如实施方案115所述的装置,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案117.如实施方案115所述的装置,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案118.如实施方案115所述的装置,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案119.如实施方案108所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时还使得所述装置:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN还被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被所述CNN分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案120.通过如实施方案119所述的装置产生的多肽。
实施方案121.如实施方案119所述的装置,其中所述多肽是肿瘤特异性抗原。
实施方案122.如实施方案119所述的装置,其中所述多肽包括特异性结合至所选的人白细胞抗原(HLA)等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案123.如实施方案108所述的装置,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案124.如实施方案123所述的装置,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案125.如实施方案108所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置评估针对所述GAN生成器的梯度下降表达。
实施方案126.如实施方案108所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负模拟多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案127.如实施方案108所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:执行卷积程序;执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案128.如实施方案108所述的装置,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案129.如实施方案109所述的装置,其中所述第一停止标准包括均方误差(MSE)函数的评估。
实施方案130.如实施方案108所述的装置,其中所述第二停止标准包括均方误差(MSE)函数的评估。
实施方案131.如实施方案112或113所述的装置,其中所述第三停止标准包括曲线下的面积(AUC)函数的评估。
实施方案132.如实施方案108所述的装置,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
实施方案133.如实施方案108所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述预测得分中的一者或多者与阈值进行比较。
实施方案134.一种用于训练生成对抗网络(GAN)的装置,所述装置包括:一个或多个处理器;和存储处理器可执行指令的存储器,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的正真实多肽-MHC-I相互作用和针对所述MHC等位基因的负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;接收来自判别器的信息,其中所述判别器被配置为根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的正多肽-MHC-I相互作用是正的还是负的;根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;
重复a-d直到满足第一停止标准;由所述GAN生成器根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给卷积神经网络(CNN);接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;根据所述训练信息的准确性调整所述一组GAN参数中的一者或多者;重复h-j直到满足第二停止标准;呈现所述CNN与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用;接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据所述一组CNN参数将针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;以及确定所述训练信息的准确性,其中当(如果)所述训练信息的所述准确性满足第三停止标准时,输出所述GAN和所述CNN,其中当(如果)所述训练信息的所述准确性不满足所述第三停止标准时,返回步骤a。
实施方案135.如实施方案134所述的装置,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案136.如实施方案134所述的装置,其中所述MHC等位基因是HLA等位基因。
实施方案137.如实施方案136所述的装置,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案138.如实施方案136所述的装置,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案139.如实施方案136所述的装置,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案140.如实施方案134所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时还使得所述装置:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN还被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被所述CNN分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案141.通过如实施方案140所述的装置产生的多肽。
实施方案142.如实施方案140所述的装置,其中所述多肽是肿瘤特异性抗原。
实施方案143.如实施方案140所述的装置,其中所述多肽包括特异性结合至MHC等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案144.如实施方案134所述的装置,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案145.如实施方案144所述的装置,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案146.如实施方案134所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置重复a-d直到满足所述第一停止标准,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置评估针对所述GAN生成器的梯度下降表达。
实施方案147.如实施方案134所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置重复a-d直到满足所述第一停止标准,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负模拟多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案148.如实施方案134所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述CNN训练数据集呈现给所述CNN,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:执行卷积程序;执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案149.如实施方案134所述的装置,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案150.如实施方案134所述的装置,其中所述第一停止标准包括均方误差(MSE)函数的评估。
实施方案151.如实施方案134所述的装置,其中所述第二停止标准包括均方误差(MSE)函数的评估。
实施方案152.如实施方案134所述的装置,其中所述第三停止标准包括曲线下的面积(AUC)函数的评估。
实施方案153.一种装置,所述装置包括:一个或多个处理器;和存储处理器可执行指令的存储器,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:通过与如实施方案83所述的装置相同的方式训练卷积神经网络(CNN);将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及合成被所述CNN分类为正多肽-MHC-I相互作用的候选多肽-MHC-I相互作用相关联的多肽。
实施方案154.如实施方案153所述的装置,其中所述CNN根据一个或多个GAN参数来训练,所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案155.如实施方案154所述的装置,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案156.如实施方案154所述的装置,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案157.如实施方案155所述的装置,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案158.通过如实施方案153所述的装置产生的多肽。
实施方案159.如实施方案153所述的装置,其中所述多肽是肿瘤特异性抗原。
实施方案160.如实施方案153所述的装置,其中所述多肽包括特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案161.如实施方案153所述的装置,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案162.如实施方案161所述的装置,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案163.如实施方案153所述的装置,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案164.一种用于训练生成对抗网络(GAN)的非暂时性计算机可读介质,所述非暂时性计算机可读介质存储处理器可执行指令,所述处理器可执行指令在由一个或多个处理器执行时使得所述一个或多个处理器:生成越来越准确的正模拟多肽-MHC-I相互作用数据直到GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的;将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的;将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成预测得分;根据所述预测得分确定所述GAN是经训练的;以及输出所述GAN和所述CNN。
实施方案165.如实施方案164所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还使得所述一个或多个处理器:根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;接收来自判别器的信息,其中所述判别器被配置为根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的正多肽-MHC-I相互作用是正的还是负的;根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及重复a-d直到满足第一停止标准。
实施方案166.如实施方案165所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集与所述正真实多肽-MHC-I相互作用数据和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给卷积神经网络(CNN);接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;根据训练信息的准确性调整所述一组GAN参数中的一者或多者;以及重复h-j直到满足第二停止标准。
实施方案167.如实施方案166所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成预测得分,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,其中所述CNN还被配置为根据所述一组CNN参数将针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的。
实施方案168.如实施方案167所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器确定针对所述MHC等位基因的所述多肽-MHC-I相互作用为正的或负的所述分类的准确性,以及当(如果)所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN。
实施方案169.如实施方案167所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器确定针对所述MHC等位基因的所述多肽-MHC-I相互作用为正的或负的所述分类的准确性,以及当(如果)所述分类的所述准确性不满足第三停止标准时,返回步骤a。
实施方案170.如实施方案165所述的非暂时性计算机可读介质,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案171.如实施方案165所述的非暂时性计算机可读介质,其中所述MHC等位基因是HLA等位基因。
实施方案172.如实施方案171所述的非暂时性计算机可读介质,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案173.如实施方案171所述的非暂时性计算机可读介质,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案174.如实施方案171所述的非暂时性计算机可读介质,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案175.如实施方案164所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时,还使得所述一个或多个处理器:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN还被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被所述CNN分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案176.通过如实施方案175所述的非暂时性计算机可读介质产生的多肽。
实施方案177.如实施方案175所述的非暂时性计算机可读介质,其中所述多肽是肿瘤特异性抗原。
实施方案178.如实施方案175所述的非暂时性计算机可读介质,其中所述多肽包括特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案179.如实施方案164所述的非暂时性计算机可读介质,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案180.如实施方案179所述的非暂时性计算机可读介质,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案181.如实施方案164所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器评估针对所述GAN生成器的梯度下降表达。
实施方案182.如实施方案164所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,以及给予所述正模拟多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案183.如实施方案164所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将所述多肽-MHC-I相互作用数据分类为正或负真实的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:执行卷积程序;执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案184.如实施方案164所述的非暂时性计算机可读介质,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案185.如实施方案165所述的非暂时性计算机可读介质,其中所述第一停止标准包括均方误差(MSE)函数的评估。
实施方案186.如实施方案166所述的非暂时性计算机可读介质,其中所述第二停止标准包括均方误差(MSE)函数的评估。
实施方案187.如实施方案168或169所述的非暂时性计算机可读介质,其中所述第三停止标准包括曲线下的面积(AUC)函数的评估。
实施方案188.如实施方案164所述的非暂时性计算机可读介质,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
实施方案189.如实施方案164所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述预测得分中的一者或多者与阈值进行比较。
实施方案190.一种用于训练生成对抗网络(GAN)的非暂时性计算机可读介质,所述非暂时性计算机可读介质存储处理器可执行指令,所述处理器可执行指令在由一个或多个处理器执行时使得所述一个或多个处理器:生成越来越准确的正模拟多肽-MHC-I相互作用数据直到GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的;将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的;将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成预测得分;根据所述预测得分确定所述GAN是未经训练的;重复a-c直到根据所述预测得分确定所述GAN是经训练的;以及输出所述GAN和所述CNN。
实施方案191.如实施方案190所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;接收来自判别器的信息,其中所述判别器被配置为确定所述GAN训练数据集中的针对所述MHC等位基因的正多肽-MHC-I相互作用是正的还是负的;根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及重复g-j直到满足第一停止标准。
实施方案192.如实施方案191所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集与所述正真实多肽-MHC-I相互作用数据和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给所述卷积神经网络(CNN);接收来自所述CNN的信息,其中所述CNN被配置为通过以下方式确定所述信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;根据来自所述CNN的所述信息的准确性调整所述一组GAN参数中的一者或多者;以及重复l-p直到满足第二停止标准。
实施方案193.如实施方案192所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成所述预测得分,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,其中所述CNN还被配置为根据所述一组CNN参数将针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的。
实施方案194.如实施方案193所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:由所述CNN确定所述分类的准确性;确定所述分类的所述准确性满足第三停止标准;以及响应于确定所述分类的所述准确性满足所述第三停止标准,输出所述GAN和所述CNN。
实施方案195.如实施方案194所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:由所述CNN确定所述分类的准确性;确定所述分类的所述准确性不满足第三停止标准;以及响应于确定所述分类的所述准确性不满足所述第三停止标准,返回步骤a。
实施方案196.如实施方案191所述的非暂时性计算机可读介质,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案197.如实施方案191所述的非暂时性计算机可读介质,其中所述MHC等位基因是HLA等位基因。
实施方案198.如实施方案197所述的非暂时性计算机可读介质,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案199.如实施方案197所述的非暂时性计算机可读介质,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案200.如实施方案197所述的非暂时性计算机可读介质,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案201.如实施方案190所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时,还使得所述一个或多个处理器:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN还被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被所述CNN分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案202.通过如实施方案201所述的非暂时性计算机可读介质产生的多肽。
实施方案203.如实施方案201所述的非暂时性计算机可读介质,其中所述多肽是肿瘤特异性抗原。
实施方案204.如实施方案201所述的非暂时性计算机可读介质,其中所述多肽包括特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案205.如实施方案190所述的非暂时性计算机可读介质,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案206.如实施方案205所述的非暂时性计算机可读介质,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案207.如实施方案190所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器评估针对所述GAN生成器的梯度下降表达。
实施方案208.如实施方案190所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负模拟多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案209.如实施方案190所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:执行卷积程序;执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案210.如实施方案190所述的非暂时性计算机可读介质,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案211.如实施方案191所述的非暂时性计算机可读介质,其中所述第一停止标准包括均方误差(MSE)函数的评估。
实施方案212.如实施方案190所述的非暂时性计算机可读介质,其中所述第二停止标准包括均方误差(MSE)函数的评估。
实施方案213.如实施方案194或195所述的非暂时性计算机可读介质,其中所述第三停止标准包括曲线下的面积(AUC)函数的评估。
实施方案214.如实施方案190所述的非暂时性计算机可读介质,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
实施方案215.如实施方案190所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述预测得分中的一者或多者与阈值进行比较。
实施方案216.一种用于训练生成对抗网络(GAN)的非暂时性计算机可读介质,所述非暂时性计算机可读介质存储处理器可执行指令,所述处理器可执行指令在由一个或多个处理器执行时使得所述一个或多个处理器:根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成CNN训练数据集;接收来自判别器的信息,其中所述判别器被配置为根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的正多肽-MHC-I相互作用是正的还是负的;根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;重复a-d直到满足第一停止标准;由所述GAN生成器根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;将所述第二模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;将所述CNN训练数据集呈现给卷积神经网络(CNN);接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;根据所述训练信息的准确性调整所述一组GAN参数中的一者或多者;重复h-j直到满足第二停止标准;将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN;接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据所述一组CNN参数将针对所述MHC等位基因的多肽-MHC-I相互作用分类为正的或负的;以及确定所述训练信息的准确性,其中当(如果)所述训练信息的所述准确性满足第三停止标准时,输出所述GAN和所述CNN,
其中当(如果)所述训练信息的所述准确性不满足所述第三停止标准时,返回步骤a。
实施方案217.如实施方案216所述的非暂时性计算机可读介质,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案218.如实施方案216所述的非暂时性计算机可读介质,其中所述MHC等位基因是HLA等位基因。
实施方案219.如实施方案218所述的非暂时性计算机可读介质,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案220.如实施方案218所述的非暂时性计算机可读介质,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案221.如实施方案218所述的非暂时性计算机可读介质,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案222.如实施方案216所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时,还使得所述一个或多个处理器:将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN还被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及从被所述CNN分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
实施方案223.通过如实施方案222所述的非暂时性计算机可读介质产生的多肽。
实施方案224.如实施方案222所述的非暂时性计算机可读介质,其中所述多肽是肿瘤特异性抗原。
实施方案225.如实施方案222所述的非暂时性计算机可读介质,其中所述多肽包括特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案226.如实施方案216所述的非暂时性计算机可读介质,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案227.如实施方案226所述的非暂时性计算机可读介质,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案228.如实施方案216所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器重复a-d直到满足所述第一停止标准,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器评估针对所述GAN生成器的梯度下降表达。
实施方案229.如实施方案216所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器重复a-d直到满足所述第一停止标准,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:迭代地执行(例如,优化)所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负模拟多肽-MHC-I相互作用数据以低概率的可能性;以及迭代地执行(例如,优化)所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
实施方案230.如实施方案216所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述CNN训练数据集呈现给所述CNN,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:执行卷积程序;执行非线性(ReLU)程序;执行池化或子采样程序;以及执行分类(全连接层)程序。
实施方案231.如实施方案216所述的非暂时性计算机可读介质,其中所述GAN包括深度卷积GAN(DCGAN)。
实施方案232.如实施方案216所述的非暂时性计算机可读介质,其中所述第一停止标准包括均方误差(MSE)函数的评估。
实施方案233.如实施方案216所述的非暂时性计算机可读介质,其中所述第二停止标准包括均方误差(MSE)函数的评估。
实施方案234.如实施方案216所述的非暂时性计算机可读介质,其中所述第三停止标准包括曲线下的面积(AUC)函数的评估。
实施方案235.一种用于训练生成对抗网络(GAN)的非暂时性计算机可读介质,所述非暂时性计算机可读介质存储处理器可执行指令,所述处理器可执行指令在由一个或多个处理器执行时使得所述一个或多个处理器:通过与如实施方案83所述的装置相同的方式训练卷积神经网络(CNN);将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及合成被所述CNN分类为正多肽-MHC-I相互作用的候选多肽-MHC-I相互作用相关联的多肽。
实施方案236.如实施方案235所述的非暂时性计算机可读介质,其中所述CNN根据一个或多个GAN参数来训练,所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
实施方案237.如实施方案236所述的非暂时性计算机可读介质,其中所述HLA等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
实施方案238.如实施方案236所述的非暂时性计算机可读介质,其中所述HLA等位基因长度为从约8至约12个氨基酸。
实施方案239.如实施方案236所述的非暂时性计算机可读介质,其中所述HLA等位基因长度为从约9至约11个氨基酸。
实施方案240.通过如实施方案235所述的非暂时性计算机可读介质产生的多肽。
实施方案241.如实施方案235所述的非暂时性计算机可读介质,其中所述多肽是肿瘤特异性抗原。
实施方案242.如实施方案235所述的非暂时性计算机可读介质,其中所述多肽包括特异性结合至所选的人白细胞抗原(HLA)等位基因编码的MHC-I蛋白的氨基酸序列。
实施方案243.如实施方案235所述的非暂时性计算机可读介质,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
实施方案244.如实施方案243所述的非暂时性计算机可读介质,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
实施方案245.如实施方案235所述的非暂时性计算机可读介质,其中所述GAN包括深度卷积GAN(DCGAN)。
序列表
<110> Regeneron Pharmaceuticals, Inc.
<120> 用于MHC肽结合预测的GAN-CNN
<130> 37595.0028P1
<150> 62/631,710
<151> 2018-02-17
<160> 12
<170> PatentIn version 3.5
<210> 1
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 1
Ala Ala Ala Ala Ala Ala Ala Ala Leu Tyr
1 5 10
<210> 2
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 2
Ala Ala Ala Ala Ala Leu Gln Ala Lys
1 5
<210> 3
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 3
Ala Ala Ala Ala Ala Leu Trp Leu
1 5
<210> 4
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 4
Ala Ala Ala Ala Ala Arg Ala Ala Leu
1 5
<210> 5
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 5
Ala Ala Ala Ala Glu Glu Glu Glu Glu
1 5
<210> 6
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 6
Ala Ala Ala Ala Phe Glu Ala Ala Leu
1 5
<210> 7
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 7
Ala Ala Ala Ala Pro Tyr Ala Gly Trp
1 5
<210> 8
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 8
Ala Ala Ala Ala Arg Ala Ala Ala Leu
1 5
<210> 9
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 9
Ala Ala Ala Ala Thr Cys Ala Leu Val
1 5
<210> 10
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 10
Ala Ala Ala Asp Ala Ala Ala Ala Leu
1 5
<210> 11
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 11
Ala Ala Ala Asp Phe Ala His Ala Glu
1 5
<210> 12
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体;MHC-I结合肽
<400> 12
Ala Ala Ala Asp Pro Lys Val Ala Phe
1 5
Claims (58)
1.一种用于训练生成对抗网络(GAN)的方法,所述方法包括:
a.由GAN生成器生成越来越准确的正模拟数据,直到GAN判别器将所述正模拟数据分类为正的;
b.将所述正模拟数据、正真实数据和负真实数据呈现给卷积神经网络(CNN),直到所述CNN将每种类型的数据分类为正的或负的;
c.将所述正真实数据和所述负真实数据呈现给所述CNN,以生成预测得分;以及
d.根据所述预测得分确定所述GAN是经训练的还是未经训练的,以及当所述GAN是未经训练的时,重复步骤a-c直到根据所述预测得分确定所述GAN是经训练的。
2.如权利要求1所述的方法,其中所述正模拟数据、所述正真实数据和所述负真实数据包括生物学数据。
3.如权利要求1所述的方法,其中所述正模拟数据包括正模拟多肽-主要组织相容性复合物I类(MHC-I)相互作用数据,所述正真实数据包括正真实多肽-MHC-I相互作用数据,并且所述负真实数据包括负真实多肽-MHC-I相互作用数据。
4.如权利要求3所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为真实的包括:
e.由所述GAN生成器根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;
f.将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;
g.由判别器根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的相应多肽-MHC-I相互作用是模拟正的、真实正的还是真实负的;
h.由所述判别器根据所述确定的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及
i.重复步骤e-h直到满足第一停止标准。
5.如权利要求4所述的方法,其中将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将相应多肽-MHC-I相互作用数据分类为正的或负的包括:
j.由所述GAN生成器根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;
k.将所述第二模拟数据集、针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成CNN训练数据集;
l.将所述CNN训练数据集呈现给所述卷积神经网络(CNN);
m.由所述CNN根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的;
n.由所述CNN根据所述分类的准确性调整所述一组CNN参数中的一者或多者;以及
o.重复步骤l-n,直到满足第二停止标准。
6.如权利要求5所述的方法,其中将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN以生成预测得分包括:
由所述CNN根据所述一组CNN参数将针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的。
7.如权利要求6所述的方法,其中根据所述预测得分确定所述GAN是否为经训练的包括:由所述CNN确定所述分类的准确性,其中当所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN。
8.如权利要求6所述的方法,其中根据所述预测得分确定所述GAN是否为经训练的包括:由所述CNN确定所述分类的准确性,其中当所述分类的所述准确性不满足第三停止标准时,返回步骤a。
9.如权利要求4所述的方法,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
10.如权利要求9所述的方法,其中所述等位基因类型包括HLA-A、HLA-B、HLA-C或它们的亚型中的一者或多者。
11.如权利要求9所述的方法,其中所述等位基因长度为从约8至约12个氨基酸。
12.如权利要求11所述的方法,其中所述等位基因长度为从约9至约11个氨基酸。
13.如权利要求3所述的方法,还包括:
将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用;
由所述CNN将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及
从被分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
14.通过如权利要求13所述的方法产生的多肽。
15.如权利要求13所述的方法,其中所述多肽是肿瘤特异性抗原。
16.如权利要求13所述的方法,其中所述多肽包括特异性结合至由所选的MHC等位基因编码的MHC-I蛋白的氨基酸序列。
17.如权利要求3所述的方法,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
18.如权利要求17所述的方法,其中所述所选的等位基因选自A0201、A0202、A0203、B2703、B2705以及它们的组合。
19.如权利要求3所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括评估针对所述GAN生成器的梯度下降表达。
20.如权利要求3所述的方法,其中生成所述越来越准确的正模拟多肽-MHC-I相互作用数据直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的包括:
迭代地执行所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负真实多肽-MHC-I相互作用数据以低概率的可能性;以及
迭代地执行所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
21.如权利要求3所述的方法,其中将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述卷积神经网络(CNN),直到所述CNN将所述相应多肽-MHC-I相互作用数据分类为正的或负的包括:
执行卷积程序;
执行非线性(ReLU)程序;
执行池化或子采样程序;以及
执行分类(全连接层)程序。
22.如权利要求1所述的方法,其中所述GAN包括深度卷积GAN(DCGAN)。
23.如权利要求8所述的方法,其中所述第一停止标准包括评估均方误差(MSE)函数,所述第二停止标准包括评估均方误差(MSE)函数,并且所述第三停止标准包括评估曲线下面积(AUC)函数。
24.如权利要求3所述的方法,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
25.如权利要求1所述的方法,其中根据所述预测得分确定所述GAN是否为经训练的包括将所述预测得分中的一者或多者与阈值进行比较。
26.如权利要求1所述的方法,还包括输出所述GAN和所述CNN。
27.一种用于训练生成对抗网络(GAN)的装置,所述装置包括:
一个或多个处理器;以及
存储处理器可执行指令的存储器,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
a.由GAN生成器生成越来越准确的正模拟数据,直到GAN判别器将所述正模拟数据分类为正的;
b.将所述正模拟数据、正真实数据和负真实数据呈现给卷积神经网络(CNN),直到所述CNN将各自的数据分类为正的或负的;
c.将所述正真实数据和所述负真实数据呈现给所述CNN,以生成预测得分;以及
d.根据所述预测得分确定所述GAN是否为经训练的,其中当所述GAN是未经训练的时,重复a-c直到根据所述预测得分确定所述GAN是经训练的。
28.如权利要求27所述的装置,其中所述正模拟数据、所述正真实数据和所述负真实数据包括生物学数据。
29.如权利要求27所述的装置,其中所述正模拟数据包括正模拟多肽-MHC-I相互作用数据,所述正真实数据包括正真实多肽-MHC-I相互作用数据,并且所述负真实数据包括负真实多肽-MHC-I相互作用数据。
30.如权利要求29所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
e.根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;
f.将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;
g.接收来自判别器的信息,其中所述判别器被配置为根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的各自的正多肽-MHC-I相互作用是正的还是负的;
h.根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及
i.重复e-h直到满足第一停止标准。
31.如权利要求30所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将相应多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
j.根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;
k.将所述第二模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用数据和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;
l.将所述CNN训练数据集呈现给卷积神经网络(CNN);
m.接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的;
n.根据训练信息的准确性调整所述一组CNN参数中的一者或多者;以及
o.重复l-o直到满足第二停止标准。
32.如权利要求31所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成预测得分,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
根据所述一组CNN参数将针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的。
33.如权利要求32所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是否为经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置确定针对所述MHC等位基因的所述相应多肽-MHC-I相互作用为正的或负的所述分类的准确性,以及当所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN。
34.如权利要求32所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是否为经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置确定针对所述MHC等位基因的所述相应多肽-MHC-I相互作用为正的或负的所述分类的准确性,以及当所述分类的所述准确性不满足第三停止标准时,返回步骤a。
35.如权利要求30所述的装置,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
36.如权利要求29所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时还使得所述装置:
将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN还被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及
从被所述CNN分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
37.如权利要求29所述的装置,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
38.如权利要求29所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置:
迭代地执行所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,给予所述正模拟多肽-MHC-I相互作用数据以低概率,以及给予所述负模拟多肽-MHC-I相互作用数据以低概率的可能性;以及
迭代地执行所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
39.如权利要求27所述的装置,其中所述GAN包括深度卷积GAN(DCGAN)。
40.如权利要求33所述的装置,其中所述第一停止标准包括均方误差(MSE)函数的评估,所述第二停止标准包括均方误差(MSE)函数的评估,并且所述第三停止标准包括曲线下面积(AUC)函数的评估。
41.如权利要求29所述的装置,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
42.如权利要求27所述的装置,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置根据所述预测得分确定所述GAN是否为经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述装置将所述预测得分中的一者或多者与阈值进行比较。
43.一种用于训练生成对抗网络(GAN)的非暂时性计算机可读介质,所述非暂时性计算机可读介质存储处理器可执行指令,所述处理器可执行指令在由一个或多个处理器执行时使得所述一个或多个处理器:
a.由GAN生成器生成越来越准确的正模拟数据,直到GAN判别器将所述正模拟数据分类为正的;
b.将所述正模拟数据、正真实数据和负真实数据呈现给卷积神经网络(CNN),直到所述CNN将各自的数据分类为正的或负的;
c.将所述正真实数据和所述负真实数据呈现给所述CNN,以生成预测得分;以及
d.根据所述预测得分确定所述GAN是否为经训练的,其中当所述GAN是未经训练的时,重复a-c直到根据所述预测得分确定所述GAN是经训练的。
44.如权利要求43所述的非暂时性计算机可读介质,其中所述正模拟数据、所述正真实数据和所述负真实数据包括生物学数据。
45.如权利要求43所述的非暂时性计算机可读介质,其中所述正模拟数据包括正模拟多肽-MHC-I相互作用数据,所述正真实数据包括正真实多肽-MHC-I相互作用数据,并且所述负真实数据包括负真实多肽-MHC-I相互作用数据。
46.如权利要求45所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还使得所述一个或多个处理器:
e.根据一组GAN参数生成第一模拟数据集,所述第一模拟数据集包括针对MHC等位基因的模拟正多肽-MHC-I相互作用;
f.将所述第一模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用和针对所述MHC等位基因的所述负真实多肽-MHC-I相互作用组合,以生成GAN训练数据集;
g.接收来自判别器的信息,其中所述判别器被配置为根据判定边界确定所述GAN训练数据集中的针对所述MHC等位基因的各自的正多肽-MHC-I相互作用是正的还是负的;
h.根据来自所述判别器的所述信息的准确性调整所述一组GAN参数或所述判定边界中的一者或多者;以及
i.重复e-h直到满足第一停止标准。
47.如权利要求46所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给卷积神经网络(CNN),直到所述CNN将相应多肽-MHC-I相互作用数据分类为正的或负的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:
j.根据所述一组GAN参数生成第二模拟数据集,所述第二模拟数据集包括针对所述MHC等位基因的模拟正多肽-MHC-I相互作用;
k.将所述第二模拟数据集与针对所述MHC等位基因的所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据组合,以生成CNN训练数据集;
l.将所述CNN训练数据集呈现给卷积神经网络(CNN);
m.接收来自所述CNN的训练信息,其中所述CNN被配置为通过以下方式确定所述训练信息:根据一组CNN参数将所述CNN训练数据集中的针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的;
n.根据训练信息的准确性调整所述一组CNN参数中的一者或多者;以及
o.重复l-o直到满足第二停止标准。
48.如权利要求47所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,以生成预测得分,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:
p.将所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据呈现给所述CNN,其中所述CNN还被配置为根据所述一组CNN参数将针对所述MHC等位基因的相应多肽-MHC-I相互作用分类为正的或负的。
49.如权利要求48所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是否为经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器确定针对所述MHC等位基因的所述相应多肽-MHC-I相互作用为正的或负的所述分类的准确性,以及当所述分类的所述准确性满足第三停止标准时,输出所述GAN和所述CNN。
50.如权利要求48所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是否为经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器确定针对所述MHC等位基因的所述相应多肽-MHC-I相互作用为正的或负的所述分类的准确性,以及当所述分类的所述准确性不满足第三停止标准时,返回步骤a。
51.如权利要求46所述的非暂时性计算机可读介质,其中所述GAN参数包括等位基因类型、等位基因长度、生成类别、模型复杂性、学习率或批大小中的一者或多者。
52.如权利要求45所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时,还使得所述一个或多个处理器:
将数据集呈现给所述CNN,其中所述数据集包括多个候选多肽-MHC-I相互作用,其中所述CNN还被配置为将所述多个候选多肽-MHC-I相互作用中的每个分类为正或负多肽-MHC-I相互作用;以及
从被所述CNN分类为正多肽-MHC-I相互作用的所述候选多肽-MHC-I相互作用合成所述多肽。
53.如权利要求45所述的非暂时性计算机可读介质,其中所述正模拟多肽-MHC-I相互作用数据、所述正真实多肽-MHC-I相互作用数据和所述负真实多肽-MHC-I相互作用数据与所选的等位基因相关联。
54.如权利要求45所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器生成所述越来越准确的正模拟多肽-MHC-I相互作用数据,直到所述GAN判别器将所述正模拟多肽-MHC-I相互作用数据分类为正的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:
迭代地执行所述GAN判别器,以增加给予正真实多肽-MHC-I相互作用数据以高概率,以及给予所述正模拟多肽-MHC-I相互作用数据以低概率的可能性;以及
迭代地执行所述GAN生成器,以增加所述正模拟多肽-MHC-I相互作用数据被评高分的概率。
55.如权利要求45所述的非暂时性计算机可读介质,其中所述GAN包括深度卷积GAN(DCGAN)。
56.如权利要求49所述的非暂时性计算机可读介质,其中所述第一停止标准包括均方误差(MSE)函数的评估,所述第二停止标准包括均方误差(MSE)函数的评估,并且所述第三停止标准包括曲线下面积(AUC)函数的评估。
57.如权利要求45所述的非暂时性计算机可读介质,其中所述预测得分是正真实多肽-MHC-I相互作用数据被分类为正多肽-MHC-I相互作用数据的概率。
58.如权利要求45所述的非暂时性计算机可读介质,其中所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器根据所述预测得分确定所述GAN是否为经训练的,所述处理器可执行指令还包括处理器可执行指令,所述处理器可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器将所述预测得分中的一者或多者与阈值进行比较。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862631710P | 2018-02-17 | 2018-02-17 | |
US62/631,710 | 2018-02-17 | ||
PCT/US2019/018434 WO2019161342A1 (en) | 2018-02-17 | 2019-02-18 | Gan-cnn for mhc peptide binding prediction |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112119464A true CN112119464A (zh) | 2020-12-22 |
Family
ID=65686006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980025487.XA Pending CN112119464A (zh) | 2018-02-17 | 2019-02-18 | 用于mhc肽结合预测的gan-cnn |
Country Status (11)
Country | Link |
---|---|
US (1) | US20190259474A1 (zh) |
EP (1) | EP3753022A1 (zh) |
JP (2) | JP7047115B2 (zh) |
KR (2) | KR102607567B1 (zh) |
CN (1) | CN112119464A (zh) |
AU (2) | AU2019221793B2 (zh) |
CA (1) | CA3091480A1 (zh) |
IL (2) | IL276730B1 (zh) |
MX (1) | MX2020008597A (zh) |
SG (1) | SG11202007854QA (zh) |
WO (1) | WO2019161342A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597705A (zh) * | 2020-12-28 | 2021-04-02 | 哈尔滨工业大学 | 一种基于scvnn的多特征健康因子融合方法 |
WO2022216591A1 (en) * | 2021-04-05 | 2022-10-13 | Nec Laboratories America, Inc. | Generating minority-class examples for training data |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201718756D0 (en) * | 2017-11-13 | 2017-12-27 | Cambridge Bio-Augmentation Systems Ltd | Neural interface |
US10706534B2 (en) * | 2017-07-26 | 2020-07-07 | Scott Anderson Middlebrooks | Method and apparatus for classifying a data point in imaging data |
US11704573B2 (en) * | 2019-03-25 | 2023-07-18 | Here Global B.V. | Method, apparatus, and computer program product for identifying and compensating content contributors |
US20200379814A1 (en) * | 2019-05-29 | 2020-12-03 | Advanced Micro Devices, Inc. | Computer resource scheduling using generative adversarial networks |
AU2020290510A1 (en) * | 2019-06-12 | 2022-02-03 | Quantum-Si Incorporated | Techniques for protein identification using machine learning and related systems and methods |
CN110598786B (zh) * | 2019-09-09 | 2022-01-07 | 京东方科技集团股份有限公司 | 神经网络的训练方法、语义分类方法、语义分类装置 |
CN110875790A (zh) * | 2019-11-19 | 2020-03-10 | 上海大学 | 基于生成对抗网络的无线信道建模实现方法 |
US20210150270A1 (en) * | 2019-11-19 | 2021-05-20 | International Business Machines Corporation | Mathematical function defined natural language annotation |
EP4022500A1 (en) * | 2019-11-22 | 2022-07-06 | F. Hoffmann-La Roche AG | Multiple instance learner for tissue image classification |
US20230005567A1 (en) * | 2019-12-12 | 2023-01-05 | Just- Evotec Biologics, Inc. | Generating protein sequences using machine learning techniques based on template protein sequences |
CN111063391B (zh) * | 2019-12-20 | 2023-04-25 | 海南大学 | 一种基于生成式对抗网络原理的不可培养微生物筛选系统 |
CN111402113B (zh) * | 2020-03-09 | 2021-10-15 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、电子设备及计算机可读介质 |
WO2021195155A1 (en) * | 2020-03-23 | 2021-09-30 | Genentech, Inc. | Estimating pharmacokinetic parameters using deep learning |
US20210295173A1 (en) * | 2020-03-23 | 2021-09-23 | Samsung Electronics Co., Ltd. | Method and apparatus for data-free network quantization and compression with adversarial knowledge distillation |
US10885387B1 (en) * | 2020-08-04 | 2021-01-05 | SUPERB Al CO., LTD. | Methods for training auto-labeling device and performing auto-labeling by using hybrid classification and devices using the same |
US10902291B1 (en) * | 2020-08-04 | 2021-01-26 | Superb Ai Co., Ltd. | Methods for training auto labeling device and performing auto labeling related to segmentation while performing automatic verification by using uncertainty scores and devices using the same |
WO2022047150A1 (en) * | 2020-08-28 | 2022-03-03 | Just-Evotec Biologics, Inc. | Implementing a generative machine learning architecture to produce training data for a classification model |
CN112309497B (zh) * | 2020-12-28 | 2021-04-02 | 武汉金开瑞生物工程有限公司 | 一种基于Cycle-GAN的蛋白质结构预测方法及装置 |
KR102519341B1 (ko) * | 2021-03-18 | 2023-04-06 | 재단법인한국조선해양기자재연구원 | 소음분석을 통한 타이어 편마모 조기 감지 시스템 및 그 방법 |
US20220328127A1 (en) * | 2021-04-05 | 2022-10-13 | Nec Laboratories America, Inc. | Peptide based vaccine generation system with dual projection generative adversarial networks |
US20230083313A1 (en) * | 2021-09-13 | 2023-03-16 | Nec Laboratories America, Inc. | Peptide search system for immunotherapy |
KR102507111B1 (ko) * | 2022-03-29 | 2023-03-07 | 주식회사 네오젠티씨 | 데이터베이스에 저장된 면역 펩티돔 정보의 신뢰도를 결정하기 위한 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080172215A1 (en) * | 2007-01-12 | 2008-07-17 | Microsoft Corporation | T-cell epiotope prediction |
US20170039456A1 (en) * | 2015-08-07 | 2017-02-09 | Yahoo! Inc. | BOOSTED DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs) |
CN106845471A (zh) * | 2017-02-20 | 2017-06-13 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的视觉显著性预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018022752A1 (en) | 2016-07-27 | 2018-02-01 | James R. Glidewell Dental Ceramics, Inc. | Dental cad automation using deep learning |
CN107590518A (zh) * | 2017-08-14 | 2018-01-16 | 华南理工大学 | 一种多特征学习的对抗网络训练方法 |
-
2019
- 2019-02-18 EP EP19709215.8A patent/EP3753022A1/en active Pending
- 2019-02-18 CN CN201980025487.XA patent/CN112119464A/zh active Pending
- 2019-02-18 MX MX2020008597A patent/MX2020008597A/es unknown
- 2019-02-18 SG SG11202007854QA patent/SG11202007854QA/en unknown
- 2019-02-18 IL IL276730A patent/IL276730B1/en unknown
- 2019-02-18 IL IL311528A patent/IL311528A/en unknown
- 2019-02-18 KR KR1020207026559A patent/KR102607567B1/ko active Application Filing
- 2019-02-18 AU AU2019221793A patent/AU2019221793B2/en active Active
- 2019-02-18 KR KR1020237040230A patent/KR20230164757A/ko active Search and Examination
- 2019-02-18 WO PCT/US2019/018434 patent/WO2019161342A1/en active Application Filing
- 2019-02-18 JP JP2020543800A patent/JP7047115B2/ja active Active
- 2019-02-18 US US16/278,611 patent/US20190259474A1/en active Pending
- 2019-02-18 CA CA3091480A patent/CA3091480A1/en active Pending
-
2022
- 2022-03-23 JP JP2022046973A patent/JP7459159B2/ja active Active
- 2022-08-26 AU AU2022221568A patent/AU2022221568B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080172215A1 (en) * | 2007-01-12 | 2008-07-17 | Microsoft Corporation | T-cell epiotope prediction |
US20170039456A1 (en) * | 2015-08-07 | 2017-02-09 | Yahoo! Inc. | BOOSTED DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs) |
CN106845471A (zh) * | 2017-02-20 | 2017-06-13 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的视觉显著性预测方法 |
Non-Patent Citations (2)
Title |
---|
ANTONIA CRESWELL等: "Generative Adversarial Networks An overview", 《IEEE SIGNAL PROCESSING MAGAZINE》, 9 January 2018 (2018-01-09), pages 53 - 65, XP011675812, DOI: 10.1109/MSP.2017.2765202 * |
YOUNGMAHN HAN等: "Deep convolutional neural networks for pan-specific peptide-MHC class I binding prediction", 《BMC BIOINFORMATICS》, vol. 18, no. 585, 31 December 2017 (2017-12-31), pages 1 - 9, XP021251975, DOI: 10.1186/s12859-017-1997-x * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597705A (zh) * | 2020-12-28 | 2021-04-02 | 哈尔滨工业大学 | 一种基于scvnn的多特征健康因子融合方法 |
CN112597705B (zh) * | 2020-12-28 | 2022-05-24 | 哈尔滨工业大学 | 一种基于scvnn的多特征健康因子融合方法 |
WO2022216591A1 (en) * | 2021-04-05 | 2022-10-13 | Nec Laboratories America, Inc. | Generating minority-class examples for training data |
Also Published As
Publication number | Publication date |
---|---|
IL311528A (en) | 2024-05-01 |
US20190259474A1 (en) | 2019-08-22 |
SG11202007854QA (en) | 2020-09-29 |
AU2022221568B2 (en) | 2024-06-13 |
AU2019221793B2 (en) | 2022-09-15 |
MX2020008597A (es) | 2020-12-11 |
WO2019161342A1 (en) | 2019-08-22 |
CA3091480A1 (en) | 2019-08-22 |
KR20230164757A (ko) | 2023-12-04 |
RU2020130420A3 (zh) | 2022-03-17 |
IL276730A (en) | 2020-09-30 |
AU2019221793A1 (en) | 2020-09-17 |
AU2022221568A1 (en) | 2022-09-22 |
JP2021514086A (ja) | 2021-06-03 |
JP7047115B2 (ja) | 2022-04-04 |
EP3753022A1 (en) | 2020-12-23 |
RU2020130420A (ru) | 2022-03-17 |
KR20200125948A (ko) | 2020-11-05 |
IL276730B1 (en) | 2024-04-01 |
JP7459159B2 (ja) | 2024-04-01 |
JP2022101551A (ja) | 2022-07-06 |
KR102607567B1 (ko) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112119464A (zh) | 用于mhc肽结合预测的gan-cnn | |
Derevyanko et al. | Deep convolutional networks for quality assessment of protein folds | |
CN109671469B (zh) | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 | |
JP2022532681A (ja) | 結合親和性予測方法及びシステム並びに候補タンパク質結合ペプチド発生方法 | |
KR102184720B1 (ko) | 암 세포 표면의 mhc-펩타이드 결합도 예측 방법 및 분석 장치 | |
Long et al. | Predicting protein phosphorylation sites based on deep learning | |
Pertseva et al. | Applications of machine and deep learning in adaptive immunity | |
Xu et al. | NetBCE: an interpretable deep neural network for accurate prediction of linear B-cell epitopes | |
CN115116539A (zh) | 对象确定方法、装置、计算机设备和存储介质 | |
Han et al. | Quality assessment of protein docking models based on graph neural network | |
US20230395186A1 (en) | Predicting protein structures using auxiliary folding networks | |
RU2777926C2 (ru) | Gan-cnn для прогнозирования связывания мнс-пептид | |
WO2022112260A1 (en) | Predicting protein structures over multiple iterations using recycling | |
Wang et al. | Single-cell Hi-C data enhancement with deep residual and generative adversarial networks | |
Boige et al. | Gradient-informed quality diversity for the illumination of discrete spaces | |
CN110223730A (zh) | 蛋白质与小分子结合位点预测方法、预测装置 | |
Turkoglu et al. | A hybrid method based on artificial immune system and k-NN algorithm for better prediction of protein cellular localization sites | |
Malin et al. | Adaptive learning of immunosignaturing peptide array features for biothreat detection and classification | |
Giard et al. | Regression applied to protein binding site prediction and comparison with classification | |
Mumtaz | Visualisation of bioinformatics datasets | |
WO2022118607A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Lopez | Charting Cellular States, One Cell at a Time: Computational, Inferential and Modeling Perspectives | |
Zeng | Machine learning models for functional genomics and therapeutic design | |
Seçilmiş | Deterministic modeling and inference of biological systems | |
Al-Ghafer et al. | NMF-guided feature selection and genetic algorithm-driven framework for tumor mutational burden classification in bladder cancer using multi-omics data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |