JP2021514086A - Mhcペプチド結合予測のためのgan−cnn - Google Patents
Mhcペプチド結合予測のためのgan−cnn Download PDFInfo
- Publication number
- JP2021514086A JP2021514086A JP2020543800A JP2020543800A JP2021514086A JP 2021514086 A JP2021514086 A JP 2021514086A JP 2020543800 A JP2020543800 A JP 2020543800A JP 2020543800 A JP2020543800 A JP 2020543800A JP 2021514086 A JP2021514086 A JP 2021514086A
- Authority
- JP
- Japan
- Prior art keywords
- mhc
- polypeptide
- positive
- data
- gan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 413
- 238000000034 method Methods 0.000 claims abstract description 335
- 238000012549 training Methods 0.000 claims abstract description 214
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 147
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 113
- 229920001184 polypeptide Polymers 0.000 claims abstract description 98
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 230000003993 interaction Effects 0.000 claims description 585
- 238000004088 simulation Methods 0.000 claims description 251
- 108700028369 Alleles Proteins 0.000 claims description 184
- 108090000623 proteins and genes Proteins 0.000 claims description 106
- 230000008569 process Effects 0.000 claims description 100
- 230000006870 function Effects 0.000 claims description 82
- 102000004169 proteins and genes Human genes 0.000 claims description 37
- 150000001413 amino acids Chemical class 0.000 claims description 33
- 238000011156 evaluation Methods 0.000 claims description 32
- 239000000427 antigen Substances 0.000 claims description 28
- 108091007433 antigens Proteins 0.000 claims description 28
- 102000036639 antigens Human genes 0.000 claims description 28
- 206010028980 Neoplasm Diseases 0.000 claims description 23
- 102100028972 HLA class I histocompatibility antigen, A alpha chain Human genes 0.000 claims description 15
- 102100028976 HLA class I histocompatibility antigen, B alpha chain Human genes 0.000 claims description 15
- 102100028971 HLA class I histocompatibility antigen, C alpha chain Human genes 0.000 claims description 15
- 108010075704 HLA-A Antigens Proteins 0.000 claims description 15
- 108010058607 HLA-B Antigens Proteins 0.000 claims description 15
- 108010052199 HLA-C Antigens Proteins 0.000 claims description 15
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 11
- 239000000725 suspension Substances 0.000 claims 3
- 230000006916 protein interaction Effects 0.000 abstract description 13
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 abstract 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 abstract 1
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 114
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 114
- 230000027455 binding Effects 0.000 description 55
- 238000009739 binding Methods 0.000 description 55
- 102000043129 MHC class I family Human genes 0.000 description 39
- 108091054437 MHC class I family Proteins 0.000 description 39
- 238000012545 processing Methods 0.000 description 37
- 238000013528 artificial neural network Methods 0.000 description 29
- 238000001994 activation Methods 0.000 description 26
- 238000012360 testing method Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 23
- 238000003860 storage Methods 0.000 description 22
- 238000010606 normalization Methods 0.000 description 19
- 230000001052 transient effect Effects 0.000 description 14
- 238000005259 measurement Methods 0.000 description 13
- 230000004913 activation Effects 0.000 description 12
- 238000009826 distribution Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 10
- 230000001960 triggered effect Effects 0.000 description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 9
- 239000003814 drug Substances 0.000 description 8
- 238000012804 iterative process Methods 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 7
- 210000001744 T-lymphocyte Anatomy 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 210000000265 leukocyte Anatomy 0.000 description 6
- 230000000735 allogeneic effect Effects 0.000 description 5
- 238000012854 evaluation process Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000004850 protein–protein interaction Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 102100023990 60S ribosomal protein L17 Human genes 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 101710089372 Programmed cell death protein 1 Proteins 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 210000000987 immune system Anatomy 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 229940124597 therapeutic agent Drugs 0.000 description 2
- 108020004732 unclassified proteins Proteins 0.000 description 2
- 102000006670 unclassified proteins Human genes 0.000 description 2
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101100421200 Caenorhabditis elegans sep-1 gene Proteins 0.000 description 1
- 108010078791 Carrier Proteins Proteins 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 241000270722 Crocodylidae Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 102100028970 HLA class I histocompatibility antigen, alpha chain E Human genes 0.000 description 1
- 102100028966 HLA class I histocompatibility antigen, alpha chain F Human genes 0.000 description 1
- 102100028967 HLA class I histocompatibility antigen, alpha chain G Human genes 0.000 description 1
- 108010024164 HLA-G Antigens Proteins 0.000 description 1
- 102000008949 Histocompatibility Antigens Class I Human genes 0.000 description 1
- 108010088652 Histocompatibility Antigens Class I Proteins 0.000 description 1
- 101000986085 Homo sapiens HLA class I histocompatibility antigen, alpha chain E Proteins 0.000 description 1
- 101000986080 Homo sapiens HLA class I histocompatibility antigen, alpha chain F Proteins 0.000 description 1
- 101001095231 Homo sapiens Peptidyl-prolyl cis-trans isomerase D Proteins 0.000 description 1
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 1
- 108700005089 MHC Class I Genes Proteins 0.000 description 1
- 102000018697 Membrane Proteins Human genes 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 235000006679 Mentha X verticillata Nutrition 0.000 description 1
- 235000002899 Mentha suaveolens Nutrition 0.000 description 1
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 108010021466 Mutant Proteins Proteins 0.000 description 1
- 102000008300 Mutant Proteins Human genes 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 102100037827 Peptidyl-prolyl cis-trans isomerase D Human genes 0.000 description 1
- 102000004245 Proteasome Endopeptidase Complex Human genes 0.000 description 1
- 108090000708 Proteasome Endopeptidase Complex Proteins 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 108091008874 T cell receptors Proteins 0.000 description 1
- 230000005867 T cell response Effects 0.000 description 1
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013103 analytical ultracentrifugation Methods 0.000 description 1
- 230000030741 antigen processing and presentation Effects 0.000 description 1
- 210000000612 antigen-presenting cell Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000006472 autoimmune response Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008275 binding mechanism Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229940022399 cancer vaccine Drugs 0.000 description 1
- 238000009566 cancer vaccine Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000001151 cytotoxic T lymphocyte Anatomy 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 210000002472 endoplasmic reticulum Anatomy 0.000 description 1
- 230000003090 exacerbative effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 238000011005 laboratory method Methods 0.000 description 1
- 238000011173 large scale experimental method Methods 0.000 description 1
- 231100001231 less toxic Toxicity 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 230000004001 molecular interaction Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001722 neurochemical effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 108010082406 peptide permease Proteins 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000002407 reforming Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000001541 thymus gland Anatomy 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本出願は、2018年2月17日に出願された米国仮特許出願第62/631,710号の利益を主張するものであり、その全体が参照により本明細書に援用される。
敵対的生成ネットワーク(GAN)を訓練するための方法およびシステムであって、GAN発生装置によって、増加的に正確なポジティブシミュレーションデータを、GAN弁別装置がポジティブシミュレーションデータをポジティブとして分類するまで生成することと、ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク(CNN)に、CNNが各タイプのデータをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実データおよびネガティブ実データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練をされているか、または訓練をされていないかどうかを決定することと、GANおよびCNNを出力することと、を含む、方法およびシステムが開示される。方法は、GANが十分に訓練されるまで繰り返されうる。ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データは、生物学的データを含む。生物学的データは、タンパク質間の相互作用データを含みうる。生物学的データは、ポリペプチド−MHC−I相互作用データを含みうる。ポジティブシミュレーションデータは、ポジティブシミュレーションポリペプチド−MHC−I相互作用データを含むことができ、ポジティブ実データは、ポジティブ実ポリペプチド−MHC−I相互作用データを含み、ネガティブ実データは、ネガティブ実ポリペプチド−MHC−I相互作用データを含む。
本方法およびシステムに関する開示および説明に先立って、本方法およびシステムが特定の方法、特定の構成要素または特定の実装形態に限定されないことを理解すべきである。本明細書中で使用されている用語は、もっぱら特定の実施形態の説明を目的としたものであって、限定することを意図するものではないこともまた、理解すべきである。
「SRCC」という略語は、スピアマンの順位相関係数(Spearman’s Rank Correlation Coefficient)(SRCC)計算を指す。
「CNN」という略語は、畳み込みニューラルネットワークを指す。
「GAN」という略語は、敵対的生成ネットワークを指す。
本明細書において、「生物学的データ」は、ヒト、動物または他の生物学的な生物(微生物、ウイルス、植物および他の生存生物を含む)の生物学的状態を測定することに由来する任意のデータを意味する。医師、科学者、診断医などに知られている任意のテスト、アッセイまたは観察によって測定を行うことができる。生物学的データとしては、限定されるものではないが、DNA配列、RNA配列、タンパク質配列、タンパク質相互作用、臨床テストおよび観察、物理および化学測定、ゲノム配列決定、プロテオーム決定、薬物レベル、ホルモンおよび免疫学的テスト、神経化学的または神経生理学的測定、ミネラルおよびビタミンのレベルの定量、遺伝的既往歴、および家族歴、ならびにテストを受けている個人(1人または複数人)の状態を洞察することの可能な他の定量を挙げることができる。本明細書では、「データ」という用語の使用は、「生物学的データ」と同義に使用することができる。
本発明の一実施形態は、深層畳み込み敵対的生成ネットワークとも称される敵対的生成ネットワーク(GAN)−畳み込みニューラルネットワーク(CNN)フレームワークを有する、MHC−1へのペプチド結合を予測するためのシステムを提供する。GANは、CNN弁別装置およびCNN発生装置を含んでおり、既存のペプチドMHC−I結合データで訓練されうる。開示されるGAN−CNNシステムは、限定されないが、無制限の対立遺伝子およびより優れた予測性能で訓練される能力を含む、ペプチド−MHC−I結合を予測するための既存のシステムに比べていくつかの利点を有する。本方法およびシステムは、MHC−1へのペプチド結合の予測に関して本明細書において記載されているが、方法およびシステムの適用は、そのように限定されない。本明細書に記載される改良されたGAN−CNNシステムの適用例として、MHC−1へのペプチド結合の予測が提供される。改善されたGAN−CNNシステムは、様々な予測を生成するために、幅広い様々な生物学的データに適用可能である。
図1は、例示的な方法のフローチャート100である。ステップ110から始めて、GANの発生装置(図5Aの504を参照)によって、増加的に正確なポジティブシミュレーションデータを生成することができる。ポジティブシミュレーションデータは、タンパク質相互作用データ(例えば、結合親和性)などの生物学的データを含みうる。結合親和性は、生体分子(タンパク質、DNA、薬物など)と生体分子(タンパク質、DNA、薬物など)との間の結合相互作用の強さの尺度の一例である。結合親和性は、最大阻害濃度の半分(IC50)の値として数値的に表すことができる。数値が小さいほど、親和性が高いことを示す。IC50値が50nM未満のペプチドは、高い親和性とみなされ、500nM未満は、中程度の親和性とみなされ、5000nM未満は、低い親和性とみなされる。IC50は、結合(1)または非結合(−1)として結合カテゴリーに変換されうる。
弁別装置226の処理フローの一実施形態の一実施例が、図8〜図9に示されている。処理フローは、一例にすぎず、限定することを意図したものではない。この実施例では、各処理ブロックは、示されたタイプの処理を実施することができ、かつ示されている順序で実施されてもよい。これは単なる一実施例であることに留意されたい。実施形態において、実施される処理のタイプ、ならびに処理が実施される順序は、変更されうる。
開示されたシステムは、無制限の数のHLA対立遺伝子で訓練されうる。HLA対立遺伝子によってコードされるMHC−Iタンパク質複合体へのペプチド結合のデータは、当技術分野で知られており、IEDB、AntiJen、MHCBN、SYFPEITHIなどを含むが、これらに限定されないデータベースから入手可能である。
開示されたシステムおよび方法は、T細胞および標的細胞のMHC−Iに結合するペプチドを識別するために有用である。一実施形態では、ペプチドは、腫瘍特異的ペプチド、ウイルスペプチド、または標的細胞のMHC−Iに表示されるペプチドである。標的細胞は、腫瘍細胞、がん細胞、またはウイルス感染細胞でありうる。ペプチドは典型的には抗原提示細胞上に表示され、その後、ペプチド抗原を、CD8+細胞、例えば、細胞毒性T細胞に提示する。ペプチド抗原のT細胞への結合は、T細胞を活性化または刺激する。したがって、一実施形態は、ワクチン、例えば、開示されたシステムおよび方法で識別された1つ以上のペプチドを含むがんワクチンを提供する。
本発明の具体的な実施形態が記述されているが、記述された実施形態と同等な他の実施形態があることが当業者によって理解されるであろう。したがって、本発明は、特定の例示された実施形態によってではなく、添付の特許請求の範囲によってのみ限定されることを理解されたい。
予測モデルNetMHCpan、sNebula、MHCflurry、CNN、PSSMを評価した。ROC曲線下面積を、パフォーマンス測定として使用した。値1は良好なパフォーマンスであり、0は悪いパフォーマンスであり、そして0.5はランダムな推測と同等である。表1は、使用されるモデルおよびデータを示している。
CNN訓練には多くのランダムプロセス(例えば、ミニバッチデータフィード、ドロップアウトによる勾配に関与する確率性、ノイズなど)が含まれているため、訓練プロセスの再現性に問題がある可能性がある。例えば、図12は、まったく同じデータにまったく同じアルゴリズムを実装すると、Vang’s(「Yeeling」)AUCを完全に再現できないことを示している。Vang,et al.,HLA class I binding prediction via convolutional neural networks,Bioinformatics,Sep 1;33(17):2658−2665(2017)。
訓練/テストセットの分割を実施した。訓練/テストセットの分割は、過剰適合を回避するように設計された測定であるが、測定が有効かどうかは、選択したデータに依存する場合がある。同じMHC遺伝子対立遺伝子(A*02:01)でどのようにテストしても、モデル間の性能は大きく異なる。このことは、図14でバイアスされたテストセットを選択することによって得られたAUCバイアスで示される。バイアスされた訓練/テストセットで説明されている方法を使用した結果は、カラム「CNN*1」に示されており、これは、図12に示されているものよりも低い性能を示している。図14では、左下から右上への対角線は、一般的に高い値を示しており、線が細いほど値が高くなり、線が太くなるほど値が低くなる。右下から左上への対角線は、一般的に低い値を示しており、線が細いほど値が低くなり、線が太くなるほど値が高くなる。
テストされた5つのモデルから、最良のスピアマンの順位相関係数(SRCC)を選択し、正規化されたデータサイズと比較した。図15は、テストサイズが小さいほど、SRRCが優れていることを示している。SRCCは、予測ランクとラベルランクとの間の無秩序を測定する。テストサイズが大きいほど、順位の順序が崩れる確率が高くなる。
AdamとRMSpropの比較を実施した。Adamは、低次モーメントの適応推定に基づく、確率的目的関数の1次勾配ベースを最適化するためのアルゴリズムである。RMSprop(二乗平均平方根伝搬)はまた、学習速度をパラメータの各々に適合させる方法である。
表2は、例示のMHC−I相互作用データの例を示している。示されたHLA対立遺伝子に対する異なる結合親和性を有するペプチドが、示されている。ペプチドは、結合性(1)または非結合性(−1)と指定された。結合カテゴリーは、半分の最大阻害濃度(IC50)から変換された。予測される出力は、IC50nMの単位で与えられる。数値が小さいほど、親和性が高いことを示す。IC50が50nM未満のペプチドは、高親和性とみなされ、500nM未満のペプチドは、中程度の親和性とみなされ、5000nM未満のペプチドは、低親和性とみなされる。ほとんどの既知のエピトープは、高いまたは中程度の親和性を有している。低い親和性を有しているものもある。既知のT細胞エピトープのIC50値が、5000nMを超えるものはない。
図17は、シミュレーション(例えば、人工の、フェイク)ポジティブデータ、実ポジティブデータ、および実ネガティブデータの混合が、実ポジティブデータおよび実ネガティブデータのみ、またはシミュレーションポジティブデータおよび実ネガティブデータよりも優れた予測をもたらすことを示している。説明される方法の結果は、カラム「CNN」および2つのカラム「GAN−CNN」に示されている。図17では、左下から右上への対角線は、一般的に高い値を示しており、線が細いほど値が高くなり、線が太くなるほど値が低くなる。右下から左上への対角線は、一般的に低い値を示しており、線が細いほど値が低くなり、線が太くなるほど値が高くなる。GANは、すべてのテストセットでA0201の性能を改善する。結合情報が空間的にコードされているため、情報抽出器(CNN+スキップグラムの埋め込みなど)の使用は、ペプチドデータに対して良好に機能する。開示されたGANから生成されたデータは、「補完」の1つの方法とみなすことができ、これにより、データの分布がスムーズになり、モデルが学習しやすくなる。また、GANの損失機能により、GANは青平均ではなく鋭いサンプルを作成し、これは、変分オートエンコーダなどの従来の方法とは異なる。潜在的な化学結合パターンは多数あるため、中間点までの異なるパターンの平均は最適ではない。したがって、GANは過剰適合して、モード崩壊の問題に直面する可能性があるが、パターンをより良くシミュレートする。
実施形態1.敵対的生成ネットワーク(GAN)を訓練するための方法であって、GAN発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていることを決定することと、GANおよびCNNを出力することと、を含む、方法。
実施形態9.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態8に記載の方法。
実施形態11.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態8に記載の方法。
実施形態14.ポリペプチドは、腫瘍特異的抗原である、実施形態12に記載の方法。
実施形態15.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態12に記載の方法。
実施形態22.第1の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態2に記載の方法。
実施形態24.第3の停止基準は、曲線下面積(AUC)関数を評価することを含む、実施形態5または6に記載の方法。
実施形態27.敵対的生成ネットワーク(GAN)を訓練するための方法であって、GAN発生装置によって、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されいないと決定することと、予測スコアに基づいて、GANが訓練されているとの決定がなされるまで、a〜cを繰り返すことと、GANおよびCNNを出力することと、を含む、方法。
実施形態35.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態33に記載の方法。
実施形態37.データセットをCNNに提示することであって、データセットが複数の候補ポリペプチド−MHC−I相互作用を含む、提示することと、CNNによって、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類することと、ポジティブポリペプチド−MHC−I相互作用として分類された候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに含む、実施形態27に記載の方法。
実施形態39.ポリペプチドは、腫瘍特異的抗原である、実施形態37に記載の方法。
実施形態40.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態37に記載の方法。
実施形態47.第1の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態28に記載の方法。
実施形態49.第3の停止基準は、曲線下面積(AUC)関数を評価することを含む、実施形態31または32に記載の方法。
実施形態55.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態54に記載の方法。
実施形態57.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態54に記載の方法。
実施形態60.ポリペプチドは、腫瘍特異的抗原である、実施形態58に記載の方法。
実施形態61.ポリペプチドは、選択されたヒト白血球抗原(HLA)対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態58に記載の方法。
実施形態65.第1の停止基準が満たされるまで、a〜dを繰り返すことは、ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、およびネガティブ実ポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、GAN弁別装置を繰り返し実行する(例えば、最適化する)ことと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、GAN発生装置を繰り返し実行する(例えば、最適化する)ことと、を含む、実施形態52に記載の方法。
実施形態68.第1の停止基準は、平均二乗誤差(MSE)関数を評価することを含む、実施形態52に記載の方法。
実施形態70.第3の停止基準は、曲線下面積(AUC)関数を評価することを含む、実施形態52に記載の方法。
実施形態74.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態73に記載の方法。
実施形態76.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態73に記載の方法。
実施形態78.ポリペプチドは、腫瘍特異的抗原である、実施形態71に記載の方法。
実施形態79.ポリペプチドは、選択されたヒト白血球抗原(HLA)対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態71に記載の方法。
実施形態83.敵対的生成ネットワーク(GAN)を訓練するための装置であって、1つ以上のプロセッサと、1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていることを決定することと、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
実施形態91.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態89に記載の装置。
実施形態93.プロセッサ実行可能命令は、1つ以上のプロセッサによって実行されると、装置に、データセットをCNNに提示することであって、データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、CNNが、複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、CNNがポジティブポリペプチド−MHC−I相互作用として分類した候補ポリペプチド−MHC−I相互作用から、ポリペプチドを合成することと、をさらに行わせる、実施形態83に記載の装置。
実施形態95.ポリペプチドは、腫瘍特異的抗原である、実施形態93に記載の装置。
実施形態96.ポリペプチドは、選択されたヒト白血球抗原(HLA)対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態93に記載の装置。
非線形性(RelU)処置を実施することと、プーリングまたはサブサンプリング処置を実施することと、分類(完全接続層)処置を実施することと、を行わせる、プロセッサ実行可能命令をさらに含む、実施形態83に記載の装置。
実施形態103.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態84に記載の装置。
実施形態105.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態87または88に記載の装置。
1つ以上のプロセッサと、
1つ以上のプロセッサによって実行されると、装置に、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていないことを決定することと、予測スコアに基づく、GANが訓練されていることの決定がなされるまで、a〜cを繰り返すことと、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
実施形態116.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態115に記載の装置。
実施形態118.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態115に記載の装置。
実施形態121.ポリペプチドは、腫瘍特異的抗原である、実施形態119に記載の装置。
実施形態129.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態109に記載の装置。
実施形態131.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態112または113に記載の装置。
第1の停止基準が満たされるまで、a〜dを繰り返すことと、GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、第2のシミュレーションデータセットを、ポジティブ実ポリペプチド−MHC−I相互作用データおよびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、畳み込みニューラルネットワーク(CNN)に、CNN訓練データセットを提示することと、CNNから訓練情報を受信することであって、CNNが、CNNパラメータのセットに従って、CNN訓練データセットにおけるMHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さに基づいて、CNNパラメータのセットのうちの1つ以上を調節することと、第2の停止基準が満たされるまで、h〜jを繰り返すことと、MHC対立遺伝子のポジティブ実ポリペプチド−MHC−I相互作用データおよびMHC対立遺伝子のネガティブ実ポリペプチド−MHC−I相互作用データを、CNNに提示することと、CNNから訓練情報を受信することであって、CNNが、CNNパラメータのセットに従って、MHC対立遺伝子のポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、訓練情報を決定するように構成されている、受信することと、訓練情報の正確さを決定することであって、(場合によっては)訓練情報の正確さが第3の停止基準を満たしている場合に、GANおよびCNNを出力させ、(場合によっては)訓練情報の正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、決定することと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。
実施形態137.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態136に記載の装置。
実施形態139.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態136に記載の装置。
実施形態142.ポリペプチドは、腫瘍特異的抗原である、実施形態140に記載の装置。
実施形態144.ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データは、選択された対立遺伝子と関連付けられている、実施形態134に記載の装置。
実施形態150.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態134に記載の装置。
実施形態152.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態134に記載の装置。
実施形態156.HLA対立遺伝子長さは、約8〜約12アミノ酸である、実施形態154に記載の装置。
実施形態158.実施形態153に記載の装置によって作製されたポリペプチド。
実施形態160.ポリペプチドは、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、実施形態153に記載の装置。
実施形態164.敵対的生成ネットワーク(GAN)を訓練するための非一時的コンピュータ可読媒体であって、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに、増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、GAN弁別装置がポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することと、ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、ポジティブ実ポリペプチド−MHC−I相互作用データ、およびネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、CNNがポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することと、ポジティブ実ポリペプチド−MHC−I相互作用データおよびネガティブ実ポリペプチド−MHC−I相互作用データをCNNに提示して、予測スコアを生成することと、予測スコアに基づいて、GANが訓練されていることを決定することと、GANおよびCNNを出力することと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。
実施形態172.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態171に記載の非一時的コンピュータ可読媒体。
実施形態174.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態171に記載の非一時的コンピュータ可読媒体。
実施形態177.ポリペプチドは、腫瘍特異的抗原である、実施形態175に記載の非一時的コンピュータ可読媒体。
実施形態185.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態165に記載の非一時的コンピュータ可読媒体。
実施形態187.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態168または169に記載の非一時的コンピュータ可読媒体。
実施形態198.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態197に記載の非一時的コンピュータ可読媒体。
実施形態200.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態197に記載の非一時的コンピュータ可読媒体。
実施形態203.ポリペプチドは、腫瘍特異的抗原である、実施形態201に記載の非一時的コンピュータ可読媒体。
実施形態211.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態191に記載の非一時的コンピュータ可読媒体。
実施形態213.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態194または195に記載の非一時的コンピュータ可読媒体。
(場合によっては)訓練情報の正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。
実施形態219.HLA対立遺伝子タイプは、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、実施形態218に記載の非一時的コンピュータ可読媒体。
実施形態221.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態218に記載の非一時的コンピュータ可読媒体。
実施形態224.ポリペプチドは、腫瘍特異的抗原である、実施形態222に記載の非一時的コンピュータ可読媒体。
実施形態232.第1の停止基準は、平均二乗誤差(MSE)関数の評価を含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態234.第3の停止基準は、曲線下面積(AUC)関数の評価を含む、実施形態216に記載の非一時的コンピュータ可読媒体。
実施形態239.HLA対立遺伝子長さは、約9〜約11アミノ酸である、実施形態236に記載の非一時的コンピュータ可読媒体。
実施形態241.ポリペプチドは、腫瘍特異的抗原である、実施形態235に記載の非一時的コンピュータ可読媒体。
Claims (58)
- 敵対的生成ネットワーク(GAN)を訓練するための方法であって、
a.GAN発生装置によって、増加的に正確なポジティブシミュレーションデータを、GAN弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
b.前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク(CNN)に、前記CNNが各タイプのデータをポジティブまたはネガティブとして分類するまで提示することと、
c.前記ポジティブ実データおよび前記ネガティブ実データを前記CNNに提示して、予測スコアを生成することと、
d.前記予測スコアに基づいて、前記GANが訓練されているか、または訓練されていないかを決定し、前記GANが訓練されていない場合、前記予測スコアに基づいて、前記GANが訓練されているとの決定がなされるまで、ステップa〜cを繰り返すことと、を含む、方法。 - 前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項1に記載の方法。
- 前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−主要組織適合複合体クラスI(MHC−I)相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−MHC−I相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−MHC−I相互作用データを含む、請求項1に記載の方法。
- 前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データを実際のものとして分類するまで生成することは、
e.GANパラメータのセットに従って前記GAN発生装置によって、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、
f.前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用を有する前記第1のシミュレーションデータセットを、前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、
g.決定境界に従って弁別装置によって、前記GAN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用が、シミュレーションポジティブ、実ポジティブ、または実ネガティブであるかどうかを決定することと、
h.前記弁別装置による前記決定の正確さに基づいて、前記GANパラメータのセットまたは前記決定境界のうちの1つ以上を調節することと、
i.第1の停止基準が満たされるまで、ステップe〜hを繰り返すことと、を含む、請求項3に記載の方法。 - 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データを、前記畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することは、
j.前記GANパラメータのセットに従って前記GAN発生装置によって、前記MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む、第2のシミュレーションデータセットを生成することと、
k.前記第2のシミュレーションデータセットを、前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用および前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、CNN訓練データセットを作成することと、
l.前記畳み込みニューラルネットワーク(CNN)に、前記CNN訓練データセットを提示することと、
m.CNNパラメータのセットに従って前記CNNによって、前記CNN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することと、
n.前記CNNによる前記分類の正確さに基づいて、前記CNNパラメータのセットのうちの1つ以上を調節することと、
o.第2の停止基準が満たされるまで、ステップl〜nを繰り返すことと、を含む、請求項4に記載の方法。 - 前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記ネガティブ実ポリペプチド−MHC−I相互作用データを、前記CNNに提示して、予測スコアを生成することが、
前記CNNパラメータのセットに従って前記CNNによって、前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することを含む、請求項5に記載の方法。 - 前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定することが、前記CNNによる前記分類の正確さを決定することを含み、前記分類の前記正確さが第3の停止基準を満たしている場合に、前記GANおよび前記CNNが出力される、請求項6に記載の方法。
- 前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定することが、前記CNNによる前記分類の正確さを決定することを含み、前記分類の前記正確さが第3の停止基準を満たしていない場合に、ステップaに戻る、請求項6に記載の方法。
- 前記GANパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、請求項4に記載の方法。
- 前記対立遺伝子タイプが、HLA−A、HLA−B、HLA−C、またはそのサブタイプのうちの1つ以上を含む、請求項9に記載の方法。
- 前記対立遺伝子長さが、約8〜約12アミノ酸である、請求項9に記載の方法。
- 前記対立遺伝子長さが、約9〜約11アミノ酸である、請求項11に記載の方法。
- データセットを前記CNNに提示することであって、前記データセットが、複数の候補ポリペプチド−MHC−I相互作用を含む、提示することと、
前記CNNによって、前記複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類することと、
ポジティブポリペプチド−MHC−I相互作用として分類された前記候補ポリペプチド−MHC−I相互作用から、前記ポリペプチドを合成することと、をさらに含む、請求項3に記載の方法。 - 請求項13に記載の方法によって作製されたポリペプチド。
- 前記ポリペプチドが、腫瘍特異的抗原である、請求項13に記載の方法。
- 前記ポリペプチドが、選択されたMHC対立遺伝子によってコードされるMHC−Iタンパク質に特異的に結合するアミノ酸配列を含む、請求項13に記載の方法。
- 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データが、選択された対立遺伝子と関連付けられている、請求項3に記載の方法。
- 前記選択された対立遺伝子が、A0201、A0202、A0203、B2703、B2705、およびそれらの組み合わせからなる群から選択される、請求項17に記載の方法。
- 前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することが、前記GAN発生装置の勾配降下発現を評価することを含む、請求項3に記載の方法。
- 前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成することは、
ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、および前記ネガティブ実ポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、前記GAN弁別装置を繰り返し実行することと、
前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、前記GAN発生装置を繰り返し実行することと、を含む、請求項3に記載の方法。 - 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データを、前記畳み込みニューラルネットワーク(CNN)に、前記CNNが前記それぞれのポリペプチド−MHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示することは、
畳み込み処置を実施することと、
非線形性(RelU)処置を実施することと、
プーリングまたはサブサンプリング処置を実施することと、
分類(完全接続層)処置を実施することと、を含む、請求項3に記載の方法。 - 前記GANが、深層畳み込みGAN(DCGAN)を含む、請求項1に記載の方法。
- 前記第1の停止基準が、平均二乗誤差(MSE)関数を評価することを含み、前記第2の停止基準が、平均二乗誤差(MSE)関数を評価することを含み、前記第3の停止基準が、曲線下面積(AUC)関数を評価することを含む、請求項8に記載の方法。
- 前記予測スコアが、ポジティブポリペプチド−MHC−I相互作用データとして分類される前記ポジティブ実ポリペプチド−MHC−I相互作用データの確率である、請求項3に記載の方法。
- 前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定することは、前記予測スコアのうちの1つ以上を閾値と比較することを含む、請求項1に記載の方法。
- 前記GANおよび前記CNNを出力することをさらに含む、請求項1に記載の方法。
- 敵対的生成ネットワーク(GAN)を訓練するための装置であって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行されると、前記装置に、
a.GAN発生装置によって、増加的に正確なポジティブシミュレーションデータを、GAN弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
b.前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのデータをポジティブまたはネガティブとして分類するまで提示することと、
c.前記ポジティブ実データおよび前記ネガティブ実データを前記CNNに提示して、予測スコアを生成することと、
d.前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定し、前記GANが訓練されていない場合、前記予測スコアに基づいて、前記GANが訓練されているとの決定がなされるまで、a〜cを繰り返すことと、を行わせる、プロセッサ実行可能命令を記憶する、メモリと、を含む、装置。 - 前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項27に記載の装置。
- 前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−MHC−I相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−MHC−I相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−MHC−I相互作用データを含む、請求項27に記載の装置。
- 前記1つ以上のプロセッサによって実行されると、前記装置に、前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、
e.GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、
f.前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用を有する前記第1のシミュレーションデータセットを、前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、
g.弁別装置から情報を受信することであって、前記弁別装置が、決定境界に従って、前記GAN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、
h.前記弁別装置からの前記情報の正確さに基づいて、前記GANパラメータのセットまたは前記決定境界のうちの1つ以上を調節することと、
i.第1の停止基準が満たされるまで、e〜hを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項29に記載の装置。 - 前記1つ以上のプロセッサによって実行されると、前記装置に、前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、
j.GANパラメータの前記セットに従って、前記MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、
k.前記第2のシミュレーションデータセットを、前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、
l.畳み込みニューラルネットワーク(CNN)に、前記CNN訓練データセットを提示することと、
m.前記CNNから訓練情報を受信することであって、前記CNNが、CNNパラメータのセットに従って、前記CNN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、前記訓練情報を決定するように構成されている、受信することと、
n.訓練情報の正確さに基づいて、前記CNNパラメータのセットのうちの1つ以上を調節することと、
o.第2の停止基準が満たされるまで、l〜oを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項30に記載の装置。 - 前記1つ以上のプロセッサによって実行されると、前記装置に、前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記ネガティブ実ポリペプチド−MHC−I相互作用データを前記CNNに提示させて、予測スコアを生成させる、前記プロセッサ実行可能命令が、前記1つ以上のプロセッサによって実行されると、前記装置に、
前記CNNパラメータのセットに従って、前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類させる、プロセッサ実行可能命令をさらに含む、請求項31に記載の装置。 - 前記1つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、前記MHC対立遺伝子の前記それぞれのポリペプチド−MHC−I相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第3の停止基準を満たしている場合に、前記GANおよび前記CNNを出力させる、プロセッサ実行可能命令をさらに含む、請求項32に記載の装置。
- 前記1つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、前記MHC対立遺伝子の前記それぞれのポリペプチド−MHC−I相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、プロセッサ実行可能命令をさらに含む、請求項32に記載の装置。
- 前記GANパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、請求項30に記載の装置。
- 前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、
データセットを前記CNNに提示することであって、前記データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、前記CNNが、前記複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、
前記CNNがポジティブポリペプチド−MHC−I相互作用として分類した前記候補ポリペプチド−MHC−I相互作用から、前記ポリペプチドを合成することと、をさらに行わせる、請求項29に記載の装置。 - 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データが、選択された対立遺伝子と関連付けられている、請求項29に記載の装置。
- 前記1つ以上のプロセッサによって実行されると、前記装置に、前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、
ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を、および前記ネガティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、前記GAN弁別装置を繰り返し実行することと、
前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、前記GAN発生装置を繰り返し実行することと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項29に記載の装置。 - 前記GANが、深層畳み込みGAN(DCGAN)を含む、請求項27に記載の装置。
- 前記第1の停止基準が、平均二乗誤差(MSE)関数の評価を含み、前記第2の停止基準が、平均二乗誤差(MSE)関数の評価を含み、前記第3の停止基準が、曲線下面積(AUC)関数の評価を含む、請求項33に記載の装置。
- 前記予測スコアが、ポジティブポリペプチド−MHC−I相互作用データとして分類される前記ポジティブ実ポリペプチド−MHC−I相互作用データの確率である、請求項29に記載の装置。
- 前記1つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させるプロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記装置に、前記予測スコアのうちの1つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、請求項27に記載の装置。
- 敵対的生成ネットワーク(GAN)を訓練するための非一時的コンピュータ可読媒体であって、1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
a.GAN発生装置によって、増加的に正確なポジティブシミュレーションデータを、GAN弁別装置が前記ポジティブシミュレーションデータをポジティブとして分類するまで生成することと、
b.前記ポジティブシミュレーションデータ、ポジティブ実データ、およびネガティブ実データを、畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのデータをポジティブまたはネガティブとして分類するまで提示することと、
c.前記ポジティブ実データおよび前記ネガティブ実データを前記CNNに提示して、予測スコアを生成することと、
d.前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定し、前記GANが訓練されていない場合、前記予測スコアに基づいて、前記GANが訓練されているとの決定がなされるまで、a〜cを繰り返すことと、を行わせる、プロセッサ実行可能命令を記憶している、非一時的コンピュータ可読媒体。 - 前記ポジティブシミュレーションデータ、前記ポジティブ実データ、および前記ネガティブ実データが、生物学的データを含む、請求項43に記載の非一時的コンピュータ可読媒体。
- 前記ポジティブシミュレーションデータが、ポジティブシミュレーションポリペプチド−MHC−I相互作用データを含み、前記ポジティブ実データが、ポジティブ実ポリペプチド−MHC−I相互作用データを含み、前記ネガティブ実データが、ネガティブ実ポリペプチド−MHC−I相互作用データを含む、請求項43に記載の非一時的コンピュータ可読媒体。
- 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサに、
e.GANパラメータのセットに従って、MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第1のシミュレーションデータセットを生成することと、
f.前記MHC対立遺伝子の前記ポジティブ実ポリペプチド−MHC−I相互作用を有する前記第1のシミュレーションデータセットを、前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用と組み合わせて、GAN訓練データセットを作成することと、
g.弁別装置から情報を受信することであって、前記弁別装置が、決定境界に従って、前記GAN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポジティブポリペプチド−MHC−I相互作用がポジティブまたはネガティブであるかどうかを決定するように構成されている、受信することと、
h.前記弁別装置からの前記情報の正確さに基づいて、前記GANパラメータのセットまたは前記決定境界のうちの1つ以上を調節することと、
i.第1の停止基準が満たされるまで、e〜hを繰り返すことと、をさらに行わせる、請求項45に記載の非一時的コンピュータ可読媒体。 - 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データを、畳み込みニューラルネットワーク(CNN)に、前記CNNがそれぞれのポリペプチドMHC−I相互作用データをポジティブまたはネガティブとして分類するまで提示させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
j.GANパラメータの前記セットに従って、前記MHC対立遺伝子のシミュレーションポジティブポリペプチド−MHC−I相互作用を含む第2のシミュレーションデータセットを生成することと、
k.前記第2のシミュレーションデータセットを、前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記MHC対立遺伝子の前記ネガティブ実ポリペプチド−MHC−I相互作用データと組み合わせて、CNN訓練データセットを作成することと、
l.畳み込みニューラルネットワーク(CNN)に、前記CNN訓練データセットを提示することと、
m.前記CNNから訓練情報を受信することであって、前記CNNが、CNNパラメータのセットに従って、前記CNN訓練データセットにおける前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−I相互作用を、ポジティブまたはネガティブとして分類することによって、前記訓練情報を決定するように構成されている、受信することと、
n.訓練情報の正確さに基づいて、前記CNNパラメータのセットのうちの1つ以上を調節することと、
o.第2の停止基準が満たされるまで、l〜oを繰り返すことと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項46に記載の非一時的コンピュータ可読媒体。 - 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記ネガティブ実ポリペプチド−MHC−I相互作用データを前記CNNに提示させて、予測スコアを生成させる、前記プロセッサ実行可能命令が、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
p.前記ポジティブ実ポリペプチド−MHC−I相互作用データおよび前記ネガティブ実ポリペプチド−MHC−I相互作用データを、前記CNNに提示することであって、前記CNNが、前記CNNパラメータのセットに従って、前記MHC対立遺伝子のそれぞれのポリペプチド−MHC−1相互作用をポジティブまたはネガティブとして分類するようにさらに構成されている、提示することを行わせる、プロセッサ実行可能命令をさらに含む、請求項47に記載の非一時的コンピュータ可読媒体。 - 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記MHC対立遺伝子の前記それぞれのポリペプチド−MHC−I相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第3の停止基準を満たしている場合に、前記GANおよび前記CNNを出力させる、プロセッサ実行可能命令をさらに含む、請求項48に記載の非一時的コンピュータ可読媒体。
- 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させる前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記MHC対立遺伝子の前記それぞれのポリペプチド−MHC−I相互作用の前記分類の正確さを、ポジティブまたはネガティブとして決定させて、前記分類の前記正確さが第3の停止基準を満たしていない場合に、ステップaに戻らせる、プロセッサ実行可能命令をさらに含む、請求項48に記載の非一時的コンピュータ可読媒体。
- 前記GANパラメータが、対立遺伝子タイプ、対立遺伝子長さ、生成カテゴリー、モデル複雑さ、学習速度、またはバッチサイズのうちの1つ以上を含む、請求項46に記載の非一時的コンピュータ可読媒体。
- 前記1つ以上のプロセッサによって実行されると、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサに、
データセットを前記CNNに提示することであって、前記データセットが、複数の候補ポリペプチド−MHC−I相互作用を含み、前記CNNが、前記複数の候補ポリペプチド−MHC−I相互作用の各々を、ポジティブまたはネガティブポリペプチド−MHC−I相互作用として分類するようにさらに構成されている、提示することと、
前記CNNがポジティブポリペプチド−MHC−I相互作用として分類した前記候補ポリペプチド−MHC−I相互作用から、前記ポリペプチドを合成することと、をさらに行わせる、請求項45に記載の非一時的コンピュータ可読媒体。 - 前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データ、前記ポジティブ実ポリペプチド−MHC−I相互作用データ、および前記ネガティブ実ポリペプチド−MHC−I相互作用データが、選択された対立遺伝子と関連付けられている、請求項45に記載の非一時的コンピュータ可読媒体。
- 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記増加的に正確なポジティブシミュレーションポリペプチド−MHC−I相互作用データを、前記GAN弁別装置が前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データをポジティブとして分類するまで生成させる、前記プロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
ポジティブ実ポリペプチド−MHC−I相互作用データに高い確率を、および前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データに低い確率を与える可能性を高めるために、前記GAN弁別装置を繰り返し実行することと、
前記ポジティブシミュレーションポリペプチド−MHC−I相互作用データが高くレート付けされる確率を高めるために、前記GAN発生装置を繰り返し実行することと、を行わせる、プロセッサ実行可能命令をさらに含む、請求項45に記載の非一時的コンピュータ可読媒体。 - 前記GANが、深層畳み込みGAN(DCGAN)を含む、請求項45に記載の非一時的コンピュータ可読媒体。
- 前記第1の停止基準が、平均二乗誤差(MSE)関数の評価を含み、前記第2の停止基準が、平均二乗誤差(MSE)関数の評価を含み、前記第3の停止基準が、曲線下面積(AUC)関数の評価を含む、請求項49に記載の非一時的コンピュータ可読媒体。
- 前記予測スコアが、ポジティブポリペプチド−MHC−I相互作用データとして分類される前記ポジティブ実ポリペプチド−MHC−I相互作用データの確率である、請求項45に記載の非一時的コンピュータ可読媒体。
- 前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記予測スコアに基づいて、前記GANが訓練されているかどうかを決定させるプロセッサ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、前記予測スコアのうちの1つ以上を閾値と比較させる、プロセッサ実行可能命令をさらに含む、請求項45に記載の非一時的コンピュータ可読媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022046973A JP7459159B2 (ja) | 2018-02-17 | 2022-03-23 | Mhcペプチド結合予測のためのgan-cnn |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862631710P | 2018-02-17 | 2018-02-17 | |
US62/631,710 | 2018-02-17 | ||
PCT/US2019/018434 WO2019161342A1 (en) | 2018-02-17 | 2019-02-18 | Gan-cnn for mhc peptide binding prediction |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022046973A Division JP7459159B2 (ja) | 2018-02-17 | 2022-03-23 | Mhcペプチド結合予測のためのgan-cnn |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021514086A true JP2021514086A (ja) | 2021-06-03 |
JP7047115B2 JP7047115B2 (ja) | 2022-04-04 |
Family
ID=65686006
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020543800A Active JP7047115B2 (ja) | 2018-02-17 | 2019-02-18 | Mhcペプチド結合予測のためのgan-cnn |
JP2022046973A Active JP7459159B2 (ja) | 2018-02-17 | 2022-03-23 | Mhcペプチド結合予測のためのgan-cnn |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022046973A Active JP7459159B2 (ja) | 2018-02-17 | 2022-03-23 | Mhcペプチド結合予測のためのgan-cnn |
Country Status (11)
Country | Link |
---|---|
US (1) | US20190259474A1 (ja) |
EP (1) | EP3753022A1 (ja) |
JP (2) | JP7047115B2 (ja) |
KR (2) | KR20230164757A (ja) |
CN (1) | CN112119464A (ja) |
AU (2) | AU2019221793B2 (ja) |
CA (1) | CA3091480A1 (ja) |
IL (2) | IL311528A (ja) |
MX (1) | MX2020008597A (ja) |
SG (1) | SG11202007854QA (ja) |
WO (1) | WO2019161342A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102507111B1 (ko) * | 2022-03-29 | 2023-03-07 | 주식회사 네오젠티씨 | 데이터베이스에 저장된 면역 펩티돔 정보의 신뢰도를 결정하기 위한 방법 및 장치 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201718756D0 (en) * | 2017-11-13 | 2017-12-27 | Cambridge Bio-Augmentation Systems Ltd | Neural interface |
US10706534B2 (en) * | 2017-07-26 | 2020-07-07 | Scott Anderson Middlebrooks | Method and apparatus for classifying a data point in imaging data |
US11704573B2 (en) * | 2019-03-25 | 2023-07-18 | Here Global B.V. | Method, apparatus, and computer program product for identifying and compensating content contributors |
US20200379814A1 (en) * | 2019-05-29 | 2020-12-03 | Advanced Micro Devices, Inc. | Computer resource scheduling using generative adversarial networks |
WO2020252345A1 (en) * | 2019-06-12 | 2020-12-17 | Quantum-Si Incorporated | Techniques for protein identification using machine learning and related systems and methods |
CN110598786B (zh) | 2019-09-09 | 2022-01-07 | 京东方科技集团股份有限公司 | 神经网络的训练方法、语义分类方法、语义分类装置 |
US20210150270A1 (en) * | 2019-11-19 | 2021-05-20 | International Business Machines Corporation | Mathematical function defined natural language annotation |
CN110875790A (zh) * | 2019-11-19 | 2020-03-10 | 上海大学 | 基于生成对抗网络的无线信道建模实现方法 |
JP2023501126A (ja) * | 2019-11-22 | 2023-01-18 | エフ.ホフマン-ラ ロシュ アーゲー | 組織画像分類用のマルチインスタンス学習器 |
CN115280417A (zh) * | 2019-12-12 | 2022-11-01 | 贾斯特-埃沃泰克生物制品有限公司 | 使用机器学习技术基于模板蛋白质序列来生成蛋白质序列 |
CN111063391B (zh) * | 2019-12-20 | 2023-04-25 | 海南大学 | 一种基于生成式对抗网络原理的不可培养微生物筛选系统 |
CN111402113B (zh) * | 2020-03-09 | 2021-10-15 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、电子设备及计算机可读介质 |
US20210295173A1 (en) * | 2020-03-23 | 2021-09-23 | Samsung Electronics Co., Ltd. | Method and apparatus for data-free network quantization and compression with adversarial knowledge distillation |
CN115398550A (zh) * | 2020-03-23 | 2022-11-25 | 基因泰克公司 | 使用深度学习估计药代动力学参数 |
US10885387B1 (en) * | 2020-08-04 | 2021-01-05 | SUPERB Al CO., LTD. | Methods for training auto-labeling device and performing auto-labeling by using hybrid classification and devices using the same |
US10902291B1 (en) * | 2020-08-04 | 2021-01-26 | Superb Ai Co., Ltd. | Methods for training auto labeling device and performing auto labeling related to segmentation while performing automatic verification by using uncertainty scores and devices using the same |
JP7519232B2 (ja) | 2020-08-25 | 2024-07-19 | 株式会社Ye Digital | 異常検知方法、異常検知装置および異常検知プログラム |
US12080380B2 (en) | 2020-08-28 | 2024-09-03 | Just-Evotec Biologics, Inc. | Implementing a generative machine learning architecture to produce training data for a classification model |
CN112597705B (zh) * | 2020-12-28 | 2022-05-24 | 哈尔滨工业大学 | 一种基于scvnn的多特征健康因子融合方法 |
CN112309497B (zh) * | 2020-12-28 | 2021-04-02 | 武汉金开瑞生物工程有限公司 | 一种基于Cycle-GAN的蛋白质结构预测方法及装置 |
KR102519341B1 (ko) * | 2021-03-18 | 2023-04-06 | 재단법인한국조선해양기자재연구원 | 소음분석을 통한 타이어 편마모 조기 감지 시스템 및 그 방법 |
US20220328127A1 (en) * | 2021-04-05 | 2022-10-13 | Nec Laboratories America, Inc. | Peptide based vaccine generation system with dual projection generative adversarial networks |
US20220319635A1 (en) * | 2021-04-05 | 2022-10-06 | Nec Laboratories America, Inc. | Generating minority-class examples for training data |
US20230083313A1 (en) * | 2021-09-13 | 2023-03-16 | Nec Laboratories America, Inc. | Peptide search system for immunotherapy |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180028294A1 (en) * | 2016-07-27 | 2018-02-01 | James R. Glidewell Dental Ceramics, Inc. | Dental cad automation using deep learning |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4608184B2 (ja) * | 2001-03-14 | 2011-01-05 | ダコ デンマーク アクティーゼルスカブ | 新規なmhc分子構築物、ならびに診断および処置のためにこれらの構築物を用いる方法、ならびにmhc分子の使用 |
US8121797B2 (en) * | 2007-01-12 | 2012-02-21 | Microsoft Corporation | T-cell epitope prediction |
US9805305B2 (en) * | 2015-08-07 | 2017-10-31 | Yahoo Holdings, Inc. | Boosted deep convolutional neural networks (CNNs) |
CN106845471A (zh) * | 2017-02-20 | 2017-06-13 | 深圳市唯特视科技有限公司 | 一种基于生成对抗网络的视觉显著性预测方法 |
CN107480788A (zh) * | 2017-08-11 | 2017-12-15 | 广东工业大学 | 一种深度卷积对抗生成网络的训练方法及训练系统 |
CN107590518A (zh) | 2017-08-14 | 2018-01-16 | 华南理工大学 | 一种多特征学习的对抗网络训练方法 |
-
2019
- 2019-02-18 US US16/278,611 patent/US20190259474A1/en active Pending
- 2019-02-18 EP EP19709215.8A patent/EP3753022A1/en active Pending
- 2019-02-18 KR KR1020237040230A patent/KR20230164757A/ko active Search and Examination
- 2019-02-18 IL IL311528A patent/IL311528A/en unknown
- 2019-02-18 WO PCT/US2019/018434 patent/WO2019161342A1/en active Application Filing
- 2019-02-18 CA CA3091480A patent/CA3091480A1/en active Pending
- 2019-02-18 KR KR1020207026559A patent/KR102607567B1/ko active Application Filing
- 2019-02-18 AU AU2019221793A patent/AU2019221793B2/en active Active
- 2019-02-18 CN CN201980025487.XA patent/CN112119464A/zh active Pending
- 2019-02-18 MX MX2020008597A patent/MX2020008597A/es unknown
- 2019-02-18 SG SG11202007854QA patent/SG11202007854QA/en unknown
- 2019-02-18 IL IL276730A patent/IL276730B2/en unknown
- 2019-02-18 JP JP2020543800A patent/JP7047115B2/ja active Active
-
2022
- 2022-03-23 JP JP2022046973A patent/JP7459159B2/ja active Active
- 2022-08-26 AU AU2022221568A patent/AU2022221568B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180028294A1 (en) * | 2016-07-27 | 2018-02-01 | James R. Glidewell Dental Ceramics, Inc. | Dental cad automation using deep learning |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102507111B1 (ko) * | 2022-03-29 | 2023-03-07 | 주식회사 네오젠티씨 | 데이터베이스에 저장된 면역 펩티돔 정보의 신뢰도를 결정하기 위한 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
EP3753022A1 (en) | 2020-12-23 |
CA3091480A1 (en) | 2019-08-22 |
MX2020008597A (es) | 2020-12-11 |
IL276730B2 (en) | 2024-08-01 |
RU2020130420A3 (ja) | 2022-03-17 |
WO2019161342A1 (en) | 2019-08-22 |
RU2020130420A (ru) | 2022-03-17 |
KR20200125948A (ko) | 2020-11-05 |
AU2022221568A1 (en) | 2022-09-22 |
KR102607567B1 (ko) | 2023-12-01 |
US20190259474A1 (en) | 2019-08-22 |
IL311528A (en) | 2024-05-01 |
JP2022101551A (ja) | 2022-07-06 |
AU2019221793B2 (en) | 2022-09-15 |
KR20230164757A (ko) | 2023-12-04 |
AU2022221568B2 (en) | 2024-06-13 |
JP7047115B2 (ja) | 2022-04-04 |
SG11202007854QA (en) | 2020-09-29 |
IL276730A (en) | 2020-09-30 |
CN112119464A (zh) | 2020-12-22 |
IL276730B1 (en) | 2024-04-01 |
JP7459159B2 (ja) | 2024-04-01 |
AU2019221793A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7047115B2 (ja) | Mhcペプチド結合予測のためのgan-cnn | |
US20210335447A1 (en) | Methods and systems for analysis of receptor interaction | |
JP2022532681A (ja) | 結合親和性予測方法及びシステム並びに候補タンパク質結合ペプチド発生方法 | |
KR102184720B1 (ko) | 암 세포 표면의 mhc-펩타이드 결합도 예측 방법 및 분석 장치 | |
CN113762417B (zh) | 基于深度迁移的对hla抗原呈递预测系统的增强方法 | |
Pertseva et al. | Applications of machine and deep learning in adaptive immunity | |
Albert et al. | Deep neural networks predict class I major histocompatibility complex epitope presentation and transfer learn neoepitope immunogenicity | |
CN111933213A (zh) | 利用深度学习进行序列变异检测 | |
Deng et al. | Massive single-cell RNA-seq analysis and imputation via deep learning | |
Bravi | Development and use of machine learning algorithms in vaccine target selection | |
Attique et al. | DeepBCE: evaluation of deep learning models for identification of immunogenic B-cell epitopes | |
WO2022013154A1 (en) | Method, system and computer program product for determining presentation likelihoods of neoantigens | |
Dorigatti et al. | Predicting t cell receptor functionality against mutant epitopes | |
RU2777926C2 (ru) | Gan-cnn для прогнозирования связывания мнс-пептид | |
Al-Ghafer et al. | NMF-guided feature selection and genetic algorithm-driven framework for tumor mutational burden classification in bladder cancer using multi-omics data | |
Ambroise et al. | Identification of relevant properties for epitopes detection using a regression model | |
US20240371463A1 (en) | Methods for predicting epitope specificity of t cell receptors | |
Zeng | Machine learning models for functional genomics and therapeutic design | |
Jacobs et al. | In silico Antibody-Peptide Epitope prediction for Personalized cancer therapy | |
Montemurro | Improved Immunoinformatic Methods for Rationale T Cell Epitope Discovery | |
WO2023031207A1 (en) | Methods for predicting epitope specificity of t cell receptors | |
Albert et al. | Deep Neural Networks Predict MHC-I Epitope Presentation and Transfer Learn Neoepitope Immunogenicity | |
Mi et al. | Pan-specific Multi Allelic pHLA Presenting Prediction through Resnet-based and LSTM-based Neural Networks | |
WO2024123699A1 (en) | Methods and systems for prediction of peptide presentation by major histocompatibility complex molecules | |
Sidhom | Applications of Artificial Intelligence & Machine Learning in Cancer Immunology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201008 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7047115 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |