CN117347613A - 表征t细胞受体与表位之间相互作用构象的方法 - Google Patents
表征t细胞受体与表位之间相互作用构象的方法 Download PDFInfo
- Publication number
- CN117347613A CN117347613A CN202310508490.5A CN202310508490A CN117347613A CN 117347613 A CN117347613 A CN 117347613A CN 202310508490 A CN202310508490 A CN 202310508490A CN 117347613 A CN117347613 A CN 117347613A
- Authority
- CN
- China
- Prior art keywords
- epitope
- tcr
- binding
- residue
- contact
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 178
- 230000003993 interaction Effects 0.000 title claims abstract description 165
- 108091008874 T cell receptors Proteins 0.000 title claims abstract description 123
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 title claims abstract description 123
- 230000027455 binding Effects 0.000 claims description 169
- 238000013527 convolutional neural network Methods 0.000 claims description 62
- 238000012549 training Methods 0.000 claims description 59
- 230000004913 activation Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 9
- 239000011295 pitch Substances 0.000 description 61
- 108090000765 processed proteins & peptides Proteins 0.000 description 46
- 230000035772 mutation Effects 0.000 description 43
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 29
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 29
- 238000009826 distribution Methods 0.000 description 23
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 16
- 238000003032 molecular docking Methods 0.000 description 16
- 238000010200 validation analysis Methods 0.000 description 16
- 150000001413 amino acids Chemical class 0.000 description 15
- 230000001225 therapeutic effect Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 230000009260 cross reactivity Effects 0.000 description 12
- 238000010606 normalization Methods 0.000 description 11
- 235000001014 amino acid Nutrition 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 8
- 238000002790 cross-validation Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 238000012795 verification Methods 0.000 description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 7
- 210000001744 T-lymphocyte Anatomy 0.000 description 7
- 230000008275 binding mechanism Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 102000004169 proteins and genes Human genes 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 230000002163 immunogen Effects 0.000 description 6
- 230000005847 immunogenicity Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 102100036630 60S ribosomal protein L7a Human genes 0.000 description 5
- 238000002679 ablation Methods 0.000 description 5
- 239000013078 crystal Substances 0.000 description 5
- 229910052739 hydrogen Inorganic materials 0.000 description 5
- 239000001257 hydrogen Substances 0.000 description 5
- 238000009169 immunotherapy Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 102000004196 processed proteins & peptides Human genes 0.000 description 5
- 239000000427 antigen Substances 0.000 description 4
- 108091007433 antigens Proteins 0.000 description 4
- 102000036639 antigens Human genes 0.000 description 4
- 229940022399 cancer vaccine Drugs 0.000 description 4
- 238000009566 cancer vaccine Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 235000018102 proteins Nutrition 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 229960005486 vaccine Drugs 0.000 description 4
- 102100028972 HLA class I histocompatibility antigen, A alpha chain Human genes 0.000 description 3
- 108010075704 HLA-A Antigens Proteins 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 108010065889 glycyl-leucyl-cysteinyl-threonyl-leucyl-valyl-alanyl-methionyl-leucine Proteins 0.000 description 3
- 230000002209 hydrophobic effect Effects 0.000 description 3
- 230000028993 immune response Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000000869 mutational effect Effects 0.000 description 3
- 150000007523 nucleic acids Chemical group 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 206010013710 Drug interaction Diseases 0.000 description 2
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 2
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 2
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 2
- 125000000539 amino acid group Chemical group 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 210000003719 b-lymphocyte Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001574 biopsy Methods 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000008542 feiji Substances 0.000 description 2
- 108010061181 influenza matrix peptide (58-66) Proteins 0.000 description 2
- 238000007912 intraperitoneal administration Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- 238000007920 subcutaneous administration Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 108010032595 Antibody Binding Sites Proteins 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 101001095965 Dictyostelium discoideum Phospholipid-inositol phosphatase Proteins 0.000 description 1
- 102100022893 Histone acetyltransferase KAT5 Human genes 0.000 description 1
- 101001046996 Homo sapiens Histone acetyltransferase KAT5 Proteins 0.000 description 1
- 101000738757 Homo sapiens Phosphatidylglycerophosphatase and protein-tyrosine phosphatase 1 Proteins 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- 102000043129 MHC class I family Human genes 0.000 description 1
- 108091054437 MHC class I family Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 108010006519 Molecular Chaperones Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000002847 Surgical Wound Diseases 0.000 description 1
- 230000024932 T cell mediated immunity Effects 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000033289 adaptive immune response Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000001363 autoimmune Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000010504 bond cleavage reaction Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000011362 coarse particle Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 108091008915 immune receptors Proteins 0.000 description 1
- 102000027596 immune receptors Human genes 0.000 description 1
- 230000008073 immune recognition Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 238000007918 intramuscular administration Methods 0.000 description 1
- 108010003486 leucyl-leucyl-phenylalanyl-glycyl-tyrosyl-prolyl-valyl-tyrosyl-valine Proteins 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 230000009149 molecular binding Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000159 protein binding assay Methods 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/5005—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/5005—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells
- G01N33/5008—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics
- G01N33/5044—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics involving specific cell types
- G01N33/5047—Cells of the immune system
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Immunology (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Cell Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- Food Science & Technology (AREA)
- Microbiology (AREA)
- Artificial Intelligence (AREA)
- Medicinal Chemistry (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Tropical Medicine & Parasitology (AREA)
- Toxicology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请提供了一种表征T细胞受体与表位之间相互作用构象的方法。本申请还提供了其应用。
Description
技术领域
本申请涉及生物医药领域,具体而言,涉及一种识别TCR-表位相互作用的方法。
背景技术
在适应性免疫反应中,T细胞对表位的识别起到了非常重要的作用。由T细胞受体(TCR)鉴定出主要组织相容性复合体(MHC)分子呈递的致病肽,以刺激细胞介导的免疫,从而消除受感染细胞并且激活相应的免疫细胞。因此,理解TCR-肽-MHC复合体(TCR-pMHC)的结合机制对癌症免疫学、自身免疫抗原发现和疫苗设计具有重要意义。然而,由于此类识别机制的内在复杂性,TCR-pMHC相互作用的实验检测和确定往往既耗时又昂贵。为了缓解这些问题,已经开发出诸多计算方法来预测或模拟TCR-pMHC相互作用。
对于适应性免疫识别,肽(在这种情况下也称为表位)由细胞表面的MHC分子呈递,并且然后由TCR识别。尽管TCR同时与表位和相应的MHC分子伴侣结合,但复合体的核心结合区域位于TCRβ链的互补决定区3(记作CDR3β)与表位之间。有许多计算工具用来预测一对CDR3β与表位的结合,诸如TCRex、NetTCR、ERGO和ImRex。这些工具利用不同的机器学习方法来预测给定的CDR3-表位序列对是否能够彼此结合,我们称之为样本水平结合分类任务。然而,它们无法揭示TCR与表位之间相互作用的详细底层机制。遗憾的是,在以往的研究中,预测残基与TCR和表位中相应的接触残基对之间的结合间距(我们称之为残基水平结合预测任务)尚未得到充分探索。
由于TCR-表位相互作用可被视为蛋白质-肽相互作用的特例,原则上能够利用先前设计用于模拟蛋白质-肽相互作用的计算方法,对残基水平的TCR表位相互作用进行表征。对接是进行分子结合构象预测的常规策略,并且实际上存在诸多蛋白质-肽对接工具。然而,这些基于对接的方法的先决条件在于高质量蛋白质结构的可用性,这阻碍了这些方法在结构未知的那些蛋白质中的应用。尽管也有几种基于机器学习方法用于蛋白质-肽接触位点预测,但尚未对其在TCR-表位相互作用预测方面的性能进行系统评价。另外,与一般的蛋白质-肽相互作用相比,TCR-表位相互作用具有几种独特且不同的结合模式,并且由此需要开发出特定的建模方法。
为了更好地理解TCR-表位相互作用,我们提出了一种基于深度学习的框架,称为残基水平的TCR-表位相互作用建模(TEIM-Res)。
发明内容
本公开提供了一种表征T细胞受体与表位之间相互作用构象的方法。对T细胞受体(TCR)与表位之间相互作用进行计算建模,对于免疫治疗和抗原发现而言十分重要。然而,目前的TCR-表位相互作用预测工具仍处于相对原始的阶段,并且在破译底层的结合机制方面(例如,表征成对残基相互作用以及TCR与表位之间的间距)能力有限。在这项工作中,我们设计了一种新的基于深度学习的框架用于模拟TCR-表位相互作用,该框架被称为残基水平的TCR-表位相互作用建模(TEIM-Res),它以TCR和表位的序列作为输入,并且对成对残基间距以及参与相互作用的接触位点两者进行预测。为了克服当前数据缺乏的瓶颈,我们应用了小样本学习(few-shot learning)策略,将样本水平结合信息并入到残基水平相互作用预测中。验证实验证明了该模型的准确预测性能,并且消融研究进一步表明了模型设计的有效性。我们演示了TEIM-Res的以下三种应用:揭示突变TCR-表位对的细微结合构象变化,基于组库数据发现关键接触位点,以及挖掘内在TCR-表位结合规则和模式。综上,我们的模型可作为一款强大的工具用于全面表征TCR-表位相互作用构象和理解结合机制的分子基础,从而大大推进相关免疫学研究。
例如,本申请提出了一种基于深度学习的框架,称为残基水平的TCR-表位相互作用建模(TEIM-Res),以表征CD8+ T细胞受体与MHC-I呈递的表位之间的复合体构象。更具体地,给定结合TCR-表位对的序列,我们预测了输入的CDR3β和表位对的所有成对残基的间距和接触概率。据我们所知,主要由于相应结构数据不足,目前没有针对此类学习任务的研究。为了解决这个问题,我们采用了一种小样本学习策略来利用先验知识并且基于有限数量的样本进行预测。更具体地,在对残基水平结合数据进行训练之前,我们首先在样本水平二元结合数据上对其进行预训练,以使我们的学习器配备TCR-表位相互作用的相关知识,这主要受到以下事实的启发:TCR与表位之间的整体结合由其之间的所有残基对的相互作用决定。与稀疏结构TCR-表位结合数据相比,由于高通量测序技术的发展,有着相对丰富的样本水平结合数据。有了此类样本水平结合数据,我们的模型能够在预训练阶段隐式捕获残基水平信息。综合验证测试显示,我们的模型远远优于基线方法,并且后续的模型分析和消融研究进一步证明了其优越性和有效性。我们还显示了我们的模型可成功地应用于突变分析、组库分析和结合模式发现,表明其可有效地作为一种有价值的工具用于TCR-表位相互作用相关分析。最后,我们揭示出在我们的预训练阶段获得的副产物模型,称为样本水平的TEIM(TEIM-Samp),还在样本水平结合分析中显示出巨大的应用潜力。
一方面,本申请提供了一种确定分子-分子相互作用的方法,其中该方法包括确定该分子相互作用时的间距和/或结合概率。
一方面,本申请提供了一种用于确定分子-分子相互作用的系统,该系统包括包含可执行指令的存储器;和处理器,该处理器被配置为执行该可执行指令并且使该系统:确定该分子相互作用时的间距和/或结合概率。
一方面,本申请提供了一种用于确定分子-分子相互作用的装置,该装置包括指令,当该装置由计算机执行时,该指令使该计算机执行本申请所述的方法。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定突变TCR-表位对的细微结合构象变化的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于在更改肽的氨基酸序列的一个或多个氨基酸时确定该肽的免疫原性变化的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于优化TCR进行免疫治疗的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于鉴定有效治疗表位进行癌症疫苗设计的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定免疫组库的关键接触位点用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定肽的免疫原性的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定TCR-表位结合机制的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于构建结合构象数据集的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定表位与不同TCR的结合概率、给定表位的TCR基序和/或给定TCR的交叉反应性的用途。
一方面,本申请提供了一种结合构象的数据集,该数据集是使用本申请所述的方法、本申请所述的系统和/或本申请所述的装置构建的。
一方面,本申请提供了一种免疫原性肽和/或核酸序列,该免疫原性肽和/或核酸序列是基于使用本申请所述的方法、本申请所述的系统和/或本申请所述的装置的报告鉴定的。
一方面,本申请提供了一种疫苗,该疫苗包含、编码和/或表达肽,该肽选自基于使用本申请所述的方法、本申请所述的系统和/或本申请所述的装置生成的报告的一组肽中。
一方面,本申请提供了一种针对受试者的治疗品的制造方法,该方法包括接收使用本申请所述的方法、本申请所述的系统和/或本申请所述的装置生成的报告,以及基于所述报告生成用于制造所述治疗品的治疗品制造计划。
根据以下具体实施方式,本领域的技术人员将显而易知本公开的其他方面和优势,在具体实施方式中仅示出和描述本公开的说明性实施方案。将认识到,本公开能够具有其它不同实施方案,其若干细节可以在各种明显的方面进行修改,但均不脱离本申请。因此,附图和说明书在本质上均被视为是示例性的而非限制性的。
通过引用并入
在本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其引用程度如同各个单独的出版物、专利或专利申请被具体地并且分别地指出以引用的方式并入一样。
附图说明
本发明的新颖特征在所附权利要求书中详细阐述。通过参考阐述使用本发明原理的示例性实施方案的以下具体实施方式以及附图,将更好地理解本发明的特征和优势,在附图(在本文中也称为“图(figure)”和“图(FIG.)”)中:
图1a至图1e示出了模型架构和性能评价。(a)TEIM-Samp和TEIM-Res的架构以及训练流水线(pipeline)。除了最后一个模块,TEIM-Samp和TEIM-Res两种模型具有相似的架构。它们都具有由一维卷积神经网络(1D CNN)组成的特征提取器,以便分别学习CDR3和表位的序列特征。然后将CDR3β和表位的序列扩展到不同的维度,以形成相互作用特征图。接下来,使用主要由二维(2D)CNN组成的相互作用提取器提取成对残基相互作用信息。另外,将由自编码器生成的表位特征向量馈送到相互作用提取器中,以提取全局表位信息。之后,TEIM-Samp使用主要由池化层和全连接层组成的结合预测模块,聚合所有成对相互作用信息并且预测结合得分,从而表示结合概率。TEIM-Res使用由2D CNN层组成的残基水平预测模块,预测表示成对残基间距的间距矩阵和表示残基对可形成接触的概率的接触矩阵。训练流水线包括两个阶段:首先在样本水平结合数据上预训练TEIM-Samp,并且然后在残基水平结合数据上微调TEIM-Res。(b)三种数据分割设置下的TEIM-Res间距预测(包括每个样本的相关系数、每个样本的中值绝对误差和每个样本的中值相对误差)性能。(c)三种数据分割设置和三种验证水平下的TEIM-Res接触预测(包括每个样本的AUC和每个样本的MCC)性能。(d)TEIM-Res和PepNN表位水平接触预测的性能比较。PepNN是一种基于深度学习的蛋白质-肽结合位点预测方法,并且包括两种版本:PepNN-seq和PepNN-Struc。在两者都新数据分割设置下,在验证集上对三种不同的方法进行基准测试。在AUC和MCC方面,TEIM-Res显著优于PepNN-Seq和PepNN-Struc。(e)TEIM-Res和GalaxyPepDock之间在两者-新数据分割设置下在验证集上进行的间距和接触预测任务的性能比较。在所有四个评价指标中,TEIM-Res在大多数样本中显示出比GalaxyPepDock更好的结果。
图2a至图2g示出了模型性能的详细分析。(a)间距预测精度与诸如MHC对接角度和CDR3β长度等样本特性之间的关系,其中准确度由真实间距和预测间距之间的相关系数表示。存在两个明显的异常区域,它们与大MHC对接角度和长CDR3β长度有关。(b)不同序列长度的相关系数分布。(c)所有残基对的真实间距与预测间距之间的相关性。总体相关系数为0.88。(d)真实接触对或非接触对的预测接触得分的分布。接触对和非接触对具有完全不同的接触得分分布。(e)原始TEIM-Res训练流水线、“微调最后”流水线以及“无预训练”流水线的在五个指标(即,用于间距预测的相关系数、负绝对误差和负相对误差,以及用于接触预测的AUC和MCC)上的比较,在“最后微调”流水线中,预训练阶段保持不变,但只对TEIM-Res的最后一个模块(即残基水平预测模块)进行微调,并且在“无预训练”流水线中,我们跳过了预训练阶段。雷达标图显示了不同流水线和指标的平均值。原始TEIM-Res模型在所有指标上都优于其他两个模型,并且“微调最后”在所有指标上优于“无预训练”。(f)不同类型非共价键中涉及的残基对的预测接触得分和间距的分布。疏水相互作用和氢键对具有相对较高的接触得分,并且具有比其他接触对更近的成对间距。(g)从预测的模型计算的类激活图值与真实残基间距之间的相关系数分布。它们显示出很强的负相关,表明更近的残基对通常具有更高的激活概率用于结合预测。
图3a至图3d示出了TEIM-Res在A6 TCR与Tax表位之间的突变分析性能。(a)A6 TCR和HLA-A:0201呈递的Tax表位的实验复合体结构以及CDR3β与表位(PDB编号为1AO7)之间的详细残基相互作用。残基之间的非共价相互作用由PyMOL绘制为虚线。(b)TEIM-Res预测的残基对的平均间距/接触变化与实验确定的突变样本亲和力变化(用ΔΔG表示)之间的相关性。间距变化和接触得分变化两者与实验获得的亲和力变化具有高度相关性。(c)TEIM-Res预测的突变样本A6 L7A-Tax Y8A的残基对的间距和接触得分变化。突变残基以粗体显示。大多数突变对显示出正间距变化和负接触得分变化,表明大多数残基对在突变后变得更远并且接触得分更低。(d)野生型、单个L7A(CDR3β)突变、单个Y8A(表位)突变和两种突变的残基对位置的前20个最近间距。x轴表示CDR3β-表位残基对的位置指数。
图4a至图4d示出了对三个TCR组库的分析。(a)基序位点和“非基序”区域的接触得分。基序使用GLIPH进行鉴定。TEIM-Res对基序位点的接触得分比“非基序”区域高得多,这验证了基序与接触位点高度相关。(b)包含组库数据中基序RSAY的六个CDR3β序列和单个残基的预测接触得分。基序RSAY位点在所有这些CDR3上具有很高的接触得分。(c)三个表位的TCR组库中所有相互作用的CDR3β的平均接触得分。柱线越高表明接触得分越高。(d)三个表位与CDR3β相互作用的晶体结构。PDB ID分别为2VLJ,3O4L和3GSN。从RCSB PDB中检索PDB复合体,并且使用PyMOL生成图像。结合构象的其他视图在图17中显示。
图5a至图5f示出了TEIM-Res可用于帮助发现TCR-表位相互作用的残基水平结合模式。(a)结合模式发现程序。首先,从尺寸相对较小的STCRDab数据集中,我们基于真实复合体结构计算结合模式,并且分别预测结合构象,然后使用结合构象评价我们的模型。验证后,我们将TEIM-Res应用于仅具有序列信息的大型TCR表位样本数据集上,并且然后从该增强数据集中获得更多结合模式。(b)增强数据集中不同残基对的中值间距。仅考虑间距小于的残基对。(c)增强数据集中不同接触对的平均接触得分。(d)STCRDab数据集中不同类型的残基对的真实平均间距/接触和预测平均间距/接触。散点图中的每个点表示一类残基对。真实间距和预测间距被计算为属于相同类型的残基对的平均间距,并且仅考虑比/>更近的那些残基对。接触频率被计算为残基对是真实接触对的频率,即接触对的计数除以单个残基对类型的所有对的计数。平均接触得分被计算为属于相同类型的残基对的平均预测接触得分。为了避免数据偏差,仅考虑数据集中计数超过30个的残基对。从真实情况和预测计算的结果显示出高度相关性,表明TEIM-Res的预测可用于残基结合模式的发现。
(e)增强数据集中3-mer对的平均间距/接触得分。仅显示间距最近或接触得分最高的前20个对。为了避免数据偏差,仅考虑数据集中计数超过100个的残基对。(f)增强数据集中不同长度的CDR3接触位点的数量。
图6a至图6e示出了TEIM-Samp在样本水平结合预测中的验证和应用。(a)TEIM-Samp和ImRex在每个表位的AUC和每个表位的AUPR方面通过五倍交叉验证进行样本水平结合预测的比较。(b)特定表位随训练样本数量增加时的AUC得分。利用特定表位的额外训练样本,我们对TEIM-Samp进行微调,并且在该表位的保留样本上对TEIM-Samp进行验证。(c)表位GILGFVFTL(SEQ ID NO.3)的基序的平均预测结合得分和CDR3β中的背景。所有基序的预测得分都高于其CDR3β对应背景。(d)TEIM-Samp生成的新基序。在这里,我们分别显示了长度为12、14和16的三个示例图案,并且其他长度的情况在图24中显示。(e)由TEIM-Samp鉴定的两种CDR3βCASSIGSYGYTF(SEQ ID NO.1)和CASSIGTGEAFF(SEQ ID NO.2)的交叉反应性。后者的交叉反应性比前者的更高,因为后者在第4、8和9位识别出不同的残基,而前者仅在表位的单个位置识别出独特的残基。
图7a至图7b示出了表位自编码器的消融研究。(a)带和不带表位自编码器模块的TEIMR在三种验证分割设置下的间距预测比较。(b)带和不带表位自编码器模块的TEIM-Res在三种验证分割设置下的接触预测比较。用于评价间距和接触预测的指标分别是相关系数和AUC。关于这三种分割设置,带自编码器的模型比不带自编码器的模型性能更佳,表明表位自编码器有助于最终预测。
图8a至图8d示出了每个样本的预测指标的分布。(a)间距预测中每个样本的相关系数、每个样本的中值绝对误差和每个样本的中值相对误差的分布。(b、c、d)接触预测的AUC和MCC得分在三个不同验证水平(即成对、CDR3水平和表位水平)上的分布。
图9示出了TEIM-Res训练数据(即STCRdab数据集)中CDR3长度和表位长度的分布。
图10a至图10b示出了所有残基对的预测指标的分布。(a)间距预测中所有残基对的误差、绝对误差和相对误差的分布。误差被定义为预测间距减去真实间距。绝对误差被定义为误差的绝对值。相对误差被定义为绝对误差除以真实间距。(b)具有不同间距的单个残基对的中值误差、中值绝对误差和中值相对误差的分布。x轴表示间距间隔。接近的残基对的误差趋于为正,而远离的残基对的误差趋于为负。具有中等间距的对的绝对误差和相对误差小于更近或更远的对的绝对误差和相对误差。
图11a至图11c示出了不同类型的残基对的间距误差和接触得分。(a)所有残基对的绝对误差和相对误差。仅考虑计数超过30个的残基对。(b)比更近的残基对的绝对误差和相对误差。仅考虑计数超过30个的残基对。(c)接触残基对的预测接触得分。仅考虑计数超过30个的接触对。
图12示出了不同类型的对的对数与残基水平预测性能之间的关系。在间距的绝对误差和相对误差以及接触对的预测接触得分方面进行性能测量。皮尔逊相关系数分别为-0.17、-0.20和0.00,表明不同类型的残基对的对数与预测性能之间几乎没有相关性。
图13a至图13c示出了野生型样本A6-Tax的真实间距/接触和预测间距/接触。(a)A6-Tax样本的真实成对间距和预测成对间距。(b)A6-Tax样本的真实接触和预测接触得分。(c)A6-Tax的间距误差。误差被定义为预测间距减去真实间距。
图14a至图14c示出了突变样本A6 L7A-Tax Y8A的预测接触得分和间距/接触变化。(a)A6L7A-Tax Y8A的预测接触得分。突变残基以粗体显示。(b)突变A6 L7A-Tax Y8A的所有残基对的间距变化。突变位点周围的大多数残基对变得更加远离(即,正间距变化)。(c)突变A6 L7A-Tax Y8A的残基对的接触得分变化。仅考虑接触变化足够大(即绝对值大于0.001)的那些对。大多数对导致突变后接触得分降低。
图15a至图15b示出了突变样本A6 L7A-Tax的间距/接触变化。(a)突变A6 L7A-Tax的所有残基对的间距变化。突变位点周围的大多数残基对变得更加远离(即,正间距变化)。突变残基以粗体显示。(b)突变A6 L7A-Tax的残基对的接触得分变化。仅考虑接触变化足够大(即绝对值大于0.001)的那些对。突变位点周围的大多数对导致突变后接触得分降低。
图16a至图16f示出了突变样本A6-Tax Y8A的预测接触得分和间距/接触变化。(a)A6-Tax Y8A的预测接触得分。(b、d)突变A6-Tax Y8A的所有残基对的间距变化。突变位点周围的大多数残基对变得更加远离(即,正间距变化)。突变残基以粗体显示。(c、e)突变A6-Tax Y8A的残基对的接触得分变化。分布图中仅显示接触变化足够大(即绝对值大于0.001)的那些对。大多数对在突变后接触得分降低。(f)野生型A6-Tax和突变A6-Tax Y8A晶体结构的局部构象变化。青色链和绿色链分别表示野生型A6-Tax和突变A6-Tax Y8A的CDR3。深紫色链和粉红色链分别表示野生型A6Tax和突变A6-Tax Y8A的表位。黄色点表示氢键,其在突变后消失。
图17a至图17c示出了三个表位与CDR3β相互作用的晶体结构。(a)表位GILGFVFTL(SEQ ID NO.3)与CDR3β相互作用的不同视图(PDB ID:2VLJ)。CDR3β以青色显示并且MHC以灰色显示。(b)表位GLCTLVAML(SEQ ID NO.4)与CDR3β相互作用的不同视图(PDB ID:3O4L)。(c)表位NLVPMVATV(SEQ ID NO.5)与CDR3β相互作用的不同视图(PDB ID:3GSN)。
图18a至图18b示出了STCRDab数据集中不同残基对的真实平均间距/接触和预测平均间距/接触。(a)不同残基对的真实平均间距和预测平均间距。仅考虑比更接近且计数超过30个的那些残基对。(b)不同残基对的真实接触频率和预测接触得分。仅考虑计数超过30个的那些残基对。这些图仅显示具有最高接触频率或接触得分的前30个对。
图19a至图19c示出了STCRDab数据集中不同位置处的平均间距/接触真实和平均预测间距/接触。(a)不同位置处的平均真实间距和平均预测间距。由于序列长度通常不同,因此使用从0到1范围内的相对位置来表示位置。只考虑比更近的那些对。白色方块意指没有比/>更近的对位于相应位置。(b)不同位置处的平均接触频率和接触得分。(c)不同位置的真实间距/接触与预测间距/接触之间的相关性。真实情况和预测的结果显示出高度相关性。
图20a至图20b示出了STCRDab数据集和增强数据集中不同残基对的数量。(a)两个数据集中间距比更近的不同残基对的数量。左边是STCRDab数据集的结果,并且右边是增强数据集的结果。(b)两个数据集中不同残基物对的数量比较。x轴指示不同的残基对。单个对在增强数据集中的计数比在STCRDab数据集中的计数多得多。
图21示出了增强数据集中不同位置处的特定残基对的平均接触得分。选择这九个残基对的原因在于,它们在增强数据集中具有最多的对数。
图22a至图22c示出了CDR3β在增强数据集中的长度和接触位点的分布。(a)CDR3β长度的分布。(b)长度等于15的CDR3β最近接触位点的位置分布。最近接触位点通常位于第6位至第9位。(c)长度等于15的CDR3β接触位点的位置分布。大多数接触位点位于第5位至第11位。
图23a至图23d示出了增强数据集中表位的长度和接触位点的分布。(a)表位长度的分布。(b)具有不同长度的表位的接触对的数量。(c)长度等于9的表位的最近接触位点的位置分布。最近接触位点通常位于第5位至第8位。(d)长度等于9的表位的接触位点的位置分布。大多数接触位点通常位于第3位至第9位。
图24示出了由TEIM-Samp生成的长度分别为13、15和17的新基序。
图25示出了对DMF4 TCR的交叉反应性的评价。应用TEIM-Samp预测DMF4 CDR3与随机采样的表位以及真实结合表位的结合得分。两个真实结合表位的结合得分明显高于随机采样的表位的结合得分。
图26示出了A6-Tax突变的序列。
具体实施方式
虽然本文已展示和描述本发明的各种实施方案,但对本领域的技术人员显而易见的是,这些实施方案仅仅通过示例的方式提供。在不脱离本发明的情况下,本领域技术人员可以想到许多变型、改变和替代方案。应当理解,可以采用本文所述的本发明实施方案的各种替代方式。
如本文所用,术语“肽”、“多肽”和“蛋白质”可互换地用于指氨基酸残基的聚合物。这些术语涵盖任何长度的氨基酸链,包括具有由共价肽键连接的氨基酸残基的全长蛋白质。
如本文所用,“突变肽”可指不存在于个体受试者的正常组织中(例如,正常组织的野生型氨基酸序列中)的肽。突变肽包含至少一种突变氨基酸,并且可存在于(例如,从特定受试者收集的)患病组织中,但不存在于(例如,从特定受试者收集、从不同受试者收集的、和/或如在数据库中被鉴定为对应于正常组织的)正常组织中。突变肽可包括表位。表位是突变肽的MHC分子或T细胞受体(TCR)所结合的部分。因此,突变肽的表位与MHC分子或TCR之间的这种结合可诱导免疫反应(由于突变肽与受试者的“自身”无关)。
如本文所用,肽的“表位”可指肽的C侧翼与N侧翼之间的区域,并且可由TCR识别。肽的表位是肽的由T细胞上的TCR和细胞表面上的MHC I所识别的一部分。例如,表位可以是TCR所结合的肽,例如,肽与细胞表面上的MHC I结合时TCR所结合的肽。
如本文所用,“序列”是指包括一组有序的氨基酸标识符的氨基酸序列。如本文所用,“肽序列”是指鉴定至少一部分肽的氨基酸的序列。在一些情况下,肽序列包括变体编码序列,该变体编码序列包括在相应的参考序列中未观察到的变体。
如本文所用,“样本”可包括组织(例如,活检)、单细胞、多个细胞、细胞片段、或体液的等分试样。样本可通过诸如(例如但不限于)静脉穿刺、排泄、射精、揉擦、活检、针吸、灌洗样本、刮擦、手术切口、干预、另一种类型的样本收集装置、或它们的组合从受试者获得。
如本文所用,“受试者”涵盖一个或多个细胞、组织或机体。受试者可以是人类或非人类,无论是体内、离体还是体外,男性还是女性。受试者可以是哺乳动物,诸如人类。
如本文所用,“结合亲和力”是指肽(例如,特定抗原的肽)与MHC(例如,MHC分子和/或MHC等位基因)之间的结合亲和力。结合亲和力可表征肽与MHC分子之间的结合的稳定性、趋势和/或强度。
如本文所用,“免疫原性”可指引发免疫应答的能力(例如,经由T细胞和/或B细胞)。具有“免疫原性”的肽可以是能够引发免疫反应的肽。
如本文所用,“MHC”是指主要组织相容性复合体。人类MHC也被称为人类白细胞抗原(HLA)复合体。
如本文所用,术语“装置”可指参与提供指令的任何介质。此类介质可采用多种形式,包含但不限于,非易失性介质、易失性介质和传输介质。非易失性介质的示例可包括但不限于光盘、固态盘、磁盘,诸如存储装置等。易失性介质的示例包括但不限于动态存储器,诸如RAM。传输介质的示例可包括但不限于同轴电缆、铜线和光纤,包括导线。
本申请的方法
一方面,本申请提供了一种确定分子-分子相互作用的方法,其中该方法包括确定该分子相互作用时的间距和/或结合概率。
例如,该方法为确定该TCR的β链互补决定区(CDR)3与该表位的相互作用。例如,该方法为确定粗粒度样本水平相互作用,诸如它们是否可彼此结合、结合能或其全局对接角度。例如,该方法为确定细粒度相互作用,诸如结合位点、成对原子间距、成对残基对接角度或者甚至所有非共价相互作用的强度。例如,本申请的预训练阶段可提取对下游微调阶段有用的丰富且必要的信息。
例如,该方法包括获得包含该TCR的序列和该表位的序列的训练数据集,在该训练数据集上训练模型,以及确定该TCR的β链互补决定区(CDR)3与表位相互作用。例如,该TCR的该β链CDR3的该序列与IMGT编号对齐。例如,该表位的该序列为中心对齐并且填充至长度12。例如,该方法可采用MHC作为表位。
例如,该方法包括特征提取器、相互作用提取器和结合预测模块。例如,该方法包括特征提取器、相互作用提取器、自编码器和结合预测模块。例如,该方法包括特征提取器、相互作用提取器、自编码器和残基水平预测模块。例如,该方法包括特征提取器、相互作用提取器、自编码器、结合预测模块和残基水平预测模块。
例如,该方法为确定其他分子的相互作用,例如蛋白质-肽相互作用、蛋白质-药物相互作用和蛋白质-DNA相互作用。
例如,该方法为确定T细胞受体(TCR)与表位的相互作用。例如,该方法为确定T细胞受体与表位的相互作用。
例如,该方法为确定免疫受体(如TCR、嵌合抗体受体和/或抗体)的β链互补决定区(CDR)3。例如,该方法为确定该TCR的β链互补决定区(CDR)3与该表位的相互作用。例如,该TCR包括CD8+ T细胞的TCR。例如,该TCR包括CD4+ T细胞的TCR。
例如,该表位包括能够被MHC呈递的表位。例如,该表位包括能够由MHC-I呈递的表位。例如,该表位包括能够由MHC-II呈递的表位。
例如,该方法包括获得包含该TCR的序列和该表位的序列的训练数据集。
例如,该方法包括获得包含该TCR的该β链的序列和该表位的序列的训练数据集。例如,该方法包括获得包含该TCR的该β链CDR的序列和该表位的序列的训练数据集。例如,该方法包括获得包含该TCR的该β链CDR3的序列和该表位的序列的训练数据集。
例如,该TCR的该β链CDR3的长度为约10至20。例如,该TCR的该β链CDR3的长度为约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、40或50。例如,该TCR的该β链CDR3的该序列与IMGT编号对齐。
例如,该表位的长度为约8至12。例如,该表位的长度为约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、40或50。例如,该表位的该序列为中心对齐并且填充至长度12。例如,该表位的该序列是线性序列。例如,该表位包括能够由MHC-I呈递的表位。例如,该表位包括能够由MHC-II呈递的表位。
例如,该方法包括在该训练数据集上训练模型。例如,该方法包括通过从免疫组库中对TCR进行随机采样,在正训练数据集以及包括负对的负训练数据集上训练模型。例如,该训练数据集的正负比为1:5。例如,该训练数据集的正负比为约1:5、约1:4、约1:3、约1:2或约1:1。
例如,该模型包括卷积神经网络(CNN)。例如,该模型还包括小样本学习器。例如,在训练TEIM-Res之前,本申请可首先构建样本水平二元结合(即输入的CDR3β与表位对是否可彼此结合)预测模型,名为样本水平的TCR-表位相互作用建模(TEIM-Samp),该模型利用大规模样本水平结合数据来隐式学习TCR-表位相互作用的残基水平信息。
例如,该模型包括特征提取器。例如,该特征提取器获得该TCR的该β链CDR3的该序列和该表位的该序列的信息性特征。
例如,该特征提取器包括嵌入层和CNN模块。例如,该特征提取器包括嵌入层和1DCNN模块。
例如,该特征提取器的该CNN模块包括CNN层、批量归一化层和激活函数。例如,该特征提取器的该CNN模块包括1D CNN层、批量归一化层和整流线性单元层(ReLU)激活函数。例如,该特征提取器的该CNN模块包括内核大小为1、2、3、4或5的1D CNN层、批量归一化层和隐藏维度为2、4、8、16、32、64、128、256、512或1024的整流线性单元层(ReLU)激活函数。例如,该特征提取器的该CNN模块包括内核大小为3的1D CNN层、批量归一化层和隐藏维度为256的整流线性单元层ReLU激活函数。
例如,该TCR的该β链CDR3的该序列和该表位的该序列被扩展到不同维度以形成相互作用特征图。
例如,该模型包括相互作用提取器。例如,该相互作用提取器获得该TCR的该序列和该表位的该序列的成对残基特征。例如,该相互作用提取器获得该TCR的该β链CDR3的该序列和该表位的该序列的成对残基特征。
例如,该相互作用提取器包括CNN模块。例如,该相互作用提取器包括二维(2D)CNN模块。例如,该相互作用提取器包括两个该2D CNN模块。例如,该相互作用提取器包括两个、三个或四个该2D CNN模块。
例如,该相互作用提取器中的每个该CNN模块独立地包括CNN层、批量归一化层和激活函数。例如,该相互作用提取器的每个该CNN模块独立地包括内核大小为3×3的2D CNN层、批量归一化层和ReLU激活函数。例如,该相互作用提取器的每个该CNN模块独立地包括内核大小为3×3并且隐藏维度为256的2D CNN层、批量归一化层和ReLU激活函数。
例如,该模型还包括自编码器。例如,该方法还包括从表位数据库中获得表位序列。例如,该表位数据库包括免疫表位数据库(IEDB)。
例如,该自编码器从该表位数据库中获得该表位的该序列的信息性特征。例如,该自编码器将从该表位数据库获得的该表位序列编码为维度为32的向量。
例如,该自编码器包括1D CNN模块。例如,该自编码器包括两个该1D CNN模块。例如,该自编码器的每个该CNN模块独立地包括输出维度、扁平层和全连接层。例如,该自编码器的每个该CNN模块独立地包括32个输出维度、扁平层和具有32个输出维度的全连接层。
例如,该自编码器向该相互作用提取器提供从该表位数据库获得的该表位序列的该信息性特征。
例如,该模型还包括结合预测模块。例如,该结合预测模块提供样本水平结合预测,该样本水平结合预测包括输入TCR-表位对的结合概率。
例如,该结合预测模块从该相互作用提取器获得成对相互作用信息。
例如,该结合预测模块包括池化层和具有激活函数的全连接层。例如,该结合预测模块包括最大池化层和具有S型激活函数的全连接层。
例如,该结合预测模块使用亚当优化器进行优化。例如,该结合预测模块使用学习率为0.0002的亚当优化器进行优化。
例如,该结合预测模块能够利用大规模样本水平结合数据来隐式学习TCR-表位相互作用的残基水平信息,该残基水平预测包括该输入TCR-表位对的残基对的间距和/或接触概率。
例如,该模型还包括残基水平预测模块。
例如,该残基水平预测模块提供该输入TCR-表位对的该残基对的该间距和/或结合概率。例如,该残基水平预测模块从该相互作用提取器获得成对相互作用信息。
例如,该残基水平预测模块包括具有输出通道的CNN模块。例如,该残基水平预测模块包括具有输出通道的2D CNN模块。
例如,该输出通道中的一个输出通道提供具有ReLU激活函数和/或S型激活函数的残基间距。例如,该输出通道中的一个输出通道提供具有ReLU激活函数的残基间距。例如,该输出通道中的一个输出通道提供作为该S型激活函数的结合位点的概率,该结合位点被定义为约5埃米内的那些残基对。例如,该结合位点被定义为约5×10^-10m内的那些残基对。
例如,对该残基水平预测模块的间距损失预测和接触位点预测进行总结,并且使用学习率为0.001的亚当优化器对该残基水平预测模块进行优化。
例如,该残基水平预测模块利用该结合预测模块的参数作为该残基水平预测模块的初始化,在有限的残基水平结合数据上对该残基水平预测模块进行微调。
例如,该方法还包括针对权重设置具有系数的l2正则化。例如,该方法还包括针对权重设置系数为约0.005的l2正则化。
例如,该方法还包括设置漏失率。例如,该方法还包括设置约0.2的漏失率。
例如,该方法包括计算机实现的方法。
本申请的系统
一方面,本申请提供了一种用于确定分子-分子相互作用的系统,该系统包括包含可执行指令的存储器;和处理器,该处理器被配置为执行该可执行指令并且使该系统:确定该分子相互作用时的间距和/或结合概率。
例如,该系统被配置成用于执行本申请所述的方法。
一方面,本申请提供了一种用于确定分子-分子相互作用的装置,该装置包括指令,当该装置由计算机执行时,该指令使该计算机执行本申请所述的方法。
本申请的用途
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定突变TCR-表位对的细微结合构象变化的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于在更改肽的氨基酸序列的一个或多个氨基酸时确定该肽的免疫原性变化的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于优化TCR进行免疫治疗的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于鉴定有效治疗表位进行癌症疫苗设计的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定免疫组库的关键接触位点用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定肽的免疫原性的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定TCR-表位结合机制的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于构建结合构象数据集的用途。
一方面,本申请提供了本申请所述的方法和/或本申请所述的系统和/或本申请所述的装置用于确定表位与不同TCR的结合概率、给定表位的TCR基序和/或给定TCR的交叉反应性的用途。
一方面,本申请提供了一种结合构象的数据集,该数据集是使用本申请所述的方法、本申请所述的系统和/或本申请所述的装置构建的。
一方面,本申请提供了一种免疫原性肽和/或核酸序列,该免疫原性肽和/或核酸序列是基于使用本申请所述的方法、本申请所述的系统和/或本申请所述的装置的报告鉴定的。
一方面,本申请提供了一种疫苗,该疫苗包含、编码和/或表达肽,该肽选自基于使用本申请所述的方法、本申请所述的系统和/或本申请所述的装置生成的报告的一组肽中。
一方面,本申请提供了一种针对受试者的治疗品的制造方法,该方法包括接收使用本申请所述的方法、本申请所述的系统和/或本申请所述的装置生成的报告,以及基于所述报告生成用于制造所述治疗品的治疗品制造计划。
TCR与表位之间的相互作用机制对于理解TCR识别至关重要。然而,目前已解决的TCR-表位复合体结构的数量非常有限,使得难以准确表征相互作用模式。在这里,我们提出了一种利用小样本学习策略的专门设计的模型,以准确预测TCR-表位对的残基水平相互作用。通过消融研究,我们证明预训练阶段可大幅协助该模型从样本水平结合数据中隐式捕获残基水平相互作用模式。我们证明了其在突变效应预测、组库分析和相互作用模式发现中的应用。另外,经预训练的模型TEIM-Samp也在样本水平结合预测上发挥出良好性能,并且可应用于许多下游任务,诸如新型表位结合预测、基序发现和交叉反应性检测。
我们的预训练阶段可协助该模型从样本水平结合数据中学习丰富的信息,并且由此为残基水平的相互作用预测提供适当的模型初始化。我们的模型可利用更多信息进行扩展。举例来说,在预训练阶段期间,可整合更多相关数据,诸如免疫原性和全局对接构象。另外,在微调阶段期间,可预测更多残基水平相互作用特征,诸如成对原子间距和非共价相互作用的类型或强度。此外,原则上可推广模型架构和小样本学习流水线来预测其他分子的相互作用,诸如蛋白质-肽相互作用、蛋白质-药物相互作用和蛋白质-DNA相互作用。也就是说,对于任何分子-分子相互作用建模任务,我们可首先预训练模型来预测粗粒度样本水平相互作用,诸如其是否可彼此结合、结合能或其全局对接角度,并且然后微调该模型,以进一步预测细粒度相互作用,诸如结合位点、成对原子间距、成对残基对接角度,或者甚至是所有非共价相互作用的强度。一般而言,粗粒度相互作用任务的数据相对更丰富,并且与细粒度任务高度相关。因此,利用适当的模型设计,预训练阶段可提取对下游微调阶段有用的丰富且必要的信息。MHC分子也参与TCR-表位相互作用。我们目前的模型版本不考虑MHC,因为对TCR结合而言,表位通常比MHC更加必要。尽管如此,有时MHC也可直接影响TCR识别。由此,将来还需要对TCR-表位-MHC复合体的结合进行表征。另外,我们目前的模型仅为CD8+ T细胞受体和MHC-I呈递的表位而设计。将来,我们还可将我们的模型推广到CD4+T细胞受体和MHC-II呈递的表位。MHC-II呈递的表位通常比MHC-I呈递的表位更长,并且因此更难预测其相互作用构象。另一方面,两种TCR表位通常具有相似的相互作用机制。因此,也可利用相同的方法来预测CD4+ T细胞受体和MHC-II呈递的表位。总之,我们提出了一种基于深度学习的模型来表征TCR与表位之间的残基水平相互作用。该模型在全面的验证测试中实现了高准确度,并且可应用于多种与结合相关的任务。我们相信,我们的模型可作为一种有价值且有用的工具用于TCR-表位相互作用分析,并且由此推进相关生物医学研究。
另一方面,本申请提供了以下实施方式:
1.一种确定分子-分子相互作用的方法,其中所述方法包括确定所述分子相互作用时的间距和/或结合概率。
2.根据实施方式1所述的方法,所述方法为确定T细胞受体TCR与表位的相互作用。
3.根据实施方式2所述的方法,所述方法为确定所述TCR的β链互补决定区CDR3与所述表位的相互作用。
4.根据实施方式2至3中任一项所述的方法,所述TCR包括CD8+ T细胞的TCR。
5.根据实施方式1至4中任一项所述的方法,所述表位包括能够由MHC-I呈递的表位。
6.根据实施方式2至5中任一项所述的方法,所述方法包括获得包含所述TCR的序列和所述表位的序列的训练数据集。
7.根据实施方式2至6中任一项所述的方法,所述方法包括获得包含所述TCR的所述β链CDR3的序列和所述表位的序列的训练数据集。
8.根据实施方式2至7中任一项所述的方法,所述TCR的所述β链CDR3的长度为约10至20。
9.根据实施方式1至8中任一项所述的方法,所述表位的长度为约8至12。
10.根据实施方式2至9中任一项所述的方法,所述TCR的所述β链CDR3的所述序列与IMGT编号对齐。
11.根据实施方式1至10中任一项所述的方法,所述表位的所述序列为中心对齐并且填充至长度12。
12.根据实施方式1至11中任一项所述的方法,所述表位的所述序列为线性序列。
13.根据实施方式1至12中任一项所述的方法,所述方法包括在所述训练数据集上训练模型。
14.根据实施方式13所述的方法,所述模型包括卷积神经网络CNN。
15.根据实施方式13至14中任一项所述的方法,所述模型还包括小样本学习器。
16.根据实施方式13至15中任一项所述的方法,所述模型包括特征提取器。
17.根据实施方式16所述的方法,所述特征提取器获得所述TCR的所述β链CDR3的所述序列和所述表位的所述序列的信息性特征。
18.根据实施方式16至17中任一项所述的方法,所述特征提取器包括嵌入层和1DCNN模块。
19.根据实施方式16至18中任一项所述的方法,所述特征提取器的所述CNN模块包括内核大小为3的1D CNN层、批量归一化层和隐藏维度为256的整流线性单元层ReLU激活函数。
20.根据实施方式2至19中任一项所述的方法,所述TCR的所述β链CDR3的所述序列和所述表位的所述序列被扩展到不同维度以形成相互作用特征图。
21.根据实施方式13至20中任一项所述的方法,所述模型包括相互作用提取器。
22.根据实施方式21所述的方法,所述相互作用提取器获得所述TCR的所述β链CDR3的所述序列和所述表位的所述序列的成对残基特征。
23.根据实施方式21至22中任一项所述的方法,所述相互作用提取器包括二维2DCNN模块。
24.根据实施方式21至23中任一项所述的方法,所述相互作用提取器包括两个所述2D CNN模块。
25.根据实施方式21至24中任一项所述的方法,所述相互作用提取器的每个所述CNN模块独立地包括内核大小为3×3并且隐藏维度为256的2D CNN层、批量归一化层和ReLU激活函数。
26.根据实施方式13至25中任一项所述的方法,所述模型还包括自编码器。
27.根据实施方式1至26中任一项所述的方法,所述方法还包括从表位数据库中获得表位序列。
28.根据实施方式27所述的方法,所述表位数据库包括免疫表位数据库IEDB。
29.根据实施方式26至28中任一项所述的方法,所述自编码器从所述表位数据库中获得所述表位的所述序列的信息性特征。
30.根据实施方式26至29中任一项所述的方法,所述自编码器将从所述表位数据库获得的所述表位序列编码为维度为32的向量。
31.根据实施方式26至30中任一项所述的方法,所述自编码器包括1D CNN模块。
32.根据实施方式26至31中任一项所述的方法,所述自编码器包括两个所述1DCNN模块。
33.根据实施方式31至32中任一项所述的方法,所述自编码器的每个所述CNN模块独立地包括32个输出维度、扁平层和具有32个输出维度的全连接层。
34.根据实施方式26至33中任一项所述的方法,所述自编码器向所述相互作用提取器提供从所述表位数据库获得的所述表位序列的所述信息性特征。
35.根据实施方式13至34中任一项所述的方法,所述模型还包括结合预测模块。
36.根据实施方式35所述的方法,所述结合预测模块提供样本水平结合预测,所述样本水平结合预测包括输入TCR-表位对的结合概率。
37.根据实施方式35至36中任一项所述的方法,所述结合预测模块从所述相互作用提取器获得成对相互作用信息。
38.根据实施方式35至37中任一项所述的方法,所述结合预测模块包括最大池化层和具有S型激活函数的全连接层。
39.根据实施方式35至38中任一项所述的方法,所述结合预测模块使用学习率为0.0002的亚当优化器进行优化。
40.根据实施方式35至39中任一项所述的方法,所述结合预测模块能够利用大规模样本水平结合数据来隐式学习TCR-表位相互作用的残基水平信息,所述残基水平预测包括所述输入TCR-表位对的残基对的间距和/或接触概率。
41.根据实施方式13至40中任一项所述的方法,所述模型还包括残基水平预测模块。
42.根据实施方式41所述的方法,所述残基水平预测模块提供所述输入TCR-表位对的所述残基对的所述间距和/或结合概率。
43.根据实施方式41至42中任一项所述的方法,所述残基水平预测模块从所述相互作用提取器获得成对相互作用信息。
44.根据实施方式41至43中任一项所述的方法,所述残基水平预测模块包括具有输出通道的2D CNN模块。
45.根据实施方式44所述的方法,所述输出通道中的一个输出通道提供具有ReLU激活函数的残基间距。
46.根据实施方式44至45中任一项所述的方法,所述输出通道中的一个输出通道提供作为所述S型激活函数的结合位点的概率,所述结合位点被定义为约5埃米内的那些残基对。
47.根据实施方式41至46中任一项所述的方法,对所述残基水平预测模块的间距损失预测和接触位点预测进行总结,并且使用学习率为0.001的亚当优化器对所述残基水平预测模块进行优化。
48.根据实施方式41至47中任一项所述的方法,所述残基水平预测模块利用所述结合预测模块的参数作为所述残基水平预测模块的初始化,在有限的残基水平结合数据上对所述残基水平预测模块进行微调。
49.根据实施方式1至48中任一项所述的方法,所述方法还包括针对权重设置系数为约0.005的l2正则化。
50.根据实施方式1至49中任一项所述的方法,所述方法还包括设置约0.2的漏失率。
51.根据实施方式1至50中任一项所述的方法,所述方法包括计算机实现的方法。
52.一种用于确定分子-分子相互作用的系统,所述系统包括包含可执行指令的存储器;和处理器,所述处理器被配置为执行所述可执行指令并且使所述系统:确定所述分子相互作用时的间距和/或结合概率。
53.根据实施方式52所述的系统,所述系统被配置为执行实施方式1-51中任一项所述的方法。
54.一种用于确定分子-分子相互作用的装置,所述装置包括指令,当所述装置由计算机执行时,所述指令使所述计算机执行实施方式1至51中任一项所述的方法。
55.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于确定突变TCR-表位对的细微结合构象变化的用途。
56.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于在更改肽的氨基酸序列的一个或多个氨基酸时确定所述肽的免疫原性变化的用途。
57.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于优化TCR进行免疫治疗的用途。
58.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于鉴定有效治疗表位进行癌症疫苗设计的用途。
59.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于确定免疫组库的关键接触位点用途。
60.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于确定肽的免疫原性的用途。
61.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于确定TCR-表位结合机制的用途。
62.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于构建结合构象数据集的用途。
63.实施方式1至51中任一项所述的方法和/或实施方式52至53中任一项所述的系统和/或实施方式54所述的装置用于确定表位与不同TCR的结合概率、给定表位的TCR基序和/或给定TCR的交叉反应性的用途。
64.一种结合构象的数据集,所述数据集是使用实施方式1至51中任一项所述的方法、实施方式52至53中任一项所述的系统和/或实施方式54所述的装置构建的。
65.一种免疫原性肽和/或核酸序列,所述免疫原性肽和/或核酸序列是基于使用实施方式1至51中任一项所述的方法、实施方式52至53中任一项所述的系统和/或实施方式54所述的装置的报告鉴定的。
66.一种疫苗,所述疫苗包含、编码和/或表达肽,所述肽选自基于使用实施方式1至51中任一项所述的方法、实施方式52至53中任一项所述的系统和/或实施方式54所述的装置生成的报告的一组肽中。
67.一种针对受试者的治疗品的制造方法,所述方法包括接收使用实施方式1至51中任一项所述的方法、实施方式52至53中任一项所述的系统和/或实施方式54所述的装置生成的报告,以及基于所述报告生成用于制造所述治疗品的治疗品制造计划。
实施例
阐述以下实施例是为了向本领域普通技术人员提供如何制造和使用本发明的完整公开和描述,并非旨在限制本发明人认为是其发明的范围,也并非旨在表示下面的实验是所有或唯一进行的实验。已努力确保所用数字(例如,数量、温度等)的准确性,但应该考虑一定的实验误差和偏差。除非另有说明,否则份数是重量份,分子量是重均分子量,温度是摄氏度,压力为大气压或接近大气压。可以使用标准缩写,例如bp:一个或多个碱基对;kb:一千或数千碱基;pl:一或数皮升;s或sec:一或数秒;min:一或数分钟;h或hr:一或数小时;aa:一个或多个氨基酸;nt:一个或多个核苷酸;i.m.:肌内(地);i.p.:腹膜内(地);s.c.:皮下(地);等等。
实施例1方法
数据处理
我们从STCRDab获得具有复合体结构的TCR-表位对。我们将TCR CDR3β的长度限制在10到20之间,并且将表位的长度限制在8到12之间。我们弃除了明显的噪声数据(PDB ID:6UZI)和重复的样本。利用这些过滤标准,我们建立了一种包含122个样本的CDR3表位复合体结构数据集。然后,我们得出单个结构的成对残基间距矩阵,其中每个元素表示两个残基的重原子之间的最近间距。然后,我们将结合位点定义为范围内的残基对,并且从以上定义的间距矩阵中推到出接触矩阵。之后,我们获得了包含结合间距和结合位点标签的残基水平相互作用数据集。
接下来,我们从三个数据库中检索出样本水平结合数据:VDJdb、McPAS-TCR和ImmuneCODE。我们只保留来自人类MHC I类的那些对,这些对可能占数据集的大部分。我们还将CDR3β序列的长度限制在10到20之间,并且将表位序列的长度限制在8到12之间。此外,主要由于有争议性的后处理截止点,我们可选地排除了VDJdb中的10x基因组学数据。在这些处理程序后,VDJdb仍有14,933个正样本,McPAS-TCR仍有7,780个正样本,ImmuneCode仍有25,789个正样本。通过组合这三个数据集并且删除重复的对,我们获得了一个包含45,481个正样本的数据集,涵盖355个独特的表位。然后,我们通过从免疫组库中随机采样TCR来生成负对。我们最终建立了一个包含272,886个样本的结合数据集,正负比为1:5。
由于我们的结合数据集仅包含355个独特的表位,因此我们并入了自编码器,以从大规模未标记的表位序列数据集中提取信息性特征。特别地,使用三个筛选条件从免疫表位数据库(IEDB)中下载表位序列:“表位结构:线性序列”,“非B细胞测定”和“MHC限制性I型”。我们弃除了带有残基修饰的那些表位,并且将表位序列的长度限制在8到12之间。最后,我们构建了一个包含450,395个独特表位序列的表位序列数据集。我们仅采用包含20个标准氨基酸的序列。所有表位均为中心对齐并且填充至长度12。所有CDR3β都使用ANARCI工具与IMGT编号对齐,并且填充到长度20。
模型架构
TEIM的特征提取器由嵌入层和1D CNN模块组成,该1D CNN模块由内核大小为3的1D CNN层、批量归一化层和隐藏维度为256的ReLU激活函数组成。相互作用提取器由两个2DCNN模块组成,每个2D CNN模块由内核大小为3×3且隐藏维度为256的2D CNN层、批量归一化层和整流线性单元层(ReLU)激活函数组成。自编码器将表位序列编码为维度为32的向量。TEIM-Samp的结合预测模块由最大池化层和具有S型激活函数的全连接层组成。残基水平预测模块由一个具有两个输出通道的2D CNN模块组成。第一个通道使用ReLU激活函数来预测残基间距,而第二个通道使用S型激活来预测成为结合位点的概率。用于编码表位特征的自编码器由两个1D CNN模块组成,这两个1D CNN模块都具有32个输出维度,然后是扁平层和具有32个输出维度的全连接层。
在训练过程中,对所有权重使用系数为0.005的l2正则化。所有漏失率均设定为0.2。TEIM-Samp使用学习率为0.0002的亚当优化器进行优化。汇总TEIM-Res的间距预测和接触位点预测的损失,并且使用学习率为0.001的亚当优化器对TEIM-Res进行优化。我们的模型使用Python 3.8.5实现,主要使用Pytorch 1.6.0和Pytorch Lightning 1.0.3。
验证设置
“两者都新”分割设置通过三倍交叉验证进行评价,而“新CDR3”和“新表位”分割设置通过五倍交叉验证进行评价。此类分割设置确保了训练集和验证集之间的序列的相似性不大于0.8。基于“新表位”设置进行详细的模型性能分析。
对于接触预测的验证,我们考虑了三个验证水平:成对水平、CDR3水平和表位水平。成对水平被定义为残基(即接触矩阵中的元素)之间成对接触的验证。CDR3水平的接触得分(即CDR3的接触得分)被定义为沿表位维度的最大接触得分。表位水平的接触得分(即表位的接触得分)被定义为沿CDR3维度的最大接触得分。
我们使用GalaxyPepDock的网络服务器来对接TCR和表位。更具体地,我们上传了整个TCRβ链的结构和表位序列用于对接,并且计算了它们的预测间距矩阵。然后,通过将范围内的那些残基对定义为接触位点,我们计算了相应的预测接触矩阵。然后使用接触得分阈值0.1来预测接触位点。我们下载PepNN并将其安装在Linux服务器上,这也需要完整的TCRβ链和表位作为输入。
CNN的类激活图
我们修改了Grad-CAM算法来计算每个残基对的激活以进行结合预测。Grad-CAM关于TEIM-Samp最后一个CNN层的输出计算预测结合概率的梯度。然后,在将权重和负值削减为零时,使用该梯度沿通道维度对最后一个CNN层的输出进行平均。接下来,将值归一化为介于0和1之间。最后,将窗口大小为5×5的平均池化层应用于矩阵以获得最终类激活图。
TCR组库的分析
我们从Glanville等人那里集结了三个TCR组库,这些组库特定于三个HLA-A:0201呈递的表位,包括NLVPMVATV(SEQ ID NO.5),GLCTLVAML(SEQ ID NO.4)和GILGFVFTL(SEQID NO.3)。我们使用TEIM-Res预测表位的接触位点得分矩阵,其中所有CDR3β位于相应的组库中。然后,对于Glanville等人报告的每个基序,我们收集组库中参与相互作用的所有CDR3,并且然后计算基序位点和非基序位点的平均接触得分。为了探索给定表位的接触位点得分,我们对组库中所有CDR3的接触得分进行平均。
残基结合模式发现
为了验证TEIM-Res的预测是否可应用于结合模式发现,我们分别从真实晶体结构和预测构象中进行模式计算,其中包含来自STCRDab数据集的122个TCR-表位样本。经验证的模式包括不同类型残基对的间距或接触或不同的相对位置。在考虑间距时,仅使用比更近的对,因为此类对一般对构象分析更重要。对于不同类型残基对的间距或接触,仅考虑计数超过30个的那些对,以避免随机性和偏差。由于序列通常具有不同的长度,因此我们计算了从0到1的范围内的序列中各个位点的相对位置,并且然后将该相对位置离散化为10个箱。最终,我们分别评价了从真实情况和预测得出的模式的皮尔逊相关系数。
验证后,我们应用TEIM-Res来预测仅具有序列的结合TCR-表位样本的构象,其中包含先前在预训练阶段中使用的45,481个正样本,以得出相对较大的TCR-表位结合构象数据集。接下来,对于该增强数据集,我们计算了不同类型残基对的间距/接触。类似地,在计算间距模式时,我们仅考虑比更近的这些残基对。特别是,我们还计算了特定残基对在不同相对位置处的接触得分。我们选择九种类型的残基对,这些残基对在增强数据集中具有最多的接触对。包含少于五对的那些位置箱未考虑在内。最后,我们计算了3-mer对的间距/接触倾向。3-mer对的间距和接触得分被定义为相应残基的九个成对组合的平均间距和平均接触得分。在我们的分析中,仅考虑计数超过100个的那些3-mer对,并且仅使用比/>更近的3-mer对进行间距模式发现。
TEIM-Samp的验证和应用
通过对VDJdb和McPAS-TCR数据集进行五倍交叉验证,对TEIM-Samp模型进行评价。在这里,我们仅使用“新表位”分割设置,这保证了训练集和验证集之间的表位的相似性不大于0.5。我们还针对ImmuneCODE数据集中的几个新型表位,利用不同数量的额外训练样本对TEIM-Samp进行微调。
为了验证TEIM-Samp是否能够发现用于结合TCR-表位对的结合基序,我们比较了VDJdb中现有基序的预测结合得分与从三个结合数据集中的所有CDR3计算的背景CDR3β位置权重矩阵(PWM)。对于每个基序或背景CDR3βPWM,我们根据位置权重随机采样10,000个CDR3,并且然后计算给定表位的平均结合得分。验证后,我们生成了该表位的新的基序。特别是,我们首先从背景PWM中随机采样初始CDR3β序列,并且然后使用模拟退火来持续提高结合得分。更具体地,在每次迭代中,我们随机突变CDR3β序列的一个位置,并且预测其与表位的结合得分。如果预测的结合得分在突变后更高,则我们接受序列,否则我们以一定的概率接受该序列。10,000次迭代后,使用结合得分大于0.9的所有CDR3进行新基序的计算。使用Logomaker绘制基序序列标识。
此外,为了验证TEIM-Samp是否可鉴定TCR CDR3β的交叉反应性,我们使用真实情况结合表位和随机采样的表位预测了DMF4 TCR CDR3β的结合得分。随机表位通过从背景表位PWM中进行采样而生成,该背景表位PWM从IEDB表位序列数据集中计算得出。验证后,我们使用以下类似的模拟退火策略来鉴定所有CDR3β的交叉反应性。给定CDR3β序列,我们首先从IEDB表位数据集中进行初始表位采样,并且然后对于每次迭代,我们随机突变一个位置并且预测相应的结合得分。如果结合得分在突变后提高,则我们接受这一变化,否则我们仅以很小的概率接受它。1,000次迭代后,使用结合得分大于0.8的所有表位来评价给定TCRCDR3β的交叉反应性。
实施例2
TEIM-Res在残基水平相互作用预测上显示出优异性能
对TCR-表位对的样本水平结合的预测(即预测其是否可彼此结合)已经得到了相对良好的研究,而残基水平的相互作用预测(即预测其残基如何彼此相互作用)在很大程度上仍然尚未得到探索。在这里,为了表征一对TCR和表位的残基水平结合构象,我们提出了一种基于深度学习的模型,称为残基水平的TCR-表位相互作用建模(TEIM-Res),该模型以CDR3β和表位的序列作为输入并且输出间距矩阵和接触矩阵,这些矩阵分别表示来自CDR3β和表位的所有残基对的相应间距和接触概率。由于只有有限的具有残基水平相互作用标签的可用TCR-表位数据,因此一般很难通过深度学习模型直接预测残基水平的TCR-表位结合。为了解决此类数据缺乏问题,我们利用小样本学习技术。特别是,在训练TEIM-Res之前,我们首先构建了样本水平的二元结合(即输入的CDR3β和表位对是否可彼此结合)预测模型,名为样本水平的TCR-表位相互作用建模(TEIM-Samp),该模型利用大规模样本水平结合数据来隐式学习TCR-表位相互作用的残基水平信息。然后,我们利用TEIM-Samp的参数作为TEIM-Res的初始化,以便在有限的残基水平结合数据上对TEIM-Res进行微调。除了最后的模块,TEIM-Samp和TEIM-Res框架共享几乎相同的模型结构(图1a,方法)。特别是,它们二者都使用两个特征提取器、相互作用提取器和表位自编码器,该特征提取器以CDR3β和表位的序列作为输入来学习信息性特征,该相互作用提取器在两个单独的维度上扩展CDR3β和表位的序列以学习成对残基特征,该表位自编码器提供全局表位信息。TEIM-Samp的最后一个模块是结合预测模块,该模块聚合所有残基对信息以预测TCR-表位对可彼此结合的概率,而TEIM-Res的最后一个模块是残基水平预测模块,用于预测残基对的间距和接触概率。
该模型的核心是相互作用提取器,该相互作用提取器利用二维卷积神经网络(2DCNN)来学习CDR3β与表位对之间的局部相互作用信息。该架构的生物学直觉在于,TCR和表位对之间的结合实际上是由相应的残基对的非共价相互作用决定的。因此,为了预测输入的TCR和表位对是否可彼此结合,原则上该模型还应算出哪些残基对彼此相互作用。在预训练阶段,尽管数据集不包含残基水平信息,但专门设计的相互作用提取器可促进模型从样本水平结合数据中捕获底层的残基水平相互作用。因此,预训练和微调流水线使模型能够利用相对丰富的样本水平相互作用信息,推进残基水平相互作用预测。
我们从VDJdb、McPASTCR和ImmuneCODE中一共获得了122个具有残基水平相互作用标签的TCR-表位对和272,866个仅具有二元样本水平相互作用标签的对(更多详细信息可在“方法”中找到)。我们应用交叉验证策略来评价TEIM-Res的性能。特别是,为避免数据冗余,在以下三种不同的数据分割设置下对该模型进行评价:两者都新分割,其中验证集中的CDR3β和表位序列都不存在于训练集中;新CDR3分割,其中经验证的CDR3β序列不在训练集中;和新表位分割,其中经验证的表位序列不在训练集中。
我们计算每个样本的皮尔逊相关系数、每个样本的中值绝对间距误差和每个样本的中值相对间距误差,以便对成对残基间距预测结果进行评价。在所有三种数据分割设置下,TEIM-Res在间距预测上均表现出很高的准确度(图1b)。即使是最难的两者都新分割设置,其相关系数仍然大于0.9,中值绝对误差小于并且中值相对误差小于0.2。对于接触位点预测,我们基于预测的成对接触位点矩阵(命名为成对水平验证),计算每个样本的接收器工作特征曲线下面积(AUC)和马修斯相关系数(MCC)。此外,我们通过列(即CDR3β维度)或行(即表位维度)最大化来挤压预测的成对接触位点矩阵,得出CDR3β接触位点向量和表位接触位点向量。然后,我们计算CDR3β接触位点向量(即CDR3水平)和表位接触位点向量(即表位水平)的AUC得分和MCC得分。如图1c所示,接触对预测的交叉验证结果证明,TEIM-Res在所有三个数据分割设置和三个验证水平(即成对水平、CDR3水平和表位水平)下均具有强大的预测能力。在所有三个验证水平当中,CDR3水平具有最佳性能,其中中值AUC得分大于0.95并且中值MCC得分大于0.65。总的说来,这些结果表明,TEIM-Res可准确预测CDR3β与表位之间的残基对的间距和接触概率。我们还对表位自编码器进行了消融研究,并且证明了其在预测方面的有效性(图7)。
接下来,我们相比于几种基线方法(包括对接和基于深度学习的其他方法)对TEIM-Res进行基准测试,用于残基间距预测和接触残基预测。由于TCR-表位相互作用可被视为蛋白质-肽相互作用的特例,因此我们将TEIM-Res与现有技术的肽-蛋白质对接方法(称为GalaxyPepDock)进行比较,GalaxyPepDock以蛋白质结构和肽序列作为输入。如图1e所示,我们报告了TEIM-Res和GalaxyPepDock在残基间距预测任务上的皮尔逊相关系数、中值绝对误差和中值相对误差,并且显示TEIM-Res在所有这些评价指标上都远远优于GalaxyPepDock。
我们还相比于最初提出的两种基于深度学习的肽-蛋白质接触预测方法(即PepNN-Seq和PepNN-Struc),在接触位点预测任务上对TEIM-Res进行了基准测试。PepNN-Seq需要蛋白质和肽的序列作为输入,而PepNN-Struc另外需要蛋白质结构作为输入(更多详细信息可在“方法”中找到)。比较结果证明,在AUC和MCC得分方面,我们的模型在接触位点预测方面的表现比PepNN-Seq和PepNN-Struc好得多(图1d)。显而易见地,PepNN-Seq和PepNN-Struc在TCR表位样本上的性能强差人意。一个原因可能在于,它们二者都以TCRβ链的完整序列作为输入,并且因此只能粗略地识别接触概率相对较高的CDR3β区域,而不是精确地识别CDR3β序列中的所有接触位点。另一个原因可能在于,尽管TCR-表位相互作用是蛋白质-肽相互作用的特例,但它们基本上具有独特的模式(例如锚定残基),该模式无法被PepNN-Seq和PepNN-Struc有效捕获。另外,TEIM-Res与PepNN-Seq和PepNN-Struc相比还有另外两个优势。首先,TEIM-Res仅将序列信息作为输入,而PepNN-Struc另外需要TCR的结构。其次,TEIM-Res可预测成对接触矩阵(即残基对的接触概率),而PepNN-Seq和PepNN-Struc只能预测表位上的接触位点。总得说来,在残基间距预测和接触位点预测任务方面,TEIM-Res都远远优于其他现有技术的方法。
实施例3
详细分析模型性能揭示TEIM-Res的优越性
通过研究样本的不同特征如何影响预测准确度,我们对我们的预测结果进行进一步分析。我们的模型在大多数样本上显示出很高的准确度(图8),但可能无法对与高MHC对接角度(被定义为TCR与MHC相互作用的角度)或长CDR3β序列(图2a,2b)相关的样本进行准确预测。我们检查了具有高MHC对接角度(PDB ID:5SWS和5SWZ)的那些样本,并且发现它们的β链CDR3不是直接与表位相互作用,而是与MHC-I分子直接相互作用,这实际上是典型TCR-pMHC对接构象的异常现象。我们还发现,与较短的序列相比,长度超过16个残基的CDR3和长度超过10个残基的表位可能获得略差的性能(图2a、图2b),这可能是由于数据大小不足所致(图9)。然而,即使是最差的样本,仍然达到了大于0.6的可接受的相关系数。
接下来,我们评价了所有残基对的间距预测和接触预测的性能(图2c、图2d和图10)。所有残基对的预测间距和真实间距显示出高度相关性(皮尔逊相关系数0.88,图2c),并且我们的模型还可在所有三个不同的验证水平当中区分处接触残基对和非接触残基对(图2d)。不同类型氨基酸的残基对显示出不同的准确度(图11)。例如,在所有接触对当中,包含具有苯环(即色氨酸(W)、苯丙氨酸(F)和酪氨酸(Y))的残基的那些接触对具有更高的预测接触得分。这些性能差异不是由数据集中不同的对数引起的(图12),这表明该模型不仅记住了数据集,而且真正学习了残基之间的底层相互作用模式。接下来,我们使用PLIP来注释残基对是否具有非共价力(疏水相互作用或氢键),并且探索非共价力是否与预测准确度相关。参与疏水相互作用或氢键的残基对显示出相对较高的预测接触得分(图2f),这可通过以下事实进行解释:参与非共价键的残基对一般比其他接触对具有更近的间距,并且由此更容易被预测为接触对。
然后,我们通过消融研究分析预训练阶段的有效性。我们将我们的原始流水线与两个经修改的流水线进行比较:“微调最后”流水线,其中预训练阶段保持不变,但仅对TEIM-Res的最后一个模块(即残基水平预测模块)进行微调;和“无预训练”流水线,其中我们跳过了预训练阶段,并且直接对随机初始化的TEIM-Res进行训练。在两者都新分割设置下并且在皮尔逊相关系数(Corr.)、绝对误差、相对误差、AUC得分和MCC得分(图2e)方面,我们通过交叉验证对这三条流水线进行评价。与使用“微调最后”或“无预训练”流水线的经修改的模型相比,我们的模型获得了更好的性能,从而表明了我们的训练流水线的有效性。另外,即使是仅微调输出模块(“微调最后”)的模型,仍然获得了比没有预训练(“无预训练”)的模型更好的性能,这证明预训练阶段显著促进了最终残基水平结合预测。
此外,为了研究TEIM-Samp在预训练阶段学到了多少残基水平信息,我们仔细研究了关于TEIM-Samp的类激活图(CAM)的详细信息。CAM是一种用于解释计算机视觉领域CNN架构预测(更多详细信息可在“方法”中找到)的常用可视化方法,并且通常被理解为输入图像中单个像素对最终分类的贡献度。在这里,在TEIM-Samp中,CAM可被解释为每个残基对对二元结合预测结果的贡献程度。直观地说,间距更近的残基对通常对最终预测的贡献度更大。为了验证这一点,对于数据集中复合体结构已知的所有TCR-表位样本,我们计算了TEIM-Samp得出的CAM与残基之间真实间距之间的相关性。正如预期的,大多数样本在得出的CAM与残基之间真实间距之间显示出高度负相关(图2g),这证实了经预训练的模型已经学习了残基水平的相互作用信息。因此,尽管预训练阶段不牵涉任何残基水平结合数据,但通过从样本水平结合数据中学习潜存的残基水平相互作用信息,我们的模型实际上可捕获对结合预测有贡献度的不同残基对的重要性。所有这些结果说明,我们的模型架构具有从数据中提取底层相互作用信息的强大能力,并且预训练阶段对于下游残基水平相互作用预测而言至关重要。
实施例4
TEIM-Res成功捕获TCR-表位相互作用的细微突变效应
为了更好地理解TCR-表位对之间的详细相互作用,我们进一步研究了TEIM-Res是否可通过虚拟突变CDR3β或表位序列来揭示突变如何影响结合活性和构象。为了验证这一想法,我们在经过充分研究的TCR-表位样本(A6 TCR和HLA-A:0201呈递的Tax表位(命名为A6-Tax))的可用突变数据上,对我们的模型进行了测试。对于野生型A6-Tax复合体(其中CDR3β和表位的序列分别为CASRPGLAGGRPEQYF(SEQ ID NO.6)和LLFGYPVYV(SEQ IDNO.7)),TEIM-Res可准确捕获两个接触区域,这些区域对应于表位的残基Y5和残基P6V7Y8与CDR3β的残基的相互作用(实验确定的结合构象和预测的接触/间距可分别在图3a和图13中找到)。接下来,我们从以往的研究中收集A6-Tax复合体的突变序列(图26),并且然后应用TEM-Res来预测这些突变样本的结合构象。通过比较野生型和突变A6-Tax的预测结果,我们发现突变样本的间距变化和接触变化与以往研究报告的亲和力变化ΔΔG高度相关(图3b),表明TEIM-Res在检测序列细微突变和揭示结合亲和力变化中具有强大的能力。
在突变样本当中,我们检查了亲和力下降最多的突变样本(命名为A6 L7A-TaxY8A)的构象变化。该样本只有两个突变位点:CDR3β的L7A和表位的Y8A。通过预测突变样本的间距矩阵和接触矩阵,我们发现突变位置周围的大多数残基对移动得更远,并且在突变后显示接触得分降低(图3c和图14)。所有残基对的平均间距变化为并且最近间距从/>变为/>表明相应结合呈正松弛。对于野生型样本的前20个最近的对的位置,它们之中的大多数在突变后变得更加远离(图3d,标记为L7A-Y8A)。另外,接触对的数量从22减少到17,并且相互作用的残基对的总接触得分从9.21减少到5.40,这表明突变后CDR3β和表位的结合要弱得多。
我们进一步探索了两个突变位点如何单独促进构象变化和结合变化。通过预测仅具有CDR3β的L7A突变的样本(命名为A6 L7A-Tax)与仅具有表位的Y8A突变的样本(命名为A6-Tax Y8A)的相互作用构象,我们比较了前20个最近的对的间距,并且发现两个突变位点都有助于降低A6L7A-Tax Y8A样本的亲和力(图3d)。例如,对于仅L7A突变、仅Y8A突变和两个突变,野生型样本的最近的对的间距分别增加了和/>对于仅L7A突变、仅Y8A突变和两种突变,所有接触对的平均间距变化分别为/>和/>表明Y8A突变对整体亲和力降低的贡献度可能更大。对A6 L7A-Tax Y8A突变样本的另一个有趣的观察是,除了参与突变的残基外,表位的残基Y5(其与表位的突变位点Y8相距三个残基)也遭遇间距明显增加和接触得分降低(图3c)。通过分析A6 L7A-Tax和A6-Tax Y8A样本的预测构象变化,我们发现与表位的Y5残基对应的间距和接触变化主要是由表位的Y8A突变引起的(图15和图16)。而且,CDR3-表位残基对R4-Y5的接触得分展示出明显的下降(图16e),这与以往的研究一致,在以往的研究中,Ding等人发现Y8A突变诱导CDR3β环远离表位,并且由此导致R4-Y5对之间的氢键断裂(图16f)。总之,这些分析结果表明,TEIM-Res可准确捕获TCR-表位复合体的细微构象变化和远隔突变效应。对于诸如优化用于免疫治疗的TCR序列和鉴定用于癌症疫苗设计的有效治疗表位等应用,TEIM-Res捕获的此类信息可提供有用的生物学见解。
实施例5
TEIM-Res从大规模组库数据中检测TCR和表位的关键接触位点
对于由特定表位激发的大TCR组库,TEIM-Res可预测所有TCR与表位之间的结合构象,并且由此揭示TCR和表位的关键接触位点。Glanville等人提出了GLIPH(通过互补位热点对淋巴细胞相互作用进行分组)来鉴定TCR组库中丰富的CDR3β基序。因此,我们通过比较GLIPH揭示的CDR3β基序与那些非基序位点的预测接触得分,对我们的模型进行验证。如图4a所示,基序的预测接触得分显著高于非基序区域的预测得分。这些结果进一步验证了,通过GLIPH获得的CDR3β基序更可能是参与TCR-表位相互作用的接触位点。图4b显示了包含基序RSAY的六个代表例,其中对于所有这六个CDR3β序列,四残基基序的预测接触得分远远高于非基序区域的预测接触得分。
此外,对于单个表位,通过对组库中所有CDR3β的预测接触得分进行评价,我们探索了关键的接触位点。特别是,我们分析了三个表位的预测接触得分(图4c),并且将其与这三个表位与伴侣TCR结合的相应晶体结构复合体进行了比较(图4d和图17)。即使三个表位具有不同的结合构象,该预测也与真实结构完全匹配。更具体地,第一个表位GILGFVFTL(SEQ ID NO.3)在界面处呈现相对平坦的表面,其中该表位的关键接触位点为V6和F7,并且其余残基因为位置远离关键位点,其接触得分降低。第二个表位GLCTLVAML(SEQ ID NO.4)具有两个关键接触位点,即L5和V6,并且其余残基因为位置远离关键位点,其接触得分一般较低。然而,我们注意到A7位点与其两个相邻位点相比得分相对较低,这可通过以下事实解释:A7残基与其相邻残基相比侧链基团小得多,并且被埋在MHC分子的表面下。因此,与其相邻位点相比,A7不太可能与CDR3β接触。第三个表位NLVPMVATV(SEQ ID NO.5)在界面处形成凹槽以保持CDR3β环,并且因此与形成凹槽的四个残基MVAT(SEQ ID NO.8)相比,凹槽外部的残基的接触得分要低得多。在该凹槽内,M5和A7残基的接触得分高于V6和T8,因为M5和A7的侧链更接近环。所有这三个表位的预测接触得分与其复合体结构精确匹配,表明这些预测可大大协助人们更好地理解TCR-表位相互作用的底层结合机制。
实施例6
TEIM-Res为发现TCR-表位相互作用的规则和模式提供有用信息
为了进一步挖掘更多关于TCR-表位相互作用的知识,我们可直观地利用统计方法来分析TCR-表位复合体结构数据集STCRDab,以便获得细粒度模式,诸如不同残基对的间距分布和接触倾向以及不同位置的接触倾向。然而,由于可用的结构数据有限,通过从数据集对频率进行计数而计算出的这些估计模式可能会遭受偏差,并且由此偏离真实模式。现在利用TEIM-Res,我们可准确地预测给定TCR-表位序列对的结合构象,这意味着我们可利用TEIM-Res从序列数据中构建出大规模预测结合构象数据集,并且将该增强的数据集用于结合模式发现。
首先,我们检查从我们的预测中得出的模式与从STCRDab数据集中的真实情况构象中计算的那些模式是否一致(图5a)。特别是,我们分别基于真实构象和预测构象,计算不同残基对或位置的平均间距和接触得分(图5d和图18和图19)。比较显示,从我们预测的构象所计算的模式与从真实构象所获得的模式一致,相关性在0.76至0.94的范围内(图5d和图19c)。接下来,我们从序列数据中得出TEIM-Res预测的增强的大规模构象数据集,以便对残基结合模式进行分析(图20)。我们发现,不同类型的残基对展现出完全不同的间距分布和接触倾向(图5b、图5c)。例如,CDR3的色氨酸(W)残基倾向于与表位的残基形成紧密接触,而CDR3的半胱氨酸(C)很少形成接触。表位的苯丙氨酸(F)残基和蛋氨酸(M)残基更可能具有近间距并且与CDR3残基形成接触。另外,不同类型的接触残基对也表现出不同的接触位置(图21)。例如,接触对蛋氨酸-蛋氨酸(M-M)预期在表位的C端中间或附近形成接触,而接触对色氨酸-苯丙氨酸(W-F)在表位的几乎所有位置形成接触。我们进一步将CDR3β和表位序列分成3-mer,并且然后分析了相应的3-mer对的间距和接触分布(图5e)。几个3-mer更倾向于与其他3-mer(诸如CDR3的TGT和GTG以及表位的MVA和FVF)形成接近的间距或接触。我们还探讨了接触位点与序列长度之间的关系(图5f和图22、图23)。我们发现,随着CDR3β序列的长度的增加,接触位点的数量变得更加发散(图5f)。随着表位长度的增加,观察到类似的现象(图23b)。作为案例研究,我们研究了长度为15的CDR3的接触位置和长度为9的表位的接触位置。我们发现,CDR3通常在第5位至第11位形成接触位点,并且最近的位置更可能位于第7位(图22b、图22c),而表位通常倾向于在第4位至第8位形成接触位点,并且最近的位点更可能位于第7位(图23c、图23d)。这些有趣的结果可关于理解TCR-表位相互作用的分子水平机制提供有用的提示。
实施例7
TEIM-Samp在样本水平结合预测上展现出优异性能并且具有巨大的应用潜力
TEIM-Samp是在我们的预训练阶段获得的副产品,最初用于TEIM-Res初始化。现在,我们使用交叉验证来评价其在样本水平结合预测上的性能,并且将其与ImRex进行比较,ImRex是一种用于TCR-表位结合预测的现有技术方法。我们的测试结果显示,与ImRex相比,TEIM-Samp对于大多数表位表现出更高的接收器工作特性曲线下面积(AUC)和精度召回曲线下面积(AUPR)(图6a)。
接下来,我们介绍TEIM-Samp的三种潜在应用。首先,对于新的表位,TEIM-Samp可直接预测其与不同TCR的结合概率,并且在根据额外数据进行微调后获得更好的性能(图6b)。其次,TEIM-Samp可用于发现给定表位的TCR基序。作为示例,对于表位GILGFVFTL(SEQID NO.3),我们首先从VDJdb数据库中验证其TCR结合基序,并且进一步检查TEIM-Samp是否可从背景中区分出基序。我们的分析显示,所有基序的预测结合得分都高于背景(图6c),证明TEIM-Samp能够从背景中鉴定出TCR结合基序。然后,我们应用TEIM-Samp为该表位搜索新的基序(图6d和图24)。第三,我们采用TEIM-Samp检测给定TCR的交叉反应性,该交叉反应性被定义为TCR可识别不同表位的能力。首先,我们在交叉反应性已知的DMF4 TCR上对TEIM-Samp进行验证,并且发现TEIM-Samp成功鉴定出可与TCR结合的表位(图25)。然后,我们计算两个TCR CDR3β(CASSIGSYGYTF(SEQ ID NO.1)和CASSIGTHEAFF(SEQ ID NO.9))的交叉反应性,这二者均为表位GILGFVFTL(SEQ ID NO.3)的结合基序的共有序列。前者对表位显示出更好的特异性,而后者倾向于识别单个位置上的多个残基(图6e)。这些结果可帮助选择最佳TCR以便于TCR-T治疗。因此,TEIM-Samp还可为TCR-表位结合预测提供强有力的工具,并且由此具有巨大的应用潜力。
虽然本文已展示和描述本发明的优选实施方案,但本领域技术人员将显而易见的是,这些实施方案仅仅通过示例的方式提供。本发明不受说明书中提供的具体实施例的限制。虽然已参考前述说明书对本发明进行描述,但本文中对实施方案的描述和说明并非是限制性。在不脱离本发明的情况下,本领域技术人员将会想到许多变型、变化和替代方案。此外,应当理解,本发明的所有方面均不限于本文所阐述的具体叙述、配置或相对比例,这些取决于各种条件和变量。应理解的是,可以采用本文所描述的本发明实施方案的各种替代方式来实践本发明。因此,设想本发明应同样涵盖任何此类替代方式、修改、变型或等效物。随附权利要求书旨在限定本发明的范围,并且借此涵盖这些权利要求的范围内的方法和结构及其等效物。
Claims (18)
1.一种确定分子-分子相互作用的方法,其中所述方法包括确定所述分子相互作用时的间距和/或结合概率。
2.根据权利要求1所述的方法,所述方法为确定T细胞受体TCR与表位的相互作用。
3.根据权利要求2所述的方法,所述方法包括获得包含所述TCR的序列和所述表位的序列的训练数据集。
4.根据权利要求1至3中任一项所述的方法,所述方法包括在所述训练数据集上训练模型。
5.根据权利要求4所述的方法,所述模型包括卷积神经网络CNN。
6.根据权利要求4至5中任一项所述的方法,所述模型还包括小样本学习器。
7.根据权利要求4至6中任一项所述的方法,所述模型包括特征提取器,且所述特征提取器获得所述TCR的所述β链CDR3的所述序列和所述表位的所述序列的信息性特征。
8.根据权利要求2至7中任一项所述的方法,所述TCR的β链CDR3的序列和表位的序列被扩展到不同维度以形成相互作用特征图。
9.根据权利要求4至8中任一项所述的方法,所述模型包括相互作用提取器,且所述相互作用提取器获得所述TCR的所述β链CDR3的所述序列和所述表位的所述序列的成对残基特征。
10.根据权利要求4至9中任一项所述的方法,所述模型还包括自编码器,且所述自编码器将从所述表位数据库获得的所述表位序列编码为维度为32的向量。
11.根据权利要求10所述的方法,所述自编码器包括1D CNN模块。
12.根据权利要求10至11中任一项所述的方法,所述自编码器向所述相互作用提取器提供从所述表位数据库获得的所述表位序列的所述信息性特征。
13.根据权利要求4至12中任一项所述的方法,所述模型还包括结合预测模块,且所述结合预测模块提供样本水平结合预测,所述样本水平结合预测包括输入TCR-表位对的结合概率。
14.根据权利要求4至13中任一项所述的方法,所述模型还包括残基水平预测模块,且所述残基水平预测模块提供所述输入TCR-表位对的所述残基对的所述间距和/或结合概率。
15.根据权利要求14所述的方法,所述残基水平预测模块包括具有输出通道的2D CNN模块,且所述输出通道中的一个输出通道提供具有ReLU激活函数的残基间距。
16.根据权利要求14至15中任一项所述的方法,所述输出通道中的一个输出通道提供作为所述S型激活函数的结合位点的概率,所述结合位点被定义为约5埃米内的那些残基对。
17.一种用于确定分子-分子相互作用的系统,所述系统包括包含可执行指令的存储器;和处理器,所述处理器被配置为执行所述可执行指令并且使所述系统:确定所述分子相互作用时的间距和/或结合概率,且所述系统被配置为执行权利要求1至16中任一项所述的方法。
18.一种用于确定分子-分子相互作用的装置,所述装置包括指令,当所述装置由计算机执行时,所述指令使所述计算机执行权利要求1至16中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022091594 | 2022-05-09 | ||
CNPCT/CN2022/091594 | 2022-05-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117347613A true CN117347613A (zh) | 2024-01-05 |
Family
ID=89365640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310508490.5A Pending CN117347613A (zh) | 2022-05-09 | 2023-05-08 | 表征t细胞受体与表位之间相互作用构象的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117347613A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119207572A (zh) * | 2024-11-19 | 2024-12-27 | 苏州创腾软件有限公司 | 基于深度学习框架的t细胞表位高通量筛选方法和装置 |
-
2023
- 2023-05-08 CN CN202310508490.5A patent/CN117347613A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119207572A (zh) * | 2024-11-19 | 2024-12-27 | 苏州创腾软件有限公司 | 基于深度学习框架的t细胞表位高通量筛选方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ruffolo et al. | Geometric potentials from deep learning improve prediction of CDR H3 loop structures | |
Yin et al. | Benchmarking AlphaFold for protein complex modeling reveals accuracy determinants | |
Venkatraman et al. | Protein-protein docking using region-based 3D Zernike descriptors | |
US11869629B2 (en) | Systems and methods for artificial intelligence-guided biomolecule design and assessment | |
KR20230164757A (ko) | Mhc 펩티드 결합 예측을 위한 gan-cnn | |
WO2022072722A1 (en) | Deep learning system for predicting the t cell receptor binding specificity of neoantigens | |
US20230034425A1 (en) | Systems and methods for artificial intelligence-guided biomolecule design and assessment | |
CN111429965B (zh) | 一种基于多连体特征的t细胞受体对应表位预测方法 | |
Hummer et al. | Investigating the volume and diversity of data needed for generalizable antibody–antigen ΔΔ G prediction | |
CA3226172A1 (en) | Systems and methods for artificial intelligence-guided biomolecule design and assessment | |
Do Viet et al. | TAPO: A combined method for the identification of tandem repeats in protein structures | |
Widrich et al. | DeepRC: immune repertoire classification with attention-based deep massive multiple instance learning | |
CN117347613A (zh) | 表征t细胞受体与表位之间相互作用构象的方法 | |
Deutschmann et al. | Do domain-specific protein language models outperform general models on immunology-related tasks? | |
Liu et al. | Pre-training of graph neural network for modeling effects of mutations on protein-protein binding affinity | |
Zhang et al. | FCMSTrans: accurate prediction of disease-associated nsSNPs by utilizing multiscale convolution and deep feature combination within a transformer framework | |
Hu et al. | Protein-peptide binding residue prediction based on protein language models and cross-attention mechanism | |
Zhao et al. | Improving antibody optimization ability of generative adversarial network through large language model | |
Regad et al. | A Hidden Markov Model applied to the protein 3D structure analysis | |
Wang et al. | Improving paratope and epitope prediction by multi-modal contrastive learning and interaction informativeness estimation | |
Jiang et al. | From Traditional Methods to Deep Learning Approaches: Advances in Protein–Protein Docking | |
Li et al. | ESMDNN-PPI: a new protein–protein interaction prediction model developed with protein language model of ESM2 and deep neural network | |
WO2023031207A1 (en) | Methods for predicting epitope specificity of t cell receptors | |
CN116325002A (zh) | 使用辅助折叠网络预测蛋白质结构 | |
Joshi | A decade of computing to traverse the labyrinth of protein domains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |