CN115424740B - 基于ngs和深度学习的肿瘤免疫治疗效果预测系统 - Google Patents
基于ngs和深度学习的肿瘤免疫治疗效果预测系统 Download PDFInfo
- Publication number
- CN115424740B CN115424740B CN202211219172.9A CN202211219172A CN115424740B CN 115424740 B CN115424740 B CN 115424740B CN 202211219172 A CN202211219172 A CN 202211219172A CN 115424740 B CN115424740 B CN 115424740B
- Authority
- CN
- China
- Prior art keywords
- neoantigen
- polypeptide
- tumor
- analyzing
- neoantigens
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 63
- 238000009169 immunotherapy Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 230000000694 effects Effects 0.000 title claims abstract description 11
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 41
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 41
- 229920001184 polypeptide Polymers 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 238000004393 prognosis Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000012417 linear regression Methods 0.000 claims abstract description 11
- 239000000427 antigen Substances 0.000 claims abstract description 8
- 108091007433 antigens Proteins 0.000 claims abstract description 8
- 102000036639 antigens Human genes 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 6
- 210000001744 T-lymphocyte Anatomy 0.000 claims description 15
- 108090000623 proteins and genes Proteins 0.000 claims description 10
- 230000027455 binding Effects 0.000 claims description 8
- 230000005847 immunogenicity Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 8
- 210000004027 cell Anatomy 0.000 claims description 7
- 230000035772 mutation Effects 0.000 claims description 6
- 206010069754 Acquired gene mutation Diseases 0.000 claims description 5
- 238000003559 RNA-seq method Methods 0.000 claims description 5
- 230000037439 somatic mutation Effects 0.000 claims description 5
- NTMYVTSWQJFCPA-UHFFFAOYSA-N (2-tert-butylpyrimidin-5-yl)oxy-ethoxy-propan-2-yloxy-sulfanylidene-$l^{5}-phosphane;[cyano-(4-fluoro-3-phenoxyphenyl)methyl] 3-(2,2-dichloroethenyl)-2,2-dimethylcyclopropane-1-carboxylate Chemical compound CCOP(=S)(OC(C)C)OC1=CN=C(C(C)(C)C)N=C1.CC1(C)C(C=C(Cl)Cl)C1C(=O)OC(C#N)C1=CC=C(F)C(OC=2C=CC=CC=2)=C1 NTMYVTSWQJFCPA-UHFFFAOYSA-N 0.000 claims description 4
- 108090000695 Cytokines Proteins 0.000 claims description 4
- 102000004127 Cytokines Human genes 0.000 claims description 4
- 101000914514 Homo sapiens T-cell-specific surface glycoprotein CD28 Proteins 0.000 claims description 4
- 108091008874 T cell receptors Proteins 0.000 claims description 4
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 claims description 4
- 102100027213 T-cell-specific surface glycoprotein CD28 Human genes 0.000 claims description 4
- 210000002865 immune cell Anatomy 0.000 claims description 4
- 230000000638 stimulation Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007481 next generation sequencing Methods 0.000 abstract description 13
- 230000001225 therapeutic effect Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 16
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 8
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 8
- 201000001441 melanoma Diseases 0.000 description 6
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 5
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 5
- 229940045513 CTLA4 antagonist Drugs 0.000 description 4
- 238000002619 cancer immunotherapy Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 3
- 102000037984 Inhibitory immune checkpoint proteins Human genes 0.000 description 3
- 108091008026 Inhibitory immune checkpoint proteins Proteins 0.000 description 3
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 3
- 210000004698 lymphocyte Anatomy 0.000 description 3
- 239000012275 CTLA-4 inhibitor Substances 0.000 description 2
- 230000005867 T cell response Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 210000002540 macrophage Anatomy 0.000 description 2
- 230000009149 molecular binding Effects 0.000 description 2
- 230000000869 mutational effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 210000001266 CD8-positive T-lymphocyte Anatomy 0.000 description 1
- 108010021064 CTLA-4 Antigen Proteins 0.000 description 1
- 102000008203 CTLA-4 Antigen Human genes 0.000 description 1
- 102100037850 Interferon gamma Human genes 0.000 description 1
- 108010074328 Interferon-gamma Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 102000043129 MHC class I family Human genes 0.000 description 1
- 108091054437 MHC class I family Proteins 0.000 description 1
- 208000006265 Renal cell carcinoma Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000011467 adoptive cell therapy Methods 0.000 description 1
- 208000037844 advanced solid tumor Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 150000001413 amino acids Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005812 autoimmune toxicity Effects 0.000 description 1
- 231100001152 autoimmune toxicity Toxicity 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000005859 cell recognition Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000139 costimulatory effect Effects 0.000 description 1
- 230000003013 cytotoxicity Effects 0.000 description 1
- 231100000135 cytotoxicity Toxicity 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 210000004443 dendritic cell Anatomy 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036737 immune function Effects 0.000 description 1
- 230000002163 immunogen Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 229960005386 ipilimumab Drugs 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 210000003071 memory t lymphocyte Anatomy 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 210000004180 plasmocyte Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 210000003289 regulatory T cell Anatomy 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001541 thymus gland Anatomy 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 230000005851 tumor immunogenicity Effects 0.000 description 1
- 230000005909 tumor killing Effects 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Medicinal Chemistry (AREA)
- Toxicology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Pharmacology & Pharmacy (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Peptides Or Proteins (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于下一代测序(NGS)和免疫治疗技术领域,具体涉及基于NGS和深度学习的肿瘤免疫治疗效果预测系统本发明的预测系统包括:多肽预测模块,用于分析患者肿瘤组织和单细胞的测序数据,分析HLA分型,并预测SNV、indel和fusion来源的多肽;新生抗原筛选模块,用于分析所述多肽,筛选可行度高的新生抗原;评分模块,用于采用循环神经网络RNN构建的模型对新生抗原进行打分,得到新生抗原负荷评分;预后预测模块,用于将新生抗原负荷评分代入多元线性回归模型,预测免疫治疗的治疗结局。本发明应用于临床能够为临床医生提供治疗用药指导,具有很好的应用前景。
Description
技术领域
本发明属于下一代测序(NGS)和免疫治疗技术领域,具体涉及基于NGS和深度学习的肿瘤免疫治疗效果预测系统。
背景技术
癌症免疫治疗领域近年来取得了多项重大突破,其中免疫检查点抑制剂(ICBs)被用于治疗多种癌症,包括晚期非小细胞肺癌、黑色素瘤和肾细胞癌的一线治疗。除了免疫检查点抑制剂,过继细胞疗法和肿瘤疫苗也是常见的癌症免疫疗法。这些癌症免疫治疗的基本机制是T细胞通过识别肿瘤细胞膜上的主要组织相容性复合物(MHC)所递呈的肿瘤新抗原来发挥免疫功能,进而摧毁癌细胞。
所以,肿瘤新抗原在当前肿瘤免疫治疗中发挥着重要作用。最常被研究的肿瘤新抗原包括来自单核苷酸变异(SNV)和插入或缺失(indel)的新生抗原,另外,基因融合也被报道是其理想来源。理论上,肿瘤新抗原是理想的癌症免疫治疗靶点,因为它们是正常人体组织中不存在的外源性蛋白。因此,对这些新抗原具有特异性的肿瘤杀伤T细胞可以逃避胸腺的阴性选择,并且不太可能触发自身免疫毒性。
测序技术的飞速发展,尤其是二代测序技术的应用降低了体细胞突变(SNV&indel)和染色体结构变异(SV)等的检测难度。临床相关数据与技术创新相结合,对肿瘤进行测序,并对肿瘤患者的个体化T细胞反应进行功能性解剖,促进了以新抗原为靶点的免疫疗法的发展。肿瘤免疫原性是启动肿瘤免疫治疗的基础,所以能够产生与MHC高亲和力结合的新生抗原,免疫应答的可能性就会越高;作为新抗原形成的指标,一些临床研究已经检验了肿瘤突变负荷(TMB)是否与肿瘤免疫治疗的临床反应性相关。PD-1阻断的非小细胞肺癌临床益处与TMB相关;在接受抗CTLA-4治疗的黑色素瘤患者中也观察到了类似的相关性,但是较弱。TMB最近被报道为一个不完美的生物标志物,尚无法预测纳武利尤单抗联合伊匹木单抗相比化疗带来的总体生存期的改善,而仅能预测PFS。此外,一项包含120名晚期实体瘤患者的抗PD-1/CTLA-4联合免疫疗法的二期临床研究表示,TMB在免疫治疗中并不能预测治疗效果。TMB越高,最后能够被T细胞识别的新抗原理论上产生也越多。但是,TMB仅代表产生肿瘤新抗原的可能性,不代表新抗原质量。
要准确鉴定患者的新抗原是困难的,目前主流的新生抗原预测的主要依赖体细胞错义突变来源(如SNV和indel)的多肽,由于这些方法没有考虑当两个基因在基因组中重排异常转录产生的融合基因,相关研究者也开发了关于融合基因的新抗原预测流程,基于MHC分子与多肽结合预测的新抗原筛选流程详细的有:pVAC-seq,TSNAD,Neopepsee和INTEGRATE-neo等。总的来说, 目前新抗原预测的流程“核心”基本一致,但是,均只考虑了多肽和MHC分子结合或者pMHC的潜在免疫原性(体外T细胞识别可能性预测),忽视了肿瘤微环境的影响,以及肿瘤患者体内针对这些抗原的T细胞反应的数量。此外,尚缺乏一个整合肿瘤基因组和转录组检测新抗原负荷预测的流程和可靠的综合性标志物以准确预测肿瘤免疫应答。
目前预测免疫治疗疗效的方法仅局限于预测肿瘤的突变数量或者新生抗原数量,忽视了肿瘤微环境的影响,以及肿瘤患者体内针对这些抗原的T细胞分化,即CD8+ T细胞扩增、耗竭状态。这使得免疫治疗的预后准确性存在较大的问题。因此,开发更加准确的免疫治疗预后方法仍然是本领域亟需解决的问题。
发明内容
针对现有技术的问题,本发明提供一种基于NGS数据和深度学习的肿瘤免疫治疗的预后预测方法和系统,目的在于实现更加准确的肿瘤免疫治疗疗效和预后预测。
一种基于NGS和深度学习的肿瘤免疫治疗效果预测方法,其包括如下步骤:
步骤1,分析患者肿瘤组织和单细胞的测序数据,分析HLA-I的分型,并预测SNV、indel和fusion来源的多肽;
步骤2,分析所述多肽,筛选可信度高的新生抗原;
步骤3,采用循环神经网络RNN构建的模型对步骤2得到的新生抗原进行打分,得到新生抗原负荷评分;
步骤4,将步骤3得到的新生抗原负荷评分代入多元线性回归模型,预测免疫治疗的治疗结局。
优选的,步骤1具体包括如下步骤:
步骤1.1,使用polysolver预测HLA-I的分型结果;
步骤1.2,利用GATK、Mutect2、VEP和ANNOVAR检测出高质量的SNV和indel并进行突变注释;
步骤1.3,利用Genefuse检测DNA层面上的融合基因并用STAR-Fusion和Arriba获得RNA-seq数据中高可信度的融合转录本;
步骤1.4,通过NeoPredpipe输出突变多肽的信息。
优选的,步骤2具体包括如下步骤:
步骤2.1,利用netMHCpan分析步骤1得到的HLA-I和多肽的亲和力;
步骤2.2,保留输出为“strong binding,%rank<0.5”的多肽,将其作为可信度高的新生抗原。
优选的,所述模型为deepHLApan。
优选的,所述新生抗原评分包括:对多肽和MHC分子的相互作用的评分,和/或,对T细胞受体和多肽-MHC复合物(TCR-pMHC)的相互作用的评分。
优选的,所述CD8-Tex多元线性回归模型纳入的预测变量包括:所述新生抗原负荷评分、HLA-I类分子mRNA表达水平、HLA-I/B2M体细胞突变、共刺激分子CD28和CD86的表达水平、免疫微环境中的细胞因子的含量、免疫细胞的含量和临床协变量。
优选的,所述多元回归模型为:
NEO2ISIi=β1×S1i+β2×S2i+β3×S3i+εi
其中,NEO2ISIi为肿瘤样本i中由新生抗原刺激引起的CD8+ T 细胞的扩增、耗竭状态,S1i、S2i、S3i分别为肿瘤样本i中的SNV,indel和Fusion来源的新生抗原负荷评分,β1、β2、β3为系数,εi为肿瘤样本i的肿瘤微环境中的其他变量的影响,即残差值。
本发明还提供一种基于NGS和深度学习的肿瘤免疫治疗效果预测系统,其包括:
多肽预测模块,用于分析患者肿瘤组织和单细胞的测序数据,分析HLA分型,并预测SNV、indel和fusion来源的多肽;
新生抗原筛选模块,用于分析所述多肽,筛选可行度高的新生抗原;
评分模块,用于采用循环神经网络RNN构建的模型对新生抗原进行打分,得到新生抗原负荷评分;
预后预测模块,用于将新生抗原负荷评分代入多元线性回归模型,预测免疫治疗的治疗结局。
优选的,所述多肽预测模块的工作具体包括如下步骤:
步骤1.1,使用polysolver预测HLA-I的分型结果;
步骤1.2,利用GATK、Mutect2、VEP和ANNOVAR检测出高质量的SNV和indel并进行突变注释;
步骤1.3,利用Genefuse检测DNA层面上的融合基因并用STAR-Fusion和Arriba获得RNA-seq数据中高可信度的融合转录本;
步骤1.4,通过NeoPredpipe输出突变多肽的信息。
优选的,所述新生抗原筛选模块的工作具体包括如下步骤:
步骤2.1,利用netMHCpan分析步骤1得到的HLA-I和多肽的亲和力;
步骤2.2,保留输出为“strong binding,%rank<0.5”的多肽,将其作为可信度高的新生抗原。
优选的,所述模型为deepHLApan。
优选的,所述新生抗原评分包括:对多肽和MHC分子的相互作用的评分,和/或,对T细胞受体和多肽-MHC复合物的相互作用的评分。
优选的,所述多元线性回归模型纳入的预测变量包括:所述新生抗原负荷评分、HLA-I/B2M体细胞突变、共刺激分子CD28和CD86的表达水平、免疫微环境中的细胞因子的含量、免疫细胞的含量和临床协变量。
优选的,所述综合性新生抗原负荷评分为:
NEO2ISi=β1×S1i+β2×S2i+β3×S3i+εi
其中,NEO2ISi为肿瘤样本i中由新生抗原刺激引起的CD8+ T 细胞的扩增、耗竭状态,S1i、S2i、S3i分别为肿瘤样本i中的SNV,indel和Fusion来源的新生抗原负荷评分,β1、β2、β3为系数,εi为肿瘤样本i的肿瘤微环境中的其他变量的影响。
本发明还提供一种计算机可读存储介质,其上存储有用于实现上述基于NGS数据和深度学习的肿瘤免疫治疗的预后预测方法的计算机程序。
本发明综合考虑了新生抗原的免疫原性和患者体内的肿瘤免疫微环境,构建了综合的新生抗原负荷评分模型,提高了免疫治疗疗效的预测效能。本发明应用于临床能够为临床医生提供治疗用药指导,具有很好的应用前景。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为实施例1中基于NGS数据和深度学习的肿瘤免疫治疗的预后方法的流程示意图;
图2为实施例1的方法和以肿瘤突变负荷(TMB)为指标对anti-PD1/CTLA4 抑制剂治疗疗效预测性能评估的ROC曲线。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1 基于NGS数据和深度学习的肿瘤免疫治疗的预后预测方法和系统
本实施例的系统包括:
多肽预测模块,用于分析患者肿瘤组织和单细胞的测序数据,分析HLA分型,并预测SNV、indel和fusion来源的多肽;
新生抗原筛选模块,用于分析所述多肽,筛选可行度高的新生抗原;
评分模块,用于采用循环神经网络RNN构建的模型对新生抗原进行打分,得到新生抗原负荷评分;
预后预测模块,用于将新生抗原负荷评分代入多元线性回归模型,预测免疫治疗的治疗结局。
采用该系统进行预后预测的方法流程如图1所示,具体步骤如下:
1.见图1(步骤1),基于DNA-seq和bulk RNA-seq数据,分析患者HLA分型并预测SNV、indel、fusion三种来源的短肽:
1)使用polysolver预测HLA-I类分子的分型结果;
2)利用GATK、Mutect2、VEP和ANNOVAR等检测出高质量的SNV和indel并进行突变注释,Genefuse检测DNA层面上的基因融合,并结合GDC的两个标准融合基因检测的pipeline(STAR-Fusion和Arriba)得到高可信度的融合转录本;
3)最后通过NeoPredpipe输出突变多肽信息(8-13个氨基酸序列)。
2. 见图1(步骤2),MHC-肽结合预测软件分析MHC呈递的多肽,筛选可信度高的新抗原(%rank<0.5,与MHC I类分子强结合),具体步骤为:利用netMHCpan分析上述HLA-I和突变多肽的亲和力,保留输出结果中注释为SB(strong binding,%rank<0.5)的短肽,定义该突变多肽为新生抗原。
3. 见图1(步骤3),向深度学习模型工具中输入过滤后的pMHC,对预测新生抗原进行打分,用以表示候选新抗原中具有免疫原性的部分,并定义为新生抗原评分(NS),具体步骤为:基于循环神经网络(RNN)构建的deepHLApan模型,考虑多肽和MHC分子的相互作用,同时对T细胞受体和多肽-MHC复合物(TCR-pMHC)的相互作用进行了预测,根据该模型输出的两个打分生成上述候选新抗原对应的新生抗原评分(NS = 结合评分× 免疫原性评分),该评分表示基于体外实验数据预测的pMHC免疫原性。
最后使用以下标准筛选候选新抗原:(1)免疫原性评分>0.5的预测新抗原;(2)过滤掉NS较低的5%的新抗原。(3)剔除表达量(TPM)=0的SNV和indel新抗原。将样本i中所有过滤后的候选新抗原数量求和为ni,并计算新抗原负荷评分(NLS)为。
4. 见图1(步骤4),利用单细胞数据划分的细胞群(Memory T cells, B cells,Plasma cells, Monocytes/Macrophages, Dendritic cells, Lymphocytes, RegulatoryT cells, Cytotoxicity (Lymphocytes), Exhausted CD8+ T cells, Exhausted/HS CD8+T cells, Lymphocytes exhausted/cell-cycle),通过CIBERSORT的方法分析大样本TCGA数据集(非小细胞肺癌和黑色素瘤的bulk RNA-seq data,训练集)中CD8+ T细胞不同亚群的含量,将肿瘤预测新抗原负荷评分与耗竭型的CD8亚群比例联系起来,进行多元线性回归建模,纳入的预测变量包括:
1)signal 1,即SNV、indel、fusion三种来源的新抗原负荷评分NLS,以及HLA-I/B2M体细胞突变;
2)signal 2,共刺激分子CD28和CD86的表达水平[log2(TPM+1)];
3)免疫微环境中的细胞因子(IL12,IFN-γ等)及其他免疫细胞(CD4+ T细胞,巨噬细胞等);
4)临床协变量(性别,年龄,肿瘤纯度等),以解释TME中持续的抗原负荷最终迫使CD8+ T细胞持续分化为丧失功能的CD8+ Tex。
5.基于上述CD8-Tex的多元线性回归模型,最后构建新生抗原负荷评分模型。
模型表达式为:
NEO2ISIi=β1*S1i+β2*S2i+β3*S3i+εi,
其中,NEO2ISIi为肿瘤样本i中由新生抗原刺激引起的CD8+ T 细胞的扩增、耗竭状态,S1i、S2i、S3i分别为肿瘤样本i中的SNV,indel和Fusion来源的新生抗原负荷评分,β1、β2、β3为系数,εi为肿瘤样本i的肿瘤微环境中的其他变量的影响,即残差值。
未预测到SNV,indel或Fusion新生抗原的情况下,相应的评分取值为0。
将新生抗原负荷评分输入上述模型,计算得到NEO2ISIi,并根据预设的阈值(NEO2IS>1),即可对肿瘤免疫治疗的预后进行预测。
下面通过实验对本申请的技术方案作进一步说明。
实验例1 预后预测性能的比较
一、实验方法
本实验例分别通过实施例1的方法和以TMB为指标对anti-PD1/CTLA4 抑制剂治疗疗效的预后进行预测,并比较其预后性能。
本实验例采用的样本数据:按照7:3比例划分TCGA数据库肺癌队列(n=1008)和黑色素瘤队列(n=469)为本次实验的训练集和测试集;验证集为外部数据集,即两个非小细胞肺癌(SMC,n=146;Rizvi,n=34)和三个黑色素瘤(Abbott,n=48;Synder,n=64;Amato,n=52)。
二、实验结果
利用两个非小细胞肺癌(SMC,n=146;Rizvi,n=34)和三个黑色素瘤(Abbott,n=48;Synder,n=64;Amato,n=52)的独立数据集预测免疫治疗队列(验证集)中的治疗结局。ROC曲线和AUC如图2所示,从图中可以看到,在5个数据集中,实施例1的方法的预测性能均显著优于以TMB为指标进行预测。这表明本发明的方法能够对肿瘤免疫治疗进行更加准确的预后预测。
通过上述实施例和实验例可以看到,本发明提供的方法能够筛选出可信度高的新生抗原,并对这些新生抗原的免疫原性进行评分,通过整合建模以评估预测新抗原在肿瘤微环境中的持续性暴露对CD8+ T细胞耗竭的影响,进而对肿瘤免疫治疗进行更加准确的预后预测。本发明应用于临床能够为临床医生提供治疗用药指导,具有很好的应用前景。
Claims (2)
1.一种基于NGS和深度学习的肿瘤免疫治疗效果预测系统,其特征在于,其包括:
多肽预测模块,用于分析患者肿瘤组织和单细胞的测序数据,分析HLA分型,并预测SNV、indel和fusion来源的多肽;
新生抗原筛选模块,用于分析所述多肽,筛选可行度高的新生抗原;
评分模块,用于采用循环神经网络RNN构建的模型对新生抗原进行打分,得到新生抗原负荷评分;新生抗原评分包括:对多肽和 MHC 分子的相互作用的评分,和/或,对T细胞受体和多肽-MHC 复合物的相互作用的评分;根据该模型输出的两个打分生成候选新抗原对应的新生抗原评分NS = 结合评分× 免疫原性评分 ;使用以下标准筛选候选新抗原:(1)免疫原性评分>0 .5的预测新抗原;(2)过滤掉NS较低的5%的新抗原;(3)剔除表达量TPM=0的SNV和indel新抗原;将样本i中所有过滤后的候选新抗原数量求和为ni,并计算新生抗原负荷评分NLS为
;
预后预测模块,用于将新生抗原负荷评分代入多元线性回归模型,预测免疫治疗的治疗结局;
所述多元线性回归模型的表达式为:
NEO2ISi=β1×S1i+β2×S2i+β3×S3i+εi,
其中,NEO2ISi为肿瘤样本i中由新生抗原刺激引起的CD8+ T 细胞的扩增、耗竭状态,S1i、S2i、S3i分别为肿瘤样本i中的SNV,indel和Fusion来源的新生抗原负荷评分,β1、β2、β3为系数,εi为肿瘤样本i的肿瘤微环境中的其他变量的影响;
所述多元线性回归模型纳入的预测变量包括:所述新生抗原负荷评分、HLA-I/B2M体细胞突变、共刺激分子CD28和CD86的表达水平、免疫微环境中的细胞因子的含量、免疫细胞的含量和临床协变量;
所述多肽预测模块的工作具体包括如下步骤:
步骤1.1,使用polysolver预测HLA-I的分型结果;
步骤1.2,利用GATK、Mutect2、VEP和ANNOVAR检测出高质量的SNV和indel并进行突变注释;
步骤1.3,利用Genefuse检测DNA层面上的融合基因并用STAR-Fusion和Arriba获得RNA-seq数据中高可信度的融合转录本;
步骤1.4,通过NeoPredpipe输出突变多肽的信息;
所述新生抗原筛选模块的工作具体包括如下步骤:
步骤2.1,利用netMHCpan分析步骤1.1得到的HLA-I和多肽的亲和力;
步骤2.2,保留输出为“strong binding,%rank<0.5”的多肽,将其作为可信度高的新生抗原。
2.按照权利要求 1 所述的基于 NGS 和深度学习的肿瘤免疫治疗效果预测系统,其特征在于:所述采用循环神经网络RNN构建的模型为 deepHLApan。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211219172.9A CN115424740B (zh) | 2022-09-30 | 2022-09-30 | 基于ngs和深度学习的肿瘤免疫治疗效果预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211219172.9A CN115424740B (zh) | 2022-09-30 | 2022-09-30 | 基于ngs和深度学习的肿瘤免疫治疗效果预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115424740A CN115424740A (zh) | 2022-12-02 |
CN115424740B true CN115424740B (zh) | 2023-11-17 |
Family
ID=84205701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211219172.9A Active CN115424740B (zh) | 2022-09-30 | 2022-09-30 | 基于ngs和深度学习的肿瘤免疫治疗效果预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424740B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275578B (zh) * | 2023-11-16 | 2024-02-27 | 北京大学人民医院 | 一种肺癌淋巴结转移多模态预测模型构建方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108796055A (zh) * | 2018-06-12 | 2018-11-13 | 深圳裕策生物科技有限公司 | 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质 |
CN109584960A (zh) * | 2018-12-14 | 2019-04-05 | 上海鲸舟基因科技有限公司 | 预测肿瘤新生抗原的方法、装置及存储介质 |
CN110277135A (zh) * | 2019-08-10 | 2019-09-24 | 杭州新范式生物医药科技有限公司 | 一种基于预期疗效选择个体化肿瘤新抗原的方法和系统 |
CN110706747A (zh) * | 2019-09-17 | 2020-01-17 | 北京橡鑫生物科技有限公司 | 检测肿瘤新生抗原多肽的方法和装置 |
CN110706742A (zh) * | 2019-09-30 | 2020-01-17 | 中生康元生物科技(北京)有限公司 | 泛癌种肿瘤新生抗原高通量预测方法及其应用 |
CN110752041A (zh) * | 2019-10-23 | 2020-02-04 | 深圳裕策生物科技有限公司 | 基于二代测序的新生抗原预测方法、装置和存储介质 |
CN111415707A (zh) * | 2020-03-10 | 2020-07-14 | 四川大学 | 临床个体化肿瘤新抗原的预测方法 |
CN112309502A (zh) * | 2020-10-14 | 2021-02-02 | 深圳市新合生物医疗科技有限公司 | 一种计算肿瘤新抗原负荷的方法及系统 |
CN113053458A (zh) * | 2021-01-19 | 2021-06-29 | 深圳裕康医学检验实验室 | 一种肿瘤新生抗原负荷的预测方法及装置 |
CN113160887A (zh) * | 2021-04-23 | 2021-07-23 | 哈尔滨工业大学 | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 |
-
2022
- 2022-09-30 CN CN202211219172.9A patent/CN115424740B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108796055A (zh) * | 2018-06-12 | 2018-11-13 | 深圳裕策生物科技有限公司 | 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质 |
CN109584960A (zh) * | 2018-12-14 | 2019-04-05 | 上海鲸舟基因科技有限公司 | 预测肿瘤新生抗原的方法、装置及存储介质 |
CN110277135A (zh) * | 2019-08-10 | 2019-09-24 | 杭州新范式生物医药科技有限公司 | 一种基于预期疗效选择个体化肿瘤新抗原的方法和系统 |
CN110706747A (zh) * | 2019-09-17 | 2020-01-17 | 北京橡鑫生物科技有限公司 | 检测肿瘤新生抗原多肽的方法和装置 |
CN110706742A (zh) * | 2019-09-30 | 2020-01-17 | 中生康元生物科技(北京)有限公司 | 泛癌种肿瘤新生抗原高通量预测方法及其应用 |
CN110752041A (zh) * | 2019-10-23 | 2020-02-04 | 深圳裕策生物科技有限公司 | 基于二代测序的新生抗原预测方法、装置和存储介质 |
CN111415707A (zh) * | 2020-03-10 | 2020-07-14 | 四川大学 | 临床个体化肿瘤新抗原的预测方法 |
CN112309502A (zh) * | 2020-10-14 | 2021-02-02 | 深圳市新合生物医疗科技有限公司 | 一种计算肿瘤新抗原负荷的方法及系统 |
CN113053458A (zh) * | 2021-01-19 | 2021-06-29 | 深圳裕康医学检验实验室 | 一种肿瘤新生抗原负荷的预测方法及装置 |
CN113160887A (zh) * | 2021-04-23 | 2021-07-23 | 哈尔滨工业大学 | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 |
Non-Patent Citations (2)
Title |
---|
吴静成.基于深度学习的肿瘤新生抗原预测方法研究.《中国博士学位论文全文数据库医药卫生科技辑》.2022,(第1期),第2.1节、第4章. * |
顾芳玲等.肿瘤免疫治疗中新生抗原预测与筛选技术研究进展.《药学进展》.2021,第45卷(第10期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115424740A (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Predicting HLA class II antigen presentation through integrated deep learning | |
Gros et al. | Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients | |
CN108796055B (zh) | 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质 | |
US20200243164A1 (en) | Systems and methods for patient-specific identification of neoantigens by de novo peptide sequencing for personalized immunotherapy | |
WO2022016125A1 (en) | Attention-based neural network to predict peptide binding, presentation, and immunogenicity | |
Borden et al. | Cancer neoantigens: challenges and future directions for prediction, prioritization, and validation | |
CN110752041B (zh) | 基于二代测序的新生抗原预测方法、装置和存储介质 | |
CN110706742B (zh) | 泛癌种肿瘤新生抗原高通量预测方法及其应用 | |
EP4116436A1 (en) | Method and system for screening for neoantigens, and uses thereof | |
CN110799196A (zh) | 致免疫性的癌症特异抗原决定位的排名系统 | |
Lancaster et al. | Applications of next-generation sequencing in neoantigen prediction and cancer vaccine development | |
JP6710004B2 (ja) | 免疫療法のためのモニタリングまたは診断ならびに治療剤の設計 | |
CN115424740B (zh) | 基于ngs和深度学习的肿瘤免疫治疗效果预测系统 | |
Besser et al. | Level of neo-epitope predecessor and mutation type determine T cell activation of MHC binding peptides | |
Koncz et al. | Self-mediated positive selection of T cells sets an obstacle to the recognition of nonself | |
CN112210596B (zh) | 基于基因融合事件的肿瘤新生抗原预测方法及其应用 | |
Yang et al. | MHCII-peptide presentation: an assessment of the state-of-the-art prediction methods | |
US20210391031A1 (en) | Method and system of targeting epitopes for neoantigen-based immunotherapy | |
Li et al. | Neo-intline: int egrated pipe line enables neo antigen design through the in-silico presentation of T-cell epitope | |
Chandran et al. | Immunogenicity of a public neoantigen derived from mutated PIK3CA | |
US20220296642A1 (en) | Methods of Making Therapeutic T Lymphocytes | |
US20240013860A1 (en) | Methods and systems for personalized neoantigen prediction | |
Han et al. | pan-MHC and cross-Species Prediction of T Cell Receptor-Antigen Binding | |
Sears et al. | Integrated germline and somatic features reveal divergent immune pathways driving ICB response | |
RU2809620C2 (ru) | Выбор раковых мутаций для создания персонализированной противораковой вакцины |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |