CN114882951A - 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置 - Google Patents

基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置 Download PDF

Info

Publication number
CN114882951A
CN114882951A CN202210592146.4A CN202210592146A CN114882951A CN 114882951 A CN114882951 A CN 114882951A CN 202210592146 A CN202210592146 A CN 202210592146A CN 114882951 A CN114882951 A CN 114882951A
Authority
CN
China
Prior art keywords
tumor
mhc
neoantigen
type
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210592146.4A
Other languages
English (en)
Other versions
CN114882951B (zh
Inventor
但旭
王佳茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yutai Antigen Technology Co ltd
Original Assignee
Shenzhen Yutai Antigen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yutai Antigen Technology Co ltd filed Critical Shenzhen Yutai Antigen Technology Co ltd
Priority to CN202210592146.4A priority Critical patent/CN114882951B/zh
Publication of CN114882951A publication Critical patent/CN114882951A/zh
Application granted granted Critical
Publication of CN114882951B publication Critical patent/CN114882951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本申请公开了一种基于二代测序数据检测MHC II型肿瘤新生抗原的方法和装置。本申请方法包括,分别获取肿瘤样本DNA和RNA测序数据,比对到人全基因组参考序列,分析鉴定肿瘤样本HLA分型,发生变异的基因,并将发生变异的基因翻译为氨基酸序列,将其作为候选集,分析各基因表达量值TPM,最后,根据HLA分型和MHC II型肿瘤新生抗原预测模型,从候选集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHC II型肿瘤新生抗原。本申请方法,直接通过二代测序数据预测MHC II型肿瘤新生抗原,解决了肿瘤免疫治疗中对II型新生抗原预测和筛选的迫切需求,为肿瘤免疫研究和针对新生抗原的免疫治疗提供了帮助。

Description

基于二代测序数据检测MHC II型肿瘤新生抗原的方法和装置
技术领域
本申请涉及肿瘤新生抗原检测技术领域,特别是涉及一种基于二代测序数据检测MHC II型肿瘤新生抗原的方法和装置。
背景技术
肿瘤是世界第一大病,并且近年肿瘤发病率有增无减。肿瘤免疫治疗就是通过重新启动并维持肿瘤-免疫循环,恢复机体正常的抗肿瘤免疫反应,从而控制与清除肿瘤的一种治疗方法。肿瘤免疫治疗药物包括单克隆抗体类免疫检查点抑制剂、治疗性抗体、癌症疫苗、细胞治疗和小分子抑制剂等。近几年,肿瘤免疫治疗的好消息不断,目前已在多种肿瘤,如黑色素瘤、非小细胞肺癌、肾癌和前列腺癌等实体瘤的治疗中展示出了强大的抗肿瘤活性,多个肿瘤免疫治疗药物已经获得美国FDA(Food and Drug Administration,FDA)批准临床应用。肿瘤免疫治疗由于其卓越的疗效和创新性,在2013年被《科学》杂志评为年度最重要的科学突破。
细胞的癌变通常是体细胞中的基因突变长期积累的结果,但不是所有的体细胞突变都会导致细胞癌变。目前主流观点认为,只有在驱动基因上的特异突变才会赋予细胞癌变的特性,这种突变叫做驱动突变(driver mutation)。而驱动突变又会引发其他的基因突变,这导致癌细胞中的基因突变数量往往高于正常的体细胞。肿瘤突变负荷(TMB)是反映肿瘤细胞中总的基因突变程度的一个指标,通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。
肿瘤特异性抗原(tumor-specific antigens,缩写TSAs)是指肿瘤细胞所特有的抗原,又称新生抗原(neoantigens)。肿瘤特异性抗原提出于上世纪前半叶,之后随着分子生物学发展及对主要组织相容性复合体(major histocompatibility complex,缩写MHC)的分子功能被深入认识。Boon等人首先发现在肿瘤中,有肿瘤产生的特异性肽段与MHC分子复合物可以被CD8+或者是CD4+等T细胞识别。随后的研究认识到,这些能被T细胞识别的抗原来自于肿瘤的基因组变异表达成肿瘤特有的肽段(neo-epitopes),被定义为新生抗原(neoantigens)。所以新生抗原可以作为肿瘤治疗的理想靶点。
肿瘤特异性新生抗原分为MHC I型和MHC II型,以往的检测装置多是针对MHC I型新生抗原;但是随着肿瘤免疫类基础研究的进展,发现被CD4+T细胞识别的MHC II型新生抗原显示出越来越重要的作用。有研究表明,MHC II型新生抗原可能才是引起肿瘤免疫反应的关键所在。然而,MHC II型新生抗原一直是检测的难点,因为其亚型众多,多于MHC I型;所以,每种亚型可用数据较少;并且,MHC II型新生抗原的抗原长度范围更广,与MHC分子的结合是非线性的,进一步增加了MHC II型肿瘤新生抗原的检测和分析难度。
同时还有研究表明,一个突变同时产生能被MHC I型和MHC II型分子识别的新生抗原肽,会提示出该变异位点的高免疫源性;所以种种缘由使得对MHC II型新生抗原的检测显得尤为重要。
因此,如何更准确、有效的检测MHC II型肿瘤新生抗原,是肿瘤免疫治疗技术领域亟待解决的重要问题。
发明内容
本申请的目的是提供一种新的基于二代测序数据检测MHC II型肿瘤新生抗原的方法和装置。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种基于二代测序数据检测MHC II型肿瘤新生抗原的方法,包括以下步骤:
肿瘤样本DNA数据获取和比对步骤,包括获取肿瘤样本的DNA测序数据,并将其比对到人全基因组参考序列,获得DNA比对文件;
肿瘤样本RNA数据获取和比对步骤,包括获取肿瘤样本的RNA测序数据,并将其比对到人全基因组参考序列,获得RNA比对文件;
肿瘤样本HLA分型鉴别步骤,包括根据DNA比对文件,分析鉴定肿瘤样本的HLA分型;
基因变异检测步骤,包括根据DNA比对文件,检测DNA数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变;
候选新生抗原突变肽翻译步骤,包括根据基因变异检测步骤的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集;
样本各基因的表达量值计算步骤,包括根据RNA比对文件分析肿瘤样本各基因的表达量值TPM;
MHC II型肿瘤新生抗原预测步骤,包括根据HLA分型和MHC II型肿瘤新生抗原预测模型,从候选肿瘤新生抗原集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHCII型肿瘤新生抗原;
其中,MHC II型肿瘤新生抗原预测模型为采用基于蛋白质谱数据集的细胞表面蛋白质谱检测出的肽段序列数据集作为训练数据,训练获得的根据HLA分型预测MHC II型肿瘤新生抗原的模型;蛋白质谱数据集含有分离MHC II型分子与多肽的复合物,将多肽从MHC分型上洗脱下来,再经由蛋白质谱测序获得肽段序列数据集。
需要说明的是,本申请的MHC II型肿瘤新生抗原检测方法,将测序数据比对到参考基因组,检测其发生的基因突变,并翻译出变异所产生的突变肽,分析鉴别出该样本的HLA分型,计算该样本各基因的表达量值,然后用MHC II型肿瘤新生抗原预测模型预测高免疫源性的MHC II型新生抗原。本申请方法直接基于二代测序数据进行MHC II型肿瘤新生抗原预测,能够很好的满足肿瘤免疫治疗中对于MHC II型新生抗原预测和筛选的迫切需求,改善了MHC II型新生抗原预测的准确性,为肿瘤免疫的研究和针对新生抗原的免疫治疗提供了有力的帮助。
本申请的一种实现方式中,基于二代测序数据检测MHC II型肿瘤新生抗原的方法还包括MHC II型肿瘤新生抗原预测模型训练步骤,该步骤包括(1)获取蛋白质谱数据集,其含有分离MHC II型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的II型抗原数据集,作为训练数据;(2)使用编码氨基酸序列的BLOSUM50矩阵对新生抗原肽段进行编码转换成BLOSUM50matrix,使用编码氨基酸序列的BLOSUM50矩阵对MHC分子进行编码转换成BLOSUM50matrix,将编码好的两个矩阵分别输入LSTM模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型。
其中,步骤(2)中,编码好的两个矩阵即分别使用BLOSUM50矩阵对新生抗原肽段和MHC分子进行编码转换成的两个BLOSUM50 matrix。步骤(2)中的新生抗原肽段,即步骤(1)的多肽,新生抗原肽段和多肽可以理解为同一对象,肿瘤特有的多肽就是新生抗原,用于评估软件的数据。步骤(2)中,MHC分子分为I型和II型,针对II型新生抗原的就是MHC II型分子,人的MHC分子就是HLA。
需要说明的是,本申请的关键在于实现了基于二代测序数据的MHC II型肿瘤新生抗原检测,至于MHC II型肿瘤新生抗原预测模型的训练步骤,可以理解,在已经存在MHC II型肿瘤新生抗原预测模型的情况下,可以直接使用该模型,不必每次都进行该训练步骤。因此,本申请的MHC II型肿瘤新生抗原检测方法,除了第一次需要进行预测模型训练以外,后续检测过程中,模型训练步骤并非必须进行。
本申请的一种实现方式中,MHC II型肿瘤新生抗原预测步骤,采用MHC II型肿瘤新生抗原预测模型进行MHC II型肿瘤新生抗原预测,具体包括,(1)从人蛋白组数据集中随机截取长度为13-19长度的短肽,形成一个肽段数据集,使用MHC II型肿瘤新生抗原预测模型对肽段数据集中的短肽进行预测,得到一个预测值数据集;(2)一个MHC II型肿瘤新生抗原的预测结果值,用其在预测值数据集中处于前百分之多少来代表,即在预测值数据集中越靠前,则更有可能是高免疫源性的MHC II型肿瘤新生抗原。其中,人蛋白组数据集就是一个人的蛋白数据,来自于Uniprot。
本申请的一种实现方式中,将预测结果值小于5%判断为阳性,其对应的多肽即候选MHC II型肿瘤新生抗原,从中筛选表达量值TPM大于TPM阈值的氨基酸序列,即获得MHCII型肿瘤新生抗原。
本申请的一种实现方式中,TPM阈值为5。
本申请的第二方面公开了一种基于二代测序数据检测MHC II型肿瘤新生抗原的装置,包括肿瘤样本DNA数据获取和比对模块、肿瘤样本RNA数据获取和比对模块、肿瘤样本HLA分型鉴别模块、基因变异检测模块、候选新生抗原突变肽翻译模块、样本各基因的表达量值计算模块、MHC II型肿瘤新生抗原预测模型训练模块、MHC II型肿瘤新生抗原预测模块;
肿瘤样本DNA数据获取和比对模块,包括用于获取肿瘤样本的DNA测序数据,并将其比对到人全基因组参考序列,获得DNA比对文件;
肿瘤样本RNA数据获取和比对模块,包括用于获取肿瘤样本的RNA测序数据,并将其比对到人全基因组参考序列,获得RNA比对文件;
肿瘤样本HLA分型鉴别模块,包括用于根据DNA比对文件,分析鉴定肿瘤样本的HLA分型;
基因变异检测模块,包括用于根据DNA比对文件,检测DNA数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变;
候选新生抗原突变肽翻译模块,包括用于根据基因变异检测模块的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集;
样本各基因的表达量值计算模块,包括用于根据RNA比对文件分析肿瘤样本各基因的表达量值TPM;
MHC II型肿瘤新生抗原预测模型训练模块,包括用于(1)获取蛋白质谱数据集,其含有分离MHC II型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的II型抗原数据集,作为训练数据;(2)使用编码氨基酸序列的BLOSUM50矩阵对新生抗原肽段进行编码转换成BLOSUM50matrix,使用编码氨基酸序列的BLOSUM50矩阵对MHC分子进行编码转换成BLOSUM50matrix,将编码好的两个矩阵分别输入LSTM模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型;
MHC II型肿瘤新生抗原预测模块,包括用于根据HLA分型和MHC II型肿瘤新生抗原预测模型,从候选肿瘤新生抗原集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHC II型肿瘤新生抗原。
其中,MHC II型肿瘤新生抗原预测模型训练模块除了在第一次进行MHC II型肿瘤新生抗原预测模型训练需要运行以外,在已经获得MHC II型肿瘤新生抗原预测模型的情况下,后续模块可以直接使用该预测模型即可,不需要每次检测都重复运行MHC II型肿瘤新生抗原预测模型训练模块。MHC II型肿瘤新生抗原预测模型训练模块的步骤(2)中,编码好的两个矩阵即分别使用BLOSUM50矩阵对新生抗原肽段和MHC分子进行编码转换成的两个BLOSUM50 matrix。新生抗原肽段,即步骤(1)的多肽,新生抗原肽段和多肽可以理解为同一对象,肿瘤特有的多肽就是新生抗原,用于评估软件的数据。MHC分子分为I型和II型,针对II型新生抗原的就是MHC II型分子,人的MHC分子就是HLA。
需要说明的是,本申请基于二代测序数据检测MHC II型肿瘤新生抗原的装置,实际上就是通过各模块实现本申请基于二代测序数据检测MHC II型肿瘤新生抗原的方法的各个步骤,因此,本申请装置中各模块的具体实现方式或参数条件可以参考本申请的方法,例如采用MHC II型肿瘤新生抗原预测模型进行MHC II型肿瘤新生抗原预测的具体步骤,阳性判断,TPM阈值等都可以参考本申请基于二代测序数据检测MHC II型肿瘤新生抗原的方法,在此不累述。
本申请的第三方面公开了一种基于二代测序数据检测MHC II型肿瘤新生抗原的装置,该装置包括存储器和处理器;存储器,用于存储程序;处理器,用于通过执行存储器存储的程序以实现本申请基于二代测序数据检测MHC II型肿瘤新生抗原的方法。
本申请的第四方面公开了一种计算机可读存储介质,其包括程序,该程序能够被处理器执行以实现本申请基于二代测序数据检测MHC II型肿瘤新生抗原的方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请基于二代测序数据检测MHC II型肿瘤新生抗原的方法和装置,直接通过二代测序数据预测MHC II型肿瘤新生抗原,解决了肿瘤免疫治疗中对MHC II型新生抗原预测和筛选的迫切需求,为肿瘤免疫的研究和针对新生抗原的免疫治疗提供了帮助。
附图说明
图1是本申请实施例中基于二代测序数据检测MHC II型肿瘤新生抗原的方法的流程框图;
图2是本申请实施例中基于二代测序数据检测MHC II型肿瘤新生抗原的装置的结构框图;
图3是本申请实施例中基于二代测序数据检测MHC II型肿瘤新生抗原的方法预测的MHC II型肿瘤新生抗原的ROC曲线图;
图4是本申请实施例中基于二代测序数据检测MHC II型肿瘤新生抗原的方法预测的另一MHC II型肿瘤新生抗原的ROC曲线图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
MHC II型肿瘤新生抗原检测一直是本领域的难点,由于MHC II型肿瘤新生抗原亚型众多、抗原长度范围更广,且与MHC分子的结合是非线性的,本申请创造性的引入能处理复杂信息的非线性模型,来解决MHC II型新生抗原预测的训练问题。另外,由于新生抗原的预测准确度一直不是很高,本申请旨在改善和提高基于肿瘤样本二代测序数据的MHC II型肿瘤新生抗原的检测灵敏度和准确度。
因此,本申请创造性的研发了一种新的基于二代测序数据检测MHC II型肿瘤新生抗原的方法,如图1所示,包括肿瘤样本DNA数据获取和比对步骤11、肿瘤样本RNA数据获取和比对步骤12、肿瘤样本HLA分型鉴别步骤13、基因变异检测步骤14、候选新生抗原突变肽翻译步骤15、样本各基因的表达量值计算步骤16和MHC II型肿瘤新生抗原预测步骤18。
其中,肿瘤样本DNA数据获取和比对步骤11,包括获取肿瘤样本的DNA测序数据,并将其比对到人全基因组参考序列,获得DNA比对文件。例如,将DNA样本二代测序fastq.gz文件作为输入,使用BWA MEM(https://github.com/lh3/bwa)将序列比对到人全基因组参考序列,得到比对的dna.bam,即DNA比对文件。
肿瘤样本RNA数据获取和比对步骤12,包括获取肿瘤样本的RNA测序数据,并将其比对到人全基因组参考序列,获得RNA比对文件。例如,将RNA样本二代测序fastq.gz文件作为输入,使用RNA比对软件STAR(https://github.com/alexdobin/STAR)将序列比对到人全基因组参考序列,得到比对的rna.bam,即RNA比对文件。
肿瘤样本HLA分型鉴别步骤13,包括根据DNA比对文件,分析鉴定肿瘤样本的HLA分型。例如,将dna.bam作为输入,使用软件bwahla、polysolver做HLA分型分析,并取其结果并集作为样本HLA分型结果。
基因变异检测步骤14,包括根据DNA比对文件,检测DNA数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变。例如,以dna.bam作为输入,由VarDict(https://github.com/AstraZeneca-NGS/VarDict)鉴定出其产生的非同义单核苷酸突变和插入缺失突变,输出mutation.vcf。
候选新生抗原突变肽翻译步骤15,包括根据基因变异检测步骤的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集。例如,将mutation.vcf作为输入,由vep(https://asia.ensembl.org/info/docs/tools/vep/index.html)注释突变所在的基因及其对应的氨基酸序列,并提取突变得到的氨基酸序列,得到mutation.vep.vcf。
样本各基因的表达量值计算步骤16,包括根据RNA比对文件分析肿瘤样本各基因的表达量值TPM。例如,将rna.bam作为输入,由RSEM(https://github.com/deweylab/RSEM)分析出该样本各gene的表达量值TPM。
MHC II型肿瘤新生抗原预测步骤18,包括根据HLA分型和MHC II型肿瘤新生抗原预测模型,从候选肿瘤新生抗原集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHCII型肿瘤新生抗原;其中,MHC II型肿瘤新生抗原预测模型为采用基于蛋白质谱数据集的细胞表面蛋白质谱检测出的肽段序列数据集作为训练数据,训练获得的根据HLA分型预测MHC II型肿瘤新生抗原的模型;蛋白质谱数据集含有分离MHC II型分子与多肽的复合物,将多肽从MHC分型上洗脱下来,再经由蛋白质谱测序获得肽段序列数据集。
其中,MHC II型肿瘤新生抗原预测模型,由MHC II型肿瘤新生抗原预测模型训练步骤17获得,该步骤包括(1)获取蛋白质谱数据集,其含有分离MHC II型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的II型抗原数据集,作为训练数据;(2)使用基于氨基酸之前关系的BLOSUM50矩阵对新生抗原肽段进行编码转换成BLOSUM50 matrix,使用基于氨基酸之前关系的BLOSUM50矩阵对MHC分子(人的MHC分子就是HLA)进行编码转换成BLOSUM50 matrix,将编码好的两个矩阵分别输入LSTM模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型。
本申请的数据集引用自:
https://services.healthtech.dtu.dk/suppl/immunology/NAR_NetMHCpan_NetMHCIIpan/NetMHCIIpan_train.tar.gz
本领域技术人员可以理解,上述实施方式方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一个计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,基于本申请的基于二代测序数据检测MHC II型肿瘤新生抗原的方法,本申请提出了一种基于二代测序数据检测MHC II型肿瘤新生抗原的装置,如图2所示,包括肿瘤样本DNA数据获取和比对模块21、肿瘤样本RNA数据获取和比对模块22、肿瘤样本HLA分型鉴别模块23、基因变异检测模块24、候选新生抗原突变肽翻译模块25、样本各基因的表达量值计算模块26、MHC II型肿瘤新生抗原预测模型训练模块27、MHC II型肿瘤新生抗原预测模块28。
其中,肿瘤样本DNA数据获取和比对模块21,包括用于获取肿瘤样本的DNA测序数据,并将其比对到人全基因组参考序列,获得DNA比对文件。例如,参考BWA MEM将序列比对到人全基因组参考序列,得到DNA比对文件。
肿瘤样本RNA数据获取和比对模块22,包括用于获取肿瘤样本的RNA测序数据,并将其比对到人全基因组参考序列,获得RNA比对文件。例如,参考RNA比对软件STAR将序列比对到人全基因组参考序列,得到RNA比对文件。
肿瘤样本HLA分型鉴别模块23,包括用于根据DNA比对文件,分析鉴定肿瘤样本的HLA分型。例如,参考软件bwahla、polysolver进行HLA分型分析。
基因变异检测模块24,包括用于根据DNA比对文件,检测DNA数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变。例如,参考VarDict进行基因变异鉴定。
候选新生抗原突变肽翻译模块25,包括用于根据基因变异检测步骤的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集。例如,参考vep注释突变所在的基因及其对应的氨基酸序列,并提取突变得到的氨基酸序列。
样本各基因的表达量值计算模块26,包括用于根据RNA比对文件分析肿瘤样本各基因的表达量值TPM。例如,参考RSEM分析各基因的表达量值TPM。
MHC II型肿瘤新生抗原预测模型训练模块27,包括用于(1)获取蛋白质谱数据集,其含有分离MHC II型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的II型抗原数据集,作为训练数据;其中,数据集引用自:https://services.healthtech.dtu.dk/suppl/immunology/NAR_NetMHCpan_NetMHCIIpan/NetMHCIIpan_train.tar.gz;(2)使用编码氨基酸序列的BLOSUM50矩阵对新生抗原肽段进行编码转换成BLOSUM50 matrix,使用编码氨基酸序列的BLOSUM50矩阵对MHC分子(人的MHC分子就是HLA)进行编码转换成BLOSUM50 matrix,将编码好的两个矩阵分别输入LSTM模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型。LSTM模型即常用时间序列深度学习模型。
MHC II型肿瘤新生抗原预测模块28,包括用于根据HLA分型和MHC II型肿瘤新生抗原预测模型,从候选肿瘤新生抗原集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHC II型肿瘤新生抗原。
本申请中,模型训练和MHC II型肿瘤新生抗原预测具体方案如下:
1.训练数据,模型训练是基于一个蛋白质谱数据集,该数据集是有分离MHC II型分子与多肽的复合物,然后将多肽从MHC分析上洗脱下来,再经由蛋白质谱测序得到该多肽的氨基酸序列,由于获得一个细胞表达呈递的II型抗原数据集,数据集引用自:https://services.healthtech.dtu.dk/suppl/immunology/NAR_NetMHCpan_NetMHCIIpan/NetMHCIIpan_train.tar.gz
2.模型构建,(1)使用基于氨基酸之前关系的BLOSUM50矩阵,即编码氨基酸序列的BLOSUM50矩阵,对新生抗原肽段进行编码转换成BLOSUM50matrix;(2)使用基于氨基酸之前关系的BLOSUM50矩阵对MHC分子(人的MHC分子就是HLA)进行编码转换成BLOSUM50 matrix;(3)将编码好的2个矩阵分别输入一个由16个神经元组成的LSTM(常用时间序列深度学习模型)模型中;(4)两个LSTM的输出连接到一个60个神经元组成的全连接层,并最终输出预测结果;(5)训练模型至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型。
3.从人蛋白组数据集中随机截取长度为13-19长度的短肽,形成一个肽段数据集,使用“2.模型构建”中的模型对数据集中的短肽做预测,得到一个预测值数据集。其中,蛋白组数据集即来自于Uniprot的蛋白数据。
4.一个新生抗原肽的预测结果值,用该值在前述步骤中的预测值数据集中处于前百分之多少来代表,即一个新生抗原肽在随机一个随机数据集中的预测值所处的位置,百分比越低代表更可能是一个高免疫源性的新生抗原,本申请中阈值为<5%则判定为阳性,否则为阴性。
MHC II型肿瘤新生抗原预测:将肿瘤样本HLA分型鉴别获得的样本HLA分型结果,和候选新生抗原突变肽翻译获得的突变的氨基酸序列,即mutation.vep.vcf,输入MHC II型肿瘤新生抗原预测模型,预测得到高免疫源性的II型新生抗原:进一步的,根据样本各基因的表达量值计算获得的各基因的表达量值TPM,筛选TPM值>5的结果,作为MHC II型肿瘤新生抗原。
本申请的另一实现方式中还提供了一种基于二代测序数据检测MHC II型肿瘤新生抗原的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:肿瘤样本DNA数据获取和比对步骤,包括获取肿瘤样本的DNA测序数据,并将其比对到人全基因组参考序列,获得DNA比对文件;肿瘤样本RNA数据获取和比对步骤,包括获取肿瘤样本的RNA测序数据,并将其比对到人全基因组参考序列,获得RNA比对文件;肿瘤样本HLA分型鉴别步骤,包括根据DNA比对文件,分析鉴定肿瘤样本的HLA分型;基因变异检测步骤,包括根据DNA比对文件,检测DNA数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变;候选新生抗原突变肽翻译步骤,包括根据基因变异检测步骤的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集;样本各基因的表达量值计算步骤,包括根据RNA比对文件分析肿瘤样本各基因的表达量值TPM;MHC II型肿瘤新生抗原预测步骤,包括根据HLA分型和MHC II型肿瘤新生抗原预测模型,从候选肿瘤新生抗原集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHC II型肿瘤新生抗原;其中,MHC II型肿瘤新生抗原预测模型为采用基于蛋白质谱数据集的细胞表面蛋白质谱检测出的肽段序列数据集作为训练数据,训练获得的根据HLA分型预测MHC II型肿瘤新生抗原的模型;蛋白质谱数据集含有分离MHC II型分子与多肽的复合物,将多肽从MHC分型上洗脱下来,再经由蛋白质谱测序获得肽段序列数据集。根据需求,还可以包括MHC II型肿瘤新生抗原预测模型训练步骤,该步骤包括(1)获取蛋白质谱数据集,其含有分离MHC II型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的II型抗原数据集,作为训练数据;(2)使用编码氨基酸序列的BLOSUM50矩阵对新生抗原肽段进行编码转换成BLOSUM50 matrix,使用编码氨基酸序列的BLOSUM50矩阵对MHC分子(人的MHC分子就是HLA)进行编码转换成BLOSUM50 matrix,将编码好的两个矩阵分别输入LSTM模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:肿瘤样本DNA数据获取和比对步骤,包括获取肿瘤样本的DNA测序数据,并将其比对到人全基因组参考序列,获得DNA比对文件;肿瘤样本RNA数据获取和比对步骤,包括获取肿瘤样本的RNA测序数据,并将其比对到人全基因组参考序列,获得RNA比对文件;肿瘤样本HLA分型鉴别步骤,包括根据DNA比对文件,分析鉴定肿瘤样本的HLA分型;基因变异检测步骤,包括根据DNA比对文件,检测DNA数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变;候选新生抗原突变肽翻译步骤,包括根据基因变异检测步骤的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集;样本各基因的表达量值计算步骤,包括根据RNA比对文件分析肿瘤样本各基因的表达量值TPM;MHC II型肿瘤新生抗原预测步骤,包括根据HLA分型和MHCII型肿瘤新生抗原预测模型,从候选肿瘤新生抗原集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHC II型肿瘤新生抗原;其中,MHC II型肿瘤新生抗原预测模型为采用基于蛋白质谱数据集的细胞表面蛋白质谱检测出的肽段序列数据集作为训练数据,训练获得的根据HLA分型预测MHC II型肿瘤新生抗原的模型;蛋白质谱数据集含有分离MHC II型分子与多肽的复合物,将多肽从MHC分型上洗脱下来,再经由蛋白质谱测序获得肽段序列数据集。根据需求,还可以包括MHC II型肿瘤新生抗原预测模型训练步骤,该步骤包括(1)获取蛋白质谱数据集,其含有分离MHC II型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的II型抗原数据集,作为训练数据;(2)使用编码氨基酸序列的BLOSUM50矩阵对新生抗原肽段进行编码转换成BLOSUM50 matrix,使用编码氨基酸序列的BLOSUM50矩阵对MHC分子(人的MHC分子就是HLA)进行编码转换成BLOSUM50 matrix,将编码好的两个矩阵分别输入LSTM模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型。
下面通过具体试验对本申请作进一步详细说明。以下试验仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例1
按照以上基于二代测序数据检测MHC II型肿瘤新生抗原的方法,本例使用公开数据库中两个细胞系的质谱检测数据集作为测试数据,验证本申请的MHC II型肿瘤新生抗原检测方法在该数据集中的预测效果。
数据来源:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41587-019-0280-2/MediaObjects/41587_2019_280_MOESM3_ESM.xlsx
验证方法:
本例分别使用本申请的基于二代测序数据检测MHC II型肿瘤新生抗原的方法,以及另外两种MHC II型新生抗原预测方法,对数据集中的肽段进行预测,并将预测结果,与实际的阴性和阳性结果进行对比分析,比较三种方法在此数据集中的MHC II型肿瘤新生抗原预测效果。
另外两种MHC II型新生抗原预测方法分别为MARIA和MixMHCIIpred。
MARIA:Predicting HLA class II antigen presentation through integrateddeep learning|Nature Biotechnology
MixMHCIIpred:Robust prediction of HLA class II epitopes by deep motifdeconvolution of immunopeptidomes|Nature Biotechnology
根据预测结果与实际的阴性和阳性结果的对比分析结果,绘制ROC曲线,结果如图3所示。图3中,“MHC II model”对应的曲线是本申请的MHC II型肿瘤新生抗原检测方法的ROC曲线,“MixMHC2pred”和“netMHCpan3.1”分别是另外两种MHC II型新生抗原预测方法的ROC曲线。
图3的结果显示,本申请基于二代测序数据检测MHC II型肿瘤新生抗原的方法在ROC曲线中得到最大的AUC值0.76,优于另外两种方法,表明本申请方法在预测II型新生抗原的呈递上的改善。
实施例2
按照以上基于二代测序数据检测MHC II型肿瘤新生抗原的方法,本例使用公开数据库中一个实际引起CD4T细胞阳性反应的数据作为测试数据,用于验证本申请的MHC II型肿瘤新生抗原检测方法在该数据集中的预测效果。
数据来源:
https://static-content.springer.com/esm/art%3A10.1038%2Fs41587-019-0289-6/MediaObjects/41587_2019_289_MOESM6_ESM.xlsx
验证方法:
本例分别使用本申请的基于二代测序数据检测MHC II型肿瘤新生抗原的方法,以及另外两种MHC II型新生抗原预测方法,对数据集中的肽段进行预测,并将预测结果,与实际的阴性和阳性结果进行对比分析,比较三种方法在此数据集中的MHC II型肿瘤新生抗原预测效果。另外两种MHC II型新生抗原预测方法与实施例1相同。
根据预测结果与实际的阴性和阳性结果的对比分析结果,绘制ROC曲线,结果如图4所示。图4中,“MHC II model”对应的曲线是本申请的MHC II型肿瘤新生抗原检测方法的ROC曲线,“MixMHC2pred”和“netMHCpan3.1”分别是另外两种MHC II型新生抗原预测方法的ROC曲线。
图4的结果显示,本申请基于二代测序数据检测MHC II型肿瘤新生抗原的方法在ROC曲线中得到最大的AUC值0.76,优于另外两种方法,表明本申请方法在筛选有免疫源性的II型新生抗原上具有优势。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (10)

1.一种基于二代测序数据检测MHC II型肿瘤新生抗原的方法,其特征在于:包括以下步骤,
肿瘤样本DNA数据获取和比对步骤,包括获取肿瘤样本的DNA测序数据,并将其比对到人全基因组参考序列,获得DNA比对文件;
肿瘤样本RNA数据获取和比对步骤,包括获取肿瘤样本的RNA测序数据,并将其比对到人全基因组参考序列,获得RNA比对文件;
肿瘤样本HLA分型鉴别步骤,包括根据所述DNA比对文件,分析鉴定肿瘤样本的HLA分型;
基因变异检测步骤,包括根据所述DNA比对文件,检测DNA数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变;
候选新生抗原突变肽翻译步骤,包括根据所述基因变异检测步骤的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集;
样本各基因的表达量值计算步骤,包括根据所述RNA比对文件分析肿瘤样本各基因的表达量值TPM;
MHC II型肿瘤新生抗原预测步骤,包括根据所述HLA分型和MHC II型肿瘤新生抗原预测模型,从所述候选肿瘤新生抗原集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHC II型肿瘤新生抗原;
所述MHC II型肿瘤新生抗原预测模型为采用基于蛋白质谱数据集的细胞表面蛋白质谱检测出的肽段序列数据集作为训练数据,训练获得的根据HLA分型预测MHC II型肿瘤新生抗原的模型;
所述蛋白质谱数据集含有分离MHC II型分子与多肽的复合物,将多肽从MHC分型上洗脱下来,再经由蛋白质谱测序获得肽段序列数据集。
2.根据权利要求1所述的方法,其特征在于:还包括MHC II型肿瘤新生抗原预测模型训练步骤,包括(1)获取蛋白质谱数据集,其含有分离MHC II型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的II型抗原数据集,作为训练数据;(2)使用编码氨基酸序列的BLOSUM50矩阵对新生抗原肽段进行编码转换成BLOSUM50 matrix,使用编码氨基酸序列的BLOSUM50矩阵对MHC分子进行编码转换成BLOSUM50 matrix,将编码好的两个矩阵分别输入LSTM模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型。
3.根据权利要求2所述的方法,其特征在于:所述MHC II型肿瘤新生抗原预测步骤中,采用MHC II型肿瘤新生抗原预测模型进行MHC II型肿瘤新生抗原预测,具体包括,(1)从人蛋白组数据集中随机截取长度为13-19长度的短肽,形成一个肽段数据集,使用所述MHC II型肿瘤新生抗原预测模型对肽段数据集中的短肽进行预测,得到一个预测值数据集;(2)一个MHC II型肿瘤新生抗原的预测结果值,用其在所述预测值数据集中处于前百分之多少来代表,即在所述预测值数据集中越靠前,则更有可能是高免疫源性的MHC II型肿瘤新生抗原;
优选的,将所述预测结果值小于5%判断为阳性,其对应的多肽即候选MHCII型肿瘤新生抗原,从中筛选表达量值TPM大于TPM阈值的氨基酸序列,即获得MHC II型肿瘤新生抗原。
4.根据权利要求1-3任一项所述的方法,其特征在于:所述TPM阈值为5。
5.一种基于二代测序数据检测MHC II型肿瘤新生抗原的装置,其特征在于:包括肿瘤样本DNA数据获取和比对模块、肿瘤样本RNA数据获取和比对模块、肿瘤样本HLA分型鉴别模块、基因变异检测模块、候选新生抗原突变肽翻译模块、样本各基因的表达量值计算模块、MHC II型肿瘤新生抗原预测模型训练模块、MHC II型肿瘤新生抗原预测模块;
所述肿瘤样本DNA数据获取和比对模块,包括用于获取肿瘤样本的DNA测序数据,并将其比对到人全基因组参考序列,获得DNA比对文件;
所述肿瘤样本RNA数据获取和比对模块,包括用于获取肿瘤样本的RNA测序数据,并将其比对到人全基因组参考序列,获得RNA比对文件;
所述肿瘤样本HLA分型鉴别模块,包括用于根据所述DNA比对文件,分析鉴定肿瘤样本的HLA分型;
所述基因变异检测模块,包括用于根据所述DNA比对文件,检测DNA数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变;
所述候选新生抗原突变肽翻译模块,包括用于根据所述基因变异检测模块的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集;
所述样本各基因的表达量值计算模块,包括用于根据所述RNA比对文件分析肿瘤样本各基因的表达量值TPM;
所述MHC II型肿瘤新生抗原预测模型训练模块,包括用于(1)获取蛋白质谱数据集,其含有分离MHC II型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的II型抗原数据集,作为训练数据;(2)使用编码氨基酸序列的BLOSUM50矩阵对新生抗原肽段进行编码转换成BLOSUM50matrix,使用编码氨基酸序列的BLOSUM50矩阵对MHC分子进行编码转换成BLOSUM50matrix,将编码好的两个矩阵分别输入LSTM模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得MHC II型肿瘤新生抗原预测模型;
所述MHC II型肿瘤新生抗原预测模块,包括用于根据所述HLA分型和所述MHC II型肿瘤新生抗原预测模型,从所述候选肿瘤新生抗原集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHC II型肿瘤新生抗原。
6.根据权利要求5所述的装置,其特征在于:所述MHC II型肿瘤新生抗原预测模块中,采用MHC II型肿瘤新生抗原预测模型进行MHC II型肿瘤新生抗原预测,具体包括,(1)从人蛋白组数据集中随机截取长度为13-19长度的短肽,形成一个肽段数据集,使用所述MHC II型肿瘤新生抗原预测模型对肽段数据集中的短肽进行预测,得到一个预测值数据集;(2)一个MHC II型肿瘤新生抗原的预测结果值,用其在所述预测值数据集中处于前百分之多少来代表,即在所述预测值数据集中越靠前,则更有可能是高免疫源性的MHC II型肿瘤新生抗原。
7.根据权利要求6所述的装置,其特征在于:将所述预测结果值小于5%判断为阳性,其对应的多肽即候选MHC II型肿瘤新生抗原,从中筛选表达量值TPM大于TPM阈值的氨基酸序列,即获得MHC II型肿瘤新生抗原。
8.根据权利要求5-7任一项所述的装置,其特征在于:所述TPM阈值为5。
9.一种基于二代测序数据检测MHC II型肿瘤新生抗原的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的基于二代测序数据检测MHC II型肿瘤新生抗原的方法。
10.一种计算机可读存储介质,其特征在于:所述存储介质中包括程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的基于二代测序数据检测MHC II型肿瘤新生抗原的方法。
CN202210592146.4A 2022-05-27 2022-05-27 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置 Active CN114882951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210592146.4A CN114882951B (zh) 2022-05-27 2022-05-27 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210592146.4A CN114882951B (zh) 2022-05-27 2022-05-27 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置

Publications (2)

Publication Number Publication Date
CN114882951A true CN114882951A (zh) 2022-08-09
CN114882951B CN114882951B (zh) 2022-12-27

Family

ID=82678557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210592146.4A Active CN114882951B (zh) 2022-05-27 2022-05-27 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置

Country Status (1)

Country Link
CN (1) CN114882951B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051097A1 (zh) * 2022-09-06 2024-03-14 深圳新合睿恩生物医疗科技有限公司 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108796055A (zh) * 2018-06-12 2018-11-13 深圳裕策生物科技有限公司 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质
CN110752041A (zh) * 2019-10-23 2020-02-04 深圳裕策生物科技有限公司 基于二代测序的新生抗原预测方法、装置和存储介质
US20200082906A1 (en) * 2016-12-01 2020-03-12 Nantomics, Llc Tumor antigenicity processing and presentation
CN111755067A (zh) * 2019-03-28 2020-10-09 格源致善(上海)生物科技有限公司 一种肿瘤新生抗原的筛选方法
CN113053458A (zh) * 2021-01-19 2021-06-29 深圳裕康医学检验实验室 一种肿瘤新生抗原负荷的预测方法及装置
CN114333999A (zh) * 2020-12-04 2022-04-12 上海朴岱生物科技合伙企业(有限合伙) 一种分子组学与计算结构联用的肿瘤新生抗原检测筛选方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082906A1 (en) * 2016-12-01 2020-03-12 Nantomics, Llc Tumor antigenicity processing and presentation
CN108796055A (zh) * 2018-06-12 2018-11-13 深圳裕策生物科技有限公司 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质
CN111755067A (zh) * 2019-03-28 2020-10-09 格源致善(上海)生物科技有限公司 一种肿瘤新生抗原的筛选方法
CN110752041A (zh) * 2019-10-23 2020-02-04 深圳裕策生物科技有限公司 基于二代测序的新生抗原预测方法、装置和存储介质
CN114333999A (zh) * 2020-12-04 2022-04-12 上海朴岱生物科技合伙企业(有限合伙) 一种分子组学与计算结构联用的肿瘤新生抗原检测筛选方法及系统
CN113053458A (zh) * 2021-01-19 2021-06-29 深圳裕康医学检验实验室 一种肿瘤新生抗原负荷的预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴静成: "基于深度学习的肿瘤新生抗原预测方法研究", 《中国优秀博硕士学位论文全文数据库(博士)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051097A1 (zh) * 2022-09-06 2024-03-14 深圳新合睿恩生物医疗科技有限公司 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质

Also Published As

Publication number Publication date
CN114882951B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
US20200243164A1 (en) Systems and methods for patient-specific identification of neoantigens by de novo peptide sequencing for personalized immunotherapy
CN113160887B (zh) 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法
US11725237B2 (en) Polymorphic gene typing and somatic change detection using sequencing data
CN110600077B (zh) 肿瘤新抗原的预测方法及其应用
JP2018524008A (ja) ネオアンチゲン分析
CN110752041B (zh) 基于二代测序的新生抗原预测方法、装置和存储介质
KR102159921B1 (ko) 펩타이드 서열 및 hla 대립유전자 서열을 이용하여 신생항원을 예측하는 방법 및 컴퓨터 프로그램
CN111415707B (zh) 临床个体化肿瘤新抗原的预测方法
CN114446389B (zh) 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用
CN115747327A (zh) 涉及移码突变的新抗原预测方法
CN114882951B (zh) 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置
WO2018232580A1 (zh) 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置
KR102406699B1 (ko) 인공지능모델기반 분자동역학 빅데이터를 활용한 신생항원 면역치료정보 제공 시스템 및 방법
Morazán-Fernández et al. In silico pipeline to identify tumor-specific antigens for cancer immunotherapy using exome sequencing data
US10424395B2 (en) Computation pipeline of single-pass multiple variant calls
Jurtz et al. Computational methods for identification of T cell neoepitopes in tumors
EP3901954A1 (en) Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
US20230178174A1 (en) Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
Basharat et al. Cancer Immunomics in the age of information: role in diagnostics and beyond
CN114464256A (zh) 用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质
CN111599410B (zh) 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用
CN112071364A (zh) 用于肝癌患者抗肿瘤免疫应答的个体化的可视化展示方法
Qiao Peptide sequencing with deep learning
CN115612743B (zh) Hpv整合基因组合及其在预测宫颈癌复发和转移中的用途
Mangalea et al. Assembly and Annotation of Viral Metagenomes from Short-Read Sequencing Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant